亚洲欧美色一区二区三区,日韩欧美国产v一区二区三区,精品久久久久久综合日本,jap,免费观看片,2020每日更新国产精品视频

思杰拓才匯云

2年上百億,中國大模型,闖入一個“掃地僧”

2年上百億,中國大模型,闖入一個“掃地僧”

 

自從2022年11月30日那場名為“ChatGPT”的颶風(fēng)席卷以來,近2年時間內(nèi),我們看到了一場人工智能時代的“淘金熱”。

 

重金押注的大廠、盆滿缽滿的上游、躍躍欲試的初創(chuàng)……

 

“誰會成為中國的OpenAI”?

 

今天,我們圍繞第二名講一個故事。

 

 

一、最接近OpenAI

 

“未來世界第二的大模型公司應(yīng)該是一家中國企業(yè)。”

 

爭第二,這不是一個富有吸引力的故事該有的開頭,卻意外引人思考,也是閆俊杰說話的一貫風(fēng)格——客觀、直白、坦誠到出人意料。

 

類似的表達還有很多:

 

“做大模型,快就是好,好就是快。”

 

“在探索前沿技術(shù)的道路上,最好的公司實際上是殊途同歸的。”

 

“實事求是地講,跟國外先進公司比起來,國內(nèi)現(xiàn)階段所做的都是彌補差距。”

 

ChatGPT發(fā)布以來的不到兩年里,中國的大模型創(chuàng)業(yè)圈熱鬧到甚至有些喧囂,與此形成鮮明對比的,是很長一段時間里“沉默”的閆俊杰。

 

當(dāng)ChatGPT還沒發(fā)布,其它中國公司都還沒出來,前東家眼看要上市,閆俊杰卻跳出來要做通用人工智能的時候,他是沉默的;

 

當(dāng)2023年下半年,投注公司80%可用資源去“死磕”MoE(混合專家系統(tǒng))模型卻連續(xù)失敗兩次,被業(yè)內(nèi)審視的時候,他是沉默的;

 

當(dāng)公司MiniMax旗下的星野、Talkie等自有產(chǎn)品月活數(shù)千萬,在中國甚至海外市場遙遙領(lǐng)先,公司估值上百億時,他依然是沉默的。

 

 

有了解MiniMax的人曾經(jīng)形容,閆俊杰就像是“掃地僧”,不顯山不露水,但手上都是真功夫。

 

 

也正因此,當(dāng)這樣一個人開始逐漸出現(xiàn)在公眾視野中的時候,難免被問及是發(fā)生了怎樣的心態(tài)轉(zhuǎn)變。

 

閆俊杰仍然思路清晰:“為了高效地吸引人才”,隨后又提到,“最近在辦一場活動,也讓合作伙伴和用戶更加了解我們在做的事情。”

 

這場活動指的是昨天剛剛結(jié)束的MiniMax Link伙伴日,任何一位對AI有所關(guān)心的人都會意識到,閆俊杰所說的溝通有多么必要。

 

即便當(dāng)前每天有數(shù)百萬的年輕人在“星野”與各種智能體對話,每輪平均對話時長達到了驚人的100分鐘,即便MiniMax每天與世界發(fā)生30億次交互,是中國最接近OpenAI的公司,即便其開放平臺目前已服務(wù)超 30000家企業(yè)用戶和開發(fā)者,自有產(chǎn)品累計用戶超過6000萬,看完這場大會,我們?nèi)詴X得對MiniMax缺乏了一些想象力。

 

舉個簡單的例子,30億次交互什么概念?

 

這意味著MiniMax的模型每天要處理超過3萬億的文本Token,相當(dāng)于3000個人一輩子處理的文本量,更不用說這其中還包括每天生成2000萬張圖、7萬小時的語音。

 

這個數(shù)據(jù)處理量放在國內(nèi),大概率是所有的頭部公司里最高甚至可以說是斷層高的,對比近期其他兩家大廠最近披露的5千到1萬億Token處理量,多出2-3倍的MiniMax可謂遙遙領(lǐng)先。

 

這不禁讓我們想起2023年的那個春節(jié),ChatGPT“新鮮出爐”,通用人工智能(AGI)概念大熱,一眾創(chuàng)業(yè)者摩拳擦掌,全中國的風(fēng)險投資機構(gòu)都在滿世界尋找“誰是中國的ChatGPT”時,卻發(fā)現(xiàn)MiniMax和它的Glow就已經(jīng)在那兒了。

 

一位OpenAI的工程師曾說,他判斷一位人工智能創(chuàng)業(yè)者到底有沒有真正的AGI信仰,就看這個人是在ChatGPT發(fā)布之前創(chuàng)業(yè)還是在這之后。

 

MiniMax在ChatGPT出來之前成立,而大部分公司在這之后,這本身就是核心的區(qū)別。

 

只不過,隨著ChatGPT的發(fā)布帶來“世界線收束”,閆俊杰終于不再需要跟每個人解釋他的理想了——

 

Intelligence with everyone,用最好的技術(shù)服務(wù)每一個人。

 

 

 

二、有一天,“AI不再是AI”

 

閆俊杰對通用人工智能的信仰從何而來?

 

這是一個復(fù)雜的命題,但跟他本人聊完,答案又出乎意料的簡單。

 

回顧閆俊杰的履歷,先是在中科院和清華大學(xué)研究計算機視覺,又從實習(xí)生一路做到商湯副總裁、研究院副院長和智慧城市事業(yè)群CTO,接著自己創(chuàng)業(yè)。

 

做學(xué)術(shù)的時候論文在Google Scholar上有接近3萬次引用,做企業(yè)如今估值也已經(jīng)上百億(25億美元)他好像總能勝任各種職能。

 

但在他自己看來,這是“被迫”的:

 

“過去我能做很多工作,可能跟我的成長經(jīng)歷有關(guān),我出生在河南一個小縣城,很多東西周圍沒有人教,只能靠自己,這就形成了自己領(lǐng)悟事情的能力。我也不想這樣,我是被迫變成這樣。”

 

也正因如此,一旦想清楚自己要做什么,即便沒做過,閆俊杰也能快速找到一些底層邏輯。

 

對通用人工智能的信仰也是如此。

 

事實上,閆俊杰曾提到:“我有好幾次都是想去當(dāng)老師的。博士畢業(yè)后就拿了教職準(zhǔn)備去當(dāng)老師,甚至前幾年剛從商湯離開的時候本來也準(zhǔn)備去當(dāng)老師的。”

 

當(dāng)然,這些最終都沒有發(fā)生。

 

因為閆俊杰意識到:“不能再把人工智能單純看成科學(xué)了,它更是一個技術(shù),而且不是在遙遠的未來,就在很近的地方。”

 

當(dāng)這種感覺一直在腦海中盤旋,并且越來越強烈,引爆,只需要一個觸點。

 

“有一天,我外公告訴我他想寫一本書,講自己幾十年的經(jīng)歷。但他沒有辦法,因為這需要非常好的語言組織能力,還至少要會打字。

 

那個時候,我認為只有人工智能可以幫他實現(xiàn)這件事。”

 

 

圖注:小時候的閆俊杰和外公

 

可是,當(dāng)時的人工智能技術(shù)非常依賴根據(jù)特殊的需求來定制模型,只能解決特定的問題,比如人臉識別,語音識別等。

 

如果一個有價值的技術(shù)只能發(fā)揮局限的價值,那一定是方法不對,或者說路線不對。

 

閆俊杰開始意識到,想解決這個問題,唯一辦法就是把人工智能變得更加通用,變成普通人生活中的一部分。

 

“當(dāng)時整個人工智能行業(yè)遇到困境,我一直在思考什么樣的技術(shù)進步可以給社會帶來足夠高的反饋,想到了電動車、移動互聯(lián)網(wǎng),結(jié)論幾乎只有一個——要做出足夠產(chǎn)品化、能服務(wù)大眾的人工智能技術(shù)和產(chǎn)品,而不是服務(wù)少數(shù)大客戶的項目。”

 

從做人工智能轉(zhuǎn)向做通用人工智能,閆俊杰決定入局。

 

至此,MiniMax成為國內(nèi)第一個說AI to C的公司,彼時,大模型這個詞甚至還沒有風(fēng)靡,用簡化的語言描述可交互的智能體,他們一度被當(dāng)成是在做數(shù)字人。

 

現(xiàn)在,越來越多人開始暢想通用人工智能真正實現(xiàn)的那一天,閆俊杰對這幅圖景也有一個自己的定義——

 

“就像我們今天談到抖音,你不會覺得它是一個基于推薦系統(tǒng)的內(nèi)容分發(fā)軟件,你只會覺得抖音就是抖音。

 

什么時候大家認為AI不是AI,那一天大概就到來了。”

 

 

三、“這是唯一的路,做不出來就完了”

 

今年1月,MiniMax推出了自己的abab6.5模型,是國內(nèi)第一個推出MoE(混合專家系統(tǒng))架構(gòu)大模型的。

 

形容“死磕”MoE模型,堅持做底層研發(fā)的那6個月,閆俊杰提到了“痛苦”兩個字。

 

很多人會問他:為什么?有必要嗎?值得嗎?

 

畢竟在過去一年里,同行大多在迭代Dense(稠密)模型,這種模型參數(shù)固定,在推理過程中不需要進行復(fù)雜的路由選擇或?qū)<壹せ畈僮?,有助于提高計算效率,況且結(jié)構(gòu)相對簡單,易于實現(xiàn)和部署,開發(fā)者能輕松地將其應(yīng)用到項目中。

 

但它也有一個對國內(nèi)企業(yè)而言致命的缺點——資源消耗大。

 

隨著模型規(guī)模的增大,Dense模型所需的計算資源和存儲資源也會顯著增加。

 

換句話說,在國內(nèi)缺算力的大環(huán)境下,基于Dense不可能做出一個萬億模型,相當(dāng)于直接把自己的天花板封死了。

 

但MoE模型不同,同樣的智能水平,MoE模型可以用更少的計算量和內(nèi)存需求來實現(xiàn)。這得益于MoE模型在應(yīng)用中并非要完全激活所有專家網(wǎng)絡(luò),而只需要激活部分專家網(wǎng)絡(luò)就可以解決相關(guān)問題,很好避免了Dense模型會出現(xiàn)的“殺雞用牛刀”的尷尬局面。

 

因此,拿出全公司80%的可用資源,耗時6個月,哪怕失敗兩次也絕對不能放棄,這不是閆俊杰在豪賭,而是他心里清楚:

 

“我們不是有兩條路可以選擇,而是說為了實現(xiàn)目標(biāo),這是唯一的一條路,做不出來就完了。”

 

當(dāng)被問及中途失敗兩次的時候慌沒慌過,閆俊杰也并不避諱,說不傷心不緊張那都是假的。

 

“模型訓(xùn)了半個月,發(fā)現(xiàn)一些指標(biāo)離前期估測的越來越遠。這就像你發(fā)了一個火箭,本來以為它可以到三萬米,但它偏航了。

 

你開始想哪個地方錯了,把問題解完之后,發(fā)現(xiàn)還沒有回到一個好的狀態(tài),又失敗了。”

 

每一次燒的都是錢,比錢更重要,還有時間。

 

但最終,隨著模型成功研發(fā)出來,閆俊杰神奇地發(fā)現(xiàn),過程中的挑戰(zhàn)其實并不是MoE模型本身帶來的,而是在實際操作中團隊對于實驗方法、網(wǎng)絡(luò)、數(shù)據(jù)結(jié)構(gòu)的探索存在不足。

 

伴隨abab6.5的誕生,一個經(jīng)過淬煉的團隊也隨之形成,閆俊杰明顯感覺到整個研發(fā)部門經(jīng)此一役后更高效、更科學(xué),甚至士氣都得到了很大的提振,面對技術(shù)攻關(guān)充滿信心。

 

在MiniMax的企業(yè)文化里,有一條叫做不走捷徑,聽起來簡單樸實,但這其實在對抗人性。

 

閆俊杰自己就說:“哪怕去年我們都還在討論要不要走私有化,模型做出來了一賣,快錢就到手了,但這很明顯是不持續(xù)的,也沒有給客戶創(chuàng)造真正的價值。”

 

如今,更多國內(nèi)大模型創(chuàng)業(yè)公司開始投注資源研發(fā)MoE模型,當(dāng)這成為了一個新的行業(yè)共識的時候,MiniMax已經(jīng)在做更進一步的探索了。就在昨天,MiniMax宣布,他們探索出了更難更好的Linear Attention與MOE相結(jié)合架構(gòu),這將使MiniMax的模型效率大幅提高。其實LinearAttention架構(gòu)作為打開無限長度輸入跟無線長度輸出的一個關(guān)鍵的鑰匙,早在2019年就被提出了,只是一直沒有人做出來。

 

這個架構(gòu)好到什么程度?它讓MiniMax的abab7.0模型利用國內(nèi)有限的算力,達到了一個真正可以比肩GPT4o的效果。

 

 

當(dāng)然,MiniMax的努力遠不止于此。

 

類比人,文字交互只是很小的一部分,多模態(tài)的內(nèi)容,比如聲音,圖文和視頻,才是信息傳遞的主流。

 

就在昨天的伙伴日上,MiniMax推出了它的第一個視頻模型,并使用一個全面的“視頻生成模型的評測框架”V-Bench進行了評測。

 

結(jié)果顯示,這應(yīng)該是全球目前大家能用到的最好的生成模型。

 

不走捷徑地連‍續(xù)技術(shù)突破,讓MiniMax在創(chuàng)新上一次又一次引領(lǐng)。

 

 

四、從Glow到今天,MiniMax不僅僅是賣技術(shù)的

 

說起AI在國內(nèi)的熱潮,這并不是第一次。

 

實際上,這兩年熱鬧的大模型創(chuàng)業(yè)潮,被業(yè)內(nèi)稱為“AI 2.0”。

 

與之對應(yīng)的“AI 1.0”,指的是2015年左右開始的那一波AI創(chuàng)業(yè)潮,當(dāng)時誕生了商湯、曠視、云從、依圖等明星創(chuàng)業(yè)公司,它們以CV技術(shù)(計算機視覺)為主導(dǎo),大量融資,風(fēng)頭無兩。這四家公司,是公認的“AI四小龍”。

 

“AI四小龍”當(dāng)年也從投資人手中拿了很多錢,但最后卻沒有從市場上賺到多少錢。

 

這不是因為它們技術(shù)不好,而是商業(yè)化很難,客戶主要是B端企業(yè)和G端政府,通過提供人臉識別等AI解決方案來賺錢。

 

這顯然不是一個好的商業(yè)模式,項目非標(biāo)準(zhǔn)化、落地周期長、成本高,導(dǎo)致后來一提到“AI四小龍”,人們總是會想到虧損、燒錢等標(biāo)簽。

 

如今的大模型創(chuàng)業(yè)公司,同樣要面對來自商業(yè)化的拷問。

 

這一點,閆俊杰也想得很實際,那就是一定要在技術(shù)快速進化的窗口關(guān)閉前,做出用戶量巨大的2C產(chǎn)品。

 

“如果沒有產(chǎn)品承接,即使你有一個技術(shù)進展,它最終也不是你的。”

 

說白了,一味地秀肌肉作用不大,能用它搬起磚、蓋起樓、讓用戶住進去才是正道。

 

閆俊杰說到做到。

 

如今,MiniMax是中國大模型創(chuàng)業(yè)公司中做產(chǎn)品最早、最多,投入也最大的一家:

MiniMax如今300-400人,其中一半以上是技術(shù)團隊,另有40%負責(zé)產(chǎn)品。他們的第一款產(chǎn)品Glow上線于2022年10月,之后又陸續(xù)推出了星野、海螺AI等至少4個產(chǎn)品,既有AI內(nèi)容社區(qū)應(yīng)用,也有問答等生產(chǎn)力應(yīng)用,多個應(yīng)用的日活用戶已突破100萬,每天與世界交互30億次。

 

對于大模型創(chuàng)業(yè)公司,李彥宏有個經(jīng)典的觀點,他認為“雙輪驅(qū)動”,即同時做模型和應(yīng)用不是個好模式,很多人也拿這句話來考驗過閆俊杰。

 

他實事求是:“一開始創(chuàng)業(yè)其實沒資格想這些事,因為你既沒有技術(shù)又沒有產(chǎn)品也沒有用戶。前六七個月只是把最原始的模型做出來,才有了后面的產(chǎn)品。”

 

但是產(chǎn)品要不要做?

 

必須做。

 

這就不得不提到MiniMax的另一條企業(yè)文化:User-in-the-loop,與用戶共創(chuàng)。

 

閆俊杰很清醒:“我一直不認為AGI會像一個原子彈、一個大殺器,它就是普通人每天會用的一個產(chǎn)品、一個服務(wù)——這也是我們最堅持的。

 

這也就意味著AGI也不應(yīng)該是一家公司自己做出來,它要靠這家公司和它的用戶一起做出來。”

 

實際上也不難理解,當(dāng)MiniMax的愿景是讓好的技術(shù)服務(wù)每一個人的時候,不去研發(fā)產(chǎn)品,不去接受一手的用戶反饋,似乎才是荒謬的。

 

只是,好的產(chǎn)品,好的用戶體驗究竟從何而來?

 

移動互聯(lián)網(wǎng)時代流行過一個口號,叫做“人人都是產(chǎn)品經(jīng)理”,產(chǎn)品的設(shè)計和用戶的需求推到至高無上的地位,大模型時代會繼承這一點嗎?

 

MiniMax也曾糾結(jié)過,產(chǎn)品和技術(shù)同時做,都重要,但哪個才是核心?

 

最終,閆俊杰在公司成立一年多時將新的四個字加入企業(yè)文化——技術(shù)驅(qū)動。

 

至此,塵埃落定。

 

背后緣由,也來自一次慘痛經(jīng)歷。

 

2022年底,MiniMax團隊幾乎全員感染新冠,結(jié)果最后一次發(fā)版里出現(xiàn)了一個bug,把用戶的對話體驗拉低了15%左右。

 

僅元旦三天,產(chǎn)品的日活躍用戶直接掉了40%,大家焦頭爛額,終于在放假最后一天找到了那個bug,非常小的一行算法,改好之后用戶量很快就回來了。

 

這個事讓閆俊杰意識到,現(xiàn)階段產(chǎn)品價值的來源,核心還是模型性能和算法能力,不然設(shè)計再多產(chǎn)品特性,提升都是有限的。

 

而在本次伙伴日大會上,MiniMax基于MOE+Linear Attention的abab7模型家族的預(yù)熱發(fā)布,更是讓他們對于技術(shù)驅(qū)動的堅持再次得證。

 

行勝于言。

 

 

 

圖注:MiniMax成立第一天寫下的初心和藍圖

 

 

五、結(jié)語

 

如果我們來總結(jié)MiniMax的發(fā)展之路,這無疑是一場田忌賽馬的勝利。

 

“在整體資源劣勢的情況下,創(chuàng)造出局部的優(yōu)勢,進而有機會獲得整個戰(zhàn)役的勝利。由此,平凡人可以成就非凡事。”

 

在移動互聯(lián)網(wǎng)爆發(fā)初期,人們熱衷于談?wù)撃切┨觳诺漠a(chǎn)品設(shè)計(比如微信)和它背后的美學(xué)甚至哲學(xué)理念。

 

但到了大模型人工智能階段,產(chǎn)品設(shè)計的邏輯變了——

 

在由技術(shù)驅(qū)動的底層之上,用戶開始在內(nèi)容上深度共創(chuàng),他們的使用同時反哺著產(chǎn)品本身進化。

 

率先領(lǐng)悟的,率先成長。

 

我們都在遙望通用人工智能的曙光,MiniMax已經(jīng)踏入河流。

 

 

本文轉(zhuǎn)自于   正和島標(biāo)準(zhǔn)

以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“才匯云網(wǎng)”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
0條評論
評論