亚洲欧美色一区二区三区,日韩欧美国产v一区二区三区,精品久久久久久综合日本,jap,免费观看片,2020每日更新国产精品视频

思杰拓才匯云

?斯坦福抄襲中國大模型

斯坦福抄襲中國大模型

 

近日,斯坦福大學(xué)AI團(tuán)隊(duì)疑似抄襲中國大模型創(chuàng)業(yè)公司的消息引發(fā)業(yè)內(nèi)高度關(guān)注。

6月3日,面壁智能CEO李大海與聯(lián)合創(chuàng)始人劉知遠(yuǎn)先后發(fā)文,回應(yīng)開源模型被斯坦福大學(xué)AI團(tuán)隊(duì)抄襲一事。李大海表示:“我們對(duì)這件事深表遺憾。一方面感慨這也是一種受到國際團(tuán)隊(duì)認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境。”“我們希望團(tuán)隊(duì)的好工作被更多人關(guān)注與認(rèn)可,但不是以這種方式。”

5月29日,一個(gè)來自斯坦福的AI團(tuán)隊(duì)開始在網(wǎng)絡(luò)上宣傳500美元就能訓(xùn)練出一個(gè)SOTA 多模態(tài)模型,該模型名為Llama3-V,作者聲稱Llama3-V比GPT-4V、Gemini Ultra、Claude Opus 性能更強(qiáng)。公開資料顯示,團(tuán)隊(duì)兩位成員是來自斯坦福大學(xué)的本科生,曾發(fā)表多篇機(jī)器學(xué)習(xí)領(lǐng)域論文,實(shí)習(xí)經(jīng)歷包括了AWS、SpaceX等。

由于該團(tuán)隊(duì)成員擁有斯坦福、特斯拉等亮眼背景,Llama3-V項(xiàng)目很快沖到HuggingFace (一個(gè)開發(fā)者社區(qū)和平臺(tái))首頁,并引發(fā)開發(fā)者群體的關(guān)注。

一位用戶在社交平臺(tái)X 與 HuggingFace 上質(zhì)疑 llama-3V 是否套殼MiniCPM-Llama3-V 2.5 ,后者為面壁智能推出的開源端側(cè)多模態(tài)模型,于 2024 年 5 月 21 日發(fā)布。

Llama-3V 團(tuán)隊(duì)彼時(shí)回應(yīng),他們只是使用了 MiniCPM-Llama3-V 2.5 的tokenizer(分詞器,自然語言處理中的一個(gè)重要組成部分),并在 MiniCPM-Llama3-V 2.5 發(fā)布前就開始了這項(xiàng)工作。但團(tuán)隊(duì)并未解釋如何做到在MiniCPM-Llama3-V 2.5發(fā)布之前就獲取詳細(xì)tokenizer的具體方式。

但隨后,關(guān)于上述AI團(tuán)隊(duì)抄襲的聲音越來越多。比如,Llama3-V的模型結(jié)構(gòu)和配置文件與MiniCPM-Llama3-V 2.5完全相同,只是進(jìn)行了一些重新格式化并將部分變量重新命名,如圖像切片、分詞器、重采樣器、數(shù)據(jù)加載等變量。Llama3-V也具有與MiniCPM-Llama3V 2.5相同的分詞器,包括MiniCPM-Llama3-V 2.5新定義的特殊符號(hào)。

據(jù)HuggingFace 頁面顯示,最初Llama3-V的作者在上傳代碼時(shí)直接導(dǎo)入了 MiniCPM-V 的代碼,然后將名稱更改為 Llama3-V。但作為其中一個(gè)作者,Mustafa Aljadery(穆斯塔法·阿爾賈德里)并不認(rèn)為該行為屬于抄襲。他發(fā)文稱,llama3-v推理存在bug,并不是抄襲。“我已經(jīng)指出了架構(gòu)是相似的,但MiniCPM的架構(gòu)來自Idéfics,我們遵循Idéfics論文中的那些內(nèi)容。架構(gòu)是基于綜合研究的,你怎么能說它是MiniCPM呢?MiniCPM代碼的視覺部分看起來也是從Idéfics那里使用的。”

在李大海看來,另一證據(jù)在于Llama3-V同樣使用了面壁智能團(tuán)隊(duì)新設(shè)置的清華簡識(shí)別能力(清華大學(xué)于2008年7月收藏的一批戰(zhàn)國竹簡),且呈現(xiàn)的做錯(cuò)案例都與MiniCPM一模一樣,而這一訓(xùn)練數(shù)據(jù)尚未完全公開。李大海稱,這項(xiàng)工作是團(tuán)隊(duì)同學(xué)耗時(shí)數(shù)個(gè)月,從卷帙浩繁的清華簡中一個(gè)字一個(gè)字掃描下來,并逐一進(jìn)行數(shù)據(jù)標(biāo)注,融合進(jìn)模型中的。更加微妙的是,兩個(gè)模型在高斯擾動(dòng)驗(yàn)證(一種用于驗(yàn)證模型相似性的方法)后,在正確和錯(cuò)誤表現(xiàn)方面都高度相似。

目前,上述斯坦福AI團(tuán)隊(duì)已對(duì)HuggingFace 上的Llama3-V模型進(jìn)行隱藏處理,作者解釋該動(dòng)作時(shí)表示:“我是為了修復(fù)模型的推理問題而將其隱藏,因?yàn)槟P捅仨氂刑囟ǖ呐渲眠\(yùn)行。”

“非常抱歉,我刪除了它們,因?yàn)橥评泶a還沒有準(zhǔn)備好,每個(gè)人都有運(yùn)行錯(cuò)誤。我覺得人們現(xiàn)在最好不要用。你必須有特殊的配置。我一修好就把它放回去。”上述團(tuán)隊(duì)回應(yīng)。

記者向作者團(tuán)隊(duì)之一的Siddharth Sharma發(fā)送郵件,詢問刪庫動(dòng)作的具體原因,以及后續(xù)在滿足什么條件后會(huì)進(jìn)行大模型的恢復(fù)。截至發(fā)稿前,暫未得到回應(yīng)。

劉知遠(yuǎn)對(duì)此事評(píng)論稱,人工智能的飛速發(fā)展離不開全球算法、數(shù)據(jù)與模型的開源共享,讓人們始終可以站在SOTA的肩上持續(xù)前進(jìn)。面壁開源的 MiniCPM-Llama3-V 2.5 就用了最新的Llama3 作為語言模型基座。而開源共享的基石是對(duì)開源協(xié)議的遵守,對(duì)其他貢獻(xiàn)者的信任,對(duì)前人成果的尊重和致敬,Llama3-V團(tuán)隊(duì)無疑嚴(yán)重破壞了這一點(diǎn)。他們?cè)谑艿劫|(zhì)疑后已在Huggingface刪庫,該團(tuán)隊(duì)三人中的兩位也只是斯坦福大學(xué)本科生,未來還有很長的路,如果知錯(cuò)能改,善莫大焉。

劉知遠(yuǎn)表示,國內(nèi)大模型團(tuán)隊(duì)如智譜-清華GLM、阿里Qwen、DeepSeek和面壁-清華OpenBMB正在通過持續(xù)的開源共享,在國際上受到了廣泛的關(guān)注和認(rèn)可,“這次事件也算側(cè)面反映出,我們的創(chuàng)新成果也一直受到國際關(guān)注。”劉知遠(yuǎn)說。

 

本文轉(zhuǎn)自于 第一財(cái)經(jīng)

以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“才匯云網(wǎng)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
0條評(píng)論
評(píng)論