亚洲欧美色一区二区三区,日韩欧美国产v一区二区三区,精品久久久久久综合日本,jap,免费观看片,2020每日更新国产精品视频

思杰拓才匯云

Sora橫空出世,會(huì)顛覆哪些行業(yè)

Sora橫空出世,會(huì)顛覆哪些行業(yè)

 

多模態(tài)模型的應(yīng)用在2024將迎來黎明,影響影視、直播、媒體、廣告、動(dòng)漫、藝術(shù)設(shè)計(jì)等數(shù)個(gè)行業(yè)

       2月16日,OpenAI發(fā)布視頻生成模型Sora,極大拓展AI在視頻內(nèi)容生成方面能力。Sora在關(guān)鍵指標(biāo)上大幅領(lǐng)先之前的一些視頻生成類模型,用它生成視頻,會(huì)發(fā)現(xiàn)其對(duì)物理世界的空間模擬能力甚至達(dá)到了逼近真實(shí)的水平。

  Sora為什么可以堪稱是AI界的新里程碑?它是如何突破AIGC即AI內(nèi)容創(chuàng)作上限的?客觀來看,當(dāng)前版本的Sora還有沒有什么局限性和不足?

  Sora等視頻生成類模型,未來更新迭代的方向是什么?它的出現(xiàn)會(huì)顛覆哪些行業(yè)?對(duì)我們每個(gè)人產(chǎn)生何種影響?它的背后又有什么新產(chǎn)業(yè)機(jī)遇?

Sora是怎么實(shí)現(xiàn)的?為什么是AI界的新里程碑?

  Sora之所以是AI里程碑,是因?yàn)樗僖淮瓮黄屏薃IGC用AI驅(qū)動(dòng)內(nèi)容創(chuàng)作的上限。此前大家已經(jīng)開始使用Chatgpt等文本類輔助內(nèi)容創(chuàng)作,輔助插圖和畫面生成,用虛擬人做短視頻。而Sora是視頻生成類大模型,通過輸入文本或圖片可生成、連接、擴(kuò)展等多種方式編輯視頻,屬于多模態(tài)大模型范疇,該類模型是在GPT這類語言類大模型上進(jìn)一步延伸、拓展。Sora通過一種類似于GPT-4對(duì)文本令牌進(jìn)行操作的方式來處理視頻“補(bǔ)丁”。該模型的關(guān)鍵創(chuàng)新在于將視頻幀視為補(bǔ)丁序列,類似于語言模型中的單詞令牌,使其能夠有效地管理各種視頻。這種方法與文本條件生成相結(jié)合,使Sora能夠根據(jù)文本提示生成上下文相關(guān)且視覺上連貫的視頻。

  具體原理上,Sora主要通過三個(gè)步驟實(shí)現(xiàn)視頻訓(xùn)練。首先是視頻壓縮網(wǎng)絡(luò),將視頻或圖片降維成一個(gè)緊湊、高效的形式。其次是時(shí)空補(bǔ)丁提取,將視圖信息分解成一個(gè)個(gè)更小的單元,每個(gè)單元都含有視圖中一部分的空間和時(shí)間信息,便于Sora在之后的步驟中能進(jìn)行針對(duì)性處理。最后是視頻生成,輸入文本或圖片進(jìn)行解碼加碼,由Transformer模型(即ChatGPT基礎(chǔ)轉(zhuǎn)換器)決定如何將這些單元轉(zhuǎn)換或組合,從而將文本和圖片提示中的內(nèi)容形成完整的視頻。

  Sora在視頻生成模型最關(guān)鍵的兩項(xiàng)指標(biāo)——時(shí)長和分辨率上大幅超越先前模型,并且具備較強(qiáng)的文本理解深度和細(xì)節(jié)生成能力,可以說是AI界的又一里程碑級(jí)的產(chǎn)品。Sora發(fā)布前,主要模型如Pika1.0、Emu Video、Gen-2可生成時(shí)長分別為3~7秒、4秒、4~16秒;而Sora可生成時(shí)長高達(dá)60秒,能實(shí)現(xiàn)1080p分辨率,且Sora不僅能基于文本提示生成視頻,也具備視頻編輯和擴(kuò)展能力。Sora對(duì)文本的深度理解也較強(qiáng)。在大量文本解析的訓(xùn)練下,Sora可以準(zhǔn)確捕捉、理解文本指令背后的情感用意,并流暢、自然地將文本提示轉(zhuǎn)變?yōu)榧?xì)節(jié)豐富、場景匹配的視頻內(nèi)容。

  Sora在視頻生成中可以較好地模擬一個(gè)虛擬世界的物理規(guī)律,更好的理解物理世界,從而產(chǎn)生真實(shí)的鏡頭感。其技術(shù)特點(diǎn)主要有二:

  一是能多鏡頭生成連貫的三維空間運(yùn)動(dòng)視頻。

  二是能保持同一物體在不同視角鏡頭下的一致性。以此,模型能保持視頻中人物、物體、場景的運(yùn)動(dòng)連貫性和持續(xù)性,并可以通過微調(diào)對(duì)世界中的元素產(chǎn)生影響,進(jìn)行簡單互動(dòng)。對(duì)比此前的Pika等模型,Sora生成視頻還可以對(duì)視頻色彩風(fēng)格等要素精確理解,創(chuàng)造出人物表情豐富、情感生動(dòng)的視頻內(nèi)容。且注重主體和背景的關(guān)系,使視頻主體與背景的互動(dòng)高度流暢、穩(wěn)定,分鏡切換符合邏輯。

  在官方給出的一則生成視頻的例證中:“一位時(shí)尚女性走在東京的街道上,街道上到處都是暖色調(diào)的霓虹燈和動(dòng)畫城市標(biāo)志。她身穿黑色皮夾克、紅色長裙和黑色靴子,手拿黑色皮包。她戴著太陽鏡,涂著紅色唇膏。她走起路來自信而隨意。街道潮濕而反光,與五顏六色的燈光形成鏡面效果。許多行人走來走去”,Sora做到了完全細(xì)致細(xì)節(jié)的描述,甚至到皮膚細(xì)節(jié)描繪,且對(duì)于光影反射運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理都具備真實(shí)感。

Sora處于什么水平?還有哪些局限?

  Sora相當(dāng)于語言類模型的ChatGPT3.5,是業(yè)內(nèi)重大突破,處于非常領(lǐng)先水平,但還是有其本身的局限性。

  Sora和ChatGPT同源與Transformer架構(gòu),前者在架構(gòu)基礎(chǔ)上搭建了擴(kuò)散模型,在展示深度、物體永久性和自然動(dòng)力學(xué)方面十分出色。之前的真實(shí)世界模擬通常是用GPU驅(qū)動(dòng)的游戲引擎來進(jìn)行三維物理建模來運(yùn)行,需要人為搭建且過程復(fù)雜,精準(zhǔn)度也高,能實(shí)現(xiàn)高標(biāo)準(zhǔn)的環(huán)境模擬和各種交互動(dòng)作。但Sora模型沒有數(shù)據(jù)驅(qū)動(dòng)的物理引擎和圖形編程,在更高要求的三維搭建中準(zhǔn)確度低。因此,實(shí)現(xiàn)多個(gè)角色自然交互并與環(huán)境進(jìn)行逼真的模擬仍然很困難。

  例如,舉兩個(gè)Sora生成視頻出現(xiàn)bug的例子:

  當(dāng)Sora輸入的文本是“一個(gè)被打翻了的玻璃杯濺出液體來”時(shí),顯示的是玻璃杯融化成桌子,液體跳過了玻璃杯,但沒有任何玻璃碎裂效果。

  再比如,從沙灘里突然挖出來一個(gè)椅子,而且AI認(rèn)為這個(gè)椅子是一個(gè)極輕的物質(zhì),以至于可以直接飄起來。

  出現(xiàn)這類“錯(cuò)誤”的原因主要有兩點(diǎn):

  一是因?yàn)槟P驮谧詣?dòng)補(bǔ)齊生成中內(nèi)容,自發(fā)地產(chǎn)生了不在文本規(guī)劃內(nèi)的對(duì)象或?qū)嶓w,這種情況尤為常見,特別是在擁擠或雜亂的場景中。在某些場景中,這會(huì)增加視頻的真實(shí)感,比如在OpenAI給出的“漫步在冬天日本街頭”的案例中,但在更多環(huán)境中這會(huì)降低物理規(guī)律在視頻中的合理性,例如第一個(gè)例子中憑空生成的桌子是水變成的。

  二是當(dāng)發(fā)生許多動(dòng)作在Sora的模擬中時(shí),很容易混淆順序,包括時(shí)間順序與空間順序。例如,當(dāng)輸入“跑步機(jī)上跑步的人”時(shí)它有幾率會(huì)生成一個(gè)在跑步機(jī)上向錯(cuò)誤方向行走的人。因此Sora準(zhǔn)確地模擬更復(fù)雜的現(xiàn)實(shí)世界物理交互、動(dòng)態(tài)和因果關(guān)系,對(duì)簡單的物理和物體屬性模擬也仍具有挑戰(zhàn)性。

  盡管存在這些持續(xù)性的問題,但Sora展現(xiàn)了視頻模型未來的潛力,只要有足夠的數(shù)據(jù)和計(jì)算能力,視頻轉(zhuǎn)換器可能開始更深入地理解現(xiàn)實(shí)世界的物理、因果關(guān)系。這或許會(huì)讓基于視頻的模擬世界訓(xùn)練AI系統(tǒng)的新方法成為可能。

Sora的發(fā)展方向,面臨什么挑戰(zhàn)和機(jī)遇?

  Sora代表視頻生成類AI前沿,但是其未來效能的提升或許可以從三大方向切入:

  一是從數(shù)據(jù)維度入手。隨著訓(xùn)練的數(shù)據(jù)需求激增,未來面臨可訓(xùn)練數(shù)據(jù)樣本匱乏問題。當(dāng)前主要大模型依賴于語言文本,雖然Sora也可以進(jìn)行圖片輸入,但訓(xùn)練泛度不及文本。數(shù)據(jù)種類單一且高質(zhì)量數(shù)據(jù)有限,在參數(shù)量指數(shù)級(jí)提升的背景下或?qū)⒖焖俸谋M。

  康納爾大學(xué)研究表明,大模型訓(xùn)練的高質(zhì)量數(shù)據(jù)很有可能在2026年前就耗盡,低質(zhì)量文本數(shù)據(jù)在2030后耗盡。擴(kuò)大數(shù)據(jù)來源的維度是Sora的解法。除文字和圖像外,音頻、視頻、熱能、勢能、深度都能成為Sora學(xué)習(xí)的拓展領(lǐng)域。幫助其成為真正的多模態(tài)大模型。例如Meta開源的ImageBind擁有多種感官,不僅具有DINOv2的圖片、視頻識(shí)別能力,還擁有紅外輻射和慣性測量單元,能對(duì)深度、熱能、勢能等不同模態(tài)進(jìn)行感知學(xué)習(xí)。Sora在輸入端拓展后也可以將上述維度與視頻生成更好的結(jié)合,訓(xùn)練模擬更真實(shí)的物理世界。

  二是從算法層進(jìn)行優(yōu)化,解決模型學(xué)習(xí)中存在的“過擬合”和“欠擬合”現(xiàn)象是關(guān)鍵。在前文例子中提到過,Sora會(huì)自發(fā)地產(chǎn)生不在文本規(guī)劃內(nèi)的對(duì)象或?qū)嶓w,這有助于完善視頻效果的真實(shí)性。但是,某些情況下兩個(gè)高度關(guān)聯(lián)的元素可能會(huì)在不適用的場景下同時(shí)出現(xiàn),也就是算法為了達(dá)到特定結(jié)果而出現(xiàn)了“過擬合”。這種現(xiàn)象類似人類在備考中為了答對(duì)一類問題反復(fù)強(qiáng)化訓(xùn)練,反而導(dǎo)致考試中同類問題大量出錯(cuò)。

  而同一個(gè)例子中杯子被打翻了卻沒有碎裂效果卻是融化了,則是因?yàn)槟P?ldquo;欠擬合”。模型出現(xiàn)這兩類問題的原因是將并不準(zhǔn)確分類的樣本選取進(jìn)行了訓(xùn)練,形成的決策樹也就不是最優(yōu)模型,導(dǎo)致真實(shí)應(yīng)用的泛化表現(xiàn)下降。過擬合和欠擬合無法被徹底消除,但未來可以通過一些方法進(jìn)行緩解減少,例如:正則化、數(shù)據(jù)清洗、降低訓(xùn)練樣本量、Dropout棄用,剪枝算法等。

  三是算力產(chǎn)業(yè)。Sora持續(xù)引爆AI浪潮,這也將導(dǎo)致2024年算力需求將在多模態(tài)模型發(fā)展下持續(xù)高漲,AI企業(yè)尋求更大力度的產(chǎn)業(yè)鏈上游切入,向芯片研發(fā)設(shè)計(jì)布局,甚至向EDA和晶圓領(lǐng)域進(jìn)發(fā)。

  當(dāng)下AI模型訓(xùn)練主要依靠英偉達(dá)GPU,但主流算力芯片已經(jīng)供不應(yīng)求,預(yù)測的到2024年需求將達(dá)到150-200萬。

  OpenAI創(chuàng)始人Sam Altman從2018年起就重視其芯片供需問題,投資了AI芯片公司Rain Neuromorphics,2019 年購買Rain的芯片,再到2023年11月Sam為一家代號(hào)為“Tigris”的芯片企業(yè)尋求數(shù)十億美元融資。作為行業(yè)龍頭,已經(jīng)在早期布局構(gòu)建一套由自家領(lǐng)導(dǎo)的算力產(chǎn)業(yè)鏈,旨在通過AI產(chǎn)業(yè)革命重塑全球半導(dǎo)體格局。

  以智能汽車切入AI賽道的特斯拉,也在自動(dòng)駕駛算法的基本盤上向上游的芯片設(shè)計(jì)進(jìn)發(fā),并在逐漸謀求對(duì)中游的控制。

  可以預(yù)見的是,由ARM、英偉達(dá)、臺(tái)積電構(gòu)建的全球AI半導(dǎo)體產(chǎn)業(yè)鏈雖然是短期的最大收益者,但在中長期看或迎來更大的競爭。算力基礎(chǔ)設(shè)施的自主化建設(shè)、尤其是算力芯片,仍是中國在AI賽道上與全球保持同步進(jìn)步的重要方向。

Sora的應(yīng)用領(lǐng)域,會(huì)顛覆哪些行業(yè)?

  從年初蘋果發(fā)布Vision Pro頭戴式顯示設(shè)備、到各家PC大廠接連發(fā)布AIPC,再到這次的OpenAI發(fā)布Sora,全世界對(duì)于人工智能的創(chuàng)新在加速,迭代越來越快。

  今后用AI自動(dòng)創(chuàng)作生成的內(nèi)容會(huì)影響很多的行業(yè)領(lǐng)域,對(duì)于熱點(diǎn)話題的“時(shí)效性覆蓋”將主要是AI的任務(wù),比拼的主要是AIGC的效率,比拼的是大家能夠駕馭AI的能力,比拼的是誰能夠駕馭類似于Sora這種強(qiáng)勢能的AI生產(chǎn)工具。以后“扔一部小說、出一部大片”不是不可能了,Sora可以生成長達(dá)1分鐘的視頻,視頻可以一鏡到底,多角度鏡頭切換,并且對(duì)象始終不變。Sora視頻,更可以運(yùn)用景物、表情和色彩等鏡頭語言,表達(dá)出如孤獨(dú)、繁華、呆萌等情感色彩??傊?,如果未來出現(xiàn)更多的Sora、或者這些生成視頻大模型從以上所述的幾個(gè)角度進(jìn)行更多的改良滯后,未來的AI視頻效果,或許幾乎和人工拍攝不相上下。

  多模態(tài)模型的應(yīng)用在2024將迎來黎明,影響影視、直播、媒體、廣告、動(dòng)漫、藝術(shù)設(shè)計(jì)等數(shù)個(gè)行業(yè)。在當(dāng)下的短視頻時(shí)代,Sora“一個(gè)人”就全包了短視頻的攝影、導(dǎo)演、剪輯等任務(wù)。未來,Sora生成的各種不同用途的視頻,對(duì)于現(xiàn)在的短視頻、直播、影視、動(dòng)漫、廣告等行業(yè)都會(huì)產(chǎn)生深遠(yuǎn)影響。

  比如,在短視頻創(chuàng)作領(lǐng)域,Sora有望極大降低短劇制作的綜合成本,解決“重制作而輕創(chuàng)作”的共性問題,短劇制作的重心未來有望回歸高質(zhì)量的劇本內(nèi)容創(chuàng)作,考驗(yàn)的是優(yōu)秀創(chuàng)作者的構(gòu)思能力。Sora有望真正為相關(guān)行業(yè)的企業(yè)降本增效,廣告制作公司通過Sora模型生成符合品牌的廣告視頻,顯著減少拍攝和后期制作成本;游戲與動(dòng)畫公司使用Sora直接生成游戲場景和角色動(dòng)畫,減少了3D模型和動(dòng)畫制作成本。企業(yè)節(jié)省下來的成本可以用于提高產(chǎn)品、服務(wù)質(zhì)量或者技術(shù)創(chuàng)新,推動(dòng)生產(chǎn)力進(jìn)一步提升。如果說2023年是全球AI大模型大爆發(fā),是圖文生成元年的話,那2024年行業(yè)會(huì)進(jìn)入AI視頻生成和多模態(tài)大模型元年。從Chatgpt到Sora,AI對(duì)每個(gè)個(gè)人、每個(gè)行業(yè)的現(xiàn)實(shí)影響與改變正在逐步發(fā)生。

 

本文轉(zhuǎn)自于  財(cái)新網(wǎng)

以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“才匯云網(wǎng)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
0條評(píng)論
評(píng)論