推理性能提升30倍!英偉達(dá)發(fā)布最新一代AI芯片
英偉達(dá)GPU技術(shù)大會(GTC)如期舉行,備受期待的最新AI芯片也被如期推出。
當(dāng)?shù)貢r間3月18日,黃仁勛發(fā)表主題演講《見證AI的變革時刻》。在兩個小時的演講中,黃仁勛圍繞五大板塊,介紹了英偉達(dá)的最新研發(fā)進(jìn)展:新的產(chǎn)業(yè)發(fā)展、Blackwell平臺、創(chuàng)新軟件NIMs、AI平臺NEMO和AI工坊(AI foundry)服務(wù),以及仿真平臺Omniverse和適用于自主移動機(jī)器人的Isaac Robotics平臺。
黃仁勛在演講中重點介紹的五大板塊。英偉達(dá)直播截圖
毫不夸張地說,英偉達(dá)本次GTC大會可能決定美股科技股的未來命運。英偉達(dá)股價在19日當(dāng)天早盤一度上漲超過4%,隨后回落,收于每股884.55美元,漲0.7%,總市值2.21萬億美元。
在大會現(xiàn)場,18日下午四點,身穿經(jīng)典黑色皮衣的黃仁勛登臺亮相。面對座無虛席的美國加州圣何塞SAP中心,他笑著說道“希望你們知道,這可不是一場演唱會”。
隨后,黃仁勛用一張手繪圖回顧了計算機(jī)產(chǎn)業(yè)的發(fā)展史,以及英偉達(dá)的發(fā)家史。從1964年IBM推出世界首個通用計算機(jī)開始,伴隨著Windows 95、加速計算乃至深度學(xué)習(xí)模型AlexNet的出現(xiàn),再到2016年,黃仁勛親手將第一臺DGX-1超級計算機(jī)送給了OpenAI。而在2022年,隨著聊天機(jī)器人ChatGPT橫空出世,生成式AI帶來了全新一輪產(chǎn)業(yè)革命。
黃仁勛手繪計算機(jī)發(fā)展史。英偉達(dá)直播截圖
隨后,便到了本次主題演講眾望所歸的大戲:最新一代AI芯片Blackwell GPU的亮相。
黃仁勛一邊說著“Hopper很棒,但我們需要更大的GPU”,一邊在現(xiàn)場展示了英偉達(dá)的首款Blackwell芯片。這款芯片被命名為B200,計劃于今年晚些時候上市。
英偉達(dá)目前按照平均兩年一次的更新頻率升級GPU架構(gòu),對產(chǎn)品性能進(jìn)行大幅提升。英偉達(dá)于2022年發(fā)布了基于Hopper架構(gòu)的H100加速卡,而現(xiàn)在推出基于Blackwell的加速卡在性能上也得到了全面提升,更擅長處理AI相關(guān)任務(wù)。
從外觀來看,Blackwell GPU的體積明顯大于H100,采用臺積電的4納米(4NP)工藝蝕刻而成,整合了兩個獨立制造的裸晶(Die),共有2080億個晶體管。英偉達(dá)使用傳輸速度達(dá)到10 TB每秒的NVLink 5.0技術(shù)來連接每塊裸晶。
左邊B200,右邊H100。英偉達(dá)直播截圖
據(jù)黃仁勛介紹,一個B200 GPU能夠從其2080億個晶體管中提供高達(dá)20 petaflops(每秒千萬億次浮點運算)的FP4八精度浮點運算能力。相比之下,英偉達(dá)H100芯片所包含的晶體管數(shù)量為800億個,提供4 petaflops的FP4八精度浮點運算能力。
在此基礎(chǔ)上,一個GB200加速卡結(jié)合了兩個B200 GPU和一個獨立的Grace CPU,將能夠使大模型推理工作負(fù)載的性能提升30倍,同時提高效率。相比于H100,它可以“將成本和能源消耗降至1/25”。
這就意味著,以前訓(xùn)練一個擁有1.8萬億參數(shù)的模型需要8000個Hopper GPU 和15兆瓦的功耗。而今天,黃仁勛表示,同樣的工作只需要2000個Blackwell GPU就能完成,功耗僅為4兆瓦。同時,取決于各種Blackwell設(shè)備的內(nèi)存容量和帶寬配置,工作負(fù)載的實際性能可能會更高。
黃仁勛展示GB200加速卡開發(fā)板(左側(cè)),稱其“可能價值100億美元”。來源:英偉達(dá)直播截圖
而在參數(shù)為1750億的GPT-3 LLM基準(zhǔn)測試中,GB200的性能達(dá)到了H100的7倍,而訓(xùn)練速度則達(dá)到了H100的4倍。
對此,黃仁勛也自豪地曬出了AI芯片技術(shù)的發(fā)展圖,并表示:“在過去,計算能力平均每十年性能提升100倍。而在過去的八年中,我們已經(jīng)將性能提升了1000倍,距離十年還有兩年。”
AI芯片技術(shù)的發(fā)展圖。英偉達(dá)直播截圖
英偉達(dá)還將面向有大型需求的企業(yè)提供成品服務(wù),例如體積龐大的GB200 NVL72服務(wù)器,共包含36個CPU和72個Blackwell GPU,并提供完整的一體水冷散熱方案,可實現(xiàn)總計720 petaflops的AI訓(xùn)練性能,或高達(dá)1440 petaflops的推理性能。其內(nèi)部使用的電纜長度累計接近2英里,共有5000條獨立電纜。
不過,英偉達(dá)并沒有公布關(guān)于B200和其相關(guān)產(chǎn)品的價格,只表示亞馬遜、谷歌、微軟和甲骨文等公司都已計劃在其云服務(wù)產(chǎn)品中裝配NVL72機(jī)架,但沒有公布這些公司的購買數(shù)量,只透露了亞馬遜AWS已計劃采購由2萬片GB200芯片組建的服務(wù)器集群,可以部署27萬億個參數(shù)的模型。
黃仁勛表示,Blackwell帶來了“令人難以置信的興奮”:“我們將會把Blackwell推廣給全球的AI公司,現(xiàn)在有很多這樣的公司都在不同領(lǐng)域做著令人驚奇的工作……全球各地都在簽約啟動Blackwell,這款Blackwell將成為我們歷史上最成功的產(chǎn)品發(fā)布。”
GB200 NVL72服務(wù)器的外觀和內(nèi)部。英偉達(dá)直播截圖
在硬件之外,英偉達(dá)在AI軟件領(lǐng)域也取得了新的進(jìn)展。
黃仁勛宣布,英偉達(dá)推出數(shù)十項企業(yè)級生成式AI微服務(wù),其中最新的NIM微服務(wù),可適用于對英偉達(dá)及合作伙伴生態(tài)系統(tǒng)中20多個熱門的AI模型進(jìn)行推理優(yōu)化。這些云原生微服務(wù)目錄在英偉達(dá)CUDA平臺上開發(fā),企業(yè)可以利用這些微服務(wù)在自己的平臺上創(chuàng)建和部署定制應(yīng)用,同時保留對知識產(chǎn)權(quán)的完整所有權(quán)和控制權(quán)。
其中,重點介紹的NIM微服務(wù)將提供基于英偉達(dá)推理軟件的預(yù)構(gòu)建容器,使開發(fā)者能夠?qū)⒉渴饡r間從幾周縮短至幾分鐘,并為語言、語音和藥物發(fā)現(xiàn)等領(lǐng)域提供行業(yè)標(biāo)準(zhǔn)API,使開發(fā)者能夠利用在自己基礎(chǔ)設(shè)施中的專有數(shù)據(jù)來快速構(gòu)建AI應(yīng)用,而不是在云服務(wù)器上運行。
英偉達(dá)希望通過這些服務(wù)來吸引購買英偉達(dá)服務(wù)器的客戶來注冊英偉達(dá)企業(yè)版NVIDIA AI Enterprise 5.0,對每個GPU每年收取4500美元的費用。企業(yè)可以自己選擇基礎(chǔ)設(shè)施來部署這些微服務(wù),包括亞馬遜云科技(AWS)、谷歌云、Azure 和 Oracle Cloud Infrastructure 等云平臺。超過400個英偉達(dá)認(rèn)證系統(tǒng)也支持 NVIDIA 微服務(wù),包括思科、戴爾科技、慧與(HPE)、惠普、聯(lián)想和超微的服務(wù)器和工作站。
除了硬件和軟件,黃仁勛還在演講中花大篇幅來介紹英偉達(dá)的仿真平臺Omniverse和適用于自主移動機(jī)器人的Isaac Robotics平臺。
對于Omniverse,黃仁勛重點介紹了英偉達(dá)研究團(tuán)隊利用其在預(yù)測氣候問題方面的進(jìn)展。黃仁勛還提到,Omniverse Cloud將可以連接到蘋果的混合現(xiàn)實(MR)頭顯Vision Pro。黃仁勛在現(xiàn)場展示了一款可以完全交互的汽車模型,能夠通過流媒體技術(shù)傳輸?shù)絍ision Pro中。
關(guān)于機(jī)器人領(lǐng)域,黃仁勛在現(xiàn)場宣布,英偉達(dá)推出名為Project GROOT Foundation的AI模型,旨在創(chuàng)建性能更好的人形機(jī)器人。此外,還發(fā)布了一款專用于機(jī)器人的名為Thor的系統(tǒng)芯片。
黃仁勛表示:“機(jī)器人領(lǐng)域出現(xiàn)ChatGPT時刻的可能性近在咫尺,我們已經(jīng)花了一段時間來構(gòu)建端到端的機(jī)器人系統(tǒng)。”????
本文轉(zhuǎn)自于 新浪熱點