久久69国产精品久久69软件,亚洲va在线va天堂xxxx中文

熱點(diǎn)文章

高速公路公司2025年招聘公告！

熱點(diǎn)職位

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303，數(shù)學(xué)全不及格

才匯云上 2024-06-20

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303，數(shù)學(xué)全不及格

大模型的語(yǔ)文、英語(yǔ)考試水平普遍不錯(cuò)，但數(shù)學(xué)都不及格，最高分也只有75分。

??高考覆蓋各類學(xué)科及題型，同時(shí)因其開考前的“絕密性”，被視作中國(guó)最具權(quán)威的考試之一。這一面向人類設(shè)計(jì)的高難度綜合性測(cè)試，目前普遍被研究者用于考察大模型的智能水平。

在前不久高考結(jié)束后，上海人工智能實(shí)驗(yàn)室旗下司南評(píng)測(cè)體系OpenCompass選取了7個(gè)大模型進(jìn)行高考“語(yǔ)數(shù)外”全卷能力測(cè)試。6月19日， OpenCompass發(fā)布了首個(gè)大模型高考全卷評(píng)測(cè)結(jié)果。

語(yǔ)數(shù)外三科加起來(lái)的滿分為420分，此次高考測(cè)試結(jié)果顯示，阿里通義千問(wèn)2-72B排名第一，為303分，OpenAI的GPT-4o排名第二，得分296分，上海人工智能實(shí)驗(yàn)室的書生·浦語(yǔ)2.0排名第三，三個(gè)大模型的得分率均超過(guò)70%。來(lái)自法國(guó)大模型初創(chuàng)公司的Mistral排名末尾。

大模型的高考“語(yǔ)數(shù)外”三科成績(jī)結(jié)果

此次測(cè)試的模型分別來(lái)自阿里巴巴、零一萬(wàn)物、智譜AI、上海人工智能實(shí)驗(yàn)室、法國(guó)Mistral的開源模型，以及來(lái)自O(shè)penAI的閉源模型GPT-4o。實(shí)驗(yàn)室表示，因無(wú)法確定閉源模型的更新時(shí)間，為公平起見，此次評(píng)測(cè)沒有納入商用閉源模型，僅引入GPT-4o作為評(píng)測(cè)參考。這次選擇參與高考的“考生”均在高考前（2024年4月-6月）開源，避免了“刷題風(fēng)險(xiǎn)”。

從結(jié)果來(lái)看，大模型的語(yǔ)文、英語(yǔ)考試水平普遍不錯(cuò)，但數(shù)學(xué)都不及格，最高分也只有75分，來(lái)自書生·浦語(yǔ)2.0，其次是GPT-4o，得分73分。語(yǔ)文最高分是通義千問(wèn)，英語(yǔ)最高分是GPT-4o。

在數(shù)學(xué)方面大模型還有很大的提升空間。數(shù)學(xué)關(guān)乎復(fù)雜推理相關(guān)能力，這是大模型普遍面臨的難題，也是大模型在金融、工業(yè)等要求可靠的場(chǎng)景落地需要的關(guān)鍵能力。

上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家林達(dá)華此前在采訪中對(duì)第一財(cái)經(jīng)介紹，復(fù)雜推理關(guān)系到落地應(yīng)用時(shí)大模型的可靠性，例如在金融這樣的場(chǎng)景下不能在數(shù)字上有差錯(cuò)，會(huì)對(duì)數(shù)學(xué)上的可靠性有較高的要求。另外隨著大模型進(jìn)入商用，若要分析一家公司的財(cái)報(bào)，甚至是工業(yè)領(lǐng)域要去分析一些技術(shù)文檔，這時(shí)數(shù)學(xué)方面的計(jì)算能力就會(huì)成為一個(gè)壁壘。

“現(xiàn)在很多大模型的應(yīng)用場(chǎng)景是客服、聊天等等，在聊天場(chǎng)景一本正經(jīng)胡說(shuō)八道影響不太大，但它很難在非常嚴(yán)肅的商業(yè)場(chǎng)合去落地。”林達(dá)華此前表示。

對(duì)于此次測(cè)試細(xì)節(jié)，上海人工智能實(shí)驗(yàn)室介紹，評(píng)測(cè)采用全國(guó)新課標(biāo)I卷，“語(yǔ)數(shù)外”三科全卷測(cè)試，包括客觀題與主觀題。成績(jī)由具備高考評(píng)卷經(jīng)驗(yàn)的老師匿名人工判分，閱卷開始前，閱卷教師未被告知答卷均由模型生成，使閱卷教師完全以面對(duì)真實(shí)考生的標(biāo)準(zhǔn)評(píng)判回答效果。

值得注意的是，大模型犯錯(cuò)誤的方式和人類考生有差異，從實(shí)踐上來(lái)看閱卷老師們不完全適應(yīng)給大模型評(píng)分，因此存在有題目誤判的可能。實(shí)驗(yàn)室表示，每個(gè)題目都邀請(qǐng)了至少三位老師評(píng)閱取均分，團(tuán)隊(duì)對(duì)分差較大的題目還進(jìn)行了再次審核，貼近高考真實(shí)閱卷標(biāo)準(zhǔn)。

實(shí)驗(yàn)室表示，在打分前，老師們并未被告知答案由大模型生成，但由于有的模型會(huì)存在完全不理解題意導(dǎo)致亂答、重復(fù)生成、回答更像解析而非解答的問(wèn)題，老師們?cè)陂喚磉^(guò)程中基本都會(huì)和團(tuán)隊(duì)確認(rèn)這些情況是否是正常情況，團(tuán)隊(duì)會(huì)要求老師將離譜的錯(cuò)誤直接視為答題錯(cuò)誤，解析類型的回答以是否包含正確解題過(guò)程作為唯一準(zhǔn)則。

在完成所有大模型答卷的評(píng)卷工作后，閱卷教師被告知所評(píng)“考生”的真實(shí)身份為大模型。研究人員同時(shí)邀請(qǐng)各科教師對(duì)大模型表現(xiàn)進(jìn)行了整體分析，為模型能力提升策略提供參考。

語(yǔ)文方面，老師們認(rèn)為，模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng)，但是不同模型的文言文閱讀理解能力差距較大。大模型作文更像問(wèn)答題，雖然有針對(duì)性但缺乏修飾，幾乎不存在人類考生都會(huì)使用舉例論證、引用論證、名人名言和人物素材等手法。多數(shù)模型無(wú)法理解“本體”“喻體”“暗喻”等語(yǔ)文概念。語(yǔ)言中的一些“潛臺(tái)詞”，大模型尚無(wú)法完全理解。

在數(shù)學(xué)試卷上，老師們發(fā)現(xiàn)，大模型的主觀題回答相對(duì)凌亂，且過(guò)程具有迷惑性，甚至出現(xiàn)過(guò)程錯(cuò)誤但得到正確答案的情況。大模型的公式記憶能力較強(qiáng)，但是無(wú)法在解題過(guò)程中靈活引用。

英語(yǔ)則整體表現(xiàn)良好，但部分模型由于不適應(yīng)題型，在七選五、完形填空等題型得分率較低。大模型英語(yǔ)作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況，而人類考生多因?yàn)樽謹(jǐn)?shù)不夠扣分。

此外，一些老師提出，由于全部回答沒有卷面，所以在作文的評(píng)判上會(huì)存在1-2分的誤差。

本文轉(zhuǎn)自于新浪熱點(diǎn)

以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“才匯云網(wǎng)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

分享到：

44 0

0條評(píng)論

評(píng)論

暫無(wú)更多評(píng)論

亚洲欧美色一区二区三区,日韩欧美国产v一区二区三区,精品久久久久久综合日本,jap,免费观看片,2020每日更新国产精品视频

熱點(diǎn)文章

高速公路公司2025年招聘公告！

熱點(diǎn)職位

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303，數(shù)學(xué)全不及格

思杰拓客服服務(wù)熱線

亚洲欧美色一区二区三区,日韩欧美国产v一区二区三区,精品久久久久久综合日本,jap,免费观看片,2020每日更新国产精品视频

熱點(diǎn)文章

高速公路公司2025年招聘公告！

熱點(diǎn)職位

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303，數(shù)學(xué)全不及格

思杰拓客服服務(wù)熱線

高速公路公司2025年招聘公告！

首個(gè)AI高考全卷評(píng)測(cè)結(jié)果發(fā)布：最高分303，數(shù)學(xué)全不及格