AI參加高考,為何偏科嚴(yán)重
(資料圖)
大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評測報告,在參試大模型中,GPT-4o以562分的成績排名文科第一。參加評測的8款國產(chǎn)大模型中,字節(jié)跳動旗下的豆包成績是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小應(yīng)”的521分。本次大模型高考評測與河南省考卷完全相同,以上3款國產(chǎn)大模型均超過河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名,相當(dāng)于前2.45%;豆包處于前4.27%,接近頂尖大模型的水平。文綜評測中,GPT-4o獲237分,優(yōu)于多數(shù)人類考生。國產(chǎn)大模型中,豆包文綜成績最高,得分224.5分,其中歷史達(dá)到82.5分,在所有9款大模型中排第一。地理考卷有大量圖片考題,圖像理解能力較強(qiáng)的GPT-4o得到最高分,但僅有68分。
語文、英語評測中,多家大模型在客觀題上拿滿分。但寫作文是弱項。多次參加全國高考語文閱卷的北京市級骨干教師、懷柔區(qū)語文學(xué)科帶頭人夏老師是本次評測的作文閱卷人。她認(rèn)為,“AI作文有清晰完整的結(jié)構(gòu),有邏輯性,語言通順流暢,但缺乏感情和感染力”。同理,在40分的英語寫作考試中,大模型的最高分只有29分,主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。
值得注意的是,大模型高考呈現(xiàn)出嚴(yán)重的偏科現(xiàn)象:數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科全線不及格,總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無法進(jìn)入理科考生的前30%。
數(shù)學(xué)評測中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(滿分150分)。大模型能準(zhǔn)確運用求導(dǎo)公式和三角函數(shù)定理,但面對較為復(fù)雜的推導(dǎo)和證明問題就很難得分。物理有一道送分的選擇題,人類考生根據(jù)“時間不會倒流”可以輕易選對答案,大模型則全軍覆沒。
“目前的大語言模型本質(zhì)上是文字接龍,基于海量資料,預(yù)測下一個最可能出現(xiàn)的詞句。通過不斷預(yù)測,生成連貫和完整的文本。應(yīng)對文科考試,大模型的用詞不準(zhǔn)或用了近義詞,不太影響評分。但理科考試考驗推理和計算,比如一道題有五步推理,大模型走偏一步,答案就全錯。而且大模型的訓(xùn)練數(shù)據(jù)中,文科語料要遠(yuǎn)遠(yuǎn)大于理科語料。”國內(nèi)一位大模型研發(fā)專家告訴科技日報記者。
近期,有一些國內(nèi)外大模型在奧數(shù)題評測(非奧數(shù)現(xiàn)場比賽)上拿到不錯的成績。對此,該專家解釋,用大家都訓(xùn)練過的公開數(shù)據(jù)集評測,大模型的準(zhǔn)確率很高;但用比較新的數(shù)據(jù)集去測試,準(zhǔn)確率就大大下降。最新的高考題是哪家大模型都沒有訓(xùn)練過的,考驗的是數(shù)學(xué)推理和計算的泛化能力,這就暴露了大模型的短板。
北京大學(xué)計算語言學(xué)研究所教授穗志方近日也表示,大模型在中國高考、公務(wù)員考試和美國SAT考試等標(biāo)準(zhǔn)化考試中的表現(xiàn)是優(yōu)劣兼具的。一些大模型在SAT數(shù)學(xué)測試中表現(xiàn)優(yōu)異,但在復(fù)雜推理或特定知識領(lǐng)域中的表現(xiàn)不夠出色。
“在大模型內(nèi)在機(jī)理沒有探究清楚的情況下,我們目前的評測路徑只能依靠從外部表現(xiàn)來推測內(nèi)在能力。”穗志方說,未來應(yīng)發(fā)展更系統(tǒng)的評測大綱、更具挑戰(zhàn)的評測任務(wù)、更科學(xué)的評測方法。AI是否比人類更適合考試?尚未可定論。
標(biāo)簽:
原標(biāo)題:AI參加高考,為何偏科嚴(yán)重
- AI參加高考,為何偏科嚴(yán)重
- 北京亦莊將建設(shè)全域人工智能之城-當(dāng)前視點
- 上海二手房成交創(chuàng)三年新高背后,什么房子賣得好?|天天通訊
- 快遞保鮮費,如何才能收得名正言順?-環(huán)球觀天下
- 視訊!以舊換新加速換車潮,動力電池回收卻滯后成隱憂
- 特斯拉股價飆升10%,季度汽車交付量超預(yù)期-環(huán)球?qū)崟r
- 特斯拉股價飆升10%,季度汽車交付量超預(yù)期
- 天天速訊:特斯拉股價飆升10%,季度汽車交付量超預(yù)期
- 上半年有24家中概股赴美上市,其中一只為IPO金額最大個股
- 上半年有24家中概股赴美上市,其中一只為IPO金額最大個股
- “中特估”之后,“科特估”能否引發(fā)下一輪A股行情?-當(dāng)前信息
- “中特估”之后,“科特估”能否引發(fā)下一輪A股行情? 當(dāng)前聚焦
- “中特估”之后,“科特估”能否引發(fā)下一輪A股行情?-環(huán)球快看
- 政策助力自動駕駛熱潮!多家相關(guān)企業(yè)沖刺IPO,產(chǎn)業(yè)迎新機(jī)!
- 消息!政策助力自動駕駛熱潮!多家相關(guān)企業(yè)沖刺IPO,產(chǎn)業(yè)迎新機(jī)!
- 政策助力自動駕駛熱潮!多家相關(guān)企業(yè)沖刺IPO,產(chǎn)業(yè)迎新機(jī)!_天天看點
- 2024MWC上海展:移動AI時代漸行漸近|每日訊息
- 蘭新高鐵飛馳 助力西部發(fā)展|每日速遞
- 給工資取個生活費等“別名”,就能逃避勞動關(guān)系了嗎?-世界新動態(tài)
- 天天快訊:京雄城際鐵路推出90天計次票 無需每次單獨購票
- 全球視點!華為重申“不造車” 鴻蒙智行與引望將成汽車業(yè)務(wù)核心
- 印刷電路板行業(yè)發(fā)展趨勢向好 多家公司透露下游需求增長
- 18個城市2個聯(lián)合體 智能網(wǎng)聯(lián)汽車萬億賽道提速 環(huán)球今日報
- ?西平縣市場監(jiān)督管理局開展新《公司法》政策宣傳工作-今日報
- 賽諾菲:首個合胞病毒預(yù)防手段樂唯初中國上市 可用于嬰兒預(yù)防RSV感染 天天觀察
- 6月北京二手房網(wǎng)簽量同比增近三成|快消息
- 唱響紅色經(jīng)典 感受信仰力量
- 未來有你 燦若星河—駐馬店市幼兒園舉辦大班畢業(yè)典禮
- 以勞育人“薯”與“泥”的快樂—駐馬店實驗小學(xué)開展勞動教育實踐活動-時訊
- 天天觀焦點:第二十六屆中國科協(xié)年會聚焦科技助力發(fā)展新質(zhì)生產(chǎn)力
- AI參加高考,為何偏科嚴(yán)重
- 北京亦莊將建設(shè)全域人工智能之城-當(dāng)前視點
- 上海二手房成交創(chuàng)三年新高背后,什么房子賣
- 快遞保鮮費,如何才能收得名正言順?-環(huán)球
- 視訊!以舊換新加速換車潮,動力電池回收卻
- 特斯拉股價飆升10%,季度汽車交付量超預(yù)期-
- 特斯拉股價飆升10%,季度汽車交付量超預(yù)期
- 天天速訊:特斯拉股價飆升10%,季度汽車交
- 上半年有24家中概股赴美上市,其中一只為IP
- 上半年有24家中概股赴美上市,其中一只為IP
- “中特估”之后,“科特估”能否引發(fā)下一輪
- “中特估”之后,“科特估”能否引發(fā)下一輪
- “中特估”之后,“科特估”能否引發(fā)下一輪
- 政策助力自動駕駛熱潮!多家相關(guān)企業(yè)沖刺IP
- 消息!政策助力自動駕駛熱潮!多家相關(guān)企業(yè)
- 政策助力自動駕駛熱潮!多家相關(guān)企業(yè)沖刺IP
- 2024MWC上海展:移動AI時代漸行漸近|每日訊息
- 蘭新高鐵飛馳 助力西部發(fā)展|每日速遞
- 給工資取個生活費等“別名”,就能逃避勞動
- 天天快訊:京雄城際鐵路推出90天計次票 無
- 全球視點!華為重申“不造車” 鴻蒙智行與
- 印刷電路板行業(yè)發(fā)展趨勢向好 多家公司透露
- 18個城市2個聯(lián)合體 智能網(wǎng)聯(lián)汽車萬億賽道
- ?西平縣市場監(jiān)督管理局開展新《公司法》政
- 賽諾菲:首個合胞病毒預(yù)防手段樂唯初中國上
- 6月北京二手房網(wǎng)簽量同比增近三成|快消息
- 唱響紅色經(jīng)典 感受信仰力量
- 未來有你 燦若星河—駐馬店市幼兒園舉辦大
- 以勞育人“薯”與“泥”的快樂—駐馬店實驗
- 天天觀焦點:第二十六屆中國科協(xié)年會聚焦科