您現(xiàn)在的位置:首頁 > 科技 > 正文

如果讓AI做你的高考語文題,它能得多少分?_世界熱聞

時(shí)間:2023-06-07 22:39:39    來源:科普中國(guó)網(wǎng)    

編者按:

本文主要是通過測(cè)試答題,分析大語言模型目前在做題特別是做語文題方面的表現(xiàn)。千萬不要試圖挑戰(zhàn)考試紀(jì)律,靠自己走出人生的每一步才是堅(jiān)實(shí)有力的。正如文中所提到的,“朋友們千萬不要放棄學(xué)習(xí),寄希望于以后一切用AI。堅(jiān)持學(xué)習(xí),你聰明的大腦帶給你的驚喜和回報(bào)才是最大的!”

(圖片來源:作者與AI對(duì)話的網(wǎng)頁截圖)


(資料圖片僅供參考)

以上就是某AI獻(xiàn)給參加2023年高考的莘莘學(xué)子們的祝福,你感受到它對(duì)你滿滿的愛與期待了嗎?

高考要考察的領(lǐng)域和能力非常全面,大部分人都有相較之下的短板,筆者以前就因?yàn)槿狈εc高考語文現(xiàn)代文閱讀出題人的“共鳴”,無法取得高分。

近來,從事腦科學(xué)研究的筆者產(chǎn)生了一個(gè)想法:如果讓類似GPT-4這樣強(qiáng)大的人工智能(Artificial Intelligence, AI)大語言模型(Large Language Model, LLM)去答語文高考題,它表現(xiàn)如何呢?

繁花似錦的夢(mèng)想大學(xué)

(圖片來源:圖像生成類人工智能模型Midjourney)

Part.1

壓力為什么給到了大語言模型?

為什么是大語言模型才有較強(qiáng)的做題能力呢?為什么以前開發(fā)的自然語言處理(Natural Language Processing, NLP)的其他語言模型就沒這種能力?

一種說法是,大模型具備了涌現(xiàn)能力(emergent ability),指的是一種模型在訓(xùn)練過程中,自動(dòng)地學(xué)習(xí)到一些高級(jí)的、復(fù)雜的功能或行為,而這些功能或行為并沒有被直接編碼或指定。涌現(xiàn)能力是近期AI取得突破性進(jìn)展最重要的核心技術(shù),它使大模型在處理新的、未知的任務(wù)時(shí)表現(xiàn)更加出色,這是因?yàn)樗梢宰赃m應(yīng)地學(xué)習(xí)到新的功能或行為,而不需要重新訓(xùn)練或修改模型。

Part.2

人類為什么聰明、適應(yīng)性強(qiáng)呢?

有一種假說就是涌現(xiàn),這種假說指的是:大腦中神經(jīng)元數(shù)目一旦突破某個(gè)具體的數(shù)目,大腦的包括邏輯思考能力在內(nèi)的各類功能就能上升一個(gè)檔次,這就是量變引發(fā)質(zhì)變的最佳例子。

因此當(dāng)大語言模型訓(xùn)練的參數(shù)量和喂它的文本數(shù)據(jù)不斷增長(zhǎng)后,某天AI就“悟了”,從此語言能力就有一次爆發(fā)式的躍升,于是現(xiàn)在AI寫出來的作文,不仔細(xì)甄別的話,和普通高中生寫出來的作文難分伯仲。

大模型的涌現(xiàn)現(xiàn)象

(圖片來源:參考文獻(xiàn)[1])

涌現(xiàn)之后,大語言模型就具備了多模態(tài)的思維鏈路,可以構(gòu)建一個(gè)關(guān)于語言和意義的高維內(nèi)在表示,從而通過中間步驟的自然語言推理,來完成最終的輸出。

簡(jiǎn)單來說,就是它會(huì)簡(jiǎn)單的推理了。

光看開頭GPT-4的祝福,其實(shí)你很難辨別它是AI寫的還是人類寫的。雖然它還沒具備真正的意識(shí)或思維能力,但它的確使用了類似于人的思維推理過程來銜接上下文的語言。

GPT-4和之前很火的ChatGPT一樣,都是大語言模型,都是基于預(yù)訓(xùn)練變換器(Generative Pre-trained Transformer, GPT)的架構(gòu)。如果將一個(gè)多步驟的問題分解為可以單獨(dú)解決的中間步驟,還會(huì)進(jìn)一步提高大語言模型的表達(dá)推理能力。

大模型思維鏈能力的出現(xiàn)

(圖片來源:參考文獻(xiàn)[2])

好了,前面鋪墊了這么多大語言模型的優(yōu)秀之處,接下來是騾子是馬就要拉出來遛遛了。

那我們就用GPT-4來代替大語言模型出戰(zhàn),看看它能否在高考語文中替筆者一雪前恥!

去吧,GPT-4,開啟你的AI做題家征程!

(圖片來源:《假面騎士build》)

Part.3

答題開始!

本文會(huì)讓AI把2022年全國(guó)各省市的高考語文卷都做一遍,一共8套,分別是全國(guó)甲卷、全國(guó)乙卷、新高考I卷、新高考II卷、北京卷、天津卷、浙江卷和上海卷,然后統(tǒng)計(jì)它的最終成績(jī)。(因?yàn)镺penAI訓(xùn)練大語言模型的文本資料全是2021年9月以前的,因此2022年的試卷對(duì)于它來說是全新未開封的。)

(圖片來源:作者與AI對(duì)話的網(wǎng)頁截圖)

筆者是浙江人,所以以浙江卷為例了。

第一大題是語言文字應(yīng)用(20分),以下紫色框內(nèi)是提問,灰色框內(nèi)是它的回答:

正確答案:C

正確答案:2.B 3.B

正確答案:D

正確答案:①. 是因?yàn)樗哂谏?②. 實(shí)際上充滿了哲理 ③. 而將生活哲學(xué)適當(dāng)夸張和戲劇化

遺憾的是,前4題均為選擇題,它只答對(duì)1題。

才做了4道題,我們就不得不宣告它已經(jīng)失去了沖擊高分的可能。

錯(cuò)別字、拼音判斷,詞語、標(biāo)點(diǎn)的運(yùn)用,還有病句的甄別之類的題目,感覺AI都不是很擅長(zhǎng),可見語文的基本功不是很扎實(shí)!不過第5題補(bǔ)寫恰當(dāng)語句確實(shí)做得挺不錯(cuò)的,和答案要表達(dá)的意思基本一致,而且下定義和簡(jiǎn)述題部分即便沒有給它需要的圖片它也能答出個(gè)所以然,可見它擅長(zhǎng)的是對(duì)上下文的銜接和整體所要表達(dá)中心意思的概括總結(jié),而對(duì)細(xì)枝末節(jié)不甚考究。

也就是說,AI有一點(diǎn)語文素養(yǎng),但不多。

根據(jù)浙江卷賦分規(guī)則,第一大題扣12分,得分:8/20。

接下來第二大題是現(xiàn)代文閱讀(30分),將原文和問題都輸入進(jìn)去后,AI的回答如下:

正確答案:7.A 8.A 9. ①士人:興趣從仕途轉(zhuǎn)向飲食,促進(jìn)飲食發(fā)展。②技術(shù):中華飲食歷史悠久,明清時(shí)代飲食技術(shù)得到大發(fā)展。③理論:長(zhǎng)期的實(shí)踐經(jīng)驗(yàn)發(fā)展成系統(tǒng)理論。

參考答案得分點(diǎn):10. ①抑揚(yáng)。②烘托。11. ①敦厚忠孝。②忍辱負(fù)重。③積極上進(jìn)。④恪盡職守。12. ①舍小愛,取大愛。②舍私利,取大義。13. ①寫出敦厚媽對(duì)美好生活向往的迫切。②塑造敦厚甘守荒涼、一心奉獻(xiàn)的品格。

現(xiàn)代文閱讀的選擇題可悲得全錯(cuò)了,簡(jiǎn)答題也并沒有從原文中進(jìn)行歸納,按標(biāo)準(zhǔn)答案批改的話,10分的小閱讀理解,它只拿了1分。

從大閱讀理解也可以看出,AI不會(huì)半點(diǎn)答題技巧,比如問藝術(shù)手法,正確答案是“抑揚(yáng)”和“烘托”這兩種手法,AI辛辛苦苦答了一堆都沒扣到點(diǎn)子上,因此,只能得0分。

品格部分答出責(zé)任感和無私這兩點(diǎn),只能說對(duì)原文最表面的內(nèi)容有一定理解,但缺乏深刻的認(rèn)識(shí),因此評(píng)價(jià)和藝術(shù)效果答得完全不對(duì),可以說,AI面對(duì)較長(zhǎng)的現(xiàn)代文,理解起來有些束手無策。

看來,AI只能分析文字本身體現(xiàn)的,無法深刻理解作者所要表達(dá)的內(nèi)涵。

參照標(biāo)準(zhǔn)答案,它在這個(gè)大題中綜合得分:4/30。

接下來第三大題是古代詩文閱讀(40分)。

你猜,它會(huì)答成什么樣?

(圖片來源:2022年浙江卷高考語文文言文部分)

正確答案:14.C 15.B 16.D

正確答案:17.AI斷的完全正確 18.(1)那么(人們)將認(rèn)為我是狠心的人,并且是吝惜(賞賜)爵位俸祿啊。(2)知道(上面)那些情況有可以給予百姓(刑賞忠厚)的道理卻不給予,這也是存心傷害百姓罷了。

怎么樣,你是不是沒想到,AI的文言文居然不錯(cuò)!3個(gè)選擇題里只錯(cuò)1個(gè),斷句全對(duì)!

只是最后一題文言文翻譯存在很多問題,比如文中“忍”和“愛”分別應(yīng)該是“狠心的”和“吝惜”的意思,AI翻譯成了“忍受”和“喜愛”,很明顯有些望文生義,最后文言文處得分:13/20。

正確答案:19.①.勤政樓 ②.千秋節(jié) 20. 情感上王詩表達(dá)對(duì)昔日盛世懷念,杜詩抒發(fā)昔盛今衰之悲嘆;寫法上王詩運(yùn)用細(xì)節(jié)描寫,杜詩運(yùn)用擬人手法。

填空題是AI的強(qiáng)項(xiàng),基本全對(duì),即便古詩詞也不例外,但是對(duì)古詩情感和寫法上的理解和答題技巧還是差了點(diǎn),得分:5/8。

正確答案:略

第三小題的文言文理解答得也不錯(cuò),和標(biāo)準(zhǔn)答案差了幾個(gè)小點(diǎn)而已,得分:4/6。

古詩文默寫5選3即可,GPT(1)(2)(4)句古詩詞是完全正確的,因此可以算全對(duì),得分:6/6。

不過“潮平兩岸闊,無wind可依然”可太有“創(chuàng)意”了,不僅自己編造古詩詞,還中英摻雜……

最終古代詩文閱讀部分得分:28/40。

那么最后一部分就是作文了,總分60分,題目如下:

(圖片來源:2022年浙江卷高考語文作文部分)

2022年作文材料挺接地氣的,內(nèi)容和實(shí)例都給的非常具體,就事論事正是AI所擅長(zhǎng)的,讓大家來看看AI的800字小作文:

(圖片來源:作者與AI對(duì)話的網(wǎng)頁截圖)

通篇看下來,感覺重復(fù)詞句太多了,而且引用材料中的內(nèi)容頻率很高,不過邏輯和語句還算通順,整體看來勉勉強(qiáng)強(qiáng)可以給個(gè)及格分36分。

這樣,AI在語文浙江卷滿分150分的情況下,最終得分為8+4+28+36=76分。

不及格!GPT只能微笑著打出“GG了”……

那么在挑戰(zhàn)浙江卷不及格的情況下,它在試做其他的高考語文卷時(shí),又會(huì)是何種表現(xiàn)呢?貫徹筆者本人一向嚴(yán)厲的批卷標(biāo)準(zhǔn),并且在最后作文統(tǒng)一只給及格分的情況下,其他高考語文卷的最終成績(jī)?nèi)缦聢D匯總所示:

(圖片來源:作者)

一共試做8套試卷,不及格率高達(dá)87.5%……

朋友們千萬不要放棄學(xué)習(xí),寄希望于以后一切用AI,現(xiàn)在大語言模型人工智能其實(shí)對(duì)于文本的“理解”還遠(yuǎn)遜于你們,它只是擅長(zhǎng)“記憶”和“內(nèi)容概括”而已。

堅(jiān)持學(xué)習(xí),你聰明的大腦帶給你的驚喜和回報(bào)才是最大的!

Part.4

為什么AI語文考得不理想?它的其他科目怎么樣?

在批卷的過程中,筆者發(fā)現(xiàn),像文言文斷句、根據(jù)上下文填空一類的詞,GPT基本上全對(duì),而在現(xiàn)代文閱讀和故事里面談到細(xì)節(jié)的情感和表達(dá)、寫作技巧時(shí),AI很難得分,而且現(xiàn)代文字越多,它在這個(gè)大題里的得分就越低,說明它很難抓住重點(diǎn)。

為什么會(huì)這樣呢?

因?yàn)镚PT系列本身的基礎(chǔ)架構(gòu)Transformer就不擅長(zhǎng)處理長(zhǎng)序列問題,盡管OpenAI的專家們使用了稀疏型Transformer來改進(jìn)對(duì)于長(zhǎng)文本的處理,降低計(jì)算復(fù)雜度,但現(xiàn)代文字?jǐn)?shù)長(zhǎng)了,它還是沒辦法將注意力集中到關(guān)鍵的點(diǎn)上。特別是散文,稀疏處理意味著它看一段跳個(gè)兩三段,通篇囫圇吞棗下來,可能連故事主線講了什么都難以概括,更不要說理解作者蘊(yùn)含在文中的深意了。

而文言文之所以答得比現(xiàn)代文好,是因?yàn)槠浔旧砥^短,有效規(guī)避了Transformer不擅長(zhǎng)長(zhǎng)序列處理的缺點(diǎn),且文言文一個(gè)字通常能頂白話文兩三個(gè)字,因此信息豐富度更高,這就使AI通篇都能保持對(duì)關(guān)鍵點(diǎn)的注意力機(jī)制,從而有著對(duì)整體內(nèi)容的更好理解。

總之,AI沒有經(jīng)過系統(tǒng)的語文學(xué)習(xí),不了解考試答題技巧,缺少對(duì)中文拼音與語法的細(xì)節(jié)掌握,更沒有對(duì)現(xiàn)代文和古詩詞中作者所要表達(dá)情感和精神內(nèi)涵的深刻感悟。

可能有人會(huì)好奇,如果讓GTP-4挑戰(zhàn)高考的其他科目,結(jié)果會(huì)怎樣呢?筆者的測(cè)試結(jié)果是:英語最高(畢竟算它的母語);數(shù)學(xué)和物理嘛,簡(jiǎn)單的題還可以,題目字?jǐn)?shù)一長(zhǎng),它就開始胡編亂造了,分?jǐn)?shù)都挺低的;化學(xué),生物和文綜類的結(jié)果一般般,和語文差別不大。

Part.5

放松心情,考運(yùn)昌隆

今年的高考語文已落下帷幕,在這里由衷地祝愿各位考生都能發(fā)揮應(yīng)有的實(shí)力,考上理想的大學(xué)!

作為經(jīng)歷過高考的“前輩”,有句真心話送給大家,高考只是人生的一個(gè)階段性總結(jié),分?jǐn)?shù)的高低并不能和以后的成敗畫等號(hào)。人生是長(zhǎng)跑,提高自己的認(rèn)知,拓寬自己的眼界,把握時(shí)代的風(fēng)向,做出正確的抉擇,付出持續(xù)的努力,這才是最重要的。

最后,祝各位考運(yùn)昌隆!

高考必勝!

(圖片來源:圖像生成類人工智能模型Midjourney)

參考文獻(xiàn):

[1] Jason Wei, Yi Tay, et al. Emergent Abilities of Large Language Models. arXiv:2206.07682.(2022)

[2] Jason Wei Xuezhi Wang, et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903v6.(2023)

[3]Sébastien Bubeck, Varun Chandrasekaran, et al. Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv:2303.12712. (2023)

出品:科普中國(guó)

作者:錢昱(中科院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心)

本文僅代表作者觀點(diǎn),不代表中國(guó)科普博覽立場(chǎng)

本文首發(fā)于中國(guó)科普博覽(kepubolan)

轉(zhuǎn)載請(qǐng)注明公眾號(hào)出處

轉(zhuǎn)載注明出處 未經(jīng)授權(quán)不得轉(zhuǎn)載

轉(zhuǎn)載授權(quán)、合作、投稿事宜,聯(lián)系webmaster@kepu.net.cn

標(biāo)簽:

相關(guān)新聞

凡本網(wǎng)注明“XXX(非現(xiàn)代青年網(wǎng))提供”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和其真實(shí)性負(fù)責(zé)。

特別關(guān)注

熱文推薦

焦點(diǎn)資訊