123,123,123

開(kāi)學(xué)季，美國(guó)一款號(hào)稱(chēng)服務(wù)兩萬(wàn)所學(xué)校的AI閱卷系統(tǒng)遭到質(zhì)疑，學(xué)生們只要借助系統(tǒng)漏洞，輸入相應(yīng)關(guān)鍵詞，即使關(guān)鍵詞之間并無(wú)關(guān)聯(lián)，也能輕易獲得高分。

隨著人工智能的發(fā)展，不少教育App都應(yīng)用了智能評(píng)分系統(tǒng)，評(píng)分系統(tǒng)閱卷迅速，及時(shí)出分，受到不少師生的歡迎。但同時(shí)，也有不少家長(zhǎng)吐槽智能評(píng)分系統(tǒng)，像英語(yǔ)跟讀App的評(píng)分系統(tǒng)，有時(shí)候即使擁有英語(yǔ)專(zhuān)業(yè)八級(jí)水平的人，測(cè)試得分也只有80分。

除了應(yīng)用于英語(yǔ)口語(yǔ)的智能評(píng)分系統(tǒng)，人工智能還被應(yīng)用于判卷上。不過(guò)這種智能閱卷系統(tǒng)也時(shí)有“翻車(chē)”現(xiàn)象。據(jù)報(bào)道，在開(kāi)學(xué)季，一款號(hào)稱(chēng)服務(wù)于美國(guó)兩萬(wàn)所學(xué)校的AI閱卷系統(tǒng)就受到了質(zhì)疑，學(xué)生們借助它的漏洞，“裸考”就能輕松及格。之所以被學(xué)生們鉆了空子，是由于該系統(tǒng)只是通過(guò)關(guān)鍵詞進(jìn)行評(píng)分，學(xué)生們只要輸入相應(yīng)關(guān)鍵詞，即使幾個(gè)關(guān)鍵詞之間沒(méi)有關(guān)系，也能順利過(guò)關(guān)甚至獲得高分。

閱卷前需先設(shè)定評(píng)判標(biāo)準(zhǔn)

“自動(dòng)測(cè)評(píng)打分系統(tǒng)一般需要先設(shè)定評(píng)測(cè)的標(biāo)準(zhǔn)，而后根據(jù)設(shè)定的標(biāo)準(zhǔn)去設(shè)計(jì)合適的評(píng)測(cè)算法與模型。”天津大學(xué)智能與計(jì)算學(xué)部教授、博士生導(dǎo)師熊德意介紹，比如像口語(yǔ)測(cè)評(píng)打分，就需要機(jī)器去評(píng)判人的發(fā)音是否標(biāo)準(zhǔn)，所讀句子的重音是否正確，讀出的語(yǔ)句是否連貫流暢，連讀部分是否準(zhǔn)確等。

AI閱卷系統(tǒng)則涉及到對(duì)語(yǔ)言文字的評(píng)判，涵蓋很多方面，如語(yǔ)法、語(yǔ)義等，會(huì)大量運(yùn)用到自然語(yǔ)言處理技術(shù)。

“自然語(yǔ)言處理技術(shù)是人工智能的一個(gè)重要分支，研究利用計(jì)算機(jī)對(duì)自然語(yǔ)言進(jìn)行智能化處理，基礎(chǔ)的自然語(yǔ)言處理技術(shù)主要圍繞語(yǔ)言的不同層級(jí)展開(kāi)，包括音位(語(yǔ)言的發(fā)音模式)、形態(tài)(字、字母如何構(gòu)成單詞、單詞的形態(tài)變化)、詞匯(單詞之間的關(guān)系)、句法(單詞如何形成句子)、語(yǔ)義(語(yǔ)言表述對(duì)應(yīng)的意思)、語(yǔ)用(不同語(yǔ)境中的語(yǔ)義解釋)、篇章(句子如何組合成段落)7個(gè)層級(jí)。”熊德意強(qiáng)調(diào)，這些基本的自然語(yǔ)言處理技術(shù)經(jīng)常被運(yùn)用到下游的多種自然語(yǔ)言處理任務(wù)(如機(jī)器翻譯、對(duì)話(huà)、問(wèn)答、文檔摘要等)中，自動(dòng)閱卷中的語(yǔ)言文字評(píng)測(cè)通常涉及這7個(gè)層級(jí)的若干層。

設(shè)計(jì)自動(dòng)評(píng)測(cè)指標(biāo)的方法有多種，通常會(huì)根據(jù)不同的評(píng)判類(lèi)型去選擇適合的方法。“比如閱卷系統(tǒng)若要進(jìn)行翻譯題的自動(dòng)評(píng)判，可以讓老師事先寫(xiě)好多個(gè)參考譯文答案，然后把學(xué)生的答案和參考答案進(jìn)行類(lèi)比，計(jì)算它們的相似度作為學(xué)生答案好壞的評(píng)測(cè)指標(biāo)。”熊德意舉例說(shuō)，機(jī)器翻譯常用的評(píng)測(cè)指標(biāo)BLEU，就是基于參考譯文和機(jī)器譯文之間的N-grams(N元)匹配度計(jì)算相似度的。

一個(gè)單詞是一元，兩個(gè)相連的單詞是二元，還有三元、四元，如果答案中有一個(gè)單詞與參考答案中的單詞一致，那么就會(huì)給出一個(gè)一元評(píng)分，類(lèi)似的可以計(jì)算二元、三元、四元的評(píng)分。研究人員為不同元設(shè)置不同權(quán)重，然后把得分統(tǒng)籌起來(lái)變成一個(gè)客觀(guān)值，得分越高就說(shuō)明兩者之間的相似性越高。

不同AI評(píng)分系統(tǒng)結(jié)果相差甚遠(yuǎn)

此次AI閱卷系統(tǒng)“翻車(chē)”的導(dǎo)火索是一位美國(guó)歷史系教授的兒子在進(jìn)行歷史考試的時(shí)候只得到了50%的分?jǐn)?shù)，而她對(duì)兒子的答案進(jìn)行評(píng)測(cè)后，覺(jué)得孩子的回答基本沒(méi)有問(wèn)題。

同樣的答案，人工評(píng)價(jià)和機(jī)器評(píng)價(jià)為何有如此大的出入?

“這就是基于A(yíng)I算法的自動(dòng)評(píng)測(cè)面臨的最大挑戰(zhàn)：如何與人工評(píng)價(jià)保持一致。應(yīng)對(duì)這個(gè)挑戰(zhàn)需要解決的問(wèn)題很多。比如如何制定合適的評(píng)測(cè)標(biāo)準(zhǔn)，主觀(guān)題進(jìn)行自動(dòng)評(píng)測(cè)必須要有合適的評(píng)測(cè)標(biāo)準(zhǔn)和規(guī)范;比如如何應(yīng)對(duì)語(yǔ)言的千變?nèi)f化，語(yǔ)言的多樣性是自然語(yǔ)言處理技術(shù)的主要挑戰(zhàn)之一，語(yǔ)言的自動(dòng)測(cè)評(píng)和自動(dòng)處理都要面對(duì)多樣性的挑戰(zhàn);比如如何設(shè)計(jì)一個(gè)綜合性的評(píng)測(cè)指標(biāo)，雖然目前有各種各樣的指標(biāo)，但是很少有指標(biāo)綜合考慮語(yǔ)言文字的方方面面，例如作文自動(dòng)閱卷，可能要考慮用詞是否合理(詞匯)、句子是否流暢(句法)、段落組織是否有條理(篇章)、內(nèi)容是否扣題(語(yǔ)義、語(yǔ)用)等。”熊德意說(shuō)，上面提到的BLEU就是只考慮了單詞形式的嚴(yán)格匹配，沒(méi)有考慮單詞的形態(tài)變化、語(yǔ)義相似性、譯文的句法合理性等因素。

“遵循的評(píng)測(cè)規(guī)則、評(píng)判的出發(fā)點(diǎn)不同，相應(yīng)的算法模型都不一樣，因此最后的結(jié)果也會(huì)相差甚遠(yuǎn)。”熊德意說(shuō)。

因此僅僅利用一種評(píng)測(cè)方法顯然是不全面的，這也就解釋了當(dāng)孩子的母親嘗試在答案里加入“財(cái)富、商隊(duì)、中國(guó)、印度”等題目中的關(guān)鍵詞時(shí)，即使這些關(guān)鍵詞之間沒(méi)有任何串聯(lián)，她也得了滿(mǎn)分。“可能這個(gè)AI閱卷系統(tǒng)只使用了簡(jiǎn)單的關(guān)鍵詞匹配，因此會(huì)出現(xiàn)‘關(guān)鍵詞沙拉’也能蒙混過(guò)關(guān)的情況。”熊德意解釋。

此外，口語(yǔ)的人工測(cè)評(píng)與機(jī)器測(cè)評(píng)也存在較大出入。“近年來(lái)，語(yǔ)音識(shí)別性能雖然在深度學(xué)習(xí)技術(shù)的推動(dòng)下取得了顯著的提升，但是在開(kāi)放環(huán)境、噪音環(huán)境下，這種識(shí)別率就會(huì)下降很多。”熊德意解釋?zhuān)绻麢C(jī)器“聽(tīng)”錯(cuò)了一個(gè)單詞，而后機(jī)器進(jìn)行測(cè)評(píng)，就會(huì)形成一個(gè)錯(cuò)誤傳播，也就是上游系統(tǒng)的錯(cuò)誤會(huì)導(dǎo)致下一系統(tǒng)錯(cuò)誤，錯(cuò)上加錯(cuò)，越錯(cuò)越離譜，測(cè)評(píng)結(jié)果也會(huì)大相徑庭。

“目前有很多設(shè)計(jì)評(píng)測(cè)指標(biāo)的方法，還有很多改進(jìn)的方法，如在計(jì)算準(zhǔn)確率的同時(shí)也計(jì)算召回率等。另外，還有對(duì)評(píng)測(cè)指標(biāo)進(jìn)行評(píng)測(cè)的，即評(píng)測(cè)的評(píng)測(cè)，看看哪個(gè)評(píng)測(cè)指標(biāo)更完善，更和人的評(píng)價(jià)一致。”熊德意感嘆，很多時(shí)候，自動(dòng)評(píng)測(cè)的難度和對(duì)應(yīng)的自然語(yǔ)言處理任務(wù)的難度，從技術(shù)層面來(lái)說(shuō)是一樣的，比如用機(jī)器評(píng)價(jià)一個(gè)譯文的好壞與用機(jī)器生成一個(gè)譯文的難度類(lèi)似，用機(jī)器評(píng)判一個(gè)文檔摘要的好壞與用機(jī)器生成一個(gè)摘要的難度也差不多。

可結(jié)合人工評(píng)測(cè)讓系統(tǒng)更智能

“傳統(tǒng)的自動(dòng)評(píng)測(cè)指標(biāo)通常是基于符號(hào)進(jìn)行計(jì)算的，現(xiàn)在深度學(xué)習(xí)等AI技術(shù)也越來(lái)越多地應(yīng)用于測(cè)評(píng)工具中。”熊德意介紹，使用深度學(xué)習(xí)，可以把語(yǔ)言符號(hào)映射到實(shí)數(shù)稠密向量的語(yǔ)義空間，利用語(yǔ)義向量計(jì)算相似度。哪怕說(shuō)的詞語(yǔ)和計(jì)算機(jī)原本學(xué)習(xí)的不一樣，但只要語(yǔ)義是一致的，機(jī)器就可以進(jìn)行精準(zhǔn)的評(píng)價(jià)。因此，基于深度學(xué)習(xí)的自動(dòng)評(píng)測(cè)某種程度上可以應(yīng)對(duì)語(yǔ)言的多樣性挑戰(zhàn)。不過(guò)深度學(xué)習(xí)也有一個(gè)問(wèn)題，就是需要大量的數(shù)據(jù)讓機(jī)器進(jìn)行學(xué)習(xí)。

基于自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練語(yǔ)言模型，近幾年，在語(yǔ)言表示學(xué)習(xí)中，取得了突破性的進(jìn)展。“OpenAI的預(yù)訓(xùn)練語(yǔ)言模型GPT-3，在5000億單詞的海量語(yǔ)料上訓(xùn)練了一個(gè)帶有1750億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)，通過(guò)大量學(xué)習(xí)網(wǎng)絡(luò)上各種語(yǔ)言的文本，GPT-3形成了強(qiáng)大的語(yǔ)言表示能力，可以進(jìn)行多種任務(wù)，比如自動(dòng)翻譯、故事生成、常識(shí)推理、問(wèn)答等，甚至可以進(jìn)行加減法運(yùn)算，比如其兩位數(shù)加減法正確率達(dá)到100%，五位數(shù)加減法正確率接近10%。”熊德意介紹，不過(guò)，這么龐大的神經(jīng)網(wǎng)絡(luò)，如果用單精度浮點(diǎn)數(shù)存儲(chǔ)，需要700G的存儲(chǔ)空間，另外模型訓(xùn)練一次就花費(fèi)了460萬(wàn)美元。因此，即使GPT-3具有較好的零樣本、小樣本學(xué)習(xí)能力，其高昂的成本使其離普遍可用還有很遠(yuǎn)的距離。

但是AI作為閱卷評(píng)測(cè)“老師”，其又有人工不可比擬的優(yōu)勢(shì)。比如AI自動(dòng)批閱卷系統(tǒng)相比人工批閱速度更快，老師不可能一次記住所有的多項(xiàng)選擇題答案，需要不斷檢查標(biāo)準(zhǔn)答案，這是很費(fèi)時(shí)的，自動(dòng)批閱系統(tǒng)幫助老師大大提高了效率;另外，自動(dòng)批閱系統(tǒng)更加理性，不受外界條件干擾，不會(huì)因疲勞等原因?qū)е抡`判。即使在復(fù)雜的干擾環(huán)境中，仍然可以得到正確的結(jié)果;AI閱卷系統(tǒng)還可以在評(píng)分后直接做好學(xué)情分析，統(tǒng)計(jì)出考試數(shù)據(jù)、錯(cuò)題數(shù)據(jù)等教學(xué)材料，幫助老師減負(fù)增效，幫助學(xué)生提高學(xué)習(xí)效率。

“將主觀(guān)題合理地客觀(guān)化，可以降低自動(dòng)閱卷的難度。”熊德意表示，對(duì)無(wú)法客觀(guān)化的主觀(guān)題，雖然設(shè)定全面的評(píng)測(cè)標(biāo)準(zhǔn)比較難，但是設(shè)定某一方面的評(píng)測(cè)標(biāo)準(zhǔn)還是可行的，比如針對(duì)單詞詞法、句子語(yǔ)法的評(píng)判，目前準(zhǔn)確率還是挺高的，這類(lèi)技術(shù)可以從實(shí)驗(yàn)室走向產(chǎn)品應(yīng)用。

也可以引入人工評(píng)測(cè)，對(duì)AI閱卷系統(tǒng)打分進(jìn)行復(fù)核與修正，通過(guò)這種反復(fù)的修正，累積大量的評(píng)測(cè)訓(xùn)練數(shù)據(jù)，讓機(jī)器評(píng)分變得更加智能。

“利用自然語(yǔ)言處理等人工智能技術(shù)，進(jìn)一步完善主觀(guān)智能評(píng)分系統(tǒng)，將是未來(lái)教育領(lǐng)域的一個(gè)非常重要的課題。”熊德意說(shuō)，以后的AI自動(dòng)批閱系統(tǒng)肯定會(huì)越來(lái)越“聰明”，人工智能與教育的結(jié)合也會(huì)越來(lái)越緊密。(記者陳曦)

AI閱卷系統(tǒng)“翻車(chē)”遭質(zhì)疑 可結(jié)合人工評(píng)測(cè)讓系統(tǒng)更智能

AI閱卷系統(tǒng)“翻車(chē)”遭質(zhì)疑可結(jié)合人工評(píng)測(cè)讓系統(tǒng)更智能