教師解放新前沿:讓機器給作文打分 - sa123

文章推薦指數: 80 %
投票人數:10人

在自動評分系統中,例如,評分預測器可以是句子長度、單詞數量、動詞數量、複雜單詞的數量等。

這些規則是否能做出合理的評估?至少派勒爾曼不這樣認為。

他說,預測規則通常 ... Skiptocontent 全球AI+智適應教育峰會 免費門票開放申請! 雷鋒網聯合乂學教育松鼠AI以及IEEE教育工程和自適應教育標準工作組,於11月15日在北京嘉裡中心舉辦全球AI+智適應教育峰會。

美國三院院士、機器學習泰斗MichaelJordan、機器學習之父TomMitchell已確認出席,帶你揭秘AI智適應教育的現在和未來。

掃碼免費註冊 計算機智慧的發展快速而高效。

強大的工具迅速更迭,教師的工作效率也顯著提高。

其中自動為文章打分的智慧軟體便應用甚廣。

作文是大規模語言考試中的必備題型。

透過作文可以綜合檢測應試者運用語言的水平。

當今的研究人員正努力研發機器人瞬時為書面文章評分。

機器人評分的受益者包含慕課(MOOC)供應者,還有那些在標準考試中含有作文測試的地區等。

關鍵問題是,計算機能夠像文學家一樣,識別出作文中微小而關鍵的那些差別嗎?恰恰是這些微小的差別,區分出了普通的好文章和卓越精彩文章之間的差異。

電腦能否捕捉到書面交流的關鍵要素,譬如合理性,道德立場,論證能力,和清晰程度? 自動評分的先驅——埃利斯·佩奇 1966年,計算機體積還很龐大,康涅狄格大學的研究員埃利斯·佩奇(EllisPage)就率先開始了對自動評分的研究。

計算機在那時是相對新穎的技術,主要用來處理最高階的任務。

在佩奇同齡人眼中,利用計算機進行文字輸入而非計算資料更是新奇的想法。

在當時的環境下,不管是從實用的角度、還是從經濟成本來看,利用計算機給作文評分這個想法都非常得不切實際。

與同代的人相比,佩奇是個眼光真正長遠的人。

埃利斯佩奇團隊開發出第一套作文自動評分系統PEG(ProjectEssayGrader)。

PEG(ProjectEssayGrade)、IEA(IntelligentEssayAssessor)和E-rater是國外最具代表性的三種作文自動評分系統。

國外作文自動評分系統述評 作文自動評分是近三年自然語言處理中的熱點問題。

大規模作文閱卷面臨兩大難題:其一,閱卷需要耗費大量人力、物力等資源;其二,評判作文質量具有很強的主觀性,閱卷的信度和效度不強。

近幾十年來,隨著計算機硬體和軟體效能快速提高,自然語言處理等技術獲得了長足的發展,國外一批作文自動評分系統相繼問世,這兩個長期困擾大規模作文閱卷的難題有望得到解決。

(一)PEG——一個重語言形式的評分系統 PEG於1966年由美國杜克大學的EllisPage等人開發。

PEG的設計者們認為,計算機程式沒有必要理解作文內容,大規模考試中尤其如此。

因此,他們在其網站上公開申明:“PEG不能理解作文的內容”。

在PEG的開發者看來,作文質量的諸要素是作文的內在因素,無法直接測量,因此,最為合乎邏輯的方法是從作文文字中提取一些能夠間接反映作文質量的文字表層特徵項。

概括起來,PEG的技術大體包括兩方面:其一,PEG使用的統計方法是多元線性迴歸,以此來確定各變數的beta值,這樣,基於訓練集作文而構建的統計模型便可以用來為新的作文進行自動評分。

這一技術合理而容易理解,後期出現的作文自動評分系統大多采用這一技術。

其二,自然語言處理技術是PEG提取變數的主要方法。

基於這兩種技術,PEG取得了很好的評分效果。

(二)IEA——一個重內容的評分系統 IEA是一種基於潛伏語義分析的作文自動評分系統,由美國科羅拉多大學的ThomasLandauer等學者開發。

與PEG顯著不同的是,IEA的設計者們在其網站上申明:“IEA是唯一能夠測量語義和作文內容的程式”。

據IEA的設計者們報告,潛伏語義分析主要分析文字的內容和學生作文中所傳達的知識,而不是作文的風格或語言。

將潛伏語義分析用於學生作文自動評分時,待評分的作文與預先選定的範文(訓練集)被視作為向量,對向量進行比較之後,可以得到每一篇待評分作文與範文在內容上的相似度得分。

該得分被直接視為機器評分或經過轉換後得到機器評分。

(三)E-rater——一個模組結構的混合評分系統 E-rater是由美國教育考試處於20世紀90年代開發,其目的是評估GMAT考試中的作文質量。

據Bursteineta.l(2001)、Coheneta.l(2003)和Valentieta.l(2003)的描述,E-rater自1999年以來已經進入操作階段,至2003年,共評定作文750,000篇。

E-rater的開發者們聲稱,他們的作文評分系統利用了多種技術,其中包括統計技術、向量空間模型技術和自然語言處理技術(Valentieta.l2003)。

憑藉這些技術,E-rater不光能夠像PEG那樣評判作文的語言質量,還能夠像IEA那樣評判作文的內容質量。

除此之外,E-rater還對作文的篇章結構進行分析。

國內主要英語作文自動評價工具軟體 在國內,業已頒佈的《國家中長期教育改革和發展規劃綱要(2010-2020年)》明確指出,資訊科技對教育發展具有革命性的影響,必須給於高度重視。

到2020年,全國範圍內應該力爭基本建成覆蓋城鄉各級各類學校的教育資訊化體系,以促進教育內容、教學手段和方法現代化。

就受眾群體龐大的英語教學領域而言,國內關於英語作文自動評價系統的研究起步晚,缺乏系統性的綜述研究。

(一)句酷批改網 由北京詞網科技有限公司研發,於2011年4月開始展開大規模使用。

它是一個基於語料庫和雲端計算技術的英語作文線上自動批改服務網站。

批改網的核心演算法是計算學生作文和標準語料庫之間的距離,再透過一個對映將距離轉化成作文分數和評語。

核心技術點是將每一篇輸入的作文分析成可測量的192個維度,分析過程充分利用了先進的自然語言技術和機器學習的方法,每篇作文先被自動切分成句子,然後對每個句子進行深度的語義分析,從中抽取詞、搭配、片語等結構化單元。

主要功能包括:分數即刻顯現、圖文報表式作文分析結果、錯誤自動批改、點評細緻入微、階段性進度報告、抄襲檢測等。

批改網是完全自主研發的國產軟體,從核心引擎到批改應用都是完全自主智慧財產權的。

它體現寫作教學的多樣性,鼓勵學生的自主性學習、探索性學習、團隊式學習、研究型學習等教與學新模式。

(二)冰果英語智慧作文評閱系統 杭州增慧網路科技有限公司聯合浙江大學、外語教學與研究出版社,以及中外人工智慧專家隊伍,依據語言教學理論、計算機網路教育技術、大規模資料探勘技術,研發出這一個性化智慧化的作文評閱軟體。

它可以即時給出作文評分,並從詞彙、語法、文風、內容等方面給出反饋。

但是,該系統目前無法做到使用者同一篇作文多次反覆修改,多次提交給系統,並得到系統的即時評閱和反饋。

(三)TRP教學資源平臺 經過對一線教師的調研及需求分析,高等教育出版社與清華大學楊永林教授的科研團隊合作研究,2010年10月正式對外發布了《體驗英語寫作教學資源平臺》。

2012年3月,該平臺的升級版產品《TRP教學資源平臺》面世。

它根據寫作教學需求,將數字化、網路化與區域化教學平臺進行了有機的整合,並涵蓋了資源建設、平臺構建、寫作學習、句型練習、語法測驗、作文評分、寫作研究、評語生成、作為考試等功能。

為高校英語教學的進一步改革提供了“專本碩博,四級貫通”的可操作平臺。

特別一提的是,學術寫作是該寫作軟體系統的特色版塊,從這一點來講,TRP教學資源平臺似乎對於研究型高校的學習者來說具有更加特殊的意義。

國內中文作文自動評價工具軟體概述 根據作文自動評分的原理,可以得到計算機評分的工作機制:首先提取出反映寫作水平的特徵,然後利用這些特徵和數學模型計算出分數。

並且確保這個分數最大程度的接近人工評分的結果。

漢語文字的計算機識別及加工能技術難題需要計算機領域的專家來攻克,而漢語的計算機自然語言處理技術有了突飛猛進的發展。

例如由於中文詞語之間沒有空格分割,使用計算機進行分詞是進行自動評分研究需要解決的首要問題。

隨著中文自然語言處理研究的發展,目前這一困難基本得到解決。

中國科學院計算技術研究所在多年研究基礎上,研製出了基於多層隱馬模型的漢語詞法分析系統ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),該系統不僅完全具備了中文分詞的功能,還有詞性標註和未登入詞識別的功能。

ICTCLAS分詞的正確率高達97.58%(最近的973專家組評測結果)。

另外北京大學、北京語言大學都有漢語自然語言處理工具成功開發,為漢語作文自動評分研究打下了基礎。

自動評分很好地做到了作文評價的客觀化,可以做到在不同的時間地點,在不同的計算機環境裡面對於同一篇作文的評價結果完全相同。

使用這些系統進行作文評分,不僅提高了作文評價效率、降低了人工成本,而且從根本上消除了評分者之間的不一致。

可以說,使用計算機進行自動評分是評價科學化發展的必由之路,是提高作文評分準確性和評分效率的最有效途徑。

在美國Erater已經成功的在ETS組織的託福等考試中應用,而日本Jess研製的目的就是處理日本大學入試的作文評分。

最近臺灣也研發出了一套“中文寫作自動化評分系統”(ACES),該軟體能自動分析初中基準測試考生的作文程度,並給於6個等級的評分。

人工與智慧,效率與質量的較量 當今時代,利用計算機自動評分的需求正在猛增。

在人工稽核流程中,每篇文章必須要有兩名教師打分,這樣的批閱成本很高,含有寫作部分的標準化測試批閱成本也愈發昂貴。

這種高昂的成本已經致使許多州在標準考試中,放棄了重要的寫作測試。

目前,自動評分系統還處在人機耦合的階段。

許多低年級的標準化考試使用自動評分系統,已經帶來不錯的收效。

然而,孩子們的命運並非完全掌握在計算機手中。

大多數情況下,在標準化測試中,機器人評分員只是取代了其中一位必要的評分員。

如果自動評分員的意見截然不同,這樣的文章就會被標記,並轉發給另一位人工評分員作進一步評估。

這個步驟的目的是保證評估質量,同時也有助於提高自動評分技能。

EdX總裁AnantAgarwal稱,智慧自動評分的優點不僅僅是能節省寶貴的時間。

新技術所實現的即時反饋對學習也有積極影響。

當今,人工給作文評分要花費好幾天、甚至是好幾周的時間才能完成,但是有了即時反饋,學生對自己的文章記憶猶新,可以立即彌補弱項,而且效率更高。

機器學習軟體剛開始應用時,教師必須將已經評好的幾篇文章輸入系統,作為好文章和壞文章的示例。

隨著越來越多文章輸入,軟體就越來越擅長這種評分工作,最終幾乎就能提供專門的即時反饋。

AnantAgarwal稱,需要做的工作還有很多,不過自動評分的質量已經很快接近真正教師的評分。

隨著更多學校的參與,EdX系統的發展越來越快。

截至今天,已有11所重點大學對這款不斷髮展的評分軟體貢獻了力量。

自動評分的應用效果及發展前景 為了改善這種趨勢,2012年,威廉和弗洛拉休利特基金會(WilliamandFloraHewlettFoundation)贊助了一項自動評分的競賽,以數千篇作文為樣本,用六萬美金作為獎勵,鼓勵能智慧取代教師評分的最佳方案。

休利特基金會教育專案負責人芭芭拉·周表示:“我們聽說機器演算法已經達到和人工評分同樣的水平,但我們希望建立一箇中立且公平的平臺來評估供應商的各種宣告。

事實證明,那些說法並非炒作。

” 自動評分的發展也吸引了慕課供應商的極大興趣。

影響線上教育普及的最大問題之一就在於個人評估文章。

一位教師可以為5000名學生提供授課資源,但卻不能對每位學生單獨進行評估。

有人說現行教育體制已不完善,而解決這一問題正是向打破這種體制所邁出的一大步。

在過去短短几年中,評分軟體的發展突飛猛進,現在的評分軟體已可以在大學中上線測試使用。

其中一個領先者就是慕課供應商EdX,同時也是哈佛和麻省理工旨在提高線上教育的聯合發起者。

休斯頓大學大學教育學院院長MarkShermis教授被視為世界上自動評分領域的頂尖專家之一。

在2012年,他指導了休利特競賽,對參賽者的表現印象非常深刻。

154個團隊參加了競賽,一萬六千多篇文章拿來做了對比。

冠軍團隊與人工評分者的一致度高達81%。

Shermis的意見非常積極,他表示這項技術肯定會在未來的教育中佔據一席之地。

從這次比賽以來,自動評分領域的研究已經取得了積極進展。

自動評分目前仍有幾項瓶頸和技術侷限 (一)評分標準未統一 自動評分系統還沒有科學深入地研究人類分級機之間的評估差異,且個體間的差異性很可能非常大。

很明顯的是,從最初主要依賴計算字數、檢測句子和單詞複雜性和結構的簡單工具,自動分級技術蒸蒸日上,有了很大的進展。

自動作文評分系統供應商是如何提出各種演算法的這一問題深深隱藏於智慧財產權規章背後。

然而,萊斯·派勒爾曼(LesPerelman),長期懷疑論者和麻省理工學院前本科生論文處主任有了一些答案。

他花費十年時間用各種方法惡搞不同的自動分級軟體,並且在某種程度上發動了一場有關全面抵制這些系統的運動。

分級軟體必須將不同文章進行比較,區分重點與非重點部分,然後將文章壓縮至一個數字以進行評級。

相應的,文章必須是在一個完全不同的主題下與不同文章具有可比性。

谷歌在比較不同目標文字和圖片與不同搜尋術語的匹配度時使用了相似的策略。

問題在於谷歌應用了數百萬資料樣本進行估值。

而一所學校最多隻能輸入幾千篇文章。

只有擁有龐大的資料庫,這個問題才能逐漸得到解決。

(二)基於規則的弊端 由於計算機無法讀取,解決過度擬合最可行的方法是為計算機明確指定一套具體的規則,來檢測文字是否講得通。

這一方法在其他軟體上都行得通。

目前,自動評級供應商大量投入來制定這樣的規則,因為要制定出一條檢測諸如論文這樣創造性文字質量的規則十分困難。

計算機傾向於用常見的方式解決問題:計算。

在自動評分系統中,例如,評分預測器可以是句子長度、單詞數量、動詞數量、複雜單詞的數量等。

這些規則是否能做出合理的評估?至少派勒爾曼不這樣認為。

他說,預測規則通常非常死板侷限,限制了評估的質量。

例如,他發現: —長篇文章的評級會比短篇的評級高(自動評級倡導者馬克舍米斯教授認為這只是個巧合。

) —同複雜思想相關的具體詞彙,例如“並且”“然而”,都會使文章得到更高的評級。

—使用“貪婪”這種複雜詞彙會比使用“貪心”這種簡單詞彙評級高。

他發現規則很難應用或者根本沒有應用的另一些例子是這個軟體不能分辨真實性。

(三)信度和效度有待提高 作文自動評分的目的是利用多學科技術有效地模擬人工評分,以達到快速評定作文質量的目的。

因此,在對計算機評分模型進行訓練時,訓練集作文人工評分的信度至關重要。

只有有效地模擬具有較高信度的人工評分,計算機評分才有意義。

根據Barrett(2001)和Stemler(2004)的研究,評分員間的信度達到r=0.70左右才是可以接受的,但現有作文評分系統在對訓練集作文進行人工評分時常常達不到這樣的信度要求,可能使得計算機評分模型很難模擬到人工評分的精髓。

評價對學生作文的評分是否合理,所需考察的另一個方面是評分的效度。

對作文進行評分一般至少需要從作文的語言質量、內容質量和篇章結構質量三個主要方面對作文的整體質量加以衡量。

自動評分系統在評分過程中並未能夠很好地兼顧這三個主要方面,因而評分的結構效度值得質疑。

PEG雖然對作文的語言質量有著較強的分析能力,但忽略了作文的內容質量和篇章結構質量,因而其評分結果存在較大的效度問題。

與此相類似,IEA突出了評分過程中作文內容的重要性,但忽略了作文的語言質量和篇章結構質量,顯然也存在較大的效度問題。

與這兩種系統相比,E-rater雖然以其模組結構兼顧了作文質量的三個主要方面,但每個模組的分析能力尚可進一步提高。

參考: AIInEducation — AutomaticEssayScoring https://edx-ora-2.readthedocs.io/en/latest/architecture/ai_grading.html -END- ◆◆◆ 推薦閱讀 17位行業領袖:我們眼中的北京安博會 亞馬遜繼續“激進”:Q3吐出超10倍淨利 全球AI+智適應教育峰會 大會官網(免費門票開放申請):https://gair.leiphone.com/gair/aiedu2018 雷鋒網聯合乂學教育松鼠AI以及IEEE教育工程和自適應教育標準工作組,在嘉裡中心舉辦全球AI+智適應教育峰會。

確認出席的嘉賓 美國三院院士、機器學習泰斗MichaelJordan、機器學習之父TomMitchell、SRI斯坦福國際研究院副總裁RobertPearlstein等頂尖學者; VIPKID、作業幫、滬江網等國內著名教育創業公司創始人; Knewton、Byju's、DreamBox、Duolingo、ALEKS、AltSchool等國外最具影響力的AI智適應教育公司。

免費門票開放中,點選“閱讀原文”立即申請! 文章導航 【專案進展】鐵獅門JACX大樓98%辦公空間已出租突發!商業格局鉅變!一個時代正在來臨….



請為這篇文章評分?