Nature|LLM正在重塑教育,所有學生都需要學習AI,RAG是解決幻覺的關鍵

0 評論 3196 瀏覽 5 收藏 22 分鐘

大模型的出現給許多行業帶來了重塑的機會,其中,教育行業也在LLM的影響下迎來變革。這篇文章里,作者就探討了LLM如何重塑教育行業這件事,一起來看一下,或許關注“AI+教育”的同學會感興趣。

LLM已經在重塑人類教育事業了!

Nature今天刊文,探討了教育行業的不同參與者,如何抓住LLM這個變革性的工具帶來的機會,重新改造這項自人類文明誕生以來就存在的行業。

文章鏈接:https://www.nature.com/articles/d41586-023-03507-3

在作者看來,現在已經不是討論以LLM為代表的AI技術是否應該進入課堂的時候了。

沒有人能夠再調撥時鐘,假裝回到那個沒有大語言模型的時代,對AI技術在教育領域的應用不聞不問。

不論是學生,老師,還是教育機構,乃至教育工具提供商,都應該積極地把握LLM帶來的機會,徹底地改變學習和教學的方式,才能應對教育行業即將發生的改變。

一、LLM已經進入了教育的方方面面

上個月,教育心理學家Ronald Beghetto要求一群研究生和教學專家以一種不同尋常的方式討論他們的工作。

除了相互交談,他們還與Beghetto設計的一系列以創造力為主題的聊天機器人進行了對話,這些聊天機器人不久將托管在Beghetto所在的亞利桑那州立大學(ASU)的一個平臺上。

這些機器人背后的技術與ChatGPT所采用的技術相同。

Beghetto讓機器人扮演各種角色,以鼓勵創造力,例如,故意挑戰別人的假設。

一位學生與聊天機器人討論了各種論文題目。講師們討論了如何設計課堂。

反饋非常積極。一位參與者說,他們以前曾嘗試使用ChatGPT來輔助學習,但發現它并不實用,這與Beghetto的聊天機器人不同。

另一位與會者問道 「這些東西什么時候能用?」這些機器人幫助參與者創造了更多的可能性,而這些可能性是他們在其他情況下感受不到的。

許多教育工作者擔心,ChatGPT的興起會讓學生更容易作弊。

然而,Beghetto和其他人正在探索大語言模型(LLM)(如ChatGPT)的潛力,并將其作為加強教育的工具。

使用LLM閱讀和總結大量文本可以節省學生和教師的時間,幫助他們專注于討論和學習。

ChatGPT能夠清晰地討論幾乎任何話題,這為使用LLM創造個性化的對話式教育體驗帶來了光明的前景。一些教育工作者將他們視為潛在的 「思想伙伴」,其成本可能低于人類輔導員,而且與人不同,他們幾乎隨時隨地都可以提供服務。

伊利諾伊州香檳市的科技公司Wolfram Research的聯合創始人Theodore Gray說:「一對一輔導是最有效的教學干預措施,但它非常昂貴,而且無法大規模應用?!?/p>

人們已經嘗試過軟件,但效果一般都不好?,F在,人們確實有可能制作出行之有效的教育軟件。格雷告訴《自然》雜志,Wolfram Research司目前正在開發一種基于LLM的輔導軟件,但沒有提供太多細節。

這種人工智能合作伙伴可以用來引導學生一步一步地解決問題,激發批判性思維,或者像Beghetto的實驗那樣,提高用戶的創造力,擴展思維的邊界。

田納西州納什維爾Vanderbilt大學未來學習與生成式人工智能計劃主任Jules White稱ChatGPT為 「思想的外骨骼」。

二、風險是真實存在的

自OpenAI于2022年11月推出ChatGPT以來,有關其在教育領域應用的大部分關注都是負面的。

LLM的工作原理是從包含數十億實例的訓練數據中學習單詞和短語之間的關系。根據用戶的提示,它們可以生成句子,包括作業題的答案,甚至整篇文章。

與以往的人工智能系統不同,ChatGPT的答案通常都寫得很好,而且似乎經過了精心研究。

這不禁讓人擔心,學生們會不會簡單地讓ChatGPT幫他們做作業,或者至少他們可能會依賴聊天機器人來快速獲取答案,而不明白其中的道理。

ChatGPT還可能輸出錯誤的信息,把學生引入歧途。

盡管聊天機器人在大量商業、法律和學術考試中表現出色,但它的不靠譜也是出了名的,如果問題的措辭稍有不同,它就會出錯,甚至會胡編亂造,這種問題被稱為幻覺。

加州大學洛杉磯分校的計算機科學家Wei Wang發現,GPT-3.5(免費版ChatGPT背后的技術)及其后續版本GPT-4在測試從大學教科書和考試中選取的物理、化學、計算機科學和數學問題時錯誤百出。

Wang和她的同事嘗試了不同的方法來檢測這兩個GPT機器人的輸出內容。

他們發現,GPT-4是表現得最好的產品,可以回答約三分之一的大學教科書中提出的問題。而它在一次考試中的得分率為80%。

三、擁抱LLM

盡管挑戰重重,一些研究人員、教育工作者和公司還是看到了ChatGPT及其底層LLM技術的巨大潛力。

與Beghetto和Wolfram Research一樣,他們正在嘗試如何在教育中更好地使用LLM。

有些公司使用ChatGPT的替代品,有些公司想方設法減少不準確性和幻覺,有些公司則在改進LLM的特定學科知識。

位于Raleigh的北卡羅來納州立大學專門研究教育系統的計算機科學家Collin Lynch認為,LLM在教育領域有非常大的作用。雖然風險同樣很高,但是可以用各種方法減輕。

位于巴黎的聯合國教科文組織(UNESCO)教育機構未來學習與創新主任Sobhi Tawil說,社會需要幫助學生了解LLM的優勢和風險,而不是一味地禁止他們使用這項技術。

今年9月,聯合國教科文組織發布了一份題為《教育與研究領域生成式人工智能指南》的報告。其中一項重要建議是,教育機構在使用ChatGPT等工具輔助學習之前,應對其進行驗證。

一些公司正在銷售基于OpenAI的LLM技術的商用輔助工具,如MagicSchool和Eduaide,幫助學校教師規劃課程活動和評估學生作業。

學術界也開發了其他工具,如賓夕法尼亞州立大學州立學院計算機科學家Rebecca Passonneau團隊開發的PyrEval,用于閱讀文章并提取關鍵要點。

在威斯康星大學麥迪遜分校教育心理學家Sadhana Puntambekar的幫助下,PyrEval在過去三年里每年為約2000名中學生在科學課上撰寫的物理論文5進行評分。

項目地址:https://github.com/serenayj/PyrEval

Puntambekar說,雖然這些作文沒有傳統意義上的分數,但PyrEval使教師能夠快速檢查作業是否包含關鍵主題,并在課堂上提供反饋,否則這是不可能的。

Puntambekar說,PyrEval的評分還能幫助學生反思自己的作業:如果人工智能沒有檢測到學生認為他們已經包含的主題,這可能表明需要更清楚地解釋這個想法,或者他們犯了小的概念或語法錯誤。

該團隊現在要求ChatGPT和其他LLM完成同樣的任務,并對結果進行比較。

四、引入人工智能導師

還有一些機構直接使用人工智能來輔導學生。除了ChatGPT,人工智能導師和助教——Khanmigo可能是使用最廣泛的基于LLM的教育工具。

該工具是OpenAI與位于加州山景城的非營利教育組織Khan Academy合作的成果。

通過使用GPT-4提供AI能力,Khanmigo可以在學生完成練習時為他們提供提示和輔導,從而節省教師的時間。

Khanmigo的工作方式與ChatGPT不同。它以彈出聊天機器人的形式出現在學生的電腦屏幕上。

學生可以與它討論正在解決的問題。

它的特殊之處在于,在將學生的問題發送到GPT-4之前,會自動添加一個提示,指示機器人不要給出答案,而是要提出很多問題,來引導學生自己得到答案。

該學院的首席學習官Kristen DiCerbo將這一過程稱為 「富有成效的斗爭」。

但她也承認,Khanmigo目前仍處于試驗階段,在有助于學習的問題和難到讓學生放棄的問題之間存在著微妙的界限。她說:「訣竅在于找出那條界線」。

據Khan Academy稱,Khanmigo于今年3月首次推出,本學年有超過2.8萬名美國教師和11至18歲的學生試用了這款人工智能助手。

用戶來自30多個學區。個人用戶每年支付99美元,學區每年為每個學生支付60美元,用于支付LLM的推理成本。

為保護學生隱私,OpenAI同意不將Khanmigo數據用于培訓。

但Khanmigo能否真正徹底改變教育,目前還不清楚。

LLM接受的培訓只包括句子中下一個最有可能出現的詞,而不是檢查事實。

因此,他們有時會出錯,有時也會直接給出答案。

DiCerbo說,為了提高準確性,Khanmigo發送給GPT-4的提示現在包含了正確答案以作指導。不過,它仍然會出錯,Khan Academy要求用戶在它出錯時告知平臺。

Lynch說,Khanmigo似乎效果不錯。但他提醒說 「我還沒有看到明確的驗證效果?!?/p>

Lynch強調,任何用于教育領域的聊天機器人都必須仔細檢查其語氣和準確性,不能侮辱或貶低學生,也不能讓他們感到迷茫。

「情感是學習的關鍵?!筁ynch說:「如果你以一種不友好的方式輔導學生,他就會對學習失去興趣?!?/p>

DiCerbo指出,Khanmigo會在各種情況下對每個學生做出不同的反應,她希望這能讓機器人比以前的輔導系統更有吸引力。

Khan Academy預計在2024年底或2025年初分享有關Khanmigo效果的研究成果。

其他教育輔導公司也在提供LLM作為學生的助手,或正在進行試驗。

位于加利福尼亞州圣克拉拉的教育技術公司Chegg在4月份推出了一款基于GPT-4的助手。

而位于北京的中國輔導公司TAL教育集團(學而思)則創建了一個名為MathGPT的LLM,并聲稱它在回答數學特定問題方面比GPT-4更準確。

五、檢索增強(RAG)能治愈AI的幻覺?

另一種創建人工智能學習伙伴的方法是將LLM與經過嚴格驗證的外部重點知識語料庫(如教科書或科學論文集)整合在一起。

這種檢索增強生成(RAG)方法的目標是避免無法驗證數十億文本來源中的錯誤信息,因為這些文本來源賦予了LLM會話的能力。

位于紐約的人工智能公司Merlyn Mind正在其開源Corpus-qa LLM中使用RAG,這個LLM面向教育領域。

與ChatGPT一樣,Merlyn Mind的LLM最初也是在大量與教育無關的文本中進行訓練的,這才能賦予了它對話能力。

但與ChatGPT不同的是,當LLM回答一個問題時,它并不僅僅依靠在訓練中學到的知識。

該公司首席執行官薩Satya Nitta說,相反,它還會參考特定的信息語料庫,從而最大限度地減少幻覺和其他錯誤。

Merlyn Mind還對其LLM進行了微調,如果他們沒有高質量的回答,就會 「坦白說自己不會」,并努力做出更好的回答,從而在很多情況下避免幻覺的產生,Nitta說。

ChatGPT能夠通過圖靈測試,所以尋找評估人工智能新方法的競賽正在進行中。

紐約市教育技術公司投資人GSV風險投資公司副總裁Claire Zau說,美國亞利桑那大學也在使用RAG,該校是采用LLM最大膽的大學之一。

美國亞利桑那州立大學經過最初的小范圍測試后,于10月份推出了一個工具箱,使其教職員工能夠通過網絡界面嘗試在教育中使用LLM。

這包括訪問六個LLM,包括GPT-3.5、GPT-4和谷歌的Bard,以及支持RAG功能。

像文章開頭提到的那樣,這些工具將使更多的研究人員(如Beghetto)能夠構建聊天機器人,與學生進行互動。

在首次研討會之后,Beghetto計劃在他正在開發的一門課程中使用這些機器人。

亞利桑那州立大學人工智能加速執行主任Elizabeth Reilley說,亞利桑那州立大學在其私有云中托管安全版本的LLM,以最大限度地減少對隱私的擔憂。

Reilley說,這些機器人已經對亞利桑那大學的教育產生了積極影響。

她舉例說,一個為亞利桑那大學化學入門課程創建的機器人使用RAG將GPT-3.5與PDF和PowerPoint課件結合起來。

她舉了一個測試用例:一個熱愛棒球的學生要求LLM解釋分子中偶極子-偶極子的相互作用。

學生的回答是一個準確的解釋,其中加入了 「棒球的隱喻,更能說明問題」。

位于坦佩的亞利桑那大學學習工程研究所執行主任Danielle McNamara說,使用通用LLM與RAG相結合的方法不同于以往的機器學習方法,以往的機器學習方法是訓練人工智能系統來模擬科學專家。

但是以往方法的工具缺乏幫助學生的通用能力,比如將棒球融入化學概念的能力。

McNamara和她的同事們現在計劃研究亞利桑那大學使用的聊天機器人和LLM工具的效果如何。

田納西州納什維爾的Vanderbilt大學等其他機構也在使用LLM。

該大學為某些課程的學生提供了付費版ChatGPT,包括專門的插件工具。

上海華東師范大學的研究人員創建了一個名為 「EduChat 」的專用教育LLM,將論文評估、對話式輔導和情感支持結合在一個聊天機器人中。

論文鏈接:https://arxiv.org/abs/2308.02773

該團隊以開放源代碼的形式分享了這一工具。盡管EduChat仍處于早期階段,但它是一個專用的教育LLM,而不是對現有通用模式(如ChatGPT或Bard)的套殼工具,這一點值得注意。

六、AI真的能改變教育嗎?

在教育領域使用人工智能的一個重要問題是,誰將有機會使用人工智能,Khanmigo等付費服務是否會加劇現有的教育資源不平等。

DiCerbo說,Khan Academy目前正在尋找慈善家和贈款,以幫助支付算力成本,并為資源不足的學校提供使用機會,在試點階段已將這些學校列為優先考慮對象。她說:「我們正在努力確保數字鴻溝不會出現?!?/p>

另一個挑戰是如何確保LLM提供的信息不帶偏見,并確保模型考慮到代表性不足群體的知識和觀點。

在LLM接受培訓的大部分文本中都沒有這類信息。位于坦佩的亞利桑那大學負責研究技術的副校長Sean Dudley說,RAG允許亞利桑那大學的LLM平臺向用戶提供答案的來源。

但這并不能消除偏見問題,但他希望這至少能提供透明度,讓學生們有機會批判性地思考信息的來源。Dudley說:「我們的使命之一就是關注誰被遺漏了?!?/p>

LLM對教育的好處最終是否會大于風險,目前還不清楚。

Lynch承認,LLM是一種強大的工具,但同時也需要關注其不足之處。他說:「我們并不是一夜之間就學會了飛行。」

他把這些工具所吸引的注意力比作以前人們對大規模在線開放課程和被稱為 「元宇宙 」的三維虛擬世界的教育用途的關注。

兩者都不具備某些人曾經預測的變革力量,但都有其用途?!笍哪撤N意義上說,這將是一樣的。它還不錯。它并不完美。它不是萬能的。這是一個新事物,」他說。

在聯合國教科文組織從事教育工作二十多年的Tawil說,了解人工智能的局限性至關重要。

LLM現在與人類的努力緊密相連,因此他說必須重新思考如何教學和評估學習。

「這是在重新定義是什么讓我們成為人類,是什么讓我們的智能獨一無二?!?/p>

參考資料:

https://www.nature.com/articles/d41586-023-03507-3#ref-CR3

編輯:潤

來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯網+”邁向“智能+”。

本文由人人都是產品經理合作媒體 @新智元 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!