在线观看国产精品普通话对白精品,99精品视频在线观看免费蜜桃,97久久超碰福利国产精品

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

腦極體

2019-04-15

0 評論 4524 瀏覽 5 收藏

16 分鐘

千萬不要誤以為AI無所不能，本文道出了AI真相——即使是目前最先進的人工智能系統，數學水平恐怕連高中生都比不上。

在這個春光明媚的周末，一部分成年人卻不得不在人間歷劫——輔導孩子寫作業！其中，又以數學這門學科的殺傷力最為強大。

為了挽救在“拋家棄子”邊緣瘋狂試探的家長們，不少K12教育平臺也開始與時俱進，相繼將人工智能加入了數學輔導豪華服務套餐。
DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

在各種新聞中，AI數學老師的畫風往往是這樣的：

羞辱學渣——只用10分鐘作答2017高考數學全國II卷，拿下100分（總分150分），“蒙題”都沒這么快；
碾壓學霸——在日本的大學入學標準考試、SAT等各國“高考”中拿到了超過平均分的成績，向狀元挺近；
取代人類教師——可以依據人為輸入的打分條件，對照答案，在瞬間判斷正誤。效率比人類判卷老師高出好幾個指數級不說，失誤率也更低。

想必令不少家長都心動了吧。在這里，我們要掃興地說出一個真相——即使是目前最先進的人工智能系統，數學水平恐怕連高中生都比不上。

DeepMind親自打臉：AI是個數學渣？

這年頭，靠AI判卷打分已經不是什么新鮮事了，給張標準答案小學生都能干。但靠AI教做數學題，就很有技術含量了，考驗的則是閱讀、推理、計算、邏輯等等綜合能力，最起碼也得是個“新西方”名師上陣吧。

如果用后者的課時費，請小學生來幫輔導作業，顯然大家都會認為是開玩笑。但要是把小學生換成AI，反而令家長們“不明覺厲”喜掏腰包了。

不過，DeepMind的最新研究結果表明，即使是目前最先進的AI系統，做起數學題來連普通高中生都比不過，是不是有點幻滅？

事情是這樣的，DeepMind參考英國16歲學齡兒童的數學考試，為AI（深度神經網絡）打造了一個包含200萬道題目的題庫，涵蓋了算術、代數、概率、微積分等各種題型，并派出了循環神經網絡(RNN)和Transformer兩位當下性能最先進的模型參與測試。

結果發現，除了四舍五入、加減法、比較大小、數字排序等等簡單問題之外，在一些涉及因式分解、混合計算之類的高級題目上，AI的表現都不如人類高中生，連及格線都沒達到。

到底咋回事，看看它們是怎么做題的就知道了。

LSTM和Transformer架構都包含一個編碼器和解碼器。不過在具體運算邏輯上，LSTM會將問題編碼為一系列由鍵和數值代表的具體位置（41+132），然后解碼器將下一個字符預測并映射出來（173）。

由于有注意力機制的參與，LSTM能夠預先處理一些邏輯上需要先完成的對象，比如知道在計算8/（1+3）時，應該先算出（1+3），這已經有點接近人類進行運算時的推理步驟了。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

Transformer的不同之處在于，它的編碼器能夠把數學題轉換成一個長度相同的序列，然后通過注意力機制與位置完全連接的層嵌入任意數學表達式，然后進行轉換。

這樣做的好處是，Transformer能夠使用相同數量的參數進行更多的計算（改變嵌入函數就可以了），同時擁有了連續的“內部記憶”，在處理包含多層級、關聯性的混合運算時更有優勢，能夠在更長的序列上給出正確答案。

計算方式搞清楚了，那么兩位模型的最終成績如何呢？

答案是，非常慘。Transformer模型只答對了14/40個問題，也就相當于E級水平。相比之下LSTM的分數就更慘不忍睹了，放在人類學生身上絕對是要被叫家長的節奏。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

（各個模型處理的參數規模和平均正確率）

AI學數學，到底難在哪兒？

一度在計算能力、決策效率上被AI按在地板上摩擦的人類，總算在數學上挽尊了，DeepMind可算也打臉一次AI了。不過，沾沾自喜不是重點，重點是如果要為AI建立一本數學錯題集的話，這次實驗究竟有哪些值得被記住和補上的短板：

其一是記性太差。

盡管研究人員引入了LTSM和transformer，這是兩個在處理機器翻譯等序列問題時表現優異的拳頭選手，但依然抵不住數學問題的復雜性和語言多樣性的壓力。在一些需要中間值計算的模塊中，比如因式分解、多項式函數等等，系統在進行“思考”時記憶力明顯不夠用，符號的遷移性和知識的擴展性也因此大受影響，直接影響了結果的準確性。

比如Transformer在計算單純的加減法或乘除法時，準確率高達90%，一旦加減乘除混合在一起，它就有點搞不清先后順序了，正確率就下降到只有50%。這表現連計算器都比不上，說明一旦要拼記性、背函數，機器就比不上人類了。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

另外，有算力，沒知識。

人類在解決數學問題時，應用到的不只有計算能力，還有各種各樣的認知技能。比如理解題干，需要將文字或圖標轉換為算術運算符；確定解題思路，需要進行推理，從已知的公理中找到最佳策略；具體的運算過程中，必須利用工作記憶來完成運算；保持成績的穩定性，就需要將已學到的知識和規則遷移到同一類型的問題中去……

顯然，神經網絡還沒有辦法在“舉一反三”的能力上與人類一較高下，它只能處理一些內部存儲的問題，無法超越已有的環境去理解新的東西。具體到各個實驗項目中，知識遷移能力越強的模型，在統一數據集上的數學成績也就越好。

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂

這些短板歸根結底，是由數學問題和工程效率的矛盾所導致的。

數學的本質是演繹證明，往往需要架設問題并根據已知抽象出新概念，根據需要提出新的公理體系。這是一個基于推斷的極其復雜的“規則游戲”。

而機器的計算模式則是遍歷型、經驗型的，即通過大規模數據來窮盡所有可能。

用DeepMind研究人員的話來說，數學包含了一個“自洽的宇宙”（self-consistentuniverse），“簡單的AI系統”想要挑戰數學命題，顯然不太可能。

以“博雷爾-確定性”（Borel-determinacy）為例，雖然只是一個二階算術命題，但其證明卻需要用到無窮階的算術。想要解決此類問題，就必須把AI系統設計得足夠寬泛，以至于能包容絕大部分數學運算。這時的規則量級與復雜性，就不是圍棋這種程度可比的了，而可能是在1T個2^中尋找一個最優決策。這時候AI的對手就不是數學，而是資源、金錢與時間了。

AI解題：到底應該懷抱怎樣的理想期待

說了這么多，用數學水平作為AI的“智商鑒定器”顯然有失偏頗，AI也不可能幫助人類解決那些數學領域的未解之謎。既然如此，讓AI學數學的意義到底是什么？或許我們必須重新理解二者的關系。

從當前背景來看，提高AI的數學能力大概有兩方面的積極作用：

一個是技術層面的，人工智能本質上就是一個將數學、算法和工程實踐緊密結合的領域，對數學的探索有利于推動AI技術的全面進步。

舉個例子，早在1964年，就有科學家試圖讓計算機做數學題了，當時提出的STUDENT（Bobrow1964）系統，就是輸入一段規定好描述方式的數學題，然后把自然語言（linguisticform）通過模式匹配映射到對應的函數關系表達。就像把“籠子里有一只雞和一只兔，問籠子里一共有幾只動物”轉換成“1+1=？”。這說明，數學要取得好成績，先得自然語言閱讀理解能力過關。

舉個例子，就因為沒有辦法將復雜的題目轉換成規范化的數學語言，國立情報學研究所不得不在2016年放棄讓人工智能系統Torobo-kun參加東京大學入學考試，2017年中國的“高考機器人”(863計劃中的類人智能項目)在對戰真人（43名高三文科班學生）時，也以低于人類平均分的成績落敗。

除了文字題干之外，有的題目還會涉及語音識別、圖像識別（看圖解題）等技術能力。換句話說，想要搞定數學題，語文課、邏輯課，一科都不能偏！

DeepMind新成果：讓AI做了200萬道數學題，結果堪憂