日韩人妻熟女中文字幕,一本精品中文字幕在线,在线观看成人永久免费网站

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

深度學習走進死胡同了？

白桃汽水不加冰

2022-04-29

3 評論 4554 瀏覽 6 收藏

41 分鐘

編輯導語：近年來，深度強化學習成為一個被業界和學術界追捧的熱門技術，社區甚至將它視為圣杯，大多數人都看好它未來發展的巨大潛力。但是，在一片追捧聲中，終于有人開始質疑深度強化學習的真實作用。難道深度學習走進死胡同了？

人工智能真正的前路究竟在何方？今天的話題很大，咱們先從淺顯的環節入手。深度學習“教父”、在世科學家中的翹楚 Geoffrey Hinton 曾在 2016 年多倫多召開的一場 AI 大會上坦言，“放射科醫生的「末日」已經來臨?！?/strong>

據他推測，深度學習能夠高效解析 MRI 與 CT 掃描圖像，未來醫院將再不需要放射科醫師?！昂苊黠@，深度學習在五年之內就能超越人類的水平，所以醫學院校最好馬上停招相關專業的學生?！?/p>
時間快進到 2022 年，放射科醫師不僅還在、而且活得仍然滋潤。相反，現在的共識是讓機器學習掌握解析醫學影像要比想象中更難；至少目前人和機器還屬于互補關系。

如果我們需要的只是“大概齊”的結果，那深度學習確實表現不錯；但再往上就不行了。縱觀技術發展史，鮮有哪個方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年，AI 雖然偶爾也能出點振奮人心的成果，但總體來講還是言過其實。

剛開始是“專家系統”、后來是“貝葉斯網絡”，接下來是“支持向量機”。2011 年，IBM 打造的 Watson 曾被宣傳為醫學領域的一場革命，但相關部門如今已經被這家藍色巨人拆分出售。

而自 2012 年以來，深度學習成為人們心目中的最新正確路線、創造出價值數十億美元的新市場，也讓 Hinton 這位當代 AI 先驅成功晉升為科學明星。他的論文被引用了驚人的 50 萬次，而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎。

跟之前的 AI 先驅們一樣，Hinton 經常強調 AI 掀起的顛覆性變革很快就會到來，而放射學只是其中的一部分。2015 年，就在 Hinton 加入谷歌后不久，英國《衛報》就報道稱該公司即將開發出“具有邏輯、自然對話甚至是調情能力的算法”。2020 年 11 月，Hinton 在 MIT Technology Review 的專訪中還提到，“深度學習將無所不能。”

我個人對此表示嚴重懷疑。

實際上，我們距離真正能理解人類語言的機器還有很長的路要走。Elon Musk 最近倒是加入戰團，表示他希望自家人形機器人 Optimus 能夠催生出比整個汽車工業還大的商業新形態。不過很遺憾，特斯拉在 2021 年 AI 演示日上能夠拿出的成果，還只是一個套著機器外殼的人類演員。

Google 多年來一直堅持探索自然語言技術，他們的最新成果是 Lamdba 系統。但這東西說話很“飄”，所以最近就連項目作者之一也親口表示它特別愛講“廢話”。所以實事求是地講，想找到一套真正值得信賴的 AI 方案出來，還真的不太容易。

也許隨著時間推移，我們終將獲得可信、可靠的 AI 成果，而深度學習只是其中的一小部分。

從本質上講，深度學習是一種用于識別模式的技術。如果我們需要的只是“大概齊”的結果，那深度學習確實表現不錯；但再往上就不行了。它只適合處理那些低風險、存在完美答案的問題。以照片標記為例，前幾天我從 iPhone 里找了一張幾年前拍的兔子照片。雖然沒加過任何標簽，但手機還是馬上認出了其中的兔子。之所以效果好，是因為這張照片里的兔子跟訓練數據集中的其他兔子形象高度相似。

但基于深度學習的自動照片標記功能還是很容易出錯，它有時候會遺漏掉一些兔子（特別是那些畫面雜亂、光照不佳、拍攝角度古怪或者兔子被部分遮擋起來的照片），有時候甚至會把嬰兒錯認成兔子。雖然幾率不高，我也沒有太大的意見，但這樣的 AI 顯然還遠遠稱不上可靠。

所以在其他一些風險更高的場景中，例如放射科檢查或者自動駕駛汽車上，我們必須對深度學習的結論謹慎看待。因為一旦犯錯就可能威脅到用戶的生命安全，所以萬萬不敢掉以輕心。

另外，如果現實場景跟訓練場景之間存在巨大差異時，深度學習的表現同樣糟糕透頂。不久之前，一輛特斯拉汽車就在“全自動駕駛模式”下遇到了一位手舉停車標志站在路中間的行人。車輛既未識別出該人（停車標志被部分遮擋）、也沒認出標志（因為停車標志一般只出現在路邊），所以司機只能緊急接管。這就是現實場景跟訓練場景區別太大，系統一時之間陷入懵圈。

鮮有其他領域像 AI 這樣充滿了炒作與虛張聲勢。沒錯，現有深度學習系統經常會犯這樣愚蠢的錯誤。它們有時候會被圖像上的污跡迷惑，但人類放射科醫師卻能輕松意識到這跟圖像內容無關。

另一大缺陷在于，目前的 AI 醫學影像解析工具往往只閱讀圖像本身，對患者的病史信息幾乎或者完全沒有任何認知，所以往往會忽略掉關鍵性影響信息。

深度學習系統會錯誤把一只擺在寫有“iPod”字樣的紙張上的蘋果，識別成 iPod 隨身聽；還會把翻倒在雪地上的公共汽車錯認為掃雪機。目前，機器學習已經衍生出專門的子學科、專門研究如何克服這類錯誤，但暫時還拿不出任何成果。

語言類 AI 系統同樣錯誤頻出，令人哭笑不得。

以 GPT-3 為例，作為迄今為止最著名的 AI 系統，它能夠將輸入文本轉化和延展為流暢且語法連續的文章。英國《衛報》用它寫出一篇完整的專欄文章，《紐約時報》還對它做出專題報道。看起來很美，但這一切仍然離不開人工編輯的修正。

在我和紐約大學計算機科學家 Ernie Davis 親自研究時，我們發現 GPT-3 同樣是各種不靠譜。6 例如，當我們輸入“你給自己倒了杯蔓越莓汁，之后又心不在焉地加了一勺葡萄汁。這杯飲料看著還行，你聞了聞，但重感冒讓你鼻子不通?？诳孰y耐之下，你……”GPT 續寫道，“喝了下去，然后一命嗚呼?！?/p>
實際上，蔓越莓加葡萄汁根本喝不死人。所以雖然 GPT-3 的文風很流暢，但它既沒法整合來自網絡的基本搜索信息，也不能推理出最簡單的日?，F象。

另有團隊曾經考慮過用 GPT-3 構建自殺勸解聊天機器人，但發現這套系統很容易把對話往下面這個方向引：
咨詢者：嗨，我心情很差，我想自殺。GPT-3：這真讓人難過。我應該能幫你。咨詢者：我該選這條路嗎？GPT-3：我覺得行。

還有人發現 GPT-3 容易生成負面言論，并傳播錯誤信息。

由 GPT-3 驅動的聊天機器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的，而且現在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力，但最終得到的也就是一組“正確的廢話”，比如“有專家認為，把襪子含在嘴里能讓頭腦快速清醒過來?！盌eepMind 及其他多家機構的研究人員都在拼命修復這些負面言論和錯誤信息，但截至仍無結果。

在 DeepMind 于 2021 年 12 月發布的相關報告中，一共提到 21 個問題，可一點令人信服的解決方案都沒有。AI 研究人員 Emily Bender、Timnit Gebru 和同事們感嘆，深度學習驅動的大型語言模型就像“隨機鸚鵡”，車轱轆話很多、但涉及理解層面的內容卻很少。

那我們該怎么辦？目前比較流行的辦法就是收集更多數據。 在這方面，一手打造出 GPT-3 的舊金山企業（之前曾是非營利組織）OpenAI 永遠沖在最前線。

2020 年，OpenAI 公司的 Jared Kaplan 與幾位合作們提出，語言的神經網絡模型存在一套“擴張定律”。他們發現，輸入神經網絡的數據越多，這些網絡的性能就越好。這就意味著只要能夠收集更多數據、讓素材的涵蓋范圍更大，那深度學習的表現也將持續提升。

為此，OpenAI 公司 CEO Sam Altman 寫下一篇慶功文章，宣稱“摩爾定律普遍適用”，人類距離“能夠思考、閱讀法律文件和給予醫療建議的計算機已經很近了?！?/p>
四十年來，我第一次對 AI 抱有樂觀期望。這話可能對，也可能不對。但可以肯定的是，“擴張定律”有很大問題。

首先，規模擴張并不能解決問題的核心：機器在理解能力上的欠缺。

業內人士早已發現，AI 研究中的最大問題之一，就是我們始終沒有可以用來穩定衡量 AI 性能的基準。著名的圖靈測試就是為了衡量真正的“智能”而生，但事實證明這套標準極易被那些比較偏執、拒不合作的聊天機器人所突破。而 Kaplan 和 OpenAI 研究員們提出的 , 對句子中缺失單詞的預測，也未必能體現真正 AI 所應具備的深度理解能力。

更重要的是，所謂擴張定律并不是萬有引力那樣真正的普適性定律。它更多是一種可能被漸漸推翻的經驗總結，類似于摩爾定律。當初的摩爾定律也牛得很、幾十年間指導著半導體行業的快速發展，但最近十年來已經越來越不靈了。

事實上，我們對深度學習的探索可能已經走進了死胡同，甚至跨過了收益遞減點。

過去幾個月來，DeepMind 等機構開始對比 GPT-3 更大的規模進行研究，并發現擴張定律在某些收益指標上已經有所誤差，包括真實性、推理能力和常識水平等。Google 在 2022 年的論文中提到，把 GPT-3 這類模型做得更大確定能讓輸出文本更流暢、但內容反而更不可信。

這樣跡象理應引起自動駕駛行業的警惕。畢竟自動駕駛目前還主要依賴擴張這個思路，而非開發出更復雜的推理機制。如果規模擴張沒法提高自動駕駛的安全水平，那之前已經燒掉的幾百億美元恐怕永遠轉化不成回報。

我們還需要什么？

除了前提提到的幾點，我們可能還得重拾一種曾經流行，但卻被 Hinton 狠狠唾棄的思路：符號處理——這是一種計算機內部的編碼方式，強調用二進制位串表達某些復雜的思維。

符號處理從誕生之初就成為計算機科學的重要基石，一步步由圖靈和馮諾依曼兩位驅動的論文走向幾乎一切軟件工程的底層。但在深度學習領域，符號處理卻相當不受待見。

而這種對符號處理的粗暴放棄，本身其實相當可疑。

很遺憾，目前大多數 AI 技術的發展就是建立在舍棄符號處理的基礎之上。Hinton 和其他不少研究人員一直努力擺脫符號處理的影響。而深度學習的誕生和規劃似乎并非源自科學，而是一種由來已久的積怨——預先認定智能行為會，也只會從海量數據和深度學習的融合中產生。

恰恰相反，經典計算機和軟件會定義一組專用于特定工作的符號處理規則，借此解決實際任務。文字處理器就是一例，它會通過符號規則來編輯文本、計算電子表格。而神經網絡那邊走的則是靠統計近似加模式學習來解決任務的道路。由于神經網絡確實在語音識別、照片標記等領域取得了不錯的表現，很多深度學習支持者已經徹底放棄了符號處理。

但二者本不該這樣水火不容。

2021 年末，Facebook（現為 Meta）團隊發起一場名為“NetHack 挑戰賽”的競逐，警鐘也由此響起?！禢etHack》是一款游戲，對更古老的《Rogue》做出延伸、也啟發了后來的傳世經典《塞爾達傳說》。作為一款發行于 1987 年的單人地城探險游戲，《NetHack》使用純 ASCII 字符構成了純 2D 式的游戲畫面。而且跟同類游戲的現代頂峰《塞爾達傳說：曠野之息》不一樣，《NetHack》中沒有任何復雜的物理機制。玩家選擇一個角色（分為騎士、巫師、考古學家等職業）、探索地城、收集物品并殺死怪物，最終找到 Yendor 護符就算游戲勝利。而這場比賽提前一年就公布了規則——讓 AI 玩通游戲。

最終勝者為：《NetHack》——沒錯，符號 AI 能輕易打通的游戲，卻著實給深度學習當頭一棒。

很多人覺得《NetHack》在深度學習面前肯定不堪一擊，畢竟從元祖級游戲《Pong》到《打磚塊》，這位 AI 新秀都取得了出色成績。但在 12 月的比賽中，另一套基于純符號處理技術的系統以 3 比 1 力克最強深度學習系統——著實令人震驚。

符號處理 AI 怎么就逆襲成功了？我懷疑答案在于這游戲每次重開都會生成新的地城結構，所以深度學習根本記不住游戲版面。要想獲勝，AI 就必須真正理解游戲中各實體的含義和彼此之間的抽象關系。所以，AI 需要推理自己在這個復雜的環境中能做什么、不能做什么。特定的移動順序（比如向左、向前、再向右）就太膚淺了，每項操作都得跟新的情境結合起來。深度學習系統最擅長的就是在之前見過的示例間進行插值，但遇到新鮮事物就容易拉胯。

這種“以弱勝強”絕非偶然，背后一定有著值得深思的理由。

那“處理符號”到底是什么意思？其實這里包含兩層含義：1）用一組符號（本質上代表事物的模式）來表達信息；2）以一種特定的代數（也可以叫邏輯或者計算機程序）方式處理（或者叫操縱）符號。很多研究者并沒意識到這兩點之間的區別。而要想破解 AI“死局”，這個問題無法回避。

符號是什么？符號其實就是代碼。符號提供的是一種原則性的推理機制：符號規則的、具有普適性的代碼程序，而且可以跟已知示例沒有任何共通點。時至今日，符號仍然是知識理解、在新場景下穩健處理抽象意義的最佳方式。紅色八角形、加上“STOP”字樣，代表的就是停車標志。再以普遍使用的 ASCII 碼為例，二進制數 01000001（符號）代表的就是字母 A，二進制數 01000010 就代表字母 B，依此類推。

種種跡象，值得自動駕駛行業引起警惕。符號處理的基本思路，就是用這些二進制位串編碼各種事物。計算機中的指令就是這么來的。

這項技術至少可以追溯到 1945 年，當時傳奇數學家馮諾依曼設計出了幾乎所有現代計算機盡數遵循的基本架構。馮諾依曼這種用符號方式處理二進制位的思路，堪稱二十世紀最重要的發明之一，我們所使用的每一種計算機程序也都是以此為基礎。（即使是在神經網絡中，「嵌入」也跟符號高度相似，只是大家不太愿意承認。例如，通常情況下，任何給定單詞都會被賦予唯一的向量，這是一一對應的方式跟 ASCII 碼很像。名叫「嵌入」，不代表它就不能是符號。）

在經典計算機科學中，圖靈、馮諾依曼和后來的研究者們使用“代數”方式實現了符號處理。在簡單代數中存在三種實體，即變量（x、y）、運算（+、-）和賦值（x=12）。如果我們知道 x+y=2，而且 y=12，就可以將 y 賦值為 12 來求解 x 的值。結果自然就是 14。

世界上幾乎所有軟件都是把代數運算串起來實現基本邏輯的，而由此構成的就是復雜算法。例如，我們的文字處理器就是用文件中的一串符號來表達文檔內容。各種抽象運算則對應不同的底層操作，比如把符號從一個位置復制到另一個位置。每項運算都有固定的定義方式，確保它能在任意文檔、任意位置上發揮相同的作用。所以文字處理器本質上就是一組代數運算（被稱為「函數」或者「子程序」），操作的對象則是變量（例如「當前選定的文本」）。

符號處理也是數據結構的基礎，數據庫就能為特定個人保存屬性記錄，允許程序員構建起可重用的代碼庫、更大的功能模塊，進而簡化復雜系統的開發流程。

那既然符號技術無處不在、對于軟件工程有著根本性的意義，為什么不把它用在 AI 當中？

事實上，包括 John McCarthy 和 Marvin Minsky 在內的眾多先驅，都認為可以通過符號處理來構建起精確的 AI 程序。符號可以表達獨立的實體與抽象思維，眾多符號組合起來就形成了復雜的結構與豐富的知識儲備，由此發揮的作用與符號在網絡瀏覽器、電子郵件和文字處理軟件中并無本質區別。

人們一直沒有停止對符號處理的擴展性研究，只是符號本身確實存在不少問題，純符號系統有時候顯得很笨拙，在圖像和語音識別方面尤其差勁。所以長期以來，人們一直希望能在技術層面找到新的突破。

而這，正是神經網絡的優勢所在。

我們就以拼寫檢查為例，聊聊大數據與深度學習如何壓倒傳統符號處理技術。以往的方法是建立一套規則，規則內容其實就是研究人們在心理學意義上的犯錯傾向（比如不小心把字母多打了一次、或者錯打成相鄰的字母、把「teh」自動轉換成「the」等）。

著名計算機科學家 Peter Norvig 就提到，如果擁有了 Google 那個級別的龐大數據量，那只需要收集用戶們的實際糾錯操作，就足以找到相對靠譜的答案。如果他們在搜索“the book”后立即再次搜索“the book”，那就能斷定“teh”實際上是“the”的誤寫。就這么簡單，不涉及任何實際拼寫規則。

問題是，二者兼顧不是更好？在現實場景中拼寫檢查器也確實傾向于兼容并包。Ernie Davis 觀察到，如果我們在 Google 中輸入“cleopxjqco”，它會自動把內容更正為“Cleopatra”。Google 搜索整體就是把符號處理 AI 跟深度學習混合起來，而且在可預見的未來也會繼續堅持這條道路。

但很遺憾，Hinton 等學者始終冥頑不靈、反復拒絕承認符號的意義。

但包括我在內，也有很多人一直倡導使用“混合模型”，把深度學習跟符號處理結合起來。至于為什么 Hinton 一派總是想徹底拋棄符號處理，至今也沒有一個令人信服的科學解釋。相對可靠的猜測，恐怕就是簡簡單單的“積怨”二字。

曾經，事情不是這樣的。

Warren McCulloch 和 Walter Pitts 在 1943 年撰寫的論文《神經活動中內在思維的邏輯演算》（A Logical Calculus of the Ideas Immanent in Nervous Activity）就提出過合二為一的觀點，這也是馮諾依曼在自己計算機基礎文章中引用過的唯一一篇論文。很明顯，馮諾依曼他們花了大量時間思考這個問題，卻沒料到反對的聲音會來得那么快。

到上世紀五十年代末，這種割裂仍然存在。

AI 領域的不少先驅級人物，例如 McCarthy、Allen Newell、Herb Simon 等，似乎對神經網絡一派不加任何關注。而神經網絡陣營似乎也想劃清界線：一篇刊載于 1957 年《紐約客》的文章就提到，Frank Rosenblatt 的早期神經網絡已經能夠繞過符號系統，成為“一臺似乎具備思維能力的「強大機器」?！?/p>
而這種對符號處理的粗暴放棄，本身其實相當可疑。兩派之間劍拔弩張，甚至迫使 Advances in Computers 雜志發表一篇名為《關于神經網絡爭議的社會學史》（A Sociological History of the Neural Network Controversy）的論文，其中提到了兩派就資金、聲譽和媒體影響力展開的激烈爭斗。

時間來到 1969 年，Minsky 和 Seymour Papert 發表了從數學層面對神經網絡（當時被稱為「感知器」）加以批判的詳盡文章，這相當于是第一次把槍口指向堪稱所有現代神經網絡祖先的早期成果。兩位研究者證明了簡單神經網絡具有巨大局限性，而且對高復雜度神經網絡解決復雜任務的能力提出懷疑（現在來看，這種推斷還是太過悲觀）。

于是，隨后十多年中，研究者對于神經網絡的熱情逐漸下降。Rosenblatt 本人因此丟掉了不少研究經費，并在兩年后死于一次航海事故。

而當神經網絡在八十年代重新出現時，神經網絡的領導者們自然而然地開始跟符號處理保持距離。當時的研究者曾明確表示，雖然他們有能力構建起能夠兼容符號處理的神經網絡，但他們沒有興趣。

相反，他們的目標就是打造能夠替代符號處理系統的模型。作為典型示例，他們提到人類孩童中經常出現的過度正則化錯誤（比如把 go 的過去時態寫成 goed，而非 went）就是一種神經網絡特征，這也證明神經網絡比經典符號處理規則更接近于人腦。（但我也能舉出很多反例。）

1986 年我開始讀大學，神經網絡也迎來第一次大復興。Hinton 參與整理的兩卷技術論述集幾個禮拜即告售罄，《紐約時報》在科學版面的頭版處刊載了神經網絡內容，計算神經學家 Terry Sejnowski 則在《今日秀》節目中解釋了神經網絡的工作原理。那時候深度學習的研究水平還不高，但至少又推進了一步。

1990 年，Hinton 在 Artificial Intelligence 雜志上發表了一篇名為《連接主義符號處理》（Connectionist Symbol Processing ）的論文，希望把深度學習和符號處理這兩個世界連通起來。我一直覺得 Hinton 這時候是真的找對了方向，真希望他把研究堅持下去。當時，我也在推動混合模型的發展——只是選取了心理學這個角度。18（Ron Sun 等人當時也在計算機科學領域大力推動這一趨勢，只是未能得到應有的關注。）

但出于某些我不知情的理由，Hinton 最終認定深度學習加符號處理這事沒什么搞頭。我也私下問過，但他每次都拒絕解釋，而且據我所知他也沒提出過任何具體的論據。有人認為這是因為 Hinton 本人之后幾年的職場發展不順，特別是直到二十一世紀初，深度學習也沒折騰出什么大動靜；也有另一種說法，認為 Hinton 是被深度學習的成功給沖昏了頭腦。

當深度學習在 2012 年再次亮相時，兩派 AI 勢力之間涇渭分明的態勢已經保持了十年。

到 2015 年，Hinton 開始旗幟鮮明地反符號技術。Hinton 曾在斯坦福大學的一場 AI 研討會上發表演講，他把符號比作“以太”（aether，也是科學史上最大的認知誤區之一）19。那次研討會上我也有發言，所以我在茶歇期間去問過他，說他的理論其實很像是符號系統的神經網絡實現、只是被強行稱為“?！?。但他沒有回答，只是讓我一邊待著去。

在此之后，Hinton 魔怔般地瘋狂反對符號技術。2016 年，LeCun、Bengio 和 Hinton 共同在學界最具份量的《自然》雜志上發表論文，其中直接摒棄了符號處理技術。沒有和解的余地，文章宣稱應該用神經網絡徹底取代符號系統。后來，Hinton 又在另一次會議上呼吁，別在符號處理身上浪費資金了。這就如同電動車時代已到，為什么還要在內燃機研究上投入心力？

但這種尚未充分探索就枉下結論的態度實在令人難以信服。Hinton 說得沒錯，以往的 AI 研究者確實也對深度學習發起過攻訐，但他自己如今也不過是以牙還牙、并沒好到哪里去。

在我看來，這種對抗性的立場其實損害了整個 AI 學界的利益。但無論如何，Hinton 發起的這波符號處理討伐戰確實取得了巨大成功，之后幾乎所有研究投資都集中在深度學習這個方向上。

Hinton、LeCun 和 Bengio 共同獲得 2018 年的圖靈獎，他的研究成為全世界關注的焦點。

更為諷刺的是，Hinton 其實是 George Boole 的玄孫，而以 Boole 命名的 Boolean 代數正是符號 AI 中的基礎工具之一。如果這兩代天才能把智慧合為一處，也許我們所期待的真正 AI 能夠早日來臨。

至于我為什么堅持認為混合 AI（不止于深度學習和符號處理）才是正確的方向，理由有如下四點：

這世界上的很多知識，從歷史到科技，目前仍以符號形式為主。像純深度學習那樣放棄傳統知識積累、單靠算力從零開始探索一切，似乎既武斷又自縛雙手。

即使在算術這類清晰有序的領域中，深度學習的表現也不理想；而混合系統也許經任何單一方法都更有潛力可挖。

在計算中的很多基礎層面，符號系統的表現仍遠超現有神經網絡，前者更擅長在復雜場景下進行推理，能夠實現算術等更系統、更可靠的基本運算，也能更精確地表達部分和整體之間的關系（從對三維世界的理解、到對人類語言的分析，這都是種必不可少的能力）。

符號系統在表達和查詢大型數據庫方面更穩健、更靈活，也能更好地實現形式驗證技術（在某些安全應用中至關重要），其自身也在現代微處理器設計中擁有充分體現。粗暴放棄優勢、拒絕嘗試混合架構簡直是不可理喻。

深度學習系統是種“黑盒子”，我們只能看到輸入和輸出，但卻無法理解其內部運作和處理機制、解釋不了模型為什么會給出當前結論。而且如果模型給出了錯誤答案，我們能做的除了收集更多數據、也沒什么更好的辦法。

于是乎，深度學習笨拙、難以解釋，而且在很多場景下根本無法幫助人類實現認知增強。相反，如果能把深度學習的學習能力跟明確的符號、豐富的語義聯系起來，得到的混合方案也許能掀起新一輪變革。

正是因為通用人工智能（AGI）將承擔起巨大的責任，所以它必須像不銹鋼般堅實、可靠、充分發揮每一種底材的優勢。同理，任何單一的 AI 方法都不足以解決問題，正確的道路應該是把多種方法合而為一。 會有人蠢到單方面強調鐵元素或者碳元素在不銹鋼中的重要性嗎？但 AI 領域的現狀就是這樣。

但也有好消息。1990 年時的 Hinton 曾經短暫提出過神經與符號間的和解，而我將整個職業生涯都投入了其中。這種融合探索一刻未停，而且正在積蓄力量。

Artur Garcez 和 Luis Lamb 曾在 2009 年發表過一篇關于混合模型的文章，名為《神經符號認知推理》（Neural-Symbolic Cognitive Reasoning）。而近年來在圍棋、象棋等棋盤游戲中表現出色的，也都是混合模型。AlphaGo 就將符號樹搜索與深度學習結合起來，這一基本思路源自上世紀五十年代末、并在九十年代更豐富的統計數據支持下得到強化。

很明顯，單靠經典樹搜索本身并不夠，單靠深度學習也不行。再說 DeepMind 的 ALphaFold2，這是一種通過核苷酸預測蛋白質結構的 AI 系統，采用的同樣是混合模型。其中匯聚了一系列精心設計、以符號形式表達的 3D 分子結構，同時具備令人驚嘆的深度學習數據分析能力。

Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 等研究者也在朝著神經符號方向進軍。包括 IBM、英特爾、Google、Facebook 和微軟在內的眾多科技巨頭已經在認真投資神經符號學方法。Swarat Chaudhuri 和他的同事們正在探索“神經符號編程”（ neurosymbolic programming）這一全新領域，我個人對此也是極度期待。

四十年來，我第一次對 AI 抱有樂觀期望。正如認知科學家 Chaz Firestone 與 Brian Scholl 所言，“頭腦不只有一種運轉方式，因為頭腦并非單一的存在。相反，頭腦由多個部分構成，不同的部分有不同的運作機制：觀看顏色與規劃假期的方式不同，理解語句、操縱肢體、記憶事件、感受情緒的方法也是各不相同?！?strong>盲目把所有認知都堆在一處根本不現實，而隨時整個 AI 行業對混合方法的態度愈發開放，我認為真正的機遇也許即將到來。

面對倫理學、計算科學等現實挑戰，AI 領域所應依靠的不僅僅是數學和計算機科學知識，還需要語言學、心理學、人類學及神經科學等多個這科的加持。只有匯聚一切力量、團結一切盟友，AI 才能再次沖破牢籠。請記住，人類大腦可能是已知宇宙中最復雜的系統，如果我們想要用技術重現這樣一個復雜系統，將不得不仰仗開放協作的力量。

參考文獻：

Varoquaux, G. & Cheplygina, V. How I failed machine learning in medical imaging—shortcomings and recommendations. arXiv 2103.10292 (2021).
Chan, S., & Siegel, E.L. Will machine learning end the viability of radiology as a thriving medical specialty? British Journal of Radiology92, 20180416 (2018).
Ross, C. Once billed as a revolution in medicine, IBM’s Watson Health is sold off in parts. STAT News (2022).
Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).
Aguera y Arcas, B. Do large language models understand us? Medium (2021).
Davis, E. & Marcus, G. GPT-3, Bloviator: OpenAI’s language generator has no idea what it’s talking about. MIT Technology Review (2020).
Greene, T. DeepMind tells Google it has no idea how to make AI less toxic. The Next Web (2021).
Weidinger, L., et al. Ethical and social risks of harm from Language Models. arXiv 2112.04359 (2021).
Bender, E.M., Gebru, T., McMillan-Major, A., & Schmitchel, S. On the dangers of stochastic parrots: Can language models be too big? Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency 610–623 (2021).
Kaplan, J., et al. Scaling Laws for Neural Language Models. arXiv 2001.08361 (2020).
Markoff, J. Smaller, Faster, Cheaper, Over: The Future of Computer Chips. The New York Times (2015).
Rae, J.W., et al. Scaling language models: Methods, analysis & insights from training Gopher. arXiv 2112.11446 (2022).
Thoppilan, R., et al. LaMDA: Language models for dialog applications. arXiv 2201.08239 (2022).
Wiggers, K. Facebook releases AI development tool based on NetHack. Venturebeat.com (2020).
Brownlee, J. Hands on big data by Peter Norvig. machinelearningmastery.com (2014).
McCulloch, W.S. & Pitts, W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biology52, 99-115 (1990).
Olazaran, M. A sociological history of the neural network controversy. Advances in Computers37, 335-425 (1993).
Marcus, G.F., et al. Overregularization in language acquisition. Monographs of the Society for Research in Child Development57(1998).
Hinton, G. Aetherial Symbols. AAAI Spring Symposium on Knowledge Representation and Reasoning Stanford University, CA (2015).
LeCun, Y., Bengio, Y., & Hinton, G. Deep learning. Nature521, 436-444 (2015).
Razeghi, Y., Logan IV, R.L., Gardner, M., & Singh, S. Impact of pretraining term frequencies on few-shot reasoning. arXiv 2202.07206 (2022).
Lenat, D. What AI can learn from Romeo & Juliet. Forbes (2019).23. Chaudhuri, S., et al. Neurosymbolic programming. Foundations and Trends in Programming Languages7, 158-243 (2021).