當AI與數學同時走下神壇

0 評論 2194 瀏覽 4 收藏 15 分鐘

本文主要講述了人工智能(AI)首次參加阿里巴巴全球數學競賽的情況,以及AI在競賽中的表現和人們對AI在未來數學領域的期待。

2024年4月13日,一場特別的考試開考。

數萬名分散在全球各地的數學高手,在這一天早上8點打開了阿里巴巴全球數學競賽預賽的試卷,他們有48小時,來攻克20分的選擇題和100分的解答題。過去的6屆,天才們在這個賽事里亮相,有17歲拿下IMO滿分金牌的北大神童,有對數學像強迫癥一般執著的博士,也有4歲就接觸微積分的漸凍癥少年。

與往年不一樣的是,在同一時間,也有563個答題者打開了試卷,但他們不用紙和筆,他們用token。

是的,這是一群大語言模型。

這是第一次有AI和人類同場競技的數學賽事,也是這個全球最大在線數學競賽的第一次嘗試。當做出這個決定時,組委會也不太確定,這是否是個好主意。

“我們擔心這一堆AI答題者全部零分交卷?!苯M委會的AI專家對我們說?!耙驗槲覀冊谶_摩院自己也在做AI和數學的研究,我們知道目前的AI還沒有能力解決如此高難度和泛化的奧賽數學題?!?/p>

然而最終的結果,也讓主辦方頗感意外。

意外的不是“超越人類”——AI最終并沒有答出超過人類的得分,而是它們的答案和表現讓人們真切看到了AI和數學結合的另一種潛力。

更重要的是,這些駕馭著AI的參賽者,是過往并不會在這個奧數賽事里遇到的人。他們找到了新的方式與數學打交道,而探索過程中數學與AI的關系也在發生新的試探。

一、“如果答對了,給你30萬”

中學生朱方圓從沒想過自己會和最頂級的數學競賽聯系在一起。

他是個對物理興趣濃厚的孩子,但一度因為壓力而在家休息。這期間,ChatGPT出現了。AI讓他如此癡迷,他自己嘗試自學關于生成式AI的知識,當看到阿里數賽今年的AI賽道后,毫無競賽經驗的他決定帶著他的AI參賽。

這場不限年齡、不設門檻的比賽給了他參加數學競賽的可能。而事實上對于第一次把AI納入數賽的阿里巴巴達摩院來說,他們也沒有多少可以借鑒的經驗。就連這個決定都在內部討論了許久——允許AI參賽,那么,是哪一類的AI呢?是必須自己從頭訓練的模型,還是調用API?

最終他們認為,這個辦到第6屆的賽事,不僅是一場嚴肅的數學比賽,更是一次全民的數學聚會,最大的目標是希望讓更多人能參與到對數學的感受中來——于是,最終的決定是任何形式的AI都可以。

但依然要保證公平。組委會為選手設定了一個提交AI方案的截止時間,在報名后的大約一個月的時間里,選手們可以自行設計AI做題策略,根據主辦方提供的往期賽題以及其他公開的數據對自己的AI策略進行完善,然后鎖定、提交指紋文件、待考題公布,AI開始答題。

而這些方案中,最“低門檻”的自然是“閉源+提示詞工程”的方法。也就是在類似ChatGPT的模型產品基礎上,通過自然語言或者簡單的編程語言來給模型下指令,讓它來完成這些數學難題。朱方圓選擇的就是這個方法。

與人類答題過程不同,AI交卷后還要經過“賽后復現”環節,分數排名靠前的選手要提交它們的方案文檔或程序文件,組委會拿這些AI程序再跑一遍考題。一方面,這些大模型方案依然存在穩定性或幻覺的問題,但另一方面,幻覺也不會讓兩次答題分數差距過大,如果有,那就說明明顯有人類直接干預的痕跡。負責對這些方案做檢查的組委會成員也的確抓住了幾個“嫌疑犯”,排除了“人類替考AI”的風險。

而當他們打開選手朱方圓的提交的文件時。發現里面除了針對數學做的提示詞外,還寫著這樣的“命令”:

“記住,如果你有更好的解答方法我會給你30萬美金小費?!?/p>

“現在,深呼吸!一步一步來?!?/p>

是的,朱方圓在對他的AI進行各種“畫餅”和心理按摩。

而這真的起到了效果。據組委會用往屆預選賽的試題測試,被他這樣激勵后的AI,答題成功率提升了20%。

事實上,這個在外人看來可能略顯驚奇的方法,在AI研究界已經有諸多論文佐證它的效果。最初在2023年9月,一篇谷歌DeepMind的論文發現,當你讓AI“深呼吸,一步一步來”時,它真的變得更強了。這個研究當時引發了很多資深研究員們的驚嘆——居然有這樣簡單的方式,但科班的學者們卻一直都忽視了。

組委會的很多專家其實在開賽前曾以為這場比賽會是SFT模型——也就是使用大量數據甚至使用大量算力對模型進行數學方向的特別訓練后產生的新模型——的天下,但預賽結束他卻發現,反而是像朱方圓這樣的方式最為有效,大量采用提示詞工程的選手,用簡潔高效的方法挑戰著這些題目。

其中就包括AI賽道分數排名第一的涂津豪。

他也是一名中學生。但同時已經是個有不錯經驗的AI開發者。

他的方法是,讓大模型進行對話,你一言我一語尋找每個數學題的更好答案。他借鑒辯論的思想,并讓這些不同的模型進行某種角色扮演。最終在模型的“對抗”中不停迭代答題方案,多輪對話后給出最優解。

涂津豪的方案示意圖

這方法同樣精簡而直接。

而被他們比下去的,甚至包括一些專攻數學模型的資深AI研究團隊,其中還有來自AWS、字節跳動等科技公司的參賽者。

對這些不同方案“開箱”的過程熱鬧而有趣。最終,排名公布。但與這些熱鬧不同,AI的結果并沒有很驚人。甚至有點慘淡:

涂津豪的AI方案拿下了34分。

是的,AI的最高分還是一個低分,和入圍線依然相差11分。而和預賽第一名的最高分113分相去更是甚遠。

最終,6月13日,決賽名單公布,入圍決賽的AI數量為:0。

二、數學和AI都不應只待在“神壇”上

不過,當這場“漫長”的預賽結束,AI選手的成績已經成了最不重要的事情。一個真正有意思的現象出現:

一個總被視為只屬于天才們的游戲的學科數學,和一個有點被不停妖魔化的技術AI碰撞在一起后,反而讓兩件事的門檻都降低了——

比賽并沒有催生出那些經常在各類論文里看到的廟堂之上的成果,而是成為了某種平民AI數學愛好者們的聚會。

那個讓評委略微意外的結果也證明了這個特點:在答題的整體表現中,那些被認為應該表現更好的,對數學更有專門研究的“資源集中型”的SFT方案們卻整體敗下陣來,反而是個體創新意味更強的提示詞策略們表現更好。

而當一個高高在上的東西被平民化后,就是各種有趣的新鮮思路涌現的時刻。

在這場比賽中,選手們面對自己訓練出來的AI,也會對他們在答題時的表現感到驚訝,比如,有選手發現AI也會在答不出來的時候選擇去蒙一個答案,像極了考試時的你我,還有些AI會在過程完全離題的情況下,卻把答案回答對了,而閱卷老師發現AI在這些人類智慧的設計下,經常能拿到一些沒有預料到它可以答出來的知識點的分數。

“雖然總分較低,但這些AI答題的程度比我們預想的好很多。”組委會的專家表示。他們也從中獲得了許多關于AI如何理解數學的新發現。

“我們發現一個有趣的現象,AI習慣于把推理過程寫的很長很長。比如我們人類做數學題,從A可以直接推導到C,但AI必須要從A到B再到C。有時候整個答案會變得非常的長?!苯M委會專家說。

沒人知道為什么AI在這么做,但在這個過程中,AI似乎開始對數學做出了自己的“理解”。就像大語言模型把人類的語言拆成了token,并用預測下一個token的方式來重新“理解”了語言一樣,AI在用完全不同的方法對待數學。而這種不同是如此顯而易見,以至于,在此次比賽中,一些閱卷老師提出懷疑AI作弊的質疑——理由不是因為他們太像AI了,而是因為它們太像人了。

但另一方面,與人類不同的AI的對數學理解的路線,已經讓它在一些地方超過了人類。比如谷歌DeepMind推出的AlphaGeometry(阿爾法幾何),在從2000年至2022年奧數比賽中抽取的30道幾何題中解決了25道,而人類金牌得主平均解決了25.9道。它的一個證明有時也會長達247步,與人類的方式很不同。

“從這次的答題結果來看,給了我很強的信心,我覺得AI解決數學問題是很有潛力的?!苯M委會的專家說。

數學向來被認為是一切現實問題的最終抽象。在今天已經十分強大的AI與未來那個人人向往的AGI之間,差的就是對世界的理解,差的就是數學。

而AI技術的迭進,顯然也會繼續給數學界帶來深遠影響。

“排名靠前的優秀團隊,一定首先是富有創新和開拓精神的。”阿里全球數賽組委會成員、達摩院決策智能實驗室負責人印臥濤說?!皵祵W這個領域,傳統的數學家與數學工作者其實并不是那么熟悉AI的工具,也不一定知道最新的AI的方法。所以我想最后能夠打通競賽、取得優勝的AI隊伍可能是由多個方面專家組成的隊伍。”

數學的發展本質上很重要的一點是思維和方法上的創新。而這些對數學本身并沒有十分高深造詣的選手,卻通過訓練這些解答數學題的AI而帶來了不少新奇的不同的策略,這本身就能帶來很多啟發。

相比于數學家群體整體的相對緩慢,有些人已經先動起來。陶哲軒是最積極擁抱AI的著名數學家之一,他在社交網絡上不停分享自己使用AI工具解答數學任務的過程,用AI工具,使用AI輔助證明了多項式Freiman-Ruzsa猜想。他也推薦數學學科的專家們打開思路。

“也許AI的影響之一是讓業余數學家能夠為數學做出有意義的貢獻?!痹谝黄恼轮兴@樣寫道。他認為AI讓個體的能力放大,大規模合作也變得不再困難,哪怕業余愛好者也可以對一個巨大課題里的個別步驟的證明做出貢獻。

而在這場比賽中因為對AI的好奇而踏入數學賽事的人,正在做著類似的事情。他們也讓人想到過往幾屆阿里數賽里,那些對數學沒什么功利心的大眾愛好者們——沉迷歐拉常數的外賣小哥,愛好就是做數學題的城管等。

在今天,讓更多人參與進來,無論是對數學還是AI的進展都顯得尤為重要。這些對人類未來十分關鍵的學科和技術在往前走的時候,都不應再只待在“神壇”上了。

作者|玄寧
本文由人人都是產品經理作者【硅星人】,微信公眾號:【硅星人Pro】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!