中國AI荊棘之路,從荒蠻到繁榮
編輯導讀:科技之路從來不是一帆風順的,它的發(fā)展過程往往是緩慢的、曲折的,要經(jīng)過不斷的探索和積累才能迎來科技發(fā)展的奇點。過了這個奇點,它才會迎來指數(shù)級別的快速上揚。中國AI的發(fā)展,正處于奇點之中。本文作者對此進行了分析,與你分享。
科技之樹雖然碩果累累,但它的蘋果從來只會眷顧有足夠渴望與準備的人?!?/p>
科技并不是勻速發(fā)展,而是在經(jīng)歷緩慢得讓人窒息的、壓抑的黑鐵時代,不斷求索之后,大量的積累的技術(shù)、經(jīng)驗、數(shù)據(jù)、認知終于在一個時代迎來共振,這個時代就會成為科技發(fā)展的奇點。過了這個奇點,它才會迎來指數(shù)級別的快速上揚。
這一次中國正好在奇點正在發(fā)生的時候,追上了其他先進國度在AI基礎(chǔ)研究領(lǐng)域的腳步。這既是我們的幸運,也是我們不斷奮斗的結(jié)果。
從在AI領(lǐng)域毫無存在感,到今天成為AI頂會獎項收割機,中國的AI科研之路,由荒蠻走向繁榮,由荊棘走向花團錦簇的今天——也是正在邁向人工智能黃金時代的白銀時代。
一、1930-1980年:漫長而艱難的黑鐵時代
語言學家諾姆·喬姆斯基(Noam Chomsky)曾經(jīng)指出,由于孩子們接觸到的數(shù)據(jù)總量較小,他們究竟是如何學會一門語言的,至今仍然是個巨大的謎。
為了讓機器學會小孩子可以輕易做到的事情,過去七十多年,無數(shù)科學家前赴后繼,投入到了“人工智能皇冠上的明珠” 的自然語言處理研究領(lǐng)域,通過構(gòu)建算法,使計算機可以自動分析、表征人類語言。
盡管人類從1946年就開始努力,但是很長一段時間里,進展緩慢,人類就像出現(xiàn)希臘文明后經(jīng)歷漫長的中世紀一樣,在奇點出現(xiàn)之前,在AI研究領(lǐng)域也走過了一段堪稱黑鐵時代的幽暗之路。
到20世紀30—40年代,發(fā)生了兩件極其重要的事件:邏輯的數(shù)理化和智能可計算性思想(機器能思維),建立了計算與智能之間的理論關(guān)系;同時還有兩個不世出的天才橫空而出,為人工智能提供了完備的理論基礎(chǔ)。
被稱為“人工智能之父”的圖靈,于1936年創(chuàng)立了自動機理論,提出一個理論計算機模型,奠定電子計算機設計基礎(chǔ),后來被人稱為“圖靈機”。1950 年圖靈的論文“機器能思考嗎?”,也為即將問世的人工智能提供了科學性和開創(chuàng)性的構(gòu)思。
1948年,劃時代的“通信的一個數(shù)學理論”分成兩部分陸續(xù)發(fā)表,香農(nóng)通過借用熱力學中“熵”的概念,引入“信息熵”,證明熵與信息的不確定性有等價關(guān)系,奠定了今天大數(shù)據(jù)與機器智能的基石。
說個題外話,在二次世界大戰(zhàn)時,香農(nóng)與比他大4歲的圖靈都是著名的密碼破譯者,幫助盟軍取得了二戰(zhàn)的勝利。
令人扼腕的是圖靈因為同性戀,1952年被英國政府強行化學閹割,兩年后,圖靈不堪受辱自殺身亡??梢哉f是人工智能史上一大挫折。
1956 年夏季香農(nóng)等10位科學家,舉辦了一次長達兩個月的研討會,討論用機器模擬人類智能問題,首次使用“人工智能”這一術(shù)語。
20世紀50到70年代,人工智能雖然進展有限,但在西方國家還是得到重視和發(fā)展。
過去在AI內(nèi)部存在兩大分支:一是傳統(tǒng)AI——基于規(guī)則,以符號邏輯為基礎(chǔ)的算法系統(tǒng);另一個則是建立在統(tǒng)計分布規(guī)律之上的并行分布式系統(tǒng),包括對大腦網(wǎng)絡的模擬,具有更強的容錯能力以及學習能力。
但是在20世紀50年代到70年代,西方國家人工智能研究的主力還是在基于規(guī)則的方向空轉(zhuǎn),加上中國計算機科學當時的停滯,人工智能經(jīng)歷了漫長而艱難的黑鐵時代。
二、1980-2010年:曙光漸露的青銅時代
80年代,基于統(tǒng)計分布規(guī)律的AI路線開始占據(jù)上風,讓人工智能研發(fā)之路逐漸出現(xiàn)了曙光。
IBM的Fred Jelinek就是一位使用統(tǒng)計方法研究語音識別與合成的著名學者,1988年12月,他在一個NCL會議上尖刻地表示:“每當我解雇一個語言學家,語音識別系統(tǒng)的性能就會改善一些。”把基于規(guī)則研究人工智能的路線貶低到了一無是處的程度。
到了1989年,自然語言處理的發(fā)展才進入了一個新的紀元,這個新紀元的重要標志是,在基于規(guī)則的技術(shù)中引入了語料庫方法,其中包括統(tǒng)計方法,基于實例的方法,在語料庫中訓練出自然語言處理的基礎(chǔ)組件詞表。事實上,裝載這些平行語言數(shù)據(jù)的第一個語料庫,是20世紀50年代建立的布朗美國英語語料庫。所以很多時候,奇點的出現(xiàn)是各種技術(shù)條件涌現(xiàn)融合的結(jié)果。
2003年一位德國科學家奧赫,在美國一次機器翻譯評比中獲得了最好的成績,他使用統(tǒng)計方法從雙語自動地獲取語言知識,建立了統(tǒng)計機器翻譯的規(guī)則,在很短時間之內(nèi)就構(gòu)造了阿拉伯語與漢語到英語的若干個翻譯系統(tǒng)。
偉大的希臘科學家阿基米德說過:“給我一個支點,我就可以移動地球。”而奧赫說:“只要給我充分的并行語言數(shù)據(jù),那么對于任何的兩種語言,我就可以在幾個小時之內(nèi),給你構(gòu)造出一個機器翻譯系統(tǒng)?!?/strong>
這種建基于大規(guī)模文本處理基礎(chǔ)上的機器翻譯,是機器翻譯研究史上的一場革命,將自然語言處理推向了一個嶄新的階段。
也是這一年開始,人們開始看到了機器翻譯的曙光。過去三十年間,這顆自然語言處理的種子已經(jīng)長成了碩果累累的科學之樹。
人工智能研究真正取得突破的時候,正好碰上了中國思想大解放的八十年代,中國的人工智能研究也終于搖搖晃晃邁出了蹣跚的步履。
1978年,隨著“科學技術(shù)是生產(chǎn)力”的提出,中國人工智能也在醞釀著進一步的解凍。著名數(shù)學家、中國科學院院士吳文俊提出的利用機器證明與發(fā)現(xiàn)幾何定理的新方法——幾何定理機器證明,獲得1978年全國科學大會重大科技成果獎就是一個很好的征兆。
20世紀80年代初期,錢學森開始主張開展人工智能研究,中國的人工智能研究進一步活躍起來。
改革開放后,自1980 年起中國大批派遣留學生赴西方發(fā)達國家研究現(xiàn)代科技,其中就包括人工智能學科領(lǐng)域。這些人工智能“海歸”專家,已成為中國人工智能研究與應用的學術(shù)帶頭人和中堅力量。
20世紀八九十年代,中國人工智能學會成立,《人工智能學報》創(chuàng)刊,清華大學出版社出版《人工智能及其應用》著作,學界的人工智能研究開始陸續(xù)啟動。
同時,國內(nèi)少數(shù)高校也開始開設各種人工智能類課程。經(jīng)過推廣與提高,30年前的人工智能星星之火如今已形成燎原之勢,數(shù)以百計的高校開設了各種層次的人工智能課程。
甚至有些人工智能基礎(chǔ)研究已經(jīng)開始斬獲國際獎項,1990年計算機科學與技術(shù)專家、中國科學院院士張鈸獲得ICL歐洲人工智能獎。張鈸現(xiàn)在已經(jīng)任職清華大學人工智能研究院院長。
這只是中國成為國際AI頂會獎項收割機的開篇。
三、2010年至今:顯山露水的白銀時代
2000年國際AI頂會ACL年會在中國香港舉辦時,只有微軟中國研究院的論文來自中國大陸,到了2005年,來自大陸的論文也只有三篇。
直到2010年,百度引入國際著名人工智能專家王海峰,同年,王海峰一篇論文被 ACL 錄用。2013 年,王海峰出任ACL五十年來首位華人主席,并且促成了2015年ACL會議在中國舉辦。
今年ACL的年會主席是來自中國中科院自動化研究所的宗成慶,程序主席也有兩位華人科學家。
華人再一次擔任此重要職務,中國人工智能的發(fā)展卻已經(jīng)不可同日而語。
在過去十年里,隨著中國生產(chǎn)、消費、社會運作的全面數(shù)字化與智能化,數(shù)據(jù)增長、算法革新、算力提升,讓人工智能從基礎(chǔ)研究到應用都取得了突破性進展,迎來了真正的繁榮時期。
與此同時,華人科學家也從在NLP領(lǐng)域默默無聞,到頂會投稿量全球第一,論文質(zhì)量也取得了質(zhì)的飛躍,儼然成為了頂會論文收割機與AI基礎(chǔ)研究領(lǐng)域的主力軍。
今年3月份,華人學者彭泱獲得了2021 年算法頂會 ACM-SIAM 的最佳論文獎,他曾在中國南京大學就讀博士學位。
就在一個月前的另一個人工智能頂級學術(shù)會議AAAI上,來自中國的學者許晶晶成功入選“學術(shù)新星”。許晶晶在2020年從北大博士畢業(yè)后加入了字節(jié)跳動AI Lab團隊。今年8月份,許晶晶更是與AI Lab團隊其他成員一起摘得了ACL大會頒布的最佳論文。
字節(jié)跳動AI Lab贏得最佳論文,是ACL成立59年以來華人科學家團隊第二次贏得最高獎項,此前由中科院計算所主導的研究項目曾被評為ACL 2019“最佳長論文”。
來自港中文、騰訊AI Lab合作的論文也入選了ACL 2021的杰出論文,是六篇杰出論文之一。
ACL大會由國際計算語言學協(xié)會主辦,是自然語言處理與計算語言學領(lǐng)域最高級別的學術(shù)會議。ACL學會成立于1962年,大會每年一屆,經(jīng)過嚴格的篩選和評審選出來的最佳論文,代表著該領(lǐng)域的最高水平和發(fā)展方向。
今年3月,倫敦帝國理工學院NLP學者Marek Rei發(fā)布2020年度AI相關(guān)的論文統(tǒng)計顯示:在發(fā)表數(shù)量中,來自西湖大學的張岳,2020年一共發(fā)表了30篇文章,從2019年排名12,直接跳到了今年的第二位。
Marek Rei的統(tǒng)計數(shù)據(jù)覆蓋了12個2020年AI相關(guān)的權(quán)威會議和期刊。
在2012年至2020年整體的數(shù)量中,曾任職清華大學副教授的周明占據(jù)榜首,共發(fā)表128篇論文。張岳位列第三。
各個機構(gòu)的比較中,2020年,清華大學、北京大學、中國科學院,進入了論文數(shù)總量前十,分列第六、第八、第十。而在2012-2020期間的論文總量統(tǒng)計中,只有清華、北大進前十。
中國科技公司在AI領(lǐng)域的影響力也在逐漸彰顯。
著名咨詢公司Gartner 今年7月發(fā)布的云AI開發(fā)者服務報告中,國內(nèi)的阿里云、百度云、騰訊云全部入選,其中阿里云與微軟、谷歌、IBM、AWS一起躋身遠見者象限。
也是在今年7月,由ACL舉辦的機器翻譯大賽上,字節(jié)跳動AI Lab研發(fā)的“并行翻譯”系統(tǒng),奪得德語到英語方向評比第一名。
在18年前曾讓人們看到了AI研究曙光的并行翻譯領(lǐng)域,18年后的今天,來自中國的“并行翻譯”系統(tǒng),首次擊敗了從左向右逐詞翻譯的傳統(tǒng)技術(shù),打破后者在機器翻譯領(lǐng)域的絕對統(tǒng)治地位。
值得關(guān)注的是,來自Marek Rei 教授的統(tǒng)計展示了美國在 AI 領(lǐng)域 “力壓群雄”的主導地位,接近4000篇論文,是排名第二中國的兩倍。
但是作為后來者,中國取得今天的成績,已經(jīng)很不容易,2010年之前,華人科學家出現(xiàn)在AI頂會優(yōu)質(zhì)論文中的身影還寥寥可數(shù),過去十年,中國人、華裔以及來自中國的機構(gòu)與企業(yè),在國際AI領(lǐng)域的存在已經(jīng)越來越難以忽視,華人開始在關(guān)鍵AI國際機構(gòu)重要任職,優(yōu)質(zhì)論文作者密集出現(xiàn),過去三年,華人科學家更是包攬了ACL兩年的最佳論文。
人工智能發(fā)展的七十多年,其實也是中國AI科研,由荒蠻走向繁榮的七十多年。
中國的人工智能已經(jīng)走在通向黃金時代的白銀時代,用王小波的話來說:“銀子是熱導最好的物質(zhì),在一塊銀子上,絕不會有一塊地方比另一塊更熱?!边@十年,從國家戰(zhàn)略、學術(shù)機構(gòu)到科技公司,中國在人工智能領(lǐng)域的努力與收獲都是全方位的。
文藝復興時代詩人但丁曾經(jīng)寫下這樣的名句:我們一起攀登,直到我透過一個圓洞看得見一些美麗的東西顯現(xiàn)在蒼穹。我們于是走出這里,看見了滿天繁星。
相信如詩人但丁所言,穿過科研無人區(qū)的幽暗圓洞,科學家將會帶領(lǐng)我們走向更廣闊壯美的星空。
作者:秋水筆彈,公眾號:秋水筆彈【ID:qiushuibitan】專注科技商業(yè)生態(tài)的思考洞察。
本文由 @秋水筆彈 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評論,等你發(fā)揮!