從技術斗士到眾矢之的:NLP模型GPT 2.0的吃瓜指南
想要有技術、有品位地吃瓜,先得了解一下,能攪亂技術社區的一池春水、讓OpenAI心甘情愿背鍋的“罪魁禍首”——GPT2.0,到底有什么神奇之處?
元宵一過,年就算正式過完了。沒曾想OpenAI和馬斯克,居然抓住了春節的小尾巴,攜手為全球人民貢獻出一個大瓜。
事情是這樣的,上周OpenAI推出了一個號稱“史上最強通用NLP模型”的新算法GPT-2.0,卻沒有按照慣例開放該模型和數據集。
研究人員們的溢美之詞還沒來得及說完,立馬被OpenAI這波操作氣得怒從心頭起,紛紛斥責它全忘初心、惡意炒作。
有人吐槽它應該改名叫“ClosedAI”,還有人把怒火燒到了OPENAI的資助者之一的埃隆·馬斯克身上。后者卻立馬甩鍋,表示“沒有參與OpenAI 公司事務已超過一年”,“早就理念不合”,正式發推要求“和平分手”……
不但惹了眾怒,還把創始人兼金主爸爸給玩跑了,OpenAI這是攤上大事,順手承包了一個瓜田啊。
想要有技術、有品位地吃瓜,先得了解一下,能攪亂技術社區的一池春水、讓OpenAI心甘情愿背鍋的“罪魁禍首”——GPT2.0,到底有什么神奇之處?
風暴中心的GPT2.0究竟有多特別?
我們知道,訓練大型神經網絡語言模型一直是NLP領域最具含金量的研究。其中,語義的連貫性,也就是語言生成模型預測上下文的準確度,一直是一個“老大難”問題。
為了解決這個難題,性能更好的通用語言模型就成了研究人員關注的重點。從AI2的 ELMo,到OpenAI的GPT1.0,再到前不久Google的BERT,都是為了讓機器不再尬言尬語顛三倒四,說話更加通順連貫。
但萬萬沒想到,幾個月前號稱“引領NLP走進新時代”的BERT,這么快就被GPT2.0取代了。
按照深度學習四大要素來對比一下,GPT 2.0到底強在哪里呢?
(1)訓練數據
引發廣泛關注的BERT,使用了3億參數量進行訓練,刷新了11項NLP紀錄,這在當時是前所未有的。
而OpenAI推出的GPT-2,則參數量則“喪心病狂”地達到了15億之多,在一個800 萬網頁數據集上訓練而成,覆蓋的主題五花八門。不夸張的說,GPT-2 可能是當前最大的深度模型了。
(2)模型
在深度學習方法上,“先進代表”BERT和GPT-2都采用了Transformer 技術。與傳統的特征抽取器RNN、CNN相比,Transformer無論是特征抽取、計算效率,還是翻譯任務的綜合能力上,都穩操勝券。
不同之處在于,BERT用雙向語言模型做預訓練,而GPT2.0則使用了古早時代的單向語言模型。坦率地說,GPT-2在預訓練中可以使用的架構類型因此受到了限制,無法全面地融合語境,結果就是在下游任務中展現出來的性能遠沒有當初BERT來得驚艷。
至于為什么不“見賢思齊”,采用更先進的雙向語言模型,大概是用長矛干翻步槍這種挑戰,更能彰顯出“藝高人膽大”的極客風范吧。
(3)算力
“巨無霸”GPT-2的預訓練數據量規模橫掃所有玩家,使用了約 1000 萬篇文章的數據集,文本集合達 40GB。這樣訓練出來的語言模型優勢很明顯,比使用專有數據集來的通用性更強,更能理解語言和知識邏輯,可以用于任意領域的下游任務。
但要完成這項任務,必須使用超大規模的GPU機器學習集群,OpenAI為此不得不去爭奪緊張而昂貴的GPU訓練時間,光是龐大的開銷就足以勸退很多想復現其工作的研究者了。
(4)應用
說了這么多,GPT-2的實際應用效果究竟如何呢?來欣賞一下它的文學作品:
輸入喬治·奧威爾《一九八四》的開場白:“這是四月的一天,天氣晴朗而寒冷,鐘敲了十三下”。系統就識別出模糊的未來主義基調和小說風格,并繼續寫道:
“我在去西雅圖找新工作的路上開著車。我把汽油放進去,把鑰匙放進去,然后讓它跑。我只是想象著那天會是什么樣子。一百年后的今天。2045 年,我在中國農村的一所學校教書,我從中國歷史和科學史開始。”
不僅情緒模仿到位,GPT-2還能創新觀點(哪怕是錯誤的)。比如發表“回收對世界不利。這對環境有害,對我們的健康有害,對經濟不利?!边@樣毫不政治正確、似是而非的言論。
從實際效果來看,GPT-2理解上下文、生成段落、語序連貫性的能力還是有目共睹的。難怪有專家說,未來加上情節的約束,GPT-2續寫《紅樓夢》后40回也是有可能的。
儼然是一顆冉冉升起的寫作新星,也確實能忽悠到一大部分不明所以的群眾。但連“跨時代”的BERT都爽快開源了,也就優秀了那么一小點的GPT-2的閉源,就顯得有些耐人尋味了。
從技術斗士到眾矢之的:OpenAI是如何打錯一手好牌的?
甩出一個“怕被惡意用來制造假新聞”的說辭,自然說服不了經歷過大風大浪的人民群眾。假視頻都見識過了,機器人代筆寫點新聞算什么呢,何況也就是小學生水平,至于“敝帚自珍”嗎?
同業們開始口誅筆伐,馬斯克走得是瀟灑無比。細數一下,OpenAI為之詬病的三宗罪:
1. 違背了開放的行業“潛規則”
今日的互聯網,開源文化早已枝繁葉茂,在AI領域,開放更是默認選項了。
底層技術的更新換代,需要更廣泛的生態系統、更多的頂尖技術人員、更多的機構參與才能做好,開放合作顯然能最快地催生出更多尖端的創新。
正是因此,絕大多數研究成果及源碼,都可以通過博客、會議、社區等公開形式獲取,這樣做的另一個好處是,避免研究資源被浪費,最大限度地保證研究的合理性和真實性。OPENAI的閉源顯然違背了這一基本規則。
2. 慣性炒作帶來的“暈輪效應”
心理學上有個規律,叫“暈輪效應”,當認知者對一個人的某種特征形成固定印象后,還會再從這個判斷推論其他方面的特征。OPENAI就很不幸地背上了一個“欺騙性炒作”前科的“光環”,并成功引發了大家的聯想。
之前在一對一DOTA2中打敗頂級人類玩家 “Dendi”,OPENAI就發出了諸如“攻陷DOTA2”“AI完虐人類”“碾壓AlphaGo”等宣言,就被指過于浮夸。
過度夸大、誘導媒體報道的事情OPENAI實在沒少干。目光回到GPT-2,普遍觀點是,為了避免造假風險而不開放,既對安全毫無幫助,也對技術進步無益。
面對非要采用過氣模型的固執,和“碾壓人類作者”的語氣,大家立馬從熟悉的套路中嗅到了“同樣的配方和味道”。那點可取之處,也被既往炒作“AI焦慮”的后遺癥所反噬了。
3. 助長AI集權的真實陰影
如果說上述指責都難免帶點理想主義情緒的話,那么GPT-2私有化帶來的實實在在的影響,恐怕才是點燃大眾恐慌的真正導火索。
作為“新的石油”,數據資源早就顯示出封閉的跡象。谷歌、亞馬遜、Facebook這些科技巨頭手里積累了大量的數據財富,并且越來越強大。各國都將AI成果視為國家戰略資源,德法等已經開始對數據收集及使用征稅。
而以GPT-2為代表的無監督學習趨勢,又意味著技術進步與創新愈加依賴于更大容量的模型和超大規模的數據集支持。也就是說,一旦大公司不愿意開放源碼和數據集,財力不足的學府和中小開發者極有可能就會被請出牌桌。
當初說要“為全人類AI 技術保駕護航”的OpenAI都搞起了私有化,顯然令開源文化“腹背受敵”,起到了很惡劣的示范作用,怎么懟都不冤。
不過,只是一味指責,咱們這瓜就吃的太沒有技術含量了。關鍵要搞清楚,為什么明知會被噴,OpenAI還非要這么干呢?
開源和私有化:算法公司的商業困境
OpenAI選擇技術私有化,雖然有著種種的不合情,在知識產權歸屬上卻并沒有什么可指摘的地方。而逼得它不得不違背理想的根本原因,或許才是AI和全人類真正的敵人。
簡單來說,正是算法公司們集體商業化失守。
美國當代技術哲學家芬伯格(Andrew Feenberg)在上個世紀90年代就曾經提出過,技術的開放是為了提高全社會的技術福利,而非打擊技術的商業價值。但直到今天,算法的商業化之路依然道阻且長。
在高昂的數據及研發成本下,算法公司想要支撐長期的研究,主要有三種方式:
(1)售賣專利:算法研發可算是AI產業鏈中最上游、最具價值的業務,但即便算法公司手握專利,在更深層次的軟硬件應用方案不成熟的大環境下,也很難養活自己。
(2)開源:從其他業務獲益。借鑒互聯網“羊毛出在豬身上”的商業模式,算法的價值可以通過其他業務的補充來實現。
比如Facebook一直致力于開放其所有代碼和技術架構的源代碼,吸引來不少優秀的開發者,品牌和口碑也借此大漲。但前提是,Facebook不靠售賣軟件盈利,開源不會沖擊自有業務。對于單純的算法公司來說,顯然不可行。
(3)找金主“包養”:目前看來,尋找一個大型商業機構得到資助,幾乎是算法公司最好的歸宿了,比如谷歌之于Deepmind,特斯拉之于OpenAI。但受制于人的日子顯然也并不好過。
兩者結合的結果就是,一邊需要滿足投資人追求回報的愿望;一邊還要提防著主業務受創耽擱自己搞技術。此次馬斯克退出董事會,OpenAI的未來頓時就不明朗起來。
總結
總而言之,OpenAI的開源困境背后,也暴露出一種純技術公司的集體無奈:你得開源,要不然沒法維持技術生態;又不能啥都開源,捧著金碗要飯。這個度真的是很難把握。
不難意識到,隨著數據封閉的浪潮,AI開源的未來不容樂觀已是既定事實,OpenAI只不過是加了一把火而已,私有化的鍋它一個可背不動。
要解決這個問題,靠的不是道德綁架或者祈求大機構的仁慈,口水戰可以休矣。而是集全社會之力,更快催熟完善的產業鏈體系,激活更多元的商業模式和應用場景。
算法的商業化價值初現曙光的時候,才是科技企業有力量承擔社會責任的時候。
作者:腦極體,微信公眾號:腦極體
本文由 @腦極體 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來源于 Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!