用AI生成數據訓練AI,最終只會“模型崩潰”

1 評論 2810 瀏覽 6 收藏 11 分鐘

想要AI使用起來更得心應手,首先得需要經過足量的數據訓練。因此有人產生了一個想法,用AI生成數據訓練AI豈不是更高效?很遺憾,有研究表明,用AI生成數據訓練新的AI,最終會讓新的AI模型退化以至崩潰。一起來文中一探究竟吧。

人盡皆知:過去的科幻文學家預言了潛艇、衛星、人工智能等后世科技里程碑。然而科幻文學家們的預言中,其實應驗的烏鴉嘴不比正面成就少,比如DDOS網絡攻擊、個人生物信息盜竊、和人工智能模型的退化。

2023年2月,美國華裔科幻文學家特德·姜發表文章稱:ChatGPT等大語言模型,實質是對互聯網語料庫的有損模糊壓縮,如同JPEG格式之于原始高清圖片。

按特德·姜的觀點,用大語言模型生成的文本來訓練新的模型,如同反復以JPEG格式存儲同一圖像,每次都會丟失更多的信息,最終成品質量只會越來越差。大語言模型生成的文本在網絡上發布得越多,信息網絡本身就變得越發模糊、難以獲取有效真實信息。

2023年6月中,牛津、劍橋、倫敦帝國學院、愛丁堡大學、多倫多大學等高校的AI研究者發布的論文預印本《遞歸之詛咒:用生成數據訓練會使模型遺忘》在業界流傳開來。論文中用實驗結果證明了特德·姜的預言:用AI生成數據訓練新的AI,最終會讓新的AI模型退化以至崩潰。

01“糞口循環”9次,就能讓大語言模型崩潰

這些研究者們發現,在訓練新的神經網絡AI模型時,使用大語言模型生成的內容作為訓練數據集,會導致訓練出的模型出現不可逆轉的缺陷,即使模型最初的基礎架構原始數據來自真實世界的實際數據。研究者們將這一新模型的退化過程與結果稱為“模型崩潰”。

按論文所述,不管受訓的新模型功能是以文字生成文字還是以圖片生成圖片,只要使用其他模型生成的內容來訓練,這個過程是不可避免的,即使模型處在近乎理想狀態的長時間學習條件亦如此。

論文一作伊利亞·蘇瑪利沃夫(Ilia Shumailov)稱,AI生成數據中的錯誤會極快沉淀,最終導致從生成數據中學習的模型進一步錯誤地感知現實。

“模型崩潰”分為早期與晚期兩種。在早期時,被喂生成數據的AI模型會開始失去原初數據分布的信息;在晚期,被喂生成數據的AI模型會吐出完全不符合現實、不相關原初底層數據的結果。

而且與癥狀類似的“災難性遺忘”不同,“模型崩潰”的AI一直保有對之前學習過的原初底層數據的記憶,但極其固執,錯誤會千篇一律且難以矯正,模型將持續甚至強化將錯誤結果認為是正確的結論。

論文中“模型崩潰”過程的示意圖

研究者們先用小模型試驗起,用相同模型生成的數據訓練同一模型。以此方法在高斯混合模型(GMM)上實驗,拿AI分辨人工生成的不同正態分布。結果是在如此訓練50次后模型開始出錯到無法分辨原初底層數據。訓練到兩千次后,模型的錯誤結果收斂到每次基本雷同毫無變化。

以同樣方法訓練變分自編碼器(VAE)模型,訓練5次后模型開始出錯,10次后模型的錯誤結果開始與原初底層數據無關,20次后錯誤結果就開始收斂至基本雷同。

以上的小模型的原初數據量小,或許易于迷惑。研究者再用現在商用廣泛的OPT-125m文本生成模型實驗,此模型由Meta 公司開發,參數量1.25億。研究者先用有1億詞元的“維基文本庫2”數據集喂給模型,跑出同樣詞元量的生成結果數據集。再用生成結果數據集反復訓練OPT-125m模型。

結果是,在研究者輸入提示詞之后,起初的OPT-125m模型吐出的是帶有亂碼但大體成文的語句。被如此訓練1次的大模型吐出的是帶有瞎編內容的幻覺性文本,但仍然成文。被如此訓練7次的大模型吐出的是完全與初始提示詞無關的文本,9次后大模型的生成文本就是完全不知所云的車轱轆話。

02“模型崩潰”,是因為AI與生俱來的的統計特性

“模型崩潰”的原因其實并不難懂。概言之,與特德·姜、馬斯克這些名人們嘲笑生成式AI的說辭很相近:這些大模型本質上是高端統計學應用,離“智能”的實質還差得遠。

用AI生成內容來訓練AI的話,無可避免就會踩進“統計近似值偏差”的坑里。實質是高端統計程序的神經網絡模型們,天然會高估、過于重視大概率的通常值,也會低估、過于忽視小概率的非常值。

這些模型生成的結果無法規避以上缺陷,持續用來再訓練新模型,數據的多樣性會越來越小、符合真實的正確度會越來越有限、“近似值擬合”會越來越嚴重。用研究者的話來說,用AI生成數據來訓練新的AI,是在毒化模型對真實世界的認知。

論文中“模型崩潰”成因的示意圖

用論文作者之一羅斯·安德森(Ross Anderson)的話說,這就如同用莫扎特作品來訓練AI,結果會得出一個風格類似莫扎特但缺乏靈氣的“薩列尼”模型。再用“薩列尼”模型的作品訓練新的模型,如此反復五六次后,最終模型的音樂作品既不會有莫扎特的風格也不會有莫扎特的靈光。

除了這一主因外,“函數近似值誤差”也會為“模型崩潰”推波助瀾。任何神經網絡AI在本質都算是有限的通用函數近似器,但總會出現函數近似值過度表達或不充分表達帶來的結果不精確。

理論上來說,“統計近似值偏差”與“函數近似值誤差”并不必然會帶來惡果,有少許可能,這些偏差恰好會消除真實數據中的噪音值,讓AI模型的生成結果更符合真實數據分布。然而更大的可能是,這些誤差會放大、加乘數據噪音。

在羅斯·安德森的個人博客中,有人評論這是熱力學中的熵、生物學中的近親繁殖退化,在AI界的復現。

03?模型生成內容充斥網絡后,真人數據將成AI維生必需

對于業界,此發現再次凸顯了真實人類創造的數據的稀缺性。羅斯·安德森戲稱,在海洋布滿不可降解塑料垃圾、空氣里充滿二氧化碳排放物后,互聯網以后也會被大語言模型生成的低質量結果污染。反過來說,真實人類創造的數據如同潔凈的空氣與飲水,是日后生成式AI必須依賴的維生補給。

在如此背景下,不難理解為何推特與Reddit這些用戶活躍的社交媒體紛紛取消應用程序接口扒數據的權限。這些社交媒體上的真人互動內容都是以后越來越值錢的不可再生資源,馬斯克們是絕不愿繼續免費讓OpenAI們拿去用的。

數據饑渴的AI公司們,現在兩種繼續發掘高質量數據的辦法都在用。

一是扒完當代互聯網數據后,繼續扒古舊文本與圖像數據。保存了遠至兩百年前書籍掃描件的“互聯網檔案館”,在5月底稱網站之前短暫崩潰,是因為托管在亞馬遜云服務器上的數十個虛擬接口做出了每秒數萬次的數據查詢請求,導致網站無法承載。

二是老實花錢買。北京時間6月17日0點,《金融時報》獨家報道,稱最近數月內,谷歌、OpenAI、微軟等公司在與新聞業界的大企業,如新聞集團(News Corp)、紐約時報和衛報在內的出版商接觸,尋求AI訓練數據材料的持續來源并避免未來的版權糾紛。

雖然商洽還在早期階段,但信源透露出的信息是AI巨頭企業們愿意為作為AI 模型訓練數據的新聞內容向媒體巨頭們支付定期訂閱費用,媒體巨頭們開出的價位是年均500-2000萬美元。

作者:李熙;編輯:楊博丞

微信公眾號:DoNews(ID:ilovedonews),不局限于對互聯網行業的追蹤與探索,更要向未來、向未知的方向邁進。

本文由人人都是產品經理合作媒體 @DoNews 授權發布,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 三天前想到過這個觀點,沒想到就馬上刷到這篇文章。

    來自上海 回復