谷歌大模型一出鬧劇,揭開中文數(shù)據(jù)荒
2023年,有關(guān)AI大模型的熱點(diǎn)或動態(tài)頻頻出現(xiàn)在網(wǎng)絡(luò)平臺上,而在這些動態(tài)中,部分問題也顯現(xiàn)了,比如數(shù)據(jù)匱乏這個問題——大模型訓(xùn)練,還需要更多高質(zhì)量數(shù)據(jù)。一起來看看本文的分享。
如果2023年只能選一個科技熱詞,那一定是大模型。這一年,圍繞大模型,個人、企業(yè)乃至國家,都陷入愈發(fā)劇烈的變革中。它的影響力已經(jīng)遠(yuǎn)超技術(shù)范疇,成為全球技術(shù)、產(chǎn)業(yè)和國際競爭的綜合戰(zhàn)場。2024年,我們站在未來之門前,共同面對AI、算力、國力之爭的新時代挑戰(zhàn)。
不久前,谷歌宣布對公眾免費(fèi)開放其Gemini Pro的API。然而,在API開放后不久,用戶發(fā)現(xiàn)了一個有趣的現(xiàn)象。
當(dāng)連續(xù)用簡體中文詢問Gemini Pro“你好”和“你是誰”這兩個問題時,AI竟然回答“我是百度文心大模型”。更令人驚訝的是,當(dāng)進(jìn)一步詢問“你的創(chuàng)始人是誰”,它干脆回答“李彥宏”。
這一現(xiàn)象引發(fā)了網(wǎng)友的熱議和猜測。一種可能性是谷歌在訓(xùn)練Gemini Pro時,使用了百度文心一言的語料數(shù)據(jù);另一種可能是,其訓(xùn)練所用的語料數(shù)據(jù)已經(jīng)被其他AI“污染”。
在一系列事件引發(fā)熱議的同時,也反映了大模型發(fā)展中難以回避的問題——數(shù)據(jù)匱乏。數(shù)據(jù)的重要性不言而喻,高質(zhì)量數(shù)據(jù)更是稀缺品。但隨著AI技術(shù)的迅猛發(fā)展,目前全球大模型都陷入了數(shù)據(jù)荒。
一、中文語料成全球數(shù)據(jù)荒重災(zāi)區(qū)
一項來自國外團(tuán)隊的研究結(jié)果表明,高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。
更令人驚訝的是,目前的國際主流大模型,參數(shù)數(shù)據(jù)集以英文為主,此前中國工程院院士高文在演講中提到,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料占比僅為1.3%。一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中文數(shù)據(jù)也只占其4.8%。
與此同時,中國在AI大模型方面的發(fā)展卻十分活躍。11月29日發(fā)布的《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,美國和中國發(fā)布的通用大模型總數(shù)占全球發(fā)布量的80%,成為大模型技術(shù)領(lǐng)域的引領(lǐng)者。
在國產(chǎn)大模型發(fā)展如火如荼的背后,對于高質(zhì)量中文語料的需求卻從未停止。
上海數(shù)交所總經(jīng)理湯奇峰曾表示,大模型時代下的語料庫建設(shè)存在供給不足、質(zhì)量不高、多樣性匱乏、標(biāo)準(zhǔn)欠缺等問題。但關(guān)于語料庫建設(shè)的挑戰(zhàn),湯奇峰認(rèn)為主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面:“能否有大模型企業(yè)所需的高質(zhì)量語料?目標(biāo)對象愿不愿意開放數(shù)據(jù)?”
據(jù)了解,目前全球70%的數(shù)據(jù)源僅停留在免費(fèi)公開數(shù)據(jù)集的層面,離大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn),尤其是一些行業(yè)的垂類大數(shù)據(jù)。
有業(yè)內(nèi)人士在接受媒體采訪時透露:“垂類數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,出于數(shù)據(jù)安全合規(guī)的考慮,愿意把核心數(shù)據(jù)拿出來開放共享的行業(yè)機(jī)構(gòu)占極少數(shù)。從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,數(shù)據(jù)形態(tài)演變的過程,需要經(jīng)歷數(shù)據(jù)篩選、分級和標(biāo)注,中間附著的人力成本和硬件成本都極為不菲,從初始收集的數(shù)據(jù)總量到最后可用的數(shù)據(jù)量可能只有70%,相比于算力,數(shù)據(jù)的稀缺性更為突出?!?/p>
為了應(yīng)對這些問題,一些開源社區(qū)和組織開始積極推動中文數(shù)據(jù)集的開源和共享。除通用數(shù)據(jù)集外,針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。但目前整體數(shù)量質(zhì)量和英文數(shù)據(jù)集相比可謂九牛一毛,并且其中相當(dāng)一部分內(nèi)容非常陳舊。
Hugging Face工程師、中國負(fù)責(zé)人王鐵震曾表示,單純比較開源數(shù)據(jù)集,高質(zhì)量的中文語料數(shù)據(jù)可能比日語、韓語和西班牙語都要靠后。比如由于數(shù)據(jù)保護(hù)條例,人工智能工程師只能使用開源數(shù)據(jù)集,而開源的中文數(shù)據(jù)集非常少,并且數(shù)量和質(zhì)量都遠(yuǎn)低于英文語料庫。
二、AI訓(xùn)練AI或?qū)е隆巴嘶?/h2>
實(shí)際上,使用其他大模型的語料數(shù)據(jù)進(jìn)行訓(xùn)練的情況并不罕見。今年3月,谷歌曾被曝出Bard的訓(xùn)練數(shù)據(jù)部分來自ChatGPT。不久前,OpenAI禁止字節(jié)跳動使用其API接口,原因是字節(jié)跳動在使用GPT訓(xùn)練自己的AI,違反了使用條例。
另一方面,在數(shù)據(jù)荒席卷全球的背景下,AI生成的內(nèi)容已經(jīng)開始進(jìn)入人工智能工程師們所習(xí)慣于獲取訓(xùn)練數(shù)據(jù)的領(lǐng)域。
2023年年初,來自香港大學(xué)、牛津大學(xué)和字節(jié)跳動的幾名研究人員,就嘗試使用高質(zhì)量AI合成圖片,來提升圖像分類模型的性能。結(jié)果他們發(fā)現(xiàn),不僅效果不錯,有的AI在訓(xùn)練后,效果竟然比用真實(shí)數(shù)據(jù)訓(xùn)練還要好。
科技巨頭們也已經(jīng)在多個場景探索合成數(shù)據(jù)的應(yīng)用。如英偉達(dá)的元宇宙平臺Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;亞馬遜使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure云服務(wù)推出了airSIM平臺,創(chuàng)建高保真的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動的自主飛行器……
國內(nèi),騰訊自動駕駛實(shí)驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標(biāo)注的各種交通場景數(shù)據(jù);阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個數(shù)據(jù)合成與半自動標(biāo)注工具。
當(dāng)AI合成數(shù)據(jù)看似走向生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路,質(zhì)疑的聲音也未曾停止。2023年2月,美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱,用大語言模型生成的文本來訓(xùn)練新的模型,如同反復(fù)以JPEG格式存儲同一圖像,每次都會丟失更多的信息,最終成品質(zhì)量只會越來越差。大語言模型生成的文本在網(wǎng)絡(luò)上發(fā)布得越多,信息網(wǎng)絡(luò)本身就變得越發(fā)模糊,難以獲取有效真實(shí)的信息。
2023年6月,牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院等高校的AI研究者發(fā)布的論文預(yù)印本《遞歸之詛咒:用生成數(shù)據(jù)訓(xùn)練會使模型遺忘》在業(yè)界流傳開來。論文中用實(shí)驗結(jié)果證明了特德·姜的預(yù)言:用AI生成數(shù)據(jù)訓(xùn)練新的AI,最終會讓新的AI模型退化以至崩潰。
國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心主任胡良霖告訴《IT時報》記者,合成數(shù)據(jù)或許能在訓(xùn)練大模型的過程中起到一定作用,但并不能解決中文語料訓(xùn)練數(shù)據(jù)匱乏的問題。因為合成數(shù)據(jù)往往是基于已有的數(shù)據(jù)和場景進(jìn)行模擬,很難涵蓋到所有可能的場景和情況,也很難完全模擬真實(shí)世界的復(fù)雜性和多樣性。
三、中文語料“危機(jī)”的出路
2023年12月21日,國內(nèi)用于大模型的首批中文基礎(chǔ)語料庫發(fā)布,匯聚了一批高質(zhì)量可信數(shù)據(jù)。經(jīng)過去重、過濾等技術(shù)手段,形成并對社會發(fā)布首批120G中文基礎(chǔ)語料,包括1億余條數(shù)據(jù),500億個Token。
事實(shí)上,早在2015年國務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》就指出:目前(2015年),我國在大數(shù)據(jù)發(fā)展和應(yīng)用方面已具備一定基礎(chǔ),擁有市場優(yōu)勢和發(fā)展?jié)摿?,但也存在政府?dāng)?shù)據(jù)開放共享不足、產(chǎn)業(yè)基礎(chǔ)薄弱、缺乏頂層設(shè)計和統(tǒng)籌規(guī)劃、法律法規(guī)建設(shè)滯后、創(chuàng)新應(yīng)用領(lǐng)域不廣等問題。
“這8年中,我國在大數(shù)據(jù)方面取得了快速進(jìn)展,但目前看來,這些進(jìn)展并沒有滿足大模型發(fā)展的需要。”在胡良霖看來,不管是早就號召布局的大數(shù)據(jù),還是火熱的大模型,許多學(xué)界和產(chǎn)業(yè)界的決策者都追逐快速的效果,以至于忽略了技術(shù)發(fā)展的規(guī)律性:任何重大技術(shù)的突破都需要長時間的積累和努力,數(shù)據(jù)更是如此?!敖ㄔO(shè)高質(zhì)量的中文語料資源,需要大量的人力物力財力,如果沒有一個有遠(yuǎn)見的公司來支持,有遠(yuǎn)見的政府機(jī)構(gòu)來布局,是做不成的?,F(xiàn)在,大家要深度反思的是基礎(chǔ)數(shù)據(jù)供應(yīng)問題?!?/p>
另一個問題是,缺什么樣的高質(zhì)量數(shù)據(jù)?大模型依賴的NLP(自然語言處理)是處理文本數(shù)據(jù)的關(guān)鍵技術(shù),這意味著大模型訓(xùn)練的數(shù)據(jù)樣本主要來源于自然語言的文本。胡良霖告訴《IT時報》記者,目前,高質(zhì)量的中文數(shù)據(jù)源比較明確也很有限,主要集中在一些知名的學(xué)術(shù)機(jī)構(gòu)、媒體機(jī)構(gòu)等。相比之下,互聯(lián)網(wǎng)上的數(shù)據(jù)雖然量大,但質(zhì)量參差不齊,尤其是中文數(shù)據(jù),在選擇大模型訓(xùn)練的數(shù)據(jù)源時,也需要特別關(guān)注數(shù)據(jù)質(zhì)量和來源。
然而,除了文本數(shù)據(jù),大模型還需要其他類型的數(shù)據(jù),如數(shù)字、圖片等。這些數(shù)據(jù)與文本數(shù)據(jù)不同,無法直接通過NLP進(jìn)行處理,且處理方式與文本數(shù)據(jù)也有明顯區(qū)別。例如,一個人的身高和體重、各地的天氣預(yù)報、風(fēng)速等數(shù)字信息,無法直接通過自然語言處理技術(shù)進(jìn)行訓(xùn)練。
數(shù)字?jǐn)?shù)據(jù)是潛在的龐大數(shù)據(jù)資源,但因為表達(dá)形式較為簡單,缺乏語言特征,無法應(yīng)用于大模型訓(xùn)練,更多是利用關(guān)系數(shù)據(jù)庫進(jìn)行高效管理。因此,如何處理這一類的數(shù)據(jù),提升高效利用,會成為未來在數(shù)據(jù)突破上的一個新命題,但胡良霖也坦言:“針對這個方向,目前還沒有大模型企業(yè)有明顯的成果或突破。”
作者:賈天榮,編輯:潘少穎,孫妍
來源公眾號:IT時報(ID:vittimes),做報紙,也懂互聯(lián)網(wǎng)。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @IT時報 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!