99热热久久这里只有精品68,亚洲欧美日韩愉拍自拍美利坚

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

谷歌大模型一出鬧劇，揭開中文數(shù)據(jù)荒

IT時報

2024-01-04

0 評論 2599 瀏覽 2 收藏

13 分鐘

2023年，有關(guān)AI大模型的熱點(diǎn)或動態(tài)頻頻出現(xiàn)在網(wǎng)絡(luò)平臺上，而在這些動態(tài)中，部分問題也顯現(xiàn)了，比如數(shù)據(jù)匱乏這個問題——大模型訓(xùn)練，還需要更多高質(zhì)量數(shù)據(jù)。一起來看看本文的分享。

如果2023年只能選一個科技熱詞，那一定是大模型。這一年，圍繞大模型，個人、企業(yè)乃至國家，都陷入愈發(fā)劇烈的變革中。它的影響力已經(jīng)遠(yuǎn)超技術(shù)范疇，成為全球技術(shù)、產(chǎn)業(yè)和國際競爭的綜合戰(zhàn)場。2024年，我們站在未來之門前，共同面對AI、算力、國力之爭的新時代挑戰(zhàn)。

不久前，谷歌宣布對公眾免費(fèi)開放其Gemini Pro的API。然而，在API開放后不久，用戶發(fā)現(xiàn)了一個有趣的現(xiàn)象。

當(dāng)連續(xù)用簡體中文詢問Gemini Pro“你好”和“你是誰”這兩個問題時，AI竟然回答“我是百度文心大模型”。更令人驚訝的是，當(dāng)進(jìn)一步詢問“你的創(chuàng)始人是誰”，它干脆回答“李彥宏”。

這一現(xiàn)象引發(fā)了網(wǎng)友的熱議和猜測。一種可能性是谷歌在訓(xùn)練Gemini Pro時，使用了百度文心一言的語料數(shù)據(jù)；另一種可能是，其訓(xùn)練所用的語料數(shù)據(jù)已經(jīng)被其他AI“污染”。

在一系列事件引發(fā)熱議的同時，也反映了大模型發(fā)展中難以回避的問題——數(shù)據(jù)匱乏。數(shù)據(jù)的重要性不言而喻，高質(zhì)量數(shù)據(jù)更是稀缺品。但隨著AI技術(shù)的迅猛發(fā)展，目前全球大模型都陷入了數(shù)據(jù)荒。

一、中文語料成全球數(shù)據(jù)荒重災(zāi)區(qū)

一項來自國外團(tuán)隊的研究結(jié)果表明，高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡，低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。

更令人驚訝的是，目前的國際主流大模型，參數(shù)數(shù)據(jù)集以英文為主，此前中國工程院院士高文在演講中提到，全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里，中文語料占比僅為1.3%。一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主，最流行的Common Crawl中文數(shù)據(jù)也只占其4.8%。

與此同時，中國在AI大模型方面的發(fā)展卻十分活躍。11月29日發(fā)布的《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示，美國和中國發(fā)布的通用大模型總數(shù)占全球發(fā)布量的80%，成為大模型技術(shù)領(lǐng)域的引領(lǐng)者。

在國產(chǎn)大模型發(fā)展如火如荼的背后，對于高質(zhì)量中文語料的需求卻從未停止。

上海數(shù)交所總經(jīng)理湯奇峰曾表示，大模型時代下的語料庫建設(shè)存在供給不足、質(zhì)量不高、多樣性匱乏、標(biāo)準(zhǔn)欠缺等問題。但關(guān)于語料庫建設(shè)的挑戰(zhàn)，湯奇峰認(rèn)為主要集中于開放程度和數(shù)據(jù)質(zhì)量兩方面：“能否有大模型企業(yè)所需的高質(zhì)量語料？目標(biāo)對象愿不愿意開放數(shù)據(jù)？”

據(jù)了解，目前全球70%的數(shù)據(jù)源僅停留在免費(fèi)公開數(shù)據(jù)集的層面，離大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn)，尤其是一些行業(yè)的垂類大數(shù)據(jù)。

有業(yè)內(nèi)人士在接受媒體采訪時透露：“垂類數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握，出于數(shù)據(jù)安全合規(guī)的考慮，愿意把核心數(shù)據(jù)拿出來開放共享的行業(yè)機(jī)構(gòu)占極少數(shù)。從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品，數(shù)據(jù)形態(tài)演變的過程，需要經(jīng)歷數(shù)據(jù)篩選、分級和標(biāo)注，中間附著的人力成本和硬件成本都極為不菲，從初始收集的數(shù)據(jù)總量到最后可用的數(shù)據(jù)量可能只有70%，相比于算力，數(shù)據(jù)的稀缺性更為突出?！?/p>

為了應(yīng)對這些問題，一些開源社區(qū)和組織開始積極推動中文數(shù)據(jù)集的開源和共享。除通用數(shù)據(jù)集外，針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。但目前整體數(shù)量質(zhì)量和英文數(shù)據(jù)集相比可謂九牛一毛，并且其中相當(dāng)一部分內(nèi)容非常陳舊。

Hugging Face工程師、中國負(fù)責(zé)人王鐵震曾表示，單純比較開源數(shù)據(jù)集，高質(zhì)量的中文語料數(shù)據(jù)可能比日語、韓語和西班牙語都要靠后。比如由于數(shù)據(jù)保護(hù)條例，人工智能工程師只能使用開源數(shù)據(jù)集，而開源的中文數(shù)據(jù)集非常少，并且數(shù)量和質(zhì)量都遠(yuǎn)低于英文語料庫。

二、AI訓(xùn)練AI或?qū)е隆巴嘶?/h2>
實(shí)際上，使用其他大模型的語料數(shù)據(jù)進(jìn)行訓(xùn)練的情況并不罕見。今年3月，谷歌曾被曝出Bard的訓(xùn)練數(shù)據(jù)部分來自ChatGPT。不久前，OpenAI禁止字節(jié)跳動使用其API接口，原因是字節(jié)跳動在使用GPT訓(xùn)練自己的AI，違反了使用條例。

另一方面，在數(shù)據(jù)荒席卷全球的背景下，AI生成的內(nèi)容已經(jīng)開始進(jìn)入人工智能工程師們所習(xí)慣于獲取訓(xùn)練數(shù)據(jù)的領(lǐng)域。

2023年年初，來自香港大學(xué)、牛津大學(xué)和字節(jié)跳動的幾名研究人員，就嘗試使用高質(zhì)量AI合成圖片，來提升圖像分類模型的性能。結(jié)果他們發(fā)現(xiàn)，不僅效果不錯，有的AI在訓(xùn)練后，效果竟然比用真實(shí)數(shù)據(jù)訓(xùn)練還要好。

科技巨頭們也已經(jīng)在多個場景探索合成數(shù)據(jù)的應(yīng)用。如英偉達(dá)的元宇宙平臺Omniverse擁有合成數(shù)據(jù)能力omniverse replicator；亞馬遜使用合成數(shù)據(jù)來訓(xùn)練、調(diào)試其虛擬助手Alexa，以避免用戶隱私問題；微軟的Azure云服務(wù)推出了airSIM平臺，創(chuàng)建高保真的3D虛擬環(huán)境來訓(xùn)練、測試AI驅(qū)動的自主飛行器……

國內(nèi)，騰訊自動駕駛實(shí)驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標(biāo)注的各種交通場景數(shù)據(jù)；阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上；百度也發(fā)布了多個數(shù)據(jù)合成與半自動標(biāo)注工具。

當(dāng)AI合成數(shù)據(jù)看似走向生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路，質(zhì)疑的聲音也未曾停止。2023年2月，美國華裔科幻文學(xué)家特德·姜發(fā)表文章稱，用大語言模型生成的文本來訓(xùn)練新的模型，如同反復(fù)以JPEG格式存儲同一圖像，每次都會丟失更多的信息，最終成品質(zhì)量只會越來越差。大語言模型生成的文本在網(wǎng)絡(luò)上發(fā)布得越多，信息網(wǎng)絡(luò)本身就變得越發(fā)模糊，難以獲取有效真實(shí)的信息。

2023年6月，牛津大學(xué)、劍橋大學(xué)、倫敦帝國學(xué)院等高校的AI研究者發(fā)布的論文預(yù)印本《遞歸之詛咒：用生成數(shù)據(jù)訓(xùn)練會使模型遺忘》在業(yè)界流傳開來。論文中用實(shí)驗結(jié)果證明了特德·姜的預(yù)言：用AI生成數(shù)據(jù)訓(xùn)練新的AI，最終會讓新的AI模型退化以至崩潰。

國家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心主任胡良霖告訴《IT時報》記者，合成數(shù)據(jù)或許能在訓(xùn)練大模型的過程中起到一定作用，但并不能解決中文語料訓(xùn)練數(shù)據(jù)匱乏的問題。因為合成數(shù)據(jù)往往是基于已有的數(shù)據(jù)和場景進(jìn)行模擬，很難涵蓋到所有可能的場景和情況，也很難完全模擬真實(shí)世界的復(fù)雜性和多樣性。

三、中文語料“危機(jī)”的出路

2023年12月21日，國內(nèi)用于大模型的首批中文基礎(chǔ)語料庫發(fā)布，匯聚了一批高質(zhì)量可信數(shù)據(jù)。經(jīng)過去重、過濾等技術(shù)手段，形成并對社會發(fā)布首批120G中文基礎(chǔ)語料，包括1億余條數(shù)據(jù)，500億個Token。

事實(shí)上，早在2015年國務(wù)院發(fā)布的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》就指出：目前（2015年），我國在大數(shù)據(jù)發(fā)展和應(yīng)用方面已具備一定基礎(chǔ)，擁有市場優(yōu)勢和發(fā)展?jié)摿?，但也存在政府?dāng)?shù)據(jù)開放共享不足、產(chǎn)業(yè)基礎(chǔ)薄弱、缺乏頂層設(shè)計和統(tǒng)籌規(guī)劃、法律法規(guī)建設(shè)滯后、創(chuàng)新應(yīng)用領(lǐng)域不廣等問題。

“這8年中，我國在大數(shù)據(jù)方面取得了快速進(jìn)展，但目前看來，這些進(jìn)展并沒有滿足大模型發(fā)展的需要。”在胡良霖看來，不管是早就號召布局的大數(shù)據(jù)，還是火熱的大模型，許多學(xué)界和產(chǎn)業(yè)界的決策者都追逐快速的效果，以至于忽略了技術(shù)發(fā)展的規(guī)律性：任何重大技術(shù)的突破都需要長時間的積累和努力，數(shù)據(jù)更是如此?！敖ㄔO(shè)高質(zhì)量的中文語料資源，需要大量的人力物力財力，如果沒有一個有遠(yuǎn)見的公司來支持，有遠(yuǎn)見的政府機(jī)構(gòu)來布局，是做不成的?，F(xiàn)在，大家要深度反思的是基礎(chǔ)數(shù)據(jù)供應(yīng)問題?！?/p>

另一個問題是，缺什么樣的高質(zhì)量數(shù)據(jù)？大模型依賴的NLP（自然語言處理）是處理文本數(shù)據(jù)的關(guān)鍵技術(shù)，這意味著大模型訓(xùn)練的數(shù)據(jù)樣本主要來源于自然語言的文本。胡良霖告訴《IT時報》記者，目前，高質(zhì)量的中文數(shù)據(jù)源比較明確也很有限，主要集中在一些知名的學(xué)術(shù)機(jī)構(gòu)、媒體機(jī)構(gòu)等。相比之下，互聯(lián)網(wǎng)上的數(shù)據(jù)雖然量大，但質(zhì)量參差不齊，尤其是中文數(shù)據(jù)，在選擇大模型訓(xùn)練的數(shù)據(jù)源時，也需要特別關(guān)注數(shù)據(jù)質(zhì)量和來源。

然而，除了文本數(shù)據(jù)，大模型還需要其他類型的數(shù)據(jù)，如數(shù)字、圖片等。這些數(shù)據(jù)與文本數(shù)據(jù)不同，無法直接通過NLP進(jìn)行處理，且處理方式與文本數(shù)據(jù)也有明顯區(qū)別。例如，一個人的身高和體重、各地的天氣預(yù)報、風(fēng)速等數(shù)字信息，無法直接通過自然語言處理技術(shù)進(jìn)行訓(xùn)練。

數(shù)字?jǐn)?shù)據(jù)是潛在的龐大數(shù)據(jù)資源，但因為表達(dá)形式較為簡單，缺乏語言特征，無法應(yīng)用于大模型訓(xùn)練，更多是利用關(guān)系數(shù)據(jù)庫進(jìn)行高效管理。因此，如何處理這一類的數(shù)據(jù)，提升高效利用，會成為未來在數(shù)據(jù)突破上的一個新命題，但胡良霖也坦言：“針對這個方向，目前還沒有大模型企業(yè)有明顯的成果或突破。”

作者：賈天榮，編輯：潘少穎，孫妍

來源公眾號：IT時報（ID：vittimes），做報紙，也懂互聯(lián)網(wǎng)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @IT時報授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App