百度文心一言“出擊”,騰訊、阿里該如何應對?
在國外科技巨頭們在AI大模型領域里打得火熱時,國內的互聯網巨頭也不甘示弱,比如近日引發眾多討論的百度“文心一言”。那么百度“文心一言”的表現如何?除了百度“文心一言”,國內其他互聯網大廠的AI大模型發展,又走到哪一步了?
前幾日,一場不及預期的發布會讓百度的股價跌去將近10%。然而,當各家媒體開始紛紛發布文心一言的評測,很多人才發現李彥宏僅展現了其能力的“冰山一角”,于是今天百度的股價高開高走,盤中漲幅最高近15%。資本市場的這一戲劇性表現,反映了人們對于這款“中文版ChatGPT”的認知分歧。
在實際測試了文心一言的各項表現之后,文娛價值官發現它雖然距離ChatGPT尚有差距,但已經實現了國內AI領域在大語言模型領域的一次突破。不僅如此,有了知識圖譜的加持,未來集成了文心一言的百度搜索可能會比New Bing更加可靠。
在百度之外,過去兩年騰訊、阿里也在各自探索大模型突圍之路,ChatGPT與文心一言的刺激也正在讓它們從岔路回到“正軌”。
一、文心一言未來進化的潛力有多大?
在近日的發布會上,李彥宏通過演示視頻展示了文心一言在文本創作、數理推算、中文理解與多模態生成等方面的能力,卻并未測試其在多輪連續對話、上下文語意理解、邏輯推理等方面的表現,通常這些才被認為是ChatGPT的突破之處。因此,。
隨著越來越多內測用戶開始與文心一言深度互動,這一印象似乎被進一步加深。從眾多網友及文娛價值官的實際測試過程中可以看出,文心一言的in-context learning能力差強人意,某些時候不能正確理解用戶的提問。同時,文心一言也并沒有熟練掌握邏輯推理鏈條,一旦用戶繼續追問,文心一言往往顯得窮于應付。
相比之下,文心一言在文本生成、世界知識等方面的表現則令人驚喜,雖然很多時候生成內容的深度與精細程度不如ChatGPT,但更多是由于訓練過程中語料質量的限制,后續可以實現進一步提升。
基于文心一言的表現,有業內人士推斷它已經具備了GPT-3的同等能力,與ChatGPT背后的GPT-3.5仍然存在代差,更不用說OpenAI剛剛發布的GPT-4了。
盡管如此,該業內人士依然表示文心一言超出了預期,因為在此之前,國內尚且沒有一款大模型能達到GPT-3的水平,文心一言至少走在了一條正確的道路上。如同GPT-3一樣,文心一言也擁有巨大的進化潛能,后續如果像OpenAI一樣進行代碼訓練、指令微調和基于人類反饋的強化學習(RLHF),或許也能夠最終解鎖GPT-3.5所擁有的突現能力(Emergent Ability)。
二、大模型+知識圖譜,可能會比NewBing更“靠譜”
在發布會上,百度首席技術官王海峰曾提到文心一言的模型“訓練不夠充分”,背后的潛臺詞是:文心一言訓練過程中使用的人工標注數據有限,也并未充分借助RLHF這一ChatGPT背后的“秘密武器”,而更多依靠百度自身的技術積累。
在去年5月文心大模型首場技術開放日直播分享中,百度技術委員會主席吳華曾提到,文心ERNIE的特色之一就是從大規模知識圖譜和無標注、無結構化的文本中去學習,能夠用少量任務數據取得非常好的效果。這條路徑正是針對高質量中文語料稀缺,人工標注知識門檻(需要語言及專業領域專家團隊)及成本較高的“痛點”。在中文知識圖譜領域,百度多年以來有著深厚積累,可以用來增強模型知識之間的關聯,提升文本語義理解能力。
不僅如此,知識圖譜也有助于解決目前大語言模型“一本正經胡說八道”的問題,對于下一代搜索引擎而言,這個問題顯得尤為關鍵,未來大語言模型與知識圖譜的相互結合將是大勢所趨。
有分析認為Bing可以借助ChatGPT與Google的知識圖譜相抗衡,但從目前New Bing的表現來看,盡管它可以實時搜索全網內容,且提供了可供核查的信息來源,但如同ChatGPT一樣,它在專業領域無法保證正確率。一位業內人士表示:“單純的生成式模型沒法確切的給出正確答案,尤其是當語料庫本身有缺陷時。這意味著,在某些專業領域答案不應該生成而是從知識圖譜抽取?!?/p>
因此,有了文心一言加持的百度下一代搜索引擎,在信息獲取方面的使用體驗可能會比New Bing更為可靠,雖然可玩性上尚且存在明顯差距。
三、外部刺激下,騰訊大模型終于不再“各自為戰”
在昨天的發布會上,李彥宏一再強調百度是全球大廠中首個做出來對標ChatGPT產品的。文心一言的率先搶跑,也必然會刺激騰訊、阿里、字節等國內大廠的追趕步伐。
2月27日,有消息稱騰訊方面或已針對類 ChatGPT 產品成立“混元助手(HunyuanAide)”項目組,目標是聯合內部團隊構建大參數語言模型。當然,在此之前騰訊在大模型領域已經“早有布局”,只不過之前更多是騰訊AILab團隊的單打獨斗,目標也是為內部產品線及騰訊云客戶技術賦能,這一次則是打破部門藩籬,集聚全廠之力共同攻關。
相比百度借助于知識圖譜實現大模型突圍,騰訊AILab此前的著力點是盡可能以最小成本訓練大模型,從而突破算力及存儲瓶頸。
2022年12月,騰訊對外宣布用256卡最快一天就可以訓完萬億參數NLP大模型,“只需要用少量的標注數據微調,就可以取得較好的效果。”實驗顯示,在騰訊太極機器學習平臺自研的訓練框架ZeRO-Cache 上,僅需32張卡就可以實現GPT-3(175B)的模型訓練。這一模型訓練方法的著眼點,仍在于降低業務的使用成本。之所以在這個方向上發力,則可能是由于AILab是“業務導向”,自身很難獲取到高質量的標注數據,只能盡可能把刀磨得鋒利。
相比之下,微信AI團隊自研的WeLM(Well-Read Language Model)雖然最大訓練參數只有100億,卻可以采用多樣化的網頁、書籍、新聞、論壇、論文的10TB數據集進行訓練,從而能夠先于ChatGPT低調上線。
不過,WeLM 并不是聊天機器人,而只是一個補全用戶輸入信息的生成模型。因為訓練深度有限,WeLM 對于精準提示詞的依賴性要高于ChatGPT,尚未解鎖zero-shot 泛化能力,不僅如此,有媒體測試發現,一旦面臨高強度輸出還會出現GPU過載問題。當ChatGPT橫空出世之后,已經無人關注微信團隊的這個實驗品。
由此,也可以看出騰訊在大模型領域部門之間的“各自為戰”,在外力的刺激之下,“混元助手“項目有望打破這種割據狀態。
雖然騰訊沒有百度強大的知識圖譜,但微信公眾平臺被視為中文互聯網上質量最高的內容庫,微信讀書也可以扮演Project Gutenberg在ChatGPT訓練過程中所扮演的角色,如果騰訊能不惜投入建立自己的高質量訓練語料庫,搭配那一把鋒利的“寶刀”,或許在不久的將來就能帶給我們驚喜。
四、前年就訓練出“中文版GPT-3”,去年阿里卻做了“瑞士軍刀”
早在2021年4月,阿里達摩院就宣布僅用128張卡就訓練出了“中文版GPT-3”PLUG。然而,由于訓練參數(參數量只有270億,相比GPT-3的1750億差了一個數量級)及語料質量上的差距,這個“中文版GPT-3”顯得名不副實,在當時也并未掀起什么水花。
去年,阿里達摩院宣布實現大模型領域的“大一統”——模態表示、任務表示、模型結構統一,從而實現在低資源消耗的前提下覆蓋更多行業的應用場景(宣稱落地場景200+),猶如一把便宜的瑞士軍刀,至于在各項能力上好不好用就是另一回事了。在尚未把某一把刀磨好之前,達摩院似乎已經急于把它們組裝起來尋找買家了。
直到ChatGPT火遍全球之后,阿里才意識到自己兩年前就已經“做出來了”,開始向外曝光達摩院版的ChatGPT,只是不知道會如何把它從已經“大一統”的“通義”大模型中“解放”出來,然后傾全院之力專注磨好這一把刀。
至于上個月才剛剛加入“大模型熱潮”的字節,雖然是大廠中動作最晚的一個,卻也避免了如上面幾家那樣走彎路。不僅如此,字節的目標也很明確務實:搜索部門牽頭,各個部門通力配合,將大模型與搜索、廣告等下游業務深度結合。
雖然字節在文字內容方面缺乏積累,但在視頻、圖像方面的數據卻是上述幾家無法比擬的。當多模態大模型未來成為主流,這將是一座難以被撼動的壁壘。
作者:張遠,編輯:美圻
原文標題:百度文心一言“翻身”,騰訊、阿里該如何應對?
來源公眾號:文娛價值官(ID:wenyujiazhiguan),文化娛樂、新消費、商業科技的,價值解構師。
本文由人人都是產品經理合作媒體@文娛價值官 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!