文心一言,還需要繼續“培訓”
繼ChatGPT之后,百度也在生成式AI這一領域不斷跟進,比如前幾日,百度就正式推出了“文心一言”。那么目前,文心一言這位選手的表現如何?這位有些“偏科”的選手,未來可以選擇什么樣的發展路徑?一起來看看作者的解讀。
用“不完美小孩”,形容目前的百度文心一言,再合適不過了。
“不完美”體現在,用戶們連著五天測試發現,文心一言偏科較為嚴重:
是目前唯一能夠直接進行“文生圖”的模型,在文學創作例如詩詞上有著“天賦”,但在“數學課”、“計算機編程課”較為差勁。
同時,文心一言也有著“小孩”的浮躁與誠實:
不得不說,百度前期造勢過猛。百度Q4季度財報以及高管發言無不預告著,文心一言成為百度2023年及之后的主題曲:
在發給百度全員的財報信中,李彥宏重點介紹了百度將在三月份推出的生成式AI產品文心一言(ERNIE Bot),宣布計劃將多項主流業務與文心一言整合。
同時2月份以來,各行各業接入百度文心一言消息不斷,多次霸占新聞頭條。
一頓操作猛如虎,讓人誤以為百度已經完完全全準備好了。
于是在發布會,百度高管誠實表示文心一言還不夠成熟之時,百度股價應聲而落:李彥宏誠實指出,自己體驗時并不完美,這類大語言模型還遠未到發展完善的階段;百度首席技術官王海峰也提到模型目前“訓練不夠充分”。
于是,自3.16下午兩點發布會開始之后,百度一度大跌10%。
而當用戶真正去感受文心一言產品之時,發現其綜合來看表現還算合格,3.17過后,股民們又陸陸續續跑來鼓勵這個“不完美小孩”。
股價跌也跌了,漲也漲了,大家罵也罵了。最終,我們還是得冷靜下來,為這個不完美小孩,找一找差距,謀一謀出路。
一、不夠理性的偏科生
3.16日,文心一言站上考場,“考官”們蜂擁而上,對其進行全天的“提問”。
考慮到個人測評樣本過少,小編以國金證券券商測評結果為主,以機器之心、品玩等科技賽道自媒體測試結果為輔,對文心一言這五天的表現進行評估。結果發現,文心一言“同學”偏科較為嚴重:
(三大模型測評結果綜合對比 圖源:國金證券研究所)
在推理類問題中,文心一言在演繹推理、邏輯推理等領域表現遜于GPT系列模型。例如在面對以下問題時,文心一言表現欠佳,GPT-3.5和4持平:
在歸納總結類任務中,文心一言表現較好。品玩讓文心一言和GPT-3分別給出一個用 5 塊錢度過一周的方案,文心一言、GPT-3的回答是:
可以看到,文心一言給出了更為貼合現實的方案;而GPT-4 的回答,便是聽君一席話,如聽話一席。
在數學和代碼類問題中,文心一言與GPT-3、GPT-4便有著較大的差距:
而在一些崗位的測試中,三大模型均能較好地完成Al生活助手、產品推薦等文本生成任務,其中在教育輔助崗位,在文言文和古詩詞理解運用方面,文心一言有著“本土優勢”,表現略佳。
(文心一言翻譯情況 圖源:機器之心)
一整個測試下來,文心一言偏科還挺嚴重:一方面邏輯推理欠佳,對數學、計算機編程幾乎“一竅不通”;一方面歸納總結能力較強,在文學創作、古詩文理解上有著“天賦”,有著文科生的潛質。
同時,也有著做“藝術生”的潛質:文心一言具備多模態生成能力,包括生成圖片、生成語音(包括方言)以及生成視頻的能力。以生成圖片為例,機器之心讓文心一言生成一張湖心亭看雪的水墨畫,其生成速度、效果都在中上水準。
(文心一言文生圖情況 圖源:機器之心)
綜合看下來,在這五天的小考內,文心一言基于“本土優勢”展現出自己在文學、藝術等方面的長處,相應地也暴露出在理科、以及邏輯思辨能力的較大短板。
文心一言,是個不夠理性的偏科生。
二、成長的代價
經歷過這五天上千萬條拷問,文心一言應該能夠“意識到”,自己需要惡補“理性思維”,從而能夠在畢業時,cover住更多的崗位。
此刻,文心一言便需要向目前班級上邏輯思維能力更好的ChatGPT,找找差距,取取經。
在AIGC時代,算法、數據、算力是衡量差距的三把標尺:
在算法層面,百度與ChatGPT事實上是站在同一起跑線上的——百度與OpenAI、谷歌都是基于Transformer模型去做不同的變體,延展出各自的深度學習框架以及再上層的大模型。
(芯片—AIGC框架圖 圖源:浙商證券)
在數據層面,二者差距較為明顯:相比于百度文心一言,ChatGPT經歷了多次模型訓練,并被無數個“考官”進行無數次指點,同時有專門的數據標注人員進行方向的修正。
據華西證券表示,ChatGPT大模型最大的特點便是,引入人類反饋的強化學習(RLHF)。
RLHF簡單來說,就是用人工標注的方式,不斷地將結果去反饋給模型:回答好的給出正反饋(例如圖上的Correct),回答不好的,就通過加分機制的方式讓模型進一步的自我迭代,并進行不斷的調優,直到回答正確。
(ChatGPT答復情況 圖源:知乎博主LowinLi)
百度同樣也采用RLHF,并輔以“對話增強、有監督精調”等機制,也就是說底層架構、技術路徑相似,百度缺的是大量語料庫的訓練與反饋。畢竟,未被RLHF狠狠修正過的ChatGPT,在剛上線的時候也出現了大量混亂的回答。
(百度文心一言模型技術 圖源:百度)
而在算力層面的差距,基本上可以靠錢填平。
這是因為,盡管美國出口限制政策影響較大,國內仍能采購性能更低的前代算力芯片,或者是使用自己研發的芯片,只是相對犧牲了計算速度。
同時,國內頭部科技企業能夠實現算力資源部分自給;國家也在重視算力的建設:2月24日,東數西算一體化算力服務平臺在寧夏銀川正式上線發布。該平臺將瞄準ChatGPT運算能力,以支撐中國人工智能運算平臺急需的大算力服務。
不過,相比于阿里巴巴和華為,百度的數據中心容量有待提升。
(全球前十大科技企業數據中心容量排名 圖源:華西證券)
總結來看,文心一言的“文具”已然備齊,缺的是大把時間、大量資金去訓練。
那么,“家長”百度若想讓這個不完美小孩達到班級中上水平,需要砸多少錢?
根據華西證券測算,在不考慮人力支出及維護費用條件下,百度需要補足的成本拆分為訓練成本、推理成本及數據標注成本,分別需要2.29億元、13.62億元、0.05億元。
(類ChatGPT應用中期年均成本測算 圖源:華西證券)
也就是說,百度需要保持年均16億元的投入,將有可能達到ChatGPT目前的能力。除此之外,文心一言為成長付出的代價包括但不限于:
為保證以上流程能夠正常運轉,百度還需吸納更多的高價AI人才:在獵聘大數據研究院近期發布的AI人才報告中顯示,2022年AI相關崗位招聘的平均年薪為33.15萬,比互聯網崗位高4.27萬;而2023年以來的一個多月,AI崗位招聘的平均年薪已達到42.51萬元,比上一年高出9萬多;
為提供充足的算力,百度需要耗費更多資金建立并運作更多的數據中心:根據百度以往數據來看,一個數據中心的耗費在47億元-100億元區間。
目前來看,百度有實力給“孩子”培訓并讓其吃飽喝足:
在2017年,百度提出“All IN AI”之后,百度持續為AI輸血。在2022全年資本開支(除愛奇藝)高達181億元。
并且現金流也較為充沛:截至2022年末,百度公司現金、現金等價物及受限現金為652億元。
這個不完美小孩,在百度“富?!钡募彝キh境下,未來或許會有著不錯的發展。
三、百度搜索先吃到紅利?
當大量的錢、人才、算力砸進去,文心一言具備了成熟的思維能力之后,百度要怎么走?
從目前來看,百度文心一言有兩條“創業”方向:
1)為開發者直接提供API調用接口并收費。
據報道,“文心一言”已經以API形式接入650家企業,發布當日已有6.5萬家企業申請測試,簽約5家客戶。
也就是說,B端商業化的思路已經顯現。
但不排除后期因為預訓練語言模型規模急劇增長,成本實在“蚌埠”住,最后無法持續提供服務的情況:OpenAI便是出于商業角度考慮和高昂的端側微調成本,大規模預訓練語言模型不再被開源。
2)將AGI技術嵌入到自身成熟應用中,提供更強用戶體驗,進而推動用戶為附加服務付費。例如,微軟將GPT模型嵌入其搜索引擎Bing中:
2022年2月,微軟新推出NewBing,該模塊能夠與用戶對話、協助用戶起草文本;
(Bing廣告情況 圖源:華西證券)
目前,Bing已經靠著ChatGPT,在短時間內,火速對巨頭谷歌產生一定的威脅:
data.ai數據顯示,新功能上線當日,必應Bing應用程序的全球下載量在一夜之間猛增十倍;截至3月10日,Bing活躍用戶已突破1億人,增幅超600%。
(NewBing下載量 圖源:華西證券)
撇去ChatGPT本身熱度,Bing收獲青睞的原因是,搜索引擎與類ChatGPT產品能夠雙向互補:
1)搜索引擎能夠彌補GPT的“消息滯后”。ChatGPT的訓練數據集仍停留在2021年,因此難以回答時效性問題,而BingChat能夠基于實時更新的搜索庫進行回答。
2)ChatGPT能夠對搜索結果進行直觀集成,無需將鏈接一個個點開尋求答案,大大優化了用戶體驗。同時在此基礎上,也增添了趣味性:微軟為NewBing設置了三種性格狀態,用戶可根據偏好自行設定對話模型的回應風格。
基于此,更為人性化的、信息更為“新鮮”、全面的NewBing能夠長時間地留住客戶。用戶在手,NewBing變現的野心已經遮不住了:廣告引流已經開始。
目前,據華西證券發現,Chat界面提供了新的廣告位:Bing已經在回復框中,對電商產品進行展示引流。
(Bing廣告情況 圖源:華西證券)
參照NewBing,百度搜索或許能夠第一個吃到文心一言的紅利。
但百度需要做到的是,在發展文心一言的同時,也要好好優化一下百度搜索,目前,百度搜索的使用體驗并不友好:
根據偲睿洞察記者調查發現,在搜索“下載網易云音樂”這類明確的指令之下,百度有1億條結果,一直到第18條才出現官網下載地址,前18條里還有6個廣告,相比之下,必應有7億多個結果,在第5條出現了官網下載地址;
在搜索“五官醫院”時,必應出現3.95億條結果,第一個詞條是出現最近的五官醫院的官網以及地址信息,之后是附近五官醫院的地址,而百度出現41萬條結果,迎面的幾條都是機器人在線醫療……
當百度搜索更為精準之后,文心一言在此基礎上,才能夠提供更個性化、更高效的搜索服務,從而提升搜索的變現效果。
除了搜索之外,百度還將其融入智能云、Apollo自動駕駛、小度智能設備等:在財報后的全員信中,李彥宏表示,百度的多項主流業務與文心一言整合。
而這一切的一切,都得等文心一言這個偏科生更“理性一點”。
作者:Renee;編輯:孫越
原文標題:百度文心一言,還是個不完美小孩
來源公眾號:偲睿洞察(ID:siruidongcha),陪伴中國產業升級與迭代
本文由人人都是產品經理合作媒體 @偲睿洞察 授權發布,未經許可,禁止轉載。
題圖來自 Unsplash,基于 CC0 協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!