不做Sora背后:百度的多模態(tài)路線是什么?
在人工智能的浪潮中,百度以其獨(dú)特的多模態(tài)技術(shù)路線,引領(lǐng)行業(yè)探索AI的深度應(yīng)用。本文深入解析了百度在AI領(lǐng)域的戰(zhàn)略選擇,特別是在面對(duì)“百模大戰(zhàn)”和視頻生成技術(shù)風(fēng)潮時(shí),百度如何堅(jiān)持其技術(shù)理念,通過(guò)iRAG技術(shù)解決AI領(lǐng)域的“幻覺(jué)”問(wèn)題,并在多模態(tài)技術(shù)的發(fā)展上走出自己的道路。
當(dāng)ChatGPT掀起國(guó)內(nèi)“百模大戰(zhàn)”,百度率先交卷文心一言。
Sora再掀視頻生成風(fēng)潮,卻傳出李彥宏內(nèi)部講話“Sora無(wú)論多么火,百度都不去做”。
一時(shí)間,困惑、不解、爭(zhēng)議,紛至沓來(lái)。
面對(duì)這些聲音,在剛剛結(jié)束的百度世界大會(huì)會(huì)后采訪中,李彥宏公開(kāi)回應(yīng)。
他不僅重申了不做Sora的決定,并且說(shuō)明了百度是如何運(yùn)用和發(fā)展多模態(tài)的。
在大會(huì)發(fā)布中,李彥宏發(fā)布了百度從年初開(kāi)始重點(diǎn)攻克的iRAG技術(shù),這項(xiàng)技術(shù)旨在解決AI領(lǐng)域最棘手的”幻覺(jué)”問(wèn)題。有趣的是,這個(gè)開(kāi)始正好是在Sora風(fēng)正熱之時(shí)。
百度的選擇背后原因,到底是什么?
△百度2024世界大會(huì)現(xiàn)場(chǎng)
一、加速解決幻覺(jué)問(wèn)題
先從iRAG技術(shù)看。它所解決的是圖片生成的幻覺(jué)問(wèn)題。
在年初,不做Sora,轉(zhuǎn)頭將資源放在幻覺(jué)解決上。為什么?
結(jié)合這屆百度世界大會(huì)主題“應(yīng)用來(lái)了”來(lái)理解:
幻覺(jué)已經(jīng)成為制約大模型應(yīng)用大規(guī)模落地的一大絆腳石。
現(xiàn)代社會(huì)對(duì)計(jì)算器已有絕對(duì)的信任,只要保證輸入是對(duì)的,就可以百分百放心地把計(jì)算結(jié)果用到下一步工作流程中。
但對(duì)于已知可能存在幻覺(jué)的大模型來(lái)說(shuō),還敢給予同等的信任嗎?
△新版文小言APP繪圖
有幻覺(jué),即意味著模型行為不完全可控,不能完全放心的自動(dòng)化工作流程,依然需要人工介入。
AI應(yīng)用正面臨這樣的困境。
事實(shí)上,ChatGPT問(wèn)世之后,大模型的幾個(gè)主要改進(jìn)方向都是通過(guò)不同方式來(lái)解決大模型幻覺(jué)問(wèn)題。
長(zhǎng)上下文窗口,讓模型獲取更完整的輸入,減少因信息不全產(chǎn)生的錯(cuò)誤推理。
RAG(檢索增強(qiáng)生成),檢索外部知識(shí)庫(kù)補(bǔ)充信息,彌補(bǔ)模型參數(shù)存儲(chǔ)知識(shí)的不足。
聯(lián)網(wǎng)搜索,獲取實(shí)時(shí)、動(dòng)態(tài)的在線信息,擴(kuò)展模型的知識(shí)邊界。
慢思考,通過(guò)分步推理減少直覺(jué)性錯(cuò)誤,提高推理過(guò)程的可解釋性。
甚至從某種意義上說(shuō),多模態(tài)技術(shù)也是讓模型多一種信息輸入途徑,不用在“看不見(jiàn)”視覺(jué)信息的情況下為了完成任務(wù)憑空編造。
……
所以再次總結(jié)一下,為什么解決幻覺(jué)問(wèn)題是目前AI行業(yè)的當(dāng)務(wù)之急?
從技術(shù)層面,不解決幻覺(jué)問(wèn)題就難以預(yù)測(cè)和控制模型的行為邊界。
從應(yīng)用的角度來(lái)看,幻覺(jué)問(wèn)題阻礙了用戶對(duì)AI產(chǎn)品的信任。
從產(chǎn)業(yè)角度,解決了幻覺(jué)問(wèn)題才能擴(kuò)大AI可應(yīng)用的場(chǎng)景范圍,提高AI系統(tǒng)的商業(yè)價(jià)值。
再將目光轉(zhuǎn)向百度,解決AI幻覺(jué)問(wèn)題,恰恰也是百度的“主戰(zhàn)場(chǎng)”。
iRAG,全稱(chēng)Image-based Retrieval-Augmented Generation,是一種全新的檢索增強(qiáng)文生圖范式,結(jié)合了百度多年的搜索積累,幫助大幅提升圖片的生成可控性和準(zhǔn)確性。
其核心是將百度搜索的億級(jí)圖片資源與文心大模型的生成能力相結(jié)合,通過(guò)聯(lián)合優(yōu)化,讓生成圖片更加真實(shí)可信。
△百度2024世界大會(huì)現(xiàn)場(chǎng)
具體而言,iRAG先利用檢索模塊在海量圖庫(kù)中找出與文本描述最相關(guān)的若干圖片,然后提取其視覺(jué)特征,與文本特征一并輸入到生成模塊。生成模塊在此基礎(chǔ)上,對(duì)圖像進(jìn)行理解、重組、創(chuàng)新,最終輸出高質(zhì)量、符合需求的全新圖片。
△文心大模型生成的大眾攬巡汽車(chē)飛躍長(zhǎng)城
可以說(shuō),iRAG巧妙地將認(rèn)知智能(檢索)與生成智能(創(chuàng)作)結(jié)合在一起,取長(zhǎng)補(bǔ)短,相得益彰。
一方面,海量圖像的參考讓生成更”接地氣”,大幅減少了幻覺(jué)、違禁內(nèi)容等問(wèn)題。
另一方面,強(qiáng)大的生成能力讓輸出圖片更多樣、更具創(chuàng)意,遠(yuǎn)非單純的拼貼、修改那么簡(jiǎn)單。
更重要的是,iRAG在諸多行業(yè)領(lǐng)域都具有廣闊應(yīng)用前景,尤其能顯著降低AI生圖的創(chuàng)作成本。比如在影視制作、動(dòng)漫設(shè)計(jì)中,iRAG可實(shí)現(xiàn)從文本腳本直接生成高質(zhì)量的分鏡、概念圖,大幅減少中間環(huán)節(jié)的人工干預(yù)。
二、多模態(tài),不止Sora一條路
明確了幻覺(jué)問(wèn)題是AI行業(yè)的優(yōu)先級(jí),百度還需要回答另一種質(zhì)疑:多模態(tài)已經(jīng)是公認(rèn)邁向AGI的重要一步。
多模態(tài)有助于增強(qiáng)AI系統(tǒng)的感知和理解能力。通過(guò)處理視覺(jué)、語(yǔ)音、文本等不同模態(tài)的信息,AI可以更全面地感知環(huán)境,增強(qiáng)其認(rèn)知和交互能力,與人類(lèi)通過(guò)多種感官認(rèn)知世界保持一致。
但這里要明確的是,Sora路線并不能代表多模態(tài)技術(shù)的全部。
首先,投入做Sora代表的通用視頻生成模型投入的成本非常高昂。市場(chǎng)研究機(jī)構(gòu)Factorial Funds報(bào)告估算,Sora模型至少需要在4200~10500塊英偉達(dá)H100 GPU上訓(xùn)練1個(gè)月。而如果Sora得到大范圍應(yīng)用,為了滿足需求,需要約72萬(wàn)張Nvidia H100 GPU,如果按照每片英偉達(dá)H100 AI加速卡3萬(wàn)美元成本計(jì)算,72萬(wàn)片需要216億美元。
而目前通用視頻生成模型在技術(shù)成熟度上距離iPhone時(shí)刻也還有較遠(yuǎn)的距離。此前與藝術(shù)家合作短片《Air Head》后來(lái)就被指出實(shí)際有大量人工參與,估算只有約1/300的AI素材用到了最終成片里。
△圖源fxguide.com
目前市場(chǎng)視頻生成應(yīng)用從短劇內(nèi)容生產(chǎn)到影視特效制作,很多努力都在摸索視頻生成技術(shù)的想象空間,但尚未形成成熟的商業(yè)化方案和穩(wěn)定的營(yíng)收模式。
其實(shí),對(duì)于做多模態(tài)來(lái)說(shuō),也存在Sora之外的多種路徑。???
Meta首席科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun就一直堅(jiān)持“世界模型”路線。他認(rèn)為生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同,通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi),注定會(huì)失敗。
斯坦福教授李飛飛則看重具身智能,她認(rèn)為AI僅僅看是不夠的,“看,是為了行動(dòng)和學(xué)習(xí)”。比如通過(guò)大語(yǔ)言模型,讓一個(gè)機(jī)器人手臂執(zhí)行任務(wù),打開(kāi)一扇門(mén)、做一個(gè)三明治以及對(duì)人類(lèi)的口頭指令做出反應(yīng)等。
百度對(duì)多模態(tài)技術(shù)的理解,最近也在數(shù)字人場(chǎng)景得到集中體現(xiàn)。
百度從2019年起就開(kāi)始布局?jǐn)?shù)字人領(lǐng)域,涉及語(yǔ)音克隆、唇形同步、表情動(dòng)作捕捉等一系列關(guān)鍵技術(shù)。到如今百度“曦靈”數(shù)字人、“慧播星”數(shù)字人已廣泛應(yīng)用于新聞播報(bào)、直播電商等場(chǎng)景。
△百度慧播星電商數(shù)字人
正如李彥宏強(qiáng)調(diào)的,百度不做Sora,并不意味著在多模態(tài)賽道上缺席了。
數(shù)字人語(yǔ)音與口型、動(dòng)作的同步問(wèn)題,或許最終可以靠通用場(chǎng)景下的視頻生成實(shí)現(xiàn),但需要很長(zhǎng)時(shí)間,成本很高。
但既然可以用更簡(jiǎn)單、成本更低的方法做到,為什么不先把業(yè)務(wù)跑起來(lái)呢?
首先,通用方案追求”大而全”,試圖用單一模型覆蓋所有場(chǎng)景,但這在技術(shù)上尚不成熟,往往帶來(lái)效果的參差不齊;而數(shù)字人聚焦特定垂直領(lǐng)域,可以更精準(zhǔn)地優(yōu)化模型,追求極致的人機(jī)交互體驗(yàn)。
其次,視頻生成好就是固定的素材了,缺乏實(shí)時(shí)交互能力;而AI驅(qū)動(dòng)的數(shù)字人卻可以實(shí)現(xiàn)動(dòng)態(tài)多輪對(duì)話,甚至還可以根據(jù)用戶反饋實(shí)時(shí)調(diào)整狀態(tài),更加契合真實(shí)應(yīng)用的需求。
最后,視頻生成對(duì)算力和數(shù)據(jù)的要求極高,當(dāng)前能夠真正駕馭的企業(yè)鳳毛麟角,商業(yè)化進(jìn)程困難重重;相比之下,數(shù)字人技術(shù)門(mén)檻相對(duì)較低,且應(yīng)用場(chǎng)景清晰,更容易形成可復(fù)制的商業(yè)模式,開(kāi)啟數(shù)據(jù)飛輪。
三、AI大規(guī)模落地需要什么條件?
不論是投入解決圖片幻覺(jué)問(wèn)題,還是從業(yè)務(wù)需求出發(fā)發(fā)展多模態(tài)的路線,百度的目標(biāo)似乎都圍繞著李彥宏所說(shuō)的:讓技術(shù)被更多人用起來(lái)。
李彥宏這段時(shí)間不斷強(qiáng)調(diào)的一個(gè)觀點(diǎn)是“模型本身不產(chǎn)生直接價(jià)值”,只有在模型之上開(kāi)發(fā)各種各樣應(yīng)用,在各種場(chǎng)景找到所謂的PMF,才能真正產(chǎn)生價(jià)值。
百度需要做的,是為個(gè)人和企業(yè)提供開(kāi)發(fā)應(yīng)用的基建,幫助更多人、更多企業(yè)打造出數(shù)百萬(wàn)“超級(jí)有用”的應(yīng)用。
長(zhǎng)遠(yuǎn)來(lái)看,幻覺(jué)問(wèn)題的解決為行業(yè)應(yīng)用消除了障礙,使得AI技術(shù)能夠在更廣泛的領(lǐng)域得到應(yīng)用和推廣。
用業(yè)務(wù)需要的多模態(tài)技術(shù)支持業(yè)務(wù)先跑起來(lái),能讓更多的AI應(yīng)用場(chǎng)景為大家所用。
同時(shí),大量的行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù),又能為AGI的發(fā)展提供豐富的養(yǎng)分,形成良性循環(huán),推動(dòng)數(shù)據(jù)飛輪的高速運(yùn)轉(zhuǎn),從而加快我們邁向AGI的步伐。
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
百度這波操作真6,不跟風(fēng)Sora,多模態(tài)才是未來(lái)啊!????