99国精品午夜福利视频不卡99,狠狠综合久久久久综合网小蛇

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

不做Sora背后：百度的多模態(tài)路線是什么？

量子位

2024-11-18

1 評(píng)論 274 瀏覽 0 收藏

13 分鐘

在人工智能的浪潮中，百度以其獨(dú)特的多模態(tài)技術(shù)路線，引領(lǐng)行業(yè)探索AI的深度應(yīng)用。本文深入解析了百度在AI領(lǐng)域的戰(zhàn)略選擇，特別是在面對(duì)“百模大戰(zhàn)”和視頻生成技術(shù)風(fēng)潮時(shí)，百度如何堅(jiān)持其技術(shù)理念，通過(guò)iRAG技術(shù)解決AI領(lǐng)域的“幻覺(jué)”問(wèn)題，并在多模態(tài)技術(shù)的發(fā)展上走出自己的道路。

當(dāng)ChatGPT掀起國(guó)內(nèi)“百模大戰(zhàn)”，百度率先交卷文心一言。

Sora再掀視頻生成風(fēng)潮，卻傳出李彥宏內(nèi)部講話“Sora無(wú)論多么火，百度都不去做”。

一時(shí)間，困惑、不解、爭(zhēng)議，紛至沓來(lái)。

面對(duì)這些聲音，在剛剛結(jié)束的百度世界大會(huì)會(huì)后采訪中，李彥宏公開(kāi)回應(yīng)。

他不僅重申了不做Sora的決定，并且說(shuō)明了百度是如何運(yùn)用和發(fā)展多模態(tài)的。

在大會(huì)發(fā)布中，李彥宏發(fā)布了百度從年初開(kāi)始重點(diǎn)攻克的iRAG技術(shù)，這項(xiàng)技術(shù)旨在解決AI領(lǐng)域最棘手的”幻覺(jué)”問(wèn)題。有趣的是，這個(gè)開(kāi)始正好是在Sora風(fēng)正熱之時(shí)。

百度的選擇背后原因，到底是什么？

△百度2024世界大會(huì)現(xiàn)場(chǎng)

一、加速解決幻覺(jué)問(wèn)題

先從iRAG技術(shù)看。它所解決的是圖片生成的幻覺(jué)問(wèn)題。

在年初，不做Sora，轉(zhuǎn)頭將資源放在幻覺(jué)解決上。為什么？

結(jié)合這屆百度世界大會(huì)主題“應(yīng)用來(lái)了”來(lái)理解：

幻覺(jué)已經(jīng)成為制約大模型應(yīng)用大規(guī)模落地的一大絆腳石。

現(xiàn)代社會(huì)對(duì)計(jì)算器已有絕對(duì)的信任，只要保證輸入是對(duì)的，就可以百分百放心地把計(jì)算結(jié)果用到下一步工作流程中。

但對(duì)于已知可能存在幻覺(jué)的大模型來(lái)說(shuō)，還敢給予同等的信任嗎？

△新版文小言APP繪圖

有幻覺(jué)，即意味著模型行為不完全可控，不能完全放心的自動(dòng)化工作流程，依然需要人工介入。

AI應(yīng)用正面臨這樣的困境。

事實(shí)上，ChatGPT問(wèn)世之后，大模型的幾個(gè)主要改進(jìn)方向都是通過(guò)不同方式來(lái)解決大模型幻覺(jué)問(wèn)題。

長(zhǎng)上下文窗口，讓模型獲取更完整的輸入，減少因信息不全產(chǎn)生的錯(cuò)誤推理。

RAG（檢索增強(qiáng)生成），檢索外部知識(shí)庫(kù)補(bǔ)充信息，彌補(bǔ)模型參數(shù)存儲(chǔ)知識(shí)的不足。

聯(lián)網(wǎng)搜索，獲取實(shí)時(shí)、動(dòng)態(tài)的在線信息，擴(kuò)展模型的知識(shí)邊界。

慢思考，通過(guò)分步推理減少直覺(jué)性錯(cuò)誤，提高推理過(guò)程的可解釋性。

甚至從某種意義上說(shuō)，多模態(tài)技術(shù)也是讓模型多一種信息輸入途徑，不用在“看不見(jiàn)”視覺(jué)信息的情況下為了完成任務(wù)憑空編造。

……

所以再次總結(jié)一下，為什么解決幻覺(jué)問(wèn)題是目前AI行業(yè)的當(dāng)務(wù)之急？

從技術(shù)層面，不解決幻覺(jué)問(wèn)題就難以預(yù)測(cè)和控制模型的行為邊界。

從應(yīng)用的角度來(lái)看，幻覺(jué)問(wèn)題阻礙了用戶對(duì)AI產(chǎn)品的信任。

從產(chǎn)業(yè)角度，解決了幻覺(jué)問(wèn)題才能擴(kuò)大AI可應(yīng)用的場(chǎng)景范圍，提高AI系統(tǒng)的商業(yè)價(jià)值。

再將目光轉(zhuǎn)向百度，解決AI幻覺(jué)問(wèn)題，恰恰也是百度的“主戰(zhàn)場(chǎng)”。

iRAG，全稱(chēng)Image-based Retrieval-Augmented Generation，是一種全新的檢索增強(qiáng)文生圖范式，結(jié)合了百度多年的搜索積累，幫助大幅提升圖片的生成可控性和準(zhǔn)確性。

其核心是將百度搜索的億級(jí)圖片資源與文心大模型的生成能力相結(jié)合，通過(guò)聯(lián)合優(yōu)化，讓生成圖片更加真實(shí)可信。

△百度2024世界大會(huì)現(xiàn)場(chǎng)

具體而言，iRAG先利用檢索模塊在海量圖庫(kù)中找出與文本描述最相關(guān)的若干圖片，然后提取其視覺(jué)特征，與文本特征一并輸入到生成模塊。生成模塊在此基礎(chǔ)上，對(duì)圖像進(jìn)行理解、重組、創(chuàng)新，最終輸出高質(zhì)量、符合需求的全新圖片。

△文心大模型生成的大眾攬巡汽車(chē)飛躍長(zhǎng)城

可以說(shuō)，iRAG巧妙地將認(rèn)知智能（檢索）與生成智能（創(chuàng)作）結(jié)合在一起，取長(zhǎng)補(bǔ)短，相得益彰。

一方面，海量圖像的參考讓生成更”接地氣”，大幅減少了幻覺(jué)、違禁內(nèi)容等問(wèn)題。

另一方面，強(qiáng)大的生成能力讓輸出圖片更多樣、更具創(chuàng)意，遠(yuǎn)非單純的拼貼、修改那么簡(jiǎn)單。

更重要的是，iRAG在諸多行業(yè)領(lǐng)域都具有廣闊應(yīng)用前景，尤其能顯著降低AI生圖的創(chuàng)作成本。比如在影視制作、動(dòng)漫設(shè)計(jì)中，iRAG可實(shí)現(xiàn)從文本腳本直接生成高質(zhì)量的分鏡、概念圖，大幅減少中間環(huán)節(jié)的人工干預(yù)。

二、多模態(tài)，不止Sora一條路

明確了幻覺(jué)問(wèn)題是AI行業(yè)的優(yōu)先級(jí)，百度還需要回答另一種質(zhì)疑：多模態(tài)已經(jīng)是公認(rèn)邁向AGI的重要一步。

多模態(tài)有助于增強(qiáng)AI系統(tǒng)的感知和理解能力。通過(guò)處理視覺(jué)、語(yǔ)音、文本等不同模態(tài)的信息，AI可以更全面地感知環(huán)境，增強(qiáng)其認(rèn)知和交互能力，與人類(lèi)通過(guò)多種感官認(rèn)知世界保持一致。

但這里要明確的是，Sora路線并不能代表多模態(tài)技術(shù)的全部。

首先，投入做Sora代表的通用視頻生成模型投入的成本非常高昂。市場(chǎng)研究機(jī)構(gòu)Factorial Funds報(bào)告估算，Sora模型至少需要在4200~10500塊英偉達(dá)H100 GPU上訓(xùn)練1個(gè)月。而如果Sora得到大范圍應(yīng)用，為了滿足需求，需要約72萬(wàn)張Nvidia H100 GPU，如果按照每片英偉達(dá)H100 AI加速卡3萬(wàn)美元成本計(jì)算，72萬(wàn)片需要216億美元。

而目前通用視頻生成模型在技術(shù)成熟度上距離iPhone時(shí)刻也還有較遠(yuǎn)的距離。此前與藝術(shù)家合作短片《Air Head》后來(lái)就被指出實(shí)際有大量人工參與，估算只有約1/300的AI素材用到了最終成片里。

△圖源fxguide.com

目前市場(chǎng)視頻生成應(yīng)用從短劇內(nèi)容生產(chǎn)到影視特效制作，很多努力都在摸索視頻生成技術(shù)的想象空間，但尚未形成成熟的商業(yè)化方案和穩(wěn)定的營(yíng)收模式。

其實(shí)，對(duì)于做多模態(tài)來(lái)說(shuō)，也存在Sora之外的多種路徑。???

Meta首席科學(xué)家、圖靈獎(jiǎng)得主Yann LeCun就一直堅(jiān)持“世界模型”路線。他認(rèn)為生成視頻的過(guò)程與基于世界模型的因果預(yù)測(cè)完全不同，通過(guò)生成像素來(lái)對(duì)世界進(jìn)行建模是一種浪費(fèi)，注定會(huì)失敗。

斯坦福教授李飛飛則看重具身智能，她認(rèn)為AI僅僅看是不夠的，“看，是為了行動(dòng)和學(xué)習(xí)”。比如通過(guò)大語(yǔ)言模型，讓一個(gè)機(jī)器人手臂執(zhí)行任務(wù)，打開(kāi)一扇門(mén)、做一個(gè)三明治以及對(duì)人類(lèi)的口頭指令做出反應(yīng)等。

百度對(duì)多模態(tài)技術(shù)的理解，最近也在數(shù)字人場(chǎng)景得到集中體現(xiàn)。

百度從2019年起就開(kāi)始布局?jǐn)?shù)字人領(lǐng)域，涉及語(yǔ)音克隆、唇形同步、表情動(dòng)作捕捉等一系列關(guān)鍵技術(shù)。到如今百度“曦靈”數(shù)字人、“慧播星”數(shù)字人已廣泛應(yīng)用于新聞播報(bào)、直播電商等場(chǎng)景。

△百度慧播星電商數(shù)字人

正如李彥宏強(qiáng)調(diào)的，百度不做Sora，并不意味著在多模態(tài)賽道上缺席了。

數(shù)字人語(yǔ)音與口型、動(dòng)作的同步問(wèn)題，或許最終可以靠通用場(chǎng)景下的視頻生成實(shí)現(xiàn)，但需要很長(zhǎng)時(shí)間，成本很高。

但既然可以用更簡(jiǎn)單、成本更低的方法做到，為什么不先把業(yè)務(wù)跑起來(lái)呢？

首先，通用方案追求”大而全”，試圖用單一模型覆蓋所有場(chǎng)景，但這在技術(shù)上尚不成熟，往往帶來(lái)效果的參差不齊;而數(shù)字人聚焦特定垂直領(lǐng)域，可以更精準(zhǔn)地優(yōu)化模型，追求極致的人機(jī)交互體驗(yàn)。

其次，視頻生成好就是固定的素材了，缺乏實(shí)時(shí)交互能力；而AI驅(qū)動(dòng)的數(shù)字人卻可以實(shí)現(xiàn)動(dòng)態(tài)多輪對(duì)話，甚至還可以根據(jù)用戶反饋實(shí)時(shí)調(diào)整狀態(tài)，更加契合真實(shí)應(yīng)用的需求。

最后，視頻生成對(duì)算力和數(shù)據(jù)的要求極高，當(dāng)前能夠真正駕馭的企業(yè)鳳毛麟角，商業(yè)化進(jìn)程困難重重;相比之下，數(shù)字人技術(shù)門(mén)檻相對(duì)較低，且應(yīng)用場(chǎng)景清晰，更容易形成可復(fù)制的商業(yè)模式，開(kāi)啟數(shù)據(jù)飛輪。