從Agent到多模態(tài),大模型想要什么?
人類大腦皮層是相似的,但因?yàn)楦兄答佁幚韮?nèi)容不同而分成了不同的功能區(qū)來(lái)處理聽(tīng)覺(jué)、視覺(jué)和味道。OpenAI如果真的如預(yù)期在這條路上徹底跑通商業(yè)模式,那無(wú)疑是對(duì)整個(gè)行業(yè)的最大刺激,也會(huì)給自己打下超級(jí)巨頭的堅(jiān)實(shí)基礎(chǔ)。
OpenAI 9.25發(fā)了個(gè)關(guān)于多模態(tài)版本的Blog說(shuō)chatGPT現(xiàn)在能夠看、聽(tīng)、說(shuō)了,體驗(yàn)過(guò)的同學(xué)反饋還不錯(cuò),那這意味著什么?
一、應(yīng)用>純粹的智能改進(jìn)
同純粹的智能提升相比多模態(tài)是一種應(yīng)用可能性的提升。如果說(shuō)原本的大模型甕中之腦,那多模態(tài)無(wú)疑是把給這個(gè)甕中之腦接上和現(xiàn)實(shí)世界相聯(lián)的觸角。
從技術(shù)上,這意味著之前這是在多種算法的綜合上發(fā)力,而不是單純的強(qiáng)調(diào)智能這一個(gè)維度。這種銜接在過(guò)去其實(shí)是吃力的,OpenAI看起來(lái)也沒(méi)把這問(wèn)題解決的特別好,所以在文章中貼了這么一小段:
這啥意思呢?其實(shí)是說(shuō)語(yǔ)音識(shí)別通用度不好,反過(guò)來(lái)推測(cè)一點(diǎn)就是語(yǔ)音識(shí)別還沒(méi)有自己的大模型。希望OpenAI能在這種綜合和銜接上取得進(jìn)展。
值得一提的是,這種方向和很多人心心念念的GPT5是不完全重疊的,GPT5更像是讓甕中之腦更為強(qiáng)大,而多模態(tài)綜合則是讓現(xiàn)有大腦的智力得到更好的發(fā)揮。如果OpenAI貼著多模態(tài)走,那意味著他們?cè)趹?zhàn)略上把應(yīng)用放到了更前面。這是對(duì)的,并且和人類的大腦產(chǎn)生智能的情況更貼近。人類大腦皮層是相似的,但因?yàn)楦兄答佁幚韮?nèi)容不同而分成了不同的功能區(qū)來(lái)處理聽(tīng)覺(jué)、視覺(jué)和味道。
OpenAI如果真的如預(yù)期在這條路上徹底跑通商業(yè)模式,那無(wú)疑是對(duì)整個(gè)行業(yè)的最大刺激,也會(huì)給自己打下超級(jí)巨頭的堅(jiān)實(shí)基礎(chǔ)。
從應(yīng)用上這意味著應(yīng)用范圍的拓寬。那里需要多模態(tài)呢?顯然是物理空間。純粹的甕中之腦其實(shí)是把應(yīng)用局限在數(shù)字空間,而多模態(tài)則打通數(shù)字和物理世界。最直接的,這類能力會(huì)激活多模態(tài)的應(yīng)用。
典型的多模態(tài)應(yīng)用是什么呢?是PokemanGo。介于純粹的數(shù)字世界和純粹的物理世界之間就是這種增強(qiáng)現(xiàn)實(shí)的場(chǎng)景,沒(méi)多模態(tài)這類應(yīng)用根本玩不轉(zhuǎn)。
在過(guò)去這做起來(lái)成本太高了,算法的綜合像一道天塹一樣,讓只有很少的公司才能做,而做的人里面只有很少的人才能成功,而綜合后的大模型如果能削減這個(gè)壁壘,那顯然的這類應(yīng)用就可以像當(dāng)年的App一樣,只承擔(dān)產(chǎn)品化的部分,進(jìn)而迎來(lái)自己的大普及。
但多模態(tài)的路線所影響的卻不只是這類增強(qiáng)現(xiàn)實(shí)應(yīng)用,它的影響需要放在整個(gè)AI產(chǎn)品化進(jìn)程的角度來(lái)看,才更清楚。
過(guò)去十年AI的創(chuàng)業(yè)其實(shí)是失敗的,但核心的好處是讓我們把所有的坑都趟了一遍,更容易在這些失敗的基礎(chǔ)上,看清和經(jīng)營(yíng)未來(lái)的現(xiàn)實(shí)。
(華為的戰(zhàn)略從側(cè)面反映過(guò)去這十年硬應(yīng)用的探索,重點(diǎn)可以回想N)
二、背后隱含的產(chǎn)品路線
我們畫(huà)下不精確的產(chǎn)品路線圖。
遞進(jìn)次序是純粹數(shù)字空間,數(shù)字和物理空間融合,硬件產(chǎn)品,機(jī)電類產(chǎn)品,另一個(gè)軸是智能的多模態(tài)程度,如:?jiǎn)我痪S度的通用智能和多模態(tài)的通用智能,那產(chǎn)品分布會(huì)是:
如果再加個(gè)維度,每一類中再有兩類:一類是幻覺(jué)無(wú)礙的,一類是需要解決幻覺(jué)問(wèn)題的。
那么很可能就可以得到這次大模型驅(qū)動(dòng)的產(chǎn)品落地的次序。產(chǎn)品上會(huì)從軟應(yīng)用到硬應(yīng)用再到機(jī)械應(yīng)用,特征上會(huì)從幻覺(jué)有益到需要對(duì)沖。
這么說(shuō)可能不容易懂,我們拿過(guò)去的產(chǎn)品做個(gè)類比(嘗試的好處就這么出來(lái)了,可以舉例子)。
同樣是對(duì)話,客服是軟應(yīng)用,智能音箱是硬應(yīng)用,招待機(jī)器人則是機(jī)械應(yīng)用。
這些產(chǎn)品看著超級(jí)像,但每加一部分外延都導(dǎo)致游戲規(guī)則有巨大變化。
軟應(yīng)用的輸入相對(duì)容易標(biāo)準(zhǔn)化,到硬應(yīng)用則變的麻煩,在語(yǔ)音上過(guò)去我們用近場(chǎng)和遠(yuǎn)場(chǎng)來(lái)形容這種差異。都是對(duì)話,需不需要解決環(huán)境干擾問(wèn)題導(dǎo)致的產(chǎn)品復(fù)雜度會(huì)有巨大差異。到現(xiàn)在為止,智能音箱其實(shí)也沒(méi)徹底解決這問(wèn)題,你在邊上放電視它一樣會(huì)變不好使。
類似的準(zhǔn)備好圖片的人臉識(shí)別和真實(shí)場(chǎng)景的人臉識(shí)別有同樣問(wèn)題。后者沒(méi)準(zhǔn)就需要在光線沒(méi)那么好的情景下處理問(wèn)題。
硬應(yīng)用同機(jī)械應(yīng)用比自身的穩(wěn)定性會(huì)形成更多問(wèn)題。比如機(jī)器人突然間脖子扭的角度不對(duì),或者一條狗跑來(lái)跑去的時(shí)候腿瘸了,即使還是能夠聽(tīng)說(shuō),那產(chǎn)品體驗(yàn)也會(huì)出現(xiàn)巨大起伏。
詳細(xì)挖掘差異還會(huì)有很多,也許看著沒(méi)那么大,但真做產(chǎn)品這種細(xì)小差異是忽略不得的。
如果把純粹數(shù)字的新特征比喻成是一個(gè)巨大的氫氣球,可以四處亂跑,成本不高。那硬應(yīng)用差不多相當(dāng)于掛塊磚頭,機(jī)械應(yīng)用則像掛一個(gè)小鉛球。掛的東西論體積遠(yuǎn)不如氣球,但對(duì)氫氣球能不能飛起來(lái)影響是巨大的。
為了它能飛起來(lái),最好的辦法是尊重新的環(huán)境條件,然后配個(gè)大引擎變成飛機(jī)。而變飛機(jī)顯然是個(gè)系統(tǒng)工程。
上面這種產(chǎn)品分類正好也就是Agent的分類。多模態(tài)的進(jìn)展同樣會(huì)打開(kāi)Agent的范圍。真做這類產(chǎn)品,打造自己的飛機(jī),核心依賴會(huì)是什么呢?
參照:AI Agent:大模型與場(chǎng)景間的價(jià)值之橋,但不適合當(dāng)純技術(shù)看
參照:幻覺(jué)即智能:AI落地里順勢(shì)與逆勢(shì)的分界線
三、回到系統(tǒng)型超級(jí)應(yīng)用:多模態(tài)Agent的典型架構(gòu)
典型Agent的運(yùn)行狀態(tài)是這樣:
這看著很常識(shí),但其實(shí)帶來(lái)一個(gè)巨大挑戰(zhàn)。
你的多模態(tài)大模型是統(tǒng)一的,但你的應(yīng)用是分散的(單一產(chǎn)品的集成這問(wèn)題不大,但那反倒是特例)。
大模型的通用能力,需要一種通用的通路才能很好的輸出去,否則就像武俠小說(shuō)里說(shuō)的內(nèi)功很好,但經(jīng)脈很差,沒(méi)的發(fā)揮。
為了把這種通用能力發(fā)揮出去,最關(guān)鍵的就是需要對(duì)感知一側(cè)進(jìn)行通用的抽象和管理。
這里面有個(gè)依賴次序,各種應(yīng)用本質(zhì)上依賴多模態(tài)大模型,但多模態(tài)大模型依賴多模態(tài)的感知。
這種依賴遞進(jìn)影響什么呢?
影響特征的傳導(dǎo)次序,本質(zhì)上被依賴方的特征會(huì)傳導(dǎo)到后者去,后者只能扛著。反向傳播則影響要小的多。
比如多模態(tài)感知在產(chǎn)品上肯定具現(xiàn)成五花八門(mén)各種產(chǎn)品,然后數(shù)據(jù)從各種傳感器來(lái),傳感器會(huì)完成模擬到數(shù)字的轉(zhuǎn)化,所以出來(lái)的基本都是結(jié)構(gòu)化數(shù)據(jù)。
這就導(dǎo)致必然出現(xiàn)過(guò)去操作系統(tǒng)中的硬件抽象層,是個(gè)傳統(tǒng)工作要解決基礎(chǔ)架構(gòu)問(wèn)題,要有一個(gè)抽象層覆蓋五花八門(mén)的設(shè)備。
多模態(tài)應(yīng)用則要充分利用大模型的特征,這時(shí)候接口形態(tài)都會(huì)發(fā)生巨大變化。會(huì)從傳統(tǒng)的API一點(diǎn)點(diǎn)變成現(xiàn)在的NLI。你需要適應(yīng)大模型的基礎(chǔ)特征,比如面對(duì)前面提到的幻覺(jué)問(wèn)題。API的調(diào)用值是變化的,但它的Schema是穩(wěn)定的,是在限定的Schema下返回各種值。但NLI,則Schema也是打開(kāi)的。這就不好應(yīng)對(duì)需要確定結(jié)果的場(chǎng)景。是真正的挑戰(zhàn)。
分層并分割這種應(yīng)用后得到什么呢,會(huì)得到系統(tǒng)型超級(jí)應(yīng)用。
參照:AI個(gè)體戶的崛起:普通人“屁胡”的機(jī)會(huì)、模式和風(fēng)險(xiǎn)
四、系統(tǒng)型超級(jí)應(yīng)用的極簡(jiǎn)例子
我們舉個(gè)最簡(jiǎn)單的例子:
假設(shè)你想給自己做個(gè)數(shù)字分身,打理自己在各個(gè)平臺(tái)上的活動(dòng)。
那么對(duì)個(gè)人而言,你需要?jiǎng)?chuàng)建基本人設(shè)、風(fēng)格(風(fēng)格要考慮目標(biāo)平臺(tái)場(chǎng)景的特征)等。你的應(yīng)用基于這種人設(shè)通過(guò)NLI和大模型進(jìn)行交互產(chǎn)出對(duì)應(yīng)的圖文、視頻等內(nèi)容。
內(nèi)容產(chǎn)出后希望能覆蓋抖音、視頻號(hào)等,那這部分要能自動(dòng)操作對(duì)應(yīng)的平臺(tái),并從對(duì)應(yīng)平臺(tái)抓取反饋再進(jìn)行進(jìn)一步的產(chǎn)出。這部分操作和反饋的方式其實(shí)是平臺(tái)定義的。
這時(shí)候就會(huì)發(fā)現(xiàn)多模態(tài)大模型的能力是共通的,人設(shè)是共通的,但平臺(tái)相關(guān)操作是個(gè)性化的,所以如果真想做簡(jiǎn)單了,那就需要區(qū)隔這三層,通用大模型給平臺(tái)操作部分的指令總是:發(fā)布XX,平臺(tái)操作部分的反饋總是,當(dāng)前評(píng)論是XX,還是API和HAL的范疇。但基于人設(shè)、風(fēng)格、熱點(diǎn)等產(chǎn)出內(nèi)容的部分則完全不一樣了,肯定是要走NLI的。典型的操作系統(tǒng)三層分割,但面向應(yīng)用一端接口會(huì)有很大變化。
五、小結(jié)
和朋友閑聊時(shí)有時(shí)會(huì)說(shuō)提到:如果放在一個(gè)大的時(shí)間軸上看,那么起于百余年前的社會(huì)變革其實(shí)遠(yuǎn)未結(jié)束,而我們猶在變革之中等待下一個(gè)穩(wěn)定態(tài)。同樣的把時(shí)間刻度縮小,再把這個(gè)視角挪回來(lái)看人工智能那其實(shí)是一樣的,過(guò)往一切關(guān)于智能硬件的嘗試都會(huì)換個(gè)樣子重來(lái),螺旋遞進(jìn),尋找自己下一個(gè)穩(wěn)定的形式。
專欄作家
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開(kāi)發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書(shū)。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!