AI正式進(jìn)入推理時(shí)代,意味著什么?

1 評(píng)論 137 瀏覽 0 收藏 18 分鐘

本文介紹了AI從預(yù)訓(xùn)練向推理能力轉(zhuǎn)變的趨勢(shì),探討了這一變化對(duì)AI市場(chǎng)、軟件公司和投資領(lǐng)域的影響,并展望了AI代理應(yīng)用的未來發(fā)展?jié)摿Α?/p>

今年9月,OpenAI發(fā)了一個(gè)新模型——OpenAI o1模型。

這意味著,AI的發(fā)展方向發(fā)生了重大變化,即從預(yù)訓(xùn)練所帶來的“快速思考”,向基于強(qiáng)化學(xué)習(xí)的“慢速思考”發(fā)展。這一演變將解鎖更多新的AI代理應(yīng)用。

如何理解這個(gè)變化,成為所有AI行業(yè)從業(yè)者共同關(guān)心的話題。不久前,紅杉資本發(fā)布了一篇文章,詳細(xì)闡述了對(duì)AI轉(zhuǎn)向推理層開發(fā)的看法以及未來趨勢(shì)展望。

在這篇文章中,紅杉資本分享了其對(duì)以下問題的思考:

模型強(qiáng)化推理能力,對(duì)AI市場(chǎng)的創(chuàng)始人意味著什么?對(duì)現(xiàn)有的軟件公司有多大的影響?作為投資者,AI行業(yè)的哪些領(lǐng)域是最值得投資的?

01?讓AI真正學(xué)會(huì)推理

2024年最重要的模型更新屬于OpenAI的o1,以前稱為Q*,也稱為Strawberry。這是第一個(gè)具備真正通用推理能力的大模型,而實(shí)現(xiàn)這一點(diǎn)靠的是推理時(shí)間計(jì)算。(推理時(shí)間計(jì)算是指在人工智能和機(jī)器學(xué)習(xí)中,通過增加額外的計(jì)算時(shí)間來優(yōu)化模型在解決特定問題時(shí)的表現(xiàn)。)

以前,預(yù)訓(xùn)練模型是通過對(duì)大量數(shù)據(jù)的學(xué)習(xí),進(jìn)而實(shí)現(xiàn)后續(xù)內(nèi)容的預(yù)測(cè)。這背后依賴于大量的模型訓(xùn)練時(shí)間,但這種推理能力很有限。

現(xiàn)在,通過推理時(shí)間計(jì)算,模型會(huì)在給你答復(fù)之前停下來思考,這需要在推理時(shí)進(jìn)行更多的計(jì)算?!巴O聛硭伎肌钡牟糠志褪峭评?。?

02?AlphaGo和大模型

當(dāng)模型停下思考時(shí),它在做什么呢?

要回答這個(gè)問題,我們先來回顧一下2016年3月在首爾舉行的活動(dòng)。

AlphaGo與傳奇圍棋大師李世石下棋,是深度學(xué)習(xí)歷史上最具開創(chuàng)性的時(shí)刻之一。這不僅僅是一場(chǎng)人AI與人類的比賽——這讓世界看到AI不僅會(huì)模仿,還會(huì)思考。

與大模型一樣,AlphaGo也經(jīng)過了大量的預(yù)訓(xùn)練,可以模仿人類專家,其數(shù)據(jù)庫包含來自之前游戲的大約3000萬步以及更多的自我對(duì)弈。但AlphaGo不會(huì)提供來自預(yù)訓(xùn)練模型的下意識(shí)反應(yīng),而是會(huì)花時(shí)間停下來思考。

在推理時(shí),模型會(huì)在各種潛在的未來情景中運(yùn)行搜索或模擬,對(duì)這些情景進(jìn)行評(píng)分,然后以具有最高預(yù)期值的情景(或答案)進(jìn)行響應(yīng)。AlphaGo的時(shí)間越長(zhǎng),其表現(xiàn)就越好。在零推理時(shí)間計(jì)算的情況下,模型無法擊敗最優(yōu)秀的人類玩家。

但隨著推理時(shí)間的延長(zhǎng),AlphaGo會(huì)越來越好,直到超越最優(yōu)秀的人類玩家?;氐酱竽P停瑥?fù)制AlphaGo的難點(diǎn)在于,構(gòu)建價(jià)值函數(shù)或者說對(duì)答案進(jìn)行評(píng)分的函數(shù)。

如果你是在下圍棋,這事就更簡(jiǎn)單了,看誰贏就行了。(編程也同理)但是你應(yīng)該怎么給一篇文章打分呢?這就是當(dāng)前方法很難進(jìn)行推理的原因。這也是為什么Strawberry在接近邏輯的領(lǐng)域(例如編碼、數(shù)學(xué)、科學(xué))相對(duì)較強(qiáng),而在更開放和非結(jié)構(gòu)化的領(lǐng)域(例如寫作)不那么強(qiáng)大的原因。

?Strawberry的關(guān)鍵思想是,圍繞模型生成的思維鏈進(jìn)行強(qiáng)化學(xué)習(xí)。這很接近于人類的思考和推理方式。例如,o1展示了在卡住時(shí)回溯的能力,這是擴(kuò)展推理時(shí)間的突發(fā)屬性。它還展示了以人類的方式思考問題的能力(例如,將球體上的點(diǎn)可視化以解決幾何問題)和以新的方式思考問題的能力(例如,以人類不會(huì)的方式解決編程競(jìng)賽中的問題)。

研究團(tuán)隊(duì)正在努力提高模型的推理能力,他們正在研究許多新想法來推動(dòng)推理時(shí)間計(jì)算(例如計(jì)算獎(jiǎng)勵(lì)函數(shù)的新方法、縮小生成器/驗(yàn)證器差距的新方法)。換句話說,深度強(qiáng)化學(xué)習(xí)又流行起來了,它正在實(shí)現(xiàn)一個(gè)全新的推理層。

03?系統(tǒng)1與系統(tǒng)2有何不同?

從預(yù)訓(xùn)練的本能反應(yīng)(“系統(tǒng)1”)到更深層次、深思熟慮的推理(“系統(tǒng)2”)的飛躍是人工智能的下一個(gè)前沿。模型僅僅了解事物是不夠的——它們還需要具備實(shí)時(shí)暫停、評(píng)估和推理決策的能力。

我們將預(yù)訓(xùn)練看作系統(tǒng)1。無論模型是針對(duì)圍棋的數(shù)百萬步(AlphaGo)還是大模型進(jìn)行預(yù)訓(xùn)練,其工作原理都是模仿。但模仿雖然很強(qiáng)大,但并不是真正的推理。因?yàn)樗鼰o法正確思考復(fù)雜的新情況,尤其是樣本之外的情況。這恰恰就是系統(tǒng)2的優(yōu)勢(shì)所在,也是最新一波AI研究的重點(diǎn)。

對(duì)于許多任務(wù)來說,系統(tǒng)1已經(jīng)足夠了。比如,不丹的首都在哪,想是想不出來的,要么知道,要么不知道。快速、基于模式的回憶,在類似的任務(wù)上就很管用。

但當(dāng)我們研究更復(fù)雜的問題時(shí)——比如數(shù)學(xué)或生物學(xué)上的突破——快速、本能的反應(yīng)并不奏效。這些進(jìn)步需要AI花更多時(shí)間進(jìn)行更深入的思考,并具備創(chuàng)造性解決問題的能力。

04?新的擴(kuò)展定律:推理競(jìng)賽已拉開帷幕

o1論文中最重要的一個(gè)觀點(diǎn)是,誕生了一條新的擴(kuò)展定律。

預(yù)訓(xùn)練LLM遵循一個(gè)易于理解的擴(kuò)展定律:在預(yù)訓(xùn)練模型上花費(fèi)的計(jì)算和數(shù)據(jù)越多,模型性能就越好。o1論文則為擴(kuò)展計(jì)算帶來了另一種可能:即給模型推理時(shí)間的越長(zhǎng),其推理效果就越好。

如果模型能夠思考數(shù)小時(shí)、數(shù)天或數(shù)十年,會(huì)發(fā)生什么?我們會(huì)解決黎曼猜想嗎?我們會(huì)回答阿西莫夫的最后一個(gè)問題嗎?

這種轉(zhuǎn)變將使我們從大規(guī)模預(yù)訓(xùn)練集群的世界走向推理云——可以根據(jù)任務(wù)的復(fù)雜性動(dòng)態(tài)擴(kuò)展計(jì)算的環(huán)境。

05?被證偽的兩個(gè)預(yù)測(cè)

當(dāng)OpenAI、Anthropic、Google和Meta擴(kuò)展其推理層,并開發(fā)出越來越強(qiáng)大的推理機(jī)器時(shí)會(huì)發(fā)生什么?我們會(huì)有一個(gè)模型來統(tǒng)治它們嗎?

生成式AI市場(chǎng)剛起步時(shí),人們?cè)僭O(shè),一家單一的模型公司將變得無所不能,甚至還會(huì)吃掉AI應(yīng)用產(chǎn)品的機(jī)會(huì)。但現(xiàn)在,這兩個(gè)預(yù)測(cè)都是錯(cuò)誤的。

首先,模型層競(jìng)爭(zhēng)激烈,SOTA(最好技術(shù)或者模型)能力不斷超越。有公司通過廣泛領(lǐng)域的自我博弈找到持續(xù)自我改進(jìn)的方法并取得突破,但目前我們還沒有看到這方面的證據(jù)。但我們能夠清楚看到模型競(jìng)爭(zhēng)有多激烈?自上一個(gè)開發(fā)日以來,GPT-4的token價(jià)格已下跌98%。

其次,除了ChatGPT外,大部分模型很難在應(yīng)用層面形成比較大的突破。

06?混亂的現(xiàn)實(shí)世界:定制認(rèn)知架構(gòu)

科學(xué)家計(jì)劃和采取行動(dòng)實(shí)現(xiàn)目標(biāo)的方式,與軟件工程師的工作方式截然不同,甚至不同公司的軟件工程師情況也有所不同。

隨著AI研究不斷提升模型推理能力上限,我們?nèi)匀恍枰唧w的應(yīng)用落地。但通用模型很難實(shí)現(xiàn)在特定領(lǐng)域的具體落地。

輸入認(rèn)知架構(gòu),或者您的系統(tǒng)如何思考:接受用戶輸入并執(zhí)行操作或生成響應(yīng)的代碼流和模型交互。

例如,在Factory的案例中,他們的每個(gè)“機(jī)器人”產(chǎn)品都具有自定義認(rèn)知架構(gòu),可以模仿人類解決特定任務(wù)的思維方式,例如審查拉取請(qǐng)求或編寫和執(zhí)行遷移計(jì)劃以將服務(wù)從一個(gè)后端更新到另一個(gè)后端。

Factory機(jī)器人將分解所有依賴關(guān)系,提出相關(guān)的代碼更改,添加單元測(cè)試并拉取人類進(jìn)行審查。然后在批準(zhǔn)后,在開發(fā)環(huán)境中對(duì)所有文件運(yùn)行更改,如果所有測(cè)試都通過,則合并代碼。就像人類可能會(huì)做的那樣——在一組離散任務(wù)中,而不是一個(gè)通用的黑盒答案中。

07?應(yīng)用層,或許是創(chuàng)業(yè)者的最佳選擇

目前,基礎(chǔ)模型固然厲害,但也有不少缺陷。比如,大模型無法處理黑匣子、幻覺等問題。或者,消費(fèi)者面對(duì)大模型不知道問什么?這些都會(huì)是應(yīng)用層的機(jī)會(huì)。

兩年前,許多AI應(yīng)用公司被嘲笑為“只是GPT-3上的包裝器”。如今,這些包裝器被證明是構(gòu)建持久價(jià)值的唯一可靠方法之一。最初的“包裝器”已經(jīng)演變成“認(rèn)知架構(gòu)”。

應(yīng)用層AI公司價(jià)值不僅僅是基礎(chǔ)模型之上的UI。更重要的是,它們擁有復(fù)雜的認(rèn)知架構(gòu),包括多個(gè)基礎(chǔ)模型,頂部有某種路由機(jī)制、用于RAG的矢量和/或圖形數(shù)據(jù)庫、確保合規(guī)性的護(hù)欄,以及模仿人類思考工作流程推理方式的應(yīng)用程序邏輯。

08?服務(wù)即軟件

云計(jì)算的本質(zhì)是,軟件即服務(wù)。這讓軟件產(chǎn)業(yè)變成了一個(gè)價(jià)值3500億美元的機(jī)會(huì)。

到了AI時(shí)代,類似的機(jī)會(huì)同樣出現(xiàn)。人工智能轉(zhuǎn)型本質(zhì)是服務(wù)即軟件,即AI公司用AI應(yīng)用替代勞動(dòng)力。這意味著,AI應(yīng)用可能面臨著價(jià)值數(shù)萬億美元的服務(wù)市場(chǎng)。

勞動(dòng)力替代意味著什么?Sierra就是一個(gè)很好的例子。B2C公司將Sierra(AI客服公司)放在他們的網(wǎng)站上與客戶交談。用AI代理來解決客戶所提出的問題,每完成一次服務(wù)獲得相應(yīng)的報(bào)酬。這與傳統(tǒng)軟件按“席位”付費(fèi)的模式有很大區(qū)別。

這是許多AI公司所追求的目標(biāo)。但不是所有公司都這么幸運(yùn),現(xiàn)在出現(xiàn)的另一個(gè)新興模式是,先部署為副駕駛(人機(jī)交互),然后再迭代成完全自動(dòng)化。GitHub Copilot就是一個(gè)很好的例子。?

09?新一代代理應(yīng)用

隨著生成式人工智能的推理能力不斷增強(qiáng),一類新的代理應(yīng)用程序開始涌現(xiàn)。這些應(yīng)用層公司是什么樣子的?至少從目前看,這些公司看起來與云計(jì)算公司有很多不同:

  • 云計(jì)算公司瞄準(zhǔn)的是軟件利潤(rùn)池,人工智能公司瞄準(zhǔn)的是服務(wù)利潤(rùn)池。?
  • 云計(jì)算公司出售軟件($/席位)。人工智能公司出售工作($/成果)
  • 云計(jì)算公司喜歡自下而上,采用無摩擦分銷模式。而人工智能公司則越來越多地采用自上而下,采用高接觸、高信任的交付模式。

我們看到,這些新型代理應(yīng)用正在知識(shí)經(jīng)濟(jì)的各個(gè)領(lǐng)域涌現(xiàn)。以下是一些示例。

Harvey: AI律師
Glean: AI工作助理
Factory:AI軟件工程師
Abridge:AI醫(yī)療文書記錄員
XBOW: AI測(cè)試員
Sierra:AI客服

通過降低提供這些服務(wù)的邊際成本,這些代理應(yīng)用程序正在擴(kuò)展并創(chuàng)造新的市場(chǎng)。

以XBOW為例,XBOW正在構(gòu)建AI“滲透測(cè)試員”。滲透測(cè)試是對(duì)計(jì)算機(jī)系統(tǒng)進(jìn)行的模擬網(wǎng)絡(luò)攻擊,公司通過執(zhí)行此測(cè)試來評(píng)估自己的安全系統(tǒng)。

在生成式AI出現(xiàn)之前,由于人工測(cè)試的成本很高,所以公司在個(gè)別情況下才能聘請(qǐng)滲透測(cè)試員。然而,XBOW現(xiàn)在正在展示基于最新推理LLM構(gòu)建的自動(dòng)化滲透測(cè)試,效果可以與最熟練的人工滲透測(cè)試員相媲美。這擴(kuò)大了滲透測(cè)試市場(chǎng),并為各種規(guī)模的公司提供了持續(xù)滲透測(cè)試的可能性。

10?這對(duì)SaaS世界意味著什么?

現(xiàn)在很多人都關(guān)心一個(gè)問題:人工智能轉(zhuǎn)型是否會(huì)摧毀SaaS公司嗎?

之前由于AI能力絕大部分都來自模型,我們會(huì)覺得老牌SaaS公司受益于數(shù)據(jù)和分銷方面的優(yōu)勢(shì),會(huì)最終受益。初創(chuàng)公司的主要機(jī)會(huì)不是取代老牌軟件公司——而是追逐可自動(dòng)化的市場(chǎng)機(jī)會(huì)。

但現(xiàn)在,我們不再這么確定了,因?yàn)閷⒛P湍芰D(zhuǎn)化成端到端業(yè)務(wù)解決方案需要大量的工程設(shè)計(jì)。那么,AI企業(yè)會(huì)不會(huì)最終取代軟件?我們可以從Day.ai的案例上看出一些端倪。

Day是一款人工智能原生CRM。此前,系統(tǒng)集成商通過配置Salesforce來滿足客戶的需求,賺取了數(shù)十億美元?,F(xiàn)在,Day只需訪問您的電子郵件和日歷,并回答一頁問卷,即可自動(dòng)生成完全適合客戶業(yè)務(wù)的CRM。單靠這一點(diǎn),Day就已經(jīng)吸引了很多的客戶。

11?投資人應(yīng)該投什么?

作為投資者,我們應(yīng)該如何投資AI產(chǎn)業(yè)呢?以下是我們的簡(jiǎn)要分析。

基礎(chǔ)設(shè)施:這已經(jīng)是巨頭的戰(zhàn)場(chǎng),更多是戰(zhàn)略博弈的選擇而非經(jīng)濟(jì)利益驅(qū)動(dòng),對(duì)于VC來說,這不是一個(gè)好的選擇。

模型:這是巨頭和金融投資者的領(lǐng)域。巨頭正在用資產(chǎn)負(fù)債表換取損益表,投資的資金將以計(jì)算收入的形式回流到他們的云業(yè)務(wù)中。金融投資者則熱衷于討論AI的宏大敘述。雖然這些模型很厲害,團(tuán)隊(duì)也很強(qiáng),但很難用微觀經(jīng)濟(jì)學(xué)去理解。

開發(fā)工具和基礎(chǔ)設(shè)施軟件:對(duì)戰(zhàn)略投資者價(jià)值很小,更適合VC參與。在云轉(zhuǎn)型的時(shí)候,這個(gè)領(lǐng)域跑出了15家收入超過10億美元的公司,AI領(lǐng)域也會(huì)如此。

應(yīng)用程序:這是最適合VC參與的領(lǐng)域。在云計(jì)算轉(zhuǎn)型期間,大約有20家應(yīng)用層公司成立,收入超過10億美元。在移動(dòng)互聯(lián)網(wǎng)時(shí)候,又有大約20家公司成立。AI時(shí)代大致也會(huì)如此。

12?結(jié)束語

在生成式人工智能的下一階段,我們預(yù)計(jì)推理研發(fā)會(huì)逐漸影響到應(yīng)用層,預(yù)計(jì)AI代理會(huì)變得更加強(qiáng)大和復(fù)雜。

回到研發(fā)層面,推理和推理時(shí)間計(jì)算在可見的未來里仍然是一個(gè)很重要的驅(qū)動(dòng)因素。這是下一場(chǎng)AI競(jìng)賽的主題。但在特定領(lǐng)域,收集現(xiàn)實(shí)世界數(shù)據(jù)建立認(rèn)知仍然很困難。因此,能夠完成AI落地最后一公里的公司將有巨大的價(jià)值。

展望未來,多智能體系統(tǒng)(如Factory的機(jī)器人)可能會(huì)迎來更大的發(fā)展。當(dāng)我們模擬了感知、推理和行動(dòng)的過程,AI可以用這種方式進(jìn)行更多的探索,也許這就是通過AGI的正確道路。

文:林白
本文由人人都是產(chǎn)品經(jīng)理作者【汪仔2763】,微信公眾號(hào):【烏鴉智能說】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. AI推理時(shí)代的到來真是太激動(dòng)人心了,這種從“快速思考”向“慢速思考”的轉(zhuǎn)變,感覺就像是給AI開了新的智慧之門,未來AI的應(yīng)用潛力無限啊!

    來自北京 回復(fù)