AI創業者的慘痛教訓:押注模型準確性是產品陷阱,利用模型靈活性才是答案

0 評論 3674 瀏覽 1 收藏 16 分鐘

在AI創業領域,許多創業者曾將希望寄托于提升模型的準確性,試圖通過復雜的工程設計來彌補模型的不足。然而,隨著AI技術的飛速發展,這種策略逐漸暴露出其局限性。本文將探討為什么押注模型的靈活性,而非單純的準確性,才是AI產品成功的關鍵。通過分析不同類型的AI產品和應用場景,文章揭示了靈活性如何幫助創業者更好地適應模型的快速迭代,從而在競爭激烈的市場中脫穎而出。

隨著越來越多AI產品落地,很多投資人心中都有一個疑問:

到底什么樣的AI應用才值得投資?

關于這個問題,我們或許能在Andon Labs聯合創始人(YC 24W孵化)Lukas Petersson的一篇文章中找到答案。

最近,Lukas Petersson在YC Hacker News發布了一篇文章,內容是其在調研了100多個YC校友項目并復盤了Richard Sutton著名的文章《痛苦的教訓》后提出:

現在大量AI產品在當前模型的局限性上投入過多精力,但從長期看,創業公司更應該押注那些能夠充分利用大模型自主性與靈活性的機會。

這個文章一經發布就引發了廣泛的討論。今天,烏鴉君就為您編譯了這篇文章,以下是該文章的核心觀點:

1)從歷史角度來看,通用方法總能在人工智能領域勝出。

2)現在人工智能應用領域的創始人正在重蹈過去人工智能研究人員所犯的覆轍。

3)更出色的人工智能模型將催生通用型人工智能應用。與此同時,圍繞人工智能模型的軟件附加值將會減少。

01 通用方法總能勝出

2019年,理查德·薩頓(Richard Sutton)以如下文章作為其著名文章《痛苦的教訓》的開篇:

“從70年的人工智能研究中可以得到的最大教訓是,利用計算的通用方法最終是最有效的,而且優勢巨大”。

他提到,在人工智能的發展歷程中,研究人員曾屢次嘗試將人類領域的知識融入系統,進而推動AI技術進步。

但后來大家發現,一個擁有更強算力的系統,效果遠遠好于其他精心設計的解決方案。這種趨勢并沒有停止,未來仍將延續。

這個《痛苦的教訓》基于以下歷史觀察:

  1. 人工智能研究人員經常試圖將知識構建到他們的智能體中;
  2. 這在短期內總是有幫助的,并且讓研究人員個人感到滿足;
  3. 但從長遠來看,它會停滯不前,甚至阻礙進一步的進步;
  4. 而突破性的進展最終會通過一種基于擴展計算資源的相反方法實現。

本文著眼于應用層的人工智能產品,其中“更好”既指性能,也指市場接受度。更好的性能意味著處理更復雜的問題,從而釋放更多價值。

圖 1,不同類型的 AI 產品說明?

目前,人工智能產品通常是將人工智能模型封裝在某些配套軟件中。

你可以通過兩種方式提高其性能:

  1. 通過工程設計:通過單一領域知識輸入,在軟件上實現特定的功能
  2. 通過更好的模型:等待人工智能實驗室發布更強大的模型

對于創業者來說,這兩條路并不沖突。

但問題在于:隨著模型的改進,工程工作的價值會降低,甚至最后根本不用復雜的工程設計,模型就能解決大部分問題。

圖2說明了在應用層構建 AI 產品時工程投入的回報遞減。隨著工程投入的增加和更好的模型的發布,價值也會減少

上圖顯示了隨著模型的改進,工程工作的價值如何降低。

當前的模型存在很大的局限性,這意味著公司仍然可以從工程工作中獲得很多收益。

在YC校友演示日上,我看到很多產品都利用這點實現了成功。這些工程層面的成功大致可以分為兩類:

一類是產品已大規模投入生產(解決相對簡單的問題)——目前來看是少數;另一類則瞄準稍微復雜的問題。第二類公司表現良好,因為他們的概念驗證表明,通過足夠的工程努力,他們可以實現相應的目標。

但這些公司面臨的關鍵問題是:下一個模型發布是否會讓所有這些工程工作變得毫無意義,進而徹底摧毀它們的競爭優勢?

OpenAI的o1模型的發布就說明了這種風險。

我和很多AI應用的創始人聊過,他們都很擔心。因為他們在優化提升上投入了大量的資源,但隨著o1發布,提示工程的重要性逐漸下降。

從本質上講,這項工程努力旨在限制人工智能并減少其錯誤。通過觀察許多解決方案,我發現了兩種主要類型的限制:

  1. 特異性:指的是解決方案的專注程度。垂直解決方案的配套軟件是為解決特定問題而構建的。相比之下,通用型產品可以處理多種不同類型的問題。
  2. 自主性:衡量人工智能獨立運作的程度。按Anthropic的術語,我們將其分為Workflow(LLM和工具遵循預定義代碼路徑的系統)和Agent(LLM控制自身流程和工具的使用,自主決定如何完成任務的系統)。

這兩種類型構成了一個對人工智能產品進行分類的框架:

表 1:著名AI產品分類

請注意,ChatGPT可能遵循每條消息的預定義代碼路徑,使其成為工作流而不是代理

讓我們來探索一下如何針對同一項任務實施每個類別:業務分析師制作投資路演幻燈片。以下是每種方法的一種可能方法:

  • Vertical workflow:固定的步驟順序:首先,對公司數據庫進行RAG查詢,將其傳遞給小型LLM進行匯總,然后傳遞給更強大的LLM,提取關鍵數字并使用計算器工具。LLM在編寫幻燈片內容之前檢查這些數字是否有意義。最后,幻燈片生成器創建演示文稿。每次都按此順序運行。
  • Vertical agent:LLM循環運行,使用一次迭代的輸出作為下一次迭代的輸入。它可以訪問與工作流版本相同的工具,但自行決定何時使用它們。循環持續進行,直到代理確定結果符合其質量閾值。
  • Horizontal workflow:ChatGPT和類似工具可以協助完成部分任務,但無法端到端地完成任務。它們既缺乏完成全部工作所需的專業化,也缺乏自主性。
  • Horizontal agent:Claude 計算機使用可以訪問標準的辦公軟件。分析師用自然語言提供指令,代理像人類一樣操作計算機,根據需要調整其方法。

演示日上幾乎所有的產品都屬于垂直工作流程類別。這是有道理的——目前的模型對于其他方法來說不夠可靠。

即使是對于垂直Workflow而言過于復雜的問題,也被被迫采取這種模式。因為這是當前模型能力下接近可接受性能的唯一方法。

雖然工程可以改進這些解決方案,但它所能實現的效果有明顯的上限。對于當前模型無法解決的問題,更好的策略是等待一個更強大的模型。

正如利奧波德·阿申布倫納 (Leopold Aschenbrenner)在《情境意識》中所說,對于許多問題,工程工作將比等待更好的模型花費更長的時間:

“看起來,這種拖延需要的時間會比放松需要的時間更長,也就是說,當即插即用的遠程工作者能夠自動化大量工作時,中間模型尚未得到充分利用和整合?!?/p>

這種模式聽起來應該很熟悉。

人工智能研究人員反復嘗試設計出“可接受的性能”,但最終卻被更通用的解決方案所取代,而這些解決方案只需要更多的計算。

這與當今人工智能產品的構建方式驚人地相似。我們可以通過研究《痛苦的教訓》如何應用于我們提出的兩種約束類型,我們可以更清晰地理解這種聯系:

對于解決路徑不明確的問題,自主性更強的產品將取得更好的效果。同樣,在處理大型、復雜的輸入空間時,特定性較低的產品將表現更好。

我們觀察到一種歷史模式:利用領域知識的垂直模型始終被利用計算的AI模型所取代。當今的AI產品與這種模式有著驚人的相似之處。

在我看來,考慮到模型正在高速進化,構建軟件來彌補當前模型的局限性,注定會失敗。

正如YC合伙人Jarred在Lightcone播客中所說:

“第一波LLM應用程序(垂直工作流程)大多被下一代GPT打敗了。”

此前,Sam Altman也一再強調,創業者應該對更好的模型發布而感到興奮,而不是害怕。

我接觸的許多人工智能應用層的創始人都對模型發布感到興奮,但實際上,如果從公司發展角度來說,對他們未必是一件好事。

因為他們忽略了一件事:

更好的模型實際上可能會降低你的優勢,而不是增強它。當然,從產品性能的角度看,也存在另一個可能——構建能夠更有效地解決更困難問題的產品。

02 補充附錄

附錄A:《慘痛教訓》統計圖

一種方法可以通過基本統計數據來理解《痛苦的教訓》。在構建模型時,你通常會面臨一個權衡。你可以創建一個非常精確地處理問題的模型(高偏差),或許可以創建一個更靈活但更不可預測的模型(高方差)。

《痛苦的教訓》建議選擇靈活的方法,因為模型可靠性問題可能用更多的算力和數據區解決。

回到現在,雖然垂直工作流程和特定約束能讓AI產品變得更加可靠,但限制了它最終能達到的水平。相比之下,讓AI更自由地運作,在今天看來似乎有風險,但隨著模型進化總會找到更好的解決方案。

正如一直強調的觀點:從歷史上看,押注靈活性一直是一種失敗的策略。

附錄 B:端到端與特征工程

圖 1:傳統機器學習需要手動特征工程,而深度學習采用端到端方法。傳統方法需要人類定義數據中什么是重要的,而深度學習可以自行找出答案

傳統的機器學習需要人類來決定數據中什么是重要的。

你獲取原始輸入(如圖像),然后手動提取有意義的模式或“特征”-例如計算特定形狀或測量某些屬性。

相比之下,深度學習會自動學習這些模式。

圖 2:自動駕駛汽車可視化顯示特征提取的實際操作。該系統識別并跟蹤特定物體,如汽車、行人和車道標記。這代表了將復雜問題分解為更小、明確的部分的傳統方法

讓我們以自動駕駛汽車為例。你可以通過兩種方式構建它:

  1. 特征工程:將汽車所看到的東西分解成具體的部分——其他汽車在哪里、車道在哪里、行人移動的速度有多快?
  2. 端到端:將原始視頻直接輸入神經網絡并讓其弄清楚如何驅動。

特征工程方法感覺更安全、更可控。這就是它在早期人工智能中占據主導地位的原因。

但正如喬治·霍茲所觀察到的:“如果人工智能的歷史教會了我們什么,那就是特征工程方法將永遠被取代,并輸給端到端方法?!?/p>

圖 3:Sholto Douglas 的推文

這直接關系到我們對AI產品的討論。構建垂直特定工具就像特征工程一樣——你要提前決定哪些信息是重要的。

當你限制模型的自主性時,你做的也是同樣的事情。

雖然這在今天可能效果更好,但歷史表明,從長遠來看,押注端到端方法將會獲勝。

本文由人人都是產品經理作者【烏鴉智能說】,微信公眾號:【烏鴉智能說】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!