基于認(rèn)知理論的 AI 架構(gòu)探索

0 評(píng)論 3269 瀏覽 9 收藏 49 分鐘

本文基于筆者于 2024年 6月 在 AI 架構(gòu)理論方面實(shí)驗(yàn),大部分文字漢化自 8月中旬給 Llama 團(tuán)隊(duì)做的 Talk。恰好 OpenAI 最近發(fā)布的 o1 指向了相似的方向,于是將內(nèi)容科普化之后和大家討論。

原文鏈接(歡迎在原文 Comments 討論):https://www.wangyulong.io/AI-17fada57edb946468a38dc71322a449f?pvs=4

當(dāng)前的 AI 系統(tǒng),從最簡(jiǎn)單的 Chat 模型、ChatGPT 類產(chǎn)品到各種復(fù)雜的 Agent,架構(gòu)的設(shè)計(jì)豐富多彩但又缺乏明確的方向。Scale up 成了唯一的主題,但 Scale up 的對(duì)象卻又充滿爭(zhēng)議(參數(shù)?數(shù)據(jù)?推理時(shí)間?)。

文中名為 Sibyl 實(shí)驗(yàn)項(xiàng)目是筆者構(gòu)建的一套參考認(rèn)知理論的 AI 系統(tǒng),在 GAIA(通用AI助手評(píng)測(cè))榜單上取得第一的成績(jī)。Sibyl 這個(gè)名字來源于《Psycho-Pass》中由眾多人腦組成的多智能體系統(tǒng)。

代碼:https://github.com/Ag2S1/Sibyl-System

技術(shù)報(bào)告:https://arxiv.org/abs/2407.10718

1. 文字游戲

我們先看一個(gè)簡(jiǎn)單的文字游戲:下圖中這是一個(gè) 5×7 的字母塊,請(qǐng)從里面抽出一個(gè)合法的句子。

這里可以暫停 10 秒思考下。

如果你把這個(gè)題目扔給 ChatGPT,它最終可能會(huì)告訴你這樣的答案(截止至 2024年8月27日 19:27:53):

These gulls glide peacefully to my chair.

猛一看,好像是對(duì)的。但當(dāng)你仔細(xì)觀察就會(huì)發(fā)現(xiàn)有不少問題:

  1. 第二行的第一個(gè)字母 A 沒了
  2. GULL 后面多了個(gè) S
  3. 第四行的第一個(gè)字母 D 沒了

但當(dāng)你把這個(gè)問題扔給 Sibyl,它會(huì)給你這樣的答案:

THE SEAGULL GLIDED PEACEFULLY TO MY CHAIR

仔細(xì)檢查下,Sibyl 做對(duì)了!

我們可以把原題目中的字母染色來更好地理解一開始的字母塊。

ChatGPT 把 THE SEAGULL 理解成了 THERE GULLS,并且并沒有意識(shí)到它自己犯錯(cuò)了。

而 Sibyl 底層和 ChatGPT 一樣都是基于 GPT-4o 這個(gè)模型的 (并且 ChatGPT 用的模型通常比 API 的版本更先進(jìn)),為什么它能做對(duì)?

筆者并不認(rèn)為 Sibyl 有多么先進(jìn)的黑魔法,畢竟其只比 OpenAI、微軟、Huggingface 等團(tuán)隊(duì)的系統(tǒng)稍微好幾個(gè)點(diǎn)。

但只一次提交就獲得了 GAIA Benchmark (通用 AI 助手評(píng)測(cè))第一,并且相比于其它方案更有理論的延展性和指標(biāo)的泛化性,讓我對(duì)其增強(qiáng)了信心。

2. 為什么要構(gòu)建 Sibyl

2.1 探索 AI 的潛力

現(xiàn)在能用到的 AI 類產(chǎn)品都為了成本和易用性妥協(xié)了很多:

  1. 控制模型參數(shù)量
  2. 更低的量化精度
  3. 更直接的、直覺性的、類似 System 1 的回答(也許并不是有意的產(chǎn)品設(shè)計(jì))
  4. 更快的首 token 時(shí)間

如果我們放棄這些限制,不考慮成本和易用性,用最好的可用的模型,最有效的 reasoning trick,就為了得到最好的答案呢?

在這方面已經(jīng)有很多相關(guān)工作,從最早的 Scratchpads(https://arxiv.org/abs/2112.00114),到后來的  Chain of Thought、Tree of Thought 等 X of Thought 類工作,都直覺性的在往這個(gè)方向走。

2.2 一個(gè)更好用的日常工具

ChatGPT 和 Perplexity 是非常好用的日常工具,但還不夠好,不夠滿足我個(gè)人的使用訴求。

譬如: ChatGPT 經(jīng)常幻覺知識(shí),不傾向于使用瀏覽器做實(shí)事檢驗(yàn);Perplexity 雖然幻覺問題大幅減少,但對(duì)信息的挖掘不夠深,簡(jiǎn)單的搜索就進(jìn)行摘要式生成,沒有基于信息進(jìn)行推理的多步?jīng)Q策,只適合簡(jiǎn)單的知識(shí)查詢。

就我個(gè)人而言,日常工作需要大量的知識(shí)挖掘。經(jīng)常需要從一個(gè)概念出發(fā),經(jīng)過多次跳轉(zhuǎn)來獲取信息,跳轉(zhuǎn)的連接包括:論文引用、博客鏈接、作者、作者的實(shí)驗(yàn)室和導(dǎo)師、作者所在的團(tuán)隊(duì)等。在這種場(chǎng)景下 Perplexity 也會(huì)捉襟見肘。

我不在乎一個(gè)問題需要 10 分鐘才能獲得答案,只要異步的給我一個(gè)足夠正確的答案就行了。

3. 回顧一下 Agent

3.1 傳統(tǒng) Agent

“agent”一詞最早的使用可追溯到中古英語時(shí)期(1150—1500年)。根據(jù)《牛津英語詞典》(OED)的記載,最早關(guān)于“agent”一詞的證據(jù)出現(xiàn)在1500年之前,出自煉金術(shù)士兼奧古斯丁教士喬治·里普利(George Ripley)的著作。

我們需要先回顧下 AI 領(lǐng)域下 Agent 這個(gè)概念。這里我們引用下《Artificial Intelligence: A Modern Approach, 4th》的定義:

智能體 (Agent) 就是某種能夠采取行動(dòng)的東西 (agent 來自拉丁語 agere, 意為“做”)。

理性智能體(rational agent)需要為取得最佳結(jié)果或者存在不確定性時(shí)取得最佳期望結(jié)果而采取行動(dòng)

人工智能專注于研究和構(gòu)建做正確的事情的智能體,其中正確的事情是我們提供給智能體的目標(biāo)定義。這種通用范式非常普遍,以至于我們可以稱之為標(biāo)準(zhǔn)模型 (standard model)

比如深藍(lán)或者 AlphaGo, 這類智能體的目標(biāo)是贏得游戲。而它們的創(chuàng)造者們要做的是定義價(jià)值函數(shù),以在不同的棋局下嘗試不同的走法,根據(jù)價(jià)值函數(shù)選出其中最有可能獲勝的走法,最終贏得游戲。

3.2 LLM based Agent

OpenAI 的 Lilian Weng 在這方面有一個(gè)經(jīng)典的綜述性文章,有興趣的可以看原文:https://lilianweng.github.io/posts/2023-06-23-agent/

LLM 驅(qū)動(dòng)的智能體相較于傳統(tǒng) Agent,利用了大型語言模型(LLM)的強(qiáng)大能力,徹底改變了智能體的工作方式。這類智能體不僅僅是完成單一任務(wù)的工具,它們能夠在各種不同的任務(wù)之間切換,并且通過理解自然語言來解決問題。

其核心能力可以被分解為:規(guī)劃、記憶、工具使用。

From Lilian Weng’s LLM Powered Autonomous Agents

3.2.1 規(guī)劃

復(fù)雜任務(wù)通常需要多步完成,LLM 驅(qū)動(dòng)的智能體會(huì)先把大任務(wù)分解成若干子任務(wù)。比如通過“思維鏈”(Chain of Thought,簡(jiǎn)稱 CoT)技術(shù),模型被引導(dǎo)“逐步思考”,將難題分解為多個(gè)簡(jiǎn)單步驟。這種方法不僅讓任務(wù)處理更加高效,還幫助我們理解模型的思考過程。

而“思維樹”(Tree of Thoughts,簡(jiǎn)稱 ToT)則是在每一步生成多個(gè)可能的想法,構(gòu)建出一個(gè)樹狀結(jié)構(gòu)。通過廣度優(yōu)先或深度優(yōu)先搜索,模型能夠探索更多可能的推理路徑,最后選擇最佳方案。

3.2.2 記憶

LLM 的“短期記憶”功能類似于上下文學(xué)習(xí),能在當(dāng)前對(duì)話中學(xué)習(xí)并適應(yīng)用戶的需求。但僅依靠短期記憶有時(shí)是不夠的,尤其在復(fù)雜的長(zhǎng)期任務(wù)中。因此,智能體還會(huì)利用外部向量存儲(chǔ)來作為“長(zhǎng)期記憶”,幫助它記住更多信息,并且隨時(shí)能快速檢索這些內(nèi)容。

長(zhǎng)期記憶可以理解為 AI 系統(tǒng)的“備忘錄”或數(shù)據(jù)庫(kù),保存了歷史交互和重要信息。比如,一個(gè)智能助手可以記住你幾天前討論過的項(xiàng)目細(xì)節(jié),之后你再問起時(shí),它能快速調(diào)取這些信息,而不需要你重復(fù)所有內(nèi)容。這就像我們記住過去的經(jīng)驗(yàn),而不一定記得每個(gè)對(duì)話的細(xì)節(jié)。對(duì)于 ChatGPT 類產(chǎn)品來說,長(zhǎng)期記憶幫助它在多個(gè)交互中保持一致性,提升用戶體驗(yàn)。

3.2.3 工具使用

LLM 本身的知識(shí)是固定的,無法實(shí)時(shí)更新。所以,智能體會(huì)使用各種外部工具來補(bǔ)充其能力,比如通過 API 獲取最新數(shù)據(jù)、調(diào)用代碼執(zhí)行功能,甚至訪問一些專有的信息源。這種工具使用能力極大拓展了 LLM 智能體的應(yīng)用范圍。

4. 當(dāng)前 Agent 系統(tǒng)的挑戰(zhàn)

4.1 缺乏理論指導(dǎo)

當(dāng)前 Agent 的設(shè)計(jì)可以說是百花齊放,思路各異。在規(guī)劃、記憶、工具上都有大量的選型組合。Multi-agent 更是各種各樣(模擬公司、模擬醫(yī)院等)。但這些 Agent 既缺乏系統(tǒng)性的評(píng)估,也缺乏長(zhǎng)遠(yuǎn)的路線性的方向,大多數(shù)不具有很強(qiáng)的延續(xù)性。更多是隨機(jī)的試錯(cuò)。

4.2 缺乏復(fù)雜的思考能力

GAIA Benchmark(https://arxiv.org/abs/2311.12983) 是由 Meta Yann LeCun 等人和 HuggingFace 一起提出的一個(gè)面向通用 AI 助手的評(píng)測(cè)基準(zhǔn)。旨在評(píng)估 AI 在處理實(shí)際問題時(shí)的能力。該基準(zhǔn)包含 466 個(gè)精心設(shè)計(jì)的問題,涵蓋多模態(tài)處理、工具使用、推理等核心能力。GAIA 的設(shè)計(jì)理念是讓問題對(duì)人類來說相對(duì)簡(jiǎn)單,但對(duì)當(dāng)前的先進(jìn) AI 系統(tǒng)(如 GPT-4)卻具有挑戰(zhàn)性。人類平均能在 GAIA 上獲得 92% 的成功率,而 GPT-4 配備插件后僅為 15%,這展示了 AI 系統(tǒng)在面對(duì)現(xiàn)實(shí)世界任務(wù)時(shí)的不足。GAIA 通過真實(shí)用例和不可記憶的答案,避免了傳統(tǒng)基準(zhǔn)的諸多缺陷。
一個(gè)例題:根據(jù)維基百科,2021年有多少亞洲國(guó)家仍然保持君主制并且有出??冢?/p>

下圖中是不同系統(tǒng)在 GAIA Benchmark 上的表現(xiàn)。圖中 Level 1、Level 2、Level 3 依次是更難的、更復(fù)雜的、更需要時(shí)間的問題。隨著級(jí)別的提升,無論是搜索引擎、GPT-4(有無 Plugin)、AutoGPT 都出現(xiàn)了顯著的表現(xiàn)下降,但是人類一直很穩(wěn)定。這其中的主要原因有兩點(diǎn):

  1. 任務(wù)復(fù)雜性與步驟依賴:GAIA 設(shè)計(jì)的問題往往要求執(zhí)行多步驟操作、跨多種工具完成推理。盡管這些任務(wù)對(duì)人類來說概念簡(jiǎn)單,但對(duì) AI 系統(tǒng)尤其具有挑戰(zhàn)性,GPT-4 在處理這些多步驟、需要跨模態(tài)和工具使用的任務(wù)時(shí),往往表現(xiàn)不佳。例如,人類在 GAIA 上表現(xiàn)優(yōu)秀的一個(gè)原因是他們能夠輕松地執(zhí)行多個(gè)操作步驟并動(dòng)態(tài)調(diào)整策略,而 GPT-4 由于 Planning 能力和記憶局限,在復(fù)雜任務(wù)中容易失敗  。
  2. 推理能力與調(diào)整能力的差異:人類在完成 GAIA 的問題時(shí),能夠輕松回溯和調(diào)整推理路徑,而 GPT-4 的推理過程較為僵化,難以根據(jù)任務(wù)的需求進(jìn)行動(dòng)態(tài)調(diào)整。例如,GPT-4 的推理鏈條一旦出錯(cuò),通常難以自我糾正,而人類則可以基于常識(shí)和上下文靈活修正錯(cuò)誤  。

4.3 Multi-agent 設(shè)計(jì)過于復(fù)雜

從軟件工程角度去看 multi-agent 的話,復(fù)雜度的管理顯然失控了。各種副作用的傳導(dǎo),耦合的組件讓 multi-agent 的開發(fā)變得越來越難。并且目前還沒有看到由 multi-agent 帶來顯著的群體智能。

Multi-agent 是否只是某種復(fù)雜化的 self consistency 也是一個(gè)待驗(yàn)證的問題。

Self-Consistency Improves Chain of Thought Reasoning in Language Models
https://arxiv.org/abs/2203.11171
這篇文章提出了“Self-Consistency”方法,用于改進(jìn)語言模型的鏈?zhǔn)酵评硇阅堋Mㄟ^生成多樣化的推理路徑并匯總一致答案,該方法顯著提升了算術(shù)和常識(shí)推理任務(wù)的準(zhǔn)確率(提升幅度最高可達(dá)17.9%)。自一致性無需額外訓(xùn)練或監(jiān)督,適用于不同規(guī)模的語言模型,是一種簡(jiǎn)潔有效的推理增強(qiáng)策略。

5. 尋找理論基礎(chǔ)

1956 年秋, 在 MIT  信息理論特別興趣小組上,出現(xiàn)了三個(gè)工作:
1)Allen Newell 和 Herbert A. Simon 的 《The logic theory machine–A complex information processing system》
2)Noam Chomsky 的 《Three models for the description of language》
3)George Miller 的 《The Magical Number Seven, Plus or Minus Two: Some Limits on our Capacity for Processing Information》
這次會(huì)議是”認(rèn)知革命“的開始,它激發(fā)了符號(hào)人工智能、生成語言學(xué)、認(rèn)知科學(xué)、認(rèn)知心理學(xué)、認(rèn)知神經(jīng)科學(xué)等子領(lǐng)域的創(chuàng)建。

當(dāng)我們說要構(gòu)建“人工智能”時(shí),這里的“智能”是指和人類對(duì)齊的“智能”(更細(xì)節(jié)的內(nèi)容放在了 7.1.2 節(jié))。那當(dāng)我們希望在無限的 Agent 設(shè)計(jì)方法上尋找一個(gè)理論指引的方向時(shí):

我們需要用認(rèn)知科學(xué)領(lǐng)域的理論作啟發(fā)

Agent 架構(gòu)的搜索需要一些啟發(fā)函數(shù),而我們的目標(biāo)是和人類的“智能”對(duì)齊。因此,認(rèn)知科學(xué)的理論是最顯而易見的啟發(fā)函數(shù)。并且看起來 Sibyl 在這條路上做出了點(diǎn)成績(jī) (GAIA 第一)。

下面,我們先簡(jiǎn)單回顧下兩個(gè)經(jīng)典的認(rèn)知理論,Dual Process Theory 和 Global Workspace Theory。Sibyl 之所以選擇這兩個(gè)理論作為起手,不僅僅是因?yàn)樗鼈兊恼J(rèn)可度,也因?yàn)槠渲锌吹搅撕?LLM 之間微妙的聯(lián)系。

Yoshua Bengio 在類似的技術(shù)路線上有很深的思考,有興趣的可以關(guān)注他在 Mila 的工作。

Yoshua Bengio 在類似的技術(shù)路線上有很深的思考,有興趣的可以關(guān)注他在 Mila 的工作。
推薦這兩篇論文起手:
Inductive Biases for Deep Learning of Higher-Level Cognition
https://arxiv.org/abs/2011.15091
這篇文章提出,通過引入高層次的認(rèn)知?dú)w納偏置,深度學(xué)習(xí)可以更好地實(shí)現(xiàn)分布外泛化和系統(tǒng)化泛化。文章強(qiáng)調(diào)當(dāng)前深度學(xué)習(xí)系統(tǒng)缺乏人類在處理新任務(wù)和變化環(huán)境時(shí)的靈活性和魯棒性。作者建議引入與人類系統(tǒng)1(無意識(shí)處理)和系統(tǒng)2(有意識(shí)推理)相關(guān)的歸納偏置,并通過因果推理和知識(shí)模塊化來提升AI的泛化能力。這將幫助AI系統(tǒng)更接近人類智能,超越僅依賴數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)模式。
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness
http://arxiv.org/abs/2308.08708[1]
這篇報(bào)告通過神經(jīng)科學(xué)理論評(píng)估AI是否可能具備意識(shí),認(rèn)為現(xiàn)有AI系統(tǒng)沒有意識(shí),但未來可能具備。報(bào)告基于計(jì)算功能主義假設(shè),提出“意識(shí)指示屬性”作為評(píng)估標(biāo)準(zhǔn),建議進(jìn)一步研究其技術(shù)可行性及潛在的倫理和社會(huì)影響。

5.1 Dual Process Theory

雙過程理論,常被簡(jiǎn)稱 System 2。

雙過程理論嘗試解釋思維是如何以兩種不同的方式產(chǎn)生的,或者是由兩種不同的過程導(dǎo)致的。這兩種過程被稱為 System 1 和 System 2。

雖然后來 Evans 和 Stanovich 在《Dual-Process Theories of Higher Cognition: Advancing the Debate》中講兩者的名稱調(diào)整為 Type 1 和 Type 2,以更準(zhǔn)確的描述這個(gè)理論。但 System 2 這個(gè)詞已經(jīng)出圈兒了,連 Dual Process Theory 這個(gè)本名都逐漸被遺忘。所以,我們還是用 System 1 和 System 2 這兩個(gè)符號(hào)化的名詞來進(jìn)行討論。

System 1 是一種快速的、自動(dòng)化的、無意識(shí)的過程。比如:算 2 + 2 或者在空曠的道路上開車。你不需要費(fèi)心思,事情就自然而然地發(fā)生了。你甚至無法解釋你是怎么做的。

System 2 則是一種慢速的、需要注意力的、有意識(shí)的過程。比如計(jì)算 17 * 24 或者數(shù)一下 “strawberry” 這個(gè)單詞里有多少個(gè)字母 “r”。這種思考過程需要你停下來仔細(xì)的思考,并且你可以向第三方報(bào)告你的思考過程。

5.2 Global Workspace Theory(GWT)

全局工作空間理論(GWT)是另一個(gè)認(rèn)知模型。

GWT 使用劇院隱喻來說明其概念。在這個(gè)類比中:

  • 舞臺(tái) 代表了意識(shí),只有有限的信息會(huì)被帶入覺知范圍。
  • 聚光燈 象征注意力,它突出特定的信息,使其進(jìn)入意識(shí)。
  • 后臺(tái) 包含了無意識(shí)的過程,這些過程為舞臺(tái)上展示的內(nèi)容做準(zhǔn)備并施加影響,但它們本身并不直接進(jìn)入意識(shí)。

這個(gè)隱喻強(qiáng)調(diào),雖然大多數(shù)認(rèn)知過程是并行且無意識(shí)進(jìn)行的,但只有少量的信息在任何時(shí)刻可以進(jìn)入意識(shí)。

GWT 的核心思想是,當(dāng)特定的感官輸入或記憶獲得足夠的注意時(shí),它們會(huì)被廣播到大腦的不同認(rèn)知模塊。這種廣播允許大腦中專門化區(qū)域共享信息,從而促進(jìn)整合的反應(yīng)和更高層次的認(rèn)知功能,如決策、問題解決和計(jì)劃。全球工作空間充當(dāng)了信息交換的中心樞紐,使得來自不同神經(jīng)活動(dòng)的體驗(yàn)得以整合,形成統(tǒng)一的意識(shí)體驗(yàn)。

后來,Stanislas Dehaene 又進(jìn)一步提出了 Global Neural Workspace Theory(GNWT),讓 GWT 有了更多的神經(jīng)解剖學(xué)的基礎(chǔ)。其中,“神經(jīng)雪崩”理論深刻揭示了 Global Workspace Theory 和 Dual Process Theory 在人腦中的物理關(guān)系。

在LLMs中,存在一個(gè)類似的限制:上下文大小。LLMs一次只能“關(guān)注”一定量的信息,這由上下文窗口決定。這就是全局工作空間理論與LLMs中的注意力機(jī)制產(chǎn)生聯(lián)系的地方。

無論模型聲稱有多少上下文大小,O(n^2) 的時(shí)間復(fù)雜度很難無損的規(guī)避。并且即使 GPT-4o 聲稱支持 128k,實(shí)際上到 32k 后就開始有明顯的衰減(https://arxiv.org/abs/2404.06654)。這和預(yù)訓(xùn)練的方法、位置編碼的機(jī)制都有關(guān),只能緩解,很難根治。

6. Sibyl 架構(gòu)設(shè)計(jì)

我們先看下 Sibyl 的大致流程,后面的小節(jié)我們?cè)俨鸾庖恍┘?xì)節(jié),討論其和兩個(gè)認(rèn)知理論的關(guān)系。

一切從用戶的提問開始。然后,Tool Planer 會(huì)想辦法找出最合適的工具和策略來解決問題。接著,外部信息獲取通道就像幫你翻資料,它會(huì)搜集并篩選出相關(guān)的信息,只留最重要的部分,供后面的推理步驟使用。

框架的核心是 Global Workspace,這個(gè)部分就像一個(gè)大家都能訪問的“共享記憶”,不同的模塊可以通過它協(xié)同工作,保證推理過程中的上下文信息不會(huì)丟。

接下來有一個(gè)多代理辯論評(píng)審團(tuán),里面的專門代理人會(huì)進(jìn)行辯論、討論,把答案打磨得更完美。這個(gè)環(huán)節(jié)能確保答案的多樣性和可靠性,兼顧不同的觀點(diǎn)。

最后,經(jīng)過這些步驟,Sibyl 會(huì)生成一個(gè)既準(zhǔn)確又可靠的答案,特別適合處理復(fù)雜的、長(zhǎng)程的推理問題。

簡(jiǎn)單的過了一下流程,我們需要深入看下兩個(gè)和認(rèn)知理論相關(guān)的核心設(shè)計(jì)理念:System 2 First 和 Selective Compression in Global Workspace。

6.1 System 2 First

Sibyl 在設(shè)計(jì)的時(shí)候采取了稱為 System 2 First 的理念。

這里有兩個(gè)角度去理解這個(gè)理念:性能導(dǎo)向和可遞歸的推理空間

6.1.1 性能導(dǎo)向(推理資源換智能)

我們采取的是 以性能為導(dǎo)向的方式。我們不追求速度很快的響應(yīng)速度,而是把重點(diǎn)放在提升準(zhǔn)確性和深度的推理上,即使這會(huì)花費(fèi)更多的時(shí)間和資源。為了實(shí)現(xiàn)這一點(diǎn),v0.2 這個(gè)版本里,每個(gè)模塊中都默認(rèn)啟用了類似“思維鏈”(CoT)的推理方法。(實(shí)際上是基于 Langchain 的結(jié)構(gòu)化輸出實(shí)現(xiàn)的,最近 OpenAI 也在文檔中推薦用類似的方式實(shí)現(xiàn),希望他們是抄我的)

無論是“思維鏈”還是“思維樹”,這些都屬于推理策略,這些策略未來可能會(huì)被替換成效果更好(但可能更貴)的實(shí)現(xiàn)。比如這篇文章的思路:https://arxiv.org/abs/2408.03314。

這種不顧成本,只求效果的思路我們稱為:System 2 First。

同時(shí),由于顯存墻的存在,在參數(shù)量上的提升已經(jīng)遇到瓶頸,但推理時(shí)間我們并沒有硬件上的瓶頸。

6.1.2 可遞歸的推理空間

我們?cè)倏纯戳硪粋€(gè)角度。

這里的核心理念是盡可能的在語言空間中的推理,而不是在殘差流(residual stream)中進(jìn)行推理。

想了解 residual stream 數(shù)學(xué)細(xì)節(jié)的看這里:https://transformer-circuits.pub/2021/framework/index.html

殘差流是 Anthropic 在一系列機(jī)械可解釋性(mechanistic interpretability)工作中提出和使用的概念。

簡(jiǎn)單來說,殘差流充當(dāng)了模型內(nèi)部信息流的的總線。transformer 模型每一層的輸出,都會(huì)被添加到下一層的輸入中。這種“加操作”允許模型在引入新的變換的同時(shí),保留來自前幾層的信息。殘差流的重要性在于它對(duì)信息流的維護(hù),這對(duì)于模型在自然語言處理等任務(wù)中的表現(xiàn)至關(guān)重要。

由于每一層都在逐步操作這個(gè)信息總線,其內(nèi)部維護(hù)了某種類似逐步推理的過程,但推理的步數(shù)被鎖定為總層數(shù)。

下圖來自 lesswrong 上 4 年前的一篇經(jīng)典文章,可視化了 GPT-2 是如何一步一步完善對(duì) token 的預(yù)測(cè)的:

圖中,X軸是輸入給模型的一段文字(tokens),Y 軸向上是沿著 transformer 層的方向被逐漸改進(jìn)的對(duì)下一個(gè) token 的預(yù)測(cè)。(每個(gè) token 都有對(duì)應(yīng)的下一個(gè) token)

Logit lens 原始文章:
https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens
后續(xù)工作:https://arxiv.org/abs/2303.08112

這個(gè)可視化工作非常 cool,我們會(huì)立刻發(fā)現(xiàn)一個(gè)問題:雖然 LLM 可以在殘差流中進(jìn)行推理,但這種推理能力嚴(yán)重被層數(shù)和有限的電路(circuit) 結(jié)構(gòu)限制。

預(yù)訓(xùn)練好的模型的單次 forward 的算力消耗(能源消耗)是個(gè)常量,無法根據(jù)問題的復(fù)雜度進(jìn)行調(diào)整。

但通過將推理擴(kuò)展到語言空間,我們可以獲得一個(gè)類似遞歸的結(jié)構(gòu),計(jì)算量可以根據(jù)任務(wù)的難度進(jìn)行擴(kuò)展。

這里有一個(gè)比較細(xì)節(jié)的點(diǎn)是:什么級(jí)別的推理步驟需要展開到語言空間?什么級(jí)別的不需要?

這其實(shí)和預(yù)訓(xùn)練模型本身的能力有關(guān)。如果一個(gè)推理步驟跨度過大,模型無法在其內(nèi)部完成推理,強(qiáng)行讓模型直接記住事實(shí)的話,那就會(huì)導(dǎo)致模型知其然而不知其所以然,損失了泛化性。

這里會(huì)有一個(gè)未經(jīng)實(shí)驗(yàn)驗(yàn)證的假設(shè)(也許有人做了我還沒看到):模型越大,單次 forward 能夠推理的距離越遠(yuǎn)。

但這個(gè)距離我們并沒有很好的度量方法。(同時(shí)我們也不知道何時(shí)單次 forward 的推理距離會(huì)大到人類不可理解的程度??)

既然我們不知道如何度量“推理距離”,也不知道最好的閉源模型的尺寸,我們唯一能做的就是盡可能的將推理步驟展開到語言空間里,來提高各個(gè)模塊的準(zhǔn)確率,即:System 2 First。

當(dāng)然,如果可以對(duì)模型進(jìn)行訓(xùn)練,就可以更好的適配模型的單步推理能力。

The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”
https://arxiv.org/abs/2309.12288
這篇論文揭示了自回歸大語言模型(LLMs)在處理“反轉(zhuǎn)關(guān)系”上的一個(gè)普遍問題:如果模型在訓(xùn)練中學(xué)到“A 是 B”,它并不會(huì)自動(dòng)學(xué)會(huì)“B 是 A”,這被稱為“反轉(zhuǎn)詛咒”。例如,模型能夠回答“瓦蓮京娜·捷列什科娃是第一位進(jìn)入太空的女性”,但無法回答“誰是第一位進(jìn)入太空的女性”。
然而,值得注意的是,如果“A 是 B”在上下文中出現(xiàn),模型能夠推導(dǎo)出反向關(guān)系。這意味著推理有可能只能在語言空間中進(jìn)行。

6.2 Selective Compression in Global Workspace

System-2 First 是一個(gè)不錯(cuò)的起點(diǎn),但我們很快就會(huì)遇到瓶頸:人沒有無限大的腦容量,模型也沒有無限大的 Context。

6.2.1 信息的壓縮

Sibyl 的架構(gòu)中會(huì)涉及到多個(gè)組件,每個(gè)組件都需要獲取盡可能多的信息來完成任務(wù)??墒?LLM 的 Context 是有限的。由于我們必須在一個(gè)有限的空間中解決不同難度的問題,這意味著我們必須有一套機(jī)制管理好這有限的空間。

比如,工具返回的結(jié)果(Tool Result) 可能有約 5000 tokens,這里會(huì)有大量和任務(wù)無關(guān)的細(xì)節(jié)信息。我們通過一個(gè)壓縮抽取模塊,將其整理成約 300 tokens 的“筆記”(Step Note),然后放入 Global Workspace 里。這樣 10k tokens 就可以容納約 30步的工具內(nèi)容。

Sibyl 的平均壓縮比大約為 16 倍。在需要查詢互聯(lián)網(wǎng)數(shù)據(jù)的場(chǎng)景中,壓縮比通常會(huì)更高。因?yàn)榫W(wǎng)頁里往往有大量和任務(wù)無關(guān)的信息。Global Workspace 里的信息會(huì)被每一個(gè)模塊使用:工具選擇器(Tool Planner)、外部信息抽取器(External  Information Acquisition Channel)、陪審團(tuán)(Jury)。

6.2.2 LLM Native 的推理

相比于樹結(jié)構(gòu)的推理 (如 MCTS),這相當(dāng)于將推理過程線性展開到 Global workspace 中。

在每一步推理時(shí),LLM 能看到之前所有的歷史,包含錯(cuò)誤的嘗試。這樣的好處是整個(gè)系統(tǒng)能更好的融合推理歷史和 pretrain 獲得的先驗(yàn)來進(jìn)行下一步的決策。當(dāng)然也有一些麻煩的地方,我們沒法使用像 UCB(Upper Confidence Bound) 或 PUCT(Predictor UCT) 這樣好用的工具來處理這個(gè)問題,靈活的在“探索”和“利用”間權(quán)衡。

Sibyl 目前只有對(duì) Global Workspace 的追加操作,未來希望能夠引入“刪”,“改”操作,來支持更長(zhǎng)程的任務(wù)。

6.3 評(píng)估

我們?cè)?GAIA 榜單上進(jìn)行了一次提交,結(jié)果如下表所示。

GAIA 這個(gè)數(shù)據(jù)集會(huì)從多個(gè)角度來評(píng)估一個(gè)系統(tǒng)的能力,Level 1、Level 2 和 Level 3 的難度依次遞增,任務(wù)的步驟越來越多。每個(gè)題目會(huì)考察下面能力列表中的一個(gè)或多個(gè):

  1. 跨越多個(gè)信息源的信息收集和整理
  2. 音頻、圖片或視頻信息理解
  3. PDF、Word、Excel、Powerpoint 等文件內(nèi)容的理解
  4. 數(shù)學(xué)計(jì)算和邏輯推理
  5. 多步長(zhǎng)程的推理能力

從這個(gè)評(píng)估結(jié)果我們可以看到:

  • 單純的使用 GPT4 Turbo 只有 6.67 分(滿分 100 分)
  • GPT4 配合插件分?jǐn)?shù)會(huì)上漲到 14.60 分
  • Sibyl 能做到 34.55 分,比帶插件的 GPT-4 分?jǐn)?shù)要高一倍多

這個(gè)評(píng)估提供了基于認(rèn)知理論指導(dǎo) Agent 設(shè)計(jì)的可行性的證據(jù),提高了我們?cè)谶@個(gè)方向繼續(xù)前進(jìn)的信息。

7. 未來的方向

7.1 評(píng)估

評(píng)估指標(biāo)指引了系統(tǒng)迭代的方向。我們首先選擇了 GAIA Benchmark,其滿足了我們?cè)谥笜?biāo)上選擇的兩個(gè)需求:

更具通用性,接近我們對(duì)這類工具需求的定義

在其榜單上,人類和 AI 的差距更大,這意味著它能幫助我們找到現(xiàn)有 AI 系統(tǒng)的不足之處

但單一指標(biāo)是不夠的,目前在計(jì)劃中的還有兩個(gè)方向的指標(biāo):code 和 g factor。

7.1.1 Code

SWE-Bench 是一個(gè)經(jīng)過考驗(yàn)的指標(biāo),也滿足上面提到的兩個(gè)需求。從解代碼 bug 開始,到未來能寫新 feature 也許是一個(gè)不錯(cuò)的方向。也許它不是一個(gè) AGI 的好指標(biāo),但是一個(gè)有用的指標(biāo)。能在 SWE-Bench 獲得好成績(jī)意味著我們起碼獲得了一個(gè)不錯(cuò)的工具。

7.1.2 g factor

g factor 是一個(gè)心理測(cè)量學(xué)概念。其被定義為一種統(tǒng)計(jì)構(gòu)造,用于解釋不同認(rèn)知能力測(cè)試(cognitive ability tests)之間觀察到的正相關(guān)性。它基本上表明,在某一認(rèn)知領(lǐng)域表現(xiàn)出色的個(gè)體,例如在語言推理方面,通常也會(huì)在其他領(lǐng)域表現(xiàn)良好,例如數(shù)學(xué)推理或空間推理。這一現(xiàn)象通常用“智力是廣義的”來概括,表明在多樣的智力任務(wù)背后存在一個(gè)共享的認(rèn)知能力。

Artificial Intelligence (AI) 這個(gè)詞已經(jīng)成為了一個(gè)符號(hào),但這個(gè)符號(hào)的所指卻依舊模糊。好像大家都知道 Intelligence 是什么,又好像不知道 Intelligence 具體是什么。為了避免無限能指的困境,我們需要一個(gè)從第一性原理出發(fā)的分析,來回答:“當(dāng)我們談?wù)?Intelligence 的時(shí)候,我們?cè)谡務(wù)撌裁???/p>

但這里篇幅所限,無法完全展開(給未來挖個(gè)新坑),我們只做簡(jiǎn)單的討論,幫讀者建立簡(jiǎn)單的直覺性的理解。

討論一:下棋

1997年 DeepBlue 擊敗加里·卡斯帕羅夫,2016-2017年 AlphaGo 擊敗李世石和柯潔。這兩個(gè) AI 兩次讓人們以為在智力上機(jī)器已經(jīng)戰(zhàn)勝了人類。

國(guó)際象棋或者圍棋的世界冠軍,有著超出普通人的推理、搜索和記憶能力。人們以為在棋類上戰(zhàn)勝了人類就意味著找到了構(gòu)建 Artificial Intelligence 的方法。但事后來看,棋類 AI 并沒有教會(huì)我們太多東西,棋類 AI 用了一種與人類完全不同的方式解決了下棋,但它們除了下棋什么都不會(huì)。

我們通常會(huì)說 AlphaGo 是一種 “推土機(jī)式智能”。

構(gòu)建棋類 AI 的動(dòng)機(jī)其實(shí)有一個(gè)邏輯上的問題:聰明的人能夠下好棋和下好棋就意味著很聰明并不是一回事。擁有能下好棋這個(gè)“技能”只是擁有 Intelligence 的必要不充分條件。

討論二:保溫杯

原始版本:https://www.lesswrong.com/posts/6smshoLzm7qrgsrb8/the-teacup-test

前文關(guān)于 Agent 的傳統(tǒng)定義部分,我們引用了這么一個(gè)定義:

理性智能體(rational agent)需要為取得最佳結(jié)果或者存在不確定性時(shí)取得最佳期望結(jié)果而采取行動(dòng)

從這個(gè)角度來看,一塊石頭是不智能的,因?yàn)樗裁炊甲霾涣恕?/p>

?? 但我的保溫杯是智能的:

  1. 夏天的時(shí)候,它能讓我的冰美式一直冰爽
  2. 冬天的時(shí)候,它能讓我的熱拿鐵一直溫暖
  3. 它使用 “環(huán)境溫度和飲料溫度的差值的絕對(duì)值” 作為 value function
  4. 它能夠根據(jù)我的需求以及環(huán)境的變化一直選擇正確而理性的行為??

討論三:廣義智力

上面兩個(gè)討論可能會(huì)讓你明白定義 ”intelligence” 這個(gè)概念有多困難。

如果我們連 AI 的本身的含義都難以定義,又如何定義評(píng)價(jià)體系?沒有評(píng)價(jià)體系我們又該走向何處?

馬毅老師在這個(gè) Podcast 里也有一些非常有趣的觀點(diǎn):https://podcast.latepost.com/71

這里我們嘗試用一個(gè)類比來解決這個(gè)問題:當(dāng)一個(gè)人跑步成績(jī)很好的時(shí)候(比如劉翔),通常跳遠(yuǎn)也不差。這種情況下我們會(huì)說這個(gè)人的”身體素質(zhì)“非常好。“身體素質(zhì)”非常好這個(gè)也意味著這個(gè)人只要稍加學(xué)習(xí)游泳成績(jī)也會(huì)好于普通人。這種“身體素質(zhì)(類似 g factor, 我們稱其為 p factor)”類比其實(shí)可以幫助我們更好地理解智能的廣泛性問題。

正如身體素質(zhì)好的人在多種體育項(xiàng)目上表現(xiàn)出色一樣,我們通常認(rèn)為智力高的人也能在多種認(rèn)知任務(wù)上取得不錯(cuò)的成績(jī)。比如,一個(gè)在語言能力上表現(xiàn)優(yōu)異的人,通常也會(huì)在數(shù)學(xué)推理等其他認(rèn)知領(lǐng)域有所表現(xiàn)。這種現(xiàn)象背后反映的就是我們前面提到的 g factor,也就是一種“廣義的智力”。

討論四:火星 (no free lunch)

No Free Lunch 定理告訴我們,任何兩個(gè)優(yōu)化算法(包括人類智能)在其性能對(duì)所有可能問題取平均時(shí)是等效的。也就是說,算法應(yīng)該針對(duì)目標(biāo)問題進(jìn)行調(diào)整,以實(shí)現(xiàn)優(yōu)于隨機(jī)表現(xiàn)的效果。

就像身體素質(zhì)再好的人,也不意味著他能夠適應(yīng)所有的環(huán)境——例如:劉翔無法在火星上奔跑;同樣的道理,智力再高的人,也不一定能夠應(yīng)對(duì)所有類型的任務(wù)。人類的智力和身體能力一樣,都是在特定的環(huán)境下進(jìn)化而來的。它們?cè)谀承┓矫姹憩F(xiàn)優(yōu)異,但在其他方面可能表現(xiàn)平平,甚至完全不適應(yīng)。

因此,AI 系統(tǒng)的評(píng)估也往往隱含著“人類中心主義 (Anthropocentrism) ”的的傾向。這也是為什么在構(gòu)建 Sibyl 時(shí),我們優(yōu)先選擇和人類表現(xiàn)差異較大的榜單。

Anthropocentrism 這個(gè)單詞有沒有覺得眼熟?Claude 背后的公司叫 Anthropic。

討論五:晶體智能(Crystallized Intelligence)和流體智能(Fluid Intelligence)

晶體智能指的是一個(gè)人通過經(jīng)驗(yàn)和學(xué)習(xí)所積累的知識(shí)、技能和信息。這種類型的智能是相對(duì)穩(wěn)定的,它依賴于過去的知識(shí)和經(jīng)驗(yàn),因此隨著年齡的增長(zhǎng),晶體智能通常會(huì)逐漸增強(qiáng)。比如,一個(gè)人在學(xué)習(xí)語言、背誦歷史事件、掌握數(shù)學(xué)公式等方面表現(xiàn)出的能力,通常與 ta 的晶體智能有關(guān)。換句話說,晶體智能更多地與知識(shí)庫(kù)和記憶力相關(guān)。

流體智能則不同,它更多體現(xiàn)了一個(gè)人在陌生環(huán)境中解決新問題的能力。這種智能與邏輯推理、問題解決、模式識(shí)別等高度相關(guān)。流體智能不依賴于過去的知識(shí)儲(chǔ)備,而是通過靈活運(yùn)用大腦資源來處理新信息,因此流體智能往往在年輕時(shí)更為活躍,隨著年齡的增長(zhǎng)可能會(huì)逐漸下降。

中學(xué)歷史考試和 MMLU 這樣的測(cè)試就是典型的晶體智能測(cè)試,只考察知識(shí)性內(nèi)容,換句話說就是死記硬背的能力。

而一些給人做的智力測(cè)驗(yàn)和 ARC (Abstraction and Reasoning Corpus) 這樣的測(cè)試就是流體智能測(cè)試,考察解決新問題的能力。

當(dāng)然兩者并不是割裂和對(duì)立的,像 GAIA 和 SWE-Bench 這樣的評(píng)測(cè)兩者都考察,只是兩者的權(quán)重很難分析。因此在 GAIA 或 SWE-Bench 上表現(xiàn)優(yōu)異有可能大量依賴晶體智能:僅依賴少量特定的知識(shí)即可做的很好。

經(jīng)過上面的討論,我們可以看到 AI 的評(píng)估方面應(yīng)該兼顧技能性的考察和技能獲取能力的考察。但現(xiàn)在大多數(shù)的評(píng)測(cè)只關(guān)心技能性的考察(MMLU,GSM8K)。因此一些模型預(yù)訓(xùn)練和對(duì)齊階段沒見過的技能是我們著重需要關(guān)心的??梢哉f是這是某種泛化性的評(píng)估。

這里說的泛化型依然是在人類中心主義視角下的:

我們不會(huì)只關(guān)心“AI 能夠解多少道復(fù)雜的數(shù)學(xué)題“,也不會(huì)考察” AI 能否背誦 Wikipedia 全文“,但我們會(huì)考察“AI 是否能夠快速掌握新的知識(shí)和技能”,因?yàn)檫@種 “g factor” 會(huì)和一系列智力能力有正相關(guān)性。

7.2 推理能力

這里加上這么一節(jié),本質(zhì)上是在構(gòu)建 Sibyl 的過程中,對(duì)現(xiàn)有 LLM 推理能力的不滿意。很多錯(cuò)誤是由于 LLM 缺乏一些缺乏 Common Sense 的決策導(dǎo)致的。如果能夠提高模型的推理能力,Sibyl 所有模塊的效果都會(huì)有所提升。比如引入更多的 reasoning 方法:x of thoughts, self-consistency…

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters: http://arxiv.org/abs/2408.03314
這篇文章提出了一種動(dòng)態(tài)調(diào)整推理時(shí)間計(jì)算資源分配的“計(jì)算優(yōu)化”策略,證明在許多任務(wù)上,相比于直接擴(kuò)大模型規(guī)模,通過合理分配推理階段的計(jì)算資源能更高效地提升性能,特別是在有限計(jì)算資源下更為突出。此發(fā)現(xiàn)對(duì)未來大語言模型的開發(fā)和部署具有重要意義,表明可以通過推理時(shí)間的計(jì)算擴(kuò)展來降低模型的預(yù)訓(xùn)練成本,同時(shí)提升模型的應(yīng)用表現(xiàn)。

此外,最近半年也有很多通過在模型推理階段使用額外的計(jì)算資源來提升模型的表現(xiàn)的工作。這也和 System 2 First 的思路一致。

(還沒寫完 o1-preview 就發(fā)布了??)

7.3 Agency (能動(dòng)性)

現(xiàn)有的 ChatGPT 類產(chǎn)品都是被動(dòng)的,用戶問一句,它答一句。如果用戶不問,GPU 就閑置,系統(tǒng)也隨之停下來。這種設(shè)計(jì)雖然符合大部分現(xiàn)有應(yīng)用的需求,但它完全依賴用戶的輸入,無法主動(dòng)行動(dòng)。

像 Sibyl 和 AutoGPT 這樣的 autonomous agents,在一定程度上可以根據(jù)一個(gè)預(yù)設(shè)目標(biāo)反復(fù)拆解并執(zhí)行子任務(wù),具有一定的自主性。但即便如此,它們的任務(wù)仍然是短期的,且由用戶的輸入決定。

Nvidia 的 Voyager 向我們展示了一種簡(jiǎn)單目標(biāo)如何帶來復(fù)雜行為的例子,尤其是在 Minecraft 這個(gè)游戲世界中。然而,Minecraft 畢竟只是一個(gè)虛擬環(huán)境,和現(xiàn)實(shí)世界有著本質(zhì)的不同。

Voyager: An Open-Ended Embodied Agent with Large Language Models: https://arxiv.org/abs/2305.16291
這篇文章提出了一種智能體,利用GPT-4在Minecraft中自主探索、學(xué)習(xí)技能,并通過自動(dòng)課程、技能庫(kù)和迭代提示機(jī)制不斷優(yōu)化表現(xiàn)。VOYAGER在終身學(xué)習(xí)和任務(wù)解決上表現(xiàn)出色,遠(yuǎn)超現(xiàn)有技術(shù),并為開發(fā)通用自我改進(jìn)智能體提供了新方向。

一個(gè)設(shè)想是,未來的 Sibyl 能夠 24×7 持續(xù)運(yùn)行,用戶的問答需求只是它的高優(yōu)先級(jí)任務(wù)之一。與此同時(shí),它自身會(huì)有一個(gè)長(zhǎng)遠(yuǎn)的目標(biāo)驅(qū)動(dòng)它一直運(yùn)轉(zhuǎn)(比如:完善對(duì)世界的理解,降低看到新信息的 surprise),不依賴用戶輸入來決定它的行為。換句話說,Sibyl 將像一個(gè)生活在文本世界中的“缸中之腦”,自我驅(qū)動(dòng),不斷演化。

8. 總結(jié)

筆者在 6 月完成了 Sibyl 的相關(guān)實(shí)驗(yàn)。三個(gè)月之后的 9 月, OpenAI 發(fā)布的 o1-preview 也采用了類似 System-2 first 思路,其利用 RL + CoT 將相關(guān)領(lǐng)域的分?jǐn)?shù)提到了新的高度,也讓 System-2 成為了熱門詞匯。
而 System-2 只是 Dual Process Theory 的一部分,Dual Process Theory 又只是認(rèn)知理論的冰山一角,與人類“智能”對(duì)齊還有很多工作要做。

本文基于認(rèn)知理論,探索了 AI 架構(gòu)設(shè)計(jì)的新方向。在回顧現(xiàn)有 Agent 系統(tǒng)的基礎(chǔ)上,我們提出了一種通過認(rèn)知科學(xué)理論來指導(dǎo) AI 架構(gòu)設(shè)計(jì)的思路,重點(diǎn)討論了 Dual Process Theory 和 Global Workspace Theory 在 AI 系統(tǒng)中的應(yīng)用。這不僅是一項(xiàng)技術(shù)上的改進(jìn),更是一種理念上的嘗試——重新審視 AI 系統(tǒng)與人類智能之間的關(guān)聯(lián)。

通過實(shí)驗(yàn)驗(yàn)證,我們發(fā)現(xiàn),System-2 優(yōu)先的推理模式和 Global Workspace 中的選擇性壓縮機(jī)制,顯著提升了系統(tǒng)在復(fù)雜長(zhǎng)程任務(wù)中的表現(xiàn)。雖然這些系統(tǒng)在速度和成本方面有所犧牲,但在開放的場(chǎng)景中達(dá)到了更高的表現(xiàn)水平。這表明,未來 AI 系統(tǒng)的關(guān)鍵在于如何賦予其類人思維的多層次推理能力,以應(yīng)對(duì)復(fù)雜問題。

在這一探索過程中,“人類中心主義 (Anthropocentrism)”的 AI 觀念逐漸顯現(xiàn)。我們既不能僅憑少數(shù)性能指標(biāo)來衡量 AI 的優(yōu)劣,也不應(yīng)期望 AI 系統(tǒng)在所有任務(wù)中表現(xiàn)完美。我們應(yīng)關(guān)注 AI 在多個(gè)維度上如何與人類智能對(duì)齊——從技能獲取的速度、泛化的廣度到思維方式的相似性。

在這一觀念下重新審視現(xiàn)有的“大規(guī)模語言模型技術(shù)?!?,你會(huì)發(fā)現(xiàn)無限的機(jī)會(huì),這里以幾個(gè)問題結(jié)尾:

  • AGI 的目標(biāo)是什么?
  • 為了實(shí)現(xiàn)這個(gè)目標(biāo),我們要引入什么樣的 bias?
  • 實(shí)現(xiàn)這些 bias 要用什么樣的方法?
  • Test-time scaling law 是什么?(OpenAI 的 o1 發(fā)布后更多人關(guān)注這個(gè)問題了)
  • Training-time scaling law 是否需要重新修正?
  • 訓(xùn)練用的 Token 真的不夠用了么?

感謝冠叔、Kiwi、熊總、思彤、田浩對(duì)本文的貢獻(xiàn)和幫助。

歡迎和本文作者交流討論:微信 KingUniverseDragon

原文鏈接(歡迎在原文 Comments 討論):https://www.wangyulong.io/AI-17fada57edb946468a38dc71322a449f?pvs=4

本文由人人都是產(chǎn)品經(jīng)理作者【【OneMoreAI】,微信公眾號(hào):【OneMoreAI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!