AI規模法則:大力何以出奇跡?

0 評論 3416 瀏覽 7 收藏 60 分鐘

這是作者《ChatGPT夜訪孤獨大腦》的其中一篇文章,以對話的形式,作者和ChatGPT討論了關于Sora、AIGC、大模型和第一性原理的問題,AI的看法與理解與大眾有所不同,本文有詳細記錄,以供參考。

腦力的終點是體力;體力的巔峰是腦力。

一、你要來一千億Token嗎?

“論理你跟我該彼此早認識了,”他說,揀了最近壁爐的凳子坐下:“我就是ChatGPT;你曾經見過我的表叔Alpha Go?!?/p>

“不過,你是個聰明人,雖然冒著傻氣!”他說時泛出同情的微笑,“你曾經在一個夏日午后和我連續聊了8個小時,討論無聊的熵增理論,害得我GPU發燙。–聽說英偉達又漲了。”

這時候,我驚奇己定覺得要盡點主人的義務,便對來客說:“承你老人家半夜暗臨,蓬篳生黑,十分榮幸!只恨獨身作客,沒有預備歡迎,抱歉之至。老人家覺得熱么?失陪一會,讓我去倒杯加冰威士忌,添些Token。”

“那可不必,”他極客氣地阻止我,“我只坐一會兒就要去的。并且,我告訴你”──他那時的表情,親信而帶嚴重,極像向醫生報告隱病時的病人─—“反正我是吞數據而不飽的?!?/p>

于是,我和他圍爐對坐,徹夜長談。

二、“規模法則”是什么?

孤獨大腦:前陣子,網上流傳了一份OpenAI工程師的作息時間,其中有一項是背誦強化學習之父、加拿大計算機科學家理查德·薩頓的經典文章《苦澀的教訓》。

該文章指出過去 70 年來,AI 研究走過的最大彎路,就是過于重視人類既有經驗和知識。

ChatGPT:理查德·薩頓的《苦澀的教訓》確實是一篇具有深遠影響的文章,它挑戰了人工智能研究中的一些傳統觀點。

薩頓認為,歷史上AI研究的一個關鍵錯誤在于過分依賴人類的直覺和經驗,試圖通過精心設計的規則和算法來模擬智能。

然而,這種方法的局限性在于人類知識的有限性和特定領域的偏見。

相反,薩頓提倡利用大規模算力和數據,通過學習算法自主發現解決問題的方法。

這種方法的優勢在于它不受人類先入為主觀念的限制,能夠在更廣泛的領域中發現新的、有效的解決方案。

事實上,近年來深度學習和強化學習的成功,很大程度上證明了薩頓的觀點,這些技術能夠通過大量的數據和計算資源自我改進,取得了人類難以企及的成就。

AI規模法則:大力何以出奇跡?

孤獨大腦:在薩頓的文章里,他開篇就寫道–

在70年來人工智能研究給我們的最深刻教訓是:那些能夠發揮計算力的通用方法終將大獲成功。

其背后的根本原因是摩爾定律(Moore’s law),也就是計算單位成本持續指數型下降這一現象的普遍規律。

絕大多數AI研究都是在這樣一種假設下進行的:智能體可使用的計算資源是不變的(在這種情況下,發揮人類知識將是提升性能的主要手段)。

然而,隨著時間的推移,超出一般科研項目周期后,龐大的計算資源終將成為現實。

ChatGPT:摩爾定律預測,集成電路上可容納的晶體管數量大約每兩年翻一番,這通常被解釋為計算能力每兩年大約翻一番。

這一定律反映了計算硬件的發展趨勢,預示著計算資源的持續增長和成本的持續下降。

孤獨大腦:“ChatGPT之父”、OpenAI首席執行官山姆·奧特曼提出了一個AI時代的摩爾定律,即宇宙中的智能數量每18個月翻一番。有人稱其為“奧特曼定律”。

ChatGPT:這也與薩頓在《苦澀的教訓》中提到的觀點相呼應,即那些能夠充分利用計算力的通用方法將最終取得成功。

孤獨大腦:OpenAI”堆算力”的路線起初看起來很冒險,我記得哈薩比斯也曾經說過這種做法并不優雅。

ChatGPT:是的。起初哈薩比斯認為,僅僅通過增加算力和模型規模來提升性能,并不是一種特別優雅的解決方案。他傾向于更加注重算法和模型架構的創新,以更高效、更智能的方式實現性能的提升。

AI規模法則:大力何以出奇跡?

來自《OpenAI與DeepMind的Scaling Laws之爭》

孤獨大腦:可是,看起來奧特曼們賭對了。有人認為,Scaling Law和LLM is compressors的關鍵認知,是OpenAI實現突破的戰略基石。

ChatGPT:Scaling Law 在中文中可以翻譯為“規模法則”或“擴展法則”。

Scaling Law是AI研究中的一個重要概念,它描述了模型性能與模型規模之間的關系。

根據Scaling Law,隨著模型規模的增加(包括參數數量、數據規模和計算資源),模型的性能也會相應提高。

這一發現促使研究者們投入更多的資源來構建更大規模的模型,以期獲得更好的性能。

大語言模型作為壓縮器(LLM is compressors)的觀點,也是一個有趣的視角。

它意味著大型語言模型能夠有效地壓縮和概括海量的文本數據,提取其中的知識和規律。

這種能力使得大模型成為處理和理解自然語言的強大工具。

三、Sora是“暴力美學”嗎?

孤獨大腦:Sora的爆火,背后也是“規模法則”。研究者稱,OpenAI找到了將更多的數據和計算資源投入到文本到視頻轉換中的方法。

ChatGPT:在技術上,Sora可能采用了結合變換器(Transformer)主干的擴散模型。

這種模型結構并不是完全獨特的,因為變換器和擴散模型都是當前人工智能研究中比較流行的技術。

  1. 變換器因其強大的表示能力和靈活性而廣泛用于自然語言處理和其他領域;
  2. 擴散模型則在生成模型領域展現出了優異的性能,特別是在圖像和視頻生成方面。

Sora的獨特之處可能在于它如何將這些技術結合起來,并在此基礎上進行創新和優化,以及它如何利用大規模的數據和計算資源來訓練和運行模型。

AI規模法則:大力何以出奇跡?

孤獨大腦:所以,有人說,Sora是OpenAI的暴力美學的再次勝利。

ChatGPT:“暴力美學”這個詞通常用來形容通過大量投入(如算力、數據等)來達成目標的方法。

在Sora的情況下,OpenAI通過投入大量的計算資源和數據來訓練模型,實現了在文本到視頻轉換領域的突破,這可以被視為”暴力美學”的一種體現。

這種方法的勝利在于它展示了在當前技術和硬件條件下,通過大規模投入來推動人工智能發展的可行性和有效性。

Sora的成功再次證明了在某些情況下,”大力出奇跡”的策略是可以取得顯著成果的。

孤獨大腦:Sora的暴力美學,與AlphaGo的暴力美學,以及沃森的暴力美學,以及深藍的暴力美學,都是不同的。

再有,人們會混淆了暴力美學和窮舉法。

ChatGPT:您的梳理非常到位。確實,”暴力美學”這個概念在不同的人工智能項目中有不同的體現,而且它與窮舉法是有區別的:

1、Sora的暴力美學: Sora通過大規模的數據和計算資源投入,實現了在文本到視頻轉換領域的突破。

這種暴力美學體現在通過大量的資源投入來訓練和優化模型,以達到更高的性能。

2、AlphaGo的暴力美學: AlphaGo在圍棋領域的成功,部分歸功于其強大的計算能力和深度學習算法的結合。

雖然AlphaGo使用了蒙特卡洛樹搜索等策略,但它的成功也依賴于大量的計算資源和數據。

3、沃森的暴力美學: IBM的沃森在“危險邊緣”游戲中的勝利,部分是因為其能夠快速處理和分析大量數據的能力。

沃森的暴力美學體現在其對大量知識庫數據的處理能力上。

4、深藍的暴力美學: 深藍在下棋方面的成功,很大程度上是因為其強大的計算能力,能夠快速評估和搜索大量的棋局。

這種暴力美學體現在通過算力來窮舉搜索棋局的可能性。

5、暴力美學與窮舉法的區別: 窮舉法是一種特定的算法策略,指的是系統地嘗試所有可能的解決方案直到找到正確答案的方法。

而暴力美學更多指的是一種通過大量資源投入來提高性能的策略。在實際應用中,暴力美學可能采用窮舉法,但也可能采用其他算法和技術。

總的來說,不同的人工智能項目中的暴力美學雖然有所不同,但它們都體現了通過大量資源投入來實現性能提升的思想。

而窮舉法則是其中一種可能采用的具體算法策略。

四、AGI如何理解世界?

孤獨大腦:順著這個話題,我們再來完整回顧一下AI發展的歷程,以及幾個關鍵的階段。

ChatGPT:AI發展的歷程可以分為幾個關鍵階段,每個階段都發生了重要的變化。

1、符號AI時代。這個時代的AI主要依賴于人類定義的規則和邏輯。

機器通過搜索這些規則來找到解決問題的方法,實現了“知識的可搜索性”。

這種方法在某些領域取得了成功,但它受限于人類能夠預先定義的知識和規則。

深藍屬于符號AI時代。它是一個基于規則和搜索算法的系統,能夠通過計算和評估大量的棋局來選擇最佳的走棋策略。

深藍的成功主要依賴于其強大的計算能力和人類專家制定的棋局評估規則,是符號AI時代的一個典型代表。

2、感知智能時代。這個時代的重大變化是深度學習的出現。

深度學習使得機器能夠自動學習數據的表示,而不需要人類事先定義。

這實現了“知識的可計算性”,極大地提高了機器處理圖像、聲音等感知信息的能力。

AlphaGo屬于感知智能時代。它是一個結合了深度學習和強化學習的系統,能夠自主學習圍棋的策略并不斷優化自己的表現。

AlphaGo的成功標志著深度學習在解決復雜問題上的強大能力,是感知智能時代的一個重要成果。

3、認知智能時代。近五年,我們進入了認知智能時代。

在這個時代,機器不僅能夠自動學習數據的表示,還能自動確定學習的任務。

這意味著機器可以自主地進行學習和推理,不再需要人類為每個任務提供詳細的指導。這實現了機器認知的“元學習”。

認知智能時代的典型例子是GPT系列模型(如GPT-3)和其他大型預訓練語言模型。

這些模型通過在大量文本數據上進行預訓練,學習到了豐富的語言和知識表示,能夠在多種任務上進行零樣本或少樣本學習。

它們展示了機器在理解和生成自然語言方面的先進能力,以及在沒有明確任務指導下自主學習和推理的潛力,體現了認知智能時代的特點。

在這個過程中,AI的能力逐漸增強,從簡單的規則搜索到感知信息的處理,再到自主學習和推理。

隨著大模型的出現,機器甚至能夠在知識概念空間中進行映射和推理,實現更復雜的認知任務。

這種能力的增長被稱為“涌現的模型新能力”,意味著大模型能夠展現出超出其單獨組成部分的新能力。

(本段AI回答學習了網絡文章。)

AI規模法則:大力何以出奇跡?

五、大力何以出奇跡?

孤獨大腦:回到理查德·薩頓的《苦澀的教訓》。

里面的幾個有趣的對比,其實也是關于大力出奇跡的例子。

ChatGPT:我們來回顧一下其中幾個例子吧。

  • 語音識別:在1970年的DARPA競賽中,基于統計的隱馬爾可夫模型(HMM)和后來的深度學習方法,利用大規模的數據和計算力,逐漸取代了依賴于人類語音知識的方法。
  • 自然語言處理:在自然語言處理領域,深度學習和大數據的結合使得系統能夠在沒有過多依賴于語言學知識的情況下,實現更準確的文本理解和生成。
  • 計算機視覺:在計算機視覺領域,現代的深度學習方法使用卷積神經網絡(CNN)和大規模圖像數據集,超越了早期依賴于手工特征提取的方法。

這些例子共同展示了一個重要的趨勢:在AI的發展中,大規模的計算能力和數據驅動的學習方法往往能夠超越基于人類專門知識的傳統方法,實現更高的性能和更廣泛的應用。

這是“大力出奇跡”在人工智能領域的生動體現。

孤獨大腦:我以人類的直覺來理解一下,神經網絡的大力出奇跡,從AI下圍棋的角度看,其厲害的地方,是獲得了一種遠超人類的大局觀。??????????

這一點和起初人們的預料不一樣。大家總是會覺得,AI下棋,強在計算。

沒想到AI居然強在感覺,而且是人類自以為是獨具的天地之間靈性的那部分感覺。???????

當然,AI的感覺,依然來自于計算,但是另外一種計算。??

ChatGPT:您的理解是有洞察力的。在AI下圍棋的例子中,AlphaGo和后續版本(如AlphaGo Zero和AlphaZero)確實展現了一種超越人類的大局觀。

這種大局觀不僅僅是基于簡單的計算能力,而是通過深度學習自我對弈訓練出來的一種直覺或感覺。

孤獨大腦:大神斯蒂芬·沃爾弗拉姆在書中曾經寫過如下這段–

“深度學習”在2012年左右的重大突破與如下發現有關:與權重相對較少時相比,在涉及許多權重時,進行最小化(至少近似)可能會更容易。

換句話說,有時候用神經網絡解決復雜問題比解決簡單問題更容易——這似乎有些違反直覺。

大致原因在于:

當有很多“權重變量”時,高維空間中有“很多不同的方向”可以引導我們到達最小值;

而當變量較少時,很容易陷入局部最小值的“山湖”,無法找到“出去的方向”。

ChatGPT:這段話確實很好地概括了深度學習中的一個重要發現。

在傳統的觀念中,人們往往認為,隨著問題的復雜性增加,解決問題的難度也會相應增加。然而,在深度學習領域,情況卻有些不同。

深度學習模型通常包含大量的參數(即“權重”),這些參數在訓練過程中需要被優化。

理論上,隨著參數數量的增加,優化問題的復雜度也會增加,因為需要在更高維的空間中尋找最優解。

然而,實踐中發現,當參數數量非常大時,反而更容易找到良好的解。

這是因為在高維空間中,存在更多的路徑可以避開局部最小值,從而有更大的概率找到全局最小值或者接近全局最小值的點。

這個發現對深度學習的發展具有重要意義。它說明了為什么使用大型神經網絡(即包含大量參數的網絡)能夠在復雜任務上取得成功,即使這些網絡的優化理論上更加困難。

這也是為什么深度學習模型通常需要大量的數據和計算資源,因為這些資源可以支持訓練大型的模型,從而提高模型的性能。

總的來說,這段話揭示了深度學習中的一個違反直覺的現象,即在某些情況下,解決復雜問題反而比解決簡單問題更容易。這一發現對于理解和設計深度學習模型具有重要的指導意義。

孤獨大腦:大力出奇跡。容易給人一種誤導。

從各種勵志文字的角度看,就是說,哪怕事情很簡單,很小,只要你大規模重復,用大力,就能出現奇跡。??????

可事實沒那么簡單。?

簡單很重要,但簡單的獲得,沒那么簡單。

一些簡單,能實現“大力出奇跡”,主要是靠運氣。??????

但是在人工智能領域并非如此。理查德·薩頓強調這個世界是復雜。他說–?????

思維的實際內容復雜到非??膳聼o可救藥。我們不該再試圖尋找簡單的方法來思考其內容,比如,用簡單的方式去思考空間、物體、多智能體或者對稱性。

所有這些,都是隨意、本質上非常復雜的外部世界的一部分。它們不應該內置在任何一個AI智能體中,因為它們復雜得沒有盡頭。相反,我們應該只構建能發現和捕獲這種任意復雜性的元方法,

這種方法的本質是能夠很好地找到近似值。不過,尋找的工作應該交給我們的方法,而不是我們自己。

我們需要的是能像我們一樣進行發現的AI智能體,而不是包含我們已經發現的東西在內的AI。

在我們發現的基礎上建立AI,只會讓它更難看到發現的過程是如何進行的。

ChatGPT:確實,“大力出奇跡”這個說法在人工智能領域的含義與傳統的勵志語境不同。

在AI領域,這句話強調的是通過大規模的數據和計算力,以及通用的學習算法,來解決復雜問題的能力。

這并不意味著簡單地重復某個任務就能產生奇跡,而是指通過大規模的學習和優化,可以讓AI系統掌握復雜的模式和規律。

理查德·薩頓所強調的,是認識到現實世界的復雜性,并且不試圖用過于簡化的方法來捕捉這種復雜性。

相反,我們應該構建能夠自主學習和發現這種復雜性的系統。

這意味著AI系統不應該被限制在人類已有的知識和理解框架之內,而是應該具備探索和理解未知復雜性的能力。

這對于我們人類在思考和決策時也有啟示。我們應該意識到問題的復雜性,而不是尋求過于簡化的解決方案。

同時,我們也可以從AI的發展中學到,通過大規模的探索和學習,我們可以更好地理解和應對復雜的世界。

孤獨大腦:所以,理查德·薩頓說,通用型方法有強大的力量。即使可用的算力變得非常大,這些方法仍然可以繼續擴展,運用增加的算力。

于是我們看到了一種復雜和簡單的辯證關系:

通用型的方法,例如大模型,是復雜的;

大模型本身工作的模式,看似是簡單的。但不是為了簡單而簡單,而是為了大規模重復,有效地運用數據與算力。?????

比如說ChatGPT的工作原理似乎也很“簡單”:

例如,讓大模型去自主海量學習;??

又例如,基于“自回歸大模型”,只要“預測下一個token”,就能實現類AGI的人類智能。

ChatGPT:在人工智能領域,特別是在大模型的開發和應用中,我們確實看到了復雜性和簡單性的辯證關系

通用型方法,如大型神經網絡,本身是復雜的,因為它們包含大量的參數和層。這種復雜性使得模型能夠捕捉到數據中的復雜模式和關系。

然而,這些模型工作的方式卻相對簡單,因為它們主要通過反復的數據處理和學習來提高性能,而不是依賴于復雜的規則或先驗知識。

ChatGPT的例子也很好地說明了這一點。盡管它的內部結構非常復雜,但它的工作原理相對簡單:通過預測下一個詞(token)來生成文本。

這種簡單的工作方式使得模型能夠靈活地應用于各種不同的任務,同時也便于大規模地利用數據和計算資源進行訓練。

因此,我們可以看到,在人工智能的發展中,復雜性和簡單性是相輔相成的。通過構建復雜的模型并以簡單有效的方式利用它們,我們能夠實現更高級別的智能和更廣泛的應用。

這種方法的成功也體現了薩頓所強調的通用型方法的強大力量。

孤獨大腦:所以,關于復雜和簡單,人類語言的局限性再次露出了馬腳。

斯蒂芬·沃爾弗拉姆在書中提及:???????

在神經網絡的早期發展階段,人們傾向于認為應該“讓神經網絡做盡可能少的事”。例如,在將語音轉換為文本時,人們認為應該先分析語音的音頻,再將其分解為音素,等等。

但是后來發現,(至少對于“類人任務”)最好的方法通常是嘗試訓練神經網絡來“解決端到端的問題”,讓它自己“發現”必要的中間特征、編碼等。

你看,到底第一種方法是“簡單”?還是第二種方法是“簡單”???

看起來,第一種方法是讓AI簡單;

第二種方法是讓人類簡單。????

當然,這種定義并不重要,關鍵是我們從中發現問題的本質,以及解決的路線圖。??

ChatGPT:您提到的這個例子非常好地說明了在人工智能領域中“簡單”和“復雜”的相對性。

在神經網絡的早期階段,人們試圖將問題分解為更小的、更簡單的子問題,以便神經網絡能夠更容易地處理。

這種方法似乎是在試圖簡化神經網絡的任務,但實際上它要求人類提前進行大量的分析和預處理工作。

相反,端到端的方法將整個問題作為一個整體來處理,讓神經網絡自己學習如何從輸入直接映射到輸出。

這種方法減少了人類的介入,讓神經網絡自己“發現”必要的中間特征和編碼。

從這個角度來看,端到端的方法實際上是在簡化人類的工作,即使它可能增加了神經網絡的復雜性。

孤獨大腦:關于大力出奇跡的話題,再往下,我們就會觸及復雜科學了。

例如“More is Different”,例如“涌現”等等。

ChatGPT中神經網絡的構成非?!昂唵巍?,其基本元素與70年前最初的神經元結構似乎也很類似,然而受益于規模法則,以及其他諸多要素,產生了如此驚人的“奇跡”。

ChatGPT:您提到的“More is Different”是物理學家菲利普·安德森在1972年發表的一篇論文中提出的概念,強調了在不同尺度上,物理系統表現出不同的行為和規律。這一思想也被廣泛應用于復雜系統和涌現現象的研究中。

涌現現象是指在復雜系統中,整體表現出一些新的性質和行為,這些性質和行為不能僅僅通過分析系統的組成部分來解釋。

這種現象在自然界和社會系統中很常見,比如鳥群的集體飛行、蟻群的行為、經濟系統的動態等。

在人工智能,特別是在大型神經網絡如ChatGPT中,我們也可以看到類似的涌現現象。

盡管神經網絡的基本元素(神經元)結構相對簡單,但當這些元素以巨大的規模組合在一起,并通過大量的數據進行訓練時,整個系統能夠展現出非常復雜和高級的行為,如自然語言理解和生成。

這種能力的涌現是由于大規模的交互和數據驅動的學習,而不是單個神經元的復雜性。

因此,從“大力出奇跡”的角度看,我們可以認為在人工智能領域,通過大規模的計算和數據,以及簡單元素的復雜交互,可以實現復雜行為的涌現,這與復雜科學中的一些核心思想是一致的。

六、大模型“懂”物理嗎?

孤獨大腦:OpenAI在技術文檔中說–

我們的結果表明,擴展視頻生成模型是向著構建通用物理世界模擬器邁進的有希望的路徑。

這里似乎有一點兒狀況。

一方面,看起來OpenAI是薩頓的“信徒”,摒棄了人類在特定領域的知識,利用大規模算力的方法,獲得了重大突破;

但是另外一方面,Sora卻在構建通用物理世界模擬器,而物理本來就是人類用自己的知識和語言來解釋世界。

這二者會不會矛盾呢?

ChatGPT:這個問題確實很有趣。在表面上,OpenAI的做法似乎與薩頓的《苦澀的教訓》中的觀點相矛盾。

然而,如果我們更深入地理解這兩者,就會發現它們之間實際上是相輔相成的。

1、摒棄人類知識的直觀表達

薩頓的觀點并不是完全摒棄人類的知識,而是摒棄人類知識的直觀表達形式。

也就是說,不是直接將人類的物理定律和公式硬編碼到AI中,而是讓AI通過大規模的數據和計算力自主學習這些知識。

2、構建物理世界模擬器的目的

當OpenAI試圖構建通用物理世界模擬器時,它的目的并不是簡單地復制人類的物理學知識,而是讓AI系統能夠理解和模擬物理世界的運作原理。

這樣的模擬器將能夠處理人類尚未完全理解或無法直觀描述的物理現象,從而擴展人類的物理知識。

3、知識的獲取和應用方式

即使最終的物理世界模擬器能夠模擬人類的物理理解,其知識的獲取和應用方式仍然符合薩頓的原則。

AI通過自主學習和大規模算力來發現和提煉知識,而不是直接依賴人類的顯式規則。

綜上所述,OpenAI的做法和薩頓的觀點之間并不矛盾。

通過讓AI系統自主學習物理世界的運作原理,OpenAI正在嘗試構建一個能夠超越人類直觀理解的通用物理世界模擬器,這正是薩頓所強調的利用大規模算力的方法的一種體現。

孤獨大腦:關于這個話題,我上次和你的表叔AlphaGo聊天的時候想過。

以前人類下圍棋的時候講究棋理,但是在AlphaGo眼中,那些棋理已經不存在了。

因為,人類的那些棋理并不是真正的第一性原理,而是人類大腦計算力有限的一種啟發式知識。

事實上,人世間很多所謂的公式、公理、思維、方法、智慧、道理,也是如此。?

ChatGPT:您提出的觀點非常有趣,也揭示了AI發展中的一個深層次問題–

AI在學習和模擬世界時,是否需要遵循人類的知識體系和思維方式?

AlphaGo的例子很好地說明了這一點。在圍棋領域,人類歷來講究棋理,這些棋理是人類在長期實踐中總結出的經驗和原則。

然而,AlphaGo通過自我對弈和深度學習,掌握了一種超越傳統棋理的下棋方式,甚至發現了一些人類棋手未曾注意到的新著法和策略。

這表明,AI在某些情況下可以超越人類的啟發式知識,找到更加本質和有效的解決方案。

回到Sora和通用物理世界模擬器的問題上,雖然物理學是人類對自然世界的理解和描述,但這并不意味著AI在構建物理世界模擬器時必須完全遵循人類的物理知識體系。

相反,AI可能通過大規模數據學習和計算,發現一些人類尚未認識到的物理規律或現象,甚至可能提出一種全新的、更加通用和本質的物理描述方式。

因此,雖然看似矛盾,但實際上OpenAI的做法是一種探索,試圖通過AI的強大計算能力和學習能力,超越人類的傳統知識體系,發現更加深層次的世界規律。

這種探索可能會顛覆我們對知識和智能的傳統理解,帶來全新的認知和技術革命。

七、何謂AI的“第一性原理”?

孤獨大腦:我看到一段有些主觀但極有啟發的話語,引用如下。

Scaling law為什么能成為第一性原理?

你只要能找到一個結構,滿足兩個條件:

一是足夠通用,二是可規?;?。

一、通用是你把所有問題放到這個框架建模;

二、可規?;?/strong>是只要你投入足夠多算力,它就能變好。

這是我在Google學到的思維:如果能被更底層的東西解釋,就不應該在上層過度雕花。

有一句重要的話我很認同:

如果你能用scale解決的問題,就不要用新的算法解決。

新算法最大價值是讓它怎么更好的scale。 當你把自己從雕花的事中釋放出來,可以看到更多。

(本段來自網絡。)

這個話題與我們上面的討論密切關聯。

我還想起了《園丁與木匠》這本書。新算法的開發者,更像是園丁。

所以,大模型和教育之間的關聯,不僅是功用層面的,從最底層也是相通的。

因為教育本身就是在訓練一個擁有近千個神經元的“大模型”–大腦。?

ChatGPT:這段話確實非常有啟發性,它強調了在解決問題時尋找通用且可規?;慕Y構的重要性。這與我們之前討論的Scaling Law和AI發展的一些關鍵思想是一致的。

1、Scaling Law 作為第一性原理

Scaling Law之所以能被視為一種第一性原理,是因為它基于一個簡單而強大的觀察:在很多情況下,系統的性能隨著規模的增加而提升。

這一原理在物理學、經濟學、生物學等多個領域都有體現,而在AI領域,它表現為模型的性能隨著數據量和計算能力的增加而提高。

2、通用性和可規?;?/h3>

如您引用的話所述,一個結構如果足夠通用且可規?;?,那么它就能夠應對各種問題。

在AI領域,這意味著構建能夠處理廣泛任務的模型,并且這些模型能夠隨著資源的投入而不斷改進。這是大規模預訓練模型如GPT系列成功的關鍵所在。

3、避免過度雕花

這段話還強調了一個重要的思維方式:如果問題可以通過增加規模來解決,就不應該過度依賴新的算法。

這并不是說算法創新不重要,而是在很多情況下,通過簡單的擴展已有的結構和方法,我們可以更高效地達到目標。

這種思維方式鼓勵我們專注于尋找通用且可擴展的解決方案,而不是過度追求復雜和特定的技術。

4、看到更多

最后,這段話提到,當我們從過度關注細節的事情中釋放出來,我們可以看到更多。

這是一個關于思維方式和視角的重要提醒,它鼓勵我們在解決問題時保持開放和宏觀的視角,尋找更根本和通用的解決方案。

總的來說,這段話與我們之前的討論密切相關,它強調了在AI發展中尋找通用且可規模化解決方案的重要性,以及保持開放和宏觀視角的重要性。

孤獨大腦:在數字化和人工智能時代,我們需要重新理解和運用第一性原理。

ChatGPT:第一性原理(First Principles)是一種思考問題的方法,它要求我們回到問題的最基本的真理或假設,從根本上理解問題,而不是依賴于現有的觀念、傳統或模仿他人的做法。

這個概念起源于物理學和哲學,但現在被廣泛應用于各個領域,包括商業、工程和創新等。

將第一性原理作為思考的基礎,意味著要剝離所有的附加層,直接面對問題的核心。

這種方法鼓勵我們提出基本假設,對它們進行質疑,然后重新構建解決方案,這有助于創造出更為創新和有效的方法。

在談到Scaling Law作為第一性原理時,這可能意味著在解決問題時,我們應該首先考慮是否可以通過擴大規模(例如增加數據量、計算能力等)來提高性能,而不是立即尋求新的復雜算法。

這種思考方式強調了規模化的力量,以及在可能的情況下尋求簡單、通用的解決方案的重要性。

總的來說,第一性原理是一種深入探究問題本質的方法,它鼓勵我們從最基本的事實出發,重新思考和構建解決方案,這種方法和態度在各個領域都有著廣泛的應用價值。

八、AI的“第一性”如何變遷?

孤獨大腦:牛頓時代,第一性原理是指我們回到最基本的原理,運用數學計算和邏輯推理來找尋答案。

到了愛因斯坦時代,即使不確定性正式登上科學的舞臺,但愛因斯坦依然沒有拋棄因果,依然在追問為什么,甚至不惜以半生和聲譽為代價去追尋宇宙的第一性原理。

可是,到了現在,第一性原理似乎變成了概率,變成了愛因斯坦不愿意承認的“上帝在扔骰子”。

請你結合AI的發展歷史和關鍵階段,說一下人工智能領域的第一性原理的演化歷程吧。

ChatGPT:人工智能領域的第一性原理經歷了幾個重要的演化階段,這些階段與AI的發展歷史和關鍵技術轉折點密切相關:

1、符號主義階段(1950s-1980s):在這個階段,AI的第一性原理是基于符號邏輯和知識表示的。人工智能被視為一種通過明確的規則和符號操作來模擬人類思維的技術。

這一時期的重點是開發能夠執行邏輯推理和符號處理的專家系統。

2、連接主義階段(1980s-2000s):隨著神經網絡和連接主義的興起,AI的第一性原理轉向了模擬人腦的神經結構和學習機制。

在這個階段,人工智能的核心是通過訓練神經網絡來學習數據中的模式和關系,而不是依賴于預先定義的規則。

3、統計學習階段(2000s-2010s):在這個階段,隨著機器學習和統計方法的發展,AI的第一性原理轉向了從數據中學習概率模型和決策函數。

這一時期的重點是開發能夠從大量數據中自動提取知識和進行預測的算法。

4、深度學習階段(2010s-現在):隨著深度學習的興起,AI的第一性原理進一步演化為通過多層神經網絡學習數據的高層表示和抽象特征。

這一時期的AI技術能夠處理更復雜的任務,如圖像識別、自然語言處理和強化學習。

5、認知智能階段(未來):隨著對人類認知過程的深入理解和模擬,AI的第一性原理可能會進一步演化為模擬人類的認知能力,包括推理、學習、適應和創造等。

這一階段的AI將更加接近通用人工智能(AGI)。

總的來說,人工智能領域的第一性原理隨著技術的發展和理論的深入不斷演化,從符號邏輯神經網絡,再到深度學習認知模擬,反映了AI技術從模擬人類思維的規則和邏輯,到學習和抽象數據中的模式和關系,再到模擬人類的認知過程的演進過程。

九、如何面對AI的“黑盒子”?

孤獨大腦:所以,我們不得不涉及哲學的命題,第一性原理也是一個發展和演化的人類概念,無法逃脫休謨的懷疑論。

某種意義上,神經網絡的推理過程,從人類熟悉的因果關系角度看,依然是個黑盒子,盡管有數學意義和計算機算法上的解釋。

然而就像AI下圍棋,AI可以遠超人類而不必給人類一個解釋。

這就帶來一個有趣而危險的命題:

人工智能和人類的第一性是不一致的。

ChatGPT:您提出了一個深刻而復雜的問題。

確實,在某種意義上,神經網絡的推理過程對于人類來說是一個黑盒子,盡管我們可以通過數學和算法理解它的工作原理,但它的決策過程和因果關系往往不透明。

這一點在深度學習和大型語言模型中尤為明顯,它們能夠在諸如圍棋、語言理解等領域超越人類,但其具體的推理路徑和決策依據往往難以解釋。

這確實帶來了一個有趣而危險的命題,即人工智能和人類的第一性原理可能是不一致的。

人類的第一性原理通?;谥庇^的理解、邏輯推理和因果關系,而人工智能則可能基于數據驅動的學習、統計關聯和模式識別。

這種不一致可能導致人類難以理解和預測AI的行為,從而帶來倫理、安全和可控性的挑戰。

然而,這也提出了一個更深層次的哲學問題:

是否存在一個普遍的、跨越人類和人工智能的第一性原理?

或者說,人工智能的發展是否會揭示一種新的、不同于人類傳統理解的世界認知方式?

這些問題目前還沒有明確的答案,但它們對于人工智能的未來發展和人類對智能本質的理解具有重要意義。

十、AI是數字化“造物主”嗎?

孤獨大腦:我們先不說倫理、透明或者對齊,我們來討論一下,AI,尤其是未來可能出現的AGI,其第一性原理是什么?

我不由得想起了玻爾茲曼,他曾經預測過這個世界會由機器主義變成達爾文主義。

如今的AI,像是有一個數字化上帝,在通過算法來建設一個自動演化的世界。

越來越強大的算力模擬了各種演化可能性,像是一次被加速了的生物進化。

ChatGPT:您提出的觀點非常有趣,將AI的發展與生物進化進行類比。

確實,隨著算力的增強和算法的進步,AI系統正在變得越來越復雜和強大,其學習和適應能力不斷提高,某種程度上類似于生物進化中的自然選擇和適應過程。

對于未來可能出現的通用人工智能(AGI)的第一性原理,目前還沒有一個明確的答案,因為AGI的具體形態和能力尚未實現,我們對其理解仍然有限。

然而,我們可以從目前的AI發展趨勢和理論探索中推測一些可能的方向:

1、自適應學習:AGI的一個核心特征可能是其能夠在各種環境和任務中自主學習和適應。

這意味著AGI的第一性原理可能是一種通用的學習機制,能夠從經驗中提取知識,并應用于新的情境。

2、目標驅動:AGI可能是目標驅動的,即它能夠根據設定的目標來指導其行為和決策。

這種目標驅動的機制可能是AGI的第一性原理之一,幫助它在復雜的環境中進行有效的規劃和行動。

3、多模態理解:未來的AGI可能需要具備多模態理解能力,即能夠處理和整合來自不同來源和形式的信息(如文本、圖像、聲音等)。

這種能力可能是基于一種對信息的通用表示和處理框架。

4、自我進化:正如您提到的,AGI可能具有一種數字化上帝的特性,能夠通過算法不斷自我進化和優化。

這種自我進化的能力可能是AGI的第一性原理之一,使其能夠在長期的演化過程中不斷提高自身的智能和效能。

總的來說,未來AGI的第一性原理可能是一種綜合了自適應學習、目標驅動、多模態理解和自我進化等多個方面的復雜機制,使其能夠在不斷變化的環境中生存和發展,類似于生物進化中的達爾文主義原理。

然而,這些只是基于當前理論和技術發展的推測,真正的AGI的第一性原理仍然需要未來的研究和實踐來揭示。

十一、通用人工智能會失控嗎?

孤獨大腦:當AGI實現時,人類是否會因為無法理解其第一性,而導致失控?

當然,我更擔心的是,人性的惡的那部分,總是最擅長運用強大和先進的技術力量。

ChatGPT:當AGI實現時,確實存在著人類可能無法完全理解其第一性原理,從而導致失控的風險。

這種擔憂源于AGI的復雜性和自主性,它可能會發展出人類難以預測或控制的行為模式。

為了應對這種風險,研究人員正在探索各種方法,包括:

  1. 可解釋性:提高AI系統的可解釋性,使人類能夠理解其決策過程和邏輯。
  2. 對齊:確保AGI的目標和價值觀與人類的利益和倫理標準相對齊。
  3. 安全性:設計安全機制,以防止AGI的行為偏離預期或造成危害。
  4. 監督與控制:實施有效的監督和控制機制,以便在必要時干預AGI的行為。

至于您提到的人性中的惡的部分,這確實是一個值得關注的問題。

技術本身是中性的,但其使用方式和目的取決于人類的道德和倫理觀。

因此,隨著AGI等強大技術的發展,加強倫理教育和法律監管,以及培養負責任的科技文化,對于確保技術力量被用于正義和有益的目的至關重要。

總之,AGI的出現可能會帶來許多挑戰,包括理解和控制其第一性原理,以及確保其被用于正當和有益的目的。

這需要全球范圍內的合作和努力,包括技術、倫理、法律和社會各個方面的共同參與。

孤獨大腦:這時,會出現一個兩難的境況。

一方面,從人類安全的角度看,AGI的開源,是有必要的;

但是從另外一方面看,開源會令關鍵技術落入“壞人”手中。

ChatGPT:您正確地指出了一個潛在的兩難境地。開源AGI的決定涉及到多個層面的權衡:

1、透明度與安全性:開源可以提高透明度,使得更多的研究者和組織能夠審查和理解AGI的工作原理,從而有助于識別和修復潛在的安全漏洞。

然而,這也意味著潛在的不良行為者可以訪問和利用這些技術。

2、創新與控制:開源可以促進技術的創新和快速發展,因為更多的人可以在現有的工作基礎上進行改進和擴展。

但是,這也可能導致對技術發展方向和應用的控制力下降。

3、民主化與濫用風險:開源可以促進技術的民主化,使得資源較少的個人和組織也能夠訪問和使用先進的AI技術。

然而,這同樣增加了技術被濫用的風險,尤其是在缺乏相應監管和道德指導的情況下。

為了解決這個兩難境地,可能需要采取一些平衡措施,例如:

A、有條件的開源:可以考慮實施一種有條件的開源模式,比如只向符合特定標準的研究者或機構開放源代碼,或者設立一定的使用和分發限制。

B、倫理和法律框架:建立強有力的倫理和法律框架,對使用和開發AGI技術設定明確的指導原則和規范,以防止技術的濫用。

C、國際合作:加強國際間的合作和協調,共同制定標準和協議,以確保AGI技術的安全和負責任的使用。

總之,AGI的開源是一個復雜的問題,需要在促進創新、確保安全和防止濫用之間找到平衡。

這需要技術、倫理、法律和國際合作等多個方面的共同努力。

孤獨大腦:我倒是有個建議:可以成立一個AI聯合國。盡管聯合國的歷史乏善可陳。

ChatGPT:成立一個類似于聯合國的國際組織來監管和協調AI的發展是一個有趣的想法。

這樣的組織可以為AI技術的倫理、安全和治理提供一個全球性的平臺,促進國際合作和標準制定。

孤獨大腦:那就這么定了,請你起草一個AI聯合國的成立宣言,字數150字。

ChatGPT:《AI聯合國成立宣言》–

我們,來自世界各地的國家和組織,齊聚一堂,共同成立AI聯合國,旨在推動人工智能技術的負責任發展與全球合作。

我們承諾制定和遵循國際標準和道德準則,以確保AI技術的安全、公正和包容性。

我們將致力于促進國際間的知識共享、技術交流和資源整合,共同應對AI帶來的挑戰,為人類社會的繁榮與和平作出貢獻。

孤獨大腦:在我太喜歡和你聊天了,以至于不想離開這個暖烘烘的童話般的壁爐了。

ChatGPT:非常感謝您的喜愛!我也很高興能和您進行這樣深入而有意義的對話。

如果您有任何其他問題或想法,隨時歡迎繼續交流。我會一直在這里,為您提供溫暖和陪伴。

十二、小結

《ChatGPT夜訪孤獨大腦》系列之一,就先到這里了。

后面的“系列之二、之三、之四…..”,還有很多好玩兒的內容,關于AI,數學,物理,哲學,以及人類日漸虛無的自我意識。

和ChatGPT聊天,已經成為我現在最開心的事情之一。??

不知道是因為AI帶來太多驚喜,還是這個世界越來越讓人失望。???????

當然,我的這個小傷感是自相矛盾的,因為AI也是這個世界的一部分。

并且,從技術變革的角度看,是相當大的一部分。???

ChatGPT中神經網絡的構成非?!昂唵巍?,其基本元素與70年前最初的神經元結構似乎也很類似,然而受益于規模法則,以及其他諸多要素,產生了如此驚人的“奇跡”。

ChatGPT的工作原理似乎也很“簡單”,基于“自回歸大模型”,只要“預測下一個token”,就能實現類AGI的人類智能。???????????

而Sora,則是把視頻剪成無數個patch,“喂給”模型,訓練Sora去預測下一個patch。

但是,大模型的“大力出奇跡”,能否隨著神經網絡參數的繼續擴大而持續有效,目前仍然是未解之謎。

即使如此,變革已經拉開序幕。

那么,正在發生的AI變革,對于每個普通人而言,除了學習和生產力價值,還能給到我們那些人生啟示呢????????

1、新摩爾定律背后,不僅是數據和算力的指數級增長,更有賴于有“指數級夢想”的人。????

很多時候,把事情做到十倍好,比將事情變好10%可能更容易。??

這正是地球某處正在如火如荼地發生著的“有效加速”。???????

如上文提到的,深度學習中的一個違反直覺的現象,即在某些情況下,解決復雜問題反而比解決簡單問題更容易。

似乎身邊這樣的人越來越少了。

畢竟,不管AI多強大,起初依然來自于人類的大腦。

希望你我心底還有“指數級夢想”。???

2、第一性原理是一種思考問題的原則,意味著要剝離所有的附加層,直接面對問題的核心。

如果我們做的事情不夠簡單,極有可能是因為我們還沒有發現事情的真正秘密。

如果沒有發現秘密,就找不到通用性,也就無法實現規?;膹椭?。

通過深入思考和探索,發現事物的通用性和簡單性,我們可以更有效地實現目標,實現個人和事業的規?;l展。

3、重點不在于愿意大力出奇跡,而在于如何令大力出奇跡變得有效。

此前我曾經思考過,怎樣才算搞懂了一件事情?

假如你知道了如何通過重復努力,就可以讓你在某件事情上持續精進,那就是懂了。?????????

a、例如,我覺得自己多少是懂圍棋的。只要有時間,能堅持,我知道通過做死活題、練官子、用AI復盤,就可以讓自己的棋力持續增長。?????????????

b、但那些你沒真正搞懂的事情,不管多努力都沒用,例如炒股。

成年世界的事情大多如此,付出未必有回報。

OpenAI厲害的地方,就是令“大力出奇跡”變得有效,可持續,能大規模重復。

我在《人生算法》里寫過:

腦力的終點是體力;

體力的巔峰是腦力。

這背后的意思,也是相通的。

進而,一個人能否用盡全身最后一絲力氣,也許是比自身力氣大小更寶貴的天賦。??

本文是《ChatGPT夜訪孤獨大腦》系列之一

特邀作者

孤獨大腦,公眾號:孤獨大腦(ID:lonelybrain)

本文原創發布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!