亚洲精品无码久久一线,欧美日韩国产综合草草,精品国产一区二区av片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

深度｜?Andrej Karpathy 最新思考：小模型有巨大潛力，大模型用來(lái)處理多任務(wù)，AI 模型未來(lái)聚焦于處理重要信息的能力

有新Newin

2024-09-09

0 評(píng)論 2257 瀏覽 0 收藏

50 分鐘

在人工智能領(lǐng)域，Andrej Karpathy 的最新思考為我們提供了關(guān)于AI模型未來(lái)發(fā)展的深刻見(jiàn)解。他認(rèn)為，雖然當(dāng)前的大型模型非常強(qiáng)大，但未來(lái)的小型模型也具有巨大的潛力。通過(guò)模型蒸餾技術(shù)，我們可以將大型模型的能力壓縮到更小的模型中，實(shí)現(xiàn)更高效的認(rèn)知處理。

這是前特斯拉 AI 總監(jiān)& OpenAI 創(chuàng)始成員 Andrej Karpathy 近日與硅谷知名投資人 Sara Guo 和 Elad Gil 的最新對(duì)話。

Karpathy 強(qiáng)調(diào)，Transformer 不僅是另一個(gè)神經(jīng)網(wǎng)絡(luò)，而是一個(gè)極具通用性的“差分計(jì)算機(jī)”。它通過(guò)前向和后向傳播進(jìn)行自我調(diào)整，能夠高效處理復(fù)雜任務(wù)。Transformer 的擴(kuò)展性是 AI 領(lǐng)域的重大突破，使得大規(guī)模模型成為可能。

雖然當(dāng)前的大模型非常強(qiáng)大，但 Karpathy 認(rèn)為未來(lái)的小模型也會(huì)有巨大的潛力。通過(guò)蒸餾技術(shù)，能夠?qū)⒋竽Ｐ偷哪芰嚎s到更小的模型中，實(shí)現(xiàn)更高效的認(rèn)知處理，甚至 1～10 億參數(shù)的小模型就能完成復(fù)雜任務(wù)。

隨著互聯(lián)網(wǎng)數(shù)據(jù)接近枯竭，未來(lái) AI 發(fā)展將依賴于合成數(shù)據(jù)的生成。Karpathy 提到，在訓(xùn)練大模型時(shí)，保持?jǐn)?shù)據(jù)集的多樣性和豐富性至關(guān)重要，合成數(shù)據(jù)在生成高質(zhì)量訓(xùn)練數(shù)據(jù)時(shí)將扮演關(guān)鍵角色。

此外，他認(rèn)為大模型不僅適用于單一任務(wù)，而是能夠并行處理多個(gè)任務(wù)。這種“集群化”或“分層化”模型結(jié)構(gòu)類似于一個(gè)生態(tài)系統(tǒng)或公司，不同的模型負(fù)責(zé)不同的領(lǐng)域，相互協(xié)作以解決復(fù)雜的問(wèn)題。

模型未來(lái)將聚焦于“認(rèn)知核心”，即處理重要信息的能力，而非記憶海量不相關(guān)的數(shù)據(jù)。通過(guò)專注于解決問(wèn)題和決策的核心部分，未來(lái)的AI模型會(huì)更加高效和專注。

以下為這次對(duì)話的全部?jī)?nèi)容，enjoy～

Sara Guo:

你曾負(fù)責(zé) Tesla 的自動(dòng)駕駛，現(xiàn)在我們實(shí)際上已經(jīng)有了完全自動(dòng)駕駛的乘用車在路上行駛。你如何解讀我們?cè)谀芰Πl(fā)展上的現(xiàn)狀？我們多快能看到能力的提升或自動(dòng)駕駛車輛的普及？

Andrej Karpathy:

是的，我在自動(dòng)駕駛領(lǐng)域大概工作了五年。我覺(jué)得這是一個(gè)非常有趣的領(lǐng)域?，F(xiàn)在這個(gè)領(lǐng)域的發(fā)展情況是，我常常會(huì)把自動(dòng)駕駛和其他領(lǐng)域進(jìn)行類比，也許是因?yàn)槲冶容^熟悉它。

但我覺(jué)得在自動(dòng)駕駛領(lǐng)域，我們已經(jīng)達(dá)到了一定的瓶頸。現(xiàn)在有一些系統(tǒng)，你作為付費(fèi)客戶可以在某些地方使用，比如在舊金山 Waymo 非常常見(jiàn)。你可能已經(jīng)乘坐過(guò) Waymo 了。

我乘坐了很多次，它真的很棒。我可以開(kāi)到很多地方，而且你為它付費(fèi)，它是一個(gè)商品。讓我覺(jué)得有趣的是，我第一次體驗(yàn) Waymo 是在大約十年前，也就是 2014年。

當(dāng)時(shí)我的一個(gè)朋友在那工作，他帶我體驗(yàn)了一下。當(dāng)時(shí)車帶我繞著街區(qū)行駛，表現(xiàn)得非常完美。但從那次演示到如今能付費(fèi)使用的產(chǎn)品，花了整整十年時(shí)間，才達(dá)到如今的城市規(guī)模，并且還在擴(kuò)展中。

Sara Guo:

你認(rèn)為這十年中的進(jìn)展主要是由技術(shù)推動(dòng)的嗎？

Andrej Karpathy:

技術(shù)并不是在一次 30 分鐘的演示中就能展現(xiàn)出來(lái)的。你沒(méi)有遇到他們?cè)谶^(guò)去十年中需要處理的所有問(wèn)題。所以演示和產(chǎn)品之間有很大的差距。其中很多是由于監(jiān)管等因素。不過(guò)我確實(shí)覺(jué)得我們?cè)谧詣?dòng)駕駛領(lǐng)域已經(jīng)達(dá)到了一個(gè)瓶頸，至少在某種程度上。而真正有趣的是，這一技術(shù)還沒(méi)有全球化。

你可以進(jìn)行一次演示，但世界還沒(méi)有真正發(fā)生改變，這將需要很長(zhǎng)時(shí)間。從一次演示到全球化之間有很大的鴻溝。

這與 AGI 也有相似之處，最終我們也會(huì)看到類似的發(fā)展軌跡。在自動(dòng)駕駛領(lǐng)域，有些人認(rèn)為 Waymo 領(lǐng)先于 Tesla ，但我個(gè)人認(rèn)為 Tesla 更具優(yōu)勢(shì)，盡管從表面上看并不像這樣。

我對(duì) Tesla 的自動(dòng)駕駛項(xiàng)目仍然充滿信心。Tesla 面臨的是軟件問(wèn)題，而 Waymo 面臨的是硬件問(wèn)題。我覺(jué)得軟件問(wèn)題相對(duì)更容易解決。

Tesla 擁有大量已部署在全球的汽車，當(dāng)它們能夠真正部署并有效工作時(shí)，那將是非常了不起的。我昨天剛剛測(cè)試了最新的版本，確實(shí)有了很大的改進(jìn)。最近我一直在使用它，效果真的不錯(cuò)。

昨天它在某些情況下表現(xiàn)得非常出色，所以我對(duì)團(tuán)隊(duì)的工作印象深刻。我仍然認(rèn)為 Tesla 主要面臨軟件問(wèn)題，而 Waymo 主要面臨硬件問(wèn)題。

雖然看起來(lái) Waymo 現(xiàn)在似乎領(lǐng)先，但我相信在十年后，當(dāng)我們看實(shí)際規(guī)?；渴鸷褪杖雭?lái)源時(shí)， Tesla 會(huì)更具優(yōu)勢(shì)。

Elad Gil:

你認(rèn)為我們離解決軟件問(wèn)題還有多遠(yuǎn)，能達(dá)到與你提到的等效水平？顯然， Waymo 的車裝有許多昂貴的激光雷達(dá)和其他傳感器，這些傳感器幫助其軟件系統(tǒng)運(yùn)作。

而 Tesla 的做法是只使用攝像頭，從而擺脫了大量的成本和復(fù)雜性，可以應(yīng)用于更多種類的汽車。你認(rèn)為這種轉(zhuǎn)變會(huì)在什么時(shí)候發(fā)生？可能是在未來(lái)幾年內(nèi)？

Andrej Karpathy:

我希望會(huì)是這樣的。但實(shí)際上有趣的是，我不確定大家是否意識(shí)到， Tesla 實(shí)際上也使用了很多昂貴的傳感器，只不過(guò)是在訓(xùn)練階段使用。

許多車使用激光雷達(dá)等傳感器來(lái)進(jìn)行不具有規(guī)模化的操作，它們有額外的傳感器并進(jìn)行地圖構(gòu)建等工作。

但這些傳感器的作用主要是在訓(xùn)練階段，然后將其精簡(jiǎn)為測(cè)試階段的包，在車上只需依靠視覺(jué)。這是一種對(duì)昂貴傳感器的“套利”，這是一種非常聰明的策略，可能還沒(méi)有被充分認(rèn)可。

這個(gè)策略會(huì)奏效，因?yàn)橄袼刂邪吮匾男畔?，而神?jīng)網(wǎng)絡(luò)能夠處理這些信息。在訓(xùn)練階段，傳感器的確非常有用，但在測(cè)試階段就沒(méi)有那么必要了。

Elad Gil:

看來(lái)我們已經(jīng)從很多邊界情況的設(shè)計(jì)轉(zhuǎn)向了端到端的深度學(xué)習(xí)。這也是最近發(fā)生的一個(gè)轉(zhuǎn)變。你愿意多談?wù)勥@個(gè)變化嗎？

Andrej Karpathy:

我想說(shuō)， Tesla 的情況是，神經(jīng)網(wǎng)絡(luò)正在逐漸取代整個(gè)系統(tǒng)堆棧。當(dāng)我加入時(shí)，系統(tǒng)中有大量的 C++ 代碼，但現(xiàn)在在車上運(yùn)行的測(cè)試包中 C++ 代碼少得多了。

盡管在后端仍然有很多內(nèi)容，但神經(jīng)網(wǎng)絡(luò)基本上在“吃掉”整個(gè)系統(tǒng)。最初它只是在圖像層面進(jìn)行檢測(cè)，然后是多個(gè)圖像，給予預(yù)測(cè)，接著是多張圖像隨時(shí)間積累的預(yù)測(cè)，C++ 代碼逐漸減少，最終只輸出轉(zhuǎn)向命令。

所以 Tesla 正在一步步替代整個(gè)堆棧。我的理解是，當(dāng)前 Waymo 并沒(méi)有采用這種方法，盡管他們嘗試了，但并未堅(jiān)持下去。

這是我現(xiàn)在的理解，但我不確定，因?yàn)樗麄儾⒉还_(kāi)討論。但我堅(jiān)信這種方法是可行的。

如果要從頭思考這個(gè)問(wèn)題，最終 10 年后的 Tesla 自動(dòng)駕駛系統(tǒng)可能就是一個(gè)神經(jīng)網(wǎng)絡(luò)：視頻流輸入神經(jīng)網(wǎng)絡(luò)，輸出駕駛指令。這需要逐步構(gòu)建，分階段實(shí)現(xiàn)，包括所有中間的預(yù)測(cè)和我們已經(jīng)做的其他事情。

我并不認(rèn)為中間的這些預(yù)測(cè)誤導(dǎo)了開(kāi)發(fā)進(jìn)程，相反，它們是有很多實(shí)際意義的。因?yàn)榧兇獾亩说蕉笋{駛系統(tǒng)（模仿人類）提供的監(jiān)督信號(hào)非常有限，而訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)需要大量的監(jiān)督信號(hào)。

因此，這些中間的表示幫助開(kāi)發(fā)各種特征和檢測(cè)器，使得最終實(shí)現(xiàn)端到端解決方案變得更加容易。我懷疑，即使我不再是團(tuán)隊(duì)中的一員，但有大量的預(yù)訓(xùn)練在進(jìn)行，以便之后可以對(duì)端到端模型進(jìn)行微調(diào)。

因此，逐步實(shí)現(xiàn)這個(gè)過(guò)程是必要的，而這也是 Tesla 所采用的正確方法?？雌饋?lái)它確實(shí)正在起作用，我對(duì)未來(lái)非常期待。

Sara Guo:

如果你一開(kāi)始就沒(méi)有數(shù)據(jù)，那這種方法確實(shí)很有意義。你離開(kāi) Tesla 之前還參與了 Tesla 的人形機(jī)器人項(xiàng)目，我有很多問(wèn)題想問(wèn)你，首先是，哪些技術(shù)可以在這里轉(zhuǎn)移？

Andrej Karpathy:

基本上所有的技術(shù)都可以轉(zhuǎn)移，我覺(jué)得人們沒(méi)有意識(shí)到這一點(diǎn)。

Sara Guo:

這是一個(gè)很大的斷言，我覺(jué)得這是一個(gè)非常特殊的問(wèn)題。

Andrej Karpathy:

當(dāng)你實(shí)際查看這些技術(shù)時(shí)，你會(huì)發(fā)現(xiàn)它們的確能夠轉(zhuǎn)移。其實(shí)， Tesla 并不是一家汽車公司，我覺(jué)得這是一種誤導(dǎo)。它實(shí)際上是一家規(guī)模化的機(jī)器人公司。

我會(huì)說(shuō)規(guī)模本身也是一個(gè)獨(dú)立的變量。他們并不僅僅是在制造單個(gè)產(chǎn)品，他們是在制造制造產(chǎn)品的機(jī)器，這是一件完全不同的事情。

Tesla 是一家規(guī)?；臋C(jī)器人公司，而從汽車到人形機(jī)器人之間的技術(shù)轉(zhuǎn)移并沒(méi)有那么多工作量。

實(shí)際上，Optimus 的早期版本幾乎以為自己是一輛車，因?yàn)樗鼈兪褂玫氖峭耆嗤挠?jì)算機(jī)和攝像頭。當(dāng)時(shí)我們還在機(jī)器人上運(yùn)行汽車的神經(jīng)網(wǎng)絡(luò)，但機(jī)器人在辦公室里走來(lái)走去，試圖識(shí)別可行駛的空間。

不過(guò)現(xiàn)在這些空間變成了可以行走的空間，它實(shí)際上有一些廣泛的泛化能力。當(dāng)然需要一些微調(diào)，但它的確在“駕駛”，只不過(guò)實(shí)際上是在移動(dòng)環(huán)境中行走。

Sara Guo:

把它理解為一個(gè)機(jī)器人，它能夠進(jìn)行很多技術(shù)轉(zhuǎn)移，但你需要額外解決的問(wèn)題是驅(qū)動(dòng)和動(dòng)作控制，這樣理解合理嗎？

Andrej Karpathy:

是的。還有一個(gè)部分是，很多東西都是可以轉(zhuǎn)移的，比如 Optimus 的啟動(dòng)速度讓我印象深刻。Elon 一宣布我們要做這個(gè)，相關(guān)的人員和工具很快就到位了，CAD 模型、供應(yīng)鏈等所有東西迅速呈現(xiàn)。

我覺(jué)得， Tesla 內(nèi)部在機(jī)器人制造方面有非常強(qiáng)的專業(yè)知識(shí)。所有的工具其實(shí)是一樣的，只不過(guò)從汽車的配置重新調(diào)整了一下，就像《變形金剛》電影中的情節(jié)。

所有組件基本相同，不管是硬件層面的規(guī)模問(wèn)題，還是軟件和控制系統(tǒng)層面的“大腦”，都需要考慮相同的事情。神經(jīng)網(wǎng)絡(luò)和標(biāo)簽團(tuán)隊(duì)的協(xié)調(diào)方式、采取的技術(shù)手段等也有很多相同之處。

有大量的技術(shù)可以轉(zhuǎn)移。那么你認(rèn)為人形機(jī)器人或類似的機(jī)器人最早會(huì)在哪些領(lǐng)域應(yīng)用？很多人會(huì)設(shè)想它們?cè)诩依餅槟阕黾覄?wù)，但那會(huì)是比較晚期的應(yīng)用。

B2C 的起點(diǎn)并不適合，因?yàn)槲覀儾幌Ｍ粋€(gè)機(jī)器人在家里意外傷害到人，比如撞倒奶奶之類的場(chǎng)景。這樣太有法律風(fēng)險(xiǎn)了。

Sara Guo:

這個(gè)例子很恰當(dāng)。

Andrej Karpathy:

是啊，它們可能會(huì)摔倒或發(fā)生一些意外，這些東西還不完美，需要進(jìn)一步改進(jìn)。所以我覺(jué)得最好的客戶是你自己，我想 Tesla 可能會(huì)這樣做。大家應(yīng)該也能看出來(lái)，我對(duì) Tesla 很有信心。

第一步應(yīng)該是自我孵化，比如在工廠里進(jìn)行大量的物料搬運(yùn)等操作，這樣你不需要和第三方簽訂合同，避免了很多法律問(wèn)題。接下來(lái)，會(huì)進(jìn)軍 B2B 。

Tesla 可能會(huì)與大型倉(cāng)庫(kù)合作，進(jìn)行物料搬運(yùn)等操作。合同會(huì)擬定好，圍欄也會(huì)建好，所有這些事都做好后，才會(huì)進(jìn)一步推廣到 B2C 應(yīng)用領(lǐng)域。

我確實(shí)相信我們會(huì)看到面向消費(fèi)者的機(jī)器人，比如類似 Unitree 這樣的產(chǎn)品。我個(gè)人非常期待的一個(gè)應(yīng)用場(chǎng)景是清理街道上的落葉。

我希望能看到 Optimus 機(jī)器人走在街上，撿起每一片落葉，這樣我們就不需要用吹葉機(jī)了。這是一個(gè)很棒的任務(wù)，希望這是其中一個(gè)早期應(yīng)用。甚至像是耙葉這樣的任務(wù)也很適合。

Sara Guo:

耙葉的確也是很不錯(cuò)的工作。

Elad Gil:

而且還很安靜。

Sara Guo:

對(duì)。實(shí)際上，現(xiàn)在已經(jīng)有一些機(jī)器人能夠執(zhí)行這些任務(wù)，只不過(guò)它們不是人形的。我們談到的重點(diǎn)是人形機(jī)器人。

最簡(jiǎn)單的理解方式是，世界是為人類設(shè)計(jì)的，所以你應(yīng)該設(shè)計(jì)一套能夠在人類設(shè)計(jì)的環(huán)境中執(zhí)行越來(lái)越多任務(wù)的硬件。

但另一種觀點(diǎn)認(rèn)為，人類并不是最適合所有任務(wù)的形態(tài)。你可以讓機(jī)器人更強(qiáng)壯、更大、更小等等。那么你如何看待這個(gè)問(wèn)題？

Andrej Karpathy:

我覺(jué)得人們可能低估了任何單一平臺(tái)的固定成本的復(fù)雜性。對(duì)于任何平臺(tái)來(lái)說(shuō)，都有很大的固定成本，因此集中化并讓一個(gè)平臺(tái)完成所有任務(wù)是很有意義的。

我還認(rèn)為人形平臺(tái)的吸引力在于人們可以輕松地進(jìn)行遙控操作，這對(duì)于數(shù)據(jù)收集非常有幫助，因?yàn)槿藗兡軌蚍浅Ｈ菀椎夭僮魉?。我覺(jué)得這一點(diǎn)經(jīng)常被忽視。當(dāng)然，正如你提到的，世界是為人類設(shè)計(jì)的，這一點(diǎn)也很重要。

未來(lái)我們可能會(huì)看到人形平臺(tái)的某些變體，但每個(gè)平臺(tái)的固定成本都是巨大的。而且，另一個(gè)重要的維度是，不同任務(wù)之間的遷移學(xué)習(xí)的巨大好處。

在 AI 中，你希望有一個(gè)神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行多任務(wù)處理，從而獲取所有的智能和能力。這也是為什么語(yǔ)言模型如此有趣，因?yàn)樗鼈冊(cè)趩我坏奈谋绢I(lǐng)域內(nèi)進(jìn)行多任務(wù)處理，各種問(wèn)題之間共享知識(shí)，并被耦合在一個(gè)神經(jīng)網(wǎng)絡(luò)中。

你需要這樣的平臺(tái)，所有的數(shù)據(jù)都可以為其他任務(wù)提供好處。如果你為某個(gè)特定任務(wù)構(gòu)建了專用平臺(tái)，你將無(wú)法從其他任務(wù)之間的知識(shí)遷移中受益。

Sara Guo:

是的，有一種觀點(diǎn)是，像 G1 這種機(jī)器人價(jià)格大概是 3 萬(wàn)美元，但似乎在某個(gè)成本下很難構(gòu)建一個(gè)功能非常強(qiáng)大的人形機(jī)器人。如果你只想要一個(gè)帶輪子的機(jī)械臂去執(zhí)行任務(wù)，可能在初期有更便宜的通用平臺(tái)方案。你覺(jué)得這個(gè)觀點(diǎn)合理嗎？

Andrej Karpathy:

用硬件角度來(lái)看，采用廉價(jià)的通用平臺(tái)是合理的，比如給機(jī)器人裝上輪子而不是腿等。我感覺(jué)這種做法可能讓我們陷入了一個(gè)局部最優(yōu)解。

但構(gòu)建完美的平臺(tái)是一個(gè)長(zhǎng)期的好賭注。此外，我覺(jué)得人形平臺(tái)會(huì)讓人感到熟悉，人們可能更容易理解它的操作方式。

這也是我覺(jué)得人形平臺(tái)在心理上有優(yōu)勢(shì)的原因，除非人們害怕它，反而更喜歡抽象的非人類形態(tài)的機(jī)器人。但我不確定那樣會(huì)不會(huì)像某種怪物在做事情一樣讓人感到可怕。

Elad Gil:

是的，有趣的是，像 Unitree 的狗形態(tài)機(jī)器人似乎更友好、更熟悉。

Andrej Karpathy:

是的，但人們看過(guò)《黑鏡》后，可能會(huì)覺(jué)得狗形機(jī)器人突然變得很嚇人。所以很難判斷，我只是覺(jué)得心理上人們更容易理解人形機(jī)器人在做什么。

Elad Gil:

你認(rèn)為在人形機(jī)器人或其他形式的機(jī)器人領(lǐng)域，要實(shí)現(xiàn)這一未來(lái)還缺少哪些技術(shù)上的里程碑？

Andrej Karpathy:

我不確定我是否有很清晰的看法。我覺(jué)得在人形機(jī)器人的下半身控制方面，可能不需要像上半身那樣通過(guò)模仿學(xué)習(xí)來(lái)獲取數(shù)據(jù)，因?yàn)橄掳肷砀嗍菙[動(dòng)控制。

而對(duì)于上半身，你需要大量的遙控操作、數(shù)據(jù)收集、端到端學(xué)習(xí)等。所以在這個(gè)層面上，機(jī)器人系統(tǒng)會(huì)變得非?；旌?。我也不確定這些系統(tǒng)會(huì)如何交互。

Elad Gil:

我和一些人聊過(guò)，他們通常會(huì)關(guān)注驅(qū)動(dòng)和操作以及數(shù)字操作的挑戰(zhàn)。

Andrej Karpathy:

我預(yù)計(jì)一開(kāi)始會(huì)有很多遙控操作，用于將任務(wù)從地面啟動(dòng)起來(lái)，通過(guò)模仿讓機(jī)器人可以完成 95% 的任務(wù)，然后開(kāi)始逐步減少人類的介入，轉(zhuǎn)向更多的監(jiān)督機(jī)器人工作，而不是直接進(jìn)行操作。

所有這些都會(huì)逐步發(fā)生。我不認(rèn)為有某個(gè)特定的技術(shù)瓶頸阻礙我們前進(jìn)。更多的是基礎(chǔ)工作。大多數(shù)工具現(xiàn)在已經(jīng)具備了，比如 Transformer 是一個(gè)非常出色的工具，你可以用它來(lái)處理各種任務(wù)。

我們只需要獲取數(shù)據(jù)，將其放入正確的形式，進(jìn)行訓(xùn)練、實(shí)驗(yàn)、部署并迭代。沒(méi)有某個(gè)單一的技術(shù)問(wèn)題在阻礙我們。

Sara Guo:

你覺(jué)得當(dāng)前的“大模型”研究狀態(tài)如何？

Andrej Karpathy:

關(guān)于“大模型”研究的現(xiàn)狀，我們處于一個(gè)非常好的階段。我不確定是否已經(jīng)有人完全認(rèn)識(shí)到，Transformer 比其他神經(jīng)網(wǎng)絡(luò)要強(qiáng)大得多。它不僅僅是另一個(gè)神經(jīng)網(wǎng)絡(luò)，而是一個(gè)非常通用的、非常強(qiáng)大的神經(jīng)網(wǎng)絡(luò)。

例如，當(dāng)人們談?wù)撋窠?jīng)網(wǎng)絡(luò)中的擴(kuò)展規(guī)律時(shí)，這種規(guī)律在很大程度上是 Transformer 的特性。之前，使用 LSTM 堆疊等模型時(shí)，你并不能獲得良好的擴(kuò)展規(guī)律，這些模型訓(xùn)練效果不好，也無(wú)法很好地工作。

而 Transformer 是第一個(gè)真正能夠隨數(shù)據(jù)擴(kuò)展的模型，你能獲得清晰的擴(kuò)展規(guī)律，一切都很合理。

所以我把它看作是一臺(tái)“差分計(jì)算機(jī)”，你可以給它輸入和輸出，然后通過(guò)反向傳播訓(xùn)練它，它會(huì)自行排列形成能夠執(zhí)行任務(wù)的系統(tǒng)。

我們?cè)谒惴I(lǐng)域發(fā)現(xiàn)了一個(gè)非常神奇的東西。其背后有幾個(gè)關(guān)鍵的創(chuàng)新，比如殘差連接、層歸一化、注意力模塊，以及沒(méi)有使用一些會(huì)導(dǎo)致梯度消失的激活函數(shù)（如雙曲正切等）。

這些創(chuàng)新共同組成了 Transformer，而谷歌的那篇論文展示了它如何真正開(kāi)始工作。它的出現(xiàn)解鎖了很多可能性。

Sara Guo:

你覺(jué)得這種解鎖的極限還遠(yuǎn)未到嗎？畢竟現(xiàn)在也有人討論數(shù)據(jù)壁壘和下一代規(guī)模的成本問(wèn)題。你怎么看待這些問(wèn)題？

Andrej Karpathy:

現(xiàn)在神經(jīng)網(wǎng)絡(luò)的架構(gòu)不再是根本性的瓶頸了，Transformer 之前的確是瓶頸，但現(xiàn)在已經(jīng)不是了。如今的瓶頸在于損失函數(shù)和數(shù)據(jù)集，尤其是數(shù)據(jù)集。

所以現(xiàn)在大多數(shù)活動(dòng)都集中在如何改進(jìn)數(shù)據(jù)集和損失函數(shù)上。這也是為什么很多公司在應(yīng)用這些技術(shù)時(shí)并不關(guān)注 Transformer 的架構(gòu)。

Transformer 在過(guò)去五年幾乎沒(méi)有什么變化。最重要的變化可能是我們加入了“rope positional”這種位置編碼，但除此之外，架構(gòu)基本沒(méi)變。因此，大部分的創(chuàng)新都集中在數(shù)據(jù)集和損失函數(shù)上。

Sara Guo:

但有人認(rèn)為，當(dāng)時(shí)我們獲取的是互聯(lián)網(wǎng)上的數(shù)據(jù)，而現(xiàn)在這些數(shù)據(jù)已經(jīng)枯竭了。你怎么看這個(gè)問(wèn)題？

Andrej Karpathy:

是的，互聯(lián)網(wǎng)上的數(shù)據(jù)確實(shí)快用完了，現(xiàn)在很多研究都集中在生成合成數(shù)據(jù)或更昂貴的數(shù)據(jù)收集上。

實(shí)際上，互聯(lián)網(wǎng)上的數(shù)據(jù)雖然能幫你走得很遠(yuǎn)，但并不是 Transformer 最理想的數(shù)據(jù)?；ヂ?lián)網(wǎng)上的數(shù)據(jù)大多是網(wǎng)頁(yè)，而我們真正想要的是你大腦中解決問(wèn)題的內(nèi)在思維軌跡。

Sara Guo:

對(duì)，確實(shí)是這樣，大腦中的思維軌跡。

Andrej Karpathy:

如果我們有十億個(gè)這種思維軌跡的數(shù)據(jù)， AGI 可能就離我們不遠(yuǎn)了。但現(xiàn)實(shí)是我們沒(méi)有這些數(shù)據(jù)。所以現(xiàn)在的很多研究都集中在將數(shù)據(jù)集重新組織成這種內(nèi)在思維軌跡的格式上。同時(shí)，還有大量的合成數(shù)據(jù)生成工作在幫助我們向這個(gè)方向邁進(jìn)。更有趣的是，現(xiàn)有的模型也在幫助我們構(gòu)建下一代模型。

Elad Gil:

是的，就像一段逐步上升的臺(tái)階。你覺(jué)得合成數(shù)據(jù)能幫助我們走多遠(yuǎn)？畢竟，每個(gè)模型都會(huì)幫助你更好地訓(xùn)練下一個(gè)模型，尤其是在數(shù)據(jù)標(biāo)注方面，部分可能會(huì)依賴合成數(shù)據(jù)。你覺(jué)得合成數(shù)據(jù)有多重要？

Andrej Karpathy:

合成數(shù)據(jù)是我們唯一的前進(jìn)途徑，我們必須讓它發(fā)揮作用。不過(guò)在使用合成數(shù)據(jù)時(shí)需要非常小心，因?yàn)檫@些模型會(huì)默默地“坍縮”。比如，當(dāng)你去問(wèn) ChatGPT 講個(gè)笑話時(shí)，它可能只會(huì)講幾個(gè)重復(fù)的笑話。

這是因?yàn)槟Ｐ偷姆植继s了，而這一點(diǎn)是很難察覺(jué)的。當(dāng)你看單個(gè)輸出時(shí)，你可能沒(méi)注意到這個(gè)問(wèn)題，但從整體分布來(lái)看，模型喪失了多樣性和豐富性。

因此，在生成合成數(shù)據(jù)時(shí)，你需要確保保持?jǐn)?shù)據(jù)集的熵，也就是多樣性和豐富性。我們有很多技術(shù)可以實(shí)現(xiàn)這一點(diǎn)。比如，有人發(fā)布了一個(gè)“persona dataset”，它包含了十億個(gè)人物的背景信息，模擬了各種人類的個(gè)性和背景。

這個(gè)數(shù)據(jù)集包括“我是老師”或“我是藝術(shù)家，我住在某地，我做什么”等背景描述。合成數(shù)據(jù)生成不僅僅是“完成這個(gè)任務(wù)并以這種方式進(jìn)行”，你還可以加入個(gè)性化的描述信息，這樣可以強(qiáng)迫模型探索更多的空間，保持?jǐn)?shù)據(jù)集的熵。

所以，在這方面需要非常小心，確保數(shù)據(jù)集的多樣性被保留，這也是當(dāng)前最大的挑戰(zhàn)之一。

Sara Guo:

你覺(jué)得我們從這些研究中學(xué)到了關(guān)于人類認(rèn)知的什么？

Andrej Karpathy:

我不確定我們是否真的學(xué)到了很多。

Sara Guo:

也許我們正在探索推理軌跡的形態(tài)，這其實(shí)對(duì)理解大腦的工作方式也很有幫助。

Andrej Karpathy:

我覺(jué)得使用類比時(shí)需要小心，因?yàn)樗鼈兤鋵?shí)是非常不同的事物。不過(guò)我確實(shí)認(rèn)為有些類比是可以借鑒的。

比如說(shuō)，在某些方面，Transformer 實(shí)際上比人類大腦更出色。Transformer 是一個(gè)效率更高的系統(tǒng)。之所以它目前還沒(méi)有達(dá)到人腦的水平，主要是因?yàn)閿?shù)據(jù)問(wèn)題，這是的第一個(gè)近似原因。

比如在記憶序列方面，Transformer 遠(yuǎn)勝于人類。如果你給它一個(gè)序列，并進(jìn)行一次前向和后向傳播，那么當(dāng)你給它提供這個(gè)序列的前幾個(gè)元素時(shí)，它會(huì)自動(dòng)完成剩下的部分。而人類如果只看一次序列，幾乎不可能記住它。

所以 Transformer 的梯度優(yōu)化過(guò)程（前向和后向更新）在某些方面比大腦的學(xué)習(xí)機(jī)制更加高效。這些模型的確更好，只是它們還沒(méi)有完全展現(xiàn)出它們的潛力。但在很多認(rèn)知方面，它們會(huì)逐漸顯現(xiàn)出優(yōu)勢(shì)。

Sara Guo:

在正確的輸入下，它們會(huì)變得更好。

Andrej Karpathy:

這確實(shí)是計(jì)算機(jī)在各種應(yīng)用中的趨勢(shì)。

Elad Gil:

對(duì)，我覺(jué)得人類的記憶能力也有局限。

Andrej Karpathy:

沒(méi)錯(cuò)。人類大腦的工作記憶非常有限，而 Transformer 擁有更大的工作記憶容量，而且這種優(yōu)勢(shì)會(huì)持續(xù)下去。Transformer 是更高效的學(xué)習(xí)者，而人類大腦則受到各種約束的限制，比如環(huán)境條件等。所以這些 AI 系統(tǒng)有可能在未來(lái)超越人類大腦，只是目前還未實(shí)現(xiàn)。

Elad Gil:

你怎么看待未來(lái)人類與 AI 系統(tǒng)的結(jié)合？你覺(jué)得這是一個(gè)可能的方向嗎？比如通過(guò)AI模型增強(qiáng)人類的能力。

Andrej Karpathy:

當(dāng)然，這是一個(gè)非常有可能的方向。實(shí)際上，使用 AI 工具的外部版本已經(jīng)是一種抽象的增強(qiáng)方式。然后還有“融合”的場(chǎng)景，很多人都在討論這一點(diǎn)。

Elad Gil:

是的，很多人討論這種“融合”，但目前我們主要是通過(guò)指尖與工具進(jìn)行交互。

Andrej Karpathy:

是的，這是一種瓶頸。人們已經(jīng)討論了幾十年技術(shù)工具如何擴(kuò)展人類能力，比如說(shuō)計(jì)算機(jī)被稱為人類大腦的自行車。我們已經(jīng)看到技術(shù)作為工具的外延，但一些AI研究者認(rèn)為，未來(lái)我們可能會(huì)通過(guò)某種形式的“神經(jīng)鏈接”來(lái)解決潛在的人機(jī)沖突，或者通過(guò)這種融合進(jìn)一步增強(qiáng)人類能力。

我不確定這種“融合”最終會(huì)是什么樣子，但我能想象減少人與工具之間的輸入輸出瓶頸是一個(gè)重要方向。我把它看作是一個(gè)“外部大腦皮層”（exo-cortex），就像在我們的大腦皮層上添加了一層新功能，只不過(guò)這層新功能在云端，但它確實(shí)是大腦的下一個(gè)層次。

Elad Gil:

是的，早在 2000 年代初的《加速》（*Accelerando*）一書(shū)中就有類似的設(shè)想，一切都通過(guò)與大腦相連的計(jì)算設(shè)備實(shí)現(xiàn)，如果你失去了這些設(shè)備，就仿佛失去了記憶的一部分。

Andrej Karpathy:

我覺(jué)得這非常有可能。而且今天的智能手機(jī)已經(jīng)幾乎具備了這種功能。如果你失去了這些科技設(shè)備，你會(huì)感覺(jué)失去了一部分自我。

Sara Guo:

就像失去了部分智力一樣。

Elad Gil:

是的，這是非常有趣的現(xiàn)象。一個(gè)簡(jiǎn)單的例子就是導(dǎo)航，現(xiàn)在很多人發(fā)現(xiàn)自己已經(jīng)無(wú)法在城市中自行導(dǎo)航了，因?yàn)榭偸且蕾囉谥鸩降膶?dǎo)航提示。如果這種技術(shù)更進(jìn)一步，比如即時(shí)翻譯系統(tǒng)，人們可能就會(huì)失去與不講英語(yǔ)的人交流的能力。

Andrej Karpathy:

我不認(rèn)為這種技術(shù)的實(shí)現(xiàn)太遙遠(yuǎn)了。一旦這種即時(shí)翻譯系統(tǒng)成為主流，如果你不再依賴它，可能就無(wú)法與講不同語(yǔ)言的人交流。

Sara Guo:

我對(duì)這種情景很有信心，可以把大腦的這部分功能釋放出來(lái)，投入到更深的研究中。

Andrej Karpathy:

你可能看到過(guò)那個(gè)小孩拿著一本雜志，試圖在雜志上滑動(dòng)，就像滑動(dòng)屏幕一樣。這讓我感到驚訝的是，這個(gè)孩子無(wú)法分辨自然界的東西和技術(shù)疊加的東西，因?yàn)檫@些技術(shù)太透明了。

我覺(jué)得未來(lái)可能會(huì)有類似的情況，人們會(huì)開(kāi)始認(rèn)為這些工具是自然而然的一部分。等到你把這些工具拿走時(shí)，才意識(shí)到原來(lái)這些是技術(shù)，而不是本能。

Sara Guo:

是的，如果我們談?wù)撏獠看竽X皮層（exo-cortex），這似乎是一個(gè)非常重要的概念，如何將其民主化，人人都能使用。你怎么看待目前AI研究領(lǐng)域的市場(chǎng)結(jié)構(gòu)？比如現(xiàn)在只有少數(shù)大型實(shí)驗(yàn)室有能力推進(jìn)下一代訓(xùn)練，這會(huì)如何影響未來(lái)的技術(shù)普及？

Andrej Karpathy:

你剛才提到的可能是關(guān)于生態(tài)系統(tǒng)的現(xiàn)狀?，F(xiàn)在我們有幾家主導(dǎo)性的封閉平臺(tái)，以及一些相對(duì)落后的開(kāi)源平臺(tái)，比如 Meta 的 Llama。

這種情況其實(shí)有點(diǎn)類似于開(kāi)源生態(tài)系統(tǒng)的格局。當(dāng)我們開(kāi)始把這些東西看作“外部大腦皮層”（exo-cortex）時(shí)，這就像加密貨幣中的一句話：“沒(méi)有你的密鑰，就沒(méi)有你的幣”。

那么，是否可以說(shuō)，如果不是你擁有的權(quán)重，那也不是你的大腦？這很有趣，因?yàn)楣緦?shí)際上在控制你的一部分“外部大腦皮層”。

Elad Gil:

是的，聽(tīng)起來(lái)確實(shí)有點(diǎn)侵入性。

Sara Guo:

如果這是我的外部大腦皮層，我想我會(huì)更加在意擁有權(quán)的問(wèn)題。

Andrej Karpathy:

對(duì)，你會(huì)意識(shí)到你是在租用你的大腦，這聽(tīng)起來(lái)很奇怪，像是在租用大腦。

Sara Guo:

如果有一個(gè)思想實(shí)驗(yàn)，你愿意放棄所有權(quán)并租用一個(gè)更好的大腦嗎？我想我會(huì)愿意。

Andrej Karpathy:

是的，這是我們需要權(quán)衡的東西。也許我們會(huì)默認(rèn)使用那些封閉版本，因?yàn)樗鼈兊男Ч浅：?，但在某些情況下，我們可以依賴一些備用方案。

我覺(jué)得這就是現(xiàn)在的發(fā)展方向。比如，當(dāng)一些封閉源提供商的API出現(xiàn)問(wèn)題時(shí)，人們會(huì)實(shí)現(xiàn)備用方案，轉(zhuǎn)向自己完全控制的開(kāi)源生態(tài)系統(tǒng)。這讓他們感覺(jué)更加自主。

Sara Guo:

所以，開(kāi)源系統(tǒng)的持續(xù)進(jìn)步非常重要。

Andrej Karpathy:

我 100% 同意。這可能現(xiàn)在并不是一個(gè)大家都認(rèn)可的觀點(diǎn)，但它是非常重要的。

Elad Gil:

我一直在想，最小的高效模型可以做到什么程度？無(wú)論是在參數(shù)大小上還是其他方面，你對(duì)此怎么看？你對(duì)小型模型的蒸餾有很多思考。

Andrej Karpathy:

模型可以非常小?，F(xiàn)在的模型浪費(fèi)了大量容量，記住了一些無(wú)關(guān)緊要的東西，比如它們記住了散列值和過(guò)時(shí)的信息。

Sara Guo:

是因?yàn)閿?shù)據(jù)集沒(méi)有經(jīng)過(guò)篩選，最好的部分沒(méi)有被突出。

Andrej Karpathy:

這種情況會(huì)改變。我們只需要找到認(rèn)知核心，這個(gè)核心可以非常小。它只需要處理最重要的事情，其他信息如果需要可以通過(guò)工具獲取。

Sara Guo:

那這個(gè)認(rèn)知核心需要 30 億參數(shù)還是 200 億參數(shù)？

Andrej Karpathy:

甚至 10 億參數(shù)可能就足夠了，模型可以非常小。我之所以這么說(shuō)，主要是因?yàn)檎麴s過(guò)程非常有效。你可以用一個(gè)非常大的模型，通過(guò)大量計(jì)算，去教一個(gè)小模型，而這個(gè)小模型可以保留大模型的能力。

Elad Gil:

你能把這種蒸餾過(guò)程量化為某種數(shù)學(xué)表達(dá)式嗎？有沒(méi)有一種信息理論的方式去表示這個(gè)過(guò)程？感覺(jué)我們應(yīng)該可以通過(guò)某種方式來(lái)計(jì)算出需要的模型大小。

Andrej Karpathy:

我們現(xiàn)在處理的是互聯(lián)網(wǎng)數(shù)據(jù)，互聯(lián)網(wǎng)數(shù)據(jù)的有用信息可能只占很小一部分，大部分都是噪音。關(guān)鍵是提取出有用的“認(rèn)知”部分。

Elad Gil:

可能另一種方式是將認(rèn)知能力與模型大小相關(guān)聯(lián)，或者說(shuō)如何用某種方式捕捉認(rèn)知能力相對(duì)于模型大小的表現(xiàn)，也許沒(méi)有一個(gè)很好的方式去表示這種關(guān)系。但10億參數(shù)可能已經(jīng)可以提供一個(gè)非常好的認(rèn)知核心。

Andrej Karpathy:

我覺(jué)得可能是這樣的，甚至 10 億參數(shù)可能都多了。

Sara Guo:

想到這一點(diǎn)還是很令人興奮的，尤其是考慮到這種小模型可以部署在邊緣設(shè)備上，而不是依賴云計(jì)算。

Elad Gil:

是的，這確實(shí)對(duì)模型的使用方式帶來(lái)了很大的改變，這很激動(dòng)人心。

Sara Guo:

少于 10 億參數(shù)，意味著我可以在本地設(shè)備上擁有我的“外部大腦皮層”。

Andrej Karpathy:

是的，我覺(jué)得未來(lái)可能不是單一的模型，而是多模型并行合作的系統(tǒng)。并行處理在未來(lái)會(huì)變得越來(lái)越重要，而不只是依賴順序處理。

像公司一樣，信息處理也是分層級(jí)的，某些信息需要不同層次的處理，這也是公司內(nèi)部的一種并行化工作方式。

未來(lái)的模型會(huì)像公司一樣分布在不同的層級(jí)和領(lǐng)域，比如某個(gè)模型是程序員，另一個(gè)是程序管理者。多個(gè)模型可以并行工作，協(xié)同完成計(jì)算任務(wù)。

Elad Gil:

這聽(tīng)起來(lái)更像是一個(gè)生物生態(tài)系統(tǒng)，不同的角色和生態(tài)位相互合作。

Sara Guo:

根據(jù)問(wèn)題的難度和不同的專業(yè)領(lǐng)域，你可以自動(dòng)地將任務(wù)升級(jí)到“集群”的其他部分。

Andrej Karpathy:

是的，可能某些模型是高性能的云端模型，而其他模型可能是更廉價(jià)的資源模型。

Sara Guo:

而且每個(gè)人的成本函數(shù)可能是不同的。

Andrej Karpathy:

這確實(shí)很有趣。

Sara Guo:

你離開(kāi) OpenAI ，開(kāi)始從事教育領(lǐng)域的工作。你一直以來(lái)都是教育者，為什么決定做這個(gè)？

Andrej Karpathy:

我一直以來(lái)都熱愛(ài)教育，喜歡學(xué)習(xí)和教學(xué)。這一直是我非常熱情的領(lǐng)域。而另一個(gè)推動(dòng)我的原因是，我覺(jué)得現(xiàn)在 AI 的很多應(yīng)用都是在取代人類工作，但我更感興趣的是那些能賦能人類的 AI。

我不希望看到一個(gè)人類被邊緣化的未來(lái)，而是希望看到一個(gè)人類變得更加優(yōu)秀的未來(lái)。如果每個(gè)人都有一個(gè)完美的導(dǎo)師來(lái)學(xué)習(xí)各個(gè)科目，人類可以走得很遠(yuǎn)。

我們看到有錢人雇傭私人教師，確實(shí)能取得很好的結(jié)果。通過(guò) AI，我們可以實(shí)現(xiàn)類似的效果，甚至是超越。

Elad Gil:

是的，1980 年代有一個(gè)經(jīng)典的研究顯示，一對(duì)一輔導(dǎo)可以使學(xué)生的成績(jī)提高一個(gè)標(biāo)準(zhǔn)差。你覺(jué)得 AI 如何能夠?qū)崿F(xiàn)這樣的效果？哪些產(chǎn)品會(huì)首先幫助實(shí)現(xiàn)這一點(diǎn)？

Andrej Karpathy:

我受到一些靈感的啟發(fā)。當(dāng)前，我正在嘗試構(gòu)建一門(mén) AI 課程，我想讓它成為每個(gè)人學(xué)習(xí)AI時(shí)首先想到的課程。

我曾經(jīng)在斯坦福教授 AI 課程，但問(wèn)題是，如何讓課程規(guī)?；?，能夠覆蓋全球80億人，并適應(yīng)不同語(yǔ)言、不同水平的學(xué)生？單靠一個(gè)教師是無(wú)法做到這一點(diǎn)的，所以我在考慮如何用 AI 來(lái)擴(kuò)展這種教師的能力。

我的想法是，教師負(fù)責(zé)課程的創(chuàng)建和設(shè)計(jì)，而AI則成為前端，與學(xué)生進(jìn)行互動(dòng)，幫助他們學(xué)習(xí)。教師不再直接接觸學(xué)生，而是在幕后設(shè)計(jì)材料，AI則負(fù)責(zé)講解。

Sara Guo:

我是否可以把這看作是“AI 助教”？

Andrej Karpathy:

可以這么理解。AI 是學(xué)生的前端接口，引導(dǎo)他們完成課程。這是目前可以實(shí)現(xiàn)的，雖然還沒(méi)有完全存在，但我相信這是可行的。

隨著 AI 能力的提升，未來(lái)可能會(huì)對(duì)課程結(jié)構(gòu)進(jìn)行重構(gòu)。我專注于找到那些今天AI能力可以勝任的任務(wù)，這種思路讓我能夠設(shè)計(jì)出更加實(shí)際的產(chǎn)品。

Sara Guo:

你提到的一點(diǎn)讓我感到非常鼓舞，特別是來(lái)自你對(duì)研究現(xiàn)狀的深刻理解。我們不知道在人類具備更好工具的情況下，學(xué)習(xí)能力的極限在哪里。

就像我們?cè)谧罱膴W運(yùn)會(huì)上看到的，運(yùn)動(dòng)員的成績(jī)比十年前大大提高，因?yàn)樗麄儚男【烷_(kāi)始訓(xùn)練，使用了更科學(xué)的訓(xùn)練方法和設(shè)備。

你相信人類的學(xué)習(xí)能力在未來(lái)可以通過(guò)更完善的工具和課程得到大幅提升，這一點(diǎn)真的非常振奮人心。

Andrej Karpathy:

是的，我覺(jué)得我們連可能性的表面都還沒(méi)觸及。這里有兩個(gè)維度：一個(gè)是全球化的維度，我希望每個(gè)人都能獲得優(yōu)質(zhì)教育。

另一個(gè)是個(gè)體層面的，探索單個(gè)個(gè)體能走多遠(yuǎn)。我覺(jué)得這兩點(diǎn)都非常有趣和激動(dòng)人心。

Elad Gil:

通常人們?cè)谟懻撘粚?duì)一學(xué)習(xí)時(shí)，談?wù)摰氖莻€(gè)性化學(xué)習(xí)，即根據(jù)學(xué)生的水平挑戰(zhàn)他們。你覺(jué)得AI可以做到這一點(diǎn)嗎？還是目前AI的重點(diǎn)在于覆蓋范圍和多語(yǔ)言支持？

Andrej Karpathy:

目前 AI 在翻譯和多語(yǔ)言支持方面已經(jīng)非常出色，這些是現(xiàn)成的成果。至于個(gè)性化適應(yīng)學(xué)生背景的能力，這仍然是一個(gè)需要解決的問(wèn)題，但并不太遙遠(yuǎn)。

如果學(xué)生有物理學(xué)背景，AI 可以根據(jù)這個(gè)信息進(jìn)行調(diào)適，這在教育中是非常有用的。我想這將是我們要努力實(shí)現(xiàn)的方向，雖然目前還不完全具備這種能力。

Elad Gil:

是的，個(gè)性化學(xué)習(xí)的難點(diǎn)在于，不同學(xué)生在不同領(lǐng)域的學(xué)習(xí)速度不同，如何根據(jù)學(xué)生的情況調(diào)整教學(xué)內(nèi)容是一大挑戰(zhàn)。不過(guò)，我相信隨著時(shí)間推移，AI模型會(huì)越來(lái)越擅長(zhǎng)這一點(diǎn)。

Andrej Karpathy:

是的，AI 的很多能力現(xiàn)在可以通過(guò)簡(jiǎn)單的提示實(shí)現(xiàn)，但從演示到實(shí)際產(chǎn)品之間還有一定距離。我會(huì)說(shuō)，演示已經(jīng)很接近了，但產(chǎn)品化還需要一些時(shí)間。

Elad Gil:

在科研界，人們常常討論不同實(shí)驗(yàn)室的背景，很多諾貝爾獎(jiǎng)得主曾在其他諾獎(jiǎng)得主的實(shí)驗(yàn)室工作。你覺(jué)得在以 AI 為中心的教育世界里，如何保持這種知識(shí)傳承和文化傳播？

Andrej Karpathy:

我不希望生活在一個(gè)“背景”太重要的世界里。我希望AI能夠打破這種結(jié)構(gòu)，因?yàn)樗悬c(diǎn)像是對(duì)稀缺資源的把控，比如擁有某種背景的人的數(shù)量有限。我希望AI能夠改變這一點(diǎn)。

我覺(jué)得在考慮未來(lái)的教育系統(tǒng)時(shí)，它可能不僅僅是一個(gè)單一模型，而是多個(gè)模型并行合作的系統(tǒng)。類似于公司的結(jié)構(gòu)，不同的模型會(huì)有不同的角色和職責(zé)，它們?cè)诓⑿刑幚韽?fù)雜任務(wù)時(shí)會(huì)互相協(xié)調(diào)，就像一個(gè)“集群”系統(tǒng)一樣。

我想我們會(huì)看到越來(lái)越多的模型專注于不同的任務(wù)領(lǐng)域，比如程序員、程序管理者等，它們會(huì)像一個(gè)公司一樣相互協(xié)作。

Elad Gil:

這有點(diǎn)像一個(gè)生物生態(tài)系統(tǒng)，不同的角色和生態(tài)位互相協(xié)作。

Sara Guo:

是的，取決于問(wèn)題的難度和專業(yè)領(lǐng)域，任務(wù)可以自動(dòng)升級(jí)到“集群”的其他部分。

Andrej Karpathy:

是的，可能某些模型是高性能的云端模型，其他模型可能是資源更廉價(jià)的模型，它們各自承擔(dān)不同的任務(wù)。

Sara Guo:

你離開(kāi) OpenAI 開(kāi)始從事教育，你一直以來(lái)都熱衷于教育，為什么選擇這個(gè)方向？

Andrej Karpathy:

我一直以來(lái)都喜歡學(xué)習(xí)和教學(xué)，這一直是我非常熱情的領(lǐng)域。另一方面，我覺(jué)得現(xiàn)在很多 AI 應(yīng)用都是在替代人類的工作，但我更感興趣的是那些能夠賦能人類的 AI。

我希望未來(lái)的人類能夠通過(guò) AI 變得更加強(qiáng)大，而不是被邊緣化。我想知道，如果每個(gè)人都有一個(gè)完美的導(dǎo)師，他們能夠走多遠(yuǎn)。如果我們能夠通過(guò) AI 提供這種教育，這將非常令人興奮。

Elad Gil:

你提到教育作為娛樂(lè)的理念非常有趣，尤其是你談到未來(lái)人類可以通過(guò)更好的工具大幅提升學(xué)習(xí)能力。你覺(jué)得 AI 能在多大程度上幫助人們實(shí)現(xiàn)這些目標(biāo)？

Andrej Karpathy:

AI 能極大地改善學(xué)習(xí)體驗(yàn)，尤其是在全球范圍內(nèi)提供優(yōu)質(zhì)教育。今天的很多學(xué)習(xí)動(dòng)機(jī)來(lái)自于經(jīng)濟(jì)需要，比如找工作或提升自己的經(jīng)濟(jì)地位。

在未來(lái)的后 AGI 社會(huì)中，教育可能會(huì)變得更多是出于娛樂(lè)和自我提升的目的。我希望人們不僅僅是在追求實(shí)用性，而是從教育中獲得滿足感，像是去健身房鍛煉大腦一樣。

Sara Guo:

你提到教育是一種類似于健身房鍛煉的體驗(yàn)。教育本身確實(shí)需要付出努力，但這種努力也是一種滿足感的來(lái)源。

Andrej Karpathy:

是的，教育的確需要付出努力，但這種努力也是一種特別的“樂(lè)趣”。人們從中獲得成就感，感覺(jué)自己變得更好。我希望在未來(lái)的世界中，人們不僅在身體上去健身房，也會(huì)在心理和智力上“鍛煉”，讓教育成為一種崇尚的追求。

Sara Guo:

那么你正在開(kāi)發(fā)的這門(mén)課程的目標(biāo)受眾是誰(shuí)？

Andrej Karpathy:

我設(shè)想的受眾主要是大學(xué)本科水平的學(xué)生，特別是那些在技術(shù)領(lǐng)域?qū)W習(xí)的人。盡管如此，隨著社會(huì)的快速變化，教育將不再局限于傳統(tǒng)的學(xué)制內(nèi)。

未來(lái)人們會(huì)更多地回到“學(xué)?！被?qū)W習(xí)新的技能。所以這門(mén)課程雖然針對(duì)本科生，但實(shí)際上任何有技術(shù)背景的人，不論年齡，都可以從中受益。

課程的發(fā)布時(shí)間原計(jì)劃是今年年底，但現(xiàn)在可能要推遲到明年初，因?yàn)槲矣泻芏嗥渌?xiàng)目需要處理。

Elad Gil:

最后一個(gè)問(wèn)題，假如你今天有小孩子，你會(huì)建議他們學(xué)習(xí)什么，以便在未來(lái)?yè)碛懈袃r(jià)值的技能？

Andrej Karpathy:

在我看來(lái)，正確的答案是數(shù)學(xué)、物理、計(jì)算機(jī)科學(xué)這些學(xué)科。我之所以這么說(shuō)，是因?yàn)檫@些學(xué)科能幫助培養(yǎng)思維能力。

我個(gè)人的背景可能有些偏頗，但這些學(xué)科是最好的思維訓(xùn)練核心。比如我自己學(xué)習(xí)數(shù)學(xué)和物理課程，它們塑造了我的思維方式，非常有助于解決問(wèn)題。

如果我們還處于 AGI 之前的世界，這些技能非常有用；即使是在 AGI 之后的世界，你仍然希望人類能夠在各種能力下保持自主和強(qiáng)大。所以這就是人們應(yīng)該學(xué)習(xí)的正確內(nèi)容，既實(shí)用又有價(jià)值。

特別是在關(guān)鍵的成長(zhǎng)時(shí)期，人們有很多時(shí)間和注意力，這時(shí)候應(yīng)該更多地花在那些需要簡(jiǎn)單操作和思考的任務(wù)上，而不是記憶為主的任務(wù)。

Elad Gil:

我學(xué)過(guò)數(shù)學(xué)，感覺(jué)自己腦子里開(kāi)辟了一個(gè)全新的領(lǐng)域，有點(diǎn)太多了。

Sara Guo:

是的，而且在之后的生活中很難再去開(kāi)辟新的思維路徑。

Elad Gil:

當(dāng)然，我并不反對(duì)其他學(xué)科。廣泛的知識(shí)涉獵非常美妙，但我確實(shí)認(rèn)為80%的時(shí)間應(yīng)該用來(lái)學(xué)習(xí)這些核心學(xué)科。

Sara Guo:

我們不是很擅長(zhǎng)記憶，與我們的工具相比更是如此。

本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】，微信公眾號(hào)：【有新Newin】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 Andrej Karpathy 與 Sara Guo 和 Elad Gil 的對(duì)話截圖

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

有新Newin

提供前沿領(lǐng)域商業(yè)洞見(jiàn)與資訊

60篇作品 129033總閱讀量

三年后，微信視頻號(hào)被稱之為“全村的希望”，未來(lái)值得期待嗎？

02-083211 瀏覽

ChatGPT對(duì)于金融行業(yè)的機(jī)會(huì)與革新

03-293824 瀏覽

短劇營(yíng)銷，品牌們的新戰(zhàn)場(chǎng)

11-257871 瀏覽

最全盤(pán)點(diǎn) | 做自媒體公眾號(hào)6個(gè)變現(xiàn)方法

11-247212 瀏覽

產(chǎn)品經(jīng)理必看：一文秒懂?dāng)?shù)據(jù)埋點(diǎn)

12-067391 瀏覽

評(píng)論

目前還沒(méi)評(píng)論，等你發(fā)揮！

第一波打工人已經(jīng)主動(dòng)學(xué)習(xí)GPT了

04-192865 瀏覽
生活中的思維訓(xùn)練：用身邊案例練就分析力！

12-263242 瀏覽
母嬰行業(yè)怎么做好私域？掌握這4點(diǎn)是關(guān)鍵！

09-094053 瀏覽

深度｜?Andrej Karpathy 最新思考：小模型有巨大潛力，大模型用來(lái)處理多任務(wù)，AI 模型未來(lái)聚焦于處理重要信息的能力

深度｜?Andrej Karpathy 最新思考：小模型有巨大潛力，大模型用來(lái)處理多任務(wù)，AI 模型未來(lái)聚焦于處理重要信息的能力