深度|?Andrej Karpathy 最新思考:小模型有巨大潛力,大模型用來(lái)處理多任務(wù),AI 模型未來(lái)聚焦于處理重要信息的能力

0 評(píng)論 2257 瀏覽 0 收藏 50 分鐘

在人工智能領(lǐng)域,Andrej Karpathy 的最新思考為我們提供了關(guān)于AI模型未來(lái)發(fā)展的深刻見(jiàn)解。他認(rèn)為,雖然當(dāng)前的大型模型非常強(qiáng)大,但未來(lái)的小型模型也具有巨大的潛力。通過(guò)模型蒸餾技術(shù),我們可以將大型模型的能力壓縮到更小的模型中,實(shí)現(xiàn)更高效的認(rèn)知處理。

這是前特斯拉 AI 總監(jiān)& OpenAI 創(chuàng)始成員 Andrej Karpathy 近日與硅谷知名投資人 Sara Guo 和 Elad Gil 的最新對(duì)話。

Karpathy 強(qiáng)調(diào),Transformer 不僅是另一個(gè)神經(jīng)網(wǎng)絡(luò),而是一個(gè)極具通用性的“差分計(jì)算機(jī)”。它通過(guò)前向和后向傳播進(jìn)行自我調(diào)整,能夠高效處理復(fù)雜任務(wù)。Transformer 的擴(kuò)展性是 AI 領(lǐng)域的重大突破,使得大規(guī)模模型成為可能。

雖然當(dāng)前的大模型非常強(qiáng)大,但 Karpathy 認(rèn)為未來(lái)的小模型也會(huì)有巨大的潛力。通過(guò)蒸餾技術(shù),能夠?qū)⒋竽P偷哪芰嚎s到更小的模型中,實(shí)現(xiàn)更高效的認(rèn)知處理,甚至 1~10 億參數(shù)的小模型就能完成復(fù)雜任務(wù)。

隨著互聯(lián)網(wǎng)數(shù)據(jù)接近枯竭,未來(lái) AI 發(fā)展將依賴于合成數(shù)據(jù)的生成。Karpathy 提到,在訓(xùn)練大模型時(shí),保持?jǐn)?shù)據(jù)集的多樣性和豐富性至關(guān)重要,合成數(shù)據(jù)在生成高質(zhì)量訓(xùn)練數(shù)據(jù)時(shí)將扮演關(guān)鍵角色。

此外,他認(rèn)為大模型不僅適用于單一任務(wù),而是能夠并行處理多個(gè)任務(wù)。這種“集群化”或“分層化”模型結(jié)構(gòu)類似于一個(gè)生態(tài)系統(tǒng)或公司,不同的模型負(fù)責(zé)不同的領(lǐng)域,相互協(xié)作以解決復(fù)雜的問(wèn)題。

模型未來(lái)將聚焦于“認(rèn)知核心”,即處理重要信息的能力,而非記憶海量不相關(guān)的數(shù)據(jù)。通過(guò)專注于解決問(wèn)題和決策的核心部分,未來(lái)的AI模型會(huì)更加高效和專注。

以下為這次對(duì)話的全部?jī)?nèi)容,enjoy~

Sara Guo:

你曾負(fù)責(zé) Tesla 的自動(dòng)駕駛,現(xiàn)在我們實(shí)際上已經(jīng)有了完全自動(dòng)駕駛的乘用車在路上行駛。你如何解讀我們?cè)谀芰Πl(fā)展上的現(xiàn)狀?我們多快能看到能力的提升或自動(dòng)駕駛車輛的普及?

Andrej Karpathy:

是的,我在自動(dòng)駕駛領(lǐng)域大概工作了五年。我覺(jué)得這是一個(gè)非常有趣的領(lǐng)域?,F(xiàn)在這個(gè)領(lǐng)域的發(fā)展情況是,我常常會(huì)把自動(dòng)駕駛和其他領(lǐng)域進(jìn)行類比,也許是因?yàn)槲冶容^熟悉它。

但我覺(jué)得在自動(dòng)駕駛領(lǐng)域,我們已經(jīng)達(dá)到了一定的瓶頸。現(xiàn)在有一些系統(tǒng),你作為付費(fèi)客戶可以在某些地方使用,比如在舊金山 Waymo 非常常見(jiàn)。你可能已經(jīng)乘坐過(guò) Waymo 了。

我乘坐了很多次,它真的很棒。我可以開(kāi)到很多地方,而且你為它付費(fèi),它是一個(gè)商品。讓我覺(jué)得有趣的是,我第一次體驗(yàn) Waymo 是在大約十年前,也就是 2014年。

當(dāng)時(shí)我的一個(gè)朋友在那工作,他帶我體驗(yàn)了一下。當(dāng)時(shí)車帶我繞著街區(qū)行駛,表現(xiàn)得非常完美。但從那次演示到如今能付費(fèi)使用的產(chǎn)品,花了整整十年時(shí)間,才達(dá)到如今的城市規(guī)模,并且還在擴(kuò)展中。

Sara Guo:

你認(rèn)為這十年中的進(jìn)展主要是由技術(shù)推動(dòng)的嗎?

Andrej Karpathy:

技術(shù)并不是在一次 30 分鐘的演示中就能展現(xiàn)出來(lái)的。你沒(méi)有遇到他們?cè)谶^(guò)去十年中需要處理的所有問(wèn)題。所以演示和產(chǎn)品之間有很大的差距。其中很多是由于監(jiān)管等因素。不過(guò)我確實(shí)覺(jué)得我們?cè)谧詣?dòng)駕駛領(lǐng)域已經(jīng)達(dá)到了一個(gè)瓶頸,至少在某種程度上。而真正有趣的是,這一技術(shù)還沒(méi)有全球化。

你可以進(jìn)行一次演示,但世界還沒(méi)有真正發(fā)生改變,這將需要很長(zhǎng)時(shí)間。從一次演示到全球化之間有很大的鴻溝。

這與  AGI  也有相似之處,最終我們也會(huì)看到類似的發(fā)展軌跡。在自動(dòng)駕駛領(lǐng)域,有些人認(rèn)為 Waymo 領(lǐng)先于 Tesla ,但我個(gè)人認(rèn)為 Tesla 更具優(yōu)勢(shì),盡管從表面上看并不像這樣。

我對(duì) Tesla 的自動(dòng)駕駛項(xiàng)目仍然充滿信心。Tesla 面臨的是軟件問(wèn)題,而 Waymo 面臨的是硬件問(wèn)題。我覺(jué)得軟件問(wèn)題相對(duì)更容易解決。

Tesla 擁有大量已部署在全球的汽車,當(dāng)它們能夠真正部署并有效工作時(shí),那將是非常了不起的。我昨天剛剛測(cè)試了最新的版本,確實(shí)有了很大的改進(jìn)。最近我一直在使用它,效果真的不錯(cuò)。

昨天它在某些情況下表現(xiàn)得非常出色,所以我對(duì)團(tuán)隊(duì)的工作印象深刻。我仍然認(rèn)為 Tesla 主要面臨軟件問(wèn)題,而 Waymo 主要面臨硬件問(wèn)題。

雖然看起來(lái) Waymo 現(xiàn)在似乎領(lǐng)先,但我相信在十年后,當(dāng)我們看實(shí)際規(guī)?;渴鸷褪杖雭?lái)源時(shí), Tesla 會(huì)更具優(yōu)勢(shì)。

Elad Gil:

你認(rèn)為我們離解決軟件問(wèn)題還有多遠(yuǎn),能達(dá)到與你提到的等效水平?顯然, Waymo 的車裝有許多昂貴的激光雷達(dá)和其他傳感器,這些傳感器幫助其軟件系統(tǒng)運(yùn)作。

而 Tesla 的做法是只使用攝像頭,從而擺脫了大量的成本和復(fù)雜性,可以應(yīng)用于更多種類的汽車。你認(rèn)為這種轉(zhuǎn)變會(huì)在什么時(shí)候發(fā)生?可能是在未來(lái)幾年內(nèi)?

Andrej Karpathy:

我希望會(huì)是這樣的。但實(shí)際上有趣的是,我不確定大家是否意識(shí)到, Tesla 實(shí)際上也使用了很多昂貴的傳感器,只不過(guò)是在訓(xùn)練階段使用。

許多車使用激光雷達(dá)等傳感器來(lái)進(jìn)行不具有規(guī)模化的操作,它們有額外的傳感器并進(jìn)行地圖構(gòu)建等工作。

但這些傳感器的作用主要是在訓(xùn)練階段,然后將其精簡(jiǎn)為測(cè)試階段的包,在車上只需依靠視覺(jué)。這是一種對(duì)昂貴傳感器的“套利”,這是一種非常聰明的策略,可能還沒(méi)有被充分認(rèn)可。

這個(gè)策略會(huì)奏效,因?yàn)橄袼刂邪吮匾男畔?,而神?jīng)網(wǎng)絡(luò)能夠處理這些信息。在訓(xùn)練階段,傳感器的確非常有用,但在測(cè)試階段就沒(méi)有那么必要了。

Elad Gil:

看來(lái)我們已經(jīng)從很多邊界情況的設(shè)計(jì)轉(zhuǎn)向了端到端的深度學(xué)習(xí)。這也是最近發(fā)生的一個(gè)轉(zhuǎn)變。你愿意多談?wù)勥@個(gè)變化嗎?

Andrej Karpathy:

我想說(shuō), Tesla 的情況是,神經(jīng)網(wǎng)絡(luò)正在逐漸取代整個(gè)系統(tǒng)堆棧。當(dāng)我加入時(shí),系統(tǒng)中有大量的 C++ 代碼,但現(xiàn)在在車上運(yùn)行的測(cè)試包中 C++ 代碼少得多了。

盡管在后端仍然有很多內(nèi)容,但神經(jīng)網(wǎng)絡(luò)基本上在“吃掉”整個(gè)系統(tǒng)。最初它只是在圖像層面進(jìn)行檢測(cè),然后是多個(gè)圖像,給予預(yù)測(cè),接著是多張圖像隨時(shí)間積累的預(yù)測(cè),C++ 代碼逐漸減少,最終只輸出轉(zhuǎn)向命令。

所以 Tesla 正在一步步替代整個(gè)堆棧。我的理解是,當(dāng)前 Waymo 并沒(méi)有采用這種方法,盡管他們嘗試了,但并未堅(jiān)持下去。

這是我現(xiàn)在的理解,但我不確定,因?yàn)樗麄儾⒉还_(kāi)討論。但我堅(jiān)信這種方法是可行的。

如果要從頭思考這個(gè)問(wèn)題,最終 10 年后的 Tesla 自動(dòng)駕駛系統(tǒng)可能就是一個(gè)神經(jīng)網(wǎng)絡(luò):視頻流輸入神經(jīng)網(wǎng)絡(luò),輸出駕駛指令。這需要逐步構(gòu)建,分階段實(shí)現(xiàn),包括所有中間的預(yù)測(cè)和我們已經(jīng)做的其他事情。

我并不認(rèn)為中間的這些預(yù)測(cè)誤導(dǎo)了開(kāi)發(fā)進(jìn)程,相反,它們是有很多實(shí)際意義的。因?yàn)榧兇獾亩说蕉笋{駛系統(tǒng)(模仿人類)提供的監(jiān)督信號(hào)非常有限,而訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò)需要大量的監(jiān)督信號(hào)。

因此,這些中間的表示幫助開(kāi)發(fā)各種特征和檢測(cè)器,使得最終實(shí)現(xiàn)端到端解決方案變得更加容易。我懷疑,即使我不再是團(tuán)隊(duì)中的一員,但有大量的預(yù)訓(xùn)練在進(jìn)行,以便之后可以對(duì)端到端模型進(jìn)行微調(diào)。

因此,逐步實(shí)現(xiàn)這個(gè)過(guò)程是必要的,而這也是 Tesla 所采用的正確方法??雌饋?lái)它確實(shí)正在起作用,我對(duì)未來(lái)非常期待。

Sara Guo:

如果你一開(kāi)始就沒(méi)有數(shù)據(jù),那這種方法確實(shí)很有意義。你離開(kāi) Tesla 之前還參與了 Tesla 的人形機(jī)器人項(xiàng)目,我有很多問(wèn)題想問(wèn)你,首先是,哪些技術(shù)可以在這里轉(zhuǎn)移?

Andrej Karpathy:

基本上所有的技術(shù)都可以轉(zhuǎn)移,我覺(jué)得人們沒(méi)有意識(shí)到這一點(diǎn)。

Sara Guo:

這是一個(gè)很大的斷言,我覺(jué)得這是一個(gè)非常特殊的問(wèn)題。

Andrej Karpathy:

當(dāng)你實(shí)際查看這些技術(shù)時(shí),你會(huì)發(fā)現(xiàn)它們的確能夠轉(zhuǎn)移。其實(shí), Tesla 并不是一家汽車公司,我覺(jué)得這是一種誤導(dǎo)。它實(shí)際上是一家規(guī)模化的機(jī)器人公司。

我會(huì)說(shuō)規(guī)模本身也是一個(gè)獨(dú)立的變量。他們并不僅僅是在制造單個(gè)產(chǎn)品,他們是在制造制造產(chǎn)品的機(jī)器,這是一件完全不同的事情。

Tesla 是一家規(guī)?;臋C(jī)器人公司,而從汽車到人形機(jī)器人之間的技術(shù)轉(zhuǎn)移并沒(méi)有那么多工作量。

實(shí)際上,Optimus 的早期版本幾乎以為自己是一輛車,因?yàn)樗鼈兪褂玫氖峭耆嗤挠?jì)算機(jī)和攝像頭。當(dāng)時(shí)我們還在機(jī)器人上運(yùn)行汽車的神經(jīng)網(wǎng)絡(luò),但機(jī)器人在辦公室里走來(lái)走去,試圖識(shí)別可行駛的空間。

不過(guò)現(xiàn)在這些空間變成了可以行走的空間,它實(shí)際上有一些廣泛的泛化能力。當(dāng)然需要一些微調(diào),但它的確在“駕駛”,只不過(guò)實(shí)際上是在移動(dòng)環(huán)境中行走。

Sara Guo:

把它理解為一個(gè)機(jī)器人,它能夠進(jìn)行很多技術(shù)轉(zhuǎn)移,但你需要額外解決的問(wèn)題是驅(qū)動(dòng)和動(dòng)作控制,這樣理解合理嗎?

Andrej Karpathy:

是的。還有一個(gè)部分是,很多東西都是可以轉(zhuǎn)移的,比如 Optimus 的啟動(dòng)速度讓我印象深刻。Elon 一宣布我們要做這個(gè),相關(guān)的人員和工具很快就到位了,CAD 模型、供應(yīng)鏈等所有東西迅速呈現(xiàn)。

我覺(jué)得, Tesla 內(nèi)部在機(jī)器人制造方面有非常強(qiáng)的專業(yè)知識(shí)。所有的工具其實(shí)是一樣的,只不過(guò)從汽車的配置重新調(diào)整了一下,就像《變形金剛》電影中的情節(jié)。

所有組件基本相同,不管是硬件層面的規(guī)模問(wèn)題,還是軟件和控制系統(tǒng)層面的“大腦”,都需要考慮相同的事情。神經(jīng)網(wǎng)絡(luò)和標(biāo)簽團(tuán)隊(duì)的協(xié)調(diào)方式、采取的技術(shù)手段等也有很多相同之處。

有大量的技術(shù)可以轉(zhuǎn)移。那么你認(rèn)為人形機(jī)器人或類似的機(jī)器人最早會(huì)在哪些領(lǐng)域應(yīng)用?很多人會(huì)設(shè)想它們?cè)诩依餅槟阕黾覄?wù),但那會(huì)是比較晚期的應(yīng)用。

B2C 的起點(diǎn)并不適合,因?yàn)槲覀儾幌M粋€(gè)機(jī)器人在家里意外傷害到人,比如撞倒奶奶之類的場(chǎng)景。這樣太有法律風(fēng)險(xiǎn)了。

Sara Guo:

這個(gè)例子很恰當(dāng)。

Andrej Karpathy:

是啊,它們可能會(huì)摔倒或發(fā)生一些意外,這些東西還不完美,需要進(jìn)一步改進(jìn)。所以我覺(jué)得最好的客戶是你自己,我想 Tesla 可能會(huì)這樣做。大家應(yīng)該也能看出來(lái),我對(duì) Tesla 很有信心。

第一步應(yīng)該是自我孵化,比如在工廠里進(jìn)行大量的物料搬運(yùn)等操作,這樣你不需要和第三方簽訂合同,避免了很多法律問(wèn)題。接下來(lái),會(huì)進(jìn)軍 B2B 。

Tesla 可能會(huì)與大型倉(cāng)庫(kù)合作,進(jìn)行物料搬運(yùn)等操作。合同會(huì)擬定好,圍欄也會(huì)建好,所有這些事都做好后,才會(huì)進(jìn)一步推廣到 B2C 應(yīng)用領(lǐng)域。

我確實(shí)相信我們會(huì)看到面向消費(fèi)者的機(jī)器人,比如類似 Unitree 這樣的產(chǎn)品。我個(gè)人非常期待的一個(gè)應(yīng)用場(chǎng)景是清理街道上的落葉。

我希望能看到 Optimus 機(jī)器人走在街上,撿起每一片落葉,這樣我們就不需要用吹葉機(jī)了。這是一個(gè)很棒的任務(wù),希望這是其中一個(gè)早期應(yīng)用。甚至像是耙葉這樣的任務(wù)也很適合。

Sara Guo:

耙葉的確也是很不錯(cuò)的工作。

Elad Gil:

而且還很安靜。

Sara Guo:

對(duì)。實(shí)際上,現(xiàn)在已經(jīng)有一些機(jī)器人能夠執(zhí)行這些任務(wù),只不過(guò)它們不是人形的。我們談到的重點(diǎn)是人形機(jī)器人。

最簡(jiǎn)單的理解方式是,世界是為人類設(shè)計(jì)的,所以你應(yīng)該設(shè)計(jì)一套能夠在人類設(shè)計(jì)的環(huán)境中執(zhí)行越來(lái)越多任務(wù)的硬件。

但另一種觀點(diǎn)認(rèn)為,人類并不是最適合所有任務(wù)的形態(tài)。你可以讓機(jī)器人更強(qiáng)壯、更大、更小等等。那么你如何看待這個(gè)問(wèn)題?

Andrej Karpathy:

我覺(jué)得人們可能低估了任何單一平臺(tái)的固定成本的復(fù)雜性。對(duì)于任何平臺(tái)來(lái)說(shuō),都有很大的固定成本,因此集中化并讓一個(gè)平臺(tái)完成所有任務(wù)是很有意義的。

我還認(rèn)為人形平臺(tái)的吸引力在于人們可以輕松地進(jìn)行遙控操作,這對(duì)于數(shù)據(jù)收集非常有幫助,因?yàn)槿藗兡軌蚍浅H菀椎夭僮魉?。我覺(jué)得這一點(diǎn)經(jīng)常被忽視。當(dāng)然,正如你提到的,世界是為人類設(shè)計(jì)的,這一點(diǎn)也很重要。

未來(lái)我們可能會(huì)看到人形平臺(tái)的某些變體,但每個(gè)平臺(tái)的固定成本都是巨大的。而且,另一個(gè)重要的維度是,不同任務(wù)之間的遷移學(xué)習(xí)的巨大好處。

在 AI 中,你希望有一個(gè)神經(jīng)網(wǎng)絡(luò)能夠進(jìn)行多任務(wù)處理,從而獲取所有的智能和能力。這也是為什么語(yǔ)言模型如此有趣,因?yàn)樗鼈冊(cè)趩我坏奈谋绢I(lǐng)域內(nèi)進(jìn)行多任務(wù)處理,各種問(wèn)題之間共享知識(shí),并被耦合在一個(gè)神經(jīng)網(wǎng)絡(luò)中。

你需要這樣的平臺(tái),所有的數(shù)據(jù)都可以為其他任務(wù)提供好處。如果你為某個(gè)特定任務(wù)構(gòu)建了專用平臺(tái),你將無(wú)法從其他任務(wù)之間的知識(shí)遷移中受益。

Sara Guo:

是的,有一種觀點(diǎn)是,像 G1 這種機(jī)器人價(jià)格大概是 3 萬(wàn)美元,但似乎在某個(gè)成本下很難構(gòu)建一個(gè)功能非常強(qiáng)大的人形機(jī)器人。如果你只想要一個(gè)帶輪子的機(jī)械臂去執(zhí)行任務(wù),可能在初期有更便宜的通用平臺(tái)方案。你覺(jué)得這個(gè)觀點(diǎn)合理嗎?

Andrej Karpathy:

用硬件角度來(lái)看,采用廉價(jià)的通用平臺(tái)是合理的,比如給機(jī)器人裝上輪子而不是腿等。我感覺(jué)這種做法可能讓我們陷入了一個(gè)局部最優(yōu)解。

但構(gòu)建完美的平臺(tái)是一個(gè)長(zhǎng)期的好賭注。此外,我覺(jué)得人形平臺(tái)會(huì)讓人感到熟悉,人們可能更容易理解它的操作方式。

這也是我覺(jué)得人形平臺(tái)在心理上有優(yōu)勢(shì)的原因,除非人們害怕它,反而更喜歡抽象的非人類形態(tài)的機(jī)器人。但我不確定那樣會(huì)不會(huì)像某種怪物在做事情一樣讓人感到可怕。

Elad Gil:

是的,有趣的是,像 Unitree 的狗形態(tài)機(jī)器人似乎更友好、更熟悉。

Andrej Karpathy:

是的,但人們看過(guò)《黑鏡》后,可能會(huì)覺(jué)得狗形機(jī)器人突然變得很嚇人。所以很難判斷,我只是覺(jué)得心理上人們更容易理解人形機(jī)器人在做什么。

Elad Gil:

你認(rèn)為在人形機(jī)器人或其他形式的機(jī)器人領(lǐng)域,要實(shí)現(xiàn)這一未來(lái)還缺少哪些技術(shù)上的里程碑?

Andrej Karpathy:

我不確定我是否有很清晰的看法。我覺(jué)得在人形機(jī)器人的下半身控制方面,可能不需要像上半身那樣通過(guò)模仿學(xué)習(xí)來(lái)獲取數(shù)據(jù),因?yàn)橄掳肷砀嗍菙[動(dòng)控制。

而對(duì)于上半身,你需要大量的遙控操作、數(shù)據(jù)收集、端到端學(xué)習(xí)等。所以在這個(gè)層面上,機(jī)器人系統(tǒng)會(huì)變得非?;旌?。我也不確定這些系統(tǒng)會(huì)如何交互。

Elad Gil:

我和一些人聊過(guò),他們通常會(huì)關(guān)注驅(qū)動(dòng)和操作以及數(shù)字操作的挑戰(zhàn)。

Andrej Karpathy:

我預(yù)計(jì)一開(kāi)始會(huì)有很多遙控操作,用于將任務(wù)從地面啟動(dòng)起來(lái),通過(guò)模仿讓機(jī)器人可以完成 95% 的任務(wù),然后開(kāi)始逐步減少人類的介入,轉(zhuǎn)向更多的監(jiān)督機(jī)器人工作,而不是直接進(jìn)行操作。

所有這些都會(huì)逐步發(fā)生。我不認(rèn)為有某個(gè)特定的技術(shù)瓶頸阻礙我們前進(jìn)。更多的是基礎(chǔ)工作。大多數(shù)工具現(xiàn)在已經(jīng)具備了,比如 Transformer 是一個(gè)非常出色的工具,你可以用它來(lái)處理各種任務(wù)。

我們只需要獲取數(shù)據(jù),將其放入正確的形式,進(jìn)行訓(xùn)練、實(shí)驗(yàn)、部署并迭代。沒(méi)有某個(gè)單一的技術(shù)問(wèn)題在阻礙我們。

Sara Guo:

你覺(jué)得當(dāng)前的“大模型”研究狀態(tài)如何?

Andrej Karpathy:

關(guān)于“大模型”研究的現(xiàn)狀,我們處于一個(gè)非常好的階段。我不確定是否已經(jīng)有人完全認(rèn)識(shí)到,Transformer 比其他神經(jīng)網(wǎng)絡(luò)要強(qiáng)大得多。它不僅僅是另一個(gè)神經(jīng)網(wǎng)絡(luò),而是一個(gè)非常通用的、非常強(qiáng)大的神經(jīng)網(wǎng)絡(luò)。

例如,當(dāng)人們談?wù)撋窠?jīng)網(wǎng)絡(luò)中的擴(kuò)展規(guī)律時(shí),這種規(guī)律在很大程度上是 Transformer 的特性。之前,使用 LSTM 堆疊等模型時(shí),你并不能獲得良好的擴(kuò)展規(guī)律,這些模型訓(xùn)練效果不好,也無(wú)法很好地工作。

而 Transformer 是第一個(gè)真正能夠隨數(shù)據(jù)擴(kuò)展的模型,你能獲得清晰的擴(kuò)展規(guī)律,一切都很合理。

所以我把它看作是一臺(tái)“差分計(jì)算機(jī)”,你可以給它輸入和輸出,然后通過(guò)反向傳播訓(xùn)練它,它會(huì)自行排列形成能夠執(zhí)行任務(wù)的系統(tǒng)。

我們?cè)谒惴I(lǐng)域發(fā)現(xiàn)了一個(gè)非常神奇的東西。其背后有幾個(gè)關(guān)鍵的創(chuàng)新,比如殘差連接、層歸一化、注意力模塊,以及沒(méi)有使用一些會(huì)導(dǎo)致梯度消失的激活函數(shù)(如雙曲正切等)。

這些創(chuàng)新共同組成了 Transformer,而谷歌的那篇論文展示了它如何真正開(kāi)始工作。它的出現(xiàn)解鎖了很多可能性。

Sara Guo:

你覺(jué)得這種解鎖的極限還遠(yuǎn)未到嗎?畢竟現(xiàn)在也有人討論數(shù)據(jù)壁壘和下一代規(guī)模的成本問(wèn)題。你怎么看待這些問(wèn)題?

Andrej Karpathy:

現(xiàn)在神經(jīng)網(wǎng)絡(luò)的架構(gòu)不再是根本性的瓶頸了,Transformer 之前的確是瓶頸,但現(xiàn)在已經(jīng)不是了。如今的瓶頸在于損失函數(shù)和數(shù)據(jù)集,尤其是數(shù)據(jù)集。

所以現(xiàn)在大多數(shù)活動(dòng)都集中在如何改進(jìn)數(shù)據(jù)集和損失函數(shù)上。這也是為什么很多公司在應(yīng)用這些技術(shù)時(shí)并不關(guān)注 Transformer 的架構(gòu)。

Transformer 在過(guò)去五年幾乎沒(méi)有什么變化。最重要的變化可能是我們加入了“rope positional”這種位置編碼,但除此之外,架構(gòu)基本沒(méi)變。因此,大部分的創(chuàng)新都集中在數(shù)據(jù)集和損失函數(shù)上。

Sara Guo:

但有人認(rèn)為,當(dāng)時(shí)我們獲取的是互聯(lián)網(wǎng)上的數(shù)據(jù),而現(xiàn)在這些數(shù)據(jù)已經(jīng)枯竭了。你怎么看這個(gè)問(wèn)題?

Andrej Karpathy:

是的,互聯(lián)網(wǎng)上的數(shù)據(jù)確實(shí)快用完了,現(xiàn)在很多研究都集中在生成合成數(shù)據(jù)或更昂貴的數(shù)據(jù)收集上。

實(shí)際上,互聯(lián)網(wǎng)上的數(shù)據(jù)雖然能幫你走得很遠(yuǎn),但并不是 Transformer 最理想的數(shù)據(jù)?;ヂ?lián)網(wǎng)上的數(shù)據(jù)大多是網(wǎng)頁(yè),而我們真正想要的是你大腦中解決問(wèn)題的內(nèi)在思維軌跡。

Sara Guo:

對(duì),確實(shí)是這樣,大腦中的思維軌跡。

Andrej Karpathy:

如果我們有十億個(gè)這種思維軌跡的數(shù)據(jù),  AGI  可能就離我們不遠(yuǎn)了。但現(xiàn)實(shí)是我們沒(méi)有這些數(shù)據(jù)。所以現(xiàn)在的很多研究都集中在將數(shù)據(jù)集重新組織成這種內(nèi)在思維軌跡的格式上。同時(shí),還有大量的合成數(shù)據(jù)生成工作在幫助我們向這個(gè)方向邁進(jìn)。更有趣的是,現(xiàn)有的模型也在幫助我們構(gòu)建下一代模型。

Elad Gil:

是的,就像一段逐步上升的臺(tái)階。你覺(jué)得合成數(shù)據(jù)能幫助我們走多遠(yuǎn)?畢竟,每個(gè)模型都會(huì)幫助你更好地訓(xùn)練下一個(gè)模型,尤其是在數(shù)據(jù)標(biāo)注方面,部分可能會(huì)依賴合成數(shù)據(jù)。你覺(jué)得合成數(shù)據(jù)有多重要?

Andrej Karpathy:

合成數(shù)據(jù)是我們唯一的前進(jìn)途徑,我們必須讓它發(fā)揮作用。不過(guò)在使用合成數(shù)據(jù)時(shí)需要非常小心,因?yàn)檫@些模型會(huì)默默地“坍縮”。比如,當(dāng)你去問(wèn) ChatGPT 講個(gè)笑話時(shí),它可能只會(huì)講幾個(gè)重復(fù)的笑話。

這是因?yàn)槟P偷姆植继s了,而這一點(diǎn)是很難察覺(jué)的。當(dāng)你看單個(gè)輸出時(shí),你可能沒(méi)注意到這個(gè)問(wèn)題,但從整體分布來(lái)看,模型喪失了多樣性和豐富性。

因此,在生成合成數(shù)據(jù)時(shí),你需要確保保持?jǐn)?shù)據(jù)集的熵,也就是多樣性和豐富性。我們有很多技術(shù)可以實(shí)現(xiàn)這一點(diǎn)。比如,有人發(fā)布了一個(gè)“persona dataset”,它包含了十億個(gè)人物的背景信息,模擬了各種人類的個(gè)性和背景。

這個(gè)數(shù)據(jù)集包括“我是老師”或“我是藝術(shù)家,我住在某地,我做什么”等背景描述。合成數(shù)據(jù)生成不僅僅是“完成這個(gè)任務(wù)并以這種方式進(jìn)行”,你還可以加入個(gè)性化的描述信息,這樣可以強(qiáng)迫模型探索更多的空間,保持?jǐn)?shù)據(jù)集的熵。

所以,在這方面需要非常小心,確保數(shù)據(jù)集的多樣性被保留,這也是當(dāng)前最大的挑戰(zhàn)之一。

Sara Guo:

你覺(jué)得我們從這些研究中學(xué)到了關(guān)于人類認(rèn)知的什么?

Andrej Karpathy:

我不確定我們是否真的學(xué)到了很多。

Sara Guo:

也許我們正在探索推理軌跡的形態(tài),這其實(shí)對(duì)理解大腦的工作方式也很有幫助。

Andrej Karpathy:

我覺(jué)得使用類比時(shí)需要小心,因?yàn)樗鼈兤鋵?shí)是非常不同的事物。不過(guò)我確實(shí)認(rèn)為有些類比是可以借鑒的。

比如說(shuō),在某些方面,Transformer 實(shí)際上比人類大腦更出色。Transformer 是一個(gè)效率更高的系統(tǒng)。之所以它目前還沒(méi)有達(dá)到人腦的水平,主要是因?yàn)閿?shù)據(jù)問(wèn)題,這是的第一個(gè)近似原因。

比如在記憶序列方面,Transformer 遠(yuǎn)勝于人類。如果你給它一個(gè)序列,并進(jìn)行一次前向和后向傳播,那么當(dāng)你給它提供這個(gè)序列的前幾個(gè)元素時(shí),它會(huì)自動(dòng)完成剩下的部分。而人類如果只看一次序列,幾乎不可能記住它。

所以 Transformer 的梯度優(yōu)化過(guò)程(前向和后向更新)在某些方面比大腦的學(xué)習(xí)機(jī)制更加高效。這些模型的確更好,只是它們還沒(méi)有完全展現(xiàn)出它們的潛力。但在很多認(rèn)知方面,它們會(huì)逐漸顯現(xiàn)出優(yōu)勢(shì)。

Sara Guo:

在正確的輸入下,它們會(huì)變得更好。

Andrej Karpathy:

這確實(shí)是計(jì)算機(jī)在各種應(yīng)用中的趨勢(shì)。

Elad Gil:

對(duì),我覺(jué)得人類的記憶能力也有局限。

Andrej Karpathy:

沒(méi)錯(cuò)。人類大腦的工作記憶非常有限,而 Transformer 擁有更大的工作記憶容量,而且這種優(yōu)勢(shì)會(huì)持續(xù)下去。Transformer 是更高效的學(xué)習(xí)者,而人類大腦則受到各種約束的限制,比如環(huán)境條件等。所以這些 AI 系統(tǒng)有可能在未來(lái)超越人類大腦,只是目前還未實(shí)現(xiàn)。

Elad Gil:

你怎么看待未來(lái)人類與 AI 系統(tǒng)的結(jié)合?你覺(jué)得這是一個(gè)可能的方向嗎?比如通過(guò)AI模型增強(qiáng)人類的能力。

Andrej Karpathy:

當(dāng)然,這是一個(gè)非常有可能的方向。實(shí)際上,使用 AI 工具的外部版本已經(jīng)是一種抽象的增強(qiáng)方式。然后還有“融合”的場(chǎng)景,很多人都在討論這一點(diǎn)。

Elad Gil:

是的,很多人討論這種“融合”,但目前我們主要是通過(guò)指尖與工具進(jìn)行交互。

Andrej Karpathy:

是的,這是一種瓶頸。人們已經(jīng)討論了幾十年技術(shù)工具如何擴(kuò)展人類能力,比如說(shuō)計(jì)算機(jī)被稱為人類大腦的自行車。我們已經(jīng)看到技術(shù)作為工具的外延,但一些AI研究者認(rèn)為,未來(lái)我們可能會(huì)通過(guò)某種形式的“神經(jīng)鏈接”來(lái)解決潛在的人機(jī)沖突,或者通過(guò)這種融合進(jìn)一步增強(qiáng)人類能力。

我不確定這種“融合”最終會(huì)是什么樣子,但我能想象減少人與工具之間的輸入輸出瓶頸是一個(gè)重要方向。我把它看作是一個(gè)“外部大腦皮層”(exo-cortex),就像在我們的大腦皮層上添加了一層新功能,只不過(guò)這層新功能在云端,但它確實(shí)是大腦的下一個(gè)層次。

Elad Gil:

是的,早在 2000 年代初的《加速》(*Accelerando*)一書(shū)中就有類似的設(shè)想,一切都通過(guò)與大腦相連的計(jì)算設(shè)備實(shí)現(xiàn),如果你失去了這些設(shè)備,就仿佛失去了記憶的一部分。

Andrej Karpathy:

我覺(jué)得這非常有可能。而且今天的智能手機(jī)已經(jīng)幾乎具備了這種功能。如果你失去了這些科技設(shè)備,你會(huì)感覺(jué)失去了一部分自我。

Sara Guo:

就像失去了部分智力一樣。

Elad Gil:

是的,這是非常有趣的現(xiàn)象。一個(gè)簡(jiǎn)單的例子就是導(dǎo)航,現(xiàn)在很多人發(fā)現(xiàn)自己已經(jīng)無(wú)法在城市中自行導(dǎo)航了,因?yàn)榭偸且蕾囉谥鸩降膶?dǎo)航提示。如果這種技術(shù)更進(jìn)一步,比如即時(shí)翻譯系統(tǒng),人們可能就會(huì)失去與不講英語(yǔ)的人交流的能力。

Andrej Karpathy:

我不認(rèn)為這種技術(shù)的實(shí)現(xiàn)太遙遠(yuǎn)了。一旦這種即時(shí)翻譯系統(tǒng)成為主流,如果你不再依賴它,可能就無(wú)法與講不同語(yǔ)言的人交流。

Sara Guo:

我對(duì)這種情景很有信心,可以把大腦的這部分功能釋放出來(lái),投入到更深的研究中。

Andrej Karpathy:

你可能看到過(guò)那個(gè)小孩拿著一本雜志,試圖在雜志上滑動(dòng),就像滑動(dòng)屏幕一樣。這讓我感到驚訝的是,這個(gè)孩子無(wú)法分辨自然界的東西和技術(shù)疊加的東西,因?yàn)檫@些技術(shù)太透明了。

我覺(jué)得未來(lái)可能會(huì)有類似的情況,人們會(huì)開(kāi)始認(rèn)為這些工具是自然而然的一部分。等到你把這些工具拿走時(shí),才意識(shí)到原來(lái)這些是技術(shù),而不是本能。

Sara Guo:

是的,如果我們談?wù)撏獠看竽X皮層(exo-cortex),這似乎是一個(gè)非常重要的概念,如何將其民主化,人人都能使用。你怎么看待目前AI研究領(lǐng)域的市場(chǎng)結(jié)構(gòu)?比如現(xiàn)在只有少數(shù)大型實(shí)驗(yàn)室有能力推進(jìn)下一代訓(xùn)練,這會(huì)如何影響未來(lái)的技術(shù)普及?

Andrej Karpathy:

你剛才提到的可能是關(guān)于生態(tài)系統(tǒng)的現(xiàn)狀?,F(xiàn)在我們有幾家主導(dǎo)性的封閉平臺(tái),以及一些相對(duì)落后的開(kāi)源平臺(tái),比如 Meta 的 Llama。

這種情況其實(shí)有點(diǎn)類似于開(kāi)源生態(tài)系統(tǒng)的格局。當(dāng)我們開(kāi)始把這些東西看作“外部大腦皮層”(exo-cortex)時(shí),這就像加密貨幣中的一句話:“沒(méi)有你的密鑰,就沒(méi)有你的幣”。

那么,是否可以說(shuō),如果不是你擁有的權(quán)重,那也不是你的大腦?這很有趣,因?yàn)楣緦?shí)際上在控制你的一部分“外部大腦皮層”。

Elad Gil:

是的,聽(tīng)起來(lái)確實(shí)有點(diǎn)侵入性。

Sara Guo:

如果這是我的外部大腦皮層,我想我會(huì)更加在意擁有權(quán)的問(wèn)題。

Andrej Karpathy:

對(duì),你會(huì)意識(shí)到你是在租用你的大腦,這聽(tīng)起來(lái)很奇怪,像是在租用大腦。

Sara Guo:

如果有一個(gè)思想實(shí)驗(yàn),你愿意放棄所有權(quán)并租用一個(gè)更好的大腦嗎?我想我會(huì)愿意。

Andrej Karpathy:

是的,這是我們需要權(quán)衡的東西。也許我們會(huì)默認(rèn)使用那些封閉版本,因?yàn)樗鼈兊男Ч浅:?,但在某些情況下,我們可以依賴一些備用方案。

我覺(jué)得這就是現(xiàn)在的發(fā)展方向。比如,當(dāng)一些封閉源提供商的API出現(xiàn)問(wèn)題時(shí),人們會(huì)實(shí)現(xiàn)備用方案,轉(zhuǎn)向自己完全控制的開(kāi)源生態(tài)系統(tǒng)。這讓他們感覺(jué)更加自主。

Sara Guo:

所以,開(kāi)源系統(tǒng)的持續(xù)進(jìn)步非常重要。

Andrej Karpathy:

我 100% 同意。這可能現(xiàn)在并不是一個(gè)大家都認(rèn)可的觀點(diǎn),但它是非常重要的。

Elad Gil:

我一直在想,最小的高效模型可以做到什么程度?無(wú)論是在參數(shù)大小上還是其他方面,你對(duì)此怎么看?你對(duì)小型模型的蒸餾有很多思考。

Andrej Karpathy:

模型可以非常小?,F(xiàn)在的模型浪費(fèi)了大量容量,記住了一些無(wú)關(guān)緊要的東西,比如它們記住了散列值和過(guò)時(shí)的信息。

Sara Guo:

是因?yàn)閿?shù)據(jù)集沒(méi)有經(jīng)過(guò)篩選,最好的部分沒(méi)有被突出。

Andrej Karpathy:

這種情況會(huì)改變。我們只需要找到認(rèn)知核心,這個(gè)核心可以非常小。它只需要處理最重要的事情,其他信息如果需要可以通過(guò)工具獲取。

Sara Guo:

那這個(gè)認(rèn)知核心需要 30 億參數(shù)還是 200 億參數(shù)?

Andrej Karpathy:

甚至 10 億參數(shù)可能就足夠了,模型可以非常小。我之所以這么說(shuō),主要是因?yàn)檎麴s過(guò)程非常有效。你可以用一個(gè)非常大的模型,通過(guò)大量計(jì)算,去教一個(gè)小模型,而這個(gè)小模型可以保留大模型的能力。

Elad Gil:

你能把這種蒸餾過(guò)程量化為某種數(shù)學(xué)表達(dá)式嗎?有沒(méi)有一種信息理論的方式去表示這個(gè)過(guò)程?感覺(jué)我們應(yīng)該可以通過(guò)某種方式來(lái)計(jì)算出需要的模型大小。

Andrej Karpathy:

我們現(xiàn)在處理的是互聯(lián)網(wǎng)數(shù)據(jù),互聯(lián)網(wǎng)數(shù)據(jù)的有用信息可能只占很小一部分,大部分都是噪音。關(guān)鍵是提取出有用的“認(rèn)知”部分。

Elad Gil:

可能另一種方式是將認(rèn)知能力與模型大小相關(guān)聯(lián),或者說(shuō)如何用某種方式捕捉認(rèn)知能力相對(duì)于模型大小的表現(xiàn),也許沒(méi)有一個(gè)很好的方式去表示這種關(guān)系。但10億參數(shù)可能已經(jīng)可以提供一個(gè)非常好的認(rèn)知核心。

Andrej Karpathy:

我覺(jué)得可能是這樣的,甚至 10 億參數(shù)可能都多了。

Sara Guo:

想到這一點(diǎn)還是很令人興奮的,尤其是考慮到這種小模型可以部署在邊緣設(shè)備上,而不是依賴云計(jì)算。

Elad Gil:

是的,這確實(shí)對(duì)模型的使用方式帶來(lái)了很大的改變,這很激動(dòng)人心。

Sara Guo:

少于 10 億參數(shù),意味著我可以在本地設(shè)備上擁有我的“外部大腦皮層”。

Andrej Karpathy:

是的,我覺(jué)得未來(lái)可能不是單一的模型,而是多模型并行合作的系統(tǒng)。并行處理在未來(lái)會(huì)變得越來(lái)越重要,而不只是依賴順序處理。

像公司一樣,信息處理也是分層級(jí)的,某些信息需要不同層次的處理,這也是公司內(nèi)部的一種并行化工作方式。

未來(lái)的模型會(huì)像公司一樣分布在不同的層級(jí)和領(lǐng)域,比如某個(gè)模型是程序員,另一個(gè)是程序管理者。多個(gè)模型可以并行工作,協(xié)同完成計(jì)算任務(wù)。

Elad Gil:

這聽(tīng)起來(lái)更像是一個(gè)生物生態(tài)系統(tǒng),不同的角色和生態(tài)位相互合作。

Sara Guo:

根據(jù)問(wèn)題的難度和不同的專業(yè)領(lǐng)域,你可以自動(dòng)地將任務(wù)升級(jí)到“集群”的其他部分。

Andrej Karpathy:

是的,可能某些模型是高性能的云端模型,而其他模型可能是更廉價(jià)的資源模型。

Sara Guo:

而且每個(gè)人的成本函數(shù)可能是不同的。

Andrej Karpathy:

這確實(shí)很有趣。

Sara Guo:

你離開(kāi)  OpenAI ,開(kāi)始從事教育領(lǐng)域的工作。你一直以來(lái)都是教育者,為什么決定做這個(gè)?

Andrej Karpathy:

我一直以來(lái)都熱愛(ài)教育,喜歡學(xué)習(xí)和教學(xué)。這一直是我非常熱情的領(lǐng)域。而另一個(gè)推動(dòng)我的原因是,我覺(jué)得現(xiàn)在 AI 的很多應(yīng)用都是在取代人類工作,但我更感興趣的是那些能賦能人類的 AI。

我不希望看到一個(gè)人類被邊緣化的未來(lái),而是希望看到一個(gè)人類變得更加優(yōu)秀的未來(lái)。如果每個(gè)人都有一個(gè)完美的導(dǎo)師來(lái)學(xué)習(xí)各個(gè)科目,人類可以走得很遠(yuǎn)。

我們看到有錢人雇傭私人教師,確實(shí)能取得很好的結(jié)果。通過(guò) AI,我們可以實(shí)現(xiàn)類似的效果,甚至是超越。

Elad Gil:

是的,1980 年代有一個(gè)經(jīng)典的研究顯示,一對(duì)一輔導(dǎo)可以使學(xué)生的成績(jī)提高一個(gè)標(biāo)準(zhǔn)差。你覺(jué)得 AI 如何能夠?qū)崿F(xiàn)這樣的效果?哪些產(chǎn)品會(huì)首先幫助實(shí)現(xiàn)這一點(diǎn)?

Andrej Karpathy:

我受到一些靈感的啟發(fā)。當(dāng)前,我正在嘗試構(gòu)建一門(mén) AI 課程,我想讓它成為每個(gè)人學(xué)習(xí)AI時(shí)首先想到的課程。

我曾經(jīng)在斯坦福教授 AI 課程,但問(wèn)題是,如何讓課程規(guī)?;?,能夠覆蓋全球80億人,并適應(yīng)不同語(yǔ)言、不同水平的學(xué)生?單靠一個(gè)教師是無(wú)法做到這一點(diǎn)的,所以我在考慮如何用 AI 來(lái)擴(kuò)展這種教師的能力。

我的想法是,教師負(fù)責(zé)課程的創(chuàng)建和設(shè)計(jì),而AI則成為前端,與學(xué)生進(jìn)行互動(dòng),幫助他們學(xué)習(xí)。教師不再直接接觸學(xué)生,而是在幕后設(shè)計(jì)材料,AI則負(fù)責(zé)講解。

Sara Guo:

我是否可以把這看作是“AI 助教”?

Andrej Karpathy:

可以這么理解。AI 是學(xué)生的前端接口,引導(dǎo)他們完成課程。這是目前可以實(shí)現(xiàn)的,雖然還沒(méi)有完全存在,但我相信這是可行的。

隨著 AI 能力的提升,未來(lái)可能會(huì)對(duì)課程結(jié)構(gòu)進(jìn)行重構(gòu)。我專注于找到那些今天AI能力可以勝任的任務(wù),這種思路讓我能夠設(shè)計(jì)出更加實(shí)際的產(chǎn)品。

Sara Guo:

你提到的一點(diǎn)讓我感到非常鼓舞,特別是來(lái)自你對(duì)研究現(xiàn)狀的深刻理解。我們不知道在人類具備更好工具的情況下,學(xué)習(xí)能力的極限在哪里。

就像我們?cè)谧罱膴W運(yùn)會(huì)上看到的,運(yùn)動(dòng)員的成績(jī)比十年前大大提高,因?yàn)樗麄儚男【烷_(kāi)始訓(xùn)練,使用了更科學(xué)的訓(xùn)練方法和設(shè)備。

你相信人類的學(xué)習(xí)能力在未來(lái)可以通過(guò)更完善的工具和課程得到大幅提升,這一點(diǎn)真的非常振奮人心。

Andrej Karpathy:

是的,我覺(jué)得我們連可能性的表面都還沒(méi)觸及。這里有兩個(gè)維度:一個(gè)是全球化的維度,我希望每個(gè)人都能獲得優(yōu)質(zhì)教育。

另一個(gè)是個(gè)體層面的,探索單個(gè)個(gè)體能走多遠(yuǎn)。我覺(jué)得這兩點(diǎn)都非常有趣和激動(dòng)人心。

Elad Gil:

通常人們?cè)谟懻撘粚?duì)一學(xué)習(xí)時(shí),談?wù)摰氖莻€(gè)性化學(xué)習(xí),即根據(jù)學(xué)生的水平挑戰(zhàn)他們。你覺(jué)得AI可以做到這一點(diǎn)嗎?還是目前AI的重點(diǎn)在于覆蓋范圍和多語(yǔ)言支持?

Andrej Karpathy:

目前 AI 在翻譯和多語(yǔ)言支持方面已經(jīng)非常出色,這些是現(xiàn)成的成果。至于個(gè)性化適應(yīng)學(xué)生背景的能力,這仍然是一個(gè)需要解決的問(wèn)題,但并不太遙遠(yuǎn)。

如果學(xué)生有物理學(xué)背景,AI 可以根據(jù)這個(gè)信息進(jìn)行調(diào)適,這在教育中是非常有用的。我想這將是我們要努力實(shí)現(xiàn)的方向,雖然目前還不完全具備這種能力。

Elad Gil:

是的,個(gè)性化學(xué)習(xí)的難點(diǎn)在于,不同學(xué)生在不同領(lǐng)域的學(xué)習(xí)速度不同,如何根據(jù)學(xué)生的情況調(diào)整教學(xué)內(nèi)容是一大挑戰(zhàn)。不過(guò),我相信隨著時(shí)間推移,AI模型會(huì)越來(lái)越擅長(zhǎng)這一點(diǎn)。

Andrej Karpathy:

是的,AI 的很多能力現(xiàn)在可以通過(guò)簡(jiǎn)單的提示實(shí)現(xiàn),但從演示到實(shí)際產(chǎn)品之間還有一定距離。我會(huì)說(shuō),演示已經(jīng)很接近了,但產(chǎn)品化還需要一些時(shí)間。

Elad Gil:

在科研界,人們常常討論不同實(shí)驗(yàn)室的背景,很多諾貝爾獎(jiǎng)得主曾在其他諾獎(jiǎng)得主的實(shí)驗(yàn)室工作。你覺(jué)得在以 AI 為中心的教育世界里,如何保持這種知識(shí)傳承和文化傳播?

Andrej Karpathy:

我不希望生活在一個(gè)“背景”太重要的世界里。我希望AI能夠打破這種結(jié)構(gòu),因?yàn)樗悬c(diǎn)像是對(duì)稀缺資源的把控,比如擁有某種背景的人的數(shù)量有限。我希望AI能夠改變這一點(diǎn)。

我覺(jué)得在考慮未來(lái)的教育系統(tǒng)時(shí),它可能不僅僅是一個(gè)單一模型,而是多個(gè)模型并行合作的系統(tǒng)。類似于公司的結(jié)構(gòu),不同的模型會(huì)有不同的角色和職責(zé),它們?cè)诓⑿刑幚韽?fù)雜任務(wù)時(shí)會(huì)互相協(xié)調(diào),就像一個(gè)“集群”系統(tǒng)一樣。

我想我們會(huì)看到越來(lái)越多的模型專注于不同的任務(wù)領(lǐng)域,比如程序員、程序管理者等,它們會(huì)像一個(gè)公司一樣相互協(xié)作。

Elad Gil:

這有點(diǎn)像一個(gè)生物生態(tài)系統(tǒng),不同的角色和生態(tài)位互相協(xié)作。

Sara Guo:

是的,取決于問(wèn)題的難度和專業(yè)領(lǐng)域,任務(wù)可以自動(dòng)升級(jí)到“集群”的其他部分。

Andrej Karpathy:

是的,可能某些模型是高性能的云端模型,其他模型可能是資源更廉價(jià)的模型,它們各自承擔(dān)不同的任務(wù)。

Sara Guo:

你離開(kāi)  OpenAI  開(kāi)始從事教育,你一直以來(lái)都熱衷于教育,為什么選擇這個(gè)方向?

Andrej Karpathy:

我一直以來(lái)都喜歡學(xué)習(xí)和教學(xué),這一直是我非常熱情的領(lǐng)域。另一方面,我覺(jué)得現(xiàn)在很多 AI 應(yīng)用都是在替代人類的工作,但我更感興趣的是那些能夠賦能人類的 AI。

我希望未來(lái)的人類能夠通過(guò) AI 變得更加強(qiáng)大,而不是被邊緣化。我想知道,如果每個(gè)人都有一個(gè)完美的導(dǎo)師,他們能夠走多遠(yuǎn)。如果我們能夠通過(guò) AI 提供這種教育,這將非常令人興奮。

Elad Gil:

你提到教育作為娛樂(lè)的理念非常有趣,尤其是你談到未來(lái)人類可以通過(guò)更好的工具大幅提升學(xué)習(xí)能力。你覺(jué)得 AI 能在多大程度上幫助人們實(shí)現(xiàn)這些目標(biāo)?

Andrej Karpathy:

AI 能極大地改善學(xué)習(xí)體驗(yàn),尤其是在全球范圍內(nèi)提供優(yōu)質(zhì)教育。今天的很多學(xué)習(xí)動(dòng)機(jī)來(lái)自于經(jīng)濟(jì)需要,比如找工作或提升自己的經(jīng)濟(jì)地位。

在未來(lái)的后  AGI  社會(huì)中,教育可能會(huì)變得更多是出于娛樂(lè)和自我提升的目的。我希望人們不僅僅是在追求實(shí)用性,而是從教育中獲得滿足感,像是去健身房鍛煉大腦一樣。

Sara Guo:

你提到教育是一種類似于健身房鍛煉的體驗(yàn)。教育本身確實(shí)需要付出努力,但這種努力也是一種滿足感的來(lái)源。

Andrej Karpathy:

是的,教育的確需要付出努力,但這種努力也是一種特別的“樂(lè)趣”。人們從中獲得成就感,感覺(jué)自己變得更好。我希望在未來(lái)的世界中,人們不僅在身體上去健身房,也會(huì)在心理和智力上“鍛煉”,讓教育成為一種崇尚的追求。

Sara Guo:

那么你正在開(kāi)發(fā)的這門(mén)課程的目標(biāo)受眾是誰(shuí)?

Andrej Karpathy:

我設(shè)想的受眾主要是大學(xué)本科水平的學(xué)生,特別是那些在技術(shù)領(lǐng)域?qū)W習(xí)的人。盡管如此,隨著社會(huì)的快速變化,教育將不再局限于傳統(tǒng)的學(xué)制內(nèi)。

未來(lái)人們會(huì)更多地回到“學(xué)?!被?qū)W習(xí)新的技能。所以這門(mén)課程雖然針對(duì)本科生,但實(shí)際上任何有技術(shù)背景的人,不論年齡,都可以從中受益。

課程的發(fā)布時(shí)間原計(jì)劃是今年年底,但現(xiàn)在可能要推遲到明年初,因?yàn)槲矣泻芏嗥渌?xiàng)目需要處理。

Elad Gil:

最后一個(gè)問(wèn)題,假如你今天有小孩子,你會(huì)建議他們學(xué)習(xí)什么,以便在未來(lái)?yè)碛懈袃r(jià)值的技能?

Andrej Karpathy:

在我看來(lái),正確的答案是數(shù)學(xué)、物理、計(jì)算機(jī)科學(xué)這些學(xué)科。我之所以這么說(shuō),是因?yàn)檫@些學(xué)科能幫助培養(yǎng)思維能力。

我個(gè)人的背景可能有些偏頗,但這些學(xué)科是最好的思維訓(xùn)練核心。比如我自己學(xué)習(xí)數(shù)學(xué)和物理課程,它們塑造了我的思維方式,非常有助于解決問(wèn)題。

如果我們還處于  AGI  之前的世界,這些技能非常有用;即使是在 AGI 之后的世界,你仍然希望人類能夠在各種能力下保持自主和強(qiáng)大。所以這就是人們應(yīng)該學(xué)習(xí)的正確內(nèi)容,既實(shí)用又有價(jià)值。

特別是在關(guān)鍵的成長(zhǎng)時(shí)期,人們有很多時(shí)間和注意力,這時(shí)候應(yīng)該更多地花在那些需要簡(jiǎn)單操作和思考的任務(wù)上,而不是記憶為主的任務(wù)。

Elad Gil:

我學(xué)過(guò)數(shù)學(xué),感覺(jué)自己腦子里開(kāi)辟了一個(gè)全新的領(lǐng)域,有點(diǎn)太多了。

Sara Guo:

是的,而且在之后的生活中很難再去開(kāi)辟新的思維路徑。

Elad Gil:

當(dāng)然,我并不反對(duì)其他學(xué)科。廣泛的知識(shí)涉獵非常美妙,但我確實(shí)認(rèn)為80%的時(shí)間應(yīng)該用來(lái)學(xué)習(xí)這些核心學(xué)科。

Sara Guo:

我們不是很擅長(zhǎng)記憶,與我們的工具相比更是如此。

本文由人人都是產(chǎn)品經(jīng)理作者【江天 Tim】,微信公眾號(hào):【有新Newin】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Andrej Karpathy 與 Sara Guo 和 Elad Gil 的對(duì)話截圖

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!