后Transformer時代,AI將何去何從?(上)|【十萬字】深度研報

0 評論 385 瀏覽 5 收藏 210 分鐘

從互聯網的搜索引擎和個性化推薦系統,到掃地機器人的Mapping算法和智能音箱的對話,再到“AI四小龍”的圖像識別和自動駕駛公司,一直到現在的多模態大模型的生成能力,幾乎每一次的AI的產業化,都會帶來商業革命,從而產生巨大的社會價值。

本文的重點將全方位框架性的介紹AI:從哲學和神經科學的角度映射到AI學科,從技術理論講至落地流程,最后覆蓋大模型全產業鏈。當然也包括上述的過去、現在與未來。為同行們提供多元的觀點和投資方向,也為了想理解AI的讀者們進行一定的補充,方便深入研究。

本文在大量專家和同行的文獻觀點基礎上,筆者加上一些淺薄的理解生成了這篇文章。真的非常感謝前輩和同行們的知識分享,如有錯誤,請及時指正,也歡迎激烈的討論。

本文內容摘選于Scale Partners勢乘資本《AI研究》深度報告。

一、核心判斷及觀點

壓縮即智能-十幾萬字的核心不過100多字

注意力機制告訴我們要做減法,總結是最好的減法過程。一個產業的結論:5句話足以。

  1. 理解神經科學機制,會對AI的發展起到關鍵作用!
  2. 聯結主義學派仍然繼續要走壓縮智能和物理世界模型等深度仿生路線!
  3. 大模型的Scaling Law大概率失效下,大模型將降本增效-模型更小,成本更低,大家將會專注基于目前大模型能力,開發PMF的產品!
  4. 國內大模型公司將會轉型做垂直行業產品的變多,不會有那么多的人留在牌桌上!
  5. AI Infra:推理和訓練階段的計算優化,合成數據;大模型層:有持續穩定大流量使用以及良好的盈利潛力,期望能突破互聯網的生態;應用層將大爆發:美術工具、音樂生成、AI4S、生產控制、學齡前兒童教育、游戲、智能眼鏡、智能陪伴和具身智能;商業價值較高,投資機會明顯。

二、AI導論

AI概念

人工智能(Artificial Intelligence,AI)研究目的是通過探索智慧的實質(哲學知識論和腦科學),擴展人造智能(計算機科學)—— 促使智能主體會聽(語音識別、機器翻譯等)、會看(圖像識別、文字識別等)、會說(語音合成、人機對話等)、會思考(人機對弈、專家系統等)、會學習(知識表示,機器學習等)、會行動(機器人、自動駕駛汽車等)。

AI學科的發展是由哲學知識論不斷引導著神經科學和計算機科學融合(兩者互相促進)的。

一個經典的AI定義是:“ 智能主體可以理解數據及從中學習,并利用知識實現特定目標和任務的能力。(A system’s ability to correctly interpret external data, to learn from such data, and to use those learnings to achieve specific goals and tasks through flexible adaptation)”

意識之外…

辯證上來說,一定會有人類的感知系統盲區,無法感知就無法意識到盲事物的存在。而人類萬萬沒想到,這個盲區竟先來自于我們的大腦,具體來說是我們的神經系統。

神經系統把我們的感知死死限制在了對外界信息的獲取和處理過程中,你可以通過眼、耳、口、鼻、舌、皮膚等外界感受器,獲取大街上的帥哥美女信息,想一想今天晚上吃些什么,然后再刷刷抖音【1】。

我們的意識絕對不能主觀控制心跳,控制腸胃的蠕動,肝臟的運行,控制血管的收縮,當然,意識更不能指導每一個神經元的運轉,由于意識權限僅僅被限制在神經網絡之中,若不是通過解剖和顯微鏡看到了神經元,人類甚至不知道神經元本身的存在。

我們以為自己的意識是身體或者大腦的主人。但我們還在媽媽肚子里的前兩個月,根本沒有任何的意識。我們以為的“自我”根本就不存在。但身體,依舊按照DNA編碼的規則,按部就班的發育著。

隨著孕齡的增大,聽覺、味覺、觸覺等感知系統的發育逐漸完善后,大腦才能建立足夠多的神經網絡,讓我們產生意識。

人類科學家終于認識到–意識不等于大腦。

我們思考中的意識世界不過是神經元相互協作的結果。主動的意識習慣也可以改造神經元回路。(辯證唯物主義:意識產生于物質,但意識可以改造物質)

神經科學

隨著人們對神經系統的研究深入,科學家們對智能的形成逐漸從意識層面(可認知的、膚淺)轉向至物理層面(難以認知的、源頭)。

圖:意識和物理上的知識形成【2】

很多AI創業者和科學家特別喜歡說自己的項目才是更像人的運動、思維和感知模式,來強調技術的優越性,本篇將注重:

  1. 人的神經系統如何運作
  2. 以及是否需要擬人才能實現效果

來幫助大家更好的獨立判斷項目。

1)神經科學的發展歷史、現狀和展望

注:本篇知識點和框架大規模借鑒了認知神經科學之父邁克爾·加扎尼加(Michael S. Gazzaniga)編寫的認知神經科學教科書第三版,在此基礎上補充了了前沿研究成果。

神經科學概述

神經科學(Neuroscience),又稱神經生物學,是對神經系統(包括大腦、脊柱和周圍神經系統)及其功能和疾病的科學研究。

神經科學是醫學領域,乃至整個自然科學界最前沿、最復雜、最深奧的學科之一。近一百年,腦科學獲得了近二十項諾貝爾獎。

“左腦負責理性思考,右腦負責創造力?!焙芏嗳嗽洝⑸踔连F在依然對類似這樣的說法信以為真。這是因為,很長時間以來,對大腦的研究往往會把大腦劃分出幾個區域,分別研究單個腦區的功能。

但現在,許多神經科學家指出,是時候以新的方式來提升我們對大腦運行原理的認識了:大腦的各種功能,關鍵不在于某一個腦區,而是來自于不同區域之間的交流。

人類對腦的探索過程

圖:1873年,人類通過染色法第一次觀察到完整的神經元

西方的科學家,經歷了哲學思考、動物解剖、人類大腦解剖、腦功能分區、染色法發現神經元、電生理、神經化學、膜片鉗、核磁共振成像、甚至是AI模擬的范式轉變。由思想層面轉變至物質層面,由整體層面轉變至神經元微觀層面,由直接觀察到間接機制的模擬。

總而言之,神經科學發展是一個由不斷更新的研究手段(1 直接觀察:解剖、核磁共振影像;2 間接觀察:電壓鉗、膜片鉗、染色示蹤;3 藥理學;4 認知精神科學 5 AI模型復現)為主要驅動和從而發現的機制原理為次要驅動的相互影響雙螺旋發展。

現狀和展望

至今,目前的腦科學研究,在分子生物層面和認知行為層面還是很強的(個體機制),薄弱環節在于神經環路和系統機制方面(整體機制),如何分析各個神經環路的工作原理,以此來解釋腦的功能或人的行為,進而闡明人腦的系統性工作機制。

圖:個體機制–神經元的工作機制

認識神經元不難,搞清楚它們之間的排列組合,才是難【3】。

因為人類的大腦估計已經包含860億個(10^11次方)神經元,這些細胞信號傳遞到對方通過多達100萬億(10^15)突觸連接。

圖:整體機制–神經元的排列組合

就好比,我們現在已經初步畫好了咱們大腦圖譜有哪些“中心功能大樓”,也知道了這些大樓本身是由神經元為磚瓦砌起來的,但是大樓內部的電線管道是怎么鋪的?大樓與大樓之間的交通線路是怎么設計的?它們之間的排列組合、優先次序、是否有替代線路?我們仍然知之甚少。

這些像蜘蛛網一樣密密麻麻排列的“大腦”線路,神經科學家們稱之為“連接組”(connectome)。我們始終相信,研究大腦,就要先從全面繪制大腦的連接地圖開始(大腦的物質構造)。

階段一:C.elegan,線蟲-302個神經元(重現方法:切片/電鏡/手繪)

于是,我們決定先殺個小小的生物的大腦來試試水,第一刀,揮向的是C.elegan,線蟲(302個神經元)。

1970年代,劍橋大學兩位分子生物學家John White 和 Sidney Brenner決定利用線蟲來研究大腦連接組學,他們將線蟲大腦切成了超薄腦片,通過將相機架在電鏡下拍攝微觀圖片,然后放大打印出每一個腦片的電鏡下圖像,再人工用彩色鉛筆一點一點、一圈一圈地標記線蟲的大腦結構,繪制線蟲腦圖。

終于,十年以后,1986年,這項工作完成了,線蟲–一個擁有302個神經元的簡單生物–成為了人類神經科學研究史上第一個,也是迄今為止唯一一個,擁有完整大腦圖譜的生物。

階段2:果蠅的半個大腦-25,000個神經元(重現方法:切片/電鏡/CV)

我們開始想辦法提高技術,把樣品準備和電鏡拍攝速度提高、利用計算機算法來自動識別電鏡圖像下的神經元、以及引入人工智能來處理這大批量的數據,等等。

我們“教會”計算機如何識別一個個神經元細胞,命令它們將不同神經元以不同顏色區分開來,接著再將這每一個薄薄的腦片疊加還原成原本的腦組織塊,以重建里面的每一個神經元的完整模樣和真實連接關系……

果蠅的大腦有芝麻粒那么大,包含大約十萬個神經元和數百萬個突觸連接。

2020年,哈佛大學研究團隊宣布他們成功繪制出了…半個果蠅大腦圖譜,下圖是這半個果蠅大腦圖譜的簡單展示,包含了約25,000個神經元。

盡管還有半個果蠅大腦需要畫,但是這半個果蠅腦譜,已經是現如今被報導出的最大的生物大腦圖譜了。

階段3:一立方毫米的老鼠的大腦-10萬個神經元(重現方法:聚焦離子束顯微鏡&3D-CV)

Janelia團隊則開始使用聚焦離子束顯微鏡,聚焦離子束系統除了具有電子成像功能外,由于離子具有較大的質量,經過加速聚焦后還可對材料和器件進行蝕刻、沉積、離子注入等加工,因此可以大大縮減樣品和拍攝時間。

同時,他們找來了谷歌合作,將2D數據進行注釋標記以及3D重建(谷歌地圖技術),但是有時候計算機會將兩個纏結在一起的神經元誤認為是一個神經元,這給后期的勘誤工作帶來了很多麻煩。最后還是要靠經驗豐富的科學家來進行最后的結果審查。

Allen Brain也是繪制腦圖的主要貢獻者,團隊于2019年曾宣布他們已經花了十年時間繪制出了一立方毫米的小鼠大腦圖,其中包含了10萬個神經元和100萬個突觸結構。

雖然,一個小鼠大腦有大約500個立方毫米這么大,沒關系,總有一天!

目前,腦功能成像,神經刺激,神經信號記錄,腦損傷研究,等等研究方法【4】,大多是相關性研究,通過研究來證實某個神經核團或環路與某種腦功能的相關性,或者進一步再描述其簡單的因果關系,“AA通過BB調制CC的活動來實現XX功能”之類。這些研究帶來很多孤立的碎片的研究結論,每年在頂刊發表很多高分文章,但對整個人腦的工作原理仍然缺乏突破。

總而言之:仍然缺乏有效的觀察研究方法(AI連接主義的模型模擬預測為一大方向),重現人類大腦結構和機制。(目前神經學前沿一大熱點仍然是神經元分類)。

神經系統機制

大腦神經元的建立過程——從基礎構建到復雜網絡的形成之旅【5】。

神經細胞神經系統的細胞主要分為兩大類:

一類是主導電化學信號傳導的神經元細胞;

二類是像膠水一樣把把神經元細胞聯結起來,并輔助神經元功能的膠質細胞。

神經元具有感受刺激、整合信息和傳導沖動的能力。

神經元感知環境的變化后,再將信息傳遞給其他的神經元,并指令集體做出反應。神經元占了神經系統約一半,其他大部分由神經膠質細胞所構成。

據估計,人腦中約有850-1200億個神經元,神經膠質細胞的數目則更是其10倍之多。

神經元細胞

圖:典型神經元2D結構

結構及功能

神經元形態與功能多種多樣,但結構上大致都可分成細胞體(胞體)和神經突(胞突)兩部分。

神經突又分樹突(dendrite)和軸突(axon)兩種。軸突往往很長,由細胞的軸丘分出,其直徑均勻,開始一段稱為始段,離開細胞體若干距離后始獲得髓鞘,成為神經纖維。

圖:典型神經元3D結構

1、樹突(dendrite)- 接收器:樹枝狀的纖維從細胞體向外伸出,分叉且非常多,這些纖維被稱為樹突,主要是收集來自感覺器官的直接刺激或來自相鄰神經元的活動信息,并把傳入信息傳遞給神經元的中心部分。這些突觸具有一定的權重,它們決定了信號傳遞的強度和效率。權重的大小反映了神經元之間的連接強度,從而影響信息傳遞的效率和方式【6】。

2、胞體(soma) – 處理器:神經元的中心部分,含有細胞的染色體,能夠迅速評估同時接收到的數百上千條信息。其中有些信息可能是興奮性的(“放電”),有些是抑制性的(“不要放電”),胞體的喚起程度取決于所有傳入信息的匯總。

3、軸突(axon) – 發射器:從胞體上伸出,上有髓鞘(軸突覆蓋物),傳遞被喚起的神經元自己的信息(興奮大于抑制),有時很長,有的人連接脊與腳趾的軸突可以長達一米多。軸突有時會非常短,大腦里中間神經元之間的軸突可能只有不到1厘米長。

圖:神經元連接部分-軸突末端和樹突前段

神經元的軸突會與另一個神經元的樹突通過形成突觸結構建立聯系,在突觸結構中,一些神級遞質(化學)會通過上一個細胞的軸突上的突觸前膜,向下一個細胞的樹突上的突觸后面傳遞,以實現細胞間的信號傳遞。神經元軸突還可通過發生動作電位(電信號)進行電信號傳遞。

功能

神經細胞可以大致分為運動神經細胞、感覺神經細胞和中間神經細胞三大類【7】。

感覺神經細胞(Sensory neurons)的細胞體位于背根神經節(細胞體簇就在脊髓外),而它們的外圍延伸遍及全身。具體來說,感覺神經元通過特定的外部和內部受體被感覺輸入激活。

  • 外部感受器對身體外部的刺激做出反應包括嗅覺感受器、味覺感受器、光感受器、耳蝸毛感受器、溫度感受器和機械感受器。內部受體對身體內部的變化作出反應。例如,它們可以檢測血液化學性質的變化或通過引起疼痛感來對潛在的破壞性刺激做出反應。
  • 感覺神經細胞利用其感受器,將特定類型的刺激轉換為動作電位或階梯性電位,并將信號傳遞回中樞神經系統。

運動神經細胞(Motor neurons)是一種位于大腦運動皮層、腦干或脊髓的神經細胞,其軸突(傳出神經纖維)可延伸至脊髓內部或脊髓外部。

中間神經細胞(Interneurons)的細胞體皆位于中樞神經系統,連接神經系統的多個區域。中間神經元是神經回路的中心節點,允許感覺神經元、運動神經元和中樞神經系統之間進行通信。此類別包含最多種類的神經元,它們參與處理許多不同類型的信息,例如反射、學習和決策。

——此類神經元的數量龐大,約占神經元總數的99%。

分工與合作:三種神經細胞構成了一個大環路,如下圖。感覺神經細胞通過感受器感受到刺激(火的炙烤),并將刺激信號傳遞到中樞神經系統的中間神經細胞。中間神經細胞通過相互聯絡,做出決定(移開手指),并將指令傳遞給運動神經細胞。而后,運動神經細胞負責將指令信號傳遞到效應器,使肌肉動作(移開手指)。

釋放不同的突觸遞質來區分神經元

突觸神經突觸是允許神經通信的神經元之間的連接點。

大腦中絕大多數的神經元大致可分為興奮性神經元(excitatory)或抑制性(inhibitory)神經元。興奮性神經元占80-90%,它們釋放興奮性神經遞質并使得下游神經元更興奮,相當于大腦中的”油門“;抑制性神經元占10-20%, 它們釋放抑制性神經遞質使得下游神經元更不興奮,相當于大腦中的”剎車“,避免過于興奮,比如痛覺麻痹等。

前者主要傳遞興奮性神經遞質,如谷氨酸(Glutamate)、腎上腺素(Epinephrine);而后者主要傳遞抑制性遞質,如γ-氨基丁酸(GABA)和血清素(5-HT)【8】。

神經遞質目前在人體中發現100多種(100多種信息維度),然而,大腦中絕大多數的神經元還是單純的興奮性或抑制性,再加上同時釋放多種神經遞質的意義和機制仍不清楚,相關問題還處于神經科學研究的早期階段。

具體工作原理

一個典型的神經元能夠通過樹突和胞體一次接收上千條信息【9】。當胞體被充分喚起時,它自己的信息便會被傳遞給軸突,軸突通過動作電位將信息傳遞到突觸小體。這個含有神經遞質的小泡破裂,將神經遞質釋放到突觸間隙中。形狀合適的神經遞質分子來到突觸后膜時,會停留在受體上并刺激接收細胞。多余的神經遞質通過再攝取過程被回收到“發送”神經元中。

PS1:動作電位(action potential):當細胞體的喚起達到臨界水平時,觸發軸突中的電脈沖,軸突內外電荷發生逆轉,導致電信號沿軸突傳遞,我們稱之為神經元“放電”or“點火”。

PS2:全或無原則(all-or-none principle):動作電位沒有中間狀態,要么放電,要么不放電。

PS3:靜息電位(resting potential):在正常的靜止狀態時,細胞中的離子使軸突帶有少量的負電荷,此時狀態即為靜息電位。

特殊情況:同步放電即有些神經元(極少數)不使用神經遞質在突觸間傳遞信息,放棄了化學信息傳遞,通過電聯系進行直接通信。電突觸不如化學突觸常見,主要存在于中樞神經系統中。電突觸中的突觸間隙要小得多,這使得神經元可以直接通過間隙連接傳遞離子電流。出于這個原因,電突觸比化學突觸工作得更快,并允許脈沖在神經元內沿任一方向傳播。然而,因為它們不使用神經遞質,所以電突觸比化學突觸更不易改變。

生物化學抽象到AI數學模型–M-P神經元模型(深度學習的起點理論)

如上圖所示,神經元1的軸突傳遞了4個信號給神經元2,分別是輸入1、輸入2、輸入3和輸入4。而神經元2的輸出信號(輸出1和輸出2)分別是神經元3的輸入信號(輸入1和輸入2)。

如果輸入信號之和(由各正電離子受刺激流入胞體,電壓變高)超過神經元固有的邊界值(電壓閾值),細胞體就會做出反應,向與軸突連接的其他神經元傳遞信號,這稱為點火【10】。

點火的輸出信號是可以由”0″ 或 “1”表示的數字信息表示–全或無原則(all-or-none principle):

無輸出信號,

有輸出信號,

1943年, [McCulloch and Pitts, 1943] 將神經元的工作過程抽象為上圖所示的簡單模型,這就是一直沿用至今的 “M-P神經元模型” 。

電信號的強弱用數字大小表示,突觸的權重使用乘積,胞體接受的動作電位可以用點火函數表示,胞體的激活可以用階躍函數比較表示。

在這個模型中,神經元接收到來自 m 個其他神經元傳遞過來的輸入信號,這些輸入信號通過帶權重(weights)的連接進行傳遞,神經元接收到的總輸入值將與神經元的閾值進行比較,然后通過”激活函數” (activation function) 處理以產生神經元的輸出。神經元在信號之和超過閾值時點火,不超過閾值時不點火。

所以點火的函數可以表示為:

其中,

稱為激活函數。理想中的激活函數是下圖所示的階躍函數,它將輸入值映射為輸出值 “0” 或 “1” ,

顯然,

  • “1” 對應于神經元興奮(點火成功)
  • “0” 對應于神經元抑制(點火不成功)

神經膠質細胞

神經膠質細胞,10-50倍與神經元數量,作用:隔離,支持,營養

這里不一一詳細解釋了,大家有興趣可以自行查閱其功能。

神經回路

神經元從來不單獨行動,總是與其他細胞一起合作,神經元與神經元結成一張神經網絡,以神經反射的形式工作。

神經回路的結構

我們可以把把神經元比喻為字母,大腦比喻為整篇文章,而微環路就是字母組成的單詞,神經環路則是單詞組成的句子。不同腦區使用的不同單詞就是環路模體(circuit motifs),而環路模體又進一步組成了復雜的神經環路架構【11】。

環路架構大體分為連續地形圖、離散并行處理、維度擴展、循環回路、偏倚輸入-分離輸出的環路結構;通過神經的不同布線連接,達到計算和節能的目的。

神經環路架構案例

哺乳動物視覺系統,其中信號始于光感受器→ 雙極細胞 → 視網膜神經節細胞 → 外側膝狀核 (LGN) 中繼神經元 → 第 4 層初級視覺皮層 (V1) 神經元 → V1 神經元其他層 → 較高皮層區域的神經元。沿著這些前饋通路,視覺信息從簡單的光強度轉化為對比度、邊緣、物體和運動。

回路進化

神經系統的逐漸復雜化需要神經元數量、神經元類型及其連接和大腦區域的擴展。所有這些過程都必須由 DNA 的變化引起。進化創新的一個關鍵機制是基因的復制和發散。

大腦區域進化的復制和發散原則上應該使神經元回路模塊化:復制單元內的豐富連接和單元之間的稀疏連接。反過來,神經元回路的模塊化特性可能會加速進化,因為不同的模塊可以相互獨立地進化。

為目前為止,負責AI大模型進化的,只是人工的版本更新。

計算機環路是自上而下設計的產物,而復雜的神經元環路已經進化了數億年。神經元回路在發育過程中使用進化選擇的遺傳指令自組裝,并通過經驗進行微調。因此,現有的神經環路結構很可能是在演化過程中很容易進化和組裝的那些選擇。

神經組織

人類大腦的功能機制主要有7大類功能:1 感覺和知覺 2 注意與意識 3 語言 4 學習與記憶 5 運動控制  6 情緒 7 認知控制

1 感覺和知覺

五種基本的感覺系統,聽覺、嗅覺、味覺、軀體感覺以及視覺,使我們可以解釋周圍的環境。每一種感覺包含了獨特的通路和加工,以將外部刺激轉化為可以被大腦解釋的神經信號。

這五種感覺也不是孤立工作的,而是一致行動以構建一個對世界的豐富的解釋。正是這一整合成為許多人類認知的基礎,并且使我們在一個多感覺的世界中生存并興旺發展【12】。

從信號的角度來看,人們通過耳朵接受聲波,鼻子和舌頭接受遠近分子化學信號,皮膚接受機械波、溫度波,視覺接受光波后,各個感覺神經再通過電信號、化學信號以及機械波的形式傳遞。

神經如何傳遞和加工處理至人類可意識的過程大抵相同,下面將主要講述視覺神經工作原理。

像大多數其他哺乳動物一樣,人類是視覺生物:絕大多數人要依賴眼睛來辨別我們看到的是什么,往哪里看,來引導我們動作。這些過程當然是雙向互動的。要完成諸如抓住一個扔出物的技巧性動作,我們必須確認物體大小、形狀和空間運動軌跡,這樣我們才能預先準備好把我們的手放到哪里。

從初級到更高級的視覺皮層,視覺信息逐級傳遞。人腦理解的內容越來越復雜化、抽象化,由”模式”變成具體的“物”,再到物的特性和物與物之間的關系。在逐級傳到過程中,人們也注意到,其在皮層的傳到可以大體分成兩個通路,腹側通路(Ventral Pathway/Stream)和背側通路(DorsalPathway/Stream)。

這兩個通路,也分別代表著視覺神經的兩大功能:what-物體識別和where-空間感

物體識別

對于物體識別而言,視覺系統中的ventral stream(V1 -> V4 -> IT)通路是至關重要的。在這一視覺信息處理通路中,信息被越來越抽象成高級的語義信息。比如V1視覺皮層表征“bar”,V4視覺皮層則表征texture, IT則存在著對物體類別(臉,動物)的直接表征【13】。

視覺識別是典型的Encoder-Decoder的RNN(循環網絡)架構

總而言之:大腦對外部信息處理就是不斷表征化的過程(并且是往返循環),表征簡單理解為人類可認知到的集成的符號 – 能把某些實體或某類信息表達清楚的形式化系統。

神經元系統對于信息的處理是層級遞進的,簡單來說每一個皮層(不同的表征處理單元)處理逐級規律復雜,V1視覺皮層前,輸入信息為像素點,V1視覺皮層將之處理為Bar-線,隨后再由V2-V4視覺皮層處理為-面,3維;再由后續的視覺皮層加工為顏色、光影等更綜合的表征,直至IT皮層-形成我們對圖像的整體感知,并區分物體。

知覺分類只解決了部分識別問題。要使關鍵信息發揮作用,必須把現有加工內容與我們貯存的有關視覺物體的知識相聯系。語義分類(學習和記憶的表達表征–語言)使我們看到知覺對象間的相似性,并辦認出物體的獨特特征。

看到這里,大家對視覺神經元的表征化的工程,感到一絲熟悉,對!以CV計算機視覺技術為主的公司所采取的基礎模型-CNN卷積神經網絡-Convolutional Neural Networks,其設計靈感就來自于層級遞進的視覺神經物體識別通路表征化過程–1960年代對貓的視覺皮層的研究。

有意思的是,2014年,James Dicarlo首次嘗試使用CNN來直接預測IT神經元的活動。他們將同一張圖片展示給猴子以及CNN模型,在利用線性回歸直接根據CNN對圖片的表征去預測在猴子IT腦區記錄到的電信號。他們驚人的發現,僅通過簡單的線性方法就可以從CNN的表征預測出IT的腦區活動,這說明兩者表征的信息是十分相似的。

利用數學模擬的AI模型去預測腦區電信號,當實驗結果趨同時,也意味著神經元架構和數學模型基本相同,這種新的研究范式正在反向助力神經科學的探索(比如當下最火的AI預測蛋白)!

空間感(定位和導航)

通過空間通路,人可以很好的理解所觀察到的物體在空間維度內和人的關系,從而得以判斷和操作該物體。

太陽的東升西落,城市的東西南北,過馬路要左右看……在人們的日常生活中,大腦的空間感知作用扮演著重要角色。無論是尋找方向、定位目標還是記憶場景,都需要大腦對空間信息的處理和記憶。

很遺憾的是,人類對此空間通路機制的研究,非常淺薄,對腹側通路(物體識別功能)的神經通路的數學量化復現相當成功。

目前主流研究仍在通過小白鼠、猴子等哺乳動物實驗,繼續尋找空間感所涉及的神經單元及細分作用(仍未找齊,目前僅發現世界中心編碼和自我中心神經元),各個單元如何相互作用以及如何集成編碼,我們仍未探知清楚??臻g感神經元與海馬體(記憶)緊密聯系。

幸運的是,科學界對神經科學空間感熱情高,對此腦區的研究產出高。

  • 自我中心細胞(前后左右-自己移動坐標系)主要負責以個體自身為參考點的空間信息處理。這意味著它們編碼的是相對于觀察者位置的物體或環境特征,如身體周圍的邊界或地標。當我們移動時,這些細胞會根據我們的視角變化來調整它們的活動模式,幫助我們感知方向和距離的變化。
  • 世界中心神經元(東西南北-固定坐標系坐標系)則關注于環境中的絕對位置信息,它們編碼的是不依賴于觀察者位置的環境布局,比如一個房間的固定角落或地圖上的絕對坐標。這些神經元幫助我們理解環境的全局結構,即使我們的位置改變,它們提供的信息依然保持穩定。

  • 經典力學:一個物體簡單移動需要至少兩個坐標系:自己的坐標系和固定坐標系,如果要操作物體,則還需要物體的坐標系(如上圖),才能清晰的表達各個位置關系,而運動控制算法就是在各個坐標系中求最優解。

世界中心的編碼方式是建立在自我中心編碼的計算和轉換上的。換言之,相比起處理 ‘前后左右’的位置信息,大腦在處理‘東西南北’的位置信息要經過更為復雜的編碼過程。

2 注意和意識

這部分我主要講述注意,意識部分在上面已經有所提及。

想象你在參加一個雞尾酒會,身邊有人低語,有人高談闊論,偶有玻璃碰杯聲音,遠處還有樂隊在演奏。在這么嘈雜的環境中,你依舊能夠聽到身邊的朋友在說什么。這不僅僅是因為你們離得近,更重要的是,你將注意力集中在了她身上。注意力讓你「選擇」把有效的認知資源都用于在一堆嘈雜的信息中,尋找、分析她的聲音【14】。

這就是著名的「雞尾酒會效應」。

注意力是一個用來分配有限的信息處理能力的選擇機制。感知系統在做信息加法,那么注意力就是在做減法。

“少則得,多則惑,是以圣人抱一為天下式”-道德經

隨著進化的腳步,生命體本身由簡至繁,而人類歷史發展到今天,我們的生存環境和所需要學習、掌握的工作任務和過去的叢林生活復雜到不知多少。為了應對這個變化,大腦會如何進化呢?是發展成一個同時處理龐大的信息并且容量超大的大腦,還是發展成雖然容量不大,但可以迅速地分析信息,并配有一個高效率信息選擇和投注機制,將所有計算能力都放在重要的任務上的大腦呢?很明顯的,后者更有優勢,而且大自然也為我們選擇了這個目標。這個「高效率信息選擇和投注機制」就是我們說的「注意力」(attention)。

注意力是指,選擇性地專注在某些感受到的信息上,這些信息可能是客觀或主觀的,同時忽視同一時刻收到的其他信息。這一個認知過程。

機制:注意力通過信號控制(關注的信息興奮,不關注的信息抑制),鎖定相關腦區的工作狀態,同時加強相關腦區的連通性,削弱其他聯通性,讓我們的大腦臨時性、軟性的改變結構,變得“任務特異化”。

這種認知資源和認知資源協同狀態的預鎖定,就像對大腦這臺計算機的“虛擬化”,預先寫好資源請求參數,并預裝了所需要的程序執行和依賴環境。

一切源于2017年谷歌Brain團隊那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是這篇文章提出了以自注意力為核心的Transformer網絡結構。

在自注意力機制下,輸出的內容加權平均了輸入,既考慮了輸入的全面性,也考慮了輸入的個別單詞的相關性,從而更有針對性的理解句子中的含義并輸出理解。

3 學習和記憶

學習 (learning)是獲取新信息的過程,其結果便是記憶(memory)。也就是說,在學習了某樣東西后,記憶便形成了,這種學習也許會發生在信息的單次呈現后,也許是在信息的重復呈現后。記憶必須是能夠在一段時期內維持的【12】。

學習與記憶可以假設為三個主要的階段,不斷循環:

編碼(encoding)是對輸入信息的處理與儲存它分為兩個階段:獲取與鞏固。

  • 獲取(acquisition)是對感覺通路和感覺分析階段的輸入信息進行登記,外部信號轉換為內部可處理信號-電和化學信號,例如計算機轉化為0和1(二進制);
  • 鞏固 (consolidation)是生成一個隨時間的推移而增強的表征,進行特征提取和推理。
  • 學習是大腦獲得經驗的過程,即中樞神經系統收集感覺器官和記憶的神經電位的過程-神經元形成連接(突觸的可塑性),并保持興奮與協調,直至形成記憶(神經元的連接),一般分為兩種,簡單學習與復雜學習。

存儲(storage)是獲取和鞏固的結果,代表了信息的長久記錄。

記憶則是對學習過程的儲存,即中樞神經系統儲存感覺器官的神經電位,一般也分為兩種,短時記憶和長時記憶。

短時記憶是中樞神經系統對于刺激的瞬間記憶,是對剛剛發生事情的片刻記憶,這樣的記憶往往只能維持幾秒鐘或幾分鐘。而當片刻記憶的刺激,重復作用于中樞神經系統時,便會形成對事情的長時記憶。

提取 (retrieval)是通過利用所儲存的信息創建意識表征或執行習得的行為,如自動化動作。對學習機制的再次刺激,直至形成長期記憶。

有意思的是,人類的記憶向來不太準確,大家可以試著回想一下上周的事情,能不能像計算機的視頻一樣每一幀都能高清的回想起來?

4 語言

語言有兩種形式:1 表達 2 語言推理(最重要)。

語言可以是某個語言上命名好的東西,也可以只是一種”表征”(representation)【15】。我們可以在不說話的情況下,直接使用這個“表征“進行思考、推理等等。所以常常有思維比口頭表達更快的體驗,而且如果口頭說的比較快的話,經常會說錯而不自知。也就是說,語言可以是更廣義的概念。而這種推理和邏輯思考能力,我們稱為Verbal Reasoning!

這里可以看出,“語言”(廣義的)跟思考具有非常直接的關系。有了語言,我們能在大腦中思考的時候對事物形成“表征”。傳統上,我們認為,為了方便思考,特別是在談話和閱讀中思考,我們會首先將口頭語言中的對象物轉化為大腦中的“表征”,這是一種”語言過程” ,然后使用這些“表征“進行演繹和推理,這是一種非語言過程,最后將結果轉換為口頭語言對象(表達)。

在整個過程中,從語言對象到大腦內在表征,以及從大腦內在表征到語言對象的兩部轉換自然是跟語言直接相關的。對應的,還有圖像推理(Visual Reasoning),也就是直接使用視覺或者圖像表征進行空間構建或者關系推理的過程,典型地比如玩俄羅斯方塊。

既然有圖像推理,那么,語言介質(廣義的)就并非思考的必要條件,但是為最主要條件。

狹義上來說,人類就是用語言來進行高級思考的,輸入的信息??形成表征??根據表征的特征,尋找匹配的語言形容??內在表征以語言的形式演繹推理??表達;

語言與思想的關系被認為是相互依存的。一方面,語言提供框架來組織和表達思想;另一方面,思想的邊界可能受限于語言的表達能力。語言的使用不僅反映思想,也可能塑造思想,如母語對思維模式的影響。

5 運動控制

運動功能分為運動計劃(同步感覺和運動信息后進行位置和軌跡預測空間編碼)、運動準備(小腦-專門表征動作的時間特性的結構,控制節奏;基底神經節轉化信息為動作信息)以及和運動執行(調動分布式專門運動神經系統)。

運動控制依賴于廣布的解剖結構,這些廣布的運動結構以層級式的方式進行運作:最高層計劃最好以動作如何實現目的來描述,底層的運動層級致力于將目標轉化為運動。最底層是實現一個特定動作的具體指令,最高層是動作目的的抽象表征。

然而運動計劃和學習是同時發生在各個層級上的。學習發生在所有的層級。運動控制上解耦,運動學習上強耦合!

我們對機器人的控制理論仍然是數字自動化控制(預定和固定流程控制-PID等),關于對控制的神經網絡設計(適應開放場景,魯棒性高,泛化性強)才剛剛開始,具體看具身技術部分。

6 情緒

情緒的作用在動物中激勵目標的實現和躲避危險的功能。

情緒識別不僅僅是單一神經元或區域的工作,而是涉及廣泛的大腦網絡。例如,視覺皮層首先處理情緒刺激的視覺信息,然后傳遞到包括杏仁核在內的邊緣系統,進一步的處理涉及前額葉和其他高級認知區域,以綜合信息并做出情緒反應。

由意大利理工學院科學家弗朗切斯科·帕帕萊奧領導的研究團隊,發現了使人類能夠識別他人情緒的大腦網絡。識別他人表情并作出適當回應,是人類和動物的基本技能,這能使同伴間的互動更有效,從而提高生存概率。但對這一能力背后的大腦機制,人們仍知之甚少【16】。

使用熒光顯微鏡拍攝的神經元圖像。圖片來源:意大利理工學院

7 認知控制

認知控制 (cognitive control) 是指個體在特定的情境中,自上而下的靈活地調動認知資源來調整想法和行為的一種目標導向的心理過程;認知控制包括計劃、控制和管理信息加工流的心理能力–調度資源和監控反饋保證目標導向行為的成功。

目前研究熱點是認知控制的一般性/特異性機制。所謂一般性(大腦的泛化性),是指不同任務之間共享相同的加工機制 ;相反地,特異性(任務的專用性)是指不同的任務各有特異性的加工機制。

當兩個任務之間的差別大到可以歸為兩類時,他們之間就產生了邊界 (boundary)。因此,認知控制的一般性 / 特異性很可能不是非此即彼的。

這提示我們,大腦在進行信息加工時有一定的泛化能力,并不局限于具體的任務。但是這種泛化能力不是無限的,如果任務之間的差異達到了一定的程度,大腦會形成不同的功能模塊來分別進行加工,這樣能夠保證在面對外界刺激時有最為高效的反應。從進化的角度來看,這種高效加工對人類適應環境也是極為有利的。

對認知控制的資源調度和監控反饋機制的研究可以讓大模型(泛化)在應用(專用)時,進行特異化工程(形成洞悉),有效解決專用性不足的問題(通用大模型如何變成垂直大模型)。

8 大腦進化

1.智能史的第一次突破:兩側對稱動物都有個腦子來趨利避害、整合信息、持續學習和情感慣性,發源于線蟲–一切都是為了活下去【17】。

2. 智能史的第二次突破:脊椎動物的硬質骨骼催生了更大的身體、能夠容納更大的腦,大腦開始可以簡單的強化學習(有明確的目標,但都是現實環境的目標)和好奇心(僅僅探索了未知區域滿足好奇心、也應該得到強化鼓勵);

強化學習-以“試錯”的方式進行探索學習,通過與環境進行交互獲得的獎賞(多巴胺是人強化學習的獎賞)指導行為,目標是為了最多的獎勵;AI代表 -「時序差分學習(temporal difference learning)」,是現在強化學習的基本原理,包括AlphaGo也是這么做的。

3.智能史的第三次突破:依托于無監督學習、把同樣的腦回路排隊復制–神經元數量大爆炸(人類大腦中新皮層已經占整個腦容量的70%),新皮層創造出“在想象力中用強化學習模型思考”;哺乳動物的“新皮層”做模擬學習,是從自己的想象中學習(GPT-4 的階段)。

人類新皮層玩的是無監督學習–無人指導的學習。大自然中的動物不可能搞監督學習,因為沒有老師告訴它每一個東西是什么。你得自己摸索。而新皮層摸索的方法,恰恰就如同現在訓練GPT一樣,先讀取一半信息,再自己「生成」下一半信息,然后把生成的信息跟訓練素材比較。對了就加強,錯了就改進。

對大腦來說,「生成」就是「模擬」,就是「想象」。

用模型思考:替代性試錯-建模、反事實學習-辯證思考得到因果關系、情節記憶-具體事件的記憶。

純粹的強化學習是只用直覺。有猶豫的,就是基于模型的強化學習(獎勵是想象出來的,不是實際的)?,F在幾乎所有自動駕駛AI都是純粹的強化學習,根據直覺直接行動,沒有猶豫。但是應該有猶豫才好。

  • 丹尼爾·卡尼曼說的系統1,也就是快思考,其實就是強化學習帶來的本能反應,由基底神經節自動選擇;卡尼曼所說的系統2,慢思考,其實就是前額葉皮層感覺到了沖突,先暫停自動反應,發起模擬再做選擇,也就是基于模型的強化學習。
  • 爬行動物全都是系統1思維。我們日常大部分時候也都是系統1思維。這很好,這使得我們做開車、走路、吃飯喝水這些日常動作都不需要思考,我們很輕松。只在矛盾時刻,我們才需要調用昂貴的新皮層算力去進行模擬。

OpenAI GPT4-草莓大模型(自我強化學習-RL新范式)已經發布:

你需要對一個問題建立多個智能體(agents),讓每個智能體各自生成答案。選擇最合適的一個,再輸出。這兩步加起來就是系統2思維。

而現今的大語言模型基本上只是系統1思維,純直覺輸出。但我們可以想見,跨越到系統2在技術上一點都不難,難的只是算力而已 —— 畢竟一切都是新皮層。

4. 有了心智理論,靈長類動物可以通過模仿另一個人做事來學習,也就是從他人的行動中學習(模仿學習)和群體生活(政治博弈-對抗學習)讓大腦變得越來越大。

  • 隨著爬上食物鏈的頂端,我們獲得了「空閑時間」。別的動物全天都得要么覓食、要么求偶、要么休息,而我們卻有時間做點別的事情。
  • 最早的哺乳動物的大腦只有0.5克,而到一千萬年前,靈長類的大腦已經達到了350克,為什么我們需要這么大的大腦呢?現在科學家的共識是,為了搞政治。
  • 與天奮斗、與地奮斗都不需要那么大的大腦,只有與人奮斗最費腦。看來還是與人奮斗其樂無窮。
  • 最重要的理論貢獻來自那個著名的「鄧巴數」的提出者,羅賓·鄧巴(Robin Dunbar)他發現靈長類動物的大腦新皮層的大小,和它所在群體的大小是成正比的關系。

  • 群居的麻煩是容易內耗。食物可能還好說,如果吃草的話誰都能吃到,但是交配對象就只有這么多,屬于絕對的零和博弈,勢必引起爭斗。
  • 要玩政治,靈長類的大腦有個硬件基礎。我們的大腦不只是比早期哺乳動物大,而且新皮層多了兩個新的腦區:顆粒狀前額葉皮層(gPFC)和靈長類感覺皮層(PSC)。
  • 我們前面講的哺乳動物的前額葉皮層說的是無顆粒狀前額葉皮層(aPFC),現在這個gPFC是靈長類特有的,它跟PSC配合,讓我們獲得了一項新能力。這個能力也是新皮層的拿手好戲 —— 模擬和預測 —— 只是這一次是把自身放入情境之中模擬。
  • 換句話說,gPFC能夠讓我們以第三人稱的視角看自己,能跳出自我觀察自我。
  • 這種能把自己當做“他者”–換位思考,從高處旁觀的能力,就是心理學家和哲學家說的「元認知(metacognition)」。

5.智能史的第五次突破:語言,語言讓大腦和大腦聯網。以前的我們是單獨的個體,現在我們是網絡中的一個個節點;有了語言,智人則能夠從他人的想象中學習、知識開始爆炸性積累。(群體的智慧?。?/p>

  • 語言帶給我們的不只是一項個人能力,更是一項積累知識和建設文明的能力:語言能讓說話的人把自己內心想象的場景和動作,傳遞給聽話的人。這個功能大大提高了交流的效率。
  • 到了這一步,知識已經不只是存在于人腦之中,更是存在于人腦之間,成了某種近乎獨立的存在。人腦只是知識的載體而已,知識本身好像有了生命力。

我們的祖先們,不斷持續的優化和補充神經回路機制,神經元的數量飆升,同時配對上好的學習范式,最終要形成精簡的功能(皮層or腦區 and 針對性功能的特異回路),才能實現真正的智能!

實現真正的涌現能力!

AI的涌現能力是指隨著模型規模變大,模型突然在某一刻擁有了以前沒有的能力-大型語言模型在未直接訓練過的任務上表現出驚人性能的能力。

神經網絡不是黑箱!只是因為我們尚未了解以及計算量過大。

神經學對AI的影響大討論-鳥飛派和偽鳥派

當人們最初想要制造飛行器的時候,是希望模仿鳥的飛行方式,制造出像鳥一樣飛行的機器。后來人們發現,這樣的制造方法并不可行,可能不僅實現難度大,而且還不穩定,blablabla…(非專業人士,只是猜測)于是萊特兄弟想出了另一種制造飛行器的方式,相比于模仿鳥類的飛行方式,這種飛行器的工作方式更簡單,更安全,更…【18】

這群試圖完全模仿鳥類飛行方式來制造飛行器的人,在后世被稱為“鳥飛派”,萊特兄弟制造出的飛機則告訴我們,鳥飛派不一定是最有效的工程方法。而他們造出的“偽鳥”,才是更可取的飛行器制造方案。

同樣,人工智能發展的初期也有一波“鳥飛派”學者,他們認為只有完全用機器實現大腦的結構,才能制造出一臺和人類擁有相似功能的機器大腦。然而這并非是現實的,無論是放在人工智能發展的初期還是放在工業技術更加發達的現代。

原因包括:a人腦擁有上千億個神經元,神經元之間還有數量更多的連接。要實現這些連接絕不是一件容易的事情。b這些神經元之間是怎樣連接,以實現復雜的功能的,目前神經科學家們所知甚少。

2022年的一個周末,twitter上的神經科學圈發酵了一起不大不小的爭論,引得領域內好幾個著名學者,包括Yann Lecun的參與。最初爭論的是神經科學是否推動了人工智能,后來就更多變成了未來的人工智能是否需要神經科學。中國在類腦智能領域的投入也在增加,“該不該類腦”以及“如何類腦”這樣的問題都值得在廣泛范圍內討論–詳見饒毅事件?!?9】

爭論的起點10月15號時候,神經科學領域和人工智能領域一群大佬,如Terry Sejnowski, Yoshua Bengio, Yann LeCun,Eero Simoncelli, James DiCarlo, Alex Pouget 以及今天爭論的主角Konrad Kording, 在arXiv上發表了一篇白皮書文章文章的觀點非常簡單,摘要只有兩句話:

Neuroscience has long been an important driver of progress in artificial intelligence (AI). We propose that to accelerate progress in AI, we must invest in fundamental research in NeuroAI.

概括起來就是:神經科學+人工智能非常有前途,政府請打錢。

沒想到兩天后,可能是周末比較清閑,來自DeepMind的David Pfau對著Kording的這篇tweet開噴了:神經科學從來都沒推動過人工智能,你們白皮書中還說continue to drive AI progress你們真的認為發明Transformers / ADAM的人看過一篇神經科學論文嗎?你們就假裝在為人工智能做貢獻吧。要點臉吧 “it’s embarrasing”(原文)

這樣的回復立馬就炸雷了,引起了后面很多人的“參戰”。這里簡單提一下這位Pfau,他其實是正兒八經的神經科學博士,畢業于哥倫比亞大學的神經生物學專業,附屬于Center for Theoretical Neuroscience (CTN)。并且在CTN里邊有Larry Abbott和Ken Miller等計算神經科學大佬,畢業生中走出了很多在人工智能領域的佼佼者,如David Sussillo,Pfau對于這神經科學和人工智能兩個領域都不陌生。

Pfau的評論一出,上文我們所提到的David Sussillo就出來說話了過去幾年,我在Google Brain跟Transformer的主要貢獻人交往很多。我雖然不能冒昧地推定到底是什么啟發了他發明transformer,但是他對神經科學是發自內心的感興趣,問了很多神經科學的問題。

Yann Lecun大佬出馬,直接就一句”You are wrong”甩到Pfau老兄臉上了:你錯了 。神經科學極大并且直接啟發了我和Hinton,另外神經網絡通過調節突觸權重來實現學習這一整套想法確定無疑來自神經科學。

  • 1 在應對不同的任務,人的神經元機制反而不如計算機文檔(人的記憶不準確,但計算機存儲準確等),兩者需要結合,不必完全模擬人腦,實際看效果;
  • 2 了解神經基礎機制會給當前的AI帶來底層創新(深度學習-神經元機制,CNN-貓視覺皮質層,transfomer-注意力機制等等?。?/li>
  • 目前神經科學還處于初級階段,作為最熱門的學科之一,已經是最好的時代。

筆者認為如今神經學的研究會在兩大方面極大的推動AI的發展:

  • 1 (人腦進化的現成結果)對現有人腦神經系統機制的突破研究:特別是理解某一功能的神經環路;直接在計算機上復刻實現。
  • 2 神經系統改善進化機制:神經系統如何優化和調整神經回路機制;賦予計算機自我智能進化的能力。

總結

AI模型預測作為新的研究方法也在助推神經科學的發展,在探索完神經學原理后,又幫助ai發展,兩者螺旋上升。還有大量神經元原理未被量化,技術天花板尚未顯現!

三、AI技術流派原理與發展

(1) 總體流派類別原理和歷史

在人工智能的發展過程中,不同時代、學科背景的人對于智慧的理解及其實現方法有著不同的思想主張,并由此衍生了不同的學派,影響較大的學派及其代表方法如下:

學派之間的范式方法早已融合貫通,以神經網絡深度學習的聯結主義是目前主要貢獻學派,學派之爭都在想深度學習神經網絡的聯結主義收斂。

其中,符號主義及聯結主義為主要的兩大派系【20】:

“符號主義”(Symbolicism),又稱邏輯主義、計算機學派,認為認知就是通過對有意義的表示符號進行推導計算,并將學習視為逆向演繹,主張用顯式的公理和邏輯體系搭建人工智能系統(已有知識的數學復刻)。如用決策樹模型輸入業務特征預測天氣:

“聯結主義”(Connectionism),又叫仿生學派,篤信大腦的逆向工程,主張是利用數學模型來研究人類認知的方法,用神經元的連接機制實現人工智能。如用神經網絡模型輸入雷達圖像數據預測天氣:

從始至此,人工智能(AI)便在充滿未知的道路探索,曲折起伏,我們可將這段發展歷程大致劃分為5個階段期(筆者羅列了關鍵的事件):

起步發展期:1943年—20世紀60年代

人工智能概念的提出后,發展出了符號主義、聯結主義(神經網絡),相繼取得了一批令人矚目的研究成果,如機器定理證明、跳棋程序、人機對話等,掀起人工智能發展的第一個高潮。

1943年,美國神經科學家麥卡洛克(Warren McCulloch)和邏輯學家皮茨(Water Pitts)提出神經元的數學模型,這是現代人工智能學科的奠基石之一。

1950年,艾倫·麥席森·圖靈(Alan Mathison Turing)提出“圖靈測試”(測試機器是否能表現出與人無法區分的智能),讓機器產生智能這一想法開始進入人們的視野。

圖靈在一篇論文中開門見山問道:

“I propose to consider the question, ‘Can machines think?’”
“我提議思考這樣一個問題:‘機器可以思考嗎’”

以此拉開AI的序幕,激發當時剛剛興起的計算機科學領域對AI的思考。

1956年,達特茅斯學院人工智能夏季研討會上正式使用了人工智能(artificial intelligence,AI)這一術語。這是人類歷史上第一次人工智能研討,標志著人工智能學科的誕生。

1957年,弗蘭克·羅森布拉特(Frank Rosenblatt)在一臺IBM-704計算機上模擬實現了一種他發明的叫做“感知機”(Perceptron)的神經網絡模型。

1969年,“符號主義”代表人物馬文·明斯基(Marvin Minsky)的著作《感知器》提出對XOR線性不可分的問題:單層感知器無法劃分XOR原數據,解決這問題需要引入更高維非線性網絡(MLP, 至少需要兩層),但多層網絡并無有效的訓練算法。這些論點給神經網絡研究以沉重的打擊,神經網絡的研究走向長達10年的低潮時期。

反思發展期:20世紀70年代

人工智能發展初期的突破性進展大大提升了人們對人工智能的期望,人們開始嘗試更具挑戰性的任務,然而計算力及理論等的匱乏使得不切實際目標的落空,人工智能的發展走入低谷。

1974年,哈佛大學沃伯斯(Paul Werbos)博士論文里,首次提出了通過誤差的反向傳播(BP)來訓練人工神經網絡,但在該時期未引起重視。

1975年,馬文·明斯基(Marvin Minsky)在論文《知識表示的框架》(A Framework for Representing Knowledge)中提出用于人工智能中的知識表示學習框架理論。

1979年,漢斯·貝利納(Hans Berliner)打造的計算機程序戰勝雙陸棋世界冠軍成為標志性事件。(隨后,基于行為的機器人學在羅德尼·布魯克斯和薩頓等人的推動下快速發展,成為人工智能一個重要的發展分支。格瑞·特索羅等人打造的自我學習雙陸棋程序又為后來的強化學習的發展奠定了基礎。)

應用發展期:20世紀80年代

人工智能走入應用發展的新高潮。專家系統模擬人類專家的知識和經驗解決特定領域的問題,實現了人工智能從理論研究走向實際應用、從一般推理策略探討轉向運用專門知識的重大突破。而機器學習(特別是神經網絡)探索不同的學習策略和各種學習方法,在大量的實際應用中也開始慢慢復蘇。

1980年,在美國的卡內基梅隆大學(CMU)召開了第一屆機器學習國際研討會,標志著機器學習研究已在全世界興起。

1982年,約翰·霍普菲爾德(John Hopfield) 發明了霍普菲爾德網絡,這是最早的RNN的雛形?;羝辗茽柕律窠浘W絡模型是一種單層反饋神經網絡(神經網絡結構主要可分為前饋神經網絡、反饋神經網絡及圖網絡),從輸出到輸入有反饋連接。它的出現振奮了神經網絡領域,在人工智能之機器學習、聯想記憶、模式識別、優化計算、VLSI和光學設備的并行實現等方面有著廣泛應用。

1983年,Terrence Sejnowski, Hinton等人發明了玻爾茲曼機(Boltzmann Machines),也稱為隨機霍普菲爾德網絡,它本質是一種無監督模型,用于對輸入數據進行重構以提取數據特征做預測分析。

1985年,朱迪亞·珀爾提出貝葉斯網絡(Bayesian network),他以倡導人工智能的概率方法和發展貝葉斯網絡而聞名,還因發展了一種基于結構模型的因果和反事實推理理論而受到贊譽。

個性推薦算法簡介:用戶c看過物品a,c,d,用戶b看過物品b,與用戶c的喜好不重合,用戶a看過物品a,c,由此可以推測用戶a與用戶c相似,可以推薦物品d給用戶a;當然后續技術添加了組標簽等新算法,使得推薦算法更加精確,推薦算法成為了新一代互聯網的核心護城河!任何互聯網平臺都離不開推薦算法,抖音,小紅書等推薦機制吸引了大量的注意力,便由此通過廣告變現,成為新一代互聯網龍頭。

1986年,辛頓(Geoffrey Hinton)等人先后提出了多層感知器(MLP)與反向傳播(BP)訓練相結合的理念(該方法在當時計算力上還是有很多挑戰,基本上都是和鏈式求導的梯度算法相關的),這也解決了單層感知器不能做非線性分類的問題,開啟了神經網絡新一輪的高潮。

1989年,LeCun (CNN之父) 結合反向傳播算法與權值共享的卷積神經層發明了卷積神經網絡(Convolutional Neural Network,CNN),并首次將卷積神經網絡成功應用到美國郵局的手寫字符識別系統中。

卷積神經網絡通常由輸入層、卷積層、池化(Pooling)層和全連接層組成。卷積層負責提取圖像中的局部特征,池化層用來大幅降低參數量級(降維),全連接層類似傳統神經網絡的部分,用來輸出想要的結果。

平穩發展期:20世紀90年代—2010年

由于互聯網技術的迅速發展,加速了人工智能的創新研究,促使人工智能技術進一步走向實用化,人工智能相關的各個領域都取得長足進步。

在2000年代初,由于專家系統的項目都需要編碼太多的顯式規則,這降低了效率并增加了成本,人工智能研究的重心從基于知識系統轉向了機器學習方向。

1997年國際商業機器公司(簡稱IBM)深藍超級計算機戰勝了國際象棋世界冠軍卡斯帕羅夫。深藍是基于暴力窮舉實現國際象棋領域的智能,通過生成所有可能的走法,然后執行盡可能深的搜索,并不斷對局面進行評估,嘗試找出最佳走法。

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber提出了長短期記憶神經網絡(LSTM)。

LSTM是一種復雜結構的循環神經網絡(RNN),結構上引入了遺忘門、輸入門及輸出門:輸入門決定當前時刻網絡的輸入數據有多少需要保存到單元狀態,遺忘門決定上一時刻的單元狀態有多少需要保留到當前時刻,輸出門控制當前單元狀態有多少需要輸出到當前的輸出值。這樣的結構設計可以解決長序列訓練過程中的梯度消失問題。

2003年,Google公布了3篇大數據奠基性論文,為大數據存儲及分布式處理的核心問題提供了思路:非結構化文件分布式存儲(GFS)、分布式計算(MapReduce)及結構化數據存儲(BigTable),并奠定了現代大數據技術的理論基礎。

2006年,杰弗里·辛頓以及他的學生魯斯蘭·薩拉赫丁諾夫正式提出了深度學習的概念(Deeping Learning),開啟了深度學習在學術界和工業界的浪潮。2006年也被稱為深度學習元年,杰弗里·辛頓也因此被稱為深度學習之父。

深度學習的概念源于人工神經網絡的研究,它的本質是使用多個隱藏層網絡結構,通過大量的向量計算,學習數據內在信息的高階表示。

  • 隱藏層(Hidden Layer)是人工神經網絡中的中間層,位于輸入層和輸出層之間。它的作用是對輸入數據進行特征提取和變換,為最終的輸出層提供高層次特征。隱藏層這個術語之所以稱為“隱藏”,是因為其輸出對外界不可見,只在網絡內部流通。
  • 隱藏層的主要任務是通過線性變換和激活函數來捕捉數據中的復雜模式和特征。
  • 多層隱藏層:通過多層隱藏層的堆疊,網絡可以逐漸提取出數據中越來越抽象的特征,這也是深度學習的核心思想。

深度學習算法簡述

深度神經網絡的開發與工作模式抽象為以下幾個步驟:

1.確定模型輸入輸出

首先需要確認神經網絡模型的輸入樣本學習數據(Sample)、輸出標簽(Label)。如圖中所示,給 AI 模型輸入圖片,輸出是圖片所對應的類別(馬冬梅、馬小梅等)。用戶需要提前準備好模型的輸入輸出數據,進而展開后續的模型訓練【21】。

一般來說,輸入和輸出的數據將分為80%的模型訓練數據- training data,20%的模型用來測試模型-test data,來計算loss function。

2.設計與開發模型

開發者通過 AI 開發框架提供的 API 開發了圖中的模型結構,線段代表權重,圓圈代表輸入數據發生計算操作。其中 wn 代表權重,也就是可以被學習和不斷更新的數值。權重w和偏置b就被稱為神經網絡的參數,其約等于連接的個數-就是圖像里的線條個數。

3.訓練(Training)過程

訓練的本質上是通過網絡中的連接逐層向后傳播總誤差,計算每個層中每個權重和偏差對總誤差的貢獻(梯度 δw),然后使用求解梯度的優化算法(如梯度下降算法)進行優化權重和偏差,并最終最小化神經網絡的總誤差。如圖中上半部分所示,訓練過程就是根據用戶給定的帶有標簽(如圖中的馬冬梅、馬小梅等輸出標簽)的數據集,不斷通過優化算法進行學,通過下面步驟學習出給定數據集下最優的模型權重 wn 的取值。

3.1 前向傳播(Forward Propagation):由輸入到輸出完成 AI 模型中各層矩陣計算(例如卷積層,池化層等),每一層都在提取更高維度的目標特征(點-線-面),產生輸出并完成損失函數 LOSS 計算。

  • 損失函數就是模型的預測值和實際值的總差
  • 深度學習神經網絡計算80%都是簡單的加減乘除四則運算,20%才是復雜的微積分運算-梯度更新等

3.2 反向傳播(Back Propagation):由輸出到輸入反向完成 AI 模型中各層的權重和輸出對損失函數的梯度求解。

x 軸和 y 軸分別代表兩個權值,z 軸代表在給定兩個特定權值的情況下損失函數的值。我們的目標就是找到損失最小的特定權值,這個點被稱作損失函數的最小值點。

圖:初始的損失函數

3.3 梯度更新(Weight Update):對模型權重通過梯度下降法完成模型權重針對梯度和指定學習率更新。

  • 初始化權值的時候,我們處于損失函數圖形中的最高點。首先要做的就是查看 x-y 平面中所有可能的方向,看看哪個方向是損失函數的值下降最陡峭的方向。這個就是我們必須移動的方向,它恰恰與梯度的方向相反。梯度是高維導數的另一種說法,它給出了最陡峭的上升方向【22】。
  • 在曲面的任何一點,我們都能夠定義一個與其相切的平面。在更高維度,我們總能夠定義一個超平面,但在這里我們還是堅持使用 3 維空間。然后,在這個平面上有無限個方向。其中,準確來說只有一個使函數上升最快的方向,這個方向由梯度給出,與之相反的方向就是下降最快的方向。這就是算法名稱的來源,我們沿著梯度的方向進行下降,所以就叫做梯度下降。
  • 現在,既然已經有了前進方向,我們必須決定需要采取步子的大小,而控制下降步幅大小的參數即學習率。為了保證降到最小值,我們必須謹慎地選擇學習率。
  • 如果移動得太快,我們可能越過最小值,沿著「山谷」的山脊蹦蹦跳跳,永遠都不可能到達最小值。如果移動太慢,訓練可能花費太長的時間,根本就不可行,此外太慢的學習率也容易讓算法陷入極小值。
  • 一旦有了梯度和學習率,我們就開始行動,然后在最終到達的任何位置重新計算梯度,然后重復這個過程。
  • 梯度的方向告訴我們哪個方向上升的最快,它的幅值則表示最陡峭的上升/下降有多陡。所以,在最小值的地方,曲面輪廓幾乎是平坦的,我們期望得到幾乎為零的梯度。事實上,最小值點的梯度就是 0。
  • 在實踐中,我們可能永遠無法精確地達到最小值,但是我們能夠在最小值附近的平坦區域震蕩。當我們在這個區域震蕩時,損失值幾乎是我們能夠達到的最小值,并且不會有很大的變化,因為我們是在真實的最小值附近跳動。通常,當損失值在預定的數字內沒有提升的時候我們會停止迭代,例如 10 次或者 20 次迭代。當這種情況發生時,我們就說訓練已經收斂了,或者說收斂已經實現了。
  • 調整學習率是算法工程師的重要工作之一,也稱之為調參工程。

圖:實際的梯度更新后的損失函數

  • 不斷重復以上步驟 3.1 ~ 3.2,直到達到 AI 模型收斂或達到終止條件(例如指定達到一定迭代(Step)次數然后停止執行)。
  • 如圖所示,當完成了模型訓練,意味著在給定的數據集上,模型已經達到最佳或者滿足需求的預測效果。在如果開發者對模型預測效果滿意,就可以進入模型部署進行推理和使用模型。一句話而言,我們訓練 AI 模型的過程,就是通過不斷的迭代計算,使用梯度下降的優化算法,使得損失函數越來越小。損失函數越小就表示算法達到數學意義上的最優。

4.推理(Inference)過程

推理只需要執行訓練過程中的前向傳播過程即可,推理的原理是基于訓練好的 AI 模型,通過輸入待預測的數據,經過前向傳播過程,即通過 AI 模型定義的激活函數和非線性函數處理數據,得到最終的預測結果。

如圖中下半部分所示,由輸入到輸出完成 AI 模型中各層的矩陣計算(例如卷積層,池化層等),產生輸出。本例中輸入是“馬冬梅”的圖片,輸出的結果為向量,向量中的各個維度編碼了圖像的類別可能性,其中“馬冬梅”的類別概率最大,判定為“馬冬梅”,后續應用可以根據輸出類別信息,通過程序轉換為人可讀的信息。

蓬勃發展期:2011年至今

隨著大數據、云計算、互聯網、物聯網等信息技術的發展,泛在感知數據和圖形處理器等計算平臺推動以深度神經網絡為代表的人工智能技術飛速發展,大幅跨越了科學與應用之間的技術鴻溝,諸如圖像分類、語音識別、知識問答、人機對弈、無人駕駛等人工智能技術實現了重大的技術突破,迎來爆發式增長的新高潮。

2012年,Hinton和他的學生Alex Krizhevsky設計的AlexNet神經網絡模型在ImageNet競賽大獲全勝,這是史上第一次有模型在 ImageNet 數據集表現如此出色,并引爆了神經網絡的研究熱情。

AlexNet是一個經典的CNN模型,在數據、算法及算力層面均有較大改進,創新地應用了Data Augmentation、ReLU、Dropout和LRN等方法,并使用GPU加速網絡訓練。GPU在深度學習網絡的作用開始遠遠大于CPU。

2012年,谷歌正式發布谷歌知識圖譜Google Knowledge Graph),它是Google的一個從多種信息來源匯集的知識庫,通過Knowledge Graph來在普通的字串搜索上疊一層相互之間的關系,協助使用者更快找到所需的資料的同時,也可以知識為基礎的搜索更近一步,以提高Google搜索的質量。

2015年,為紀念人工智能概念提出60周年,深度學習三巨頭LeCun、Bengio和Hinton(他們于2018年共同獲得了圖靈獎)推出了深度學習的聯合綜述《Deep learning》。

《Deep learning》文中指出深度學習就是一種特征學習方法,把原始數據通過一些簡單的但是非線性的模型轉變成為更高層次及抽象的表達,能夠強化輸入數據的區分能力。通過足夠多的轉換的組合,非常復雜的函數也可以被學習。

2015年,Microsoft Research的Kaiming He等人提出的殘差網絡(ResNet)在ImageNet大規模視覺識別競賽中獲得了圖像分類和物體識別的優勝。

殘差網絡的主要貢獻是發現了網絡不恒等變換導致的“退化現象(Degradation)”,并針對退化現象引入了 “快捷連接(Shortcut connection)”,緩解了在深度神經網絡中增加深度帶來的梯度消失問題。

2015年,谷歌開源TensorFlow框架。它是一個基于數據流編程(dataflow programming)的符號數學系統,被廣泛應用于各類機器學習(machine learning)算法的編程實現,其前身是谷歌的神經網絡算法庫DistBelief。

2015年,馬斯克等人共同創建OpenAI。它是一個非營利的研究組織,使命是確保通用人工智能 (即一種高度自主且在大多數具有經濟價值的工作上超越人類的系統)將為全人類帶來福祉。其發布熱門產品的如:OpenAI Gym,GPT等。

2016年,AlphaGo與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝。

2018年,Google提出論文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并發布Bert(Bidirectional Encoder Representation from Transformers)模型,成功在 11 項 NLP 任務中取得 state of the art 的結果。

BERT是一個預訓練的語言表征模型,可在海量的語料上用無監督學習方法學習單詞的動態特征表示。它基于Transformer注意力機制的模型,對比RNN可以更加高效、能捕捉更長距離的依賴信息,且不再像以往一樣采用傳統的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預訓練,而是采用新的masked language model(MLM),以致能生成深度的雙向語言表征。

2020年,OpenAI開發的文字生成 (text generation) 人工智能GPT-3,它具有1,750億個參數的自然語言深度學習模型,比以前的版本GPT-2高100倍,該模型經過了將近0.5萬億個單詞的預訓練,可以在多個NLP任務(答題、翻譯、寫文章)基準上達到最先進的性能。

2020年,谷歌旗下DeepMind的AlphaFold2人工智能系統有力地解決了蛋白質結構預測的里程碑式問題。它在國際蛋白質結構預測競賽(CASP)上擊敗了其余的參會選手,精確預測了蛋白質的三維結構,準確性可與冷凍電子顯微鏡(cryo-EM)、核磁共振或 X 射線晶體學等實驗技術相媲美。

2021年,OpenAI提出兩個連接文本與圖像的神經網絡:DALL·E 和 CLIP。DALL·E 可以基于文本直接生成圖像,CLIP 則能夠完成圖像與文本類別的匹配。

2021年,AlphaFold 2 能很好地預判蛋白質與分子結合的概率,為我們展示了人工智能驅動自然學科研究的無限潛力;

2022年,ChatGPT推出,AI爆炸進行時!

總結來說,AI技術學派的發展,隨著人類對自己的智慧的研究深入-當然也有客觀物理條件的滿足(算力和數據),從意識層面(現成的知識復制)到物質層面(神經網絡的機制),所產生的智能從機械重復性工作到創意生成實現了跨越,符號主義范式向聯結主義范式遷移,少層次神經網絡到多層次深度學習的神經網絡。

(2)AI理論

在實踐中,我們根據任務,優先確認學習范式和算法,搭建ai模型,在小規模應用中收斂學習范式和ai模型至可以被大規模訓練的最佳狀態–loss fuction表現優異。

學習范式

機器學習的范式包含三種主流范式:

監督學習(Supervised Learning)

監督學習模型主要是根據人類已標注數據對模型的輸入和輸出學習到一種映射關系,以此對測試數據集中的樣本進行預測。包含兩類任務:分類和回歸。許多數據標注公司業務依賴于此學習范式的模型公司。

模仿學習(Imitation Learning)

模仿學習是指從示教者提供的范例中學習,把狀態作為特征(feature)【23】,動作作為標記(label)進行分類(對于離散動作)或回歸(對于連續動作)的學習從而得到最優策略模型。模型的訓練目標是使模型生成的狀態-動作軌跡分布和輸入的軌跡分布相匹配。本質上是一種對齊手段,不是真正的理解世界。

在簡單自動駕駛任務中(如下圖),狀態就是指汽車攝像頭所觀測到的畫面,動作即轉向角度。根據人類提供的狀態動作對來習得駕駛策略。這個任務也叫做行為克?。˙ehavior Cloning),即作為監督學習的模仿學習。

缺點:由于沒有自我探索能力,性能不可能超過人類遙控機器人所能達到的性能。而很多任務實際上是通過遙控/示教難以實現的,比如人形機器人的奔跑跳躍等動態平衡問題,以及與動態物體的交互。

無監督學習(Unsupervised Learning)

相比于監督學習,無監督學習僅依賴于無標簽的數據訓練模型來學習數據表征。自監督學習是無監督學習的一種。

自監督學習(Self-Supervised Learning)

自監督學習主要是利用「輔助任務(pretext)–自動標注、自動訓練「從大規模的無監督數據中挖掘」自身的監督信息」來提高學習表征的質量,通過這種構造監督信息對網絡進行訓練,從而可以學習到對下游任務具有價值的表征。

最常見的通過隨機刪去訓練集句子中的單詞來構造輔助任務訓練集和標簽,來訓練網絡預測被刪去的單詞,以提升模型對于語序特征的提取能力(BERT)。

強化學習(Reinforcement Learning)

基于環境的反饋而行動,通過不斷與環境的交互、試錯,最終完成特定目的或者使得整體行動收益最大化。強化學習不需要訓練數據的label,但是它需要每一步行動環說給的反饋,是獎勵還是懲別!反饋可以量化,基于反饋不斷調整訓練對象的行為【24】。

強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環境進行交互獲得的獎賞指導行為,目標是使智能體獲得最大的獎賞。

強化學習主要是指導訓練對象每一步如何決策,采用什么樣的行動可以完成特定的目的或者使收益最大化。

比如AlphaGo下圍棋,AlphaGo就是強化學習的訓練對象,AlphaGo走的每一步不存在對錯之分,但是存在“好壞”之分。當前這個棋面下,下的“好”,這是一步好棋。下的“壞”,這是一步臭棋。強化學習的訓練基礎在于AlphaGo的每一步行動環境都能給予明確的反饋,是“好”是“壞”?“好”“壞”具體是多少,可以量化。強化學習在AlphaGo這個場景中最終訓練目的就是讓棋子占領棋面上更多的區域,贏得最后的勝利。

EE(Explore & Exploit)探索和利用的權衡 trade-off

但實際我們在進行強化學習訓練過程中,會遇到一個“EE”問題。這里的Double E不是“Electronic Engineering”,而是“Explore & Exploit”,“探索&利用”。

所以在強化學習訓練的時候,一開始會讓Agent更偏向于探索Explore,并不是哪一個Action帶來的Value最大就執行該Action,選擇Action時具有一定的隨機性,目的是為了覆蓋更多的Action,嘗試每一種可能性。等訓練很多輪以后各種State下的各種Action基本嘗試完以后,我們這時候會大幅降低探索的比例,盡量讓Agent更偏向于利用Exploit,哪一個Action返回的Value最大,就選擇哪一個Action。

Explore&Exploit是一個在機器學習領域經常遇到的問題,并不僅僅只是強化學習中會遇到,在推薦系統中也會遇到,比如用戶對某個商品 or 內容感興趣,系統是否應該一直為用戶推送,是不是也要適當搭配隨機一些其他商品 or 內容。

該學習范式容易陷入局部最優:部分場景中Agent采取的行動可能是當前局部最優,而不是全局最優。網上經常有人截圖爆出打游戲碰到了王者榮耀AI,明明此時推塔或者推水晶是最合理的行為,但是AI卻去打小兵,因為AI采取的是一個局部最優的行為。再合理的Reward函數設置都可能陷入局部最優中。

能力成長滯后:比如沒有遇到的問題–長尾問題,長時間重復學習后,才能學會,沒有Zero-Shot的能力。

AI模型算法

下面對典型的基本 AI 模型結構進行類型歸納【25】:

卷積神經網絡(Convolutional Neural Network,CNN)

以卷積層(Convolution Layer)為主,池化層(Pooling Layer),全連接層(Fully Connected Layer)等算子(Operator)的組合形成的 AI 網絡模型,并在計算機視覺領域取得明顯效果和廣泛應用的模型結構。

循環神經網絡(Recurrent Neural Network,RNN)

以循環神經網絡、長短時記憶(LSTM)等基本單元組合形成的適合時序數據預測(例如,自然語言處理、語音識別、監控時序數據等)的模型結構。

圖神經網絡(Graph Neural Network,GNN)

使用神經網絡來學習圖結構數據,提取和發掘圖結構數據中的特征和模式,滿足聚類、分類、預測、分割、生成等圖學習任務需求的算法總稱。目的是為了盡可能多的提取 “圖” 中潛在的表征信息。

生成對抗網絡(Generative Adversarial Network,GAN)

該架構訓練兩個神經網絡相互競爭,從而從給定的訓練數據集生成更真實的新數據。例如,可以從現有圖像數據庫生成新圖像,也可以從歌曲數據庫生成原創音樂。GAN 之所以被稱為對抗網絡,是因為該架構訓練兩個不同的網絡并使其相互對抗。

擴散概率模型(Diffusion Probabilistic Models)

擴散概率模型是一類潛變量模型,是用變分估計訓練的馬爾可夫鏈。目標是通過對數據點在潛空間中的擴散方式進行建模,來學習數據集的潛結構。如計算機視覺中,意味著通過學習逆擴散過程訓練神經網絡,使其能對疊加了高斯噪聲的圖像進行去噪。

混合結構網絡(Model Ensemble)

組合卷積神經網絡和循環神經網絡,進而解決如光學字符識別(OCR)等復雜應用場景的預測任務。

基礎模型的典型算子已經被 AI 開發框架和底層 AI 硬件做了較多優化,但是 AI 模型已經不單純只在算子層面產生變化,其從網絡結構,搜索空間等方向演化出如下的新的趨勢:

更大的模型:以 Transformer 為基本結構的代表性預訓練神經語言模型(Neural Language Model),例如,BERT、GPT-3、LLAMA 等,在自然語言處理和計算機視覺等場景應用越來越廣泛。其不斷增加的層數和參數量,該模型對底層系統內存管理,分布式訓練和硬件設計提出了很大的挑戰。

更靈活的結構:圖神經網絡模型、深度搜索樹網模型等算法不斷抽象多樣且靈活的數據結構(例如圖 Graph,樹 Tree 等),應對更為復雜的建模需求。進而衍生了新的算子(例如圖卷積等)與計算框架(例如圖神經網絡框架等)。

更稀疏的模型結構:以多專家模型(Mixture of Experts,MoE)和 Pathways 模型結構為代表的模型融合結構,讓運行時的 AI 系統執行模型更加動態(Dynamic)和稀疏(Sparse),提升模型的訓練效率減少訓練代價,支持更多的任務。給系統設計靜態分析帶來了不小的挑戰,同時驅動運用即時編譯(Just In Time Compiling)和運行時(Runtime)更加高效的調度與優化。

更大規模的搜索空間:用戶定義更大規模的超參數與模型結構搜索空間,通過超參數搜索優化(HPO)與神經網絡結構搜索(NAS)自動化找到最優的模型結構。自動化機器學習(AutoML)為代表的訓練方式,衍生出多作業執行與多作業(Multi-Jobs)編排優化的系統需求。

更多樣的訓練方式:擴散模型(Diffusion Model)和深度強化學習(Deep Reinforcement Learning)為代表的算法有比傳統訓練方式更為復雜的過程。其衍生出訓練,推理,數據處理混合部署與協同優化的系統需求。

當然還有軟硬結合的算法:具身智能算法和自動駕駛算法。

接下來,筆者會重點闡述以trasfomer架構為主的算法演變及原理。

Transfomer模型算法

深度學習算法都是:通過學習輸入的概率分布,形成神經網絡潛空間的知識庫-包羅萬象的概率分布,然后引導輸出的概率分布與現實的需求對齊。

一句話:通過概率分布找到事物的各種關系

RNN的梯度消失和爆炸

深度學習RNN模型在自然語言領域的大規模探索和商業化后,人們逐漸發現其致命弱點,導致其學習能力受限–梯度爆炸和消失問題。

比較簡單的深層網絡如下【26】:

圖中是一個四層的全連接網絡,假設每一層網絡激活后的輸出為?

其中i為第i層, x代表第i層的輸入,也就是第i?1層的輸出,f是激活函數,那么,得出?

簡單記為?

BP算法基于梯度下降策略,以目標的負梯度方向對參數進行調整,參數的更新為?

給定學習率α,得出?

如果要更新第二隱藏層的權值信息,根據鏈式求導法則,更新梯度信息:?

很容易看出來??

所以說, 就是對激活函數進行求導,如果此部分大于1,那么層數增多的時候,最終的求出的梯度更新將以指數形式增加,即發生梯度爆炸,如果此部分小于1,那么隨著層數增多,求出的梯度更新信息將會以指數形式衰減,即發生了梯度消失。

總而言之,隨著層數增多,鏈式求導的微積分算法導致的梯度更新求解失控。

如果說從數學上看不夠直觀的話,下面幾個圖可以很直觀的說明深層網絡的梯度問題。

注:下圖中的隱層標號和第一張全連接圖隱層標號剛好相反。

已經可以發現隱藏層2的權值更新速度要比隱藏層1更新的速度慢,第四隱藏層比第一隱藏層的更新速度慢了兩個數量級。

從深層網絡角度來講,不同的層學習的速度差異很大,表現為網絡中靠近輸出的層學習的情況很好,靠近輸入的層學習的很慢,有時甚至訓練了很久,前幾層的權值和剛開始隨機初始化的值差不多。

梯度消失、爆炸,導致了RNN的學習能力受限,從而無法解決長時依賴問題,當預測點與依賴的相關信息距離比較遠的時候,就難以學到該相關信息。例如在句子”我是一名中國人,…(省略數十字),我會說中文”,如果我們要預測未尾的“中文”兩個字,我們需要上文的“中國人”,或者“中國”。

其根本原因在于反向傳播訓練法則,本質在于方法問題,而且對于人來說,在大腦的思考機制里是沒有反向傳播的。

同時在RNN當中,tokens是一個一個被喂給模型的。比如在a3的位置,模型要等a1和a2的信息都處理完成后,才可以生成a3。無法并行計算導致只能接納有限的上下文。

Transfomer

為了更好地捕捉長距離信息,研究者們想要尋找到一種更強的語言模型方法,由此提出了以 transformer結構為基礎的預訓練語言模型。

一切源于2017年谷歌Brain團隊那篇鼎鼎大名的文章“Attention Is All You Need”(注意力就是你所需要的一切),就是這篇文章提出了Transformer網絡結構。

首先,Transformer引入的自注意力機制能夠有效捕捉序列信息中長距離依賴關系,相比于以往的RNNs,它在處理長序列時的表現更好。

而自注意力機制的另一個特點是允許模型并行計算,無需RNN一樣t步驟的計算必須依賴t-1步驟的結果,因此Transformer結構讓模型的計算效率更高,加速訓練和推理速度。

Transformer最開始應用于NLP領域的機器翻譯任務,但是它的通用性很好,除了NLP領域的其他任務,經過變體,還可以用于視覺領域,如ViT(Vision Transformer)。

我們把模型拆成了各個零件進行學習,最后把這些零件組裝成一個標準的Transformer。

最初,Transformer 模型是為機器翻譯而設計的。它是一個編碼器-解碼器結構,其中編碼器將原始語言的句子作為輸入并生成基于注意力的表征。而解碼器關注編碼信息并以自回歸方式生成翻譯的句子,就像 RNN 一樣。

1 輸入:Embedding(嵌入)– 降維至數字

“Embedding”直譯是嵌入式、嵌入層。作用就是將文字降維至數字,讓計算機可計算。

嵌入之前,我們首先tokenize是指將文本分割成稱為“tokens”的有意義的片段的過程–可以理解為把句子里的主語、謂語等有意義的單詞切割開,每個token單獨輸入給嵌入層。

簡單來說,我們常見的地圖就是對于現實地理的Embedding,現實的地理地形的信息其實遠遠超過三維,但是地圖通過顏色和等高線等來最大化表現現實的地理信息。通過它,我們在現實世界里的文字、圖片、語言、視頻就能轉化為計算機能識別、能使用的語言,且轉化的過程中信息不丟失。

圖:直觀的幾何表達壓縮為:三維圖像變壓縮成3張二維的圖像

假設,我們中文,一共只有10個字,那么我們用0-9就可以表示完【27】。比如,這十個字就是“小普喜歡星海灣的朋友”,其分別對應“0-9”,如下:

那么,其實我們只用一個列表就能表示所有的對話。例如:

但是中文單詞有幾十萬的,都需要特殊編碼,可以經過one-hot編碼把上面變成,保持其唯一特殊性:

即:把每一個字都對應成一個十個(樣本總數/字總數)元素的數組/列表,其中每一個字都用唯一對應的數組/列表對應,數組/列表的唯一性用1表示。

稀疏矩陣做矩陣計算的時候,只需要把1對應位置的數相乘求和就行。何況這個列表還是一行,如果是100行、1000行或1000列呢?所以,one-hot編碼的優勢就體現出來了,計算方便快捷、表達能力強。

然而,缺點也隨著來了。比如:中文大大小小簡體繁體常用不常用有十幾萬,然后一篇文章100W字,表示成100W X 10W的矩陣???這是它最明顯的缺點:過于稀疏時,過度占用資源。比如:其實我們這篇文章,雖然100W字,但是其實我們整合起來,有99W字是重復的,只有1W字是完全不重復的。那我們用100W X 10W的豈不是白白浪費了99W X 10W的矩陣存儲空間。那怎么辦???這時,Embedding層就出現了!

假設:我們有一個2 x 6的矩陣,然后乘上一個6 x 3的矩陣后,變成了一個2 x 3的矩陣。

這個過程,我們把一個A中的12個元素的矩陣變成C中6個元素的矩陣,直觀上,大小是不是縮小了一半,Embedding層,在某種程度上,就是用來降維的,降維的原理就是矩陣乘法。

假如我們有一個100W X10W的矩陣,用它乘上一個10W X 20的矩陣,我們可以把它降到100W X 20,瞬間量級降了10W/20=5000倍。

它就是作為這個橋梁的存在,讓我們手頭的東西可伸可縮,變成我們希望的樣子。

2 輸入:Positional Encoding (位置編碼)

我們的輸入除了嵌入層的降維數字信息外,還需要對每一個文字打上數字編碼,知道每一個文字的上下文順序【28】。

在self-attention模型中,輸入是一整排的tokens,對于人來說,我們很容易知道tokens的位置信息,比如:

(1)絕對位置信息。a1是第一個token,a2是第二個token……

(2)相對位置信息。a2在a1的后面一位,a4在a2的后面兩位……

(3)不同位置間的距離。a1和a3差兩個位置,a1和a4差三個位置….

但是這些對于self-attention來說,是無法分辯的信息,因為self-attention的運算是無向的。因為,我們要想辦法,把tokens的位置信息,喂給模型。

編碼有三大要求:1 絕對位置信息有界限(否則距離大小無限)2 連續 3 不同位置的相對距離可以被轉換計算

3 Self-attention(自注意力機制)– 注意力機制下的權重計算

假設以下句子是我們要翻譯的輸入句子:

“動物沒有過馬路,因為它太累了”【29】

這句話中的“它”指的是什么?它是指街道還是動物?這對人類來說是一個簡單的問題,但對算法來說卻不那么簡單, 當模型處理單詞“它”時,自注意力允許它將“它”與“動物”聯系起來。

當模型處理每個單詞(輸入序列中的每個位置)時,自注意力允許它查看輸入序列中的其他位置以尋找有助于更好地編碼該單詞的線索。

自注意力機制就是要通過權重矩陣來自發地找到詞與詞之間的關系

(1)計算框架

Self-Attention的意思是,我們給Attention的輸入都來自同一個序列,其計算方式如下【30】:

這張圖所表示的大致運算過程是:對于每個token,先產生三個向量Query,Key,Value:

  1. Query向量類比于詢問。某個token問:“其余的token都和我有多大程度的相關呀?”
  2. Key向量類比于索引。某個token說:“我把每個詢問內容的回答都壓縮了下裝在我的key里” 。
  3. Value向量類比于回答。某個token說:“我把我自身涵蓋的信息又抽取了一層裝在我的value里” 。

以圖中的token a2為例:它產生一個Query,每個Query都去和別的token的Key做“某種方式”的計算,得到的結果我們稱為attention score。則一共得到四個attention score。

將這四個score分別乘上每個token的Value,我們會得到四個抽取信息完畢的向量。將這四個向量相加,就是最終a2過attention模型后所產生的結果b2。

(2)Query,Key和Value 的計算方式 — 計算權重矩陣

下圖描述了產生Query(Q),Key(K)和Value(V)的過程:

實際上,要理解QKV,重點是理解 Wq、Wk、Wv這三個矩陣。為什么會有這三個矩陣?前面文章中,只說明了Q、K、V,而省略了Wq、Wk、Wv。但是,要理解 attention 中的QKV,首先要理解這三個矩陣。

簡單來說,這是三個權重矩陣。那么,它們是怎么來的?自然,是在模型訓練過程中得到的。如果只關注模型運行時的Q、K、V,就不容易理解它們的作用。要結合模型的訓練過程和運行過程來理解QKV【31】。

假設有一個問答數據庫,包含有很多問答,比如:

假設有一個新問題:今天會下雨嗎?

此時:Q = 今天會下雨嗎?那么這個問題的輸出V,應該是什么?

通過問題Q,如果要從問答數據庫中查找最接近問題的答案,當然是找相似了。

首先,從所有 K 中尋找最接近 Q 的 K,也就是說要計算 Q 和 [多個K] 的相似性,只有找到最接近 Q 的 K,才能找到最接近 K 的 V。

Q和K的相似性,實際上在訓練的過程中,就是訓練數據K1、K2之間的相似性。在得到了輸入序列之間的相關性權重之后,對V做一個加權處理,從而就找到了最接近 K 的那個 V。

Q 和 K 的相似性,K 和 V 的相關性,都是在訓練過程中得到的,包含在模型權重矩陣之中。

通過訓練過程,得到了 Wq、Wk、Wv 權重矩陣。

這樣,在模型運行過程中,當輸入一組新的 word 序列時,通過這些權重矩陣對輸入進行相似性、相關性計算,最后就得到了最接近 V(訓練得到的) 的一個輸出序列。

(3)計算attention score — 算出關系

總結一下,到目前為止,對于某條輸入序列X,我們有【32】:

現在,我們做兩件事:

  1. 利用Q和K,計算出attention score矩陣。
  2. 利用V和attention score矩陣,計算出Attention層最終的輸出結果矩陣。

記最終的輸出結果為 Attention(Q,K,V),則有:

(4)輸出 — 使用關系,加權輸出

在softmax之后,attention score矩陣的每一行表示一個token,每一列表示該token和對應位置token的α值,因為進行了softmax,每一行的α值相加等于1。

之所以進行scaling out(大規模的預訓練),是為了使得在softmax的過程中,掌握更多更準確的關系,梯度下降得更加穩定,避免因為梯度過小而造成模型參數更新的停滯。

4 ResNet(殘差網絡)和 Batch Norm & Layer Norm(批量標準化/層標準化)

用于穩定和加速訓練。自注意力機制層上方還包括一個 Add & Norm 層,Add 表示殘差連接 (Residual Connection) 用于防止網絡退化(這也是RNN的頑疾),而Norm 表示 Layer Normalization,用于對每一層的激活值進行歸一化,也就是將每一層神經元的輸入都轉成均值方差都一樣的,這樣可以加快收斂。

5 Feed Forward Network (前饋網絡)

用于進一步處理和變換特征表示。Transformer還使用了Feed Forward前饋網絡,它由兩個線性變換和一個非線性激活函數(通常是ReLU)組成。輸入的詞向量經過一個線性變換,將其映射到一個更高維度的空間。然后,通過ReLU進行非線性變換。最后,再經過一個線性變換,將其映射回原始的詞向量維度。通過多層前饋網絡的堆疊,模型可以學習到更復雜的特征表示,從而更好地捕捉輸入序列中的語義信息。

6 標準的Transfomer的組裝 — Encoder – Decoder結構

上述的5大算法框架組成了基本的編碼器和解碼器。

  • Encoder的主要任務是將輸入序列(通常是文本)轉換為一組特征表示(也稱為編碼)。這些特征表示包含了輸入序列的語義信息,供Decoder在生成輸出序列時參考。多層的編碼層堆疊在一起,每一層都處理并增強特征表示,用來提取、凝練(降維)特征,GPT已知是6層。
  • Decoder的任務是生成輸出序列,通常是根據Encoder的輸出特征表示和前面的已生成的輸出序列生成下一個單詞或符號。相比于Encoder,解碼器多了掩碼多頭自注意力機制(Masked Multi-Head Self-Attention Mechanism):用于處理已經生成的輸出序列,通過掩碼確保解碼器在每個位置只關注之前的位置,避免泄露未來的信息。
  • 線性層和Softmax:Decoder的最終輸出通過一個線性層變換為詞匯表大小的向量,并通過Softmax函數轉換為概率分布,用于選擇下一個單詞。

其實了解了Encoder-Decoder架構的訓練思路和過程后,就可以發現這種架構存在的幾個最大的缺點【33】:

  • 數據預處理:Encoder-Decoder模型通常對于輸入和輸出之間的精確對齊要求非常嚴格,這也就意味著需要復雜的數據預處理過程。而且對于不同類型的輸入和輸出數據,可能需要用到不同的預處理方法,比如機器翻譯中的雙語對齊;比如圖像字幕識別任務中的圖像預處理和文本預處理等等。
  • 輸入數據難以獲?。篍ncoder-Decoder架構通常高度依賴于輸入和輸出之間的關系,這就要求收集到的輸入和輸出數據具備精確的映射關系,增大了數據收集的難度,大大減少了符合要求的數據量。
  • 訓練時間更長:由于結構的復雜性,Encoder-Decoder模型可能需要很長的訓練時間。尤其是處理長序列時,為了理解和編碼整個序列的上下文,為了計算序列中每個元素與其他所有元素間的關系,為了儲存更多的數據點和中間計算結果,僅在Encoder階段,就需要消耗大量的時間和內存,增加訓練難度。
  • 模型應用受限:僅對特定類型的任務表現良好,比如谷歌翻譯不能用于進行語音識別,每涉及到一種新的功能,便需要重新訓練一個模型,耗時耗力,很不靈活。

Encoder-Decoder架構通常用于處理一些需要在輸入和輸出間建立精確映射的任務,比如機器翻譯、文本摘要等。在這些任務中,理解輸入的精確內容并據此生成特定的輸出是非常重要的。而基于這種架構訓練出來的模型,一般只能應用于某種特定的任務,比如一個專為機器翻譯訓練的Encoder-Decoder模型可能不適合直接用于文本摘要或其他類型的任務。

而去年如雨后春筍般冒出來的各種大模型,一個重要的主打功能便是:多模態。

也就是說,對于大模型的要求是,既能文字聊天,又能語音聊天;既能生成文本,又能畫出美圖;

既能根據文字出音,又能根據文字做視頻。

這樣”既要又要”的高難度需求,顯然Encoder-Decoder架構不再適用,Decoder-only架構也就應運而出。

7 其他大模型的框架演變 — Encoder-Only & Decoder-Only結構

下面這張圖是一個大模型的一個分布樹,縱軸代表大模型的發布年份和大模型輸入token數,這個圖很有代表性,每一個分支代表不同的模型架構,今天以圖中根系標注的三大類展開:Encoder-only、Encoder-Decoder、Decoder-only。

Encoder-only

Encoder-only是以Bert為代表的模型及其衍生優化版本為主。

一句話總結,BERT核心原理:使用多層嵌套的Transformer的編碼器來處理輸入序列,使用雙向語言模型預訓練策略進行掩碼預測。

Bert開始的時候只是希望能夠用這個框架能夠學習語言的語法規則,針對主要是文本分類、問答等任務,所以只需要使用Transformer的編碼器能夠實現文本的語義理解就可以了,不需要生成序列。

搞清楚了Bert原理,那為什么說BERT屬于Encoder-only模型?很簡單,因為它只使用了Transformer模型中的編碼器部分,而沒有使用解碼器。

在Transformer模型中,編碼器負責將輸入序列轉換為上下文感知的表示,而解碼器則負責生成輸出序列。BERT使用了編碼器。

只使用編碼器最主要的原因:BERT的預訓練目標是通過掩蓋部分輸入來預測其他部分,或者預測兩個句子之間的關系–已有內容的預測,不是新的輸出,這些任務并不涉及到生成輸出序列,因此不需要解碼器。

Encoder-only架構的LLMs更擅長對文本內容進行分析、分類,包括情感分析,命名實體識別。

Decoder-Only

現在最熱門就是這個架構了,解碼器結構,當家的應該也是目前整個大模型領域的領頭羊:GPT。

Decoder主要是是為了預測下一個輸出的內容/token是什么,并把之前輸出的內容/token作為上下文學習。實際上,decoder-only模型在分析分類上也和encoder only的LLM一樣有效。

各種實驗表明decoder-only模型更好,Google Brain 和 HuggingFace聯合發表的  What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization? 曾經在5B的參數量級下對比了兩者性能。

從技術上講,Decoder Only的LLM始于GPT,可能最初僅僅是為了簡化結構追求規模。后來發現Transformer的Attention層存在低秩問題,會失去表達能力,而Decoder Only結構保留的Skip Connection和MLP能很好的對抗Attention層的低秩,效果要優于Encoder Only。這種理論上的優勢成為后來LLM普遍采用Decoder Only的一個重要原因。

論文最主要的一個結論是decoder-only模型在沒有任何tuning數據的情況下、zero-shot表現最好,而encoder-decoder則需要在一定量的標注數據上做multitask finetuning才能激發最佳性能。而且encoder-only在大參數下還有一定的涌現能力。

通過體驗多模態LLM的聊天功能、圖片生成、語音對話等,就可以發現Decoder-only架構的靈活性。不僅如此,Decoder-only可以讓模型構建和訓練的各個步驟都顯得更加便捷:

  • 靈活的輸入格式:由于Decoder-only模型本質上是根據給定的文本串生成輸出,因此它們可以接受各種格式的輸入。包括問題和回答、提示和續寫、以及代碼和其執行結果等。也就是說,無需特意對輸入數據集進行”清洗”。
  • 無需特定的任務架構:與Encoder-Decoder架構不同,Decoder-only模型不需要為不同類型的任務構建特定的encoder部分。也就是說,同一個模型可以在沒有或僅需要少量修改的情況下,處理多種任務。
  • 簡化的預訓練和微調過程:在預訓練和微調階段,沒有繁瑣的encoder過程,Decoder-only模型可以更加容易的進入訓練過程。此外,由于訓練過程主要關注如何基于給定的上下文生成文本,因此既不需要用戶提供復雜的輸入輸出編碼關系,也不需要專門處理這些復雜的映射。
  • 易于擴展性:由于結構的簡單和統一,Decoder-only模型通常更容易擴展到更大的模型尺寸,有助于提升模型的性能和適應性。這也就是去年涌現出的眾多LLM,參數數量能夠不斷攀上新高的主要原因之一。

總而言之,在成本、泛化性、可擴展scale out上,decoder-only模型更優越,更容易做大模型。

但挑戰也依然存在:

  • 大模型的可解釋性較為薄弱。由于大模型采用了深度神經網絡架構,模型參數往往過億級別,因此數據在模型中的處理過程難以追蹤,也很難獲得對模型推理結果的有效解釋。
  • 更大的模型帶來了更高的訓練成本,包括高科技人才的智力支出、大數據和大算力所需的經濟成本,此外,還有不可忽視的環境影響。
  • 越來越大的模型所帶來的效用提升正在縮小。人們發現,當模型參數規模增長 10 倍時,得到的性能提升往往不到 10 個百分點。
  • 大模型帶來了倫理方面的風險。由于大模型的訓練需要的數據極為龐大,因此靠人工進行收集和檢查并不現實,一般都采用機器自動進行訓練數據的收集,導致訓練集中可能存在粗俗、暴力、色情等內容。

8 Scaling Law 縮放定律

Scaling Laws簡單介紹就是:隨著模型大小、數據集大小和用于訓練的計算浮點數的增加,模型的性能會提高。并且為了獲得最佳性能,所有三個因素必須同時放大。當不受其他兩個因素的制約時,模型性能與每個單獨的因素都有冪律關系(短板效應)。

大模型的Scaling Law是OpenAI在2020年提出的概念【34】,具體如下:

對于Decoder-only的模型,計算量C(Flops), 模型參數量N, 數據大小D(token數),三者滿足:

C≈6ND

模型的最終性能主要與計算量C,模型參數量N和數據大小D三者相關,而與模型的具體結構(層數/深度/寬度)基本無關【35】。

LLM的訓練、微調和落地過程-以GPT為例

GPT的三個英文字母分別代表Generative(生成式),Pre-trained(預訓練),Transformer。

本質上來說,大模型訓練就是對互聯網數據進行有損壓縮,需要一個巨大的GPU集群來完成。

以700億參數的Llama 2為例,就需要6000塊GPU,然后花上12天從大概10T的互聯網數據中得到一個大約140GB的“壓縮文件”,整個過程耗費大約200萬美元。

GPT的原理—文字接龍游戲

GPT真正在做的事就是“文字接龍”。簡單來說就是預測輸入的下一個字概率【36】。

但并不是直接選擇概率最大的文字作為輸出,而是在輸出時候還要擲骰子,也就是說答案具有隨機性 也就是為什么每次你問大模型的時候,一樣的問題會得到不一樣的輸出。

這跟我們以往做預測的時候,感覺很不一樣, 以往我們都是輸出概率最大作為結果,所以為什么要擲骰子呢?

因為有很多相關研究證明,每次輸出最大概率不一定是最好的,類似地文章《The Curious Case of Neural Text Degeneration》中有論證過, 同時這也符合我們人類特征, 同一個問題,可能問同一個人多次, 答案的輸出并不是一模一樣。

ChatGPT的答案為什么不一定是對的?

如果我們理解了ChatGPT的原理之后,其實ChatGPT就是在關心文字接龍順不順暢, 而不會關心內容的真實性。

GPT為什么可以實現上下文關聯?

其實還是文字接龍的游戲,在每次回答問題的時候,GPT不僅考慮當前的輸入, 也會將歷史的對話作為輸入。

OpenAI的創始人之一,大神Andrej Karpthy剛在微軟Build 2023開發者大會上做了專題演講:State of GPT(GPT的現狀)。首次披露了GPT的訓練過程【37】。

粗略地說,我們有四個主要階段:預訓練、有監督微調、獎勵建模、強化學習,依次類推。

可以粗淺的的理解為自學、人類教導、找到好老師、老師引導四個的過程。

現在在每個階段我們都有一個數據集來支持。我們有一個算法,我們在不同階段的目的,將成為訓練神經網絡的目標。然后我們有一個結果模型,然后在上圖底部有一些注釋。

Pretraining 預訓練–自學階段

我們要開始的第一個階段是預訓練階段。

實際上預訓練消耗的時間占據了整個訓練pipeline的99%。

因此,這個階段就是我們在超級計算機中使用數千個 GPU 以及數月的訓練來處理互聯網規模數據集的地方。

其他三個階段是微調階段,更多地遵循少量 GPU 和數小時或數天的路線。

那么讓我們來看看實現基礎模型的預訓練階段。

首先,我們要收集大量數據。這是我們稱之為數據混合的示例,該示例來自 Meta 發布的這篇論文,他們發布了這個 Llama 基礎模型。

由上圖可以看出,大約1個T的數據,作為Llama基礎模型的訓練集。最多的為網絡爬蟲數據,然后是谷歌的C4數據集、數集、論文、github等等語料。

那么數據有了,如何把這些數據轉化成機器能夠看懂的語言?

所以在我們實際訓練這些數據之前,我們需要再經過一個預處理步驟,即tokenization。

T

okenization是文本片段與整數之間的一種無損轉換,這個階段有許多算法。通常您可以使用諸如字節編碼之類的東西,將所有的文本轉化為一個很長的整數列表。

下面我用LLama為例,是Meta的一個相當新的模型。

你可以看到,LLama的參數數量大概是650億?,F在,盡管與GPT3的1750億個參數相比,Llama 只有65個B參數,但 LLama 是一個明顯更強大的模型,直觀地說,這是因為該模型的訓練時間明顯更長,訓練了1.4 萬億標記而不是3000億標記。所以你不應該僅僅通過模型包含的參數數量來判斷模型的能力。

這里我展示了一些粗略的超參數表,這些超參數通常用于指定Transformer神經網絡。比如頭的數量,尺寸大小,層數等等。在底部,我展示了一些訓練超參數。例如,為了訓練 65 B 模型,Meta 使用了 2,000 個 GPU,大約訓練了 21 天,大約花費了數百萬美元。這是您在預訓練階段應該記住的粗略數量級?,F在,當我們實際進行預訓練時,會發生什么?一般來說,我們將獲取標記并將它們放入數據批次中。

我們將tokenization后的數組輸入Transformer,不可能全部一次性輸入,需要用batch思想分批導入。

在此批量大小是B,T是最大上下文長度。

在我的這個圖里,長度T只有10,實際工作里這可能是 2000、4000 等等。這些是非常長的行。

批量化后,我們就需要開始訓練了。

我們只關注一個特定的單元格,但同樣的事情會發生在這個圖中的每個單元格上。

讓我們看看綠色單元格。綠色單元會查看它之前的所有標記,所有標記都是黃色的,我們將把整個上下文輸入到 Transformer 神經網絡中,Transformer 將嘗試預測序列中的下一個標記,在本例中為紅色。

現在,在這個特定的例子中,對于這個特定的單元格,513 將是下一個標記,因此我們可以將其用作監督源來更新Transformer的權重。將同樣的做法應用于并行中的每個單元格,并且不斷交換批次,并且試圖讓Transformer對序列中接下來出現的標記做出正確的預測。

由上圖可以看到,預訓練的目標其實很簡單。

就是去預測下一個詞,根據softmax概率分布,取出相應的詞作為輸出。

這實際上來自紐約時報,他們在莎士比亞上訓練了一個小的 GPT,這是莎士比亞的一小段,他們在上面訓練了一個 GPT。

一開始,在初始化時,GPT 以完全隨機的權重開始,因此也將獲得完全隨機的輸出。但是,隨著時間的推移,當訓練 GPT 的時間越來越長時,我們會從模型中獲得越來越連貫和一致的樣本。

當然,你從中抽樣的方式是預測接下來會發生什么,你從那個分布中抽樣,然后不斷將其反饋到過程中,基本上就是對大序列進行抽樣。到最后,你會看到 Transformer 已經學會了單詞,以及在哪里放置空格,在哪里放置逗號等等。

隨著時間的推移,模型正在做出越來越一致的預測。

然后以下這些,是在進行模型預訓練時會查看的圖類型。

實際上,我們在訓練時查看隨時間變化的損失函數,低損失意味著我們的Transformer正在預測正確 – 為序列中正確的下一個整數提供更高的概率。

訓練一個月后,我們將如何處理這個模型?

我們注意到的第一件事,在這個領域,這些模型基本上在語言建模過程中學習了非常強大的通用表示,并且可以非常有效地微調它們以用于您可能感興趣的任何下游任務。

Supervised Finetuning (STF)有監督微調 –人類教導

這時候在語言模型自學之后,需要引入人類監督訓練。這個階段不需要很多標注好資料去訓練,畢竟成本太大。

你寫了一篇關于壟斷一詞的相關性的簡短介紹,或者類似的東西,然后承包商也寫下了一個理想的回應。當他們寫下這些回復時,他們遵循大量的標簽文檔,并且要求他們生成提供幫助、真實且無害的回答。

通過這種人類監督訓練,我們就可以得到一個簡易版的GPT模型。

Reward Modeling 獎勵建模 — 好老師模型

現在,我們可以從這里繼續流程,進入 RLHF,即“從人類反饋中強化學習”,它包括獎勵建模和強化學習。

為了讓簡易版的GPT模型變強,其實OpenAI參考了以前的AlphaGo模型的方式,通過海量的自我對弈優化模型,最終超過人類。為了完成目標,人類引導的方式成本過高,于是乎,請了一個”好老師“(reward模型),這個老師不會像人類監督那樣,直接給出答案,而是對模型輸出給一個反饋,只有好與不好,讓模型根據反饋自動調整輸出,直到老師給出好的評價。

怎么找到有個能辨別 GPT 回答好壞的老師模型(即 Reward 模型)?

于是研究人員讓 GPT 對特定問題給出多個答案,由人類來對這些答案的好壞做排序(相比直接給出答案,讓人類做排序要簡單得多)?;谶@些評價數據,研究人員訓練了一個符合人類評價標準的老師(Reward 模型)。

Reinforcement Learning 強化學習 — 老師引導

現在我們有了獎勵模型,但我們還不能部署它。

因為它本身作為助手不是很有用,但是它對于現在接下來的強化學習階段非常有用。

有了好老師后,就可以開始像周伯通那樣,左手(GPT)右手(好老師)互搏。要實現 AI 引導AI,得借助強化學習技術;簡單來說就是讓 AI 通過不斷嘗試,有則改之、無則加勉,從而逐步變強。

有了人類訓練出來的好老師,通過好老師夜以繼日引導,從而最終對齊了人類的偏好,最終實現了符合人類特征的回答。

這就是我們訓練的方式——這就是 RLHF 流程。

最后,您得到了一個可以部署的模型。例如,ChatGPT 是 RLHF 模型。您可能會遇到其他一些模型,例如 Kuna 13B 等,這些都是 SFT 模型。

我們有基礎模型、SFT 模型和 RLHF 模型,這基本上是可用模型列表的事物狀態。

你為什么想要做 RLHF?一個不太令人興奮的答案是它的效果更好。

以上這個圖來自instructGPT論文。

這些 PPO 模型是 RLHF,根據前一段時間的這些實驗,我們看到把它們提供給人類時,它們在很多比較中更受歡迎。與提示為助手的基礎模型相比,與 SFT 模型相比,人類基本上更喜歡來自 RLHF 模型的標記(輸出文字)。

特別是,我們注意到,例如,RLHF模型失去了一些熵,這意味著它們給出了更多的峰值結果。(更符合人類希望的回答偏好)

模型部署和應用 Deploy and Application

模型壓縮:通過剪枝、蒸餾、量化等技術減少模型大小,便于部署。

系統優化:計算機架構上進行推理加速等

服務部署:將訓練好的模型部署到服務器或邊緣設備上,提供給用戶使用。

開發Agent工具:前后端,RAG、執行工具、和產品邏輯等。

多模態大模型

多模態指的是多種模態的信息,包括:文本、圖像、視頻、音頻等。顧名思義,多模態研究的就是這些不同類型的數據的融合的問題。通過NLP的預訓練模型,可以得到文本的嵌入表示;再結合圖像和視覺領域的預訓練模型,可以得到圖像的嵌入表示。

那么,如何將兩者融合起來,來完成以上的各種任務呢?

很簡單將圖像轉變為語言描述即可,和其他語言大模型一起訓練,本質都是找關系,輸入輸出語義的對齊。

Diffusion 模型 –DDPM架構

文生圖、視頻皆來源此架構,LLM提供語義指導,Diffusion模型通過指導生成圖片和視頻,兩者對齊指導和生成圖像信息。

DDPM(Denoising Diffusion Probalistic Models)。擴散模型的研究并不始于DDPM,但DDPM的成功對擴散模型的發展起到至關重要的作用。后續一連串效果驚艷的文生圖模型,都是在DDPM的框架上迭代改進而來【38】。

假設你想做一個以文生圖的模型,你的目的是給一段文字,再隨便給一張圖(比如一張噪聲),這個模型能幫你產出符合文字描述的逼真圖片,例如:

文字描述就像是一個指引(guidance),幫助模型去產生更符合語義信息的圖片。但是,畢竟語義學習是復雜的。我們能不能先退一步,先讓模型擁有產生逼真圖片的能力?

比如說,你給模型喂一堆cyberpunk風格的圖片,讓模型學會cyberpunk風格的分布信息,然后喂給模型一個隨機噪音,就能讓模型產生一張逼真的cyberpunk照片?;蛘呓o模型喂一堆人臉圖片,讓模型產生一張逼真的人臉。同樣,我們也能選擇給訓練好的模型喂帶點信息的圖片,比如一張夾雜噪音的人臉,讓模型幫我們去噪。

具備了產出逼真圖片的能力,模型才可能在下一步中去學習語義信息(guidance),進一步產生符合人類意圖的圖片。而DDPM的本質作用,就是學習訓練數據的分布,產出盡可能符合訓練數據分布的真實圖片。所以,它也成為后續文生圖類擴散模型框架的基石。

1 DDPM訓練流程

理解DDPM的目的,及其對后續文生圖的模型的影響,現在我們可以更好來理解DDPM的訓練過程了。總體來說,DDPM的訓練過程分為兩步:

  1. Diffusion Process (又被稱為Forward Process)
  2. Denoise Process(又被稱為Reverse Process)

前面說過,DDPM的目的是要去學習訓練數據的分布,然后產出和訓練數據分布相似的圖片。那怎么“迫使”模型去學習呢?

一個簡單的想法是,我拿一張干凈的圖,每一步(timestep)都往上加一點噪音,然后在每一步里,我都讓模型去找到加噪前圖片的樣子,也就是讓模型學會去噪。

這樣訓練完畢后,我再塞給模型一個純噪聲,它不就能一步步幫我還原出原始圖片的分布了嗎?一步步加噪的過程,就被稱為Diffusion Process;一步步去噪的過程,就被稱為Denoise Process。

2 文生圖模型的一般公式

當我們擁有了能夠產生逼真圖片的模型后,我們現在能進一步用文字信息去引導它產生符合我們意圖的模型了。通常來說,文生圖模型遵循以下公式:

  • Text Encoder:一個能對輸入文字做語義解析的Encoder,一般是一個預訓練好的模型。在實際應用中,CLIP模型由于在訓練過程中采用了圖像和文字的對比學習,使得學得的文字特征對圖像更加具有魯棒性,因此它的text encoder常被直接用來做文生圖模型的text encoder(比如DALLE2)
  • Generation Model:輸入為文字token和圖片噪聲,輸出為一個關于圖片的壓縮產物(latent space)。這里通常指的就是擴散模型,采用文字作為引導(guidance)的擴散模型原理,我們將在這個系列的后文中出講解。
  • Decoder:用圖片的中間產物作為輸入,產出最終的圖片。Decoder的選擇也有很多,同樣也能用一個擴散模型作為Decoder。

但是目前的的生成模型,去噪不夠精細化(比如手無法精細到5個指頭),幻象多,生成不連續,生成時間短,離真正的生成還很遠,但在圖片創意設計領域可以有一定的實際實現。

Agent

Diffusion模型的由DDPM和LLM的結合idea后,那么LLM能否和其他模型結合,能獲得更加強大的能力呢?

答案就是Agent,是能夠自主感知環境并采取行動實現目標的智能體,并可以通過交互提升能力,甚至與別的 agent 合作實現任務。目前我們所用到的AI大模型相關軟件都是Agent。

LLM 是整個系統的“大腦”,圍繞其語言理解能力,調用各個模型。

所以Agent的本質還是Prompt Engineering。

Prompt,即提示詞或指令,是指向人工智能模型提供的輸入文本,用于引導模型生成特定的輸出。

很多人認為人類的語言指令本來就非常模糊,定義廣泛,所以我們在給LLM下達指令的時候,要明確分步驟和結果等可以引導LLM最大化輸出智能的輸入方式。這種編輯引導LLM的輸入過程就叫prompt engineering-提示詞工程。

但筆者認為本質上就是LLM的潛空間Latent space -(可以理解為多個隱藏層導致的無法觀察深度黑箱)的語義–LLM的輸出沒和人類的需求通過transfomer對齊。

基于LLM的Agent,將大語言模型作為核心計算引擎,實現感知(Perception)、規劃(Planning)、行動(Action),形成自主閉環的學習過程。

  • 感知:理解你的指令,收集信息并從中提取相關知識的能力
  • 規劃:思考、拆分,總結感知到的信息,為達成目標而做出決策的過程
  • 執行:依賴大模型執行,調用工具API或與其他Agent交互
  • 記憶:將整個過程(思維鏈條)保存起來,循環迭代

“認識從實踐開始,經過實踐得到了理論的認識,再回到實踐中去?!?-(實踐論)

具身智能模型

1 引言

具身智能 (embodied AI) 是人工智能、機器人學、認知科學的交叉領域,主要研究如何使機器人具備類似人類的感知、規劃、決策和行為能力。具身智能可以追溯到 20 世紀 50 年代, 艾倫 · 圖靈首次提出具身智能的概念,探索如何使機器感知和理解世界, 并作出相應的決策和行動。隨后在 80年代對符號主義的反思中,以羅德尼 · 布魯克斯為代表的研究者逐漸認識到, 智能不應該只在對數據的被動學習中得到, 而應該通過與環境進行主動交互中獲取, 應當重點研究如何讓機器人主動適應環境【39】。

近年來,以ChatGPT為帶代表的大語言模型(large language model, LLM)技術取得了突破性的進展,通過在大規模網絡對話數據中進行學習,ChatGPT能夠實現包括自動問答、文本分類、自動文摘、機器翻譯、聊天對話等各種自然語言理解和自然語言生成任務,同時具備在少樣本和零樣本場景下達到了傳統監督學習方法的性能,并具有較強的泛化能力。通過先進的思維鏈(chain-of-thought,CoT)等提示技術,大語言模型的邏輯推理能力獲得了大幅提升,從而有望解決復雜具身智能場景中的任務分解和推理問題。

視覺基礎模型(visual foundation model, VFM),通過自監督的學習目標可以獲得強大的視覺編碼器,能夠解決如圖像分類、語義分割、場景理解等視覺感知任務。在具身智能任務中,強大的視覺編碼器能夠對視覺傳感器獲得的周圍環境信息進行分析和理解,從而幫助智能體進行決策。

在此基礎上,視覺-語言模型(visual-language model, VLM)通過引入預訓練視覺編碼器和視覺-語言模態融合模塊,使得大語言模型能夠獲取視覺輸入,同時根據語言提示進行視覺問答。在具身智能中,引入視覺-語言模型能夠使智能體根據任務語言指令和環境的視覺觀測進行推理和決策,從而提升智能體對環境的感知和理解能力。

多模態大模型(large multimodal model)通過引入視頻、音頻、肢體語言、面部表情和生理信號等更多模態,可以分析更豐富的傳感器輸入并進行信息融合,同時結合具身智能體中特有的機器人狀態、關節動作等模態信息,幫助解決更復雜的具身智能任務。大模型通過充分利用大規模數據集中學習到的知識,結合特定的具身智能場景和任務描述,為智能體提供環境感知和任務規劃的能力。

2 傳統機器人控制算法簡介

MPC和WBC簡單介紹

MPC(全稱Model Predictive Control)模型預測控制。Whole-Body Control(WBC)翻譯過來可以叫全身控制或者整體控制。

機器人的運動控制經歷了感知-決策-規劃-執行。

MPC主要的任務是預測環境變化,進行姿態規劃,然后將姿態的信息–就是時間和空間,傳遞給WBC(輸出電機等指令),充分利用機器人的自由度同時執行多個任務。MPC就是規劃求解器,WBC是執行求解器,兩者技術都是基于數學的線性規劃最優化求解。

一句話通俗易懂的解釋:MPC根據狀態轉移模型(已知當前狀態的情況下,給定一個控制,可以準確推導未來的狀態),推導出未來一段時間的狀態表達式(工程上實現一般用誤差表示,即未來狀態和目標狀態的差值),求解未來一段時間的控制量,做到盡量接近目標狀態、盡量的小的控制變化,同時滿足控制輸出的閾值范圍約束【40】。WBC則是分優先級的多任務控制。

算法流程-案例演示

MPC一般用于車輛的控制,特別是在智能駕駛領域,路徑的跟蹤控制大都離不開此算法,那我們就以車輛控制來說明MPC的主要步驟:

1、建立車輛的運動學模型

2、模型的線性及離散化

3、預測模型推導(建立關于未來一段時間車輛的狀態矩陣)

4、目標函數設計(設計未來車輛狀態好壞的評價函數)

5、約束設計(速度、加速度等限制);

6、優化求解

總的來說:以上過程就是一個高階版的線性規劃問題,只是里面優化求解的計算過程不需要人工計算,我們只需要根據車輛的模型、約束條件、目標等計算或設計出一些基本的矩陣,然后丟給二次規劃優化求解器即可得到。

線性規劃最優化求解圖文解釋

我們知道一個帶約束的數學優化問題可以寫成如下形式:

帶約束的數學優化問題的優先級體現在約束和目標函數的關系上,當我們求解一個優化問題的時候,總是會保證求解的結果是在滿足約束的前提下去最小化目標函數,因此約束本身具有更高的優先級。

我們可以把上述方程式轉為幾何:針對X1、X2和Z的3D圖像(網上隨便找的圖)

圖像里的最高點即為在各個限制條件下的X1,X2自變量的最優Z的解??偠灾?,在最優化線性優化的求解器基礎數學模型下雖然結果很準確-唯一解;但也有以下缺點:

  • 需要對限制條件要求十分嚴格(不能變)
  • 可容納自變量少,否則運算量爆炸
  • 因變量基本唯一

所以在數字化和機器人領域,對于重復性非常強的工作,可以實現替代,但是對于開放式的環境替代極差(結果定義不一、環境條件不一切變動大、任務變化多–術語魯棒性差)比如:機器人碼垛的物料形狀一變,就需要重新學習,更別說形狀不規則、柔性的物體例如紡織品——紡織行業自動化一直困難的原因。

而隨著,科學家們對AI的研究深入,以transfomer為主的注意力架構重塑了深度學習網絡,并賦予了更高的智能,Open AI大語言模型和特斯拉的完全端到端fsd神經網絡驗證了大模型的智能程度以及完全神經網絡的架構的優越性。

由此誕生出了小腦和大腦路徑的公司,針對不同的場景,都有著不同的適用算法模型。

3 小腦算法

在仿真強化學習中,目前比較成功的方向主要集中在強化學習與運動控制上。相關研究通常是完全基于狀態,或者通過模仿學習一個表征(latent space),然后再Sim2Real或者Real2Sim2Real在現實世界與仿真環境之間做一個對齊,強化學習在范圍內搜索和探索【41】。

目前,該小腦算法可以通過幾個小時的時間內通過幾十次演示強化機器人某一場景的柔性任務,并且準確率可以達到95%,落地快。

但是由于仿真環境和真實環境GAP、強化學習的長尾問題、模仿學習的過擬合向演示收斂問題,導致小腦并不能擁有很好的泛化性,并對外部的抗干擾弱,而且和本體強耦合。適用于短程任務。

同時也隨著模仿和強化學習正在深度融合,稀疏獎勵函數設計、人類反饋、采樣效率和S2R GAP縮小等新趨勢促進了小腦的性能提升,且比大腦落地速度更快,商業化會在近期顯現。

期待小腦路徑在可執行任務上的擴展。

4 大腦算法

大腦為了找到最佳Scale Out算法,實現GPT的Zero-Shot泛化;通過使用VLM/LLM/DM等模型驅動,強化/模仿學習微調方案,其與模仿學習和強化學習的最大區別為通過大模型學習高級表征在潛空間形成輸入輸出的關系,提取和理解真實世界的高級物理信息,并推理采取行動。

目前大腦的技術和學習范式還未收斂,我們把市場上的主流路徑進行了歸納,分為3條路線。

圖:大模型驅動的具身大腦算法【39】

Duffsion Model

擴散模型在近期受到了廣泛關注, OpenAI 提出的 Sora 視頻生成模型被認為是世界模擬器。與隱空間世界模型不同, Sora 可以根據語言描述在原始的圖像空間中生成多步的圖像預測,組成長達 60s 的內容連貫的視頻。

在實現上, Sora使用編碼網絡將視頻和圖像表示為詞元, 隨后使用超大規模的擴散模型在編碼中進行加噪和去噪流程, 隨后將去噪后的詞元映射到原始的圖像空間中。Sora在具身智能任務中有著廣泛的應用前景, 可以根據機器人任務的描述和軌跡先驗生成智能體在后續時間步的軌跡視頻, 將生成的視頻序列用于基于模型的強化學習、蒙特卡洛樹搜索、MPC算法中。在Sora大規模擴散模型提出之前, 已有多個小規模的擴散模型用于具身智能數據生成。

擴散模型作為一種圖像生成模型, 通過前向的噪聲擴散過程得到高斯噪聲, 通過多步逆向的去噪過程恢復出原始圖像。在圖像生成領域, 擴散模型已經被驗證能夠建模高維度的復雜數據, 因此在具身智能任務中被用于建模高維度的決策序列。具體地, 擴散模型可以直接作為策略規劃器 (Planner), 通過對狀態 – 動作序列 [(s0, a0), . . . ,(sT , aT )] 的整體建模, 能夠從原始噪聲還原出整條決策軌跡, 從而在執行時作為規劃器來生成未來的軌跡。

最近的研究中,DiT 模型 (Diffusion Transformer Model)取得較大的進展,例如清華大學的RDT模型-將Diffusion和Transfomer融合,DiT模型是RDT的核心組件,用于處理編碼后的特征向量序列,并生成生成機器人動作軌跡。擴散策略是一種生成式策略,它通過學習將數據逐漸轉換為噪聲,然后再從噪聲中恢復數據的過程來生成新的數據樣本,恢復數據由transformer的編碼器來實現。擴散策略的核心任務是從噪聲中恢復數據,這通常需要模型理解輸入數據(帶噪聲的數據和條件信息)的表示。Transformer編碼器非常適合這項任務,因為它能夠捕捉輸入序列中不同位置之間的關系,并生成有效的上下文表示【42】。

該模型在簡單任務的頻率(200Hz)和準確率(99%)山獲得了非常大成功。但仍在萌芽期,期待該技術路徑下更多的進展。

VLM/LLM

目前該方式是具身大腦公司的主流技術路徑。

在大語言模型直接產生任務規劃時依賴模型中編碼的知識。由于大模型缺乏具身任務規劃的相關知識, 且在具身任務規劃時不對大模型參數進行調整, 大模型需要使用額外的反饋模塊來對產生的不合理規劃進行迭代【39】。

現有研究指出, 一種更為直接的方式是使用具身智能數據對大模型原有的預訓練參數進行微調, 使其適應于具身智能任務場景。此時, 可以認為預訓練的大語言模型/視覺語言模型將作為具身智能的基礎策略, 在進行微調后得到具身大模型。

但是這種組裝式的微調具身大模型的缺點非常明顯,由于大模型具有較大的參數量, 在機器人任務中需要更大的計算和時間消耗,具有較低的決策頻率,頻率只能達到30-50Hz,無法達到流暢絲滑運行。且模型本身不是自己研發的,無法進行底層的優化,除非大模型本身能力出眾。

原生物理世界大模型

在上述結構的啟發下, 有部分研究采取自行設計的以Transformer為主干網絡結構, 直接使用機器人數據從頭開始訓練網絡【39】。

在目前技術百花齊放的階段下,為了收斂至Best Model,為了更好的Scale Out,原生模型在收斂模型范式上具有獨一無二的優勢:可底層算法優化,自定義設計學習范式和數據類型,模型優化的潛力大。原生模型更能體現出團隊的對深度學習,機器人學習等領域的高度理解力!

斯坦福大學提出ALOHA結構使用Transformer編碼 – 解碼網絡結構, 以不同方位的觀測圖像作為輸入, 通過解碼器直接輸出機械臂動作。為了解決長周期決策問題, ALOHA使用動作分塊的概念, 一次預測多個時間步的動作序列, 增強了長周期任務中動作預測的整體性。

在硬件方面, 該研究搭建了低廉的ALOHA開源雙臂機器人實驗平臺, 使人類能夠完成便捷的示教數據采集, 僅使用采集的機械臂數據進行訓練.。進一步地, 斯坦福大學團隊搭建了 Mobile ALOHA移動平臺, 通過專家示教數據的模仿學習能夠完成滑蛋蝦仁、干貝燒雞、蠔油生菜等菜品的制作, 其出色的效果獲得了廣泛關注。但成功率有待提升。

還有世界首家設計和訓練出AI原生物理世界大模型的公司-智澄AI,在評估所有算法優缺點后自研,以其獨特的技術路線、全棧技術實力和前沿深度的AI理解,在交互、場景泛化上獲得了優異的模型效果。

5 筆者理解

其中目前主流的投資界將技術分為兩條路徑:一是端到端訓練一套具身大模型;二是基于現有的 LLM 或 VLM 的訓練具身分層模型。

然而這種歸納方法,在技術上并不準確,因為兩者并不是Mutually Exclusive的,兩者是緊密結合的,端到端的大模型也有分層的概念存在–直接使用開源的VLM加上MPC模型進行訓練等。同時也不是具身智能算法所關注的重點來區分的,目前學術界和商業界的所需關注的統一的進程為:

在快速發展且百花齊放的觀點中,達到學習范式、模型和最佳訓練數據的收斂,以此來Scale Out,獲得涌現能力。

技術上更進一步,哪種模型可以快速收斂?很肯定的是,原生自研的模型擁有巨大優勢,開源模型進行微調的公司,缺少對技術核心–模型的理解,原生模型團隊可以隨時調整模型訓練和結構,進行更好的收斂。

自動駕駛行業的借鑒

我個人認為,自動駕駛的商業演變和技術發展非常雷同,0-1技術階段上都經歷了學習范式和模型的收斂(如下第一階段),完全可以借鑒自動駕駛的發展路程來推演機器人的未來;特斯拉自動駕駛自2016年起開始自主研發,歷經4代硬件計算平臺和12個軟件算法版本,2021年才推出fsd beta試用版本,2024年V12版本采用端到端自動駕駛技術路線。因此技術到商業化5年比較合理。

當然,自動駕駛也存在完全的軟件提供商,也有車隊管理商,估值最高的仍是硬軟并重的整車商,畢竟先滿足了人開車的剛性需求,但是機器人并不是人來操作或者說日常需求的,由此純硬件的廠商重要性不如軟件商。

具身智能的模型相比于自動駕駛也會相對困難,但是ai的產業鏈也比自動駕駛時期發達多了:

  • 沒有大量人示教視頻數據進行學習——自動駕駛會自動采集人類開車數據,且開車的人非常多
  • 具身智能模型需要更深入的理解世界的能力,因為需要執行互動各個物體–自動駕駛操作只需要操作車一個模型

目前可以看到的是,商業和學術領域對此熱情高漲,幾年內不同的觀點理論不斷碰撞融合,大家對于具身智能的GPT時刻的快速到來信心充足,加上Open AI和特斯拉成功在前;

雖然目前機器人使用具身智能模型的效果相較于自動化:延遲高、頻率低、準確率低;但已經展現出zero-shot(零樣本展示,但是模型成功執行)的泛化能力。

個人觀點:目前處于0-1的階段,通過對大模型和運動控制領域的深度理解力,不斷試錯,來學習和訓練范式的收斂才會有泛化效果不錯的具身大模型出現,且一定要用神經網絡實現定位導航等基礎功能,平面預測的泛化性一定會比3d弱;神經網絡必須要實現人類的運動控制功能,才能達到泛化性的效果(當然也有隱藏層,無法解釋的可能性),具體還是要看效果。

(3)AI算法的評判標準

那么我們怎么去評判一個模型的性能呢?

很多人以為模型算法披露就可以從數學上判斷出來,其實不然,一方面沒有哪家公司會把算法代碼披露給其他方——核心機密,另一方面,算法本身通過無數次訓練循環的模式就是黑箱;所以無法像材料學那樣,一旦披露分子結構,基本的物理化學特性可以被推測出來。

只有模型的訓練結果才可以證明算法的優越性。又或者說統一的測試集即可,比如說一起做高考卷的得分進行比較。

統一的結果:Loss Function

在機器學習領域,損失函數是一種用來衡量模型預測值和真實值之間差異的量度 (偏離程度)。

當然每家的損失函數不盡相同,要保重統計口徑的統一,一般論文會附上與其他模型的對比,也要看是否進行了全面的比較。

公開的測試集&評測網站

在業界,評估大模型的指標眾多,但大模型的能力多樣化使得評價標準難以統一,為選擇和衡量大模型帶來了新的挑戰。

一般業界評測方案是基于數據集評估:

斯坦福大學在探索語言模型(LLM)全面評估的初期,便率先采用數據集作為基準,其選取16個核心任務幾十個數據集對常見的30個LLM進行了評測,發布了開創性的評測論文。此后,SuperGLUE、C-Eval及Opencompass等評估框架相繼涌現,進一步豐富了基于數據集的LLM評估生態【43】。

無論在什么測試基準里都被當作是一個核心的數據集,值得進一步討論其細節。它最早是在 Measuring Massive Multitask Language Understanding 這篇 ICLR 2021 的文章中被提出。從題目也可以看到,重要的點在于 multitask,也即模型在非常多的任務下的表現如何。

具體來說他收集了涵蓋 57 個任務(也可以說是科目)的人類試題,包含例如數學、歷史、計算機科學、法律等等學科,將其組成一個測試基準??梢韵氲?,如果模型要有比較好的效果,需要同時具備世界知識(world knowledge),以及解題能力(problem solving)?,F在看來似乎這個想法非常自然且合理,但回頭看在當時算是非常有前瞻性了。

這類人類試題主要有以下幾個好處:

整體來看,這種試題是測試人類智能的一個很好的載體,無論在哪個國家,試卷考試的方式來判斷一個學生的智力水平發展到了什么階段都是主要做法。所以在AGI比較火熱的時候,用來測試模型/機器智能也是十分自然。

從類型來看,不同科目的試題帶來了不同緯度的測量,正如 MMLU 強調的,可以測試多任務的能力,拆解來說:

語言 / 社會科學類題目,可以測量世界知識(world knowledge)——想想一個模型需要對中文語境的知識了解到什么程度才可以回答 “明朝的第二個皇帝是誰” 這種問題

數學 / 自然科學類題目,可以測量推理能力(reasoning ability)——模型不僅需要理解題意,還需要根據所有信息進行推理甚至計算再答題

當然還有很多其他的能力,但是上面兩個世界知識及推理能力,往往是大模型擅長(相較于小模型),或者說希望能夠增強的方面。

由于大家所訓練的語境不同,又分為了中文和英文等公開測試:

詳細如下,大家可以隨時關注榜單變化以了解大模型公司能力的變化。

中文:SuperCLUE

網站如下:

https://www.cluebenchmarks.com/superclue.html

SuperCLUE著眼于綜合評價大模型的能力,使其能全面的測試大模型的效果,又能考察模型在中文上特有任務的理解和積累。

SuperCLUE從三個不同的維度評價模型的能力:基礎能力、專業能力和中文特性能力。

基礎能力: 包括了常見的有代表性的模型能力,如語義理解、對話、邏輯推理、角色扮演、代碼、生成與創作等10項能力。

專業能力: 包括了中學、大學與專業考試,涵蓋了從數學、物理、地理到社會科學等50多項能力。

中文特性能力: 針對有中文特點的任務,包括了中文成語、詩歌、文學、字形等10項多種能力。

具有自己有評測標準和數據集。評測數據集為閉源類型并不公開,所以評測結果很難模型在上面訓練過,大家比較認可這個榜單。

英文:LiveBench AI

網站如下:

https://livebench.ai/#

2023年6月13日,AbacusAI宣布,他們聯合了AI界的超級大咖楊立昆(Yann LeCun)和英偉達團隊,推出了一個新玩意兒——LiveBench AI,號稱是“全球首個無法作弊的LLM基準測試”【44】。

作弊解釋:模型公司提前使用將要測試的數據進行微調,從而刷分

為了避免大模型「作弊」,LiveBench 每月發布新問題,并根據最近發布的數據集、arXiv 論文、新聞文章和 IMDb 電影簡介設計問題,以限制潛在的數據污染。每個問題都有可驗證的、客觀的基本真實答案,這樣就可以在不使用 LLM 評審員的情況下,對難題進行準確的自動評分。

通過定期更新的問題集和客觀的自動化評分方法,LiveBench 提供了一個公平、準確的評估平臺,還同時推動了 LLM 的持續改進和社區參與。

LiveBench評判方法

LiveBench的任務設置堪稱全面,目前涵蓋了18個任務,分布在六大類別:數學、編碼、推理、語言理解、指令執行和數據分析。每個任務都屬于以下兩種類型之一:

  1. 信息源任務:比如基于最近Kaggle數據集的數據分析問題,或者修復最新arXiv摘要中的拼寫錯誤。這就像是給模型們的實時突擊測試。
  2. 增強版基準任務:更具挑戰性或更多樣化的現有基準任務版本,比如來自Big-Bench Hard、IFEval、bAbI或AMPS的任務。這些任務就像是高級別的期末考試,難度升級!

具體類別和任務如下:

  • 數學:包括過去12個月的高中數學競賽問題(如AMC12、AIME、USAMO、IMO、SMC)以及更難版本的AMP問題??纯催@些問題,真是讓人懷疑是不是從數學天才的夢境里偷來的!
  • 編碼:包括通過LiveCodeBench從Leetcode和AtCoder生成的代碼問題,以及一個新穎的代碼完成任務。這簡直是程序員版的高考。
  • 推理:涵蓋了Big-Bench Hard中的Web of Lies的更難版本、bAbI中的PathFinding的更難版本,以及Zebra Puzzles。感覺像是推理小說中的謎題在向你招手。
  • 語言理解:包含三個任務:Connection單詞謎題、拼寫修正任務和電影梗概重組任務,均來自IMDb和Wikipedia上的最新電影。這些任務就像是語言學家的午夜狂歡。
  • 指令執行:包括四個任務,要求釋義、簡化、總結或根據《衛報》的最新新聞文章編寫故事,并且需遵循一到多個指令或在響應中加入特定元素。真是給AI模型們上了一堂指令遵循的高強度訓練課。
  • 數據分析:包括使用Kaggle和Socrata最新數據集的三個任務:表格轉換(在JSON、JSONL、Markdown、CSV、TSV和HTML之間)、預測哪些列可以用來連接兩個表格,以及預測數據列的正確類型注釋。簡直是數據科學家的最愛!

通過這種多維度的綜合方法,LiveBench能夠有效評估大型語言模型在不同任務中的表現,確保評估結果的公平性和可靠性。

目前國內公司階躍星辰和阿里的模型分別綜合排名第5和13名。

同時若是在離數學模型中獲得最好成績,那我們稱該模型為SOTA,SOTA全稱是State of the Art,是指在特定任務中目前表現最好的方法或模型。

(4)AI模型的趨勢

符號主義到聯結主義

我們能看到三種范式在成本、自學能力和應用下的場景不同。筆者相信每一種算法在成本、技術等考慮下都有其適用的場景。很顯然,用大模型推理去做傳統數字化、重復性非常高的標準場景例如開發票、結賬等,是非常不實用的-成本高,準確率遠遠不如符號主義的Rule-Base。但是大模型可以指導規則的變化,重寫流程。

再例如,目前ViT(transformer的視覺識別)的識別圖片的泛化性強但準確率還是不如傳統的CNN。不同的算法總有自己的商業和技術定位。

聯結主義中,從Transfomer中,我們能明顯看到明顯的趨勢就是一切都是為了更好的Scale Out:

  • 架構更加簡潔:decoder-only單一架構,輸入后即輸出,在輸出中理解。
  • 更精準的壓縮和還原:通過注意力機制,實現對大規模數據的特征提取,極限壓縮進行理解,并還原。
  • 可兼容的訓練數據最大化:圖片、視頻和語言等等,大規模輸入,統一化訓練

目前大語言模型的趨勢

01 技術上

傳統Scaling Law正在失效?

近期,圍繞Scaling Law的討論不絕于耳。

起因是,The information在一篇文章指出,OpenAI下一代旗艦模型Orion(或稱GPT-5)相較于現有模型,能力提升“有限”(代碼能力甚至不如現有模型),遠不如GPT-3到GPT-4的躍升,而且Orion在數據中心的運行成本更高。為此,OpenAI不得不連夜轉變策略【45】;并且在12月份的產品發布會中,也只發布了o3,GPT5一點消息后沒有披露。

如果其所言非虛,就不會只有OpenAI一家被困擾。

果不其然,Google也“出事”了。其下一代Gemini模型原本應該是一次重大升級,但有員工透露:近期在大幅增加資源投入后,模型性能未達到領導層預期,團隊連夜調整策略。

與此同時,Anthropic被曝已暫停推進Opus 3.5的工作,官網還撤下了“即將推出”字樣。

“三巨頭”接連碰壁,讓人聯想到:Scaling Law可能失效了?

正方:Scaling Law神話終結

  • Ilya Sutskever:擴展訓練的結果,已經趨于平穩。
  • Arvind Narayanan & Sayash Kapoor:即使有效,也數據不足;合成數據并不有效。

反方:Scaling Law沒有墻

  • OpenAI CEO Sam Altman:there is no wall。
  • 英偉達黃仁勛:Scaling Law還會繼續。
  • 微軟AI主管Mustafa Suleyman:不會有任何放緩。
  • 微軟CEO Satya Nadella:是定律,并且一直有效。
  • 前谷歌CEO Eric Schmidt:沒有證據顯示。

無論各位如何“挽尊”,都掩蓋不了大模型“減速”的事實——感受不到當初的驚艷。

退一萬步,正如OpenAI研究人員Steven Heidel 所言,就算現在LLM 停滯了,在當今模型的基礎上,還有至少十年的產品等著你去開發。

Self-Play RL(自我強化學習)- 后訓練是新Scaling Law?

隨著9月份 OpenAI o1 模型的發布,LLM 正式進入self-play RL技術階段。

OpenAI 不是唯一重視 RL 和 Self-Play 的公司,在 o1 之前,Anthropic Claude 3.5 Sonnet 就被視為一個標志性里程碑,Claude 3.5 Sonnet 代碼能力顯著提升的背后其實是 RL 在起作用;Google 也已經圍繞 LLM 做 reward model 展開了多個項目的研究;前 OpenAI 的核心人物 Ilya 創立的新項目 SSI 也和 RL 相關。o1 的發布勢必會加速新范式共識的形成,將 RL從頭部 AI Labs 的嘗試向全行業擴散。

2018 年,Lex Fridman 邀請 Ilya 來 MIT 客座講一節課,Ilya 選擇的主題是 RL 和 self-play,因為他認為這是通往 AGI 的路上最關鍵的方法之一。Ilya 在講座中用一句話概括了強化學習:讓 AI 用隨機路徑去嘗試一個新的任務,如果效果超出預期,就更新神經網絡的權重讓 AI 記得多使用成功的實踐,然后開始下一次嘗試。

強化學習的核心在于”探索”(Explore)和”利用”(Exploit)之間的權衡。LLM 在”利用”現有知識上做到了現階段的極致,而在”探索”新知識方面還有很大潛力,RL 的引入就是為了讓 LLM 能通過探索進一步提升推理能力。

RL 在 LLM 中應用的思路本質是用 inference time 換 training time,來解決模型 scale up 暫時邊際收益遞減的現狀。

Self-Play + MCTS:高質量博弈數據提升 reasoning 能力

推理成本大幅上升:MCTS搜索加入 LLM inference

LLM 直接生成是可以類比系統 1 的慢思考。而 RL 就為 LLM 帶來了系統 2 慢思考。

引入了 MCTS 之后,LLM inference 會變得更慢、更貴、更智能。因為每一次回答問題時都會推演很多種可能的思考路徑,并自行評估哪一個能獲得最高的 reward,然后再將最終的生成結果輸出給用戶。理想中越難的問題需要分配更多的算力和時間:簡單問題 1s 直接輸出答案,復雜問題可能需要 10min 甚至 10h 來思考最佳的解決方式。

MCTS 實際推理中,可能是和之前我們預測成本的范式類似:把任務拆解成 5 步推理,每一步嘗試 k 次模擬,搜索一整個決策樹中的最佳方案。Alphago 下圍棋時也是這么在推理時深度推演之后的下棋決策的,只是應用到 LLM 上對算力的要求更高了,需要更多智能剪枝等優化方式。

因此這一部分很難定量的計算其實際對推理需求帶來了多大數量級的提升:理論上 MCTS 推演的策略集越全面一定是效果越好的,但是推理算力、用戶體驗的角度來說一定需要 LLM 廠商去做嚴格的資源約束,來達到性能和成本之間的平衡。

很明顯看到的,最近幾個月,o1的推出整體效果并不是很驚艷,筆者觀點:一個學習慢的人,再怎么探索世界,學習效果也是緩慢的,效率低下。

02 商業上

未來商業的情況仍然取決于Scaling Law是否繼續有效,雖然很多利益相關者都在說并未失效,但是如果后續成本太高或者資源無法滿足,也是一種失效。

如果Scaling Law繼續有效

在數據滿足的前提下,那么繼續建造萬卡集群,將模型往T級別參數量走,大模型公司繼續融資狂歡。

無論Scaling Law失效與否

大家會更加關注大模型如何落地:應用和成本!

基于大模型的應用落地(軟硬件、to b to c)將迎來百花齊放,特別關注ARR、月活等關鍵數據。

由AI Infra優化大模型推理成本直線下降。

大模型將會更注重性價比,模型的參數量會變小的同時,效果會有一定的提升。

作者|楊儒、劉英航、謝晨星、王嘉攀
本報告由勢乘資本和光錐智能聯合發布
本文由人人都是產品經理作者【光錐智能】,微信公眾號:【光錐智能】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!