大語言模型科普:涌現
提到大語言模型,大家都能夠聯想到一個突出能力,那就是涌現能力。那么涌現能力是什么?我們該如何理解涌現?本文針對該現象展開分析,為你科普大語言模型的涌現,希望對你有所幫助。
我喜歡簡單的快樂,那是復雜最后的避難所。——奧斯卡·懷爾德
提到大語言模型,經常會聽到其一個突出的能力:涌現能力。那么涌現能力是什么呢?想要深入了解涌現能力的讀者,建議仔細閱讀此文。
我們先來看一下涌現的定義:
一個系統所表現出來的特性與它的組成個體簡單相加所表現出的特性存在很大不同,這一整體的系統行為被稱作“涌現行為”。
提取定義中的關鍵字:系統、個體、特性、簡單相加、不同。
單看定義,涌現的含義似乎仍如霧里看花,看得不是那么真切。也有人套用“量變引起質變”解釋涌現能力。道理上講沒錯,但是對于清晰理解涌現似乎幫助也不大。
涌現是復雜科學中一個非常重要的概念。根據筆者的了解到的情況,只能非常抱歉地告訴各位:以人類目前的知識和認知水平,還無法定量解釋涌現現象。
復雜科學本身就太復雜了(不然為什么叫復雜科學呢),而且涌現現象也太常見了,信息科學、神經學、生態學、經濟學、社會學等各個研究領域都存在大量的涌現現象。
那么該怎么理解涌現呢?
既然不能定量分析,那咱們就只能定性分析。演繹法行不通,咱們就嘗試歸納法。
一、蜂群的涌現行為
蜜蜂是一種神經系統非常簡單的生物。
著名的動物學教授、諾貝爾獎得主弗里施教授發現:蜜蜂可以通過一種叫“八字舞”的舞蹈來相互交流信息。當一只小蜜蜂在外面發現食物,例如一大片開得正盛的花海,它會興奮地飛回蜂巢,給同伴們表演一段熱情洋溢的舞蹈。這段舞蹈的飛行路徑就像阿拉伯數字“8”那樣,包含一個來回搖擺和一個回頭的動作。通過舞蹈的長度和頻率,蜜蜂能精確地告訴同伴食物的具體位置和距離。舉例來說,它搖起臀部的時間越長,代表食物距離就越遠。
更神奇的是,其他蜜蜂看到這段舞蹈之后,就能解碼出信息,然后按照提供的地址找到那片花海盛宴。這就是大自然的奇妙算法:每只蜜蜂的智力或許不高,但通過這種特定的交流方式,整個蜂群就能發揮出強大的“集體智慧”。
蜜蜂不僅會跳舞,還有一手避暑御寒的本事。蜜蜂要繁衍下一代,就必須在狹小的蜂巢里維持一個適宜的溫度。當蜂巢太冷的時候,蜜蜂們會緊緊擠在一起,瘋狂振翅以增加溫度。當蜂巢太熱的時候,蜜蜂們則會散開,扇動翅膀給蜂巢降溫。
有意思的是,每只蜜蜂開始升溫或降溫翅膀的溫度臨界點,取決于它們的遺傳特征。也就是說,那些基因相近的蜜蜂,會在溫度低于某個點時覺得冷,聚集在一起“抱團取暖”。同樣,當溫度高于這個點時,它們也會因為“熱得慌”而散開,扇動翅膀給蜂巢降溫。
要理解這種現象,我們不能簡單地把蜜蜂群看成一群個體。實際上,蜜蜂群是一個復雜的系統,每只蜜蜂都扮演著系統維持穩定的重要角色。雖然每只蜜蜂的行為都有差異,但通過相互協調,它們最終達成了群體目標——維持蜂巢的溫度在最適宜的范圍內。
這種自組織的集體智慧實在太神奇了?!耙恢鄯淠睦锏謸醯昧撕L”,但當蜜蜂聚集在一起就足以抵擋氣溫變化帶來的威脅。
二、蟻群的涌現行為
自然界中還有另外一種個體非常簡單,但是群體能力非常強大的生物——螞蟻。
螞蟻,雖然個體行為看起來純粹反射性地被外界條件所驅動,即幾乎完全是被外界環境驅使的。但這并不代表它們就是簡單的“行動機器”。實際上,螞蟻的大部分行為都可以用幾條簡單規則來描述。例如:
- 用大顎緊緊夾住目標物;
- 沿著信息素的濃度上升或下降方向行進(信息素是螞蟻用來編碼信息的氣味,比如“這條路有食物”或“這條路要打仗”);
- 死去的螞蟻會分泌一種激素,螞蟻會通過氣味判斷同伴是否活著。
一旦螞蟻遇到這些規則未涵蓋的新環境,它們會處在極大危險中。在規則之外的環境里,大多數螞蟻,特別是工蟻,很難存活超過幾個星期。
不過,正是依靠這幾條簡單的行為規則,螞蟻群體發揮出驚人的智慧。每只螞蟻都像是一個微觀的決策單元,它們相互協調、相互配合,最終匯聚成一個高效的整體。能完成非常復雜的任務,比如建造龐大的蟻穴、合作捕獵等。一個蟻群中各個成員的行為及其相互作用決定了整個蟻群的行為。然而作為一個群體,蟻群所顯示出的靈活性卻大大地超過了其個體成員的能力范圍。蟻群可以感知并應對在很大地理范圍內出現的食物、外敵、水患和很多其他現象。蟻群能夠把領地延伸到很遠的地方,按照有利于群體的方式來改變周圍環境。蟻群的壽命一般要比其個體成員的壽命長幾個數量級。
這種簡單規則帶來的集體智慧,讓螞蟻這種體型微小的昆蟲,成為了地球上最成功的社會物種之一。它們靈活運用基本規則應對環境的變化,在漫長的演化歷程中不斷進化,最終在地球上得以廣泛的繁衍生息。
單看每一個蜜蜂/螞蟻個體,分析其身體結構和行為,我們絕對無法想象蜂群/蟻群能夠具備上述那般復雜的群體行為。即蜂群/蟻群出現了與蜜蜂/螞蟻個體簡單相加無法得到的集體智慧,這種集體智慧就是一種涌現能力。
生命游戲的涌現行為:
康韋(Conway)的生命游戲:在該游戲中,系統在兩維網格中以步調一致的方式運轉,其中每個細胞要么是死的要么就是活的。其規則如下:
- 剛好具有三個“活”鄰居的“死”細胞將被“復活”,在下一個階段變成一個有活力的細胞,否則的話,它仍然是死的。
- 擁有兩到三個生動活潑鄰居的活細胞能“存活”到下一個階段;否則,它就會消失(要么出于“孤單”,要么由于“過度擁擠”)。
總體來說,該系統中一個擁有中間數量(鄰居生命)的生命將得以延續(一個正向反饋),然而過多或過少的鄰居生命將導致死亡(一個負向反饋)。
通過上述的簡單規則,在不同的初始狀態下,能夠將產生一系列在時空上都顯著的全局模式,這些全局模式由一系列簡單的微觀規則所涌現。
比如:生命游戲中的一個滑翔機是一個貫穿于整個空間的活細胞的布局配置。在每一個連續的時間步長(從左到右),一系列活細胞基于簡單的、局部的游戲規則而改變。在四個時間步長以后,重新出現了活細胞的初始配置,僅僅向右下移動了一個細胞的位置。如果左邊部分沒有受到干擾,該結構就會繼續“滑翔”穿越整個空間。
還有更多神奇的生命游戲模式,感興趣的讀者不妨自行搜索,感受一下生命游戲“涌現”出的魅力。
三、簡單的涌現行為探索
我們還可以設定一些更簡單的規則,方便我們觀察涌現行為。
8.1表是這樣一個映射:將每個可能的輸入狀態映射到某個輸出狀態。這個規則表的第一行(狀態0)規定,如果一個主體及其兩個鄰居在上一次采取的行動都是0,那么該主體在下一個時期也將采取行動0。下一行(狀態1)表明如果目標主體和它左邊的鄰居上一次采取的行動是0,右邊的鄰居采取的行動是1,那么該主體將采取行動1,等等。
取20個以環形前后相鄰的數字,即將20個數字首尾相連,這樣每個數字左右都有一個鄰居,可以根據鄰居和自己當前的狀態決定下一個狀態。
這個簡單規則導致了一些有趣的系統行為。正如可從表8.2看到的,在整個圖表中涌現出了“由0組成的向下的三角形”這種一致的宏觀結構。這些三角形態的規模遠遠超出了行為規則的規模。因此,即使個體行為只是基于從三個位置上所觀察到的行動而決定,涌現出來的一致的三角形結構所包含的位置卻遠多于三個(例如,在時間步12開始形成的一個三角形,它的底邊跨越了20個位置中的13個)。
這不由得讓人想到了亞當·斯密的看不見的手,系統中主體的行動就好像正被某種看不見的力量協調著一樣,創造出超出任何個體意圖的模式。
四、語言模型的涌現
大型語言模型的發展歷程并不完全一帆風順。
回顧深度學習發展的前10年,模型的性能提高主要依賴于網絡結構的變革。由于“模型尺寸呈指數增長,性能只會線性增加”的語言模型的縮放定律的現象,研究人員發現,即便是最大的GPT-3模型,在有提示的情況下,其性能也不不如精心調教的小模型。同時超大的網絡規模極大增加訓練所需數據量、訓練和推理成本。
所以,當時并沒有必要鋌而走險,投入大量資源去訓練一個“龐然大物”。
然而,隨著神經網絡設計技術的日臻成熟,要僅通過優化網絡結構來獲得顯著性能提高已然困難重重。近年來,著計算機算力的提高和數據集規模的擴大,研究者開始把目光轉向模型規模的擴張。實驗結果顯示。
一旦模型大小達到某個“臨界質量”,其性能提高將遠超比例關系,呈現出量變引發的質變。簡而言之,當模型的參數數量超過某個閾值,它會突然展現出遠超小模型的強大能力。這就催生了大規模預訓練語言模型的蓬勃發展,尤其在自然語言處理領域。
大語言模型的參數規模有多快呢?我們不妨來看一下有網友統計的大語言模型的參數量。據說現在功能最強大的大語言模型GPT-4的參數規模已經超過了萬億,短短4、5年的時間就增長了超100倍。
大語言模型為什么能力這么強大?本質的原因在于超大規模的參數。每個神經網絡單元都有簡單、可描述的運算規則,然而大量的神經網絡單元連接在一起,就涌現出組成其的神經網絡單元、層所不具備的能力。
那么為什么是語言模型的規模會出現暴漲,并且受到業內乃至社會的廣泛關注呢?
筆者認為原因之一如下:語言是人類最基本的符號系統之一。它是人們傳遞和交流信息的主要方式之一。語言不僅是人們交流的工具,還是人們認知的基礎。語言推動認知的發展和變化,影響人們對自身、社會和世界的看法和理解。語言可以使人們意識到自己認知的差異,這種差異又反過來影響了語言本身的使用。
有許多研究都表明語言是人類理解世界的基礎。 例如,心理語言學家和神經語言學家發現,語言理解和產生的大腦機制涉及到一些基本的認知過程和神經網絡。這些過程和網絡在與語言無關的認知任務中也會被使用,例如視覺感知和決策制定。此外,發展心理學家和認知科學家也發現,嬰幼兒通過語言來理解世界,而不會像成年人那樣依賴語言來思考和感知。
因此大語言模型是一種對人類認知世界基礎方式的一種顛覆性技術,受到廣泛關注和具備巨大的應用前景也就不足為奇了。
總結
涌現無處不在,生物體、社群組織、科技、文化、文明等各領域涌現出的不可思議的特性,構成了我們身邊的世界。
通過聰明、復雜的方式,根據十分簡單的原則,我們可以用電線將幾個簡單的模塊單元(電阻、電容、電感和晶體管)連接起來從而生產出擁有奇跡般強大力量、能夠以閃電般速度執行困難任務的復雜產品——電子計算機。
在意識知覺的背后卻蘊含著涉及數十億神經元的精致而復雜的大腦活動,當這些活動持續半秒后意識才會涌現出來。意識是涌現系統現象,而不是大腦中的神經通路和神經元的總和所引發的后果。
基于信息科學和腦科學的大語言模型,涌現出了類人的智慧。同涌現現象一樣,以人類當前的知識水平,難以解釋大語言模型的機理,然而仍然不妨礙我們觀察、總結、應用大語言模型。就像雖然我們不懂腦子為什么能讓我們擁有智慧,我們仍然可以用自己的智慧去解決各種問題。
希望本文能對各位讀者理解大語言模型有所幫助,感謝閱讀!
專欄作家
一直產品汪,微信公眾號:apmdogy,人人都是產品經理專欄作家。邏輯型產品經理,致力于將科學思維與產品經理方法論結合。關注人工智能、教育領域,擅長產品孵化、需求挖掘、項目管理、流程管理等產品技能。
本文原創發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發揮!