【AI產品經理紅寶書(1)】深入淺出大模型
隨著這幾年AI領域的火爆,不少同學都想轉行做AI產品經理。這篇文章,作者分享了AI產品經理的基礎知識——大模型相關的基礎,想做AI產品的同學不可錯過了。
本系列會深入淺出為小白介紹AI知識,尤其是近年火起來的大模型、AIGC、Agent等內容
大模型,其實最大的不同就是——大
哪里大?——參數量大、數據量大、計算資源大
想象一下AI就像是一個超級聰明的助手,它可以幫助我們做很多事情,比如回答問題、寫文章、甚至是開車。而大模型,就是這個助手的大腦。
01 大模型的基礎認知
- 參數數量“大”:大模型最直接的體現就是參數的數量。參數,可以想象成是模型的“記憶點”。就像一個人的人腦,有很多神經元,就可以記住很多東西,他代表的是可以記憶的能力。記的東西越多,能做的事情就越多。大模型的參數多到驚人,比如GPT-3,有1750億個參數,每個參數都存儲了模型學習到的一小部分知識。參數數量越多,模型就越能夠捕捉和表達復雜的語言模式和知識關系。這就好比一個人有1750億個記憶點,能記住的東西可就太多了。
- 數據訓練量“大”:有了記憶能力還需要接觸到大量的知識,大模型需要大量的數據來“喂飽”它們,這樣才能學習到各種知識。這就像是一個頂級廚師,需要很多食材才能做出一桌豐盛的宴席。大模型也是這樣,它們需要海量的數據來訓練,比如網頁、書籍、文章等等,這樣才能學會理解和生成語言。僅以GPT-3為例,它的訓練數據包含了大約5000億個tokens,相當于數萬億個單詞。如果一個人閱讀速度很快,每天可以讀10萬字,每年365天不眠不休的讀書,要讀完GPT-3的訓練數據量大約需要10000年。
- 計算資源量“大”:大模型這個大腦在學習知識的時候,需要的計算資源量也是“大”的。這就好比你要開一個大型派對,需要一個大場地和很多食物。大模型訓練需要強大的計算機,比如GPU或者TPU,這些都是很貴的硬件。而且,訓練一個大模型可能要花上幾周甚至幾個月的時間,這就像是在準備一場大型的馬拉松比賽。
02 大模型的工作原理
涌現
涌現,是一種現象——當系統的復雜度達到一定程度時,就會出現一些新的特性,這些特性是單個部分所沒有的。就像一群螞蟻,每只螞蟻都很普通,但當它們聚集在一起時,就能建造出復雜的蟻穴。
我們的大腦就像是一個超級復雜的機器,里面有很多神經元,它們通過連接來傳遞信息。這些神經元就像是大模型里的參數,幫助我們學習和記憶。在我們小時候大腦發育時,神經元的數量和連接會增加,我們就能學會更多的東西,比如讀英語、做數學題、騎自行車、彈鋼琴等等。后來長大了,我們結合跨學科的知識,解決更加復雜的問題。這本質上其實就是我們有足夠多的神經元,并且學到了足夠多的知識,自然而然具備了一些“進階的能力”。
大模型也是這樣,它們有很多參數,這些參數就像是模型的“神經元”。參數越多,模型的“大腦”就越復雜,能夠處理的信息就越多,學習能力也就越強。同時大模型學到了全世界的知識,涌現現象便產生了:當參數數量足夠多,模型的結構足夠復雜時,模型就能展現出一些驚人的能力,比如理解語言的細微差別,或者生成逼真的圖像。這些能力并不是單個參數直接賦予的,而是在大量參數相互作用的過程中自然產生的。
涌現的形式
比如說,GPT-3這個大模型,它有1750億個參數。這么多的參數讓它能夠理解我們說的話,甚至能寫詩、編故事。這些能力不是任何一個參數單獨能做到的,而是所有參數一起工作的結果。
再比如,DALL-E這個模型,它可以根據我們的描述生成圖像。比如你告訴它“一只穿著太空服的貓”,它就能畫出這樣的圖像。這種創造力,也是因為模型中有足夠多的參數,它們能夠捕捉到描述中的信息,并將其轉化為圖像。
所以,大模型的參數規模和涌現的關系,就像是一群螞蟻建造蟻穴,或者一群神經元讓我們學會騎自行車。當數量和復雜度達到一定程度時,就會出現一些神奇的、新的特性。這就是大模型的魅力所在,也是為什么科學家們對它們如此著迷。
文字生成原理
以大語言模型LLM為例,我們形象的介紹一下他的生成內容的原理。
想象一下,你有一個超級聰明的助手,這個助手的大腦里裝滿了成千上萬本書、文章和網頁。這個助手就是大語言模型。它不是真的人,但它通過學習大量的文字資料,學會了如何理解和生成人類的語言。
模型學習的過程,就像是在玩一個“模仿游戲”。它看了大量的文本,然后學習這些文本中的模式。比如,它學會了在“生日快樂”后面通常會跟著“快樂”,在“對不起”后面可能會跟著“我錯了”。這樣,當它在生成內容時,就會用到這些學到的模式。
大語言模型生成內容的原理,你可以想象成是一個“預測游戲”。模型看一段文字,然后猜下一個字或者下一個詞是什么。比如,我給你說“今天天氣真”,你可能會想,下一個字可能是“好”。大語言模型也是這樣,它根據前面的文字,預測下一個最可能的字或者詞。
比如說,我想讓大語言模型幫我寫一封邀請函。我給它一個開頭:“親愛的李先生,我們誠邀您參加本周六的聚會”。然后,模型就會開始預測下一句話是什么。它可能會說:“這將是一個難忘的夜晚,我們將享受美食和精彩的音樂?!边@樣,一句接一句,直到生成完整的邀請函。
大語言模型還有一個神奇的地方,就是它有時候能生成一些我們意想不到的內容,就像它有自己的“直覺”一樣。比如,你讓它寫一個關于“未來城市”的故事,它可能會創造出一些全新的概念,比如“飛行汽車”或者“海底住宅”。這些內容可能是它從各種科幻小說和文章中學到的,然后結合在一起,創造出新的故事。
03 大模型的分類
基于數據類型
咱們來聊聊大模型的分類,按照數據類型來分有三種:語言模型、計算機視覺(CV)模型和多模態模型。
1. 語言模型
語言模型,就像它的名字一樣,是專門處理和理解人類語言的大模型。它們能夠閱讀和生成文本,就像我們現在聊天一樣自然。這些模型通常是基于大量的文本數據訓練出來的,能夠捕捉到語言的復雜性和多樣性。例如:GPT 系列(OpenAI)、Bard(Google)、文心一言(百度)。
2. 計算機視覺(CV)模型
計算機視覺模型,就像是給計算機裝上了眼睛,讓它們能夠“看”圖像和視頻,并理解其中的內容。這些模型在圖像識別、目標檢測等方面有著廣泛的應用。例如:VIT 系列(Google)、文心UFO、華為盤古 CV、INTERN(商湯)。
3. 多模態模型
多模態模型就像是全能型的藝術家,它們能夠處理和理解多種類型的數據,比如文本、圖像、聲音等。這種模型在理解復雜場景和提供更豐富交互體驗方面有著巨大的潛力。例如:DingoDB 多模向量數據庫(九章云極 DataCanvas)、DALL-E(OpenAI)、悟空畫畫(華為)、midjourney。
基于應用領域
按照應用領域的分類,主要分為通用領域大模型、行業大模型和垂直大模型這三種。
1. 通用領域大模型
通用領域大模型就像是AI界的“全能選手”,它們不局限于特定的領域,而是在多個領域和任務上都能發揮作用。這些模型通常在大規模的多領域數據集上進行訓練,學習到廣泛的知識和技能,具備跨領域的泛化能力。
特點:
- 廣泛適用性:能夠處理各種任務,如自然語言處理、計算機視覺、語音識別等,適用于不同行業和場景。
- 多模態處理:能夠處理多種數據類型,如文本、圖像、語音等,實現跨模態的理解和生成。
- 深度學習基礎:通?;谏疃葘W習架構,如Transformer,通過多層神經網絡捕捉復雜的數據模式。
例如,GPT系列:由OpenAI開發的一系列通用大模型,能夠進行文本生成、翻譯、問答等多種語言任務。
2. 行業大模型
行業大模型則是AI界的“行業專家”,它們針對特定行業或領域進行優化,使用行業相關的數據進行預訓練或微調,以提高在該領域的性能和準確度。
特點:
- 領域專精:針對特定行業或應用,如醫療、金融、教育等,提供更精準、專業的解決方案。
- 數據針對性:訓練依賴于特定領域的專業數據,這使得模型在特定場景下的表現更為出色。
例如,金融大模型:騰訊金融大模型在混元通用大模型基礎上,在預訓練階段重點加入金融領域語料進行二次增訓,使模型對金融知識體系有完整的吸收與理解。
3. 垂直大模型
垂直大模型就像是AI界的“特種兵”,它們專注于特定任務或場景,使用任務相關的數據進行預訓練或微調,以提高在該任務上的性能和效果。
特點:
- 任務專精:針對特定任務或場景,如智能客服、個性化推薦等,提供更專業、更個性化的服務。
- 快速響應:由于專注于特定領域,垂直大模型能夠快速響應市場變化,提供實際應用價值。
例如,醫療垂直大模型:如DeepMind的AlphaFold,通過深度學習技術,能夠輔助醫生進行疾病診斷、藥物研發,甚至預測疾病進展。
這三種大模型各有所長,根據不同的應用場景和需求,選擇合適的模型類型,能夠更好地發揮AI的潛力,推動各行各業的智能化發展。
好的,我們本專欄的大模型章節就到此為止,希望上述語言還算通俗易懂,能夠讓不太專業的朋友有深入淺出的了解。
本文由 @菠蘿油AI 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
我的百詞斬系列呢,催更~
感謝大家喜歡,平臺說修改了審核規則,不允許更新百詞斬形式的文章了,我后續在同名公眾號(菠蘿油AI)繼續更新吧,大家喜歡的話可以關注下