從GPT-1到GPT-4看ChatGPT的崛起
近日發(fā)布的ChatGPT一夜之間成為話題中心,這個可以對話的智能交互模型,因為它的高度智能化受到人們關(guān)注。本文通過GPT-1到GPT-4的發(fā)展史,從專業(yè)角度分析了ChatGPT的技術(shù)發(fā)展方向及其目前的局限性,希望對你有所啟發(fā)。
一、ChatGPT是個啥?
近期,OpenAI 發(fā)布了 ChatGPT,是一個可以對話的方式進行交互的模型,因為它的智能化,得到了很多用戶的歡迎。
ChatGPT 也是OpenAI之前發(fā)布的 InstructGPT 的親戚,ChatGPT模型的訓練是使用RLHF(Reinforcement learning with human feedback)也許ChatGPT的到來,也是OpenAI 的GPT-4正式推出之前的序章。什么是GPT?從GPT-1到GPT-3。
Generative Pre-trained Transformer (GPT),是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型。它用于問答、文本摘要生成、機器翻譯、分類、代碼生成和對話 AI。
2018年,GPT-1誕生,這一年也是NLP(自然語言處理)的預訓練模型元年。性能方面,GPT-1有著一定的泛化能力,能夠用于和監(jiān)督任務無關(guān)的NLP任務中。其常用任務包括:
- 自然語言推理:判斷兩個句子的關(guān)系(包含、矛盾、中立)
- 問答與常識推理:輸入文章及若干答案,輸出答案的準確率
- 語義相似度識別:判斷兩個句子語義是否相關(guān)
- 分類:判斷輸入文本是指定的哪個類別
雖然GPT-1在未經(jīng)調(diào)試的任務上有一些效果,但其泛化能力遠低于經(jīng)過微調(diào)的有監(jiān)督任務,因此GPT-1只能算得上一個還算不錯的語言理解工具而非對話式AI。GPT-2也于2019年如期而至,不過,GPT-2并沒有對原有的網(wǎng)絡進行過多的結(jié)構(gòu)創(chuàng)新與設計,只使用了更多的網(wǎng)絡參數(shù)與更大的數(shù)據(jù)集:最大模型共計48層,參數(shù)量達15億,學習目標則使用無監(jiān)督預訓練模型做有監(jiān)督任務。
在性能方面,除了理解能力外,GPT-2在生成方面第一次表現(xiàn)出了強大的天賦:閱讀摘要、聊天、續(xù)寫、編故事,甚至生成假新聞、釣魚郵件或在網(wǎng)上進行角色扮演通通不在話下。在“變得更大”之后,GPT-2的確展現(xiàn)出了普適而強大的能力,并在多個特定的語言建模任務上實現(xiàn)了彼時的最佳性能。
之后,GPT-3出現(xiàn)了,作為一個無監(jiān)督模型(現(xiàn)在經(jīng)常被稱為自監(jiān)督模型),幾乎可以完成自然語言處理的絕大部分任務,例如面向問題的搜索、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答等等。
而且,該模型在諸多任務上表現(xiàn)卓越,例如在法語-英語和德語-英語機器翻譯任務上達到當前最佳水平,自動產(chǎn)生的文章幾乎讓人無法辨別出自人還是機器(僅52%的正確率,與隨機猜測相當),更令人驚訝的是在兩位數(shù)的加減運算任務上達到幾乎100%的正確率,甚至還可以依據(jù)任務描述自動生成代碼。
一個無監(jiān)督模型功能多效果好,似乎讓人們看到了通用人工智能的希望,可能這就是GPT-3影響如此之大的主要原因GPT-3模型到底是什么?實際上,GPT-3就是一個簡單的統(tǒng)計語言模型。
從機器學習的角度,語言模型是對詞語序列的概率分布的建模,即利用已經(jīng)說過的片段作為條件預測下一個時刻不同詞語出現(xiàn)的概率分布。語言模型一方面可以衡量一個句子符合語言文法的程度(例如衡量人機對話系統(tǒng)自動產(chǎn)生的回復是否自然流暢),同時也可以用來預測生成新的句子。
例如,對于一個片段“中午12點了,我們一起去餐廳”,語言模型可以預測“餐廳”后面可能出現(xiàn)的詞語。一般的語言模型會預測下一個詞語是“吃飯”,強大的語言模型能夠捕捉時間信息并且預測產(chǎn)生符合語境的詞語“吃午飯”。
通常,一個語言模型是否強大主要取決于兩點:首先看該模型是否能夠利用所有的歷史上下文信息,上述例子中如果無法捕捉“中午12點”這個遠距離的語義信息,語言模型幾乎無法預測下一個詞語“吃午飯”。其次,還要看是否有足夠豐富的歷史上下文可供模型學習,也就是說訓練語料是否足夠豐富。
由于語言模型屬于自監(jiān)督學習,優(yōu)化目標是最大化所見文本的語言模型概率,因此任何文本無需標注即可作為訓練數(shù)據(jù)。由于GPT-3更強的性能和明顯更多的參數(shù),它包含了更多的主題文本,顯然優(yōu)于前代的GPT-2。
作為目前最大的密集型神經(jīng)網(wǎng)絡,GPT-3能夠?qū)⒕W(wǎng)頁描述轉(zhuǎn)換為相應代碼、模仿人類敘事、創(chuàng)作定制詩歌、生成游戲劇本,甚至模仿已故的各位哲學家——預測生命的真諦。且GPT-3不需要微調(diào),在處理語法難題方面,它只需要一些輸出類型的樣本(少量學習)。
可以說GPT-3似乎已經(jīng)滿足了我們對于語言專家的一切想象。
注:上文主要參考以下文章:
- GPT4發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號51CTO技術(shù)棧- 2022-11-24 18:08
- 一文解答你對GPT-3的好奇!GPT-3是什么?為何說它如此優(yōu)秀?-張家俊 中國科學院自動化研究所 2020-11-11 17:25 發(fā)表于北京
- The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號DeeplearningAI-2022-02-07 12:30
二、GPT-3存在什么問題?
但是 GTP-3 并不完美。
當前有人們最擔憂人工智能的主要問題之一,就是聊天機器人和文本生成工具等很可能會不分青紅皂白和質(zhì)量好壞,地對網(wǎng)絡上的所有文本進行學習,進而生產(chǎn)出錯誤的、惡意冒犯的、甚至是攻擊性的語言輸出,這將會充分影響到它們的下一步應用。
OpenAI也曾經(jīng)提出,會在不久的將來發(fā)布更為強大的GPT-4:
將GPT-3 與GPT-4、人腦進行比較(圖片來源:Lex Fridman @youtube)
據(jù)說,GPT-4會在明年發(fā)布,它能夠通過圖靈測試,并且能夠先進到和人類沒有區(qū)別,除此之外,企業(yè)引進GPT-4的成本也將大規(guī)模下降。
三、ChatGP與InstructGPT
談到ChatGPT,就要聊聊它的“前身”InstructGPT。
2022年初,OpenAI發(fā)布了InstructGPT;在這項研究中,相比 GPT-3 而言,OpenAI 采用對齊研究(alignment research),訓練出更真實、更無害,而且更好地遵循用戶意圖的語言模型 InstructGPT,InstructGPT是一個經(jīng)過微調(diào)的新版本GPT-3,可以將有害的、不真實的和有偏差的輸出最小化。
1. InstructGPT的工作原理是什么?
開發(fā)人員通過結(jié)合監(jiān)督學習+從人類反饋中獲得的強化學習,來提高GPT-3的輸出質(zhì)量。
在這種學習中,人類對模型的潛在輸出進行排序;強化學習算法則對產(chǎn)生類似于高級輸出材料的模型進行獎勵。
訓練數(shù)據(jù)集以創(chuàng)建提示開始,其中一些提示是基于GPT-3用戶的輸入,比如“給我講一個關(guān)于青蛙的故事”或“用幾句話給一個6歲的孩子解釋一下登月”。
開發(fā)人員將提示分為三個部分,并以不同的方式為每個部分創(chuàng)建響應:人類作家會對第一組提示做出響應。開發(fā)人員微調(diào)了一個經(jīng)過訓練的GPT-3,將它變成InstructGPT以生成每個提示的現(xiàn)有響應。
下一步是訓練一個模型,使其對更好的響應做出更高的獎勵。對于第二組提示,經(jīng)過優(yōu)化的模型會生成多個響應。人工評分者會對每個回復進行排名。
在給出一個提示和兩個響應后,一個獎勵模型(另一個預先訓練的GPT-3)學會了為評分高的響應計算更高的獎勵,為評分低的回答計算更低的獎勵。
開發(fā)人員使用第三組提示和強化學習方法近端策略優(yōu)化(Proximal Policy Optimization, PPO)進一步微調(diào)了語言模型。給出提示后,語言模型會生成響應,而獎勵模型會給予相應獎勵。PPO使用獎勵來更新語言模型。
本段參考:The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號DeeplearningAI-2022-02-07 12:30
2. 重要在何處?
核心在于——人工智能需要是能夠負責任的人工智能。
OpenAI的語言模型可以助力教育領域、虛擬治療師、寫作輔助工具、角色扮演游戲等,在這些領域,社會偏見、錯誤信息和毒害信息存在都是比較麻煩的,能夠避免這些缺陷的系統(tǒng)才能更具備有用性。
3. ChatGPT與InstructGPT的訓練過程有哪些不同?
總體來說,ChatGPT和上文的InstructGPT一樣,是使用 RLHF(從人類反饋中強化學習)訓練的。不同之處在于數(shù)據(jù)是如何設置用于訓練(以及收集)的。
【這里解釋一下:(來自李志飛老師)這里提到的訓練數(shù)據(jù)的差別時:“chatGPT就是在原來gpt3.5/instructGPT那個基礎上,加入了跟對話這個任務相關(guān)的有監(jiān)督數(shù)據(jù)(圖中第一步需要的)以及用戶給對話過程中答案的排序訓練數(shù)據(jù)(第二和第三步強化學習需要的)】
四、ChatGPT存在哪些局限性?
- 在訓練的強化學習 (RL) 階段,沒有真相和問題標準答案的具體來源,來答復你的問題。
- 訓練模型更加謹慎,可能會拒絕回答(以避免提示的誤報)。
- 監(jiān)督訓練可能會誤導/偏向模型傾向于知道理想的答案,而不是模型生成一組隨機的響應并且只有人類評論者選擇好的/排名靠前的響應
注意:ChatGPT 對措辭敏感。有時模型最終對一個短語沒有反應,但對問題/短語稍作調(diào)整,它最終會正確回答。
訓練者更傾向于喜歡更長的答案,因為這些答案可能看起來更全面,導致傾向于更為冗長的回答,以及模型中會過度使用某些短語,如果初始提示或問題含糊不清,則模型不會適當?shù)匾蟪吻濉?/p>
參考文獻:
1.https://medium.com/inkwater-atlas/chatgpt-the-new-frontier-of-artificial-intelligence-9aee81287677
2.https://pub.towardsai.net/openai-debuts-chatgpt-50dd611278a4
3.https://openai.com/blog/chatgpt/
4.GPT4發(fā)布在即堪比人腦,多位圈內(nèi)大佬坐不住了!-徐杰承、云昭 -公眾號51CTO技術(shù)棧- 2022-11-24 18:08
5.一文解答你對GPT-3的好奇!GPT-3是什么?為何說它如此優(yōu)秀?-張家俊 中國科學院自動化研究所 2020-11-11 17:25 發(fā)表于北京
6.The Batch: 329 | InstructGPT,一種更友善、更溫和的語言模型-公眾號DeeplearningAI-2022-02-07 12:30
作者:阿法兔;微信公眾號:阿法兔研究筆記(ID:AlphatuDiary)
來源:https://mp.weixin.qq.com/s/ALmmeyAzIZFNsRTXmVZ4aw
本文由 @阿法兔研究筆記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!