日本免费看成人片的网站,伊人小蛇婷婷色香综合缴缴情,日本激情在线一区二区三区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

從GPT-1到GPT-4看ChatGPT的崛起

阿法兔研究筆記

2022-12-13

0 評論 5211 瀏覽 7 收藏

15 分鐘

近日發(fā)布的ChatGPT一夜之間成為話題中心，這個可以對話的智能交互模型，因為它的高度智能化受到人們關(guān)注。本文通過GPT-1到GPT-4的發(fā)展史，從專業(yè)角度分析了ChatGPT的技術(shù)發(fā)展方向及其目前的局限性，希望對你有所啟發(fā)。

一、ChatGPT是個啥？

從GPT-1到GPT-4看ChatGPT的崛起

近期，OpenAI 發(fā)布了 ChatGPT，是一個可以對話的方式進行交互的模型，因為它的智能化，得到了很多用戶的歡迎。

ChatGPT 也是OpenAI之前發(fā)布的 InstructGPT 的親戚，ChatGPT模型的訓練是使用RLHF（Reinforcement learning with human feedback）也許ChatGPT的到來，也是OpenAI 的GPT-4正式推出之前的序章。什么是GPT？從GPT-1到GPT-3。

Generative Pre-trained Transformer (GPT)，是一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓練的文本生成深度學習模型。它用于問答、文本摘要生成、機器翻譯、分類、代碼生成和對話 AI。

2018年，GPT-1誕生，這一年也是NLP（自然語言處理）的預訓練模型元年。性能方面，GPT-1有著一定的泛化能力，能夠用于和監(jiān)督任務無關(guān)的NLP任務中。其常用任務包括：

自然語言推理：判斷兩個句子的關(guān)系（包含、矛盾、中立）
問答與常識推理：輸入文章及若干答案，輸出答案的準確率
語義相似度識別：判斷兩個句子語義是否相關(guān)
分類：判斷輸入文本是指定的哪個類別

雖然GPT-1在未經(jīng)調(diào)試的任務上有一些效果，但其泛化能力遠低于經(jīng)過微調(diào)的有監(jiān)督任務，因此GPT-1只能算得上一個還算不錯的語言理解工具而非對話式AI。GPT-2也于2019年如期而至，不過，GPT-2并沒有對原有的網(wǎng)絡進行過多的結(jié)構(gòu)創(chuàng)新與設計，只使用了更多的網(wǎng)絡參數(shù)與更大的數(shù)據(jù)集：最大模型共計48層，參數(shù)量達15億，學習目標則使用無監(jiān)督預訓練模型做有監(jiān)督任務。

在性能方面，除了理解能力外，GPT-2在生成方面第一次表現(xiàn)出了強大的天賦：閱讀摘要、聊天、續(xù)寫、編故事，甚至生成假新聞、釣魚郵件或在網(wǎng)上進行角色扮演通通不在話下。在“變得更大”之后，GPT-2的確展現(xiàn)出了普適而強大的能力，并在多個特定的語言建模任務上實現(xiàn)了彼時的最佳性能。

之后，GPT-3出現(xiàn)了，作為一個無監(jiān)督模型（現(xiàn)在經(jīng)常被稱為自監(jiān)督模型），幾乎可以完成自然語言處理的絕大部分任務，例如面向問題的搜索、閱讀理解、語義推斷、機器翻譯、文章生成和自動問答等等。

而且，該模型在諸多任務上表現(xiàn)卓越，例如在法語-英語和德語-英語機器翻譯任務上達到當前最佳水平，自動產(chǎn)生的文章幾乎讓人無法辨別出自人還是機器（僅52%的正確率，與隨機猜測相當），更令人驚訝的是在兩位數(shù)的加減運算任務上達到幾乎100%的正確率，甚至還可以依據(jù)任務描述自動生成代碼。

一個無監(jiān)督模型功能多效果好，似乎讓人們看到了通用人工智能的希望，可能這就是GPT-3影響如此之大的主要原因GPT-3模型到底是什么？實際上，GPT-3就是一個簡單的統(tǒng)計語言模型。

從機器學習的角度，語言模型是對詞語序列的概率分布的建模，即利用已經(jīng)說過的片段作為條件預測下一個時刻不同詞語出現(xiàn)的概率分布。語言模型一方面可以衡量一個句子符合語言文法的程度（例如衡量人機對話系統(tǒng)自動產(chǎn)生的回復是否自然流暢），同時也可以用來預測生成新的句子。

例如，對于一個片段“中午12點了，我們一起去餐廳”，語言模型可以預測“餐廳”后面可能出現(xiàn)的詞語。一般的語言模型會預測下一個詞語是“吃飯”，強大的語言模型能夠捕捉時間信息并且預測產(chǎn)生符合語境的詞語“吃午飯”。

通常，一個語言模型是否強大主要取決于兩點：首先看該模型是否能夠利用所有的歷史上下文信息，上述例子中如果無法捕捉“中午12點”這個遠距離的語義信息，語言模型幾乎無法預測下一個詞語“吃午飯”。其次，還要看是否有足夠豐富的歷史上下文可供模型學習，也就是說訓練語料是否足夠豐富。

由于語言模型屬于自監(jiān)督學習，優(yōu)化目標是最大化所見文本的語言模型概率，因此任何文本無需標注即可作為訓練數(shù)據(jù)。由于GPT-3更強的性能和明顯更多的參數(shù)，它包含了更多的主題文本，顯然優(yōu)于前代的GPT-2。

作為目前最大的密集型神經(jīng)網(wǎng)絡，GPT-3能夠?qū)⒕W(wǎng)頁描述轉(zhuǎn)換為相應代碼、模仿人類敘事、創(chuàng)作定制詩歌、生成游戲劇本，甚至模仿已故的各位哲學家——預測生命的真諦。且GPT-3不需要微調(diào)，在處理語法難題方面，它只需要一些輸出類型的樣本（少量學習）。

可以說GPT-3似乎已經(jīng)滿足了我們對于語言專家的一切想象。

注：上文主要參考以下文章：

GPT4發(fā)布在即堪比人腦，多位圈內(nèi)大佬坐不住了！-徐杰承、云昭 -公眾號51CTO技術(shù)棧- 2022-11-24 18:08
一文解答你對GPT-3的好奇！GPT-3是什么？為何說它如此優(yōu)秀？-張家俊中國科學院自動化研究所 2020-11-11 17:25 發(fā)表于北京
The Batch: 329 | InstructGPT，一種更友善、更溫和的語言模型-公眾號DeeplearningAI-2022-02-07 12:30

二、GPT-3存在什么問題？

但是 GTP-3 并不完美。

當前有人們最擔憂人工智能的主要問題之一，就是聊天機器人和文本生成工具等很可能會不分青紅皂白和質(zhì)量好壞，地對網(wǎng)絡上的所有文本進行學習，進而生產(chǎn)出錯誤的、惡意冒犯的、甚至是攻擊性的語言輸出，這將會充分影響到它們的下一步應用。

OpenAI也曾經(jīng)提出，會在不久的將來發(fā)布更為強大的GPT-4：

從GPT-1到GPT-4看ChatGPT的崛起

將GPT-3 與GPT-4、人腦進行比較（圖片來源：Lex Fridman @youtube）

據(jù)說，GPT-4會在明年發(fā)布，它能夠通過圖靈測試，并且能夠先進到和人類沒有區(qū)別，除此之外，企業(yè)引進GPT-4的成本也將大規(guī)模下降。

從GPT-1到GPT-4看ChatGPT的崛起

三、ChatGP與InstructGPT

談到ChatGPT，就要聊聊它的“前身”InstructGPT。

2022年初，OpenAI發(fā)布了InstructGPT；在這項研究中，相比 GPT-3 而言，OpenAI 采用對齊研究（alignment research），訓練出更真實、更無害，而且更好地遵循用戶意圖的語言模型 InstructGPT，InstructGPT是一個經(jīng)過微調(diào)的新版本GPT-3，可以將有害的、不真實的和有偏差的輸出最小化。

1. InstructGPT的工作原理是什么？

開發(fā)人員通過結(jié)合監(jiān)督學習+從人類反饋中獲得的強化學習，來提高GPT-3的輸出質(zhì)量。

在這種學習中，人類對模型的潛在輸出進行排序；強化學習算法則對產(chǎn)生類似于高級輸出材料的模型進行獎勵。

訓練數(shù)據(jù)集以創(chuàng)建提示開始，其中一些提示是基于GPT-3用戶的輸入，比如“給我講一個關(guān)于青蛙的故事”或“用幾句話給一個6歲的孩子解釋一下登月”。

開發(fā)人員將提示分為三個部分，并以不同的方式為每個部分創(chuàng)建響應：人類作家會對第一組提示做出響應。開發(fā)人員微調(diào)了一個經(jīng)過訓練的GPT-3，將它變成InstructGPT以生成每個提示的現(xiàn)有響應。

下一步是訓練一個模型，使其對更好的響應做出更高的獎勵。對于第二組提示，經(jīng)過優(yōu)化的模型會生成多個響應。人工評分者會對每個回復進行排名。

在給出一個提示和兩個響應后，一個獎勵模型(另一個預先訓練的GPT-3)學會了為評分高的響應計算更高的獎勵，為評分低的回答計算更低的獎勵。

開發(fā)人員使用第三組提示和強化學習方法近端策略優(yōu)化(Proximal Policy Optimization, PPO)進一步微調(diào)了語言模型。給出提示后，語言模型會生成響應，而獎勵模型會給予相應獎勵。PPO使用獎勵來更新語言模型。

本段參考：The Batch: 329 | InstructGPT，一種更友善、更溫和的語言模型-公眾號DeeplearningAI-2022-02-07 12:30

2. 重要在何處？

核心在于——人工智能需要是能夠負責任的人工智能。

OpenAI的語言模型可以助力教育領域、虛擬治療師、寫作輔助工具、角色扮演游戲等，在這些領域，社會偏見、錯誤信息和毒害信息存在都是比較麻煩的，能夠避免這些缺陷的系統(tǒng)才能更具備有用性。

3. ChatGPT與InstructGPT的訓練過程有哪些不同？

總體來說，ChatGPT和上文的InstructGPT一樣，是使用 RLHF（從人類反饋中強化學習）訓練的。不同之處在于數(shù)據(jù)是如何設置用于訓練（以及收集）的。

【這里解釋一下：（來自李志飛老師）這里提到的訓練數(shù)據(jù)的差別時：“chatGPT就是在原來gpt3.5/instructGPT那個基礎上，加入了跟對話這個任務相關(guān)的有監(jiān)督數(shù)據(jù)（圖中第一步需要的）以及用戶給對話過程中答案的排序訓練數(shù)據(jù)（第二和第三步強化學習需要的）】

從GPT-1到GPT-4看ChatGPT的崛起