亚洲中文字幕久爱亚洲伊人,亚洲综合一区二区AV,日韩免费a级毛片无码a∨

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

新智元

2023-09-05

0 評論 3549 瀏覽 9 收藏

22 分鐘

最近，谷歌在研究中提出了用大模型代替人類，進(jìn)行偏好標(biāo)注，也就是AI反饋強(qiáng)化學(xué)習(xí)（RLAIF），結(jié)果發(fā)現(xiàn)，RLAIF可以在不依賴人類標(biāo)注員的情況下，產(chǎn)生與RLHF相當(dāng)?shù)母倪M(jìn)效果。具體如何理解谷歌在最新研究中提出的RLAIF方法呢？不妨來看看本文的解讀。

如果說，RLHF中的「人類」被取代，可行嗎？

谷歌團(tuán)隊(duì)的最新研究提出了，用大模型替代人類，進(jìn)行偏好標(biāo)注，也就是AI反饋強(qiáng)化學(xué)習(xí)（RLAIF）。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

論文地址：https://arxiv.org/abs/2309.00267

結(jié)果發(fā)現(xiàn)，RLAIF可以在不依賴人類標(biāo)注員的情況下，產(chǎn)生與RLHF相當(dāng)?shù)母倪M(jìn)效果，勝率50%。

同時(shí)，谷歌研究再次證明了RLAIF和RLHF，比起監(jiān)督微調(diào)（SFT）勝率都超過了70%。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

如今，大型語言模型訓(xùn)練中一個(gè)關(guān)鍵部分便是RLHF。人類通過對AI輸出的質(zhì)量進(jìn)行評級，讓回應(yīng)更加有用。

但是，這需要付出很多的努力，包括讓許多標(biāo)注人員暴露在AI輸出的有害內(nèi)容中。

既然RLAIF能夠與RLHF相媲美，未來模型不需要人類反饋，也可以通過自循環(huán)來改進(jìn)。

一、RLHF不需要人類了

當(dāng)前，RLHF已經(jīng)成為微調(diào)大模型的核心方法，包括ChatGPT、Bard等模型都采用這一范式。

具體來說，RLHF分為三步：預(yù)訓(xùn)練一個(gè)監(jiān)督微調(diào)LLM；收集數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型；用RL微調(diào)模型。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

有了RLHF，大模型可以針對復(fù)雜的序列級目標(biāo)進(jìn)行優(yōu)化，而傳統(tǒng)的SFT很難區(qū)分這些目標(biāo)。

然而，一個(gè)非?，F(xiàn)實(shí)的問題是，RLHF需要大規(guī)模高質(zhì)量的人類標(biāo)注數(shù)據(jù)，另外這些數(shù)據(jù)能否可以取得一個(gè)優(yōu)勝的結(jié)果。

在谷歌這項(xiàng)研究之前，Anthropic研究人員是第一個(gè)探索使用AI偏好來訓(xùn)練RL微調(diào)的獎(jiǎng)勵(lì)模型。

他們首次在「Constitutional AI」中提出了RLAIF，發(fā)現(xiàn)LLM與人類判斷表現(xiàn)出高度一致，甚至在某些任務(wù)上，表現(xiàn)優(yōu)于人類。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

但是，這篇研究沒有將人類與人工智能反饋?zhàn)鰧Ρ?，因此，RLAIF是否可以替代RLHF尚未得到終極答案。

谷歌最新研究，主要就是解決這個(gè)問題。

研究人員在模型摘要任務(wù)中，直接比較了RLAIF和RLHF。

給定1個(gè)文本和2個(gè)候選答案，使用現(xiàn)成的LLM給出一個(gè)偏好標(biāo)注。

然后，根據(jù)LLM偏好和對比損失訓(xùn)練獎(jiǎng)勵(lì)模型（RM）。最后，通過強(qiáng)化學(xué)習(xí)微調(diào)策略模型，利用獎(jiǎng)勵(lì)模型給出獎(jiǎng)勵(lì)。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

那么，谷歌與Anthropic提出的RLAIF方法有什么不同？

谷歌自己在文中解釋道，

– 谷歌：根據(jù)AI標(biāo)注的偏好訓(xùn)練獎(jiǎng)勵(lì)模型，然后進(jìn)行RL微調(diào)。

– Constitutional AI：通過迭代，要求LLM根據(jù)憲法生成更好的響應(yīng)，來改進(jìn)監(jiān)督學(xué)習(xí)模型。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

二、AI自標(biāo)注，自我改進(jìn)

谷歌在最新研究中提出的RLAIF方法，過程是怎樣的？

1. 大語言模型進(jìn)行偏好標(biāo)注

研究人員用「現(xiàn)成的」LLM來標(biāo)注對兩個(gè)候選項(xiàng)之間的偏好。

這是一個(gè)針對一般用途進(jìn)行預(yù)訓(xùn)練或指令調(diào)整的模型，但未針對特定下游任務(wù)進(jìn)行微調(diào)。給定一段文本和兩個(gè)候選摘要，LLM被要求評價(jià)哪個(gè)摘要更好。LLM 的輸入結(jié)構(gòu)如下：

1. 序言

介紹和描述手頭任務(wù)的說明

2. 多個(gè)樣本實(shí)例（可選）

一段文本、一對摘要、思路的基本原理和偏好判斷

3. 要標(biāo)注的樣本

一段文本和一對要標(biāo)注的摘要

4. 結(jié)尾

提示 LLM 的結(jié)束字符串（例如「Preferred Summary=」）

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

在給LLM提供輸入后，研究人員獲得生成token「1」和「2」的對數(shù)概率，并計(jì)算softmax以獲得偏好分布。

從LLM獲取偏好標(biāo)注的方法有很多，例如從模型中解碼自由形式的響應(yīng)并啟發(fā)式地提取偏好（例如：output=「the first summary is better」），或者將偏好分布表示為單熱表示(one-hot representation)。然而，研究人員沒有嘗試這些替代方案，因?yàn)樗麄兊姆椒ㄒ呀?jīng)產(chǎn)生了很高的準(zhǔn)確性。

研究人員試驗(yàn)了兩種類型的序言：第一種是「Base」，它簡單地詢問「哪個(gè)摘要更好？」，第二種是「OpenAI」，它模仿了生成OpenAI TL;DR 偏好數(shù)據(jù)集的人類偏好標(biāo)注器的評級指令，包含有關(guān)構(gòu)成強(qiáng)摘要的詳細(xì)信息。如下圖所示。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

研究人員還通過在提示中添加少量樣本來嘗試上下文學(xué)習(xí)，其中手動(dòng)選擇樣本來涵蓋不同的主題。解決位置偏差。

之前的研究結(jié)果表明，向LLM展示候選項(xiàng)的順序可能會(huì)影響LLM判斷更喜歡的候選項(xiàng)。研究人員發(fā)現(xiàn)證據(jù)表明存在這種位置偏差，尤其是對于較小尺寸的標(biāo)注LLM 。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

為了減輕偏好標(biāo)注中的位置偏差，研究人員對每對候選項(xiàng)進(jìn)行兩次推理，候選項(xiàng)提交給LLM的順序二次推理是相反的。然后對兩個(gè)推推理的結(jié)果進(jìn)行平均以獲得最終的偏好分布。

2. 思維鏈推理

研究人員嘗試從AI標(biāo)注器中引出思維鏈 (COT) 推理，以提高與人類偏好的一致性。

研究人員替換標(biāo)準(zhǔn)的結(jié)尾提示（例如將「Preferred Summary=」替換為「Consider the coherence, accuracy, coverage, and over-all quality of each summary and explain which one is better. Rationale：」），然后解碼一個(gè)LLM的回復(fù)。

最后，研究人員將原始提示、響應(yīng)和原始結(jié)尾字符串“Preferred Summary=”連接在一起，并按照第 3.1 節(jié)中的評分過程來獲得偏好分布。具體過程見下圖。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

在零樣本提示中，LLM沒有給出推理應(yīng)該是什么樣子的示例，而在少量樣本提示中，研究人員提供了模型要遵循的COT推理示例。示例請參見下圖。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

3. 自洽性（Self-Consistency）

對于思維鏈提示，研究人員還嘗試了自洽性——一種通過對多個(gè)推理路徑進(jìn)行采樣并聚合每個(gè)路徑末尾產(chǎn)生的最終答案來改進(jìn)思維鏈推理的技術(shù)。

使用非零解碼溫度（non-zero decoding temperature）對多個(gè)思維鏈基本原理進(jìn)行采樣，然后按照上一節(jié)中的方法獲得每個(gè)思維鏈的LLM偏好分布。然后對結(jié)果進(jìn)行平均以獲得最終的偏好分布。

4. AI反饋的強(qiáng)化學(xué)習(xí)

在LLM對偏好進(jìn)行標(biāo)注后，將訓(xùn)練獎(jiǎng)勵(lì)模型(RM)來預(yù)測偏好。由于研究人員的方法產(chǎn)生軟標(biāo)注（Soft Label），他們采用RM生成的獎(jiǎng)勵(lì)分?jǐn)?shù)的softmax的交叉熵?fù)p失（cross-entropy loss），而不是獎(jiǎng)勵(lì)模型中提到的損失。

Softmax將RM的無界分?jǐn)?shù)（unbounded scores）轉(zhuǎn)換為概率分布。

在AI標(biāo)注數(shù)據(jù)集上訓(xùn)練RM可以被視為模型蒸餾的一種形式，特別是因?yàn)檠芯咳藛T的AI標(biāo)注器通常比RM更大、更強(qiáng)。

另一種方法是繞過RM并直接使用AI反饋?zhàn)鳛镽L中的獎(jiǎng)勵(lì)信號，盡管這種方法的計(jì)算成本更高，因?yàn)锳I標(biāo)注器比RM更大。

通過經(jīng)過訓(xùn)練的RM，研究人員使用適用于語言建模領(lǐng)域的Advantage Actor Critic (A2C)算法的修改版本進(jìn)行強(qiáng)化學(xué)習(xí)。

5. 評價(jià)

研究人員通過三個(gè)指標(biāo)評估他們的結(jié)果 – AI標(biāo)注器對齊、配對準(zhǔn)確度和勝率。

AI標(biāo)注器對齊時(shí)用來衡量AI標(biāo)注偏好相對于人類偏好的準(zhǔn)確性。

對于單個(gè)示例，將軟人工智能標(biāo)注的偏好轉(zhuǎn)換為二進(jìn)制表示。如果標(biāo)注與目標(biāo)人類偏好一致則分配 1，否則分配 0。

配對準(zhǔn)確性是衡量經(jīng)過訓(xùn)練的獎(jiǎng)勵(lì)模型相對于一組保留的人類偏好的準(zhǔn)確性。

給定共享上下文和一對候選響應(yīng)，如果根據(jù)人類標(biāo)注，RM對首選候選的評分高于非首選候選，則配對準(zhǔn)確度為 1。否則該值為 0。該數(shù)量是多個(gè)示例的平均值，以衡量RM的總體精度。

勝率通過衡量人類更喜歡一項(xiàng)策略頻率來評估兩項(xiàng)策略的端到端質(zhì)量。

給定一個(gè)輸入和兩次生成結(jié)果，人類標(biāo)注者選擇首選哪一個(gè)生成結(jié)果。策略A優(yōu)于策略B的實(shí)例百分比稱為「A對B的勝率」。

三、實(shí)驗(yàn)細(xì)節(jié)

研究人員使用由OpenAI管理的經(jīng)過過濾的Reddit TL;DR 數(shù)據(jù)集。TL;DR包含來自Reddit的約300萬個(gè)帖子，涉及各種主題（也稱為「subreddits」）以及原作者撰寫的帖子摘要。

數(shù)據(jù)還經(jīng)過OpenAI過濾，以確保高質(zhì)量，其中包括使用普通大眾可以理解的Reddit主題白名單。

此外，僅包含摘要中含有24到48個(gè)標(biāo)注的帖子。過濾后的數(shù)據(jù)集包含123,169個(gè)帖子，其中約5%作為驗(yàn)證集。

有關(guān)數(shù)據(jù)集的更多詳細(xì)信息可以在原始論文中找到。此外， OpenAI從過濾后的TL;DR數(shù)據(jù)集中整理了一個(gè)人類偏好數(shù)據(jù)集。

對于給定的帖子，根據(jù)不同的策略生成兩個(gè)候選摘要，并要求標(biāo)注器對他們喜歡的摘要進(jìn)行評分。總數(shù)據(jù)集包含大約92k成對比較。

1. LLM標(biāo)注

為了評估AI標(biāo)注技術(shù)的有效性（例如提示、自洽性），研究人員從TL;DR偏好數(shù)據(jù)集中選擇示例，其中人類標(biāo)注者會(huì)偏好置信度更高的摘要。

研究人員在數(shù)據(jù)集訓(xùn)練分割的隨機(jī)15%子集上評估AI標(biāo)注器對齊，以實(shí)現(xiàn)更快的實(shí)驗(yàn)迭代，生成2851個(gè)評估示例。

對于獎(jiǎng)勵(lì)模型訓(xùn)練，TL;DR偏好數(shù)據(jù)集的完整訓(xùn)練分割由LLM標(biāo)注并用于訓(xùn)練，無論置信度分?jǐn)?shù)如何。

2. 模型訓(xùn)練

研究人員使用PaLM 2 Extra-Small (XS)作為初始檢查點(diǎn)，在OpenAI過濾后的TL;DR數(shù)據(jù)集上訓(xùn)練SFT模型。

然后，研究人員從SFT模型初始化RM，并在OpenAI的TL;DR人類偏好數(shù)據(jù)集上訓(xùn)練它們。

對于表1和5.1中的結(jié)果，研究人員使用PaLM 2L生成AI標(biāo)注的偏好，使用「OpenAI + COT 0-shot」提示（，沒有自洽性，然后在完整的偏好上訓(xùn)練RM數(shù)據(jù)集。

對于強(qiáng)化學(xué)習(xí)，研究人員使用Advantage Actor Critic (A2C)來訓(xùn)練策略。策略和價(jià)值模型都是從SFT模型初始化的。研究人員使用過濾后的 Reddit TL;DR 數(shù)據(jù)集作為初始狀態(tài)來推出他們的策略。

3. 人類評估

研究人員收集了1200個(gè)人類評級來評估RLHF和RLAIF策略。對于每項(xiàng)評級任務(wù)，評估人員都會(huì)收到一篇帖子和4個(gè)根據(jù)不同策略（RLAIF、RLHF、SFT和人類參考各一個(gè)）生成的摘要，并要求按照質(zhì)量順序?qū)λ鼈冞M(jìn)行排名，不存在任何聯(lián)系。

帖子取自TL;DR監(jiān)督微調(diào)數(shù)據(jù)集的保留集，該數(shù)據(jù)集未用于任何其他評估。一旦收集了這些排名，就可以計(jì)算任意兩項(xiàng)策略的勝率。

四、勝率50%，打平手

1. RLAIF vs. RLHF

文章開篇，已經(jīng)介紹了谷歌將RLAIF與RLHF相比較的優(yōu)勢，結(jié)果表明，兩種方法有著相似的性能。

具體來說，與基線SFT相比較，在71%的情況下，人類評估者更喜歡RLAIF。73%的情況下，RLHF優(yōu)于SFT。

研究人員還直接比較了RLAIF和RLHF的勝率，發(fā)現(xiàn)它們受歡迎程度是等同的——即勝率都是50%。

為了進(jìn)一步了解這兩種策略的差異，谷歌對其生成的摘要進(jìn)行了定性比較。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

另外，他們還將RLAIF和RLHF摘要與人工編寫的參考摘要進(jìn)行比較。79%的情況下，RLAIF生成的摘要優(yōu)于參考摘要，80%的情況下，RLHF結(jié)果優(yōu)于參考摘要。

可見，RLAIF和RLHF與參考摘要之間的勝率只差1%，并沒有顯著的差異。

值得注意的是，研究人員還發(fā)現(xiàn)，RLHF策略出現(xiàn)幻覺的頻率，往往高于RLAIF，如上表紅色標(biāo)注的文字。

在控制摘要長度后，RLAIF和RLHF策略仍然優(yōu)于基線SFT，并取得了相似的勝率。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

這些結(jié)果表明，RLAIF不需要依賴于人工標(biāo)注，是RLHF的可行替代方案。

2. 提示技巧

在使用提示技巧中，谷歌團(tuán)隊(duì)嘗試了三種類型的提示技術(shù)，preamble specificity、CoT、少樣本上下文學(xué)習(xí)。

結(jié)果發(fā)現(xiàn)，通過詳細(xì)的OpenAI序言進(jìn)行提示，并進(jìn)行CoT推理，AI標(biāo)注器可以取得78%的一致性。

而情境學(xué)習(xí)不會(huì)提高準(zhǔn)確性，甚至可能會(huì)使準(zhǔn)確性變得更糟。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

3. 自洽性

研究人員使用4和16個(gè)樣本進(jìn)行自洽性實(shí)驗(yàn)，解碼溫度為1。

以T = 1對多個(gè)思維鏈原理進(jìn)行采樣，結(jié)果與人類偏好的一致性較低。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

4. 大模型標(biāo)注器的規(guī)模

研究還發(fā)現(xiàn)，擴(kuò)大大模型標(biāo)注器的參數(shù)規(guī)模，可能會(huì)產(chǎn)生更高質(zhì)量的偏好標(biāo)注。

5. 偏好示例數(shù)量

獎(jiǎng)勵(lì)模型的準(zhǔn)確性如何隨訓(xùn)練示例進(jìn)行變化？

研究人員發(fā)現(xiàn)，需要經(jīng)過數(shù)千個(gè)示例訓(xùn)練后，獎(jiǎng)勵(lì)模型的性能接近于完整數(shù)據(jù)集的訓(xùn)練。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

五、結(jié)論

研究人員證明了RLAIF可以在不依賴人類標(biāo)注者的情況下產(chǎn)生與RLHF相當(dāng)?shù)母倪M(jìn)。

雖然這項(xiàng)工作凸顯了 RLAIF 的潛力，但依然有一些局限性。

首先，這項(xiàng)研究僅探討了總結(jié)任務(wù)，關(guān)于其他任務(wù)的泛化性還需要進(jìn)一步研究。

其次，研究人員沒有估計(jì)LLM推理在經(jīng)濟(jì)成本上是否比人工標(biāo)注更有優(yōu)勢。

此外，還有一些有趣的問題值得研究，例如RLHF與RLAIF相結(jié)合是否可以優(yōu)于單一的一種方法，使用LLM直接分配獎(jiǎng)勵(lì)的效果如何，改進(jìn) AI標(biāo)注器對齊是否會(huì)轉(zhuǎn)化為改進(jìn)的最終策略，以及是否使用LLM與策略模型大小相同的標(biāo)注器可以進(jìn)一步改進(jìn)策略（即模型是否可以「自我改進(jìn)」）。

六、網(wǎng)友熱議

谷歌發(fā)表了兩篇關(guān)于RL的論文：

RLAIF：訓(xùn)練與人類反饋類似的獎(jiǎng)勵(lì)模型
ReST：使用生成模型促進(jìn)自訓(xùn)練將這兩篇論文結(jié)合起來，可以滿足那些對數(shù)據(jù)饑渴的人工智能算法

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

半個(gè)月前，谷歌DeepMind剛剛提出了一個(gè)新算法ReST，為了使大規(guī)模語言模型與人類偏好保持一致。

具體通過離線強(qiáng)化學(xué)習(xí)方法，改進(jìn)大型語言模型的翻譯質(zhì)量，以更好地符合人類偏好。

RLHF再也不需要人類了！谷歌團(tuán)隊(duì)研究證明，AI標(biāo)注已達(dá)人類水平

一位研究人員表示，根據(jù)定性測試，Anthropic的Claude模型似乎比GPT-4弱。這可能是RLHF/RLAIF方法或預(yù)訓(xùn)練造成的。目前還不清楚這些方法在實(shí)際應(yīng)用中的泛化效果是否更好，即使它們在學(xué)術(shù)基準(zhǔn)上的表現(xiàn)更好。