Pika聯(lián)創(chuàng)參與新研究:Diffusion能搶GPT的活了!成功挑戰(zhàn)自回歸文本范式

0 評論 383 瀏覽 0 收藏 9 分鐘

自回歸模型和擴(kuò)散模型的“專長”并不同,如果讓后者去挑戰(zhàn)前者所擅長的部分,會(huì)得到怎樣的結(jié)果?不妨來看看本文的分享。

縱觀生成式AI領(lǐng)域中的兩個(gè)主導(dǎo)者:自回歸和擴(kuò)散模型。

一個(gè)專攻文本等離散數(shù)據(jù),一個(gè)長于圖像等連續(xù)數(shù)據(jù)。

如果,我們讓后者來挑戰(zhàn)前者的主場,它能行嗎?

斯坦福博士的最新研究,就搞了這么一個(gè)擴(kuò)散模型VS自回歸模的同臺(tái)PK。

結(jié)果:

挑戰(zhàn)成功?。ㄏ旅鏋樯墒疽鈭D,最后得到的文本是“Hello world,Iam a languagediffusionmodel,namedSEDD”)

并且他們的擴(kuò)散模型在困惑度和質(zhì)量上已率先超越自回歸的GPT-2。

趕緊來瞧瞧。

一、擴(kuò)散模型挑戰(zhàn)離散數(shù)據(jù)

用自回歸來處理離散文本數(shù)據(jù),即根據(jù)之前的token來預(yù)測下一個(gè)token,這可能是目前我們能想象到的最簡單可行的方法。

為什么這么說?

作者在這里用GAN舉了個(gè)例子:

對于圖像生成,GAN首先根據(jù)隨機(jī)噪聲生成圖像,然后使用判別器來“懲罰”偏差,因此梯度信息可以反向傳播到生成器。

但如果我們假設(shè)用GAN來生成文本,就行不通了。

因?yàn)楸M管我們可以定義同樣原理的生成器和判別器,但文本的離散性質(zhì)使得更新生成器非常難。

(圖像是連續(xù)的,因此可以通過反向傳播來計(jì)算梯度,但文本是一堆無法區(qū)分的離散值,計(jì)算梯度信號(hào)相當(dāng)繁瑣,基本只能粗略估計(jì))

所以說,文本建模領(lǐng)域基本成了自回歸的天下(如transformer的發(fā)揚(yáng)光大就是基于自回歸模型)。

不過,這個(gè)架構(gòu)也有根本性的缺陷

最有名的“批評”來自Lecun,他就認(rèn)為自回歸transformer“注定要失敗”,因?yàn)樯蓵?huì)“偏離”數(shù)據(jù)分布并導(dǎo)致模型在采樣過程中發(fā)散。

除此之外,自回歸架構(gòu)的采樣也具有高度迭代性,這對為并行計(jì)算而高度優(yōu)化的GPU來說也不夠match。

最后,由于這類架構(gòu)的模型都是按照從左往右地完成任務(wù),因此一次執(zhí)行多個(gè)控制任務(wù)也很困難(例如補(bǔ)充給定了前綴和后綴的文本)。

正是這些缺點(diǎn)促使作者開始構(gòu)思另一種概率模型,因此有了本文的主角:

分?jǐn)?shù)熵離散擴(kuò)散模型(SEDD,Score Entropy Discrete Diffusion)。

簡單來說,為了將擴(kuò)散模型擴(kuò)展到離散空間,就必須將“分?jǐn)?shù)函數(shù)”(也就是對數(shù)概率的梯度)概念推廣到離散空間。

幸運(yùn)的是,有一種替代方案可以呈現(xiàn)具體分?jǐn)?shù),即概率的局部比率。

如下圖所示,左邊為分?jǐn)?shù)函數(shù),它直觀地“指向”連續(xù)空間中的較高密度區(qū)域,具體分?jǐn)?shù)(右)將其推廣到離散空間。

這些具體的比率(分?jǐn)?shù))可以通過得分熵(score entropy)損失函數(shù)來學(xué)習(xí),從而實(shí)現(xiàn)離散擴(kuò)散模型的快速、可擴(kuò)展訓(xùn)練。

在這之中,由于作者只知道可以使用得分熵從數(shù)據(jù)中學(xué)習(xí)具體得分(對應(yīng)于學(xué)習(xí)概率模型),但仍然不知道如何生成樣本。

因此還借用了擴(kuò)散模型的核心思想,并使用學(xué)習(xí)到的具體分?jǐn)?shù)將隨機(jī)值迭代地去噪為數(shù)據(jù)點(diǎn)。

為此,他們還定義了向離散文本樣本中“添加噪聲”的含義

對于連續(xù)空間,這是通過添加高斯噪聲自然產(chǎn)生的,但在離散空間中,則是被迫直接在不同元素之間“跳躍”。

而最終,他們的SEDD模型通過學(xué)習(xí)將樣本不斷迭代去噪為文本,完成從純隨機(jī)輸入生成文本的任務(wù)。

二、超越GPT-2

總的來看,與自回歸模型相比,該擴(kuò)散模型可以在生成過程中利用完整的全局上下文,從而獲得更好的整體生成效果。

對比起來,自回歸模型特別是像GPT-2這樣的會(huì)發(fā)生“漂移”現(xiàn)象,從而破壞整體性能的穩(wěn)定性。

并且即使在較小的模型規(guī)模下,SEDD也能始終生成高質(zhì)量的文本(綠框,讀者很通順),而GPT-2就比較困難(紅框,一眼看上去就很多錯(cuò)誤)。

具體測試中,SEDD在困惑度指標(biāo)上表現(xiàn)出了很強(qiáng)的競爭力:

此外,作者還發(fā)現(xiàn):

使用更少的采樣步驟,SEDD照樣在控制生成質(zhì)量上的表現(xiàn)也比GPT-2要好。

最后,團(tuán)隊(duì)以完全零樣本的方式從任意位置提示SEDD后發(fā)現(xiàn):對于標(biāo)準(zhǔn)(從左到右)和非標(biāo)準(zhǔn)(填充)提示方法,SEDD都可以與最好的GPT-2解碼方法一較高下。

如下圖所示:

提示標(biāo)記以藍(lán)色表示,不管它在前面中間還是結(jié)尾,SEDD都能夠生成有意義的文本。

三、Pika創(chuàng)始人是作者之一

本研究一共3位作者:

一作為斯坦福計(jì)算機(jī)專業(yè)博士生Aaron Lou,康奈爾本科畢業(yè)。

二作也是該校博士生Chenlin Meng。

她的名字不算陌生,Pika就是她(下圖右)和“學(xué)妹”郭文景一起創(chuàng)辦的。(Meng 2020年入學(xué)斯坦福,郭2021年入學(xué))

看起來,一邊創(chuàng)業(yè)的她也一邊兼顧著學(xué)業(yè)。

最后,通訊作者為一二作的導(dǎo)師Stefano Ermon,他是斯坦福計(jì)算機(jī)科學(xué)系副教授。

論文地址:https://arxiv.org/abs/2310.16834

參考鏈接:

https://aaronlou.com/blog/2024/discrete-diffusion/

https://twitter.com/aaron_lou/status/1763242384958386306?s=20

作者:豐色 發(fā)自 凹非寺

來源公眾號(hào):量子位(ID:QbitAI),追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!