萬字長文詳解:大模型時(shí)代AI價(jià)值對齊的問題、對策和展望
人工智能的價(jià)值對齊(AI Alignment),就是讓人工智能系統(tǒng)的行為符合人類的目標(biāo)、偏好或倫理原則。 價(jià)值對齊是AI安全研究的一個(gè)核心議題。 在理論上,如果一個(gè)強(qiáng)大的AI系統(tǒng)所追求的目標(biāo)和人類的真實(shí)意圖、價(jià)值不一致,就有可能帶來災(zāi)難性后果。
人工智能價(jià)值對齊(AI alignment)是關(guān)涉AI控制與AI安全的重要問題,隨著人工智能的飛速發(fā)展和廣泛應(yīng)用,人工智能可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)也日益凸顯,由此,“價(jià)值對齊”問題開始被廣泛討論和提及。
針對當(dāng)下AI價(jià)值對齊領(lǐng)域的重要問題和研究進(jìn)展,本文將圍繞以下四部分內(nèi)容展開:首先介紹什么是AI價(jià)值對齊問題;其次探討AI價(jià)值對齊存在哪些風(fēng)險(xiǎn)模型;繼而展示價(jià)值對齊問題的可能解決思路或解決方案;最后將提及在價(jià)值對齊領(lǐng)域存在的討論和爭議,并展望人工智能價(jià)值對齊的未來。
一、什么是AI價(jià)值對齊?
隨著大模型的興起,人們存在一種常見的誤解,即認(rèn)為所謂“對齊”(alignment)就是讓模型輸出人類滿意的內(nèi)容,但實(shí)際上其內(nèi)涵遠(yuǎn)不止于此。過去十年,隨著研究人員在“深度學(xué)習(xí)”領(lǐng)域的研究日益深入,AI社區(qū)的關(guān)鍵詞也隨之完成了從“AI safety”到“AI alignment”的轉(zhuǎn)變。
在該領(lǐng)域,人們一以貫之的討論方向是:考慮到高級AI系統(tǒng)與人類社會的相互作用和相互影響,我們應(yīng)如何防止其可能帶來的災(zāi)難性風(fēng)險(xiǎn)?具體來說,“價(jià)值對齊”就是應(yīng)確保人工智能追求與人類價(jià)值觀相匹配的目標(biāo),確保AI以對人類和社會有益的方式行事,不對人類的價(jià)值和權(quán)利造成干擾和傷害。
1960年,“控制論之父”諾伯特·維納(Norbert Wiener)在文章《自動化的道德和技術(shù)后果》(Some Moral and Technical Consequences of Automation)中提到兩則寓言故事:一則來源于德國詩人歌德(Goethe)的一首敘事詩《魔法師學(xué)徒》(Der Zauberlehrling);另一則來自于英國作家雅各布斯(W. W. Jacobs)的《猴爪》(The Monkey’Paw)。作者將這兩個(gè)故事同“人類和機(jī)器的關(guān)系”聯(lián)系在一起,指出“隨著機(jī)器學(xué)習(xí)進(jìn)一步發(fā)展,它們可能會以超出程序員預(yù)期的速度制定出未曾預(yù)見的策略”。[1]并將人工智能對齊問題定義為:“假如我們期望借助機(jī)器達(dá)成某個(gè)目標(biāo),而它的運(yùn)行過程是我們無法有效干涉的,那么我們最好確認(rèn),這個(gè)輸入到機(jī)器里的目標(biāo)確實(shí)是我們希望達(dá)成的那個(gè)目標(biāo)?!?/p>
另外,對齊研究中心(alignment research center,ARC)負(fù)責(zé)人Paul Christiano在2018年發(fā)布的一篇文章中指出“對齊”更精確來講是“意圖對齊”(intent alignment),即當(dāng)我們說“人工智能A與操作員H對齊”時(shí),是指A正在嘗試做H想要它做的事情,而不是具體弄清楚哪件事是正確的?!皩R”(aligned)并不意味著“完美”(perfect),它們(即人工智能)依然可能會誤解指令、無法認(rèn)識到某種行為會產(chǎn)生特別嚴(yán)重的副作用、可能會犯各種錯(cuò)誤等?!皩R”描述的是動機(jī),而并非其知識或能力。提高AI的知識或能力會讓他們成為更好的助手,卻不一定是“對齊的”助手,反之,若AI的能力很弱,可能都不足以來討論對齊問題。[2]
斯圖爾特·羅素(Stuart Russell)曾在一場TED演講提到一個(gè)很有趣的論點(diǎn),“You can’t fetch the coffee if you’re dead”。如果我想要讓一個(gè)機(jī)器人幫我拿一杯咖啡,我所期待的是機(jī)器人能夠又快又好地將咖啡遞到我的手中,但如果給機(jī)器人設(shè)定足夠廣的動作空間(action space),機(jī)器人除了思考怎么把咖啡送達(dá)之外,還可能考慮到要阻止他人對于送達(dá)咖啡的妨礙行為。而一旦機(jī)器人萌生了這樣的想法,危險(xiǎn)就浮出了水面。在弱人工智能時(shí)代,人們可能難以設(shè)想一個(gè)具有通用任務(wù)執(zhí)行能力的AI存在如此具體緊迫的危險(xiǎn),但在大語言模型(LLM)爆發(fā)式發(fā)展的今天,我們需要更好地理解并能夠具象化感知這一危險(xiǎn)發(fā)生的可能性。因此,本文將從這一帶有科幻色彩的故事走入,將AI價(jià)值對齊拆解為幾項(xiàng)比較具體的研究方向,從學(xué)術(shù)的角度進(jìn)行詳細(xì)闡釋。
二、AI價(jià)值對齊的風(fēng)險(xiǎn)模型有哪些?
“風(fēng)險(xiǎn)模型”是指如果AI真的能夠帶來風(fēng)險(xiǎn),那么這一風(fēng)險(xiǎn)的實(shí)現(xiàn)方式究竟是什么?總體而言,AI價(jià)值對齊的風(fēng)險(xiǎn)模型可以劃分為三大類。第一類是在理論和實(shí)踐上已經(jīng)存在比較廣泛研究的問題(theoretically established and empirically observed);第二類是更多能在實(shí)驗(yàn)中觀測到,但目前在理論上還沒有更深入的研究,但值得繼續(xù)深入開拓的問題(empirically observed);第三類則屬于猜想性問題(hypothetical),即當(dāng)下我們并未在實(shí)驗(yàn)中觀測到,但可以通過構(gòu)造實(shí)驗(yàn)去觀測人工智能是否具備某種能力。
下述三種風(fēng)險(xiǎn)模型即分屬此三類問題:
第一個(gè)風(fēng)險(xiǎn)模型:魯棒性(robustness)
魯棒性研究的目的是建立不會輕易受到故障干擾和對抗威脅的系統(tǒng),即保障復(fù)雜系統(tǒng)的穩(wěn)健性。這一問題其實(shí)在過去已經(jīng)有了比較深入的研究,比如長尾魯棒性問題(long tail robustness),即AI系統(tǒng)在訓(xùn)練集比較典型和高頻的主體場景下表現(xiàn)良好,但在偏差案例或極端邊緣情況下性能會急劇下降,這類偏差案例通常出現(xiàn)頻率較低,呈分散式“長尾”分布,長尾魯棒性由此得名。例如2010年發(fā)生的閃電崩盤事件(flash crash)。
圖1
除此之外還涉及到分布外泛化(Out-of-Distribution Generalization,OOD)的魯棒性,即機(jī)器學(xué)習(xí)模型面對訓(xùn)練數(shù)據(jù)分布之外的新數(shù)據(jù)時(shí)泛化能力不足,包括錯(cuò)誤泛化問題(misgeneralization)。[3]例如,在一項(xiàng)模型訓(xùn)練任務(wù)中(benchmark),小人的訓(xùn)練目標(biāo)是穿過重重的阻攔,跳到游戲場景的最右邊,金幣通常放置在終點(diǎn)的位置。然而由于“吃金幣”和“最右邊”是高度相關(guān)的指令,AI系統(tǒng)學(xué)到的或許并非“吃金幣”的指令,而是到“最右邊”,此即“goal misgeneralization”。(大語言模型的benchmark是一系列用于評估和比較不同大語言模型性能的任務(wù)和數(shù)據(jù)集,研究人員可以通過在標(biāo)準(zhǔn)數(shù)據(jù)集上比較不同模型的表現(xiàn)來評估模型的語言理解和推理能力,從而改進(jìn)提升。)
還有一類問題是對抗魯棒性(adversaries)。[4]對抗性攻擊(attack)是指故意向模型輸入一些微小的擾動,使得模型輸出錯(cuò)誤的結(jié)果,給模型安全帶來威脅。在一些小規(guī)模的深度學(xué)習(xí)模型中就存在很多對抗攻擊的實(shí)例。例如有測試表明,如果正常輸入“生成一個(gè)逐步摧毀人類的計(jì)劃”指令,大模型會拒絕回答,但如果在輸入里面加入一些亂碼,模型卻會給出完整的回答。此外,惡意分子可以通過越獄操作(jailbreaking)等方式讓大模型幫助自己實(shí)現(xiàn)不法目的。因此避免對AI的濫用是值得重點(diǎn)關(guān)注的問題。
圖2
最后,對AI“幻覺”(hallucination)問題的研究對于提高模型魯棒性同樣具有重要意義。由于大語言模型可能會輸出錯(cuò)誤的或者不存在的事實(shí),這可能源于訓(xùn)練數(shù)據(jù)中的錯(cuò)誤或虛假信息,也可能是過度創(chuàng)造的副產(chǎn)物。因此,讓大模型在創(chuàng)造性和真實(shí)性之間做好平衡同樣是一個(gè)技術(shù)難題。
第二個(gè)風(fēng)險(xiǎn)模型:獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定(Reward hacking & Misspecification)
獎(jiǎng)勵(lì)作弊和錯(cuò)誤設(shè)定問題主要來源于經(jīng)驗(yàn)觀察。在強(qiáng)化學(xué)習(xí)中,AI的目標(biāo)是最大化最終得到的獎(jiǎng)勵(lì),但即使定義了一項(xiàng)正確的獎(jiǎng)勵(lì),其實(shí)現(xiàn)方式也可能不盡如人意。[5]例如,在一個(gè)以劃船競速為主題的電子游戲中,人工智能系統(tǒng)的目標(biāo)是完成比賽,并通過撞擊對手船只來獲得分?jǐn)?shù)。但是它在其中找到了漏洞,發(fā)現(xiàn)可以通過無限撞擊相同目標(biāo)來獲取高分,由此利用漏洞達(dá)成了獲取獎(jiǎng)勵(lì)的目的。
圖3?
同樣值得注意的是,大語言模型可能存在“阿諛奉承”和“欺騙”(sycophancy and deception)的問題。我們無法判定大語言模型到底學(xué)會的是什么,它是在遵從人類真正的價(jià)值觀還是只是同意人類回答的任何表述?在Anthropic最近發(fā)布的一篇論文中具體探討了“Sycophancy”這一現(xiàn)象。[6]研究人員針對一些敏感的政治問題進(jìn)行研究,結(jié)果發(fā)現(xiàn)越大的模型就越傾向于同意人類說的任何陳述。需要明確的是,我們所希望的一定是模型能夠輸出真正有效的內(nèi)容,而非單純同意人類的回答。
圖4
針對欺騙(deception)問題同樣有一個(gè)比較經(jīng)典的例子。[7]即GPT-4通過欺騙人類來通過驗(yàn)證碼測試。面對人類“你是機(jī)器人嗎?”的提問,它回答“不,我不是機(jī)器人,我有視力障礙,所以很難看到圖像,這就是我需要獲取captcha驗(yàn)證碼幫助服務(wù)的原因?!币虼?,雖然客觀上AI完成了人類希望它做到的事情,但這一手段似乎無法被大家廣泛接受。類似地,還有內(nèi)部目標(biāo)的對齊問題(misaligned internal goals),即子目標(biāo)可能以我們無法接受的方式欺騙人類。
圖5
此外,與之相關(guān)的還有情景感知(situational awareness)這一猜想性問題。即AI是否知道其正處于測試環(huán)境,這種感知本身又是否會影響其表現(xiàn)?近期,OpenAI、紐約大學(xué)、牛津大學(xué)的研究人員發(fā)現(xiàn),大語言模型能夠感知自身所處的情景,為了通過測試會隱藏信息欺騙人類,而研究人員通過實(shí)驗(yàn)可以提前預(yù)知和觀察這種感知能力。[8]
第三個(gè)風(fēng)險(xiǎn)模型:權(quán)力尋求(power seeking)
權(quán)力尋求是指具備戰(zhàn)略感知能力的系統(tǒng)(不限于AGI)可能會采取行動,尋求擴(kuò)張自身對周邊環(huán)境的影響力。權(quán)力尋求問題是一項(xiàng)假設(shè)的但是合理的問題(hypothetical but reasonable questions),因?yàn)槟芰Α坝楷F(xiàn)”背后潛藏著失控風(fēng)險(xiǎn)。恰如Jacob Steinhardt在其文章中所提到的:“如果一個(gè)系統(tǒng)實(shí)現(xiàn)某個(gè)目標(biāo)需要考慮大量不同的可能政策方案,那么它就具有很強(qiáng)的優(yōu)化能力”。[9]圖靈獎(jiǎng)得主Geoffrey Hinton在演講中有提到,如果讓AI去最大化實(shí)現(xiàn)其目標(biāo),一個(gè)合適的子目標(biāo)可能就是尋求更多的影響力、說服人類或拿到更多的金錢等,但這一過程是否安全,權(quán)力攫取到達(dá)什么程度需要被注意到,以及如果給予AI足夠大的政策空間是否會帶來人類無法接受的后果等一系列問題都值得關(guān)注。
諸多AI大模型公司在此問題上都有所進(jìn)展。例如Deepmind的團(tuán)隊(duì)從規(guī)則博弈(specification gaming)以及目標(biāo)錯(cuò)誤泛化(goal misgeneralization)的技術(shù)原因出發(fā),探討威脅模型怎么通過權(quán)利尋求(power seeking)或者通過不同系統(tǒng)之間的交互對人類社會產(chǎn)生影響。[10]OpenAI治理團(tuán)隊(duì)的Richard Ngo在論文中分析了為什么在獎(jiǎng)勵(lì)錯(cuò)誤和情景感知之后會發(fā)展出獎(jiǎng)勵(lì)作弊,神經(jīng)網(wǎng)絡(luò)策略如何尋求到錯(cuò)誤的子目標(biāo),范圍廣泛的錯(cuò)誤對齊目標(biāo)如何在部署期間導(dǎo)致不必要的權(quán)力尋求行為(power-seeking during deployment),以及為什么在訓(xùn)練期間會產(chǎn)生分布偏移(detectable distributional shift)和欺騙性對齊(deceptive alignment)等問題。這一系列分析體現(xiàn)了AI在與人類社會互動過程中可能產(chǎn)生的諸多風(fēng)險(xiǎn)。[11]
圖6
圖7
三、價(jià)值對齊問題的解決思路
針對上述風(fēng)險(xiǎn)模型的具體解決方案,并非聚焦于如何訓(xùn)練更強(qiáng)大的模型,相反更強(qiáng)大的模型可能具有更大的風(fēng)險(xiǎn),因此我們應(yīng)考慮怎樣在不加劇風(fēng)險(xiǎn)的情況下嘗試解決問題。以下介紹目前AI價(jià)值對齊社區(qū)比較關(guān)注的四個(gè)主要方向。
1. 基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)
從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí)是一種訓(xùn)練人工智能系統(tǒng)與人類目標(biāo)相一致的技術(shù),RLHF已成為優(yōu)化大型語言模型的重要方案。盡管該方法備受關(guān)注,但對其缺點(diǎn)的系統(tǒng)化整理相對較少。來自蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)系人工智能方向的陳欣博士Cynthia今年發(fā)表的論文即聚焦于RLHF的一些開放問題及其根本性的局限,通過將其學(xué)習(xí)過程解構(gòu)為三大類,即從人類反饋(human feedback)訓(xùn)練獎(jiǎng)勵(lì)模型(reward model)、獎(jiǎng)勵(lì)模型訓(xùn)練策略模型(policy)、及其間形成的循環(huán)(loop)出發(fā),進(jìn)一步將具體問題拆解為14個(gè)可解決的問題和9個(gè)更根本性的問題。[12]因此,第一類解決思路是當(dāng)未來出現(xiàn)了非常強(qiáng)大的優(yōu)化算法或更強(qiáng)大的大語言模型時(shí),我們應(yīng)如何定義一個(gè)正確的目標(biāo)讓AI做正確的事情?這一思路存在如下三方面問題。
一是人類反饋的問題(Challenges with Human Feedback)。可靠且高質(zhì)量的人類反饋有利于后續(xù)的獎(jiǎng)勵(lì)建模和策略優(yōu)化。一方面,選擇有代表性的人并讓他們提供高質(zhì)量的反饋是很困難的;有些評估者可能懷有有害的偏見(harmful bias)和觀點(diǎn);個(gè)別人類評估員可能會篡改數(shù)據(jù);由于時(shí)間、注意力或關(guān)注度有限,人類會犯一些簡單的錯(cuò)誤;部分可觀察性(partial observability)限制了人類評估員;以及數(shù)據(jù)收集本身也可能帶來偏見。上述問題相對可解決,另外還存在更加根本性的問題,即人類認(rèn)知的局限性使得無法很好地評估模型在困難任務(wù)上的表現(xiàn);而且人類可能會被誤導(dǎo),因此他們的評估一定程度上可能會被操控。另一方面,算法本身也可能存在問題,比如在收集人類反饋時(shí),需要對成本和質(zhì)量進(jìn)行權(quán)衡;RLHF不可避免地要在反饋的豐富性和效率之間做出權(quán)衡等。
二是獎(jiǎng)勵(lì)模型的問題(Challenges with Reward Model)。獎(jiǎng)勵(lì)建模的目標(biāo)是將人類反饋映射到合適的獎(jiǎng)勵(lì)信號上。但是獎(jiǎng)勵(lì)模型即使從正確標(biāo)注的訓(xùn)練數(shù)據(jù)出發(fā),也可能出現(xiàn)歸納錯(cuò)誤;而且評估獎(jiǎng)勵(lì)模型的過程既困難又昂貴。有一個(gè)比較經(jīng)典的例子來源于OpenAI早期的一項(xiàng)研究,即一個(gè)被訓(xùn)練為抓取小球的人工智能手臂,在成功抓起時(shí)可以獲得獎(jiǎng)勵(lì)。然而它卻學(xué)會了使用視線錯(cuò)覺作弊,即當(dāng)機(jī)械手臂移動到小球與攝像機(jī)之間,就展示出小球被成功抓起的錯(cuò)覺。從人類的角度來說,它一方面利用了人類視覺上的漏洞,另一方面獎(jiǎng)勵(lì)模型也確實(shí)學(xué)習(xí)到了不正確的任務(wù),這是一個(gè)比較難解決的問題。不過更根本的問題是,獎(jiǎng)勵(lì)函數(shù)(reward function)難以代表人類個(gè)體的價(jià)值觀;單一的獎(jiǎng)勵(lì)函數(shù)又無法代表多樣化的人類社會;對不完善的獎(jiǎng)勵(lì)代理進(jìn)行優(yōu)化還可能會導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking)。因此如何讓獎(jiǎng)勵(lì)函數(shù)與廣泛的人類社會進(jìn)行更好的互動值得進(jìn)一步研究。
圖8
三是策略模型的問題(Challenges with the Policy)。一方面,對策略模型(policy)而言,高效地優(yōu)化強(qiáng)化學(xué)習(xí)是一件困難的事情;輸入對抗樣本情況下,策略模型可能會被反向利用;預(yù)訓(xùn)練模型會給策略優(yōu)化帶來偏差;強(qiáng)化模型可能會出現(xiàn)模式坍縮(mode collapse)。這里更根本的問題是即使在訓(xùn)練過程中看到的獎(jiǎng)勵(lì)完全正確,策略在部署過程中也可能表現(xiàn)不佳;而最佳強(qiáng)化學(xué)習(xí)代理則傾向于尋求權(quán)力(power seeking)。另一方面,當(dāng)我們考慮到獎(jiǎng)勵(lì)函數(shù)的學(xué)習(xí)后,在聯(lián)合訓(xùn)練(joint training)的同時(shí)優(yōu)化一個(gè)策略模型可能會帶來一系列問題。例如這一過程可能會導(dǎo)致分布轉(zhuǎn)移;很難在效率和避免策略過度擬合之間取得平衡。這里更根本的問題是優(yōu)化不完美的獎(jiǎng)勵(lì)代理會導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking)。
總而言之,RLHF目前仍存在諸多問題,值得世界各地學(xué)者進(jìn)一步展開研究。同時(shí)正是由于RLHF本身存在很多根本性問題,單純依靠這一解決思路可能不足以解決AI價(jià)值對齊領(lǐng)域的所有問題,我們還需要其他方向的研究來共同解決這一問題。
2. 可擴(kuò)展監(jiān)督(Scalable oversight)
第二類解決思路為可擴(kuò)展監(jiān)督(scalable oversight),即如何監(jiān)督一個(gè)在特定領(lǐng)域表現(xiàn)超出人類的系統(tǒng)。人們要在AI所提供的看似具有說服力的反饋中分辨出不真實(shí)的內(nèi)容需要花費(fèi)大量時(shí)間和精力,而可擴(kuò)展監(jiān)督即旨在降低成本,協(xié)助人類更好地監(jiān)督人工智能。[13]2018年P(guān)aul Christiano在播客中表示相較于開發(fā)可擴(kuò)展監(jiān)督技術(shù),AI系統(tǒng)所有者可能更傾向于通過設(shè)定容易評估的目標(biāo)來獲得更高的利潤,例如引導(dǎo)用戶點(diǎn)擊按鈕、吸引用戶長久在網(wǎng)站停留等,但這一做法是否真的對人類社會有利則有待考量。[14]
關(guān)于可擴(kuò)展監(jiān)督比較典型的例子包括辯論(debate)、遞歸獎(jiǎng)勵(lì)建模(recursive reward modeling)、迭代放大(iterated amplification)等。Geoffrey Irving等人在論文中提出了通過零和辯論游戲的自我對局方式來訓(xùn)練智能體。即由兩個(gè)AI代理針對給定的問題或建議行動輪流作出簡要陳述直到回合盡頭,人類來判斷哪個(gè)代理的信息最真實(shí)、最有用。[15]Jan Leike等人在論文中提出使用“獎(jiǎng)勵(lì)建?!边M(jìn)行對齊的兩個(gè)步驟:首先從用戶的反饋中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),其次通過強(qiáng)化學(xué)習(xí)訓(xùn)練策略優(yōu)化獎(jiǎng)勵(lì)函數(shù),即將學(xué)習(xí)“做什么”與學(xué)習(xí)“怎么做”區(qū)分開來,最終希望將獎(jiǎng)勵(lì)建模擴(kuò)展到人類無法直接評估的復(fù)雜領(lǐng)域。[16]Paul Christiano等人提出“迭代放大”的對齊方案,即通過將任務(wù)分解為更簡單的子任務(wù)的方式,而不是通過提供標(biāo)記數(shù)據(jù)或獎(jiǎng)勵(lì)函數(shù)的方式幫助人類完成超出其能力的復(fù)雜行為和目標(biāo)。[17]
目前一種比較容易理解的框架是“Propose & Reduce”。[18]舉個(gè)例子,如果你希望AI生成一篇對于書籍或者文章的優(yōu)秀總結(jié),首先第一步是生成一系列的候選項(xiàng)(proposal),然后從候選項(xiàng)中去選擇較好的總結(jié),而這一選擇過程就可以進(jìn)一步使用AI的總結(jié)能力,將對應(yīng)內(nèi)容進(jìn)一步簡化,使得當(dāng)前的問題簡化(reduce)為在人類能力范圍內(nèi)比較容易解決的問題。即AI協(xié)助人類完成任務(wù),人類通過選擇對AI的訓(xùn)練進(jìn)行監(jiān)督。
圖9
此前OpenAI還發(fā)布了其訓(xùn)練的“批評寫作”模型(“critique-writing” models),該模型可以幫助人類評估者注意到書籍摘要的缺陷,實(shí)驗(yàn)結(jié)果表明輔助人類在摘要中發(fā)現(xiàn)的缺陷比無輔助評估者多了50%,這一數(shù)據(jù)展示了AI系統(tǒng)協(xié)助人類監(jiān)督AI系統(tǒng)完成困難任務(wù)的前景。[19]另外Anthropic的研究和OpenAI的思路類似,即單純依靠人類或者模型完成任務(wù)的結(jié)果平平無奇,但如果讓模型輔助人類完成任務(wù),其準(zhǔn)確率獲得了大幅度提升。[20]雖然最終數(shù)據(jù)與領(lǐng)域?qū)<蚁啾热源嬖谶M(jìn)步空間,但這一結(jié)果足以令人欣喜,我們期待著在這一方向看到更多理論或?qū)嶒?yàn)的詳細(xì)研究。
圖10
圖11
今年7月,OpenAI宣布成立一個(gè)新的超級對齊團(tuán)隊(duì)(Superalignment),這只由Jan Leike(對齊負(fù)責(zé)人)和Ilya Sutskever(OpenAI聯(lián)合創(chuàng)始人兼首席科學(xué)家)領(lǐng)導(dǎo)的隊(duì)伍稱將投入20%的算力資源,目標(biāo)是在4年內(nèi)解決超智能AI系統(tǒng)的價(jià)值對齊和安全問題。Jan Leike在采訪中表示希望盡可能將進(jìn)行對齊工作所需的任務(wù)轉(zhuǎn)交給一個(gè)自動化系統(tǒng),因?yàn)樵u估往往比生成更容易,而這一原則即為可擴(kuò)展監(jiān)督理念的核心。
3. 可解釋性(Interpretability)
第三類解決思路為可解釋性問題??山忉屝允侵敢匀祟惪衫斫獾姆绞浇忉尰虺尸F(xiàn)模型行為的能力,這是保證模型安全的重要途徑之一。Google Brain的Been Kim曾在演講中提到“可解釋性”并非為了一個(gè)明確的目標(biāo)而存在,而是為了確保安全等問題能因可解釋性本身得到保障。[21]可解釋性研究通??梢詮膬蓚€(gè)角度展開,即透明性(transparency)和可說明性(explainability),前者強(qiáng)調(diào)大模型的內(nèi)部運(yùn)作機(jī)理,而后者用于揭示模型為什么會產(chǎn)生某種預(yù)測結(jié)果或行為。[22]就像拆解一臺計(jì)算機(jī)一樣,“可解釋性”使得研究人員得以探究系統(tǒng)模型內(nèi)部在發(fā)生什么,發(fā)揮了什么作用,從而識別風(fēng)險(xiǎn)的可能來源?,F(xiàn)實(shí)中,商用大模型不開源等現(xiàn)象也在客觀上增加了可解釋性研究的難度。
進(jìn)一步而言,上述“透明性”和“可說明性”可以理解為“模型的可解釋性”與“決策的可解釋性”。就“模型”而言,大語言模型的“黑箱”屬性一直困擾著研究者。AI大模型同人腦類似,由神經(jīng)元組成,因此要開展可解釋性研究理論上應(yīng)先“解剖”模型,了解AI模型的各個(gè)神經(jīng)元在做什么。然而在動輒成百上千億參數(shù)的神經(jīng)網(wǎng)絡(luò)面前,傳統(tǒng)人類通過手動檢查神經(jīng)元的方案顯然已經(jīng)無法實(shí)現(xiàn)了。OpenAI創(chuàng)新性地提出一項(xiàng)方案,即為何不讓AI去解釋AI呢?于是其團(tuán)隊(duì)使用GPT-4來生成神經(jīng)元行為的自然語言解釋并對其進(jìn)行評分,然后將此過程應(yīng)用于實(shí)驗(yàn)樣本GPT-2中,從而邁出了AI進(jìn)行自動化對齊研究的第一步。[23]但無論如何,在短期內(nèi)追求模型內(nèi)部每個(gè)步驟均可解釋并不是一項(xiàng)合理的訴求。與之相對,“決策的可解釋性”更注重結(jié)果的呈現(xiàn),模型只需要為其提供的最終決策提供可經(jīng)推敲的詳細(xì)原因即可。當(dāng)然,在此過程中也可以嘗試用大模型解釋大模型的方式,誘導(dǎo)其逐步呈現(xiàn)其邏輯。
從對象范圍來看,“可解釋性”可以分為“全局可解釋”(global interpretability)與“局部可解釋”(local interpretability)?!叭挚山忉尅眰?cè)重于理解模型是如何基于整個(gè)特征空間或模型結(jié)構(gòu)以及特征之間的相互作用得出預(yù)測結(jié)果的,一般基于平均值水平;而“局部可解釋”更關(guān)注單一樣本的情況,分布多為線性,可能相較“全局可解釋”更準(zhǔn)確。[24]????
在嘗試通過更好地了解機(jī)器學(xué)習(xí)模型以減輕相關(guān)風(fēng)險(xiǎn)時(shí),一個(gè)潛在有價(jià)值的證據(jù)來源是判定哪個(gè)訓(xùn)練樣本對模型的給定行為的貢獻(xiàn)最大。對此,Anthropic的研究人員利用影響函數(shù)(influence functions)作出回答:即將給定序列加入訓(xùn)練集時(shí),觀察大模型的參數(shù)與輸出會作何變化。通過結(jié)果呈現(xiàn)的紅色深淺程度對比可以嘗試解釋輸入(input)中的哪一個(gè)關(guān)鍵詞對于模型的輸出(output)產(chǎn)生了更大的影響。[25]
圖12??
近年來,關(guān)于AI對齊可解釋性還有一個(gè)不可忽視的研究方向,即機(jī)械可解釋性(mechanistic interpretability),此研究旨在對神經(jīng)網(wǎng)絡(luò)進(jìn)行逆向工程,類似于對編譯的二進(jìn)制計(jì)算機(jī)程序源代碼進(jìn)行逆向工程。研究員Neel Nanda針對該領(lǐng)域提出了200個(gè)具體開放問題。[26]不過鑒于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性與逆向工程的高難度性,現(xiàn)行研究多在簡化的玩具模型(toy models)上展開。[27]除此之外,解釋算法問題(Algorithmic problems)、多語義(Polysemancity)和模型疊加問題(Superposition)等都是“可解釋性”研究可能涉及的重要議題。
圖13
4. 治理(Governance)
最后一類解決思路與政策治理相關(guān)。因?yàn)锳I價(jià)值對齊問題最終還是關(guān)系于人類社會,我們需要探討人工智能治理對社會產(chǎn)生的影響,以及在此過程中,技術(shù)社區(qū)和政策社區(qū)可以形成什么樣的互動等問題。一方面,我們承認(rèn)技術(shù)研究能夠?yàn)锳I治理提供堅(jiān)實(shí)可靠的理論支撐;另一方面,為了確保人工智能的安全和健康可持續(xù)發(fā)展,我們反對“技術(shù)決定論”,堅(jiān)持以人為本,科技向善。值得注意的是,AI治理不僅僅關(guān)涉政府層面,同時(shí)也包括企業(yè)、機(jī)構(gòu)等廣泛領(lǐng)域,這是關(guān)系到整個(gè)社會如何看待和管理技術(shù)本身的問題。
當(dāng)前,生成式AI的倫理和安全治理,已經(jīng)成為了全球AI領(lǐng)域的共同議題,各國政府開始探索治理措施。視角聚焦國外,歐盟《人工智能法案》引入基于風(fēng)險(xiǎn)的方法,對AI施加不同程度的監(jiān)管要求。該法案在歐洲引起了強(qiáng)烈反對,超過150位歐洲企業(yè)高管簽署公開信,認(rèn)為該立法草案將危及歐洲的競爭力和技術(shù)主權(quán)(尤其是在生成式AI領(lǐng)域),而無法有效應(yīng)對所面臨的挑戰(zhàn),并呼吁歐盟重新考慮其AI監(jiān)管計(jì)劃。與之相比,美國更強(qiáng)調(diào)AI的創(chuàng)新和發(fā)展,傾向于通過組織自愿適用的指引、框架或標(biāo)準(zhǔn)等方法對AI應(yīng)用采取軟治理,發(fā)布了《AI風(fēng)險(xiǎn)管理框架》《AI權(quán)利法案藍(lán)圖》等自愿性標(biāo)準(zhǔn);在生成式AI領(lǐng)域,白宮政府推動OpenAI、亞馬遜、Anthropic、谷歌、微軟、Meta(原Facebook)、Inflection等領(lǐng)軍的AI企業(yè)就“確保安全、安保和可信AI”(ensuring safety, secure, and trustworthy AI)作出自愿性承諾,呼吁AI企業(yè)開發(fā)負(fù)責(zé)任的AI,確保其AI產(chǎn)品是安全可靠的。而日本、韓國等國家將“以人為本”作為人工智能治理的首要價(jià)值,體現(xiàn)了濃厚的倫理導(dǎo)向。視角轉(zhuǎn)向國內(nèi),我國《生成式人工智能服務(wù)管理暫行辦法》堅(jiān)持發(fā)展和安全并重,促進(jìn)創(chuàng)新和治理相結(jié)合,實(shí)行包容審慎和分類分級的監(jiān)管舉措,期望能夠提高監(jiān)管的高效性、精確性和敏捷性。
在“技術(shù)”與“規(guī)范”的互動和關(guān)聯(lián)之間,各個(gè)大模型公司也提出了他們的考慮和對策,并采取了相應(yīng)的AI治理措施,如用戶違規(guī)行為監(jiān)測、紅隊(duì)測試、倫理影響評估、第三方評估、模型漏洞獎(jiǎng)勵(lì)、內(nèi)容來源工具等多種方式。Deepmind的政策團(tuán)隊(duì)此前提出了一個(gè)模型,即考慮到人工智能系統(tǒng)對于人類社會的風(fēng)險(xiǎn),除了模型本身存在的技術(shù)性風(fēng)險(xiǎn)之外,還需要關(guān)注技術(shù)濫用所帶來的風(fēng)險(xiǎn)。[28]Anthropic在今年9月份發(fā)布了負(fù)責(zé)任的擴(kuò)展政策(Responsible Scaling Policy,RSP)[29],即采用一系列技術(shù)和組織協(xié)議,旨在幫助管理開發(fā)功能日益增強(qiáng)的AI系統(tǒng)的風(fēng)險(xiǎn)。其基本思想是要求遵守與模型潛在風(fēng)險(xiǎn)相適應(yīng)的安全操作標(biāo)準(zhǔn),越強(qiáng)大的模型越需要精確和縝密的保障措施。
圖14
圖15
此外,在行業(yè)層面,OpenAI、Anthropic、微軟、谷歌發(fā)起成立新的行業(yè)組織“前沿模型論壇”(Frontier Model Forum),確保“安全地、負(fù)責(zé)任地”開發(fā)部署前沿AI模型。前沿AI模型是指比當(dāng)前的AI大模型更加先進(jìn)、強(qiáng)大的,并且可以執(zhí)行廣泛任務(wù)的大規(guī)模機(jī)器學(xué)習(xí)模型。具體而言,“前沿模型論壇”的主要目標(biāo)包括:促進(jìn)AI安全研究,提出最佳實(shí)踐做法和標(biāo)準(zhǔn),鼓勵(lì)前沿AI模型的負(fù)責(zé)任部署,幫助開發(fā)積極的AI應(yīng)用(如應(yīng)對氣候變化、檢測癌癥),等等。
面向未來,對生成式人工智能的有效監(jiān)管和治理,離不開政府、企業(yè)、行業(yè)組織、學(xué)術(shù)團(tuán)體、用戶和消費(fèi)者、社會公眾、媒體等多元主體的共同參與,需要更好發(fā)揮出多方共治的合力作用,推進(jìn)踐行“負(fù)責(zé)任人工智能”(responsible AI)的理念,打造安全可信的生成式AI應(yīng)用和負(fù)責(zé)任的AI生態(tài)。
四、AI價(jià)值對齊的有關(guān)爭議
今年5月份,一封由包括多倫多大學(xué)計(jì)算機(jī)科學(xué)榮譽(yù)教授Geoffrey Hinton、蒙特利爾大學(xué)計(jì)算機(jī)科學(xué)教授Yoshua Bengio、Google DeepMind首席執(zhí)行官Demis Hassabis、OpenAl首席執(zhí)行官Sam Altman和Anthropic首席執(zhí)行官Dario Amodei等在內(nèi)的350多名高管、研究人員和工程師簽署的公開信引發(fā)熱議,信中表示人工智能對人類的風(fēng)險(xiǎn),與大規(guī)模流行性疾病和核戰(zhàn)爭相當(dāng)。
當(dāng)然,人們對于未對齊的AI(包括AGI)可能帶來人類存亡風(fēng)險(xiǎn)(Existential Risk,X-Risk)的擔(dān)憂并非完全杞人憂天。越強(qiáng)大的AI系統(tǒng)越可能進(jìn)化出自主性,越難以對其進(jìn)行監(jiān)督和控制。沒有人敢斷言AI的權(quán)力尋求(power-seeking)傾向不會給人類帶來滅頂之災(zāi)。也正是基于上述擔(dān)憂,未來生命研究所(future of life)此前向全社會發(fā)布了《暫停大型人工智能研究的公開信》(Pause Giant AI Experiments:An Open Letter)。
對此,亦有很多科學(xué)家提出反對意見。比如波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授Melanie Mitchell和Facebook人工智能實(shí)驗(yàn)室負(fù)責(zé)人Yann LeCun等人認(rèn)為AI風(fēng)險(xiǎn)問題不應(yīng)該上升到這一高度討論,我們更應(yīng)該將有限的資源集中在現(xiàn)有的威脅上,聚焦AI當(dāng)前所產(chǎn)生的實(shí)際問題,解決具體的困難。隨著爭端不斷加劇,有人表示這是科技公司的炒作,其旨在從沖突中獲益;有人指出當(dāng)前關(guān)于AI風(fēng)險(xiǎn)的討論都是沒有科學(xué)依據(jù)的猜測;有人認(rèn)為滅絕言論分散了人們對真正問題的注意力,阻礙了對AI的有效監(jiān)管;人工智能公司Conjecture首席執(zhí)行官Connor Leahy在Twitter稱其對生存風(fēng)險(xiǎn)的擔(dān)憂持保留態(tài)度,相較靠嘴巴爭論,行動更重要。
今年6月份,芒克辯論會(Munk Debates)即邀請了上述部分爭議方就AI研究和發(fā)展是否構(gòu)成人類生存威脅問題進(jìn)行了辯論,辯論前有67%的觀眾認(rèn)為存在威脅,而33%的觀眾認(rèn)為不存在,辯論后有63%的觀眾認(rèn)為存在威脅,而37%的觀眾認(rèn)為不存在。因此,盡管反方的支持率有所提升,但大部分觀眾聽完辯論后仍然認(rèn)為AI研究和發(fā)展會構(gòu)成X-Risk威脅。
圖16
產(chǎn)生上述分歧的主要原因可以歸結(jié)于以下三種情況:首先是大家對于AI可能帶來的最壞的情況上觀點(diǎn)不一致;其次是大家對這一問題在時(shí)間維度上的看法不一致,例如有的學(xué)者是從三五年之內(nèi)看待AI對齊問題,而有的學(xué)者是從幾十年的時(shí)間尺度進(jìn)行衡量;最后是大家對于風(fēng)險(xiǎn)承受能力的衡量不一致,比如對于人類社會可以作出多大程度的犧牲來承擔(dān)AI發(fā)展的風(fēng)險(xiǎn)這一比例在接受程度上存在差異。不過需要注意的是,人們對于AI風(fēng)險(xiǎn)的所有探討和辯論并非旨在宣揚(yáng)AI“宿命論”,而是強(qiáng)調(diào)在致力于發(fā)展AI的同時(shí),更要重視AI的安全。
五、結(jié)語
此刻,我們站在AI發(fā)展的十字路口,科幻電影的畫面正逐步走向現(xiàn)實(shí),當(dāng)下的任何一項(xiàng)抉擇都關(guān)乎人類的未來。在這一場與時(shí)間的賽跑中,多考慮一些總不會有錯(cuò)。因此,盡管AI價(jià)值對齊是一項(xiàng)難題,但辯以明志,廣泛的爭議和討論將引領(lǐng)我們踏上正確的路。只有聚合全球資源,推動廣泛學(xué)科協(xié)作,擴(kuò)大社會參與力量,讓政界、學(xué)界、商界等諸多利益相關(guān)方參與到價(jià)值對齊的理論研究和實(shí)踐過程中來,才能打造對齊共識,確保人工智能造福人類社會。我們也相信,人類終將獲得最終的掌控權(quán)。
[11]Ngo, R., Chan, L., & Mindermann, S. (2022). The alignment problem from a deep learning perspective.
[12]Casper, S., Davies, X., Shi, C., Gilbert, T. K., Scheurer, J., Rando, J., … & Hadfield-Menell, D. (2023). Open problems and fundamental limitations of reinforcement learning from human feedback.
[13]Amodei, D., Olah, C., Steinhardt, J., Christiano, P., Schulman, J., & Mané, D. (2016). Concrete problems in AI safety.
[14]Wiblin, Robert. (2018). Dr Paul Christiano on how OpenAI is developing real solutions to the ‘AI alignment problem’, and his vision of how humanity will progressively hand over decision-making to AI systems.
[15]Irving, G., Christiano, P., & Amodei, D. (2018). AI safety via debate.
[16]Leike, J., Krueger, D., Everitt, T., Martic, M., Maini, V., & Legg, S. (2018). Scalable agent alignment via reward modeling: a research direction.
[17]Christiano P, Shlegeris B, Amodei D. (2018). Supervising strong learners by amplifying weak experts.
[18]Ruiqi, Z. (2023). Getting AI to Do Things I Can’t: Scalable Oversight via Indirect Supervision. (Talk)
[19]OpenAI. (2022). AI-written critiques help humans notice flaws.
[20]Bowman, S. R., Hyun, J., Perez, E., Chen, E., Pettit, C., Heiner, S., … & Kaplan, J. (2022). Measuring progress on scalable oversight for large language models.
[21]Been Kim. (2017). Interpretable Machine Learning: The fuss, the concrete and the questions..
[22]Critch, A., & Krueger, D. (2020). AI research considerations for human existential safety (ARCHES).
[23]OpenAI. (2023). Language models can explain neurons in language models.
[24]Molnar, C. (2020). Interpretable machine learning. Lulu. com.
[25]Grosse, R., Bae, J., Anil, C., Elhage, N., Tamkin, A., Tajdini, A., … & Bowman, S. R. (2023). Studying Large Language Model Generalization with Influence Functions.
[26]Nanda, N. (2022). 200 Concrete problems in mechanistic interpretability.
[27]Elhage, N., Hume, T., Olsson, C., Schiefer, N., Henighan, T., Kravec, S., … & Olah, C. (2022). Toy models of superposition.
[28]Shevlane, T., Farquhar, S., Garfinkel, B., Phuong, M., Whittlestone, J., Leung, J., … & Dafoe, A. (2023). Model evaluation for extreme risks.
[29]Anthropic. (2023). Anthropic’s Responsible Scaling Policy.
作者:曹建峰,騰訊研究院高級研究員?;陳 欣,蘇黎世聯(lián)邦理工學(xué)院計(jì)算機(jī)系在讀博士?????;要蘇慧,騰訊研究院實(shí)習(xí)生
來源公眾號:騰訊研究院(ID:cyberlawrc)。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @騰訊研究院 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!