直面AI價值對齊挑戰

0 評論 1343 瀏覽 1 收藏 10 分鐘

本篇文章主要探討了人工智能的價值對齊問題,包括其重要性、挑戰及其解決辦法。文章指出,為了讓人工智能以對人類和社會無害的方式行事,需要讓人工智能的“價值觀”與人類的價值觀保持一致,這涉及到跨文化交流、技術和倫理等多個方面的難題。

過去一年多,以ChatGPT為代表的大語言模型(LLM)集中爆發,并衍生出文生圖、文生視頻、文生音樂等多模態應用,讓人們感受到了人工智能蘊含的無限潛力與可能性。

有預測認為,2032年,生成式人工智能市場規模有望增長至1.3萬億美元,年復合增速將達到43%。

但是,隨著大模型應用在各個領域不斷深化,“AI威脅論”的聲量不斷擴大。面對AI展現出來的強大實力,人工智能的“價值對齊”成為熱門領域。

簡單來說,“價值對齊”,就是讓人工智能的“價值觀”與人類的價值觀保持一致,以確保人工智能以對人類和社會無害的方式行事,避免對人類的權利造成干擾和傷害。隨著以OpenAI、谷歌為代表的眾多科技企業入局,價值對齊也逐漸從一個學術概念,成為備受人工智能產業關注的發展理念。

一、與人類價值觀對齊

2023年7月,在此次生成式人工智能浪潮中扮演關鍵角色的企業OpenAI宣布成立一個名為“超級對齊”(Superalignment)的新部門,該部門的目標旨在4年內找到讓超級智能的AI系統實現價值對齊和安全的路徑。OpenAI還承諾,將投入20%的計算資源專門用于對齊超級智能。不僅是OpenAI,谷歌、微軟等知名科技公司也紛紛成立了類似的價值對齊部門或團隊。

隨著深度學習開啟新的階段,人工智能越發強大復雜,加之其運行邏輯存在“算法黑箱”,使人類從技術層面理解AI的決策過程越發具有挑戰性。為規避風險,人類嘗試從人工智能創建之初,以技術性手段干預確保人工智能系統與人類價值觀保持一致,即讓AI與人類“價值對齊”。

以當前人工智能發展進度來看,價值對齊并非杞人憂天之舉。隨著生成式人工智能參與人類工作和生活領域的廣度和深度逐漸擴大,其潛在風險的波及范圍就越大。特別是當AI被應用到司法體系、醫療系統、社會福利以及教育等公共領域時,AI的安全問題可能進一步演變為社會問題。盡可能防止AI的有害輸出或濫用行為,即當前價值對齊工作的一項核心任務。

價值對齊的基本目標,是要確保即便人工智能發展為通用人工智能(AGI)甚至是超人工智能,擁有了媲美或超越人類能力、能夠執行任何任務,其道德原則、倫理規范和價值觀,也必須與人類保持一致。

二、價值對齊之難

AI價值對齊的前提是人類具有一套相對恒定且統一的價值標準。從安全角度考慮,在推動對AI的價值對齊之前,應先就對齊的價值觀進行協調統一。但是,大到生死觀,小到對美丑的認知,全球的多元文化背景和價值體系使得價值對齊的標準統一進程難以推進。

而即使人類準備好一套通行的“人類價值觀”,把價值觀“對齊”給AI是否能夠實現?換言之,AI是否能真正理解人類價值觀并納入自己的運行機制中?

在技術層面上,現在通行的價值對齊方法主要從技術性和規范性入手。規范性的調整,即設立人工智能應遵循的倫理和道德原則,諸如透明性、安全性、可追溯性與可解釋性,以指導對應系統的開發。技術性手段主要通過包括“人類反饋強化學習(RLHF)”“合作逆強化學習(CIRL)”“監督精調(Supervised Fine-Tuning)”等在內的方式,將通用的倫理原則轉化成現實可操作的技術路徑,避免AI的執行路線發生扭曲。

不過,人類復雜的倫理原則和價值基礎,哪怕是較為基礎的“有益”“誠實”“公平”等概念,也很難僅僅通過技術路徑進行抽象、簡化并實現對齊。此外,我們也無法預料,現行的價值觀在未來是否適用,如果不適用,技術又該如何調整。

牛津大學人類未來研究院院長尼克·波斯特洛姆認為,創造能夠理解人類價值觀的人工智能至關重要。然而,人類情感的復雜性和文化的多樣性,使得通過輸入幾行代碼來教導超級智能機器人人類到底關心什么,幾乎是個不可能完成的任務。

隨著人工智能開始承擔更復雜的任務,人類開展對齊工作甚至是簡單評估,都將變得難以想象的復雜。業內將人工智能系統對齊的額外成本稱為“對齊稅”,底座模型能力為了實現對齊可能會增加額外的開發時間、產生額外的計算或性能下降等。

這些成本問題也是推行價值對齊的阻礙之一。即便不考慮訓練過程中的碳排放帶來的環境問題,價值對齊涉及的人工智能再訓練也需耗費巨額成本。數據顯示,GPT-4的原始訓練成本就已經達到1億多美元,再訓練成本更不可估量。

目前,OpenAI嘗試通過“AI自動對齊研究員”來控制成本,即訓練一個大致達到人類水平的AI研究員,再投入算力快速迭代并實現自動對齊。盡管這種思路可在一定程度上兼顧發展與安全,但也可能引發新一輪的信任與監督問題:如果人類讓系統接管部分甚至全部的對齊研究,系統是否會試圖欺騙人類?系統的價值安全又該如何保障?

而當AI發展的速度超過人類價值觀對齊速度時,價值對齊的過程可能將演變為,誰掌握了最先進的AI技術,誰就擁有了對齊價值觀的決定權,進而擁有了定義AI甚至人類價值觀的權利。

三、何解“價值對齊”

價值對齊,是人工智能倫理領域最根本也是最具挑戰性的概念之一。它是推動人工智能向著符合人類利益的方向發展的必要機制保障,也關乎未來更強大的人工智能的安全控制。

如同人類尚無法清晰剖解AI的意識生成問題一樣,價值對齊的實現也具有較高的復雜性。它需要廣泛的學科和社會參與,更需要持續而長期的討論,在有關“價值”的概念以及在實現“對齊”的方法等層面達成共識。同時,價值對齊的工作事關人類未來的整體利益,更廣泛緊密的國際合作有助于對齊工作的推進。

另一種思路是,與其花大力氣拓展價值對齊,不如先專注于AI能力的發展,探索更多應用的可能性。畢竟,在人工智能的發展水平一定程度上決定著未來人類價值“定義權”的背景下,一個能力落后但對齊程度高的AI也難以滿足國家競爭力培育的需要,釋放出足夠的潛力。

因此,以發展的眼光看待價值對齊問題,聚焦實際問題和具體困難,或許也是一種解法。

作者:王煥超
本文由人人都是產品經理作者【騰訊研究院】,微信公眾號:【騰訊研究院】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!