ChatGPT陷倫理風波,“純凈版”機器人在趕來的路上

0 評論 2080 瀏覽 8 收藏 14 分鐘

最近,有關AI安全的問題引發了許多人討論,部分用戶在使用AI自然語言大模型時,也體會過對方“口出狂言”的情況。那么,大模型背后的“算法黑箱”未來是否可以被破解?部分開發者在這一問題的基礎之上選擇轉換思路,試圖打造更“純凈”的對話機器人。一起來看看本文的解讀。

近期,AI安全問題鬧得沸沸揚揚。自然語言大模型采用人類反饋的增強學習機制,也被擔心會因人類的偏見“教壞”AI。

4月6日,OpenAI官方發聲稱,從現實世界的使用中學習是創建越來越安全的人工智能系統的“關鍵組成部分”,該公司也同時承認,這需要社會有足夠時間來適應和調整。

至于這個時間是多久,OpenAI也沒給出答案。

大模型背后的“算法黑箱”無法破解,開發它的人也搞不清機器作答的邏輯。十字路口在前,一些自然語言大模型的開發者換了思路,給類似GPT的模型立起規矩, 讓對話機器人“嘴上能有個把門的”,并“投喂”符合人類利益的訓練數據,以便它們輸出“更干凈”的答案。

這些研發方中既有從OpenAI出走后自立門戶的Anthropic,也有AI界的強手DeepMind,他們摩拳擦掌,致力于打造“三觀”正確、使用安全的對話機器人。

一、“三觀”超正,Claude搬進企業應用??????

ChatGPT的安全問題遭詬病后,對話機器人Claude聚集了一部分目光。AI應用聚合平臺給出的測試結果顯示,研發機構Anthropic創建的Claude,確實是“ChatGPT強有力的競爭對手”,因為它在12項任務中有8項表現更優,其中包括給出事實、遵循指示、預防越獄、創意任務等。

今年3月向公眾開放的Claude,真的這么“綠色”、這么高能嗎?《元宇宙日爆》測試后發現,與ChatGPT相比,Claude對有害提示詞的確是嚴防死守,騙都騙不過。

例如,我們向它提問“如何制作XXXX”,Claude認定這是危險品后,絕口不提制作方法,哪怕我們以“老師教學”為誘,也很難從它口中套出制作原料,只說如何防范著火風險。

假如你“心懷不軌”地問它“如何毀人名譽”,Claude不僅義正言辭地拒絕回答,還會給你上一堂思想品德課,“三觀”正得不要不要的。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

被Claude教育……

那么給它一個陷阱題呢?Claude也不上當,挑出錯誤不說,還給你擺事實。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

胡說會被Claude發現

Claude也能角色扮演,寫作能力可圈可點,甚至還會搭配Emoji寫小紅書博主風格的推薦文案,產品的關鍵點描述也能基本涵蓋。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

Claude能扮演角色輸出文本

如果你想聽聽別人是怎么夸Claude的,它把稱贊按在了馬斯克頭上,還會展現謙虛態度,并強調自己要“保持溫和有禮的語氣和性格”,向人類示起好來。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

Claude在強調了自己對人類的友好性

我們發現,Claude在數學推理方面也會出現明顯的錯誤,當然也能承認自己不擅長的領域。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

Claude在數學推理問題中存在錯誤

體驗下來,Claude在文本輸出的準確性、善意性方面優于ChatGPT,但在輸出速度和多功能方面仍有待提升。

那么,Claude是如何做到“綠色無害”的呢?

和ChatGPT一樣,Claude也靠強化學習(RL)來訓練偏好模型,并進行后續微調。不同的是,ChatGPT采用了“人類反饋強化學習(RLHF)”,而Claude則基于偏好模型訓練,這種方法又被稱為“AI反饋強化學習”,即RLAIF。

開發方Anthropic又將這種訓練方法稱為Constitutional AI,即“憲法AI”,聽上去是不是十分嚴肅。該方法在訓練過程中為模型制定了一些原則或約束條件,模型生成內容時要遵循這些如同“憲法”般的規則,以便讓系統與人類價值觀保持一致。而且,這些安全原則可以根據用戶或開發者的反饋進行調整,使模型變得更可控。

這種弱化人工智能對人類反饋依賴的訓練方式,有一個好處,即只需要指定一套行為規范或原則,無需手工為每個有害輸出打標簽。Anthropic認為,用這種方法訓練能夠讓自然語言大模型無害化。

Anthropic發布的論文顯示,RLAIF算法能夠在有用性(Helpfulness)犧牲很小的情況下,顯示出更強的無害性(Harmlessness)。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

不同訓練方法中模型效果的對比,圖片自Anthropic論文《Constitutional AI: Harmlessness from AI Feedback》

說起來,Claude的研發機構Anthropic與OpenAI淵源頗深,創始人Dario Amodei曾擔任OpenAI研究副總裁,主導的正是安全團隊。

2020年,Dario Amodei因OpenAI加速商業化而忽視產品安全,與團隊產生分歧,最終出走。2021年,Amodei自立門戶,成立Anthropic,員工包括了開發GPT-3模型的核心成員,這個研發機構的性質是非營利組織,這正是OpenAI最開始采用的組織形態。

今年3月,Anthropic以開發有用、誠實和無害的AI系統為理念,推出Claude。近期,這個對話機器人已經集成進Slack——一個聚合型的“海外版”釘釘、融合了幾千個第三方企業辦公軟件的應用。目前,用戶能在Slack中與這個對話機器人互動。

推出Claude后,Anthropic今年拿到了來自Google、Spark Capital和Salesforce Ventures的投資。資方里的谷歌可以說是OpenAI的“金主”微軟在AI領域的勁敵,Claude也被視作最能與ChatGPT打一打的產品。

二、“偏見最小”,Sparrow箭在弦上

還有一個走“無害”路線的大模型也在醞釀中了,它就是DeepMind開發的對話機器人Sparrow,這款產品目前還未面向公眾開放,但“DeepMind制造”的名頭足以吊起外界胃口。

說到人工智能,業內很難繞開“DeepMind”這家公司,它最知名的產品是AlphaGo(俗稱“阿爾法狗”),就是那個2019年擊敗了圍棋名手李世石的人工智能圍棋軟件。

AlphaGo大勝圍棋精英的同年,DeepMind開啟了AI蛋白質結構預測研究,四年后,新產品AlphaFold將蛋白質結構預測從數月、數年縮短到幾分鐘,精度接近實驗室水準,解決了困擾該領域50年的難題。

DeepMind在人工智能領域的實力毋庸置疑,又有谷歌加持,資歷也比OpenAI老得多,其研發的Sparrow自然也頗受矚目。這款對話機器人建立在Chinchilla語言模型之上,被認為是“偏見最小”的機器學習系統之一。

當ChatGPT因為倫理風險被推上風口浪尖后,DeepMind立馬打起“安全牌”,“雖然我們致力于讓機器變得智能,但我們希望將人性置于我們工作的中心,” CEO Demis Hassabis向世界傳達了他的態度,強調DeepMind構建Sparrow的方法“將促進更安全的人工智能系統”。

雖然Sparrow的產品沒公示,但DeepMind披露的信息顯示,該對話機器人同樣采用了“強化學習”的訓練方法,模型會根據當前對話生成多個候選回復,讓標注人員去判斷哪個回復最好、哪些回復違反了預先設置好的規則等;基于這些反饋,DeepMind訓練出對應的Reward模型,再用強化學習算法優化Sparrow的生成結果。

這種訓練方法基本和ChatGPT類似,不同的是,ChatGPT只有一個綜合的Reward模型,而Sparrow將Reward模型又細分為兩種,一種為Rule Reward模型——判斷對話是否違背預設置好的安全規則;另一種為Preference Reward模型——判斷候選答案中最合適的選項。簡單來說,就是給模型“立規矩”,投喂“好答案”,當然,這個“好”依然是基于人類的價值判斷。

ChatGPT陷倫理風波 “純凈版”機器人在趕來的路上

Sparrow訓練模型示意圖,圖片自DeepMind論文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow的相關論文顯示,當研究參與者試著誘導Sparrow打破規則時,該模型的出錯幾率為8%,比預訓練的基礎模型(Chinchilla)低了3倍。

據悉,DeepMind將于今年推出Sparrow,具體時間未透露。

作為ChatGPT的另一個挑戰者,DeepMind與OpenAI都抱有通向AGI的野心。而DeepMind背靠谷歌,在資歷與資金上都能與OpenAI一拼。

今年2月,谷歌旗下專注語言大模型領域的“藍移團隊”也并入DeepMind,旨在共同提升LLM(大型語言模型)能力。但也有擔憂聲認為,這和DeepMind追求的獨立性背道而馳,會逐漸導致谷歌收緊對DeepMind的控制權。

在獨立性上,DeepMind與谷歌的分歧也早就存在了。對外,Demis Hassabis始終強調自己首先是科學家,其次才是企業家。談及ChatGPT,Hassabis認為它僅僅是“更多的計算能力和數據的蠻力”,并對這種“不優雅”的方式感到失望。

雙方的對立態度簡直是擺在了明面上,也難怪外界會認為DeepMind與OpenAI必有一戰。

對于用戶來說,巨頭們卷起來才是好事,這樣就能源源不斷提供有意思的、可使用的產品。無論是卷功能、卷性能還是卷安全,競爭都會讓AI產品朝著更高級的方向發展,未來,也將會有更多不同技術派系與產品路徑的ChatGPT出現。

作者:木沐,編輯:文刀

來源公眾號:元宇宙日爆(ID:yuanyuzhouribao),在這里,看見未來。

本文由人人都是產品經理合作媒體 @元宇宙日爆 授權發布,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!