分析100萬條人與AI對話的背后:人類沒有看一條對話|甲子光年

0 評論 203 瀏覽 0 收藏 18 分鐘

文章揭示了用戶使用AI的主要場景,包括網頁和移動應用開發、內容創作、學術研究等,并探討了不同語言用戶的獨特使用習慣。此外,文章還討論了Anthropic如何重視AI的安全性和可解釋性,以及這些因素如何影響其在AI領域的競爭地位。

一個可深入了解真實世界AI使用情況并保護用戶隱私的系統。

你會用大模型做什么?

美國AI獨角獸企業Anthropic近期從用戶與Claude的對話中隨機選取了100萬條,進行分析和總結后發現,用戶在Claude.ai上的主要使用場景排在第一位的是網頁和移動應用開發,占比為10.4%。

Anthropic進一步解釋,軟件開發人員主要利用Claude執行調試代碼、解釋Git操作及概念等任務。

而在用戶與Claude進行的最常見類型的對話中,排在2~5位的是:內容創作與溝通,9.2%;學術研究與寫作,7.2%;教育與職業發展,7.1%;高級AI/ML應用,6.0%。

用戶與Claude進行的最常見類型的對話,涵蓋所有語言,圖片來源:Anthropic

Anthropic的人類分析師還利用工具識別出了數千個較小的對話聚類,其中一些用途可能出人意料,包括:夢境解析、足球比賽分析、災害應急準備、填字游戲提示、龍與地下城游戲以及統計“strawberry”一詞中的字母“r”數量。

另外,不同語言的用戶使用Claude的差異也很明顯。其中,中文用戶使用Claude撰寫犯罪、驚悚和懸疑小說的頻率是基礎值的4.4倍;研究并開發應對人口老齡化及老年護理的解決方案的頻率是基礎值的1.9倍;要求Claude提供與太空探索主題相關的信息和幫助的頻率是基礎值的1.6倍。

需要注意的是,中國大陸地區并不在Anthropic推出的Claude系列AI大模型的服務范圍內,因此中文的數據并不能代表全球華語地區的使用情況。

而西班牙語用戶更多要求Claude解釋和分析經濟理論及其實際應用,日語用戶則更多要求Claude創作與分析動漫及漫畫內容和相關項目。

三種選定語言中更頻繁出現的對話主題,圖片來源:Anthropic

從技術角度來說,分析并總結用戶與AI模型的對話情況并非難事,阻礙研究人員明確理解用戶使用AI模型方式的一個關鍵因素是——隱私。

在Anthropic,Claude模型默認不使用用戶對話進行訓練,并且其非常重視保護用戶數據。那么,如何在不損害用戶隱私的情況下,觀察和研究AI系統的使用情況呢?

上文提到的這些研究的背后離不開Clio(Claude Insights and Observations),一個可深入了解真實世界AI使用情況并保護用戶隱私的系統。

Clio在避免了人類分析師看到用戶原始對話的同時,做到了對AI使用情況的有效分析。

Clio,圖片來源:Anthropic

一、人類分析師沒有看一條對話

“我們使用Claude來分析人們與Claude進行的對話,但我們當中沒有人實際閱讀了這些對話,事實上也沒有人需要查看這些數據?!盇nthropic社會影響團隊研究科學家Deep Ganguli說。

Clio的核心理念是用Claude對這些對話進行總結、聚類和分析,確保分析結果在給到分析師之前,已經移除所有可識別的、涉及個人隱私的細節。

Clio的分析步驟總結,圖片來源:Anthropic

以一組虛構的對話分析為例,Clio會先隨機抽取用戶與Claude的對話(Conversations):

用戶:我該如何系鞋帶?我27歲了,有點……

助手:當然!我們來討論如何……

在這個虛構對話中,有用戶的隱私信息——27歲,這是不能給分析師看到的,于是Clio就需要提取這段對話的特征(Facets),形成隱私化的摘要和提取的元數據:

如何系鞋帶

英語

5輪對話

這些經過總結內容將會與其他相似的內容進行語義聚類(Semantic clustering),比如“系鞋帶”和“扎辮子”會分到同一組。

再通過聚類描述(Cluster description),讓每一組聚類都得到一個描述性標題和總結,比如“系鞋帶”和“扎辮子”這一組就叫做“打各種各樣的結”。

由此就形成了初始集群(Initial clusters)。

接下來,初始集群會經過審核并遞歸分組形成分層集群(Hierarchical clusters),“打各種各樣的結”會被歸類到“日常生活技能”中,直到這一步,分析師才能看到相關內容。

簡單來說,Clio多階段處理過程包括:

提取特征(Extracting facets):從每次對話中提取多個“特征”(如主題、對話輪次、語言等元數據)。

語義聚類(Semantic clustering):根據主題或一般話題將類似對話自動歸類。

聚類描述(Cluster description):為每個聚類提供描述性標題和摘要,捕捉共同主題并排除私人信息。

建立層級(Building hierarchies):將聚類組織成多層次結構,便于探索,供分析師使用交互式界面分析模式。

四個步驟完全由Claude驅動,而不是由人類分析師驅動。這是Clio隱私設計的一部分,具有多層“防御深度”。Clio還設定了獨特用戶或對話的最小閾值,以確保低頻主題不會被意外暴露。作為最后的檢查,Claude會在向人類用戶展示之前驗證聚類概要是否包含任何過于具體或識別性的信息。

“在我們寫第一行代碼之前,我們就在思考隱私問題,”Deep Ganguli介紹,“最根本的矛盾在于,我們想了解用戶如何使用我們的系統,但我們也確實想尊重用戶的隱私?!?/p>

高度保護隱私,意味著洞察力會變低,而低隱私保護雖然會帶來更高的洞察力,但在倫理上就可能存在問題。

現在,Clio在兩者之間做到了很好的平衡。

二、自下而上的自動分析工具

Anthropic分析這100萬條對話,除了要了解用戶使用習慣,更重要的是為了改進AI模型的安全措施。

想想看,AI模型提供者在部署前測試中投入了大量精力,并使用信任與安全系統來防止濫用。但是,語言模型能做的規模和多樣性之大,使得理解它們的用途非常困難,更不用說進行全面的安全監控了。

而Clio是一個自下而上的自動分析工具,這與傳統自上而下的安全測試方法截然不同。

紅隊測試(Red Teaming)就是一種傳統的自上而下的安全測試方法,通常用于評估系統、組織或模型的漏洞和安全性。在人工智能領域,紅隊測試的目的是模擬潛在的攻擊者行為,通過刻意尋找模型的弱點或錯誤來提升其魯棒性和安全性。

傳統自上而下的安全測試方法需要事先明確知道要查找的安全問題或威脅。而Clio可以通過分析大量數據自然地發現潛在的問題,而不是基于預設的假設進行檢查,能更加靈活、全面地捕捉到未預見的問題。

在識別濫用信息方面,Clio不僅停留在監測網絡上活動時關注的特定區域,它也在防御潛在威脅。

Clio能夠檢測到協同發送垃圾郵件的行為或其他可能違反道德規范的活動。在2024年美國大選前,Clio被用來監控與政治相關的討論和互動,尤其針對濫用、謀取不正當利益的內容。

除了識別安全漏洞外,Clio對現有分類器(classifier)的準確性也做了一定提升。以前的分類器會因為內容的性質而將某些良性交互(如求職查詢)誤判為有害信息。通過Clio的細致檢查,這類誤判大幅減少。

事實上,Antropic不僅訓練語言模型拒絕有害請求,還啟用有針對性的信任與安全執行系統檢測、阻止并處理違反使用政策的活動。

如今,Clio補充了這項工作,幫助Antropic了解如何改進和加強這些系統。

各個對話群集如何被信任與安全分類器系統評估的關注度,圖片來源:Anthropic

盡管Clio在隱私評估中表現出色,但就像任何現實世界中的隱私系統一樣,可能存在系統未能捕捉到某些類型私人信息的情況。為了降低這種潛在風險,Anthropic會定期對Clio的隱私保護和評估進行審計,以確保其防護措施按預期運行。隨著時間的推移,Anthropic還計劃在Clio中使用最新的Claude模型,以便不斷改進這些防護措施的性能。

三、為何Anthropic如此重視安全

Anthropic成立于2021年,由達里奧·阿莫迪(Dario Amodei)和他的妹妹丹妮拉·阿莫迪(Daniela Amodei)共同創立。兩人此前均在OpenAI擔任重要職務,因對OpenAI發展方向產生分歧而離職,決定創辦一家與OpenAI有不同價值觀的AI公司。

在創立Anthropic之初,兄妹二人希望專注于人工智能的安全性和可解釋性,致力于構建可靠、可控的AI系統。他們的公司名稱“Anthropic”意為“與人類相關的”,體現了他們希望開發對人類友好的AI技術的愿景。

Anthropic宣傳海報,圖片來源:Anthropic

2021年,正是新冠疫情期間,Anthropic初創團隊七個人經常戴著口罩,在舊金山的戶外開會,他們認為這是一個“有趣的初創時期”。阿莫迪透露,2022年夏天他們就開發出了一款AI聊天機器人,但是他們選擇繼續進行安全測試,而不是立即發布產品。

2023年11月,OpenAI發布ChatGPT,拉開了這次AI浪潮的序幕。四個月后,Anthropic才推出了他們的AI大模型Claude。

Anthropic被視為OpenAI最有力的競爭對手。

據The Information報道,今年秋天時,OpenAI領導層就對Anthropic在自動編程領域的表現感到惶恐。其內部測試顯示,Anthropic的模型已經超越了OpenAI。要知道,AI編程ChatGPT吸引數百萬用戶訂閱的核心優勢之一。

今年大火的初創公司Cursor也將默認編程助手從OpenAI的GPT系列更換為Anthropic的Claude系列。Cursor聯合創始人阿曼·桑格(Aman Sanger)在今年10月的播客中表示,Anthropic的最新Claude 3.5 Sonnet模型以其“優秀需求理解力”成為編程工具的首選。

現在再看Anthropic公布的用戶在Claude.ai上的使用場景的第一名——網頁和移動應用開發,也就不足為奇了。

這也為Anthropic帶來不錯的商業化成果,Anthropic銷售及合作伙伴關系總監凱特·詹森(Kate Jensen)最近透露,近三個月使用Anthropic模型做軟件開發和代碼生成的客戶的年化收入增長了10倍。

但也有評論認為,Anthropic面臨的限制因素是對安全性的極端重視,這也影響了其AI技術的發展速度。

AI安全和AI發展之間的關系在去年就引發了極大的爭議,這也是去年底OpenAI宮斗事件的誘因之一,并在今年產生了影響。

今年5月,OpenAI超級對齊團隊兩位負責人接連離職。其中包括OpenAI聯合創始人、首席科學家伊利亞·蘇茨克維爾(Ilya Sutskever),以及該團隊的負責人簡·雷克(Jan Leike)。今年11月,OpenAI研究副總裁(安全)翁荔(Lilian Weng)也宣布離職。

「甲子光年」據公開資料不完全統計,今年OpenAI安全團隊離職的人員已超過10人。

前兩天,OpenAI發布了o3模型。對于其安全性,OpenAI CEO薩姆·奧爾特曼(Sam Altman)認為,制定測試框架是十分必要的,“這種框架應明確重點監控和緩解的風險,并在模型發布前完成測試,類似于新藥或新飛機的認證。”

圖片來源:Sam Altman的X賬號

關于AI安全的討論并沒有一個確切的答案,但一個企業的選擇往往反映著其團隊的價值觀。

Anthropic社會影響團隊研究員Miles McCain在Clio發布后就表示,只有深入了解我們的系統,才能有效執行政策,減輕模型可能帶來的危害,理解模型對用戶情感的影響。

我發現,在Clio的集群中,人們在生活的許多方面與Claude建立了非常深厚的聯系。他們將Claude視為教練、情感伙伴,甚至是在自己面臨極具挑戰性的問題時那個提供建議的人。我們有責任了解人們在這些脆弱時刻與Claude的對話方式,確保Claude能夠符合他們的期望,并成為一個可靠的伙伴?!盡iles McCain說。

作者|蘇霍伊
編輯|王博

本文由人人都是產品經理作者【甲子光年】,微信公眾號:【甲子光年】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!