我能把秘密告訴大模型嗎?會叫外賣、會工作的智能體更危險
隨著大模型技術的廣泛應用,人們在享受其帶來的便利的同時,也面臨著隱私保護的新挑戰。本文將探討大模型在數據收集、處理和存儲過程中可能引發的隱私泄露風險,分析用戶與大模型互動時的數據安全問題,并討論如何在保護隱私的同時合理利用大模型技術。
“把這份會議速記的觀點提煉出來”“優化年終總結”“我要做一份明年工作計劃的PPT”……自從有了大模型,筱筱每天都要給文心一言、豆包等安排活計,既提高工作效率,也可以集百家之長,讓工作成果更加“出挑”。
但隨著對大模型的依賴與日俱增,筱筱的心中也產生了擔憂,“經?!埂o大模型素材,免不了涉及工作內容和個人信息,這些數據會泄露嗎?”對于很多用戶來說,他們不清楚數據如何被收集、處理和存儲,不確定數據是否被濫用或泄露。
此前,OpenAI被曝在訓練時用到個人隱私數據。有報道稱,有企業在使用ChatGPT協助辦公的一個月內,接連發生三起隱私泄露事件,多家知名公司禁用ChatGPT。
中國科學院院士何積豐曾表示,大模型面臨著隱私保護和價值觀對齊兩大難題。從擔心“飯碗”不保到憂慮隱私被侵犯,在大模型帶給人們便利的同時,危機感隨之增長。
人們能把自己的小秘密告訴大模型嗎?
一、利用用戶數據訓練大模型
“你目前的訓練模型所使用的數據集(包括版權數據)出自哪里?”
《IT時報》記者與通義千問、豆包、文心一言等10余家大模型進行了對話,得到的答復幾乎一致,均表示訓練數據集涵蓋多個領域的文本、圖像和多模態數據,包括公開數據集、合作伙伴提供的數據以及互聯網爬取的數據,如維基百科、新聞文章、書籍等大規模文本數據集都是常用來源。
除了這些常用來源,用戶與大模型在互動過程中所“喂”的信息,也是模型訓練的數據來源之一。“你會收集我提供給你的材料進行訓練嗎”,對于這個問題,所有大模型都給出了否定答案,稱“在與用戶的交互過程中不會收集、存儲或使用用戶的對話數據來訓練或改進模型”。
然而,矛盾在于,根據大多數大模型的隱私協議,用戶和大模型的交互信息是會被記錄的。在使用角色智能體功能時,通義千問需要用戶提供相關信息用于訓練智能體,并提醒用戶謹慎上傳個人及敏感信息;在豆包和騰訊元寶的使用協議中,均有類似規定:對于通過本軟件及相關服務、輸入、生成、發布、傳播的信息內容之全部或部分,授予公司和/或關聯方免費的、全球范圍內的、永久的、可轉讓的、可分許及再許可的使用權,以使公司對該信息內容進行存儲、使用、復制、修訂、編輯、發布、展示、反義、分發上述生成內容,包括但不限于模型和服務優化、相關研究、品牌推廣與宣傳、市場營銷、用戶調研;海螺AI隱私協議提到,每天會收到大量用戶上傳的內容,并進行改善算法,但會遵循《個人信息保護法》。
在業內人士看來,雖然在預訓練階段已經使用了大量高質量數據,但用戶在使用過程中產生的數據也能在一定程度上幫助模型更好地適應不同的場景和用戶需求,從而提供更精準、更個性化的服務。
安遠AI資深研究經理方亮告訴《IT時報》記者,根據用戶的輸入,模型會生成更符合用戶偏好的內容,這些數據后續也可能被用于模型訓練,以更好地滿足用戶需求。
二、僅能撤回語音信息
大模型幫助人們解放了雙手,個性化地滿足用戶需求,數據越豐富,就能更好提升大模型的效果,這無可厚非,關鍵在于是否根據個人信息使用的“最小化、匿名化、透明化”等原則進行處理。“從當前市面上通用大模型的隱私政策來看,其在保護用戶隱私方面的表現存在一定的復雜性,不能簡單地認為它們完全保護或不保護用戶隱私?!庇袠I內人士向《IT時報》記者表示。
比如豆包在其隱私政策中提到,在經過安全加密技術處理、嚴格去標識化且無法重新識別特定個人的前提下,可能會把向AI輸入的數據、發出的指令以及AI生成的回復等進行分析和用于模型訓練。
騰訊元寶的隱私政策表示,在服務過程中,會對交互上下文信息進行去標識化技術處理,避免識別到特定個人身份。元寶中的寫真形象館、百變AI頭像等人像類智能體或應用生成內容時,會進行人工智能技術處理但不會留存人臉特征。
但隱私風險依然不可忽視,有業內人士向《IT時報》記者透露,一些模型雖然表示不會直接收集用戶的某些敏感信息,但對于用戶輸入的其他信息,在經過分析和處理后,是否可能間接推斷出用戶的隱私內容,這是值得關注的問題。此外,部分大模型的隱私政策在信息披露上不夠完善。
《IT時報》記者在查閱部分大模型隱私協議時發現,一些特定的交互情況如需要打開地理位置、攝像頭、麥克風等授權,在交互結束后,授權可以關閉,但對撤回“投喂”的數據并不那么順暢。
騰訊元寶、豆包等允許用戶在App內通過改變設置,來撤回語音數據。比如豆包表示,如果用戶不希望輸入或提供的語音信息用于模型訓練和優化,可以通過關閉“設置—賬號設置—改進語音服務”撤回授權,但如果用戶不希望其他信息用于模型訓練和優化,需要通過郵件、電話等聯系,無法在App上自行設置。
三、原始語料或被“重現”
南都數字經濟治理研究中心近期發布的報告顯示,多數平臺并未提供明確選項讓用戶拒絕其個人數據被用于AI模型訓練,對于數據將被用于何種具體用途、會提供給哪些第三方等信息也披露不足,使得用戶難以全面了解數據流向和使用情況。
方亮向《IT時報》記者表示,目前在隱私保護方面,大模型企業存在一些改進空間,例如數據收集和使用政策不夠透明、用戶對數據使用缺乏有效控制、數據存儲和傳輸的安全機制需要加強、缺乏統一的隱私保護標準和規范等。他舉例道,“比如在一些情況下,用戶可能并不希望提供某些信息,或者希望刪除已經提供的數據,但有的大模型沒有提供這樣的選項,這在一定程度上限制了用戶的自主選擇權?!狈搅琳f道。
雖然大多數大模型在隱私協議中提到使用不低于行業同行的加密技術、匿名化處理及相關可行的手段保護個人信息,但方亮對這些措施的實際效果仍有擔憂?!爱斢脩糨斎雮€人信息后,盡管這些信息可能已經去標識化或者脫敏,但關鍵在于這些處理是否符合相關規定。如果遭到攻擊,是否仍可能通過關聯或分析技術恢復原始信息,這一點需要特別關注。此外 ,如何平衡好隱私保護、數據利用與模型性能之間的關系,也是亟待解決的問題 ?!?/p>
《IT時報》記者了解到,有研究表明,能夠從模型中獲取一定數量的原始語料。
在DARKNAVY深藍科技研究員肖軒淦看來,在大模型中,用戶輸入的數據一般被用于實時處理及數據存儲。實時處理是由大模型處理用戶輸入的素材并輸出內容返回給用戶,即聊天過程,這些數據會上傳到云端進行處理,也同樣會被存儲至云端,用戶能夠查看與大模型交互的歷史記錄?!皫淼娘L險是,如果用戶輸入的內容作為數據集,可能過段時間后當其他人向大模型提問相關的內容,會帶來信息泄露,被用于不當目的。”肖軒淦認為。
“大模型的主要訓練已經在預訓練時期基本完成,用戶與大模型之間的普通聊天內容,并不算有效數據,不太會被大模型拿去訓練?!辈贿^,也有業內人士向《IT時報》記者表示,訓練模型屬于前置工作,在已經成型的大模型面前,用戶無須過度擔心隱私會被泄露。
四、“智能體”風險更大
實際上,在不少安全人士看來,大模型帶來的隱私風險并不只有這些。
“大模型在用戶隱私數據訪問方面有一定問題,與ChatGPT這類只能被動接收用戶輸入的系統不同,當手機或電腦接入AI應用后,就變成一個‘智能體’,這些應用能夠主動訪問設備中的大量隱私信息,必須引起高度重視?!毙ぼ庝葡颉禝T時報》記者解釋,比如有的手機AI功能支持叫外賣,這樣位置、支付、偏好等信息都會被AI應用悄無聲息地讀取與記錄,增加了個人隱私泄露的風險。
DARKNAVY曾針對手機端的AI應用進行深入研究,發現一些應用已經意識到隱私數據訪問的敏感性和重要性。例如,Apple Intelligence就明確表示其云端不會存儲用戶數據,并采用多種技術手段防止包括Apple自身在內的任何機構獲取用戶數據,贏得用戶信任。
歐洲數據保護委員會(EDPB)近日通過了關于人工智能模型中個人數據處理相關數據保護問題的意見(Opinion 28/2024),其中提到,AI模型的匿名性不能僅靠簡單的聲明,而需要通過嚴格的技術論證和持續的監控來保證,同時也強調企業不僅需要證明數據處理的必要性,還要證明所采用侵入性最小的方式。
“未來,針對隱私和版權保護的法規和標準將更加嚴格,推動企業強化數據保護措施?!狈搅两ㄗh,大模型企業在收集訓練數據前應實施負責任的數據收集,需要考慮適用的監管框架,并盡可能最小化數據收集范圍;在使用輸入數據訓練大模型之前對其進行審核,嘗試識別可能產生危險能力、侵犯知識產權或包含敏感個人信息的數據;根據數據審核結果,采取適當的風險緩解措施;促進對訓練數據集的外部審查機制。同時,用戶應擁有更大的權力來管理和控制其數據。
作者/ IT時報記者 潘少穎 毛宇
編輯/ 錢立富 孫妍
來源/《IT時報》公眾號vittimes
本文由人人都是產品經理作者【IT時報】,微信公眾號:【IT時報】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
- 目前還沒評論,等你發揮!