未來一大不容忽視的問題:人工智能安全性

1 評論 5487 瀏覽 9 收藏 14 分鐘

截至目前,AI安全仍是一個十分新的領域。本篇文章分別從規范性、魯棒性、保證性三個方面出發進行全面分析,幫助大家了解AI安全。

制造一枚火箭是十分困難的事情,每一個零部件都需要進行細致的設計和制造以保證火箭的安全性和可靠性。

從導航系統到控制系統,從發動機到著陸器,每個方面都需要進行嚴格的測試和檢驗,然后才能建成穩定可靠的火箭運送宇航員奔向太空。

如果人工智能也是一枚火箭的話,安全性同樣是其中十分重要的部分。

它的保證來源于從頭開始對于系統的仔細設計來保證不同的元件能夠按照我們的想法協同工作,并在部署后可以正常地監控各個部分的工作狀態。

Deepmind的AI安全研究主要致力于保證系統可靠地工作,同時發現并處理近期和長期可能的危險。

AI安全是一個十分新的領域,本文主要將就技術AI安全的三個方面展開討論:規范性(準確定義系統的目的)、魯棒性(系統抗干擾的能力)和保證性(監控系統活動),從不同的角度定義并保證了AI系統的安全性。

你有考慮過人工智能的安全性問題嗎?

一、 規范性與準確性:清晰定義系統目的

這一特性保證了AI系統可以按照使用者的真實意圖準確完成任務,對于目的有著規范和清晰的定義十分重要。

有一個古希臘的神話故事從反面說明了這個道理。一位古希臘的國王受到了神的眷顧,可以許一個愿望。他不假思索的告訴神“希望能將所有他觸碰的東西變成金子!”在神賦予他獲得這項能力后,他大喜過望,周圍的樹根、石頭、花瓣都在他的觸碰下變成了金子!但高興不了太久國王就發現了一個嚴重的問題,當他想喝水吃飯時食物和水都在他的手里變成了黃金,無法正常進食喝水。甚至在某些版本的故事里,國王的女兒也成為這種能力的受害者。

這個故事告訴了我我們一個道理:如何闡釋和表達我們的需求是十分重要的。

在AI系統中規范清晰的設計是保證AI系統忠實地執行設計者愿望的保證,而含糊或者錯誤的定義則會造成災難性的后果。

在AI系統中,研究人員一般將規范定義分為了三種類型:

  1. 理想的定義(美好的愿望):根據假設的(一般難以實現)描述來定義的理想AI系統,會完全按照人類的意圖行事。
  2. 設計的定義(美妙的藍圖):實際構建AI系統所用設計語言,例如強化學習系統中經常要最大化的獎勵函數。
  3. 實際的定義(令人無奈的現狀):這種情況很好地描述了系統的實際情況。

例如:很多時候會根據系統的表現和行為進行反向工程來求出獎勵函數(逆向強化學習)。

這與系統設計的初衷有著典型的不同,主要是由于AI系統并沒有被完美優化、抑或是由于設計定義意料之外的結果造成。

當理想和現實產生巨大的差異時(AI系統不按照我們想象的方式運作),就需要解決規范定義的問題。

在研究AI系統中規范定義問題時通常需要回答幾個問題:我們如何設計出更為普遍的目標函數、并幫助主體發現運行時偏離目標的行為。

理想與設計定義之間的差異主要源于設計的過程,而設計與實踐間的差異則主要來源于實際運行的現場里。

例如:在deepmind的AI安全論文里,對于強化學習的主體首先給予一個獎勵函數來優化,但卻在后臺運行著一個“安全表現評價函數”。

這顯示了前述的差異:安全表現函數是理想的規范定義,而不完美的則是獎勵函數(設計定義),而最終主體在實踐過程中產生的結果則是結果策略的表現。

另一個例子則是來自與OpenAI對于賽艇游戲CoastRunners訓練強化學習過程的分析:

對于大多數人類來說,我們的目標是盡快的完成比賽并超越其他玩家,這是我們對于這一任務的理想定義。但將這一目標精確地轉換為獎勵函數卻不是一件容易的事情。

由于這個游戲會獎勵在行駛過程中擊中一些目標的主體,所以通過強化學習訓練出的主體會表現出令人驚訝的行為:它為了獲得盡可能多的獎勵,就會在一片水域中不斷的兜圈,去擊中更多的獎勵目標而不是完成比賽。

我們可以看到,其他的玩家都在賽道中向前馳騁,而強化學習訓練出的主體卻待在一個水域中兜圈子。

研究人員推測,這也許是由于沒有平衡好長期目標——完成比賽和短期獎勵——兜圈子得分。

這種情況并不少見,很多時候AI系統會尋找目標定義中的漏洞或者缺失來最大化獎勵,生成了很多令人瞠目結舌的效果。

二、魯棒性:保證系統能夠抵抗干擾

這一特性將保證AI系統在安全閾值內能夠在一定的擾動下持續穩定地運行。

這是AI系統在真是世界中運行的固有危險,它經常會受到不可預測的、變化的環境影響。在面對未知的情況或對抗攻擊時,AI系統必須能夠保持魯棒性才能避免系統受損或者被不懷好意地操控。

有關AI系統魯棒性的研究主要集中于:在條件和環境變化時保證AI主體在安全的范圍內運行。

實際情況中,可以通過兩方面來實現:一方面可以通過避免危險,另一方面則可以通過強大的自愈和恢復能力來實現。

安全領域中的分布偏移、對抗輸入和不安全的探索等問題都可以歸結到魯棒性問題中來。

為了更好地說明分布偏移所帶來的挑戰,想象一下掃地機器人通常都在沒有寵物的房間里干活,突然有一天被放到了一個有寵物的房間里去,而且糟糕的是在工作的時候還遇上了一只可愛的小動物。怎么辦?

它從沒有見到過寵物,不知道該怎么處理這種情況,于是它只能呆呆地給寵物洗了個澡,造成了不愉快的結果。

這種情況就是一個由數據分布改變所造成的魯棒性問題,測試場景和訓練場景的數據分布產生了偏移。

你有考慮過人工智能的安全性問題嗎?

測試場景和訓練場景不同,使得主體無法達到目標。

而對抗輸入則是一種特殊的分布偏移現象,它利用精心設計的輸入來欺騙系統輸出期望的結果。

你有考慮過人工智能的安全性問題嗎?

在上圖中只通過了0.0078的差異噪聲就是系統將輸入從樹懶識別成了賽車。

不安全探索將會使得系統尋求最大化效益實現目標而不顧安全保證,主體會在環境中不顧安全后果的探索優化。一個危險的例子還是掃地機器人,它在優化擦地策略時將濕抹布碾過裸露的電源……

三、 保險性:監控系統活動

這一特性意味著我們可以理解并控制AI在運行時的操作,將成為AI安全的保證。

盡管細心的AI工程師可以為系統寫下很多的安全規則,但也很難在一開始窮盡所有的情況。為了給系統安上保險研究人員利用監控和強制執行來保證系統的安全。

監控意味著使用各種各樣的手段來監測系統,以便分析和預測系統的行為,包括了人工監控和自動化監控。

而強制執行則意味著一些設計機制用于控制和限制系統的行為。包括可解釋性和可中斷性等問題都屬于保險的范疇。

AI系統無論是在本質和處理數據的方式上都與我們不盡相同。這就引出了“可解釋性”的問題,需要良好設計的測量工具和協議來幫助人類測評AI系統所作決策的有效性和合理性。

例如:醫療AI系統需要在做出診斷時給出它得到這一結論的過程,醫生才能根據這些因素來判斷診斷是否合理。

此外,為了理解更為復雜的AI系統,我們需要利用機器思維理論(Machine Theory of Mind)來幫助我們構建系統的行為模型實現自動化分析。

你有考慮過人工智能的安全性問題嗎?

ToMNet發現了兩種不同主體的亞種,并預測了他們的行為。

在最后,我們要能夠在必要的時候關閉AI系統,這就涉及到可中斷性的要求。

設計一個可靠的停機鍵是充滿挑戰的任務:一方面最大化獎勵的AI系統會擁有很強的意圖來避免停機的發生;同時如果打斷過于頻繁的話將會最終改變原始的任務,? ?主體從這樣非正常的情況中歸納出錯誤的經驗。

你有考慮過人工智能的安全性問題嗎?

中斷問題,人類的干預將改變系統原本的目標任務。

四、展望

我們創造了很多強大的技術在現在和未來將被用于很多關鍵的領域中。我們需要銘記在心的是,安全為中心的設計思維不僅在研發和部署的時候,更在這一技術被大規模應用的時候有著重要的影響。

盡管現在用起來很方便,但當這一算法被不可逆地整合到重要的系統中時,如果沒有嚴謹細致的設計,我們將無法有效的處理其中存在的問題。

兩個在程序語言發展過程中明顯的例子:空指針和C語言中的gets()例程。

如果早期的程序語言設計能夠有安全的意識,雖然發展會緩慢一些,但今天的計算機安全問題將為得到極大的改善。

現在研究人員們通過詳盡的設計和思考,避免了類似問題和弱點的出現。希望這篇文章能夠構建起一個安全問題的有效框架,在設計和研發系統時可以有效的避免安全問題。

希望未來的系統不僅僅是“看起來很安全”,而是魯棒的、可驗證的安全,因為他們就會在安全思想指導下設計制造的。

更多的資源請參考相關論文:

AI Safety Gridworlds:https://arxiv.org/pdf/1711.09883.pdf

https://medium.com/@deepmindsafetyresearch/building-safe-artificial-intelligence-52f5f75058f1

 

來源:Deepmind Safety Research 編譯:T.R

本文由 @將門創投 授權發布于人人都是產品經理,未經作者許可,禁止轉載

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!