關于AI,你最該了解可也許從沒想過的四個問題
人工智能和機器學習是一回事嗎?人工智能是不是能解決所有的問題?人工智能到底能解決哪些問題?怎樣區(qū)分這些問題?
人工智能和機器學習是一回事嗎?人工智能是不是能解決所有的問題?如果不是的話,人工智能到底能解決哪些問題?又怎樣區(qū)分這些問題?對人工智能來說,哪些事情是真正困難的?人工智能給社會到底帶來了哪些挑戰(zhàn)?
日前Medium知名博主Yonatan Zunger發(fā)布了關于人工智能的深度長文,可以說是一篇不可多得的、深度與趣味性俱佳的最佳科普。雷鋒網(wǎng)在不改變原意的情況下為您做如下編譯:
在過去的幾年里,我們一直在討論人工智能(AI)將如何拯救或摧毀世界:自駕車有利于保護我們的生命;社交媒體泡沫將破壞民主;機器烤面包機會讓人類連烤面包的能力都喪失。
你可能很清楚,這其中的一些是無稽之談,一些是真實的。但是,如果你沒有深入地沉浸在這個領域,可能很難分辨孰真孰假。雖然對于想要學習人工智能編程的人來說,互聯(lián)網(wǎng)上有大把的啟蒙教程,但對于不想成為軟件工程師或者數(shù)據(jù)專家的人來說,卻缺乏對于人工智能的概念的了解,以及它所面臨的社會上和倫理學上的挑戰(zhàn)。
如果全社會真的要討論人工智能,我們就需要解決這個問題。所以今天我們要談談人工智能的現(xiàn)實:它能做什么,不可能做什么,未來可能可以做些什么,以及它帶來的一些社會、文化和道德方面的挑戰(zhàn)。我不會涵蓋每一個可能的挑戰(zhàn);其中的一些,譬如泡沫和虛假信息,大的需要一整篇文章來解釋。但是,我會給你們足夠的例子說明我們所面臨的真正的問題,你們就能夠獨立提出自己的問題。
我先給大家劇透一下:大多數(shù)最難的挑戰(zhàn)不是來自于技術。人工智能最大的挑戰(zhàn)往往始于,它迫使我們編程時不得不非常明確地表達我們的目標,幾乎沒有別的事情會這樣——而有的時候,我們并不想對自己說實話。
1人工智能和機器學習
在寫這篇文章時,我將或多或少地使用術語“人工智能”(AI)和“機器學習”(ML)。這兩個術語意味著幾乎相同的東西,原因很愚蠢:因為從歷史上來說,“人工智能”差不多被定義為“任何電腦還無法做到的事情”。多年來人們爭辯說,下象棋需要真正的人工智能,模擬對話需要真正的人工智能,或者識別圖像需要真正的人工智能;每次這些事情實現(xiàn)了一個,人工智能的邊界又隨之移動。 “人工智能”這個詞語太可怕了,它與我們?nèi)祟惗x自己的方式以及那些讓人類與眾不同的東西靠的太近。所以在某些時候,專業(yè)人士會使用“機器學習”這個術語來進行整個對話,然后就卡住了。但它從來也沒有真正卡住,(這個地方不知道咋翻,要不就刪了算了這句話)如果我只是談論“機器學習”,聽起來會顯得特別機械——因為即使是專業(yè)人士,也總是更多的在談論人工智能。
那么讓我們先來談談機器學習或人工智能到底是什么。從最嚴格的意義上說,機器學習是“預測統(tǒng)計學”領域的一部分,就是建立一個系統(tǒng),它能夠獲取過去發(fā)生的事情的信息,并且利用這些建立一個關于相關環(huán)境的某種模型,用來預測在其他情況下可能發(fā)生的事情。簡單來說就像“當我把車輪轉(zhuǎn)向左邊,車子也往左轉(zhuǎn)”那樣簡單,往難來說,就像試圖了解一個人的整個生活和品味一樣復雜。
您可以使用這張圖片來了解每個AI的功能:
一個可以感知世界的傳感器系統(tǒng)(sensor) —— 這些系統(tǒng)可以是從攝像機和LIDAR到查看文檔的網(wǎng)絡爬蟲的任何東西。還有一些其他的系統(tǒng)適用于這個環(huán)境,比如開車,或者按照分類顧客展示廣告。有時候,這個系統(tǒng)是一臺機器,有時候是一個人,他必須根據(jù)一些很復雜或者太大的事情做出決定,一下子又思考不了那么多—— 比如說整個互聯(lián)網(wǎng)的內(nèi)容。
要把兩者聯(lián)系起來,你需要一個盒子,能夠提取對這個世界的認知,并且提出一些建議,告訴你如果采取各種行動,可能會發(fā)生什么。中間那個盒子叫做“模型(Model)”,就好比一個“這個世界是如何工作的模型”,那個盒子就是人工智能的一部分。
上面的圖表中還有一些別的的單詞,如果你聽專業(yè)人士討論AI時你可能會聽到它們。 “特征(Feature)”只是對原始認知的一些升華,包括模型的設計者認為有用的那部分認知。在有些AI系統(tǒng)中,特征只是原始的認知—— 例如,攝像機的每個像素所看到的顏色。如此大量的特征對于AI來說是有益的,因為它不會對什么重要什么不重要有任何先入之見,但是又使得AI本身更難構建;僅僅在過去的十年左右,建立足夠大的計算機來處理這個問題才變得可能。
“預測(Prediction)”就是另一端會產(chǎn)生的結果:當你給模型展示一些特征時,它通常會給你一堆可能的結果,以及它對每個結果的可能性的最佳理解。如果你想讓一個人工智能做出決定,那么就應用一些規(guī)則 —— 例如,“挑選最有可能成功的人”,或者“挑選最不可能導致災難性失敗的人”。對系統(tǒng)而言,權衡可能的成本和收益,重要性不亞于模型本身。
現(xiàn)在,你可以想象一個非常簡單的“模型”,它給出了針對用途的具體規(guī)則:例如,舊蒸汽機上的機械調(diào)節(jié)閥是一種簡單的“模型”,一端讀取壓力,如果這個壓力超過某個設定點推桿,它會打開一個閥門。這是一個簡單的規(guī)則:如果壓力高于設定值,打開閥門;否則,關閉閥門。
這個閥門非常簡單,因為它只需要參考一個輸入,并做出一個決定。如果它必須依賴于成千上萬甚至數(shù)百萬輸入的信息來決定一些更復雜的東西——比如如何控制一輛汽車(取決于你的所有視覺,聽覺等等),或者哪個網(wǎng)頁可以給你關于樹袋熊養(yǎng)殖的問題提供最好的答案(這取決于你是一時興起還是專業(yè)的脊椎動物爭論者,以及該網(wǎng)站是由愛充滿激情的愛好者所創(chuàng)辦,還是只是想賣給你廉價的樹袋熊壯陽藥)——你會發(fā)現(xiàn)這個比較很不簡單,有數(shù)百萬,甚至數(shù)千萬信息需要決定。
AI模型的特別之處在于們是專門為此而設計的。在任何人工智能模型里面都有一系列的規(guī)則來綜合所有特征,每一個特征都依賴于數(shù)百數(shù)千甚至數(shù)百萬個單獨的按鈕,告訴它在不同情況下如何權衡每個特征的重要性。例如,在一種叫做“決策樹”的人工智能模型中,模型看起來像是一個關于Yes/No問題的巨樹。如果人工智能的工作是從三文魚中分出金槍魚,那么第一個問題可能是“圖像的左半部分比右半部分更暗”,而最后一個問題大概是“根據(jù)之前的374個問題的答案,這個正方形中的平均顏色是橙色還是紅色?“這里的“按鈕”是詢問問題的順序,以及每個問題的”是“和”否“之間的界限是什么。
魔法在于:不可能找到一個能夠可靠地分辨鮭魚和金槍魚的正確問題組合。有太多了。所以,始時,AI運行在“訓練模式”。AI被展示一個又一個的例子,每次調(diào)整它的旋鈕,以便更好地猜測接下來會發(fā)生什么,在每次錯誤之后自我糾正。它所看到的例子越多,不同例子越多,它從偶然性中找到關鍵的能力就越強。一旦它被訓練,旋鈕的值是固定的,模型可以連接到真正的執(zhí)行器使用。
ML模型對比人類做同樣任務的優(yōu)勢不是速度;一個ML模型通常需要幾毫秒來作出決定,人大概也需要這么多時間。 (你在開車的時候一直如此)。他們的真正優(yōu)勢是,他們不會覺得無聊或分心:一個ML模型可以在不同的數(shù)據(jù)片斷上連續(xù)做數(shù)百萬或數(shù)十億次決定,既不會把數(shù)據(jù)弄得更好也不會更糟。這意味著你可以將它們應用于人類不擅長的問題——比如為單個搜索排名數(shù)十億的網(wǎng)頁,或駕駛汽車。
人類駕駛汽車非常糟糕,2015年僅美國就有35,000人因車禍死亡。這些車禍中的絕大多數(shù)是由于分心或駕駛員失誤造成的——人們通常做得很好,但在某一次關鍵時刻卻失誤了。駕駛需要巨大的專注和快速反應能力,你可能認為也可以做到,但糟糕的是,它需要這種能力持續(xù)保持幾個小時,事實證明,我們實際上做不到。)
當某個人談論在項目中使用AI時,他們的意思是將項目分解成上面繪制的圖,然后構建正確的模型。這個過程首先收集訓練的例子,這通常是最困難的任務;然后選擇模型的基本形狀(即“神經(jīng)網(wǎng)絡”,“決策樹”等),這些都是針對不同問題的基本模型),并進行訓練;然后,最重要的是弄清楚什么是壞的,并對其進行調(diào)整。
例如,看下面的六張圖片,找出前三張和后三張的關鍵區(qū)別:
如果你猜“前三張都有地毯”,那么你猜對了!當然,如果你猜前三張是灰貓的照片,后面三張是白貓的照片,你也是對的。
但如果您使用這些圖像來訓練您的灰貓?zhí)綔y器,那么當模型嘗試對您的訓練圖片進行評分時,您可能會獲得優(yōu)異的表現(xiàn),但在現(xiàn)實工作中這模型表現(xiàn)會很糟糕,因為模型實際學到的是“灰貓就是地毯上一些類似貓形狀的東西?!?/p>
當你的模型學習到了訓練數(shù)據(jù)的特質(zhì),但卻不是你真正關心的東西的時候,這叫做“過擬合”。構建ML系統(tǒng)的人大部分時間都在擔心這個問題。
2人工智能擅長什么,不擅長什么
現(xiàn)在我們已經(jīng)談論了AI(或ML)是什么,接著讓我們來談談它究竟是有用還是無用。
如果你想要實現(xiàn)的目標和實現(xiàn)這些目標的手段都能夠很好的理解,這種問題就不需要人工智能。?例如,如果您的目標是“將車輪上的所有螺母擰緊到100英尺磅”,你只需要一個能夠擰緊和測量扭矩的機構,并在扭矩達到100時停止擰緊。這稱為“扭矩扳手”,如果有人給你提供一個人工智能的扭矩扳手,你要問他們的第一個問題是我為什么需要這個。 這些降低了AI的閾值,你需要的只是一個簡單的機制。
人工智能能幫助解決的問題是:目標是明確的,但實現(xiàn)目標的手段不明確。在以下情況最容易解決:
- 可能的外部刺激的數(shù)量是有限的,所以模型能夠了解它們
- 你必須控制的事物數(shù)量是有限的,所以你不需要考慮過多選擇范圍
- 刺激或者要做的決定數(shù)量很大,你不能直接寫下規(guī)則并且區(qū)分開來
- 能夠很容易的把一個動作連接到外部的一個可觀察的結果,因此你可以很容易地弄清楚什么奏效,什么無效。
這些東西實際上比看起來更難。例如,現(xiàn)在拿起一個你旁邊的物體——比如我去拿一個空的汽水罐?,F(xiàn)在再慢一點做一次,看你的手臂是怎樣運作的。
我的胳膊快速地沿肘部轉(zhuǎn)動,將我的手從鍵盤上水平移動到離罐子幾英寸的垂直位置,然后迅速停止。然后它向前移動,同時把手掌打開的比罐頭大一點,以比第一個動作慢得多但是其實還是很快的速度,直到我看到我的拇指在我的其他手指的對面,盡管事實上我的其他手指被罐子遮住了視線。然后我的手指合攏,直到遇到阻力立即停下。然后手臂開始抬起,這一次從肩膀起(保持肘部固定)保持握緊,無限地收緊,直到手牢固地握住罐子但又不使罐子變形。
事實上,我們走路而不會臉朝地摔倒就是一件很驚人的事情,雖然看似平常。下一次你走過房間時,要注意你的確切路徑,每次你彎曲或移動你的身體,或者把你的腳放在不在面前的別的任何地方。“運動規(guī)劃”這個問題在機器人技術中是非常困難的。
這是非常艱難的任務之一,我們的大腦付出了比其他事情多兩倍的專注來做這件事。這使我們完成的看起來比實際上容易得多。同屬此類的其他任務還有面部識別(你可能不知道,我們的大腦的視覺功能大部分不是用于通用視覺,而是專門用于識別臉部的),理解單詞,識別3D對象,以及不碰到障礙物。我們認為這些并不難,因為它們對我們來說是非常直觀的,但是它們之所以這么簡單,是因為我們有專門的器官組織專門負責而且擅長做這些。?
對于這一系列狹窄的任務,計算機做得很糟糕,并不是因為他們表現(xiàn)的比在其他類似的任務上差,而是因為人類在直覺上非常擅長這些,所以對“可接受性能”的基線非常高。如果我們的大腦中沒有一大塊專注于認識面孔,那么我們看人就會像看犰狳一樣——現(xiàn)在計算機正是如此。
相反,人類聯(lián)結的方式又使得計算機就很容易的顯得足夠智能了。例如,人類的大腦有線連接認為,或多或少活躍的事物事實上就是有生命的。這意味著與人類進行令人信服的對話并不需要總體上理解語言,只要你或多或少的能把話題保持在焦點上,人類就會自動糾正任何不清楚的東西,這就是語音助理能成功的原因。最著名的例子是ELIZA,一個1964年的模仿羅杰亞心理治療師的“人工智能”,它會理解你的句子,讓你更多地講述各種各樣的事情,如果感到困惑,它就會退后一步回到“跟我說說你的母親吧”這樣的安全問題上,雖然這只是一個笑話,但人們表示確實在交談之后感覺好了一點。
為了理解上述的最后一個問題 ——當你很難把你的直接行動和后果聯(lián)系起來的時候—— 可以考慮學習玩視頻游戲。行動的后果是非常明顯的:當你應該轉(zhuǎn)彎的時候你就要轉(zhuǎn)彎,如果撞到墻上,游戲就結束。但是當你更擅長比賽之后,你會開始意識到“糟糕,我錯過了一個提升,五分鐘內(nèi)我要完了”,并且可以預見到更久之后的后果。你必須花很多時間去理解游戲的機制,然后去理解其中的連接。AI也有同樣的問題。
我們談到了目標和手段都很清楚的情況,以及目標清楚但手段不清楚的情況。還有第三個類別的情況,AI根本無法幫助:那就是,連目標本身沒有被很好地理解。畢竟,如果你不能給AI一堆好的和壞的解決方案的例子,那么它能從中學到什么?
我們隨后會再談這些問題,因為到底哪些問題屬于這個范疇,往往是最棘手的道德問題出現(xiàn)的地方。實際上很多時候情況是,要么我們不知道“成功”的真正含義(在這種情況下,你怎么知道你是否成功了?),或者更糟的是,我們知道 ——但是不想真正對自己承認。計算機編程的第一條規(guī)則是,他們不善于自我欺騙:如果你想要他們做某件事,你必須向他們解釋你想要的東西。
在我們開始談論道德之前,這里有另外一種方法去分析AI的好壞。
最容易的是在可預測的環(huán)境中有明確的目標。譬如一臺攝像頭監(jiān)測著一條裝配線,它知道汽車很快就會出現(xiàn),目標是識別到車輪。
相對較難的情況是在不可預測的環(huán)境中有一個明確的目標。自動駕駛汽車就是一個很好的例子:目標可以直接描述(從A點安全到B點而且速度合理),但是環(huán)境則可能包含許多意外。人工智能在過去幾年剛剛發(fā)展到可以向這些問題發(fā)起沖擊的地步,因此我們研究自駕車或自駕飛機等問題。
另一種難題是在可預測的環(huán)境中實現(xiàn)一個間接目標。在這種情況中環(huán)境是可預測的,但是行為和目標之間的關系是非常遙遠的——就像玩游戲一樣。這是我們近期取得巨大進步的另一個領域,人工智能能夠完成以前難以想象的事情,比如Alpha Go在圍棋比賽中取勝。
贏得棋盤游戲本身并不是很有用,但它卻打開了在不可預知的環(huán)境中實現(xiàn)目標的道路,比如計劃你的財務組合。這是一個比較棘手的問題,我們還沒有取得重大進展,但是我希望我們能夠在未來十年內(nèi)把這些做好。
最后還有一種最難的情況:目標不明確的情況。?AI根本無法解決這些問題;如果你不能告訴它你想做什么,你就無法訓練系統(tǒng)。寫小說可能就是一個例子,因為沒有一個明確的答案是什么使某本書成為“好的小說”。另一方面,這個問題有一些具體部分目標可以定義——例如“寫一本小說,如果像恐怖片一樣銷售,就能賣得好。這種對AI應用到底好還是不好,就留待讀者的智慧判斷。
3 倫理與現(xiàn)實世界
現(xiàn)在我們可以開始看看問題的真諦:那些AI的成敗能夠產(chǎn)生重大影響的難題是什么樣的?還在不斷出現(xiàn)一些什么樣的問題?
我可以很容易地給出一大串答案,但我們沒有覆蓋這個領域每一個有趣的問題,甚至沒法覆蓋大多數(shù)的問題。但是我給你們舉了六個例子,這些例子幫助我思考了很多,它們主要的幫助不在于給了我正確的答案,但是他們幫助我提出了正確的問題。
(1).乘客和行人?
一個自駕車正在穿過一座狹窄的橋,這是一個小孩突然在它前面跑出來。停下來已經(jīng)太遲了;這個汽車能做的只有要么前進,將小孩撞飛,或者轉(zhuǎn)彎,把自己和乘客送到下面的奔流河里。它應該怎么做?
這個問題在過去幾年已經(jīng)被公開討論過了,這個討論是非常明智的,展示了我們真正需要問的問題。
首先,整個問題有一個很大的漏洞:這個問題在實踐中出現(xiàn)的概率很小,因為自動駕駛汽車的重點在于,他們一開始就不會涉足這種情況。孩子很少突如其來出現(xiàn),大多數(shù)情況下這種情況發(fā)生時,要么因為駕駛員的反應不夠快,無法處理從他障礙物后面跳出來的孩子,要么駕駛員出于某種原因分心,注意到孩子的時候已經(jīng)太遲了。這些都是自動駕駛不存在的問題:自動駕駛一次查看所有信號,連續(xù)數(shù)小時都不會感到無聊或分心。像這樣的情況將變得非常罕見,這就是自動駕駛能夠拯救生命的來源。
但是“幾乎從不”與“絕對不會”是不一樣的,我們不得不承認有時會發(fā)生這種情況。當它發(fā)生時,車應該做什么?應該優(yōu)先考慮乘客還是行人的生命?
這不是一個技術問題:而是一個政策問題。這和我們今天生活的世界有很大的不同。如果你問人們在這種情況下會怎么做,他們會給出各種各樣的答案,并用各種各樣的“取決于當時情況”來限制這個答案。事實是,我們不想做這個決定,我們當然不想公開承認我們的決定是要保護自己的孩子。當人們真的處于這種情況下,他們的回應就會在地圖上出現(xiàn)。
在文化上來說,我們有一個答案:在這個瞬間,在你看到迎面而來的災難和事件發(fā)生的那一瞬間,我們認識到我們不能作出理性的決定。我們最終會讓司機對他們的決定負責,并且認為這是不可避免的,不管他們做了什么決定。?(雖然我們可能會讓他們?yōu)橹白龀龅臎Q定負責任,比如超速駕駛或駕駛醉酒)。
有了自駕車,我們沒有這個選擇;編程在字面上有一個空格,它現(xiàn)在要求我們在事故發(fā)生的幾年之前就給它答案:“當發(fā)生這種情況時,我該怎么辦?我應該如何減輕乘客的風險,以免對行人造成危險?”
它會按照我們告訴它的做。計算機編程的任務要求我們對自己想要的決定保持殘酷的誠實。當這些決定影響整個社會時,比如在這種情況下,這意味著作為一個社會,我們面臨著同樣艱難的抉擇。
(2)、禮貌性編造
機器學習模型有一個非常討厭的習慣:他們會學習數(shù)據(jù)顯示給他們的東西,然后告訴你他們學到了什么。 他們頑固地拒絕學習“我們所希望的世界”,或者“我們喜歡宣稱的世界”,除非我們明確地向他們解釋那是什么——即使我們喜歡假裝我們沒有這樣做。
2016年年中,高中生卡比爾·艾力(Kabir Alli)試圖在Google上搜索“三個白人青少年”和“三個黑人青少年”,結果甚至比你想象的還要糟糕。
“三個白人青少年”展現(xiàn)了迷人的、運動型的青少年身影; “三名黑人青少年”顯示了三名黑人青少年被捕的新聞報道中的照片。 (現(xiàn)在,搜索結果大部分都是關于這個事件的新聞報道)
這里并不是因為Google算法中的偏見:而是底層數(shù)據(jù)的偏見。這種特殊的偏見是“無形白人主義”和媒體報道的偏見的結合:如果三名白人青少年因犯罪被捕,不僅新聞媒體不太可能展示他們的照片,而且也不太可能特意提出他們是“白人青少年”。事實上,幾乎所有的青少年群體都被明確地標注為“白人”,從攝影產(chǎn)品目錄可以看出。但是,如果三名黑人青少年被捕,你可以找到在上面提到的新聞報道中出現(xiàn)的那句話。
許多人對這些結果感到震驚,因為他們似乎與我們這個“忽視種族”社會的國家觀念不一致。 (請記住,這是在2016年中)但基本的數(shù)據(jù)是非常明確的:當人們用高質(zhì)量的圖像在媒體上說“三個黑人青少年”時,他們幾乎總是把他們作為罪犯在談論,當他們談到“三個白人青少年“,幾乎都是廣告攝影。
事實上,這些偏見確實存在于我們的社會中,而且它們幾乎反映在你看到的任何數(shù)據(jù)上。在美國,如果你的數(shù)據(jù)沒有顯示某種種族傾向,那么很可能你做錯了什么。如果你通過不讓種族成為模型的輸入特征來手動地“忽略種族”,它會通過后門進入:例如,某人的郵政編碼和收入可以非常準確地預測他們的種族。一個將之不視為種族因素的ML模型,以及被要求預測我們社會中的事實上與種族相關的東西的ML模型,很快就會將其視為“最好的規(guī)則”。
人工智能模型在我們面前舉起一面鏡子,他們不明白我們什么時候不想誠實。他們只會禮貌性編造,如果我們告訴他們?nèi)绾翁崆叭鲋e的話。
這種誠實會迫使你必須非常明確。最近的一個例子是在一篇關于“文字去除”的技術論文中。是關于一個非常受歡迎的叫做word2vec的ML模型,它學習了英語單詞含義之間的各種關系——例如,“國王對男性,女王對女性?!痹撜撐淖髡甙l(fā)現(xiàn),模型包含了不少社會偏見的例子:例如“電腦程序員對男人來說就像家庭主婦對女人一樣?!弊髡咴谠撜撐闹刑岢隽艘环N一種消除性別偏見的技術。
該論文的許多偶然性讀者(包括許多撰寫關于它的新聞文章的人)看不到的是,并沒有一種自動化的方式能消除偏見。模型的整個程序是相當合理的:首先,他們分析單詞兩個詞向量模型,找到沿著他/她軸線(性別軸線)對立性分開的單詞組。接下來,他們要一組人辨別哪些對應關系是有道理的(例如,“男孩對男人/女人對女人是對的”),以及哪些對應關系中代表了社會偏見(譬如程序員對男人/家庭主婦對女人)。最后,他們運用數(shù)學技術從整個模型中去除了帶有偏見的詞組,留下了一個改進后的模型。
這項工作是很好的,但重要的是要認識到,確定哪些男性/女性分化應該被刪除的關鍵步驟是人為的決定,而不是一個自動的過程。它要求人們從字面上識別他們認為哪些詞組的對應關系是合理的,哪些不合理。而且,原來的模型衍生出這些分化是有原因的。它來自對來自世界各地數(shù)以百萬計的書面文本的分析。原來的詞向量對應關系準確地捕捉到了人們的偏見;清理后的模型準確地反映了評估者認為哪些偏見應該被刪除的偏好。
這其中展現(xiàn)出的危險是“自然主義的謬誤”,當我們混淆“應該是什么”和“其實是什么”的時候,這種謬誤就會發(fā)生。如果我們想用模型來研究人們的看法和行為,原本的模型是合適的;如果我們想用模型來生成新的行為并將某些意圖傳達給其他人,修改后的模型是適當?shù)?。說修改后的模型更準確地反映了世界是什么樣的,那是不對的;說因為這個世界某種程度上是什么樣,那么它就該是那樣,那也是不對的。畢竟,任何模型的目的——人工智能或智力——都是要做決定。決定和行動完全是關于我們希望這個世界是什么樣子的。如果不是這樣,我們根本就不會做任何事情。
(3)大猩猩事件
2015年7月,當我擔任Google社交工作(包括照片)的技術負責人時,我收到了Google同事的一個緊急信息:我們的照片索引系統(tǒng)公開把一個黑人和他的朋友的照片描述成為“大猩猩, “他有理由憤怒?!?/p>
我立即回應,大聲做出保證之后,給團隊打電話,公開回應說這是很不好的。團隊采取行動,禁用了違規(guī)表征以及其他幾個有潛在風險的表征,直到他們能夠解決潛在的問題為止。
許多人懷疑,這個問題與六年前惠普的臉部攝像機不能在黑人身上工作的問題是一樣的:“面孔”的訓練數(shù)據(jù)完全是由白人組成的。我們開始也這么懷疑,但是我們很快就排除了這個原因:訓練數(shù)據(jù)包括各種種族和膚色的人。
其真正原因是三個微妙的問題的交集。
第一個問題是人臉識別很難。不同的人臉看起來對我們來說截然不同,那是因為我們的大腦中有很大一部分只專注于識別人臉; 我們已經(jīng)花費了數(shù)百萬年的時間來改進這個功能。但是如果你注意比較兩個不同面孔的差異,把這個差異和兩把不同的椅子之間的差異相比,你會發(fā)現(xiàn)面孔的相似性比你想象的要大得多——甚至是跨物種之間。
事實上,我們發(fā)現(xiàn)這個錯誤并不是孤立的:這個照片索引系統(tǒng)也容易把白種人的臉誤認為是狗和海豹。
第二個問題是問題的真正核心:ML系統(tǒng)在其自己的領域非常聰明,但除非教導它,否則對于更廣泛的世界一無所知。而當它試圖考慮所有的圖片可能被識別的對象時——這個AI不僅僅識別人臉——沒有人想到要向它解釋黑人因為被歧視而長期被比作猿人。這種背景使這個錯誤非常嚴重,而將小孩錯誤地認定為一只海豹則只是一件趣事罷了。
這個問題沒有簡單的答案。在處理涉及人類的問題時,錯誤的代價通常與極其微妙的文化問題聯(lián)系在一起。這并不是說很難解釋,而是很難提前想到它們。
這個問題不僅僅體現(xiàn)在人工智能上,也表現(xiàn)在人們要在不同文化中做出價值判斷。一個特別的挑戰(zhàn)來自于,當在網(wǎng)上發(fā)現(xiàn)騷擾和濫用行為的時候。這些問題幾乎完全由人類來處理,而不是由人工智能來處理,因為即使是制定人類用來判斷這些事情的規(guī)則都是非常困難的。我曾在Google花了一年半的時間來制定這樣的規(guī)則,認為這是我所面臨的最大的智力挑戰(zhàn)之一。
即使有團隊提出規(guī)則,由人類而不是AI來執(zhí)行它們,文化障礙也是一個巨大的問題。印度的評論家不一定具有關于美國的種族歧視的文化背景,在美國的人也不一定有印度文化背景。但世界各地的文化數(shù)量是巨大的:你怎樣以任何人都可以理解的方式來表達這些想法?
從中學到的教訓是:系統(tǒng)中最危險的風險通常不是來自系統(tǒng)內(nèi)部的問題,而是來自系統(tǒng)與更廣泛的外部世界互動時意想不到的方式。我們還沒有一個好方法來管理這些。
(4)不幸的是,人工智能會按你說的做
人工智能的一個重要用途是幫助人們做出更好的決策:不是直接執(zhí)行某個操作,而是告訴人們推薦哪一個,從而幫助他們做出一個好的選擇。尤其當這些選擇具有高風險時,這是最有價值的。但真正影響這個長期結果的因素,對于人們來說并不是很明顯。事實上,如果沒有明確有用的信息,人類可能會輕易地采納無意識的偏見,而不是真正的數(shù)據(jù)。這就是為什么許多法院開始使用自動化的“風險評估”作為他們量刑指引的一部分。
現(xiàn)代風險評估是ML模型,負責預測未來犯罪的可能性。如果你拿一個地區(qū)的法院歷史的全部語料來訓練模型,可以形成一個令人驚訝的清晰的展現(xiàn),告訴你誰是潛在危險分子。。
如果你到目前為止一直在仔細閱讀,你可能會發(fā)現(xiàn)一些方法來實現(xiàn)這個目標,這些方法可能會非??膳拢浅ee誤。正如2016年ProPublica揭露的那樣,然而這正是全國各地發(fā)生的事情。
佛羅里達州布勞沃德縣使用的系統(tǒng)COMPAS系統(tǒng)的設計者,遵循了最佳實踐原則。他們確保他們的訓練數(shù)據(jù)沒有人為地偏袒某個群體,例如確保所有種族的人都有相同的訓練數(shù)據(jù)。他們將種族排除在模型的輸入特征之外。只有一個問題:他們的模型并沒有預測出他們認為該預測的事情。
量刑風險評估模式應該提出的問題是,“這個人將來犯下嚴重罪行的概率是多少,以此作為你現(xiàn)在給他們的刑罰的一個函數(shù)?!边@要同時考慮到這個人以及刑罰帶給他未來生活的影響:是否會導致永遠監(jiān)禁他們?釋放他們之后會不會沒有機會得到一個平穩(wěn)的工作?
但是我們沒有一道在每次犯罪的時候都會熄滅的魔法之光,我們也當然沒有那種例子:一個人一次同時接受了兩種不同的刑罰結果產(chǎn)生兩種不同的后果。 因此,COMPAS模型是通過對真實的、難以獲得的數(shù)據(jù)的模擬來進行培訓的:根據(jù)我們在判刑時所得知的一個人的信息,這個人將被定罪的概率是多少? 或者用兩個人來對比:“這兩個人哪一個最有可能在將來被定罪?”
如果你對美國政治有一點了解的話,你可以立即回答這個問題:“黑人!”黑人比白人更可能被在路上截住,被逮捕,定罪并給予比白人更長的刑期。所以忽略其他絕對事實死亡情況下,一個查閱歷史數(shù)據(jù)的ML模型,如果預測一個黑人被告在未來更有可能被定罪,結合歷史來看肯定是相當準確的預測。
但是,這個模型被訓練的方法和它的真正用途不相符合。它被訓練回答“誰更可能被定罪”,問它的卻是“誰更有可能犯罪”,沒有人注意到這是兩個完全不同的問題。
這里顯然有很多問題。其一是法院對待AI模型太過依賴,將其作為衡量判決的直接因素,跳過人的判斷,比任何模型本可以提供的保證還要自信。另一個問題當然是這暴露出的基本的、系統(tǒng)性的種族主義:同樣的罪行下黑人更有可能被逮捕并被定罪。
但是這里有一個關于ML的特定問題值得注意:你想測量的數(shù)量和你可以測量的數(shù)量之間經(jīng)常有差異。當兩者存在差異的時候,你的ML模型能夠很好的預測你所測量的數(shù)量,而不是它其實代表的數(shù)量。在相信你的模型之前,你需要非常仔細地理解這些相似和不同。
(5)人是一個合理化的動物?
在機器學習的討論中有一個新的熱門話題:“解釋權”。意思是,如果ML被用來做任何重要的決定,人們有權理解這些決定是如何做出的。
直覺上,這似乎是顯而易見且有價值的想法——然而,當ML專業(yè)人員提到這一點時,他們的臉色立刻就變了,他們想要解釋這個要求事實上是不可能的。
為什么會這樣?
首先,我們應該明白為什么很難做到這一點;第二,更重要的是,我們應該明白為什么我們期望它容易做到,為什么這個期望是錯誤的。第三,我們可以看看對此可以做些什么。
早些時候,我將ML模型描述為數(shù)百至數(shù)百萬個旋鈕。這個比喻對實際模型的復雜性來說并不公平。例如,現(xiàn)代基于ML的語言翻譯系統(tǒng)一次只能輸入一個字母。這意味著模型必須在閱讀了大量的字母之后,對其中的文本理解狀態(tài)進行表述,以及每個連續(xù)的下一個字母如何影響其對意義的解釋。
對于模型遇到的任何情況,它所做的唯一“解釋”是:“好吧,后面的幾千個變量是這樣的狀態(tài),然后我看到字母“c”,這應該改變了用戶在談論狗的概率…
不僅僅你無法理解這一點,ML研究人員也是難以理解的。 ML系統(tǒng)的調(diào)試是該領域最難的問題之一,因為在任何時候檢查變量的個體狀態(tài)然后向你解釋這個模型,就像測量一個人的神經(jīng)潛能然后將會告訴你他們吃晚飯的時間差不多。
然而 ——這是第二部分——我們總是覺得我們可以解釋我們自己的決定,而且是人們期望的那種解釋。 “考慮到它們的FICO分數(shù)中位數(shù),我把這個抵押貸款的利率設定為7.25%?!彼麄兤谕f:“如果Experian的FICO分數(shù)高了35分,那么這個分數(shù)就會下降到7.15%?!?,“我建議我們聘請這個人,因為他們在我們的面試中清晰地解釋了機器學習?!?/p>
但是每個認知或行為心理學的人都知道一個黑暗的秘密:所有這些解釋都是無稽之談。我們是否會喜歡一個人,在聊天開始的最初幾秒就已經(jīng)決定了,而且可能會受到一些看似隨意的事情的影響,比如在握手之前握著熱飲還是冷飲。無意識的偏見彌漫在我們的思想之中,而且也可以被測量出來,即使我們沒有意識到。認知偏差是當今心理學研究中最大的(也是最有意思的)分支之一。
事實證明,人們所擅長的并不是解釋他們是如何做出決定的,而是為自己的決定找出合理的解釋。有時候,這完全是無意識的,例如,我們在決策過程中會突出一些事實(“我喜歡這輛汽車的顏色”),并將注意力集中在這一點上,而忽略了對我們來說可能更重要但是看不見的因素(“我的繼父有一個敞篷車,我討厭我繼父”)。(“第一個候選人聽起來就像我畢業(yè)時那樣,那個女人很好,但是她看起來太與眾不同,她不適合和我一起工作?!保?/p>
如果我們期望ML系統(tǒng)為他們的決定提供實際的解釋,那么我們就會遇到很多麻煩,就像我們要求人們解釋他們自己的決定的實際基礎一樣:ML系統(tǒng)不會比人類更容易解釋。
當我們要求解釋的時候,我們感興趣的常常是那些顯而易見的事實(因為改變它們會改變結果)和變量(因為對它們的改變值得討論)。 例如,“你現(xiàn)在看到的是這個招聘告示; 但如果你住在靠西邊十英里的地方,你就會看到另一個”,這在某種情況下可能很有趣,但是“如果你是一個鴯鹋,你會看到的就是木拉加的種子”,這就不有趣了。
生成這種解釋的數(shù)學技術正在積極的發(fā)展中,但存在一些不容忽視的挑戰(zhàn)。例如,大多數(shù)這些技術是基于建立另一個“解釋性”的ML模型,這個模型不太準確,只適用于給定一些輸入信息然后變量很小的情況,整體更容易理解,但和前面提到的主ML模型是基于完全不同的原則。 (這是因為只有像決策樹這樣的幾種ML模型可以被人們完全理解,而在許多實際應用中最有用的模型,如神經(jīng)網(wǎng)絡,則完全無法被理解。)這意味著如果你試圖給第二個解釋模型輸入“不,改變這個變量!”這種反饋,它可能根本就辦法把它轉(zhuǎn)化為主模型的輸入。而且,如果你給人一個解釋工具模型,他們也會要求用相同的語言來改變它的權利——要求很合理但不可行。
人類的大腦有極度通用的智能能處理各種概念,因而可以解決這個問題。你可以告訴它,在涉及種族歷史時應該對圖像識別格外小心,因為同一個系統(tǒng)(大腦)可以理解這兩個概念。但AI還遠遠不能做到這一點。
(6)AI,歸根到底,終是一個工具?
人工智能無人機殺手——不提出這個大家都喜歡的例子就沒法探討AI道德。這些飛機在高空飛行,僅由計算機控制,在維護平民生活的同時實現(xiàn)殺害敵方武裝分子的任務……除非它們認為任務需要一些“附帶損害”,就像官方委婉說法那樣。
人們對這樣的設備感到害怕,如果更多地聽一些正生活在永恒的死亡威脅之下的人們的故事,他們會更加害怕——從晴朗的天空中橫空出世的殺手。
人工智能是這個討論的一部分,但它不如我們想象的那么重要。大型無人機與有人駕駛飛機的不同之處在于,他們的飛行員可以遠離千里之外,遠離傷害。自動駕駛儀AI的改進意味著,一個無人駕駛操作員可以很快操作不止一架飛機。最終,大型無人機可以在99%的時間內(nèi)自行駕駛,只有在需要作出重大決定時才會呼叫人。這將開辟更大的無人機空中力量成本更低的可能性——民主化從天上炸人的權力。
在這個故事的另一個版本中,人類可能已經(jīng)完全被從“殺戮鏈”也就是決定是否發(fā)射武器的決定中排除?,F(xiàn)在我們可能會問,誰來承擔完全由機器人決定的殺人的道德責任?
這個問題既比我們想象的要簡單,同時也要更復雜。如果有人用石頭擊中另一個人的頭,我們責怪這個人,而不是石頭。如果他們投擲長矛,即使矛在某一段飛行期間“處于自己的力量之下”,我們也絕不會想要責怪矛。即使他們構建了一個復雜的死亡陷阱,印第安納·瓊斯式的意志行為也是人類的。問題是現(xiàn)在“工具”自己決定的范圍變得模糊。
簡單的地方在于,在于這個問題并不是全新的。軍事紀律的很大要點是要建立一個戰(zhàn)斗力量,在戰(zhàn)斗中不要過于自主思考。在軍隊是歐洲體系后裔的國家,軍士和士官的作用是執(zhí)行計劃;委托人員的職責是決定執(zhí)行哪些計劃。因此,從理論上講,決策責任完全是在官員肩上,根據(jù)軍銜,指揮官等區(qū)分人員責任區(qū)的明確界定決定了誰最終對任何一個指令負責。
在實踐中,這往往是相當模糊的,這些原則是我們已經(jīng)了解了幾千年的原則,而AI其實并沒有增加新的內(nèi)容。即使具有了再大的決策能力和自主性,AI仍然需要這個討論——實際上在人類世界,我們有足夠的自主權去探討這些問題,也不過是近幾十年的事情。
也許這是人工智能倫理的最后一個重要的經(jīng)驗:我們面臨的關于人工智能的許多問題其實是我們過去也面對的問題,現(xiàn)在通過技術上的一些變化而顯露出來。在我們現(xiàn)有的世界中尋找類似的問題往往是有價值的,能夠幫助我們理解如何處理看似新的問題。
4 我們要去向何處?
還有很多我們應該討論的問題——其中很多對這個社會來說是非常緊迫的。但是我希望上面的例子和解釋給了你一些環(huán)境,讓你理解事情什么時候是對的,什么時候不對頭。以及許多的AI道德風險源于何處。
這些大多都不是新問題;相反,是一個向計算機解釋我們的訴求的正式過程——沒有文化背景、也沒有能力推斷出我們的言外之意的終極案例——迫使我們以違背日常習慣的方式來表達。無論是要求我們在緊要關頭到來之前好幾年就做出生死攸關的決定,而不是拖延到事情真正發(fā)生的時刻現(xiàn)在的高潮,還是要求我們長期嚴格的審視社會的實際情況,并態(tài)度鮮明的表達我們想要保留哪些部分以及我們想要改變哪些部分;AI把我們推離了“禮貌性編造”的舒適區(qū),進入了一個我們必須非常明確地討論事物的世界。
這些問題中的每一個,都早在AI之前就存在了; AI只是讓我們以一種新的方式來談論它們。這可能并不容易,但是對我們來說,誠實可能是新技術可以給我們帶來的最寶貴的禮物。
作者:Yonatan Zunger
來源:https://www.leiphone.com/news/201711/vnPrKIJpzXO0tuqJ.html
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@雷鋒網(wǎng),作者@Yonatan Zunger
題圖來自PEXELS,基于CC0協(xié)議
超贊