人類感知和深度學習有何不同?

3 評論 4784 瀏覽 7 收藏 14 分鐘

人類與機器相比為什么會產生錯覺?人類感知和深度學習系統在識別圖像與聲音上有什么區別?它們是如何感知的,原理是什么?本文將對上述幾個方面的內容給出詳細解釋。

我們如何看待這個世界?為了理解這一點,首先讓我們探討一下我們是如何錯誤地認識世界的?!熬仃囍械蔫Υ谩保╣litches in the matrix)將會向我們揭示我們感知的本質。

Victoria Syke創造了上圖所示的視錯覺效果,這張圖片擾亂了我們的感知。這張圖片給人的錯覺是,深藍色的線條都是傾斜的。你可以通過滾動圖像使其與瀏覽器窗口頂部對齊或者從一個邊逐步測量圖像來證明這一點。

我想知道的是,為什么這種錯覺會產生?我們的認知過程中,到底是什么導致了錯覺的產生?

在上面的錯覺中,你會注意到淺藍色條紋和黑色條紋的相交區域中的元素在某一特定方向上會有越來越小的趨勢。除此之外,你還會感覺到深藍色條紋里的線條高度不同。當這兩種視覺效果相互結合,就會給人一種錯覺,即條紋具有不斷向上或向下的趨勢。

即使將圖像旋轉90度,淺藍色條紋也會顯示為平行。這是因為淺藍色條紋上的深色圖案和大小都是相同的,并且它們也處在同一水平線上。

Victoria Syke?創造這個圖像的靈感來自于兩個方面:Richard Gregory對于“咖啡墻錯覺”(Cafe Wall Illusion)的觀察以及Akiyoshi Kitaoka的“邊緣錯覺”(?Fringe Edge Illusion)理論。

當墻壁的磚塊采用亮度對比非常明顯的黑白兩色進行交替排布時,視覺上就會顯現出一種錯覺的感受:

https://fineartamerica.com/featured/cafe-wall-illusion-spl-and-photo-researchers.html

這種方式所產生的錯覺效果是每塊磚似乎比鄰近的磚要更大(或更?。?。Syke還利用了Akiyoshi Kitaoka的“邊緣錯覺”和星形聯接錯覺理論(Y-junction illusion)來進一步加強效果。順便說一下,這種效果也可以在垂直方向上起作用。

邊緣錯覺

星形聯接錯覺(Y-junction illusion)

人腦顯然沒有將圖像看成是一個整體。相反,它將圖像視為多種圖像的組合,同時識別出彼此之間的相鄰關系。為什么相鄰關系對我們的視覺有如此強烈的影響?我們現在已經進化到可以充分利用聯想(affordances?)來幫助我們的大腦更快地重建圖像。換句話說,我們的大腦可以立即識別出有助于我們理解場景的模式。我們的視覺感知自動執行一種語義推理,使得更高層次的語義模式不會被忽略。這就是為什么無論我們多么使自己堅信線條確實是水平的,但是像上面這樣的幻覺還是會出現。

這種錯覺效果也發生在音頻領域。有一種被稱為Shepard Tone(謝巴德音調)的聽覺錯覺。這種錯覺是由三個上升的音調造成的。其中一個更高的音調會聽起來更加低,中間的音調具有恒定的響度,第三個低音聽起來變得更高。大腦產生的錯覺是會聽到兩個總是上升的音調。下面這個視頻是最好的例子(從0:40開始):

圖像和聽覺系統中的錯覺向我們揭示了人腦如何感知世界的。當我們的大腦看到彼此相互關聯的圖像和聲音時,就會開始在腦海中通過想象來預測進展,即使是這種進展完全不存在也會這樣做。人腦不能在超越它所看到的東西之外進行想象預測,因此就會進行錯誤的重建。你在看上面圖片的時候,你不可能不會注意到傾斜的線條。如果你遠看圖像或以一定角度觀察圖像,則會消除一些細節對你的干擾,因此就可以正確地重構現實。

但為什么相對量對我們的生物學很重要?我們可以從藝術中學習到哪些元素會產生深度感:物體重疊、縮小比例、大氣視角、垂直位置和線性視角。大腦充分利用這些聯想來重建世界的三維視角。我們生活在三維世界中,我們的感官旨在理解并與這個世界互動。對物體三維結構的重構是導致視錯覺的主要原因,棋盤的陰影錯覺很好地解釋了這個現象:

A和B具有相同的色調

 

下面鏈接中是另一組令人產生錯覺的圖像,它說明了人類大腦必須有足夠的時間才能正確地重建其感知:

視頻鏈接:https://www.youtube.com/watch?v=LcpliVYfEqk

在上面的實驗中,當你的視線聚焦于中心時,你會注意到視線邊緣的面部變得扭曲了。當圖像閃現的達到一定速度,我們的大腦在感知圖象時,會受到前后兩張圖片的干擾,但圖像閃現的速度又沒有慢到可以使我們的大腦來得及進行正確的圖像重建,因此產生了現在看到的錯覺效果。

人類大腦在圖像識別上會使用聯想的方法(例如捷徑和啟發式)來構建其用于感知的模式,而深度學習網絡則不同,它完全依賴于圖像捕捉。深度學習網絡專門使用忽略某些不變性的網絡進行訓練(例如ConvNets翻譯),而人類大腦的工作方式似乎不同,我們習慣于使用語義傳達的模式。深度學習網絡沒有經過人類這種聯想的訓練,因此它缺少了可用于語義傳達的圖像識別能力,為了達到我們在人類中發現的那種視覺感知,我們必須訓練深度學習系統來學習一些基本的人類圖像識別技巧,例如遮擋,透視和陰影:

為了說明深度學習系統的視覺認知與人類是多么不同,最近的一篇名叫《Investigating Human Priors for Playing Video Games》的文章研究了如何去除人類在游戲中由于聯想產生的錯覺:

這個實驗對街機游戲的紋理進行了重新修改及渲染,在修改后的游戲中,人類表現都非常糟糕,但相比之下,深度學習系統在兩款游戲中都表現相當,這說明了深度學習系統不需要使用人類經驗。另一方面,人類可以通過進行少量的訓練來學習一款游戲,是因為我們可以利用現有的人類經驗(或聯想)。這個實驗告訴我們,人類可以通過先前的經驗來進行快速地學習。

DeepMind?的Pyschlab(心理實驗室)是一個探索深度學習和人類視覺識別之間差異的組織。Pyschlab包含許多人類和機器都能完成的實驗。我們可以通過考察雙方在表現上的差異,來了解它們在認知上的差異性??偟膩碚f,我們可以觀察到,人類可以同時采用混合并行處理和順序處理兩種形式,而機器只采用并行處理這一種方式,這一差異我們可以從任務完成度的下降中辨別出來:

這一數據表明了在人類大腦中有并行和順序兩種視線之間的區別,而深度學習系統似乎只有并行一種。確認人類大腦與我們當前的深度學習系統之間的差異性,就相當于揭示出了一個改進未來深度學習系統設計的途徑。

DeepMind的另一篇發表在《BioArxi》雜志上的論文《Prefrontal cortex as a meta-reinforcement learning system》,提出大腦會使用兩種不同的強化學習系統的論題。論題假設人類大腦中的強化學習系統是由多巴胺的釋放所驅動的,這是一種獎勵驅動學習的標準模式。DeepMind認為有兩個強化學習系統,一個是基于標準多巴胺分泌的模式,第二個位于前額葉皮層,前額葉皮層學習會受前一個系統的影響。實際上,標準的多巴胺分泌模式已經學習了人類的先前經驗(或聯覺效應),并利用它來指導對前額葉皮層更動態的學習。

所以每當我們看到一些東西,我們只能看到它在過往的人類經驗中的形象。然而,正如你在人臉識別的例子中看到的,在工作中需要有一個認知過程,試圖重建它所看到的東西。太快地停止重建過程,你就會看到它是如何發生錯誤的。我們的大腦始終采用啟發式的方法,但我們發現啟發式在很多方面都會出現錯誤。

視頻鏈接:https://betterhumans.coach.me/cognitive-bias-cheat-sheet-55a472476b18 Buster Benson

杰弗里·辛頓(GeoffreyHinton)的膠囊網絡(?Capsule Network)可能走在了正確的軌道上。在膠囊網絡中,有兩個重要的階段,第一個階段能夠使用ConvNet識別對象的一部分,然后在第二階段中,采用投票的形式表決識別對象的哪種組成形式是最有可能被感知的。這兩個階段,其中前者是對象的識別,后者是推理,這種深度學習網絡似乎越來越受到研究界的重視。

視頻鏈接:?https://www.youtube.com/watch?v=pPN8d0E3900

在二十世紀八十年代,由于計算機的發展,出現了一個新的領域,被稱為計算科學,它不同于現有的科學方法(即理論和實驗)。計算科學通過計算機模擬來探索物理系統。同樣的,深度學習的研究也正在滲透到神經科學和心理學領域。也就是說,當我們將模擬與我們自身進行比較時,我們便開始了對自身本質的了解。

總的來說,深度學習的研究趨勢,是開始對人類感知的本質的更深入地挖掘,并找出它與深度學習感知的不同之處。從一個深度學習研究者的角度來看,僅僅理解數學和技術是不夠的,還必須對人類基本感知的特征有所了解。對于深度學習來說,識別相反特征是有難度的,這一點是公認的。要解決這樣的問題,我們首先必須要理解為什么對于人類而言這個問題是不存在的。這正是杰弗里·辛頓(GeoffreyHinton)在他對“卷積網絡有什么問題”的演講中所論述的問題。

 

原文作者:Carlos E. Perez

原文地址:https://medium.com/intuitionmachine/our-minds-see-and-hear-only-what-we-imagine-dc303056171

本文由@百度UXC?翻譯發布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Pixabay,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 還好考了心理學的研究生,不然本科的我還真看不懂。

    回復
  2. 這個文章排版看得我腦闊疼

    來自上海 回復