隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封印?

0 評論 2120 瀏覽 5 收藏 13 分鐘

本篇文章將帶領大家回顧一下2018年計算機視覺領域的發展,enjoy~

2018年還剩不到10天,回顧一下今年CV(Computer Vision,計算機視覺)領域的進展,在技術上并沒有迎來什么革命性的新突破。幾個頭部企業的業務重點,除了強化現有算法的精度,更多還是將精力投擲在商業布局上。

似乎每家公司都在為這個看得見的“賽點”爭分奪秒地發掘新應用場景。

不過,還是有很多新技術的進步值得我們專門用一篇文章來說一說,比如今天要講的Zero-Shot Learning。

畢竟,當場景被開發到極限,大家就又回到了技術的起跑線。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封印?

什么是ZSL?

零樣本學習zero-shot learning,是最具挑戰的機器識別方法之一。2009年,Lampert 等人提出了Animals with Attributes數據集和經典的基于屬性學習的算法,開始讓這一算法引起廣泛關注。之所以如此重要,因為其迥異于傳統圖像識別任務的思考方式。

從原理上來說,ZSL就是讓計算機具備人類的推理能力,來識別出一個從未見過的新事物。

舉個例子,我們告訴一個從沒見過斑馬的小朋友:“斑馬是一種長得像馬,身上有黑白色條紋的動物”,他就可以很輕松地在動物園里找出來哪個是斑馬。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封???

可是,在傳統的圖像識別算法中,要想讓機器認出“斑馬”,往往需要給機器投喂足夠規模的“斑馬”樣本才有可能。而且,利用“斑馬”訓練出來的分類器,就無法識別其他物種。但是ZSL就可以做到,一次學習都沒有,只憑特征描述就識別出新事物,這無疑離人類智力又近了一步。

那么,這種“天秀”到底是怎么工作的?

簡單說的話,就是利用高維語義特征代替樣本的低維特征,使得訓練出來的模型具有遷移性。

比如斑馬的高維語義就是“馬的外形,熊貓的顏色,老虎的斑紋”,盡管缺乏更多細節,但這些高位予以已經足夠對“斑馬”進行分類,從而讓機器成功預測出來。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封?。? /></p>
<p>這就解決了圖像識別長久以來的問題:如果一個事物從來沒有在現有數據集中出現過,機器應該如何學習和識別它。聽起來是不是很爽很智能的樣子,實際上也確實如此!</p>
<h2  id=ZSL的“優越感”來自哪里?

在CV領域的頂會CVPR 2018 會議中,一個關于使用鑒別性特征學習零樣本識別的論文,被認為代表了該領域當前的最佳水平。之所以受到如此重視,主要源于近年來零樣本學習(ZSL)在目標識別任務中的大顯身手。

由于ZSL所挑戰的現實情境前所未有地苛刻,使其具備了影響其他圖像識別效果的關鍵能力。

現有識別技術大多集中于監督學習,所以需要不斷推出更大的數據集,谷歌曾介紹說他們在用300Million的3D圖片進行訓練。而且,每個領域還需要各自的數據集。

這種情況下,全部進行數據標注的工作量也變得很大,很多新生事物更是想標注都無從談起。這樣在部署端的效率和成本就成了產業的“不可承受之重”。

那怎么辦呢?科研人員只好努力讓機器學會“花更少的錢,辦更多的事”。

以騰訊AI Lab的研究為例,其“Diverse Image Annotation”,就是充分利用標簽之間的語義關系,用少量多樣性標簽來表達盡可能多的圖像信息,實現自動標注。

ZSL則更為極端,要在一個樣本都沒有的前提下“空手套白狼”,這種極限挑戰,就給技術界帶來了新的活力。

首先,ZSL降低現有算法對數據集的依賴和標注的壓力,有利于提升機器視覺技術的親和力及部署效率;另外,現在產業端對縮減算力需求的呼聲日漸高漲,ZSL清晰有效地指向了可行的解決方案;

更重要的是,ZSL解決的不僅僅是視覺問題,更與NLP的發展相輔相成。根據模糊高維的語義描述去進行識別,對機器的要求不僅僅是簡單分類,還要理解特征一些人類的高級知識,比如一種藝術作品的風格、一種特殊的情緒等。找到這種語義上的聯系,將機器視覺與NLP技術聯合在一起解決問題,ZSL激發的技術想象很是有趣。

都說“數據是AI的燃料”,那沒有燃料是不是就注定GG? ZSL表示可以續命,就是這么得瑟!

從0到1:ZSL和OSL有何不同?

這時,想必很多關注技術趨勢的同學可能已經發現了,零樣本學習與少樣本學習(OSL,One-Shot Learning)在最終的應用成果上,似乎作用很相近啊。比如說,都指向了高層次的認知問題。只要給OSL一張“斑馬”的圖片,它就能很高效地將它從其他動物中鑒別出來。背后靠的也是從很少的標簽中學習、分類和推理的能力。

在應用端,因為都不依賴龐大的數據集,兩種模型都能幫助產業的AI識別實現降本增效。

按理說,既然零樣本是少樣本的子集,那么是不是可以直接套用ZSL的模型來解決OSL的問題呢?

其實是可以的。畢竟“從沒見過”與“見過一次”相比,“從0到1”的技術難度要求更高。

不過,二者并不能輕易地被替代或劃等號,各自的研究都很有意義。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封???

最大的區別在于,ZSL挑戰的是在相似語義中完成知識遷移,而OSL需要解決的是語義補全的能力,即如何利用唯一的樣本學習到更多的特征。在實際應用中,關鍵能力的不同,賦予了它們不同的“必殺技”。

比草原廣闊:ZSL的應用場景

那么,ZSL到底能干些什么呢?前面我們說過,目前產業界應用深度學習最大的痛點,無非是愛上一匹野馬(泛化能力),可是家里沒有草原 (高質量數據集) 。也并沒有企業會為了幾匹野馬,就不計成本地承包所有草原。

而ZSL能夠提供的想象空間,就比“草原”大得多了:

1.圖像自動標注、處理。人工標注代價高、速度慢,一旦ZSL被應用,其語義理解和遷移能力,借助知識圖譜的輔助(如屬性、文本描述等),把不同的視覺聯合在一起進行系統觀察,可以自動完成數據的識別和標注工作,而且結果的準確性不低于人工。

2.未知或生僻語種翻譯。在電影《降臨》中,美國的語言學家通過艱難地特征推斷,完成了與外星人的溝通。未來,這件事可以由機器來代勞。比如說一些樣本很少甚至早已不可考的語言(比如烏伯克語),通過ZSL系統就可以自動完成翻譯過程,實現宇宙的love&peace。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封???

3.新類別的圖像合成。ZSL的學習目標是識別新事物,一些新類別的圖像合成,完全可以通過ZSL被創造出來。比如還原已經滅絕的物種。也許未來你在《侏羅紀》系列中看到的恐龍,就是機器“畫”出來的。4.視頻識別。目前,越來越多的數據是視覺與文本信號共同出現,比如綜合性視頻網站,視頻、音頻、字幕、彈幕、評論等多模態信息都有,想要挖掘它們之間的相關性,就依賴于ZSL的宏觀預測能力。

總而言之,讓機器能夠像人一樣憑借“只言片語”做出推理和判斷,是一個很有用的功能。

從入門到放棄:ZSL的問題依然頑固

既然這么牛,為什么ZSL一直不溫不火呢?至少沒有像其他深度學習算法一樣成為“群寵”。主要原因還是在于幾個“牛皮癬式”的頑疾:一是ZSL的效果依賴于相似模態的信息。在訓練時如果訓練集和測試集的類別相差太大,比如一個里面全是動物,另一個里面全是家居,這時讓ZSL分析二者的映射關系就太困難了,就很容易出現屬性漂移的“強偏”問題,難以預測出正確的結果,導致ZSL的性能表現大打折扣。

二是缺乏足量的專業定義和描述。ZSL雖然不需要大量的圖像數據集,但需要進行特征描述。這方面人工比機器分類效果更好。但目前還缺乏足夠的專業人員進行協助,NLP自身的發展也尚不足以滿足ZSL的需要,使得整體進程相對緩慢。

這些桎梏不解決,ZSL即便具備從零起點到學霸的潛力,也只能入寶山而空回,被不如它的算法搶走工作機會。

隱藏的學霸之魂:Zero-Shot Learning如何打破“零起點”的封???

回顧一年來CV技術的產業化進程,算得上是紅紅火火恍恍惚惚。我們可以想象,未來一兩年,從個人智能終端到城市的眼睛,機器視覺將無處不在。

一面是應用場景百花齊放異?;馃?,一面像ZSL這樣的潛力股又處在相對停滯的狀態,核心問題都沒能取得突破性的進展。

在新年這樣承前啟后的階段,或許是時候給ZSL許一個未來了。

 

作者:腦極體,微信公眾號:腦極體

本文由 @腦極體 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來源于 Unsplash,基于CC0協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發揮!