除了制造“逼真假臉”,GANs還在看不見的角落里悄悄搞事情
GANs(Generative Adversarial Nets,生成對抗網絡)是非監督式學習的一種方法,通過讓兩個神經網絡相互博弈的方式進行學習,常用于生成以假亂真的圖片視頻、三維物體模型等。
自2014年誕生之日起,GANs(Generative Adversarial Nets,生成對抗網絡)就一直是機器學習領域的“流量擔當”,過去的兩年間更是迎來了成果井噴。
有人還專門為它建立了一個GAN Zoo,用來收集所有已被命名的GAN,目前已經有500多個了。欣賞一下這令人咋舌的增長曲線:
盡管GANs的進步是日新月異,但仔細觀察一下就會發現,最廣為人知的吸睛案例,大都集中在娛樂領域,而且不乏吐槽之聲。
比如從去年年底英偉達推出的GAN,合成的人臉幾乎能夠以假亂真,一眾媒體直呼“可怕”。前不久它終于有了自己的名字“StyleGAN”,源代碼也免費公布,立馬又被愛搞事情的網友送到了風口浪尖上。
來自Uber的軟件工程師Philip Wang利用styleGAN做了一個網站,每次刷新都會生成一個“現實中不存在”的人臉,逼真得令人毛骨悚然。
很快就有網友表示,看到了一張跟自己一樣的臉,然后她就真的不存在了……這個賽博朋克式的神展開,立馬讓大家帶入了被“假臉”支配的恐懼。
當然,除了探討照片是否可信、帶來識別安全問題怎么辦這些問題之外,或許我們也應該關注一下,為什么GANs一路進化,大多數研究卻總是聚焦在換臉技術上呢?
這場熱鬧非凡的換臉游戲背后,恐怕隱藏著一個GANs從算法走向產業道路上最難突破的瓶頸。
GANs新成員:換臉技術哪家強?
GANs從出道那天開始,“圖像生成”就是最能打的一塊招牌。而在各種各樣GANs中,“新晉網紅”styleGAN,絕對是面部生成的技術擔當。
關于英偉達這個新模型,我們去年就第一時間解讀過,在此不再贅述。簡單來說,就是讓生成器模仿風格遷移算法的方法,學會識別出更高級、也更有意義的特征變化(比如年齡、臉部細節等等),從而讓圖像生成效果更加逼真。
同時,styleGAN的識別效率也大幅度提升,能夠自動分離圖像中的變化,開發者能夠以直觀的方式控制合成結果。加上前不久英偉達開放了圖像數據集和styleGAN的源代碼,自然吸引了不少技術大佬們躍躍欲試。
有用它“造老婆”的,一位名叫roadrunner01的程序猿,用大量二次元少女的圖片訓練StyleGAN,各種風格的紙片人妹子任由選擇。
當然還有失敗的。由于準備不充分,靠StyleGAN生成假臉的網站“thispersondoesnotexist”就被群嘲了,因為網友在上面找到了幾乎和自己一樣的臉,就此掀起了一陣“刷新一次消失一個人類”的都市靈異文學創作熱情。
真的是,沒有全球70億人的人臉數據集,就不要攬瓷器活兒啊。不僅圖像能造假,視頻也沒逃過此劫。
去年年初,基于GAN的視頻換臉術Deepfakes,就被用來制造了一大堆足以亂真的假視頻,斯嘉麗·約翰遜、神奇女俠蓋爾加朵、楊冪、劉亦菲等中外名人紛紛成了假視頻的主角。
盡管GANs的進展很令人欣喜,但一個尷尬而無奈的現實也就此清晰地呈現在了它的進化之路上——絕大多數成果都聚焦在圖像生成上,并且常常以娛樂、夸張的形式出現,“逆天”“以假亂真”“被色情”等新聞不絕于耳。
人臉生成的效果太好、門檻太低,正在挑戰著公眾的辨別能力,讓大眾對網絡內容和圖像證據的信任進一步坍塌,而那些大眾期待的、GANs真正改變產業和生活的效用,卻仿佛集體失聲了。怎么回事?
除了“逼真假臉”,GANs還有哪些打開方式?
首先要替GANs澄清一下,作為一個能自我判別和推倒出新樣本的生成算法,它能應用的訓練場景和商業前景是非常大的。而且,正在勤勤懇懇地“為人民服務”,為不少產業的進化添磚加瓦。比如:
1. 影視創作
創作是最考驗想象力和藝術張力的地方,也是越來越勞動密集型的產業之一。
在工業制作體系成熟的好萊塢,一部電影從編劇到營銷團隊往往多大數千人。而GAN恰恰可以改變這樣昂貴而高風險的生產過程。
項目前期,GAN可以利用文字描述生成相匹配的逼真圖像,快速打破次元壁,高效而還原地生成電影腳本,避免因為畫風跑偏而收獲原著粉贈送的“人參萬兩”;
在后期剪輯上,IBM正在利用以GAN為基礎的AI算法,去識別視頻中的臺詞和場景的意義,根據角色的心情、劇情的復雜程度以及前后片段的關聯程度,快速生成電影宣傳片,大幅壓縮了制作成本和時間周期。
2. 圖像修復
現實中,我們常常會面對一些歷史原因而辨識體驗較差的圖像,比如被損毀的文物殘片、消失了一半的古建筑、上個世紀創作的游戲或電影,對它們進行修復或復刻,往往只能依靠某些專精技術人員日以繼夜的努力。
現在在GAN的幫助下,可以更高效地還原和處理這些瑕疵部分。
比如在英偉達的一篇論文中,就闡述了它是如何用GAN訓練出的“圖像翻譯網絡”(Partial Convolutions)為圖像上的建筑和場景補上缺失部分的。
一些超經典的游戲,比如《重返德軍總部》、《上古卷軸III》、《馬克思·佩恩》等,都陸續被 ESRGAN(增強型超分辨率生成對抗網絡)進行了重置。畫面變得更加精美的同時,還忠實地保留了原來的藝術風格,以后玩家和劇迷們再也不用擔心心愛的作品被人工改得面目全非了。
《馬克思·佩恩》原版截圖VSESRGAN重制后的截圖
3. 個性時尚導師
除了還原,GANs還具備超強的想象力,可以通過多元樣本進行判斷與生成,從而輸出個性化又風格統一的方案。比如亞馬遜和阿里巴巴都在打造的“時尚人工智能”(FashionAI),就是利用GANs實現的。
加載了GANs的電商推薦系統不僅能夠向用戶提供個性化的時尚搭配建議,而且還能夠將二維商品圖轉化成3D試穿效果圖,從而幫助商家進行服裝銷售。
研究人員利用亞馬遜商城用戶在六種商品(男女款式的鞋類,上裝,下裝)的購買數據來分析其商品偏好,然后訓練出相應的GAN模型。阿里巴巴的新零售線下店,也是采用了該技術來向店內顧客展示和推薦商品。
4. 新成分預測
除了這些觸手可及的現實應用,GANs在產業端更值得期待的價值,還體現在新藥研發和材料學領域,比如用來生成新的藥學分子結構和合成新材料等等。
有數據統計,每種新藥研發大約需要10年時間。期間,制藥公司需要設計合成成千上萬的分子,然后一一進行生物學測試,成功率往往卻只有2萬至3萬分之一。
有了GANs,就能相關信息對分子結構進行高精度的樣本預測,加快實驗進度的同時,全新的未知成分顯然更有可能幫助人類攻克懸而未決的醫學難題。
因此,盡管這一應用目前還停留在創意階段,但其背后的商業想象空間卻格外巨大。
目前來看,GANs正在一群產業巨頭們的支持下,開啟了更廣闊的應用場景探索之路。這場技術拉力賽,并不只有奇聞異事,而是在真槍實戰中打磨出了金子般的光芒。
為什么出風頭的總是“變臉”?
既然GANs已經斬獲了這么多成績,為什么一提起來,大家想到的總是“照騙”“視騙”這些販賣焦慮的新聞呢?那些干實事的模型不配有姓名嗎?
客觀來說,一項新技術要證明自己的強大之處,用一些“逆天”“超越人類想象”之類夸張的效果來迅速被大眾所認知,這不難理解。
但GANs之所以被這些“造假”新聞淹沒,還要感謝將股價押注在AI身上的英偉達不斷造勢,而“以假亂真”“令人害怕”的新聞背后,更關系著媒體們無數爆款文的績效,在這樣的雙重推動下,“只知換臉,無論其他”的GANs自然愈發深入人心了。
而那些下沉在產業端的GANs應用,又為何都如此“謹小慎微”、罕見發聲呢?一方面GANs自身還有一些缺陷尚待解決,導致其成果并不穩定。
比如模式坍塌(Mode collapse)問題,在復雜且多模態的自然數據集中,生成器只能從相似樣本的模式集中生成樣本,這將直接限制結果的多樣性,從而影響使用。
另外,在GANs相關訓練中,很難精準地判斷合適能生成高質量的作品,現實中顯然不可能投入無限多的時間和資源去等待一個未知的訓練結果。
因此,今天說到的應用案例,都更具示范價值和探索意義,距離大規模應用還有一段路要走。對于企業來說,貿然推出不成熟的產品反而會引發群嘲,自然更愿意低調行事、關門打磨產品了。
更重要的是,GANs需要大量商業數據的投喂,才能發揮出實驗室類似的效果。而無論是數據成本還是算力成本,都決定了GANs所代表的便利和可能性,目前只對一些產業巨頭有用。
這也是為什么,除了學界和個人開發者偶爾搞點“聳人聽聞”的大新聞,GANs至今還沒能在現實領域中遍地開花。
不過,娛樂往往是速朽的,“造假”恐怖事件玩得多了,大眾也會產生審美疲勞,最終很可能將一個特殊領域的潛在危險,變成對整個技術的泛在質疑。不要讓一切值得思考的,都成為娛樂的附庸。
作者:腦極體,微信公眾號:腦極體
本文由 @腦極體 原創發布于人人都是產品經理。未經許可,禁止轉載。
題圖來源于 Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!