智能相冊AI化的“道與法”
編輯導讀:手機里的相片越來越多,很多人會習慣把它們存在網上,因此出現了很多智能相冊產品。本文從相冊本身這個產物去探討其背后的底層邏輯,探尋相冊這個現象背后的道與法,希望對你有幫助。
引言:今天要談的這個產品是一個大家每天都在用,但是大部分人感知特別弱的產品,但實現這個產品的智能化會給用戶體驗帶來極大的改善,創造用戶的“aha時刻”。他不僅僅依賴于某一個單一的深度學習算法,而是多模態的算法融合,構建的系統級的AI產品。
這個產品就是我們日常都會用的智能相冊。市面上智能相冊的產品很多,優秀的產品也很多,隨便抄一個疊加一些差異化功能都能做到70-80分。因此接下來我們不談智能相冊具體如何打造從0-1的術和器,而是從相冊本身這個產物去探討其背后的底層邏輯,探尋相冊這個現象背后的道與法。
了解相冊背后的底層邏輯,我們還是套用常用的方法論,從what、where、when、why和how來進行拆分。
一、what
什么是相冊?其實相冊這個產品并不是近些年才有,應該是伴隨人類文明誕生就存在。從遠古時代的人類祖先在洞穴居住的時候,就會洞穴墻壁上進行繪畫,這一副一副的畫作我們就將其定義為相冊集。通過這種方式人們來記錄對于世界的理解,人物之間的關系、發生的事件、世界的萬物(動物、植物等)、人們腦海里的想象、夢境等等;
隨著宗教逐漸的發展,記錄的內容除了客觀存在的世間萬物之外,相冊內容包含了大量的宗教傳說中描繪的景象;隨著人們對于工具的開發和應用,內容更加精美,可讀性更好,更易于傳遞創作者想要表達的意圖和人物所處的環境。
到了近代,在照相機發明之前(1839),我們對于相冊的定義是通過各式各樣的畫作的集合,比如藝術大家的作品集,里面的內容范疇與史前人們對于世界理解和記錄并無二致;比如宮廷帝王在一些重要場合下聘請畫師進行寫實的肖像繪畫,畫家戶外的寫生,同樣也包含大量基于宗教故事、宗教人物的理解再創作。
隨著相機的發明,人們對于世界的記錄和理解方式又多了一種。但是記錄的東西想要傳達的情感并沒有因為記錄的工具發生變化而改變。通過相機的方式,讓相冊不再是王公、宗教貴族等少數社會頂層的人們擁有的東西,相冊的全民化與普及,讓普通人也可以通過更豐富的元素光影、色彩來記錄下對于世界的理解、人與世界的關系,幫助人們更好的審視自己的人生。
綜上,相冊雖然隨著科技的進步載體和表現形式不同,但是其本質及發揮的作用并沒有改變。且是人做為人區別于其他生物最大的區分,通過一種形式承載情感與傳遞思想,記錄每個人與外界交互產生的片段。相冊的歸屬可以是個體、家庭又或是一個組織。
二、where&when
什么場景下會使用相冊:
- 比如在一些儀式上,畢業日、婚禮、生日上、家庭聚會等,與其他人產生交集的會分享的場景(用于傳遞表達情感);
- 自己日常使用,查找一些過去的記憶(基于時間、事件、人物、地點、場景);比如去年今日、婚禮上的照片、閨蜜的照片、馬爾代夫的旅游記憶、備忘錄(知識、信息、名片、證照等)
- 基于相冊的內容進行進一步加工二次創作,基于某個主題進行編輯加工制作短視頻、vlog等等;(圖片、視頻、其他素材等等)
隨著進入“萬物皆可屏”的時代到來,相冊存在的載體也更加豐富了:比如車載的中控大屏,內容可以是行車記錄儀、車內的旅行乘客記錄、車外的風景等;
比如電視大屏,內容可以是適合家庭一起觀看的家人們的視頻與照片,生活記錄的點滴;
家中的電子相冊(帶屏音箱等其他智慧中屏),內容可能是藝術畫作、亦或是家庭的合影等等;
手表上的相冊,可以是人物的大頭照、自然風景、寵物、建筑或者是用于作為壁紙的內容;如果是兒童手表的話,內容則更加豐富(現在兒童手表很多支持雙攝),自拍、合影,小朋友的第一視角認知的這個世界、周遭的環境;
三、why
為什么相冊亟需智能或者是AI加持,賦予其更多功能呢?
其原因在于我們的電子相冊里面記錄了人與世界交互產生的痕跡,人看外界的視角、人抽象的情感&思想、人與人的關系;如何理解相冊內容,其實是能幫助智能體更好的理解人本身理解人的情感、意圖,從而進一步幫助智能體更好的為人提供千人千面的進一步服務(航班信息、證件信息、名片信息等)。
其次,前面提到人使用相冊很大一部分原因是需要進行查找、分類進行進一步的創作,因此通過人工智能機器學習的算法可以作為工具提升查找效率、并且幫助人們進行二次加工創作。
最重要的是,相冊本身承載了人的情感,通過機器學習的方法理解相冊的內容,理解人們的情感、記錄人生活的點滴,在合適的時間通過已有相冊內容制作視頻幫人們喚起一段回憶,與人們產生共情。這可能是一個好的相冊產品能達到的最高境界了。而想要做到這些必須依賴于人工智能機器學習算法模型的加持,相冊需要背后有強大的算力支持。
四、how
如何打造一款有情感方便好用的相冊呢?有什么可以應用的機器學習算法,像魔法一樣,讓相冊也可以像哈利波特世界中的一樣鮮活起來?
首先我們可以看看國內外的科技巨頭都是怎么做的?
競品分析
我們如何打造一個情感化屬性的智能相冊呢?
首先是基礎的圖像分類能力,這個是計算機視覺最為基礎的任務,但如何分類更符合用戶相冊的場景定義,如何分類卻不冒犯到用戶(之前有人提到過某相冊把某用戶的母親分類為黑猩猩,當時引起爭議),寧不分也不要分錯(再同樣的前提下,優先保證準確率而不是召回率),在相冊分類的場景下人們可能更希望的是大類的區分而不是像學術人物里面針對物種的類間區分;
除了事物的分類之外,另外一大類就是對于人臉聚類,就是按人物ID進行區分,把同一個人分到一起,可以找到這個人的照片。但是某個人的照片哪些要展示出來,哪些不展示,也需要進行設計,比如說用戶并不愿意看到自己臉部很模糊、或者很丑態的照片,在人臉質量打分中、質量分低于某個閾值的是否就不以分類的結果進行展示。
圖像美學質量評價:如何選擇機器學習里質量分較高(人臉大小、光照、正面角度、清晰度等等)、且人主觀也認為比較好看的照片進行圖片優選?甚至進行進一步加工創作、制作回憶視頻等等,這里就涉及到關于圖像美學質量的模型設計以及人像美學質量的深度學習模型設計了。
看圖說話:基于已建立好的照片/視頻(多幀時序圖片)分類及美學評價體系建立的基礎上,我們進一步可以理解照片所表達的背后意圖,傳遞的感情,比如現在主流的image caption方向和visual question answering方向,都是基于CV+NLP的多模態學習任務,非常適用于相冊智能化的場景中。image caption就是看圖說話,比如我們提到Instagram做的視覺障礙人士可以聽見ins上的圖片所表達的含義就是image caption的典型應用。
VQA:(visual question answering)其實是更近了一步,除了理解畫面所表示的含義之外,還可以基于圖片進行提問,機器需要理解的內容除了表述畫面所顯示的內容之外,還要理解問題,并且在畫面中找到相應的答案,VQA無疑是將圖像理解更推進了一個維度。包含的問題包括二分類問題、計數問題、開放問題等等。
在比如通過一些全局搜索/語音助手的query可以找到滿足用戶意圖的相冊里的匹配圖片、視頻,理解了用戶意圖的基礎上,進行相應的回復,這也是讓相冊更加理解用戶,與用戶共情的必要條件。
GAN-趣味體驗:最后增加相冊體驗的可玩性,趣味性,增加產品的魅力因素的功能包括。比如,讓2D平面照片像施了魔法一樣動起來的3D photo,通過深度估計、matting、inpainting等一系列技術,如果想要將人臉也變得立體,需要將人臉進行三維重建,現在也有基于單張或多張RGB相片進行3D人臉重建的技術,可以想象一下未來你相冊里的人臉可以轉動,可以做不同的表情,是不是非常有趣呢?
此外圍繞GAN展開的一系列應用,也非常適合在相冊里作為拓展功能增加用戶的粘性,比如把舊時的黑白老照片進行修復,恢復色彩、變得清晰,把相冊里的人物制作漫畫風格、迪士尼風格的各種人像的風格遷移頭像;同樣可以進行年齡編輯,看看老了什么樣子、小的時候什么樣子、換一種性別又是什么樣子,人臉與人臉融合是什么樣子等等。
同樣對于相冊里拍攝的各種風景、建筑照片也可以模仿藝術家的各種風格,一鍵變梵高風、一鍵變莫奈風;雖然這些名師大家已經離我們遠去了,但是通過AI的技術我們還是能得到他們風格的畫作,不也是一種人類文明精神的傳承與延續。
最近這兩年做了人工智能的產品并積攢了相應的經驗,逐步了解探索深度學習學科的邏輯并發現能佐證哲學中關于人與世界關系的一些設定,通過深度學習能幫助我們看到客觀世界與人們的主觀感受投射之融合,對立統一的呈現于世。
最后送給大家一句話,來自王國維的《人間詞話》: “詩人對宇宙人生,須入乎其內,又須出乎其外。入乎其內,故能寫之;出乎其外,故能觀之?!?希望大家既入世又出世,既現實又浪漫的生活,讓AI賦能的產品為人類社會創造更大價值、給予更多美好。
作者:大仙河? 微信號 :大仙河知識學堂。專注分享關于人工智能產品、智能硬件、哲學的思考。
本文由 @大仙河? 原創發布于人人都是產品經理,未經許可,禁止轉載
題圖來自Unsplash,基于 CC0 協議
相冊還有這么多玩法 學到了