你拍的短視頻竟被它“看懂”了?無理解,不AI
或許你還以為視頻僅能依靠用戶數據間接地進行理解,其實不然,“它”也可以……
每當你觀看短視頻的精彩內容時,可曾想過,這或許是你這一天距離AI最近的時刻?
也許你是互聯網圈的業內人士或者互聯網技術的愛好者,你會說:“知道啊,不就是智能推薦、分發系統嗎?很多產品都有啊。”然而,AI對于短視頻的應用僅限于此嗎?
Of course not!事實上,從視頻的錄制,到視頻的編碼,從視頻內容的理解,到用戶畫像的建模,從審核過濾,到分發推薦,AI幾乎走完了每一個環節。其中,最讓人意想不到的是,在視頻理解環節,AI是用“看”的!
那么下面就為大家科普一下,共同揭開快手AI的神秘面紗!
“視頻一直被視為計算機視覺里的暗物質?!惫雀柙剖紫茖W家、ImageNet發起人李飛飛曾這樣描述,視頻理解之難可想而知。為了更好的理解視頻,我們通常會為它打好標簽,下面是幾種常見的方法:
- 發布者或審核人員人工添加標簽:發布者添加標簽不需要依賴算法技術,但容易出現未標注、弱標注和誤標注的情況。而審核人員逐個標注視頻,對于每日產生1500萬條視頻的快手來說,將會帶來巨大的人力成本。
- 將視頻看作黑盒,直接依靠用戶行為數據進行推薦:比如,與你有著相似用戶畫像的人中,大多數都點贊了的某個視頻,就把它直接推薦給你。這種方法不需依靠計算機視覺這種高難度技術,且能取得不錯的效果,目前非常主流。
- 用戶行為數據與視頻內容理解相結合:也是快手正在使用的,更考驗技術人員對“多模態”技術的理解(視頻的多種模態可以理解為視覺、聽覺、文本的綜合信息形式),再加上用戶行為數據也是另外一種模態的數據,所以理解短視頻成了一種極為復雜的多模態問題。
那么,如此高深的視頻理解技術是如何發展出來的呢?又將走向何方呢?且聽我慢慢道來。
一切的一切,從認識事物開始——最初的它
為了讓AI識別物體,科學家們可謂是煞費苦心,甚至為此建立了世界上最大的圖像數據庫——ImageNet,里面的每張圖片都人為打好了標簽,來讓AI進行視覺訓練。
在去年的ImageNet視覺識別挑戰賽中,有八成參賽隊伍的圖像識別準確率超過95%。
別小看了這個基礎的物體識別,實際上它大大豐富了短視頻的趣味性!
其中,正是因為有了人臉關鍵點的識別,才有了“快手時光機”等眾多魔法表情;正是因為有了肢體識別技術,才有了“跳舞機”有趣的魔法表情游戲;也正是因為有了對平面、邊角的識別,才有了逼真的AR玩法。
今年烏鎮的世界互聯網大會上,快手科技的展臺被圍得水泄不通,人們都想體驗一把“找到世界上另一個自己”的黑科技。
如圖,體驗者走到屏幕前,點擊拍攝按鈕,右邊的屏幕上就會出現了一個與自己長相非常相似的人!并播放這段用戶公開視頻。
其實,這些數據是事先提取出來的,在用戶將視頻上傳到服務器后,AI就會根據視頻的內容進行理解,提取一些基本信息,包括面部的三維特征,另外,AI還會進一步分析,進而得出人臉的年齡、性別、甚至是顏值。
知曉你的憂,洞悉你的愁——現在的它
前面提到了AI對圖像的物體識別有了巨大突破,那么一組圖像和一個視頻有什么差別嗎?視頻不就是由圖片組成的嗎?
其實兩者之間是有區別的。
首先,視頻的圖像間是有時間順序的,比如,運動的物體的通常具有特殊語義,把一組舞蹈動作圖片分開來看,就很難知道這是什么舞,而識別物體的移動、變化對AI來講不是一件易事。
再者,正如前面提到的,視頻是多模態的,包括圖像、人臉、音頻、文本多個部分,AI需要對同一時刻的音頻、視頻等多個維度綜合分析,才能形成更為“立體”的認知,而這對于技術人員又是巨大的挑戰。
而為了豐富AI的認知,我們又不得不為它創立一套認知體系——知識圖譜。
知識圖譜可以理解為AI的“記憶”,圖譜里面的每一個概念都不是簡單的文本,而是立體的形象,比如一只小狗,在AI的印象里,會有它的大量照片,以及狗叫聲,還會知道它愛吃骨頭,這和我們人類對狗的記憶頗為一致,但是也存在著遺漏,像是觸覺這種,目前無法達到。
在快手的知識圖譜中,除了種類繁多的實體概念,還存在著高級的精神概念,如喜怒哀樂、親情和愛情。
那么短視頻是如何被讀懂的呢?我們舉個實際的例子,一場球賽的最后幾分鐘(視頻):梅西帶球破門,踢出關鍵一球,全場觀眾歡呼慶祝,解說員宣布比賽勝利。
在這個視頻中,AI首先進行人臉識別,識別出梅西和其他球員;同時,場景識別和物體識別會確認“球場”和“足球”,確定這是場足球比賽;而在情緒識別上面,AI會通過觀眾的歡呼和球員的表情確定“喜悅、慶?!钡姆諊?;并且,解說員的語音,也會被讀懂,更直觀地理解視頻里發生的內容(即便是非常嘈雜的比賽環境,聰明的AI也會智能地為其降噪)。
機器亦有“心”——未來的它
雖然目前的AI在情感層面的理解上,無法達到較高的準確性。但是,以現在的AI發展速度來看,相信在不遠的將來,AI就會成為精神世界的一道風景線。
關于未來的AI(視頻理解、視覺理解方向),我想到了未來可能發生的三種應用,一起來分享給大家:
- 率先發生的是無人駕駛,AI對于物體(尤其是運動的物體)可以無障礙識別,完美解決路況分析問題。
- 第二階段是影評大師,AI對于人類的情感以及電影的藝術手法有了深刻的認識,可以做出權威的評價。
- 第三階段是AI男/女朋友,各項人工智能技術發展成熟,相互融合,而計算機視覺不再是一個獨立體,而更像是一個器官——“眼睛”,最終的AI成品可以作為我們的靈魂伴侶(完美解決我國男性的單身問題,笑)。
無論如何,AI的萌芽已經被種下了,到底會結出怎樣的果實呢,相信大家也滿懷期待吧,歡迎大家在評論區留言,說說自己心中未來的“它”!
本文由 @?信管專業學生 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!