解密:智能美妝和動(dòng)效自拍背后的技術(shù)

6 評(píng)論 8141 瀏覽 31 收藏 12 分鐘

本文作者主要介紹了人臉識(shí)別系統(tǒng)的三大組成部分,并對(duì)手機(jī)相機(jī)能自動(dòng)美顏的原因進(jìn)行了深度剖析。

這是一個(gè)“看臉”的時(shí)代,一談人臉技術(shù),大家最為熟知就是人臉識(shí)別。該技術(shù)在金融、社保、教育、安防等領(lǐng)域表現(xiàn)活躍,成為AI技術(shù)領(lǐng)域的明星。優(yōu)圖微信公眾號(hào)之前也重點(diǎn)介紹過優(yōu)圖人臉識(shí)別,本文主要介紹一些背后默默支持人臉識(shí)別的技術(shù)。

一般而言,一個(gè)完整的人臉識(shí)別系統(tǒng)包含三大主要組成部分,即人臉檢測(cè)、人臉配準(zhǔn)以及人臉識(shí)別。三者流水線操作:人臉檢測(cè)在圖像中找到人臉的位置,接著人臉配準(zhǔn)在人臉上找到眼睛、鼻子、嘴巴等面部器官的位置,最后人臉識(shí)別抽取特征與既有人臉比對(duì)計(jì)算相似度,確認(rèn)人臉對(duì)應(yīng)的身份。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖1? 人臉識(shí)別流程

1.?人臉配準(zhǔn)簡介

人臉配準(zhǔn)(Face?Alignment)又稱人臉特征點(diǎn)檢測(cè)與定位。人臉特征點(diǎn)不同于角點(diǎn)或SIFT特征點(diǎn)等通常意義上的圖像特征點(diǎn),人臉特征點(diǎn)通常是一組由人工事先定義的點(diǎn)(見圖2)。根據(jù)不同應(yīng)用場景,特征點(diǎn)有不同的數(shù)目,例如5點(diǎn),68點(diǎn),82點(diǎn)等。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖2? 人臉特征點(diǎn)檢測(cè)與定位中常用的目標(biāo)檢測(cè)點(diǎn)

除了在人臉識(shí)別系統(tǒng)中起關(guān)鍵作用之外,人臉配準(zhǔn)技術(shù)也在3D人臉建模,人臉動(dòng)畫,人臉表情分析,人臉美化與虛擬化妝,人臉自拍動(dòng)效等領(lǐng)域得到了廣泛的應(yīng)用。打個(gè)小廣告,優(yōu)圖人臉配準(zhǔn)跟蹤技術(shù)性能卓越,主流手機(jī)單幀處理速度可達(dá)到3ms以內(nèi),已經(jīng)在“天天p圖-動(dòng)效自拍”、“手機(jī)QQ-短視頻”、“手機(jī)QQ-視頻聊天”“手機(jī)Qzone-動(dòng)效相機(jī)”等應(yīng)用場景落地。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖3 ?人臉美化與虛擬化妝

2.人臉配準(zhǔn)研究現(xiàn)狀

傳統(tǒng)人臉配準(zhǔn)研究

和其他人臉技術(shù)類似,光照、頭部姿態(tài)、表情等的變化,以及遮擋都會(huì)很大程度影響人臉配準(zhǔn)的精度。但是人臉配準(zhǔn)也具有自身特點(diǎn),首先特征點(diǎn)描述了人臉的結(jié)構(gòu)(輪廓和五官),人臉結(jié)構(gòu)是完整穩(wěn)定的,五官相對(duì)位置固定;其次,頭部姿態(tài)、表情等變化造成的特征點(diǎn)位置變化明顯。傳統(tǒng)人臉配準(zhǔn)研究需要一直嘗試尋找更加精準(zhǔn)的特征描述來表達(dá)這種既確定又變化的點(diǎn)的組合,再根據(jù)描述符選擇適當(dāng)?shù)膬?yōu)化求解方法,從而定位人臉特征點(diǎn)。

最直接被采用的特征描述符是顏色、灰度,利用膚色的不同對(duì)人臉各部分進(jìn)行檢測(cè)定位。 稍復(fù)雜些可選擇各種紋理特征描述,如基于類Haar紋理特征和Adaboost訓(xùn)練級(jí)聯(lián)分類器的人臉配準(zhǔn)。以上特征描述都沒有考慮特征點(diǎn)之間的位置關(guān)系,因此不具備維持合理的人臉結(jié)構(gòu)。主動(dòng)形狀模型(Active?Shape?Models,?ASM)和主動(dòng)外觀模型(Active?Appearance?Model,?AAM)可以同時(shí)表達(dá)紋理和形狀(shape)兩種特征。

二者的形狀特征都由點(diǎn)分布模型(Point?Distribution?Model,?PDM)來表達(dá)。圖4為600張人臉圖像中人臉特征點(diǎn)的統(tǒng)計(jì)分布圖,紅點(diǎn)表示各特征點(diǎn)的均值。ASM的每個(gè)特征點(diǎn)的紋理特征是分別表示的,通過計(jì)算特征點(diǎn)周圍鄰域紋理信息生成每個(gè)特征點(diǎn)對(duì)應(yīng)的響應(yīng)圖(Response?Map)。圖5中藍(lán)色圈定區(qū)域用于計(jì)算響應(yīng)圖,紅點(diǎn)指示實(shí)際人臉特征點(diǎn)位置。AAM使用整體人臉來描述紋理特征,通過將人臉特征點(diǎn)位置變換到標(biāo)準(zhǔn)形狀上,得到與形狀無關(guān)的人臉紋理,并基于主元分析方法對(duì)形狀無關(guān)的人臉紋理進(jìn)行建模。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

深度人臉配準(zhǔn)研究

從2006年開始,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)逐步在計(jì)算機(jī)視覺、語音識(shí)別和自然語言處理等多個(gè)領(lǐng)域取得了前所未有的成功,同樣也給人臉配準(zhǔn)研究帶來了習(xí)習(xí)春風(fēng)。學(xué)者們無需再挖空心思構(gòu)建各種繁瑣復(fù)雜的人臉描述符了。目前學(xué)術(shù)界工業(yè)界比較認(rèn)可的深度人臉配準(zhǔn)方法有兩類:級(jí)聯(lián)卷積網(wǎng)絡(luò)人臉配準(zhǔn)(Cascade?CNN) 和多任務(wù)深度人臉配準(zhǔn)。

如圖6所示,Cascade?CNN包含三級(jí),每級(jí)包含多個(gè)卷積網(wǎng)絡(luò)。第一級(jí)給出一個(gè)初始點(diǎn)位置估計(jì),在此基礎(chǔ)上后兩級(jí)精細(xì)調(diào)整特征點(diǎn)位置。多任務(wù)配準(zhǔn)將配準(zhǔn)與其他相關(guān)人臉屬性的訓(xùn)練同時(shí)進(jìn)行。與臉部特征點(diǎn)相關(guān)的屬性包含頭部姿態(tài),表情等,比如笑臉的嘴部很可能是張開的,正面臉特征點(diǎn)則對(duì)稱分布。多任務(wù)有助于提升特征點(diǎn)檢測(cè)定位精度。然而不同的任務(wù)會(huì)有不同的收斂速度和難度,訓(xùn)練難度加大。目前學(xué)界提供了兩種解決方案調(diào)整不同的任務(wù)的訓(xùn)練進(jìn)程:任務(wù)提早終止準(zhǔn)則(task-wise?early?stopping?criterion)和參數(shù)動(dòng)態(tài)控制機(jī)制。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖6??Cascade CNN?網(wǎng)絡(luò)模型

3.優(yōu)圖人臉配準(zhǔn)

不同應(yīng)用場景的人臉配準(zhǔn)

學(xué)術(shù)界人臉配準(zhǔn)的研究日新月異,工業(yè)界產(chǎn)品應(yīng)用對(duì)技術(shù)的要求也越來越高,且不同應(yīng)用場景對(duì)人臉配準(zhǔn)提出了不同的要求。

人臉識(shí)別業(yè)務(wù)的核心問題是人臉圖像像素之間高層語義的對(duì)齊,即人臉關(guān)鍵特征點(diǎn)的定位。錯(cuò)誤的特征定位會(huì)導(dǎo)致提取的人臉描述特征嚴(yán)重變形,進(jìn)而導(dǎo)致識(shí)別性能下降。為了更好地支持人臉識(shí)別,我們加大了人臉框的變化的范圍,以減少對(duì)人臉檢測(cè)框大小的依賴。人臉特征點(diǎn)我們選擇五點(diǎn),既保證一定的人臉結(jié)構(gòu)描述能力,又減小了配準(zhǔn)誤差對(duì)人臉識(shí)別的影響。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖7?人臉識(shí)別

美妝需要人臉特征點(diǎn)達(dá)到超高精度定位,例如眼妝中的眼線睫毛,只有定位夠精準(zhǔn),才能達(dá)到自然貼合的美妝效果。為了提供精度,我們采用了級(jí)聯(lián)模型,先粗略定位人臉面部特征,再對(duì)五官進(jìn)行精細(xì)化定位。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

圖8? 智能美妝

人臉自拍動(dòng)效應(yīng)用處理移動(dòng)端視頻,對(duì)配準(zhǔn)的處理速度要求嚴(yán)格。傳統(tǒng)人臉配準(zhǔn)技術(shù)不具備判定跟蹤是否成功的能力,為避免跟蹤過程中出現(xiàn)跟丟的現(xiàn)象(跟蹤到非人臉區(qū)域),必須依賴耗時(shí)較長的人臉檢測(cè),我們的人臉配準(zhǔn)增加了人臉判定功能,減少對(duì)人臉檢測(cè)的依賴。另外我們采用了瘦長型深度神經(jīng)網(wǎng)絡(luò),并應(yīng)用SVD分解進(jìn)行模型壓縮和算法加速,算法模型大小控制在1M,主流手機(jī)上的處理時(shí)間僅需3ms。模型大小和計(jì)算速度均為業(yè)界最高水準(zhǔn)。

解密:智能美妝和動(dòng)效自拍背后的技術(shù)

視頻1 ?人臉自拍特效

優(yōu)圖人臉配準(zhǔn)的更新?lián)Q代

優(yōu)圖實(shí)驗(yàn)室不斷跟進(jìn)技術(shù)發(fā)展趨勢(shì),更新版本。優(yōu)圖人臉配準(zhǔn)技術(shù)從傳統(tǒng)方法遷移到深度學(xué)習(xí)方法,從最新學(xué)術(shù)研究成果到最佳工程取舍,我們經(jīng)過多輪的迭代更新,做了大量的創(chuàng)新和嘗試。于2013年4月發(fā)布了人臉配準(zhǔn)1.0版本,粗略定位人臉五官,4個(gè)月后精準(zhǔn)定位的2.0版本也成功發(fā)布,并應(yīng)用在趣味類產(chǎn)品中。之后的版本3.0精度大幅提高,同時(shí)在美妝產(chǎn)品中落地。4.0版本開始應(yīng)用深度學(xué)習(xí)方法,精度得到了進(jìn)一步提高,平均精度超過了人工水平。今年5月我們發(fā)布的最新版本5.0采用深度多任務(wù)學(xué)習(xí)方法,在速度和深度網(wǎng)絡(luò)模型大小都得到了大幅優(yōu)化,主流手機(jī)幀率超過200,模型1M,并自帶人臉判定功能。簡介中提到的人臉自拍動(dòng)效應(yīng)用就得到了此版本的支持。

4.?后續(xù)的研發(fā)計(jì)劃

未來我們一方面著力提升已落地應(yīng)用的用戶體驗(yàn),另一方面也積極探索新的應(yīng)用場景。目前自拍視頻的人臉配準(zhǔn)跟蹤效果仍存在不足。要解決此問題,提升用戶體驗(yàn)依賴于進(jìn)一步研究如何提升人臉配準(zhǔn)的穩(wěn)定性和精準(zhǔn)度。除本文已提到的應(yīng)用以外,優(yōu)圖人臉配準(zhǔn)技術(shù)還可以應(yīng)用于智能門禁系統(tǒng)、互聯(lián)網(wǎng)金融核身、直播行業(yè)等眾多領(lǐng)域。在新的應(yīng)用領(lǐng)域,研究人臉配準(zhǔn)技術(shù)如何滿足新需求是我們必將面對(duì)的另一課題。

 

作者:騰訊優(yōu)圖

來源:http://www.leiphone.com/news/201608/5SEXhhBB9hWIyyrN.html

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@雷鋒網(wǎng)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感觸頗深,我目前想深耕這個(gè)領(lǐng)域的項(xiàng)目,奈何技術(shù)不懂,請(qǐng)多指教

    來自福建 回復(fù)
  2. 好文章

    回復(fù)
  3. 學(xué)習(xí)了

    回復(fù)
    1. 哈哈

      回復(fù)
    2. 哈哈??

      回復(fù)
    3. 加油

      回復(fù)