唇語(yǔ)識(shí)別,真會(huì)是語(yǔ)言交互的終極戰(zhàn)場(chǎng)?
自出現(xiàn)唇語(yǔ)識(shí)別技術(shù)出現(xiàn)起,就有聲音說(shuō)唇語(yǔ)識(shí)別是語(yǔ)言交互的高階戰(zhàn),甚至可能帶來(lái)一場(chǎng)革命。不過(guò),從本文來(lái)看,唇語(yǔ)識(shí)別還不能快速地普及。
在今年的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上,搜狗展出了一項(xiàng)黑科技——唇語(yǔ)識(shí)別,12月14號(hào)搜狗在北京又公開(kāi)演示了這項(xiàng)技術(shù)。作為行業(yè)領(lǐng)先的唇語(yǔ)識(shí)別系統(tǒng),搜狗在非特定開(kāi)放口語(yǔ)測(cè)試中,通用識(shí)別的準(zhǔn)確率在60%以上,而在車(chē)載、智能家居等垂直場(chǎng)景下,已達(dá)到90%的準(zhǔn)確率。
雖說(shuō)搜狗是國(guó)內(nèi)第一家公開(kāi)演示這項(xiàng)技術(shù)的公司,但早在2017年3月,海云數(shù)據(jù)創(chuàng)始人兼CEO馮一村在亞洲大數(shù)據(jù)可視分析峰會(huì)上,就發(fā)布了重慶市公安科研所與海云數(shù)據(jù)共同研發(fā)的唇語(yǔ)識(shí)別技術(shù),它的中文識(shí)別模型準(zhǔn)確率已達(dá)到70%。
而谷歌DeepMind團(tuán)隊(duì),在2016年利用BBC視頻對(duì)他們的AI系統(tǒng)進(jìn)行了5000個(gè)小時(shí)的訓(xùn)練,測(cè)試時(shí)唇語(yǔ)識(shí)別正確率達(dá)到了46.8%。
這并不是場(chǎng)獨(dú)角戲,那唇語(yǔ)識(shí)別到底是何物?未來(lái)又有著怎樣的想象空間?
唇語(yǔ)識(shí)別只是語(yǔ)言識(shí)別的進(jìn)化
雖說(shuō)唇語(yǔ)識(shí)別近期才進(jìn)入公眾視野,但唇語(yǔ)識(shí)別技術(shù)的發(fā)展可以追溯到上世紀(jì)80年代。
當(dāng)時(shí),語(yǔ)音識(shí)別技術(shù)迅速發(fā)展,出現(xiàn)了許多實(shí)用的語(yǔ)音識(shí)別系統(tǒng),然而這些系統(tǒng)抗干擾能力不強(qiáng),在有背景噪音與交叉談話(huà)的情況下,它們的性能會(huì)大幅降低。而在自然應(yīng)用環(huán)境中,噪音現(xiàn)象十分常見(jiàn),研究者們?yōu)榱私鉀Q上述缺陷,一方面采用降噪技術(shù)降低干擾,另一方面開(kāi)始尋求其它解決方法。
那唇語(yǔ)識(shí)別技術(shù)是怎么發(fā)展來(lái)的呢?語(yǔ)音識(shí)別的研究者們突然發(fā)現(xiàn),其實(shí)人類(lèi)的語(yǔ)言識(shí)別系統(tǒng)是由兩個(gè)感知過(guò)程構(gòu)成的,聲音雖然是人類(lèi)語(yǔ)言認(rèn)知過(guò)程中最重要的方式,但在日常交流中,我們還會(huì)用眼睛看著對(duì)方的口型、對(duì)方的表情等,來(lái)更加準(zhǔn)確的理解對(duì)方所講的內(nèi)容。受此啟發(fā),研究者們開(kāi)始研究唇語(yǔ)識(shí)別。因?yàn)榇秸Z(yǔ)識(shí)別完全不會(huì)受到噪聲干擾,在多人對(duì)話(huà)中也能有效進(jìn)行區(qū)分,這就有望解決語(yǔ)音識(shí)別的缺陷。事實(shí)上也是,將唇語(yǔ)識(shí)別與語(yǔ)音識(shí)別結(jié)合起來(lái)能夠大大提高系統(tǒng)的正確率和抗干擾能力,于是唇語(yǔ)識(shí)別便有了更多的發(fā)揮空間。
換湯沒(méi)換藥,近30年的發(fā)展,核心步驟還是三步
經(jīng)過(guò)研究各類(lèi)資料發(fā)現(xiàn),唇語(yǔ)識(shí)別技術(shù)從攝像頭輸入到理解輸出,中間最重要的是這三個(gè)單元——視覺(jué)前段、視覺(jué)特征提取、以及唇動(dòng)識(shí)別。
(圖為:唇語(yǔ)識(shí)別的步驟)
其中,視覺(jué)前段包括人臉檢測(cè)與唇的檢測(cè)和定位,早期檢測(cè)方法比較笨拙,不允許人臉自由移動(dòng),有些還會(huì)手動(dòng)添加特定標(biāo)志來(lái)跟蹤唇動(dòng)。目前的檢測(cè)方法主要是基于算法,先用人臉檢測(cè)算法得到人臉然后有針對(duì)性的定位唇動(dòng);或者利用最佳閩值二值化算法,以唇的邊緣是平滑的,和左右形狀對(duì)稱(chēng)為條件,作為二值化閩值選定的約束條件,得到平滑而對(duì)稱(chēng)的唇圖像。
視覺(jué)特征提取是對(duì)獲取的唇圖像進(jìn)行處理得到對(duì)應(yīng)特征,特征提取方法主要分為兩大類(lèi):基于像素的方法和基于模型的方法。所謂基于像素的方法,就是利用包含嘴的灰度級(jí)圖像或利用經(jīng)過(guò)預(yù)處理后得到的特征向量的一類(lèi)方法。這種方法的缺陷在于對(duì)二維或三維的縮放、旋轉(zhuǎn)、平移、光照變化以及說(shuō)話(huà)人的變化都很敏感,會(huì)造成提取過(guò)程中特征丟失的情況,不能得到完整的特征信息。而搜狗所用的基于模型的方法就是,對(duì)唇的輪廓建立一個(gè)模型,將特征信息包含在這個(gè)模型之中,并對(duì)模型中特征信息的變化用一個(gè)小的參數(shù)來(lái)描述。這類(lèi)方法的優(yōu)點(diǎn)是重要特征被表示成二維參數(shù),不會(huì)因光照、縮放、旋轉(zhuǎn)、平移而改變,缺點(diǎn)是忽略了細(xì)微的三維信息,可能會(huì)對(duì)后面的識(shí)別過(guò)程造成影響。
目前唇動(dòng)識(shí)別采用的技術(shù)大多是隱馬爾可夫模型,該技術(shù)基本思想是,認(rèn)為唇動(dòng)信號(hào)在極短時(shí)間內(nèi)是線(xiàn)性的,可以用線(xiàn)性參數(shù)模型來(lái)表示,然后將許多線(xiàn)性模型在時(shí)間上串接起來(lái),組成一條馬爾可夫鏈。馬爾可夫鏈可以用來(lái)描述統(tǒng)計(jì)特征信息的變化,并且這種變化過(guò)程與人的唇動(dòng)過(guò)程是相吻合的,所以隱馬爾可夫模型能夠識(shí)別唇動(dòng)并與相應(yīng)語(yǔ)句匹配轉(zhuǎn)化成文字。
看似應(yīng)用方向很多,最重要的還是輔助語(yǔ)音識(shí)別
唇語(yǔ)識(shí)別技術(shù)的應(yīng)用方向有很多,比如手語(yǔ)和聽(tīng)力障礙患者的輔助教育、國(guó)防反恐方面的情報(bào)獲取、個(gè)人的身份識(shí)別以及公共安全領(lǐng)域等都擁有巨大的應(yīng)用潛力。但在目前來(lái)看最大的應(yīng)用還是輔助語(yǔ)音識(shí)別,畢竟它自誕生之初就是為了解決語(yǔ)音識(shí)別的噪音問(wèn)題而研發(fā)的,這也會(huì)使得語(yǔ)音交互更加完善。
說(shuō)到這里就不得不提到智能音箱,其實(shí)除搜狗之外,很多大公司也在布局語(yǔ)音交互,國(guó)內(nèi)有阿里巴巴、百度、科大訊飛,國(guó)外有蘋(píng)果、谷歌、微軟、亞馬遜。在今年7月阿里巴巴就發(fā)布了一款智能音響天貓精靈,可以接受各種語(yǔ)音指令,搭載中文人機(jī)交流系統(tǒng)AliGenie,有望成為家庭智能小助手。在11月16日百度也推出了首款智能音響raven H,其采用19×19的點(diǎn)陣觸摸屏,內(nèi)置DuerOS 2.0語(yǔ)音交互系統(tǒng),擁有語(yǔ)音和控制器兩種交互方式。其余還有京東的叮咚智能音響,小米的小愛(ài)同學(xué),喜馬拉雅的小雅音響等智能音響產(chǎn)品。對(duì)于這些公司而言,似乎不出一個(gè)智能音響都不好意思說(shuō)自己在人工智能領(lǐng)域混。
那智能音響到底與唇語(yǔ)識(shí)別有啥關(guān)系?大廠們紛紛推出智能音響的原因是看到了新型交互方式的大趨勢(shì),但是智能音響能夠滿(mǎn)足需求的場(chǎng)景較少,且智能音響還有兩大頑疾——抗噪音能力與遠(yuǎn)場(chǎng)交互能力較低。
根據(jù)聲學(xué)在線(xiàn)的測(cè)試,即便是市面上最主流的智能音響,在抗噪音能力與遠(yuǎn)場(chǎng)交互能力上的表現(xiàn)也不盡如人意,5米的中短距離上有很多失誤。
(圖為:5m 距離智能音響喚醒失敗次數(shù)統(tǒng)計(jì))
而且,傳統(tǒng)語(yǔ)音交互對(duì)輸入音頻要求高,在背景噪音大時(shí)很容易失效,若人與機(jī)器再隔得遠(yuǎn)一點(diǎn),失效的情況就更加嚴(yán)重了。但唇語(yǔ)識(shí)別就可以解決這兩個(gè)問(wèn)題。
若要快速普及,還有兩個(gè)問(wèn)題待解
自出現(xiàn)唇語(yǔ)識(shí)別技術(shù)出現(xiàn)起,就有聲音說(shuō)唇語(yǔ)識(shí)別是語(yǔ)言交互的高階戰(zhàn),甚至可能帶來(lái)一場(chǎng)革命。不過(guò),根據(jù)觀察,目前來(lái)說(shuō),唇語(yǔ)識(shí)別還不能快速普及。這主要的問(wèn)題在:
1、攝像頭錄入存在很大的限制,不能完全滿(mǎn)足日常交互需求
在目前的唇語(yǔ)識(shí)別系統(tǒng)中,獲得的嘴唇視覺(jué)特征信息都是正向的,這就意味著你與它交互時(shí),必須時(shí)刻正對(duì)著它,第一視角被其牢牢占據(jù),這在真實(shí)應(yīng)用場(chǎng)景下難以達(dá)到。要能夠應(yīng)用更多的場(chǎng)景,應(yīng)該使人在側(cè)著身子說(shuō)話(huà)時(shí)也能被檢測(cè)識(shí)別,這要求在人臉識(shí)別、唇的檢測(cè)與定位方面研究出更強(qiáng)的定位、跟蹤算法,提高算法的普適性,使之適用于非特定姿勢(shì)和位置的識(shí)別定位,并且唇動(dòng)識(shí)別技術(shù)也要提高,使之能處理非正向的、較不完整的視覺(jué)特征信息。
2、識(shí)別的準(zhǔn)確度也是一個(gè)關(guān)鍵的問(wèn)題,在有關(guān)安全的場(chǎng)景下,準(zhǔn)確度是不容有差的
但我們知道其實(shí)口型與拼音序列是一對(duì)的多關(guān)系,如 zhi、chi、shi對(duì)應(yīng)的口型序列是一樣的,單純利用視覺(jué)特征難以區(qū)分,會(huì)造成信息識(shí)別錯(cuò)誤,處理這個(gè)問(wèn)題,傳統(tǒng)的技術(shù)方法是文法型語(yǔ)言模型,它基于人工編制的語(yǔ)言學(xué)文法,這種語(yǔ)言模型一般用于分析特定領(lǐng)域內(nèi)的語(yǔ)句,無(wú)法處理大規(guī)模的真實(shí)文本。目前很多識(shí)別系統(tǒng)是人工限定的框架,在某一場(chǎng)景中對(duì)可能會(huì)出現(xiàn)的語(yǔ)句進(jìn)行了很多設(shè)置,這是搜狗唇語(yǔ)識(shí)別系統(tǒng)在垂直場(chǎng)景(如車(chē)載)中表現(xiàn)得很好的原因,這同樣也是它還不能大規(guī)模應(yīng)用到其他場(chǎng)景的原因,因?yàn)橐獙?duì)所有場(chǎng)景進(jìn)行設(shè)定,幾乎是不可能的。
不過(guò),我們依然要滿(mǎn)懷信心,隨著人類(lèi)社會(huì)的發(fā)展,真實(shí)信息越來(lái)越多,處理數(shù)據(jù)的手段也越來(lái)越豐富,基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型發(fā)展迅速,借助于統(tǒng)計(jì)語(yǔ)言模型的概率參數(shù),可以估算出自然語(yǔ)言中每個(gè)句子出現(xiàn)的可能性,并通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí),獲取自然語(yǔ)言中的語(yǔ)言知識(shí),從而可以處理大規(guī)模真實(shí)文本,并能識(shí)別出語(yǔ)言中細(xì)微的差別。目前在通用識(shí)別場(chǎng)景的準(zhǔn)確率只有60%到70%,雖然稍顯不足,但可以預(yù)見(jiàn),隨著大數(shù)據(jù)與人工智能的發(fā)展,未來(lái)的識(shí)別準(zhǔn)確率會(huì)達(dá)到更高。
這看起來(lái),一個(gè)新的時(shí)代正向我們迎面走來(lái)。
作者:夏汀,微信工眾號(hào):?智能相對(duì)論(aixdlun)
本文由 @瀟湘 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 unsplash,基于 CC0 協(xié)議
唇語(yǔ)識(shí)別,說(shuō)實(shí)話(huà),在實(shí)際生活場(chǎng)景中,一無(wú)是處。試想一下,一個(gè)人走在大馬路上對(duì)著一個(gè)攝像頭,夸張的擺弄著自己的嘴巴,這不是神經(jīng)病是什么?