精品成人乱色一区二区,黄片三级免费看,国产一区二区三区东京热

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

唇語(yǔ)識(shí)別，真會(huì)是語(yǔ)言交互的終極戰(zhàn)場(chǎng)？

智能相對(duì)論

2017-12-21

1 評(píng)論 4132 瀏覽 8 收藏

13 分鐘

自出現(xiàn)唇語(yǔ)識(shí)別技術(shù)出現(xiàn)起，就有聲音說(shuō)唇語(yǔ)識(shí)別是語(yǔ)言交互的高階戰(zhàn)，甚至可能帶來(lái)一場(chǎng)革命。不過(guò)，從本文來(lái)看，唇語(yǔ)識(shí)別還不能快速地普及。

在今年的烏鎮(zhèn)世界互聯(lián)網(wǎng)大會(huì)上，搜狗展出了一項(xiàng)黑科技——唇語(yǔ)識(shí)別，12月14號(hào)搜狗在北京又公開(kāi)演示了這項(xiàng)技術(shù)。作為行業(yè)領(lǐng)先的唇語(yǔ)識(shí)別系統(tǒng)，搜狗在非特定開(kāi)放口語(yǔ)測(cè)試中，通用識(shí)別的準(zhǔn)確率在60%以上，而在車(chē)載、智能家居等垂直場(chǎng)景下，已達(dá)到90%的準(zhǔn)確率。

雖說(shuō)搜狗是國(guó)內(nèi)第一家公開(kāi)演示這項(xiàng)技術(shù)的公司，但早在2017年3月，海云數(shù)據(jù)創(chuàng)始人兼CEO馮一村在亞洲大數(shù)據(jù)可視分析峰會(huì)上，就發(fā)布了重慶市公安科研所與海云數(shù)據(jù)共同研發(fā)的唇語(yǔ)識(shí)別技術(shù)，它的中文識(shí)別模型準(zhǔn)確率已達(dá)到70%。

而谷歌DeepMind團(tuán)隊(duì)，在2016年利用BBC視頻對(duì)他們的AI系統(tǒng)進(jìn)行了5000個(gè)小時(shí)的訓(xùn)練，測(cè)試時(shí)唇語(yǔ)識(shí)別正確率達(dá)到了46.8%。

這并不是場(chǎng)獨(dú)角戲，那唇語(yǔ)識(shí)別到底是何物？未來(lái)又有著怎樣的想象空間？

唇語(yǔ)識(shí)別只是語(yǔ)言識(shí)別的進(jìn)化

雖說(shuō)唇語(yǔ)識(shí)別近期才進(jìn)入公眾視野，但唇語(yǔ)識(shí)別技術(shù)的發(fā)展可以追溯到上世紀(jì)80年代。

當(dāng)時(shí)，語(yǔ)音識(shí)別技術(shù)迅速發(fā)展，出現(xiàn)了許多實(shí)用的語(yǔ)音識(shí)別系統(tǒng)，然而這些系統(tǒng)抗干擾能力不強(qiáng)，在有背景噪音與交叉談話(huà)的情況下，它們的性能會(huì)大幅降低。而在自然應(yīng)用環(huán)境中，噪音現(xiàn)象十分常見(jiàn)，研究者們?yōu)榱私鉀Q上述缺陷，一方面采用降噪技術(shù)降低干擾，另一方面開(kāi)始尋求其它解決方法。

那唇語(yǔ)識(shí)別技術(shù)是怎么發(fā)展來(lái)的呢？語(yǔ)音識(shí)別的研究者們突然發(fā)現(xiàn)，其實(shí)人類(lèi)的語(yǔ)言識(shí)別系統(tǒng)是由兩個(gè)感知過(guò)程構(gòu)成的，聲音雖然是人類(lèi)語(yǔ)言認(rèn)知過(guò)程中最重要的方式，但在日常交流中，我們還會(huì)用眼睛看著對(duì)方的口型、對(duì)方的表情等，來(lái)更加準(zhǔn)確的理解對(duì)方所講的內(nèi)容。受此啟發(fā)，研究者們開(kāi)始研究唇語(yǔ)識(shí)別。因?yàn)榇秸Z(yǔ)識(shí)別完全不會(huì)受到噪聲干擾，在多人對(duì)話(huà)中也能有效進(jìn)行區(qū)分，這就有望解決語(yǔ)音識(shí)別的缺陷。事實(shí)上也是，將唇語(yǔ)識(shí)別與語(yǔ)音識(shí)別結(jié)合起來(lái)能夠大大提高系統(tǒng)的正確率和抗干擾能力，于是唇語(yǔ)識(shí)別便有了更多的發(fā)揮空間。

換湯沒(méi)換藥，近30年的發(fā)展，核心步驟還是三步

經(jīng)過(guò)研究各類(lèi)資料發(fā)現(xiàn)，唇語(yǔ)識(shí)別技術(shù)從攝像頭輸入到理解輸出，中間最重要的是這三個(gè)單元——視覺(jué)前段、視覺(jué)特征提取、以及唇動(dòng)識(shí)別。

（圖為：唇語(yǔ)識(shí)別的步驟）

其中，視覺(jué)前段包括人臉檢測(cè)與唇的檢測(cè)和定位，早期檢測(cè)方法比較笨拙，不允許人臉自由移動(dòng)，有些還會(huì)手動(dòng)添加特定標(biāo)志來(lái)跟蹤唇動(dòng)。目前的檢測(cè)方法主要是基于算法，先用人臉檢測(cè)算法得到人臉然后有針對(duì)性的定位唇動(dòng)；或者利用最佳閩值二值化算法，以唇的邊緣是平滑的，和左右形狀對(duì)稱(chēng)為條件，作為二值化閩值選定的約束條件，得到平滑而對(duì)稱(chēng)的唇圖像。

視覺(jué)特征提取是對(duì)獲取的唇圖像進(jìn)行處理得到對(duì)應(yīng)特征，特征提取方法主要分為兩大類(lèi)：基于像素的方法和基于模型的方法。所謂基于像素的方法，就是利用包含嘴的灰度級(jí)圖像或利用經(jīng)過(guò)預(yù)處理后得到的特征向量的一類(lèi)方法。這種方法的缺陷在于對(duì)二維或三維的縮放、旋轉(zhuǎn)、平移、光照變化以及說(shuō)話(huà)人的變化都很敏感，會(huì)造成提取過(guò)程中特征丟失的情況，不能得到完整的特征信息。而搜狗所用的基于模型的方法就是，對(duì)唇的輪廓建立一個(gè)模型，將特征信息包含在這個(gè)模型之中，并對(duì)模型中特征信息的變化用一個(gè)小的參數(shù)來(lái)描述。這類(lèi)方法的優(yōu)點(diǎn)是重要特征被表示成二維參數(shù)，不會(huì)因光照、縮放、旋轉(zhuǎn)、平移而改變，缺點(diǎn)是忽略了細(xì)微的三維信息，可能會(huì)對(duì)后面的識(shí)別過(guò)程造成影響。

目前唇動(dòng)識(shí)別采用的技術(shù)大多是隱馬爾可夫模型，該技術(shù)基本思想是，認(rèn)為唇動(dòng)信號(hào)在極短時(shí)間內(nèi)是線(xiàn)性的，可以用線(xiàn)性參數(shù)模型來(lái)表示，然后將許多線(xiàn)性模型在時(shí)間上串接起來(lái)，組成一條馬爾可夫鏈。馬爾可夫鏈可以用來(lái)描述統(tǒng)計(jì)特征信息的變化，并且這種變化過(guò)程與人的唇動(dòng)過(guò)程是相吻合的，所以隱馬爾可夫模型能夠識(shí)別唇動(dòng)并與相應(yīng)語(yǔ)句匹配轉(zhuǎn)化成文字。

看似應(yīng)用方向很多，最重要的還是輔助語(yǔ)音識(shí)別

唇語(yǔ)識(shí)別技術(shù)的應(yīng)用方向有很多，比如手語(yǔ)和聽(tīng)力障礙患者的輔助教育、國(guó)防反恐方面的情報(bào)獲取、個(gè)人的身份識(shí)別以及公共安全領(lǐng)域等都擁有巨大的應(yīng)用潛力。但在目前來(lái)看最大的應(yīng)用還是輔助語(yǔ)音識(shí)別，畢竟它自誕生之初就是為了解決語(yǔ)音識(shí)別的噪音問(wèn)題而研發(fā)的，這也會(huì)使得語(yǔ)音交互更加完善。

說(shuō)到這里就不得不提到智能音箱，其實(shí)除搜狗之外，很多大公司也在布局語(yǔ)音交互，國(guó)內(nèi)有阿里巴巴、百度、科大訊飛，國(guó)外有蘋(píng)果、谷歌、微軟、亞馬遜。在今年7月阿里巴巴就發(fā)布了一款智能音響天貓精靈，可以接受各種語(yǔ)音指令，搭載中文人機(jī)交流系統(tǒng)AliGenie，有望成為家庭智能小助手。在11月16日百度也推出了首款智能音響raven H，其采用19×19的點(diǎn)陣觸摸屏，內(nèi)置DuerOS 2.0語(yǔ)音交互系統(tǒng)，擁有語(yǔ)音和控制器兩種交互方式。其余還有京東的叮咚智能音響，小米的小愛(ài)同學(xué)，喜馬拉雅的小雅音響等智能音響產(chǎn)品。對(duì)于這些公司而言，似乎不出一個(gè)智能音響都不好意思說(shuō)自己在人工智能領(lǐng)域混。

那智能音響到底與唇語(yǔ)識(shí)別有啥關(guān)系？大廠們紛紛推出智能音響的原因是看到了新型交互方式的大趨勢(shì)，但是智能音響能夠滿(mǎn)足需求的場(chǎng)景較少，且智能音響還有兩大頑疾——抗噪音能力與遠(yuǎn)場(chǎng)交互能力較低。

根據(jù)聲學(xué)在線(xiàn)的測(cè)試，即便是市面上最主流的智能音響，在抗噪音能力與遠(yuǎn)場(chǎng)交互能力上的表現(xiàn)也不盡如人意，5米的中短距離上有很多失誤。

（圖為：5m 距離智能音響喚醒失敗次數(shù)統(tǒng)計(jì)）

而且，傳統(tǒng)語(yǔ)音交互對(duì)輸入音頻要求高，在背景噪音大時(shí)很容易失效，若人與機(jī)器再隔得遠(yuǎn)一點(diǎn)，失效的情況就更加嚴(yán)重了。但唇語(yǔ)識(shí)別就可以解決這兩個(gè)問(wèn)題。

若要快速普及，還有兩個(gè)問(wèn)題待解

自出現(xiàn)唇語(yǔ)識(shí)別技術(shù)出現(xiàn)起，就有聲音說(shuō)唇語(yǔ)識(shí)別是語(yǔ)言交互的高階戰(zhàn)，甚至可能帶來(lái)一場(chǎng)革命。不過(guò)，根據(jù)觀察，目前來(lái)說(shuō)，唇語(yǔ)識(shí)別還不能快速普及。這主要的問(wèn)題在：

1、攝像頭錄入存在很大的限制，不能完全滿(mǎn)足日常交互需求

在目前的唇語(yǔ)識(shí)別系統(tǒng)中，獲得的嘴唇視覺(jué)特征信息都是正向的，這就意味著你與它交互時(shí)，必須時(shí)刻正對(duì)著它，第一視角被其牢牢占據(jù)，這在真實(shí)應(yīng)用場(chǎng)景下難以達(dá)到。要能夠應(yīng)用更多的場(chǎng)景，應(yīng)該使人在側(cè)著身子說(shuō)話(huà)時(shí)也能被檢測(cè)識(shí)別，這要求在人臉識(shí)別、唇的檢測(cè)與定位方面研究出更強(qiáng)的定位、跟蹤算法，提高算法的普適性，使之適用于非特定姿勢(shì)和位置的識(shí)別定位，并且唇動(dòng)識(shí)別技術(shù)也要提高，使之能處理非正向的、較不完整的視覺(jué)特征信息。

2、識(shí)別的準(zhǔn)確度也是一個(gè)關(guān)鍵的問(wèn)題，在有關(guān)安全的場(chǎng)景下，準(zhǔn)確度是不容有差的

但我們知道其實(shí)口型與拼音序列是一對(duì)的多關(guān)系，如 zhi、chi、shi對(duì)應(yīng)的口型序列是一樣的，單純利用視覺(jué)特征難以區(qū)分，會(huì)造成信息識(shí)別錯(cuò)誤，處理這個(gè)問(wèn)題，傳統(tǒng)的技術(shù)方法是文法型語(yǔ)言模型，它基于人工編制的語(yǔ)言學(xué)文法，這種語(yǔ)言模型一般用于分析特定領(lǐng)域內(nèi)的語(yǔ)句，無(wú)法處理大規(guī)模的真實(shí)文本。目前很多識(shí)別系統(tǒng)是人工限定的框架，在某一場(chǎng)景中對(duì)可能會(huì)出現(xiàn)的語(yǔ)句進(jìn)行了很多設(shè)置，這是搜狗唇語(yǔ)識(shí)別系統(tǒng)在垂直場(chǎng)景（如車(chē)載）中表現(xiàn)得很好的原因，這同樣也是它還不能大規(guī)模應(yīng)用到其他場(chǎng)景的原因，因?yàn)橐獙?duì)所有場(chǎng)景進(jìn)行設(shè)定，幾乎是不可能的。

不過(guò)，我們依然要滿(mǎn)懷信心，隨著人類(lèi)社會(huì)的發(fā)展，真實(shí)信息越來(lái)越多，處理數(shù)據(jù)的手段也越來(lái)越豐富，基于語(yǔ)料庫(kù)的統(tǒng)計(jì)語(yǔ)言模型發(fā)展迅速，借助于統(tǒng)計(jì)語(yǔ)言模型的概率參數(shù)，可以估算出自然語(yǔ)言中每個(gè)句子出現(xiàn)的可能性，并通過(guò)對(duì)語(yǔ)料庫(kù)進(jìn)行深層加工、統(tǒng)計(jì)和學(xué)習(xí)，獲取自然語(yǔ)言中的語(yǔ)言知識(shí)，從而可以處理大規(guī)模真實(shí)文本，并能識(shí)別出語(yǔ)言中細(xì)微的差別。目前在通用識(shí)別場(chǎng)景的準(zhǔn)確率只有60%到70%，雖然稍顯不足，但可以預(yù)見(jiàn)，隨著大數(shù)據(jù)與人工智能的發(fā)展，未來(lái)的識(shí)別準(zhǔn)確率會(huì)達(dá)到更高。

這看起來(lái)，一個(gè)新的時(shí)代正向我們迎面走來(lái)。

作者：夏汀，微信工眾號(hào)：?智能相對(duì)論（aixdlun）

本文由 @瀟湘原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自 unsplash，基于 CC0 協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

智能相對(duì)論

智能和車(chē)，邊評(píng)邊測(cè)；未來(lái)和家，且品且鑒。合作+V：zhinengxdl

121篇作品 580976總閱讀量

OpenAI 第四彈：馬斯克強(qiáng)調(diào)的 TruthGPT 是什么？下個(gè)“AK”；微軟棄嬰，二十年前的 ChatGPT

03-243564 瀏覽

“小象超市”照出了美團(tuán)的邊界？

12-062388 瀏覽

抖音“手工耿”，為何要去微信交易

06-142184 瀏覽

預(yù)測(cè)未來(lái)AI生態(tài)｜一個(gè)大模型吃掉所有？

04-073212 瀏覽

企業(yè)架構(gòu)7——應(yīng)用架構(gòu)

07-306727 瀏覽

評(píng)論

King

唇語(yǔ)識(shí)別，說(shuō)實(shí)話(huà)，在實(shí)際生活場(chǎng)景中，一無(wú)是處。試想一下，一個(gè)人走在大馬路上對(duì)著一個(gè)攝像頭，夸張的擺弄著自己的嘴巴，這不是神經(jīng)病是什么？

最近來(lái)自江蘇回復(fù)