語(yǔ)音識(shí)別類產(chǎn)品的分類及應(yīng)用場(chǎng)景
本文主要針對(duì)人工智能中的感知智能展開分享,聊聊其中的“語(yǔ)音識(shí)別類產(chǎn)品”。
媒體和AI巨頭們樂(lè)于給大眾描繪一幅幅精彩的未來(lái)生活藍(lán)圖:人工智能可以化身為你的愛車,在沙漠、森林或小巷中風(fēng)馳電掣;可以是智慧公正的交警,控制紅綠燈、緩解交通的擁擠;還可以是給人以貼心照顧的小助理,熟悉你生活中的每一處小怪癖。
在看到這些美妙的暢想之后,作為一個(gè)嚴(yán)謹(jǐn)認(rèn)真的AI產(chǎn)品經(jīng)理,我不禁想去探索上述美好未來(lái)的實(shí)現(xiàn)路徑;今天,讓我們從人工智能中的感知智能開始——聊聊“語(yǔ)音識(shí)別類產(chǎn)品”。
一、定義
語(yǔ)音識(shí)別是將人類的聲音信號(hào)轉(zhuǎn)化為文字的過(guò)程。
語(yǔ)音識(shí)別、人臉識(shí)別和OCR等都屬于人工智能中的感知智能,其核心功能是將物理世界的信息轉(zhuǎn)化成可供計(jì)算機(jī)處理的信息,為后續(xù)的認(rèn)知智能提供基礎(chǔ)。
二、語(yǔ)音識(shí)別能滿足或支撐的需求層次
1、人與人之間的信息同步
轉(zhuǎn)化成文字的語(yǔ)音信息,由于少了時(shí)間軸的約束,在同等量級(jí)的情況下,人類使用眼睛獲取的速度遠(yuǎn)遠(yuǎn)快于耳朵。當(dāng)然,確實(shí)也損失掉了一些信息,比如情緒。
2、檢索 & 語(yǔ)義抽取
利用語(yǔ)義建模,對(duì)某些業(yè)務(wù)場(chǎng)景中比較關(guān)注的詞/語(yǔ)義進(jìn)行檢索,或者將其抽取出來(lái)并進(jìn)行結(jié)構(gòu)化記錄。
3、人機(jī)交互
使用更自然的方式與機(jī)器/虛擬助理進(jìn)行交互,實(shí)現(xiàn)擬人對(duì)話、對(duì)設(shè)備的操控或者問(wèn)題答案的獲取。
4、數(shù)據(jù)挖掘
通過(guò)對(duì)數(shù)據(jù)的聚類或者與各維度數(shù)據(jù)體系打通,可以對(duì)個(gè)人/人群/特定領(lǐng)域的語(yǔ)義數(shù)據(jù)進(jìn)行價(jià)值挖掘。
下面,我將以語(yǔ)音識(shí)別需求場(chǎng)景之“人機(jī)交互”為例,對(duì)業(yè)界的語(yǔ)音識(shí)別產(chǎn)品進(jìn)行歸類和說(shuō)明。如果大家比較感興趣,我后續(xù)文章可以再對(duì)其他的幾類需求層次進(jìn)行進(jìn)一步的分析。
三、分類
根據(jù)識(shí)別內(nèi)容的范圍,語(yǔ)音識(shí)別可分為“封閉域識(shí)別”和“開放域識(shí)別”。
1、封閉域識(shí)別
識(shí)別范圍為預(yù)先指定的字/詞集合。
即,算法只在開發(fā)者預(yù)先設(shè)定的封閉域識(shí)別詞的集合內(nèi)進(jìn)行語(yǔ)音識(shí)別,對(duì)范圍之外的語(yǔ)音會(huì)拒識(shí)。因此,可將其聲學(xué)模型和語(yǔ)言模型進(jìn)行裁剪,使得識(shí)別引擎的運(yùn)算量變?。徊⑶?,可將引擎封到嵌入式芯片或者本地化的SDK中,從而使識(shí)別過(guò)程完全脫離云端,擺脫對(duì)網(wǎng)絡(luò)的依賴,并且不會(huì)影響識(shí)別率。
業(yè)界廠商提供的引擎部署方式包括云端和本地化(如:芯片,模塊和純軟件SDK)。
產(chǎn)品形態(tài):流式傳輸-同步獲取
典型的應(yīng)用場(chǎng)景:不涉及到多輪交互和多種語(yǔ)義說(shuō)法的場(chǎng)景。
比如,對(duì)于簡(jiǎn)單指令交互的智能家居和電視盒子,語(yǔ)音控制指令一般只有“打開窗簾”、“打開中央臺(tái)”等;或者語(yǔ)音喚醒功能“Alexa”。但是,一旦涉及到程序猿大大們?cè)诤笈_(tái)配置識(shí)別詞集合之外的命令,如“給小編來(lái)一塊錢打賞唄”,識(shí)別系統(tǒng)將拒識(shí)這段語(yǔ)音,不會(huì)返回相應(yīng)的文字結(jié)果,更不會(huì)做相應(yīng)的回復(fù)或者指令動(dòng)作。
2、開放域識(shí)別
無(wú)需預(yù)先指定識(shí)別詞集合,算法將在整個(gè)語(yǔ)言大集合范圍中進(jìn)行識(shí)別。為適應(yīng)此類場(chǎng)景,聲學(xué)模型和語(yǔ)音模型一般都比較大,引擎運(yùn)算量也較大。如果將其封裝到嵌入式芯片或者本地化的SDK中,耗能較高并且影響識(shí)別效果。
因此,業(yè)界廠商基本上都只以云端形式提供(云端包括公有云形式和私有云形式)。至于本地化形式,只提供帶服務(wù)器級(jí)別計(jì)算能力的嵌入式系統(tǒng)(如會(huì)議字幕系統(tǒng))。
產(chǎn)品形態(tài),按照音頻錄入和結(jié)果獲取方式可分為3種:
1)產(chǎn)品形態(tài)1:流式上傳-同步獲取,應(yīng)用/軟件會(huì)對(duì)說(shuō)話人的語(yǔ)音進(jìn)行自動(dòng)錄制,并將其連續(xù)上傳至云端,說(shuō)話人在說(shuō)完話的同時(shí)能實(shí)時(shí)地看到返回的文字。
語(yǔ)音云服務(wù)廠商的產(chǎn)品接口中,會(huì)提供音頻錄制接口和格式編碼算法,供客戶端邊錄制邊上傳,并與云端建立長(zhǎng)連接,同步監(jiān)聽并獲取中間(或者最終完整)的識(shí)別結(jié)果。
對(duì)于時(shí)長(zhǎng)的限制,由語(yǔ)音云服務(wù)廠商自定義,一般有<1分鐘和<5小時(shí)兩種,兩者有可能會(huì)采用不同的模型(時(shí)長(zhǎng)限制<5小時(shí)的模型會(huì)采用LSTM長(zhǎng)時(shí)相關(guān)性建模)。
典型應(yīng)用場(chǎng)景1:
- 主要在輸入場(chǎng)景,如輸入法、會(huì)議/法院庭審時(shí)的實(shí)時(shí)字幕上屏;
- 與麥克風(fēng)陣列和語(yǔ)義結(jié)合的人機(jī)交互場(chǎng)景,如具備更自然交互形態(tài)的智能音響。比如用戶說(shuō)“轉(zhuǎn)發(fā)小編這篇文章”,在無(wú)配置的情況下,識(shí)別系統(tǒng)也能夠識(shí)別這段語(yǔ)音,并返回相應(yīng)的文字結(jié)果。
2)產(chǎn)品形態(tài)2:已錄制音頻文件上傳-異步獲取,音頻時(shí)長(zhǎng)一般<3/5小時(shí)。用戶需自行調(diào)用軟件接口或是硬件平臺(tái)預(yù)先錄制好規(guī)定格式的音頻,并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳,上傳完成之后便可以斷掉連接。用戶通過(guò)輪詢語(yǔ)音云服務(wù)器或者使用回調(diào)接口進(jìn)行結(jié)果獲取。
由于長(zhǎng)語(yǔ)音的計(jì)算量較大,計(jì)算時(shí)間較長(zhǎng),因此采取異步獲取的方式可以避免由于網(wǎng)絡(luò)問(wèn)題帶來(lái)的結(jié)果丟失。也因?yàn)檎Z(yǔ)音轉(zhuǎn)寫系統(tǒng)通常是非實(shí)時(shí)處理的,這種工程形態(tài)也給了識(shí)別算法更多的時(shí)間進(jìn)行多遍解碼。而長(zhǎng)時(shí)的語(yǔ)料,也給了算法使用更長(zhǎng)時(shí)的信息進(jìn)行長(zhǎng)短期記憶網(wǎng)絡(luò)建模。在同樣的輸入音頻下,此類型產(chǎn)品形態(tài)犧牲了一部分實(shí)時(shí)率,花費(fèi)了更高的資源消耗,但是卻可以得到最高的識(shí)別率。在時(shí)間允許的使用場(chǎng)景下,“非實(shí)時(shí)已錄制音頻轉(zhuǎn)寫”無(wú)疑是最推薦的產(chǎn)品形態(tài)。
典型應(yīng)用場(chǎng)景2:
A)已經(jīng)錄制完畢的音/視頻字幕配置;
B)實(shí)時(shí)性要求不高的客服語(yǔ)音質(zhì)檢和UGC語(yǔ)音內(nèi)容審查場(chǎng)景等。
3)產(chǎn)品形態(tài)3:已錄制音頻文件上傳-同步獲取,音頻時(shí)長(zhǎng)一般小于<1分鐘。用戶需自行預(yù)先錄制好規(guī)定格式的音頻,并使用語(yǔ)音云服務(wù)廠商提供的接口進(jìn)行音頻上傳。此時(shí),客戶端與云端建立長(zhǎng)連接,同步監(jiān)聽并一次性獲取完整的識(shí)別結(jié)果。使用的模型會(huì)根據(jù)語(yǔ)音云廠商產(chǎn)品策略的不同,而跟隨采用上述兩/三種模型中的任意一種。
典型應(yīng)用場(chǎng)景3:
作為前兩者的補(bǔ)充,適用于無(wú)法用音頻錄制接口進(jìn)行實(shí)時(shí)音頻流上傳,或者結(jié)果獲取的實(shí)時(shí)性要求比較高的場(chǎng)景。
四、概念厘清
1、離線 VS 在線
在較多的客戶認(rèn)知中,離/在線的區(qū)別在于“識(shí)別過(guò)程是否需要通過(guò)云端請(qǐng)求”,即“識(shí)別引擎是在云端還是本地”。而云計(jì)算中的離/在線產(chǎn)品的引擎都處在云端,區(qū)別在于“計(jì)算過(guò)程中,客戶端是否需要與云端進(jìn)行實(shí)時(shí)數(shù)據(jù)交互”,即上述所述的“流式上傳-同步獲取”和“已錄制音頻文件上傳-異步獲取”方式。
兩者的定義在人工智能產(chǎn)品領(lǐng)域中有較多沖突,因此并不建議使用“離/在線”概念進(jìn)行相關(guān)產(chǎn)品定義。
2、語(yǔ)音識(shí)別 VS 語(yǔ)義識(shí)別
語(yǔ)音識(shí)別為感知智能,語(yǔ)義識(shí)別為認(rèn)知智能,前者為后者的前提基礎(chǔ)。語(yǔ)音識(shí)別將聲音轉(zhuǎn)化成文字,語(yǔ)義識(shí)別提取文字中的相關(guān)信息和相應(yīng)意圖,再通過(guò)云端大腦決策,使用執(zhí)行模塊進(jìn)行相應(yīng)的問(wèn)題回復(fù)或者反饋動(dòng)作。
注:一般來(lái)說(shuō),為了減少不必要的理解干擾,從業(yè)者更傾向于說(shuō)“自然語(yǔ)言處理(NLP)”等概念,極少使用“語(yǔ)義識(shí)別”的說(shuō)法。
結(jié)語(yǔ)
最后,結(jié)合一小丟丟NLP的人機(jī)交互場(chǎng)景栗子作為收尾:
“給小編這篇文章點(diǎn)個(gè)贊唄”,在無(wú)后臺(tái)配置的情況下,封閉域的語(yǔ)音識(shí)別系統(tǒng)會(huì)拒識(shí)這段語(yǔ)音,而開放域的識(shí)別系統(tǒng)卻能夠識(shí)別這段語(yǔ)音,返回相應(yīng)的文字結(jié)果。
不過(guò),現(xiàn)階段的開放域語(yǔ)義系統(tǒng)在大概率情況下,還是會(huì)回復(fù)得比較生硬,并且也不會(huì)自動(dòng)識(shí)別出相應(yīng)的意圖并做出指令。按照現(xiàn)有比較通用的方法,這個(gè)功能需要使用封閉域的NLP,在后臺(tái)預(yù)先配置相關(guān)答案,并且根據(jù)預(yù)先配置的信息抽取意圖,再根據(jù)意圖類別和槽位信息執(zhí)行相應(yīng)的動(dòng)作——即調(diào)用微信的點(diǎn)贊接口(假設(shè)可以)進(jìn)行相應(yīng)的點(diǎn)贊操作。
聽起來(lái)好繞呀,是不是覺(jué)得還是自己手動(dòng)點(diǎn)個(gè)贊簡(jiǎn)單粗暴省事得多了呢?
然而,一切現(xiàn)代人類做起來(lái)自然而然 & 毫不費(fèi)力的動(dòng)作,都是建構(gòu)在經(jīng)過(guò)了億萬(wàn)年的學(xué)習(xí)進(jìn)化、兆億次閉環(huán)重復(fù)練習(xí)的智力基因基礎(chǔ)上的;任何人工智能技術(shù),也需要巨量的數(shù)據(jù)訓(xùn)練和一定的演變周期。
并且,在所有的科技發(fā)展進(jìn)程中,率先取得突破并能在應(yīng)用領(lǐng)域成熟的產(chǎn)品,往往都是在封閉域首先出現(xiàn)的?,F(xiàn)在,NLP正處封閉域產(chǎn)品化階段(比如Amazon Echo、Google Home等),而語(yǔ)音識(shí)別的產(chǎn)品成熟化已經(jīng)走過(guò)了封閉域、到達(dá)了開放域,正在向各行各業(yè)的應(yīng)用場(chǎng)景輸送自己的洪荒之力!
附:腦圖:語(yǔ)音識(shí)別類產(chǎn)品的分類及應(yīng)用場(chǎng)景
作者:焦糖瑪奇朵 ,“AI產(chǎn)品經(jīng)理大本營(yíng)”成員之一。
本文由人人都是產(chǎn)品經(jīng)理專欄作家?@黃釗?授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖由作者提供
誒,沒(méi)有情緒識(shí)別,算什么AI,頂多是變成了一個(gè)大數(shù)據(jù)胖子
有道理