智能語音機(jī)器人底層系統(tǒng)設(shè)計邏輯

0 評論 10150 瀏覽 62 收藏 14 分鐘

編輯導(dǎo)語:未來最大的交互,不是現(xiàn)在的人機(jī)交互,而是人與人工智能的交互。人工智能行業(yè)現(xiàn)今取得了不少的成就,也逐漸進(jìn)入了千萬家庭,陪伴在了很多人的身邊,其中就包括智能語音機(jī)器人。本文筆者將以智能客服領(lǐng)域為出發(fā)點,結(jié)合自己的工作實踐進(jìn)行詳細(xì)分析。

3 月 4 日,中共中央政治局常務(wù)委員會召開會議,指出要加快推進(jìn)包括5G 網(wǎng)絡(luò)、人工智能、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度。

結(jié)合此前人工智能賦能技術(shù)在疫情防控中發(fā)揮的重要作用,加上新基建政策,可以預(yù)見的是未來人工智能必將迎來新一輪的發(fā)展。

據(jù)艾瑞網(wǎng)發(fā)布的《2019年中國人工智能產(chǎn)業(yè)研究報告》中顯示,到2022年中國智能客服業(yè)務(wù)規(guī)模將突破160億元,泛智能客服市場將突破600億,也預(yù)示著這一領(lǐng)域依然擁有廣闊的市場空間。

本篇筆者將著重就智能客服這一應(yīng)用較為成熟的領(lǐng)域,結(jié)合自己的工作實踐進(jìn)行詳細(xì)分析。

一、智能客服背景

智能語音客服機(jī)器人是在傳統(tǒng)的客服系統(tǒng)基礎(chǔ)上,集成了語音識別、語義理解、知識圖譜、深度學(xué)習(xí)等多項智能交互技術(shù),能準(zhǔn)確理解用戶的意圖或提問,再根據(jù)豐富的內(nèi)容和海量知識圖譜,給予用戶滿意的回答,目前已廣泛應(yīng)用于金融、保險、汽車、房產(chǎn)、電商、政府等多個領(lǐng)域。

對比于傳統(tǒng)客服,智能客服具有為企業(yè)降本增效,提升商機(jī)轉(zhuǎn)化率,提升用戶體驗、更加方便簡潔、移動性及時性社交性能一體化的優(yōu)點。

智能客服機(jī)器人應(yīng)用場景十分豐富,

  • 從交互模式上來看:可以分為文本客服機(jī)器人、語音客服機(jī)器人兩大類;
  • 從場景和功能類型來看:又可分為問答機(jī)器人、任務(wù)機(jī)器人、閑聊機(jī)器人三大類。

那么語音外呼機(jī)器人這個形態(tài)的產(chǎn)品在實際場景中如何應(yīng)用的呢?

下面我會從語音外呼機(jī)器人工作流程、外呼系統(tǒng)搭建、應(yīng)用案例,應(yīng)用重難點等4個模塊來做詳細(xì)闡述。

二、智能外呼機(jī)器人工作流程

AI外呼機(jī)器人是集合了自動撥打電話、多輪語音交互、客戶意向智能分級、外呼任務(wù)自定義等多功能于一體智能語音對話機(jī)器人。

以下是一個基本的智能外呼機(jī)器人工作流程:

智能語音機(jī)器人底層系統(tǒng)設(shè)計邏輯

如上圖所示,一個完整的智能外呼流程(不涉及轉(zhuǎn)人工)包含了四個環(huán)節(jié),各環(huán)節(jié)會由外呼系統(tǒng)整體串聯(lián)起來進(jìn)行運作:

  1. 用戶接聽:外呼工作流程的開始,外呼系統(tǒng)需識別用戶接聽信號。
  2. 客戶機(jī)器人響應(yīng):這一環(huán)節(jié)關(guān)鍵在策略輸出,外呼系統(tǒng)需根據(jù)用戶應(yīng)答,識別用戶意圖或動作,根據(jù)機(jī)器人預(yù)設(shè)任務(wù)流和策略給出響應(yīng)話術(shù)。
  3. 用戶應(yīng)答/動作:這一模塊主要在外呼系統(tǒng)需對用戶的意圖和動作進(jìn)行精準(zhǔn)識別,做用戶狀態(tài)記錄,以便一下步策略的實施。
  4. 用戶/客服機(jī)器人掛機(jī):當(dāng)機(jī)器人走完任務(wù)流會主動掛斷,或用戶提前自主掛斷,外呼工作流結(jié)束。

三、外呼系統(tǒng)設(shè)計

以上工作流的實現(xiàn)依賴于外呼系統(tǒng)同時涉及多方技術(shù),下面整體來介紹下外呼系統(tǒng)的底層架構(gòu)。

智能語音機(jī)器人底層系統(tǒng)設(shè)計邏輯

上圖為筆者結(jié)合所學(xué)及所做機(jī)器人的實際業(yè)務(wù)邏輯梳理的呼叫系統(tǒng)架構(gòu),如圖,整體上語音外呼系統(tǒng)可分為五大模塊:

1. 通訊管理模塊

由通訊線路和FreeSwitch電話系統(tǒng)構(gòu)成,通過SIP和RTP協(xié)議,實現(xiàn)進(jìn)行各種信令和語音流的傳輸。其中,通訊線路包括三大運營商、各家集成線路商,用于提供線路資源將電話撥打出去。

電話系統(tǒng)采用的是開源的FreeSwitch,主要用于處理外呼請求和傳輸SIP信令和語音流。

2. 語音模塊

負(fù)責(zé)語音相關(guān)操作,包括語音識別(ASR)、語音合成(TTS)、錄音播放等。

其中ASR和TTS這塊,目前一般采用阿里云、科大訊飛等技術(shù)較為成熟的供應(yīng)商服務(wù),主要通過接口形式對接使用。

3. 中控模塊

主要任務(wù)是實現(xiàn)與其他模塊之間的通信互聯(lián),負(fù)責(zé)將ASR識別后的文本傳輸給機(jī)器人模塊,將機(jī)器人模塊的指令策略轉(zhuǎn)化為電話系統(tǒng)的執(zhí)行指令,并將數(shù)據(jù)同步至Saas后臺(中控模塊命名各家公司都有所不同)。

4. 后臺管理模塊

負(fù)責(zé)機(jī)器人外呼任務(wù)的發(fā)起和相關(guān)業(yè)務(wù)操作,主要包括外呼任務(wù)的創(chuàng)建,通話流水查詢,客戶管理,數(shù)據(jù)統(tǒng)計等功能。

5. 機(jī)器人管理模塊

此為整個外呼流程中的核心AI模塊,通過自然語言處理(NLP)和對話管理(DM),進(jìn)行用戶意圖理解,對話狀態(tài)追蹤,機(jī)器人應(yīng)答策略匹配等,實現(xiàn)人機(jī)對話交互。

關(guān)于NLP和DM模塊比較復(fù)雜,筆者將會在下一篇文章中單獨對任務(wù)機(jī)器人對話系統(tǒng)的設(shè)計做詳細(xì)闡述,這里就不過多補(bǔ)充了。

四、應(yīng)用案例

下面以58同城二手車回訪的業(yè)務(wù)場景,具體分析下外呼機(jī)器人是如何通過外呼系統(tǒng)進(jìn)行作業(yè)的,外呼系統(tǒng)各模塊間又是如何耦合實現(xiàn)業(yè)務(wù)需求的。

智能語音機(jī)器人底層系統(tǒng)設(shè)計邏輯

1. 對話管理設(shè)計

正常情況下,外呼業(yè)務(wù)場景一旦確定,產(chǎn)品需先梳理出任務(wù)場景的主干流程,選定深度意圖,設(shè)置匹配QA,設(shè)置槽位,準(zhǔn)備話術(shù),設(shè)計對話狀態(tài)追蹤,設(shè)計對話策略等一系列工作。

這里的對話管理的設(shè)計配置,涉及到外呼系統(tǒng)里機(jī)器人管理模塊。

如:上圖對話框中機(jī)器人話術(shù)均為事先根據(jù)二手車回訪業(yè)務(wù)提前設(shè)計好的主干話術(shù)。

2.外呼任務(wù)創(chuàng)建

對話管理模塊配置完善后,業(yè)務(wù)人員可在Saas后臺創(chuàng)建外呼名單,通訊管理模塊接受任務(wù)指令,拉取話單進(jìn)行電話外呼。

3.撥打流程

撥打流程涉及模塊較多,主要包括通訊管理模塊,語音模塊,中控模塊,機(jī)器人管理模塊。

  1. 運營商的通信線路根據(jù)業(yè)務(wù)人員創(chuàng)建的外呼任務(wù),開始逐個撥打用戶電話;
  2. 用戶接通電話后,開始進(jìn)入對話處理循環(huán)流程;
  3. 通訊管理模塊的FS將用戶語音流傳輸給語音模塊進(jìn)行ASR識別為文本信息,然后將動作/文本信息一起輸送到中控模塊;
  4. 中控模塊將用戶文本/動作信息推送至機(jī)器人模塊,并將機(jī)器人返回的策略指令轉(zhuǎn)化成電話系統(tǒng)的執(zhí)行指令;
  5. 電話系統(tǒng)結(jié)合語音模塊,進(jìn)行語音合成后,執(zhí)行話術(shù)播放或轉(zhuǎn)人工、掛機(jī)等機(jī)器人動作策略,隨后開始新一輪對話循環(huán)處理流程;
  6. 機(jī)器人/用戶掛機(jī)后,中控模塊將相關(guān)錄音文件、系統(tǒng)信息,狀態(tài)信息等數(shù)據(jù)進(jìn)行存儲并同步至管理后臺。

五、智能外呼機(jī)器人應(yīng)用重難點

我們考慮一個外呼機(jī)器人的外呼質(zhì)量會從兩方面去看,一個是能保證外呼流程的通暢性,另一個是保證外呼任務(wù)的完成率。

決定機(jī)器人外呼質(zhì)量的影響因素有很多,筆者從產(chǎn)品的角度去理解,除去目標(biāo)客戶的精準(zhǔn)度、客戶接聽電話的環(huán)境、客戶狀態(tài)等非可控因素外,主要還受限于以下幾個方面:

1. 電話線路的穩(wěn)定性

在呼叫失敗的原因中,很大部分是由于供應(yīng)商提供的線路不穩(wěn)定。

關(guān)于這一點的問題規(guī)避,更多的還是申請基礎(chǔ)運營商的線路或?qū)ふ业秸?guī)渠道的認(rèn)證供應(yīng)商,以保證線路質(zhì)量。

2. FreeSwitch的并發(fā)量

FreeSwitch的具體性能根據(jù)實際使用環(huán)境差異較大,如果因前期預(yù)估不足,設(shè)置的FS并發(fā)量過低,超過并發(fā)則會出現(xiàn)呼叫異常或語音卡頓等現(xiàn)象。

應(yīng)從系統(tǒng)的實際業(yè)務(wù)需求去考慮并發(fā)數(shù),保證FS的性能穩(wěn)定。

3. ASR識別準(zhǔn)確率

雖然目前很多供應(yīng)商標(biāo)明的語音識別率都達(dá)到了97%甚至98%,但此指標(biāo)對環(huán)境的要求較高。

而實際環(huán)境在噪音較大,口音,語言混合等場景下,ASR識別準(zhǔn)確率均有一定程度的下降。

4. 語義理解

在對話機(jī)器人中語言理解(NLU)模塊主要包括意圖識別和槽位識別,這兩點直接影響語義理解的效果。

語音場景下,經(jīng)常出現(xiàn)用戶回復(fù)單語氣詞的情況,如“嗯”,“啊”等,或語音特有意圖,如“大點聲”,“說快點”,要求“重說”等,在意圖設(shè)計時需考慮到此類特殊場,以及其應(yīng)答策略。

前面提到的ASR識別錯誤會導(dǎo)致語義理解部分受影響,目前可采用加入多模態(tài)學(xué)習(xí)的優(yōu)化方案,同時融合音頻特征,糾正語音識別結(jié)果,此方案經(jīng)驗證對意圖識別模塊準(zhǔn)確率會有近2%的提升。

5. 對話管理模塊設(shè)計合理性

機(jī)器人對話管理模塊設(shè)計的合理性,直接決定了整個呼叫任務(wù)流程的體驗感和完成率。

對話管理模塊的重點在于對話狀態(tài)追蹤(DST)和對話策略設(shè)計(DPL)的合理性,如:打斷、無聲等語音特有場景,如何在提升用戶體驗的同時確保外呼任務(wù)流的正常正常進(jìn)行。

6. 話術(shù)設(shè)計的合理性

話術(shù)設(shè)計也是語音任務(wù)機(jī)器人設(shè)計中非常重要的一個部分,為提升用戶的體驗。

話術(shù)設(shè)計可遵循以下幾個原則:

  1. 話術(shù)設(shè)計更貼合應(yīng)用場景;
  2. 主干話術(shù)設(shè)計精簡有吸引力;
  3. 話術(shù)擬人化;
  4. 不同狀態(tài)下話術(shù)變化。

六、結(jié)語

目前,隨著AI技術(shù)的不斷進(jìn)步,市場需求的進(jìn)一步擴(kuò)大,智能語音機(jī)器人在實際應(yīng)用場景中的表現(xiàn)也越來越好,逐漸能勝任更多的業(yè)務(wù)工作。

不過其難點仍然存在,期待未來在更多AI技術(shù)的賦能下,智能客服機(jī)器人能力有更大程度的提升,能讓我們在生活中體驗到更貼心智能的機(jī)器人服務(wù)。

以上內(nèi)容基于筆者結(jié)合學(xué)習(xí)和工作實踐的思考,若有理解不到位之處,還望大家指正,更希望通過這篇文章能與各位多多交流。

參考資料:

  1. IDC《中國人工智能市場軟件及應(yīng)用半年度研究報告(2019H2)》
  2. 艾瑞網(wǎng)《2019年中國人工智能產(chǎn)業(yè)研究報告》
  3. 58同城《智能語音機(jī)器人助力企業(yè)提效增收》

 

本文由 @岑為 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!