沒(méi)有NLP技術(shù)背景,如何造一款A(yù)I產(chǎn)品?

2 評(píng)論 4593 瀏覽 41 收藏 6 分鐘

這兩年AI最火的非智能音箱莫屬,為搶占入口,市場(chǎng)上語(yǔ)音產(chǎn)品層出不窮,現(xiàn)已是一片紅海,智能音箱已經(jīng)成大廠(chǎng)們的標(biāo)配產(chǎn)品或是戰(zhàn)略中的一部分。那問(wèn)題來(lái)了,沒(méi)有大廠(chǎng)技術(shù)基因,沒(méi)有NLP?(Natural Language Processing)?技術(shù)背景的小公司,應(yīng)該怎么做“AI”智能語(yǔ)音產(chǎn)品呢?

一、選擇第三方NLP開(kāi)放平臺(tái)

NLP技術(shù)沉淀周期過(guò)長(zhǎng),投入會(huì)很大,選擇第三方開(kāi)放平臺(tái)想必是小公司最好的選擇,推薦三個(gè)AI語(yǔ)音開(kāi)放平臺(tái):

  • 科大訊飛開(kāi)放平臺(tái);
  • 百度AI開(kāi)放平;
  • 搜狗云知音。

二、明確技術(shù)分工

上圖是引入單個(gè)NLP的對(duì)接方案,通過(guò)任務(wù)分解,可以很清楚知道,哪些是第三方平臺(tái)做的,哪些是我們要做的。

NLP底層識(shí)別交給第三方開(kāi)放平臺(tái):

  • ASR (Automatic Speech Recognition,自動(dòng)語(yǔ)音識(shí)別):作用是將語(yǔ)音輸入轉(zhuǎn)化為文本文字
  • NLU后臺(tái) (Natural Language Understanding,自然語(yǔ)言理解):開(kāi)放給使用者的一套自定義語(yǔ)義系統(tǒng)
  • TTS (Text To Speech,文本轉(zhuǎn)語(yǔ)音):用于文本轉(zhuǎn)語(yǔ)音
  • 喚醒模型:預(yù)置喚醒詞,當(dāng)用戶(hù)發(fā)出該語(yǔ)音指令時(shí),設(shè)備便從休眠狀態(tài)中被喚醒,并作出指定響應(yīng),喚醒詞需要反復(fù)訓(xùn)練提升喚醒率,降低誤喚醒。
  • OS(Operating System): OS在執(zhí)行層面發(fā)揮的巨大作用,比如:正在執(zhí)行播放音樂(lè),你想關(guān)閉、切換歌曲,這時(shí)候OS就顯示出他的作用了
  • 系統(tǒng)垂類(lèi):開(kāi)放平臺(tái)所帶的系統(tǒng)技能

NLU補(bǔ)充、執(zhí)行干預(yù)、運(yùn)營(yíng)系統(tǒng)是我們需要做的。

三、談?wù)勎覀円龅膬?nèi)容

底層工作交給開(kāi)放平臺(tái)之后,我們需要搭建自己的運(yùn)營(yíng)管理系統(tǒng),開(kāi)發(fā)自己想要的技能。

技能

相當(dāng)于垂類(lèi),簡(jiǎn)單的說(shuō)就是某個(gè)應(yīng)用程序,語(yǔ)音作為入口打開(kāi)應(yīng)用,像音樂(lè)、新聞、天氣、笑話(huà)等都屬于技能,比如:講個(gè)笑話(huà),語(yǔ)音產(chǎn)品執(zhí)行打開(kāi)了“笑話(huà)”應(yīng)用,給你返回一條笑話(huà)內(nèi)容。

技能決定了產(chǎn)品內(nèi)容的廣度,技能可以是自制,比如:鬧鐘,也可以從第三方合作引進(jìn),像“抖音”、“微信”這樣自帶流量的第三方估計(jì)想必都想接入吧,對(duì)于一個(gè)智能產(chǎn)品來(lái)說(shuō),技能自然多多益善。至于需要多少,看公司的產(chǎn)品定位、業(yè)務(wù)、成本等因素綜合考慮。

自定義NLU

給你的技能配置語(yǔ)義,基于開(kāi)放平臺(tái)下建立自己產(chǎn)品的自定義NLU語(yǔ)義內(nèi)容,NLU主要由三個(gè)方面構(gòu)成,語(yǔ)義文本、意圖、參數(shù)。

語(yǔ)義文本(Text)

語(yǔ)義文本設(shè)計(jì)目的是為了能聽(tīng)得懂用戶(hù)聲音,同一個(gè)請(qǐng)求,每個(gè)用戶(hù)說(shuō)法都不一樣。舉個(gè)簡(jiǎn)單的例子,比如:幫我放首周杰倫的歌,來(lái)點(diǎn)周杰倫音樂(lè),周杰倫的音樂(lè)有沒(méi)有。設(shè)計(jì)語(yǔ)義文本時(shí),既要使用正規(guī)的主謂賓結(jié)構(gòu),又要考慮到特殊的說(shuō)法,語(yǔ)義要盡量覆蓋全。

意圖(Intent)

意圖指用戶(hù)的具體請(qǐng)求或目的,一個(gè)意圖可以包含多個(gè)語(yǔ)義文本。舉例:明天早上8點(diǎn)叫我起床,定明天早上8點(diǎn)鐘的鬧鐘,都屬于新增鬧鐘意圖。通常意圖依賴(lài)于技能,舉例的意圖就屬于鬧鐘技能。

詳細(xì)參數(shù)(Detail)

讀懂用戶(hù)說(shuō)什么后,需要根據(jù)用戶(hù)的意圖作出相應(yīng)的反饋,參數(shù)設(shè)計(jì)就顯得特別重要了。NLP平臺(tái)做法是當(dāng)語(yǔ)義文本輸入命中意圖后,通過(guò)接口將自定義NLU的參數(shù)傳達(dá)給后臺(tái)。參數(shù)存在的目的是要告訴后臺(tái),接下來(lái)你要做什么。

還是用歌曲的例子來(lái)說(shuō)明:

語(yǔ)義告訴后臺(tái),命中MUSIC意圖,執(zhí)行音樂(lè)技能,播放作者為“周杰倫”的歌曲。

產(chǎn)品交互規(guī)則

拿到了NLP傳達(dá)的參數(shù)指令,接下來(lái)系統(tǒng)要做的是給用戶(hù)反饋結(jié)果。

命中到NLP系統(tǒng)自帶的技能,如果你不做干預(yù)的話(huà),系統(tǒng)可以直接給出結(jié)果。

命中不是系統(tǒng)技能意圖或干預(yù)系統(tǒng)自帶技能,需要根據(jù)參數(shù)開(kāi)發(fā)相應(yīng)的功能。

最后

沒(méi)有語(yǔ)音識(shí)別技術(shù)同樣可以打造一款智能語(yǔ)音產(chǎn)品,它可以成為你的產(chǎn)品體系里的一部分。因?yàn)槌錾頉Q定了它的造價(jià)成本會(huì)很高,如果脫離產(chǎn)品體系,將該語(yǔ)音產(chǎn)品單獨(dú)為投入市場(chǎng),至少在價(jià)格上缺乏競(jìng)爭(zhēng)力。

 

本文由 @?ivan 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 哇,這文章不錯(cuò)

    回復(fù)
  2. 作為同行,我想說(shuō),作者僅僅只是把用戶(hù)看到的輸入和輸出做了功能性的推導(dǎo),其實(shí)可以將文本或者語(yǔ)音的樣本數(shù)據(jù)人工標(biāo)注,簡(jiǎn)單的算法處理,模型訓(xùn)練,過(guò)擬合等說(shuō)一遍,大家應(yīng)該都聽(tīng)得懂;再深入的ML、DL,模板就可以不用說(shuō)了

    來(lái)自北京 回復(fù)