大語言模型對(duì)傳統(tǒng)語音交互領(lǐng)域的影響

Bay
0 評(píng)論 5746 瀏覽 18 收藏 10 分鐘

互聯(lián)網(wǎng)的發(fā)展不斷地推動(dòng)著各個(gè)領(lǐng)域的更新變換,本篇文章以傳統(tǒng)語音交互領(lǐng)域?yàn)槔?,?jiǎn)單講述大語言模型對(duì)傳統(tǒng)語音的影響及后期過程的預(yù)測(cè),希望能對(duì)你有所啟發(fā)。

一、垂直領(lǐng)域如何運(yùn)用LLM?

首先LLM需要巨大的模型參數(shù)量,而垂直領(lǐng)域優(yōu)質(zhì)數(shù)據(jù)的獲取相當(dāng)困難,一些在垂類領(lǐng)域已經(jīng)有積淀的團(tuán)隊(duì)更有優(yōu)勢(shì)。

其次大規(guī)模的數(shù)據(jù)訓(xùn)練成本非常高昂,垂直行業(yè)自己下場(chǎng)做不太現(xiàn)實(shí)。

因此我猜測(cè)更多的團(tuán)隊(duì)會(huì)采取接入大模型API 并繼續(xù)結(jié)合傳統(tǒng)模型的方式,結(jié)合LLM給出的結(jié)果對(duì)傳統(tǒng)模型進(jìn)行效果改良。

實(shí)現(xiàn)落地應(yīng)用還要經(jīng)過增加垂類訓(xùn)練數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)預(yù)處理、模型訓(xùn)練和微調(diào)、調(diào)整對(duì)話策略等過程。

如何訓(xùn)練數(shù)據(jù)、調(diào)整參數(shù)這個(gè)太專業(yè),這里我們重點(diǎn)看看對(duì)設(shè)計(jì)過程的影響。

二、LLM對(duì)語音交互設(shè)計(jì)的影響

通過上篇對(duì)LLM技術(shù)的了解,幾乎可以確定的是有了LLM后:

  • LLM在閑聊業(yè)務(wù)上有明顯優(yōu)勢(shì),一些模型回答不上來的內(nèi)容可以給出更加豐富的兜底回復(fù)。
  • LLM在上下文方面有著超越傳統(tǒng)NLP技術(shù)的優(yōu)勢(shì),并且能夠?qū)貜?fù)內(nèi)容給出前后連續(xù)性的回復(fù)。對(duì)話的自然度也會(huì)有明顯提升。

因此用戶可感知的系統(tǒng)智能度會(huì)被極大提高。

那么,LLM對(duì)于垂類任務(wù)型對(duì)話的語音交互設(shè)計(jì)流程究竟有著什么影響?

1. 傳統(tǒng)語音交互設(shè)計(jì)

順著傳統(tǒng)NLP研究思路,傳統(tǒng)任務(wù)型對(duì)話設(shè)計(jì)過程中,用戶的指令經(jīng)過Domain(領(lǐng)域)-Intent(意圖)-Slot(詞槽)的分類過程。

首先設(shè)計(jì)師會(huì)盡量窮舉某個(gè)Domain(領(lǐng)域)下的高頻用戶Intent(意圖)以及對(duì)應(yīng)的表達(dá)方式,這些表達(dá)方式會(huì)被標(biāo)注成用戶意圖、詞槽(Slot)、實(shí)體(Entity)等用作數(shù)據(jù)訓(xùn)練,試圖讓機(jī)器理解。(除了這些,還會(huì)增加用戶數(shù)據(jù)訓(xùn)練)。

其次,設(shè)計(jì)師還需設(shè)定好任務(wù)型對(duì)話的邏輯(比如用戶說了導(dǎo)航到三里屯后希望再增加個(gè)途徑點(diǎn)),和執(zhí)行結(jié)果。

最后,設(shè)計(jì)師還需要針對(duì)每個(gè)用戶意圖設(shè)定好回復(fù)語,包括正常的句子結(jié)構(gòu)和關(guān)鍵詞槽信息。為了避免回復(fù)語過于機(jī)械,通常還會(huì)擴(kuò)寫多條。

對(duì)話模板設(shè)計(jì)在傳統(tǒng)任務(wù)型對(duì)話中扮演著重要的角色。

2.LLM對(duì)語音交互影響預(yù)測(cè)

以下是我對(duì)LLM模型加持下,垂類任務(wù)型對(duì)話的語音交互設(shè)計(jì)過程預(yù)測(cè):

1. 模型的初期定義仍然重要,需要根據(jù)應(yīng)用場(chǎng)景設(shè)定好模型初始性格、回復(fù)語風(fēng)格,根據(jù)應(yīng)用領(lǐng)域控制對(duì)話長(zhǎng)度。

2. 窮舉對(duì)話意圖的工作會(huì)被減少,這些可以由大量用戶原始對(duì)話數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。

3. 模型基本的判斷邏輯設(shè)定(模型在某一領(lǐng)域話題范圍、對(duì)話的邏輯骨架)還是有一定必要的,在上一篇中我們有提到大模型也需要「有監(jiān)督微調(diào)」的過程。有監(jiān)督微調(diào)階段可以理解為通過給到 GPT 正確的對(duì)話模板(包含案例和執(zhí)行結(jié)果)讓GPT通過案例來學(xué)習(xí),并且形成回答??梢允沟?GPT 的能力分化到不同的技能樹。

4. 交互結(jié)果仍然需要設(shè)計(jì)或人工干預(yù),包括:不同場(chǎng)景(成功、各種異常)的提示音、引導(dǎo)用戶按照預(yù)定流程操作,對(duì)話輪次的控制、在必要的情況下提出澄清問題或請(qǐng)求更多的信息等。

5. 雖然一定程度降低了前期窮舉的設(shè)計(jì)工作量,短期內(nèi)的測(cè)試工作可能會(huì)變得更加重要,在一些安全性要求較高的垂直場(chǎng)景需配合邊界回復(fù)測(cè)試和人工干預(yù),以確保用戶實(shí)際使用效果不翻車。

6. 模型需要設(shè)定好上下文理解的邊界,確保用戶不同任務(wù)指令不會(huì)被記憶混淆。如果做不好這點(diǎn),基于LLM的任務(wù)型對(duì)話體驗(yàn)將會(huì)很災(zāi)難??梢酝ㄟ^以下方式實(shí)現(xiàn):

a. 引入時(shí)間窗口機(jī)制設(shè)定時(shí)間閾值,超過一定時(shí)間后的問題就不再進(jìn)行上文記憶。

b. 控制對(duì)話次數(shù),但這個(gè)方式可能會(huì)導(dǎo)致效果生硬一刀切。

c. 結(jié)合對(duì)話策略做判斷:結(jié)合用戶意圖檢測(cè)、對(duì)話狀態(tài)(時(shí)間機(jī)制、是否遇到狀態(tài)異常等)對(duì)整個(gè)對(duì)話管理邏輯進(jìn)行設(shè)定,會(huì)有一定的設(shè)計(jì)工作量。

d.通過注意力機(jī)制,讓模型關(guān)注的重點(diǎn)放在主要任務(wù)話題上,從而控制上下文理解范圍。不過這需要調(diào)整模型算法。

7. 需要給到大模型調(diào)用頻次過多、調(diào)用時(shí)間過長(zhǎng)的基礎(chǔ)兜底的方案。因?yàn)長(zhǎng)LM參數(shù)量級(jí)大,通常需要更長(zhǎng)的調(diào)用時(shí)間,我們又無法保證用戶在特定任務(wù)場(chǎng)景的網(wǎng)速,很可能會(huì)出現(xiàn)調(diào)用失敗的情況。(比如高速路段用戶需要緊急救援、偏僻地區(qū)、擁擠的商場(chǎng)信號(hào)差)有時(shí)候優(yōu)先給出傳統(tǒng)模型的回復(fù)可能更佳。

看到這你可能覺得,怎么初期設(shè)計(jì)工作并沒有因?yàn)槟P徒Y(jié)合了LLM而大量減少呢?

其實(shí)這只是模型能力搭建的一小部分,可預(yù)見的變化更多在搭建了這樣一套基礎(chǔ)后,大模型超強(qiáng)的學(xué)習(xí)和自我迭代能力可以使對(duì)話系統(tǒng)的建設(shè)更加高效:模型可通過自我優(yōu)化來提高對(duì)話質(zhì)量、通過更多數(shù)據(jù)學(xué)習(xí)減少Unknown數(shù)據(jù)的比例,并逐步減少對(duì)對(duì)話模板的依賴。

由此可見,當(dāng)大家都逐步搭建起垂直領(lǐng)域基于LLM的語音交互系統(tǒng)后,后續(xù)的系統(tǒng)維護(hù)工作中基礎(chǔ)、簡(jiǎn)單的設(shè)計(jì)工作會(huì)大幅減少,轉(zhuǎn)而需要更加專業(yè)的效果測(cè)試、對(duì)話策略調(diào)整、模型應(yīng)用場(chǎng)景搭建工作,而這些都偏向工程類。

我猜這也就是為什么前陣子國(guó)外出現(xiàn)了「提示語工程師」崗位:

找到了一篇zhihu上的回答:https://www.zhihu.com/question/585797590/answer/2908249230

可以從該職位的具體要求中看出,這個(gè)角色涵蓋大模型效果測(cè)試、應(yīng)用場(chǎng)景和交互式工具探索、模型推廣和一定的團(tuán)隊(duì)組織職能

而另外一個(gè)回答說明了具備Coding能力對(duì)標(biāo)注工作的重要性,其實(shí)在模型效果測(cè)試方面也同樣適用:https://www.zhihu.com/question/571460238/answer/2889630802

所以未來做好語音交互設(shè)計(jì)需要設(shè)計(jì)者對(duì)模型能力有較多底層知識(shí)儲(chǔ)備,設(shè)計(jì)師、產(chǎn)品經(jīng)理需要對(duì)垂直領(lǐng)域知識(shí)有足夠的理解,甚至具備一定Coding能力、產(chǎn)品搭建能力,以便和工程師團(tuán)隊(duì)做更緊密的配合。此外,崗位和崗位之間的界限會(huì)被進(jìn)一步模糊。

這提醒我們,日常工作之余,一定要多點(diǎn)技能樹,以應(yīng)對(duì)AI涌現(xiàn)的超能力對(duì)現(xiàn)有崗位的沖擊。

三、結(jié)語

相比當(dāng)前 ChatGPT、New Bing 已經(jīng)實(shí)現(xiàn)的 CUI 會(huì)話式交互(Conversational User Interface 基于對(duì)話的計(jì)算機(jī)用戶界面 ),VUI 語音交互要復(fù)雜的多。除了要應(yīng)對(duì)復(fù)雜的語音識(shí)別中背景音、多語言、方言口音問題,用戶在純語音交互過程中的輸入時(shí)間、停頓問題、信息量、信息有效性也更加不可控。加之調(diào)用成本高的問題,大模型在VUI領(lǐng)域的大規(guī)模落地應(yīng)用仍然需要時(shí)間。

但我相信這值得期待~

相關(guān)參考:垂直行業(yè)的語言大模型思考 (上)

本文由 @Bay 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!