永久免费观看的毛片视频下载,99热热久久这里只有精品68,久青草影院在线观看国产

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

大語言模型對(duì)傳統(tǒng)語音交互領(lǐng)域的影響

Bay

2023-05-17

0 評(píng)論 5746 瀏覽 18 收藏

10 分鐘

互聯(lián)網(wǎng)的發(fā)展不斷地推動(dòng)著各個(gè)領(lǐng)域的更新變換，本篇文章以傳統(tǒng)語音交互領(lǐng)域?yàn)槔?，?jiǎn)單講述大語言模型對(duì)傳統(tǒng)語音的影響及后期過程的預(yù)測(cè)，希望能對(duì)你有所啟發(fā)。

一、垂直領(lǐng)域如何運(yùn)用LLM？

首先LLM需要巨大的模型參數(shù)量，而垂直領(lǐng)域優(yōu)質(zhì)數(shù)據(jù)的獲取相當(dāng)困難，一些在垂類領(lǐng)域已經(jīng)有積淀的團(tuán)隊(duì)更有優(yōu)勢(shì)。

其次大規(guī)模的數(shù)據(jù)訓(xùn)練成本非常高昂，垂直行業(yè)自己下場(chǎng)做不太現(xiàn)實(shí)。

因此我猜測(cè)更多的團(tuán)隊(duì)會(huì)采取接入大模型API 并繼續(xù)結(jié)合傳統(tǒng)模型的方式，結(jié)合LLM給出的結(jié)果對(duì)傳統(tǒng)模型進(jìn)行效果改良。

實(shí)現(xiàn)落地應(yīng)用還要經(jīng)過增加垂類訓(xùn)練數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)預(yù)處理、模型訓(xùn)練和微調(diào)、調(diào)整對(duì)話策略等過程。

如何訓(xùn)練數(shù)據(jù)、調(diào)整參數(shù)這個(gè)太專業(yè)，這里我們重點(diǎn)看看對(duì)設(shè)計(jì)過程的影響。

二、LLM對(duì)語音交互設(shè)計(jì)的影響

通過上篇對(duì)LLM技術(shù)的了解，幾乎可以確定的是有了LLM后：

LLM在閑聊業(yè)務(wù)上有明顯優(yōu)勢(shì)，一些模型回答不上來的內(nèi)容可以給出更加豐富的兜底回復(fù)。
LLM在上下文方面有著超越傳統(tǒng)NLP技術(shù)的優(yōu)勢(shì)，并且能夠?qū)貜?fù)內(nèi)容給出前后連續(xù)性的回復(fù)。對(duì)話的自然度也會(huì)有明顯提升。

因此用戶可感知的系統(tǒng)智能度會(huì)被極大提高。

那么，LLM對(duì)于垂類任務(wù)型對(duì)話的語音交互設(shè)計(jì)流程究竟有著什么影響？

1. 傳統(tǒng)語音交互設(shè)計(jì)

順著傳統(tǒng)NLP研究思路，傳統(tǒng)任務(wù)型對(duì)話設(shè)計(jì)過程中，用戶的指令經(jīng)過Domain（領(lǐng)域）-Intent（意圖）-Slot（詞槽）的分類過程。

首先設(shè)計(jì)師會(huì)盡量窮舉某個(gè)Domain（領(lǐng)域）下的高頻用戶Intent（意圖）以及對(duì)應(yīng)的表達(dá)方式，這些表達(dá)方式會(huì)被標(biāo)注成用戶意圖、詞槽（Slot）、實(shí)體（Entity）等用作數(shù)據(jù)訓(xùn)練，試圖讓機(jī)器理解。（除了這些，還會(huì)增加用戶數(shù)據(jù)訓(xùn)練）。

其次，設(shè)計(jì)師還需設(shè)定好任務(wù)型對(duì)話的邏輯（比如用戶說了導(dǎo)航到三里屯后希望再增加個(gè)途徑點(diǎn)），和執(zhí)行結(jié)果。

最后，設(shè)計(jì)師還需要針對(duì)每個(gè)用戶意圖設(shè)定好回復(fù)語，包括正常的句子結(jié)構(gòu)和關(guān)鍵詞槽信息。為了避免回復(fù)語過于機(jī)械，通常還會(huì)擴(kuò)寫多條。

對(duì)話模板設(shè)計(jì)在傳統(tǒng)任務(wù)型對(duì)話中扮演著重要的角色。

2.LLM對(duì)語音交互影響預(yù)測(cè)

以下是我對(duì)LLM模型加持下，垂類任務(wù)型對(duì)話的語音交互設(shè)計(jì)過程預(yù)測(cè)：

1. 模型的初期定義仍然重要，需要根據(jù)應(yīng)用場(chǎng)景設(shè)定好模型初始性格、回復(fù)語風(fēng)格，根據(jù)應(yīng)用領(lǐng)域控制對(duì)話長(zhǎng)度。

2. 窮舉對(duì)話意圖的工作會(huì)被減少，這些可以由大量用戶原始對(duì)話數(shù)據(jù)進(jìn)行持續(xù)訓(xùn)練。

3. 模型基本的判斷邏輯設(shè)定（模型在某一領(lǐng)域話題范圍、對(duì)話的邏輯骨架）還是有一定必要的，在上一篇中我們有提到大模型也需要「有監(jiān)督微調(diào)」的過程。有監(jiān)督微調(diào)階段可以理解為通過給到 GPT 正確的對(duì)話模板（包含案例和執(zhí)行結(jié)果）讓GPT通過案例來學(xué)習(xí)，并且形成回答?？梢允沟?GPT 的能力分化到不同的技能樹。

4. 交互結(jié)果仍然需要設(shè)計(jì)或人工干預(yù)，包括：不同場(chǎng)景（成功、各種異常）的提示音、引導(dǎo)用戶按照預(yù)定流程操作，對(duì)話輪次的控制、在必要的情況下提出澄清問題或請(qǐng)求更多的信息等。

5. 雖然一定程度降低了前期窮舉的設(shè)計(jì)工作量，短期內(nèi)的測(cè)試工作可能會(huì)變得更加重要，在一些安全性要求較高的垂直場(chǎng)景需配合邊界回復(fù)測(cè)試和人工干預(yù)，以確保用戶實(shí)際使用效果不翻車。

6. 模型需要設(shè)定好上下文理解的邊界，確保用戶不同任務(wù)指令不會(huì)被記憶混淆。如果做不好這點(diǎn)，基于LLM的任務(wù)型對(duì)話體驗(yàn)將會(huì)很災(zāi)難?？梢酝ㄟ^以下方式實(shí)現(xiàn)：

a. 引入時(shí)間窗口機(jī)制設(shè)定時(shí)間閾值，超過一定時(shí)間后的問題就不再進(jìn)行上文記憶。

b. 控制對(duì)話次數(shù)，但這個(gè)方式可能會(huì)導(dǎo)致效果生硬一刀切。

c. 結(jié)合對(duì)話策略做判斷：結(jié)合用戶意圖檢測(cè)、對(duì)話狀態(tài)（時(shí)間機(jī)制、是否遇到狀態(tài)異常等）對(duì)整個(gè)對(duì)話管理邏輯進(jìn)行設(shè)定，會(huì)有一定的設(shè)計(jì)工作量。

d.通過注意力機(jī)制，讓模型關(guān)注的重點(diǎn)放在主要任務(wù)話題上，從而控制上下文理解范圍。不過這需要調(diào)整模型算法。

7. 需要給到大模型調(diào)用頻次過多、調(diào)用時(shí)間過長(zhǎng)的基礎(chǔ)兜底的方案。因?yàn)長(zhǎng)LM參數(shù)量級(jí)大，通常需要更長(zhǎng)的調(diào)用時(shí)間，我們又無法保證用戶在特定任務(wù)場(chǎng)景的網(wǎng)速，很可能會(huì)出現(xiàn)調(diào)用失敗的情況。（比如高速路段用戶需要緊急救援、偏僻地區(qū)、擁擠的商場(chǎng)信號(hào)差）有時(shí)候優(yōu)先給出傳統(tǒng)模型的回復(fù)可能更佳。

看到這你可能覺得，怎么初期設(shè)計(jì)工作并沒有因?yàn)槟Ｐ徒Y(jié)合了LLM而大量減少呢？

其實(shí)這只是模型能力搭建的一小部分，可預(yù)見的變化更多在搭建了這樣一套基礎(chǔ)后，大模型超強(qiáng)的學(xué)習(xí)和自我迭代能力可以使對(duì)話系統(tǒng)的建設(shè)更加高效：模型可通過自我優(yōu)化來提高對(duì)話質(zhì)量、通過更多數(shù)據(jù)學(xué)習(xí)減少Unknown數(shù)據(jù)的比例，并逐步減少對(duì)對(duì)話模板的依賴。

由此可見，當(dāng)大家都逐步搭建起垂直領(lǐng)域基于LLM的語音交互系統(tǒng)后，后續(xù)的系統(tǒng)維護(hù)工作中基礎(chǔ)、簡(jiǎn)單的設(shè)計(jì)工作會(huì)大幅減少，轉(zhuǎn)而需要更加專業(yè)的效果測(cè)試、對(duì)話策略調(diào)整、模型應(yīng)用場(chǎng)景搭建工作，而這些都偏向工程類。

我猜這也就是為什么前陣子國(guó)外出現(xiàn)了「提示語工程師」崗位：

找到了一篇zhihu上的回答：https://www.zhihu.com/question/585797590/answer/2908249230

可以從該職位的具體要求中看出，這個(gè)角色涵蓋大模型效果測(cè)試、應(yīng)用場(chǎng)景和交互式工具探索、模型推廣和一定的團(tuán)隊(duì)組織職能

而另外一個(gè)回答說明了具備Coding能力對(duì)標(biāo)注工作的重要性，其實(shí)在模型效果測(cè)試方面也同樣適用：https://www.zhihu.com/question/571460238/answer/2889630802

所以未來做好語音交互設(shè)計(jì)需要設(shè)計(jì)者對(duì)模型能力有較多底層知識(shí)儲(chǔ)備，設(shè)計(jì)師、產(chǎn)品經(jīng)理需要對(duì)垂直領(lǐng)域知識(shí)有足夠的理解，甚至具備一定Coding能力、產(chǎn)品搭建能力，以便和工程師團(tuán)隊(duì)做更緊密的配合。此外，崗位和崗位之間的界限會(huì)被進(jìn)一步模糊。

這提醒我們，日常工作之余，一定要多點(diǎn)技能樹，以應(yīng)對(duì)AI涌現(xiàn)的超能力對(duì)現(xiàn)有崗位的沖擊。

三、結(jié)語

相比當(dāng)前 ChatGPT、New Bing 已經(jīng)實(shí)現(xiàn)的 CUI 會(huì)話式交互（Conversational User Interface 基于對(duì)話的計(jì)算機(jī)用戶界面），VUI 語音交互要復(fù)雜的多。除了要應(yīng)對(duì)復(fù)雜的語音識(shí)別中背景音、多語言、方言口音問題，用戶在純語音交互過程中的輸入時(shí)間、停頓問題、信息量、信息有效性也更加不可控。加之調(diào)用成本高的問題，大模型在VUI領(lǐng)域的大規(guī)模落地應(yīng)用仍然需要時(shí)間。

但我相信這值得期待～

相關(guān)參考：垂直行業(yè)的語言大模型思考 (上)

本文由 @Bay 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)作者許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App