如何提升語音的可發現性,讓小白用戶也能輕松使用?

2 評論 4258 瀏覽 27 收藏 14 分鐘

為什么要提升語音可發現性呢?因為很多時候,用戶不小心說錯話語音并不懂得糾正,而且語音的自然感知力度也不如視覺交互。本文為了解決這些問題,進行了一些思考。

在很早的時候語音就已經深入人們的生活,siri算是比較早的被人們熟知的語音助手,每天早上匆忙要離開家之前都會說:“Hey Siri,今天天氣”,比起解鎖找到天氣應用,點擊打開,查看天氣情況,路徑縮短很多。

我認為這就是語音最大的優點,縮短使用路徑,直達用戶目標,所以智能化可持續性學習的搜索方式會是它比較重要的一種手段。那么首先讓用戶逐步熟悉了解語音的使用方法,才會真的將這種方便實用的交互方法融入人們的日常生活。

為什么想從語音的可發現性角度來思考方案呢?第一點,當前的語音錯誤后的提示很不友好,用戶說錯后也不知道要如何糾正;第二點,語音無法通過視覺呈現,自然感知力度不如視覺交互。

那么我們從哪些方面提升語音的可發現性呢?這就要來捋一捋出行時,語音、載體、用戶之間發生的觸點在哪里,在什么步驟容易出現問題。

一、觸點:語音的載體

用戶在什么場景下接觸到語音,這個語音的載體包含哪些部分,都是非常關鍵的。

這里不對用戶進行定位,主要是出于這樣的考慮:現階段為語音起步階段,年齡、性別的區分僅代表著接受新交互方式的難易程度。所以此階段應當是不斷探索語音更為方便的場景,讓人們逐步認識到語音的便捷性。

那么現在普遍使用語音的場景有以下幾種:

  • 家中:音箱、電視盒子、電視遙控器、手機
  • 車內:中控、后視鏡、HUD、手機
  • 公共場合:服務機器人

這些場景下的載體有這形式:

  • 有屏幕
  • 無屏幕

公共場合的服務機器人這里我們不討論,他們的業務性比較強,是強業務主導的交互流程,和人們日常生活中使用語音的場景完全不同。那么就是家中有屏無屏和車內有屏的語音交互討論。

二、當前語音技術存在的問題

不論何種場景,語音的技術都是類似的,實現的原理也都是一樣的。這里舉例一些語音技術存在的問題:

1.必須喚醒

喚醒的花樣很多,有喚醒詞、快捷喚醒詞、oneshot,業界外的人肯定不了解這都是什么東西,更可況我們想要推廣的廣大用戶呢。

這里解釋下,這些喚醒方式之間的區別:

喚醒詞:最為基礎的喚醒方式,一般是有固定的2-4個字作為喚醒詞,比方說“你好小度、小愛同學”等,機器收到這樣的語音信號,就開啟錄音,這時候用戶可以隨意說話,機器將錄音文件拿去識別,這就是全部的識別的過程。

快捷喚醒詞:由于每次操作都需要說喚醒詞才可以控制,所以快捷喚醒詞應運而生,有些又叫他hotwords,實現方式都是一樣的。選取會比較常用的幾個詞匯,比方說“上一首、下一首、增大音量、返回主頁”等,同樣作為喚醒詞,不過和喚醒詞不同的是,這里只有喚醒,喚醒后識別到相應操作命令,直接執行,沒有后續的識別。

oneshot:同樣,設定幾個詞作為喚醒詞,比方說“導航到、我要聽”,機器收到這樣的語音信號,就開啟錄音,這時候用戶可以隨意說話,不過相比較喚醒詞增加一步,機器會對錄音進行裁剪,裁剪到喚醒詞后那一段就是用戶自由說話的命令,再拿著裁剪后的音頻文件去識別,就和使用喚醒詞操作一樣的效果。

2.錄音過程中,雜音、交談的話語可能會被錄入

喚醒語音后,會進入錄音狀態,識別是將錄音的音頻拿去識別到喚醒詞后面的那一段音頻,錄音是無差別錄音的,雖然現在有各種降噪技術,但是人們對話的聲音機器是無法區別的。

3.語義不能完全覆蓋全場景

想讓機器理解這段話,就需要語義理解?,F在的做法還是依靠人工的錄入,無法靈活理解。

4.對話系統不夠靈活,很多執行完一個任務之后就退出,還需重新喚醒

當前語音對話系統雖然有不少多輪對話的場景,比方說在導航選擇地點時,用戶可以說“下一頁、第二個”或者某個地點分詞進行選擇,但是看其本質,依舊是在導航情境下的單輪對話,選擇某地之后就進入導航退出語音。最主要考慮的問題點還是第二個問題無法解決。

三、家中的場景

家中的場景是語音交互的最好場景,網絡的穩定程度、安靜的環境、自由的使用環境,都使得語音在這一場景中具有非常大的吸引力。

在這一場景中使用語音的載體除了音響其他都有屏幕,電視盒子、遙控器都可以配合電視屏幕使用。手機、電視都帶屏幕,但是提示方式不能和車載設備類比,使用場景不同有很大的不一樣。

在家中,人處于一種相對比較舒適、靜止的狀態,他有精力或者時間去仔細看屏幕上的文字提示,那么這樣的有屏載體需要有比較多的比重出現說法提示,或者下一步的引導,用戶數據收集的比較齊全的時候,也可以做新老手不同的操作引導。

智能音箱雖說不帶屏幕,但是需要通過手機設置連接家中wifi,這樣才可以獲取云端資源,這里做交互引導的時候需要注意,用戶喚醒是通過智能音箱操作的,那么在手機上可以做按鈕點擊喚醒音箱語音,但不能給用戶一種幻覺:可以通過手機對話。

四、車內的場景

車內的載體不論中控、后視鏡、HUD還是手機都是有屏幕的,這就意味著可以依靠屏幕傳達部分信息給到用戶,那么這里就涉及到多模交互。何時看屏幕、何時聽語音是比較好的。這全看用戶心情,當然我們也要做到良性引導。

根據后臺用戶使用語音的數據來看,導航是使用頻次最高的一個領域,其次是音樂、電臺、天氣。所以從導航、音樂入手讓用戶先了解語音的基本使用方法。

上篇《語音交互中重要的引導設計》已經展示了幾種引導方法,不過還是有不足,比方說在首頁的位置放說法引導,其實經過一些用戶測試,發現那種方法并不是萬能的,很多用戶都不會去看有什么說法。

所以我們應該按照使用語音的先后順序進行引導:喚醒、識別。那么如果跳過新手引導的用戶,至少要先告訴用戶如何喚醒使用:

如果忽略這句TTS,也沒關系。在首頁的語音卡片上,常駐這樣一句話,提示用戶如何喚醒語音。

不過這種方法其實都是比較被動的,等待用戶去發現,去探索,如果語音自己開始對話,又會被吐槽智障,或者受到驚嚇。所以最初的產品策略應該比較保守一點,畢竟在智能車機上語音只是一個很小的一部分,過多的打擾到用戶真的會有困擾。

這是我列的如何循序漸進的教會用戶使用這樣的喚醒方式:

  • 第一步:基本操作:導航去哪里,聽什么,給誰打電話
  • 第二步:喚醒進行音樂操作,提示她“下一首”可以不喚醒使用
  • 第三步:當用戶發現有些可以不需要喚醒使用的,但是不知道在哪種情況下使用,那么就設置一個對話:

U:你有什么不需要我喚醒就可以說的?

天:全部喚醒詞羅列,同時安利免喚醒的概念

升級方案:用戶肯定記不住,當他有疑問詢問

U:快速導航是免喚醒嗎?

天:不是哦,導航中能免喚醒操作的有這些,您可以到哪里查看…

高級用戶:找到自己習慣的操作方式,只記住那幾個免喚醒詞,有了固定的使用操作模式

之所以想要對快捷喚醒詞作那么多的引導,主要是出于當前技術限制,喚醒是無法避免的,但是高頻操作如果不采用快捷喚醒詞實現的話,對用戶來說更為麻煩,每次必須喚醒,就只說那么一個指令,語音的存在是為了滿足用戶懶惰的心理,用戶但凡覺得有點麻煩的時候就會逐漸減少語音的使用,而這個節點就是我們需要花功夫去細化方案的地方。

五、一些感想

關于第二個問題點,開了個腦洞,在車內,如果搭配人臉識別、上下文理解,是不是可以去判斷用戶何時對機器說話呢?

首先,人們日常對話時,我要和誰說話基本都會面朝誰,哪怕眼神不會轉移,但是面部還是會配合對話者轉過去,這里就可以通過人臉識別看用戶喚醒后是否將面部轉過來。

第二點,因為在開車時,注意力肯定是高度集中的,有時候可能是不會轉動面部,但是人們日常的對話遵隨的這幾個準則:所說的話是自己相信的真實信息、所說的話滿足交際中所需的信息量、所說的話和當前對話相關、說話清晰明了。

所以我們可以根據錄入的人們說話的內容判斷上下文聯系,進而判斷是否在和機器對話。

如果是不相關的內容其實是對機器說的,那么此時喊下喚醒詞也是符合常理的,可以對比兩人對話,一人突然說了其他的話題,另外一個人沒有意識到是對自己說話的,那么說話者肯定會要喊那人名字。所以一個豐富且符合常理的語音狀態反饋非常重要。

以上是我對于當前如何提升語音可發現性以及未來可用技術解決的問題一些探討。

語音其實不能只限制在車載或者是家居場景,因為隨著人工智能的發展,想讓一個機器智能,肯定會有越來越多感知外界的技術:語音、圖像等,但是機器想要陳述或是表達,必須要用到語音,所以語音是將來人工智能的一種輸入感知的入口。所以如何更好理解人們說的話是非常值得研究的。

 

作者:青絳,微信公眾號:慕七和大胖

本文由 @青絳 原創發布于人人都是產品經理。未經許可,禁止轉載。

題圖來自 Unsplash ,基于 CC0 協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 11

    來自浙江 回復