從skill到技能,VUI時代已經到來
當前,隨著AI時代的到來,越來越多的人發現了語音交互的潛力,開始著手策劃進入這個領域。本篇文章作者給大家分享了自己有關語音交互技能的一些看法,供大家討論學習。
目前,在亞馬遜alexa上,語音交互技能的數量已經超過5w,雖然這個數量和質量還沒法和GooglePlay和AppStore提供的620萬款應用媲美,但仍然是一件令語音AI從業者歡欣鼓舞的事,隨著AI平臺的規范化、標準化,越來越多的產品經理注意到語音交互的潛力,開始策劃和設計技能。
這其中,也有不少剛剛接觸語音交互技能的朋友,所以整理了一些基本概念,也夾雜了一些自己的看法,特與大家分享、討論。
語音交互技能,也叫“技能”,這是個新鮮事物,在2年前,大家還必須要用英文,叫它skill。而定義語音skill的,正是亞馬遜的現象級語音交互產品——echo。
一、亞馬遜的0到3,貝索斯的130到5000+
時間回到2015年,當時的智能音箱大家還是用來聽聽歌啊,查查天氣啥的(雖然聽歌查天氣的功能也沒有達到很完善)。
當年7月份,亞馬遜宣布了開放部分語音交互能力給第三方,正是這個嘗試,讓alexa平臺誕生了最早的skill:Crystal Ball(水晶球),Math Puzzles(猜數字),StubHub(今晚干啥)。
詳見下圖:
現在看來這三個skill很基礎,甚至是有點簡陋。
比如,Crystal Ball“水晶球”這個skill的功能就是回答yes或者no,而且還是隨機的……
比如你問音箱:alexa,我該減肥嗎?音箱回答:yes,第二次你問音箱:alexa,我該減肥嗎?音箱回答的可能就是no。
你問什么問題音箱不管,音箱只管回答yes和no,我覺得這個技能也許實現起來只用了三、四行代碼吧,技術上應該是蠻簡單的。
Math Puzzles“猜數字”這個skill也不難,就是播報一串數字,這串數字有一定邏輯,你說出下一個數字就可以了。比如,音箱會問2,4,6,8的下個數字是多少?你跟alexa說10,就算答對了。
StubHub“今晚干啥”稍微復雜點,alexa會把音箱的地理位置給到開發者,所以當你問alexa今晚干啥的時候,alexa可以根據地理位置推薦附近的電影、沙龍、活動和派對給你。比如:
用戶:“alexa,我今晚該干點啥?”
音箱:“附近的XX創客空間,有一場人人都是產品經理主辦的AI主題演講貌似很不錯,時間是晚上8點鐘?!?/p>
但是,如果用戶追問:“alexa,演講人是誰”,音箱就回答不上了,是的,alexa開放出來的技能最早也沒有多輪對話。
到了16年1月,alexa的skill數量達到了130個,alexa團隊興高采烈的發了個(信息圖)infographic介紹成果。
結果把亞馬遜的老大貝索斯搞炸了,趁著來開會把alexa團隊教育一番,130?Wtf,怎么這么少……(據美國媒體the information報道,但亞馬遜官方不予置評)
貝索斯要求這個速度要加快,加快,再加快。alexa的團隊也很拼命,到了11月,alexa的skill數量達到了驚人的5000+,這個時候美國人民已經可以用alexa叫Uber,聽Twitter內容了,智能音箱終于擺脫了只能聽歌,查天氣的窘境,當然這還要部分感謝貝索斯。
二、國內:從skill到技能,VUI時代的到來
等冬天過完,到17年上半年,對硅谷隨時保持敏感的國內互聯網大佬們,順利把國內智能音箱的大戰點燃,做skill的人逐漸多了起來。
skill,skill的叫著也不太順,用戶也用不明白,還是得要個中文的名字,翻譯為“技能”再合適不過。
根據《辭?!?,技能是運用知識和經驗執行一定活動的能力。放到語音AI的場景里,語音交互技能就是運用自然語言對話的交互方式,實現影音娛樂、信息查詢、生活服務等的功能,簡稱“技能”。
目前,不管是亞馬遜alexa,還是國內的各家AI平臺,技能的分類標準都很像,基本是把技能分成三大類:自定義技能、智能家居技能、內容播報技能。
- 自定義技能主要是生活服務、娛樂游戲,比如上文介紹的幾種技能,都屬于自定義技能。
- 智能家居技能主要是用來對其他智能設備進行語音控制,接口的完善性和語音交互已經趨于成熟,我聽說有的團隊把硬件接入alexa可能一天時間都用不到(審核時間不算)。
- 內容播報技能主要是對于新聞和信息的傳遞,像alexa平臺很早的時候就集合了幾乎所有美國的主流媒體:NYT、WSJ、NPR、CNN等等,媒體們對這個新興平臺還是處于卡位階段。
和CNN的受眾發展部副總裁艾倫-西格爾交流時,就發現他們暫時還是把亞馬遜的echo這個平臺放在戰略圈的最外層(見下圖),和apple watch等渠道平級,但他依然看好這種形式的潛力,畢竟美國已經有五分之一的家庭擁有了智能音箱。
而國內,騰訊新聞和新華社等都已經開始嘗試把新聞feed接入智能音箱,并且在小雅AI音箱、小豹AI音箱等設備上落地。
要做技能,肯定要選擇一個分類,這三種分類的技能在開發上側重點也會不同。
比如,自定義技能,它的核心就是是語音交互(voice interactive ),語音交互就是將人的語言轉換成應用的request(面向系統的請求)的模式,也就是VUI(Voice UI),我們之前談論的UI更多意義上是GUI(Graphic UI),而要做好的VUI的交互和GUI一樣,都對于細節提出了更多更高的要求。
亞馬遜的VUI設計師Amdrew ku就說過:“人類對于聲音的敏感是超出很多人的想象的?!?/p>
過去很長一段時間VUI方面積累的理論遠遠少于GUI,市面上相對經典的一本書是被翻譯成中文,今年剛剛出版的《語音用戶界面設計》。
當然亞馬遜的alexa平臺和國內各家AI平臺也積累了不少的經驗,大家感興趣的話平時可以多多關注各家的論壇。
目前,技能的生態森林正在逐步形成,相關資料也越來越多,愿剛接觸這一領域的開發者、產品經理都能做出體驗更好、更被用戶需要的技能。
本文由 @maoChuan 原創發布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
- 目前還沒評論,等你發揮!