欧美牲交A欧美牲交AⅤ免费真,在线观看成人无码中文av,欧美牲交A欧美牲交AⅤ另类

搜索

APP

起點課堂會員權益

職業體系課特權

線下行業大會特權

個人IP打造特權

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業技能直播

會員專屬社群

榮耀標識

發布

注冊 | 登錄

從skill到技能，VUI時代已經到來

語音AI社

2018-11-07

1 評論 3851 瀏覽 22 收藏

9 分鐘

當前，隨著AI時代的到來，越來越多的人發現了語音交互的潛力，開始著手策劃進入這個領域。本篇文章作者給大家分享了自己有關語音交互技能的一些看法，供大家討論學習。

目前，在亞馬遜alexa上，語音交互技能的數量已經超過5w，雖然這個數量和質量還沒法和GooglePlay和AppStore提供的620萬款應用媲美，但仍然是一件令語音AI從業者歡欣鼓舞的事，隨著AI平臺的規范化、標準化，越來越多的產品經理注意到語音交互的潛力，開始策劃和設計技能。

這其中，也有不少剛剛接觸語音交互技能的朋友，所以整理了一些基本概念，也夾雜了一些自己的看法，特與大家分享、討論。

語音交互技能，也叫“技能”，這是個新鮮事物，在2年前，大家還必須要用英文，叫它skill。而定義語音skill的，正是亞馬遜的現象級語音交互產品——echo。

一、亞馬遜的0到3，貝索斯的130到5000+

時間回到2015年，當時的智能音箱大家還是用來聽聽歌啊，查查天氣啥的（雖然聽歌查天氣的功能也沒有達到很完善）。

當年7月份，亞馬遜宣布了開放部分語音交互能力給第三方，正是這個嘗試，讓alexa平臺誕生了最早的skill：Crystal Ball（水晶球），Math Puzzles（猜數字），StubHub（今晚干啥）。

詳見下圖：

現在看來這三個skill很基礎，甚至是有點簡陋。

比如，Crystal Ball“水晶球”這個skill的功能就是回答yes或者no，而且還是隨機的……

比如你問音箱：alexa，我該減肥嗎？音箱回答：yes，第二次你問音箱：alexa，我該減肥嗎？音箱回答的可能就是no。

你問什么問題音箱不管，音箱只管回答yes和no，我覺得這個技能也許實現起來只用了三、四行代碼吧，技術上應該是蠻簡單的。

Math Puzzles“猜數字”這個skill也不難，就是播報一串數字，這串數字有一定邏輯，你說出下一個數字就可以了。比如，音箱會問2,4,6,8的下個數字是多少？你跟alexa說10，就算答對了。

StubHub“今晚干啥”稍微復雜點，alexa會把音箱的地理位置給到開發者，所以當你問alexa今晚干啥的時候，alexa可以根據地理位置推薦附近的電影、沙龍、活動和派對給你。比如：

用戶：“alexa，我今晚該干點啥？”

音箱：“附近的XX創客空間，有一場人人都是產品經理主辦的AI主題演講貌似很不錯，時間是晚上8點鐘?！?/p>

但是，如果用戶追問：“alexa，演講人是誰”，音箱就回答不上了，是的，alexa開放出來的技能最早也沒有多輪對話。

到了16年1月，alexa的skill數量達到了130個，alexa團隊興高采烈的發了個（信息圖）infographic介紹成果。

結果把亞馬遜的老大貝索斯搞炸了，趁著來開會把alexa團隊教育一番，130？Wtf，怎么這么少……（據美國媒體the information報道，但亞馬遜官方不予置評）

貝索斯要求這個速度要加快，加快，再加快。alexa的團隊也很拼命，到了11月，alexa的skill數量達到了驚人的5000+，這個時候美國人民已經可以用alexa叫Uber，聽Twitter內容了，智能音箱終于擺脫了只能聽歌，查天氣的窘境，當然這還要部分感謝貝索斯。

二、國內：從skill到技能，VUI時代的到來

等冬天過完，到17年上半年，對硅谷隨時保持敏感的國內互聯網大佬們，順利把國內智能音箱的大戰點燃，做skill的人逐漸多了起來。

skill，skill的叫著也不太順，用戶也用不明白，還是得要個中文的名字，翻譯為“技能”再合適不過。

根據《辭?！?，技能是運用知識和經驗執行一定活動的能力。放到語音AI的場景里，語音交互技能就是運用自然語言對話的交互方式，實現影音娛樂、信息查詢、生活服務等的功能，簡稱“技能”。

目前，不管是亞馬遜alexa，還是國內的各家AI平臺，技能的分類標準都很像，基本是把技能分成三大類：自定義技能、智能家居技能、內容播報技能。

自定義技能主要是生活服務、娛樂游戲，比如上文介紹的幾種技能，都屬于自定義技能。
智能家居技能主要是用來對其他智能設備進行語音控制，接口的完善性和語音交互已經趨于成熟，我聽說有的團隊把硬件接入alexa可能一天時間都用不到（審核時間不算）。
內容播報技能主要是對于新聞和信息的傳遞，像alexa平臺很早的時候就集合了幾乎所有美國的主流媒體：NYT、WSJ、NPR、CNN等等，媒體們對這個新興平臺還是處于卡位階段。

和CNN的受眾發展部副總裁艾倫-西格爾交流時，就發現他們暫時還是把亞馬遜的echo這個平臺放在戰略圈的最外層（見下圖），和apple watch等渠道平級，但他依然看好這種形式的潛力，畢竟美國已經有五分之一的家庭擁有了智能音箱。

而國內，騰訊新聞和新華社等都已經開始嘗試把新聞feed接入智能音箱，并且在小雅AI音箱、小豹AI音箱等設備上落地。

要做技能，肯定要選擇一個分類，這三種分類的技能在開發上側重點也會不同。

比如，自定義技能，它的核心就是是語音交互（voice interactive ），語音交互就是將人的語言轉換成應用的request（面向系統的請求）的模式，也就是VUI（Voice UI），我們之前談論的UI更多意義上是GUI（Graphic UI），而要做好的VUI的交互和GUI一樣，都對于細節提出了更多更高的要求。

亞馬遜的VUI設計師Amdrew ku就說過：“人類對于聲音的敏感是超出很多人的想象的?！?/p>