Voice Agent:AI 時代的交互界面,下一代 SaaS 入口
隨著人工智能技術的飛速發展,語音交互已經成為新一代人機交互界面的重要組成部分。與傳統的文本交互相比,語音交互以其直觀、低能耗的優勢,為用戶提供了更為便捷的體驗。本文將深入探討語音代理(Voice Agent)在實時性、準確性和創造性方面的要求,分析其在各個場景中的應用前景,并識別出值得高度關注的創業及投資機會。
Voice agent 是與人類進行對話溝通的 AI,是下一代人機交互界面。??
和文本相比,聲音交互的優勢主要體現在:
? 語音交互以其與人類自然溝通方式的高度一致性,提供了一種更為直觀和低能耗的交互體驗,而打字文本交互的使用門檻更高;
? 語音交互非常適合于簡短、即時的信息交流;
? Text copilot 往往需要人機協作,最后一公里由人類完成,voice agent 一旦落地將徹底替代人類,獨立完成交流任務。?
以上差異使 voice agent 能產生不同于其他模態的價值,所以我們選擇 voice agent 作為獨立市場進行研究。
GPT-4o 是第一個實現端到端 voice-in, voice-out 的大模型,低延遲、高智能使下一代交互成為可能。傳統語音中 ASR + NLP(即使被替換為 LLM) + TTS 的延遲是用戶難以接受的,且很難沿著 scaling law 產生足夠智能的對話體驗。GPT-4o 的出現讓新的交互形態成為可能,帶來了更多應用場景的想象。
本篇研究中,我們根據不同場景對于實時性、準確性、創造性的不同要求搭建了分析 voice agent 能力稟賦框架,識別出了值得高度關注的創業及投資機會:短期內,我們較看好開發者工具和面向垂直領域的 voice agent workflow,長期則更期待消費者端“Killer app”的出現。
01 Voice Agent 全景圖
為了快速框定出端到端模型出現后什么領域會有劇烈變化、什么領域不會,我們搭建了以下框架來分析聲音領域的不同場景需求。?
象限分類標準:1)縱軸是該場景是否對實時性敏感,上方的需要實時在線的回答,下方的可以離線完成聲音制作。2)橫軸是區分該場景準確度還是創造力更重要,左側的要求 voice agent 能精準的解決問題或念出文稿,右側的需要 voice agent 更有創造力和表現力,能給出隨機應變的回答。
? 第一象限(右上):是端到端模型帶來最大積極影響的。需要實時回答,但對 AI 交流內容的容錯率和自由度比較高,典型的場景有:陪伴、心理療愈。
? 第二象限(左上):同時要求實時回答和高準確度,目前是落地難度最大的場景,需要像真人一樣可靠。這需要通過對 latency 和 RAG workflow 的極致優化,常見場景有:call center、銷售、客服、教育。
? 第三象限(左下):可以離線完成,但要求 voice agent 能按臺本發揮,因此是 TTS 技術最好的使用場景。常見場景:有聲書、短視頻配音、模板化外呼電話。
? 第四象限(右下):這是一個想象空間比較大的領域,對創意要求高,但同時可以離線生成。目前比較常見的用例是:音樂生成、npc 語音生成。
根據以上分析框架,我們認為有以下幾個值得高度關注的創業和投資機會。類比開發軟件時,前端和后端必然是分離的。聲音領域前端的機會在于 TTS,后端的機會在于 enterprise workflow,同時也存在端到端的應用機會:
1)療愈/陪伴類 voice agent(第一象限):端到端模型解鎖下一代交互形態,在教育、陪伴等領域出現 killer app。
2)Enterprise workflow(第二象限):企業使用時最大的痛點在于如何解決 corner case(邊緣場景) 的準確性,planning & RAG workflow 在這里就非常重要。同時,加入了 RAG 之后如何優化 latency 提升用戶體驗也很關鍵
3)TTS(第三象限):LLM 是大腦,但開發者仍需要 interface 的可控性。11 Labs 這樣公司的價值持續存在。
前面我們提到 4o 這樣的端到端模型取代的是 ASR + LLM + TTS 的鏈路,那這幾個創業方向在整個工作流中處在什么位置?
我們根據目標客戶將其分為開發者(To Developer),企業用戶( To Enterprise), 消費級(To Customer) 三個不同類型進行梳理,這三個領域的成熟度和壁壘、價值各不相同。以下為結論,我們會在第二部分進行詳細分析說明。???????????
To Developer:
? 定義:指的是面向開發者的 API 或開發平臺,包含 tts 那樣的單點模型、也包括把各 API 連接起來的平臺公司。
? 價值:高短期價值,所有需要搭建 voice agent 的團隊都需要快速搭建的工具來縮短開發周期;長期價值不明確,業務真正依賴 voice agent 的公司最終一定會選擇自建。
? 壁壘:中,其中部分公司有一定的技術壁壘,部分公司只是其他技術產品的連接器??赡鼙籩2e大模型顛覆。
? 重要方向:TTS,emotion engine,RTC,Full stack platform
? 值得關注的公司:
11labs:作為海外獨角獸持續追蹤的公司,我們認為 11 labs 是目前最好的 TTS 公司,它憑借完勝競品的聲音克隆體驗和聲音質量獲得了市場的關注和認可,業務收入增長迅速;
Hume AI:唯一相對成熟的 emotion engine,比 4o 更早實現了有高質量語義情感的對話;
LiveKit:GPT-4o RTC 方案提供者;
Bland AI:Full stack 平臺中自有模型方案最成熟的公司;
Retell AI:Full stack 平臺中用戶體驗較好的公司。
To Enterprise:
? 定義:面向企業用戶的 voice agent,既包括為銷售、醫療等垂直領域設計的 AI phone agent,也包括企業端的無代碼平臺。兩者邊界比較模糊。
? 價值:長短期價值均一般,能夠替代臨時工提供的人力服務,其精確性尚未達到標準;長期因為市場比較 fragmented,最多也只能在某一個垂直行業中占據比較大的份額。
? 壁壘:中等,壁壘主要來自于 GTM 和業務 SOP 積累,其他主要依賴模型能力提升。
? 重要方向:Sales and Customers agent, Training and Recruiting
? 值得關注的公司:
Sierra:Sequoia、Benchmark 投資, 團隊實力強,資源豐富;
Sema4.ai:Benchmark 和 Mayfield Fund 領投, 團隊實力較強;
Kore.ai:雖然是相對傳統的 AI 客服公司,但 Kore.ai 的業務綜合表現在整個領域中仍相對靠前;
Cognigy:創立于 2016 年、位于歐洲,值得關注的是它在過去幾年中實現了三位數的增長;
Hyperbound:AI 銷售角色扮演平臺,使用 voice agent 技術模擬真實的買家對話,幫助銷售團隊提高電話銷售技巧。
To Customer:
? 定義:面向消費者的語音交互應用,例如 AI 陪伴、療愈師、語言老師,甚至 AI 交互硬件。
? 價值:短期內較低,目前商業化價值尚不明確,還在探索下一代交互的過程中。但長期價值高,可能出現下一個 AI-native killer app。
? 壁壘:中~高,讓用戶交流更流暢的產品形態和用戶數據是其主要壁壘。如果出現更明確的數據飛輪,將有強規模效應。
? 重要方向:心理療愈,教育和陪伴。
? 值得關注的公司:
Sonia:除了看好 voice agent 在心理療愈領域的應用外,Sonia 的團隊背景也較為亮眼;
Clare&Me:看好 voice agent 在心理療愈領域的應用,歐洲市場廣闊。
02 具體環節分析
To Developer: 機會來自搭建 voice agent 的核心要素
AI voice agent 的搭建鏈路很長,把這些工具組合起來讓 voice agent work 并不容易。這個領域創業公司的核心價值就是使開發者更快地開發出一個高質量的 voice agent,而其中最重要的變量是端到端模型。
1. 端到端多模態模型
GPT-4o 作為多模態端到端模型有著很驚艷的效果:低延遲、真實情感表達、很強的語義理解能力。未來可以同時用于 entertainment & productivity 場景,作為每個人的朋友和工作助理,想象空間巨大。同時,對 voice agent 的落地還有幾個關鍵問題:
關鍵問題1:voice agent 是否真的能在企業用例上落地?
端到端模型降低 latency 的同時也降低了可控性,這是企業端落地的重要阻礙:enterprise 使用時需要精確的內容輸出,此時就需要 decompose 和 RAG 的加入。這對端到端模型并不友好,因為其延遲優勢會被 RAG 弱化,這時可控性、精確度和低延遲成了不可能三角。
在強領域知識的場景,可能需要端到端、易于微調的開源模型(可能是 Llama 3 8b 的語音版),才能讓 voice agent 真正落地。這時 Workflow 搭建很重要,用于解決 corner case 的精確性。
關鍵問題2:GPT-4o 以什么形式、什么時間開放 API ?
對于 to developer 的公司其 API 的開放時間和形式可能是最大的變數。目前端到端 model 推理成本相比傳統方法明顯更貴,這讓 API 甚至今年內可能都不會開放。如果 OpenAI 將語音輸入輸出的接口也開放了,Full stack 的平臺價值會降低,voice agent 的技術棧會變成 LLM (+emotion engine/ TTS) + streaming service。
如果 API 能開放多模態輸出的 API,語音+文字雙重輸出可以解決問題 1 中的 RAG 問題。先輸出一部分文字開始對話的前半部分,在說話的過程中完成一次 RAG,這樣可以基本避免 latency 問題。
關鍵問題3:端到端模型如何改變 voice agent 工作流?
GPT-4o 的出現把工作流中的很多步驟給簡化了。在端到端模型出現前,要搭建一個好的 voice agent 鏈條很長:
? VAD 識別發言時機:
voice agent 需要判斷何時用戶說完了內容、合適插入對話,以確保足夠互動自然。這一領域的算法稱為 VAD,voice automatic detection,在 LLM 出現前就有相關技術。
從官方 demo 中,我們能感受到 GPT-4o 的涌現能力對之前的技術降維打擊,尚不清楚 4o 中這一模塊是外置模塊(可能是類似 speculative encoding 那樣的 oracle model )還是 LLM 自身的能力。
? ASR 音頻轉文字:
這一領域的技術供給一直比較穩定,但端到端 LLM 會對這一類模型的能力產生降維打擊:以更快的實時性做到高質量的語義理解。
這個領域的代表公司包括:Assembly AI,OpenAI(Whisper 是開源SOTA)
? LLM 生成回答:
即使用 LLM 理解用戶意圖,生成自然的回答文本。這個過程中需要對回答推理步驟進行 planning 拆解問題,再用 RAG 從專有數據庫中檢索回答中的相關概念。要實現這一點就要求 LLM 要了解對解決問題需要執行的操作,比如下單退貨指令,并用 function call 能力分發至對應任務上等。
? TTS 文本轉聲音:
TTS 將文本轉換為自然的語音輸出。這里可以加入更有感情和表現力的聲音,也可以加入固定的音色。
TTS 公司的業務主要替代傳統配音市場(有聲書、翻譯等),離線的個人創作者內容生產。而 voice agent 則對實時性要求非常高,因此當前 TTS 和 voice agent 相關度還比較低。兩者對 voice 評估的目標不同,11labs 客戶要求的是高質量的聲音,而 voice agent 用戶要求的是高質量的語義回答和 low latency。需求的不同讓 11labs 相對難被沖擊到,interface 層不會直接被 LLM 大腦沖擊到。
關于 GPT-4o 的影響,使用 4o 不一定必須用其自帶的 TTS。TTS 位于大模型內,對開發者不太友好??蛻艨赡苄枰鄻踊穆曇裟J?,如定制化或卡通化風格。未來最值得關注的是 4o API 是否同時支持Voice 和 Text 雙頭輸出。
代表公司:11labs,Wellsaid,play.ht
? 讓對話更加生動的情感引擎(Emotion engine):
Voice agent 在客服、陪伴等場景中都非常需要理解人類的情感表達,并盡可能模擬出人類表達時的情感,支持這樣能力的技術便被稱為 emotion engine。
代表公司 Hume AI 是目前唯一效果不錯的 emotion engine。Hume AI 的 API 接口背后是一個“共情大模型”(eLLM)驅動,它能夠完成情感理解、共情回應、通過個性化建議和干預幫助用戶管理情感。Hume AI 不是端到端模型,可以結合其他 LLM一起使用
但 emotional engine 方向最大的風險在于被涌現能力顛覆。GPT-4o 向我們證明了學習足夠多對話數據的端到端多模態模型自己能涌現出對人類情感的模仿能力,Hume 的能力很可能被降維打擊。
代表公司:Hume AI
? 用RTC 降低 streaming latency:
這類技術接口的價值是降低 LLM 交互的速度,讓其交互對用戶更絲滑無感。Voice agent 需要選用合適的 streaming service 來降低 voice agent 對話的延遲,例如 OpenAI 選擇 livekit 來降低 latency,Bland 選擇 Twillo 來接入各類語音電話。
LLM 需要實時接收用戶的音頻。由于人和 AI 都無法加速產生內容,為了減少 100-200 毫秒的延遲,RTC是必須的解決方案。對于用戶的溝通文本,decoder-only transformer 無法提前讀入內容,但 RTC 可以保證其在讀入內容和輸入內容時的 latency 被降到足夠低,且不同人物之間可以有并行處理和加速。
考慮到 RTC 是一個已經發展了十年的技術,其能力已經相對 commoditize了。對于 OpenAI 這樣的團隊,未來更有可能的是選擇招聘團隊自建更完備的系統。這類玩家更可能的客戶是受到 OpenAI 名聲影響到的 voice agent applications。
代表公司:LiveKit
總的來說,在整個 vocie agent 的 workflow 中,每一個模塊,都出現了一些重要公司:
Source: a16z
2. Full stack 平臺
除了圍繞 voice agent 的技術鏈條提供服務外,還有一類公司是將以上各個環節打通的 Full stack 平臺。值得一提的是,這是在 GPT-4o 前就出現的產品形態,幫開發者快速把 ASR + LLM + TTS 的鏈路打通??梢约毞譃橐韵聝深悾诵膮^別在于是否自己訓練模型:
? End2end infra:自己訓練模型,端到端完成所有任務的公司,從轉錄、推理、文本到語音,到構建決策圖和可配置的函數調用和 API 請求。
這個板塊的代表公司 Bland AI 是一家專注于托管客戶微調模型棧并提供低延遲通話解決方案的公司,為開發者和企業定制化語音代理以適應特定用例。其核心產品是一個多功能的 AI Phone API,能夠自動化和管理各類電話呼叫,包括出站和入站呼叫、對話能力、合規工具、可擴展性以及與現有系統的無縫集成。Bland AI致力于構建 AI 呼叫中心,通過將語音轉換為文本并快速生成回應,同時在 LLM 中構建防護措施以降低風險。該公司采用訂閱模式,提供從每分鐘 0.07 美元起的定價,已獲得Acacia Venture Capital Partners、Team Ignite Ventures和Y Combinator的投資。
? Middleware router:中間件層,不自己訓練模型而是將不同組件串聯起來。幫助企業提高了靈活性,能以最快的方式選擇自己合適的模型并將其開發為 voice agent。
在11labs 客服訪談中,我們看到有不少客戶選用 11labs 作為tts,和其他 API 一起使用,往往就采用了中間件或自建基站,而不是上文的 Full stack 平臺一體化基建。
例如, Verizon Communications 利用 11labs 為在野外工作的工程師建立 AI agent,使得工程師可以通過手機應用程序與聊天機器人交流,通過語音來接收信息。
作為中間件的代表公司,Retell AI 提供用于構建對話式語音 AI 代理的中間件解決方案。API 主要功能包括語音穩定性控制、實時自動語音識別(ASR)轉錄、自定義語音以及即將推出的情感分析和環境噪聲添加等,團隊由前字節跳動/TikTok 產品經理,Google 軟件工程師,Meta 項目經理和技術主管組成。包括 Y Combinator 在內的投資者已經為 Retell 投資了總計453 萬美元的資金。
To B: 新一代 Saas 入口
語音是進入核心客戶行為(如預訂、續約、報價等)的自然入口。如果下一代SaaS解決方案能夠充分利用voice agent技術,那么在2B領域,它們將擁有較大的增長潛力和市場優勢。
大部分語音對話不需要很高的智能程度,相反,它們更依賴于對上下文的理解、隨時 on call 以及對客戶需求的快速響應。有了可靠的 voice agent,企業就不再需要人工接線員來工具式地打電話,可以節省大量時間和成本。由于 To B voice agent 就是與客戶溝通的電子員工,需要了解很多相關領域的背景知識,因此這一個領域是垂直公司的機會。
以下是一些關鍵因素,解釋了為什么垂直領域存在市場機會:
? 呼叫類型、語氣和內容結構:不同行業的客戶互動具有特定的模式和風格。語音代理需要根據行業特點調整其溝通方式。比如語調、內容結構;?
? 數據集成和工作流:每個垂直領域都有其獨特的數據管理和工作流程;?
? GTM 策略(GTM)和 killer feature:需要具備能夠解決特定行業痛點的能力。
? 邊緣場景難度:將電話交給AI的質量標準非常高。這些公司最關鍵的任務就是去解決垂直領域里的邊緣場景,例如通用模型可能會誤解的獨特詞匯。
? 法規和許可:一些語音代理公司面臨特殊的限制和認證需求。例如,醫療保健領域需要遵守 HIPAA 合規性,銷售領域也出現了針對 AI 冷呼叫的國家級別的法規。
為什么 To B 場景下的垂直解決方案相對難被端到端模型顛覆?
在垂直場景中真正解決問題,需要做嚴謹的 RAG 和任務規劃,因此并不適合端到端模型一次生成。通常的過程是先通過文本內容 retrieve 相關信息,再次生成文字和進行 TTS。這時端到端模型的 latency 優勢就不再了,關鍵難點在于領域數據和 workflow 的推理。
1. 企業工作流
企業工作流領域的公司不局限于特定行業、特定場景,而是跨行業提供服務,但目前主要應用場景仍為 sales/support。他們以 low code 平臺或 SaaS 的形式提供服務。
我們根據銷售工作流,可以將 AI 客服分為幾類:
1)營銷類外呼:售前場景因為對于模型的理解和智能能力要求較低,是目前比較好的落地場景。Voice agent可以帶來更自然的對話體驗,同時能夠結合分析歷史通話數據,實現營銷轉化的提高。如果遇到太難的問題,LLM 也可以檢測后發給普通的客服。
2)銷售中:目前LLM還比較少的被應用到直面leads,因為受能力限制,失敗了損失過大。但被充分應用于客服培訓中,一方面節省了因為電銷頻繁離職導致的過多培訓時間成本;另一方面可以做到知識庫實時對齊,成為電銷的語音 copilot。
3)投訴/售后服務、客戶回訪:AI 可以幫助客服收集客戶投訴,解決簡單的售后服務問題。同時可以進行大規模的客戶回訪,也開始被企業廣泛的采用。
代表公司:傳統公司以 Parloa、Kore AI 為代表;新興公司則包括 Sierra,Sema4.ai
Sierra 專注于為企業打造 AI Phone Agent,提供基于 autonomous agents 理念的軟件,結合多個模型生成響應。由 Salesforce 前高管 Bret Taylor 和 Google 前VR負責人Clay Bavor創立,已獲得Sequoia和Benchmark 等投資方 1.1 億美元融資。公司采用基于結果的定價策略,客戶僅在問題解決時付費。WeightWatchers 利用 Sierra AI 提高了客戶服務效率和質量,實現了高客戶滿意度和問題解決率。
2. Training and Recruiting
Training and Recruiting 是值得關注的另一大模塊。
GPT-4o 可能預示著新一代解決方案的到來。引入 voice agent 技術有助于企業降低成本并提高效率。值得注意的是,該領域的專業性非常強,因為不同行業的培訓內容和面試測試有不同的需求。企業培訓市場覆蓋了技術培訓、軟技能開發、質量培訓、合規培訓等多個細分領域,服務于零售、醫療保健、金融服務、IT 等多個垂直行業。
根據 Global Industry Research 研究,Corporate Training Market 市場規模在2024年估計為 1331 億美元,并預計在預測期內以 9.47% 的復合年增長率增長。而 Polaris 調研 Recruitment Process Outsourcing (RPO) 市場在2023年的市場規模為 87.5 億美元,預計到 2032 年將達到 333.4 億美元。在這一市場中,頭部培訓公司包括 Skillsoft、LinkedIn Learning(微軟)、Pluralsight、Cornerstone OnDemand、Udemy for Business等。同時,頭部RPO公司有Cielo、Randstad Sourceright、Korn Ferry、Alexander Mann Solutions (AMS)。盡管市場存在一些頭部企業,但并沒有形成壟斷,為創新公司提供了機會。招聘方向的創業公司如 HeyMilo、Interviewer.AI;在培訓方向的Hyperbound和moctalk 等公司值得關注。
如 Hyperbound 是一個利用 AI 和 voice agent 的 AI 銷售角色扮演平臺,通過模擬真實買家對話來提升銷售團隊的電話銷售技巧。該平臺通過 AI 買家模擬、角色扮演練習,快速提升銷售代表的熟練程度,加速新員工入職,提高轉化率,并減少練習過程中對潛在客戶的負面影響。Hyperbound 還提供分析和反饋工具,幫助管理者評估和提升銷售團隊表現。團隊由銷售教練、AI 工程師以及前 Salesforce Einstein 工程師組成。
To C: AI 時代的交互界面
To C 產品的主要邏輯是,將昂貴或難以獲得的人類服務,且是基于對話且可以在線完成的,替換為 AI,主要場景包括心理療愈、輔導、陪伴等。
早期的 AI 陪伴等應用主要基于文字,如 character.ai,但文字形態的用戶門檻高一直限制著用戶規模。聲音比文字增加的維度:音色、情緒,讓用戶與 chatbot 交互的使用成本大幅降低。
1. Consumer Apps
對于 comsumer apps,未來可預見的確定性變化,其一是成本會大幅度降低,甚至降低 99%,從而帶來用戶規模的擴大。對于現階段的 AI 教育、陪伴、心理療愈這些產品,如 Duolingo Max、Speak、praktika 等普遍由于 LLM 及 TTS 調用成本過高,限制了大規模的采用。如果調用成本大幅度降低,將使得企業能夠以更低的價格提供服務。
其二是由于 GPT-4o 新架構的采用、webrtc 優化, latency 將繼續降低,帶來更自然的交互,那么對于 c 端實時、擬人程度要求高的場景,也有較大的效果提升。
具體有 4 個應用場景:
面向成人的教育應用:成人教育目前主要以語言學習應用為主,而語言學習也正是目前最適合通過語音交互進行的領域,因此我們認為 vocie agent 的發展可以讓這個領域直接受益。
面向兒童的教育應用:除了語言學習外,在更高質量的聲音輔助下,兒童學習伴侶的具象化和游戲化是創新的方向。
陪伴:Character.ai 和 ChatGPT Dan 的爆火已經佐證了陪伴市場的潛力,但目前大多數應用仍停留在簡單的 AI 朋友或虛擬伴侶階段,未來的創新可能包括具象化、游戲化,以及將AI伴侶集成到硬件中,實現隨時隨地的陪伴。
心理療愈:心理療愈是陪伴場景的升級,其核心在于情緒疏導和心理健康支持,但因為是醫療場景,所以關鍵挑戰在于合規性和避免幻覺問題。
與 Gen-AI 結合的具體案例:
1)Praktika.AI
? 產品:Praktika 使用 GPT-4+Unity Avatars+11labs,創建 voice agent 形式的 AI tutor,提供不同地域口音的 Avatar,模擬真實對話,幫助用戶克服語言障礙,提升溝通技巧;
? 差異:針對有實際英語溝通需求的用戶,如職業需求、出國留學等。與競爭對手相比,Praktika 更注重真實對話的模仿,Avatar 是其特點。
2)Ello:
面向兒童的閱讀伴侶應用程序,為幼兒園到三年級的孩子設計,提供與孩子閱讀水平和興趣相匹配的電子書籍和紙質書籍,幫助孩子培養閱讀習慣。Adaptive Learn™ 是 Ello 的 AI 引擎,能夠像一對一的教師一樣理解、適應并響應每個孩子的需求。
3)Sonia:
開發了 AI 驅動的認知行為治療師(CBT),提供語音和文本會話的心理健康治療服務。為用戶提供了成本效益高、可訪問性強、隨時可用的心理健康治療解決方案,改善心理健康服務的可及性。
Sonia 通過手機應用來提供完整的會話治療服務,用戶可以選擇語音或文本與 AI 治療師進行交流,這一服務收費為200 美元/年,和傳統的每次 200 美元的治療費用,成本極低。
2. Hardware
To C 的另一個機會是基于 voice agent 的消費級硬件,實時收集記錄用戶信息,實時交互反饋,成為更為具象的 personal assistant。但目前出現的出現的 humane、rabbit 的可用性、使用價值仍較差。
盡管尚未出現被廣泛認可的“下一代硬件”,但該領域正積極嘗試開發新產品。主要有兩種嘗試方向:首先是創造全新的、以語音交互為核心的硬件設備,如 Humane 和 rabbit ,這些產品旨在提供更加自然和直觀的用戶體驗,但目前可用性、使用價值仍較差。市場上也出現了小型陪伴玩具,它們通過搭載 voice 交互能力,提供互動性和娛樂性,例如 curio和 moxie 這樣的產品,不僅能夠吸引兒童的注意力,還能在一定程度上輔助教育和情感陪伴。
與 Gen-AI結合的具體案例:
因為大家對 Humane 和 rabbit 已經比較熟悉了,下面主要介紹兩款以 voice 為核心的游戲和陪伴類機器人:
1)Curio:
Curio Interactive Inc. 推出了 Grok、Grem和Gabbo 等 AI 玩具系列,這些玩具配備 WiFi、藍牙、揚聲器和麥克風,支持與兒童進行語音或文本互動,通過游戲和對話提升孩子的聽力和交流技能,同時減少他們對屏幕的依賴。
2)Moxie
Moxie 是由 Embodied 公司開發的一款具有情感智能的 AI 機器人,專為 5 至 10 歲兒童設計,幫助他們克服社交焦慮和孤獨感。它能夠理解語音和面部表情,維持眼神接觸,并以肢體動作響應互動。Moxie 還能記住過去的對話,運用特定療法如認知行為療法,并適應不同學習階段。
此外,Moxie 集成了先進的對話 AI 技術,能夠為多達四名兒童提供個性化互動,且在不使用客戶數據的前提下,根據用戶反饋持續更新,從而提升智能和同情心。
作者 | Cage, haina
編輯 | Siqi
本文由人人都是產品經理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創/授權 發布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于 CC0 協議。
這么硬核啊,我希望作者能繼續深入挖掘相關領域,提供更多簡單點的內容。