在线精品国产,亚洲乱码一区二区三区在线观看

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

聲網(wǎng)閉門研討會 | 探討 AIGC 行業(yè)應用與創(chuàng)新場景方向

人人都是產(chǎn)品經(jīng)理

2023-09-18

0 評論 7096 瀏覽 6 收藏

10 分鐘

AI 技術(shù)的蓬勃發(fā)展，為各行各業(yè)的內(nèi)容生產(chǎn)方式揭開了新的篇章，不管是文本領(lǐng)域還是音視頻領(lǐng)域，AIGC 的加入，無疑為這些領(lǐng)域開拓了更具創(chuàng)意、更具可能性的探索空間。

AI 技術(shù)熱潮的到來既帶來了機遇，也為業(yè)內(nèi)人士帶來了更多挑戰(zhàn)。在這樣的背景下，9月9日~10日，「人人都是產(chǎn)品經(jīng)理」聯(lián)合「騰訊大講堂」于北京舉辦了產(chǎn)品經(jīng)理大會，聚焦于“AI、數(shù)字化轉(zhuǎn)型、業(yè)務增長”，共同探討 AIGC 的商業(yè)化可能與落地實踐。

其中在9日晚上，「人人都是產(chǎn)品經(jīng)理」還聯(lián)合「聲網(wǎng)」聯(lián)合舉辦了一場閉門研討會，聲網(wǎng) AIGC 產(chǎn)品負責人杜浦帶來了“AIGC 加持下，APP 體驗場景創(chuàng)新哪些玩法值得期待？”的主題演講，并分享了聲網(wǎng)在實時互動+AIGC 探索上的最新成果。

現(xiàn)場回顧

AI 技術(shù)促進了各行業(yè)內(nèi)容生產(chǎn)方式的革新，比如文字生成、代碼輔助開發(fā)、圖片繪制、視頻處理等。在閉門會上，聲網(wǎng)分享嘉賓杜浦主要圍繞 AIGC 與音視頻的結(jié)合應用進行探討。

AIGC 的音視頻應用場景有許多，比如數(shù)字人虛擬主播、AI 虛擬戀人等。而這個過程里，產(chǎn)品體驗的需求 GAP 亟待滿足：

文本互動效果差：不擅長語?處理，只能實現(xiàn)?本互動，?法提供實時語?、視頻互動；AI 交互的響應延遲較?，?戶體驗差；
場景開發(fā)上線難：缺少 AIGC 所需的開發(fā)經(jīng)驗和能?儲備，期望能夠接?整體解決?案；?暇進?場景調(diào)研和玩法設計，應?可玩性不?，需要快速上線參考；
語音合成效果差：?戶的語?識別（STT）不夠準確，AI 語?合成效果（TTS）過于機械不夠真實，?戶體驗差；
AI 模型訓練難：應?設計的場景對 AI 模型的prompt 調(diào)優(yōu)訓練要求較?，整體場景流暢運?的實現(xiàn)難度較?。

面對這些問題，聲網(wǎng)提出了?AIGC 一站式音視頻解決方案，這一方案擁有三大核心優(yōu)勢：

音視頻互動更具沉浸感：相比傳統(tǒng)的通過 IM 文字聊天與 AI 角色實現(xiàn)交互的方案，聲網(wǎng)提供的實時音視頻 + 實時消息 + 虛擬形象方案能夠帶來更真實自然的互動體驗，更好地表達情感和傳達用戶的個性化意圖。同時，實時音視頻互動相比輸入文字，操作更加便捷，且能夠與其它多模態(tài)互動方式結(jié)合，進一步提升用戶體驗。

響應延時低至1.9秒內(nèi)：聲網(wǎng)作為實時互動云服務的開創(chuàng)者，在音視頻領(lǐng)域積累了深厚的技術(shù)優(yōu)勢，針對目前市面上大多數(shù) AI 生成式對話響應慢的問題，聲網(wǎng)的研發(fā)團隊對 AIGC 場景下音視頻互動的延時做了很多技術(shù)優(yōu)化，可以將對話響應延時控制在 1.9 秒內(nèi)，也就意味著當用戶對 AI 角色語音提問結(jié)束后，到AI 開始說話的時間間隔，聲網(wǎng)可以做到 1.9 秒以內(nèi)，相比市場上絕大部分 AI 互動延遲在 6-7s 的方案要低很多。

易開發(fā)，3h 快速上線場景：在場景開發(fā)層面，有些企業(yè)缺少 AIGC 所需的開發(fā)經(jīng)驗和能力儲備，期望能夠接入整體解決方案，對此聲網(wǎng)提供封裝完整的 SDK，包含實時音視頻、實時消息、語音轉(zhuǎn)文字（STT）/文字轉(zhuǎn)語音（TTS）、語音驅(qū)動虛擬人嘴型等多種能力，并支持 API 快速調(diào)用，提供開箱即用的場景化 Demo，最快 3h即可實現(xiàn)方案快速驗證。尤其對于想快速驗證新場景的企業(yè)與開發(fā)者而言，可以節(jié)省很多開發(fā)時間。

再進一步拆解，聲網(wǎng) AIGC 解決方案的一站式產(chǎn)品能力還包括這些能力：

模型能力：大語言模型是整個 AIGC 解決方案最核心的部分，在大模型能力方面，聲網(wǎng)也跟很多熱門的國內(nèi)外大模型進行了合作，根據(jù)業(yè)務場景集成測試了多個大模型的能力，以及支持開源大模型的私有化部署和模型 Fine-tune，支持企業(yè)根據(jù)自身需求進行靈活切換。

聲網(wǎng)會根據(jù)客戶的場景選擇合適的大模型，根據(jù)不同的場景做特定的模型數(shù)據(jù)庫和 Prompt，同時結(jié)合聲網(wǎng) RTC 的低延時特性，讓用戶交互延遲達到最優(yōu)，模型輸出更符合真實場景。此外，聲網(wǎng)在開源大模型層面也有在嘗試做私有化部署，以滿足部分企業(yè)對數(shù)據(jù)安全及網(wǎng)絡的要求。

語音能力：聲網(wǎng)憑借在音頻處理領(lǐng)域的經(jīng)驗，對語言轉(zhuǎn)文字（STT）+文字轉(zhuǎn)語音（TTS) 模型精細化調(diào)優(yōu)，實現(xiàn)人聲分離，斷句優(yōu)化，讓整個語言體驗更加流暢。此外，聲網(wǎng)還支持AI 實時變聲、定制化聲音克隆，讓聲音聽起來更具真實感。例如定制化聲音克隆可以復刻現(xiàn)實中學生老師的聲音，學生在下課后可以更加真實地與老師的虛擬形象進行語音互動。

場景人設定制：聲網(wǎng)在1V1語音聊天等場景還對 AI 角色進行了人設定制，通過 Prompt 的方式設置 AI 角色的名字、職業(yè)、性格等豐富的人設屬性并支持定制形象與聲音。在場景玩法層面，聲網(wǎng)也嘗試了多人語音場景的驗證，例如在誰是臥底、狼人殺等多人游戲的場景中，AI 可以作為一個玩家參與到游戲中，真正的與用戶一起玩游戲。

交互體驗升級：圍繞語音大模型的交互體驗，聲網(wǎng)也做了一些嘗試，例如長期對話記憶，在一些對話場景中，用戶在進行多輪文字互動后，有可能大模型記不住用戶之前說的內(nèi)容，影響對話體驗。對此，聲網(wǎng)通過實現(xiàn)多輪對話記憶，可以更好的應用在 AI 情感陪聊、智能辦公助手等場景。對于需要 AI 精準回答特定行業(yè)知識、企業(yè)專業(yè)知識、多維度知識的客戶，聲網(wǎng) AIGC 方案支持公域、私域 Vector DB 接入的能力，可以解決各種類型的數(shù)據(jù)分析和相關(guān)任務，特別是那些涉及到高維向量數(shù)據(jù)的應用場景。比如近似搜索、推薦系統(tǒng)、圖像識別、語音識別、時許分析、社交網(wǎng)絡分析、圖像/視頻和文本的關(guān)聯(lián)等。