你的工作學(xué)習(xí)AI助手:通義聽悟,如何通過AI能力顛覆其他產(chǎn)品?
在工作中,不少職場人都需要借助一定的軟件來提高工作效率,比如結(jié)合通義聽悟或飛書妙記的語音轉(zhuǎn)文字功能,來輔助業(yè)務(wù)的進(jìn)行。這篇文章里,作者就對通義聽悟這款產(chǎn)品進(jìn)行了拆解分析,不妨來看一下。
過去我是飛書妙記的重度用戶,現(xiàn)在我?guī)缀跬耆艞壦?/p>
只是因?yàn)樾庐a(chǎn)品的出現(xiàn):通義聽悟!
它將語音轉(zhuǎn)文字的操作一鍵完成,轉(zhuǎn)換準(zhǔn)確率大幅提升,支持多種導(dǎo)出格式,更重要的是還具備強(qiáng)大的AI分析能力,實(shí)現(xiàn)智能提煉、總結(jié)等功能。
想象一下,復(fù)雜的工作可以被簡化,重復(fù)的勞動可以被自動化,難以獲取的價值可以被發(fā)掘。
下面讓我?guī)阋黄穑匦赂惺蹵I的力量 : )
Take Away:
- 通義聽悟如何利用AI能力,改善語音轉(zhuǎn)文字的使用體驗(yàn)?
- 通義聽悟相較其他產(chǎn)品的獨(dú)特優(yōu)勢在哪里?
- 它的產(chǎn)品演化路徑是怎樣的?
- 它的產(chǎn)品主體框架是什么?
- 通義聽悟可能的商業(yè)模式和發(fā)展前景?
- 通義聽悟產(chǎn)品迭代的幾點(diǎn)建議
一、通義聽悟Super已經(jīng)重度使用了!
給大家看我的界面:
很多音頻文件我都是用通義聽悟來處理,有哪些場景會用到呢?給大家說說幾個典型的例子?。?/p>
1. 聽播客
我們現(xiàn)在時間有限,很多優(yōu)秀的播客內(nèi)容又想聽,那怎么辦呢?可以使用下面的方法來把音頻文件導(dǎo)出來,丟給通義聽悟,轉(zhuǎn)成文字版本,還帶有總結(jié)呢,方便多了:
將小宇宙的單集節(jié)目分享到微信里;
再用電腦瀏覽器打開單集節(jié)目的鏈接;
在播放按鈕上右鍵,選擇檢查;
在右側(cè)的源代碼界面,找到Audio Src=“xxx”;
雙擊復(fù)制,打開一個新窗口,粘貼后打開該鏈接;
在播放器下面的三個小點(diǎn)按鈕那點(diǎn)擊一下,選擇下載;
把這個mp3丟給通義聽悟,幾分鐘,就可以開始看文字了。
2. 前采總結(jié)
我做訪談節(jié)目,有些會有個前采環(huán)節(jié),相當(dāng)于預(yù)先的采訪,這里會產(chǎn)生2-3小時的對話內(nèi)容,我習(xí)慣說把過程錄音下來,然后回來丟給通義聽悟,基于轉(zhuǎn)文字之后,來做提煉總結(jié)。
甚至更進(jìn)一步,我會把訪談內(nèi)容導(dǎo)出成word,丟給Claude,請它來總結(jié)嘉賓的成長經(jīng)歷:
以及給出對應(yīng)的訪談提綱:
這樣能非??焖俚貛椭覀兲釤拑?nèi)容,并且我們可以根據(jù)最后的內(nèi)容做調(diào)整和修改。
有關(guān)我是如何用Claude來提高效率的,大家可以等我下一篇文章。
3. 視頻&播客剪輯配合
因?yàn)槊恳黄诓タ鸵纛l的時長會在2個小時以上,需要剪輯成40-50分鐘的內(nèi)容,就需要對著文字來做刪減,我會先把視頻里面的音頻提取出來,丟給通義聽悟,然后對著里面的文字做標(biāo)注,方便回頭用Audition來做刪減:
文字上標(biāo)注藍(lán)色的,是我會保留的內(nèi)容,其他的會刪掉。
這樣在Audition操作的時候,就可以對照著看,快速的找到時間點(diǎn)做處理了。
4. 播客高亮和Shownotes提取
我做播客,習(xí)慣把一些精彩的對話片段放在音頻一開頭,吸引到聽眾。
怎么做呢?
通義聽悟有一個功能叫實(shí)驗(yàn)室,里面會提取出一些值得關(guān)注的內(nèi)容,根據(jù)我的幾次測試,里面推薦的文字,不少確實(shí)是整段對話中的精彩片段!這就很省事了!
除此之外呢,通義聽悟還有章節(jié)速覽的功能,對于輔助我做好Shownotes頗有幫助,可以借助來快速找到對應(yīng)的內(nèi)容段落:
二、為什么通義聽悟可以取代飛書妙記
在是用通義聽悟之前,我一直在用飛書妙記,飛書妙記的核心功能,也是視頻/語音轉(zhuǎn)文字,但我現(xiàn)在只會在需要分享給嘉賓的時候,才會回到飛書妙記上,因?yàn)槟壳巴x聽悟還不大能分享。
那在哪些點(diǎn)上,通義聽悟做的比飛書妙記要好呢?
主要有三層:
- AI總結(jié)能力
- 用戶體驗(yàn)層面
- 產(chǎn)品顆粒度
我們分別來講講。
1. AI總結(jié)能力
飛書妙記主體還是以語音轉(zhuǎn)錄為主,然后我們看右上方也提煉了一些關(guān)鍵詞,點(diǎn)擊之后相當(dāng)于搜索關(guān)鍵詞。
除此之外,幾乎就沒有了AI總結(jié)的能力。
那我們反過來看通義聽悟,至少有這么幾個AI能力:
1)關(guān)鍵詞、全文摘要、章節(jié)速覽、發(fā)言總結(jié)
分別從不同維度使用AI做了內(nèi)容摘要。
2)問題回顧
打開后,它會對原文內(nèi)容中的問題,做高亮顯示。
我看了下,基本覆蓋得很全面。
3)值得關(guān)注
提取了算法覺得一些重點(diǎn)的內(nèi)容片段,鼠標(biāo)移上去會出現(xiàn)浮窗,可以點(diǎn)回顧,正文會跳轉(zhuǎn)到內(nèi)容所在的位置,可以點(diǎn)摘取,會把語句復(fù)制到右側(cè)的編輯區(qū)。
4)待辦事項(xiàng)
會自動的提取出正文內(nèi)容里可能需要代辦的事項(xiàng)。
值得關(guān)注、待辦事項(xiàng)兩個區(qū)域,都可以自己手動新增記錄。
5)翻譯能力
6)自定義專屬詞匯
如果希望有很多專有詞匯,希望語音轉(zhuǎn)的比較準(zhǔn)確,可以自己增加。這個我倒是沒用過,普通的轉(zhuǎn)譯已經(jīng)挺準(zhǔn)的了。
2. 用戶體驗(yàn)層面
1)易用性角度
通義聽悟支持微信小程序,并且可以從微信里直接讀取文件。
而飛書妙記必須使用PC網(wǎng)頁端才能上傳文件,使得你的文件必須要首先同步到電腦上,就很麻煩了。
2)為了工作學(xué)習(xí)打造
因此右側(cè)給了一半的編輯區(qū)域,可以把正文部分的內(nèi)容一鍵摘取過來,也可以把標(biāo)記的內(nèi)容一鍵摘取。
編輯器也做的挺豐富的,基本的功能也都支持。
3)標(biāo)注的部分會在時間軸上顯示,方便用戶查找
4)時間軸會顯示所處的段落
5)導(dǎo)出格式友好
飛書妙記只支持飛書文檔、TXT之類的,麻煩得很。通義聽悟則直接支持主流的PDF、Word。
其他的還有不少細(xì)節(jié),大家可以自己去挖掘一下。
3. 產(chǎn)品顆粒度
飛書妙記,如果你想使用,得注冊飛書賬號,并且必須是企業(yè)賬號,這帶來了使用門檻。
同時,飛書妙記是飛書All in One工具體系的其中一個模塊,也讓它的易用性收到了飛書整體系統(tǒng)的復(fù)雜度。
整體容量在免費(fèi)版本里面,上限就是10個G:
之前我使用,都經(jīng)常需要刪除內(nèi)容來保留空間。
那通義聽悟,則更加小巧靈活。因?yàn)樗褪且粋€獨(dú)立的產(chǎn)品,可以更加專注的做用戶場景的優(yōu)化。
之前是網(wǎng)頁版,現(xiàn)在針對微信增加了小程序版,體驗(yàn)更加絲滑了。小程序使用微信手機(jī)接口授權(quán)就可以登錄,使用門檻大幅降低。
容量空間只有2個G,但是呢,它打通了阿里云盤,在上傳音視頻界面里,可以選擇直接從阿里云盤里面導(dǎo)入,這個時候是不占用空間的。
因?yàn)镾uper使用阿里云盤比較早,我的阿里云盤空間是1.79TB,足夠足夠了。
對我來講,通義聽悟+阿里云盤=免費(fèi)的無限空間。
小結(jié)來看,飛書妙記只是針對飛書本身的應(yīng)用場景,比如使用飛書在線會議時,可以一鍵轉(zhuǎn)錄成飛書妙記,并自動轉(zhuǎn)寫成文字,這是非常方便的。
但也恰巧是All in One限制了它,它并不是作為一個獨(dú)立產(chǎn)品快速迭代更新的。使用飛書妙記有一兩年的時間了吧,我?guī)缀鯖]有看到過它在什么地方有過更新。。。
但通義聽悟有后發(fā)優(yōu)勢,獨(dú)立團(tuán)隊(duì)開發(fā),也瞄準(zhǔn)了更加廣闊的工作學(xué)習(xí)AI助手的場景,快速迭代,推出的功能也非常符合用戶需求,加上AI的賦能,很快就有了不少黑科技的突破。
就我自己來講,已經(jīng)推薦了身邊很多朋友使用:
三、通義聽悟產(chǎn)品演化
根據(jù)【三五環(huán)】《No.121 對談志杰:從通義聽悟看,當(dāng) AI 不再是工具,而是個人助手》;
志杰是阿里云通義聽悟產(chǎn)品&研發(fā)負(fù)責(zé)人,根據(jù)播客內(nèi)的交流,我們可以得知,通義聽悟的誕生至少有這么幾個大階段:
- 構(gòu)建技術(shù)底盤:招AI人才,做算法的研究等等,是一個純技術(shù)打造的環(huán)節(jié);
- 技術(shù)服務(wù)內(nèi)部:阿里內(nèi)部的呼叫中心會產(chǎn)生大量數(shù)據(jù),如何用算法提供產(chǎn)品服務(wù)于場景的課題就產(chǎn)生了;
- 云端產(chǎn)品演化:基于阿里云,使用API輸出技術(shù),其他的B端企業(yè)就可以使用這一服務(wù),別客戶集成使用;
- 服務(wù)內(nèi)部同事:公司同事出現(xiàn)例會,戰(zhàn)略會,有音頻整理的需求,就做了個網(wǎng)站,接著發(fā)現(xiàn)投資部門做背景調(diào)查也會用到,發(fā)布會會用到,年會的外籍員工比較多,也有“同聲傳譯”的需求出現(xiàn),加上大模型的出現(xiàn),就開始變成產(chǎn)品化正式立項(xiàng)了。
- 免費(fèi)產(chǎn)品公測:做一款ToC產(chǎn)品,搜集用戶反饋,探索用戶真正的需求。
我們看到這種演化過程,它就會更加像是,先有技術(shù)積累,逐步服務(wù)更多用戶之后,進(jìn)一步的擴(kuò)展成C端產(chǎn)品,去搜集用戶反饋,反過來看在具體的場景里要去突破什么技術(shù)要點(diǎn):
從目前可見的產(chǎn)品迭代來說,確實(shí)是如此,比如下面提到的PPT提取就很典型。
當(dāng)然,我覺得這一章節(jié)里面,通義聽悟的訴求絕不僅僅是持續(xù)的做好技術(shù)和產(chǎn)品的相互促進(jìn),其實(shí)他們的產(chǎn)品定位也非常的清晰“你的工作學(xué)習(xí)AI助手”,對于這個市場的渴望絕對是很強(qiáng)的。
當(dāng)前能找到新市場增量的產(chǎn)品不多,有潛在的機(jī)會,放過太可惜了,所以我們也看到通義聽悟在快速迭代,包括多個渠道的產(chǎn)品覆蓋等等。從動作回推,市場化的欲望騙不了人。
另一方面,我們看完通義聽悟的誕生和演化過程,也能理解,在戰(zhàn)略上的思考,也直接決定了產(chǎn)品的大?。?/p>
飛書妙記是為了飛書服務(wù)的,通義聽悟是從為客戶服務(wù),到為用戶服務(wù)的獨(dú)立產(chǎn)品,背靠阿里云、釘釘資源。結(jié)果似乎必然。
四、通義聽悟產(chǎn)品設(shè)計
Super理解,通義聽悟的技術(shù)層面,由下面的架構(gòu)構(gòu)成:
技術(shù)層面不多說,我們來看看toC側(cè),它的整體產(chǎn)品框架設(shè)計:
它的產(chǎn)品構(gòu)成是:
- 語音轉(zhuǎn)寫是地基
- AI分析是高樓
怎么理解呢?
我們看到通義聽悟,名稱里的聽悟,就是聽了悟了,是先聽再悟!
把聽到的語音,轉(zhuǎn)化成文字,然后就可以使用AI的能力對文字進(jìn)行語義理解,再做各種黑科技操作。
因?yàn)槿粘9ぷ骱蜕钪?,人類接受信息的方式,除了看就是聽?/p>
根據(jù)美國哈佛商學(xué)院有關(guān)研究人員的分析資料表明,人的大腦每天通過五種感官接受外部信息的比例分別為:視覺83%,聽覺11%,嗅覺3.5%,觸覺1.5%,味覺1%.
視覺信息包含大量細(xì)節(jié),存儲和處理成本很大。聲音信息特別是人類的對話信息,則信息量小很多,AI好做處理,把聲音信息處理好,能夠解決大量的工作生活學(xué)習(xí)的場景,比如聽課、聽播客、對話等等。
所以在處理信息時,優(yōu)先選擇容易做的聲音信息,是很正確的邏輯。
我們可以看到,通義聽悟也可以處理視頻,不過更多的是基于視頻里的音頻轉(zhuǎn)錄成文字后,基于時間點(diǎn)對視頻上的進(jìn)度做對應(yīng)關(guān)聯(lián)。
這是通義聽悟的基本盤。也就是語音轉(zhuǎn)寫是地基的含義。
這個也是飛書妙記的基本盤,甚至說飛書妙記的絕大部分功能都體現(xiàn)在語音轉(zhuǎn)寫上面。
超越飛書妙記的通義聽悟,發(fā)力就發(fā)力在了AI分析上。
我們前面提到的通義聽悟之所以能夠取代飛書妙記,就是在AI總結(jié)部分有很多發(fā)力。
AI分析是高樓。這座高樓使得通義聽悟在使用體驗(yàn)上,遠(yuǎn)超飛書妙記。
除了上面說的這兩點(diǎn),通義聽悟還有一個功能最近更新的很有意思:
上傳視頻文件后,通義聽悟?qū)⒆詣幼R別和總結(jié)視頻中的PPT,你可以在視頻下方閱讀圖文總結(jié),點(diǎn)擊圖片全屏查看,還支持導(dǎo)出PPT文件哦!
我自己倒是用不上,但是看這個功能,對于上網(wǎng)課,學(xué)視頻課程的,還是很有意義的。結(jié)合了視頻中的圖片識別、提取、關(guān)聯(lián)、摘要總結(jié)、分段等。
也是徹底貫徹了通義聽悟的slogan“你的工作學(xué)習(xí)AI助手”
五、通義聽悟的商業(yè)前景
我們首先要了解,通義聽悟背靠阿里云,意味著有強(qiáng)大的AI技術(shù)積累和算力支持!這是其商業(yè)化的重要支撐!
2022年,阿里云在中國云市場占有率為36%,為市場最大者。
基于按使用量付費(fèi)的模式,結(jié)合阿里云市場,可以快速打入到大客戶。
另外,阿里的云釘一體,通義聽悟可以與釘釘深度打通,成為協(xié)同辦公場景下的智能產(chǎn)品,提高產(chǎn)品的附加值。
截至2022年9月30日,釘釘用戶數(shù)破6億人,企業(yè)組織數(shù)超過2300萬家,付費(fèi)DAU(日活用戶數(shù))突破1500萬人。
嵌入到釘釘?shù)臅h里面還是有比較大的價值的,就看是用什么方式嵌入,以及企業(yè)的需求量多大了。
我自己是比較樂觀的,特別是如果能夠和云存儲捆綁的話,就比較有增值服務(wù)的意義。
我們看騰訊會議就有類似的服務(wù),按月收25元,包含了會議語音轉(zhuǎn)文字等功能:
以上是B端的市場前景。
在C端,通義聽悟也非常有機(jī)會,目前是免費(fèi)內(nèi)測階段,從公司重要Ai產(chǎn)品階段出發(fā),通義聽悟完全可以繼續(xù)用免費(fèi)的C端邏輯,來繼續(xù)快速打開市場,并且獲得用戶反饋,這樣可以快速迭代產(chǎn)品,不斷地占有更大的市場。
免費(fèi)的邏輯,可以這么設(shè)計:
1)免費(fèi)使用,但需要和現(xiàn)在一樣積累轉(zhuǎn)寫時長。
2)轉(zhuǎn)寫時長可以增加獲得難度,比如每天登錄只能獲得1小時轉(zhuǎn)寫時長,重度使用用戶可以通過邀請好友獲得轉(zhuǎn)寫時長,或者是付費(fèi)進(jìn)行購買轉(zhuǎn)寫時長。
利用稀缺資源卡脖子,關(guān)注用戶的動作行為來評估產(chǎn)品對用戶的重要程度,再持續(xù)的調(diào)整商業(yè)邏輯。
同時,從功能層面來說,目前在產(chǎn)品體驗(yàn)上是遠(yuǎn)超飛書,但是功能體驗(yàn)層面,或許不構(gòu)成護(hù)城河,核心還是單純的產(chǎn)品是否能夠很強(qiáng)的解決用戶的剛需,按照當(dāng)前的情況,競品包括飛書和騰訊會議,其轉(zhuǎn)寫功能是附著在主體(飛書、騰訊會議)本身的,脫離了主體,目前只剩下通義聽悟可以單獨(dú)去解決用戶需求。
還是有比較大的先發(fā)市場機(jī)會的。
六、產(chǎn)品迭代方向
通義聽悟目前在產(chǎn)品設(shè)計層面,主體框架已經(jīng)比較穩(wěn)定了,底層的大模型技術(shù)迭代,我們就不說了,下面從幾個方面簡單講講后續(xù)可以做的方向:
1)覆蓋更多渠道:除了瀏覽器插件,增加iOS、安卓App覆蓋,使得用戶在應(yīng)用商店搜索時,可以找到應(yīng)用下載。
2)支持更多音頻輸入來源:目前僅限于本地上傳音頻文件,如果可以直接解析網(wǎng)頁里的音頻鏈接,會更加方便,比如BiBiGPT可以丟鏈接直接獲得總結(jié)的結(jié)果:
我們看播客、視頻場景,是需要在通義聽悟里面上傳文件的,如果可以自動解析鏈接里的音視頻內(nèi)容,就有大幅簡化了用戶的操作流程。
3)打通云存儲服務(wù):除了阿里云盤,也可以增加更多云盤的支持,比如夸克網(wǎng)盤等常用的云盤,擴(kuò)展用戶場景,夸克也同樣是阿里系產(chǎn)品。
、
4)用戶體系打通:現(xiàn)在通義聽悟是一個獨(dú)立產(chǎn)品,也是個比較輕量化的產(chǎn)品,可以考慮和flomo一樣,像水那樣融入到其他產(chǎn)品里面。除了釘釘,也可以考慮找到有類似場景的產(chǎn)品融合。
5)提供個性化定制功能:當(dāng)前支持用戶自定義專有詞匯,后面可以考慮增加不同的模型,比如美劇字幕模型、專業(yè)英語考試模型等等。
6)增加快捷鍵:可以增加一些快捷鍵,提高操作效率。
比如選擇文案后彈出的窗口,我還需要移動鼠標(biāo)去選擇功能操作,這里可以增加一個快捷鍵,免去了移動鼠標(biāo)的動作。
7)輸出格式多樣化:目前的輸出還是以文字為主,可以考慮增加思維導(dǎo)圖的模式,對于用戶理解全文結(jié)構(gòu)會更加清晰直觀。
8)開放API接口:現(xiàn)在需要進(jìn)入到幫助頁面才能找到,可以在官網(wǎng)首頁更加直觀的展示入口,鼓勵開發(fā)者調(diào)用。
9)探索新商業(yè)模式:除了常規(guī)的接口調(diào)用后付費(fèi)模式、可能的付費(fèi)購買轉(zhuǎn)寫時長模式,還可以增加比如企業(yè)的語音監(jiān)測等模式。
10)國際化:面向東南亞、歐美、非洲市場,開拓海外。
七、總結(jié)
今天在即刻上看到呂立青放出來的騰訊會議截圖,在會議摘要上已經(jīng)做到不輸通義聽悟的程度了。技術(shù)上,不覺得通義聽悟有很強(qiáng)的護(hù)城河:
Super個人認(rèn)為通義聽悟比起飛書妙記、騰訊會議更厲害的一點(diǎn),反而它是獨(dú)立產(chǎn)品:
它是API,它是網(wǎng)頁,它是小程序,它是App,它是水,可以流動在一切需要它的地方。也正是如此,它的技術(shù)架構(gòu)反而能夠無限聚焦在工作學(xué)習(xí)領(lǐng)域擴(kuò)展:
不斷在用戶最有需求的地方延展自己的能力。
今天我們文章就在這里正式進(jìn)入了尾聲,來一段正式的總結(jié)吧:
數(shù)字化時代,語音轉(zhuǎn)文字成為提高工作效率的利器。通義聽悟作為新晉玩家,憑借獨(dú)立產(chǎn)品的靈活迭代優(yōu)勢,在AI能力上不斷突破,領(lǐng)先于同類產(chǎn)品。
然而技術(shù)迭代速度無止境,用戶體驗(yàn)至上。通義聽悟仍需在易用性、商業(yè)模式等方面不斷優(yōu)化,與用戶場景和需求零距離貼合,才能在激烈競爭中脫穎而出。
期待通義聽悟能繼續(xù)發(fā)力AI,以“你的工作學(xué)習(xí)AI助手”為使命,助力用戶提升工作學(xué)習(xí)效率,創(chuàng)造更大價值。也歡迎更多優(yōu)秀產(chǎn)品加入這場讓人類生活變得更美好的競賽。
AI改變世界!
參考:【三五環(huán)】《No.121 對談志杰:從通義聽悟看,當(dāng) AI 不再是工具,而是個人助手》 包括產(chǎn)品演化,產(chǎn)品架構(gòu)部分
專欄作家
Super黃,微信公眾號:Super黃的念想,人人都是產(chǎn)品經(jīng)理專欄作家。專注于深度產(chǎn)品拆解+商業(yè)分析。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
寫的好,感謝分享。