語音:人機(jī)交互的新革命
語言的創(chuàng)造是人類的一個(gè)拐點(diǎn),最初,語言是控制桿,它將我們的思想轉(zhuǎn)化為工具。后來,我們適應(yīng)工具,把我們的表達(dá)轉(zhuǎn)化成TA的語言。今天,我們正在讓工具生命化,變成耳提面命的助手。這個(gè)漫長(zhǎng)故事的核心在于:我們與工具如何互動(dòng)。蘋果iPhone 4S的發(fā)布著實(shí)讓Siri火了一把,人機(jī)交互的革命史又翻開了新的篇章,但是Siri并不完美,尤其對(duì)于國(guó)人來說,不支持中文是最大的不足,不過這也給其他廠商留下了機(jī)會(huì),其中科大訊飛的語音技術(shù)最為搶眼,也使其成為了這場(chǎng)人機(jī)交互新革命有力的推動(dòng)者之一。
前谷歌中國(guó)的高級(jí)研究員、《浪潮之巔》的作者吳軍老師在微博里半開玩笑半地說:“語音識(shí)別(在產(chǎn)品上)忽悠人從90年代開始,大約每十年一個(gè)周期,最后的結(jié)果相同,就是大家發(fā)現(xiàn)這是個(gè)玩具,而不是工具。第一波人長(zhǎng)大了,走了,對(duì)科技不敏感了,第二波人當(dāng)時(shí)還在上中小學(xué),沒上過當(dāng),現(xiàn)在趕著來試一試。如此反復(fù)。不過我相信最后有一次不再是忽悠人,但是不是現(xiàn)在這一次?”
語音技術(shù)+移動(dòng)終端=?
換個(gè)角度,在PC時(shí)代,為什么語音就從來沒有成為過主流的人機(jī)交互方式?
雖然代表性的產(chǎn)品如IBM的ViaVoice已經(jīng)達(dá)到了很高的識(shí)別水平。中文識(shí)別的準(zhǔn)確率達(dá)到了95%以上,還能識(shí)別多種方言,每分鐘輸入150字。但它并沒有能成為一款打動(dòng)大眾消費(fèi)者的產(chǎn)品。
中國(guó)最大的語音技術(shù)廠商科大訊飛,長(zhǎng)期只能在一個(gè)幾十億規(guī)模的B2B市場(chǎng)里打拼。在機(jī)器合成語音市場(chǎng),訊飛流暢、達(dá)到播音員水準(zhǔn)的語音產(chǎn)品已經(jīng)占到了70%以上的份額。今天大多數(shù)企業(yè)客戶服務(wù)中心的人工語音服務(wù),都是采用科大訊飛的技術(shù)。
但這又怎樣?PC是一個(gè)固定的環(huán)境,人們?cè)缫呀?jīng)習(xí)慣了鍵盤+鼠標(biāo)的交互方式。大多數(shù)人已經(jīng)習(xí)慣于鍵盤打字而不是講話,因此,語音控制面臨Dvorak鍵盤布局同樣的應(yīng)用障礙。當(dāng)簡(jiǎn)單的老式QWERTY鍵盤供貨充足并且工作的很好的時(shí)候,為什么要學(xué)習(xí)使用Dvorak鍵盤呢?
更要命的是,任何一款語音識(shí)別軟件都需要大量的訓(xùn)練以便識(shí)別用戶的語音特征,來提高準(zhǔn)確性。有多少人會(huì)天天對(duì)著一臺(tái)電腦喃喃自語呢?
語音技術(shù)更廣泛的普及需要兩件事情:更好更方便的應(yīng)用和主要使用語音的生活場(chǎng)景。而移動(dòng)互聯(lián)網(wǎng)的勃興正好滿足了這些條件:
第一,?智能終端屏幕較小,手指輸入的準(zhǔn)確率和速度都要低于PC,這是移動(dòng)互聯(lián)網(wǎng)必須要面對(duì)的物理局限。
第二,?移動(dòng)互聯(lián)網(wǎng)終端有眾多的傳感器,就像人的感官,為人機(jī)交互和生活化應(yīng)用創(chuàng)造了條件。
第三,?移動(dòng)互聯(lián)網(wǎng)使得語音識(shí)別公司采集海量語料成為可能,通過應(yīng)用可以讓交互更頻繁,加快機(jī)器學(xué)習(xí)速度,改進(jìn)用戶體驗(yàn)。
所以,當(dāng)siri遇到iPhone,奇妙的化學(xué)作用發(fā)生了,一個(gè)沉寂幾十年的雞肋技術(shù)活了。
用戶到底要什么?
我老媽從來沒有理解過智能手機(jī),她只會(huì)打電話,不會(huì)發(fā)短信,更不用說其它應(yīng)用。直到我的安卓手機(jī)裝上了訊飛語音輸入法。當(dāng)我對(duì)著手機(jī)說出“吃葡萄不吐皮”的繞口令,并發(fā)出短信之時(shí),她拿著自己500塊錢的諾基亞問我:“我這個(gè)上面能用嗎?”
這就是用戶的需求,當(dāng)然是最原始的那一種。
你如果看過好萊塢大導(dǎo)演斯皮爾伯格的電影《A?I》,相信會(huì)對(duì)人工智能有一定了解,通過人工智能技術(shù),機(jī)器人可以把“對(duì)話、自然語言理解、視覺、演說、機(jī)器學(xué)習(xí)、制定計(jì)劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能。事實(shí)上,Siri讓我們看到了人機(jī)互動(dòng)的一種全新可能。語言,從來都被看做是人類特有的技能,而一夕之間,一部手機(jī)擁有了這樣的能力,科幻變成現(xiàn)實(shí)的日子呼之欲出。
更重要的是,當(dāng)機(jī)器有一天能夠真正理解人類的語言,并做出回應(yīng),世界打開了無限的想象空間。
說一個(gè)人名,手機(jī)就會(huì)從冗長(zhǎng)的通訊錄中找到他;語音操控汽車、語音搜索地圖、語音尋找酒店;未來,在辦公室里對(duì)手機(jī)說一句話,家里的廚房就開始烹飪……
好吧,我承認(rèn)我的想象力還不夠豐富。
“移動(dòng)互聯(lián)網(wǎng)融入了人們的生活,人們可以在任何時(shí)間任何地點(diǎn)接入互聯(lián)網(wǎng),也可以享受互聯(lián)網(wǎng)輔助的各種生活服務(wù)。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)服務(wù)和生活服務(wù)的界限在消失。”名叫采銅的專業(yè)人士在知乎網(wǎng)站上回答“Siri會(huì)不會(huì)是一個(gè)革命?”時(shí)認(rèn)為:“在服務(wù)互聯(lián)網(wǎng)化的時(shí)代,語音將解放人們的雙手,降低了移動(dòng)互聯(lián)網(wǎng)的使用門檻,讓輸入更便捷,服務(wù)效率更高,從而成為“移動(dòng)互聯(lián)網(wǎng)發(fā)展的一個(gè)里程碑”。
下這樣的結(jié)論也許還為時(shí)略早。但看看中國(guó)大公司們的動(dòng)作吧。騰訊在微信中推出語音消息、搜狐和新浪在微博中嵌入語音微博服務(wù),百度發(fā)布語音搜素、大眾點(diǎn)評(píng)的語音訂餐……
這說明什么?只有一種可能:趨勢(shì)。
想想我們?nèi)祟愖约喊?,我們能夠克服自己基因中的惰性嗎?每一次科技進(jìn)步,不都是讓人更加免于肉體的勞作嗎?能用嘴說,我們未來還會(huì)抓狂地動(dòng)大拇指嗎?
誰更懂中文?
我們有理由著迷于Siri,無論是因?yàn)檎{(diào)戲它的樂趣,還是因?yàn)閷?duì)蘋果的崇拜。
但創(chuàng)新工廠的創(chuàng)始人李開復(fù)老師坦言:“分析蘋果Siri:1)語音識(shí)別夠精確,但語義理解困難,2)語義理解靠自然語言分析不夠,需要海量語料和反饋?zhàn)詣?dòng)學(xué)習(xí),3)Siri可用度不足,蘋果利用“調(diào)戲”獲取語料,學(xué)習(xí)后可提升可用度,4)防噪仍是問題,蘋果靠4S特殊硬件,5)應(yīng)用結(jié)合困難,適合蘋果封閉系統(tǒng),6)用戶對(duì)助手有“人智慧”的過高期望?!?/p>
所以,新iPad上還只有語音輸入技術(shù),沒有Siri。
更何況,我們還不得不面對(duì)一個(gè)繞不開的問題:它目前不會(huì)講中文。
不要忘記了那些美國(guó)互聯(lián)網(wǎng)巨頭在中國(guó)的失敗,亞馬遜、谷歌、Groupon,還有根本進(jìn)不來的“非死不可”(Facebook)和推特。只有懂中國(guó)話,才有成功的可能,這是中國(guó)留給驕傲巨頭們的教訓(xùn),語言更是如此。
算算中文里僅一個(gè)“我”有多少種說法吧。這樣的段子在網(wǎng)上很容易找到。面對(duì)全世界最復(fù)雜的語言——中文,您相信一家美國(guó)公司能在短時(shí)間內(nèi)攻克嗎?反正我是不信的。
Siri代表了語音交互技術(shù)的一個(gè)方向,但它不一定是中文語音識(shí)別的未來。
那么我們現(xiàn)在創(chuàng)業(yè)做一家中國(guó)的Siri怎么樣?創(chuàng)新工廠的李開復(fù)老師在微博上提出了四點(diǎn)質(zhì)疑:1)智能手機(jī)主界面是手觸,語音助手解決了什么真正用戶需求和痛處?2)如何克服后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門檻?全球只有一個(gè)公司有這個(gè)技術(shù)。3)應(yīng)用誰開發(fā)?自己開發(fā)難擴(kuò)張,用別人的應(yīng)用整合不佳影響體驗(yàn),4)語音服務(wù)器和帶寬成本較大,如何克服?
你能接住他這又一盆冷水嗎?
“語音技術(shù)是一個(gè)典型的交叉科學(xué),涉及到很多方面,不是說有錢就能做的,是有相當(dāng)高的門檻。你可以去APP下載一個(gè)我們的軟件體驗(yàn)一下”??拼笥嶏w副總江濤坦言。
作為A股上市公司,訊飛起家于商業(yè)應(yīng)用。而更多普通人認(rèn)識(shí)訊飛,還是從訊飛語音輸入法開始的。在沒有大規(guī)模推廣的情況下,安卓版訊飛輸入法的下載量已經(jīng)突破千萬次,達(dá)到了與QQ輸入法、百度輸入法相同的數(shù)量級(jí)。在蘋果主導(dǎo)的iOS平臺(tái)上,用語音發(fā)短信的訊飛口訊也一直名列APP排行榜前列。
訊飛憑什么?
語音識(shí)別技術(shù)的核心競(jìng)爭(zhēng)力在于識(shí)別率,這是毋庸置疑的事情。訊飛有效利用了自己在國(guó)內(nèi)的先發(fā)優(yōu)勢(shì),率先推出了語音云服務(wù),將數(shù)據(jù)的上下行打通。在推出訊飛語音輸入法的同時(shí),與騰訊、新浪、點(diǎn)評(píng)等第三方公司展開技術(shù)合作,積累了2500萬以上的用戶。
用戶體驗(yàn)語音服務(wù)的最初動(dòng)力是好玩兒,而非實(shí)用。Siri的調(diào)戲其實(shí)同樣意在快速擴(kuò)充語音數(shù)據(jù)庫,提高機(jī)器識(shí)別率。據(jù)科大訊飛副總裁江濤介紹,在語音云推出的一年時(shí)間里,訊飛的系統(tǒng)識(shí)別率從60%提高到了85%,日常用語識(shí)別率超過95%。這也是移動(dòng)互聯(lián)網(wǎng)帶來的改變。
科大訊飛目前通過兩種方式來培育語音識(shí)別業(yè)務(wù),一是開發(fā)自身的產(chǎn)品訊飛口訊和訊飛語音輸入法,發(fā)展語音云、豐富數(shù)據(jù)庫,公司語音輸入法目前對(duì)標(biāo)準(zhǔn)普通話的識(shí)別正確率已提升到95%以上;二是向應(yīng)用軟件開發(fā)商們開放語音云平臺(tái)接入,目前包括挖財(cái)在內(nèi)的理財(cái)記賬軟件、凱立德在內(nèi)的地圖軟件,都已內(nèi)置了科大訊飛的語音識(shí)別功能。
經(jīng)過一年半的低調(diào)完善,現(xiàn)在訊飛即將發(fā)布新的語音云系統(tǒng)。更重要的是,訊飛要免費(fèi)打開自己的云接口,讓更多開發(fā)者來免費(fèi)使用開發(fā)應(yīng)用。本次發(fā)布的新系統(tǒng)加入了大量個(gè)性化服務(wù),比如方言識(shí)別、注冊(cè)用戶的個(gè)性化語言識(shí)別等。
新一代的語音產(chǎn)品不可能僅僅滿足于簡(jiǎn)單的搜索和語音識(shí)別。它能夠自主分析用戶發(fā)出的口語指令,并給出確切的回應(yīng)和指導(dǎo),完全不需要用戶預(yù)選學(xué)習(xí)使用方法。換句話說,它將是具有“人智慧”的語音助手。
從一家B2B的產(chǎn)品公司,到一家提供云服務(wù)的B2C產(chǎn)品公司,這是科大訊飛的一次質(zhì)變。
回到李開復(fù)四問中的第二問,他也許錯(cuò)了。世界上邁過了后臺(tái)海量數(shù)據(jù)學(xué)習(xí)技術(shù)門檻的公司并非只有一家。所以,有沒有必要去做一家中國(guó)的Siri其實(shí)是一個(gè)假問題,一定意義上說,Siri才是美國(guó)的訊飛(訊飛成立于1999年,而Siri不過是蘋果收購的產(chǎn)物)。
2012年,對(duì)TA說?
感謝雷鋒網(wǎng)的投遞
- 目前還沒評(píng)論,等你發(fā)揮!