搶占AI翻譯賽道,搜索平臺(tái)為何不約而同發(fā)力NMT?
不論是國(guó)外的谷歌,還是國(guó)內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標(biāo)配,翻譯集中的領(lǐng)域在中英互譯上,這是一個(gè)很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?為什么要發(fā)力NMT?
搜索公司在AI翻譯這個(gè)事上扎堆并不令人意外。
2016年,GNMT技術(shù)(谷歌的神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù),模仿人腦的神經(jīng)思考模式)全面布局于谷歌翻譯系統(tǒng)中,隨后,谷歌聲稱其AI翻譯的譯文質(zhì)量誤差降低了55%-85%,并且將此技術(shù)廣泛應(yīng)用于網(wǎng)頁(yè)翻譯與手機(jī)應(yīng)用。
國(guó)內(nèi),百度當(dāng)時(shí)已經(jīng)研究出了可應(yīng)用的SMT技術(shù)(統(tǒng)計(jì)機(jī)器翻譯),但得知NMT的橫空出世之后,便迅速調(diào)轉(zhuǎn)方向轉(zhuǎn)而研發(fā)NMT技術(shù),于是就有了BNMT應(yīng)用于百度翻譯。盡管初時(shí)的百度翻譯速度很慢。但是,百度當(dāng)時(shí)反應(yīng)也佐證NMT的價(jià)值性。
搜狗、阿里、騰訊等公司也都有部署NMT領(lǐng)域,推出多款基于神經(jīng)網(wǎng)絡(luò)的在線翻譯和手機(jī)應(yīng)用,在智能翻譯領(lǐng)域持續(xù)發(fā)力。360搜索也不愿落后,上線了基于NMT的360翻譯,以期與去年上線的360英文搜索形成合力,且還拉來(lái)了微軟旗下的搜索引擎Bing開展技術(shù)合作。
但是我們會(huì)發(fā)現(xiàn):不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因?yàn)榉g還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時(shí)間里,對(duì)海量語(yǔ)料的深度學(xué)習(xí)逐漸成為AI開發(fā)的必修課,也成了巨頭們布局AI翻譯繞不過(guò)的“坎”。
搜索平臺(tái)不約而同發(fā)力NMT,為的是哪般?
前面說(shuō)到,不論是國(guó)外的谷歌,還是國(guó)內(nèi)的搜索巨頭百度、搜狗、360等,均把NMT作為AI翻譯的標(biāo)配,翻譯集中的領(lǐng)域在中英互譯上,這是一個(gè)很有趣的現(xiàn)象。AI翻譯真的是塊肥肉嗎?惹得誰(shuí)也不愿意掉隊(duì)。
據(jù)統(tǒng)計(jì)表明:全球一共有73個(gè)國(guó)家,超10億人以英語(yǔ)為官方語(yǔ)言,而漢語(yǔ)則是世界使用人數(shù)最多的語(yǔ)言。因此,中英互譯本身的用戶基數(shù)市場(chǎng)就能引起巨頭們足夠的注意力了。
為什么要發(fā)力NMT?
這得從AI翻譯人類語(yǔ)言的方式說(shuō)起,包含三種:
- 第一,基于規(guī)則的機(jī)器翻譯方法;
- 第二,基于實(shí)例的機(jī)器翻譯方法;
- 第三,基于統(tǒng)計(jì)的翻譯方法。
SMT與NMT都屬于第三種,從語(yǔ)料自動(dòng)學(xué)習(xí)翻譯模型,結(jié)合大數(shù)據(jù)通過(guò)評(píng)分輸出翻譯結(jié)果。但是,SMT與NMT存在著顯著的差距。
SMT采用的模式是通過(guò)平行語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,翻譯的準(zhǔn)確性則與語(yǔ)料的豐富度呈明顯的正相關(guān),但是存在著翻譯結(jié)果太過(guò)零散,片面生硬,語(yǔ)法語(yǔ)義混亂的劣勢(shì)。
而模仿人類神經(jīng)網(wǎng)絡(luò)構(gòu)建模型,NMT是以一個(gè)句子為基本的處理單元,好處在于翻譯過(guò)程中有著更好的語(yǔ)感,能降低SMT翻譯的關(guān)于“形態(tài)、句法、詞序”等方面出錯(cuò)的概率。
因此,NMT在技術(shù)上恰巧可以有效彌補(bǔ)SMT的缺陷。而隨著語(yǔ)料不斷地加碼,AI翻譯的準(zhǔn)確度也就高得多。
AI翻譯引進(jìn)NMT技術(shù),就能精準(zhǔn)識(shí)別“語(yǔ)境”嗎?
搜狗同傳翻譯在某次國(guó)際性會(huì)議上,聲稱其神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)已達(dá)臨界點(diǎn),并在進(jìn)行大規(guī)模商用推廣。只是,搜狗的同傳還是在國(guó)際會(huì)議上出過(guò)爭(zhēng)議,結(jié)果不盡如人意。
即便在正式的場(chǎng)合能夠應(yīng)對(duì)自如的搜狗,在非正式場(chǎng)合會(huì)是怎樣一種情況呢?
很多時(shí)候的中英交流多以口語(yǔ)化形式出現(xiàn),對(duì)“語(yǔ)境”的理解遠(yuǎn)比“語(yǔ)法和詞匯”難得多。下文我們將就幾組語(yǔ)句進(jìn)行討論,以下從搜狗、360搜索、百度以及谷歌四大平臺(tái)進(jìn)行對(duì)比。
第一組:獻(xiàn)上我的膝蓋。
看看,最近這句網(wǎng)絡(luò)常用語(yǔ)各翻譯平臺(tái)的水平
- 谷歌:Offer my knee。
- 360:express my admiration。
- 百度:Offer my knees。
- 搜狗:Give me my knee。
測(cè)試結(jié)果是搜狗、百度、谷歌均傾向于單詞表面意思的翻譯,并未能結(jié)合具體的文化背景,360對(duì)于該網(wǎng)絡(luò)用語(yǔ)的解釋稍顯老練。
第二組:詩(shī)詞,選自杜甫的《登高》。
因其詩(shī)中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。
《登高》原文摘選:風(fēng)急天高猿嘯哀,渚清沙白鳥飛回。
英語(yǔ)譯文:
有趣的是將各自翻譯的英文譯成中文時(shí),沒(méi)有一個(gè)平臺(tái)能還原。而在詩(shī)歌的中譯英中360能夠結(jié)合“語(yǔ)境”處理詩(shī)中的意向要素,搜狗翻譯表達(dá)出了“悲愴”的情感,而百度翻譯和谷歌翻譯則完全是從字面上進(jìn)行翻譯,破壞了詩(shī)的美好。
第三組:新聞,選自紅網(wǎng)。
語(yǔ)言簡(jiǎn)練正式,但涉及的元素較多,對(duì)語(yǔ)法的要求性比較高。
原文:據(jù)長(zhǎng)沙市住房和城鄉(xiāng)建設(shè)委員會(huì)網(wǎng)站顯示,2018年5月23日,長(zhǎng)沙共計(jì)有兩個(gè)項(xiàng)目獲批預(yù)售證,均位于雨花區(qū),分別為五礦萬(wàn)境藍(lán)山和創(chuàng)元時(shí)代。
譯文:
同一段新聞,出現(xiàn)了四種不同的譯法。同一語(yǔ)句中各家強(qiáng)調(diào)的點(diǎn)不一樣,譬如:首句的“長(zhǎng)沙市住房和城鄉(xiāng)建設(shè)委員會(huì)”,360的翻譯結(jié)果更顯得專業(yè)并符合慣常表述?!伴L(zhǎng)沙市”只是作為補(bǔ)充詞出現(xiàn),而搜狗、百度和谷歌的翻譯中,“長(zhǎng)沙市”則是作為硬性的地名出現(xiàn)。
尤為值得注意的是:根據(jù)語(yǔ)境,“五礦萬(wàn)境藍(lán)山”和“創(chuàng)元時(shí)代”都是樓盤名字,應(yīng)當(dāng)由漢語(yǔ)拼音直譯,只有360識(shí)別到這一點(diǎn),搜狗、百度和谷歌三家都在“礦”、“藍(lán)山”、“創(chuàng)元”、“時(shí)代”等字眼上糾結(jié)。
從這三組中,我們能發(fā)現(xiàn)360偏好于基于“語(yǔ)境”的邏輯進(jìn)行分詞,雖然也有做的不到位的,像針對(duì)詩(shī)詞這樣復(fù)雜的情感語(yǔ)句就無(wú)法準(zhǔn)確傳達(dá),但是在“流行語(yǔ)”優(yōu)勢(shì)明顯。
而谷歌和百度基本上是基于詞組進(jìn)行斷句,因此,翻譯也是一個(gè)詞一個(gè)詞,尤其是對(duì)古詩(shī)詞的理解,谷歌就顯得比較憂愁了。
因此,AI翻譯的問(wèn)題主要反映在三大方面:
- 第一,機(jī)器翻譯難以應(yīng)對(duì)語(yǔ)言規(guī)則不統(tǒng)一的口語(yǔ);
- 第二,AI翻譯難以結(jié)合文化語(yǔ)境進(jìn)行理解,解析不出深層次的情感;
- 第三,針對(duì)較長(zhǎng)的段落,以及較為復(fù)雜的語(yǔ)境,往往會(huì)出現(xiàn)語(yǔ)法問(wèn)題多,語(yǔ)句出錯(cuò)率高的毛病。
AI翻譯要“地道”,技術(shù)倒不是關(guān)鍵
翻譯界老將何恩培曾講:
“機(jī)器翻譯一直被公認(rèn)為人工智能領(lǐng)域最難的課題之一。而且語(yǔ)言背后的多元文化和復(fù)雜社會(huì)屬性,注定了語(yǔ)言規(guī)則不可能規(guī)律化”。
但是,中國(guó)有句老話:勤能補(bǔ)拙。
對(duì)于AI翻譯而言,最難的不是技術(shù),而是“語(yǔ)境”理解,而AI翻譯能力的級(jí)別高低又體現(xiàn)在這,集中體現(xiàn)了平臺(tái)喂養(yǎng)語(yǔ)料的資源狀況。AI翻譯能否“地道”,取決于以下幾點(diǎn)。
1. 訓(xùn)練數(shù)據(jù)庫(kù)的內(nèi)容整體優(yōu)質(zhì)程度
這影響到翻譯準(zhǔn)確程度,取決于信息資源的整合能力。不論是BAT,還是360、搜狗、有道等,都在注重內(nèi)容生態(tài)建設(shè),搜狗有了騰訊微信入口搜索,360搶占了安全領(lǐng)域的數(shù)據(jù)來(lái)源。
但是,這不可能是一個(gè)完全開放的體系,沒(méi)有哪一家能夠整合整個(gè)互聯(lián)網(wǎng)的資源,各平臺(tái)訓(xùn)練數(shù)據(jù)庫(kù)各有側(cè)重,AI翻譯特色也不盡相同,例如:360翻譯側(cè)重于地道的口語(yǔ)與流行語(yǔ),百度翻譯則顯得大而全。
2. 開放平等的中外數(shù)據(jù)交流,或可加強(qiáng)AI的深度學(xué)習(xí)
國(guó)內(nèi)對(duì)標(biāo)競(jìng)品之間的合作相對(duì)較難,但中外數(shù)據(jù)交流卻是最好的互補(bǔ)。因此,百度上線過(guò)英文搜索產(chǎn)品,而360與微軟Bing有過(guò)技術(shù)合作。
此外,有了國(guó)界互譯也變得更有意義。因此,中外數(shù)據(jù)合作,或許對(duì)于文化背景的數(shù)據(jù)積淀有很好的補(bǔ)充,也是擴(kuò)充深度學(xué)習(xí)的語(yǔ)料最直接的方式。
3. 需要準(zhǔn)備大量的網(wǎng)絡(luò)語(yǔ)及口語(yǔ)語(yǔ)料
除了詩(shī)詞蘊(yùn)含深厚文化底蘊(yùn)外,網(wǎng)絡(luò)語(yǔ)和口語(yǔ)是與一個(gè)地域的文化最為接近的語(yǔ)言形態(tài),時(shí)下搜索引擎從被動(dòng)搜索向主動(dòng)的,基于用戶興趣的內(nèi)容推薦引擎轉(zhuǎn)型,這對(duì)于構(gòu)建口語(yǔ)語(yǔ)料訓(xùn)練模型倒是一個(gè)不錯(cuò)的嘗試。
總之,AI翻譯能夠精準(zhǔn)識(shí)別“語(yǔ)境”是需要很長(zhǎng)一段路要走!
【完】
#專欄作家#
曾響鈴,微信公眾號(hào):科技向令說(shuō),人人都是產(chǎn)品經(jīng)理專欄作家。TMT新媒體“鈴聲”創(chuàng)始人,《移動(dòng)互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機(jī)會(huì)》《趨勢(shì)革命:重新定義未來(lái)四大商業(yè)機(jī)會(huì)》作者,《網(wǎng)紅經(jīng)濟(jì)學(xué)》作者之一,《商界》等多家雜志撰稿人。重點(diǎn)關(guān)注SaaS、智能硬件、互聯(lián)網(wǎng)金融、O2O、新媒體運(yùn)營(yíng)方向。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Pixabay,基于 CC0 協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!