AI干起了實(shí)時(shí)翻譯,我們離跨越語言的鴻溝還有多遠(yuǎn)?

1 評(píng)論 6820 瀏覽 15 收藏 15 分鐘

AI已經(jīng)運(yùn)用到了實(shí)時(shí)翻譯的領(lǐng)域中,那么我們是否離無障礙的語言溝通越來越近了?

1954年,美國成功研制出了世界首個(gè)機(jī)器翻譯系統(tǒng),實(shí)現(xiàn)了俄英兩種語言之間的簡(jiǎn)單轉(zhuǎn)化。但由于人類語言本身的復(fù)雜性和多樣性,半個(gè)多世紀(jì)以來,計(jì)算機(jī)系統(tǒng)對(duì)于人類語言的理解一直處于相對(duì)較低的階段,投入實(shí)際應(yīng)用的研究成果寥寥無幾。

直到近10年,以“深度學(xué)習(xí)”為代表的人工智能技術(shù)在語音識(shí)別、自然語言處理等基礎(chǔ)應(yīng)用領(lǐng)域與產(chǎn)業(yè)結(jié)合的業(yè)務(wù)中取得了較大突破,能夠識(shí)別語音的機(jī)器翻譯逐漸從實(shí)驗(yàn)室走向普羅大眾。

在AI機(jī)器翻譯這條賽道上,互聯(lián)網(wǎng)巨頭都在虎視眈眈

自去年烏鎮(zhèn)互聯(lián)網(wǎng)大會(huì)上,百度、搜狗相繼亮相人工智能同聲傳譯技術(shù)之后,又一次引發(fā)機(jī)器翻譯是否會(huì)取代同聲傳譯的激烈爭(zhēng)論。

盡管專業(yè)人工翻譯公司依然看衰AI對(duì)翻譯產(chǎn)業(yè)的顛覆性,但包括Google、Facebook、微軟、百度、騰訊、搜狗在內(nèi)的各大技術(shù)巨頭卻在不遺余力地推進(jìn)深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的研發(fā)和應(yīng)用。

2016年9月,Google發(fā)布谷歌神經(jīng)機(jī)器翻譯(GNMT: Google Neural Machine Translation)系統(tǒng),聲稱該系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù),模仿人腦的神經(jīng)思考模式,產(chǎn)出媲美人工翻譯的高質(zhì)量譯文,并將誤差降低了55%-85%。谷歌公司己經(jīng)將該技術(shù)應(yīng)用于網(wǎng)頁翻譯與手機(jī)應(yīng)用,譯文質(zhì)量明顯提升。

騰訊、百度、阿里巴巴等國內(nèi)互聯(lián)網(wǎng)公司將深度學(xué)習(xí)理念應(yīng)用到機(jī)器翻譯,在智能翻譯領(lǐng)域持續(xù)發(fā)力,推出多款基于神經(jīng)網(wǎng)絡(luò)技術(shù)的在線翻譯和手機(jī)應(yīng)用。甚至在手機(jī)瀏覽器的升級(jí)戰(zhàn)爭(zhēng)中,智能翻譯也被當(dāng)作重要功能革新,搜狗手機(jī)瀏覽器推出“智能翻譯”,集合了語音對(duì)話翻譯、AR實(shí)時(shí)翻譯、拍照翻譯等常用功能。

智能翻譯架起了不同語種間人們便利溝通的橋梁,已經(jīng)成為日常交流、出國旅游、外文學(xué)習(xí)等方面不可或缺的助手。筆者就簡(jiǎn)要梳理一下AI實(shí)現(xiàn)文字和口語翻譯的基本原理、結(jié)合實(shí)例介紹智能口語翻譯難點(diǎn)以及智能翻譯有哪些需要解決的問題。

各種花哨的技術(shù)概念,核心仍然是AI處理人類語言的三種方法

實(shí)現(xiàn)讓計(jì)算機(jī)處理人類自然語言是人工智能領(lǐng)域的一個(gè)重要課題,與句法分析、語義理解和自然語言生成等計(jì)算語言學(xué)核心理論密切相關(guān)。目前,AI主要有三種方法翻譯人類自然語言。

1、基于規(guī)則的機(jī)器翻譯方法。早期機(jī)器翻譯的主流方法?;谝?guī)則的機(jī)器翻譯系統(tǒng)依靠人工編纂的雙語詞典和專家總結(jié)的各種形式的翻譯轉(zhuǎn)化規(guī)則,但在通用領(lǐng)域中的應(yīng)用性不強(qiáng),往往被限制在了專有應(yīng)用上,逐漸被新的方法取代。

2、基于實(shí)例的機(jī)器翻譯方法。從已有的翻譯經(jīng)驗(yàn)知識(shí)出發(fā),將源語言句子切分為翻譯知識(shí)中見過的短語片段,通過對(duì)已有翻譯資源進(jìn)行自動(dòng)總結(jié),得出雙語對(duì)照的實(shí)例庫,并設(shè)計(jì)規(guī)則處理雙語對(duì)照實(shí)例庫中的歧義性等問題,實(shí)現(xiàn)對(duì)新的源語言句子進(jìn)行翻譯。

3、基于統(tǒng)計(jì)的翻譯方法。統(tǒng)計(jì)機(jī)器翻譯方法將任何目標(biāo)語言句子都看成源語言句子的可能翻譯候選,從語料自動(dòng)學(xué)習(xí)翻譯模型,然后基于此翻譯模型,對(duì)輸入源語言句子尋找一個(gè)評(píng)價(jià)分?jǐn)?shù)最高的目標(biāo)語言句子作為翻譯結(jié)果。目前谷歌、搜狗等基本采用的是這種。

深度學(xué)習(xí)能夠自動(dòng)學(xué)習(xí)抽象特征表示、建立源語言與目標(biāo)語言之間復(fù)雜的映射關(guān)系,給統(tǒng)計(jì)機(jī)器翻譯的實(shí)現(xiàn)提供新途徑,目前已經(jīng)在詞對(duì)齊、語言模型訓(xùn)練、解碼等模塊的優(yōu)化應(yīng)用方面取得較多成果。

例如,2006年谷歌發(fā)布基于短語的機(jī)器學(xué)習(xí)(PBMT)系統(tǒng),該系統(tǒng)將句子分解成詞和短句,進(jìn)行逐個(gè)翻譯。它的弱點(diǎn)在于忽略了上下文,因此譯文質(zhì)量不佳。2016年谷歌發(fā)布的神經(jīng)機(jī)器翻譯GNMT,將句子視為基本單元,不再對(duì)詞和短句逐個(gè)翻譯,明顯改善了譯文質(zhì)量。

作為智能翻譯的“制高點(diǎn)”,AI口語翻譯難在哪?

與普通文字翻譯相比,AI口語翻譯難度更大,原因有二:

一、想要“譯的準(zhǔn)”,首先要能“聽得清”。

AI要準(zhǔn)確判斷出指令發(fā)出者的語音、停頓,并在極短時(shí)間內(nèi)進(jìn)行“語音斷句”,在涉及一些模糊音時(shí)能夠根據(jù)“上下文”進(jìn)行及時(shí)調(diào)整,這需要有深度學(xué)習(xí)的模型自動(dòng)更換為一個(gè)語義通順、更符合作者指令的句子,然后才能進(jìn)行文字翻譯處理。

二、想要“譯的準(zhǔn)”,還要包容口語的“4個(gè)任性”

基于神經(jīng)網(wǎng)絡(luò)技術(shù)的智能翻譯系統(tǒng)越來越多,翻譯質(zhì)量確有較大提高,但是能不能很好地包容口語的各種任性,我們來做幾項(xiàng)測(cè)試,檢驗(yàn)一下人工智能翻譯的水平。為便于說明,選取了具有代表性的谷歌翻譯和搜狗手機(jī)瀏覽器自帶的智能翻譯進(jìn)行比對(duì)。

1、日常口語具有不連貫的特性。在口語交談中,經(jīng)常會(huì)出現(xiàn)一些不連貫的成分,如:重復(fù)、次序顛倒、冗余和語句殘缺。下文是一個(gè)典型的兼有語句殘缺和發(fā)音重復(fù)的句子。

原文:那六樓呢?咱們……咱們,下午談一談吧?

谷歌翻譯:The sixth floor?Let’s talk about us in the afternoon?

搜狗手機(jī)瀏覽器智能翻譯:What about the sixth floor? ?Let’s… Let’s talk this afternoon.

谷歌翻譯在重復(fù)的處理上未真實(shí)體現(xiàn)原文,搜狗手機(jī)瀏覽器智能翻譯如實(shí)還原。但是,兩個(gè)翻譯結(jié)果在表達(dá)上都不同程度地存在錯(cuò)誤。

2、語法約束相對(duì)較弱。口語中很少會(huì)有嚴(yán)格符合語法約束的結(jié)構(gòu)完整、正確的句子,而大量存在的是語法規(guī)則難以處理的現(xiàn)象。一方面是由于系統(tǒng)的語法知識(shí)對(duì)語言現(xiàn)象的覆蓋程度不足;而更主要的則是口語本身的特性所決定的,例如口語中存在大量的代詞,人類口語比較容易理解,但是AI不能結(jié)合上下文,缺乏背景知識(shí),難以區(qū)分指代對(duì)象,導(dǎo)致翻譯結(jié)果偏離原意。

原文:Look, man, you don’t got to do anything. This one means a lot to me.

谷歌翻譯:看,男人,你什么都不做。這對(duì)我來說意義重大。

搜狗手機(jī)瀏覽器智能翻譯:聽著,伙計(jì),你什么都不用做,這對(duì)我意義重大。

翻譯的關(guān)鍵在于兩個(gè)詞:look和man。谷歌的翻譯也對(duì),而看起來,搜狗手機(jī)瀏覽器的翻譯結(jié)果更符合生活實(shí)際。

3、沒有明確的句子邊界。口語中沒有標(biāo)點(diǎn)符號(hào)來標(biāo)志句子,也基本沒有傳統(tǒng)意義上的句子,缺少了必要的聲調(diào)和停頓,很容易造成句子的歧義。

例如:“這蘋果不大好吃”。那么該句有兩種不同的理解結(jié)果:這蘋果不大/好吃(蘋果不大,但是味道好),這蘋果/不大好吃(蘋果味道不好)。兩家AI都未能分清句子結(jié)構(gòu)發(fā)音上的差別,都默認(rèn)翻譯為“蘋果味道不好”。

4、非正式語體材料多。中英口語中都存在較多隨意性的口語或網(wǎng)絡(luò)用語,生活化氣息濃厚,多為非正式的語體材料,智能翻譯需要龐大的基礎(chǔ)詞匯庫支撐。

原文:近期我們注意到國際上有一種看法,認(rèn)為中國已經(jīng)成為世界上最大的經(jīng)濟(jì)體,一方面挑戰(zhàn)了美國的領(lǐng)導(dǎo)地位,另一方面在很多國際事務(wù)上中國仍在搭便車。請(qǐng)問您怎么看待這樣的看法?(總理記者會(huì)上中國日?qǐng)?bào)記者的現(xiàn)場(chǎng)提問)

谷歌翻譯:We have recently noticed that there is a view that China has become the world’s largest economy, on the one hand challenges the leadership of the United States, on the other hand in many international affairs, China is still free. What do you think of this view?

搜狗手機(jī)瀏覽器智能翻譯:Recently we have noticed an international view that China has become the world’s largest economy. On the one hand, it challenges the leadership of the United States. On the other hand, the Chinese are hitchhiking in many international affairs. I would like to ask what you think of this view.

專家譯文:Recently we have noticed that there is a view in the international community that China has become the world’s largest economy, on the one hand challenges the leadership of the United States,on the other hand in many international affairs in China is still a free ride, how do you think of this view?

可以說,兩家AI對(duì)這段話的翻譯,雖然都有些許瑕疵,但是總體都還是比較到位的,搜狗手機(jī)瀏覽器對(duì)于“搭便車”這個(gè)典型口語化詞匯翻譯相對(duì)更準(zhǔn)確。

中國古詩英譯一直是文化翻譯的一個(gè)難題,甚至被認(rèn)為是可譯性最小的文學(xué)形式。我們來試驗(yàn)一下兩家AI對(duì)王維《九月九日憶山東兄弟》的理解和翻譯能力。

獨(dú)在異鄉(xiāng)為異客,每逢佳節(jié)倍思親。遙知兄弟登高處,遍插茱萸少一人。

谷歌翻譯:Alone in a foreign land for the stranger,every festive times.
Distinguished brother ascended the throne,who was full of cornelia.

搜狗手機(jī)瀏覽器智能翻譯:Alone in a foreign land, I miss my relatives more than anything else during the holidays. I know my brother has climbed up to the top and planted dogwood everywhere, but one person is missing.

參考譯文:Alone,a lonely stranger in a foreign land,I doubly pine for my kinsfolk on holiday. I know my brothers would, with dogwood spray in hand, Climbing up the mountain and miss me so far away.

翻譯古詩詞,確實(shí)非常難為兩家AI。不過,翻譯的結(jié)果很有趣,搜狗手機(jī)瀏覽器對(duì)前兩句翻譯尚可,后兩句翻譯成了我的兄弟在高處到處種植茱萸,谷歌對(duì)最后兩句完全是進(jìn)行了想象性的拓展。

要跨越語言不通的鴻溝,智能翻譯還需往哪加油

智能翻譯確實(shí)取得了令人驚喜的進(jìn)展,拿著手機(jī)和老外進(jìn)行日常交流已經(jīng)基本沒有問題。但是智能翻譯還存在“短板”,會(huì)有“詞不達(dá)意”的時(shí)候,AI要想更進(jìn)一步發(fā)展,和有著數(shù)十年積淀的高水平翻譯員進(jìn)行競(jìng)爭(zhēng),可能還需要從以下幾個(gè)方面進(jìn)行努力。

1、大量補(bǔ)充口語化語料

智能翻譯對(duì)于口語化文本處理能力還不強(qiáng),一是由于翻譯語料庫口語化語料不足,二是針對(duì)口語詞匯與口語表達(dá)多采取直譯方式,因此出現(xiàn)較多誤譯。該問題的解決應(yīng)該從擴(kuò)大對(duì)應(yīng)部分語料庫入手,增加口語類文本語料庫,包括常見口語化詞匯、表達(dá)與生活用語。

2、提高語境理解能力

智能翻譯對(duì)于中文復(fù)雜含義句式中的時(shí)態(tài)辨別能力還不夠,往往需要充分理解整句話的意思才能準(zhǔn)確把握時(shí)態(tài)。智能翻譯并非基于理解,而是基于統(tǒng)計(jì)學(xué)與語料庫,只能做到將這句話意思大致翻譯準(zhǔn)確,在識(shí)別感情色彩方面,還有欠缺。
將神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的抽象表示和傳統(tǒng)符號(hào)語義方法結(jié)合,建立新的基于語義的機(jī)器翻譯系統(tǒng),或許可以大幅提高AI對(duì)組合語義、復(fù)雜的遞歸語言結(jié)構(gòu)的處理能力。

但,我們依然滿懷期待AI讓我們擺脫語言鴻溝的那一天。

 

作者:草原騎士/智能相對(duì)論:2個(gè)前人工智能行業(yè)管理咨詢老鳥+1個(gè)老媒體人組成的三人幫,深挖人工智能這口井,評(píng)出咸淡,講出黑白,道出深淺。

本文由 @智能相對(duì)論 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖由作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 專家譯文:“on the other hand in many international affairs in China is still a free ride”,敢問是什么磚家?翻譯的沒有主語?連上前文也沒有找到。

    來自廣東 回復(fù)