本文選自中國工程院院刊《Engineering》2022年第11期
作者:王海峰 , 吳華 , 何中軍 , 黃亮 , Kenneth Ward Church
編者按
機器翻譯使用計算機將一種語言翻譯成另一種語言,具有低成本、高效率和高翻譯質(zhì)量等優(yōu)勢,在語音翻譯、同聲傳譯自動化等許多領(lǐng)域得到廣泛應(yīng)用。隨著雙語語料庫的不斷建設(shè)和完善,基于語料庫的機器翻譯逐漸成為主流,如神經(jīng)網(wǎng)絡(luò)機器翻譯。神經(jīng)網(wǎng)絡(luò)機器翻譯是機器從大量數(shù)據(jù)中自動學(xué)習(xí)翻譯知識,而不依靠人類專家撰寫規(guī)則,可以顯著提升翻譯質(zhì)量,但在處理語序差異大的語言翻譯時仍然面臨一些挑戰(zhàn)。
中國工程院院刊《Engineering》2022年第11期刊發(fā)百度集團王海峰博士研究團隊的《機器翻譯研究進展》一文。文章首先回顧了機器翻譯的發(fā)展歷程,從基于規(guī)則的機器翻譯、基于實例的機器翻譯,到統(tǒng)計機器翻譯。然后詳細介紹神經(jīng)網(wǎng)絡(luò)機器翻譯技術(shù)的進展,包括基本原理和當(dāng)前主流模型以及多語言翻譯;介紹了機器同聲傳譯的最新進展,探討如何在翻譯質(zhì)量和時間延遲方面取得平衡;總結(jié)機器翻譯豐富的產(chǎn)品形式和應(yīng)用。最后文章簡要討論了機器翻譯面臨的挑戰(zhàn)和未來的研究方向。
一、機器翻譯發(fā)展簡史
機器翻譯(MT)研究如何使用計算機將一種語言翻譯成另一種語言。第一臺計算機——電子數(shù)字積分計算機——問世一年之后,Warren Weaver于1947年首次提出了機器翻譯的設(shè)想。從那時起,機器翻譯就被認為是自然語言處理(NLP)領(lǐng)域中最具挑戰(zhàn)性的任務(wù)之一。
從方法上來看,機器翻譯技術(shù)可以分為兩大類:基于規(guī)則的方法和基于語料庫的方法。從機器翻譯設(shè)想提出到20世紀90年代,基于規(guī)則的方法一直占據(jù)主導(dǎo)地位?;谝?guī)則的機器翻譯(RBMT)使用雙語詞典和人工撰寫的規(guī)則將源語言文本翻譯成目標語言文本。然而,人工撰寫規(guī)則成本很高,規(guī)則維護難度大,很難從一個領(lǐng)域轉(zhuǎn)換到另一個領(lǐng)域,從一種語言轉(zhuǎn)換到另一種語言。因此,基于規(guī)則的系統(tǒng)很難擴展到開放領(lǐng)域翻譯和多語言翻譯。機器翻譯發(fā)展初期其主要被應(yīng)用于軍事領(lǐng)域。1954年,喬治敦大學(xué)與IBM公司合作,首次使用IBM-701計算機完成了將俄語翻譯為英語的實驗,拉開了機器翻譯從夢想走向現(xiàn)實的序幕。之后的十多年里,機器翻譯一直是熱點研究領(lǐng)域。但隨著1966年美國語言自動處理咨詢委員會(ALPAC)發(fā)表關(guān)于機器翻譯的報告,這股熱潮戛然而止。該報告對機器翻譯持懷疑態(tài)度,導(dǎo)致機器翻譯研究經(jīng)費大幅削減,相關(guān)研究變得極其困難。在機器翻譯繁榮發(fā)展的1962年,成立了當(dāng)今計算語言學(xué)領(lǐng)域最具影響力的學(xué)術(shù)組織——國際計算語言學(xué)學(xué)會(Association for Computational Linguistics,ACL),其成立初期的名字為機器翻譯與計算語言學(xué)學(xué)會(Association for Machine Translation and Computational Linguistics,AMTCL)。然而到1968年,ALPAC報告發(fā)表后,機器翻譯發(fā)展進入蕭條期,該學(xué)會將“MT”從其名稱中刪除。即便是在機器翻譯研究遇冷的這段時間,研究人員也一直不斷嘗試各種方法以提高翻譯質(zhì)量。1965年,自然語言處理領(lǐng)域的研究人員舉辦了第一屆國際計算語言學(xué)會議(COLING),會議重點是基于規(guī)則的句法分析和翻譯。從20世紀70年代開始,RBMT方法變得更加成熟。1978年,SYSTRAN公司推出了商業(yè)翻譯系統(tǒng),這是當(dāng)時基于規(guī)則的機器翻譯系統(tǒng)取得商業(yè)化應(yīng)用的著名系統(tǒng)之一。谷歌在2007年之前一直使用SYSTRAN公司的機器翻譯服務(wù)。
隨著雙語語料庫的不斷建設(shè)和完善,基于語料庫的機器翻譯逐漸成為主流。其主要有三種方法:基于實例的機器翻譯(EBMT)、統(tǒng)計機器翻譯(SMT)和神經(jīng)網(wǎng)絡(luò)機器翻譯(NMT)。20世紀80年代中期,研究人員提出了EBMT方法,其主要思想是通過模仿從雙語語料庫中檢索出的相似例句來實現(xiàn)翻譯。EBMT的翻譯效果依賴于檢索到的例句質(zhì)量。檢索到的例句質(zhì)量越高、與原文的匹配度越大,翻譯效果越好。然而,由于雙語語料庫難以涵蓋所有語言現(xiàn)象,導(dǎo)致EBMT方法在檢索相似例句時覆蓋率較低,進而影響翻譯質(zhì)量。因此,EBMT方法通常應(yīng)用于計算機輔助翻譯系統(tǒng),提供相似例句作為翻譯參考。
1990年,Brown等提出了SMT方法,其主要思想是機器從大量數(shù)據(jù)中自動學(xué)習(xí)翻譯知識,而不是依靠人類專家撰寫規(guī)則。進一步地,在1993年,他們提出了5個SMT模型,形式化地刻畫翻譯過程。由于SMT方法的復(fù)雜性,以及20世紀80~90年代RBMT在商業(yè)應(yīng)用中的主導(dǎo)地位,當(dāng)時SMT方法并未被廣泛采用。然而,統(tǒng)計方法的出現(xiàn)受到學(xué)術(shù)界的重視。1996年,研究人員發(fā)起并召開了第一屆自然語言處理中的經(jīng)驗方法會議(EMNLP),其目的是匯集來自一系列不同學(xué)科的經(jīng)驗方法,包括語言學(xué)中基于語料庫的方法和工程學(xué)中的信息論。1999年,研究人員在約翰斯·霍普金斯大學(xué)舉辦了一場夏季研討會。研討會的成果之一是復(fù)現(xiàn)了Brown等提出的5個模型,并發(fā)布了一個名為“Egypt”的SMT工具包,大大降低了SMT的研究門檻。隨后,詞對齊工具GIZA和GIZA++相繼發(fā)布。2003年,基于短語的SMT方法進一步提高了機器翻譯質(zhì)量?;诖朔椒ǖ拈_源系統(tǒng)“Pharaoh”及其升級版本“Moses”極大地促進了SMT系統(tǒng)的發(fā)展。基于以上開源工具及系統(tǒng),SMT方法得到廣泛研究和應(yīng)用。2006年,谷歌推出了以基于短語的SMT為主要系統(tǒng)的互聯(lián)網(wǎng)翻譯服務(wù)。微軟和百度等公司也在隨后幾年推出了機器翻譯服務(wù)。需要注意的是,在實際應(yīng)用中,單一模型很難解決豐富多樣的翻譯需求。因此,實際應(yīng)用中通常采用集成了多種機器翻譯模型的混合方法,以提高翻譯質(zhì)量。受SMT模型成功的鼓舞,研究人員提出了多種創(chuàng)新方法來進一步提升SMT的性能,包括引入形態(tài)學(xué)信息的因子化SMT模型、層次化SMT模型以及在源端和(或)目標端具有句法分析樹的基于句法的SMT模型。
SMT使用對數(shù)線性模型集成多個人工設(shè)計的特征,如翻譯模型、語言模型和重排序模型等,盡管能夠較顯著地提升翻譯質(zhì)量,但在處理語序差異大的語言對翻譯時仍然面臨嚴重的詞語重排序問題。隨著深度學(xué)習(xí)技術(shù)在語音處理、計算機視覺等領(lǐng)域的快速發(fā)展,研究人員開始將深度學(xué)習(xí)技術(shù)應(yīng)用于機器翻譯。2014年,Bahdanau等和Sutskever等提出了端到端神經(jīng)網(wǎng)絡(luò)機器翻譯模型,并正式使用了“神經(jīng)網(wǎng)絡(luò)機器翻譯”(neural machine translation,NMT)一詞。NMT的基本思路是將源語言映射成稠密向量(語義表示),然后基于注意力機制生成譯文。隨后,Dong等提出了一種基于NMT的多語言翻譯框架,這被認為是NMT多語言翻譯的突破性方法。2015年,百度部署了世界上第一個大規(guī)模NMT系統(tǒng)。2016年,谷歌也推出了NMT系統(tǒng)。此后,其他公司陸續(xù)發(fā)布了NMT系統(tǒng)。自2014年NMT被提出以來,僅用了大約一年的時間就實現(xiàn)了大規(guī)模在線部署。相比之下,SMT系統(tǒng)應(yīng)用于在線服務(wù)花了大約16年的時間。此后,基于卷積神經(jīng)網(wǎng)絡(luò)的翻譯模型和Transformer模型,再次顯著提高了NMT系統(tǒng)的翻譯質(zhì)量。NMT的巨大進步甚至引發(fā)了關(guān)于機器翻譯是否可以與人工翻譯相媲美的廣泛討論。越來越多的研究圍繞NMT展開,如非自回歸模型、無監(jiān)督NMT模型和NMT預(yù)訓(xùn)練模型等,旨在提高多語言翻譯質(zhì)量和翻譯效率。
語音處理和機器翻譯取得的巨大進步使得語音翻譯成為前沿和熱點方向。對口語翻譯或語音翻譯的探索始于1983年國際電信聯(lián)盟博覽會上展示的一個小型實驗性自動口譯系統(tǒng)。1988年出現(xiàn)的語音到語音(S2S)翻譯系統(tǒng)SpeechTrans,被認為是語音翻譯中的一個重要里程碑式系統(tǒng)。在隨后的20年中,特別是自1991年國際先進語音翻譯研究聯(lián)盟(C-STAR)成立以來,從限定領(lǐng)域和限定詞匯的系統(tǒng)到開放領(lǐng)域的自然語音翻譯,語音翻譯的發(fā)展令人矚目。2004年,國際口語翻譯研討會(IWSLT)首次舉辦并延續(xù)至今,進一步促進了語音翻譯的發(fā)展。
隨著神經(jīng)網(wǎng)絡(luò)技術(shù)在機器翻譯和語音識別領(lǐng)域的發(fā)展,新的語音翻譯系統(tǒng)旨在實現(xiàn)同聲傳譯的自動化,即在低時間延遲(通常只有幾秒鐘)的情況下,實現(xiàn)與源語言語音(幾乎)同步的自動翻譯。同聲傳譯對人類來說也是極具挑戰(zhàn)性的,需要極高的專注力來傾聽和理解源語言,同時需要嫻熟的翻譯技巧快速地翻譯為目標語言并傳遞給聽眾。因此,全世界范圍內(nèi)合格的同聲傳譯員數(shù)量十分有限。同聲傳譯員通常由兩名或更多人組成團隊,每15~30 min交替工作,以防止錯誤率呈指數(shù)增長。受短時記憶限制,同聲傳譯員通常采用合理省略源語言內(nèi)容等翻譯技巧,以兼顧翻譯準確度與時間延遲。因此,迫切需要開發(fā)機器同傳技術(shù),以減輕人類同傳譯員的負擔(dān),降低同傳成本。作為一項早期工作,Wang等提出了一種基于神經(jīng)網(wǎng)絡(luò)的機器同傳方法,將流式語音切分成適當(dāng)?shù)钠我蕴岣哒Z音翻譯質(zhì)量。為了滿足機器同傳低時延要求,Ma等提出了一種簡單有效的“前綴到前綴”的機器同傳模型。該技術(shù)首次實現(xiàn)了可控時間延遲,重新激發(fā)了NLP領(lǐng)域?qū)C器同傳的研究興趣。國際上許多公司,如谷歌、微軟、臉書、華為等,紛紛加入這一方向的研究。百度等公司的機器同傳系統(tǒng)在數(shù)百場會議中得到了實際應(yīng)用。為了促進相關(guān)技術(shù)發(fā)展,2020年,研究人員在ACL舉辦了第一屆國際機器同傳研討會。同年,IWSLT也開設(shè)了新的語音翻譯賽道。
二、神經(jīng)網(wǎng)絡(luò)機器翻譯
近年來,NMT發(fā)展迅速。典型的NMT模型包含兩部分:編碼器將源句子映射為向量,解碼器基于該向量生成譯文。這個過程類似于人類翻譯。NMT模型首先“讀取”整個源句子;然后,基于對句子的理解,翻譯模型逐詞生成目標句子。與RBMT和SMT等以前的方法相比,NMT不需要人工撰寫規(guī)則和設(shè)計特征。NMT是一個端到端的框架,直接從訓(xùn)練語料庫中學(xué)習(xí)語義表示和翻譯知識。憑借這些優(yōu)勢,NMT成為機器翻譯領(lǐng)域當(dāng)前的主流方法。
本節(jié)首先介紹NMT模型,包括基于基本循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的模型及其改進,以及當(dāng)前主流的NMT模型Transformer。然后,介紹多語言翻譯,并討論能夠充分利用數(shù)據(jù)的回譯技術(shù)和基于樞軸語言的翻譯技術(shù),以及基于多任務(wù)學(xué)習(xí)的翻譯模型與多語言統(tǒng)一翻譯模型等。接下來,介紹語音翻譯及機器同傳最新進展,包括由語音識別(ASR)、機器翻譯和語音合成(TTS)組成的級聯(lián)模型,以及直接對語音和翻譯建模的端到端模型。
(一)神經(jīng)網(wǎng)絡(luò)機器翻譯模型
典型的NMT模型是基于標準RNN或其變體構(gòu)建的。給定源句子
(其中,Tx表示的x長度),編碼器將壓縮為隱狀態(tài),如下所示:
式中,g(·)是激活函數(shù);ht和xt分別是在時間的隱狀態(tài)和源語言詞向量;t表示時間步長;θ是模型參數(shù)。在基本模型中,編碼器將最后一個隱狀態(tài)作為源句子的表示。然后,解碼器根據(jù)下式生成譯文:
式中,是目標句子;p(y|x)是翻譯概率;Ty?是的y長度;c是從隱狀態(tài)h生成的向量;?yt?是目標詞;是?
已經(jīng)生成的目標詞。
標準RNN模型的缺點之一是信息在傳遞過程中衰減很快,導(dǎo)致長句翻譯質(zhì)量嚴重下降。為了克服這一問題,Bahdanau等提出了三種改進方案,被廣泛應(yīng)用于NMT模型。接下來逐一介紹。
1. 注意力機制
當(dāng)生成目標單詞時,與上述基本模型中使用編碼器最后一個隱狀態(tài)來表示源句子不同,注意力機制計算目標單詞和所有源單詞之間的關(guān)聯(lián),并評估關(guān)聯(lián)的強度。
式中,ct是上下文向量;hj是源單詞xj的j隱狀態(tài);j是x的單詞索引;是目標單詞yt和hj的關(guān)聯(lián)權(quán)重,其計算公式如下:
式中,etj是由前饋神經(jīng)網(wǎng)絡(luò)計算得到的詞對齊強度;i是x的單詞索引。
實際上,注意力機制類似于SMT中使用的詞對齊。SMT中的詞對齊是一種“硬對齊”,表示源單詞和目標單詞是否有連接。而NMT中的注意力機制是一種“軟對齊”,將目標單詞通過不同權(quán)重連接到所有源單詞。注意力機制顯著提高了翻譯質(zhì)量,使NMT成為MT歷史上的一項突破性技術(shù)。
2. 雙向編碼
與單向編碼從左到右計算隱狀態(tài)不同,雙向編碼器根據(jù)從左到右和從右到左兩個方向計算隱狀態(tài),如和
。然后將隱狀態(tài)拼接為
。因此,對于任意一個時刻,隱狀態(tài)既包含了此時刻之前的歷史信息,也包含了此時刻之后的未來信息,這再次提高了翻譯質(zhì)量。
3. 門控循環(huán)單元
門控循環(huán)單元(GRU)是傳統(tǒng)簡單激活函數(shù)的一種變體。GRU類似于長短時記憶網(wǎng)絡(luò)(LSTM),但效率更高。GRU和LSTM都允許網(wǎng)絡(luò)學(xué)習(xí)長距離依賴關(guān)系,而不會受到梯度消失問題的影響。
實驗表明,與SMT相比,NMT有顯著進步。然而,早期的NMT模型仍然存在缺點,如集外詞(OOV)問題、漏譯問題、解碼速度慢等。為了克服這些問題,He等提出將統(tǒng)計特征(如短語表、元語言模型和長度懲罰)引入NMT。沿著這個方向,研究人員借鑒了SMT技術(shù),并將其融入NMT中,如詞語覆蓋度、對齊一致性、句法信息、短語表和翻譯建議等。Sennrich等使用字節(jié)對編碼(BPE)的壓縮算法進行分詞,將開放詞匯表壓縮為固定大小的子詞詞匯表。該方法簡單高效,被廣泛用于NMT以解決集外詞和低頻詞翻譯問題。
基于RNN的NMT在編解碼過程中對當(dāng)前詞的處理依賴于前文信息,難以并行化。針對這一問題,研究人員提出了多種方案以提升NMT模型并行能力。例如,將計算機視覺中常用的卷積神經(jīng)網(wǎng)絡(luò)(CNN)引入NMT ,通過卷積操作實現(xiàn)對句子中的長距離單詞依賴關(guān)系高效建模,顯著提升了模型的并行化能力。
受基于CNN的NMT方法的啟發(fā),Vaswani等提出了一個名為Transformer的新型網(wǎng)絡(luò)。該網(wǎng)絡(luò)完全基于注意力機制,沒有任何循環(huán)和卷積操作。Transformer包含三種注意力:編碼器自注意力、解碼器掩碼注意力和編碼器-解碼器注意力。研究人員提出了一種新的縮放點積方法來計算這幾種注意力。
式中,Q、K和V分別是查詢向量、鍵向量和值向量;是縮放比例因子;KT是的K轉(zhuǎn)置。具體來說,對于每個單詞,模型通過將詞向量與不同的參數(shù)矩陣相乘來創(chuàng)建三個向量——查詢向量、鍵向量和值向量。注意力的作用是計算這些值的加權(quán)和,傳遞到下一層。
此外,研究人員還提出了一種多頭注意力機制(multi-head attention mechanism)。
式中,M是頭的個數(shù);headm= Attention?表示不同的注意力空間;
??
?
是參數(shù)矩陣。函數(shù)Concat (head1, ... , headM)將所有注意力頭拼接在一起。
與循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相比,Transformer具有更強的并行化和表示能力。因此,它不僅在機器翻譯任務(wù)上取得了最好效果(state-of-the-art),而且在許多其他NLP任務(wù)中也有卓越表現(xiàn)。例如,眾所周知的雙向編碼預(yù)訓(xùn)練模型BERT和知識增強預(yù)訓(xùn)練模型ERNIE,均基于Transformer構(gòu)建。
上述模型都是自回歸模型,在解碼時預(yù)測當(dāng)前詞需要依賴于已經(jīng)生成的單詞。這限制了模型在解碼期間的并行化能力。針對這一問題,Gu等提出了一種非自回歸Transformer(NAT),它可以并行化地生成目標序列。
式中,T是目標句子的長度,采用條件分布pL(T|x;Φ)建立模型;Φ是模型參數(shù)。
與在生成特殊句尾標記(</s>)時停止解碼的自回歸模型不同,非自回歸模型首先使用pL(T|x;Φ)來預(yù)測目標序列的長度。盡管NAT在解碼過程中實現(xiàn)了顯著的加速,但翻譯質(zhì)量卻受到影響。主要原因是NAT沒有對單詞依賴性進行建模,其對翻譯質(zhì)量的提升非常重要。受解碼效率的鼓舞,研究人員提出了許多方法改進非自回歸模型,包括知識蒸餾、模仿學(xué)習(xí)和課程表學(xué)習(xí)等。
(二)多語言翻譯
不同的語言具有不同的形態(tài)和結(jié)構(gòu),這使得語言之間的翻譯不僅對機器翻譯來說是一項艱巨的任務(wù),而且對人類專家而言也同樣充滿挑戰(zhàn)。例如,漢語和英語是主-謂-賓型語言,而日語和韓語是主-賓-謂型語言。在進行漢語和日語之間的翻譯時,通常需要進行長距離重新排序。此外,漢語是一種形態(tài)變化少的孤立型語言,而日語是一種具有豐富詞形變化的黏著型語言。語言之間的差異性增加了多語言機器翻譯的難度。
數(shù)據(jù)驅(qū)動的機器翻譯方法,無論是SMT還是NMT,從大量平行語料中自動學(xué)習(xí)翻譯知識。一般來說,增加訓(xùn)練數(shù)據(jù)量能提高翻譯質(zhì)量。Koehn和Knowles的實驗表明,當(dāng)英語-西班牙語翻譯的訓(xùn)練詞數(shù)從40萬增加到3.857億時,翻譯質(zhì)量(使用自動評價指標BLEU度量)提高了約30%(絕對提升)。
遺憾的是,世界上大多數(shù)語言缺乏平行語料,這些語言也因此被稱為“資源貧乏”型語言。由于數(shù)據(jù)稀疏性問題,為這些語言構(gòu)建NMT系統(tǒng)是一個巨大的挑戰(zhàn)。根據(jù)《互聯(lián)網(wǎng)世界統(tǒng)計》,全球十大語言(英語、漢語、西班牙語、阿拉伯語、葡萄牙語、印尼語/馬來語、法語、日語、俄語和德語)在互聯(lián)網(wǎng)上的用戶數(shù)量約占互聯(lián)網(wǎng)用戶總數(shù)的77%。其中,英語和漢語用戶分別占25.9%和19.4%,而所有其他語言用戶的總和僅占23.1%。對于資源豐富型語言,如漢語和英語,可以收集數(shù)十億個句對來訓(xùn)練機器翻譯模型;然而,對于資源貧乏型語言對,如漢語-印地語或漢語-斯瓦希里語,只有數(shù)千個或更少的句對可用。
此外,部署多語言翻譯系統(tǒng)的成本也很高。如果在種語言之間部署翻譯系統(tǒng),通常需要為每個翻譯方向(漢譯英和英譯漢視為兩個翻譯方向)都構(gòu)建翻譯模型。N種語言互譯則需要構(gòu)建N×(N–1)個翻譯模型。
隨著NMT技術(shù)發(fā)展,研究人員一直在尋求克服上述挑戰(zhàn)的方法。一般來說,多語言翻譯有兩種方法:充分利用數(shù)據(jù)的方法和改進NMT模型的方法。
針對資源貧乏型語言缺乏訓(xùn)練數(shù)據(jù)的問題,直觀的改進方法是收集盡量多的訓(xùn)練數(shù)據(jù),并充分挖掘這些數(shù)據(jù)的潛力。與平行語料庫相比,大量單語語料庫更容易獲得。在NMT中,單語語料通??捎糜跀?shù)據(jù)擴充。一種廣泛使用的方法是回譯,其主要思路是首先在一個小型平行語料庫上訓(xùn)練一個標準的NMT模型,然后使用該模型翻譯大量單語語料(例如,將目標語言句子翻譯為源語言句子),從而生成一個可用于重新訓(xùn)練翻譯模型的“偽雙語語料庫”。在極端情況下,可能根本就沒有平行語料庫。為了解決該問題,可以使用無監(jiān)督翻譯方法構(gòu)建僅基于源單語語料庫和目標單語語料庫的翻譯系統(tǒng)。Lample等提出將不同語言的句子映射到相同的隱空間,并通過重構(gòu)句子來訓(xùn)練翻譯模型。Artetxe等使用改進的SMT模型來初始化無監(jiān)督NMT模型,以進一步提高翻譯質(zhì)量。Song等、Conneau和Lample以及Ren等提出了基于預(yù)訓(xùn)練的無監(jiān)督NMT模型。
多語言翻譯的另一個研究方向是充分利用資源豐富型語言來提高資源貧乏型語言的翻譯質(zhì)量。該方法可以追溯到SMT時代。使用最廣泛的方法是基于樞軸語言的翻譯,即使用資源豐富型語言作為樞軸語言,在資源貧乏型語言對之間建立橋梁。以中德翻譯為例,由于有大量的中英和英德平行語料,因此可以選擇英語作為樞軸語言。最簡單的基于樞軸語言的翻譯方法是傳遞法,它使用兩個級聯(lián)翻譯系統(tǒng):源語-樞軸語翻譯系統(tǒng),將源語言句子翻譯成樞軸語言句子;以及樞軸語-目標語翻譯系統(tǒng),將樞軸語言句子翻譯成目標語言句子。該方法易于實現(xiàn),在實際系統(tǒng)中得到了廣泛應(yīng)用。缺點是級聯(lián)系統(tǒng)存在誤差傳播問題。Wu和Wang以及Cohn和Lapata提出了一種三角定位法,通過從源語-樞軸語和樞軸語-目標語翻譯模型中引入源語-目標語翻譯模型來學(xué)習(xí)短語級別的翻譯知識。
此外,多語言NMT還可以使用統(tǒng)一建模方法,充分利用資源豐富型語言來提高資源貧乏型語言的翻譯質(zhì)量。傳統(tǒng)的機器翻譯方法需要為每個語言對和每項任務(wù)建立單獨的翻譯模型,而NMT使得在一個統(tǒng)一模型中跨不同任務(wù)翻譯多種語言成為可能。一般來說,根據(jù)源端和目標端語言的數(shù)量,可以將該研究分為三類:一對多、多對一和多對多。
Dong等提出了一種用于多語言NMT的多任務(wù)學(xué)習(xí)方法。如圖1所示,通過共享編碼器共享源語言語義表示,該模型可以在不同語言對之間充分利用源語言語料庫。該方法為探索將一種源語言翻譯成多個目標語言的問題提供了統(tǒng)一的框架。為了在個語言之間部署翻譯系統(tǒng),該模型只需要訓(xùn)練一個編碼器和個解碼器。Luong等將該框架擴展到多任務(wù),包括翻譯、句法分析和圖像描述。Zoph和Knight提出了一種多對一的NMT模型,該模型在目標端共享解碼器。Firat等使用具有共享注意力機制的不同編碼器和解碼器進行多對多翻譯。
圖1. 基于多任務(wù)學(xué)習(xí)的一對多NMT翻譯框架圖解。A1,A2,… ,AZ是目標語言的注意力,TY1, TY2,… ,TYz是目標語言,Z是目標語言數(shù),stTYz(1≤ z ≤Z)是解碼端的隱狀態(tài)。
Johnson等提出了一種簡單的方法,將所有語言放在一起訓(xùn)練一個統(tǒng)一的編碼器-解碼器模型,以執(zhí)行多語言翻譯。研究人員在源語言句子開頭添加了一個特殊標記,以指示它被翻譯成哪種目標語言。該方法允許NMT模型學(xué)習(xí)多語言共享表示,并且實現(xiàn)簡單,無需對NMT模型結(jié)構(gòu)進行修改??紤]到語言的多樣性,Tan等將語言分為幾個群組,并為每個群組訓(xùn)練單獨的NMT模型。
在實際系統(tǒng)中,通常將上述方法結(jié)合起來,兼顧翻譯效率、部署成本等因素。得益于技術(shù)進步,當(dāng)前的翻譯系統(tǒng)可以支持數(shù)百個語言之間的翻譯。Arivazhagan等提出了一種大規(guī)模多語言翻譯模型,該模型在超過250億個句對上訓(xùn)練一個具有超過500億個參數(shù)的單一模型,支持103種語言翻譯(以英語作為源語言或者目標語言,與其他102種語言之間的翻譯)。Fan等提出了M2M-100模型,使用75億個句對進行訓(xùn)練,可以支持100種語言互譯。
(三)同聲傳譯
機器同傳的目標是實現(xiàn)兼顧翻譯質(zhì)量和翻譯效率的高質(zhì)量實時翻譯。在整句翻譯(第2.1節(jié))中,機器翻譯模型基于整個源語言句子生成目標譯文。而在機器同傳中,為了保證實時性,翻譯模型需要在未得到源語言句子完整內(nèi)容的條件下進行翻譯。
目前,機器同傳的研究可以分為兩類:級聯(lián)(流水線)模型和端到端模型。
1. 級聯(lián)模型
典型的級聯(lián)機器同傳系統(tǒng)包括將源語音轉(zhuǎn)錄為源語言文本流的ASR系統(tǒng)、執(zhí)行從源文本到目標文本翻譯的機器翻譯系統(tǒng),以及生成目標語言語音的TTS系統(tǒng),具體如圖2所示。在實踐中,TTS系統(tǒng)是可選的,這取決于不同應(yīng)用場景中目標端輸出的是文本還是語音。
圖2. 級聯(lián)機器同傳系統(tǒng)框架。
如前所述,機器同傳面臨的最大挑戰(zhàn)是實現(xiàn)高翻譯質(zhì)量和低時間延遲。由于ASR系統(tǒng)輸出的文本流沒有句子邊界,而傳統(tǒng)的機器翻譯系統(tǒng)將具有明確邊界的句子作為輸入。因此,ASR的輸出與機器翻譯的輸入不匹配。如果翻譯系統(tǒng)在未得到充足的源語言信息之前開始翻譯,則翻譯質(zhì)量會降低。反之,如果等待太多的源語言信息,則會增加時間延遲。
為了解決上述問題,需要對ASR的輸出進行切分,將切分后的結(jié)果作為機器翻譯的輸入。通常有兩種方法:固定文本長度的固定策略和根據(jù)上下文動態(tài)切分的自適應(yīng)策略。
固定策略是獨立于上下文的預(yù)定義的硬策略。此類策略根據(jù)固定長度對源文本進行切分。Ma等基于“前綴到前綴”的思路提出了wait-k策略,其中,k是模型首先讀取的單詞數(shù),此后模型邊讀入邊翻譯。也就是說,輸出總是落后于輸入k個單詞。該策略受人類同聲傳譯的啟發(fā),他們通常在演講者開始演講幾秒鐘后開始翻譯,并在演講結(jié)束后的幾秒鐘內(nèi)完成翻譯。舉例而言,如果k = 2,則使用前兩個源詞預(yù)測第一個目標詞,使用前三個源詞和生成的第一個目標詞預(yù)測第二個目標詞,依此類推。形式化描述為
即使用源語言句子前綴
而不是整個源句子來預(yù)測目標詞。是一個單調(diào)非遞減函數(shù),表示預(yù)測時編碼器處理的源詞數(shù)。一般情況下,q(t)?可以用來表示任意長度的同傳策略,其中對于所有t,0 ≤?q(t) ≤ |x|? 。兩種特殊情況除外:①?q(t) = |x|,此時翻譯模型即是傳統(tǒng)的整句翻譯模型;②?q(t)?= 0,則翻譯模型退化為一個預(yù)測模型,即不依賴源語言句子的任何信息就開始翻譯。固定策略簡單易行,但由于缺乏上下文信息,通常會導(dǎo)致翻譯質(zhì)量下降。
自適應(yīng)策略根據(jù)上下文信息進行動態(tài)的源文本切分。通常有兩種方式,使用獨立的模型對源語言文本流進行切分,或者在端到端框架中聯(lián)合學(xué)習(xí)切分和翻譯。自適應(yīng)策略比固定策略更靈活,取得了更好的效果。受到人類同聲傳譯員翻譯方式的啟發(fā),Zhang等提出了一種語義單元驅(qū)動的機器同傳方法,將源語言文本流動態(tài)切分為可獨立翻譯的片段,以同時滿足高質(zhì)量和低時延要求。
在語音翻譯中,有關(guān)增量TTS的研究不多。當(dāng)前主流的TTS系統(tǒng)獲取完文本中的所有單詞后才開始生成語音,導(dǎo)致時間延遲高。在機器同傳中,為了減少延遲,需要以增量方式生成語音。傳統(tǒng)的增量TTS方法基于隱馬爾可夫模型,使用語言特征的完整上下文,每個特征需要單獨訓(xùn)練和調(diào)參。最近的研究利用了神經(jīng)網(wǎng)絡(luò)的優(yōu)勢。Yanagita等提出了一種基于分段的TTS,一次合成一個分段。Ma等提出了一種神經(jīng)增量詞級TTS。如圖3所示,該方法基于兩個前提:①單詞依賴關(guān)系是非常局部的;②音頻播放本質(zhì)上是順序的,可以與音頻生成同時進行。也就是說,可以在合成后續(xù)文本時播放已經(jīng)生成的上一段音頻。綜上所述,該方法在收到前兩個單詞后開始生成第一個單詞的頻譜圖;該頻譜圖被送到聲碼器以生成第一個單詞的波形,該波形會被立即播放。
圖3. 整句TTS與增量TTS。K1和K2分別是頻譜圖和聲波生成的前瞻窗口大小。
級聯(lián)模型易于實現(xiàn),但是也存在問題。例如,級聯(lián)系統(tǒng)中的三個模塊均需滿足實時性要求。此外,ASR錯誤會在向下游任務(wù)傳播的過程中被放大,一個單詞識別錯誤可能會導(dǎo)致整體的翻譯結(jié)果不可接受。因此,需要增強語音翻譯系統(tǒng)的健壯性。
2. 端到端模型
機器同傳的最終目標是開發(fā)端到端的語音翻譯系統(tǒng),以便源語言語音可以直接翻譯成目標語言,而無需像級聯(lián)方法那樣經(jīng)過中間階段。端到端模型不僅可以減少級聯(lián)模型中的錯誤傳播,還可以提高效率。然而,構(gòu)建高實時性的端到端語音翻譯模型是極具挑戰(zhàn)性的。此外,可用于訓(xùn)練端到端模型的語音翻譯數(shù)據(jù)非常稀缺。目前,公開可用的機器同傳訓(xùn)練數(shù)據(jù)僅包含數(shù)百小時的演講,其中大部分是日語-英語以及歐洲語言之間的數(shù)據(jù)。對于中英翻譯,百度發(fā)布了一個包含70 h演講的開放數(shù)據(jù)集,包括相應(yīng)的語音轉(zhuǎn)錄和翻譯。
將語音識別和機器翻譯集成到一個統(tǒng)一的框架中并非易事,端到端語音翻譯是一項前沿技術(shù)。Bansal等首次驗證了端到端語音翻譯可以在不用源語言語音轉(zhuǎn)錄的情況下實現(xiàn)。近來有些研究基于預(yù)訓(xùn)練或多任務(wù)學(xué)習(xí)來提高語音翻譯質(zhì)量。例如,基于ASR數(shù)據(jù)預(yù)訓(xùn)練編碼器,利用文本翻譯來改進語音翻譯等。Liu等使用知識蒸餾方法,通過從機器翻譯模型遷移知識來改進端到端語音翻譯。但是,這些方法中的不同任務(wù)之間不能相互共享信息。為了解決這個問題,研究人員提出了兩階段模型,其中第一階段執(zhí)行語音識別任務(wù),其隱狀態(tài)(而非識別結(jié)果)作為第二階段解碼器(翻譯系統(tǒng))的輸入。Liu等提出一種交互式端到端語音翻譯模型,可以交互地進行語音識別和機器翻譯,從而提高了這兩項任務(wù)的性能。最近也有一些研究聚焦直接建立端到端語音翻譯模型。然而,由于訓(xùn)練數(shù)據(jù)有限,以及將語音識別和機器翻譯集成到統(tǒng)一框架中的復(fù)雜性,目前的端到端語音翻譯系統(tǒng)的性能尚不能滿足實際要求。
由于級聯(lián)模型易于部署且翻譯質(zhì)量比較高,因此當(dāng)前大多數(shù)實用的語音翻譯系統(tǒng)使用該方法。Xiong等將機器同傳系統(tǒng)與具有3~7年經(jīng)驗的人類同傳譯員進行了比較。實驗發(fā)現(xiàn),同傳譯員通常會忽略不重要的信息以保持合理的時間延遲。這可能會損失譯文的完整度,但保證了實時性。與同傳譯員相比,機器同傳系統(tǒng)生成的譯文完整度更好。Shimizu等實驗也表明經(jīng)驗較少的同傳口譯員在同傳過程中會丟失細節(jié)。這些研究表明,同聲傳譯對于人類和機器來說都是一項艱巨的任務(wù)。
三、機器翻譯應(yīng)用
機器翻譯因其低成本、高效率和高翻譯質(zhì)量而在許多領(lǐng)域得到廣泛應(yīng)用。在中國,人工翻譯費用通常為0.1~0.5元/字不等,具體取決于翻譯人員的經(jīng)驗豐富程度。而機器翻譯的價格約為0.00005元/字符。百度翻譯目前支持200多種語言互譯,每天翻譯量超過千億字符,應(yīng)用領(lǐng)域廣泛。圖4列出了8個較大的領(lǐng)域分布。
圖4. 百度翻譯領(lǐng)域分布。
(一)文本翻譯
文本翻譯是最常見的機器翻譯應(yīng)用形式。以下是文本翻譯的一些典型應(yīng)用。
(1)網(wǎng)頁翻譯。隨著全球化的迅速發(fā)展,快速獲取外語信息的需求日益增加。聘請人工翻譯人員翻譯大量網(wǎng)頁既昂貴又耗時。機器翻譯提供了一種查看外語網(wǎng)頁的便捷方式。用戶只需復(fù)制/粘貼網(wǎng)頁內(nèi)容或輸入網(wǎng)址即可以用母語閱讀頁面。
(2)科技文獻翻譯。研究人員、工程師和研究生等用戶經(jīng)常使用機器翻譯系統(tǒng)閱讀論文和專利等科技文獻,或?qū)⑺麄兊墓ぷ鞒晒g成其他語言。例如,為了抗擊新型冠狀病毒肺炎(COVID-19),生物醫(yī)學(xué)領(lǐng)域的翻譯需求迅速增長??萍嘉墨I通常包含許多術(shù)語。借助領(lǐng)域自適應(yīng)技術(shù),翻譯模型首先使用大規(guī)模語料進行預(yù)訓(xùn)練,然后使用少量領(lǐng)域內(nèi)數(shù)據(jù)進行微調(diào)以進一步提升翻譯質(zhì)量。此外,文檔翻譯用于翻譯格式豐富的文檔,例如,PowerPoint、Excel、Word和PDF,在生成譯文的同時保留字體大小和字體顏色等格式信息。
(3)電子商務(wù)翻譯。機器翻譯廣泛用于國際貿(mào)易。在機器翻譯系統(tǒng)的幫助下,賣家可以快速將網(wǎng)站、產(chǎn)品信息和服務(wù)手冊翻譯成外語,而買家可以輕松購買來自世界各地的產(chǎn)品。此外,機器翻譯還可以用于客戶服務(wù),以提高服務(wù)質(zhì)量和效率。
(4)語言學(xué)習(xí)。目前的機器翻譯系統(tǒng)通常提供豐富的功能,包括翻譯、高質(zhì)量詞典、例句等。因此,用戶可以方便地查詢單詞或短語的含義并學(xué)習(xí)如何使用它。學(xué)生用戶經(jīng)常輸入整個段落以幫助閱讀理解,并使用例句來輔助寫作。
除了文本翻譯,基于人工智能技術(shù)的最新進展,圖像翻譯和語音翻譯也已廣泛應(yīng)用于實際場景中。
(二)圖像翻譯
圖像翻譯結(jié)合了計算機視覺和機器翻譯技術(shù),將圖像作為輸入,然后將其翻譯成目標語言。
(1)多語言圖像描述。此類系統(tǒng)可以描述圖片內(nèi)容并進行視覺問答,近年來得到了廣泛研究。多語言圖像描述基于NMT思想,其中,編碼器的輸入是圖像,解碼器的輸出是文本。由于模型可以為同一張圖片生成不同的語言,因此此功能對語言學(xué)習(xí)非常有幫助。
(2)光學(xué)字符識別(OCR)翻譯。此種形式的機器翻譯首先識別圖片中的字符,然后進行翻譯并使用譯文替換原文本。此功能可用于出國旅行時翻譯菜單、街道路牌、產(chǎn)品描述等。隨著近年來對文檔圖像布局和文本信息進行聯(lián)合建模的研究不斷進步,OCR翻譯還可用于翻譯掃描的文檔,同時保留原始格式信息。
(三)語音翻譯
語音翻譯結(jié)合了語音處理和機器翻譯技術(shù),將源語言語音作為輸入,并以目標語言文本或語音作為輸出。
(1)機器同聲傳譯。如第2.3節(jié)所述,機器同傳最近取得較大進展,并得到廣泛應(yīng)用。語音到文本(S2T)翻譯將語音識別結(jié)果和譯文以字幕形式投影到屏幕上,以方便用戶觀看。但是,屏幕上有限的空間通常只能顯示一種語言對的字幕。因此,很難將S2T擴展到多語言。語音到語音翻譯使得觀眾可以通過手機收聽目標語言聲音來解決這個問題。來自不同國家的用戶可以選擇他們的母語或他們喜歡的任何其他語言。機器同傳系統(tǒng)目前廣泛應(yīng)用于國際會議。受新冠疫情影響,越來越多的會議以在線會議的形式舉辦。針對這類需求,機器同傳系統(tǒng)也已集成到在線會議系統(tǒng)中,提供實時翻譯。此外,用戶可以使用機器同傳插件用母語觀看外語視頻,如電影和講座等。
(2)便攜式翻譯設(shè)備。帶有語音翻譯功能的移動設(shè)備近年來受到用戶青睞。它們易于攜帶和使用,在語言學(xué)習(xí)、海外旅行和商務(wù)談判等許多場景中有廣泛應(yīng)用。
此外,機器翻譯技術(shù)也可用于詩歌生成和中文對聯(lián)生成。以詩歌生成為例,機器翻譯模型將前一行生成的詩句作為“源語言句子”,將后續(xù)詩句作為“目標語言句子”,則可以逐行生成詩歌。
四、挑戰(zhàn)和展望
盡管當(dāng)前機器翻譯取得了顯著進步,但仍有很大的提升空間。在機器翻譯研討會(WMT)等開展的機器翻譯評測中,某些基準測試集上的自動評價指標(如BLEU、WER、METEOR等)表明,機器翻譯有時比人工翻譯更好。但需要注意的是,這些指標很難全面反映譯文質(zhì)量。好的翻譯至少應(yīng)該具備兩個基本特點:譯文忠實于原文(忠實度),以及譯文地道流暢(流利度)。NMT方法在某些語言對或者領(lǐng)域翻譯中表現(xiàn)出較高的忠實度和流利度。然而,該方法遠非完美,在有些任務(wù)如語音翻譯上,仍面臨較大挑戰(zhàn)。
總體而言,機器翻譯還有許多方面有待改進。
第一,需要設(shè)計新的評價指標來衡量機器譯文不同部分的重要程度。例如,人類同傳譯員在進行同聲傳譯時不會試圖翻譯所有內(nèi)容。在同傳過程中,知道哪些內(nèi)容需要翻譯以及何時開始翻譯是非常重要的。同傳譯員知道何時需要加快速度,何時可以放緩節(jié)奏;知道哪些內(nèi)容需要著重強調(diào),哪些內(nèi)容則可以省略不譯。但是,機器同傳系統(tǒng)會翻譯所有內(nèi)容,并且不知道如何省略非重要內(nèi)容以減少時間延遲。進一步地,機器同傳系統(tǒng)應(yīng)該反映出演講者所強調(diào)的重點內(nèi)容。最近,有些研究使用聲學(xué)特征來識別重點內(nèi)容并將其翻譯成目標語言。除了語音信息外,說話者的肢體語言和韻律也可以清晰傳達說話者所強調(diào)的某一部分內(nèi)容(相對于其他部分而言)。然而,將翻譯與說話者的肢體語言同步是比較困難的。此外,演講者在演講時經(jīng)常會參考幻燈片。同樣地,將翻譯與幻燈片內(nèi)容同步也充滿挑戰(zhàn)。盡管BLEU和WER之類的評價指標能夠一定程度上衡量譯文的完整性,但是不夠全面,沒有涉及延遲、強調(diào)、同步、理解等,這些也是影響翻譯的重要因素。在機器同傳中,前端ASR系統(tǒng)不僅需要能識別單詞,還應(yīng)該能夠識別說話人所強調(diào)的重點內(nèi)容,這些內(nèi)容將會影響下游任務(wù)(機器翻譯、語音合成)的效果。因此,新的評價指標應(yīng)該獎勵同傳系統(tǒng)將重要內(nèi)容做出準確翻譯,同時懲罰只將非重點內(nèi)容做出翻譯。
第二,機器翻譯的魯棒性需要進一步提高。有時源句子的微小改變(如詞語或標點符號的改變)可能會導(dǎo)致機器翻譯產(chǎn)生的譯文發(fā)生巨大變化。與機器相比,人類具有很強的容錯能力,能夠靈活地處理各種非標準語言現(xiàn)象和錯誤,有時甚至下意識地予以糾正。高魯棒性的機器翻譯系統(tǒng)在實際應(yīng)用中至關(guān)重要。研發(fā)可解釋的機器翻譯系統(tǒng)是一種可能的解決方案。
第三,NMT在資源貧乏的語言對和領(lǐng)域中面臨著嚴重的數(shù)據(jù)稀疏問題。目前的機器翻譯系統(tǒng)通常使用數(shù)千萬甚至數(shù)億個句對的數(shù)據(jù)進行訓(xùn)練,從而獲得較高的翻譯質(zhì)量。數(shù)據(jù)稀缺會導(dǎo)致機器翻譯質(zhì)量變差。與機器相比,人類卻能從少量樣本中學(xué)習(xí)。盡管研究者已經(jīng)提出了多種數(shù)據(jù)增強方法、多任務(wù)學(xué)習(xí)方法和預(yù)訓(xùn)練方法來緩解多語言翻譯面臨的數(shù)據(jù)稀疏問題,但如何提高資源貧乏型語言的翻譯質(zhì)量仍任重道遠。
綜上所述,要實現(xiàn)高質(zhì)量的機器翻譯還有很長的路要走。需要研發(fā)能夠結(jié)合符號規(guī)則、知識和神經(jīng)網(wǎng)絡(luò)的新方法,以進一步提高翻譯質(zhì)量。幸運的是,機器翻譯在實際場景中的廣泛應(yīng)用可以不斷提供更多更豐富的數(shù)據(jù),促進機器翻譯新方法的快速發(fā)展。
審核編輯:湯梓紅
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4814瀏覽量
103599 -
計算機
+關(guān)注
關(guān)注
19文章
7662瀏覽量
90784 -
smt
+關(guān)注
關(guān)注
43文章
3044瀏覽量
72016 -
機器翻譯
+關(guān)注
關(guān)注
0文章
140瀏覽量
15192 -
nlp
+關(guān)注
關(guān)注
1文章
490瀏覽量
22621
原文標題:機器翻譯研究進展
文章出處:【微信號:信息與電子工程前沿FITEE,微信公眾號:信息與電子工程前沿FITEE】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
薄膜鋰電池的研究進展
機器翻譯三大核心技術(shù)原理 | AI知識科普
機器翻譯三大核心技術(shù)原理 | AI知識科普 2
神經(jīng)機器翻譯的方法有哪些?
從冷戰(zhàn)到深度學(xué)習(xí)_機器翻譯歷史不簡單

從冷戰(zhàn)到深度學(xué)習(xí),機器翻譯歷史不簡單!
機器翻譯的真實水平如何,夢想與現(xiàn)實的距離到底有多遠?
換個角度來聊機器翻譯

評論