專利翻譯模板 一種基于翻譯模板的神經(jīng)機器翻譯方法技術(shù)
日期:2023-03-11 12:39:36 / 人氣: 509 / 發(fā)布者:成都翻譯公司
本發(fā)明專利技術(shù)涉及一種基于翻譯模板的神經(jīng)機器翻譯方法,屬于自然語言處理中的機器翻譯技術(shù)領(lǐng)域。[0011]一種基于翻譯模板的神經(jīng)機器翻譯方法,包括以下步驟:[0022]圖2為本專利技術(shù)的基于模板的神經(jīng)機器翻譯模型圖;[0025]一種基于翻譯模板的神經(jīng)機器翻譯方法,包括以下步驟:本發(fā)明專利技術(shù)涉及一種基于翻譯模板的神經(jīng)機器翻譯方法,屬于自然語言處理中的機器翻譯技術(shù)領(lǐng)域。該方法通過引入匹配的高度相似的翻譯模板來引導和約束模型的解碼過程,從而提高翻譯質(zhì)量。首先,構(gòu)建翻譯模板庫和相應的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機器翻譯模型。之后,采用兩階段訓練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導訓練過程。*后專利翻譯模板,訓練好的神經(jīng)機器翻譯模型用于分別翻譯匹配高度相似翻譯模板的句子。與現(xiàn)有技術(shù)相比,該方法簡化了翻譯模板的構(gòu)建過程,更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板,而不是所有的句子。匹配的高度相似的翻譯模板用于改進翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進翻譯。質(zhì)量。數(shù)量。數(shù)量。匹配的高度相似的翻譯模板用于改進翻譯。質(zhì)量。數(shù)量。數(shù)量。
下載所有詳細的技術(shù)數(shù)據(jù)
【技術(shù)實現(xiàn)步驟總結(jié)】
一種基于翻譯模板的神經(jīng)機器翻譯方法
[0001] 本專利技術(shù)涉及神經(jīng)機器翻譯中構(gòu)建翻譯模板庫,并將翻譯模板引入與翻譯性能對應的神經(jīng)機器翻譯優(yōu)化器的技術(shù),具體涉及一種基于神經(jīng)機器翻譯的神經(jīng)機器翻譯方法。翻譯模板,屬于語言處理中的自然機器翻譯
技術(shù)介紹
[0002] 目前,由于神經(jīng)機器翻譯在多種自然語言方面優(yōu)于傳統(tǒng)的統(tǒng)計機器翻譯,在工業(yè)領(lǐng)域,谷歌、有道、百度等各大公司已成功部署神經(jīng)機器翻譯作為基本翻譯服務。這些方便快捷的翻譯服務被人們廣泛使用。
[0003] 然而,神經(jīng)機器翻譯主要是通過雙語并行語料庫數(shù)據(jù)訓練來獲得源語言和目標語言的語言特征知識以及兩者之間的對應關(guān)系。因此,神經(jīng)機器翻譯對訓練數(shù)據(jù)有很大的依賴性。性別。當訓練語料數(shù)據(jù)不包含某些特征信息或僅包含較少的特征信息時,模型將很難學習到相應的知識,從而導致模型無法捕捉到這部分信息。在翻譯包含這部分待翻譯知識的句子時,神經(jīng)機器翻譯會產(chǎn)生低質(zhì)量的翻譯。
[0004] 在計算機輔助翻譯場景中,人工翻譯接收機器翻譯模型生成的翻譯,首先檢查翻譯中是否存在錯誤并進行必要的更正,然后對翻譯錯誤進行后期編輯以確保*終的翻譯質(zhì)量。衡量審校和譯后編輯時間是量化人工翻譯工作量*直接、*有效的方法。在使用傳統(tǒng)的神經(jīng)機器翻譯方法時,人工翻譯并不了解翻譯的質(zhì)量,這意味著人工翻譯必須花費相同的工作量來審核每個翻譯。在這種情況下,只有研究如何提高整個測試集的翻譯性能,只能減少翻譯后的編輯時間。
[0005] 在現(xiàn)實場景中,現(xiàn)有的翻譯知識有很多,例如固定的翻譯句型、固有的翻譯搭配、專業(yè)領(lǐng)域的雙語詞典等。人類語言專家總結(jié)的翻譯知識是完全正確的,人類翻譯人員可以直接利用這些固定的翻譯知識來輔助翻譯工作。因此,利用外部知識來提高機器翻譯模型的翻譯質(zhì)量具有很高的研究價值。一般來說,大部分研究工作主要集中在使用雙語詞典和雙語翻譯示例進行解碼約束或數(shù)據(jù)增強,但將翻譯模板作為外部知識整合到神經(jīng)機器翻譯中的研究相對較少。翻譯模板保留了句子和一些目標詞的句法結(jié)構(gòu)信息。在知識粒度上,模板介于翻譯規(guī)則和翻譯實例之間。與翻譯實例相比,翻譯模板具有更高的抽象度,從而具有更高的匹配率。與翻譯規(guī)則相比,翻譯模板包含更多的詞匯信息。
[0006] 綜上所述,如果能夠構(gòu)建出適合神經(jīng)機器翻譯的高質(zhì)量翻譯模板庫,并將翻譯模板的知識引入神經(jīng)機器翻譯中,就可以獲得高質(zhì)量的翻譯。
[0007] 然而,目前還沒有發(fā)表比較完整的機器翻譯系統(tǒng)或相關(guān)技術(shù)將翻譯模板引入到神經(jīng)機器翻譯中。
技術(shù)實現(xiàn)思路
[0008] 本專利技術(shù)的目的是為了解決現(xiàn)有機器翻譯系統(tǒng)在語料庫的大小和質(zhì)量上的限制,導致
針對由此產(chǎn)生的翻譯質(zhì)量差的技術(shù)問題,創(chuàng)造性地提出了一種基于翻譯模板的神經(jīng)機器翻譯方法。該方法通過引入匹配的高度相似的翻譯模板來引導和約束模型的解碼過程,從而提高翻譯質(zhì)量。
[0009] 該專利技術(shù)的創(chuàng)新之處在于:首先,構(gòu)建了翻譯模板庫和相應的模板匹配算法。然后,構(gòu)建基于模板的神經(jīng)機器翻譯模型。之后,采用兩階段訓練策略將翻譯模板引入模型中,構(gòu)建的模型參數(shù)不斷迭代更新,指導訓練過程。*后,使用訓練好的神經(jīng)機器翻譯模型對匹配高度相似翻譯模板的句子進行單獨翻譯。
[0010] 為實現(xiàn)上述目的,本專利技術(shù)采用以下技術(shù)方案。
[0011] 一種基于翻譯模板的神經(jīng)機器翻譯方法,包括以下步驟:
[0012] 步驟1:基于*長名詞短語的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫。
[0013] 步驟2:構(gòu)建多策略模板匹配算法,檢索高度相似的翻譯模板。
[0014] 第三步:構(gòu)建基于模板的神經(jīng)機器翻譯模型,將翻譯模板引入神經(jīng)機器翻譯中。
[0015] 步驟4:采用兩階段模型訓練策略訓練基于模板的神經(jīng)機器翻譯模型。
[0016] 步驟5:利用訓練模型的翻譯神經(jīng)模型對匹配高度相似翻譯模板的句子進行翻譯。
[0017] 好處
[0018] 與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益效果和優(yōu)點:
[0019] 1. 本專利技術(shù)采用自定義翻譯模板提取算法,構(gòu)建高質(zhì)量翻譯模板。通過提取*長的名詞短語,可以省略雙語詞對齊信息,簡化翻譯模板的構(gòu)建過程。
[0020]2.這項專利技術(shù)不同于現(xiàn)有的機器翻譯系統(tǒng),更側(cè)重于提高部分句子的翻譯效果,這些句子可以匹配高度相似的翻譯模板而不是所有句子,使用匹配的高度相似的翻譯模板翻譯 該模板提高了翻譯質(zhì)量。
圖紙說明
[0021] 圖 圖1是專利技術(shù)的翻譯模板構(gòu)建算法示意圖;
[0022] 圖 圖2是基于專利技術(shù)模板的神經(jīng)機器翻譯模型示意圖;
[0023] 圖 圖3為專利技術(shù)的兩階段模型訓練策略圖。
詳細方法
[0024] 下面結(jié)合附圖和實施例對本專利的技術(shù)方法作進一步詳細說明。
[0025] 一種基于翻譯模板的神經(jīng)機器翻譯方法,包括以下步驟:
[0026] 步驟一:基于*長名詞短語的翻譯模板構(gòu)建方法,構(gòu)建翻譯模板庫。
[0027] 如圖1所示,具體方法如下:
[0028] 步驟1.1:利用成分句法樹分析方法,在平行句對上構(gòu)建雙句法樹;
[0029] 步驟1.2:識別提取*長名詞短語,構(gòu)建翻譯模板。
[0030] 其中,*長的名詞短語(maximal
-
長度名詞短語,MNP),是指沒有被任何其他名詞短語嵌套的名詞短語。在句法樹中,*長的名詞短語是指從根節(jié)點開始的第一個標簽為“NP”的子樹。*長的名詞短語比基本名詞短語具有更多的粒度信息。這項專利技術(shù)使用*長的名詞短語包括普通名詞(NN)、專有名詞(NR)、時間名詞(NT)和人稱代詞(PRP)作為模板變量,其余部分作為模板常量構(gòu)建翻譯模板。
[0031] 翻譯模板包括模板常量和模板變量;模板常量是指??模板中的固定詞,表示源句的句子結(jié)構(gòu)信息;模板變量是一類詞或名詞短語,是模板中的概括信息。模板常量在模板匹配中作為檢索到的信息,在翻譯過程中作為翻譯產(chǎn)生的約束信息;在翻譯過程中,翻譯模板變量根據(jù)源句信息替換翻譯模板變量,得到相應的譯文。
[0032] 步驟1.3:利用翻譯模板的長度和模板抽象化對翻譯模板進行過濾,保留滿足設(shè)定的長度閾值和抽象化閾值的翻譯模板。
[0033] 具體地,步驟1.3包括以下步驟:
[0034] 步驟1.3.1:設(shè)置長度閾值,丟棄不滿足長度閾值的翻譯模板。
[0035] 步驟1.3.2:設(shè)置抽象級別的上下閾值,計算翻譯模板的抽象級別,丟棄不在閾值范圍內(nèi)的翻譯模板。
[0036] 其中,翻譯模板抽象Score
腹肌
計算如下:
[0037] [0038] 其中專利翻譯模板,Num
VA
表示翻譯模板變量的個數(shù),lt表示翻譯模板中包含的單詞數(shù)。
[0039] 步驟2:構(gòu)建多策略模板匹配算法以檢索高度相似的翻譯模板。
[0040] 具體地,步驟2包括以下步驟:
[0041] 步驟2.1:使用步驟1中描述的翻譯模板構(gòu)建算法對待翻譯句子進行處理,得到待匹配模板。
[0
【技術(shù)保護點】
【技術(shù)特點摘要】
1. 一種基于翻譯模板的神經(jīng)機器翻譯方法,其特點包括以下步驟: 步驟1:基于*長名詞短語的翻譯模板構(gòu)建方法構(gòu)建翻譯模板庫;Step 2:構(gòu)建多策略模板 檢索高度相似翻譯模板的匹配算法包括以下步驟: Step 2.1:使用Step 1中描述的翻譯模板構(gòu)建算法對待翻譯句子進行處理,得到要匹配的模板;步驟2.2:使用基于詞命中率的粗粒度匹配策略,從步驟1構(gòu)建的翻譯模板庫中獲取候選集。其中,基于單詞命中率的粗粒度匹配策略定義如下: 粗粒度匹配策略使用待匹配模板和模板庫源翻譯模板的單詞共現(xiàn)頻率來衡量匹配程度兩者之間的相似性。相似度函數(shù)FM定義如下: 其中word(
·
) 表示字符串中包含的單詞;Tm值
源文件
表示匹配的源翻譯模板;X
′
表示待翻譯的句子使用步驟1中得到的待匹配模板;連(
·
) 表示要匹配的模板的長度;Step 2.3:使用基于字符串相似度的細粒度匹配策略對候選集進行匹配;其中,基于字符串相似度的細粒度匹配策略定義如下:細粒度匹配策略使用Levinstein編輯距離來衡量候選集中每個模板與檢索到的目標的相似度;Levinstein 編輯距離是指一個模板可以通過添加、插入、刪除操作轉(zhuǎn)化為另一個模板的*小編輯次數(shù);細粒度匹配相似度函數(shù)Lev定義如下:編輯次數(shù)少;細粒度匹配相似度函數(shù)Lev定義如下:表示將要匹配的模板轉(zhuǎn)換為模板庫中匹配的源端翻譯模板所需的*小編輯距離;分數(shù)
Tm值
表示要匹配的模板X
′
匹配模板庫中的源翻譯模板X
′
Tm值
之間的模糊匹配分數(shù);i 和 j 分別表示 X
′
和 X
′
Tm值
中間的第 i 個和第 j 個位置;Step 3:構(gòu)建基于模板的神經(jīng)機器翻譯模型,將翻譯模板引入到神經(jīng)機器翻譯中,包括以下步驟: Step 3.1:在編碼端,添加額外的模板編碼器對檢索到的進行編碼目標翻譯模板;模板編碼器如下:模板編碼器采用Transformer編碼器結(jié)構(gòu),由若干相同子層堆疊而成,每個子層包括一個自注意力層子層和前饋神經(jīng)網(wǎng)絡子層層; 模板編碼器與原始 Transformer 編碼器具有相同的結(jié)構(gòu);模板編碼器和源編碼器在編碼過程中相互獨立,并且在呈現(xiàn)過程中沒有兩種信息相互交互的情況下融合,*終得到源句和目標翻譯模板在高維語義空間中的向量表示;源編碼器和目標模板編碼器的編碼表示如下:
H
秒
=Enc
源文件
(X,θ
源文件
)
?????????????????????
(4)其中,Enc
源文件
表示源語句編碼器;X 代表要翻譯的句子;編碼器
Tm值
代表模板編碼器;θ
源文件
和 θ
Tm值
分別代表源句編碼器和模板編碼器的參數(shù),源句編碼器和模板編碼器的參數(shù)不共享;H
秒
表示源語句編碼器對源語句進行編碼得到的包含源語句信息的向量表示,表示模板編碼器對目標翻譯模板進行編碼得到的包含目標翻譯模板信息的向量表示;Tm值
時間
表示匹配的目標翻譯模板;步驟3.2:在解碼端,添加模板代碼
-
解碼attention子層,將模板知識引入解碼器,引導和約束模型的解碼過程,從而獲得高質(zhì)量的翻譯;其中解碼器如下:在Transformer解碼器的基礎(chǔ)上,增加模板編碼
-
解碼注意力子層;新的解碼器包含四個子層:掩碼多頭注意力子層、模板編碼
-
解碼注意力子層,源碼
-
解碼注意力子層和前饋神經(jīng)網(wǎng)絡子層;編碼模板
-
解碼attention子層,放在源碼上
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:馮沖、尚偉、
申請人(專利權(quán)):北京理工大學,
類型:發(fā)明
國家省市:
下載所有詳細的技術(shù)資料 我是此專利的擁有者
相關(guān)閱讀Relate
熱門文章 Recent
- 翻譯實踐報告格式模板 社會實踐調(diào)查報告格式參考模板2023-03-11
- 戶籍翻譯模板 2018戶籍證明的格式是怎樣的2023-03-11
- 2019英國簽證戶口本翻譯模板 戶口本翻譯范圍及模板2023-03-11
- 州務卿認證翻譯模板 休斯頓美寶出生紙領(lǐng)事認證流程,州務卿認證要求2023-03-11
- 社會保險參保證明翻譯模板 社保繳納證明英文2023-03-11
- 增值稅發(fā)票翻譯模板下載 增值稅相關(guān)概念名詞解釋2023-03-11
- 生物中翻譯蛋白質(zhì)中誰作為模板 在蛋白質(zhì)生物合成中,三種rna起什么作用2023-03-11
- 外貿(mào)翻譯簡歷模板 簡潔實用個人簡歷模板 (360)2023-03-11
- 初中英語作文萬能模板及翻譯 初中英語中考作文萬能模板2023-03-11
- 上海居住證翻譯模板 【大專積分真實案例記錄】:2020年上海居住證積分辦理流程記錄2023-03-11