丁香五月婷婷黄色视频_97在线看观看免费_男女xo嘿咻嘿咻动态图_最近更新在线中文字幕人妻

?

模板化翻譯 英漢翻譯模板的標(biāo)準(zhǔn)化方案及其應(yīng)用

日期:2023-03-11 12:39:36 / 人氣: 732 / 發(fā)布者:成都翻譯公司

基礎(chǔ)上開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能性。譯模板庫的基礎(chǔ)上開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能性。然后再利用通用模板匹配替換算法進行從源語言到目標(biāo)語言的翻譯[25]。下面將討論一個建立英漢翻譯模板的初步標(biāo)準(zhǔn)化方案。首先,將英漢翻譯模板根據(jù)其源語言部分分為靜態(tài)模板和動態(tài)模板。大規(guī)模模板庫為基礎(chǔ)的機器翻譯技術(shù)也將再創(chuàng)新高。智能化英漢翻譯系統(tǒng)IMT/EC.基于通用模板匹配替換方法的英漢翻譯系統(tǒng).

李玉健,北京工業(yè)大學(xué)計算與計算機學(xué)院,多媒體與智能軟件技術(shù)北京市重點實驗室,北京 100022 E-mail:摘要:在機器翻譯系統(tǒng)中,模板可以作為知識表示的方法. 組織的戰(zhàn)略將極大地影響系統(tǒng)的整體性能。本文討論了英漢翻譯模板的標(biāo)準(zhǔn)化,提出了初步方案,并將其應(yīng)用于英漢翻譯系統(tǒng)的設(shè)計和實現(xiàn)。已取得初步成功,并驗證了方案的可行性。它為基于大規(guī)模模板庫開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能。在2005年舉辦的863測評中,本文開發(fā)的英漢翻譯系統(tǒng)達到的水平:對話翻譯手冊評價的忠誠度和流暢度分別為73.62 68.16章翻譯手冊評價忠誠度的流暢度和流暢度為分別為 41.16 和 31.45。關(guān)鍵詞:機器翻譯;翻譯模板;標(biāo)準(zhǔn)化中文圖書館分類號:T391.2 StandardizationStrategy 英漢翻譯模板及其應(yīng)用李玉劍學(xué)院計算機科學(xué)技術(shù)模板化翻譯,北京大學(xué)技術(shù),北京100022,中國北京市重點實驗室智能軟件技術(shù)E-mail:摘要:機器翻譯系統(tǒng),模板能的知識表示方法,極大地影響整個系統(tǒng)的性能。

但是,由于自然語言的極端復(fù)雜性,目前還沒有一種分析策略可以完全解決機器翻譯系統(tǒng)中涉及的各種問題。為了綜合利用這三種方法的優(yōu)點,克服各自的問題,一種常用的方法是將多種翻譯策略有機地結(jié)合起來,實現(xiàn)各種策略之間的優(yōu)勢互補,提高系統(tǒng)的性能[15-17]。在機器翻譯的研究中,除了多種策略的綜合集成,另一個重要的方法是增加處理粒度[18]。用中心詞標(biāo)注的目的是為了簡化處理句子結(jié)構(gòu),解決機器翻譯的歧義。基于塊的方法是近年來自然語言領(lǐng)域出現(xiàn)的一種新思想[19]。目前,對單語詞塊的研究已經(jīng)取得了很多成果[21-24]??梢源?Chunk 進行機器翻譯的一個概念是模板。簡單的說,一個模板可以看成是一個有變量的Chunk,一個Chunk可以看成是一個沒有變量的模板。使用模板而不是塊可以將許多塊合并為一個模板。因此,作為特例,語料庫中模板的頻率大于Chunk的頻率。因此,為了表征一個語料庫中的語言現(xiàn)象,所需的模板數(shù)量將遠少于所需的Chunk數(shù)量。盡管模板可能比 Chunk 具有更多的歧義,但通??梢越馕瞿0逯械膯蝹€模板。

本文討論了模板的定義,討論了英漢翻譯模板的標(biāo)準(zhǔn)化,并提出了初步方案,結(jié)合句法分析技術(shù)和模板匹配替換通用算法,應(yīng)用于英漢翻譯系統(tǒng)的設(shè)計和實現(xiàn)。 . 已取得初步成功,并驗證了方案的可行性,從而為基于大型英漢翻譯模板庫開發(fā)高質(zhì)量的英漢翻譯系統(tǒng)提供了可能。模板的定義和描述 各種自然語言中重復(fù)使用的模板結(jié)構(gòu)很多。抽象地講,模板可以看作是具有一定穩(wěn)定性的語言認(rèn)知結(jié)構(gòu)。每個模板結(jié)構(gòu)通常由幾個常量和變量組成。例如,英語短語“give sth. sb”。是一個模板結(jié)構(gòu),單詞“give”和“to”是常量,“sth”。和“某人” 是一個變量。當(dāng)一個模板中的所有變量都替換為它們能得到的常量值時,得到的詞序列稱為模板的一個實例。例如,“give me”是“givesth. sb”的一個實例。為了某概念,本文還引用了一些沒有變量的特殊短語或句子作為模板。從形式語言學(xué)的角度來看,模板中的常量項是終結(jié)符,模板中的變量項是非終結(jié)符。源語言模板 (ST, Source Template) 往往有對應(yīng)的另一種語言的目標(biāo)語言模板(TT,Target Template)。源語言模板和目標(biāo)語言模板形成的有序?qū)Α癝TTT”通常稱為翻譯模板。

在傳統(tǒng)的翻譯模板概念中,通常要求一個源語言模板只能有一個目標(biāo)語言模板,并且源語言模板的非終結(jié)符和目標(biāo)語言模板的非終結(jié)符必須對應(yīng)一個-一,數(shù)相等??紤]模板的類別標(biāo)注問題。這里,翻譯模板被定義為源語言模板和目標(biāo)語言中所有可能的目標(biāo)模板的集合。因此,如果考慮模板的類別標(biāo)注,并且每個類別標(biāo)注下只允許一個目標(biāo)翻譯,那么從形式上看,可以參考以下標(biāo)準(zhǔn)結(jié)構(gòu)某描述一個翻譯模板:Source Template POS tag TargetTemplate POStag TargetTemplate POStag TargetTemplate 其中,“POStag”代表類別標(biāo)簽的代碼。如果使用形式語言的術(shù)語模板化翻譯,那么每個源語言模板可以看成如下結(jié)構(gòu):(str1) 顯然,每個對應(yīng)的目標(biāo)語言模板也可以寫成:(str2)符號串(str1)和(str2))有以下約束:是任意r+1個從小到大排列的整數(shù),一個終止符(可能是空字符),是源語言中的r個非終結(jié)符,它們可以相同也可以不同;是任意m+1個從小到大排列的整數(shù),并且是終結(jié)符(可能是空字符),是目標(biāo)語言中的m個非終結(jié)符, 它們可以相同或不同;中出現(xiàn)的某些非終結(jié)符具有一定的確定性轉(zhuǎn)換關(guān)系,可能不相等。

根據(jù)上述模板的定義,以具有兩個類別注釋的英漢模板為例,描述如下:comment about NP vi。動詞類型,“n”表示名詞類型。如果沒有特別說明,下面使用的詞性標(biāo)簽與英語語法中使用的相同。英漢翻譯模板標(biāo)準(zhǔn)化方案及其應(yīng)用[J]. 由于之前對翻譯模板的定義,它不僅允許一個源語言模板有多個不同的對應(yīng)目標(biāo)語言模板,還允許每個對應(yīng)的目標(biāo)語言模板中有非終結(jié)符和源語言模板。中的非終結(jié)符之間存在一對多和多對一的關(guān)系,因此比傳統(tǒng)的模板定義更能合理地反映實際的自然語言現(xiàn)象。此外,由于人類一生能夠?qū)W習(xí)和構(gòu)建的語言認(rèn)知結(jié)構(gòu)非常有限,可以想象,與語言認(rèn)知結(jié)構(gòu)相關(guān)的模板數(shù)量也非常有限,盡管這個數(shù)量可能達到數(shù)萬個?;驍?shù)十萬。,即使是幾千萬,但對于建立大型翻譯模板庫來說應(yīng)該是一個有限合理的數(shù)字,不是一個遙不可及的天文數(shù)字。有了足夠的模板,給定的句子就可以作為源語言模板的組合進行分析,然后可以使用通用的模板匹配替換算法將源語言翻譯成目標(biāo)語言[25]。但是,針對某些兩種語言構(gòu)建實際的大規(guī)模翻譯模板庫并不容易。制定細致可行的模板標(biāo)準(zhǔn)化計劃是必不可少的一步。

下面將討論建立英漢翻譯模板的初步標(biāo)準(zhǔn)化方案。首先,英漢翻譯模板根據(jù)源語言部分分為靜態(tài)模板和動態(tài)模板。靜態(tài)模板是完全由終止符組成的短語。它們總是作為一個整體使用。嚴(yán)格來說,在任何語境中,都只能有這樣一種固定的組合搭配,不會因為語境的變化而分開。不同的意義單位。例如:人工智能 n.人工智能; 機器翻譯 機器翻譯;動態(tài)模板是指除靜態(tài)模板之外的任何模板,也就是說除了所有帶有非終結(jié)符的模板外,還包括那些隨機使用的模板。根據(jù)上下文,有時可能會分離或重新組合總詞短語。一個完全由終止符組成的動態(tài)模板的例子如下:一點; 模板之所以是動態(tài)模板,是因為“一點”還可以組合成其他模板,比如:littleADJ adj。一點點ADJ;暫時的 一會兒; 顯然,從給定的英語句子中分析靜態(tài)模板是非常容易的,因為靜態(tài)模板在任何上下文中都可以看到。模板式英漢翻譯系統(tǒng)框圖 詞法分析 靜態(tài)模板分析 動態(tài)模板分析 句法分析 模板匹配替換分析 詞典庫 靜態(tài)模板庫 動態(tài)模板庫輸入英文句子,輸出翻譯結(jié)果。

但是,如果要確保一個英語句子使用某個動態(tài)模板,就不能簡單地使用詞匹配和詞性匹配方法。通常,它通常需要使用句法分析技術(shù)才能獲得更好的結(jié)果。目前好的句法分析算法一般都有較高的時間復(fù)雜度或空間復(fù)雜度要求。如果同時啟用所有模板進行分析,尤其是在動態(tài)模板規(guī)模比較大的情況下,很難得到滿意的結(jié)果。高效的。因此,對動態(tài)模板進行分類、排序和索引,以便按需調(diào)用是必不可少的步驟。考慮到句法分析的需要,本文就如何組織大型英漢翻譯模板提出如下初步標(biāo)準(zhǔn)化方案: 根據(jù)前兩項是終結(jié)符還是非終結(jié)符,動態(tài)模板分為以下五類,分別使用TT , TN, NT, NNT 和 NNN,其中“TT”表示所有第一項都是終止符的模板(即英文單詞),“TN”表示所有第一項終結(jié)符,第二項是非終結(jié)符“NT” " 表示所有的第一項都是非終結(jié)符和非終結(jié)符,第三項是終結(jié)符?!癗NN”表示所有其他模板。通過第一項對TT模板進行排序并建立索引,通過第一項對TN模板進行排序并建立索引,通過第二項對NT模板進行排序并建立索引,通過第三項對NNT模板進行排序并建立索引Index;NNN 不需要創(chuàng)建索引,因為這樣的模板總數(shù)并不多,即使全部用于句法分析,系統(tǒng)的整體效率也不顯著。

本文根據(jù)上述英漢翻譯模板標(biāo)準(zhǔn)化方案,結(jié)合作者[25]提出的句法分析技術(shù)和模板匹配替換通用算法,實現(xiàn)了基于模板的英漢翻譯系統(tǒng),目前包含約38,000個條目和21,000個模板(其中有約6,400個靜態(tài)模板和約14,600個動態(tài)模板),所有這些都是通過手動輸入創(chuàng)建的。系統(tǒng)首先利用輸入句中的終止符從靜態(tài)模板庫和五種動態(tài)模板庫中檢索可能的模板。搜索的基礎(chǔ)是模板中的所有常量必須同時在輸入語句中依次(但可能不連續(xù))。出現(xiàn);然后使用標(biāo)準(zhǔn)的Earley算法分析句子的模板嵌套結(jié)構(gòu)[26];*后,通過模板匹配和替換實現(xiàn)英文句子到中文句子的翻譯。整個基于模板的英漢翻譯系統(tǒng)的框架如圖1所示。在2005年舉辦的863評測中,目前系統(tǒng)在開發(fā)集和測試集上的性能指標(biāo)如表1所示。系統(tǒng)在開發(fā)集上的結(jié)果 測試內(nèi)容 NIST BLEU GTM mWER mPER 對話翻譯8.8004 0.5217 0.8124 0.3835 0.3041 章節(jié)翻譯< @9.8652 0.4757 0.8258 0.5841 0.

雖然由于人力物力的限制,程序只取得了初步的成功,但是考慮到作者的翻譯引擎設(shè)計完全獨立于模板庫,如果能夠結(jié)合一些模板自動提取算法,也將加強大型模板庫建設(shè)的投入,屆時該方案有望對機器翻譯技術(shù)的發(fā)展產(chǎn)生重要影響,而基于大型模板庫的機器翻譯技術(shù)也將達到新的高度。參考文獻智能英漢翻譯系統(tǒng)IMT/EC。中國科學(xué)[J], pp.187-194,198<@9. Sadler.Theoretical Basis MiMo.Machine Translation[J], Vol.5, No.3, pp.195 -222, 1990. MRosetta . 作文翻譯[M].Kluwer Academic Publishers,荷蘭多德雷赫特,1994. KoichiTakeda。基于模式的上下文無關(guān)語法 MachineTranslation。過程 第 34 屆ACL pp.144-- 151,199 年6 月6. Cocke、Stephen DellaPietra、Vincent DellaPietra、Jelinek、Robert PSRoossin。統(tǒng)計方法機器翻譯。計算語言學(xué) 1990,16(2): 79-85. Brown,Stephen DellaPietra, Vincent DellaPietra, Robert Statistical Machine Translation: Parameter Estimation. Computational Linguistics 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 統(tǒng)計機器翻譯:參數(shù)估計。計算語言學(xué) 1993,19(< @2):79-85. Brown、Stephen DellaPietra、Vincent DellaPietra、Robert 統(tǒng)計機器翻譯:參數(shù)估計。計算語言學(xué) 1993,19(<

相關(guān)閱讀Relate

  • 法國簽證營業(yè)執(zhí)照翻譯件模板 你與申根簽證只有一條推送的距離
  • 江蘇省增值稅發(fā)票翻譯模板 江蘇稅務(wù)局出口貨物退(免)稅申報管理系統(tǒng)軟件
  • 肄業(yè)證書翻譯模板 復(fù)旦大學(xué)學(xué)生學(xué)業(yè)證明文書管理細則(試行)
  • 四級英語作文模板帶翻譯 大學(xué)英語四級翻譯模擬訓(xùn)練及答案
  • 社會某信用代碼證翻譯模板 js驗證某社會信用代碼,某社會信用代碼 驗證js,js+驗證+社會信用代碼證
  • 美國移民證件翻譯模板 日語簽證翻譯聊聊身份證翻譯模板
  • 翻譯軟件模板 人類史上*實用的的文檔快速翻譯指南
  • 江蘇省增值稅發(fā)票翻譯模板 江蘇出口貨物退(免)稅申報管理服務(wù)平臺
  • 瑞士簽證房產(chǎn)證翻譯件模板 瑞士探親簽證—就讀子女
  • 日語戶口本翻譯模板 戶口本翻譯價格_戶口本翻譯一般多少錢?
  • 模板化翻譯 英漢翻譯模板的標(biāo)準(zhǔn)化方案及其應(yīng)用 www.angeldealglobal.com/fymb/9662.html
    ?
    本站部分內(nèi)容和圖片來源于網(wǎng)絡(luò)用戶和讀者投稿,不確定投稿用戶享有完全著作權(quán),根據(jù)《信息網(wǎng)絡(luò)傳播權(quán)保護條例》,如果侵犯了您的權(quán)利,請聯(lián)系:chinazxzy@163.com,及時刪除。
    Go To Top 回頂部
    • 掃一掃,微信在線