基于模板的統(tǒng)計翻譯 測繪科學雜志2020年第08期一種阿拉伯語地名的機器翻譯方法
日期:2023-03-11 12:39:36 / 人氣: 831 / 發(fā)布者:成都翻譯公司
目前阿拉伯語地名的翻譯方式主要為人工翻譯,存在效率低下、成本高、不作者簡介:任洪凱(1996-),男,山易核查錯誤等缺陷,無法滿足大規(guī)模地名數(shù)據(jù)產東德州人,碩士研究生,主要研究方品建設的需求,如何實現(xiàn)高效的阿拉伯語地名快向為地名翻譯與標準化。(地名翻譯現(xiàn)在并沒有專門歸匹配模板庫,按模板拆分句子結構,得到*優(yōu)針對“阿拉伯語”的翻譯研究。一種阿拉伯語地名的機器翻譯方法[J].機器翻譯阿拉伯地名的方法已經過驗證,這對中國地理信息資源的構建具有重要的實際意義。Kerdsplacenamesmachinetranslationpointmutualinformation; 有向無環(huán)圖;ywolexicalstructureanalis; 音節(jié)劃分;forwardmaximummatchingalrithmysgo1222RENHongkai, WANGJizhou, MAOXi, MAWeii2 (1.山東君,YINHongmefScienceandTechnology,青島,山東266590;2.ChineseAcademyofUniversityoSurveying & Mapping,Being10003,ChinaAcademyofUniversityoSurveying & ” 中國地名委員會、“一帶一路”和“走出去” 民政部地名研究所編制的戰(zhàn)略規(guī)劃全部強制翻譯地名。在字典等資料中,只有少數(shù)阿拉伯國家需要地名信息的支持。fort:;;Kerdsplacenamesmachinetranslationpointmutualinformation;directedacyclicgraph;ywolexicalstructureanalis;sylabledivision;forwardmaximummatchingalrithmysgo1222RENHongkai,WANGJizhou,MAOXi,MAOXi,MAOXi, ,ChinaName,Shandongjun266,YIN,ScienceandTechnology,China,Shandongjun266,YINmefScienceandTechnology,China,China,China,Yingo,Science andTechnology; 缺乏,也收錄在中國地名委員會編纂的《外國地名翻譯手冊》中,以及“世界的“一帶一路”
“一帶一路”沿線國家有許多標志性地名,遠不能滿足阿拉伯民族國家日益壯大的全球地理。但是,我國對阿拉伯文和中文信息資源建設的需求還遠遠沒有得到滿足。目前阿拉伯地名的翻譯方式主要是人工翻譯,效率低下,成本高,而且沒有作者簡介:任宏凱(1996-),男,單義檢查錯誤等缺陷,無法滿足要求大型地名數(shù)據(jù)制作東德州基于模板的統(tǒng)計翻譯,碩士研究生,主要研究配方構建的需求,如何實現(xiàn)阿拉伯地名對地名的高效翻譯和標準化。快速翻譯對于豐富全球地理信息資源尤為重要。郵箱:1430140448@qq。收稿日期:2019-05-10 同時,我們注意到機器翻譯的發(fā)展為高效翻譯阿拉伯地名提供了可能。機器翻譯[1]又稱自動基金項目:中國測繪研究院基礎翻譯[2],可高效翻譯自然語言(源語言)文本研究業(yè)務資助項目(AR1912)另一種自然語言(目標語言)文本,全尺寸測繪科學158自動高質量機器翻譯系統(tǒng)(FAHQMT)是人工智能的*終目標之一。機器翻譯方法包括基于詞典[3]匹配和詞典組合語言學知識規(guī)則翻譯、基于語料庫的統(tǒng)計翻譯系統(tǒng)機器翻譯,以及基于三類的機器學習[4]方法。但是,地名[6]需要遵循國家標準[8]機器翻譯系統(tǒng)[9-10]神經[5]復雜的構成,[7]專名的音譯和通名的釋義,目前第45卷1) 地名輸入。
羅馬化后輸入標準的單一阿拉伯語地名。2) 地名模板提取。根據(jù)點互信息表達,對大量地名語料進行數(shù)據(jù)挖掘,設置閾值提取常用高頻詞。在此基礎上,為每個地名建立一個有向無環(huán)圖,并提取地名模板。以音譯為主,不能滿足3)基礎名詞的結構分析。輸入的地名將發(fā)送給有特殊要求的地名翻譯。(地名翻譯目前不歸類為匹配模板庫。根據(jù)模板拆分句子結構,得到“阿拉伯語”的*佳翻譯研究。) 地理名詞的結構拆分方案。綜上所述,本文著眼于阿拉伯地名的構成特點,根據(jù)阿拉伯地名翻譯國家標準,在現(xiàn)有的[]4)專有名稱音譯14中。首先將專有名詞劃分成音節(jié),然后按照前向*大匹配算法對每個音節(jié)進行分割。在機器翻譯方法的基礎上,提出用阿漢轉寫表對阿拉伯方言進行預處理。組合匹配的機器翻譯方法一舉成名。工作,*后輸出對應的漢字翻譯結果。一、技術路線阿拉伯字母是世界上除拉丁字母外使用*廣泛的字母系統(tǒng)。它包括28個輔音,沒有元音,而是12個發(fā)音符號和輔音組合來表達發(fā)音。目前,阿拉伯語地名的翻譯有兩種方式:第一種是將原阿拉伯語直接翻譯成中文;二是在羅馬化后翻譯阿拉伯地名[11]。阿拉伯語的羅馬化是指將阿拉伯字母轉換為通用拉丁字母拼寫的過程。本文根據(jù)羅馬化后的標準阿拉伯地名進行研究。二是在羅馬化后翻譯阿拉伯地名[11]。阿拉伯語的羅馬化是指將阿拉伯字母轉換為通用拉丁字母拼寫的過程。本文根據(jù)羅馬化后的標準阿拉伯地名進行研究。二是在羅馬化后翻譯阿拉伯地名[11]。阿拉伯語的羅馬化是指將阿拉伯字母轉換為通用拉丁字母拼寫的過程。本文根據(jù)羅馬化后的標準阿拉伯地名進行研究。
阿拉伯地名的機器翻譯主要包括以下5個步驟:結果的輸出。將嵌套模板翻譯結果中的占位符分別替換為專有名詞的音譯結果,合并輸出*終的翻譯結果。2關鍵技術2.1 基于點互信息訓練提取地名模板點互信息(intwise互信息,PMI) po是指在獨立假設下,兩個隨機事件同時發(fā)生,給定聯(lián)合分布和邊際分布的概率也可以理解為隨機事件之間相互依賴程度的一種度量,它更多地關注單個概率事件而不是互信息。從表達式 (1), 互信息[15]是點互信息的期望。(x,)PMI(x,og2pyy)=lx)p(p(y)名稱輸入,地名模板[12]提取,地理名詞結構[13]解析,地名音譯,結果輸出5個步驟。整個技術過程如圖1所示。 (1)在計算語言學中,點互信息用于尋找與發(fā)現(xiàn)的詞的搭配和聯(lián)系。通常邊緣分布p(x)、p(y)和聯(lián)合分布p(x, y) 通過統(tǒng)計詞的出現(xiàn)概率和共現(xiàn)概率來近似 好的詞搭配關聯(lián) 具有很高的PMI,因為共現(xiàn)的概率只比每個詞的概率略低。相反,由于各自出現(xiàn)的概率遠高于其共現(xiàn)概率,不相關的詞對得到很小的PMI。在該方法中,考慮到常用名的特點來確定特征的類型和專名來區(qū)分相似的特征,常用名往往表示為一組固定的詞/詞搭配;專有名詞之間沒有大的相關性,基于此構造了一種基于點互信息的地名模板提取方法[16]。常用名稱通常表示為一組固定的詞/詞搭配;專有名詞之間沒有大的相關性,基于此構造了一種基于點互信息的地名模板提取方法[16]。常用名稱通常表示為一組固定的詞/詞搭配;專有名詞之間沒有大的相關性,基于此構造了一種基于點互信息的地名模板提取方法[16]。
分析阿拉伯地名的構詞成分,將專有地名與地名常用詞/短語的自由組合表達為地名的*終表達形式。映射關系f如下: 圖1 阿拉伯地名機器翻譯技術流程圖(x(S,W)→y2) 其中:S代表地名專有名稱;W包含地名總稱,介詞, Fi1TechnicalFlowChartofMachineg. 連詞, 形容詞和量詞. 單個地名模板使用自定義 TranslationofArabicPlaceNames 意思是占位符 ([X], [Y], [Z], [M], [N]) 而不是專有名稱引用格式:任宏凱, 王繼洲, 毛曦, 等. 阿拉伯地名機器翻譯方法[J]. 測繪科學, 8期1592020, 45 (8): 157-163.S, 結合常用詞/短語W,地名結構抽象表達的一般表達。具體算法如下:首先遍歷所有地名語料庫,根據(jù)每個模板的翻譯結果統(tǒng)計每個地名中的詞對(Countab)和單個詞(Counta),結合嵌套依次實現(xiàn)翻譯。匹配地名“Qa爧ralSharī Sayyid”的模板后,得到三種分裂方案,如圖3所示,分別計算次數(shù),單個詞或詞對出現(xiàn)多次的概率較高。設置閾值e1,過濾集合H中的詞對Pab>e1。 PaP(3)PaPb根據(jù)點互信息公式(3),
然后遍歷每個地名,選擇當前地名的所有有序詞對匹配H,如果匹配成功(a,b)∈H,則在詞對之間加一條有向邊,否則不處理,遍歷完成找到有向圖的所有邊。*后根據(jù)有向圖的每條路徑生成一個地名模板,統(tǒng)計所有模板出現(xiàn)的頻率并計算其出現(xiàn)頻率,并根據(jù)目標模板的個數(shù)設置閾值進行過濾提?。▓D) 2). 圖3 地理名詞方法結構分析 Fi3LexicalStructureAnalsisoftheGeoraphicalNameg.yg , Qa) 1) 方案A:由2個模板(alSharī[X]爧r[X]q和1個單詞(Sayyid)組成,模板的對數(shù)頻率為 -9. 64438、-< @6.08402。詞頻對數(shù)人為給定一個先驗值,本文為-12.03846(即假設詞頻為0.5計算的對數(shù)頻率)。該方案的對數(shù)頻率之和為:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 圖2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意圖2)方案B:由2個模板([X]al[Y]arī[ X]q和2個單獨的詞(Qa爧r,Sayyid),模板的對數(shù)頻率為-5.40328、-7. 42381。本文為-12.03846(即假設單個詞出現(xiàn)的頻率為0.5計算出的對數(shù)頻率)。該方案的對數(shù)頻率之和為:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 圖2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意圖2)方案B:由2個模板([X]al[Y]arī[ X]q和2個單獨的詞(Qa爧r,Sayyid),模板的對數(shù)頻率為-5.40328、-7. 42381。本文為-12.03846(即假設單個詞出現(xiàn)的頻率為0.5計算出的對數(shù)頻率)。該方案的對數(shù)頻率之和為:-9.64438+(-<@6.08402)+(-12. 03846)=-2 7.76686 圖2 Fi2TemplateExtractionDiaramg.g for 阿拉伯地名"alGharbīZawā`idahazaw", Sh)模板提取示意圖2)方案B:由2個模板([X]al[Y]arī[ X]q和2個單獨的詞(Qa爧r,Sayyid),模板的對數(shù)頻率為-5.40328、-7. 42381。
這是*終的語法規(guī)則,并分析符合規(guī)則結構的語法。在阿拉伯語地名翻譯中,我們將語法規(guī)則[19]設置為單一地名名詞結構。專名Sayyid音譯,模板嵌套組合翻譯流程如下圖。*終的結果是“Eastern Sayyid can be translate by 多個地名通用名稱模板嵌套并與占位符組合([X]或宮殿”。[Y])。這些模板是相互獨立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宮。2)alSharī[Sayyid]宮→東[Sayyid]q無間隔重復,完全拆分地名結構,*終得到地名結構樹。并分析符合規(guī)則結構的語法。在阿拉伯語地名翻譯中,我們將語法規(guī)則[19]設置為單一地名名詞結構。專名Sayyid音譯,模板嵌套組合翻譯流程如下圖。*終的結果是“Eastern Sayyid can be translate by 多個地名通用名稱模板嵌套并與占位符組合([X]或宮殿”。[Y])。這些模板是相互獨立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宮。2)alSharī[Sayyid]宮→東[Sayyid]q無間隔重復,完全拆分地名結構,*終得到地名結構樹。并分析符合規(guī)則結構的語法。在阿拉伯語地名翻譯中,我們將語法規(guī)則[19]設置為單一地名名詞結構。專名Sayyid音譯,模板嵌套組合翻譯流程如下圖。*終的結果是“Eastern Sayyid can be translate by 多個地名通用名稱模板嵌套并與占位符組合([X]或宮殿”。[Y])。這些模板是相互獨立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宮。2)alSharī[Sayyid]宮→東[Sayyid]q無間隔重復,完全拆分地名結構,*終得到地名結構樹。專名Sayyid音譯,模板嵌套組合翻譯流程如下圖。*終的結果是“Eastern Sayyid can be translate by 多個地名通用名稱模板嵌套并與占位符組合([X]或宮殿”。[Y])。這些模板是相互獨立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宮。2)alSharī[Sayyid]宮→東[Sayyid]q無間隔重復,完全拆分地名結構,*終得到地名結構樹。專名Sayyid音譯,模板嵌套組合翻譯流程如下圖。*終的結果是“Eastern Sayyid can be translate by 多個地名通用名稱模板嵌套并與占位符組合([X]或宮殿”。[Y])。這些模板是相互獨立的,不是1)Qa爧r[alSharī[Sayyid]]→alSharīqq[Sayyid]宮。2)alSharī[Sayyid]宮→東[Sayyid]q無間隔重復,完全拆分地名結構,*終得到地名結構樹。
具體算法如下: 1) 對得到的地名模板進行預處理,存儲在Trie樹(前綴樹)數(shù)據(jù)結構中,以提高遍歷速度。宮。3)東[賽義德]宮→東賽義德宮。2.3 基于音譯規(guī)則的正確阿拉伯語地名音譯2) 遞歸匹配每個要翻譯的阿拉伯語地名的前綴樹模板模板組合方案保證了《翻譯指南》的相關規(guī)定和外文漢字書寫阿拉伯文地名”完全分開基于模板的統(tǒng)計翻譯,地名分開。分析阿拉伯語的基本語音特征和音譯規(guī)則后,計算地名3)的對數(shù)頻率 根據(jù)每個方案中每個模板出現(xiàn)的頻率并求和,選擇概率*高的方案作為*優(yōu)解。將專有名詞詞分為音節(jié),根據(jù)阿漢音譯對照表中前向*大匹配音節(jié)實現(xiàn)音譯。音譯的技術路線如圖4所示。 測繪學160卷451) 遍歷整個字母序列,找到元音音素的位置。2) 從每個位置開始向左遍歷,定位輔音音素。①輔音數(shù)為1時,音節(jié)直接組合。②如果輔音數(shù)為2,則實現(xiàn)音節(jié)分割,將當前左輔音繪制到音譯技術路線圖的左音節(jié)4部分,將右輔音繪制到右音節(jié)。Fi4TransliterationTechnoloadmapg.gyRo3)從右向左依次遍歷得到所有音節(jié)劃分結果。2.3.1 音譯表預處理在阿漢音譯表中,橫行表頭為輔音,豎行表頭為元音和羅馬化元音,每行和每列的交叉位置為元音和輔音組合對應的漢字[20]。
2.3.3 前向*大匹配音譯前向*大匹配算法的基本思想是從左到右選擇要切分的整個文本或子串與詞庫匹配成為輔音元素。靜音時,羅馬化音譯功能會拆分當前字符串;如果失敗,則刪除一個字符,繼續(xù)后只有一個輔音。在音譯過程中,將匹配第一行元音,直到剩下*后一個字符。停止匹配。媽媽對應漢字的翻譯。使用*大匹配計算對分詞音節(jié)一一進行預處理的過程如下: 法語音譯(圖5):1) 一、豎元音橫輔音轉寫表1)從左到右依次選擇音節(jié)。假設當前音節(jié)長度為n,則將元音和輔音組合后的組合一一匹配并輸入到excel文件中,然后根據(jù)行列對應輸入對應的漢字,生成3個表文件。@2)讀取電腦中表格的內容,先雙遍歷元素和輔音文件,結合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入對應的map對象中java內存保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 從左到右依次選擇音節(jié)。假設當前音節(jié)長度為n,則將元音和輔音組合后的組合一一匹配并輸入到excel文件中,然后根據(jù)行列對應輸入對應的漢字,生成3個表文件。@2)讀取電腦中表格的內容,先雙遍歷元素和輔音文件,結合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入對應的map對象中java內存保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 從左到右依次選擇音節(jié)。假設當前音節(jié)長度為n,則將元音和輔音組合后的組合一一匹配并輸入到excel文件中,然后根據(jù)行列對應輸入對應的漢字,生成3個表文件。@2)讀取電腦中表格的內容,先雙遍歷元素和輔音文件,結合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入對應的map對象中java內存保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 然后將組合的元音和輔音組合一一匹配,將母輸入到excel文件中,然后根據(jù)行列對應關系輸入對應的漢字,生成3個表文件。@2)讀取電腦中表格的內容,先雙遍歷元素和輔音文件,結合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入對應的map對象中java內存保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 然后將組合的元音和輔音組合一一匹配,將母輸入到excel文件中,然后根據(jù)行列對應關系輸入對應的漢字,生成3個表文件。@2)讀取電腦中表格的內容,先雙遍歷元素和輔音文件,結合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入對應的map對象中java內存保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 讀取電腦中表格的內容,先雙遍歷元素和輔音文件,組合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入java內存的map對象中,以保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身 讀取電腦中表格的內容,先雙遍歷元素和輔音文件,組合生成音節(jié),然后讀取漢字文件得到對應的漢字,存入java內存的map對象中,以保證一一對應。2.3.2個音節(jié)劃分阿拉伯字母系統(tǒng)本身
相關閱讀Relate
熱門文章 Recent
- 翻譯模板愛爾蘭簽證 愛爾蘭留學簽證攻略2023-03-11
- 感謝信父母英語范文加翻譯模板 英語作文感謝信加翻譯2023-03-11
- 銀行帳單翻譯模板 中國銀行存款證明翻譯樣板2023-03-11
- 病情證明書翻譯模板 職場病假條醫(yī)生證明書書寫樣本2023-03-11
- 浙江省高考成績單翻譯模板下載 高考很簡單高考文科狀元學習方法解密2023-03-11
- 廣東高中畢業(yè)證書翻譯模板 廣東省江門市第一中學2016年高中畢業(yè)證樣板圖2023-03-11
- 翻譯詞條模板 【自制】翻譯碩士英漢互譯詞條互譯詞典2023-03-11
- 英語求職信格式模板加翻譯 英語求職信翻譯2023-03-11
- 醫(yī)院診斷書翻譯模板 診斷證明書翻譯2023-03-11
- 機械英文期刊帶翻譯模板2023-03-11