基于模板的統(tǒng)計翻譯 自然語言處理暢談之機器翻譯技術(shù)發(fā)展歷程
日期:2023-03-11 12:39:36 / 人氣: 965 / 發(fā)布者:成都翻譯公司
從基于規(guī)則的翻譯技術(shù),到基于實例、基于模板、基于翻譯記憶等翻譯技術(shù),*終發(fā)展到目前主流的統(tǒng)計機器翻譯技術(shù)。目前統(tǒng)計機器翻譯研究缺乏對語義等深層次語言學信息的有效使用,基于短語和基于句法的方法本質(zhì)上都沒有利用語義知識來進行翻譯建模。目前,各個國家、民族的不同類型信息不斷融合,不同語言之間的互譯已成為當今社會的基本需求之一。從海外旅行或物資的翻譯,到實施互聯(lián)網(wǎng)跨境電商、跨境旅游、外貿(mào)、O2O、海外租車、金融服務等國際服務,都面臨著一個無法回避的問題:多語言翻譯。如何針對互聯(lián)網(wǎng)上多語言信息的數(shù)量和動態(tài)變化實施低成本、快速的實時翻譯,從而實現(xiàn)有效的溝通?基于人工翻譯來解決這個問題是不可想象的。因為翻譯人員的人工成本越來越高,
機器翻譯技術(shù)可以自動將一種語言轉(zhuǎn)換成另一種語言,應該是解決翻譯問題的終極技術(shù)手段之一。機器翻譯研究始于1949年,當時美國洛克菲勒基金會自然科學系主任沃倫·韋弗發(fā)表了題為《翻譯》的備忘錄,翻開了歷史性的一頁。. 據(jù)統(tǒng)計基于模板的統(tǒng)計翻譯,世界上大約有6000種語言,但許多語言已經(jīng)瀕臨滅絕。利用計算機軟件實現(xiàn)不同語言之間的智能翻譯已成為人工智能領(lǐng)域的夢想。有人說機器翻譯是自然語言處理領(lǐng)域的皇冠上的明珠。
近十年來,在各國政府和行業(yè)的大力支持下,機器翻譯的研究和產(chǎn)業(yè)化取得了長足的進步。中國政府已將包括機器翻譯技術(shù)在內(nèi)的自然語言理解研究列入國家中長期科技發(fā)展規(guī)劃。. 美國政府在2009年將自動翻譯列為未來*具影響力的十大技術(shù)之一?!?049”計劃和美國國防部牽頭的BOLT項目都將機器翻譯作為現(xiàn)代信息技術(shù)的制高點。業(yè)內(nèi)谷歌、百度等互聯(lián)網(wǎng)巨頭也將其視為在線服務的重要切入點。據(jù)報道,谷歌翻譯每天服務全球超過2億用戶,每天翻譯10億次,每天翻譯處理的文本量相當于100萬本書,超過了全球?qū)I(yè)翻譯人員的翻譯量在一年以內(nèi)。文本比例。機器翻譯具有重要的理論研究和工業(yè)應用價值。
早期的研究人員將機器翻譯技術(shù)看作是一個加解密過程,以雙語詞典作為密碼本,實現(xiàn)基于雙語詞典的簡單翻譯。由于低估了自然語言自身的詞匯翻譯和結(jié)構(gòu)轉(zhuǎn)換的歧義,應用難度很大。有限的。隨著計算機軟硬件的發(fā)展和計算語言學理論和方法的成熟,機器翻譯研究不斷取得突破。從基于規(guī)則的翻譯技術(shù)到基于實例、基于模板、基于翻譯記憶庫的翻譯技術(shù),*終發(fā)展到目前主流的統(tǒng)計機器翻譯技術(shù)。
統(tǒng)計機器翻譯技術(shù)的*大優(yōu)勢在于,只需提供一定規(guī)模(如百萬甚至千萬)的雙句數(shù)據(jù)庫,翻譯系統(tǒng)3-5天即可自動學習完成系統(tǒng)搭建無需任何人工干預。另外,從翻譯性能來看,基于大規(guī)模雙語數(shù)據(jù)自動訓練和學習的統(tǒng)計機器翻譯系統(tǒng)表現(xiàn)更好。統(tǒng)計機器翻譯技術(shù)本質(zhì)上是一種數(shù)據(jù)驅(qū)動的方法。它采用機器學習的方法,從大規(guī)模的兩句對庫中自動學習和訓練翻譯模型和語言模型,基本無需人工干預;
自 80 年代后期 IBM 模型提出以來,統(tǒng)計機器翻譯技術(shù)逐漸從基于詞的方法和基于短語的方法發(fā)展為基于句法的方法。與基于詞/短語的翻譯方法不同,句法翻譯模型可以使用句法分析的結(jié)果來指導翻譯過程。理論上,因為句法樹可以更全面地表達句子的結(jié)構(gòu)信息,所以句法翻譯模型可以提供更多的語言基礎(chǔ)來輔助結(jié)構(gòu)翻譯和調(diào)整。但是,在大多數(shù)實際翻譯任務中,這種理論優(yōu)勢并沒有得到充分體現(xiàn),翻譯質(zhì)量也沒有明顯提高。相反,句法翻譯模型的復雜度和計算量呈指數(shù)級增長。相比之下,跨語言語義的差異遠小于句法的差異,即語義比句法具有更強的跨語言等價性。目前,統(tǒng)計機器翻譯研究缺乏對語義等深層語言信息的有效利用,無論是基于短語還是基于句法的方法本質(zhì)上都沒有使用語義知識進行翻譯建模。很早以前,研究人員就嘗試將語義信息引入統(tǒng)計機器翻譯中。然而,由于語義框架的不完善和語義分析系統(tǒng)的性能瓶頸,基于語義的機器翻譯面臨著巨大的挑戰(zhàn),成為當前的研究熱點。
一個統(tǒng)計機器翻譯系統(tǒng)構(gòu)建框架包括兩句自動詞對齊、翻譯規(guī)則提取、翻譯特征評分、語言模型和排序模型訓練、翻譯特征權(quán)重調(diào)整、翻譯解碼和譯后處理。機器翻譯系統(tǒng)的開發(fā)和調(diào)優(yōu)實際上非常復雜。從目前國際機器翻譯技術(shù)評估研究報告來看,通常用于增加訓練數(shù)據(jù),訓練更強大的語言模型基于模板的統(tǒng)計翻譯,擴大解碼搜索空間,使用更復雜的模型。以及提高統(tǒng)計機器翻譯系統(tǒng)性能的參數(shù)。許多相關(guān)研究成果對推動機器翻譯起到了至關(guān)重要的作用,
相關(guān)閱讀Relate
熱門文章 Recent
- 留學證件翻譯模板 英文郵件致謝的10種表達方式 回offer和套磁的趕緊Mark呀2023-03-11
- 房產(chǎn)證翻譯成英文模板 新版房產(chǎn)證翻譯2023-03-11
- 股權(quán)轉(zhuǎn)讓協(xié)議翻譯模板 合伙人限制性股權(quán)協(xié)議模板(參考版本)2023-03-11
- 英國簽證存折翻譯模板 北京領(lǐng)區(qū)英國簽證所需資料2023-03-11
- 會計職業(yè)證書翻譯模板-分析師英文翻譯模板2023-03-11
- 告知信英語帶翻譯模板 高考英語作文之2告知信的寫法2023-03-11
- 阿拉伯聯(lián)合酋長國駕照翻譯模板 正式生效!中法駕照實現(xiàn)互認2023-03-11
- 翻譯確認書模板 到貨確認書、驗收報告模板2023-03-11
- 皇家藝術(shù)學院學位證書翻譯模板 案例:皇家藝術(shù)學院MA申請成功的作品集長什么樣?2023-03-11
- 大學生英文簡歷模板翻譯 大學生英語翻譯個人簡歷模板2023-03-11