机器翻译
| 本条目不符合維基百科的质量标准,需要完全重寫。 |
機器翻譯(Machine Translation,經常簡寫為 MT,俗称机翻)屬於計算語言學(Computational Linguistics)的範疇,其研究藉由计算机程序將文字或演說從一種自然語言翻譯成另一種自然語言。簡單來說,機器翻譯是通过將一個自然語言的字辭取代成另一個語言的字辭。藉由使用語料庫的技術,可達成更加複雜的自動翻譯,包含可更佳的處理不同的文法結構、辭彙辨識、慣用語的對應等。
目前的機器翻譯軟體通常可允許針對特定領域或是專業(例如天氣預報)來加以客製化,目的在於將辭彙的取代縮小於該特定領域的專有名詞上,以藉此改進翻譯的結果。這樣的技術針對一些使用較正规或是較制式化陳述方式的領域來說特別有效。例如像是政府機關或是法律相關文件,這類型的文句通常皆比起一般的文句來的正式與制式化,其機器翻譯的結果往往比起像是日常生活的對話這種非正式文件要來的好。
目前的一些翻译机器,例如AltaVista Babelfish,有時可以得到可以理解的翻译结果,但是想要得到較有意義的翻譯結果,往往需要在輸入語句時適當地編輯,以利電腦程式分析。
但是,機器翻譯的結果好壞,往往取決於譯入跟譯出語之間,在詞彙、文法結構、語系甚至文化上的差異,例如英文與荷兰文同為印歐語系日耳曼語族,這兩種語言間的機器翻譯結果,通常便會比中文與英文間機器對譯的結果要好很多。
因此,要改善機器翻譯的結果,人為的介入仍顯相當重要,例如,某些機器翻譯的系統若能夠由人為的界定或選擇哪個詞語比較適合,則可大幅改進機器翻譯的正確性與品質。
一般而言,大眾使用機器翻譯的目的,可能只是為了要得知原文句子或段落的要旨,而不是精確的翻譯。總的說來,機器翻譯还没有达到可以取代专业(人工)翻译的程度,並且也尚無法成為正式的翻譯。
不過現在已有越來越多的公司,嘗試以機器翻譯的技術,來提供其公司網站多語系支援的服務。微軟公司也嘗試將其知識庫(Knowledge Database,也常見簡寫成 KB)以機器翻譯來自動翻譯成多國語言,如同前面所提到的,這種特定領域的技術文件,由於辭彙較為固定,以及文句較簡單,通常機器翻譯的效果相當不錯。
目录 |
歷史 [编辑]
機器翻譯的概念,最早可追溯到17世紀。1629年,哲學家笛卡兒提出了世界語言(universal language)概念,即不同语言的相同含义的词汇以统一符号表示。笛卡兒、以及莱布尼兹、貝克(Cave Beck)、基爾施(Athanasius Kircher)、貝希爾(Johann Joachim Becher)等人曾試圖編寫類似於統一語言的辭典。 直到近代,藉由機械的輔助,機器翻譯的可行性大為提升。20 世紀初期便有多位科學家與發明家陸續提出機器翻譯的理論與實作計畫或想法。沃伦·韦弗被誉为机器翻译的鼻祖。他抛却了俄语文本的含义,转而视为一堆“密码”。在美国和欧洲,他的团队和继任者在工作时都遵循着一个常理:“任何语言都是由一堆词汇和一套语法规则组成。只要把两种词汇放到机器里,按照人类组合这两种词汇的方式,为之建立一套完整的规则,机器就能破译“密码”。”1954年美國喬治城大學在一项實驗中,成功將約60句的俄文自动翻譯成英文,被視為機器翻譯可行的開端。自此開始的十年間,政府與企業相繼投入相當的資金,用於機器翻譯的研究上。然而,ALAPC(自動語言處理顧問委員會,Automatic Language Processing Advisory Committee)在1966年提出的一項報告中表明十年來的機器翻譯研究進度緩慢,未達預期。該項報告使得之後的研究資金大為減縮,直到近1980年代,由於電腦運算科技的進步,以及演算成本相對降低,才使政府與企業對機器翻譯再次提起興趣,特別是在統計法機器翻譯的領域上。
翻譯流程 [编辑]
從人為的翻譯來看機器翻譯,翻譯的過程可被細分如下:
- 解譯來源文字的文意
- 重新編譯此解析後所得的文意至目標語言。
在這看似簡單的步驟之後其實是複雜的認知操作。要能解譯來源文字的完整意義,一個譯者必須能夠分析與詮釋整段文章的所有特徵,必須能夠深度的了解其文法、語義、語法、成語等等,相當於了解來源語言的文化背景。譯者同時也必須兼備目標語言相同深度的知識。
於是,這對機器翻譯便是一項挑戰,即:要如何設計一個程式使其能夠如同真人一樣的「了解(認知)」一段文字,並且能夠「創造」一段好似真人實際寫作出來的目標語言的文字。
這問題有一些不同的方式可以加以解決。
方法 [编辑]
機器翻譯可以使用一種基於語言規則的语法,文字將會依語言學的方式來進行翻譯,即一個最合適的目標語言的字詞將會被用來取代來源語言的字詞。
能夠優先解決對自然語言的正確認知與辨識,被視為機器翻譯是否能夠成功的最主要關鍵。
一般而言,用規則法(rule-based method)分析一段文字,通常會先建立目標語言中介的、象徵性的表義字詞。再根據這中介的表義字詞來決定使用人工國際語言(interlingual)化的機器翻譯,或是使用轉化原則法的機器翻譯(transfer-based machine translation)。這些方法都必須擁有具備足夠形態學的、語句學的、以及語義學的資訊以及大量的字詞規則所建構的辭彙。
常見機器翻譯的難處在於無法給於適當且足夠龐大的資訊,來滿足不同領域或是不同法則的機器翻譯法。舉例來說,對於一個需要統計學法則的翻譯法,給予它大量的多語言素材是必要的,但對於文法式法則的翻譯法便顯得沒有太大意義。
規則法 [编辑]
規則法機器翻譯的範例包含了轉化法(transfer-based)、中間語法(interlingual)、以及辭典法(dictionary-based)機器翻譯 。
轉化法 [编辑]
辭典法 [编辑]
機器翻譯可利用辭典的詞彙作翻譯。因為這種翻譯是「字對字」的,所以通常各字之間在意思上都沒有任何關聯。這種機器翻譯法最適用於具有冗長的詞語列表(意即非完整的句子)。例如產品型錄的翻譯。
知識翻譯 [编辑]
範例法 [编辑]
統計法 [编辑]
统计机器翻译:是目前非限定领域机器翻译中,性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。
统计机器翻译的首要任务是为语言的产生构造某种合理的统计模型,并在此统计模型基础上,定义要估计的模型参数,并设计参数估计算法。早期的基于词的统计机器翻译采用的是噪声信道模型,采用最大似然准则进行无监督训练,而近年来常用的基于短语的统计机器翻译则采用区分性训练方法,一般来说需要参考语料进行有监督训练。貝氏模型 (Bayesian Model)也是一種機器翻譯方法。
参见 [编辑]
外部連結 [编辑]
在线翻譯網站 [编辑]
- AltaVista Babelfish
- excite中日韓文翻譯
- worldlingo線上翻譯器
- ICOOC 線上多語種翻譯
- Yahoo提供的段落翻譯
- SYSTRAN Language Translation Technology
- WorldLingo
- Google 翻译
- 有道翻译
- Jollo在线机器翻译比较
- 臺灣本土語言互譯及語音合成系統
- MTIR 英中翻譯系統
- Babylon多語言線上翻譯