翻译记忆

本页使用了标题或全文手工转换
维基百科,自由的百科全书

翻译记忆(英语:Translation Memory,缩写为TM),又称翻译存储器翻译记忆库,是计算机程序软件的数据库,用来辅助人工翻译

有时,使用翻译记忆库的软件也常被称为 TMM (Translation Memory Managers)或者译者的工作台(translator's Workstation)。

翻译记忆库多见于电脑辅助翻译工具、文字编辑程序、专用术语管理系统(Terminology Management Systems)、多语辞典、甚至是纯机器翻译的输出之中。

一个翻译记忆单元包含了源语言的一个句段(segment)以及其所对应的翻译。这些句段可以是文字区块、章节、一个或是数个句子、或是词语。个别的字词常被视为专用术语来处理,一般而言不在翻译记忆的领域之中(即使翻译记忆库依旧可以包含单一字词为其翻译记忆单元)。

研究显示,市场上已有很多公司,使用了翻译记忆库的技术,来辅助建立多语言文件。

使用翻译记忆库[编辑]

译者首先提供一段来源文字(亦即要拿来被翻译的文字)给翻译记忆库,程序会先分析这段文字,试着在数据库里找寻既有的翻译区段是否与过去曾经翻译过的文字相符。如果找到相符的旧有翻译(legacy translation pairs),则会呈现出来给译者检阅。译者可以选择接受旧有的翻译、拒绝、或是加以修改。若加以修改,则修改的版本也会被记录并存进数据库里。

某些翻译记忆库系统只会搜索 100% 相符的文字,也就是说:只会将新的来源文字与数据库内做精确的比对,只有完全相符的资料才会被提出。也有其他的系统会使用模糊比对原理来找寻相似的区段,并且会用特别的标记呈现给译者使其易于辨认。有一点很重要的是一般的翻译记忆系统只会从其数据库里搜索来源语言。

完全无相似(no match)的文字区段将必须由译者手动的翻译。这些新翻译的文字区段会被存进数据库里,则未来的翻译将有可能因为来源文字重复出现而可以马上被采用。

翻译记忆库在文章字词重复相当高的情况之下将可运作的相当好,例如一些技术文件或是手册。翻译记忆库对于翻译一个从过去既有文件逐步增修的状况来说也很有帮助。一般而言,翻译记忆库在文学或是创意文件里不会被考虑采用,主要是因为这些类型的文章其重复性相当低。然而,也有人认为这些重复性极低的文字仍就值得加以搜集,例如在用语索引(concordance)的搜索时便可派上用场。其他搜集翻译记忆库的帮助也可在质量验证校阅时有所帮助(利用翻译记忆库,可以很简单的将来源语言与目标语言导出,使其每行一对,并且以 tab 分隔来源与目标,便于确认有无未翻文字,或是使译者便于校阅)。

当翻译记忆库被持续的使用在适当的文字上一段时间之后,其将可为译者省下不少的工作量。

主要的优势[编辑]

翻译记忆针对技术文件或是具有特定辞汇的文章来说是最合适的。其优势包含:

  • 确保文件完整的被翻译(翻译记忆不接受记忆区段里的目标语言无资料)
  • 确保翻译文件的一致性,包含通用定义、语法或措词、以及专用术语。这针对多个译者同时在翻译一个项目或文件时相当重要。
  • 使译者不须自行处理众多不同文件格式的文件,仅需面对翻译记忆库软件提供的界面或是单一的文件格式便可进行翻译。
  • 加速整体翻译的速度,即翻译记忆库已“记忆”先前已翻译过的素材,译者针对重复的文字仅需翻译一次。
  • 降低长时间的翻译项目的开销;以使用手册为例,警告消息这类大量重复的文字仅需被翻译一次,便重复被使用。
  • 针对大型文件的项目而言,即使在首次翻译时翻译记忆库的使用效益并不明显,但当进行该项目的派生项目(例如文件的修订版)时,翻译记忆库的使用便可大幅节省翻译的时间与金钱。

主要的障碍[编辑]

使用翻译记忆所面临主要的困难与缺点包含如下:

  • “翻译记忆”的概念是基于:文句过去的翻译可以被“回收再利用”。然而,翻译的其中一个原则是,译者必须翻译文字所要表达的消息(即意译),而不是翻译片段的句子。(常见翻译记忆的使用皆是以一句作为一个翻译单元(Translation Unit)或翻译区间(Translation Segment),使得翻译具有前后文关系的文件时容易变成是单独翻译多个句子后再加以组合)。
  • 翻译记忆软件并不是很容易的可以套用至既有的翻译或是本土化(Localization)的流程之中。为了要使翻译记忆的使用能够有更大的效益,翻译流程必须被重新规划。
  • 翻译记忆软件并不支持所有的文件格式,可用的文件过滤器不见得支持所有的文件类型。
  • 使用翻译记忆软件有其学习曲线必须克服,此外,软件本身尚须被定制以发挥最大效益。
  • 若部分的翻译流程,被外包给不在公司的自由翻译家(Freelance Translator),这些译者必须拥有特定的软件,可以开启由翻译记忆软件所产生的文件格式,才能进行翻译。
  • 一些具备完整功能的翻译记忆软件往往每一个授权要价 500-2,500 美元 (以现今汇率计算约为新台币一万五~九万之间),可视为一项值得考虑的投资。然而,有些程序开发者也制作免费或相当低价的所谓的译者版给单一的译者,使其可以开启由完整版所建立的文件以进行翻译。(市面上依旧有一些免费软件共享软件提供了 TM 的功能,但目前皆未获取较大的市场占有率。)
  • 要将用户过去的翻译导入翻译记忆库里,以及相关的教育训练等所带来的开销,也变成一种值得考虑的投资。
  • 维护翻译记忆库,在多数的例子里,仍旧需要不少人工的步骤,而不当的维护将导致 TM 相符度的显著降低,其可用性与质量也相对受到影响。
  • 如同前述,翻译记忆软件不见得适用于字词或文句很少有重复的文件类型,或是在历次修订版中不会包含部分更新的状况。技术文件通常最适合使用翻译记忆,然而市场营销或是创意文句并不适合。
  • 翻译记忆库里所存储的记录并不保证正确;如果某一特定区段的翻译并不正确,则这不正确的翻译将会在下一次相同或近似的来源文字里再次被回收使用,这导致问题将会持续存在。

翻译记忆库(软件)的功能[编辑]

离线功能[编辑]

导入[编辑]

这功能是用来将外部的文字与翻译从文字档传输到翻译记忆库里。导入功能的来源文件可以是原生文件,也可以是其他业界标准的翻译记忆文件。有时有些翻译记忆库是以其他形式存储,则必须透过一些格式转换才能进行导入。

分析[编辑]

分析的过程可以再细分为下面几项:

文句分析(Textual parsing)
识别文句的标点符号相当重要,例如必须要能正确的辨认文句结尾的句点与缩写的句点,正确的判定文句结尾的位置。其他应视为文句段落的标点符号或是标记也必须尽量的被识别出来,例如在多数的状况之下问号、惊叹号等也是文句结尾的判定之一,很多状况之下像是冒号、换行符号等也会被作为文句段落的识别标记。在译者正式开始翻译之前通常都要先对文句进行标记,该动作是将不须被翻译的符号或是段落给予特定标记,将必须被翻译的文句给予另一种标记。
句法分析(Linguistic parsing)
句法分析旨在减少文句中基本形态字词的数量,做法是从文章中萃取出专用术语、词组等。
区段化(Segmentation)
其目的是找出最有用的翻译单元(Translation Unit)。区段化有点类似文句分析,他是在单一语言下进行,并使用可定义的规则来进行表面的分析,例如可定义哪些特定类型的符号或是标记应被纳入翻译单元里,哪些符号应被视为结束一个翻译单元的点。举例来说,一个冒号的前后文可以视为一个完整的段落(翻译单元),但在一些状况下冒号前后也会被拆解为两个翻译单元。假设译者手动改变了翻译单元,例如合并了某两个翻译单元为一个,或是将一个翻译单元拆解为两个或多个,则下一次的文件版本更新将会丧失这个翻译单元的相符性,因为下一版本仍就会以既定的规则来对文件进行区段化。
平行对齐(Alignment)
这是将来源语言与目标语言文字平行对应对齐的工作。区段化的标准将会影响平行对齐的效果,通常也得仰赖好的平行对齐算法来校正区段化的错误。
专用术语抽出
前一版本的词语辞典可被拿来使用,或是再行针对既有的文件抽取未知的术语。通常可以借由文字分析的统计来抽出这些词语,例如从文字的重复性来加以分析。

导出[编辑]

在线功能[编辑]

萃取[编辑]

更新[编辑]

自动翻译[编辑]

共同作业[编辑]

文字记忆[编辑]

“文字记忆”(Text Memory)是基于LISA OSCAR xml:tm 标准页面存档备份,存于互联网档案馆)而定义的。文件记忆包含了作者(译者)的记忆与翻译记忆。

作者(译者)记忆[编辑]

在创作(翻译)的过程中,每一个文字单元都会被赋予一个唯一的识别码。文字单元是构成文句的一个子集。

翻译记忆[编辑]

在翻译过程中,唯一个识别码会被记忆下来,如此则目标语言的文件皆会被一一的对应到每一个文字单元的层级。如果来源文件随后被更改而异动,则文件里没有异动的文字单元将可直接的被转一到新的目标语言版本而不须译者而额外的检阅、翻译等交互。这是翻译记忆里的“精确”(exact)或是“完美”(perfect)相符的概念。“xml:tm”也提供了文件内对应导入与模糊比对的机制。

翻译记忆相关标准[编辑]

TMX[编辑]

Translation Memory Exchange format(翻译记忆交换格式),TMX标准实现不同翻译软件供应商之间翻译记忆库的互换,为翻译社群所采纳的导入导出翻译记忆的最佳办法。目前最新的版本是1.4b,允许从TMX资料重建来源文件和目标文件。

TBX[编辑]

Termbase Exchange format(Termbase交换格式),该标准允许含有详细词汇信息的术语资料作互换。TBX的数据结构架构由ISO 12620、ISO 12200、以及ISO Committee Draft 16642(别名TMF,Terminological Markup Framework)所提供。ISO 12620 提供完整定义的“资料类别”清单,其中包含可做为项目类型或预定值的标准化名称。ISO 12200 (亦称为MARTIF) 提供TBX核心结构的基础。

SRX[编辑]

Segmentation Rules Exchange format(分段规则交换格式)。SRX的目的是加强TMX标准,以便可以更有效率地使用在应用程序之间交换的翻译记忆资料。

GMX[编辑]

GILT Metrics. GILT stands for 全球化(Globalization)、国际化(Internationalization)、本地化(Localization)与翻译(Translation)。

OLIF[编辑]

Open Lexicon Interchange Format页面存档备份,存于互联网档案馆).

XLIFF[编辑]

XML Localisation Interchange File Format页面存档备份,存于互联网档案馆)(XML本地化交换文件格式)。其目的是提供所有当地语系化提供者都能了解的单一文件交换格式。XLIFF是业界使用XML格式来交换资料时的惯用方式。

TransWS[编辑]

Translation Web Services页面存档备份,存于互联网档案馆)(翻译在线服务).

xml:tm[编辑]

xml:tm

参见[编辑]

桌上翻译记忆软件[编辑]

一般译者通常使用桌上翻译记忆工具来完成翻译工作。桌上翻译记忆工具是适用于翻译用途的工具,就如同文字处理程序是适用于写作的工具。

自由且开放源代码的软件(FOSS)[编辑]

  • OmegaT,跨平台的电脑辅助翻译工具。没有语言限制(来源和目标)。直接支持MS Office 2007格式、OpenOffice.org格式、OpenDocument Format(ODF)、DocBook XML、(X)HTML、HTML Help Compiler files(HTML帮助编译文件)、纯文字文件、java .properties、PO。授权形式:GPL。需求环境:Java JRE
  • Open Language Tools,跨平台的电脑辅助翻译工具,没有语言限制(来源和目标)。以自有格式(compressed XLIFF 1.0)运作,提供多种格式相互转换:HTML、DocBook SGML、JSP、XML(需要配置文件)、OpenOffice.org 格式、Open Document Format、纯文字、PO、java .properties、Java RessourceBundle、Mozilla .DTD 资源档、授权形式:CDDL。需求环境:Java JRE
  • Transolution页面存档备份,存于互联网档案馆),跨平台的电脑辅助翻译工具。没有语言限制(来源和目标)。支持XLIFF文件,授权形式:GPL。需求环境:Python

专属但是免费的软件[编辑]

  • Appletrans页面存档备份,存于互联网档案馆), Mac OSX computer aided translation tool. No language limitations (source and target). Supports RTF, HTML, XML. No access to source.
  • MemoQ 4Free, Windows computer aided translation tool. Some languages not supported in source (including Japanese, Chinese, Korean). Supports MS formats (.doc, .xls, .ppt, .rtf), HTML, plain text, TTX, Framemaker .mif files. Free of charge version available, no access to source. Requires .NET 2.0
  • Wordfast Anywhere页面存档备份,存于互联网档案馆)- 是Wordfast的云端版本的翻译记忆的软件。支持多种格式文件(包括PDF),可以免费注册使用。

专属且要付费的软件[编辑]

集中式翻译记忆[编辑]

集中式翻译记忆系统将TM存储于中央服务器。

自由软件[编辑]


非免费软件[编辑]

外部资料[编辑]