处理纯文本

内容

OmegaT中的纯文本文件

纯文本文件只包含文本信息。纯文本文件无法让计算机知道它使用了何种语言。大概上说来,这意味着计算机缺省地认为其中的内容和计算机自身使用的语种相同。

在大多数情况下,纯文本文件以.txt作为文件名的结尾。

混乱的显示?

如果你是俄罗斯人,非常有可能你的计算机也使用俄文工作,菜单是俄文的,你打开的文件也是俄文的等等。在多数情况下,计算机通常使用对文件的内容作出正确的假设:只包括俄文而且俄文字符都能够显示所有内容。

现在,如果你是一位俄国翻译要翻译日文,你将会获得日文文件,如果它们是纯文本 文件,计算机将会认为它们只包含俄文。因为在文件中没有任何信息向计算机指出该文件是用何种语言书写的。

日文文件内容可能是:

   OmegaTとは、コンピュータを利用した翻訳ツールです。

但你的文本不久前可能会很好地以下列方式显示它们:

   OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB

因为它假定文件内容是俄文的……但这确实不是俄文。日文字符被错误地当作了俄文显示。

OmegaT 也不例外。OmegaT 认为 纯文本 文件包含的文本可以使用计算机缺省设置自动显示。这种方式在你的计算机在法语环境工作而你翻译英文文件,或者你的计算机在德语环境工作而你得到意大利语文件时是运行得很好。

字符集和编码

为什么OmegaT在英语和法语环境下工作情况正常而在俄语和日语下就不行呢?因为英语和法语共享同一个标准字符集。也就是Latin-1,或者它的变体。

直到最近,俄语和日语还没有共同的字符集。当前绝大多数俄语字符集和日语字符集互不覆盖。结果就是上面所显示的那样。

日本客户使用日语计算机,并创建包含日语的文本文件。而客户计算机所选择的字符集取决于操作系统或其他的设置,但所选的日语字符集不太可能被俄语计算机正确识别。

目前,指定字符集的文本信息的物理传输(如何 写入 文件让计算机来识别和显示)取决于 编码。当计算机读入文件时,它根据编码方式对信息进行“译码”,并采用字符集显示。总体上来说,一种编码往往对应一种字符集……

OmegaT 解决方案

OmegaT采用3种方法来解决这个问题。

  1. 极端方法:
  2. 可选方法:
  3. "Unicode" 方法:

当前,OmegaT以下列方式来识别纯文本文件:(你可以通过选择菜单选项中的文件过滤器自己检查一下点击 文本文件 列然后点击 编辑 按钮)

当然,.txt1, .txt2.utf8 文件扩展名在现实应用中并不存在。OmegaT 只为你们准备了一个简短的列表,来帮助你们更轻松地处理一些外国文件。

因此,如果你手头有一个法语文件(如:in_french.txt)要在一台日语计算机上翻译,因为它很可能被创建为ISO-8859-1 编码文件,你知道只需要在文件名的尾部加上一个 1 变成 (in_french.txt1),OmegaT就能正确地识别出它的内容是以 ISO-8859-1编码的……Et voilà!


法律注意事项