Soubory obsahující prostý text - ve většině případů s koncovkou .txt
. - obsahuje výhradně textové informace. Obecně není způsob, jak informovat počítač o jazyku souboru. Jednoduše, počítač předpokládá, že text je napsán ve stejném jazyce, který počítač sám používá.
Pokud jste Rus, je velmi pravděpodobné, že váš počítač pracuje též v ruštině: menu jsou v ruštině, soubory, které otevíráte budou v ruštině atd. Ve většině případů počítač správně předpokládá s ohledem na obsah souborů zhruba toto: všechny tyto soubory obsahují ruštinu a neobsahují nic, co by ruské znaky nemohli zobrazit.
Nyní, pokud jste ruský překladatel, který překládá z japonštiny, dostanete japonské soubory, pokud jsou to soubory s prostým textem, tak budou s největší pravděpodobností počítačem považované za soubory, které obsahují ruštinu. Protože zde chybí informace v samotném souboru, která by počítači prozradila, ve kterém jazyce jsou napsané.
Obsah japonského souboru by mohl být následující:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Ale váš textový editor by to mohl klidně interpretovat následovně:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB
Protože očekává, že obsah je ruština ... Ale není to ruština. Toto jsou japonské znaky nesprávně zobrazené jako znaky ruské.
Program OmegaT není jiný. OmegaT předpokládá, že soubory s prostým textem obsahují text, který může být automaticky zobrazený pomocí výchozích nastavení počítače. Toto funguje bezchybně, když počítač pracuje ve francouzštině a když dostanete anglické soubory, nebo když počítač je německý a pokud dostanete italské soubory.
Proč by to fungovalo s angličtinou a francouzštinou, ale ne s ruštinou a japonštinou? Protože angličtina a francouzština používají společnou znakovou sadu. Jmenovitě Latin-1 nebo variaci. Ruština a japonština ještě donedávna nepoužívali žádné společné znakové sady. Většina současných ruských znakových sad nepokrývá japonštinu a opačně. Výsledek je tedy takový, jak bylo ukázáno výše.
Japonský klient pracuje s japonským počítačem a vytváří textové soubory, které obsahují japonštinu. Výběr znakové sady počítačem klienta bude záležet na operačním systému a na jiných nastaveních, ale je velmi nepravděpodobné, že vybraná (japonská) znaková sada bude správně interpretovaná ruským počítačem.
Takže způsob jak budou textové informace v zadané znakové sadě fyzicky přenesené (tj. jak je to napsáno v souboru pro počítač na interpretaci a zobrazení) záleží právě na kódování. Když počítač čte soubor, "dekóduje" informace podle kódování a zobrazí je podle znakové sady. Podtrženo sečteno, jedno kódování odpovídá jedné znakové sadě ...
V programu OmegaT jsou v podstatě k dispozici 3 způsoby jak na věc. Všechny tři způsoby zahrnují použití filtrů souborů v menu Možnosti.
.txt
..txt
..txt
na .jp
*.jp
Vzor názvu zdrojového souboru a označte příslušné parametry pro kódování zdrojového a cílového souboru..txt
na .utf8
.Současně je program OmegaT nastaven tak, aby zpracovával soubory s prostým textem následovně
.txt
jsou v OmegaT automaticky (auto) interpretované jako kódované v předvoleném kódování počítače..txt1
jsou soubory v ISO-8859-1, kryjící většinu jazyků Západní Evropy..txt2
jsou soubory v ISO-8859-2, což kryje většinu jazyků Střední a Východní Evropy)..utf8
jsou v OmegaT interpretované jako v kódování UTF-8 (kódování, které pokrývá téměř všechny jazyky světa).Můžete si to ověřit sami tak, že označíte položku Filtry souborů v menu Možnosti.
Program OmegaT uchovává krátký seznam, který vám pomůže v této věci, jak si poradit s některými soubory obsahujícími prostý text.
Například když máte soubor v češtině (velmi pravděpodobně napsaný v kódování ISO-8859-2), pak jednoduše potřebujete jen změnit koncovku .txt
na .txt2
a OmegaT bude interpretovat obsah souboru správně.