Com treballar amb text net


Codificació per defecte

Els fitxers de text net, que generalment tenen l'extensió .txt, contenen exclusivament informació textual. No hi ha cap manera clarament definida d'informar l'ordinador de la llengua que contenen. A grans trets, això significa que, per defecte, l'ordinador considerarà que el fitxer és en la mateixa llengua que la utilitzada pel propi ordinador.


Text il·legible

Si l'usuari és rus, és molt probable que el seu ordinador també treballi en rus: els menús es mostren en rus, els fitxers que obre són en rus, etc. En la majoria dels casos, l'ordinador normalment realitza la decisió correcta sobre el contingut dels fitxers: tots són en rus i no en cap altra llengua que no es pugui representar amb caràcters russos.

Ara bé, si l'usuari és un traductor rus que tradueix del japonès i ha de treballar amb fitxers de text net en japonès, molt probablement l'ordinador considerarà que el contingut d'aquests fitxers és en rus. Això passa perquè el fitxer en sí no conté informació que indiqui a l'ordinador en quina llengua s'han escrit.

Per exemple, el fitxer en japonès podria contenir el text:

OmegaTとは、コンピュータを利用した翻訳ツールです。

Però l'editor de textos podria mostrar-lo així:

OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≅ВЈБB

Perquè espera que el contingut sigui en rus... Però això no és rus. Són caràcters japonesos que es mostren incorrectament com a caràcters russos.

L'OmegaT no és diferent. L'OmegaT considera que els fitxers de text net contenen text que es pot visualitzar automàticament utilitzant els valors per defecte de l'ordinador. Això funciona bé quan l'ordinador treballa en francès i l'usuari tradueix fitxers en anglès, o quan l'ordinador treballa en alemany i l'usuari tradueix fitxers en italià.


Jocs i codificacions de caràcters

Com és que funciona amb l'anglès i el francès però no amb el rus i el japonès? Perquè l'anglès i el francès comparteixen un mateix joc de caràcters. Concretament, Llatí-1, o una variació. Fins fa poc, el rus i el japonès no compartien cap joc de caràcters. Els jocs de caràcters russos més actuals no cobreixen els caràcters japonesos, i a la inversa. El resultat és el que es mostra més amunt.

El client japonès treballa amb un ordinador japonès i crea fitxers de text que contenen japonès. El joc de caràcters seleccionat per l'ordinador del client dependrà del sistema operatiu i d'altres paràmetres, però és molt poc probable que l'ordinador rus interpreti correctament el joc de caràcters escollit (japonès).

Ara bé, la manera en què la informació textual del joc de caràcters especificat es transmet físicament (és a dir, com s'escriu al fitxer per tal que l'ordinador la pugui interpretar i mostrar) depèn de la codificació. Quan l'ordinador llegeix el fitxer, "descodifica" la informació en funció de la codificació i el visualitza en funció del joc de caràcters. A grans trets, una codificació correspon a un joc de caràcters...


Solució de l'OmegaT

Bàsicament, hi ha 3 maneres d'arreglar això a l'OmegaT. Les 3 impliquen utilitzar els filtres de fitxers del menú Opcions.

  1. Especifiqueu la codificació dels fitxers de text net, és a dir, els fitxers amb l'extensió .txt.
    A l'apartat Fitxers de text del diàleg Filtres de fitxers, canvieu la Codificació del text de partida <automàtic> per la codificació que correspongui al vostre fitxer .txt de partida.
  2. Canvieu les extensions dels fitxers de partida de text net, per exemple, .txt per .jp per a fitxers de text net en japonès.
    A l'apartat Fitxers de text del diàleg Filtres de fitxers, afegiu *.jp al Patró de nom de fitxer de partida i seleccioneu els paràmetres adients per a la codificació del fitxer de partida i del fitxer traduït.
  3. Obriu el fitxer de partida en un editor de textos que n'interpreti correctament la codificació i deseu-lo amb la codificació "UTF-8".
    Canvieu l'extensió del fitxer .txt per .utf8.
    L'OmegaT interpretarà automàticament el fitxer com a un fitxer UTF-8.

Actualment, l'OmegaT està configurat per a interpretar els fitxers de text net d'aquesta manera:

Podeu comprovar-ho seleccionant Filtres de fitxers al menú Opcions.

L'OmegaT inclou aquesta llista curta per a facilitar-vos el treball amb alguns fitxers de text net.

Per exemple, si teniu un fitxer de partida en txec (molt probablement amb codificació ISO-8859-2), només us cal canviar l'extensió .txt per .txt2 i l'OmegaT n'interpretarà el contingut correctament.


Avisos legals