Com treballar amb text net

Contingut

Text net en l'OmegaT

Els fitxers de text net contenen exclusivament informació textual. Els fitxers de text net no tenen cap manera clarament definida d'informar l'ordinador de la llengua que contenen. A grans trets, això significa que, per defecte, l'ordinador considera que el contingut del fitxer és en la mateixa llengua que el propi ordinador.

En molts casos, un fitxer de text net té l'extensió .txt.

Text il·legible?

Si l'usuari és rus, és molt probable que el seu ordinador també treballi en rus: els menús es mostren en rus, els fitxers que obre són en rus, etc. En la majoria dels casos, l'ordinador normalment realitza la decisió correcta sobre el contingut dels fitxers: tots són en rus i no en cap altra llengua que no es pugui representar amb caràcters russos.

Ara bé, si l'usuari és un traductor rus que tradueix del japonès i ha de treballar amb fitxers de text net en japonès, molt probablement l'ordinador considerarà que el contingut d'aquests fitxers és en rus. Això passa perquè el fitxer en sí no conté informació que indiqui a l'ordinador en quina llengua s'han escrit.

Per exemple, el fitxer en japonès podria contenir el text:

   OmegaTとは、コンピュータを利用した翻訳ツールです。

Però l'editor de textos podria mostrar-lo així:

   OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB

Perquè espera que el contingut sigui en rus... Però això no és rus. Són caràcters japonesos que es mostren incorrectament com a caràcters russos.

L'OmegaT no és diferent. L'OmegaT considera que els fitxers de text net contenen text que es pot visualitzar automàticament utilitzant els valors per defecte de l'ordinador. Això funciona bé quan l'ordinador treballa en francès i l'usuari tradueix fitxers en anglès, o quan l'ordinador treballa en alemany i l'usuari tradueix fitxers en italià.

Conjunts i codificacions de caràcters

Com és que funciona amb l'anglès i el francès però no amb el rus i el japonès? Perquè l'anglès i el francès comparteixen un mateix conjunt de caràcters. Concretament, Llatí-1, o una variació.

Fins fa poc, el rus i el japonès no compartien cap conjunt de caràcters. Els conjunts de caràcters russos més actuals no cobreixen els caràcters japonesos, i a la inversa. El resultat és el que es mostra més amunt.

El client japonès treballa amb un ordinador japonès i crea fitxers de text que contenen japonès. El conjunt de caràcters seleccionat per l'ordinador del client dependrà del sistema operatiu i d'altres paràmetres, però és molt poc probable que l'ordinador rus interpreti correctament el conjunt de caràcters (japonès).

Ara bé, la manera en què la informació textual del conjunt de caràcters especificat es transmet físicament (és a dir, com s'escriu al fitxer per tal que l'ordinador la pugui interpretar i mostrar) depèn de la codificació. Quan l'ordinador llegeix el fitxer, "descodifica" la informació en funció de la codificació i el visualitza en funció del conjunt de caràcters. A grans trets, una codificació correspon a un conjunt de caràcters...

Solució de l'OmegaT

Bàsicament, hi ha 3 maneres d'arreglar això a l'OmegaT.

  1. La manera dràstica:
  2. La manera selectiva:
  3. La manera "Unicode":

Actualment, l'OmegaT està configurat per a interpretar els fitxers de text net d'aquesta manera: (podeu comprovar-ho seleccionant Filtres de fitxers al menú Opcions. Feu clic a la fila Fitxers de text i, a continuació, al botó Edita.)

Òbviament, les extensions de fitxer .txt1, .txt2 i .utf8 no existeixen a la vida real. No obstant, l'OmegaT us ha preparat una llista curta que us facilitarà el treball amb fitxers forans.

Per tant, ara si us cal traduir un fitxer en francès (per exemple, en_francès.txt, que segurament s'haurà creat amb codificació ISO-8859-1) en un ordinador japonès, només cal que afegiu un 1 al final de l'extensió (en_francès.txt1) i l'OmegaT n'interpretarà correctament el contingut amb codificació ISO-8859-1... Et voilà!


Avisos legals