Lavorazione di file di solo testo

Sommario

File di solo testo in OmegaT

I file di solo testo contengono solo informazioni di tipo testuale. I file di solo testo non prevedono un sistema chiaramente definito per indicare al computer in quale lingua sono stati scritti. Da un punto di vista molto generale, ciò significa che il computer considererà per default che il contenuto del file sia nello stesso linguaggio adottato dal computer stesso.

Un file di solo testo è, nella maggior parte dei casi, un file al quale viene associata l'estensione .txt.

Caratteri strani?

Se si è russi, molto probabilmente il computer sul quale si opera lavorerà anch'esso in lingua russa: i menu saranno in russo, i file che si apriranno saranno in russo, e così via. Nella maggior parte dei casi, il computer prende le decisioni corrette per quanto riguarda il contenuto dei file, almeno in linea generale: contiene la lingua russa e sarà in grado di visualizzare solo i caratteri russi.

A questo punto, se si è un traduttore russo che traduce dal giapponese, i file giapponesi che riceverete, se sono in formato solo testo, verranno, con tutta probabilità, considerati dal computer come file associati alla lingua russa. E questo accade proprio perché i file di solo testo non contengono informazioni che indichino al computer in quale lingua sono stati scritti.

Supponiamo che il contenuto giapponese del file sia:

   OmegaTとは、コンピュータを利用した翻訳ツールです。

Ma che il vostro editor di testo lo visualizzi in questo modo:

   OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB

Questo accade perché il computer si aspetta che il contenuto del file sia in russo... Ma questo non è russo! Questo non è altro che una riproduzione dei caratteri giapponesi visualizzati, in modo non corretto, con caratteri cirillici.

OmegaT non si comporta diversamente. OmegaT presume che i file di solo testo contengano un testo che possa venire automaticamente visualizzato utilizzando le impostazioni di default del computer sul quale si sta lavorando. Questo non genera problemi, fintanto che il computer lavora in francese e si aprono file in Inglese, o quando il computer è tedesco e si aprono file in italiano.

Set di caratteri e codifiche

Ma perché tutto funziona bene quando si parla dell'inglese e del francese ma non è lo stesso quando si parla del russo e del giapponese? La ragione sta nel fatto che l'inglese e il francese condividono lo stesso set di caratteri. In particolare, il set Latin-1, o una sua variante.

Fino a poco tempo fa, il russo e il giapponese non condividevano alcun set di caratteri. La maggior parte dei comuni set di caratteri russi non riconoscono il giapponese, e viceversa. Il risultato finale è quello più sopra esemplificato.

Il cliente giapponese lavora con un computer giapponese, e crea i propri file di solo testo che contengono il set di caratteri giapponese. Il set di caratteri selezionato dal computer del cliente dipenderà dal sistema operativo e da altre impostazioni, ma sarà molto improbabile che il set di caratteri selezionato (giapponese) venga correttamente interpretato dal computer russo.

Ora, il modo nel quale vengano fisicamente trasmesse le informazioni testuali nel set di caratteri specificato (ovvero, come vengono scritti nel file in modo che il computer possa interpretarli e visualizzarli) dipende da una codifica. Quando il computer legge il file, ne “decodifica” le informazioni in base alla propria codifica e li visualizza in base al proprio set di caratteri. Banalmente parlando, si potrebbe affermare che una codifica corrisponda a un particolare set di caratteri...

La soluzione OmegaT

Sostanzialmente, OmegaT ha a disposizione 3 modi per risolvere il problema.

  1. Quello più drastico è:
  2. Un sistema più selettivo è:
  3. Il sistema “Unicode”:

Attualmente, OmegaT è impostato per riconoscere i file di solo testo in questo modo: (si potrà verificarlo di persona selezionando il comando Filtri dei file del menu Opzioni. Fare clic sulla riga File di testo e, quindi, sul pulsante Modifica).

Naturalmente, le estensioni .txt1, .txt2, e .utf8 non esistono nella vita reale. OmegaT non ha fatto altro che inserire un breve elenco che vi faciliterà la gestione di alcuni file stranieri.

A questo punto, quando si riceverà un file francese (in_french.txt, per esempio) da tradurre su un computer giapponese, poiché con molta probabilità il file francese sarà stato creato con codifica ISO-8859-1, si saprà che con la semplice aggiunta di un 1 all'estensione del file (in_french.txt1) OmegaT sarà in grado di interpretarne correttamente il contenuto con una codifica ISO-8859-1... Et voilà!


Avvertenze legali