Te vrste datotek vsebujejo izključno besedilo, zato datoteke z navadnim besedilom računalniku ne morejo sporočiti jezika, v katerem je besedilo sestavljeno. Zelo poenostavljeno lahko rečemo, da računalnik za te datoteke predvideva, da so napisane v jeziku, ki ga računalnik sam uporablja.
Datoteka z navadnim besedilom ima v večini primerov pripono .txt.
Ruski uporabnik računalnika bo zelo verjetno uporabljal računalnik, ki dela v ruščini: v ruščini bodo zapisani meniji, datoteke itd. V večini primerov bo tako računalnik lahko pravilno predvideval, da bodo datoteke vsebovale samo znake ruske cirilice.
Če pa ste ruski prevajalec, ki prevaja iz japonščine, bo računalnik tudi za te datoteke, če so v obliki navadnega besedila, predvideval, da gre za besedila v ruščini. V teh datotekah namreč ni podatkov, na osnovi katerih bi lahko računalnik sklepal na uporabljeni jezik.
Vsebina v japonščini bi lahko bila:
OmegaTとは、コンピュータを利用した翻訳ツールです。
Vaš urejevalnik pa jo bo prikazal takole:
OmegaTВ∆ВЌБAГRГУГsГЕБ[Г^ВрЧШЧpµšЦ|ЦуГcБ[ГЛВ≈ВЈБB
Predvideva namreč, da gre za rusko besedilo. Vendar zgornji stavek vsekakor ni v ruščini, le japonske znake napačno interpretira kot znake cirilice.
Tudi v programu OmegaT je tako. Program sklepa, da datoteke z navadnim besedilom vsebujejo besedila, ki jih prikazuje glede na privzeto jezikovno nastavitev računalnika. Če računalnik govori francosko in datoteke vsebujejo angleško besedilo, ni težav, enako če gre za slovenski računalnik in češko besedilo.
Kako to, da z angleščino in francoščino ni težav, z ruščino in japonščino pa? Vzrok je skupni nabor znakov za francoski in angleški jezik, torej Latin-1, ali katera od njegovih variant, recimo Latin-2 za slovenščino in češčino.
Donedavnega ruščina in japonščina nista imela skupnega nabora znakov. Večina ruskih naborov znakov ne pozna japonskih znakov, in obratno. Primer posledic je viden zgoraj.
Japonska stranka dela na japonskem računalniku in piše besedila v japonščini. Nabor znakov, ki bo pri tem uporabljen, je odvisen od operacijskega sistema in drugih nastavitev, vendar je zelo neverjetno da bi ruski računalnik izbrani (japonski) nabor znakov lahko pravilno interpretiral.
Kako pa se besedilna informacija na osnovi zahtevanega nabora znakov fizično posreduje (to je, kako se zapisuje v datoteko, da jo računalnik lahko prebere in interpretira), je odvisno od kodiranja. Ko računalnik datoteko bere, razkodira informacijo v njej in jo potem v skladu z naborom znakov prikazuje. Poenostavljeno lahko rečemo, da vsako kodiranje odgovarja določenemu naboru znakov.
V programu OmegaT so na voljo tri možnosti za rešitev težave z različnimi nabori znakov.
Trenutno je OmegaT nastavljen tako, da datoteke z navadnim
besedilom razume kot je opisano spodaj:
(Nastavitev lahko preverite tudi sami, če izberete Filtri za datoteke
v meniju Možnosti. Kliknite na vrsto datoteke z
besedilom in nato na gumb Uredi.)
Datoteke vrste .txt1, .txt2 in .utf8 pravzaprav ne obstajajo. Gre samo za pomoč pri uporabi datotek v nekaterih tujih jezikih v programu OmegaT.
Še zadnji primer: Če imate na slovenskem računalniku opravka z datoteko v francoskem jeziku (na primer in_french.txt), ki je zelo verjetno kodirana v ISO-8859-1, se boste težavam črke č, ki na slovenskem, v ISO-8859-2 kodiranem računalniku, zaseda isto mesto kot è v ISO-8859-1, najenostavneje izognili tako, da dodate imenu izvirne datoteke številko 1. Za datoteko s spremenjenim imenom (in_french.txt1) bo tako OmegaT pravilno privzel, da je kodirana v ISO-8859-1 ... Et voilà!