Orodja za prevodni spomin obdelujejo besedilne enote, ki jih imenujemo segmenti. Besedila je na segmente mogoče razstaviti na več načinov.
OmegaT besedilo najprej razstavi s segmentiranjem na ravni strukture. Med tem procesom se za tvorbo segmentov uporablja samo struktura izvirne datoteke. Na primer, datoteke z enostavnim besedilom se da segmentirati na osnovi novih ali praznih vrstic, ali pa je segmentiranje na osnovi strukture nemogoče.. Oblikovane datoteke (OpenOffice.org, OpenDocument, XHTML in dokumenti HTML) se segmentirajo s pomočjo oznak na ravni bloka (odstavki).
Za ločevanje na segmente se lahko uporabijo tudi prevedljivi atributi predmetov (v datotekah XHTML ali HTML).
OmegaT lahko segmentira tudi na ravni povedi. Segmentiranje na povedi sledi segmentiranju na odstavke. Segmentov, ki nastanejo po enem od teh dveh procesov, med prevajanjem ni mogoče spreminjati (združevati ali ločevati). Gre za omejitev OmegaT, ki se je zavedamo.
Če z rezultati segmentiranja niste zadovoljni, lahko poskusite spremeniti (ne v programu OmegaT) izvirno besedilo ali pa pravila za segmentiranje v povedi prilagoditi. Da spremembe pridejo do veljave, projekt nato znova naložite. d
Ko program segmentira izvirne datoteke v logične enote, v primeru oblikovanih datotek v odstavke, bo OmegaT te bloke dodatno razbil na povedi (če te možnosti niste izklopili). OmegaT lahko namreč logične enote v datotekah segmentira v poljubne elemente, ki jih določite sami. Pri segmentih v programu OmegaT je samodejno segmentiranje na povedi, zato ga imenujemo segmentiranje v povedi.
Segmentiranje v povedi smo zgradili na podlagi pravil Segmentation Rules eXchange (SRX) , vendar OmegaT trenutno ne podpira vseh potez SRX in tudi ne zna uvažati/izvažati pravil, določenih v zapisu SRX. Če razumete delovanje SRX, boste razumeli tudi delovanje programa OmegaT, ker gre bolj ali manj za isto stvar.
Obstajata dve vrsti pravil.
Primer prelomnega pravila: "Ali je v redu? Nimam
pojma." lahko segmentiramo kot dve povedi, če ju ločimo pri znaku
"?
". Za znak "?
" bi tako moralo obstajati prelomno pravilo.
Primer izjeme: "Kdo se boji gdč. Woolf?" se
za ".
" ne sme izvesti segmentiranje. Za "gdč.
" bi v
tem sobesedilu morala biti izjema.
Obstoječa prelomna pravila bi morala zadostovati za večino evropskih jezikov in za japonščino, svetujemo pa, da za jezik, iz katerega prevajate, določite dodatne izjeme, saj očitno ni mogoče za vse jezike določiti vseh možnih izjem.
Če želite določiti nova pravila, v glavnem meniju izberite Možnosti -> Segmentiranje.... Ne pozabite, da morate po spremembi pravil za segmentiranje odprt projekt zapreti in znova odpreti, ker sicer nova pravila ne bodo veljala.
Vsa pravila za segmentiranje z ujemajočim jezikovnim vzorcem se uporablja v zahtevanem zaporedju, zato se morajo pravila za določeni jezik nahajati višje kot samodejna pravila.
Primer: pravila za kanadsko francoščino (FR-CA) naj bodo višje kot pravila za francoščino (FR.*) in višje kot privzeta (.*) pravila. Tako bo vaš projekt, v katerem prevajate iz kanadske francoščine, uporabljal pravila v pravilnem zaporedju.
Če želite odpreti prazen pravilni niz, kliknite Dodaj v zgornji polovici pogovornega okna. Na dnu tabele se prikaže prazna vrstica. Spremenite ime pravila in jezikovni vzorec. Skladnja jezikovnega vzorca se ravna po pravilih za regularne izraze. Poglejte poglavje Kratek povzetek sestavkov iz regularnih izrazov spodaj.
Če vaše pravilo velja za določeni jezikovni par, ga z gumbom Premakni navzgor prestavite na vrh seznama.
Pravilo uredite tako, da kliknete v tabelo in izbrani niz se bo prikazal v spodnjem delu okna.
Potrdilno polje prelom/izjema določa, ali gre za prelomno pravilo (polje označeno) ali za izjemo (polje ni označeno). Regularna izraza Pred in Za določata, kaj se mora v besedilu nahajati pred dano točko in za njo, če naj se pravilo (prelom ali izjema) uveljavi.
Proces segmentiranja si lahko poenostavite: Predstavljajte si, da se kazalka premika od prvega do zadnjega znaka (izjema sta prvi in zadnji znak) v besedilu. Za vsak položaj kazalke vzamemo vsa pravila v danem vrstnem redu in skušamo prilagoditi njihov vzorec pred besedilom na levi strani in vzorec za besedilom na desni strani kazalke..
Če je katero od pravil uspešno, v primeru izjeme s preverjanjem pravil končamo, v primeru preloma pa besedilo na levi strani kazalke prisodimo trenutnemu segmentu.
Cilj: segmentirati
za piko ('.
') in pred presledkom
Pred: \.
Za: \s
Opomba: "\.
" pomeni znak ".
"
"\s
" pomeni kateri koli presledek
Cilj: ne
segmentirati za "gdč.
Pred: gdč\.
Za: \s
Opomba: Izbirno polje za pravilo naj ne bo označeno.
Cilj: končaj segment pri "。" (japonska pika)
Pred: 。 Za: (prazno)
Opomba: Polje lahko pustite prazno.
Segmentacijska pravila so navedena v obliki regularnih izrazov. Tako zagotavljamo, da je definicija pravil kolikor mogoče prilagodljiva in v skladu s SRX.
Našteti niso vsi odstavki, ki jih lahko uporabljate v OmegaT, le najpogosteje uporabljeni. OmegaT podpira vse lastnosti regularnih izrazov, ki so opisani v standardu SRX.
Sestavek |
Ustreza |
|
|
Zastavice |
|
(?i) |
Omogoči iskanje brez razlikovanja velikih ali malih črk (privzeto vzorec ločuje velike in male črke). |
|
|
Znaki |
|
x |
Znak x, razen v primeru ... |
\uhhhh |
Znak s šestnajstiško vrednostjo 0xhhhh |
\t |
Tabulator ('\u0009') |
\n |
Znak za novo vrstico (line feed) ('\u000A') |
\r |
Znak za prehod v novo vrstico (carriage return) ('\u000D') |
|
|
Citiranje |
|
\ |
Citira naslednji znak. Uporabite ga, če
želite katerega od metaznakov |
\\ |
Primer: išče poševnico nazaj. |
\Q |
Citira vse znake do \E |
\E |
Konča citiranje, ki se je začelo z \Q |
|
|
Znakovni nizi |
|
[abc] |
a, b ali c (enostavni razred) |
[^abc] |
Katerikoli znak z izjemo a, b in c (zanikanje) |
[a-zA-Z] |
a do z ali A do Z, vključno (obseg) |
|
|
Vnaprej definirani znakovni razredi |
|
. |
Katerikoli znak (z izjemo konca vrstice) |
\d |
Števka: [0-9] |
\D |
Neštevka: [^0-9] |
\s |
Znak za presledek: [ \t\n\x0B\f\r] |
\S |
Znaki, ki niso presledek: [^\s] |
\w |
Besedni znak: [a-zA-Z_0-9] |
\W |
Nebesedni znak: [^\w] |
|
|
Zadetki za meje |
|
^ |
Začetek vrstice |
$ |
Konec vrstice |
\b |
Besedna meja |
\B |
Nebesedna meja |
|
|
Požrešni kvantifikatorji |
|
Skušali bodo najti kolikor morejo. Na primer
|
|
X? |
X, nobenkrat ali enkrat |
X* |
X, nobenkrat ali večkrat |
X+ |
X, enkrat ali večkrat |
|
|
Nezahtevni kvantifikatorji (ki niso požrešni) |
|
Našli bodo tako malo, kot se le da. Na
primer, |
|
X?? |
X, nobenkrat ali enkrat |
X*? |
X, nobenkrat ali večkrat |
X+? |
X, enkrat ali večkrat |
|
|
Logični operatorji |
|
XY |
X pred Y |
X|Y |
X ali Y |
(XY) |
XY kot ena skupina |