Itzulpen-memoriak kudeatzeko tresnek segmentu deritzen testu-unitateekin egiten dute lan. Testu bat segmentatzeko hainbat modu dago.
OmegaT-k, hasteko, testua egitura-mailan segmentatzen du. Prozesu honetan zehar, sorburu-fitxategiaren egitura erabiltzen da soilik segmentuak sortzeko. Esaterako, testu-fitxategiak segmentatzeko lerro-jauziak, lerro hutsak eta antzekoak erabiltzen dira. Gertatu daiteke egitura-mailako segmentaziorik ez sortzea. Formatudun fitxategiak (OpenOffice.org, OpenDocument, XHTML eta HTML dokumentuak) paragrafo-mailako etiketak erabiliz segmentatzen dira.
Itzulgai diren objektuen atributuak ere (XHTML edo HTML fitxategietan) segmentuak banatzeko erauzten dira.
OmegaT-k esaldiz esaldi ere segmentatu dezake. Esaldien segmentazioa egitura-mailako segmentazioaren ondoren gauzatzen da. Zoritxarrez, prozesu hauetan sortutako segmentuak ezin dira aldatu (zatitu edo batu) itzulpena egiten ari den bitartean. Hau OmegaT-k daukan eta onartzen dugun muga bat da.
Segmentazioa ez bada zure gustukoa, sorburu-fitxategia OmegaT-tik kanpo aldatu beharko duzu edota esaldien segmentazio-arauak aldatu beharko dituzu. Aldaketa horiek egin ondoren, proiektua birkargatu behar izango duzu OmegaT-k aldaketak kontuan har ditzan.
Sorburu-fitxategia unitate logikoetan segmentatu ondoren (formatudun fitxategietan unitate hau paragrafoa da), OmegaT-k bloke hauek esaldietan segmentatuko ditu esaldien mailako segmentazioa desaktibatzen ez bada. Oro har, OmegaT-k zuk erabakitzen duzun edozein modutan segmentatu ditzake sorburu-fitxategien blokeak. Hala ere, OmegaT-ren portaera lehenetsia segmentuak esaldika sortzea denez, esaldien segmentazioa deitzen diogu.
Esaldiak segmentatzeko funtzioa eraikitzeko, Segmentation Rules eXchange (SRX) estandarra jarraitu nahi izan genuen, nahiz eta, momentuz, OmegaT-k ez dituen onartzen SRX estandarraren ezaugarri guztiak eta SRX formatuan definitutako arauak inportatu eta esportatzeko gai ez den. Hala ere, SRX-a ezagutzen baduzu, orduan badakizu OmegaT-k nola egiten duen lan, biak ala biak ia parekoak baitira.
Bi arau-mota daude.
Eten-arauen adibidea: "Ba al zuen zentzurik? Ez nago ziur." esaldia bi segmentutan banatu daiteke ?
ikurraren ondoren. Eten-arau bat egon beharko litzateke "?
" ikurrerako.
Salbuespen-arauen adibidea: ""Who is afraid of Mrs. Woolf?" ez da segmentatu behar ".
" ondoren. Salbuespen-arau bat egon beharko litzateke "Mrs.
" ikurrerako.
Aurredefinitutako eten-arauek aski izan beharko lukete Europako hizkuntza gehienetan eta japonieran; hala ere, itzulpenaren sorburu-hizkuntzarako salbuespen-arau gehiago definitzea gomendatzen dugu, ezinezkoa baitzaigu hizkuntza posibe guztietako salbuespen posible guztiak aurrez definitzea.
Arauak ezartzeko, hautatu Aukerak -> Segmentazioa menu nagusian. Kontuan izan segmentazio-ezarpenak proiektua hasi ondoren aldatzen badituzu, proiektua birkargatu egin beharko duzula aldaketak indarrean sartzeko.
Hizkuntza-eredu bati dagozkion segmentazio-arauen multzoak hizkuntzaren lehentasun ordenan aplikatzen dira, alegia, hizkuntza espezifikoetarako arauak lehenetsitako hizkuntzetarako arauen gainetik egongo dira.
Esaterako, Kanadako frantsesaren (FR-CA) arauek lehentasuna izango dute frantsesaren (FR.*) arauen gainetik, eta azken hau, lehenetsitakoen (.*) gainetik egongo da. Beraz, Kanadako frantsesetik itzultzen bada, proiektuak hizkuntza horretarako definitutako arauak, frantseserako definitutakoak eta lehenetsitakoak erabiliko ditu, ordena horretan.
Arauen multzo hutsa sortzeko, sakatu koadroaren goiko aldean ageri den Gehitu... botoia. Lerro hutsa ageriko da taularen behealdean. Aldatu arauen multzoaren izena eta hizkuntza-eredua. Hizkuntza-ereduaren sintaxia adierazpen erregularren sintaxiaren moldekoa da. Ikusi Adierazpen erregularren laburpena.
Zure arauen multzoa hizkuntza-herrialdea bikote bati badagokio, Mugitu gora botoia erabiliz taularen goialdera eraman dezazun gomendatzen dizugu.
Arauen multzo bat editatzeko sakatu bere gainean, hautatutako multzoaren arauak koadroaren azpiko leihoan agertuko dira.
Etena/Salbuespena zutabeko kontrol-laukiak arauaren izaera ezartzen du: kontrol-laukia markatuta badago, arauak etenak sortuko ditu, eta markatu gabe badago, salbuespenak sortuko ditu. Bi adierazpen erregularrek, Aurretik eta Ondoren zutabeetan adierazten direnek, kokapen baten aurretik eta ondoren zerk egon behar duen zehazten dute, eten- edo salbuespen-araua eratuz.
Segmentazio-prozesua honela laburbildu daiteke. Irudika ezazu testuaren lehen sinboloaren ondoren azken sinboloaren aurrera mugitzen den kurtsore bat. Kurtsorearen posizio bakoitzerako arau bakoitza hartzen dugu, taulan adierazitako ordenan, eta Aurretik eredua aplikatzen saiatzen gara kurtsorearen ezkerraldean dagoen testuari eta Ondoren eredua kurtsoaren eskuinaldean dagoenari.
Arauren bat arrakastaz aplikatzen bada, salbuespen-araua bada prozesua gelditzen dugu eta arau gehiago aztertzeari uzten diogu, eta eten-araua bada ezkerreko testua segmentutzat hartzen dugu, kurtsoreak testuan duen posizio bakoitzerako.
.
') eta zuriune baten artean\.
Ondoren: \s
\.
" zeinuak ".
" ordezkatzen du \s
" zeinuak edozein espazio zuri ordezkatzen duMr." ondoren
Mr\.
Ondoren: \s
Segmentazio-arauak irudikatzeko, adierazpen erregularrak erabiltzen dira. Honek malgutasun handia ahalbidetzen du arauak definitzerakoan eta SRX estandarrarekin bat dator.
Ondoko formak OmegaT-n segmentazio-arauak sortzeko gehien erabiltzen direnak dira, baina ez dira erabili daitezkeen bakarrak. OmegaT-k SRX estandarrean deskribaturik dauden adierazpen erregular guztiak onartzen ditu.
Forma | Baliokidea |
---|---|
Banderak | |
(?i) | Maiuskulak/minuskulak bereizten ez dituen bilaketa ahalbidetzen du (portaera lehenetsia bereiztea da) |
Karaktereak | |
x | x karakterea, ondokoak salbu... |
\uhhhh | 0xhhhh balio hamaseitarra duen karakterea |
\t | Tabuladore karakterea ('\u0009') |
\n | Lerro berria sortzeko karakterea ('\u000A') |
\r | Orga-itzuleraren karakterea ('\u000D') |
Komatxoak | |
\ | Ondoren datorren karakterea komatxo artean jartzen du. Hau derrigorrezkoa da !$()*+.<>?[\]^{|} metakaraktereak bilatu nahi badituzu. |
\\ | Esaterako, hau alderantzizko barra da. |
\Q | \E dagoen tokira arteko karaktere guztiak komatxo artean jartzen ditu |
\E | \Q bidez hasi diren komatxoen amaiera |
Karaktere-klaseak | |
[abc] | a, b, edo c (klase sinplea) |
[^abc] | Edozein karaktere, a, b, edo c salbu (ezeztapena) |
[a-zA-Z] | a-tik z-ra edo A-tik Z-ra, (tartea) |
Aurredefinitutako karaktere-klaseak | |
. | Edozein karaktere (lerro-amaierak salbu) |
\d | Digitu bat: [0-9] |
\D | Digitua ez den karaktere bat: [^0-9] |
\s | Zuriune bat: [ \t\n\x0B\f\r] |
\S | Zuriunea ez den karaktere bat: [^\s] |
\w | Hizki bat: [a-zA-Z_0-9] |
\W | Hizkia ez den karaktere bat: [^\w] |
Muga-formak | |
^ | Lerroaren hasiera |
$ | Lerroaren amaiera |
\b | Hitz-muga |
\B | Hitzak ez diren karaktere-multzoen muga |
Zenbatzaile asezinak | |
Hauek ahalik eta baliokide gehien bilatuko dituzte. Esaterako, a+ formak aaa aurkituko du aaabbb katean | |
X? | X, zero edo bat |
X* | X, zero edo gehiago |
X+ | X, bat edo gehiago |
Zenbatzailea motelak (aseak) | |
Hauek ahalik eta baliokide gutxien bilatuko dituzte. Esaterako, a+? formak lehen a aurkituko du aaabbb katean | |
X?? | X, zero edo bat |
X*? | X, zero edo gehiago |
X+? | X, bat edo gehiago |
Eragile logikoak | |
XY | X eta ondoren Y |
X|Y | X zein Y |
(XY) | XY multzo bakar gisa |