Sorburuaren segmentazioa

Edukiak

Segmentazioaren oinarriak

Itzulpen-memoriak kudeatzeko tresnek segmentu deritzen testu-unitateekin egiten dute lan. Testu bat segmentatzeko hainbat modu dago.

OmegaT-k, hasteko, testua egitura-mailan segmentatzen du. Prozesu honetan zehar, sorburu-fitxategiaren egitura erabiltzen da soilik segmentuak sortzeko. Esaterako, testu-fitxategiak segmentatzeko lerro-jauziak, lerro hutsak eta antzekoak erabiltzen dira. Gertatu daiteke egitura-mailako segmentaziorik ez sortzea. Formatudun fitxategiak (OpenOffice.org, OpenDocument, XHTML eta HTML dokumentuak) paragrafo-mailako etiketak erabiliz segmentatzen dira.

Itzulgai diren objektuen atributuak ere (XHTML edo HTML fitxategietan) segmentuak banatzeko erauzten dira.

OmegaT-k esaldiz esaldi ere segmentatu dezake. Esaldien segmentazioa egitura-mailako segmentazioaren ondoren gauzatzen da. Zoritxarrez, prozesu hauetan sortutako segmentuak ezin dira aldatu (zatitu edo batu) itzulpena egiten ari den bitartean. Hau OmegaT-k daukan eta onartzen dugun muga bat da.

Segmentazioa ez bada zure gustukoa, sorburu-fitxategia OmegaT-tik kanpo aldatu beharko duzu edota esaldien segmentazio-arauak aldatu beharko dituzu. Aldaketa horiek egin ondoren, proiektua birkargatu behar izango duzu OmegaT-k aldaketak kontuan har ditzan.

Esaldien segmentazioa

Sorburu-fitxategia unitate logikoetan segmentatu ondoren (formatudun fitxategietan unitate hau paragrafoa da), OmegaT-k bloke hauek esaldietan segmentatuko ditu esaldien mailako segmentazioa desaktibatzen ez bada. Oro har, OmegaT-k zuk erabakitzen duzun edozein modutan segmentatu ditzake sorburu-fitxategien blokeak. Hala ere, OmegaT-ren portaera lehenetsia segmentuak esaldika sortzea denez, esaldien segmentazioa deitzen diogu.

Esaldiak segmentatzeko funtzioa eraikitzeko, Segmentation Rules eXchange (SRX) estandarra jarraitu nahi izan genuen, nahiz eta, momentuz, OmegaT-k ez dituen onartzen SRX estandarraren ezaugarri guztiak eta SRX formatuan definitutako arauak inportatu eta esportatzeko gai ez den. Hala ere, SRX-a ezagutzen baduzu, orduan badakizu OmegaT-k nola egiten duen lan, biak ala biak ia parekoak baitira.

Arauei buruz

Bi arau-mota daude.

Eten-arauen adibidea: "Ba al zuen zentzurik? Ez nago ziur." esaldia bi segmentutan banatu daiteke ? ikurraren ondoren. Eten-arau bat egon beharko litzateke "?" ikurrerako.

Salbuespen-arauen adibidea: ""Who is afraid of Mrs. Woolf?" ez da segmentatu behar "." ondoren. Salbuespen-arau bat egon beharko litzateke "Mrs." ikurrerako.

Aurredefinitutako eten-arauek aski izan beharko lukete Europako hizkuntza gehienetan eta japonieran; hala ere, itzulpenaren sorburu-hizkuntzarako salbuespen-arau gehiago definitzea gomendatzen dugu, ezinezkoa baitzaigu hizkuntza posibe guztietako salbuespen posible guztiak aurrez definitzea.

Arauen konfigurazioa

Arauak ezartzeko, hautatu Aukerak -> Segmentazioa menu nagusian. Kontuan izan segmentazio-ezarpenak proiektua hasi ondoren aldatzen badituzu, proiektua birkargatu egin beharko duzula aldaketak indarrean sartzeko.

Arauen multzoak

Hizkuntza-eredu bati dagozkion segmentazio-arauen multzoak hizkuntzaren lehentasun ordenan aplikatzen dira, alegia, hizkuntza espezifikoetarako arauak lehenetsitako hizkuntzetarako arauen gainetik egongo dira.

Esaterako, Kanadako frantsesaren (FR-CA) arauek lehentasuna izango dute frantsesaren (FR.*) arauen gainetik, eta azken hau, lehenetsitakoen (.*) gainetik egongo da. Beraz, Kanadako frantsesetik itzultzen bada, proiektuak hizkuntza horretarako definitutako arauak, frantseserako definitutakoak eta lehenetsitakoak erabiliko ditu, ordena horretan.

Arauen multzo hutsa sortzeko, sakatu koadroaren goiko aldean ageri den Gehitu... botoia. Lerro hutsa ageriko da taularen behealdean. Aldatu arauen multzoaren izena eta hizkuntza-eredua. Hizkuntza-ereduaren sintaxia adierazpen erregularren sintaxiaren moldekoa da. Ikusi Adierazpen erregularren laburpena.

Zure arauen multzoa hizkuntza-herrialdea bikote bati badagokio, Mugitu gora botoia erabiliz taularen goialdera eraman dezazun gomendatzen dizugu.

Arauen multzo bat editatzeko sakatu bere gainean, hautatutako multzoaren arauak koadroaren azpiko leihoan agertuko dira.

Etena/Salbuespena zutabeko kontrol-laukiak arauaren izaera ezartzen du: kontrol-laukia markatuta badago, arauak etenak sortuko ditu, eta markatu gabe badago, salbuespenak sortuko ditu. Bi adierazpen erregularrek, Aurretik eta Ondoren zutabeetan adierazten direnek, kokapen baten aurretik eta ondoren zerk egon behar duen zehazten dute, eten- edo salbuespen-araua eratuz.

Segmentazio-prozesua honela laburbildu daiteke. Irudika ezazu testuaren lehen sinboloaren ondoren azken sinboloaren aurrera mugitzen den kurtsore bat. Kurtsorearen posizio bakoitzerako arau bakoitza hartzen dugu, taulan adierazitako ordenan, eta Aurretik eredua aplikatzen saiatzen gara kurtsorearen ezkerraldean dagoen testuari eta Ondoren eredua kurtsoaren eskuinaldean dagoenari.

Arauren bat arrakastaz aplikatzen bada, salbuespen-araua bada prozesua gelditzen dugu eta arau gehiago aztertzeari uzten diogu, eta eten-araua bada ezkerreko testua segmentutzat hartzen dugu, kurtsoreak testuan duen posizio bakoitzerako.

Adibide sinpleak

Helburua: segmentu bat sortzea puntu baten ('.') eta zuriune baten artean
Aurretik: \. Ondoren: \s
Oharra: "\." zeinuak "." ordezkatzen du
"\s" zeinuak edozein espazio zuri ordezkatzen du
Helburua: segmentu bat ez sortzea "Mr." ondoren
Aurretik: Mr\. Ondoren: \s
Oharra: Ez ahaztu arauaren kontrol-laukia markatu gabe uztea
Helburua: segmentu bat sortzea "。" ondoren (japonierako puntua)
Aurretik: 。 Ondoren: (hutsik)
Oharra: Eremua hutsik utzi dezakezu

Segmentazio-arauetan erabili daitezkeen adierazpen erregularrak

Segmentazio-arauak irudikatzeko, adierazpen erregularrak erabiltzen dira. Honek malgutasun handia ahalbidetzen du arauak definitzerakoan eta SRX estandarrarekin bat dator.

Adierazpen erregularren laburpena

Ondoko formak OmegaT-n segmentazio-arauak sortzeko gehien erabiltzen direnak dira, baina ez dira erabili daitezkeen bakarrak. OmegaT-k SRX estandarrean deskribaturik dauden adierazpen erregular guztiak onartzen ditu.

FormaBaliokidea
 
Banderak
(?i)Maiuskulak/minuskulak bereizten ez dituen bilaketa ahalbidetzen du (portaera lehenetsia bereiztea da)
 
Karaktereak
xx karakterea, ondokoak salbu...
\uhhhh0xhhhh balio hamaseitarra duen karakterea
\tTabuladore karakterea ('\u0009')
\nLerro berria sortzeko karakterea ('\u000A')
\rOrga-itzuleraren karakterea ('\u000D')
 
Komatxoak
\Ondoren datorren karakterea komatxo artean jartzen du. Hau derrigorrezkoa da !$()*+.<>?[\]^{|} metakaraktereak bilatu nahi badituzu.
\\Esaterako, hau alderantzizko barra da.
\Q\E dagoen tokira arteko karaktere guztiak komatxo artean jartzen ditu
\E\Q bidez hasi diren komatxoen amaiera
 
Karaktere-klaseak
[abc]a, b, edo c (klase sinplea)
[^abc]Edozein karaktere, a, b, edo c salbu (ezeztapena)
[a-zA-Z]a-tik z-ra edo A-tik Z-ra, (tartea)
 
Aurredefinitutako karaktere-klaseak
.Edozein karaktere (lerro-amaierak salbu)
\dDigitu bat: [0-9]
\DDigitua ez den karaktere bat: [^0-9]
\sZuriune bat: [ \t\n\x0B\f\r]
\SZuriunea ez den karaktere bat: [^\s]
\wHizki bat: [a-zA-Z_0-9]
\WHizkia ez den karaktere bat: [^\w]
 
Muga-formak
^Lerroaren hasiera
$Lerroaren amaiera
\bHitz-muga
\BHitzak ez diren karaktere-multzoen muga
 
Zenbatzaile asezinak
Hauek ahalik eta baliokide gehien bilatuko dituzte. Esaterako, a+ formak aaa aurkituko du aaabbb katean
X?X, zero edo bat
X*X, zero edo gehiago
X+X, bat edo gehiago
 
Zenbatzailea motelak (aseak)
Hauek ahalik eta baliokide gutxien bilatuko dituzte. Esaterako, a+? formak lehen a aurkituko du aaabbb katean
X??X, zero edo bat
X*?X, zero edo gehiago
X+?X, bat edo gehiago
 
Eragile logikoak
XYX eta ondoren Y
X|YX zein Y
(XY)XY multzo bakar gisa

Legezko oharrak