Segmentació del text de partida

Contingut

Conceptes bàsics sobre la segmentació

Les eines de memòria de traducció treballen amb unitats de text anomenades segments. Hi ha diverses maneres de segmentar un text.

L'OmegaT primer analitza el text per a trobar la segmentació a nivell d'estructura. Durant aquest procés, només s'utilitza l'estructura del fitxer de partida per a produir segments. Per exemple, els fitxers de text poden segmentar-se per salts de línia, per línies buides o bé no segmentar-se de cap manera a nivell d'estructura. Els fitxers amb format (documents de l'OpenOffice.org, OpenDocument, XHTML i HTML) es segmenten a partir de les etiquetes de bloc (paràgraf).

Els atributs d'objecte traduïbles (en fitxers XHTML o HTML) també s'extreuen en segments separats.

L'OmegaT també pot segmentar per frases. La segmentació per frases es produeix després de la segmentació a nivell d'estructura. Malauradament, els segments creats durant aquests dos processos no es poden modificar (dividir o unir) durant la traducció. Es tracta d'una limitació coneguda de l'OmegaT.

Si no esteu satisfet amb la segmentació, caldrà que modifiqueu el fitxer de partida externament o bé les regles de segmentació per frases. A continuació, caldrà que torneu a carregar el projecte per tal d'aplicar les modificacions.

Segmentació per frases

Un cop que l'OmegaT ha segmentat el fitxer de partida en unitats lògiques, que en fitxers amb format normalment corresponen als paràgrafs, segmentarà addicionalment aquests blocs en frases si no heu desactivat l'opció de segmentació per frases. Generalment, l'OmegaT pot segmentar els blocs lògics del fitxer de partida en qualsevol nombre de segments que hagueu configurat. No obstant, com que per defecte l'OmegaT segmenta per frases, en endavant s'hi farà referència com a segmentació per frases.

La segmentació per frases es va crear a partir de l'estàndard SRX (Segmentation Rules eXchange o Intercanvi de regles de segmentació), tot i que de moment l'OmegaT no és admet totes les funcions de l'SRX ni pot importar/exportar regles definides en format SRX. Però si coneixeu com funciona l'SRX, també sabreu com funciona l'OmegaT, ja que pràcticament funcionen de la mateixa manera.

Informació sobre les regles

Hi ha tos tipus de regles possibles.

Exemple de regla de divisió: "Tenia sentit? No n'estava segur." pot segmentar-se en dues frases després de "?". Així doncs, hi hauria d'haver una regla de divisió per a "?".

Exemple de regla d'excepció: "Qui té por de la Sra. Woolf?" no es pot segmentar després del ".". Així doncs, hi hauria d'haver una regla d'excepció per a "Sra.".

Les regles de divisió predefinides haurien de ser suficients per a la majoria de les llengües europees i per al japonès, però es recomana que definiu més regles d'excepció per a la llengua a partir de la qual traduïu, ja que òbviament és impossible incloure totes les excepcions possibles de totes les llengües possibles.

Configuració de les regles

Per a configurar les regles, seleccioneu Opcions -> Segmentació... al menú principal. Tingueu en compte que, si canvieu les opcions de segmentació, caldrà que torneu a carregar el projecte per tal d'aplicar els canvis.

Conjunts de regles

Tots els conjunts de regles de segmentació que coincideixin amb un Patró de llengua s'aplicaran en l'ordre que es mostra al diàleg; per tant, les regles d'una llengua específica han de col·locar-se més amunt que les regles per defecte.

Per exemple, les regles del francès de Canadà (FR-CA) haurien d'estar per sobre de les regles del francès (FR.*) i per sobre de les regles Per defecte (.*). D'aquesta manera, quan traduïu al francès de Canadà, el projecte utilitzarà primer les regles definides per a aquesta llengua; a continuació, les regles del francès i, finalment, les regles Per defecte.

Per a crear un conjunt de regles buit, feu clic a Afegeix de la part de dalt del diàleg. Apareixerà una línia buida al final de la taula. Canvieu el nom del conjunt de regles i el patró de llengua. La sintaxi del patró de llengua és la mateixa que la sintaxi d'una expressió regular. Vegeu l'apartat Breu resum de construccions d'expressions regulars més avall.

Si el conjunt de regles correspon a una parella de llengua-país, es recomana que el col·loqueu al capdamunt mitjançant el botó Mou cap amunt.

Per a editar un conjunt de regles, feu-hi clic a la taula i les regles del conjunt apareixeran a la part de sota de la finestra.

La casella de selecció Divisió/Excepció determina si es tracta d'una regla de divisió (casella de selecció activada) o d'una regla d'excepció (casella de selecció desactivada). Les expressions regulars dels camps Patró previ i Patró posterior especifiquen el text que ha d'aparèixer abans i després d'una posició per tal que s'inclogui en la regla d'excepció o de divisió.

El procés de segmentació es pot simplificar de la manera següent. Imagineu-vos un cursor que es mou des de després del primer símbol del text fins a abans de l'últim símbol del text. A cada posició del cursor, s'agafa cada regla en l'ordre especificat i s'intenta aplicar el Patró previ a tot el text situat a l'esquerra del cursor, i el Patró posterior al text situat a la dreta, de manera que "toquin" el cursor.

Si hi ha alguna regla que es pot aplicar al text: si es tracta d'una regla d'excepció, no es fa res més, apart d'aturar el procés de més regles; si es tracta d'una regla de divisió, el text de l'esquerra es considera un segment separat, en cada posició del cursor al text.

Exemples senzills

Objectiu: definir un segment després d'un punt (".") i abans d'un espai
Patró previ: \. Patró posterior: \s
Nota: "\." representa el caràcter "."
"\s" representa qualsevol caràcter d'espai en blanc
Objectiu: no definir un segment després de "Sr."
Patró previ: Sr\. Patró posterior: \s
Nota: No oblideu de desactivar casella de selecció corresponent a la regla
Objectiu: definir un segment després de "。" (punt japonès)
Patró previ: 。 Patró posterior: (buit)
Nota: Podeu deixar un camp buit

Expressions regulars que es poden utilitzar en les regles de segmentació

Les pròpies regles de segmentació estan representades mitjançant expressions regulars. Això permet la màxima flexibilitat a l'hora de definir-les i respecta l'estàndard SRX.

Breu resum de construccions d'expressions regulars

Aquestes construccions no són les úniques que es poden utilitzar en les regles de segmentació de l'OmegaT, sinó les més habituals. L'OmegaT admet l'ús de totes les funcions de les expressions regulars descrites en l'estàndard SRX.

ConstruccióCoincideix amb
 
Indicadors
(?i)Fa que les cerques no distingeixin entre majúscules i minúscules (per defecte, es distingeix entre majúscules i minúscules).
 
Caràcters
xEl caràcter x, excepte els següents...
\uhhhhEl caràcter amb valor hexadecimal 0xhhhh
\tEl caràcter de tabulació ("\u0009")
\nEl caràcter de nova línia (salt de línia) ("\u000A")
\rEl caràcter de retorn de carro ("\u000D")
 
Cita
\No res, però cita literalment el caràcter següent. És necessari si especifiqueu metacaràcters !$()*+.<>?[\]^{|} i voleu que coincideixin amb els caràcters literalment.
\\Per exemple, això representa el caràcter de barra inversa
\QNo res, però cita literalment tots els caràcters fins que s'especifiqui \E
\ENo res, però indica que acaba la cita literal iniciada per \Q
 
Classes de caràcters
[abc]a, b o c (classe senzilla)
[^abc]Qualsevol caràcter excepte a, b o c (negació)
[a-zA-Z]D'a a z o d'A a Z, ambdós inclosos (àmbit)
 
Classes de caràcters predefinides
.Qualsevol caràcter (excepte salts de línia)
\dUn dígit: [0-9]
\DQualsevol caràcter menys un dígit: [^0-9]
\sUn caràcter d'espai en blanc: [ \t\n\x0B\f\r]
\SQualsevol caràcter menys l'espai en blanc: [^\s]
\wUn caràcter de paraula: [a-zA-Z_0-9]
\WQualsevol caràcter menys un caràcter de paraula: [^\w]
 
Caràcters de límit
^L'inici d'una línia
$El final d'una línia
\bUn límit de paraula
\BQualsevol límit menys el de paraula
 
Quantificadors "voraços"
Coincideixen amb tants caràcters com sigui possible. Per exemple, a+ coincidirà amb aaa dins d'aaabbb
X?X, una vegada o cap
X*X, zero o més vegades
X+X, una o més vegades
 
Quantificadors "no voraços"
Coincideixen amb tan pocs caràcters com sigui possible. Per exemple, a+? coincidirà amb la primera a dins d'aaabbb
X??X, una vegada o cap
X*?X, zero o més vegades
X+?X, una o més vegades
 
Operadors lògics
XYX seguida d'Y
X|YX o bé Y
(XY)XY com a un grup únic

Avisos legals