Hvordan lage et nytt språkpar i Apertium
Hvordan lage et nytt språkpar i Apertium. Dette dokumentet beskriver hvordan man starter et nytt språkpar for Apertium maskinoversettelse system.
Du bør ikke kunne lingvistikk eller maskin eversettelse for å skjønne følgende. Det holder å vite forskjellen mellom verb og substantiv.
Innledning
Aperitum er en maskinoversettelsesystem. Det er nok ikke helt sann. Den er en maskinoversettelseplatform. Den gir deg muligheten å lage sine egne maskinoversettelsesystemer. Det eneste du må gjøre er å skrive materiale. Materialen består av tre ordbøker og litt regler.
Om du vil lese en mer inngående innledning så er det mange flotte dokumenter her: Publications.
Det du trenger
- lttoolbox (>= 3.0.0)
- libxml utils (xmllint etc.)
- apertium (>= 3.0.0)
- en tekstredigerer
Dette dokumentet beskriver ikke hvordan man installerer disse pakker. For mer informasjon se dokumenterings-seksjonen av Aperitum sin nettside .
Hva består et språkpar av?
Aperitum er en "shallow-transfer" type maskinoversettelse system. Den virker på ordbøker og "shallow-transfer" regler. Forskjellen på virkningen av "shallow-transfer" og "deep-transfer" er at "shallow-transfer" fullfører ikke en full syntaktisk analyse. Reglene er vanligvis, operasjoner på grupper av leksikalske komponenter, ikke operasjoner på "parse trees". Det finnes tre hovedordbøker:
- Den morfologiske ordboka for språket xx: denne ordboka inneholder reglene på bøying av ordene i språket xx. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh.dix
- Den morfologiske ordboka for språket yy: denne ordboka inneholder reglene på bøying av ordene i språket yy. I dette eksemplet så skal vi kalle den: apertium-sh-en.en.dix
- Den tospråklige ordboka: inneholder samsvar mellom ord og symboler i to forskjellige språk. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh-en.dix
I et språkpar så er det begge språk som kan være en kilde eller et mål for en oversettelse.
Det er også to filer til overførings-reglene. Disse her er reglene som bestemmer hvordan er ordene ordnet i en setning. For eksempel, chat noir -> katt svart -> svart katt. Reglene kan også brukes for å sette inn eller slette leksikalske komponenter. Dette beskrives senere. Disse filene er:
- språket xx til språket yy overførings-reglene: denne filen inneholder reglene for hvordan språket xx skal endres til språket yy.I dette eksemplet så skal den være: apertium-sh-en.sh-en.t1x
- språket yy til språket xx overførings-reglene: denne filen inneholder reglene for hvordan språket yy skal endres til språket xx.I dette eksemplet så skal den være: apertium-sh-en.en-sh.t1x
Mange av tilgjengelige språkparene har andre filer men vi skal ikke snakke om dem her. Du trenger bare disse filene for å skape et funksjonell system.
Språkpar
Dette dekumentet bruker eksemplet på oversettelsen fra serbokroatisk til engelsk, for å forklare hvordan man skaper en grunnlegende system. Dette er ikke den ideale språkparet fordi systemet funkegere bedre på mer beslektede språk. Dette skaper sikkert ikke problemer for de enkle eksmplene vi skal bruke.
Kort om terminologi
Det er et par termer som må forstås før vi begynner.
Den første er et lemma. Lemmaet er en sitatform av et ord. Det er et ord som mangler alt grammatisk informasjon. For eksempel, lemmaet av katter er katt. I engelske substantiver så er det vangligvis et entall av ordet. Lemmaet av et verb er infitiv av ordet. Det vil si at lemmaet av "var", er "er".
Den andre er et symbol. Et symbol viser informasjon om et ord. Hvis ordet er katter ,som er et substantiv i flertall, da skal den ha et substantiv symbol og et flertall symbol. Symbolene er vanligvis plassert mellom hakeparentes:
- <n>; for substantiv.
- <pl>; for flertall.
Andre eksempler på symboler er <sg>; entall, <pl> første person, <pri> infitiv, etc. Hvis symbolene er skrevet i parantes, så kan de også kalles for tags. Du bør huske at i mange av de tilgjengelige språkparene så står symbolene for acronymene og forkortelser av ordene i Catalan. For eksempel, vbhaver - fra vb (verb) og haver ("å ha" i Catalan). Symbolene er definert i <sdef> parentes og brukes i <s> parantes.
Den tredje ordet er paradigme. Paradigmaet er et eksempel på hvordan en gruppe ord er bøyet. I den morfologiske ordboka, så er lemmaene, knyttet til paradigmene som gir oss muligheten å beskrive hvordan et lemma bøyes uten å måtte skrive alle suffikser.
Om vi ville, for eksempel, lagre to adjectiver dum og lat, i steden for å lagre begge sånn:
- dum, (ere, est)
- lat, (ere, est)
Så kan vi bare lagre en, å si at "lat, bøyes på samme måte som dum". I dette eksemplet, dum ville være et paradigme, en kilde på hvordan de andre skal bøyes. Paradigmer er definert i <pardef> parantes, og brukes i <par> parantes.