Hvordan lage et nytt språkpar i Apertium
Hvordan lage et nytt språkpar i Apertium. Dette dokumentet beskriver hvordan man starter et nytt språkpar for Apertium maskinoversettelse system.
Du bør ikke kunne lingvistikk eller maskin eversettelse for å skjønne følgende. Det holder å vite forskjellen mellom verb og substantiv.
Innledning
Aperitum er en maskinoversettelse system. Det er nok ikke helt sann. Den er en maskinoversettelse platform. Den gir deg muligheten å lage sine egne maskinoversettelse systemer. Det eneste du må gjøre er å skrive materiale. Materialen består av tre ordbøker og litt regler.
Om du vil lese en mer inngående innledning så er det mange flotte dokumenter her: Publications.
Det du trenger
- lttoolbox (>= 3.0.0)
- libxml utils (xmllint etc.)
- apertium (>= 3.0.0)
- en tekstredigerer
Dette dokumentet beskriver ikke hvordan man installerer disse filer. For mer informasjon se dokumenterings-seksjonen av Aperitum sin nettside .
Hva består et språkpar av?
Aperitum er en "shallow-transfer" type maskinoversettelse system. Den virker på ordbøker og "shallow-transfer" regler. Forskjellen på virkningen av "shallow-transfer" og "deep-transfer" er at "shallow-transfer" fullfører ikke en full syntaktisk analyse. Reglene er vanligvis, operasjoner på grupper av leksikalske komponenter, ikke operasjoner på "parse trees". Det finnes tre hovedordbøker:
- Den morfologiske ordboka for språket xx: denne ordboka inneholder reglene på bøying av ordene i språket xx. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh.dix
- Den morfologiske ordboka for språket yy: denne ordboka inneholder reglene på bøying av ordene i språket yy. I dette eksemplet så skal vi kalle den: apertium-sh-en.en.dix
- Den tospråklige ordboka: inneholder samsvar mellom ord og symboler i to forskjellige språk. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh-en.dix
I et språkpar så er det begge språk som kan være en kilde eller et mål for en oversettelse.
Det er også to filer til overførings-reglene. Disse her er reglene som bestemmer hvordan er ordene ordnet i en setning. For eksempel, chat noir -> katt svart -> svart katt. Reglene kan også brukes for å sette inn eller slette leksikalske komponenter. Dette beskrives senere. Disse filene er:
- språket xx til språket yy overførings-reglene: denne filen inneholder reglene for hvordan språket xx skal endres til språket yy.I dette eksemplet så skal den være: apertium-sh-en.sh-en.t1x
- språket yy til språket xx overførings-reglene: denne filen inneholder reglene for hvordan språket yy skal endres til språket xx.I dette eksemplet så skal den være: apertium-sh-en.en-sh.t1x
Mange av tilgjengelige språkparene har andre filer men vi skal ikke snakke om dem her. Du trenger bare disse filene for å skape et funksjonell system.