Hvordan lage et nytt språkpar i Apertium

From Apertium
Revision as of 19:35, 30 November 2010 by 84.215.78.31 (talk)
Jump to navigation Jump to search

Hvordan lage et nytt språkpar i Apertium. Dette dokumentet beskriver hvordan man starter et nytt språkpar for Apertium maskinoversettelse system.

Du bør ikke kunne lingvistikk eller maskin eversettelse for å skjønne følgende. Det holder å vite forskjellen mellom verb og substantiv.

Innledning

Aperitum er en maskinoversettelse system. Det er nok ikke helt sann. Den er en maskinoversettelse platform. Den gir deg muligheten å lage sine egne maskinoversettelse systemer. Det eneste du må gjøre er å skrive materiale. Materialen består av tre ordbøker og litt regler.

Om du vil lese en mer inngående innledning så er det mange flotte dokumenter her: Publications.

Det du trenger

  • lttoolbox (>= 3.0.0)
  • libxml utils (xmllint etc.)
  • apertium (>= 3.0.0)
  • en tekstredigerer

Dette dokumentet beskriver ikke hvordan man installerer disse filer. For mer informasjon se dokumenterings-seksjonen av Aperitum sin nettside .

Hva består et språkpar av?

Aperitum er en "shallow-transfer" type maskinoversettelse system. Den virker på ordbøker og "shallow-transfer" regler. Forskjellen på virkningen av "shallow-transfer" og "deep-transfer" er at "shallow-transfer" fullfører ikke en full syntaktisk analyse. Reglene er vanligvis, operasjoner på grupper av leksikalske komponenter, ikke operasjoner på "parse trees". Det er tre hovedordbøker:

  1. Den morfologiske ordboka for språket xx: denne ordboka inneholder reglene på bøying av ordene i språket xx. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh.dix
  2. Den morfologiske ordboka for språket yy: denne ordboka inneholder reglene på bøying av ordene i språket yy. I dette eksemplet så skal vi kalle den: apertium-sh-en.en.dix
  3. Den tospråklige ordboka: inneholder samsvar mellom ord og symboler i to forskjellige språk. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh-en.dix 

I et språkpar så er det begge språk som kan være en kilde eller et mål for en oversettelse.

Det er også to filer til overførings-reglene. Disse her er reglene som bestemmer hvordan er ordene ordnet i en setning. For eksempel, chat noir -> katt svart -> svart katt. Reglene kan også brukes for å sette inn eller slette leksikalske komponenter. Dette beskrives senere. Disse filene er:

   * språket xx til språket yy overførings-reglene: denne filen inneholder reglene for hvordan språket xx skal endres til språket yy.I dette eksemplet så skal den være: apertium-sh-en.sh-en.t1x
   * språket yy til språket xx overførings-reglene: denne filen inneholder reglene for hvordan språket yy skal endres til språket xx.I dette eksemplet så skal den være: apertium-sh-en.en-sh.t1x 

Mange av tilgjengelige språkparene har andre filer men vi skal ikke snakke om dem her. Du trenger bare disse filene for å skape et funksjonell system.