Hvordan lage et nytt språkpar i Apertium

From Apertium
Revision as of 09:04, 1 December 2010 by Unhammer (talk | contribs) (→‎Kort om ordelag: «ordelag» is more «way of speaking»)
Jump to navigation Jump to search

Hvordan lage et nytt språkpar i Apertium. Dette dokumentet beskriver hvordan man starter et nytt språkpar for Apertium maskinoversettelse system.

Du bør ikke kunne lingvistikk eller maskin eversettelse for å skjønne følgende. Det holder å vite forskjellen mellom verb og substantiv.

Innledning

Aperitum er en maskinoversettelsesystem. Det er nok ikke helt sann. Den er en maskinoversettelseplatform. Den gir deg muligheten å lage sine egne maskinoversettelsesystemer. Det eneste du må gjøre er å skrive materiale. Materialen består av tre ordbøker og litt regler.

Om du vil lese en mer inngående innledning så er det mange flotte dokumenter her: Publications.

Det du trenger

  • lttoolbox (>= 3.0.0)
  • libxml utils (xmllint etc.)
  • apertium (>= 3.0.0)
  • en tekstredigerer

Dette dokumentet beskriver ikke hvordan man installerer disse pakker. For mer informasjon se dokumenterings-seksjonen av Aperitum sin nettside .

Hva består et språkpar av?

Aperitum er en "shallow-transfer" type maskinoversettelse system. Den virker på ordbøker og "shallow-transfer" regler. Forskjellen på virkningen av "shallow-transfer" og "deep-transfer" er at "shallow-transfer" fullfører ikke en full syntaktisk analyse. Reglene er vanligvis, operasjoner på grupper av leksikalske komponenter, ikke operasjoner på "parse trees". Det finnes tre hovedordbøker:

  1. Den morfologiske ordboka for språket xx: denne ordboka inneholder reglene på bøying av ordene i språket xx. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh.dix
  2. Den morfologiske ordboka for språket yy: denne ordboka inneholder reglene på bøying av ordene i språket yy. I dette eksemplet så skal vi kalle den: apertium-sh-en.en.dix
  3. Den tospråklige ordboka: inneholder samsvar mellom ord og symboler i to forskjellige språk. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh-en.dix

I et språkpar så er det begge språk som kan være en kilde eller et mål for en oversettelse.

Det er også to filer til overførings-reglene. Disse her er reglene som bestemmer hvordan er ordene ordnet i en setning. For eksempel, chat noir -> katt svart -> svart katt. Reglene kan også brukes for å sette inn eller slette leksikalske komponenter. Dette beskrives senere. Disse filene er:

  • språket xx til språket yy overførings-reglene: denne filen inneholder reglene for hvordan språket xx skal endres til språket yy.I dette eksemplet så skal den være: apertium-sh-en.sh-en.t1x
  • språket yy til språket xx overførings-reglene: denne filen inneholder reglene for hvordan språket yy skal endres til språket xx.I dette eksemplet så skal den være: apertium-sh-en.en-sh.t1x

Mange av tilgjengelige språkparene har andre filer men vi skal ikke snakke om dem her. Du trenger bare disse filene for å skape et funksjonell system.

Språkpar

Dette dekumentet bruker eksemplet på oversettelsen fra serbokroatisk til engelsk, for å forklare hvordan man skaper en grunnlegende system. Dette er ikke den ideale språkparet fordi systemet funkegere bedre på mer beslektede språk. Dette skaper sikkert ikke problemer for de enkle eksmplene vi skal bruke.

Kort om terminologi

Det er et par termer som må forstås før vi begynner.

Den første er et lemma. Lemmaet er en sitatform av et ord. Det er et ord som mangler alt grammatisk informasjon. For eksempel, lemmaet av katter er katt. I engelske substantiver så er det vangligvis et entall av ordet. Lemmaet av et verb er infitiv av ordet. Det vil si at lemmaet av "var", er "er".

Den andre er et symbol. Et symbol viser informasjon om et ord. Hvis ordet er katter ,som er et substantiv i flertall, da skal den ha et substantiv symbol og et flertall symbol. Symbolene er vanligvis plassert mellom hakeparentes:

  • <n>; til substantiv.
  • <pl>; til flertall.