Hvordan lage et nytt språkpar i Apertium
Hvordan lage et nytt språkpar i Apertium. Dette dokumentet beskriver hvordan man starter et nytt språkpar for Apertium maskinoversettelse system.
Du bør ikke kunne lingvistikk eller maskin eversettelse for å skjønne følgende. Det holder å vite forskjellen mellom verb og substantiv.
Innledning
Aperitum er en maskinoversettelsesystem. Det er nok ikke helt sann. Den er en maskinoversettelseplatform. Den gir deg muligheten å lage sine egne maskinoversettelsesystemer. Det eneste du må gjøre er å skrive materiale. Materialen består av tre ordbøker og litt regler.
Om du vil lese en mer inngående innledning så er det mange flotte dokumenter her: Publications.
Det du trenger
- lttoolbox (>= 3.0.0)
- libxml utils (xmllint etc.)
- apertium (>= 3.0.0)
- en tekstredigerer
Dette dokumentet beskriver ikke hvordan man installerer disse pakker. For mer informasjon se dokumenterings-seksjonen av Aperitum sin nettside .
Hva består et språkpar av?
Aperitum er en "shallow-transfer" type maskinoversettelse system. Den virker på ordbøker og "shallow-transfer" regler. Forskjellen på virkningen av "shallow-transfer" og "deep-transfer" er at "shallow-transfer" fullfører ikke en full syntaktisk analyse. Reglene er vanligvis, operasjoner på grupper av leksikalske komponenter, ikke operasjoner på "parse trees". Det finnes tre hovedordbøker:
- Den morfologiske ordboka for språket xx: denne ordboka inneholder reglene på bøying av ordene i språket xx. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh.dix
- Den morfologiske ordboka for språket yy: denne ordboka inneholder reglene på bøying av ordene i språket yy. I dette eksemplet så skal vi kalle den: apertium-sh-en.en.dix
- Den tospråklige ordboka: inneholder samsvar mellom ord og symboler i to forskjellige språk. I dette eksemplet så skal vi kalle den: apertium-sh-en.sh-en.dix
I et språkpar så er det begge språk som kan være en kilde eller et mål for en oversettelse.
Det er også to filer til overførings-reglene. Disse her er reglene som bestemmer hvordan er ordene ordnet i en setning. For eksempel, chat noir -> katt svart -> svart katt. Reglene kan også brukes for å sette inn eller slette leksikalske komponenter. Dette beskrives senere. Disse filene er:
- språket xx til språket yy overførings-reglene: denne filen inneholder reglene for hvordan språket xx skal endres til språket yy.I dette eksemplet så skal den være: apertium-sh-en.sh-en.t1x
- språket yy til språket xx overførings-reglene: denne filen inneholder reglene for hvordan språket yy skal endres til språket xx.I dette eksemplet så skal den være: apertium-sh-en.en-sh.t1x
Mange av tilgjengelige språkparene har andre filer men vi skal ikke snakke om dem her. Du trenger bare disse filene for å skape et funksjonell system.
Språkpar
Dette dekumentet bruker eksemplet på oversettelsen fra serbokroatisk til engelsk, for å forklare hvordan man skaper en grunnlegende system. Dette er ikke den ideale språkparet fordi systemet funkegere bedre på mer beslektede språk. Dette skaper sikkert ikke problemer for de enkle eksmplene vi skal bruke.
Kort om terminologi
Det er et par termer som må forstås før vi begynner.
Den første er et lemma. Lemmaet er en sitatform av et ord. Det er et ord som mangler alt grammatisk informasjon. For eksempel, lemmaet av katter er katt. I engelske substantiver så er det vangligvis et entall av ordet. Lemmaet av et verb er infitiv av ordet. Det vil si at lemmaet av "var", er "er".
Den andre er et symbol. Et symbol viser informasjon om et ord. Hvis ordet er katter ,som er et substantiv i flertall, da skal den ha et substantiv symbol og et flertall symbol. Symbolene er vanligvis plassert mellom hakeparentes:
- <n>; for substantiv.
- <pl>; for flertall.
Andre eksempler på symboler er <sg>; entall, <pl> første person, <pri> infitiv, etc. Hvis symbolene er skrevet i hakeparentes, så kan de også kalles for tags. Du bør huske at i mange av de tilgjengelige språkparene så står symbolene for acronymene og forkortelser av ordene i Catalan. For eksempel, vbhaver - fra vb (verb) og haver ("å ha" i Catalan). Symbolene er definert i <sdef>-taggene og brukes i taggen <s>.
Den tredje ordet er paradigme. Paradigmaet er et eksempel på hvordan en gruppe ord er bøyet. I den morfologiske ordboka, så er lemmaene, knyttet til paradigmene som gir oss muligheten å beskrive hvordan et lemma bøyes uten å måtte skrive alle suffikser.
Om vi ville, for eksempel, lagre to adjectiver dum og lat, i steden for å lagre begge sånn:
- dum, (ere, est)
- lat, (ere, est)
Så kan vi bare lagre en, å si at "lat, bøyes på samme måte som dum". I dette eksemplet, dum ville være et paradigme, en kilde på hvordan de andre skal bøyes. Paradigmer er definert i <pardef>-taggen og brukes i taggen <par>.
Hvordan å komme i gang
Ettspråklige ordlister
La oss starte med å lage vår første språkordliste. Ordboka er en XML-fil. Slå på en teksteditor og skriv følgende:
<? Xml version = "1.0" encoding = "UTF-8"?> <dictionary> </ Ordbok>
Filen definerer at vi ønsker å lage en ordbok. Nå må vi legge til alfabetet. Dette definerer et sett av bokstaver som skal brukes i ordboken. For Serbisk-Kroatisk så skal det se omtrent slik ut:
<alphabet> ABCČĆDDžĐEFGHIJKLLjMNNjOPRSŠTUVZŽabcčćddžđefghijklljmnnjoprsštuvzž </ alfabetet>
Plasser alfabetet under <dictionary> taggen.
Nå må vi definere et par symboler. La oss begynne med det enkle, substantiv (n) i entall (sg) og i flertall (pl).
<sdefs> <sdef n="n"/> <sdef n="sg"/> <sdef n="pl"/> </ Sdefs>
Symbolene må ikke å være så kort, de kan være så lang som du vil, men vi skal bruke dem mye, derfor er det fornuftig å forkorte.
Dessverre er det ikke så enkelt som det ser ut, substantiver i serbokroatisk bøyes ikke bare i entall og flertall, de bøyes også for kjønn og bokstavstørrelse. La oss anta at i forbindelse med dette eksemplet er substantiver i hankjønn og i nominativ bokstavstørrelse (et full eksempel finnes på slutten av dette dokumentet).
Det neste er å definere en seksjon for paradigmer,
<pardefs> </ Pardefs>
og en ordbok seksjon:
<seksjon id="main" type="standard"> </ Seksjon>
Det finnes to typer seksjoner, den første er en standard seksjon, som inneholder ord, enclitics, osv. Den andre typen er en ubetinget seksjon som vanligvis inneholder tegnsetting, og så videre. Vi buker ikke den ubetiget seksjonen her.
Nå skal filen vår se omtrent slik ut:
<? Xml version = "1.0" encoding = "UTF-8"?> <dictionary> <sdefs> <sdef n="n"/> <sdef n="sg"/> <sdef n="pl"/> </ Sdefs> <pardefs> </ Pardefs> <seksjon id="main" type="standard"> </ Seksjon> </ Ordbok>
Nå har vi skjelettet på plass, da kan vi begynne med å legge til et substantiv. Den substantiv vi skal bruke er 'gramofon "(som betyr' grammofonen 'eller' platespiller ').
Det første vi må gjøre, er å definere et paradigme.
Husk, vi antar at substativet er i hankjønn og i nominative bokstavstørrelsen. Entall av substantivet er 'gramofon', og flertall er "gramofoni '.
<pardef n="gramofon__n"> <E> <p> <l/> <R> <s n="n"/> <s n="sg"/> </ r> </ p> </ e> <E> <p> <l> i </ l> <R> <sn="n"/> <sn="pl"/> </ r> </ p> </ e> </ Pardef>
Legg merke til: '<l/>' (tilsvarer <l> </ l>) angir at det er ikke ekstra materiale som skal legges til stammen for entallet. Dette kan virke som en ganske utførlig måte å beskrive det, men du lærer det fort. Du lurer sikkert på hva <E>, <l> Og <R> står for. Vel,
- E, er for oppføringen.
- P, er for par.
- L, er for venstre.
- R, er for høyre.
Hvorfor venstre og høyre? De morfologiske ordbøkene skal bli kompilert inn i tilstandsautomater. Kompilering dem fra venstre til høyre produserer analyser fra ord, og fra høyre til venstre produserer ord fra analyser. For eksempel:
* Gramofoni (venstre til høyre) gramofon<n><pl> (analyse) * Gramofon<n><pl> (høyre til venstre) gramofoni (skapelse)
Nå har vi definert et paradigme, da må vi knytte den til lemma, gramofon. Vi setter dette i den delen vi har definert.
Oppføringen vi skal sette i <section> vil se sånn ut:
<e lm="gramofon"> <i> gramofon </ i> <par n="gramofon__n"/> </e>
Forkortelser:
- Lm, er for lemma.
- i er for identitet (venstre og høyre er det samme).
- par, er for paradigmet.
Denne oppføringen angir lemmaet av ordet, gramofon, roten, gramofon og det paradigmet den bøyes med gramofon__n. Forskjellen mellom lemmaet og roten er at lemma er "citation" form av ordet, mens roten er "substring" av lemmaet som stammer er lagt til.
Vi er nå klar til å teste ordlisten. Lagre den, og gå tilbake til "the shell". Vi må først kompilere den (med lt-comp), sånn at vi kan teste det (med lt-proc).
$ Lt-comp LR Apertium-sh-sh-en.sh.dix en.automorf.bin
Bør produsere output:
main@standard 12 12
På grunnen av at vi kompilerer den fra venstre til høyre, produserer bi en analysator. La oss også lage en skaper.
$ Lt-comp RL Apertium-sh-sh-en.sh.dix en.autogen.bin
Dette skulle produsere den samme output.
Vi kan nå teste disse. Kjør LT-proc på analysatoren.
$ Lt-proc sh-en.automorf.bin
Nå kan du teste den, skriv gramofoni (grammofoner), og se resultatet:
^ Gramofoni / gramofon <n> <pl> $
Nå, for den engelske ordlisten, gjør det samme, men bruk den engelske ordet grammofonen istedenfor gramofon, og endre flertall bøyning. Hva om du vil bruke ordet 'platespiller' i steden? Det skal vi forklare senere.
Du bør ha to filer i katalogen:
* Apertium-sh-en.sh.dix som inneholder en (veldig) grunnleggende serbisk-kroatisk morfologisk ordbok, og * Apertium-sh-en.en.dix som inneholder en (veldig) grunnleggende engelsk morfologisk ordbok.
Tospråklig ordliste
Nå har vi to morfologiske ordlister, det neste ting vi skal lage er en tospråklig ordliste. Dette beskriver tilordning mellom ord. Alle ordlister bruker det samme formatet (som er angitt i DTD, dix.dtd).
Opprett en ny fil, Apertium-sh-en.sh-en.dix og legg til den grunnleggende skjelettet:
<? Xml version = "1.0" encoding = "UTF-8"?> <dictionary> <alphabet/> <sdefs> <sdef n="n"/> <sdef n="sg"/> <sdef n="pl"/> </ Sdefs> <seksjon id="main" type="standard"> </ Seksjon> </ Ordbok>
Nå må vi legge til en oppføring som skal oversette mellom de to ordene.
<E> <p> <l> gramofon <sn="n"/> </ l> <R> grammofonen <sn="n"/> </ r> </ p> </ e>
På grunnen av at det er mange av disse oppføringene, er de vanligvis skrevet på samme for å gjøre lesing av filen enklere. Igjen med 'l' og 'r', ikke sant? Vi kompilerer den fra venstre til høyre for å produsere den serbisk-kroatisk → engelsk ordliste, og høyre til venstre for å produsere den engelsk → serbisk-kroatisk ordliste.
Da kjører du følgende kommandoer:
$ Lt-comp LR Apertium-sh-sh-en.sh.dix en.automorf.bin $ Lt-comp RL Apertium-sh-sh-en.en.dix en.autogen.bin $ Lt-comp LR Apertium-sh-en.en.dix en-sh.automorf.bin $ Lt-comp RL Apertium-sh-en.sh.dix en-sh.autogen.bin $ Lt-comp LR Apertium-sh-en.sh-en.dix sh-en.autobil.bin $ Lt-comp RL Apertium-sh-en.sh-en.dix en-sh.autobil.bin
For å generere morfologiske analysatorene (automorf), morfologiske generatorer (autogen) og oppslag av ord (autobil), er "bil" for "tospråklige".