Difference between revisions of "User:Jimregan/Misc"

From Apertium
Jump to navigation Jump to search
m (should be all of them)
(Start of a monodix for Russian)
Line 102: Line 102:
Wiedeń, Wiednia, Wiedniem, Wiedniu, Wiedniowi,
Wiedeń, Wiednia, Wiedniem, Wiedniu, Wiedniowi,
Wersal, Wersalowi, Wersalem, Wersalu,
Wersal, Wersalowi, Wersalem, Wersalu,
</pre>

Start of a monodix for Russian:

<pre>
<?xml version="1.0" encoding="UTF-8"?>
<dictionary>
<alphabet>АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя</alphabet>
<!-- include sdefs from elsewhere -->
<pardefs>
<pardef n="собак/а__n">
<e>
<p>
<l>а</l>
<r>а<s n="n"/><s n="nom"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>у</l>
<r>а<s n="n"/><s n="acc"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ы</l>
<r>а<s n="n"/><s n="gen"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>е</l>
<r>а<s n="n"/><s n="dat"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>е</l>
<r>а<s n="n"/><s n="prep"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ой</l>
<r>а<s n="n"/><s n="inst"/><s n="f"/><s n="sg"/></r>
</p>
</e>
</pardef>
<pardef n="мат/ь__n">
<e>
<p>
<l>ь</l>
<r>ь<s n="n"/><s n="nom"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ь</l>
<r>ь<s n="n"/><s n="acc"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ери</l>
<r>ь<s n="n"/><s n="gen"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ери</l>
<r>ь<s n="n"/><s n="dat"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ери</l>
<r>ь<s n="n"/><s n="prep"/><s n="f"/><s n="sg"/></r>
</p>
</e>
<e>
<p>
<l>ерью</l>
<r>ь<s n="n"/><s n="inst"/><s n="f"/><s n="sg"/></r>
</p>
</e>
</pardef>
</pardefs>
<section id="main" type="standard">
<e lm="собака"><i>собак</i><par n="собак/а__n"/></e>
<e lm="мать"><i>мат</i><par n="мат/ь__n"/></e>
<e lm="бог"><i>бо</i><par n="бо/г__n"/></e>
</section>
</dictionary>
</pre>
</pre>

Revision as of 16:06, 11 October 2007

stem-splitter.pl

#!/usr/bin/perl

use warnings;
use strict;

use String::Diff qw/diff_fully/;

while(<>)
{
	s/,\W+$//;
	my $endings = $_;
	my @a = split/, /;
	my $stem = find_stem(@a);
	$endings =~ s/$stem//g;
	print $stem; 
	if ($endings =~ /owie/) {print ":n.m1:";}
	else {print ":n.??:";}
	print join(',', sort split/, /, $endings), "\n";
}

sub find_stem()
{
	my @in = @_;
	my ($r, $l, $cur, $last);
	my $i=0;

	while ($i<($#in))
	{
		($r, $l) = diff_fully($in[$i], $in[$i+1]);
	
		$cur = $r->[0]->[1];
		$last = $cur if (!$last);
		if ($cur ne $last) {
			($r, $l) = diff_fully($last, $cur);
			$last = $r->[0]->[1];
		} 
	$i++;
	}
	return $last;
}

This is a list of patterns that should be generated by the Polish monodix.

hotel, hoteli, hotelowi, hotelem, hotelu, hotelach, hotelami, hotelom, hotelów, hotele, 
pies, psa, psie, psem, psu, psy, psach, psami, psom, psów, 
stół, stole, stołowi, stołem, stołu, stoły, stołach, stołami, stołom, stołów, 
gołąb, gołębie, gołębiach, gołębi, gołębiami, gołębiom, gołębia, gołębiem, gołębiowi, gołębiu, 
kot, kota, kocie, kotowi, kotem, kotach, kotami, kotom, kotów, koty, 
dzień, dnia, dniowi, dniem, dniu, dniach, dniami, dni, dniom, dnie, 
tydzień, tygodni, tygodnia, tygodniach, tygodniami, tygodnie, tygodniem, tygodniom, tygodniowi, tygodniu, 
miesiąc, miesiąca, miesiącowi, miesiącem, miesiącu, miesiącach, miesiącami, miesiącom, miesięcy, miesiące, 
student, studenta, studencie, studentowi, studentem, studenci, studentach, studentami, studentom, studenty, studentów, 
brat, braci, braty, bracia, braciach, bracie, braciom, braćmi, brata, bratem, bratu, 
przyjaciel, przyjaciela, przyjacielowi, przyjacielem, przyjacielu, przyjaciele, przyjaciołach, przyjaciołom, przyjaciół, przyjaciółmi, 
syn, synach, synami, synom, synów, synowie, syny, syna, synem, synowi, synu, 
lekarz, lekarza, lekarzowi, lekarzem, lekarzu, lekarze, lekarzy, lekarzach, lekarzami, lekarzom, 
mąż, męża, mężowi, mężem, mężu, mężach, mężami, mężom, mężów, mężowie, męże, 
ojciec, ojca, ojcem, ojcu, ojcach, ojcami, ojcom, ojców, ojcowie, ojce, ojcze, 
kobieta, kobiecie, kobieto, kobiety, kobietą, kobietę, kobietach, kobietami, kobietom, kobiet, 
ulica, ulice, ulico, ulicy, ulicą, ulicę, ulicach, ulicami, ulicom, ulic, 
noga, nodze, nogi, nogo, nogą, nogę, nogach, nogami, nogom, nóg, 
ręka, ręku, rękoma, rąk, ręce, ręki, ręko, ręką, rękę, rękach, rękami, rękom, 
rzeka, rzece, rzeki, rzeko, rzeką, rzekę, rzek, rzekach, rzekami, rzekom, 
noc, noce, nocy, nocą, nocach, nocami, nocom, 
gospodyni, gospodynie, gospodynią, gospodynię, gospodyń, gospodyniach, gospodyniami, gospodyniom, 
gwiazda, gwieździe, gwiazdo, gwiazdy, gwiazdą, gwiazdę, gwiazdach, gwiazdami, gwiazdom, gwiazd, 
teściowa, teściowe, teściowych, teściowymi, teściowej, teściowym, teściową, teściowo, 
miasto, miasta, mieście, miastem, miastu, miastach, miastami, miastom, miast, 
zdanie, zdania, zdaniem, zdaniu, zdaniach, zdaniami, zdaniom, zdań, 
oko, oka, okiem, oku, oczach, oczami, oczom, oczów, oczu, oczy, oczyma, ócz, 
ucho, ucha, uchem, uchu, uszach, uszami, uszom, uszów, uszu, uszy, uszyma, 
dziecko, dziecka, dzieckiem, dziecku, dziecku, dzieci, dzieciach, dzieciom, dziećmi, 
zwierzę, zwierzęcia, zwierzęciem, zwierzęciu, zwierzęta, zwierzętach, zwierzętami, zwierzętom, zwierząt, 
imię, imienia, imieniem, imieniu, imiona, imionach, imionami, imionom, imion, 
jabłko, jabłka, jabłkiem, jabłku, jabłku, jabłkach, jabłkami, jabłek, jabłkom, 
okno, okna, oknie, oknem, oknu, oknach, oknami, oknom, okien, 
dach, dachowi, dachem, dachu, dachy, dachach, dachami, dachom, dachów, 
królowa, królowe, królowych, królowymi, królowej, królowym, królową, królowo, 
źródło, źródła, źródle, źródłem, źródłu, źródłach, źródłami, źródłom, źródeł, 
sklep, sklepie, sklepowi, sklepem, sklepu, sklepy, sklepach, sklepami, sklepom, sklepów, 
muzeum, muzea, muzeach, muzeami, muzeom, muzeów, 
światło, światła, świetle, światłem, światłu, światłach, światłami, światłom, świateł, 
matka, matek, matce, matki, matko, matką, matkę, matkach, matkami, matkom, 
kość, kości, kością, kościach, kościom, kośćmi, kościami, 
miłość, miłości, miłością, miłościach, miłościami, miłościom, 
mama, mamie, mamo, mamy, mamą, mamę, mamach, mamami, mamom, mam, 
broń, bronie, broni, bronią, broniach, broniami, broniom, 
profanacja, profanacje, profanacyj, profanacji, profanacjo, profanacją, profanację, profanacjach, profanacjami, profanacjom, 
Francja, Francji, Francjo, Francją, Francję, 
Werona, Weronie, Werono, Werony, Weroną, Weronę, 
Czechy, Czechach, Czechami, Czechom, Czech, 
Urugwaj, Urugwajowi, Urugwajem, Urugwaju, 
Włochy, Włoch, Włochami, Włochom, Włoszech, 
Węgry, Węgier, Węgrach, Węgrami, Węgrzech, 
Niemcy, Niemczech, Niemcami, Niemcom, Niemiec, 
Watykan, Watykanie, Watykanowi, Watykanem, Watykanu, 
Wiedeń, Wiednia, Wiedniem, Wiedniu, Wiedniowi, 
Wersal, Wersalowi, Wersalem, Wersalu, 

Start of a monodix for Russian:

<?xml version="1.0" encoding="UTF-8"?>
<dictionary>
  <alphabet>АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя</alphabet>
  <!-- include sdefs from elsewhere -->
  <pardefs>
    <pardef n="собак/а__n">
      <e>
        <p>
          <l>а</l>
          <r>а<s n="n"/><s n="nom"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>у</l>
          <r>а<s n="n"/><s n="acc"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ы</l>
          <r>а<s n="n"/><s n="gen"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>е</l>
          <r>а<s n="n"/><s n="dat"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>е</l>
          <r>а<s n="n"/><s n="prep"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ой</l>
          <r>а<s n="n"/><s n="inst"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
    </pardef>
    <pardef n="мат/ь__n">
      <e>
        <p>
          <l>ь</l>
          <r>ь<s n="n"/><s n="nom"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ь</l>
          <r>ь<s n="n"/><s n="acc"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ери</l>
          <r>ь<s n="n"/><s n="gen"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ери</l>
          <r>ь<s n="n"/><s n="dat"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ери</l>
          <r>ь<s n="n"/><s n="prep"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
      <e>
        <p>
          <l>ерью</l>
          <r>ь<s n="n"/><s n="inst"/><s n="f"/><s n="sg"/></r>
        </p>
      </e>
    </pardef>
  </pardefs>
  
  <section id="main" type="standard">
    <e lm="собака"><i>собак</i><par n="собак/а__n"/></e>
    <e lm="мать"><i>мат</i><par n="мат/ь__n"/></e>
    <e lm="бог"><i>бо</i><par n="бо/г__n"/></e>
  </section>
</dictionary>