Accélérer la création de fichiers unilingues

From Apertium
Jump to navigation Jump to search

In English

Cette page résume quelques idées pour accroître la vitesse à laquelle les dictionnaires unilingues (analyseurs) peuvent être créés.

Extraits[edit]

Extraits + contraintes
Extraits + contraintes + corpus

Baliser le transfert[edit]

Essayez ça à un moment :

**Problèmes** -- le corpus peut ne pas être bien aligné (ex: JRC-Acquis tchèque--slovaque) -- essayez de supprimer les mauvais alignements.

<spectie> vous avez un corpus aligné
<spectie> polonais--tchèque, tchèque--slovaque, danois--suédois
<spectie> et vous avez un analyseur pour le polonais, tchèque ou danois
<spectie> vous voulez faire un analyseur pour le suédois
<spectie> vous faites des modèles pour les paradigmes dans l'analyseur danois
<spectie> balisez le danois du corpus
<spectie> vous l'avez
<spectie> alignez-le avec le coté suédois
<spectie> alors read off (??) les alignements, en prenant les formes de surface du coté droit et les balises du coté gauche -- notez que vous aurez besoin de spécifier le lemme dans un fichier de configuration, ex: pour les noms n.*.sg.nom

une autre variante de ceci sans corpus parallèle pourrait être d'utiliser des extraits et ensuite utiliser un dictionnaire bilingue (même juste une liste de mots) et un corpus comparable pour désambiguïser les possibilités.

-- ex: vous avez une forme de surface dans la langue X qui peut être aussi bien un nom ou un verbe. 
       vous regardez la forme de surface dans la langue X dans un dictionnaire X--Y (vous avez un analyseur + tagueur pour Y)
       vous désambiguïsez la bonne analyse pour X basée sur l'analyse dans Y.

       -- vous pourriez étendre ceci à plus d'une langue, par exemple vous voulez construire un analyseur danois et vous avez des listes de mots anglais--danois,suédois--danois et des analyseurs pour suédois,anglais. Vous pouvez les vérifier tous les deux.
 
J'ai des volontaires haut et bas sorabe comme candidats idéals pour un test d'exécution de ceci : la grammaire est presque à 100% la même, j'ai une liste de paradigmes presque complète (moins les participes des verbes) pour le bas sorabe, et une liste de formes complète pour le haut sorabe - mais très peu d'information pour cartographier les terminaisons en cas. Le peu que j'ai des adjectifs cachoubie vient d'une version manuelle du processus ci-dessus, BTW. -- Jimregan 01:29, 5 juin 2008 (BST)
Le problème est qu'il y a peu de texte aligné pour le haut et bas sorabe non ? - Francis Tyers 10:21, 5 juin 2008 (BST)
Exact, mais j'ai dit pour un test d'exécution :) Jimregan 13:00, 12 juin 2008 (BST)