Trouver des erreurs dans des dictionnaires

Introduction

C'est facile de commettre des erreurs en fabriquant ou modifiant des dictionnaires . Ce page-ci présent un façon simple de trouver beaucoup d'erreurs.

Résumé

D'abord, étendez le dictionnaire unilingue. Cela va produire un fichier très grand.

Puis, faites une liste de mots correctement orthographiés pour les exclure du dictionnaire étendu.

Finalement, contrôlez les mots restant dans un programme de traitement de texte, pour trouver rapidement les erreurs. Ouvrez le dictionnaire original dans un éditeur de texte et corrigez les erreurs que vous avez trouvez .

Option: contrôler s'il y a des entrées doubles

Étendre le dictionnaire unilingue

Accédez au dossier où le dictionnaire est gardé. La commande qui suit va étendre le dictionnaire, cet-à-dire créer toutes les formes de chaque mot selon le paradigme attribué. Seulement les formes qui ne sont pas marquées d'un balise LR ou RL sont étendues, et de plus les entrées fautives crées par un bug qui est connu depuis longtemps (NON_ANALYSIS) sont supprimées. L’exemple suivant étend le dictionnaire unilingue Suédois:

lt-expand apertium-swe.swe.dix | grep -v ':[<>]:' | cut -f1 -d:| fgrep -v 'NON_ANALYSIS' > swe.expanded

Changez pour le dictionnaire que vous souhaitez corriger, c'est-à-dire changez "apertium-swe.swe.dix" pour le nom de votre dictionnaire et changez le nom de sortie "swe.expanded" pour quelque-chose qui convient.

Faire une liste de mots correctement orthographiés

texte

Écarter les mots correctement orthographiés

texte

Vérifier l'orthographe dans le reste du dictionnaire étendu

texte

Option: Contrôler s'il y a des entrées doubles

Il peut arriver qu'il y a des entrées double pour le même mot. Vous pouvez facilement les trouver si vous faites une liste sur la fréquence des mots dans le dictionnaire étendu. La commande dessous fait une liste de fréquence pour le dictionnaire Suédois étendu:

Commencez contrôler en haut s'il y a des doubles. S'il vous plaît, noter qu'il y deux cause de fausse alarmes fréquentes :

1. Quelques-unes des formes pourraient être similaires, ce qui cause une fréquence haute .

2. Quelques-un des mots similaires sont en fait des mots différent qui par hasard ont la même orthographe .

Source

Version original

Voir aussi

Trouver des erreurs dans des dictionnaires

Contents

Introduction

Résumé

Étendre le dictionnaire unilingue

Faire une liste de mots correctement orthographiés

Écarter les mots correctement orthographiés

Vérifier l'orthographe dans le reste du dictionnaire étendu

Option: Contrôler s'il y a des entrées doubles

Source

Voir aussi

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools