https://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&feed=atom&action=historyCréer un tagueur en mode automatique - Revision history2024-03-29T13:53:22ZRevision history for this page on the wikiMediaWiki 1.34.1https://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=50608&oldid=prevBech: Lien page anglaise2014-10-08T08:43:02Z<p>Lien page anglaise</p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 08:43, 8 October 2014</td>
</tr><tr>
<td colspan="2" class="diff-lineno">Line 1:</td>
<td colspan="2" class="diff-lineno">Line 1:</td>
</tr>
<tr>
<td colspan="2" class="diff-empty"> </td>
<td class="diff-marker">+</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>[[Unsupervised tagger training|In English]]</div></td>
</tr>
<tr>
<td colspan="2" class="diff-empty"> </td>
<td class="diff-marker">+</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Voir aussi : [[Entraînement d'un tagueur]]</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Voir aussi : [[Entraînement d'un tagueur]]</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
</tr>
</table>Bechhttps://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=39224&oldid=prevBech: Liens direct2013-02-21T17:24:36Z<p>Liens direct</p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 17:24, 21 February 2013</td>
</tr><tr>
<td colspan="2" class="diff-lineno">Line 1:</td>
<td colspan="2" class="diff-lineno">Line 1:</td>
</tr>
<tr>
<td class="diff-marker">−</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Voir aussi : [[<del class="diffchange diffchange-inline">Formation</del> d'un tagueur]]</div></td>
<td class="diff-marker">+</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Voir aussi : [[<ins class="diffchange diffchange-inline">Entraînement</ins> d'un tagueur]]</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>D'abord, fabriquez un répertoire appelé <code><lang>-tagger-data</code>. Mettez y votre corpus avec un nom comme <code><lang>.crp.txt</code>. Assurez-vous que le corpus est dans un format texte brut.</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>D'abord, fabriquez un répertoire appelé <code><lang>-tagger-data</code>. Mettez y votre corpus avec un nom comme <code><lang>.crp.txt</code>. Assurez-vous que le corpus est dans un format texte brut.</div></td>
</tr>
</table>Bechhttps://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=37109&oldid=prevBech: /* Quelques questions et réponses au sujet de l'entraînement de tagueur non supervisé */ correction de nom de fichier annulée2012-11-11T14:29:32Z<p><span dir="auto"><span class="autocomment">Quelques questions et réponses au sujet de l'entraînement de tagueur non supervisé: </span> correction de nom de fichier annulée</span></p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 14:29, 11 November 2012</td>
</tr><tr>
<td colspan="2" class="diff-lineno">Line 51:</td>
<td colspan="2" class="diff-lineno">Line 51:</td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>R: Non. Les mots inconnus vont dans une catégorie spéciale, donc vous avez aussi besoin d'une représentation adéquate des mots inconnus dans votre ensemble d'entraînement.</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>R: Non. Les mots inconnus vont dans une catégorie spéciale, donc vous avez aussi besoin d'une représentation adéquate des mots inconnus dans votre ensemble d'entraînement.</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
</tr>
<tr>
<td class="diff-marker">−</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>;Q<nowiki>:</nowiki> Dans quelles circonstances puis-je juste copier un fichier <del class="diffchange diffchange-inline">tagueur</del> .prob (ou un fichier .tsx) d'un autre projet ?</div></td>
<td class="diff-marker">+</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>;Q<nowiki>:</nowiki> Dans quelles circonstances puis-je juste copier un fichier <ins class="diffchange diffchange-inline">tagger</ins> .prob (ou un fichier .tsx) d'un autre projet ?</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>R: Vous devez vous assurer que les symboles sont exactement les même. Par exemple eo-en utilise les symboles <code>have<vblex><pres><p3><sg></code> et es-en utilise <code>have<vblex><pri><p3><sg></code>, donc ils ne marcheront pas.</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>R: Vous devez vous assurer que les symboles sont exactement les même. Par exemple eo-en utilise les symboles <code>have<vblex><pres><p3><sg></code> et es-en utilise <code>have<vblex><pri><p3><sg></code>, donc ils ne marcheront pas.</div></td>
</tr>
</table>Bechhttps://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=37103&oldid=prevBech: moved Créer un tagger en mode automatique to Créer un tagueur en mode automatique: Orthographe plus française2012-11-11T14:13:55Z<p>moved <a href="/w/index.php?title=Cr%C3%A9er_un_tagger_en_mode_automatique&action=edit&redlink=1" class="new" title="Créer un tagger en mode automatique (page does not exist)">Créer un tagger en mode automatique</a> to <a href="/wiki/Cr%C3%A9er_un_tagueur_en_mode_automatique" title="Créer un tagueur en mode automatique">Créer un tagueur en mode automatique</a>: Orthographe plus française</p>
<table class="diff diff-contentalign-left" data-mw="interface">
<tr class="diff-title" lang="en">
<td colspan="1" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="1" style="background-color: #fff; color: #222; text-align: center;">Revision as of 14:13, 11 November 2012</td>
</tr><tr><td colspan="2" class="diff-notice" lang="en"><div class="mw-diff-empty">(No difference)</div>
</td></tr></table>Bechhttps://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=37097&oldid=prevBech: iz2012-11-11T13:44:28Z<p>iz</p>
<table class="diff diff-contentalign-left" data-mw="interface">
<col class="diff-marker" />
<col class="diff-content" />
<col class="diff-marker" />
<col class="diff-content" />
<tr class="diff-title" lang="en">
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">← Older revision</td>
<td colspan="2" style="background-color: #fff; color: #222; text-align: center;">Revision as of 13:44, 11 November 2012</td>
</tr><tr>
<td colspan="2" class="diff-lineno">Line 33:</td>
<td colspan="2" class="diff-lineno">Line 33:</td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div> en-af.prob;</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div> en-af.prob;</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Calculating ambiguity classes...</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Calculating ambiguity classes...</div></td>
</tr>
<tr>
<td class="diff-marker">−</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;"><div>Kupiec's initializa<<del class="diffchange diffchange-inline">b</del>></<del class="diffchange diffchange-inline">b</del>>tion of transition and emission probabilities...</div></td>
<td class="diff-marker">+</td>
<td style="color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;"><div>Kupiec's initializa<<ins class="diffchange diffchange-inline">nowiki</ins>></<ins class="diffchange diffchange-inline">nowiki</ins>>tion of transition and emission probabilities...</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Applying forbid and enforce rules...</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Applying forbid and enforce rules...</div></td>
</tr>
<tr>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Training (Baum-Welch)...</div></td>
<td class="diff-marker"> </td>
<td style="background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;"><div>Training (Baum-Welch)...</div></td>
</tr>
</table>Bechhttps://wiki.apertium.org/w/index.php?title=Cr%C3%A9er_un_tagueur_en_mode_automatique&diff=37079&oldid=prevBech: Création page2012-11-11T00:34:39Z<p>Création page</p>
<p><b>New page</b></p><div>Voir aussi : [[Formation d'un tagueur]]<br />
<br />
D'abord, fabriquez un répertoire appelé <code><lang>-tagger-data</code>. Mettez y votre corpus avec un nom comme <code><lang>.crp.txt</code>. Assurez-vous que le corpus est dans un format texte brut.<br />
<br />
Lorsque vous y avez votre corpus vous avez besoin d'un Makefile qui spécifie comment générer le ficher de probabilités. Vous pouvez en prendre un d'un autre paquet de langue. Pour <code>apertium-en-af</code> j'ai pris le Makefile de <code>apertium-en-ca</code>. Le fichier dont vous avez besoin est appelé <code>en-ca-unsupervised.make</code>.<br />
<br />
Copiez-le dans votre répertoire principal de la paire de langues sous un nom approprié, ensuite éditez-le et changez les variables au début du fichier, <code>BASENAME</code>, <code>LANG1</code>, et <code>LANG2</code>. Tout le reste devrait aller.<br />
<br />
Maintenant lancez :<br />
<br />
<pre><br />
$ make -f en-af-unsupervised.make<br />
</pre><br />
<br />
et attendez... vous devriez obtenir une sortie comme :<br />
<br />
<pre><br />
Generating en-tagger-data/en.dic<br />
This may take some time. Please, take a cup of coffee and come back later.<br />
apertium-validate-dictionary apertium-en-af.en.dix<br />
apertium-validate-tagger apertium-en-af.en.tsx<br />
lt-expand apertium-en-af.en.dix | grep -v "__REGEXP__" | grep -v ":<:" |\<br />
awk 'BEGIN{FS=":>:|:"}{print $1 ".";}' | apertium-destxt >en.dic.expanded<br />
lt-proc -a en-af.automorf.bin <en.dic.expanded | \<br />
apertium-filter-ambiguity apertium-en-af.en.tsx > en-tagger-data/en.dic<br />
rm en.dic.expanded;<br />
apertium-destxt < en-tagger-data/en.crp.txt | lt-proc en-af.automorf.bin > en-tagger-data/en.crp<br />
apertium-validate-tagger apertium-en-af.en.tsx<br />
apertium-tagger -t 8 \<br />
en-tagger-data/en.dic \<br />
en-tagger-data/en.crp \<br />
apertium-en-af.en.tsx \<br />
en-af.prob;<br />
Calculating ambiguity classes...<br />
Kupiec's initializa<b></b>tion of transition and emission probabilities...<br />
Applying forbid and enforce rules...<br />
Training (Baum-Welch)...<br />
Applying forbid and enforce rules...<br />
</pre><br />
<br />
Et après ça vous devriez avoir un fichier <code>en-af.prob</code> , qui peut être utilisé avec le module <code>apertium-tagger</code> .<br />
<br />
== Quelques questions et réponses au sujet de l'entraînement de tagueur non supervisé ==<br />
<br />
;Q<nowiki>:</nowiki> De quelle taille de dictionnaire ai-je besoin ?<br />
<br />
R: Pour la paire [[English and Esperanto|anglais et espéranto]] on avait approximativement 13000 entrées. Approximativement la moitié des phrases d'entraînement avaient un mot inconnu. Avec ça, on obtenait une performance de tagueur très pauvre. Alors on a ajouté 7000 noms propres, donc on a 20000 entrées. Ça rend la qualité acceptable.<br />
<br />
;Q<nowiki>:</nowiki> Mon dictionnaire n'est pas assez grand, et approximativement la moitié des phrases d'entraînement ont un mot inconnu. Puis-je juste enlever ces phrases par grep, et ensuite entraîner le reste ?<br />
<br />
R: Non. Les mots inconnus vont dans une catégorie spéciale, donc vous avez aussi besoin d'une représentation adéquate des mots inconnus dans votre ensemble d'entraînement.<br />
<br />
;Q<nowiki>:</nowiki> Dans quelles circonstances puis-je juste copier un fichier tagueur .prob (ou un fichier .tsx) d'un autre projet ?<br />
<br />
R: Vous devez vous assurer que les symboles sont exactement les même. Par exemple eo-en utilise les symboles <code>have<vblex><pres><p3><sg></code> et es-en utilise <code>have<vblex><pri><p3><sg></code>, donc ils ne marcheront pas.<br />
<br />
;Q<nowiki>:</nowiki> J'ai changé un paradigme qui est souvent utilisé et maintenant beaucoup de mots qui utilisent ce paradigme sont balisé différemment !<br />
<br />
R: Oui. Vous aurez besoin de ré entraîner votre tagueur parce que les probabilités ont changé.<br />
Si par exemple vous supprimez l'impératif (qui en anglais est le même que l'infinitif) pour un paradigme de verbe le tagueur distribuera les probabilités aux autres possibilités.<br />
<br />
;Q<nowiki>:</nowiki> Puis-je faire en sorte que le tagueur distingue entre les formes de surface qui sont les mêmes en toutes circonstances.<br />
<br />
R: Probablement pas très bien. Par exemple l'impératif anglais a la même forme que l'infinitif. A moins que vous écriviez des règles TSX rules extrêmement astucieuses le tagueur n'a aucune chance de distinguer les deux formes et va choisir entre elles plus ou moins au hasard.<br />
Ce genre de choses sont beaucoup mieux détectées et supportées par le transfert.<br />
<br />
;Q<nowiki>:</nowiki> Que fait <code>apertium-tagger-apply-new-rules</code> ?<br />
<br />
R: Il applique les règles forbid et enforce d'un nouveau fichier TSX à un fichier .prob existant, avec aucun besoin de ré-entraîner. Les catégories doivent rester les même. C'est une solution rapide pour les petits changements, si vous modifiez beaucoup le fichier TSX, il est recommandé de ré-entraîner le tagueur.<br />
<br />
;Q<nowiki>:</nowiki> On m'a raconté que les tagueurs fonctionnent à 99% ou plus pour l'anglais. Ça ne semble pas être le cas dans Apertium. Était-ce juste une histoire, ou le tagueur Apertium est il trop simpliste ?<br />
<br />
R: Le meilleur tagueur fonctionne à 99%. Les humains généralement ont 98% de succès et notre tagueur fonctionne à environ 93-95%.<br />
<br />
Pourquoi notre tagueur anglais fonctionne mal :<br />
<br />
# les meilleurs tagueurs ont de nombreuses règles désambiguïsation écrites à la main<br />
# les meilleurs tagueurs HMM utilisent des trigrammes (on utilise des digrammes -- pour la vitesse)<br />
# les meilleurs tagueurs utilisent un corpus balisé à la main pour s'entraîner (on utilise un corpus non balisé -- pour l'anglais)<br />
<br />
Donc, pour améliorer la performance, vous aurez besoin soit : 1) d'écrire de meilleures règles de désambiguïsation, 2) d'adapter le tagueur pour utiliser des trigrammes, 3) de baliser à la main un corpus d'entraînement -- ou de convertir un de ceux déjà balisés.<br />
<br />
;Q<nowiki>:</nowiki> Le tagueur utilise peu de CPU de toutes façon, c'est le transfert qui est gourmand en CPU. Donc pourquoi s'ennuyer avec des contraintes CPU ?<br />
<br />
R: Le tagueur a été conçu et implémenté quand on avait un transfert en une étape (mais vous êtes bienvenu pour récrire le tagueur pour utiliser des trigrammes :-)<br />
<br />
== Améliorer la performance du tagueur ==<br />
<br />
;Q<nowiki>:</nowiki> Mon tagueur fonctionne pauvrement. Que puis-je faire ?<br />
<br />
R: En supposant que votre fichier TSX est correct, la meilleure chose que vous pouvez faire est d'ajouter des mots à votre dictionnaire afin que moins de mots (mais toujours quelques-uns) soient inconnus.<br />
Vous pouvez aussi essayer avec un autre corpus.<br />
<br />
;Q<nowiki>:</nowiki> Puis-je juste baliser un corpus avec le tagueur, corriger les balises en places quand il a sélectionné la mauvaise possibilité, et ré-entraîner ce fichier ?<br />
<br />
R: Oui vous pouvez. C'est ce qu'on appelle l'entraînement supervisé : utiliser un corpus désambiguïsé à la main. Vous aurez besoin d'environ 25000 mots pour obtenir de bons résultats.<br />
<br />
;Q<nowiki>:</nowiki> Puis-je améliorer mon entraînement non supervisé avec des exemples désambiguïsés choisis à la main ?<br />
<br />
R: Vous pouvez entraîner avec une nouvelle itération en prenant les probabilités d'un entraînement précédent avec l'option --retrain.<br />
Les catégories doivent être les mêmes, et le fichier <code>.tsx</code> doit être le même.<br />
<br />
L'expert ici est Felipe. Il dit :<br />
<br />
L'option --retrain est utilisée pour ré-entraîner le tagueur : <br />
Dans chaque itération de Baum Welch, les probabilités du modèle de Markov sont ré-estimées en utilisant les probabilités obtenues dans une itération précédente. <br />
Avec --retrain ce que vous dites au tagueur est de lire les probabilités du fichier et de les re-estimer avec le corpus d'entraînement; en d'autres termes, d'ajouter une ou plusieurs autres itérations. <br />
Par exemple, un entraînement avec 6 itérations et un ré-entraînement avec 2 est équivalent à un entraînement avec 8 itérations depuis le début (en supposant que c'est le même corpus, bien sûr).<br />
<br />
Une manière de mixer l'entraînement supervisé et non supervisé est d'entraîner de manière supervisée avec un corpus (désambiguïsé) balisé à la main et ensuite ré-entraîner (--retrain) avec un corpus plus grand non balisé.<br />
<br />
[[Category:Documentation]]<br />
[[Category:Documentation en français]]</div>Bech