Difference between revisions of "Tagger (français)"

From Apertium
Jump to navigation Jump to search
(Création page)
 
 
(5 intermediate revisions by 2 users not shown)
Line 1: Line 1:
  +
{{otherlang|Tagger|In English}}
'''Tagger''' est une abréviation usuelle pour ''tagger de partie de discours'', un programme qui prend une séquence ambiguë d'un texte analysé morphologiquement et choisit l'analyse la plus probable.
 
  +
 
'''Tagger''' (en français, tagueur) est l'abréviation usuelle de ''Part-of-Speech tagger'' (tagueur de partie de discours) et désigne un programme qui prend une séquence ambiguë d'un texte analysé morphologiquement et choisit l'analyse la plus probable.
   
 
À partir de l'entrée espagnole ambiguë qui suit ("tengo una idea")
 
À partir de l'entrée espagnole ambiguë qui suit ("tengo una idea")
Line 5: Line 7:
 
^tengo/tener<vblex><pri><p1><sg>$ ^una/uno<prn><tn><f><sg>/uno<det><ind><f><sg>/unir<vblex><prs><p3><sg>/unir<vblex><prs><p1><sg>/unir<vblex><imp><p3><sg>$ ^idea/idea<n><f><sg>/idear<vblex><pri><p3><sg>/idear<vblex><imp><p2><sg>$
 
^tengo/tener<vblex><pri><p1><sg>$ ^una/uno<prn><tn><f><sg>/uno<det><ind><f><sg>/unir<vblex><prs><p3><sg>/unir<vblex><prs><p1><sg>/unir<vblex><imp><p3><sg>$ ^idea/idea<n><f><sg>/idear<vblex><pri><p3><sg>/idear<vblex><imp><p2><sg>$
 
</pre>
 
</pre>
un bon tagger terminerait par
+
un bon tagueur produira
 
<pre>
 
<pre>
 
^tener<vblex><pri><p1><sg>$ ^uno<det><ind><f><sg>$ ^idea<n><f><sg>$
 
^tener<vblex><pri><p1><sg>$ ^uno<det><ind><f><sg>$ ^idea<n><f><sg>$
 
</pre>
 
</pre>
   
Le programme <code>apertium-tagger</code> termine ça en utilisant un modèle de Markov caché, un modèle statistique utilisant les bigrammes (la formation de trigrammes est également possible). La génération de <code>apertium-tagger</code> peut être supervisée ou non; il y a aussi [[Formation d'un tagger de langue cible]] où la génération est basée sur la qualité des traductions données par le balisage, en utilisant un modèle linguistique pour la langue cible. Si une séquence de bigrammes particulière est impossible, on peut explicitement dire au tagger que cela INTERDIT ou IMPOSE des règles.
+
C'est ce que fait le programme <code>apertium-tagger</code>, au moyen d'un modèle de Markov caché, modèle statistique qui utilise les bigrammes (l'entraînement de trigrammes est également possible). La génération de <code>apertium-tagger</code> peut être supervisée ou non ; il y a aussi [[Entraînement d'un tagueur de langue cible]] où la génération est basée sur la qualité des traductions données par le balisage, en utilisant un modèle linguistique pour la langue cible. Si une séquence de bigrammes particulière est impossible, on peut explicitement dire au tagueur que cela INTERDIT ou IMPOSE des règles.
   
Certaines paires de langues utilisent les [[contraintes grammaticales]] (CG) pour supprimer davantage d'interprétations avant <code>apertium-tagger</code>; CG vous laisse écrire des taggers basés sur des règles, ce qui permet d'avoir des règles plus complexes.
+
Certaines paires de langues utilisent les [[contraintes grammaticales]] (CG) pour supprimer davantage d'interprétations avant <code>apertium-tagger</code> ; CG vous laisse écrire des tagueurs basés sur des règles, ce qui permet d'avoir des règles plus complexes.
   
 
== Voir aussi ==
 
== Voir aussi ==
   
* [[Formation d'un tagger]]
+
* [[Entraînement d'un tagueur]]
 
* [[Contraintes grammaticales]]
 
* [[Contraintes grammaticales]]
   

Latest revision as of 01:58, 24 January 2020

In English

Tagger (en français, tagueur) est l'abréviation usuelle de Part-of-Speech tagger (tagueur de partie de discours) et désigne un programme qui prend une séquence ambiguë d'un texte analysé morphologiquement et choisit l'analyse la plus probable.

À partir de l'entrée espagnole ambiguë qui suit ("tengo una idea")

^tengo/tener<vblex><pri><p1><sg>$ ^una/uno<prn><tn><f><sg>/uno<det><ind><f><sg>/unir<vblex><prs><p3><sg>/unir<vblex><prs><p1><sg>/unir<vblex><imp><p3><sg>$ ^idea/idea<n><f><sg>/idear<vblex><pri><p3><sg>/idear<vblex><imp><p2><sg>$

un bon tagueur produira

^tener<vblex><pri><p1><sg>$ ^uno<det><ind><f><sg>$ ^idea<n><f><sg>$

C'est ce que fait le programme apertium-tagger, au moyen d'un modèle de Markov caché, modèle statistique qui utilise les bigrammes (l'entraînement de trigrammes est également possible). La génération de apertium-tagger peut être supervisée ou non ; il y a aussi Entraînement d'un tagueur de langue cible où la génération est basée sur la qualité des traductions données par le balisage, en utilisant un modèle linguistique pour la langue cible. Si une séquence de bigrammes particulière est impossible, on peut explicitement dire au tagueur que cela INTERDIT ou IMPOSE des règles.

Certaines paires de langues utilisent les contraintes grammaticales (CG) pour supprimer davantage d'interprétations avant apertium-tagger ; CG vous laisse écrire des tagueurs basés sur des règles, ce qui permet d'avoir des règles plus complexes.

Voir aussi[edit]