<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Calculer_la_couverture</id>
	<title>Calculer la couverture - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Calculer_la_couverture"/>
	<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;action=history"/>
	<updated>2026-05-05T19:34:40Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.34.1</generator>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=50542&amp;oldid=prev</id>
		<title>Bech: Lien page anglaise</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=50542&amp;oldid=prev"/>
		<updated>2014-10-08T07:05:02Z</updated>

		<summary type="html">&lt;p&gt;Lien page anglaise&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 07:05, 8 October 2014&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;[[Calculating coverage|In English]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;Notes sur le calcul de la couverture à partir de dumps wikipédia (basé sur la page [[Asturian#Calculating coverage]]). &lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;Notes sur le calcul de la couverture à partir de dumps wikipédia (basé sur la page [[Asturian#Calculating coverage]]). &lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=39041&amp;oldid=prev</id>
		<title>Polo: /* Script prêt à fonctionner */</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=39041&amp;oldid=prev"/>
		<updated>2013-02-19T06:20:07Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Script prêt à fonctionner&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 06:20, 19 February 2013&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 59:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 59:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;&amp;lt;/pre&amp;gt;&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;&amp;lt;/pre&amp;gt;&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;== Script prêt à &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;fonctionner&lt;/del&gt; ==&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;== Script prêt à &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;l&#039;emploi&lt;/ins&gt; ==&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;corpus-stat.sh&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;corpus-stat.sh&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Polo</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=33119&amp;oldid=prev</id>
		<title>Bech: moved Calculer+la+couverture to Calculer la couverture:&amp;#32;encor des + à la place des blancs !</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=33119&amp;oldid=prev"/>
		<updated>2012-03-30T09:47:44Z</updated>

		<summary type="html">&lt;p&gt;moved &lt;a href=&quot;/w/index.php?title=Calculer%2Bla%2Bcouverture&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;Calculer+la+couverture (page does not exist)&quot;&gt;Calculer+la+couverture&lt;/a&gt; to &lt;a href=&quot;/wiki/Calculer_la_couverture&quot; title=&quot;Calculer la couverture&quot;&gt;Calculer la couverture&lt;/a&gt;: encor des + à la place des blancs !&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;1&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;1&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 09:47, 30 March 2012&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-notice&quot; lang=&quot;en&quot;&gt;&lt;div class=&quot;mw-diff-empty&quot;&gt;(No difference)&lt;/div&gt;
&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=33118&amp;oldid=prev</id>
		<title>Bech: Création page</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Calculer_la_couverture&amp;diff=33118&amp;oldid=prev"/>
		<updated>2012-03-30T09:46:13Z</updated>

		<summary type="html">&lt;p&gt;Création page&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;Notes sur le calcul de la couverture à partir de dumps wikipédia (basé sur la page [[Asturian#Calculating coverage]]). &lt;br /&gt;
&lt;br /&gt;
(La commande &amp;#039;sed&amp;#039; de Mac OS X ne permet pas les remplacements de \n , donc on utilise un vrai passage à la ligne précédée d&amp;#039;un \ )&lt;br /&gt;
&lt;br /&gt;
wikicat.sh:&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
#!/bin/sh&lt;br /&gt;
# Nettoyer le texte wiki pour l&amp;#039;utiliser via apertium-destxt&lt;br /&gt;
&lt;br /&gt;
# awk affiche des lignes complètes, s&amp;#039;assurer que chaque élément html en possède une&lt;br /&gt;
bzcat &amp;quot;$@&amp;quot; | sed &amp;#039;s/&amp;gt;/&amp;gt;\&lt;br /&gt;
/g&amp;#039; | sed &amp;#039;s/&amp;lt;/\&lt;br /&gt;
&amp;lt;/g&amp;#039; |\&lt;br /&gt;
# on veut seulement ce qu&amp;#039;il y a entre &amp;lt;text...&amp;gt; et &amp;lt;/text&amp;gt;&lt;br /&gt;
awk &amp;#039;&lt;br /&gt;
/&amp;lt;text.*&amp;gt;/,/&amp;lt;\/text&amp;gt;/ { print $0 }&lt;br /&gt;
&amp;#039; |\&lt;br /&gt;
sed &amp;#039;s/\./ /g&amp;#039; |\&lt;br /&gt;
# supprimer tous les liens transwiki&lt;br /&gt;
sed &amp;#039;s/\[\[\([a-z]\{2,3\}\|bat-smg\|be-x-old\|cbk-zam\|fiu-vro\|map-bms\|nds-nl\|roa-rup\|roa-tara\|simple\|zh-classical\|zh-min-nan\|zh-yue\):[^]]\+\]\]//g&amp;#039; |\&lt;br /&gt;
# balise wiki, garder bar et fie de [[foo|bar]] [[fie]]&lt;br /&gt;
sed &amp;#039;s/\[\[[^]|]*|//g&amp;#039; | sed &amp;#039;s/\]\]//g&amp;#039; | sed &amp;#039;s/\[\[//g&amp;#039; |\&lt;br /&gt;
# balise wiki, garder `bar fie&amp;#039; de [http://foo bar fie] et enlever [http://foo]&lt;br /&gt;
sed &amp;#039;s/\[http[^ ]*\([^]]*\)\]/\1/g&amp;#039; |\&lt;br /&gt;
# enlever les entités&lt;br /&gt;
sed &amp;#039;s/&amp;amp;[^;]*;/ /g&amp;#039; |\&lt;br /&gt;
# et mettre des espaces autour de la ponctuation&lt;br /&gt;
sed &amp;#039;s/[;:?,]/ /g&amp;#039; |\&lt;br /&gt;
# Garder seulement les lignes commençant par une lettre capitale, enlever les tables avec des informations de style etc.&lt;br /&gt;
grep &amp;#039;^[ 	]*[A-ZÆØÅ]&amp;#039; # Votre alphabet ici&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
count-tokenized.sh:&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
#!/bin/sh&lt;br /&gt;
# http://wiki.apertium.org/wiki/Asturian#Calculating_coverage&lt;br /&gt;
&lt;br /&gt;
# Calculer le nombre de mots tokenisés dans le corpus :&lt;br /&gt;
apertium-destxt | lt-proc $1 |apertium-retxt |\&lt;br /&gt;
# pour une raison inconnue mettre directement un changement de ligne ne marche pas, donc deux sed&lt;br /&gt;
sed &amp;#039;s/\$[^^]*\^/$^/g&amp;#039; | sed &amp;#039;s/\$\^/$\&lt;br /&gt;
^/g&amp;#039; &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Pour trouver tous les tokens dans un dump wiki :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ ./wikicat.sh nnwiki-20090119-pages-articles.xml.bz2 &amp;gt; nnwiki.cleaned.txt&lt;br /&gt;
cat nnwiki.cleaned.txt | ./count-tokenized.sh nn-nb.automorf.bin | wc -l&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
Pour trouver tous les tokens avec au moins une analyse (couverture naïve) :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat nnwiki.cleaned.txt  | ./count-tokenized.sh nn-nb.automorf.bin | grep -v &amp;#039;\/\*&amp;#039; | wc -l&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
Pour trouver les tokens de tête inconnus :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat nnwiki.cleaned.txt  | ./count-tokenized.sh nn-nb.automorf.bin | sed &amp;#039;s/[ 	]*//g&amp;#039; |\ # tabulation ou espace&lt;br /&gt;
   grep &amp;#039;\/\*&amp;#039; | sort -f | uniq -c | sort -gr | head &lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Script prêt à fonctionner ==&lt;br /&gt;
&lt;br /&gt;
corpus-stat.sh&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
#!/bin/sh&lt;br /&gt;
# http://wiki.apertium.org/wiki/Asturian#Calculating_coverage&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
# Exemple utilisé :&lt;br /&gt;
# zcat corpa/en.crp.txt.gz | sh corpus-stat.sh&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
#CMD=&amp;quot;cat corpa/en.crp.txt&amp;quot;&lt;br /&gt;
CMD=&amp;quot;cat&amp;quot;&lt;br /&gt;
&lt;br /&gt;
F=/tmp/corpus-stat-res.txt&lt;br /&gt;
&lt;br /&gt;
# Calculer le nombre de mots tokenisés dans le corpus :&lt;br /&gt;
# pour une raison inconnue mettre directement un changement de ligne ne marche pas, donc deux sed&lt;br /&gt;
$CMD | apertium-destxt | lt-proc en-eo.automorf.bin |apertium-retxt | sed &amp;#039;s/\$[^^]*\^/$^/g&amp;#039; | sed &amp;#039;s/\$\^/$\&lt;br /&gt;
^/g&amp;#039; &amp;gt; $F&lt;br /&gt;
&lt;br /&gt;
NUMWORDS=`cat $F | wc -l`&lt;br /&gt;
echo &amp;quot;Nombre de mots tokenisés dans le corpus : $NUMWORDS&amp;quot;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
# Calculer le nombre de mots qui ne sont pas inconnus&lt;br /&gt;
NUMKNOWNWORDS=`cat $F | grep -v &amp;#039;\*&amp;#039; | wc -l`&lt;br /&gt;
echo &amp;quot;Nombre de mots connus dans le corpus : $NUMKNOWNWORDS&amp;quot;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
# Calculer la couverture&lt;br /&gt;
&lt;br /&gt;
COVERAGE=`calc &amp;quot;round($NUMKNOWNWORDS/$NUMWORDS*1000)/10&amp;quot;`&lt;br /&gt;
echo &amp;quot;Couverture : $COVERAGE %&amp;quot;&lt;br /&gt;
&lt;br /&gt;
# Si vous ne disposez pas de calc, changez la ligne précédente par :&lt;br /&gt;
#COVERAGE=$(perl -e &amp;#039;print int($ARGV[0]/$ARGV[1]*1000)/10;&amp;#039; $NUMKNOWNWORDS $NUMWORDS)&lt;br /&gt;
&lt;br /&gt;
# Montrer les 10 mots inconnus les plus fréquents.&lt;br /&gt;
&lt;br /&gt;
echo &amp;quot;Mots inconnus les plus fréquents dans le corpus :&amp;quot;&lt;br /&gt;
cat $F | grep &amp;#039;\*&amp;#039; | sort -f | uniq -c | sort -gr | head -10&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
Exemple de sortie :&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ zcat corpa/en.crp.txt.gz | sh corpus-stat.sh&lt;br /&gt;
Nombre de mots tokenisés dans le corpus : 478187&lt;br /&gt;
Nombre de mots connus dans le corpus : 450255&lt;br /&gt;
Couverture : 	94.2 %&lt;br /&gt;
Mots inconnus les plus fréquents dans le corpus :&lt;br /&gt;
    191 ^Apollo/*Apollo$&lt;br /&gt;
    104 ^Aramaic/*Aramaic$&lt;br /&gt;
     91 ^Alberta/*Alberta$&lt;br /&gt;
     81 ^de/*de$&lt;br /&gt;
     80 ^Abu/*Abu$&lt;br /&gt;
     63 ^Bakr/*Bakr$&lt;br /&gt;
     62 ^Agassi/*Agassi$&lt;br /&gt;
     59 ^Carnegie/*Carnegie$&lt;br /&gt;
     58 ^Agrippina/*Agrippina$&lt;br /&gt;
     58 ^Achilles/*Achilles$&lt;br /&gt;
     56 ^Adelaide/*Adelaide$&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Liens externes ==&lt;br /&gt;
&lt;br /&gt;
* [http://wp2txt.rubyforge.org/ wp2txt]&lt;br /&gt;
&lt;br /&gt;
[[Category:Documentation]]&lt;br /&gt;
[[Category:Documentation en français]]&lt;/div&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
</feed>