<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="en">
	<id>https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Fabriquer_des_dictionnaires</id>
	<title>Fabriquer des dictionnaires - Revision history</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.apertium.org/w/index.php?action=history&amp;feed=atom&amp;title=Fabriquer_des_dictionnaires"/>
	<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;action=history"/>
	<updated>2026-05-05T14:52:17Z</updated>
	<subtitle>Revision history for this page on the wiki</subtitle>
	<generator>MediaWiki 1.34.1</generator>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=50541&amp;oldid=prev</id>
		<title>Bech: Lien page anglaise</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=50541&amp;oldid=prev"/>
		<updated>2014-10-08T07:04:59Z</updated>

		<summary type="html">&lt;p&gt;Lien page anglaise&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 07:04, 8 October 2014&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 1:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;[[Building dictionaries|In English]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-empty diff-side-deleted&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;Certains d&#039;entre vous ont été assez braves pour commencer à écrire de nouvelles paires de langues pour Apertium. Ça me rend (et toute l&#039;équipe d&#039;Apertium) très content et reconnaissant, mais plus important encore, ça rend Apertium utile pour davantage de monde.&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;Certains d&#039;entre vous ont été assez braves pour commencer à écrire de nouvelles paires de langues pour Apertium. Ça me rend (et toute l&#039;équipe d&#039;Apertium) très content et reconnaissant, mais plus important encore, ça rend Apertium utile pour davantage de monde.&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=39019&amp;oldid=prev</id>
		<title>Polo: /* Fréquence */</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=39019&amp;oldid=prev"/>
		<updated>2013-02-18T19:44:12Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Fréquence&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 19:44, 18 February 2013&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 10:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 10:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;== Fréquence ==&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;== Fréquence ==&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;L&#039;intuition d&#039;une personne &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;pour&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;laquelle&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;les&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;mots&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;sont&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;importants&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;ou&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;fréquents&lt;/del&gt; peut être très &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;décevante&lt;/del&gt;. Par conséquent, le mieux qu&#039;on puisse faire est de récupérer &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;beaucoup&lt;/del&gt; de &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;texte&lt;/del&gt; (des millions de mots, si possible)&lt;del class=&quot;diffchange diffchange-inline&quot;&gt; qui sont&lt;/del&gt; représentatifs de ce que l&#039;on veut traduire&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;,&lt;/del&gt; et &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;d&lt;/del&gt;&#039;étudier la fréquence des mots et des phénomènes.&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;L&#039;intuition d&#039;une personne &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;quant&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;à&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;la&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;fréquence&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;ou&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;à&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;l&#039;importance&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;des mots&lt;/ins&gt; peut être très &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;trompeuse&lt;/ins&gt;. Par conséquent, le mieux qu&#039;on puisse faire est de récupérer &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;une grande masse&lt;/ins&gt; de &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;textes&lt;/ins&gt; (des millions de mots, si possible) représentatifs de ce que l&#039;on veut traduire et &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;de s&lt;/ins&gt;&#039;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;en servir pour &lt;/ins&gt;étudier la fréquence des mots et des phénomènes.&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;Récupérez&lt;del class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/del&gt;les &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;de&lt;/del&gt; Wikipedia ou d&#039;une archive de journal&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;,&lt;/del&gt; ou écrivez un robot qui les récupère sur le &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Web&lt;/del&gt;. &lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Récupérez&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;-&lt;/ins&gt;les &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;depuis&lt;/ins&gt; Wikipedia ou d&#039;une archive de journal ou écrivez un robot qui les récupère sur le &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;web&lt;/ins&gt;. &lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;&lt;del class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/del&gt;Il est assez facile &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;de faire&lt;/del&gt; un &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;&quot;&lt;/del&gt;hit parade&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;&quot;&lt;/del&gt; brut des mots en utilisant une séquence de commandes Unix simple (une seule ligne) :&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Il est assez facile &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;d&#039;établir&lt;/ins&gt; un &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;« &lt;/ins&gt;hit parade&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; »&lt;/ins&gt; brut des mots en utilisant une séquence de commandes Unix simple (une seule ligne) :&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;&amp;lt;pre&amp;gt;&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;&amp;lt;pre&amp;gt;&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 22:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 22:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;Bien sûr, ça peut être bien amélioré mais ça sert à des buts d&#039;illustration.&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;Bien sûr, ça peut être bien amélioré mais ça sert à des buts d&#039;illustration.&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;[[Image:Wikipedia-n-zipf.png|thumb|320px|right|&#039;&#039;&#039;Fréquence des mots contre rang des mots&#039;&#039;&#039;: &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Un&lt;/del&gt; graphique de fréquence des mots dans Wikipedia. Le graphique utilise des coordonnées logarithmiques. &#039;&#039;X&#039;&#039; est le rang d&#039;un mot dans la table de fréquence; &#039;&#039;Y&#039;&#039; est le nombre total d&#039;occurrences du mot. La loi Zipf correspond à la  portion linéaire du dessus de la courbe, qui suit à peu près la ligne verte (1/&#039;&#039;x&#039;&#039;).]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;[[Image:Wikipedia-n-zipf.png|thumb|320px|right|&#039;&#039;&#039;Fréquence des mots contre rang des mots&#039;&#039;&#039;: &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;un&lt;/ins&gt; graphique de fréquence des mots dans Wikipedia. Le graphique utilise des coordonnées logarithmiques. &#039;&#039;X&#039;&#039; est le rang d&#039;un mot dans la table de fréquence&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; &lt;/ins&gt;; &#039;&#039;Y&#039;&#039; est le nombre total d&#039;occurrences du mot. La loi&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt; de&lt;/ins&gt; Zipf correspond à la  portion linéaire du dessus de la courbe, qui suit à peu près la ligne verte (1/&#039;&#039;x&#039;&#039;).]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;Vous &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;allez trouver&lt;/del&gt; d&#039;intéressantes &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;propriétés&lt;/del&gt; à cette liste. &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;L&#039;une&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;d&#039;elle c&#039;est qu&#039;&lt;/del&gt;en multipliant le rang d&#039;un mot par sa fréquence, vous obtenez un nombre qui est à peu près constant. On appelle &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;ça&lt;/del&gt; la [http://fr.wikipedia.org/wiki/Loi_de_Zipf loi de Zipf].&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Vous &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;découvrirez&lt;/ins&gt; d&#039;intéressantes &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;caractéristiques&lt;/ins&gt; à cette liste. &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Premièrement,&lt;/ins&gt; en multipliant le rang d&#039;un mot par sa fréquence, vous obtenez un nombre qui est à peu près constant. On appelle &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;cela&lt;/ins&gt; la [http://fr.wikipedia.org/wiki/Loi_de_Zipf loi de Zipf].&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;Une &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;autre&lt;/del&gt; est que la &#039;&#039;&#039;moitié de la liste&#039;&#039;&#039; est &#039;&#039;hapax legomena&#039;&#039; (&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;des &lt;/del&gt;mots qui n&#039;apparaissent qu&#039;une fois).&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Une &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;seconde&lt;/ins&gt; est que la &#039;&#039;&#039;moitié de la liste&#039;&#039;&#039; est &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;constituée d&#039;&lt;/ins&gt;&#039;&#039;hapax legomena&#039;&#039; (mots qui n&#039;apparaissent qu&#039;une fois).&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;Troisièmement, avec &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;environ&lt;/del&gt; 1&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;,&lt;/del&gt;000 mots &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;vous&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;devriez&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;avoir&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;75&lt;/del&gt;% du texte&lt;del class=&quot;diffchange diffchange-inline&quot;&gt; couvert&lt;/del&gt;.&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Troisièmement, avec &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;quelques&lt;/ins&gt; 1&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;.&lt;/ins&gt;000 mots&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;,&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;on&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;couvre&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;75&lt;/ins&gt; % du texte.&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;Donc utilisez les listes comme celles-ci quand vous construisez des dictionnaires.&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;Donc utilisez les listes comme celles-ci quand vous construisez des dictionnaires.&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;Si l&#039;une de vos langues est l&#039;anglais, il &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;y a&lt;/del&gt; des listes intéressantes :&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;Si l&#039;une de vos langues est l&#039;anglais, il &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;existe&lt;/ins&gt; des listes intéressantes :&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;* [http://ogden.basic-english.org/words.html Anglais de base Ogden] (850 mots)&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;* [http://ogden.basic-english.org/words.html Anglais de base Ogden] (850 mots)&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Polo</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32043&amp;oldid=prev</id>
		<title>Bech: Fin traduction</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32043&amp;oldid=prev"/>
		<updated>2012-02-06T22:41:17Z</updated>

		<summary type="html">&lt;p&gt;Fin traduction&lt;/p&gt;
&lt;a href=&quot;//wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;amp;diff=32043&amp;amp;oldid=32033&quot;&gt;Show changes&lt;/a&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32033&amp;oldid=prev</id>
		<title>Bech: liens + catégories</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32033&amp;oldid=prev"/>
		<updated>2012-02-05T22:05:11Z</updated>

		<summary type="html">&lt;p&gt;liens + catégories&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;en&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← Older revision&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Revision as of 22:05, 5 February 2012&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 205:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 205:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;== Voir aussi ==&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;== Voir aussi ==&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;* [[Crossdics&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;|How&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;to&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;cross&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;language&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;pairs&lt;/del&gt;]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;* [[Crossdics &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;:&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Génération&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;d&#039;une&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;paire de langue à partir de 2 autres&lt;/ins&gt;]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;* [[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;Getting&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;bilingual&lt;/del&gt; dictionnaires &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;from&lt;/del&gt; &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;OmegaWiki|Getting cheap bilingual dictionnaires from&lt;/del&gt; OmegaWiki]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;* [[&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Récupération&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;de&lt;/ins&gt; dictionnaires &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;bilingues&lt;/ins&gt; &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;depuis&lt;/ins&gt; OmegaWiki]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;== Further reading ==&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;== Further reading ==&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 214:&lt;/td&gt;
  &lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Line 214:&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;br /&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;br /&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;[[Category:Documentation]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;[[Category:Documentation]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;−&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-deletedline diff-side-deleted&quot;&gt;&lt;div&gt;[[Category:Writing &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;dictionnaires&lt;/del&gt;]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot; data-marker=&quot;+&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-addedline diff-side-added&quot;&gt;&lt;div&gt;[[Category:Writing &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;dictionaries&lt;/ins&gt;]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-deleted&quot;&gt;&lt;div&gt;[[Category:Documentation en français]]&lt;/div&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-marker&quot;&gt;&lt;/td&gt;
  &lt;td class=&quot;diff-context diff-side-added&quot;&gt;&lt;div&gt;[[Category:Documentation en français]]&lt;/div&gt;&lt;/td&gt;
&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
	<entry>
		<id>https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32032&amp;oldid=prev</id>
		<title>Bech: Création page (début de traduction seulement)</title>
		<link rel="alternate" type="text/html" href="https://wiki.apertium.org/w/index.php?title=Fabriquer_des_dictionnaires&amp;diff=32032&amp;oldid=prev"/>
		<updated>2012-02-05T22:02:12Z</updated>

		<summary type="html">&lt;p&gt;Création page (début de traduction seulement)&lt;/p&gt;
&lt;p&gt;&lt;b&gt;New page&lt;/b&gt;&lt;/p&gt;&lt;div&gt;Certains d&amp;#039;entre vous ont été assez braves pour commencer à écrire de nouvelles paires de langues pour Apertium. Ça me rend (et toute l&amp;#039;équipe d&amp;#039;Apertium) très content et reconnaissant, mais plus important encore, ça rend Apertium utile pour davantage de monde.&lt;br /&gt;
&lt;br /&gt;
Je veux partager quelques leçons que j&amp;#039;ai tirées de la construction de plusieurs dictionnaires : l&amp;#039;importance des estimations de fréquence. Pour les nouvelles paires pour avoir la couverture la meilleure possible avec un minimum d&amp;#039;effort, il est très important de &amp;#039;&amp;#039;&amp;#039;rajouter les mots et les règles par ordre décroissant de fréquence,&amp;#039;&amp;#039;&amp;#039;, en commençant par les mots et les phénomènes les plus fréquents.&lt;br /&gt;
&lt;br /&gt;
La raison pour laquelle les mots devraient être rajoutés par ordre de fréquence est assez intuitive : &lt;br /&gt;
plus la fréquence est élevée, plus le mot a des chances d&amp;#039;apparaître dans le texte que vous essayez de traduire (voir ci-dessous pour la loi de Zipf).&lt;br /&gt;
&lt;br /&gt;
Par exemple, en anglais vous pouvez être pratiquement sûr que les mots &amp;quot;the&amp;quot; ou &amp;quot;a&amp;quot; apparaîtront partout même dans les phrases les plus simples; par contre, combien de fois avez-vous vu &amp;quot;hypothyroidism&amp;quot; ou &amp;quot;obelisk&amp;quot; écrit ? Plus la fréquence du mot est élevée, plus vous &amp;quot;gagnez&amp;quot; à l&amp;#039;ajouter.&lt;br /&gt;
&lt;br /&gt;
== Fréquence ==&lt;br /&gt;
&lt;br /&gt;
L&amp;#039;intuition d&amp;#039;une personne pour laquelle les mots sont importants ou fréquents peut être très décevante. Par conséquent, le mieux qu&amp;#039;on puisse faire est de récupérer beaucoup de texte (des millions de mots, si possible) qui sont représentatifs de ce que l&amp;#039;on veut traduire, et d&amp;#039;étudier la fréquence des mots et des phénomènes.&lt;br /&gt;
Récupérez les de Wikipedia ou d&amp;#039;une archive de journal, ou écrivez un robot qui les récupère sur le Web. &lt;br /&gt;
&lt;br /&gt;
 Il est assez facile de faire un &amp;quot;hit parade&amp;quot; brut des mots en utilisant une séquence de commandes Unix simple (une seule ligne) :&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat monfichierrepresentatif.txt | tr &amp;#039; &amp;#039; &amp;#039;\012&amp;#039; | sort -f | uniq -c | sort -nr &amp;gt; hitparade.txt&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[J&amp;#039;ai tiré ça de &amp;#039;&amp;#039;Unix for Poets&amp;#039;&amp;#039;, je pense.]&lt;br /&gt;
&lt;br /&gt;
Bien sûr, ça peut être bien amélioré mais ça sert à des buts d&amp;#039;illustration.&lt;br /&gt;
[[Image:Wikipedia-n-zipf.png|thumb|320px|right|&amp;#039;&amp;#039;&amp;#039;Fréquence des mots contre rang des mots&amp;#039;&amp;#039;&amp;#039;: Un graphique de fréquence des mots dans Wikipedia. Le graphique utilise des coordonnées logarithmiques. &amp;#039;&amp;#039;X&amp;#039;&amp;#039; est le rang d&amp;#039;un mot dans la table de fréquence; &amp;#039;&amp;#039;Y&amp;#039;&amp;#039; est le nombre total d&amp;#039;occurrences du mot. La loi Zipf correspond à la  portion linéaire du dessus de la courbe, qui suit à peu près la ligne verte (1/&amp;#039;&amp;#039;x&amp;#039;&amp;#039;).]]&lt;br /&gt;
&lt;br /&gt;
Vous allez trouver d&amp;#039;intéressantes propriétés à cette liste. L&amp;#039;une d&amp;#039;elle c&amp;#039;est qu&amp;#039;en multipliant le rang d&amp;#039;un mot par sa fréquence, vous obtenez un nombre qui est à peu près constant. On appelle ça la [http://fr.wikipedia.org/wiki/Loi_de_Zipf loi de Zipf].&lt;br /&gt;
&lt;br /&gt;
Une autre est que la &amp;#039;&amp;#039;&amp;#039;moitié de la liste&amp;#039;&amp;#039;&amp;#039; est &amp;#039;&amp;#039;hapax legomena&amp;#039;&amp;#039; (des mots qui n&amp;#039;apparaissent qu&amp;#039;une fois).&lt;br /&gt;
&lt;br /&gt;
Troisièmement, avec environ 1,000 mots vous devriez avoir 75% du texte couvert.&lt;br /&gt;
&lt;br /&gt;
Donc utilisez les listes comme celles-ci quand vous construisez des dictionnaires.&lt;br /&gt;
&lt;br /&gt;
Si l&amp;#039;une de vos langues est l&amp;#039;anglais, il y a des listes intéressantes :&lt;br /&gt;
&lt;br /&gt;
* [http://ogden.basic-english.org/words.html Anglais de base Ogden] (850 mots)&lt;br /&gt;
* [http://www.voanews.com/specialenglish Anglais spécial &amp;quot;Voice of America&amp;quot;]&lt;br /&gt;
&lt;br /&gt;
Gardez à l&amp;#039;esprit, bien sûr, que ces listes sont également basées sur un modèle particulier d&amp;#039;utilisation de l&amp;#039;anglais, qui n&amp;#039;est pas l&amp;#039;anglais &amp;quot;qui vient naturellement&amp;quot;.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
La même chose s&amp;#039;applique aux autres phénomènes linguistiques. Les linguistes ont tendance à se focaliser sur des phénomènes très rares qui sont les clés de l&amp;#039;identité d&amp;#039;une langue, ou sur ce qui est différent entre les langues. Mais ces &amp;quot;bijoux&amp;quot; ne sont généralement pas les &amp;quot;blocs de construction&amp;quot; que vous utiliseriez pour créer des règles de traduction. Donc, ne vous emballez pas. Faites seulement confiance aux fréquences et à la grande quantité de vrai texte.&lt;br /&gt;
&lt;br /&gt;
== Récupérateur de corpus ==&lt;br /&gt;
&lt;br /&gt;
* http://translate.sourceforge.net/wiki/corpuscatcher/index&lt;br /&gt;
&lt;br /&gt;
== Dumps Wikipedia ==&lt;br /&gt;
&lt;br /&gt;
* http://download.wikimedia.org/backup-index.html&lt;br /&gt;
&lt;br /&gt;
Pour de l&amp;#039;aide pour les traiter, voir :&lt;br /&gt;
&lt;br /&gt;
* http://meta.wikimedia.org/wiki/Help:Export&lt;br /&gt;
&lt;br /&gt;
The dumps need cleaning up (removing Wiki syntax and XML etc.), but can&lt;br /&gt;
provide a &amp;#039;&amp;#039;substantial&amp;#039;&amp;#039; amount of text &amp;amp;mdash; both for fréquence analysis and&lt;br /&gt;
as a source of sentences for POS [[tagger training]]. It can take some work, and isn&amp;#039;t as&lt;br /&gt;
easy as getting a nice corpus, but on the other hand they&amp;#039;re available&lt;br /&gt;
in some [http://meta.wikimedia.org/wiki/List_of_Wikipedias 275 languages] with at least 100 articles written in each. &lt;br /&gt;
&lt;br /&gt;
You&amp;#039;ll want the one entitled &amp;quot;Articles, templates, image descriptions,&lt;br /&gt;
and primary meta-pages. -- This contains current versions of article&lt;br /&gt;
content, and is the archive most mirror sites will probably want.&amp;quot;&lt;br /&gt;
&lt;br /&gt;
Something like (for Afrikaans):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ bzcat afwiki-20070508-pages-articles.xml.bz2 | grep &amp;#039;^[A-Z]&amp;#039; | sed&lt;br /&gt;
&amp;#039;s/$/\n/g&amp;#039; | sed &amp;#039;s/\[\[.*|//g&amp;#039; | sed &amp;#039;s/\]\]//g&amp;#039; | sed &amp;#039;s/\[\[//g&amp;#039; |&lt;br /&gt;
sed &amp;#039;s/&amp;amp;.*;/ /g&amp;#039;&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
This will give you approximately useful lists of one sentence per line&lt;br /&gt;
(stripping out most of the extraneous formatting). Note, this presumes that your&lt;br /&gt;
language uses the Latin alphabet; if it uses another writing system,&lt;br /&gt;
you&amp;#039;ll need to change that.&lt;br /&gt;
&lt;br /&gt;
Try something like (for Afrikaans):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ bzcat afwiki-20070508-pages-articles.xml.bz2 | grep &amp;#039;^[A-Z]&amp;#039; | sed &amp;#039;s/$/\n/g&amp;#039; | &lt;br /&gt;
sed &amp;#039;s/\[\[.*|//g&amp;#039; | sed &amp;#039;s/\]\]//g&amp;#039; | sed &amp;#039;s/\[\[//g&amp;#039; | sed &amp;#039;s/&amp;amp;.*;/ /g&amp;#039; | tr &amp;#039; &amp;#039; &amp;#039;\012&amp;#039; | &lt;br /&gt;
sort -f | uniq -c | sort -nr &amp;gt; hitparade.txt&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Once you have this &amp;#039;hitparade&amp;#039; of words, it is first probably best to skim &lt;br /&gt;
off the top 20,000&amp;amp;ndash;30,000 into a separate file.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat hitparade.txt | head -20000 &amp;gt; top.lista.20000.txt&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Now, if you already have been working on a dictionary, chances are that there&lt;br /&gt;
will exist in this &amp;#039;top list&amp;#039; words you have already added. You can remove word forms&lt;br /&gt;
you are already able to analyse using (for example Afrikaans):&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat top.lista.20000.txt | apertium-destxt | lt-proc af-en.automorf.bin  | apertium-retxt | grep &amp;#039;\/\*&amp;#039; &amp;gt; words_to_be_added.txt&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
(here &amp;lt;code&amp;gt;lt-proc af-en.automorf.bin&amp;lt;/code&amp;gt; will analyse the input stream of Afrikaans words and put an asterisk * on those it doesn&amp;#039;t recognise)&lt;br /&gt;
&lt;br /&gt;
For every 10 words or so you add, it&amp;#039;s probably worth going back and repeating this step, especially &lt;br /&gt;
for highly inflected languages &amp;amp;mdash; as one lemma can produce many word forms, and the wordlist&lt;br /&gt;
is not lemmatised.&lt;br /&gt;
&lt;br /&gt;
== Getting cheap bilingual dictionary entries ==&lt;br /&gt;
&lt;br /&gt;
A cheap way of getting bilingual dictionary entries between a pair of &lt;br /&gt;
languages is as follows:&lt;br /&gt;
&lt;br /&gt;
First grab yourself a wordlist of &amp;#039;&amp;#039;nouns&amp;#039;&amp;#039; in language &amp;#039;&amp;#039;x&amp;#039;&amp;#039;; for&lt;br /&gt;
example, grab them out of the Apertium dictionary you are using:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ cat &amp;lt;monolingual dictionary&amp;gt; | grep &amp;#039;&amp;lt;i&amp;gt;&amp;#039; | grep &amp;#039;__n\&amp;quot;&amp;#039; | awk -F&amp;#039;&amp;quot;&amp;#039; &amp;#039;{print $2}&amp;#039; &lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Next, write a basic script, something like:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
#!/bin/sh&lt;br /&gt;
&lt;br /&gt;
#language to translate from&lt;br /&gt;
LANGF=$2 &lt;br /&gt;
#language to translate to&lt;br /&gt;
LANGT=$3&lt;br /&gt;
#filename of wordlist&lt;br /&gt;
LIST=$1&lt;br /&gt;
&lt;br /&gt;
for LWORD in `cat $LIST`; do &lt;br /&gt;
        TEXT=`wget -q http://$LANGF.wikipedia.org/wiki/$LWORD -O - | grep &amp;#039;interwiki-&amp;#039;$LANGT`; &lt;br /&gt;
        if [ $? -eq &amp;#039;0&amp;#039; ]; then&lt;br /&gt;
                RWORD=`echo $TEXT |  &lt;br /&gt;
                cut -f4 -d&amp;#039;&amp;quot;&amp;#039; | cut -f5 -d&amp;#039;/&amp;#039; | &lt;br /&gt;
                python -c &amp;#039;import urllib, sys; print urllib.unquote(sys.stdin.read());&amp;#039; |&lt;br /&gt;
                sed &amp;#039;s/(\w*)//g&amp;#039;`;&lt;br /&gt;
                echo &amp;#039;&amp;lt;e&amp;gt;&amp;lt;p&amp;gt;&amp;lt;l&amp;gt;&amp;#039;$LWORD&amp;#039;&amp;lt;s n=&amp;quot;n&amp;quot;/&amp;gt;&amp;lt;/l&amp;gt;&amp;lt;r&amp;gt;&amp;#039;$RWORD&amp;#039;&amp;lt;s n=&amp;quot;n&amp;quot;/&amp;gt;&amp;lt;/r&amp;gt;&amp;lt;/p&amp;gt;&amp;lt;/e&amp;gt;&amp;#039;; &lt;br /&gt;
        fi;&lt;br /&gt;
        sleep 8;&lt;br /&gt;
done&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;Note: The &amp;quot;sleep 8&amp;quot; is so that we don&amp;#039;t put undue strain on the Wikimedia servers.&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
If you save this as &amp;lt;code&amp;gt;iw-word.sh&amp;lt;/code&amp;gt;, then you can use it at the command line:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ sh iw-word.sh &amp;lt;wordlist&amp;gt; &amp;lt;language code from&amp;gt; &amp;lt;language code to&amp;gt;&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
Fr example, to retrieve a bilingual wordlist from English to Afrikaans, use:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
$ sh iw-word.sh en-af.wordlist en af&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
The method is of variable reliability. Reports of between 70% and 80% &lt;br /&gt;
accuracy are common. It is best for unambiguous terms, but works all right where&lt;br /&gt;
terms retain ambiguity through languages.&lt;br /&gt;
&lt;br /&gt;
Any correspondences produced by this method &amp;#039;&amp;#039;&amp;#039;must&amp;#039;&amp;#039;&amp;#039; be checked by native or &lt;br /&gt;
fluent speakers of the language pairs in question.&lt;br /&gt;
&lt;br /&gt;
== Monodix ==&lt;br /&gt;
{{main|Monodix}}&lt;br /&gt;
&lt;br /&gt;
If the language you&amp;#039;re working with is fairly regular, and noun inflection is quite easy (for example English or Afrikaans), then the following script may be useful:&lt;br /&gt;
&lt;br /&gt;
You&amp;#039;ll need a large wordlist (of all forms, not just lemmata) and some existing paradigms. It works by first taking all singular forms out of the list, then looking for plural forms, then printing out those which have both singular and plural forms in Apertium format.&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;Note: These will need to be checked, as no language except Esperanto is that regular.&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;pre&amp;gt;&lt;br /&gt;
# set this to the location of your wordlist&lt;br /&gt;
WORDLIST=/home/spectre/corpora/afrikaans-meester-utf8.txt&lt;br /&gt;
&lt;br /&gt;
# set the paradigm, and the singular and plural endings.&lt;br /&gt;
PARADIGM=sa/ak__n&lt;br /&gt;
SINGULAR=aak&lt;br /&gt;
PLURAL=ake&lt;br /&gt;
# set this to the number of characters that need to be kept from the singular form.&lt;br /&gt;
# e.g. [0:-1] means &amp;#039;cut off one character&amp;#039;, [0:-2] means &amp;#039;cut off two characters&amp;#039; etc.&lt;br /&gt;
ECHAR=`echo -n $SINGULAR | python -c &amp;#039;import sys; print sys.stdin.read().decode(&amp;quot;utf8&amp;quot;)[0:-1];&amp;#039;&lt;br /&gt;
&lt;br /&gt;
PLURALS=`cat $WORDLIST | grep $PLURAL$`&lt;br /&gt;
SINGULARS=`cat $WORDLIST | grep $SINGULAR$`&lt;br /&gt;
CROSSOVER=&amp;quot;&amp;quot;&lt;br /&gt;
&lt;br /&gt;
for word in $PLURALS; do &lt;br /&gt;
        SFORM=`echo $word | sed &amp;quot;s/$PLURAL/$SINGULAR/g&amp;quot;`&lt;br /&gt;
        cat $WORDLIST | grep ^$SFORM$ &amp;gt; /dev/null&lt;br /&gt;
        # if the form is found then append it to the list&lt;br /&gt;
        if [ $? -eq 0 ]; then&lt;br /&gt;
                CROSSOVER=$CROSSOVER&amp;quot; &amp;quot;$SFORM&lt;br /&gt;
        fi&lt;br /&gt;
done&lt;br /&gt;
&lt;br /&gt;
# print out the list&lt;br /&gt;
for pair in $CROSSOVER; do&lt;br /&gt;
        echo &amp;#039;    &amp;lt;e lm=&amp;quot;&amp;#039;$pair&amp;#039;&amp;quot;&amp;gt;&amp;lt;i&amp;gt;&amp;#039;`echo $pair | sed &amp;quot;s/$SINGULAR/$ECHAR/g&amp;quot;`&amp;#039;&amp;lt;/i&amp;gt;&amp;lt;par n=&amp;quot;&amp;#039;$PARADIGM&amp;#039;&amp;quot;/&amp;gt;&amp;lt;/e&amp;gt;&amp;#039;;&lt;br /&gt;
done&lt;br /&gt;
&amp;lt;/pre&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Voir aussi ==&lt;br /&gt;
&lt;br /&gt;
* [[Crossdics|How to cross language pairs]]&lt;br /&gt;
* [[Getting bilingual dictionnaires from OmegaWiki|Getting cheap bilingual dictionnaires from OmegaWiki]]&lt;br /&gt;
&lt;br /&gt;
== Further reading ==&lt;br /&gt;
&lt;br /&gt;
* Mark Pagel, Quentin D. Atkinson &amp;amp;  Andrew Meade (2007) &amp;quot;fréquence of word-use predicts rates of lexical evolution throughout Indo-European history&amp;quot;. &amp;#039;&amp;#039;Nature&amp;#039;&amp;#039; 449, 665&lt;br /&gt;
:&amp;quot;Across all 200 meanings, frequently used words evolve at slower rates and infrequently used words evolve more rapidly. This relationship holds separately and identically across parts of speech for each of the four language corpora, and accounts for approximately 50% of the variation in historical rates of lexical replacement. We propose that the fréquence with which specific words are used in everyday language exerts a general and law-like influence on their rates of evolution.&amp;quot;&lt;br /&gt;
&lt;br /&gt;
[[Category:Documentation]]&lt;br /&gt;
[[Category:Writing dictionnaires]]&lt;br /&gt;
[[Category:Documentation en français]]&lt;/div&gt;</summary>
		<author><name>Bech</name></author>
		
	</entry>
</feed>