Difference between revisions of "Languages of the Volga-Kama region"

Revision as of 04:11, 15 December 2014

Status

The ultimate goal is to have multi-purposable transducers for a variety of Volga-Kama languages. These can then be paired for X→Y translation with the addition of a CG for language X and transfer rules / dictionary for the pair X→Y. Below is listed development progress for each language's transducers and dictionary pairs.

Transducers

Once a transducer has ~80% coverage on a range of medium-large corpora we can say it is "working". Over 90% and it can be considered to be "production".

name	Language	ISO 639		formalism	state	stems	coverage	location	primary authors
name	Language	-2	-3	formalism	state	stems	coverage	location	primary authors
`apertium-myv`	Erzya	`–`	`myv`	HFST (lexc+twol)	development	74,977		apertium-myv-fin (incubator)	Fran, Jack Rueter
`apertium-tat`	Tatar	`tt`	`tat`	HFST (lexc+twol)	production	55,702	~91%	apertium-tat (languages)	Ilnar, Fran, Jonathan, Röstäm
`apertium-chv`	Chuvash	`cv`	`chv`	HFST (lexc+twol)	development	8,579	~85%	apertium-chv (languages)	Hèctor
`apertium-bak`	Bashkir	`ba`	`bak`	HFST (lexc+twol)	development	2,827	~66%	apertium-bak (languages)	Fran, Jonathan, Ilnar, Milli
`apertium-mrj`	Hill Mari	`–`	`mrj`	HFST (lexc+twol)	development	53,051		apertium-mrj-fin (incubator)	Fran, kuprina, jackrueter
`apertium-udm`	Udmurt	`–`	`udm`	HFST (lexc+twol)	prototype	196		apertium-udm-rus (nursery)	Fran, Trond, Andrey, Лукерья, Алексей
`apertium-kpv`	Komi-Zyrian	`–`	`kpv`	HFST (lexc+twol)	prototype	135		apertium-kpv-mhr (incubator)	Fran, Trond, Fedina, Andrei Chemyshev
`apertium-mhr`	Meadow Mari	`–`	`mhr`	HFST (lexc+twol)	prototype	117		apertium-kpv-mhr (incubator)	Fran, Fedina, Andrei Chemyshev

Existing language pairs

Text in italic denotes language pairs under development / in the incubator. Regular text denotes a functioning language pair in staging, while text in bold denotes a stable well-working language pair in trunk.

	tat	chv	bak	mrj	udm	mhr	myv	kpv
tat	-	chv-tat 198	tat-bak 2,941
chv	chv-tat 198	-
bak	tat-bak 2,941		-
mrj				-
udm					-
mhr						-		kpv-mhr 127
myv							-
kpv						kpv-mhr 127		-

fin				mrj-fin 273	fin-udm 93		myv-fin 401	kpv-fin 1
kaz	kaz-tat
kir	tat-kir
rus	tat-rus 5,999	cv-ru 75			udm-rus 148
tur	tur-tat 3,317	cv-tr 100

The languages

Volga-Kama languages by subgroup

Turkic
- North Qıpçaq: Tatar, Bashqort
- Oğur: Chuvash

Uralic → Finno-Ugric → Finno-Permic
- Permic: Komi (Komi-Zyrian, Komi-Permyak, Komi-Yazva), Udmurt
- Finno-Volgaic
  - Mari: Meadow Mari (Eastern), Hill Mari (Western)
  - Mordvin: Erzya, Moksha

Volga-Kama language vulnerability

The following table shows information about Volga-Kama varieties.

language	iso	num speakers	UNESCO classification
Tatar	`tat`	6500K	0. none
Bashqort	`bak`	1379K	1. vulnerable
Chuvash	`chv`	1325K	1. vulnerable
Udmurt	`udm`	0464K	2. definitely endangered
Mari - Eastern	`mhr`	0414K	2. definitely endangered
Mordvin - Erzya	`myv`	0400K	2. definitely endangered
Komi - Zyryan	`kpv`	0217K	2. definitely endangered
Mordvin - Moksha	`mdf`	0200K	2. definitely endangered
Komi - Permyak	`koi`	0094K	2. definitely endangered
Mari - Western	`mrj`	0037K	3. severely endangered
Komi - Yazva	`koi`	0000K	3. severely endangered

Existing general resources

Grammars

Dictionaries

Existing computational resources

Corpora and corpora projects

University of Turku - Research Unit for Volgaic Languages

Spell-checkers

Text-to-speech and speech-to-text systems

Keyboards

Xkb includes keyboards for the following languages:
- Tatar
- Chuvash
- ...?

Morphological Transducers

Mari

Scholarship

@@ Line 146: / Line 146: @@
 | '''kir''' || ''[[Apertium-tat-kir|tat-kir]]''<br>{{#lst:Apertium-tat-kir/stats|tat-kir_stems}} ||  ||  ||  ||  ||  ||  ||
 |-
-| '''rus''' || ''[[Apertium-tt-ru|tt-ru]]''<br>{{#lst:Apertium-tt-ru/stats|tt-ru_stems}} || ''[[Apertium-cv-ru|cv-ru]]''<br>{{#lst:Apertium-cv-ru/stats|cv-ru_stems}} ||  ||  || ''[[Apertium-udm-rus|udm-rus]]''<br>{{#lst:Apertium-udm-rus/stats|udm-rus_stems}} ||  ||  ||
+| '''rus''' || ''[[Apertium-tat-rus|tat-rus]]''<br>{{#lst:Apertium-tat-rus/stats|tat-rus_stems}} || ''[[Apertium-cv-ru|cv-ru]]''<br>{{#lst:Apertium-cv-ru/stats|cv-ru_stems}} ||  ||  || ''[[Apertium-udm-rus|udm-rus]]''<br>{{#lst:Apertium-udm-rus/stats|udm-rus_stems}} ||  ||  ||
 |-
 | '''tur''' || ''[[Apertium-tur-tat|tur-tat]]''<br>{{#lst:Apertium-tur-tat/stats|tur-tat_stems}} || ''[[Apertium-cv-tr|cv-tr]]''<br>{{#lst:Apertium-cv-tr/stats|cv-tr_stems}} ||  ||  ||  ||  ||  ||

Difference between revisions of "Languages of the Volga-Kama region"

Revision as of 04:11, 15 December 2014

Contents

Status

Transducers

Existing language pairs

The languages

Volga-Kama languages by subgroup

Volga-Kama language vulnerability

Existing general resources

Grammars

Dictionaries

Existing computational resources

Corpora and corpora projects

Spell-checkers

Text-to-speech and speech-to-text systems

Keyboards

Morphological Transducers

Scholarship

Navigation menu

Personal tools

Namespaces

Variants

Views

More

Search

Navigation

Tools