Difference between revisions of "English and Catalan"

From Apertium
Jump to navigation Jump to search
 
(20 intermediate revisions by 3 users not shown)
Line 1: Line 1:
  +
This is a language pair translating between [[English]] and [[Catalan]]. The pair is currently located in [https://github.com/apertium/apertium-eng-cat trunk].
==Introduction==
 
   
 
==Current status==
 
==Current status==
   
  +
''Last update: 9 May 2018''
  +
  +
'''Bidix entries:''' 54,830
  +
  +
'''Bidix paradigms:''' 16
  +
  +
  +
'''Transfer rules (English to Catalan):''' 221 (T1X), 60 (T2X), 38 (T3X)
  +
  +
'''Transfer rules (Catalan to English):''' 97 (T1X), 28 (T2X), 9 (T3X)
  +
  +
  +
'''Coverage (English to Catalan):''' 92.50% (Wikipedia)
  +
  +
'''Coverage (Catalan to English):''' 87.52% (Wikipedia)
  +
  +
==Dictionary guidelines==
  +
  +
The current English-Catalan bilingual dictionary is quite big (more than 65,000 entries), so tidiness is essential to ensure future development:
  +
  +
* Keep entries sorted alphabetically.
  +
* Keep entries grouped by type and tags (do not mix different types of proper nouns together).
  +
* Check the file with apertium-dixtools (to update the number of entries and remove duplicates).
  +
  +
===Adjectives===
  +
  +
* Adjectives do not need <code><GD></code> or <code><ND></code> tags for Catalan in the bidix, they are automatically adjusted during transfer.
  +
* English adjectives with comparative and superlative forms (''high'', ''big'', etc.) need the <code><sint></code> tag to be generated properly.
  +
  +
===Proper nouns===
  +
  +
* In English, family names (<code><np><cog></code>) have two forms (singular and plural), but in Catalan they only have one (singular-plural), so two entries must be used. Example:
  +
: <code><l>'''Smith'''<np><cog><sg></l><r>'''Smith'''<np><cog><mf><sg></r></code>
  +
: <code><l>'''Smith'''<np><cog><pl></l><r>'''Smith'''<np><cog><mf><sg></r></code> (LR-only)
  +
  +
===Verbs===
  +
  +
* Catalan verbs tied to a pronoun (''dutxar-se'', ''casar-se'', etc.) need the <code><pron></code> tag to be generated properly.
  +
  +
==Transfer Rules==
  +
  +
A detailed list of all chunk, interchunk and postchunk rules and macros is available in the following page: [[English_and_Catalan/Transfer_Rules|Transfer Rules]]
  +
  +
==Future work==
  +
  +
===Bidix===
  +
  +
* Keep expanding the bidix (specially Catalan to English).
  +
* Fix proper noun entries (they do not have gender or number in Catalan).
  +
* Make use of the new apertium-separable module.
  +
* Make use of all the closed categories in the English dictionary.
  +
  +
===Lexical selection===
  +
  +
* Add new rules to improve lexical selection.
  +
* Fix odd translations in both directions.
  +
  +
===Transfer===
  +
  +
* Rewrite rules related to verb conjugation.
  +
* Add support for word order inversions in English questions.
  +
* Improve support for reflexive verbs and pronouns.
  +
* Move uppercase changes from T1X to T3X.
  +
  +
====Ambiguous rules====
  +
  +
{|class=wikitable
  +
! English pattern !! Catalan pattern !! Example input !! Example output
  +
|-
  +
|rowspan=2| det adj nom || det nom adj || The next step || El pas pròxim
  +
|-
  +
|| det adj nom || The next step || El pròxim pas
  +
|-
  +
|rowspan=2| be pp || ser pp || It is done like this. || És fet així.
  +
|-
  +
|| pro-ref vfin || It is done like this. || Es fa així.
  +
|-
  +
|}
   
 
==Archived information==
 
==Archived information==
   
<span style="color:red;">'''This information is out of date and kept only for archival purposes. Read the sections above for documentation on the current apertium-eng-cat.'''</span>
+
<span style="color:red;">'''The information below is out of date and kept only for archival purposes. Read the sections above for documentation on the current English-Catalan pair.'''</span>
   
 
===Introducció===
 
===Introducció===
Aquesta pàgina recull els suggeriments de millora al paquet apertium-en-ca quant a vocabulari (especialment per a unitats multimot), canvis estructurals i lèxics, errades de format, etc. Les files marcades a la primera columna amb blau fosc corresponen a fenòmens que ja han estat tractats.
+
Aquesta pàgina recull els suggeriments de millora al paquet apertium-eng-cat quant a vocabulari (especialment per a unitats multimot), canvis estructurals i lèxics, errades de format, etc. Les files marcades a la primera columna amb blau fosc corresponen a fenòmens que ja han estat tractats.
   
 
===Unitats monoparaula i multiparaula===
 
===Unitats monoparaula i multiparaula===
   
En aquesta taula podeu suggerir unitats monoparaula i multiparaula que haurien de ser als diccionaris d'apertium-en-ca. Una unitat multiparaula es útil quan la traducció en conjunt de seqüències de més d'un mot és preferible a la traducció del mots per separat. Això pot ajudar a desambiguar una paraula amb més d'un sentit.
+
En aquesta taula podeu suggerir unitats monoparaula i multiparaula que haurien de ser als diccionaris d'apertium-eng-cat. Una unitat multiparaula es útil quan la traducció en conjunt de seqüències de més d'un mot és preferible a la traducció del mots per separat. Això pot ajudar a desambiguar una paraula amb més d'un sentit.
   
 
Tenim bàsicament dos tipus d'unitats multiparaula: les que tenen flexió interna (el verb 'trobar a faltar': trobe a faltar, trobes a faltar, etc.) i les que no en tenen (com ara l'adverbi 'de bon grat'). Per a paraules senzilles i unitats multiparaula sense flexió, ens ajudareu més si feu servir la nostra eina d'inserció de vocabulari.
 
Tenim bàsicament dos tipus d'unitats multiparaula: les que tenen flexió interna (el verb 'trobar a faltar': trobe a faltar, trobes a faltar, etc.) i les que no en tenen (com ara l'adverbi 'de bon grat'). Per a paraules senzilles i unitats multiparaula sense flexió, ens ajudareu més si feu servir la nostra eina d'inserció de vocabulari.
Line 37: Line 115:
 
====Anglés → Català====
 
====Anglés → Català====
   
=====Sintagmes nominals=====
+
'''Sintagmes nominals'''
   
 
{|class=wikitable
 
{|class=wikitable
Line 47: Line 125:
 
|}
 
|}
   
=====Sintagmes verbals=====
+
'''Sintagmes verbals'''
   
 
{|class=wikitable
 
{|class=wikitable
Line 60: Line 138:
   
   
=====Sintagmes nominals=====
+
'''Sintagmes nominals'''
   
 
{|class=wikitable
 
{|class=wikitable
Line 70: Line 148:
 
|}
 
|}
   
=====Sintagmes verbals=====
+
'''Sintagmes verbals'''
   
 
{|class=wikitable
 
{|class=wikitable

Latest revision as of 21:38, 9 May 2018

This is a language pair translating between English and Catalan. The pair is currently located in trunk.

Current status[edit]

Last update: 9 May 2018

Bidix entries: 54,830

Bidix paradigms: 16


Transfer rules (English to Catalan): 221 (T1X), 60 (T2X), 38 (T3X)

Transfer rules (Catalan to English): 97 (T1X), 28 (T2X), 9 (T3X)


Coverage (English to Catalan): 92.50% (Wikipedia)

Coverage (Catalan to English): 87.52% (Wikipedia)

Dictionary guidelines[edit]

The current English-Catalan bilingual dictionary is quite big (more than 65,000 entries), so tidiness is essential to ensure future development:

  • Keep entries sorted alphabetically.
  • Keep entries grouped by type and tags (do not mix different types of proper nouns together).
  • Check the file with apertium-dixtools (to update the number of entries and remove duplicates).

Adjectives[edit]

  • Adjectives do not need <GD> or <ND> tags for Catalan in the bidix, they are automatically adjusted during transfer.
  • English adjectives with comparative and superlative forms (high, big, etc.) need the <sint> tag to be generated properly.

Proper nouns[edit]

  • In English, family names (<np><cog>) have two forms (singular and plural), but in Catalan they only have one (singular-plural), so two entries must be used. Example:
<l>Smith<np><cog><sg></l><r>Smith<np><cog><mf><sg></r>
<l>Smith<np><cog><pl></l><r>Smith<np><cog><mf><sg></r> (LR-only)

Verbs[edit]

  • Catalan verbs tied to a pronoun (dutxar-se, casar-se, etc.) need the <pron> tag to be generated properly.

Transfer Rules[edit]

A detailed list of all chunk, interchunk and postchunk rules and macros is available in the following page: Transfer Rules

Future work[edit]

Bidix[edit]

  • Keep expanding the bidix (specially Catalan to English).
  • Fix proper noun entries (they do not have gender or number in Catalan).
  • Make use of the new apertium-separable module.
  • Make use of all the closed categories in the English dictionary.

Lexical selection[edit]

  • Add new rules to improve lexical selection.
  • Fix odd translations in both directions.

Transfer[edit]

  • Rewrite rules related to verb conjugation.
  • Add support for word order inversions in English questions.
  • Improve support for reflexive verbs and pronouns.
  • Move uppercase changes from T1X to T3X.

Ambiguous rules[edit]

English pattern Catalan pattern Example input Example output
det adj nom det nom adj The next step El pas pròxim
det adj nom The next step El pròxim pas
be pp ser pp It is done like this. És fet així.
pro-ref vfin It is done like this. Es fa així.

Archived information[edit]

The information below is out of date and kept only for archival purposes. Read the sections above for documentation on the current English-Catalan pair.

Introducció[edit]

Aquesta pàgina recull els suggeriments de millora al paquet apertium-eng-cat quant a vocabulari (especialment per a unitats multimot), canvis estructurals i lèxics, errades de format, etc. Les files marcades a la primera columna amb blau fosc corresponen a fenòmens que ja han estat tractats.

Unitats monoparaula i multiparaula[edit]

En aquesta taula podeu suggerir unitats monoparaula i multiparaula que haurien de ser als diccionaris d'apertium-eng-cat. Una unitat multiparaula es útil quan la traducció en conjunt de seqüències de més d'un mot és preferible a la traducció del mots per separat. Això pot ajudar a desambiguar una paraula amb més d'un sentit.

Tenim bàsicament dos tipus d'unitats multiparaula: les que tenen flexió interna (el verb 'trobar a faltar': trobe a faltar, trobes a faltar, etc.) i les que no en tenen (com ara l'adverbi 'de bon grat'). Per a paraules senzilles i unitats multiparaula sense flexió, ens ajudareu més si feu servir la nostra eina d'inserció de vocabulari.

Per a la resta, podeu emplenar aquesta taula. La columna de 'Forma valenciana' la farem servir quan hi haja una distinció entre variants. Els sentits volen dir que la multiparaula s'ha d'introduir en els dos sentits de la traducció (:), només d'anglés a català (>) o només de català a anglés (<).

Castellà (en) Català (ca) Forma valenciana Sentit (:,<,>)
hurt fer mal :
prisoner presoner :
prisoner pres <
prisoner reclús <

Regles de transferència estructural[edit]

En aquesta secció us demanem que feu un esforç de definir un canvi estructural sistemàtic (tant com siga possible) entre anglés i català. Volem saber quin patró ens trobarem (seqüència d'etiquetes morfològiques acompanyades o no d'un lema específic en llengua origen) i quina acció li hem d'aplicar (seqüència d'etiquetes morfològiques acompanyades o no d'un lema específic en llengua meta). Distingirem entre canvis estructurals que afecten a sintagmes nominals i verbals. Per saber que significa, quins hi ha o com s'escriu un símbol mireu en la página List of symbols.

Anglés → Català[edit]

Sintagmes nominals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)
adj + n n + adj green cow vaca verda

Sintagmes verbals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)
prn.tn.p1.sg + will + vblex.inf vblex.fti.p1.sg I will go aniré

Català → Anglés[edit]

Sintagmes nominals

Patró (ca) Acció (es) Entrada (ca) Eixida (es)
det.pos + n1's + n2 det.def + n2 + de.pr + det.pos + n1 my sister's teacher el mestre de la meua germana

Sintagmes verbals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)