English and Catalan

From Apertium
Revision as of 21:38, 9 May 2018 by Marcriera (talk | contribs) (→‎Current status)
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

This is a language pair translating between English and Catalan. The pair is currently located in trunk.

Current status

Last update: 9 May 2018

Bidix entries: 54,830

Bidix paradigms: 16


Transfer rules (English to Catalan): 221 (T1X), 60 (T2X), 38 (T3X)

Transfer rules (Catalan to English): 97 (T1X), 28 (T2X), 9 (T3X)


Coverage (English to Catalan): 92.50% (Wikipedia)

Coverage (Catalan to English): 87.52% (Wikipedia)

Dictionary guidelines

The current English-Catalan bilingual dictionary is quite big (more than 65,000 entries), so tidiness is essential to ensure future development:

  • Keep entries sorted alphabetically.
  • Keep entries grouped by type and tags (do not mix different types of proper nouns together).
  • Check the file with apertium-dixtools (to update the number of entries and remove duplicates).

Adjectives

  • Adjectives do not need <GD> or <ND> tags for Catalan in the bidix, they are automatically adjusted during transfer.
  • English adjectives with comparative and superlative forms (high, big, etc.) need the <sint> tag to be generated properly.

Proper nouns

  • In English, family names (<np><cog>) have two forms (singular and plural), but in Catalan they only have one (singular-plural), so two entries must be used. Example:
<l>Smith<np><cog><sg></l><r>Smith<np><cog><mf><sg></r>
<l>Smith<np><cog><pl></l><r>Smith<np><cog><mf><sg></r> (LR-only)

Verbs

  • Catalan verbs tied to a pronoun (dutxar-se, casar-se, etc.) need the <pron> tag to be generated properly.

Transfer Rules

A detailed list of all chunk, interchunk and postchunk rules and macros is available in the following page: Transfer Rules

Future work

Bidix

  • Keep expanding the bidix (specially Catalan to English).
  • Fix proper noun entries (they do not have gender or number in Catalan).
  • Make use of the new apertium-separable module.
  • Make use of all the closed categories in the English dictionary.

Lexical selection

  • Add new rules to improve lexical selection.
  • Fix odd translations in both directions.

Transfer

  • Rewrite rules related to verb conjugation.
  • Add support for word order inversions in English questions.
  • Improve support for reflexive verbs and pronouns.
  • Move uppercase changes from T1X to T3X.

Ambiguous rules

English pattern Catalan pattern Example input Example output
det adj nom det nom adj The next step El pas pròxim
det adj nom The next step El pròxim pas
be pp ser pp It is done like this. És fet així.
pro-ref vfin It is done like this. Es fa així.

Archived information

The information below is out of date and kept only for archival purposes. Read the sections above for documentation on the current English-Catalan pair.

Introducció

Aquesta pàgina recull els suggeriments de millora al paquet apertium-eng-cat quant a vocabulari (especialment per a unitats multimot), canvis estructurals i lèxics, errades de format, etc. Les files marcades a la primera columna amb blau fosc corresponen a fenòmens que ja han estat tractats.

Unitats monoparaula i multiparaula

En aquesta taula podeu suggerir unitats monoparaula i multiparaula que haurien de ser als diccionaris d'apertium-eng-cat. Una unitat multiparaula es útil quan la traducció en conjunt de seqüències de més d'un mot és preferible a la traducció del mots per separat. Això pot ajudar a desambiguar una paraula amb més d'un sentit.

Tenim bàsicament dos tipus d'unitats multiparaula: les que tenen flexió interna (el verb 'trobar a faltar': trobe a faltar, trobes a faltar, etc.) i les que no en tenen (com ara l'adverbi 'de bon grat'). Per a paraules senzilles i unitats multiparaula sense flexió, ens ajudareu més si feu servir la nostra eina d'inserció de vocabulari.

Per a la resta, podeu emplenar aquesta taula. La columna de 'Forma valenciana' la farem servir quan hi haja una distinció entre variants. Els sentits volen dir que la multiparaula s'ha d'introduir en els dos sentits de la traducció (:), només d'anglés a català (>) o només de català a anglés (<).

Castellà (en) Català (ca) Forma valenciana Sentit (:,<,>)
hurt fer mal :
prisoner presoner :
prisoner pres <
prisoner reclús <

Regles de transferència estructural

En aquesta secció us demanem que feu un esforç de definir un canvi estructural sistemàtic (tant com siga possible) entre anglés i català. Volem saber quin patró ens trobarem (seqüència d'etiquetes morfològiques acompanyades o no d'un lema específic en llengua origen) i quina acció li hem d'aplicar (seqüència d'etiquetes morfològiques acompanyades o no d'un lema específic en llengua meta). Distingirem entre canvis estructurals que afecten a sintagmes nominals i verbals. Per saber que significa, quins hi ha o com s'escriu un símbol mireu en la página List of symbols.

Anglés → Català

Sintagmes nominals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)
adj + n n + adj green cow vaca verda

Sintagmes verbals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)
prn.tn.p1.sg + will + vblex.inf vblex.fti.p1.sg I will go aniré

Català → Anglés

Sintagmes nominals

Patró (ca) Acció (es) Entrada (ca) Eixida (es)
det.pos + n1's + n2 det.def + n2 + de.pr + det.pos + n1 my sister's teacher el mestre de la meua germana

Sintagmes verbals

Patró (en) Acció (ca) Entrada (en) Eixida (ca)