Résumé | Dans le présent document, nous étudions l'effet de différentes décisions de prétraitement au niveau des mots en arabe sur la qualité de la TA statistique. Les résultats que nous avons obtenus montrent que, compte tenu de grandes quantités de données de formation, la séparation de proclitiques uniquement donne de meilleurs résultats. Toutefois, en présence de petites quantités de données de formation, il est préférable d'appliquer un prétraitement similaire à celui souvent appliqué à l'anglais, utilisant des étiquettes syntactiques, ainsi que la résolution de l'ambiguïté et l'analyse morphologique évoluée. En outre, le choix du prétraitement approprié entraîne une hausse significative de la cote BLEU en cas de changement de genre entre les données de formation et d'essai. |
---|