Résumé | Cet article présente une technique de truecasing - c'est-à-dire une technique qui permet de rétablir la forme de la casse normale d'un texte entièrement ou partiellement en minuscules. Cette technique emploie une combinaison de composantes statistiques, notamment un modèle du langage N-gram, un modèle d'affectation de la casse, et un modèle de langage spécialisé pour les mots inconnus. Ce système est également en mesure de distinguer entre les lignes « titre » et « non-titre », et il peut appliquer différents modèles statistiques à chaque type de ligne. L'apprentissage du système a été réalisé sur des données tirées de la partie anglaise du corpus du Hansard du Parlement canadien, et de certains textes en langue anglaise provenant d'un corpus de nouvelles concernant la Chine; il a été testé sur un ensemble distinct de textes du corpus chinois. Le système a permis d'obtenir une précision de l'ordre de 96 % une fois le corpus de textes chinois complètement transformé en minuscules; ceci représente une réduction relative de 80 % du taux d'erreur par rapport à la technique de référence de l'unigramme. Par la suite, nous avons mis en œuvre notre technique sous la forme d'un module appelé Portage Truecasing dans un système de traduction automatique appelé Portage, et nous avons testé son effet sur les performances générales de Portage. Dans cet article, nous explorons le concept de truecasing, puis expliquons les modèles utilisés. |
---|