Téléchargement | - Voir le manuscrit accepté : Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization (PDF, 590 Kio)
|
---|
Auteur | Rechercher : Amini, Massih R.1; Rechercher : Usunier, Nicolas; Rechercher : Goutte, Cyril1 |
---|
Affiliation | - Conseil national de recherches du Canada. Institut de technologie de l'information du CNRC
|
---|
Format | Texte, Article |
---|
Conférence | The 23rd Annual Conference on Neural Information Processing Systems, Vancouver, B.C., Canada, December 07-10, 2009 |
---|
Sujet | Information and Communications Technologies |
---|
Résumé | Nous abordons dans cet article le problème de l'apprentissage de classifieurs lorsque des observations génèrent des données multi-vues, dont certaines ne figurent pas dans tous les exemples. Nous supposons par ailleurs l'existence de fonctions capables de générer les vues manquantes de manière approximative. C’est le cas de l’apprentissage appliqué à la classification de textes à partir de collections multilingues dans lesquelles certains documents ne sont pas disponibles dans toutes les langues, mais peuvent être traduits par des systèmes de traduction automatique (TA). Une borne de l’erreur en généralisation a été dérivée à l’aide de classifieurs appris à partir d’exemples de vues multiples créées artificiellement. Nos résultats révèlent un compromis entre la taille de la base d'entraînement, le nombre de vues ainsi que la qualité des traductions. Ce compromis permet de déterminer les situations où il est plus judicieux de fonder l'apprentissage sur des données multi-vues plutôt que sur des données mono-vues qui représentent le cadre classique d’apprentissage. Une extension naturelle de ce cadre permet d’inclure des données multi-vues non étiquetées dans le processus d’apprentissage semi-supervisé. Des résultats expérimentaux sur un sous-ensemble de la base de Reuters RCV1/RCV2 confirment nos travaux en montrant que la génération de vues supplémentaires à l’aide de la TA peut améliorer de manière importante la performance de classification dans les cas identifiés par notre compromis. |
---|
Date de publication | 2010 |
---|
Dans | |
---|
Série | |
---|
Langue | anglais |
---|
Publications évaluées par des pairs | Oui |
---|
Numéro NPARC | 16067306 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | 1c904446-c414-45b1-a948-d4600a7356df |
---|
Enregistrement créé | 2010-11-03 |
---|
Enregistrement modifié | 2020-04-17 |
---|