Résumé | Dans une revue, un article est souvent accompagné d'une liste d'expressions-clés, composées d'environ cinq à quinze expressions et mots importants qui décrivent les principaux sujets qui y sont abordés. Les expressions-clés sont utiles pour diverses raisons, y compris pour l'établissement d'un résumé, pour l'indexation, pour l'étiquetage, pour la définition de catégories, pour le regroupement, pour la mise en évidence, pour la navigation et pour la recherche. Lors de l'extraction automatique d'expressions-clés, on sélectionne des expressions-clés dans le texte d'un document donné. Grâce à cette extraction, on peut produire des expressions-clés pour les innombrables documents pour lesquels il n'existe aucune expression-clé attribuée à la main. On a obtenu de bons résultats en ce sens en abordant ce thème comme un problème d'apprentissage supervisé. En entrée, un document est traité comme un ensemble d'expressions candidates qui doivent être classées comme expressions-clés ou comme expressions ne constituant pas des expressions-clés. Pour qu'une expression candidate puisse être classée comme expression-clé, il s'avère que les caractéristiques (attributs) les plus importantes sont la fréquence et l'emplacement de l'expression candidate dans le document. Des travaux récents ont démontré qu'il est également utile de connaître la fréquence de l'expression candidate afin d'en faire une expression-clé attribuée à la main pour d'autres documents du même domaine que le document donné (p. ex. le domaine de l'informatique). Malheureusement, la caractéristique liée à la fréquence des expressions-clés est propre à un domaine (il faut répéter le processus d'apprentissage pour chaque domaine nouveau) et exige une formation approfondie (pour obtenir de bons résultats, il faut disposer d'un nombre assez grand de documents de formation dans le domaine donné, en présence d'expressions-clés attribuées à la main). Les travaux décrits ici visent à dépasser ces limites. Dans le présent article, je présente les nouvelles caractéristiques liées de manière conceptuelle à la fréquence des expressions-clés et je décris des expériences ayant démontré que les nouvelles caractéristiques permettent de mieux extraire des expressions-clés, malgré que celles-ci ne soient ni propres à un domaine, ni exigent une formation approfondie. Pour produire les nouvelles caractéristiques, on utilise des requêtes dans un moteur de recherche Web, d'après les expressions-clés candidates présentes dans le document en entrée. Les valeurs des caractéristiques sont calculées d'après le nombre d'occurrences dans la requête (le nombre de pages Web correspondantes). Ces nouvelles caractéristiques découlent essentiellement de l'exploration des connaissances lexicales d'un vaste ensemble de données non étiquetées, à savoir quelque 350 millions de pages Web, en l'absence d'expressions-clés attribuées à la main. |
---|