Résumé | Dans de nombreux domaines, on décrit les objets de données selon un grand nombre de caractéristiques (p. ex. expériences en microréseau ou caractérisations spectrales d'échantillons organiques et inorganiques). Une démarche en pipeline faisant appel à deux algorithmes de groupement combinés à des ensembles bruts est à l'étude, et ce dans le but de découvrir d'importantes combinaisons d'attributs dans des données de haute dimension. L'algorithme Leader et plusieurs algorithmes de type k-moyennes sont utilisés comme procédures rapides pour simplifier les ensembles d'attributs des systèmes d'information qui sont présentés aux algorithmes des ensembles bruts. Les données décrites sur le plan de ces quelques caractéristiques moins nombreuses sont ensuite discrétisées en matière d'attribut de décision, selon différents modèles établis d'après les ensembles bruts. C'est à partir d'eux que sont ensuite extraites les réductions et leurs règles dérivées que l'on applique aux données d'essai afin d'évaluer la précision résultante de la classification dans des expérimentations de validation croisée. Le processus d'exploration de données est mis en œuvre dans un environnement informatique réparti à débit élevé. La transformation non linéaire des sous-ensembles d'attributs préservant la structure des similarités entre les données a aussi été étudiée. La capacité de classification de ces sous-ensembles, et celle des sous-ensembles d'attributs obtenus après le processus d'exploration, a été décrite sur le plan des fonctions analytiques obtenues de la programmation génétique (programmation de l'expression génétique), puis simplifiée à l'aide de systèmes algébriques informatisés. On a utilisé des techniques d'exploration visuelle des données faisant appel à la réalité virtuelle pour examiner les résultats. Une exploration de cette démarche (à l'aide de données d'expression génétique de la leucémie, du cancer du côlon et du cancer du sein) a été effectuée dans une série d'expérimentations. Elle a donné lieu à de petits sous-ensembles de gènes à pouvoir discriminatif élevé. |
---|