Finding relevant attributes in high dimensional data: a distributed computing hybrid data mining strategy

Par Conseil national de recherches du Canada

DOI	Trouver le DOI : https://doi.org/10.1007/978-3-540-71200-8_20
Auteur	Rechercher : Valdés, Julio; Rechercher : Barton, Alan
Format	Texte, Article
Résumé	Dans de nombreux domaines, on décrit les objets de données selon un grand nombre de caractéristiques (p. ex. expériences en microréseau ou caractérisations spectrales d'échantillons organiques et inorganiques). Une démarche en pipeline faisant appel à deux algorithmes de groupement combinés à des ensembles bruts est à l'étude, et ce dans le but de découvrir d'importantes combinaisons d'attributs dans des données de haute dimension. L'algorithme Leader et plusieurs algorithmes de type k-moyennes sont utilisés comme procédures rapides pour simplifier les ensembles d'attributs des systèmes d'information qui sont présentés aux algorithmes des ensembles bruts. Les données décrites sur le plan de ces quelques caractéristiques moins nombreuses sont ensuite discrétisées en matière d'attribut de décision, selon différents modèles établis d'après les ensembles bruts. C'est à partir d'eux que sont ensuite extraites les réductions et leurs règles dérivées que l'on applique aux données d'essai afin d'évaluer la précision résultante de la classification dans des expérimentations de validation croisée. Le processus d'exploration de données est mis en œuvre dans un environnement informatique réparti à débit élevé. La transformation non linéaire des sous-ensembles d'attributs préservant la structure des similarités entre les données a aussi été étudiée. La capacité de classification de ces sous-ensembles, et celle des sous-ensembles d'attributs obtenus après le processus d'exploration, a été décrite sur le plan des fonctions analytiques obtenues de la programmation génétique (programmation de l'expression génétique), puis simplifiée à l'aide de systèmes algébriques informatisés. On a utilisé des techniques d'exploration visuelle des données faisant appel à la réalité virtuelle pour examiner les résultats. Une exploration de cette démarche (à l'aide de données d'expression génétique de la leucémie, du cancer du côlon et du cancer du sein) a été effectuée dans une série d'expérimentations. Elle a donné lieu à de petits sous-ensembles de gènes à pouvoir discriminatif élevé.
Date de publication	2007
Maison d’édition	Springer
Dans	Transactions on Rough Sets VI : 366–396.
Langue	anglais
Publications évaluées par des pairs	Oui
Numéro du CNRC	NRCC 48766
Numéro NPARC	5764714
Exporter la notice	Exporter en format RIS
Signaler une correction	Signaler une correction (s'ouvre dans un nouvel onglet)
Identificateur de l’enregistrement	4cd37a2c-96cc-49b7-b656-ab3ec99a8508
Enregistrement créé	2009-03-29
Enregistrement modifié	2020-05-10

Date de modification :: 2024-04-19