Tester la capacité de l’algorithme des K- moyennes prédictives

Clustering prédictif du premier type

Prédictives aﬁn de comparer sa performance avec d’autres algorithmes de la littérature. Ce chapitre est divisé en deux grandes parties. La première partie est consacrée au premier type du clustering prédictif (voir Section 6.2). Pour ce type d’algorithmes, l’axe de prédiction est privilégié. Dans ce cadre d’étude, aﬁn d’atteindre notre objectif, nous allons comparer les performances prédictives de l’algorithme des K-moyennes prédictives avec celles obtenues par les algorithmes les plus répandus dans la littérature. La deuxième partie de ce chapitre est consacrée au deuxième type du clustering prédictif (voir Section 6.3). Pour ce type d’algorithmes, aucun axe n’est pri- vilégié par rapport à l’autre. Il s’agit ici de réaliser un bon compromis entre la description et la prédiction sous la contrainte d’interprétation des résultats. Dans cette partie expérimentale, on cherche à connaître, pour un jeu de données illustratif, la capacité de notre algorithme des K-moyennes prédictives à découvrir la structure interne de la variable cible et donc à découvrir les diﬀérentes raisons qui peuvent mener à une même prédiction.Note : L’ensemble des approches présentées dans les sections précédentes ont été codées sur le logiciel R. Des spéciﬁcations de codes ont également été fournies à un prestataire aﬁn de faire intégrer les approches proposées dans le logiciel interne Khiops Ennéade. Ce dernier est disponible sur le site suivant : www.khiops.predicsis.com. Il est à signaler donc que l’ensemble des résultats obtenus dans cette thèse sont reproductibles.

Clustering prédictif du premier type

Le clustering prédictif du premier type englobe l’ensemble des algorithmes du clustering modiﬁés permettant de prédire correctement la classe des nouvelles instances sous la contrainte d’avoir un nombre minimal de clusters. Dans ce cadre d’étude, l’axe de prédiction est principalement privilégié. L’algorithme des K-moyennes prédictives du premier type proposé dans cette thèse est donc l’algorithme incorporant les méthodes de prétraitement et d’initialisation des centres les plus performants en termes de prédictions. En s’appuyant sur les résultats présentés dans la ﬁgure 6.1, l’algorithme des K-moyennes prédictives du premier type proposé est l’algorithme intégrant la méthode supervisée du prétraitement des données Conditional Info (CI) et la méthode supervisée d’initialisation des centres Rocchio-And-Split (RS). Pour un nombre ﬁxe de clusters (K), l’algorithme 8 présente sous forme des lignes de code l’algorithme des K-moyennes prédictives du premier type.

Cette section est consacrée à la comparaison des performances prédictives de cet algorithme des K-moyennes prédictives avec celles d’autres algorithmes du clustering prédictif les plus ré- pandus dans la littérature. Cette section expérimentale est divisée en deux grandes parties. Dans la première partie (Section 6.2.1), on considère le nombre de clusters (K) comme une entrée de l’algorithme. Pour chaque jeu de données, on considère que le nombre de clusters (K) est égal au nombre de classes (J). Dans ce cas, le problème du départ devient un problème de classiﬁcation supervisée. L’objectif de cette première partie est de tester la capacité de l’algorithme des K- moyennes prédictives présenté ci-dessus à atteindre l’objectif des algorithmes de la classiﬁcation supervisée (i.e., prédire correctement la classe des nouvelles instances).

Le nombre de clusters (K) est une entrée

Dans cette partie expérimentale, on cherche à tester la capacité de l’algorithme des K- moyennes prédictives présenté dans l’algorithme 8 à atteindre l’objectif des algorithmes de la classiﬁcation supervisée. Les performances prédictives de l’algorithme des K-moyennes prédictives seront d’une part comparées à celles de l’algorithme des K-moyennes standard. Cette comparai- son nous permet de savoir à quel point la version modiﬁée parvient à dépasser la version originale dans le contexte de la classiﬁcation supervisée. D’autre part, l’algorithme des K-moyennes prédictives sera comparé à un des algorithmes de la classiﬁcation supervisée le plus interprétable et le plus répandu dans la littérature, à savoir l’arbre de décision. Ce dernier est considéré comme une hiérarchie de clusters où chaque feuille représente un cluster. Pour une comparaison cohérente, le nombre de feuilles généré par l’arbre de décision est contrôlé de telle sorte d’avoir un nombre égal au nombre de classes du jeu de données utilisé (la taille du modèle est ﬁxé K = J). Pour évaluer la performance prédictive de ces trois algorithmes, le critère « Variation d’Information » (VI) est utilisé. Plus la valeur de VI est proche de 0, meilleure est la performance prédictive du modèle.

Les deux ﬁgures 6.4 et 6.5 présentent les performances prédictives (en termes de VI) des trois algorithmes d’apprentissage lorsque le nombre de clusters (K) est égal au nombre de classes (J). Les résultats des deux ﬁgures montrent que l’algorithme des K-moyennes prédictives parvient à atteindre soit de meilleures performances prédictives par rapport à l’arbre de décision (résultats de la ﬁgure 6.4) ou des performances compétitives avec celles de l’arbre de décision (résultats de la ﬁgure 6.5). De plus, l’algorithme des K-moyennes prédictive arrive à atteindre des performances prédictives signiﬁcativement meilleures que celles obtenues par l’algorithme des K-moyennes standard sachant que ce dernier est exécuté 100 fois avec diﬀérentes initialisations (en utilisant la même méthode K++) pour choisir la meilleure partition.