Description des bases de donnes médicales

Le mécanisme de vote

Construire une collection de prédicteurs n’est pas une condition su_sante pour avoir une bonne classi_cation, une autre étape est très importante pour la construction d’une forêt aléatoire, c’est l’agrégation de l’ensemble des prédictions. L’objectif visé est que ce pré- dicteur _nal soit meilleur que chacun des prédicteurs individuels. Dans l’étape suivante nous présentons les travaux qui améliorent cette étape. Dans une forêt aléatoire classique, l’agrégation est représentée par un vote majoritaire des prédictions des classi_eurs individuels. Plusieurs travaux ont mis au point des alternatives au vote majoritaire par l’application d’autres mécanismes de vote. Robnik-Sikonja propose dans [53] d’étudier une amélioration du système de vote majoritaire classique des forêts aléatoires, dans le but d’obtenir des classi_eurs _naux plus performants. L’idée proposée est d’établir une sélection d’arbres de décision qui participent au vote _nal sur les données « similaires » en terme de voisinage.

Plus simplement, pour chaque exemple de la base de test, ce système détermine parmi les données d’apprentissage, celles qui lui ressemblent le plus. Il décide alors de ne faire con_ance qu’aux arbres de décision qui savent le mieux classer ces données dites « similaires ». Ce système de vote majoritaire s’appuie sur la procédure utilisée par Breiman dans [51] pour mesurer la similarité. Dans [56] Evanitha et al., présentent des améliorations au système du vote ordinaire. Il s’agit de proposer six diversités de l’algorithme de vote pondéré. Le premier algorithme [53] est le même que celui utilisé par Breiman dans [51]. Ce principe est basé sur les performances individuelles des arbres sur les donnés similaires. Le deuxième algorithme [88], le troisième [89] et le cinquième algorithme [90] sont basés sur des métriques entre les données. Le quatrième [91] et le sixième [92] utilisent la pondération des arbres selon leurs taux de classi_cation. Evanitha et al. e_ectuent un certain nombre d’expérimentations sur la base de données Alzheimer pour étudier l’évolution des performances des forêts aléatoires lorsqu’elles implémentent le vote pondéré ou le vote majoritaire classique.

État de l’art Il existe différentes possibilités pour la génération des ensembles de classi_eurs. La premi ère possibilité consiste à manipuler les données comme dans le Bagging [37] avec l’utilisation du principe de Bootstrap ou dans le RSM (Random Subspace Methods [39]) où nous appliquons uniquement un sous-ensemble aléatoire de l’espace des caractéristiques. Une deuxième possibilité d’induire des ensembles de classi_eurs est de faire appel a diff érents algorithmes de classi_cation (ou un algorithme avec di_érents paramètres) tout en formant chacun sur le même ensemble de données (ici nous parlons des méthodes d’ensemble hétérogènes) [93_96]. Une troisième possibilité consiste à combiner les deux premières méthodes en randomisant les données (Bootstraping 1 par exemple) et l’algorithme d’apprentissage (en utilisant diff érents algorithmes ou bien un seul avec di_érents paramètres). Dans cette optique, Breiman a proposé les Forêts Aléatoires (Random Forests) [51]. L’algorithme des Forêts Aléatoires est l’une des réalisations les plus populaires de la recherche consacrée à l’agrégation d’arbres aléatoires. Depuis leur proposition, plusieurs chercheurs ont tenté d’améliorer les forêts aléatoires par la modi_cation du mécanisme de vote ou la technique d’induction des arbres.

L’algorithme PERT (pour « PErfect Random Tree » les arbres aléatoires parfaits) en est un exemple, il a été proposé par Cutler et Guohua (2001) [97]. Dans cet algorithme, pour la division de chaque n÷ud non-terminal, deux exemples de di_érentes classes sont d’abord tirés au hasard parmi l’ensemble d’apprentissage. Ensuite, un attribut aléatoire est sélectionné et le point de découpage est aléatoirement et uniformément établi entre les valeurs de cet attribut pour les deux exemples pris au hasard. Geurts et al. (2006) [85] ont mis en place un autre algorithme intégrant plus d’aléatoire au sein de l’arbre de décision connu sous le nom d’Extra-trees (Pour Extremely Randomized trees) qui est similaire à PERT et qui combine la randomisation des attributs de la méthode RSM avec une sélection totalement aléatoire du point de découpage. Dans un autre travail, Panov et al. [71] ont combiné les Sous-espaces aléatoires et le Bagging pour construire de meilleurs ensembles. L’idée du SubBag (pour Subspaces Bagging) consiste à sélectionner des échantillons aléatoires avec remplacement à partir de l’ensemble originel (comme dans le Bagging) et pour chaque échantillon, seulement 75% des attributs sont choisis au hasard (en utilisant le RSM [39]). Ainsi, les sous-bases obtenues sont plus randomisées par rapport à celles générées par le Bootsrping. Dans leur papier [71], Panov et al. ont prouvé que cette approche donne des performances comparables à celles des forêts aléatoires, avec l’avantage supplémentaire d’être applicable à n’importe quel algorithme d’apprentissage sans la nécessité de le randomiser. Louppes et Geurts ont proposé dans [72] un travail similaire au SubBag appelé Random Patches où chaque modèle de l’ensemble est construit à partir d’un sous ensemble de données et de variables obtenues par tirage aléatoire de l’ensemble originel des données. Leur méthode est très e_cace pour l’application des grandes bases de données, car elle réduit considérablement l’espace mémoire et le temps d’exécution.

Optimisation des Forêts Aléatoires Floues 1 Objectifs Pour certains domaines d’application, il est essentiel de produire des procédures de classiffcation compréhensibles par l’utilisateur. C’est en particulier le cas pour l’aide au diagnostic médical où le médecin doit pouvoir interpréter les raisons du diagnostic automatique. A ce titre plusieurs travaux sont e_ectués a_n de développer des outils d’aide au diagnostic et de classi_cation des maladies interprétables et transparents. Les arbres de décision répondent à ces contraintes car ils représentent graphiquement un ensemble de règles et sont aisément interprétables mais leur instabilité a conduit à l’élaboration de méthodes comme le Bagging (pour Bootstrap Aggregating) [37]. La Forêt Aléatoire _Random Forest_ de Breiman [51] nous permet dans une certaine mesure de remédier à ce problème. Malgré la puissance de performance de ce dernier, la notion de stabilité n’est pas forcément présente. L’idée proposée est d’intégrer le _ou pour retrouver la stabilité grâce aux arbres _ous. Dans ce travail [59], nous traitons l’extraction de la connaissance à partir des données, en appliquant les forêts aléatoires _oues (Fuzzy Random Forest FRF) qui combinent la robustesse des arbres de décision, la puissance du caractère aléatoire qui augmente la diversité des arbres dans la forêt ainsi que la _exibilité de la logique _oue. Les FRF’s ont la spéci_cité de contrôler des données imparfaites, de réduire le taux d’erreurs et de mettre en évidence plus de robustesse et plus d’interprétabilité. De ce fait, nous nous focalisons sur l’étude des forêts aléatoires _oues, et plus particuli èrement leur l’amélioration par la méthode C-moyennes _ous (FCM : Fuzzy C-Means) et ce a_n d’optimiser l’apprentissage structurel des paramètres _ous. Cette technique permet de réduire le nombre de sous-ensembles _ous et de minimiser le nombre de règles pour une connaissance plus ciblée. Ce chapitre est composé de 5 sections décrites comme suit : en premier lieu, un état de l’art sur les forêts aléatoires _oues est réalisé dans ce contexte. En second lieu, nous présentons les méthodes et l’approche proposée. Par la suite, nous exposons les résultats et interprétations des algorithmes implémentés avec une synthèse sur les di_érentes techniques. En dernier lieu, seront présentées une conclusion générale et les perspectives futures pour ce travail .

Conclusion

Les méthodes de classi_cation ont pour but d’identi_er les classes auxquelles appartiennent des objets à partir de certains traits descriptifs. Elles conviennent en particulier au problème de la prise de décision automatisée. La procédure de classi_cation sera extraite automatiquement à partir d’un ensemble d’exemples, ce dernier consiste en la description d’un cas avec la classi_cation correspondante. Un système d’apprentissage doit alors, à partir de cet ensemble d’exemples, extraire une procédure de classi_cation, il s’agit en e_et d’extraire une règle générale à partir des données observées. La tâche générée tentera d’identi_er les classes auxquelles appartiennent des objets à partir de certains traits descriptifs et avoir une meilleure prédiction pour classi_er les nouveaux exemples. Les méthodes d’ensemble constituent l’une des principales orientations actuelles de la recherche sur l’apprentissage par machine, elles ont été appliquées à un large éventail de problèmes réels. Malgré l’absence d’une théorie uni_ée sur des ensembles de données, il y a beaucoup de raisons théoriques pour combiner plusieurs apprenants, et la preuve empirique con_rme l’e_cacité de cette approche. Parmi les algorithmes issus des méthodes d’ensemble, les forêts aléatoires (« Random Forest » RF) [51] sont l’une des derniers aboutissements de la recherche et les plus e_caces pour l’apprentissage d’arbres de décision. RF permet l’agrégation d’arbres randomisés tout en synthétisant les approches développées respectivement par Breiman 1996 [37], Amit et Geman 1997 [52].

Les performances d’une forêt d’arbres dépendent de la qualité des exemples qui la compose et de leur indépendance. Aussi les forêts aléatoires sont fondées sur des arbres non élagués a_n de réduire l’erreur de biais ; en outre, le processus aléatoire permet d’assurer une faible corrélation entre les arbres pour sauvegarder leur diversité. Nous nous sommes intéressés dans ce travail à étudier et améliorer les performances du modèle ensembliste Forêt Aléatoire sur une tâche de classi_cation reliée au domaine médical. À cet e_et, nous avons procédé en premier temps à une analyse de travaux e_ectués dans le domaine qui a permis de mettre en évidence plusieurs avantages ainsi que certaines limites des forêts aléatoires employées dans le cadre de la classi_cation des données médicales. Nous avons constaté en conséquence que les classi_eurs déjà proposés à base des forêts aléatoires font preuve de bonnes performances mais peuvent être encore améliorés pour apporter plus de précisions aux résultats. Nous avons en premier lieu, fait appel à la forêt aléatoire en utilisant l’indice de Gini et le vote majoritaire, puis nous avons procédé au développement de plusieurs variances du même classi_eur en utilisant l’indice de Déviance et Twoing rule au niveau du choix de la variable de division des n÷uds des arbres et en_n nous avons appliqué le vote pondéré comme méthode d’agrégation de l’ensemble d’arbres. En second lieu, une nouvelle méthode de génération d’arbres appelée Subspaces Random Forest (Sub_RF) qui regroupe les principes du Bagging, la méthode des Sous-espaces aléatoires et les Forêts Aléatoires a été essentiellement proposée. Cette méthode s’est, en e_et, avérée e_cace par rapport à la forêt aléatoire classique.

En dernier lieu, un modèle de classi_cation des forêts aléatoires _oues est proposé. Spéci- _quement, nous nous sommes plus intéresses à deux critères pour évaluer cette approche. Le premier est la stabilité des performances du classi_eur, le second est la bonne reconnaissance. L’algorithme de Fuzzy C-Means (FCM) a permis d’optimiser l’arbre Fuzzy CART en réduisant son temps d’exécution mais tout en gardant une très bonne stabilit é et un bonne reconnaissance. Avec l’hybridation de ces méthodes une extraction de connaissances par le système d’inférence _ou a pu être faite passant de 60 règles avec le Fuzzy CART à 2 avec Fuzzy FCM. La connaissance réalisée est plus _able, précise et su_samment simple pour être comprise, le tout en améliorant les performances avec un bon taux de classi_cation pour les deux bases de données. Il reste plusieurs questions et limites à nos approches auxquelles nous souhaitons répondre à l’avenir. Nous prévoyons dans les perspectives de ce travail, de renforcer ces résultats avec une analyse théorique ainsi que tester nos algorithmes sur de grandes bases de données. Aussi l’adaptation aux problèmes multi-classes et multi-labels [118].

Table des matières

Résumé
Abstract
Table des matières
Table des figures
Liste des tableaux
Glossaire
I Problématique et Objectifs 1
1 Introduction Générale 2
1 Motivations
2 Objectifs et Contexte de la thèse
3 Problématiques
4 Contributions
5 Organisation du manuscrit
2 Problématique générale
1 Donnes à grande échelle : propriétés
2 Donnes Annotes : propriétés
3 Résumé
4 Démarche de cette thèse
II État de l’art et Propositions en apprentissage supervise : Classification des donnes par approche ensembliste
1 Étude d’une Fort Aléatoire à vote pondre
1 Principe de la Fort Aléatoire
1.1 Fort à entres aléatoires « Forest-RI »
2 Objectifs
3 État de l’art
3.1 Choix de la variable
3.2 Le mécanisme de vote
3.3 Contributions/propositions
4 Méthodes
4.1 Indice d’valuation Gini
4.2 L’agrégation par vote
5 Résultats et interprétation
5.1 Description des bases de donnes médicales
5.2 Choix de la taille de la fort
5.3 Choix de l’indice de division et le type de vote
6 Conclusion
2 Étude d’une Fort à Sous espaces Aléatoires
1 Objectifs
2 État de l’art
3 Propositions
3.1 Les sous-espaces Aléatoires
3.2 ForŒt à Sous espaces Aléatoires (Sub_RF)
4 Résultats et interprétations
5 Conclusion
3 Optimisation des ForŒts Aléatoires Floues
1 Objectifs
2 Univers flou
2.1 Le problème
2.2 La logique floue
2.3 Notion d’ensemble et sous ensemble flou
3 ForŒt Aléatoire Floue (Fuzzy Random Forest)
3.1 Le principe des forŒts d’arbre de dcision flou
3.2 Construire des partitions floues
3.3 Les caractéristiques d’un arbre de décision flou
3.4 Comparaison entre l’arbre de décision classique et l’arbre de d-cession flou
4 État de l’art
5 Propositions
6 Base de donnes
6.1 Pima Diabètes
6.2 Livre Discorder
7 Expérimentations
7.1 Les forŒts aléatoires Classiques (RF)
7.2 ForŒt Aléatoire Floue avec l’arbre Fuzzy CART (FRF-FCART)
7.3 ForŒt Aléatoire Floue avec l’arbre modifié Fuzzy C-Means CART (FRF-FCM-FCART)
7.4 Discussion
8 Conclusion
III État de l’art et Propositions en apprentissage semi-supervis : Classification des donnes par approche ensembliste
1 Les ForŒts Aléatoires en Apprentissage Semi-supervisé (co-Forest)
1 Objectifs
2 État de l’art
3 Proposition
4 Principe de l’algorithme co-Forest
5 Exprimentations et Rsultats
6 Conclusion
2 Les ForŒts Aléatoires en Apprentissage Semi-Supervisé (Co-forest) pour la segmentation des images rétiniennes
1 Contexte
2 Objectifs
3 État de l’art du domaine
4 L’approche propose
4.1 Sur-segmentation
4.2 Méthodes d’extraction des caractéristiques
4.3 La ForŒt Aléatoire en apprentissage semi-supervisé « co-Forest »
4.4 Module géométrique déformable
5 Base de donnes
6 Résultats et expérimentations
6.1 Expérimentations
6.2 Résultats
6.3 Discussion
7 Conclusion
3 Nouvelle approche d’apprentissage semi-supervisé pour les donnes à grande dimension
1 Objectifs
2 Les techniques d’apprentissage ensemblistes en semi-supervis
3 Notre approche propose « L’algorithme Optimal co-Forest »
3.1 L’algorithme ADE co-Forest
3.2 L’algorithme Optime co-Forest
3.3 Les avantages de notre approche
4 Expérimentations et résultats
4.1 Comparaison par tests non paramétriques
4.2 Le test post-hoc de Friedman
4.3 Passage à l’chelle : Application sur les bases à grande dimension
5 Conclusion
IV État de l’art et Propositions en apprentissage supervisé et semi-supervis : Slection de variables par approche ensembliste
1 La Mesure d’importance des facteurs qui influent sur le contrôle du Kratocône par la ForŒt alatoire
1 Objectifs
2 État de l’art des travaux sur la détection automatique du Kratocône
3 Contribution
4 Base de donnes
4.1 Lecture des cartes de topographie cornéenne
4.2 Présentation de la base Kratocône
5 Étapes de sélection
5.1 minimum Redondance Maximum Relevance (mRMR)
5.2 Relief
5.3 Las Vegas Wrapper LVW
5.4 La méthode de suppression rcursive des paramŁtres par RFE-SVM
5.5 Mesure d’importance par permutation des ForŒts Alatoires
6 Étapes de classification
7 Expérimentations et résultats
7.1 Rsultats
7.2 Discussion
7.3 Synthèse sur les techniques de slection
8 Conclusion et Perspectives
2 Application des ForŒts à Infrence Conditionnelle pour la mesure d’importance des variables
1 Objectifs
2 État de l’art du domaine
3 Méthodes
3.1 La forŒt Aléatoire
3.2 La ForŒt et l’Arbre à Infrence Conditionnelle
3.3 ForŒt à Infrence Conditionnelle (CIT) vs. ForŒt Alatoire (CART)
4 Résultats et Interprétations
4.1 Discussion
5 Conclusion
3 Sélection de variables en classification semi-supervise
1 Objectifs
2 Contribution
3 Les techniques de sélection semi-supervise
4 Approche propose
4.1 La procédure de mesure d’importance des variables
5 Expérimentations et résultats
5.1 Phase d’valuation
5.2 Résultats
6 Conclusion
V Conclusion et Perspectives
Bibliographie