Classification des données

Classification des données

Ce chapitre, sera consacré à la présentation des deux méthodes de classification des données. La première méthode est basée sur l’utilisation des techniques de reconnaissance des formes, la seconde méthode utilise les séparateurs à vaste marge (SVM). La méthode de reconnaissance des formes est une branche de l’intelligence artificielle, son objectif est le classement et l’identification des formes ou des objets à partir de données brutes afin de prendre une décision dépendant de la catégorie attribuée à cette forme [POISSON 06]. Cette méthode regroupe les techniques informatiques de représentation et de décision qui donnent à la machine la capacité de simuler un comportement sensible. Les méthodes SVM (Machines à vecteurs de support), est un outil très efficace pour la sélection des paramètres et aussi pour l’optimisation des paramètres d’un classifieur. Nous commençons par une présentation des principes de la méthode SVM où nous mettrons en évidence l’utilisation des SVM dans le cas des données linéairement séparables et le cas des données non linéairement séparables. Ensuite nous présentons des méthodes pour la classification SVM multi-classes.

Nous avons choisi d’utiliser la méthode de reconnaissance des formes floue parmi les autres méthodes, car elle est très performante devant les modèles imprécis (système complexe) et sa robustesse permet de limiter les effets des erreurs et imprécisions associées aux données et aux modèles. Elle nous permet d’identifier l’état actuel du système ainsi que l’évolution vers un mode indésirable. Tandis que La démarche de diagnostic par SVM a été proposée dans le seul but de valider les résultats de classification par reconnaissance des formes floue.

Reconnaissance des formes

La reconnaissance des formes interprète toute nouvelle observation (Forme), les observations sont regroupées en classes, constituant des prototypes auxquels la nouvelle observation est comparée pour être identifiée. Chaque observation est caractérisée par un ensemble de d paramètres, est représentable par un vecteur Xi dans l’espace Rd. Figure 2.1 : Diagnostic d’un système : approche reconnaissance des formes. Le diagnostic par reconnaissance des formes est posé comme suite : Définition de l’espace de représentation, structuration de l’espace de représentation et la construction d’une règle de décision [HANDIS .

Définition de l’espace de représentation

Cette première phase de prétraitement consiste à construire le vecteur forme, c.à.d. sélectionner les d paramètres à extraire à partir des signaux recueillis. Le but est de réduire la quantité de données en retenant que les variables les plus importantes et filtrer les informations redondantes. Cela fait réduire le temps de classification pour les nouveaux L’ensemble de d paramètres obtenus après traitement des signaux est représenté par un vecteur forme Xi représenté dans l’espace de représentation Rd. Il est préférable de disposer des paramètres variant, de manière significative, en fonction des différents modes de fonctionnement du système. Le choix des paramètres pertinents à partir des paramètres recueillis fait diminuer le temps de calcul. Des méthodes de réduction des paramètres doivent être utilisées pour extraire les paramètres les plus représentatifs [GAOUAOUI .

Les données collectées lors d’une observation d’un phénomène sur un système peuvent être peu significatives, corrélées ou redondantes, aberrantes ou simplement inutiles au problème de classification. L’objectif principal de la réduction de l’espace de représentation est de définir un nouvel espace de représentation de dimension réduite, afin de conserver les informations importantes du signal acquis. Les méthodes d’extraction des variables ainsi que les méthodes de sélection des variables peuvent être utilisées pour la réduction de l’espace de représentation. L’extraction de variables est une étape importante qui consiste à construire un nouveau ensemble de variables (d’< d), qui contient la plus grande part d’information, à partir des variables initiaux. Plusieurs méthodes peuvent être appliquées pour l’extraction des variables, les plus connues sont l’ACP (Analyse en Composantes Principales), LDA (Analyse Discriminante linéaire), PLS (la régression aux moindres carrés), … L’analyse en composantes principales (ACP) est une technique statistique d’analyse de données multivariées, capable de comprimer les données pour réduire leur dimensionnalité c.à.d. trouver un sous – espace propre, qui maximise la variance des données après projection de sorte que l’information soit maintenue. de dimension ′< représentant au mieux l’ensemble [HANDIS 12]. Si les composantes de ces vecteurs ne sont pas homogènes les résultats de classification risquent d’être erronés. Pour éviter cette situation les données sont normalisées suivant les étapes qui suivent :

∑ Une matrice d’inertie du nuage de points (matrice carrée, réelle et symétrique). Ses éléments diagonaux sont les variances de l’ensemble d’apprentissage, et les éléments non diagonaux sont les covariances. Les vecteurs propres de la matrice de variance-covariance ∑ sont les vecteurs Les résultats de l’ACP peuvent être visualisés en considérant la projection du nuage de points sur les deux ou trois premiers axes factoriels. Autrement dit, en visualisant la matrice des données dans l’espace défini par les deux ou trois premiers vecteurs propres. Enfin la qualité de la représentation peut être quantifiée par le calcul du pourcentage d’inertie expliquée sur chaque axe factoriel ou sur le sous-espace de dimension d’obtenu. Ce pourcentage d’inertie est défini en fonction des valeurs propres [HAFA12], [ROLAND 03]. Le pourcentage d’inertie expliquée par un axe i est donné par : La mesure de pertinence associée aux méthodes de sélection de variables est basée sur des heuristiques calculant l’importance individuelle de chaque variable, ce qui correspond intuitivement à : Pour stopper la procédure de recherche et définir les sous-ensembles des variables les plus pertinents il faut un critère d’arrêt. Le choix de ce dernier reste très difficile à faire, une première solution consiste à arrêter la procédure de recherche lorsqu’un nombre maximum de variables à sélectionner sont atteintes, la fixation de nombre de variables à sélectionner est pratiquement difficile, ce qui rend l’utilisation de ce critère d’arrêt rare. L’idéal est de baser sur le critère d’évaluation en fixant un seuil sur J , dans ce cas la procédure de recherche est arrêtée lorsque ce dernier est atteint.

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *