Classification des données

Classification des données

Algorithme : PCM et MPCM o Données N vecteurs non étiquetés. o Paramétrage : Nombre de classe M. nombre maximal d’itérations T Fixer le degré de flou m. Norme pour calcul des distances ||.||A. Seuil d’arrêt ɛ. o Initialisations : Initialiser le compteur de boucle t 0 . Initialiser la partition en utilisant par exemple l’algorithme FCM. Calculer lesk par l’équation (2.44) o Itérations : Répéter t t 1 1. Calcul de la matrice de partition Ut par l’équation (2.46) ou (2.47). 2. Calcul des prototypes Vt par l’équation (2.45). Tant que t T et Vt Vt 1 Tableau 2.3 : Algorithme PCM et MPCM.

Problèmes en classification

Validation du nombre des classes

Le processus d’évaluation des performances de la classification est appelé indice de validation des classes. Le processus pour le calcul de l’indice de validation est résumé comme suite : 1. Initialiser les paramètres de l’algorithme excepté le nombre de classe M, 2. Appliquer l’algorithme pour différentes valeurs de M, avec M=2,3 … Mmax (Mmax est fixé par l’utilisateur). 3. Calculer l’indice de validation pour chaque partition obtenue à l’étape 2, 4. Choisir le nombre optimal des classes M. Plusieurs indices de validité de classes sont proposés dans la littérature. Berzek a proposé deux indices: le coefficient de partition et l’entropie de partition. Ils sont sensibles au bruit et à la variation de [MARIA 01]. Ont défini un critère de compacité et de séparabilité, il donne un bon résultat en cas de classes compactes et bien séparées.

Méthodes d’initialisation de la partition

Le bon choix des paramètres initiaux assure une bonne qualité de classification, l’initialisation de la partition se fait soit par un triage aléatoire des centres des classes parmi l’ensemble d’apprentissage, ou bien par l’utilisation d’un algorithme de classe inférieure dans la famille de c-moyennes …etc.

Définition des fonctions d’appartenance

Exploitation des résultats de la classification floue L’apprentissage à partir de l’ensemble des données non étiquetées par l’un des algorithmes de classification floue (FCM, PCM, MPCM …) décrits précédemment, il convient en général d’examiner s’il est possible d’associer à chacune des classes connues, un mode de fonctionnement du système surveillé. À chaque mode de fonctionnement correspond une seule classe, on pourra déterminer les valeurs de toute nouvelle observation X, des fonctions d’appartenance par l’équation de degré d’appartenance. L’utilisation de l’équation (2.38) entraine : M k X k X 1 1 (2.50) Cela semble une propriété trop forte en diagnostic, notamment lorsque des modes de fonctionnement répertoriés ne sont pas exhaustifs: il se peut alors que le système se trouve, à un instant donné, éloigné de tous les modes connus, ce qui devrait se traduire par une condition du type : 0 Maxk1,M k X (2.51) Il est recommandé d’utiliser la formule c-moyenne possibiliste modifiée MPCM pour le calcul des degrés d’appartenance : 1 1 2 1 m m k k A k w X V k X (2.52) Dans le cas où un mode de fonctionnement correspond à plusieurs classes, il paraît naturel de définir le degré d’appartenance au mode k en fonction des degrés d’appartenance aux classes correspondant à ce mode, en utilisant un opérateur de combinaisons disjonctif. Soit k k ,1 k ,2 k ,n , ,, les fonctions d’appartenance et les prototypes k Vk ,1 VK ,2 Vk ,n , ,, caractérisant le mode k. On pourra poser, pour une t-conorme : Classification des données 37 | P a g e nk k X k,1 k, (2.53) Par exemple, Massons [MASSON 96] a proposé d’utiliser l’opérateur de somme bornée : k n l k X k l 1 , min 1, (2.54) L’emploi d’autres opérateurs tels que le maximum de ZADEH pourrait se justifier également. 2.3.6 Règle de décision à partir des degrés d’appartenance (Defuzzification) La règle de décision permet d’établir des frontières entre les classes, et d’affecter ou non une nouvelle observation X à l’une des classes correspondant à un mode de fonctionnement. Après avoir calculé le vecteur Z qui représente donc les degrés d’appartenance aux différentes classes : Z X X t M , , 1 (2.55) Pour affecté X à sa classe, il reste à en déduire le choix d’une action k 1 ,M , le cas le plus simple serait d’avoir chaque action k qui représente l’affection du vecteur X à la classe k . Dans ce cas, on pourrait appliquer le principe de maximum d’appartenance : DX Si X X l k k k l (2.56) Si on considère l’ensemble des actions possibles incluant, l’affectation à un rejet d’ambiguïté a et l’action de rejet en distance d , pour chaque vecteur d’entrée X, on obtient un ensemble des résultats des actions obtenues : JX k 1,,M/ k X Sk (2.57) Pour chaque classe, Sk présente le seuil d’appartenance. Ce seuil est soit défini a priori, soit déterminé à partir de l’ensemble d’apprentissage. Cette règle appelée seuillage des appartenances, consiste à rejeter X en ambiguïté si son degré d’appartenance à plusieurs classes est significatif. Et à choisir l’option de rejet de distance quand J X est vide : a d k Si J X alors D X Si J X alors D X Si J X k alors D X 1 (2.58) Classification des données 38 | P a g e L’inconvénient de règle de seuillage des appartenances est le fait qu’elle contrôle les deux options de rejet par le même seuil d’appartenance Sk . Une autre règle proposée par FRELICOT [FRELICOT 92], [FRELICOT 93], dite règle du rapport d’appartenance, basée sur le seuillage d’appartenance, s’appuie sur le rapport : X X R p m (2.59) Avec : X X m maxkJ X p k (2.60) X X p maxkJ X k (2.61) On a 0 R 1, quand R s’approche de 1 il ya ambiguïté. On pose la règle suivante : p d amb a Sinon D X Si J X alors D X Si J X et R T alors D X 1 (2.62) Tamb est un paramètre fixé par l’utilisateur, permettant le contrôle du rejet en ambiguïté. Une dernière règle de degrés de confiance, a été proposée par Masson et al [MASSON 92]. Son principe s’appuie sur la définition de degrés de confiance fonctions des M degrés d’appartenance. Plus précisément, on définit le degré de confiance associé à la classe k pour le vecteur forme X comme : C X X X k k lk 1 l (2.63) La quantité C X k est d’autant plus grande que le degré d’appartenance à la classe ݇ est élevé et que les degrés d’appartenance aux autres classes sont faibles. Par ailleurs, soit: C X X l M 0 l 1 1 (2.64) Cette quantité est d’autant plus grande que les degrés d’appartenance aux classes sont faibles, et traduits donc le caractère « atypique » du vecteur ܺ. Une règle de décision simple, basée sur les degrés de confiance, est donc la suivante. Soir q l’indice tel que : q C X maxk 0, ,M k arg (2.65) On pose : a k ad k ad d Sinon D X Si q k et C X T alors D X Si q et C X T alors D X 0 0 (2.66) Tad Étant un coefficient contrôlant à la fois le rejet d’ambiguïté et le rejet de distance.