Méthodes d’apprentissage en traitement des images vidéo

En vision par ordinateur, la détection de visage a pour finalité la détection et la localisation d’un nombre inconnu de visages dans une image fixe ou dans un flux vidéo. Liés à l’essor  de l’Intelligence Artificielle, les premiers travaux abordent la question de détection de visage dès la fin des années soixante [4]. Les premières approches utilisaient des techniques heuristiques et anthropométriques simples afin de détecter des visages dans les images numériques avec diverses hypothèses simplificatrices ( photographie de passeport avec un fond uni et le visage de face). Cependant ces hypothèses induisent souvent un manque de flexibilité, de robustesse et répondent trop partiellement à la problématique de la détection de visage. Ces difficultés peuvent être justifier par :
— les différences des caractéristiques morphologiques propres à l’individu (forme du nez, couleur des yeux, couleur de peau, etc.).
— la diversité des aspects du visage liée aux changements d’expression de pose.
— la présence éventuelle d’artefacts visuels (chapeau, lunettes, ou la barbe, moustache, tatouage, cicatrice,. . . ).
— les modifications des conditions de la scène dues aux variations d’éclairage et du fond.
— la présence d’occultations.

Un très grand nombre d’approche proposés pour résoudre le problème de détection de visage peuvent être classer en deux grandes catégories, différentes par leur considération de l’information a priori du visage [3] :
1. Méthodes basées connaissances à priori [11] : s’appuient explicitement sur les connaissances du visage (la couleur de la peau, les relations spatiales entre la bouche, le nez, les deux yeux, template prédéfini, template déformable).
2. Méthodes basées apprentissage [25] : considèrent le problème de détection de visage comme un problème de reconnaissance de forme à deux classes : visage et non-visage, où chaque classe est représentée par une base d’apprentissage. Ces méthodes s’appuient sur des apprentissages statistiques permettant de construire une fonction de décision qui intègre implicitement les caractéristiques d’un visage.

Ces techniques voient la détection de visage comme un problème général d’identification, mettent en valeur les propriétés globales de la forme et traitent le visage comme un tout. Sans extraction ni analyse de composantes (le nez, les yeux , la bouche), l’approche holistique est basée sur l’apprentissage d’un modèle de visage à partir d’une base d’exemples.

Méthodes basées apprentissage

Dans le cadre de la détection de visage, une méthode basée apprentissage s’appuient sur des images d’apprentissage pour construire un modèle permettant de discriminer des instances de la classe du visage par rapport à toutes les instances de la classe non-visage. Les performances d’une telle méthode sont conditionnées par la qualité de la base d’apprentissage qui se doit d’être la plus représentative possible. En effet, cette base doit permettre de capter la variabilité d’apparence présente au sein de la classe visage et non-visage. La constitution de la base d’apprentissage est un point important et est abordée ultérieurement. Une fois la base d’apprentissage constituée, un algorithme d’apprentissage est appliqué sur l’ensemble des images d’apprentissage ou sur des descripteurs associés. Différents algorithmes d’apprentissage supervisé et non-supervisé en été proposé dans la littérature comme des SVM (Machine à Vecteur Support :Support Vector Machine) [4] , des réseaux de neurones [12], des réseaux bayésiens [15] ou des classifieurs bayésiens naïfs [10], boosting [15], et réseaux de neurones convolutionnels[20]. Le travail le plus marquant pour la détection de visage en temps-réel est celui de Viola et Jones [4]. Ce dernier a utilisé des descripteurs simples ainsi qu’une technique rapide de calcul de ces descripteurs appeler boosting. L’algorithme de boosting est utilisé à la fois pour sélectionner les meilleurs descripteurs mais aussi pour former un ou plusieurs classifieurs forts associés en cascade pour permettre une détection de visage en temps-réel.

Méthodes basées boosting 

Les performances du détecteur de Viola et Jones [24] sont dues à la combinaison de trois   éléments qui seront étudier par la suite :
1. un apprentissage de classifieurs par une méthode de boosting .
2. des descripteurs simples et rapides à calculer .
3. une structure de classifieurs en cascade.

Les algorithmes de boosting
Les algorithmes de boosting sont destinés à un apprentissage supervisé, i.e. qui utilisent une base d’apprentissage labellisée. Notons par B = {(xi , yi) ∈ R n×n}i=1,…,N la base d’apprentissage ou xi est un vecteur de données représentant un exemple d’apprentissage et yi ∈ {−1, 1} est le label associé à xi (généralement, le label 1 représente la classe des visages et le label -1 la classe des non-visages). Le but de ces méthodes est de construire un classifieur H (x) : Rⁿ → {−1, 1} : permettant d’associer un label à un visage inconnu. Des règles de décision précises sont générées en utilisant des règles de décision produites par des classifieurs faibles, i.e. des classifieurs ayant un taux de réussite un peu meilleur que le hasard. D’une manière générale, l’algorithme de Boosting s’inspire d’un concept très simple : il est rare d’avoir à sa disposition un expert omniscient permettant de prendre la meilleure décision et par conséquent, on a plutôt recours à un comité d’experts plus ou moins compétents pour ensuite combiner leurs avis et prendre une décision [1]. Le premier algorithme de Boosting a été proposé par Schapire [1] et permet d’obtenir un classifieur après avoir entraîné un classifieur faible sur trois sous-ensembles des données d’apprentissage. Cet algorithme a été amélioré par la suite en ajoutant deux autres critères :

1. La pondération adaptative des votes par une technique de mise à jour multiplicative.
2. La modification de la distribution des exemples disponibles pour entraîner chaque classificateur, en surpondérant au fur et à mesure les exemples mal classés.

De la même manière que la SVM [10], les méthodes de boosting sont issues de considérations théoriques, ce qui permet de connaître certaines propriétés. En particulier, on sait que l’erreur d’apprentissage diminue exponentiellement même si le classifieur faible. Cependant, la prédiction de l’erreur globale est plus difficile à prédire.

Table des matières

Introduction Générale
1 Chapitre1 : Méthodes d’apprentissage en traitement des images vidéo
1.1 Introduction
1.2 Méthodes basées apprentissage
1.2.1 Méthodes basées boosting
1.3 Descripteur de primitive
1.3.1 Image Intégrale
1.4 Classifieur en cascade
1.4.1 Classifieur faible et classifieur fort
1.4.2 Mise en oeuvre de classifieur
1.5 conclusion
2 Chapitre2 : Développement de la méthode Boosting
2.1 Introduction
2.2 Position du problème
2.3 Amélioration de l’algorithme
2.3.1 L’approche Real Boost
2.3.2 L’approche Gentle Boost
2.3.3 L’approche LogitBoost
2.3.4 L’approche Modest Boost
2.3.5 L’approche Emphasis Boost
2.4 La vitesse de convergence
2.4.1 iBoost
2.4.2 iAdaBoost
2.4.3 Region Boost
2.5 Conclusion
3 Chapitre3 : Application
3.1 Introduction
3.2 Vue d’ensemble du système
3.2.1 Conception globale
3.3 Les Etapes d’apprentissage
3.4 Détection de visage
3.5 Suivi du visage
3.5.1 Suivi des filtres à particules
3.5.2 Extraction de caractéristiques de la couleur
3.6 Conclusion
Conclusion Générale

Cours gratuitTélécharger le document complet

 

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *