Détection par mesures de similarité discriminatives

Détection par mesures de similarité discriminatives

Les systèmes de détection d’objets et en particulier les systèmes de détection de visages de l’état de l’art sont tous basés sur des mesures de similarité discrimina- tives. Malgré la diﬃculté induite par la nécessité de représenter la classe ‘non objet’, ces méthodes semblent permettre une meilleure classiﬁcation que les méthodes gé- nératives. La corrélation, associée à la méthode des plus proches voisins, a permis d’obtenir un système de détection fonctionnel mais dont les résultats semblent limi- tés par la méthode de classiﬁcation choisie. Aﬁn d’améliorer les taux de détection tout en utilisant toujours une base d’exemples de dimension réduite, nous proposons, dans ce chapitre, d’utiliser les méthodes mises au point pour les systèmes de détec- tion par corrélation en les adaptant à une mesure de similarité discriminative plus performante. Pour ce faire, nous avons remplacé la corrélation par un Perceptron Multicouche. Nous avons ensuite appliqué les deux idées qui ont donné les meilleures améliorations à la méthode par corrélation, c’est à dire, l’association de classiﬁeurs et l’utilisation de ﬁltres détecteurs de contours. Nous montrerons à la fois l’eﬃcacité de l’utilisation d’un Perceptron Multicouche en lieu et place d’une simple corrélation, mais aussi que nos conclusions sur les méthodes que nous utilisons avec la corrélation se généralisent à des classiﬁeurs plus complexes et performants. Nous commencerons par décrire un système de détection basé sur un MLP et montrerons l’inﬂuence de la forme du MLP choisie, du nombre d’exemples et de la méthode de BootStrapping. Nous appliquerons ensuite les méthodes que nous avons mises au point précédemment et montrerons comment elles inﬂuencent les résultats sur le problème particulier de la détection de visages.

Système de Détection basée sur un MLP avec peu d’exemples

Dans cette section nous utilisons un Perceptron Multicouche appliqué aux images en Niveaux de Gris, au problème de la détection de visages. Nous commencerons par décrire le fonctionnement d’un tel système, puis nous donnerons diﬀérents ré- sultats expérimentaux sur la base de test de détection de visages CMU. Nous nous intéresserons à l’inﬂuence du nombre d’exemples, à la forme du MLP ainsi qu’à la normalisation des images. Le système de détection que nous employons ici est un système de détection ‘classique’ (ﬁgure : 1.2) où nous utilisons un MLP directement appliqué aux images en Niveaux de Gris comme classiﬁeur. Nous nous servons d’une rétine de 25 25 pixels aﬁn que notre système puisse fonctionner sur les bases de test standards de détection de visages. La pyramide d’images permettant la détection multi-échelle utilise un facteur de sous-échantillonnage de 1:2.de neurones de la première couche est directement lié à la dimension de la rétine puisque l’entrée du réseau est un vecteur représentatif de l’image contenue dans la rétine. La troisième et dernière couche comporte un seul et unique neurone. Le réseau de neurones est entraîné de façon à retourner la valeur 1 si l’image d’entrée représentée par le vecteur x est un visage (ou plus généralement l’objet à détecter) et 1 dans le cas contraire. Les fonctions d’activation utilisées sont les fonctions tangentes hyperboliques (ﬁgure : 2.16).

Les N premiers exemples de la base de visages ‘Caltech WebFaces’ sont utili- sés comme images de référence. Une base de 450 images ne contenant pas de visage est utilisée pour l’algorithme de BootStrapping. Aﬁn de minimiser les risques de sur-apprentissage liés au faible nombre d’exemples ainsi que d’obtenir un système d’apprentissage plus rapide qu’avec l’utilisation classique de la méthode de BootS- trapping, nous avons mis au point une variante de cette méthode. Comme pour l’algorithme de BootStrapping classique, nous utilisons les fausses détections obtenues sur les images ne contenant aucun visage pour générer la classe ‘non visage’. Cependant les conditions d’arrêt de l’algorithme, ainsi que la méthode d’apprentissage utilisée diﬀérent de la méthode originale. L’algorithme classique de BootStrapping consiste à obtenir un certain nombre d’exemples de ‘non visage’ puis d’utiliser un algorithme d’apprentissage, généralement l’algorithme de Backpropa- gation pour les MLP. Cette opération étant répétée un certain nombre de fois, gé- néralement jusqu’à ce que l’ajout de nouveaux exemples n’améliore plus le taux de détection du système.

Télécharger le document complet