Introduction et objet de l’étude

Introduction et objet de l’étude.

La détection et la localisation d’objets d’une famille donnée, ou de parties discri- minantes, dans les images constitue un outil fondamental pour l’indexation séman- tique automatique et la recherche des contenus audiovisuels, ceci pour de multiples applications incluant les services de distribution de contenus, la gestion des conte- nus personnels, les moteurs de recherche ou encore la vidéo surveillance. Ces vingt dernières années, l’augmentation des moyens informatiques associée à l’avènement de méthodes de classiﬁcation puissantes tels que l’AdaBoost ou les réseaux de neurones ont permit d’obtenir des systèmes de détection d’objets et en particulier de détection de visages très performants.Ces systèmes sont capables, à partir d’un grand nombre d’images exemples ma- nuellement annotées représentatives de la classe d’objet à détecter, d’apprendre à distinguer une image de cet objet d’une image n’appartenant pas à cette classe. L’annotation manuelle de ces exemples est un travail long et fastidieux. Nous pro- posons dans ce document de mettre au point une méthode d’appariement robuste permettant d’obtenir un système de détection capable de fonctionner avec une base d’images exemples de dimension réduite.Aﬁn d’arriver à ce résultat, nous nous somme inspiré des méthodes de détection d’objets et ou de visages les plus performantes. Nous avons commencé par utiliser une méthode de détection simple mais peu eﬃcace basée sur une mesure de similarité par corrélation. Nous avons ensuite amélioré ce système en y apportant diverses idées inspirées des systèmes de détection de l’état de l’art comme l’utilisation de ﬁltres convolutionnels, ou des traitements d’images permettant de corriger les variations d’illumination. Nous avons ainsi mis au point un système de détection de visages fonctionnel avec très peu d’exemples.

Introduction aux systèmes de détection.

Cette section décrit les idées communes à l’ensemble des systèmes de détection d’objets dans une image. Bien que de tels systèmes soient basés sur une grande variété de technologies, leur fonctionnement et leur évaluation sont basés sur des méthodes communes que nous nous proposons de décrire ici. Nous commencerons par décrire les diﬃcultés posées par les problèmes de détection et en quoi ce problème se diﬀérencie de celui de la reconnaissance. Puis, nous décrirons l’architecture générale d’un système de détection et nous conclurons sur l’évaluation des performances d’un tel système.Le but d’un système de détection est de décider la présence d’un objet à une position et une échelle donnée dans une image. La première diﬃculté est que pour détecter un objet, il faut être capable de reconnaître si une image donnée appartient à la classe ‘objet’ ou ‘non objet’. La seconde diﬃculté est qu’un tel système doit tester la présence d’un objet dans une image à toutes les positions et échelles possibles, ce qui conduit à une complexité de calcul importante. Ainsi, le problème se rapproche de celui de la reconnaissance ou de la classiﬁcation à deux classes avec la diﬃculté supplémentaire que la classe ‘non objet’ est très diﬃcile à représenter puisqu’elle est constituée de l’ensemble des images ne représentant pas l’objet à détecter.Aﬁn de pouvoir eﬀectuer une détection multi-échelle sur une image test, la mé- thode généralement utilisée est la suivante : l’image test est successivement sous- échantillonnée d’un facteur de l’ordre de 1:2 conduisant ainsi en l’obtention d’une pyramide d’images dont la plus grande a les dimensions de l’image test et la plus petite celles de la dernière image de la pyramide contenant une image pouvant être traitée par le classiﬁeur. Ainsi, l’objet pourra être détecté quel que soit son échelle.

Aﬁn de déterminer l’échelle et la position d’un objet dans une image, l’architecture d’un système de détection est divisée en deux parties. Un système de classiﬁcation capable de déterminer si une image donnée appartient à la classe ‘objet’ ou ‘non objet’ et un système permettant d’appliquer le système de classiﬁcation à toutes les positions et échelles possibles de l’image dans laquelle nous souhaitons détecter un objet. Il existe un grand nombre de systèmes de classiﬁcation diﬀérents que nous décrirons dans la partie état de l’art. Cependant, ces systèmes ont pour point commun de prendre en entrée une image de dimension h l ﬁxée et de renvoyer en sortie un score de détection s caractérisant l’appartenance à la classe ‘objet’ ou ‘non objet’ (ﬁgure : 1.1).Figure 1.1 – Principe d’un système de classiﬁcation pour la détection : un tel système renvoit pour une image de dimension h l un score caractérisant l’appartenance à la classe ‘objet’ ou ‘non objet’. Un seuil est ensuite généralement utilisé aﬁn de classer l’image dans la catégorie correspondante.dans l’image test. La dimension minimum de l’objet détectable correspond à la di- mension de l’image traitée par le classiﬁeur, la dimension maximum est celle d’un objet ayant pour hauteur et ou largeur la dimension de l’image test. Aﬁn de détermi- ner la présence à chaque position et échelle de l’image à tester, le classiﬁeur est utilisé à chaque position possible de l’ensemble des images de la pyramide, i.e, chaque pixel des images, résultant ainsi en une pyramide de cartes de scores (ﬁgure : 1.2).