Construction de modèles 3D à partir de données vidéo fishey

Facebook Tweet Pin Email

La reconstruction 3D à partir de la vision est un domaine très actif. Ce manuscrit relate de modélisation à grande échelle d’environnements urbains. Cette reconstruction est expérimentée en conditions réelles et difficilement maîtrisables pour une application visant à améliorer la précision de la localisation GNSS en ville.

Cette thèse s’inscrit dans le cadre du projet CAPLOC (Combinaison de l’Analyse d’images et de la connaissance de la Propagation des signaux pour la LOCalisation). En milieu urbain, les signaux GNSS sont fortement perturbés par les réflexions multiples sur les façades des bâtiments présents le long du trajet d’un véhicule. Ces perturbations modifient directement les valeurs de mesure de pseudodistance de satellite à véhicule et mènent à une estimation imprécise de la position GNSS, voire conduisent à l’indisponibilité du service de localisation quand les signaux sont bloqués. L’objet de ce projet est de montrer comment il est possible d’améliorer la localisation GNSS d’un véhicule en environnement urbain à partir de son modèle 3D estimé par vision ; ce modèle permettant d’intégrer des connaissances sur les caractéristiques de propagation des signaux dans le processus d’estimation de la position du véhicule.

Cette méthode de correction a été protégée par un brevet déposé le 29/09/2006 : Dispositif de localisation. Numéro de publication : WO/2008/040896. Date de publication internationale : 10 avril 2008.

Ce mémoire expose les travaux menés sur l’estimation du modèle 3D d’un environnement urbain par la mise en correspondance du contenu de plusieurs images provenant d’un système de perception à objectif fisheye. La méthode proposée est fondée sur la construction d’un graphe 3D et sur l’usage d’une optimisation par programmation dynamique. Nous l’avons appliquée avec succès à des images provenant d’un système stéréoscopique et d’un système mono-caméra en mouvement. Les modèles 3D estimés sont exploités dans le dernier chapitre pour montrer que, sous certaines conditions, une correction géométrique des erreurs de pseudodistance mène à une position GNSS plus précise.

CAPLOC est un projet français financé par le Ministère de l’Écologie, du Développement Durable et de l’Énergie (MEDDE). Il fait partie du Programme de REcherche et D’Innovation dans les Transports terrestres (PREDIT). Les laboratoires partenaires pour ce projet sont l’IFSTTARCOSYS-LEOST, coordinateur du projet localisé à Villeneuve-d’Ascq (Nord) et l’IRTES-SET, localisé à Belfort (Territoire-de Belfort). Le programme de CAPLOC est divisé en trois tâches techniques :
1. Analyse d’images pour la détection et la caractérisation des obstacles perturbant la réception des signaux satellitaires ;
2. Construction d’un modèle 3D urbain par analyse d’une séquence d’images ;
3. Utilisation des informations de l’image pour une localisation GNSS sûre et précise.

Dans ce contexte, deux thèses applicatives ont été entreprises pour les deux premières tâches :
1. Segmentation d’images par combinaison adaptative couleur/texture et classification de pixels : Application à la caractérisation de l’environnement de réception de signaux GNSS, soutenue le 3 octobre 2013 par Dhouha Attia [Attia, 2013].
2. Construction de modèles 3D à partir de données vidéo fisheye — Application à la localisation en milieu urbain, qui est l’objet de ce manuscrit.

Les résultats des travaux de [Attia, 2013] permettent de déterminer l’état de réception des satellites GPS à partir de la segmentation des images en deux catégories : ciel et non ciel. La localisation GNSS est ainsi améliorée en tenant compte l’état de réception, bloqué ou réfléchi, des satellites reçus. Le contenu de ce manuscrit fait partie des tâches 2 et 3 du projet CAPLOC : il consiste à générer un modèle 3D de l’environnement urbain autour du véhicule par la vision et à appliquer le principe de correction des informations GNSS à partir du modèle généré pour finalement aboutir à un meilleur positionnement.

De nombreuses techniques existent pour estimer la structure 3D d’une scène urbaine. L’estimation est assurée en analysant les nuages de points 3D générés par deux types de capteur :
— Les télémètres laser : des capteurs actifs émettant des rayons qu’ils reçoivent après réflexion sur les structures et à partir desquels ils estiment la distance des objets ;
— Les caméras vidéo.
Le lidar (mot-valise issu de l’anglais light et radar) est un capteur qui exploite un faisceau laser afin de déterminer la position 3D du point de la scène sur lequel le faisceau s’est réfléchi.

Obtenir un modèle 3D par vision se fait à partir de configurations et d’analyses multi-vues. Lorsque le système est composé de deux caméras, nous parlons de stéréovision. Les informations des deux vues sont appariées pour finalement estimer les structures 3D de la scène captée. En effet, si le système est calibré, la mise en correspondance rend possible l’estimation de la contre-projection des points correspondants et celle de leur position 3D par triangulation. La précision est moins bonne qu’avec un lidar mais l’usage de caméras permet d’associer des informations colorimétriques et de texture au nuage de points 3D et donc de fournir un modèle plus riche. La précision dépend de l’entraxe entre les deux caméras et de l’éloignement des structures aux caméras. Dans [Zhang et al., 2011], l’auteur étudie le choix théorique de l’entraxe optimal pour réduire l’erreur d’estimation des points .

Lorsque le système ne compte qu’une seule caméra, le principe décrit précédemment reste applicable mais sur un couple d’images acquises au cours du déplacement de la caméra. Dans ce contexte, la structure de l’environnement est donc retrouvé grâce au mouvement de la caméra. On parle alors de Structure from Motion. Un nuage de points similaire au cas stéréo est produit mais à un coefficient d’échelle près. Pour retrouver ce coefficient, la caméra est généralement associée à un autre capteur proprioceptif tel qu’un odomètre ou une centrale inertielle. Un système vidéo qui serait composé d’une ou deux caméras munies d’objectifs traditionnels (objectif dit pinhole) ne permet pas d’assurer la surveillance et la reconstruction à 360° autour du système. Pour cela, il est nécessaire
1. de multiplier le nombre de caméras afin de couvrir le champ de vision complet autour du véhicule,
2. d’associer l’objectif à des miroir et des systèmes optiques spécifiques (menant à des capteurs dits catadioptriques)
3. ou d’utiliser des objectifs à projection sphérique (objectif fisheye).

Beaucoup de travaux proposent de fusionner les informations télémétriques avec la vision. Ils utilisent généralement le lidar pour la structure 3D et les caméras pour les informations de texture et de couleur [Früh et al., 2004, De Luca, 2006, Fleck et al., 2009, Deschaud, 2010]. Toutefois, même dans ce cas, l’une des solutions présentées précédemment est nécessaire pour assurer un champ de vision le plus large entre les deux capteurs.

Table des matières

1 Introduction
1.1 Contexte
1.1.1 Projet CAPLOC et collaborations
1.1.2 Estimer la structure 3D
1.1.2.1 Capteur passif par vision
1.2 Objectifs et contributions de la thèse
1.2.1 Contribution à la modélisation 3D multi-vues fisheye
1.2.2 Amélioration du positionnement GNSS-ranging
1.3 Solutions proposées
1.3.1 Difficultés liées à des capteurs fisheye orientés vers le ciel
1.3.2 Les configurations expérimentales utilisées
1.3.3 Repère image et repère 3D
1.3.4 Plan de la thèse
2 État de l’art : Stéréovision omnidirectionnelle
2.1 Introduction
2.2 Perception 3D omnidirectionnelle par vision
2.2.1 Rotation d’un capteur de stéréovision classique
2.2.2 Capteur catadioptrique
2.2.3 Caméra à objectif fisheye
2.2.3.1 Traitements via une rectification des distorsions fisheye
2.2.3.2 Traitements sans rectification des distorsions fisheye
2.2.4 Stéréoscopes hybrides
2.2.5 Bilan
2.3 Bibliographie sur le calibrage sphérique fisheye
2.3.1 Unification d’un modèle pour catadioptrique et fisheye
2.3.2 Géométrie épipolaire des caméras sphériques
2.3.3 Calibrage manuel
2.3.3.1 Calibrage fort
2.3.3.2 Calibrage faible
2.3.3.3 Stéréovision omnidirectionnelle avec court entraxe
2.3.3.4 Stéréovision omnidirectionnelle avec grand entraxe
2.3.4 Calibrage automatique
2.4 Structure from Motion
2.4.1 Méthodes d’estimation de la pose
2.4.1.1 Méthodes globales basées sur l’apparence
2.4.1.2 Méthodes par suivi de features
2.5 État de l’art de la mise en correspondance stéréo
2.5.1 Méthodes éparses et denses
2.5.1.1 Mise en correspondance éparse
2.5.1.2 Mise en correspondance dense
2.5.2 Méthodes locales et globales
2.5.2.1 Mise en correspondance locale
2.5.2.2 Mise en correspondance à optimisation globale
2.5.2.3 Méthodes globales basées sur les graphes
2.6 Conclusion
3 Conclusion