Transfert de la problématique de reconnaissance d’actions 3D à l’espace des motifs manuscrits 2D

Télécharger le fichier original (Mémoire de fin d’études)

Discussion

Nous nous sommes intéressés dans cette section au deuxième maillon du processus de reconnaissance d’actions. Il s’agit de décrire comment une action consistant en une séquence de trames peut être modélisée et reconnue. Nous avons notamment fait le distin-guo entre d’une part, les approches séquentielles, qui tiennent compte implicitement de la nature séquentielle d’une d’action et d’autre part, les approches statistiques qui extraient un vecteur de descripteurs de taille fixe en intégrant explicitement la dimension tempo-relle. Nous avons séparément présenté des approches à base d’apprentissage profond qui ont la particularité de nécessiter une quantité importante de données d’apprentissage.
Pour illustrer la catégorie des approches séquentielles, nous avons présenté des ap-proches à base de Modèles de Markov Cachés (HMM) ainsi que des approches à base de comparaison élastique. Dans un second temps, nous nous sommes penchés sur les ap-proches statistiques en les catégorisant dans trois sous-familles suivant qu’elles conçoivent leur représentation d’action en se basant sur une simple concaténation des données brutes, en extrayant des mesures rapportant des informations haut niveau sur l’action ou bien en procédant par le biais d’un dictionnaire de mots. Enfin, nous avons présenté des ap-proches à base d’apprentissage profond aussi bien celles de nature séquentielle (réseaux récurrents) que statistique (réseaux de convolution).
Les représentations que nous avons développées au cours de nos travaux s’inscrivent de manière globale dans la catégorie des approches statistiques et en particulier dans la sous-famille des approches extrayant des mesures haut-niveau. Ce choix est motivé par plusieurs raisons reliées à notre domaine d’application qu’est l’interaction Homme-Machine. Ainsi, une première raison concerne la faible quantité de données disponibles dans ce type d’application. En eﬀet, les modèles statistiques, notamment ceux à base de SVM, sont réputés pour leur capacité de généralisation à partir de très peu de données, alors que dans le même temps les modèles séquentiels comme les HMM présentent des risques de sur-apprentissage dans le cas où il y a peu de données. Une autre raison est relative à notre volonté d’évaluer le potentiel de descripteurs 2D (à extraire à partir de trajectoires 2D) pour modéliser des trajectoires 3D. Cette volonté est d’une part justifiée par l’abondance de jeux de descripteurs 2D très performants et d’autre part par l’intérêt scientifique que peut avoir un transfert du savoir-faire de la 2D vers la 3D.

Détection d’actions squelettiques 3D non segmen-tées

Nous nous intéressons dans cette section au quatrième et dernier aspect permettant de distinguer les approches de reconnaissance d’actions. Il s’agit en fait de la reconnaissance d’actions dans un flot non segmenté dite détection d’actions. Nous présentons dans cette section les principales approches ayant porté sur cette problématique.
Bien que la détection d’actions dans un flot continu ait un champ d’application plus vaste que la simple reconnaissance d’actions pré-segmentées, la plupart des travaux utili-sant des données squelettiques ont plus porté sur la reconnaissance des actions et beaucoup moins sur la détection d’actions. Ceci est notamment dû au fait que la détection est plus complexe, car le système doit assurer deux tâches, à savoir la segmentation et la reconnais-sance. Dans ce qui suit, le terme de détection fera référence à la reconnaissance d’actions

Détection d’actions squelettiques 3D non segmentées

dans un flot non segmenté.
Les approches de détection d’actions retrouvées dans la littérature combinent diﬀé-remment les tâches de segmentation et de reconnaissance. Tout d’abord, il est possible de distinguer les approches hors ligne et les approches en-ligne. La principale diﬀérence entre ces deux familles d’approches est que pour les approches hors ligne la segmentation et la reconnaissance sont eﬀectuées séparément. C’est souvent le cas pour des applications de vidéosurveillance où le flot est analysé après enregistrement à la recherche d’un événe-ment particulier comme une intrusion. Au contraire, une approche de détection en-ligne doit combiner les opérations de segmentation et de reconnaissance car le traitement s’ef-fectue en temps réel. Ceci est notamment indispensable dans un contexte d’interaction Homme-Machine, comme celui dans lequel nous nous situons. Nous nous focalisons ainsi dans cette section sur les approches de détection d’actions en-ligne (OAD pour Online Action Detection).
En outre, la distinction entre les approches OAD peut être faite sur la manière de combiner la segmentation et la reconnaissance. En eﬀet, il y a les approches où la segmen-tation s’opère de manière implicite alors qu’il existe d’autres approches qui explicitement segmentent le flot d’entrée. Les approches de segmentation implicite se basent souvent sur des modèles séquentiels tels que les HMM ou les LSTM alors que les approches de seg-mentation explicite opèrent au moyen de fenêtre temporelle glissante. Par exemple, Li et al. [LLX+16] ont proposé une architecture de bout en bout de réseaux de neurones récurrents (RNN) avec une fonction objectif de classification et de régression conjointe pour localiser avec précision les instants de début et de fin des actions. Bien que les perfor-mances aﬃchées soient intéressantes, ce type d’architectures nécessite de grandes quantités de données d’apprentissage, qui ne sont pas toujours disponibles. Comme évoqué dans les sections précédentes, nos travaux ne se basent pas sur des modèles séquentiels mais plutôt sur des modèles statistiques et donc la segmentation est opérée de manière explicite. Nous nous focalisons donc sur les approches OAD à base de segmentation explicite.
Pour répertorier et décrire les approches OAD opérant une segmentation explicite, il est possible de se baser sur deux critères. Le premier critère est relatif à la nécessité ou non d’avoir une pose de référence qui sépare deux instances d’actions successives. Le second porte sur la procédure de définition du nombre et la taille des fenêtres temporelles glissantes qu’emploient ces approches. Les approches OAD à segmentation explicite sont décrites ci-après suivant ces deux critères.

Recherche de postures de référence

Le passage d’une problématique de reconnaissance d’actions pré-segmentées à celle de détection (segmentation et reconnaissance) d’actions dans un flot non segmenté est caractérisée par la non connaissance des instants de début et de fin des diﬀérentes actions qui peuvent être eﬀectuées.
Une technique consiste à définir une posture représentant une position de repos à la-quelle le sujet doit revenir à la fin de la performance d’une action (Figure 2.31). Ainsi, la détection de cette posture marque la fin de l’action et permet de n’enclencher la reconnais-sance que sur les trames précédentes. Par exemple, Huang et al. [HYWDLT14] proposent de rajouter une classe « Repos » à l’ensemble des classes à reconnaître de manière à ne lan-cer la reconnaissance que lorsque la classe « Repos » n’est pas détectée. Néanmoins, cette contrainte peut vite devenir encombrante dans un contexte d’interaction Homme-Machine (un jeu interactif par exemple) où le sujet peut enchaîner plusieurs actions sans s’arrêter.
D’autres approches proposent au contraire de mesurer le degré de certitude de la dé-cision émise à chaque instant pour savoir si une action est, oui ou non, en train d’être eﬀectuée. Par exemple, Zhao et al. [ZLP+13, ZLP+14] proposent d’extraire des descrip-teurs suivant une fenêtre temporelle glissante et d’entraîner un SVM de façon à ce qu’à chaque instant, le score de la classe potentielle prédite est comparé à un seuil. Si le score est supérieur à ce seuil, alors la trame appartient à la classe prédite, sinon aucune décision n’est émise.

Table des matières

1 Introduction générale
2 État de l’art
2.1 Vue d’ensemble
2.2 Typologie des données d’entrée
2.2.1 Techniques d’acquisition des données squelettiques 3D
2.2.1.1 Capture directe de mouvement 3D
2.2.1.2 Estimation de mouvement à partir d’images de profondeur
2.2.2 Coordonnées cartésiennes des articulations
2.2.2.1 Coordonnées cartésiennes absolues
2.2.2.2 Coordonnées cartésiennes relatives
2.2.3 Angles articulaires
2.2.3.1 Angles articulaires absolus
2.2.3.2 Angles articulaires relatifs
2.2.4 Relations géométriques
2.2.5 Multimodalité
2.2.6 Discussion
2.3 Modélisation et classification des actions squelettiques 3D
2.3.1 Approches séquentielles
2.3.1.1 Modèle de Markov Caché
2.3.1.2 Comparaison élastique
2.3.2 Approches statistiques
2.3.2.1 Représentations brutes
2.3.2.2 Descripteurs haut-niveau
2.3.2.3 Dictionnaire de mots
2.3.3 Apprentissage profond
2.3.4 Discussion
2.4 Détection d’actions squelettiques 3D non segmentées
2.4.1 Recherche de postures de référence
2.4.2 Utilisation de fenêtres glissantes
2.5 Conclusion
3 Reconnaissance d’actions 3D pré-segmentées
3.1 Introduction
3.2 Transfert de la problématique de reconnaissance d’actions 3D à l’espace des motifs manuscrits 2D
3.2.1 Difficultés relevées pour la représentation d’actions 3D pré-segmentées
3.2.1.1 Comment faire face à la variabilité morphologique ?
3.2.1.2 Comment représenter les corrélations spatiales entre les différentes trajectoires des articulations ?
3.2.1.3 Comment représenter les dépendances temporelles intrinsèques à une action sous-tendue par plusieurs trajectoires ?
3.2.2 Approche 3DMM : 3D Multistroke Mapping
3.2.2.1 Réponse à la première question : prétraitement amorphologique
3.2.2.2 Réponse à la deuxième question : hypothèse multistrokes
3.2.2.3 Réponse à la troisième question : hiérarchie temporelle
3.3 Transfert d’un jeu de descripteurs 2D à l’espace de représentation d’actions
3D : jeu de descripteurs HIF3D
3.3.1 Notations
3.3.2 Premier sous-ensemble : les descripteurs étendus
3.3.3 Second sous-ensemble : les descripteurs inspirés
3.4 Résultats expérimentaux et discussion
3.4.1 Base de données M2S-dataset
3.4.2 Base de données UTKinect-Action
3.4.3 Base de données HDM05
3.5 Conclusion
4 Détection en-ligne d’actions 3D dans un flot non segmenté
4.1 Introduction
4.2 Détection en-ligne d’actions 3D : OAD
4.2.1 Difficultés relevées pour la détection en-ligne d’actions 3D
4.2.1.1 Comment adresser la variabilité temporelle ?
4.2.1.2 Comment adresser la variabilité spatiale inter-classes ?
4.2.1.3 Comment adresser la variabilité spatiale intra-classe ?
4.2.2 Approche de détection d’actions 3D basée sur le déplacement curviligne
: CuDi3D
4.2.2.1 Segmentation curviligne
4.2.2.2 Classifieurs curvilignes
4.2.2.3 Processus de décision
4.3 Extension de l’approche CuDi3D à des problématiques connexes
4.3.1 Reconnaissance d’actions 3D pré-segmentées
4.3.2 Détection précoce d’actions 3D
4.4 Résultats expérimentaux et discussion
4.4.1 Résultats de l’approche CuDi3D
4.4.1.1 Base de données MSRC-12
4.4.1.2 Base de données G3D
4.4.1.3 Base de données MAD
4.4.2 Résultats de la reconnaissance d’actions pré-segmentées
4.4.3 Résultats de la détection précoce
4.5 Conclusion
5 Applications
5.1 Introduction
5.2 Reconnaissance de gestes dynamiques de la main
5.2.1 Représentation des gestes dynamiques de la main
5.2.2 Collection d’une nouvelle base de données des gestes dynamiques
de la main : LMDHG
5.2.3 Résultats expérimentaux et discussion
5.2.3.1 Base de données DHG
5.2.3.2 Base de données LMDHG
5.3 Interaction dans un environnement 3D
5.4 Animation temps réel d’avatars
5.4.1 Problématique
5.4.2 Approche de combinaison des décisions
5.4.3 Résultats préliminaires et discussion
5.5 Conclusion
6 Conclusion & Perspectives
6.1 Conclusion
6.2 Perspectives
Publications de l’auteur
Bibliographie
Table des figures
Liste des tables