Choix du langage de programmation et des librairies de developpement

Localisation des blessures

La localisation des blessures d’auto-sectionnement est bien expliquee dans la litterature. L’ecrasante majorite se situe sur le haut du corps. Dans un article de Brunel, Fermanian, Durigon & de la Grandmaison (2010), 4 regions anatomiques sont suggerees. La premiere inclut la tete, la nuque, le dos, les cotes et les mains. La deuxieme : le cou, le thorax et l’abdomen. Region 3 : les avant-bras. Region 4 : une combinaison des regions 2 et 3. Sur les 48 suicides etudies, 2,1% se situent au niveau de la region 1, 56,2% au niveau de la region 2, 20,8% au niveau des regions 3, 4,2% au niveau de la region 1 et 2, 12,5% au niveau de la region 4 et 4,2% sur toutes les regions. La region la plus representee est la 2, ce qui peut etre explique par le plus grand potentiel de fatalite de cette zone. En desaccord avec Krywanczyk & Shapiro (2015), l’auto-poignardement etait le plus frequent (43,8% contre 39,6% pour l’incision et 16,7% pour les deux). D’apres Krywanczyk & Shapiro (2015), les plaies sont plus frequemment presentes aux extremites (bras ou main) avec 48%, puis 40% pour le poignet et 32% pour le cou.

D’autres regions moins frequentes incluent : le creux du coude (12%), les membres inferieurs (8%) et l’abdomen (4%). Dans un article de Vassalini et al. (2014), la localisation des plaies (fatales ou non) est grandement detaillee. La majorite apparait au niveau de l’avant-bras gauche (67,9%) ou droit (50%), le cou (35,7%), la moitie gauche de la poitrine (32,1%). Les plaies fatales ont lieu au niveau du cou (32%), de la moitie gauche de la poitrine (28,6%), de l’avant-bras gauche (25%) et de l’avant-bras droit (14,3%). L’etude n’a pas conclu a une predominance de sectionnement de l’avant-bras oppose a la main d’ecriture. A ce sujet, Ersen, Kahveci, Saki, Tunali & Aksu (2017) etudient 41 individus, dont 32 droitiers. Parmi eux, 78% sectionnent leur avant-bras gauche, 7% le droit et 14% les deux. Selon Karlsson (1998), en considerant tout type de blessure, le poignet est predominent (59%), suivi du cou (32%). Les autres zones frequentes sont le torse (24%), le creux du bras (15%), et les extremites (13%). Racette et al. (2008) etudient en detail les plaies d’hesitation. Elles sont predominantes au niveau des membres superieurs (69%) incluant le poignet (29%), la main (22%), l’avant-bras (10%) et le creux du bras (7%). A nouveau, aucune predominance n’a ete relevee entre cote gauche ou droit. L’apparition des plaies est donc contrastee. Il convient donc de simuler le sectionnement de differentes zones lors de la creation d’une base de donnees visant a entrainer des modeles de reconnaissance d’activites humaines.

Nombre de plaies

Un suicide par auto-sectionnement est generalement le resultat de plaies multiples. Brunel et al. (2010) declarent une moyenne de 8,6 ± 18,8 plaies pour les suicides. Vassalini et al. (2014) rapportent qu’une plaie unique est detectee dans 35,7% des cas. Et Krywanczyk & Shapiro (2015) comptent seulement 12% (pour 25 cas) des suicides par plaie unique. Deux plaies dans 16% des cas, 4 et plus pour le reste. Selon la zone, le nombre de plaies moyen varie. Karlsson (1998) montre une moyenne de 2,87 plaies au poignet, la zone la plus abondante, suivi du cou (1,34 plaie) et du creux du bras (0,56 plaie). Cependant, en considerant seulement le nombre de plaies severes, etudiees par Karger, Niemeyer & Brinkmann (2000), la majorite sont des plaies uniques. Dans le groupe « suicide », 37% montrent une seule plaie grave, 15% en montrent 2, 20% en montrent 3, 14% entre 4 et 9, 9% entre 10 et 20 et 5% au-dela. Ces resultats confirment les travaux de Brunel et al. (2010). Il est donc courant qu’un suicide s’auto-sectionne plusieurs fois, ce qui represente une information de taille pour la creation d’un systeme de detection automatise. Il apparait qu’environ un tiers ou moins des suicides ont lieu par plaie unique, soit une minorite.

Modèles d’apprentissage prédictifs

Dans cette section, nous etudions des efforts de recherche utilisant des donnees sociodemographiques et des reponses a des echelles psychiatriques pour predire des tentatives de suicide. Delgado-Gomez, Blasco-Fontecilla, Sukno, Ramos-Plasencia & Baca-Garcia (2012) utilisent deux echelles psychiatriques sur 883 adultes, dont 347 ayant tente de se suicider. Differents 13 algorithmes d’apprentissage machine sont deployes (regression lineaire, arbres de decision, LARS et SVM). L’objectif est de faire la distinction entre les deux groupes. La meilleure performance est de 83,6% sur l’ensemble de test. Ces travaux fournissent un outil clinique avec des taux de prediction raisonnables. Des etudes plus recentes ont ameliore ces resultats. Oh, Yun, Hwang & Chae (2017) etudient l’importance de 41 caracteristiques (31 provenant d’echelles psychiatriques et 10 caracteristiques sociodemographiques) pour la prediction d’une tentative de suicide chez des patients avec des troubles de l’anxiete. Les 573 participants ont rempli un questionnaire ainsi que leur historique de tentatives. Un reseau de neurones obtient au mieux 93,7% d’exactitude sur une fenetre d’erreur d’un mois. Les resultats sont encourageants, mais il est a noter que le reseau predit des tentatives passees, et non futures.

Une autre experience dirigee par Barros, Morales, Echavarri, Garcia, Ortega, Asahi, Moya, Fischman, Maino & Nunez (2017) extrait plus de 300 variables provenant de 5 questionnaires psychiatriques et en isole 22. Les participants ont ete categorises en deux groupes : « suicide » (n=349) et « non-suicide » (n=358). Le meilleur modele est un SVM et obtient 78% d’exactitude. Walsh, Ribeiro & Franklin (2017) appliquent l’apprentissage machine sur 5 167 dossiers electroniques dont 3 250 ont au moins une tentative de suicide. Les meilleurs resultats sont de 79%, mais avec une fenetre d’erreur de seulement 7 jours. Ces etudes pionnieres illustrent le potentiel de l’apprentissage machine pour la prediction de suicides a court et moyen terme. Mais en pratique, les modeles ne sont pas assez performants pour etre utilise comme unique outil. Qui plus est, les etudes sont majoritairement retroactives. Cela justifie et motive la recherche en detection temps reel comme solution de dernier recours.

Apprentissage machine pour la reconnaissance d’activités Une revue de litterature concernant la reconnaissance d’activites humaines est developpee chapitre 3. Afin d’eviter d’alourdir inutilement le document, nous profitons plutot des sections suivantes pour etablir le cadre theorique souvent considere comme acquis dans les articles actuels. La reconnaissance d’activites humaines est organisee selon le cadre suivant. Des sequences temporelles (format video ou serie temporelle de points 3D) sont predecoupees. Chaque sequence contient une action manuellement identifiee. Le travail de recherche consiste donc a proposer une architecture permettant de reconnaitre l’action et de la classifier correctement. Les cameras RGB+D proposent quatre flux de donnees differents (video RGB, infrarouge, squelette 3D et profondeur). A l’exception de l’infrarouge, ces flux ont ete largement utilises comme donnees en entree de reseaux de neurones. Tout particulierement, le squelette 3D est de faible dimensionnalite et presente un pouvoir de representation interessant. La reconnaissance d’activites differe de la reconnaissance anticipee et de la detection online. En effet, la reconnaissance etudie une sequence dans son ensemble. La reconnaissance anticipee est similaire avec uniquement une sous-portion de l’action. La detection online traite des sequences longues contenant plusieurs actions, image par image, sans acces a des informations du futur. La fin ou la duree d’une action sont des informations du futur, par exemple.

Reconnaissance anticipée d’activités humaines

La reconnaissance anticipee d’activites humaines est un domaine de recherche similaire a la reconnaissance d’activites traditionnelle. Seule difference, une portion de la sequence reelle est maintenant utilisee, et non la sequence entiere. L’objectif est donc de classifier correctement sans avoir le contexte global de l’action. La plupart des travaux s’interessent a la reconnaissance de sequences entieres. Ce domaine etant maintenant bien documente, ces dernieres annees ont vu l’apparition d’architectures specifiques a la reconnaissance anticipee d’activites humaines. Ke, Liu, Bennamoun, Rahmani, An, Sohel & Boussaid (2018) confrontent sequence partielle a sequence entiere lors de l’entrainement. Un module de regularisation encourage le reseau etudiant la sequence partielle a emettre un vecteur de caracteristiques similaire a celui genere par le reseau etudiant la sequence entiere. Ke, Bennamoun, Rahmani, An, Sohel & Boussaid (2019) developpent plus tard ce paradigme et obtiennent de bien meilleurs resultats. Wang, Hu, Lai, Zhang & Zheng (2019) distillent l’information apprise par un RNN bidirectionnel « professeur » vers un RNN unidirectionnel « etudiant ».

De meme, le professeur apprend une representation globale que l’etudiant est encourage a repliquer depuis un contexte local. L’approche est d’autant plus interessante qu’elle pourrait etre deployee pour de la detection online d’activites en modifiant le pretraitement des donnees. L’architecture du reseau est resumee a la Figure 1.6. L’erreur quadratique entre les vecteurs d’etat cache de l’etudiant et du professeur est minimisee pendant l’entrainement, ainsi que la divergence maximale moyenne de l’ensemble de ces vecteurs. L’ensemble des vecteurs est utilise pour la prediction. Pang, Wang, Hu, Zhang & Zheng (2019) developpent une architecture basee autour d’un autoencodeur bidirectionnel. Les resultats sont comparables a ceux de Wang et al. (2019). Une remarque et l’encouragement d’un nouveau protocole d’evaluation peuvent etre emis au niveau de la methodologie de ces travaux. En effet, les sequences sont decoupees en un nombre fixe de sous-blocs afin de normaliser le format d’entree des reseaux. Un nombre generalement choisi est N = 40 blocs. Seulement, certaines sequences font moins de 20 images video, amenant a une redondance de l’information. Par ailleurs, diviser les sequences implique de connaitre au prealable sa duree totale. De fait, ces architectures ne sont pas online. Nous proposons chapitre 5 un cadre permettant de distiller l’information d’un reseau professeur offline a un reseau etudiant online dans un contexte de reconnaissance anticipee.

Table des matières

INTRODUCTION
CHAPITRE 1 REVUE DE LITTERATURE
1.1 Le suicide en prison
1.2 Suicide par sectionnement
1.2.1 Types de blessures
1.2.2 Localisation des blessures
1.2.3 Nombre de plaies
1.2.4 Outils d’auto sectionnement
1.2.5 Degats sur les vetements
1.2.6 Profil de la victime
1.3 Prevention du suicide
1.3.1 Symptomes
1.3.2 Mesures de prevention en prison
1.3.3 Prevention et outils de detection
1.3.4 Modeles d’apprentissage predictifs
1.4 Apprentissage machine pour la reconnaissance d’activites
1.4.1 Reseaux de neurones convolutifs
1.4.2 Reseaux residuels
1.4.3 Normalisation par batch
1.4.4 Reseaux recurrents et LSTM
1.5 Reconnaissance anticipee d’activites humaines
1.6 Detection d’activites humaines par apprentissage machine
1.6.1 Detection d’activites humaines offline
1.6.2 Detection d’activites humaines online
1.7 Resume
CHAPITRE 2 DEMARCHE DE TRAVAIL ET ORGANISATION DU DOCUMENT
2.1 Objectifs specifiques
2.2 Methodologie et approche de recherche
2.3 Choix du langage de programmation et des librairies de developpement
2.4 Choix materiels
2.5 Presentation des articles
2.5.1 Infrared and 3D skeleton feature fusion for RGB-D action recognition
2.5.2 Bridging the gap between Human Action Recognition and Online
Action Detection with knowledge distillation on infrared videos
2.6 Presentation des annexes
CHAPITRE 3 INFRARED AND 3D SKELETON FEATURE FUSION FOR RGB-D ACTION RECOGNITION
3.1 Introduction
3.2 Related Work
3.2.1 Skeleton-based approaches
3.2.2 RGB-based video classification
3.2.3 Mixed inputs action recognition
3.3 Proposed Model
3.3.1 Pose module
3.3.1.1 Prior normalization step
3.3.1.2 Skeleton data to skeleton 2D maps
3.3.1.3 Multi-subject strategy
3.3.1.4 CNN used
3.3.2 IR module
3.3.2.1 Cropping strategy
3.3.2.2 Multi-subject strategy
3.3.2.3 Sampling strategy
3.3.2.4 3D CNN used
3.3.3 Stream fusion
3.4 Network Architecture
3.4.1 Architecture
3.4.1.1 Pose module
3.4.1.2 IR module
3.4.1.3 Classification module
3.4.2 Data augmentation
3.4.3 Training
3.5 Experiments
3.5.1 NTU RGB+D dataset
3.5.2 Experimental settings
3.5.3 Ablation studies
3.5.3.1 Pose module
3.5.3.2 Infrared module
3.5.3.3 Influence of feature fusion scheme
3.5.3.4 Influence of pre-training
3.5.3.5 Influence of data augmentation
3.5.3.6 Transfer learning vs. data augmentation
3.5.3.7 Influence of pose-conditioned cropped IR sequences
3.5.3.8 Influence of sequence length
3.5.3.9 Comparison with the state of the art
3.6 Conclusion
3.7 Acknowledgment
CHAPITRE 4 DISCUSSION DES RESULTATS
4.1 Infrarouge comme flux unique ?
4.1.1 Infrarouge seul
4.1.2 Infrarouge et squelette 3D
4.1.3 Un gain de performance necessaire ?
4.2 Comprehension de l’apprentissage et apprentissage comprehensif
4.2.1 Preentrainement et limites de l’apprentissage profond
4.2.2 Comprendre la representation d’un reseau
4.3 Vers la detection d’activites humaines online
4.3.1 De reconnaissance a prediction anticipee a detection online
4.3.2 Limite du pretraitement
CHAPITRE 5 BRIDGING THE GAP BETWEEN HUMAN ACTION RECOGNITION AND ONLINE ACTION DETECTION WITH KNOWLEDGE DISTILLATION ON INFRARED VIDEOS
5.1 Introduction
5.2 Related work
5.2.1 Human action recognition
5.2.2 Early action prediction
5.2.3 Action detection
5.2.3.1 Offline action detection
5.2.3.2 Online action detection
5.2.4 Knowledge Distillation
5.3 Action recognition to online action detection framework
5.3.1 Preprocessing
5.3.1.1 Cropping strategy
5.3.1.2 Sampling strategies
5.3.2 Network architectures
5.3.2.1 Offline teacher
5.3.2.2 Online early prediction student
5.3.2.3 OKDAD student
5.3.3 Knowledge distillation
5.3.3.1 Teacher loss
5.3.3.2 Online early prediction student loss
5.3.3.3 OKDAD student loss
5.4 Experiments
5.4.1 Implementation details
5.4.2 NTU RBG+D human action recognition dataset
5.4.3 PKU-MMD action detection dataset
5.4.4 Ablation studies
5.4.4.1 Cosine similarity penalties on teacher learning
5.4.4.2 Teacher layer reuse on online early prediction student
5.4.4.3 Knowledge distillation on online early prediction student
5.5 Conclusion
CONCLUSION ET RECOMMANDATIONS
ANNEXE I DOCUMENTATION ET REPRODUCTIBILITE DES CODES
ANNEXE II TUTORIEL
BIBLIOGRAPHIE