Modélisation des métadonnées multi sources et hétérogènes pour le filtrage négatif et l’interrogation intelligente

Facebook Tweet Pin Email

Modélisation des métadonnées multi sources et
hétérogènes pour le filtrage négatif et l’interrogation intelligente

Systèmes de vidéosurveillance

La vidéosurveillance consiste à surveiller à distance des espaces publics ou privés à l’aide de caméras de surveillance fréquemment déployées dans des zones sensibles ou critiques (aéroports, stations de métro, centres commerciaux, parcs, intersections routières, etc.). Les images filmées par ces caméras sont généralement transmises à un centre de contrôle pour être exploitées en fonction des besoins et selon deux modes : (i) l’exploitation en temps réel qui consiste à visualiser immédiatement les images par les opérateurs pour des besoins ponctuels tels que les alarmes, la surveillance du trafic, la détection et le suivi d’objets, etc. et (ii) l’exploitation a posteriori qui consiste à enregistrer les images puis les analyser afin de résoudre des enquêtes et/ou de collecter des preuves suite à un évènement particulier (agression, homicide, enlèvement, terrorisme, etc.). Les travaux menés dans cette étude s’appliquent principalement à l’exploitation a posteriori de grands volumes de vidéos issues des systèmes de vidéosurveillance. Traditionnellement, les systèmes de vidéosurveillance se définissent comme un ensemble de caméras de surveillance qui enregistrent des images, et des opérateurs qui les visionnent et attendent qu’un évènement anormal survienne. Dans de tels systèmes, la plupart des tâches de surveillance reposent sur l’observation humaine. Cependant, à mesure que le nombre de caméras augmente, la surveillance d’évènements par des opérateurs humains devient de plus en plus difficile, et sujette à l’erreur et à la fatigue cognitive de ceux-ci. Les grands volumes de vidéos générés par les caméras rendent 7 2.1. Systèmes de vidéosurveillance leur exploitation quasi impossible et leur exploitation a posteriori très longue et très coûteuse en terme de ressources humaines. Dans le but d’augmenter la robustesse de la vidéosurveillance et de réduire la charge de travail des opérateurs humains, de nombreux systèmes de surveillance dits automatiques, et capables par exemple de détecter des évènements anormaux [Lim et al., 2014], [Mathur and Bundele, 2016], de déclencher des alertes [Lee et al., 2013], de faciliter la recherche dans les séquences enregistrées [Klontz and Jain, 2013], etc. ont vu le jour. Un système de vidéosurveillance automatique tel qu’illustré à la Figure 2.1 se compose de cinq principaux éléments [Amer and Regazzoni, 2005] : les caméras de surveillance, le réseau, des écrans de surveillance ou une salle de contrôle, une base de données vidéo, et une unité de traitement des vidéos. Les caméras de surveillance capturent et transmettent les vidéos à l’unité de traitement vidéo via le réseau. L’unité de traitement vidéo peut être un ordinateur à usage général ou un équipement informatique dédié tel qu’un serveur. Ainsi, l’unité de traitement vidéo transmettra les informations pertinentes extraites au centre de contrôle, par exemple, une alarme en réponse à un intrus qui s’est introduit dans une zone particulière, la détection d’un objet cible (personnes, véhicules), des séquences vidéo d’intérêt, etc. La base de données vidéo est utilisée pour stocker les vidéos et les données associées aux contenus (métadonnées) en vue d’un éventuel traitement ultérieur. En résumé, un système de surveillance automatique déclenche une alarme chaque fois qu’un évènement particulier est détecté. Cette automatisation des traitements vise à mettre en place la vidéosurveillance intelligente. La « vidéosurveillance intelligente » consiste à faire analyser automatiquement les vidéos par des algorithmes capables de détecter et de suivre des objets d’intérêt au cours du temps, et capables de détecter des activités, évènements, ou comportements suspects particuliers, le but étant d’alerter les opérateurs en cas d’évènements spéciFigure 2.1 – Schéma d’un système de vidéosurveillance automatique. 2.1. Systèmes de vidéosurveillance fiques, de se focaliser uniquement ou en priorité sur les données pertinentes pour la surveillance, et d’améliorer les capacités de recherche dans les séquences enregistrées. La vidéosurveillance « intelligente » peut donc pré-filtrer de grandes quantités de données de surveillance et, si les données (vidéos) contiennent un évènement inhabituel ou significatif, alerter l’opérateur. La vidéosurveillance « intelligente » peut également fournir un niveau de détail qui permet de détecter et d’identifier plus précisément les objets et d’analyser leurs mouvements en temps réel.

Approches basées sur l’analyse des contenus vidéo

L’un des principaux problèmes liés à l’analyse des contenus vidéo est le fossé sémantique (« gap ») entre les éléments visuels de bas niveau et la sémantique du contenu de haut niveau. Les humains ont tendance à utiliser des concepts de haut niveau dans la vie de tous les jours. Cependant, ce que les techniques actuelles de vision par ordinateur peuvent automatiquement extraire de l’image sont surtout des caractéristiques de bas niveau. Actuellement, la plupart des recherches se concentrent sur l’extraction de caractéristiques visuelles de niveau intermédiaire qui, d’une part, pourraient être dérivées de caractéristiques de bas niveau comme la couleur et le mouvement ; d’autre part, elles pourraient être utilisées pour révéler partiellement la sémantique vidéo sous-jacente. La majorité des solutions proposées pour l’analyse des contenus vidéo prennent en compte l’analyse de la structure de la vidéo. En général, les vidéos sont structurées selon une hiérarchie descendante de clips vidéo, de scènes, de séquences et d’images. L’analyse de contenus vidéo vise à segmenter une vidéo en un 10 2.1. Systèmes de vidéosurveillance certain nombre d’éléments structuraux qui ont une unité sémantique. Parmi les solutions d’analyse de contenus vidéo, les plus répandues proposent des approches basées sur : la détection de limites des séquences [Ling et al., 2008], l’extraction d’images clés [Nasreen and Shobha, 2013] et la segmentation des scènes [Hu et al., 2011]. Les méthodes de détection de limites des séquences consistent généralement à extraire d’abord les éléments visuels de chaque image, puis à mesurer les similitudes entre les images à l’aide des éléments extraits et, enfin, à détecter les limites des séquences entre les images qui ne sont pas identiques. Les approches de détection des limites des séquences peuvent être basées soit sur des seuillages [Wu et al., 2008], [Xia et al., 2007], soit sur l’apprentissage statistique [Chang et al., 2007]. La principale limite des approches basée sur les seuils est que la détection de limites des séquences dépend totalement du seuil qui est difficile à déterminer. Les approches statistiques basées sur l’apprentissage sont limitées par le fait qu’elles s’appuient fortement sur un ensemble de données d’apprentissage bien choisi. Les images clés sont celles sélectionnées parmi l’ensemble des images redondantes d’une même séquence et qui reflètent le mieux le contenu de la séquence. Les approches d’extraction des images clés les plus utilisées actuellement sont basées sur le clustering, la simplification des contours, et la détection des objets/évènements. Ces approches ont pour principales limites : leur dépendance aux résultats du clustering qui est très difficile à mettre en place, surtout pour les grands volumes de données ; la grande complexité de calcul liée à l’obtention de la meilleure représentation des contours d’images ; la forte dépendance des algorithmes de détection d’objets/évènements aux règles heuristiques spécifiées en fonction de l’application, qui par conséquent, rend ces algorithmes efficaces uniquement dans les cas où les paramètres expérimentaux sont soigneusement choisis. La segmentation des scènes est encore appelée segmentation par unités d’histoire. En général, une scène est un groupe de séquences contiguës qui sont cohérentes avec un sujet ou un thème donné. Les scènes ont une sémantique de plus haut niveau que les séquences. Les scènes sont identifiées ou segmentées en regroupant des séquences successives ayant un contenu similaire dans une unité sémantique significative. Le regroupement peut être basé sur des informations provenant des textes, d’images ou de la piste audio de la vidéo. Les approches de segmentation des scènes sont en général basées sur la détection des images clés. Dans ces approches, les séquences sont représentées par un ensemble d’images clés sélectionnées, qui souvent ne représentent pas efficacement le contenu dynamique des séquences car les séquences d’une scène sont corrélées par le contenu dynamique de la scène plutôt que par les similitudes entre les séquences d’images clés. Par conséquent, deux prises de vue sont considérées comme similaires si leurs images clés se trouvent dans le même environnement plutôt que si elles sont visuellement similaires.

Récents projets et travaux dans le domaine de la vidéosurveillance

Au cours des dernières années, l’analyse automatique des vidéos a suscité beaucoup d’intérêts chez de nombreux chercheurs et entreprises spécialisées dans le développement des logiciels de vidéosurveillance intelligente. De nombreuses solutions ont été proposées et de nombreux projets collaboratifs ont été mis en place tant au niveau national qu’au niveau européen. Nous présentons dans ce qui suit quelques travaux et projets relatifs à l’analyse automatique des vidéos, en évoquant leurs objectifs, et en indiquant s’ils proposent un filtrage avant les traitements automatiques, s’ils prennent en compte les informations contextuelles et s’ils sont applicables aux traitements a posteriori. CARETAKER [Carincotte et al., 2006] est un projet Européen qui s’inscrivait dans le contexte de la surveillance des stations de métro via l’exploitation des flux de nature vidéo et audio. Son objectif était de reconnaître un ensemble d’évènements ou d’identifier d’autres types d’évènements grâce à l’analyse de ces flux. Le projet a permis de développer des techniques d’extraction automatique des métadonnées sémantiques pertinentes à partir des contenus vidéo. Par contre, aucun filtrage n’est fait avant l’extraction des connaissances des flux vidéo. Le projet VANAHEIM (Video/Audio Networked surveillance system enhAncement through Human-cEntered adaptIve Monitoring) a permis de développer une technique pour le filtrage automatique en temps réel des vidéos grâce à des algorithmes permettant de détecter des activités anormales. Mais l’implémentation des algorithmes d’apprentissage utilisés dans le processus de filtrage semble complexe pour des grands volumes de données. Le projet SURTRAIN (SURveillance des Transports par Analyse de l’Image et du soN) a pour but de détecter automatiquement des situations critiques à partir des images et du son. Les modèles 3D des objets sont utilisés pour assurer le suivi intra et inter caméra. Dans SURTRAIN, le déclenchement d’une procédure de suivi peut se faire par le mode de perception audio. Plusieurs situations critiques (ex : agressions, altercations) sont caractérisées par la présence des paroles ou cris au niveau sonore très élevé. Le projet a permis de développer des fonctions de détection et de localisation permettant de déclencher la procédure de suivi via l’activation de la caméra la plus proche de la situation critique en cours. Ce projet offre un système de surveillance vidéo et audio intelligent à bord des véhicules, mais n’intègre pas le traitement des requêtes a posteriori. Très récemment (2017 à 2020), notre équipe a collaboré sur le projet européen VICTORIA (Video analysis for Investigation of Criminal and TerrORIst Activities). Face à la masse de vidéos collectées dans le cadre des investigations liées aux actes criminels majeurs et aux attaques terroristes, l’objectif du projet était de développer une plateforme d’analyse vidéo accélérant les tâches de traitement vidéo et d’exploration des données, aujourd’hui, encore effectuées manuellement par les enquêteurs. Les travaux de l’équipe ont permis de développer une modélisation générique des métadonnées attachées à la capture des vidéos ou extraites ultérieurement lors des analyses vidéos, et un mécanisme de requêtes avancé afin d’optimiser la fouille des données et de donner l’accès aux informations pertinentes requises par les enquêteurs. Dans [Deng et al., 2010], les auteurs présentent un système d’analyse et de récupération d’évènements vidéo utilisant des techniques informatiques géospatiales. A partir du suivi des cibles et de l’analyse des flux vidéo des réseaux de caméras distribuées, le système génère des métadonnées de suivi vidéo pour chaque vidéo, les représente sur une carte et les fusionne en une coordonnée géospatiale uniforme. Les métadonnées combinées sont sauvegardées dans une base de données spatiales où les trajectoires cibles sont représentées en géométrie et en type de données géographiques. La base de données spatiales fournit au système une plateforme stable, rapide et facile à gérer, ce qui est essentiel pour gérer de grandes quantités de données vidéo

Table des matières

1 Introduction
1.1 Contexte
1.2 Problématique
1.3 Objectifs
1.4 Contributions
1.5 Plan du manuscrit
2 Etat de l’art
2.1 Systèmes de vidéosurveillance
2.1.1 Approches basées sur l’analyse des contenus vidéo
2.1.2 Récents projets et travaux dans le domaine de la vidéosurveillance
2.2 Informations contextuelles
2.2.1 Définition du contexte
2.2.2 Modélisation des informations contextuelles
2.2.2.1 Modélisation clé-valeur
2.2.2.2 Modélisation basée sur le balisage
2.2.2.3 Modélisation graphique
2.2.2.4 Modélisation orientée objets
2.2.2.5 Modélisation logique
2.2.2.6 Modélisation basée sur l’ontologie
2.3 Intégration des informations contextuelles dans le filtrage des données
2.4 Interrogation basée sur la logique floue
2.4.1 Définition de la logique floue
2.4.2 Requêtage flou (« fuzzy querying »)
2.5 Conclusion
3 Filtrage négatif via l’exploitation des métadonnées
3.1 Définition du filtrage négatif
3.2 Contexte d’application
3.3 Modélisation des métadonnées pour le filtrage négatif
3.3.1 Métadonnées liées à la qualité de la vidéo
3.3.2 Métadonnées liées à l’utilisabilité/utilité de la vidéo
3.3.3 Proposition d’un modèle de métadonnées pour la qualité et d’utilisabilité/utilité des vidéos
3.4 Mécanisme de filtrage
3.4.1 Définition des données
3.4.2 Algorithmes de filtrage
3.4.2.1 Algorithme de filtrage pour le mode urgent
3.4.2.2 Algorithme de filtrage pour le mode approfondi
3.4.3 Exemple de filtrage
3.4.3.1 Exemple d’analyse urgente
3.4.3.2 Exemple d’analyse approfondie
3.5 Conclusion
4 Enrichissement contextuel
4.1 Définition de l’enrichissement contextuel
4.2 Étapes génériques pour la mise en œuvre de l’enrichissement contextuel
4.3 Enrichissement contextuel : application aux systèmes de vidéosurveillance
4.3.1 Analyse des informations contextuelles utiles pour la vidéo sur veillance
4.3.1.1 Données ouvertes ou Open Data
4.3.1.2 Médias sociaux
4.3.1.3 Mobilité et géolocalisation
4.3.2 Modélisation des informations contextuelles
4.3.2.1 Modélisation des métadonnées descriptives
4.3.2.2 Modélisation des métadonnées sémantiques
4.3.2.3 Modélisation des métadonnées issues de l’open data
4.3.2.4 Modélisation des métadonnées issues des médias sociaux
4.3.2.5 Modélisation des métadonnées issues de la mobilité et la géolocalisation
4.3.2.6 Modèle générique de métadonnées
4.3.3 Représentation temporelle des évènements dynamiques
4.3.4 Mécanisme de requêtage
4.4 Conclusion
5 Contribution à la norme ISO 22311/IEC
5.1 Norme ISO 22311/IEC
5.2 Proposition d’un modèle générique de métadonnées de vidéosurveillance selon à la norme
5.3 Conclusion
6 Application
6.1 Architecture du framework proposé
6.1.1 Module de collecte de métadonnées
6.1.2 Module interface utilisateur
6.1.3 Module gestion et traitement des métadonnées
6.2 Expérimentations et résultats
6.2.1 Présentation du dataset
6.2.2 Expérience 1 – Filtrage négatif
6.2.2.1 Mise en place de l’expérience
6.2.2.2 Paramètres de l’expérience
6.2.2.3 Résultats et interprétations
6.2.2.4 Évaluation
6.2.3 Expérience 2 – Enrichissement contextuel
6.2.3.1 Mise en place de l’expérience
6.2.3.2 Paramètres de l’expérience
6.2.3.3 Résultats et interprétations
6.2.3.4 Évaluation
6.3 Conclusion
7 Conclusion générale et perspectives
7.1 Bilan
7.2 Perspectives
A Bases de données spatiales
Bibliographie