Structuration automatique de talk shows télévisés

Dans les bureaux de leur rédaction, X et Y évoquent la constitution d’un documentaire sur les écrivains de polars et autres romans noirs…

« Ce qui serait bien, ce serait d’avoir des témoignages et extraits vidéo d’auteurs qui expliquent leurs œuvres, donnent des éclairages nouveaux, parlent de leurs sources d’inspiration. Tu vois ? Des interviews de Raymond Chandler, Simenon, Fred Vargas par exemple.
— Oui, et ça me fait d’ailleurs penser qu’on doit pouvoir mettre la main sur des explications de James Ellroy sur sa fascination pour les crimes crapuleux. Comme c’est l’objet d’un de ses livres [NDLR : Ma part d’ombre], il y a obligatoirement des archives là-dessus ! Ça doit se trouver, non ?
— Moi je me rappelle avoir vu il y a quelques temps une discussion assez animée entre Manchette, ADG et Léo Malet. C’était un vieux programme des années 80, présenté par Bernard Pivot…
— Apostrophes?
— Oui ça doit être ça. Le problème c’est que je ne me souviens pas du tout de l’année de diffusion et cette émission a été à l’antenne au moins quinze ans. Sans parler de la question des droits d’exploitation, récupérer les trois minutes qui nous intéressent, ça va être coton !
— Hum… Comme dirait l’autre, les indices sont plutôt maigres patron ! » .

Abandonnons ici nos deux journalistes pour réfléchir aux questions soulevées par cette discussion fictive. En effet, celle-ci met en évidence les problématiques modernes de conservation du patrimoine numérique, d’augmentation des volumes de données, de navigation dans les contenus multimedia, d’indexation des documents, de droits d’exploitation, etc. C’est d’ailleurs avec ce type de constat que débutent généralement les premiers paragraphes des articles relatifs aux domaines de l’image, de l’audio ou de la vidéo. Ceci n’est pas étonnant tant les difficultés rencontrées s’avèrent importantes, donnant ainsi naissance à de multiples orientations de recherche.

L’indexation automatique est une des grandes thématiques des dix dernières années. Elle peut se définir comme l’utilisation de méthodes logicielles permettant d’établir un index pour un ensemble de documents et faciliter ainsi l’accès ultérieur à leur contenu. Ce domaine a connu un essor important directement corrélé à l’augmentation des volumes de données à traiter, les ressources humaines jusqu’ici employées ne suffisant plus à la tâche. Comme l’indiquent Brunelli et al. [1999], Dimitrova et al. [2002] ou encore Snoek et Worring [2005], l’enjeu est donc de suppléer à la main d’œuvre humaine, la plus sûre mais également la plus coûteuse, par des algorithmes automatiques pour les actions les plus simples.

La thèse que nous exposons est focalisée sur la structuration automatique de documents audiovisuels, un aspect particulier de la thématique indexation. Littéralement, on peut définir la structuration comme la capacité à extraire une organisation interne des documents et contenus à analyser. Il s’agit généralement de dégager du flux audiovisuel des sections véhiculant une information propre et ce de facon automatique, c’est-à-dire en au moyen de méthodes logicielles.

Cependant, la notion de structuration reste très vague et il n’existe pas à proprement parler de définition consensuelle plus précise. De notre point de vue, la structuration se rapporte à toute tentative d’ordonnancement de contenu. Ainsi, des tâches aussi disparates que la détection de changement de plans de montage, la segmentation en scènes, le résumé automatique, etc. peuvent être considérées comme des processus de structuration. L’approche que nous proposons est orientée vers une structuration de niveau « sémantique » élevé. En effet, le problème fondamental de la structuration est l’écart observé entre l’information extraite automatiquement des données du flux audiovisuel et l’interprétation humaine faite par l’utilisateur de ces mêmes données.

Le problème de la structuration est souvent présenté sous l’angle du désormais célèbre « fossé sémantique » (semantic gap). Cette expression est censée incarner l’écart qui s’observe entre des « concepts » audiovisuels (autre terme dont l’utilisation est parfois hasardeuse) créés par et pour les utilisateurs et leurs représentations numériques directement interprétables en langage machine. Dans cette représentation dichotomique, on accentue les distinctions : détecteurs de bas niveau/« concepts » de haut-niveau, méthodes numériques/méthodes symboliques, etc. Les auteurs procèdent alors généralement à une hiérarchisation des techniques de structuration en fonction de leur niveau d’interprétation « sémantique » qui, en plus d’être délicate, est sujette à débat .

Né en 1974, à la suite de l’éclatement de l’Office de Radiodiffusion Télévision Française (ORTF), l’Institut National de l’Audiovisuel (Ina) s’est vu assigné comme principales missions d’archiver et de partager toutes les productions radiophoniques et télévisuelles françaises. Il s’agit donc de sélectionner et documenter une partie de ce flux en suivant un certain nombre de règles définies par l’institution. Le renseignement des médias est réalisé par des documentalistes et concerne le catalogage et l’indexation des documents afin de faciliter leur accès. Les volumes gérés par l’Ina soulèvent de nombreux problèmes. Au delà de la veille technologique relative aux difficultés de captation du flux et du stockage de contenus, de nouvelles thématiques de recherche liées à des champs disciplinaires très éloignés ont émergé: sociologie, traitement de signal, informatique, représentation des connaissances, etc. Ainsi, l’Ina peut être considéré comme une plateforme d’exploitation unique en son genre au regard des contraintes volumiques et organisationnelles qui lui sont inhérentes.

De nombreuses recherches se sont déjà penchées sur l’organisation de documents vidéo aux contenus très structurés et/ou reproductibles. Naturel et Gros [2008] ont par exemple proposé diverses approches pour extraire l’agencement interne de flux télévisuels. Pour cela, les auteurs présentent des méthodes de détection de silence, d’images monochromes, etc. permettant une segmentation en ruptures structurelles comme par exemple un passage publicitaire. Un étiquetage automatique des sections et des corrections de classification est ensuite effectué au moyen de guides de programme (EPG, Electronic Program Guide).

De façon similaire, Poli [2008] propose une modélisation des grilles de programmes déjà diffusées afin de prédire les prochaines grilles en les confrontant aux guides de programmes. Pour cela, l’auteur propose une extension contextuelle des modèles de Markov, les modèles de Markov cachés contextuels (CHMM). Enfin, Manson et Berrani [2010] effectuent la même tâche de structuration en identifiant les séquences répétées dans un flux audiovisuel (redondances) puis étiquettent les programmes extraits au moyen de métadonnées.

De nombreuses études ont également été menées concernant la structuration de retransmissions sportives : football (Xiong et al. [2003] ou Yu et al. [2009]), basket ball (Zhou et al. [2000] ou Xu et al. [2003]), baseball (Zhang et Chang [2002] ou Guéziec [2002]), tennis (Kijak et al. [2006] ou Delakis et al. [2008]) et même formule 1 (Petkovic et al. [2002]). Dans tous les cas il s’agit de discerner du flux vidéo des actions caractéristiques du sport considéré : but ou faute pour le football, panier pour le basket-ball, échange pour le tennis ou encore lancer pour le baseball. De nombreuses méthodes ont été proposées pour la détection de ces moments « forts » du match en cours. Beaucoup reposent sur l’utilisation de chaînes de Markov cachées (HMM) comme les travaux de Assfalg et al. [2002] ou Baillie et Jose [2004], ou de réseaux bayésiens dynamiques (DBN) comme les travaux de Delakis [2006] ou Oliver et Horvitz [2005].

Des propositions de structuration ont également été faites pour d’autres types émissions de télévision. On peut ainsi évoquer entre autres les journaux télévisés (projet Infom@gic 5 ) pour lesquels une distinction est effectuée entre les parties reportages et celles pendant lesquels le présentateur introduit les sujets. Certains auteurs (par exemple Ide et al. [2004] ou Law-To et al. [2010]) proposent de retrouver les événements du sommaire introductif et de créer ainsi automatiquement une table des matières du journal.

Enfin, d’autres travaux ont également eu pour objet les débats (Dielmann [2010]), les jeux télévisés (Jaffré [2005]) ou encore les séries et sitcoms (Sivic et al. [2009]). Dans ce dernier cas, certains auteurs, comme Cour et al. [2008] proposent une identification automatique des personnages par l’analyse des sous-titres.

Table des matières

Introduction
I Proposition de structure d’émissions de talk show
1 Étude du talk show
1.1 Qu’est-ce qu’un talk show ?
1.1.1 Histoire des émissions de divertissement
1.1.2 Une approche sémiologique du talk show
1.2 Comparaison de deux talk shows
1.2.1 Présentation des corpus
1.2.2 Invariants et différences
2 Propositions pour la structuration de talk show
2.1 Utilité de la structuration de talk show
2.2 Présentation de cas d’usage
2.3 Composantes génériques du talk show
2.3.1 Le contenu
2.3.2 Les délimiteurs
2.3.3 La localisation
2.3.4 L’importance du locuteur
2.4 Evaluation de la structuration proposée
2.4.1 Protocole
2.4.2 Résultats et discussion
2.4.3 Conclusions de l’évaluation
3 Détection d’éléments de structure
3.1 Liens entre éléments de structure et détecteurs
3.2 Organisation
3.3 La segmentation
3.3.1 La segmentation en plans et en scènes
3.3.2 La segmentation audio
3.4 La détection de concepts de haut-niveau
3.5 La détection de concepts de niveau supérieur
3.5.1 Quelques exemples
3.5.2 Études exploratoires pour la détection de concepts audiovisuels
3.6 Vers la reconnaissance de locuteurs
II Reconnaissance multimodale de locuteurs
4 État actuel des méthodes pour la reconnaissance de locuteurs
4.1 Qu’est ce que la reconnaissance de locuteurs ?
4.2 Les étapes de la reconnaissance de locuteurs
4.2.1 Approches agglomératives et divisives
4.2.2 La détection automatique de la parole
4.2.3 La segmentation en tours de parole
4.2.4 Le regroupement de locuteurs
4.3 Les approches multimodales
4.3.1 À l’origine, les travaux biométriques
4.3.2 La reconnaissance multimodale de locuteurs
4.4 Comparaison entre émissions de talk show et enregistrements de réunions de travail
4.5 Les méthodes d’évaluation
4.6 Évaluation d’un système de reconnaissance de locuteurs issu de l’état de l’art
4.6.1 Présentation de l’algorithme
4.6.2 Résultats
4.6.3 Conclusion de l’évaluation
Conclusion