Séparation de sources pour l’audition des robots

M. Robert, un retraité de 70 ans, est assis sur son fauteuil dans son appartement parisien en écoutant la radio. Par cette chaude matinée du mois de juillet, M. Robert a soif. Mais depuis qu’il est en perte d’autonomie, de simples tâches comme aller chercher un verre d’eau sont de véritables défis pour lui. Mais plus maintenant. “Romeo ! Apporte-moi un verre d’eau”. Un robot humanoïde, Romeo, se déplace du séjour vers la cuisine et lui apporte un verre d’eau. Ceci est un des scénarios du projet Romeo [7] qui constitue le cadre général de cette thèse. Le projet Romeo vise à développer un robot humanoïde destiné à l’aide aux personnes âgées, malvoyantes ou en perte d’autonomie dans leur vie quotidienne. Le projet Romeo est labellisé par le pôle de compétitivité Cap Digital et financé par la région Ile-de-France, la Direction Générale de la Compétitivité, de l’Industrie et des Services (DGCIS) et de la ville de Paris .

Le robot du nom de Romeo doit aider son “maître” au quotidien tout au long de la journée dans différentes tâches comme ouvrir la porte d’entrée, lui apporter des objets ou encore le secourir en cas de chute. L’interaction entre Romeo et l’Homme se fait via la voix qui représente une interface facile et accessible au plus grand nombre d’utilisateurs. L’exécution de l’ordre du maître par le robot se base essentiellement sur l’écoute et la compréhension de cet ordre qui traduisent un comportement proche de celui de l’être humain.

Un humain avec une audition saine est capable de différencier les sons qui arrivent mélangés à ses oreilles et peut se concentrer sur un son en particulier dans un environnement bruyant, l’identifier et le comprendre : c’est l’effet cocktail party. Pour reconnaître les composantes du son qui forment le mélange audio arrivant à nos oreilles, le système auditif doit en quelque sorte créer des descriptions basées seulement sur ces composantes qui ont pour origine le même évènement sonore. Le processus qui permet de réaliser cette tâche s’appelle analyse de scène auditive.

Le terme “analyse de scènes” a été utilisé pour la première fois par des chercheurs en vision par ordinateur. Il fait référence à la stratégie avec laquelle un ordinateur tente de mettre ensemble toutes les propriétés visibles (contours, textures des surfaces, couleurs, etc…) qui appartiennent au même objet, dans une photographie d’une scène où les parties visibles de cet objet sont discontinues (à cause d’un obstacle se trouvant entre la caméra et l’objet en question). Et ce n’est qu’après ce rassemblement que la forme et les propriétés globales de cet objet sont déterminées. Par analogie selon Bregman [17], l’analyse de scènes auditives est le processus par lequel le système auditif d’un être humain organise le son en des éléments perceptuels significatifs, puis les fusionne ou les sépare afin de distinguer entre les sources présentes dans son environnement. Le concept d’analyse de scènes auditives a été introduit pour la première fois par Bregman en 1990 [17].

Dans le scénario présenté au début de cette section, l’humanoïde Romeo est équipé de microphones par analogie aux oreilles humaines. Les microphones de Romeo reçoivent deux signaux audio se trouvant dans l’environnement du robot : la voix du maître et le signal de la radio arrivent aux capteurs mélangés. Un être humain se serait naturellement concentré sur la voix du maître, grâce aux mécanismes de psychoacoustique que nous venons de citer [17]. Pour qu’il puisse agir en conséquence des évènements qui se produisent, le robot doit comprendre son environnement sonore, séparer et localiser les sources, identifier le locuteur, comprendre ce qu’il lui dit et détecter ses émotions : c’est la définition de l’audition des robots. L’audition des robots se base sur la modélisation informatique de l’analyse de scènes auditives connue sous le nom d’analyse computationnelle de scènes auditives (CASA : Computational Auditory Scene Analysis). L’analyse computationnelle de scènes auditives représente un cadre général du traitement des signaux audio qui vise à comprendre un mélange arbitraire de sons contenant différents types de signaux (de la parole, des signaux autres que de la parole, des signaux musicaux, etc.) dans des environnements acoustiques différents. Un algorithme de CASA analyse les mélanges audio et doit être capable de dire quelle partie de ce mélange est pertinente pour des problèmes comme la segmentation de flux, l’identification et la localisation des sources mais aussi, et c’est la partie qui nous intéresse dans cette thèse, la séparation des sources.

Dans le scénario pilote présenté dans la section précédente, M. Robert donne un ordre à Romeo tout en écoutant la radio. La tâche effectuée par l’humanoïde Romeo peut être décomposée en sous-tâches :
1. Romeo écoute la phrase prononcée par M. Robert.
2. Romeo comprend l’ordre de son maître.
3. Romeo exécute l’ordre de son maître.

La voix de M. Robert arrive au robot mélangée avec le signal émis par la radio : pour que Romeo puisse comprendre et exécuter l’ordre donné par son maître, il faut procéder à une séparation de ces signaux. Notre tâche dans ce projet se focalise sur la séparation aveugle de sources audio par un réseau de microphones . La séparation de sources consiste à estimer les signaux sources à partir de leurs mélanges reçus aux capteurs. Dans le scénario pilote, les conditions dans lesquelles évolue le robot ne sont pas connues : on ne connaît pas le nombre et les positions des sources, le bruit ambiant, le taux de réverbération de la pièce et encore moins les caractéristiques acoustiques des différents chemins sources-microphones. Le système de mélange n’est donc pas connu a priori, dans ce cas la séparation est dite aveugle. L’application fixée par le projet Romeo, l’audition des robots, ainsi que les différents scénarios du projet considèrent l’évolution du robot dans un milieu réel : un appartement ou une maison. Le robot évoluera donc dans un environnement réverbérant. Les mélanges à la sortie des capteurs sont par conséquent des mélanges convolutifs, par opposition aux mélanges instantanés observés dans des environnements dit anéchoïques, sans réverbération, comme les chambres anéchoïques (les chambres sourdes).

Nous nous plaçons dans un cadre de séparation de sources par un réseau de microphones, avec plus de deux capteurs. En comparant le nombre de sources au nombre de capteurs, la séparation de sources peut être classée en trois cas :

– cas sous-déterminé : nombre de sources supérieur au nombre de capteurs,
– cas déterminé : nombre de sources égale au nombre de capteurs,
– cas sur-déterminé : nombre de sources inférieur au nombre de capteurs.

L’objectif du projet Romeo est de construire un robot humanoïde capable d’aider les personnes en perte d’autonomie en utilisant exclusivement des commandes vocales. Nous nous focalisons sur les objectifs du module audio de ce projet. Ce module comporte quatre parties :

Acquisition/Restitution : l’acquisition se fait avec 16 capteurs fixés autour de la tête du robot. Deux des seize capteurs sont équipés chacun d’un pavillon et sont placés à l’intérieur des canaux de ces pavillons pour modéliser les oreilles humaines.

AEC/Séparation/Localisation : c’est la partie la plus importante du module audio et sur laquelle se basent tous les traitements audio à suivre comme la reconnaissance de la parole, des émotions, etc, … Dans cette partie, nous effectuons de la localisation et de la séparation de sources. C’est la partie dans laquelle s’inscrit cette thèse, elle sera détaillée dans la section suivante. Notre module de séparation de sources doit s’intégrer au module d’annulation d’écho acoustique (AEC : Acoustic Echo Cancellation) .

Interprétation/Synthèse : l’interprétation consiste en la reconnaissance des locuteurs et des émotions, l’extraction des sons et des bruits caractéristiques (la musique, la sonnette de la porte, etc…), l’extraction d’une transcription écrite de ce que disent les locuteurs et l’extraction de la sémantique de cette transcription. La synthèse consiste en la synthèse de parole et des émotions en réaction à la décision après l’interprétation et la compréhension du contexte faite par le module “Décision”.

Décision : à partir de la sémantique extraite dans l’étape “Interprétation” du module “Interprétation/Synthèse”, cette partie fournit une décision qui déclenche des comportements.

Table des matières

I Introduction et préalable
1 Introduction générale
1.1 Contexte général : Projet Romeo/Audition des robots
1.1.1 Analyse de scènes auditives
1.1.2 Analyse computationnelle de scènes auditives
1.2 Problématique : Séparation aveugle de sources audio
1.3 Objectifs
1.3.1 Objectif du projet Romeo
1.3.2 Objectif de cette thèse
1.4 Contributions
1.4.1 Bases de données pour la séparation de sources
1.4.2 Algorithmes de séparation de sources
1.5 Organisation du document
2 Etat de l’art de la séparation aveugle de sources audio
2.1 Formulation du problème
2.1.1 Modèle des signaux
2.1.2 Les problèmes relatifs à la séparation de sources dans le domaine fréquentiel
2.2 Séparation aveugle de sources audio
2.2.1 Algorithmes basés sur l’indépendance des sources
2.2.2 Algorithmes basés sur la non-corrélation des sources
2.2.3 Algorithmes basés sur la parcimonie dans le domaine tempsfréquence
2.2.4 Algorithmes basés sur l’analyse de scènes sonores et la psychoacoustique
2.3 Séparation de sources pour l’audition des robots
2.3.1 Les premiers essais
2.3.2 Utilisation des différences intéraurales d’intensité et de phase
2.3.3 Séparation de sources à deux étapes
2.3.4 Localisation et séparation
2.3.5 Le système d’audition complet HARK
II Séparation de sources basée sur l’information spatiale et structurelle des signaux
3 Formation de voies
3.1 Formation de voies : principe
3.2 Formation de voies adaptative
3.2.1 Capon ou MVDR
3.2.2 Maximisation du rapport signal sur bruit
3.3 Formation de voies fixe
3.4 Les fonctions de transfert de tête (HRTF)
3.5 Formation de voies fixe en utilisant les HRTF
3.5.1 Vers la modélisation de la variété du réseau de capteurs
3.5.2 Estimation des filtres de formation de voies par les HRTF
4 Séparation basée sur l’information structurelle des sources
4.1 L’algorithme d’optimisation du gradient naturel
4.2 Analyse en composantes indépendantes
4.3 Minimisation de la norme l1
4.4 Minimisation de la pseudo-norme lp paramétrée
4.4.1 Principe
4.4.2 Algorithme proposé
III Conclusion