Indices auditifs et modèles pour la localisation binaurale

Télécharger le fichier original (Mémoire de fin d’études)

Indices auditifs et modèles pour la localisation binaurale

La localisation binaurale consiste à déterminer l’origine spatiale de sources so-nores à partir d’une analyse du flux audio perçu par un récepteur binaural. Chez l’humain ce récepteur correspond aux deux oreilles ; en robotique il s’agit de deux microphones qui peuvent être positionnés soit en champ libre (sans interférence acoustique entre la source sonore et chaque microphone), soit sur une tête sphérique ou anthropomorphe, éventuellement à l’intérieur de pavillons artificiels. Nous ferons régulièrement référence à l’axe interaural, qui désigne l’axe qui relie les deux oreilles ou les deux microphones. Une introduction au problème de localisation binaurale pour la robotique peut être trouvée dans [Argentieri et al. 2015]. Chez l’humain, la localisation repose en grande partie sur des indices binauraux (section 1.1.1) extraits du flux binaural (signaux perçus par les oreilles gauche et droite). Des in-dices monauraux, issus de l’analyse du signal perçu par chaque oreille séparément, participent également à la localisation. Tous ces indices peuvent être capturés par la relation spatio-fréquentielle qui unit le signal induit par la source en un point de référence (généralement le point milieu de la tête si celle-ci était absente) et le signal perçu en chaque oreille, au moyen de fonctions de transfert (Head Related Transfert Function (HRTF)) dont nous présentons le principe en 1.1.2.
Généralement, la position d’une source est décrite dans un système de coor-données sphériques (O, r, θ, ψ) dont l’origine O est le centre de la tête, avec r la distance de la source à l’origine, θ l’azimut de la source par rapport à l’axe frontal et ψ l’élévation de la source par rapport au plan horizontal.

Indices binauraux et monauraux

La théorie duplex, introduite dans [Rayleigh 1907], énonce que la localisation horizontale chez l’humain repose essentiellement sur l’exploitation conjointe des indices binauraux que sont la diﬀérence interaurale en phase ou en temps (Interaural Phase Diﬀerence (IPD) ou Interaural Time Diﬀerence (ITD)) et la diﬀérence inter-aurale en amplitude (Interaural Level Diﬀerence (ILD)). L’ILD désigne la diﬀérence d’intensité entre les signaux perçus par les oreilles gauche et droite. L’intensité du signal perçu en une oreille est plus importante lorsque la source est située du même côté, en raison de la diﬀusion de l’onde sur la tête avant d’atteindre la seconde oreille. Cet indice est très fortement dépendant de la fréquence du signal. Pour les signaux de fréquence relativement haute (supérieure à 750Hz), l’intensité des si-gnaux perçus entre les deux oreilles est fortement modifiée par la géométrie de la tête. Au contraire, pour les signaux basse fréquence, la diﬀérence devient diﬃcile-ment perceptible. En revanche, l’ITD, qui représente le temps de retard séparant les perceptions entre les deux oreilles, semble moins sensible aux variations de fré-quences. Néanmoins, lorsque la fréquence de la source excède un certain seuil (ty-piquement 1400Hz), l’ITD devient peu informatif en raison du repliement spatial. Ainsi chez l’humain, la localisation horizontale d’une source est eﬀectuée par une combinaison « pondérée » de ces deux indices. Pour les sources de faible fréquence, la localisation est principalement eﬀectuée par l’exploitation des ITD, tandis que les ILD facilitent davantage la localisation de sources à haute fréquence.
Une source située dans le plan vertical symétrique de la tête (il s’agit en anatomie du plan sagittal médian) n’induit pas de diﬀérence entre les signaux perçus par les deux oreilles. Les indices relatifs à la localisation verticale sont monauraux. Bien que la perception de l’élévation d’une source soit perceptible chez l’humain (en grande partie grâce à la forme des pavillons des oreilles), les indices monauraux ne seront pas exploités dans cette thèse. Notre problème de localisation sera défini dans un plan horizontal contenant la source et les microphones ; nous y reviendrons dans la partie 1.3.1–B.
Tous les indices évoqués précédemment dépendent de la distance qui sépare le récepteur de la source ainsi que de l’angle d’incidence de l’onde acoustique. Cepen-dant la détermination de la distance est une tâche bien plus ardue que l’estimation de l’angle d’incidence. L’humain est capable d’estimer partiellement la distance à une source en combinant les indices binauraux et en utilisant une information a priori sur l’environnement. Diﬀérents aspects de la perception de la distance chez l’humain sont abordés dans [Zahorik et al. 2005]. La perception de la distance est souvent surestimée pour les sources proches et sous-estimée pour les sources situées au-delà d’un mètre. Au contraire, la perception de l’azimut chez l’humain est rela-tivement précise. Un individu peut généralement détecter des changements de 10◦ dans l’angle d’incidence horizontal d’une source et la précision peut être accrue à 1◦ lorsque la source est située dans la direction de plus grande acuité. Dans le plan transversal (horizontal) contenant les deux oreilles, il s’agit de la direction portée par l’axe normal à l’axe interaural et passant par le centre de la tête. Par la suite cette direction sera parfois appelée fovéa, par analogie à l’anatomie de l’oeil, où le terme fovéa désigne la zone de la rétine permettant la meilleure acuité visuelle.

Modèle HRTF

La HRTF est un modèle mathématique qui permet de caractériser le son perçu par un microphone, en prenant en compte l’ensemble des phénomènes de diﬀusion acoustique. C’est une relation spatio-fréquentielle entre le signal induit par la source en un point particulier, dit « de référence » (généralement le point milieu de la tête si celle-ci était absente), et le signal perçu par le microphone. Il s’agit donc d’une fonction de la position de la source (distance au point de référence, azimut et éléva-tion dans un repère centré sur celui-ci) et de sa fréquence. L’antécédent temporel de la HRTF est la réponse impulsionnelle (Head Related Impulse Response (HRIR)). La fonction de transfert interaurale (Interaural Transfert Function (ITF)) résultant du rapport des deux HRTF gauche et droite, caractérise donc la propagation du son entre les deux microphones, laquelle dépend à la fois de la position de la source et des caractéristiques du récepteur binaural : microphones en champ libre, placés sur une tête sphérique ou anthropomorphe, placés dans des pavillons artificiels, présence d’un torse, etc. La phase et l’amplitude de l’ITF représentent respectivement l’IPD et l’ILD définis à chaque fréquence. Les HRTF dépendent fortement des caractéris-tiques physiques du récepteur mais également des propriétés du milieu acoustique. Deux méthodes d’obtention des HRTF sont possibles. Lorsque la forme du récep-teur est simple (typiquement une tête sphérique ou ovale), les lois de propagation acoustique peuvent suﬃre à retranscrire son eﬀet sur la perception en chaque mi-crophone de manière analytique (voir par exemple [Duda & Martens 1998]). Dans le cas d’un mannequin anthropomorphe admettant une géométrie plus complexe, ce calcul devient impossible et les HRTF doivent être évaluées expérimentalement. Les réverbérations éventuelles du signal source n’étant pas prises en compte par le modèle, ces mesures doivent être eﬀectuées en chambre anéchoïque.

État de l’art de la localisation binaurale en robotique

Les approches binaurales sont souvent considérées comme étant moins eﬃcaces que celles utilisant une antenne de plusieurs microphones ; la redondance d’informa-tion est moins importante, ce qui rend la localisation moins précise. Les approches binaurales possèdent néanmoins de nombreux avantages et connaissent depuis plu-sieurs années un certain regain d’intérêt au sein de la communauté scientifique, notamment depuis l’apparition de processus actifs liant mouvement et perception. L’un des avantages majeurs des solutions binaurales est sans doute la simplicité de mise en œuvre (diminution des coûts et facilité d’utilisation grâce à des cartes d’acquisition stéréo). Notons cependant que le nombre réduit de microphones im-pose souvent des algorithmes plus complexes qu’avec des antennes de plus grande taille, ce qui peut donc engendrer un temps de calcul plus élevé. Par ailleurs, la perception binaurale en robotique permet de créer des liens intéressants avec les neurosciences, en tentant d’imiter et d’expliquer les processus de perception chez l’humain ou chez les animaux. Ainsi l’approche binaurale est aussi une opportunité de mieux comprendre l’audition humaine.

Localisation de sources à partir des indices binauraux

En robotique, les microphones sont généralement disposés sur la tête du robot (tête sphérique ou anthropomorphe). Les indices binauraux (ILD et ITD) sont les indices les plus utilisés et leur extraction à partir du flux binaural est généralement eﬀectuée en vue d’obtenir une information sur l’azimut de la source. Notons que dans le cas particulier où les microphones sont en champ libre, les ITD sont relativement indépendants de la fréquence et les ILD n’apportent que très peu d’information (la diﬀérence d’intensité entre les signaux gauche et droit tient essentiellement à la pré-sence d’un élément diﬀusant entre les microphones), ce qui rend ces derniers indices diﬃcilement exploitables. L’extraction de ces indices à partir du flux binaural peut être eﬀectuée à partir de diverses méthodes (calculs dans les domaines temporels ou fréquentiels, méthodes bio-inspirées, etc.) dont une liste non exhaustive peut être trouvée dans [Youssef et al. 2012]. Dans certaines études [Lim & Duda 1994, Ras-paud et al. 2010], les indices binauraux utilisés pour l’estimation de l’azimut sont obtenus à partir de données HRTF.
Cependant l’exploitation des indices binauraux ne donne qu’une information partielle sur la position de la source. Premièrement, ces indices ne fournissent pas suﬃsamment d’information pour estimer de manière satisfaisante la distance qui sépare le capteur de la source. Ensuite, les indices binauraux ne permettent pas d’estimer l’azimut sans ambiguïté. En eﬀet, dans le cas d’une paire de microphones en champ libre, une même valeur d’ITD peut être associée à diﬀérents angles d’in-cidence de la source, formant un hyperboloïde à deux nappes (gauche et droite). Cette surface peut être assimilée à un cône pour des sources suﬃsamment éloignées. L’expression « cône de confusion » est utilisée dans la littérature. Les résultats de diﬀérentes études présentées dans [Shinn-Cunningham et al. 2000], montrent que ce cône se forme également lorsque les microphones sont placés sur une tête sphérique. Enfin, notons que cette surface d’incertitude en 3D est réduite à une ambiguïté avant-arrière lorsque la localisation est eﬀectuée dans un plan horizontal.
Ce concept de cône de confusion est connu depuis longtemps et des études ont tenté de démontrer l’intérêt du mouvement de la tête pour la localisation chez l’hu-main. Dans [Wallach 1938], l’influence du mouvement de la tête est étudiée de façon à mieux caractériser ce cône de confusion. Dans [Thurlow & Runge 1967], la contri-bution du mouvement de la tête pour la localisation d’une source est considérée. Pour cette étude, des individus doivent localiser au mieux des sources sonores dans diﬀérentes conditions tout en eﬀectuant divers mouvements de la tête. Les auteurs montrent que l’erreur de localisation horizontale est fortement diminuée lorsqu’un mouvement de rotation est eﬀectué. La réduction d’erreur verticale n’est par contre pas significative.
Chez l’humain la tête n’est pas parfaitement sphérique, les oreilles ne sont pas diamétralement opposées et la tête n’est pas symétrique par rapport au plan transversal contenant l’axe interaural. Par ailleurs, il est reconnu que le torse perturbe la diﬀusion de l’onde sonore aux basses fréquences [Algazi et al. 2001]. En consé-quence, les indices binauraux ne sont pas parfaitement constants pour des sources placées sur un même cône de confusion [Shinn-Cunningham et al. 2000]. À par-tir de ce constat, les limitations apparaissant lors de l’estimation de la position d’une source à partir des indices binauraux pourraient être théoriquement levées en plaçant le capteur binaural sur un mannequin anthropomorphe (composé d’une tête et d’un torse). Ces mannequins sont conçus de manière à émuler les mêmes phénomènes de diﬀusion acoustique que chez l’humain. Cependant s’il a été démon-tré que les dissymétries du corps humain pouvaient participer à la localisation, de tels indices acoustiques encodent en réalité des relations extrêmement complexes entre la fréquence et la position de la source, rendant ces dissymétries diﬃcilement exploitables.
Récemment, dans [Portello et al. 2013], deux microphones placés sur une tête sphérique sont exploités de façon à localiser horizontalement une source. Une fonc-tion de « pseudo log-vraisemblance » de l’azimut est établie à partir d’une analyse temps-fréquence du flux binaural et de la fonction de transfert interaurale (ITF). L’ITF est naturellement définie à partir des HRTF gauche et droite, qui prennent en compte la diﬀusion acoustique sur la tête. Les auteurs montrent que la fonction de vraisemblance obtenue permet une estimation de l’azimuth de meilleure qualité que dans les deux autres cas suivants : (1) flux binaural obtenu par des microphones en champ libre et exploitation d’une ITF décrivant une propagation en champ libre ;
(2) flux binaural obtenu par des microphones eﬀectivement disposés sur la tête, mais exploitation de HRTF et ITF décrivant une propagation en champ libre ou reposant sur l’approximation de Woodworth-Schlosberg (ILD nuls, et écriture simplifiée des ITD). Le cas (1) prouve que les ILD implicitement inclus dans la décomposition temps-fréquence du flux binaural relatif à la tête sphérique apportent une informa-tion significative sur l’origine spatiale de la source. Le cas (2) permet d’apprécier les erreurs commises lors de l’exploitation de modèles de propagation simplifiés. L’ambiguïté avant-arrière demeure naturellement présente. Cette méthode qui sera davantage détaillée en 1.3.2, a été étendue pour l’estimation des azimuts relatifs à plusieurs sources [Portello et al. 2014a].

Mouvements en boucle ouverte

En robotique, un moyen de lever l’ambiguïté avant-arrière et d’estimer la dis-tance, est d’assimiler au cours du temps l’information spatiale provenant de l’ana-lyse court-terme des indices binauraux et de la combiner avec les ordres moteurs du capteur binaural (qui induisent son déplacement selon une loi de dynamique a priori définie à l’avance) [Nakadai et al. 2000]. Il s’agit de processus de localisation audio-moteurs. Dans [Lu & Cooke 2010], les signaux gauche et droit sont d’abord traités par des filtres de type gammatone. Ensuite, les ITD sont estimés comme l’argument maximisant la somme de la corrélation croisée des sorties de ces filtres. La localisation repose sur un filtre à particules. L’étude est eﬀectuée en simulation et met en avant le fait que les performances de la localisation sont influencées par la nature des mouvements de la tête binaurale, tels que des mouvements aléatoires et les déplacements en direction de la source. Une approche diﬀérente est proposée dans [Portello et al. 2011] où, sur la base du temps de retard mesuré entre deux microphones en champ libre, un filtre de Kalman unscented multi-gaussien (Multi-Gaussian Unscented Kalman Filter (MG-UKF)) constitue une alternative au filtre particulaire pour la localisation d’une source unique. Le MG-UKF est pourvu d’une initialisation automatique et permet d’éviter une estimation trop optimiste de la covariance de la variable d’état représentant la position de la source. De par l’ambi-guïté avant-arrière dans l’estimation de l’azimut, la densité de probabilité (ou pro-bability density function (pdf)) de la position de la source relativement au capteur binaural est multimodale, et peut diﬃcilement être assimilée à une loi gaussienne. Le mélange de gaussiennes permet une meilleure approximation. Dans [Portello et al. 2012], les auteurs étendent leur approche à la gestion des fausses mesures en implémentant un filtre multi-hypothèses à association de données probabiliste (Multiple Hypothesis Probabilistic Data Association Filter (MH-PDAF)). La mé-thode est inspirée du Probabilistic Data Association Filter (PDAF) de [Bar-Shalom et al. 2009], qui est modifié de façon à intégrer l’approche à mélange de gaussiennes de [Portello et al. 2011]. Le MH-PDAF est ensuite complété de façon à gérer l’inter-mittence de la source, par l’intégration d’un détecteur d’activité basé sur le test du rapport de vraisemblances généralisé (Generalized Likelihood Ratio Test (GLRT)). Typiquement, deux modèles M1 et M2 sont définis, qui représentent respectivement les cas où la source est active ou inactive. Le GLRT permet de détecter les tran-sitions inter-modèles sans connaissance a priori relative à celles-ci. Une approche complémentaire est proposée dans [Nguyen et al. 2016] pour la localisation d’une source intermittente depuis un robot mobile muni d’une antenne de microphones. Les auteurs introduisent une extension d’un filtre de Kalman étendu multi-gaussien, appelée Mixture Kalman Filter (MKF). Celle-ci permet d’estimer un vecteur d’état mixte discret-continu qui aggrège l’activité de la source et sa position relativement au capteur, sur la base d’observations, également mixtes, issues de l’analyse court-terme du flux binaural par un algorithme de détection d’activité et un algorithme d’estimation d’azimut.
La fonction de pseudo log-vraisemblance de l’azimut évoquée en 1.2.1 et in-troduite dans [Portello et al. 2013], qui exploite directement les données HRTF et donc l’intégralité de la réponse acoustique de l’élément diﬀusant, a également été exploitée dans des méthodes de filtrage. Dans [Marković et al. 2013], cette fonction, souvent définie avec une résolution non maîtrisée (typiquement 1◦ ou 5◦ pour un ensemble tête-torse anthropomorphe, selon la résolution spatiale des relevés HRTF), est d’abord ajustée à des distributions circulaires, non normalisées, de von Mises ou Cauchy. L’intérêt d’introduire des lois circulaires est de prendre en compte naturel-lement le fait que l’argument de la pseudo-vraisemblance, i.e., l’azimut, vit sur le cercle unité et non sur la droite réelle. Les deux modèles ont été comparés, et il a été montré que les distributions de von Mises permettent un ajustement plus pertinent. La vraisemblance originale et son expansion par une loi de von Mises ont ensuite été intégrées dans une stratégie de localisation audio-motrice basée sur un filtre à parti-cules. Les propriétés de ce filtre ont été testées par des simulations de Monte-Carlo, mettant en avant la pertinence de l’approche mais soulignant l’apparition ponc-tuelle d’inconsistence (estimé de la covariance a posteriori trop optimiste). Selon les auteurs, ce problème pourrait être réglé en augmentant le nombre de particules ou en ajustant l’initialisation du filtre. L’évaluation des vraisemblances des parti-cules au moyen de l’expansion de la pseudo-vraisemblance par une loi de von Mises permet toutefois une meilleure estimation de la distance sans dégrader l’estimation de l’azimut. Enfin, la fonction de pseudo log-vraisemblance de l’azimut de [Portello et al. 2013] a également été approchée par un mélange de gaussiennes, de façon à être intégrée dans un schéma (modifié) de type MG-UKF [Portello 2013] [Portello et al. 2014b]. Nous reviendrons sur cette approche dans la partie 1.3.3.
Notons toutefois qu’en pratique, la qualité de la perception auditive par un ro-bot, et donc la qualité des processus qui en dépendent, peut être altérée par le bruit qu’il génère, ou « ego-noise ». Une illustration de ce problème est donnée dans [Fu-rukawa et al. 2013], où un drone multi-rotors équipé d’une antenne de microphones doit faire face au bruit stationnaire qu’il émet durant son vol, le tout en eﬀectuant une tâche de localisation. La référence [Ince et al. 2009] étudie des solutions au pro-blème de l’ego-noise et propose une méthode de soustraction spectrale pour réduire son impact. Les performances sont évaluées sur des expériences de reconnaissance automatique de la parole.

Génération de mouvements actifs

Chez l’humain, la localisation de sources sonores est améliorée par des mouve-ments réflexes exécutés naturellement et inconsciemment. En réalité, notre corps ne réagit pas seulement à un stimulus audio mais plutôt par rapport à ce que cette perception audio signifie dans une situation physique, émotionnelle et cog-nitive spécifique [Blauert 2017]. En robotique, relativement peu d’études portent sur la synthèse de mouvements permettant d’améliorer les processus de localisation audio-motrice. Plus largement, la commande de robots basée sur des capteurs ex-téroceptifs tels que des capteurs audio peut être abordée selon deux approches : les méthodes « sensor-based » (sensor-based control), et les approches « par retour d’état » (situation-based control) qui comportent une étape interne de reconstruc-tion de la position et orientation 3D sur la base du flux sensorimoteur. Dans cette section nous présentons des études qui commandent le mouvement d’un capteur au-dio en boucle fermée sur les signaux qu’il capture. Nous évoquons dans un premier temps des travaux qui utilisent une approche « sensor-based », où la localisation de la source n’est pas l’objectif principal. Nous concentrons ensuite notre étude sur les approches par retour d’état qui mettent en jeu des processus de localisation et qui correspondent mieux aux particularités de notre problème.
Lorsque le problème de commande est exprimé dans l’espace des capteurs, le but est d’agir en boucle fermée sur la perception de façon que certaines primitives perceptuelles atteignent leurs valeurs de référence. Un « audio-servo » a ainsi été proposé dans [Kumon et al. 2003], permettant de diriger l’orientation de la tête en direction de la source en se basant sur le signal audio brut perçu par deux microphones. Les mouvements sont limités à des rotations de la tête. Avec le même objectif, [Kumon & Noda 2011] proposent un système de pavillons déformables, par analogie à ceux des chats. Dans [Magassouba et al. 2015], le contrôle en translation et en rotation d’un capteur binaural dans un plan est étudié. Les auteurs utilisent des mesures d’ITD pour asservir les angles d’incidences d’une à trois sources, sur la base d’une méthode qui n’implique pas de localisation. Une validation expérimentale de cette approche est proposée dans [Magassouba et al. 2016], pour une ou deux sources mobiles. Une étude complète des commandes « audio-based » (analyse, synthèse, validation expérimentale) pour des primitives telles que l’ILD, l’ILD en conjonction avec l’énergie sonore absolue perçue, et l’ITD, est proposée dans [Magassouba 2016].
Les approches par retour d’état ont été davantage traitées dans la littérature. Comme notre application implique un processus de localisation, il nous paraît natu-rel de préférer ces méthodes. Dans certaines études, la notion d’entropie est utilisée. Il s’agit d’un critère d’information (que nous rappellerons dans la partie 2.1) qui représente l’incertitude associée à une variable aléatoire. Le problème de séparation de sources multiples est abordé dans [Sekiguchi et al. 2015]. Les auteurs proposent de diriger des robots équipés d’antennes de microphones vers les positions depuis lesquelles la tâche de séparation peut être eﬀectuée de manière coopérative avec une eﬃcacité maximale. Dans [Berglund & Sitte 2005], le problème de localisation bi-naurale est étudié à l’aide d’un robot mobile. Les auteurs montrent que l’estimation d’azimuts est plus précise quand la source se situe dans le plan sagittal médian ; c’est à dire quand la fovéa est orientée dans la direction de la source. À partir d’une analyse fréquentielle, le robot détermine la direction de la source et s’oriente dans sa direction grâce à des techniques d’apprentissage par renforcement. Plus récemment, un robot équipé de deux microphones placés dans des pavillons artificiels et d’une caméra, localise une source sonore en combinant acuité visuelle et auditive dans une méthode de filtrage à particules [Schult et al. 2015]. Cette méthode consiste à estimer récursivement la pdf a posteriori de la position relative capteur-source, qui constitue le vecteur d’état. Le mouvement appliqué au robot est celui qui maximise une fonction d’information calculée par une diﬀérence entre l’entropie de la pdf de l’état à l’instant courant et l’entropie de la pdf à l’instant suivant, après avoir ap-pliqué une action et assimilé une nouvelle observation. Dans [Schymura et al. 2017], un algorithme d’exploration de Monte Carlo est utilisé pour diriger un robot vers une position spécifique en minimisant un critère de distance, tout en réduisant un critère d’entropie permettant de minimiser l’incertitude liée à la localisation de la source. En eﬀet, pour un grand nombre d’applications, la localisation n’est pas le seul objectif. Les résultats montrent que la stratégie d’exploration pure guide le ro-bot en direction de la source (nous verrons dans le chapitre 3 en quoi cela contribue à l’amélioration de la localisation). Néanmoins, dans ce cas, les performances de la localisation sont dégradées. Les auteurs précisent qu’en outre, le robot se rapproche alors trop de la position de la source, ce qui perturbe l’estimation des indices binauraux. Cela est dû à la HRIR utilisée, qui n’est pas adaptée au champ proche, ainsi qu’à d’importantes diﬀérences d’azimuts entre deux instants consécutifs.
Dans les études précédentes, les commandes sont établies de façon à maximiser un critère court terme ; c’est à dire que la récompense est attribuée immédiatement après l’application de la commande. Dans la littérature, de telles approches sont appelées stratégies « myopes » ou « gloutonnes ». Une autre méthode consiste à établir un critère à long terme, c’est à dire dépendant de l’état d’information du système après l’application d’une suite de N commandes. Nous qualifions ces ap-proches de « stratégies à long terme » (voir section 2.2.3). Dans [Vincent et al. 2015], le déplacement d’un robot équipé d’une antenne de microphones est planifié N pas à l’avance (avec N ≥ 1). L’objectif est de localiser une source sonore en minimisant un critère basé sur l’entropie d’une grille d’occupation, utilisée pour caractériser la probabilité de la position de la source. Pour tout instant k, l’entropie de la grille d’occupation à l’instant k + N dépend des futures observations et ne peut donc pas être évaluée de façon certaine. Le critère à minimiser est alors défini comme l’espérance de cette entropie par rapport aux futures observations. Afin de rendre possible le calcul du critère lorsque la valeur de l’horizon N augmente, l’espérance de l’entropie est calculée séparément pour chaque future position possible du robot (position et orientation possible de l’antenne de microphones). Les auteurs sup-posent donc que l’entropie associée à chaque position future du robot ne dépend pas de la trajectoire suivie pour atteindre cette position. Cette approximation per-met d’aborder la minimisation du critère comme un problème de programmation dynamique qui est résolu par l’algorithme de Viterbi. Le même problème de loca-lisation sur un horizon à long terme a été abordé très récemment dans [Nguyen et al. 2017] avec une approche diﬀérente. La pdf a posteriori relative à la position de la source, du robot et à l’activité de la source, est modélisée par un mélange de gaussiennes calculé récursivement au moyen d’un filtre MKF. Ensuite, une méthode de recherche arborescente de Monte-Carlo (Monte Carlo Tree Search (MCTS)) est utilisée en vue d’obtenir la séquence de commandes qui minimise l’entropie de la pdf a posteriori. Même lorsque l’espace discret des commandes est de taille limi-tée, l’évaluation du critère pour toutes les séquences de commandes admissibles est généralement irréalisable. Cette méthode heuristique permet de n’évaluer le cri-tère que pour certaines séquences de commandes. L’algorithme se termine quand le temps alloué à la recherche est épuisé et la séquence de commande qui conduit à l’entropie la plus basse est retenue. Les résultats de simulations montrent que la mé-thode permet une meilleure réduction d’entropie sur le long terme qu’une méthode gloutonne.

Table des matières

Introduction
Perception et actions en robotique
L’audition en robotique
Organisation de la thèse
1 Localisation binaurale et mouvement actif
1.1 Indices auditifs et modèles pour la localisation binaurale
1.1.1 Indices binauraux et monauraux
1.1.2 Modèle HRTF
1.2 État de l’art de la localisation binaurale en robotique
1.2.1 Localisation de sources à partir des indices binauraux
1.2.2 Mouvements en boucle ouverte
1.2.3 Génération de mouvements actifs
1.3 Vers une localisation binaurale active en trois étapes
1.3.1 Introduction
A Notations
B Modèle géométrique
1.3.2 Estimation à court terme d’azimuts
1.3.3 Localisation audio-motrice
1.3.4 Position du problème de synthèse de mouvement actif
1.4 Présentation des outils d’évaluation
1.4.1 Simulateur binaural
1.4.2 Localisation à partir d’un robot mobile
2 Outils théoriques pour la commande référencée information
2.1 Définitions de l’information
2.1.1 Estimation et mesure d’information
2.1.2 Entropie et Information Mutuelle
2.1.3 Entropie et filtrage bayésien
2.2 Perception active en robotique
2.2.1 Définition d’un modèle
2.2.2 Choix du critère d’information
2.2.3 Décisions à court terme contre décisions à long terme
2.3 Fonction d’incertitude pour la localisation active de sources sonores
2.3.1 Hypothèses du modèle d’exploration
2.3.2 Définition d’une fonction d’incertitude
A Récompense immédiate
B Critère de décision à long terme
3 Génération de mouvement guidé par un critère de décision à court terme
3.1 Définition du problème d’optimisation
3.2 Intuitions sur le mouvement
3.2.1 Mouvement guidé par les ITD
3.2.2 Mouvement guidé par des mesures linéaires en azimut
3.3 Lignes de niveau
3.3.1 Exploration guidée par les ITD
3.3.2 Cas idéal de l’exploration guidée par des azimuts
3.3.3 Discussions
3.4 Gradient de la fonction de récompense
3.4.1 Définition de F1
3.4.2 Évaluation du gradient en un point
3.5 Optimisation sous contraintes
3.5.1 Conditions d’optimalité
3.5.2 Résolution numérique
3.6 Évaluation de la méthode
3.6.1 Simulation
3.6.2 Expériences en conditions réelles
4 Génération de mouvement avec critère de décision à long terme
4.1 Position du problème
4.1.1 Évaluation de JN
4.1.2 Définition du gradient de JN
4.2 Approches numériques
4.2.1 Différentiation automatique
4.2.2 Résolution de PN par la méthode du gradient projeté
4.3 Analyse de résultats de simulation
4.3.1 Comparaison entre différents horizons d’exploration
4.3.2 Évaluations statistiques
5 Prospectives pour la localisation binaurale à mouvement actif
5.1 Prospectives court terme
5.1.1 Comparaison exhaustive avec une simplification rencontrée dans la littérature
5.1.2 Prise en compte du bruit de dynamique
5.1.3 Entropie d’un mélange de gaussiennes
5.2 Évolution vers une stratégie multiobjectifs
Conclusion
A Le filtre de Kalman unscented
A.1 La transformée unscented
A.2 Implémentation de l’UKF
B Optimisation statique
B.1 Définitions
B.2 Optimisation sans contrainte
B.3 Optimisation sous contraintes
C Acronymes
Bibliographie