Processus gaussiens pour la séparation de sources et le codage informé

Cette thèse porte sur le problème de la séparation de sources, qui vise à récupérer différents signaux appelés sources, à partir de l’observation de leurs mélanges. C’est un sujet qui a des applications dans de nombreuses disciplines du traitement du signal et qui a des liens très forts avec le vaste domaine des problèmes inverses. Dans le cas de la séparation de sources, l’opération à inverser est celle du mixage des sources. De nombreuses techniques de séparation de sources ont été proposées et cette problématique a attiré l’attention d’une vaste communauté de chercheurs depuis le début des années 1980. Dans ce travail, je présente un formalisme particulier pour la séparation dans lequel les sources sont modélisées comme la réalisation de processus gaussiens. Ce cadre théorique permet de caractériser les signaux à séparer d’une manière souple et naturelle. Ce faisant, il rend possible la prise encompte de nombreuses connaissances a priori pour la séparation et se confond avec certaines méthodes de l’état de l’art dans plusieurs cas particuliers. Parvenir à séparer des sources de leurs mélanges a des applications importantes dans le domaine du traitement du signal audio. Dans ce contexte, une séparation des différents instruments d’un morceau de musique rend possible certaines applications populaires comme le karaoké ou la respatialisation. Cependant, il est rare de parvenir aujourd’hui à obtenir une qualité suffisante de séparation pour ces applications. En conséquence, il a récemment été proposé d’améliorer la séparation en lui fournissant des informations supplémentaires en plus des seuls mélanges. Dans cette thèse, je montre comment ce cas de séparation informée peut être abordé naturellement avec le formalisme gaussien proposé. J’y explicite en outre les relations étroites entre la séparation de sources informée et le codage audio multicanal.

La séparation de sources [28, 115, 38] consiste à récupérer plusieurs signaux à partir de l’observation de leurs mélanges. C’est un problème qui a des applications dans plusieurs domaines, tels que le traitement du signal audio, les télécommunications, les géostatistiques ou le traitement des signaux biomédicaux. En audio, la séparation de sources est souvent introduite en évoquant l’effet cocktail party [26]. Lors d’une réception, de nombreuses conversations simultanées parviennent à mes oreilles. Pourtant, je suis capable si je le souhaite de ne porter mon attention que sur l’une d’entre elles. Ce faisant, j’ai réduit l’influence des autres dans la compréhension de ce qui m’intéresse. En tout état de cause, je n’ai accès à l’environnement sonore que par le biais de mes deux oreilles. Il a donc bien fallu que je sois capable de séparer cognitivement certains sons de tous ceux que j’entends. De la même manière, je peux me concentrer sur un des instruments jouant dans une chanson, en l’isolant ainsi mentalement des autres. Cette capacité, si elle pouvait être imitée par une machine, permettrait la suppression à l’envi de n’importe quelle piste d’un enregistrement audio. Par exemple, je pourrais rajouter une lourde distorsion sur la rythmique d’un morceau, pour le rendre plus écoutable, ou bien en extraire la piste vocale pour l’utiliser dans un morceau de ma composition. Il est donc naturel qu’une large communauté de chercheurs en traitement du signal audio se soit penchée sur le problème .

En télécommunications, il est fréquent de recevoir un signal qui correspond à celui qui nous intéresse, mais qui a été contaminé par l’addition de signaux parasites plus ou moins complexes [28, 38]. Il s’agit alors de séparer le signal cible de ce mélange. La situation est similaire en géostatistiques [32], où la grandeur étudiée est souvent captée avec une incertitude sur la position ou la valeur de la mesure. Il s’agit alors de déduire la valeur recherchée à partir de ces mesures bruitées. Comme on le verra, le formalisme utilisé pour accomplir ces tâches est le même dans tous les cas : il s’agit de séparer le signal utile d’un bruit. Dans le cas des géostatistiques, un problème supplémentaire de régression s’ajoute : celui d’extrapoler une grandeur à des coordonnées différentes de celles des mesures. Enfin, dans certaines disciplines telles qu’en traitement des signaux biologiques, la séparation de sources est couramment utilisée dans le but de décomposer une observation comme une somme de différentes contributions. Par exemple, lors du traitement d’électroencéphalogrammes, on cherche souvent à modéliser l’observation comme une somme de différentes contributions provenant de différentes sources localisées dans le cerveau, dans le but en particulier d’éliminer l’influence importante des clignements des yeux du sujet [112]. D’une manière générale, on verra que décomposer une observation comme une somme de fonctions élémentaires peut s’avérer utile à des fins d’analyse. Cependant, il n’est pas nécessaire que ces fonctions élémentaires correspondent à des signaux émis par de réelles entités indépendantes, comme c’est le cas des différents instruments de musique jouant dans un morceau. L’objectif de la décomposition peut tout simplement être d’expliquer au mieux une observation complexe comme la somme de plusieurs variables latentes plus simples. Cette approche déjà ancienne a donné lieu à des travaux précurseurs en statistiques sous le nom de modèles additifs généralisés .

L’Analyse en Composantes Indépendantes (ACI, cf [37, 28, 109, 38]) permet de fournir une matrice de séparation au prix de certaines hypothèses. Tout d’abord, les sources sont considérées indépendantes. Cela signifie que sans considérer les mélanges, la connaissance d’une d’entre elles ne donne d’information sur aucune des autres. Cette hypothèse, quoique discutable dans certains cas  est la plupart du temps très raisonnable et d’ailleurs commune à la presque totalité des techniques existantes pour la séparation de sources.

La deuxième hypothèse forte faite par l’ACI est que le signal correspondant à chaque source à extraire est une séquence de réalisations indépendantes d’une même variable aléatoire. Enfin, si on suppose qu’au plus une seule des sources a une loi gaussienne, alors on démontre [37] qu’il est possible de séparer les sources à partir de leur mélange 1.2.6 à un coefficient d’amplitude et à une permutation près. Cette séparation s’effectue en pratique par la maximisation de la non Gaussianité des signaux obtenus ou bien par la minimisation de leur information mutuelle. Un des inconvénients majeurs de l’ACI est qu’elle se transpose difficilement au cas sousdéterminé, c’est-à-dire au cas où il y a moins de mélanges disponibles que de sources (I < J). Dans ce cas en effet, le problème devient assez difficile. Pour reprendre l’exemple 1.2.4 du mixage linéaire instantané, connaître la matrice de mélange A ne suffit plus. Il devient nécessaire de mettre au point d’autres approches et la séparation sous-déterminée a d’abord été sentie comme un problème de contrôle.

Une approche importante dans le domaine de la séparation sous-déterminée depuis quelques années repose sur un modèle gaussien [18, 17, 214] des sources. Je reviendrai plus en détail sur ce modèle en partie I. Pour l’heure, je peux déjà en expliciter les idées principales. Ce modèle a été tout particulièrement étudié dans le cas de la séparation de sources audio (T = Z), et fut d’abord considéré dans le cas où il n’y a qu’un seul mélange (I = 1). Le mélange est supposé être la simple somme des sources comme dans l’expression 1.2.1. Les signaux sont tout d’abord transformés pour en obtenir une représentation Temps-Fréquence (TF) telle que la Transformée de Fourier à Court Terme (TFCT, [5, 6, 40, 92]). Dans ce domaine, plusieurs hypothèses sont faites.

Tout d’abord, comme dans l’ACI, les sources sont supposées indépendantes. Ensuite, tous les coefficients de la TFCT d’une source donnée sont supposés indépendants et distribués selon des lois gaussiennes complexes centrées d’une certaine variance, assimilable à la Densité Spectrale de Puissance (DSP) de la source en ces instants et ces fréquences. Si on suppose connues les DSP des sources, on montre que la séparation peut se faire très simplement par l’application trame par trame d’un filtrage de Wiener [217], qui est optimal au sens des moindres carrés. Cette technique est souvent appelée filtrage de Wiener généralisé. L’enjeu essentiel des techniques basées sur ce modèle gaussien devient alors d’estimer les DSP des sources à partir de la seule observation du mélange. Un large effort de recherche de la communauté s’est opéré sur ce point précis. Dans le cadre gaussien, les DSP des sources s’ajoutent pour obtenir celle du mélange, estimée par son spectrogramme . Le problème de la séparation de formes d’ondes est donc rapidement devenu celui de la séparation de DSP. Plusieurs constats et techniques ont guidé ces recherches. Tout d’abord, les DSP sont des grandeurs nécessairement positives. Ensuite, il est courant pour de nombreuses applications, en particulier le traitement du signal musical, qu’elles présentent de très nombreuses redondances. En effet, les mêmes notes sont susceptibles de se reproduire à de nombreux endroits dans le morceau. Dans ces conditions, on comprend que des techniques de réduction de dimension aient été appliquées, qui portent le nom de factorisation en matrices non-négatives (NMF, en anglais)  et qui permettent de décomposer le spectrogramme du mélange comme la superposition d’éléments simples. Cette approche donne parfois de très bons résultats, mais il s’est avéré rapidement que son principal problème réside dans l’arbitraire des composantes produites. En effet, en l’absence de contraintes supplémentaires, la NMF va chercher à expliquer au mieux le mélange comme une somme de composantes, mais ces composantes ne correspondent pas nécessairement à des sources [19]. Ainsi, plusieurs pistes de recherche ont émergé qui cherchent toutes à forcer la NMF à produire des composantes plus satisfaisantes. Cela s’est surtout fait en pénalisant toute décomposition qui ne répondait pas à certains critères.

Tout d’abord, il a été tenté d’inclure dans la NMF certaines contraintes de régularité, permettant de garantir qu’aucune des composantes ne soit activée puis désactivée de manière trop abrupte . Ensuite, certains modèles ont cherché à décomposer le spectrogramme du mélange comme une somme de motifs d’une certaine durée, dans le but de ne plus extraire seulement des spectres instantanés redondants, mais plutôt des blocs entiers [192, 183]. Ces modèles reposent sur une notion d’invariance par translation : chaque bloc est supposé se reproduire à l’identique plusieurs fois dans le mélange. Par ailleurs, il a été tenté par Durrieu et al. de décomposer les spectrogrammes en utilisant des modèles plus complexes permettant de forcer certaines sources à présenter une ligne mélodique. Ces approches se concentrent sur la séparation de la voix dans les enregistrements musicaux et permettent d’obtenir de bonnes performances. Une autre piste de recherche a consisté à ne plus utiliser la TFCT comme transformée pour analyser les signaux, mais plutôt une autre transformée dénommée la transformée à Q constant (CQT en anglais). L’avantage de cette représentation est qu’elle présente une échelle logarithmique selon l’axe des fréquences. Ainsi, un changement de hauteur se traduit non plus comme une homothétie des spectres, mais plutôt comme une translation [101]. Des modèles invariants par translation ont pu être mis au point pour exploiter cette propriété dans le cas de la séparation et l’analyse de musique .

En cherchant dans la littérature si d’autres communautés s’intéressaient à des problèmes similaires à celui de la séparation de sources, il m’est apparu que de nombreuses techniques utilisées en géostatistiques procèdent à un type de séparation de sources spatiales appelée Krigeage. Plus particulièrement, ces méthodes séparent le signal utile d’un bruit, et effectuent également des analyses de signaux multicanaux, tels que différents types de mesures effectués dans le sol. De la même manière, certaines études en apprentissage automatique permettent de décomposer des observations en sommes de composantes latentes [178].

Table des matières

1 Introduction
1.1 Préambule
1.2 Séparation de sources
1.3 Séparation informée
1.4 Plan de l’exposé
2 Processus gaussiens
2.1 Motivations
2.2 Définition
2.3 Fonctions de covariance
2.4 Apprentissage des hyperparamètres
2.5 Le cas stationnaire
2.6 Conclusion
3 Approximations et modèles structurés
3.1 Approximations parcimonieuses
3.2 Tramage
3.3 Processus gaussiens localement stationnaires
3.4 Conclusion
4 Modèles de densités spectrales de puissance
4.1 Motivations et critère d’apprentissage
4.2 Modèle par compression d’images (CI) dans le cas D = 1
4.3 Factorisation non négative (D quelconque)
5 Mélanges linéaires instantanés
5.1 Un seul mélange linéaire instantané (I = 1)
5.2 Mélange linéaire instantané multicanal (I quelconque)
5.3 Processus gaussiens localement stationnaires
6 Mélanges complexes
6.1 Modèle convolutif
6.2 Modèle diffus
6.3 Conclusion
7 Apprentissage des paramètres
7.1 Séparation aveugle, séparation informée
7.2 Formalisation
7.3 Estimation des paramètres à partir du mélange
8 Applications semi-informées
8.1 Séparation de rythmiques
8.2 Analyse de mouvements de danse
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *