La séparation de sources audio

Analyse en composantes indépendantes

Formalisee par P. Comon [39], l’analyse en composantes independantes (ACI) est une technique equivalente ala resolution du probleme de separation de sources (dans son expression la plus simple). Il s’agit de la generalisation de l’analyse en composantes principales (ACP). Le principe est de transformer lineairement des donnees vectorielles en donnes dont les composantes sont statistiquement independantes, alors que l’ACP ne les transforme qu’en composantes decorrelees. Il s’avere que, dans un contexte non bruite, cela est equivalent al’estimation des parametres du modele instantane. Plus precisement, P. Comon denit l’analyse en composantes independantes d’un vecteur aleatoire x(t) comme la donnee d’une matrice de separation B telle que y(t) = Bx(t) soit acomposantes independantes. Il montre que dans le cas M N, et pour un vecteur x suivant le modele (1.1) non bruite, une matrice B est separante si et seulement si : BA = P , (1.6) ouest une matrice diagonale non-singuliere (represente l’indetermination d’echelle) et P est une matrice de permutation. On appelle une telle matrice P une matrice de permutation generalisee. La recherche de la matrice B est donc le but de l’ACI, elle s’eectue en general parminimisation d’un critere de separation, c’est adire un critere mesurant l’independance statistique de y(t) = Bx(t) : B = arg min C(y(t),B) . (1.7) Pour mesurer l’independance, deux approches principales sont utilisees : soit on minimise l’information mutuelle entre les composantes du vecteur y. Clairement, l’absence d’information mutuelle traduit l’independance des signaux. Soit aussi par maximisation de la \non-gaussianite » des composantes de y.

En eet, par le theoreme central limite, le melange des signaux i.i.d donne un signal dont la loi est proche (asymptotiquement) de la Gaussienne. Ainsi, separer les signaux consiste as’eloigner de la gaussianite. Une methode simple pour le faire revient amaximiser (en valeur absolue) les cumulants d’ordre superieur, car ceux de la Gaussienne sont nuls. Bases sur ces principes generaux, plusieurs types de fonctions de contrastes pour l’ACI ont eteetudiees ces dix dernieres annees. Citons par exemple les contributions de P. Comon [39{41], de J. F. Cardoso [42{44] dont les fonctions de contrastes sont basees sur l’utilisation des statistiques d’ordre superieur et de S. I. Amari [45, 46] dont l’approche utilise des notions de theorie de l’information (principe de l’infomax). La plupart de ces fonctions de contrastes decoulent du principe de l’estimation au maximum de vraisemblance. En eet, pour le modele de l’ACI, maximum de vraisemblance, minimum d’entropie, minimum d’information mutuelle et infomax concident, si l’on impose des contraintes supplementaires de blancheur sur les sources [47, 48]. On applique souvent un pre-blanchiment des observations avant d’adapter une matrice de separation. Le principe est celui de l’ACP, qui permet de diminuer la dimension du probleme et de rendre les observations independantes al’ordre deux, c’est adire decorrelees. On appelle matrice de blanchiment W une matrice telle que :

La s eparation de sources audio

La separation de sources audio est depuis quelques annees dejal’objet de nombreux travaux. Le grand intere^ t qu’elle suscite est du^ non seulement asesmultiples applications, mais aussi aux problemes scientiques originaux qu’elle souleve. Parmi les applications de la separation de sources audio, on peut citer notamment la separation de sources musicales visant une restitution haute qualite, la separation du signal utile du bruit environnant en telephonie mobile, mais aussi la separation ades ns d’indexation dans le domaine du multimedia, ainsi que les applications de reconnaissance de la parole en \cocktail party » ou la localisation de sources pour l’analyse de scenes auditives. D’une application al’autre, la diculte de separation varie en fonction du nombre de sources par rapport au nombre de capteurs, du niveau de bruit, de la dependance entre les sources, de la nature du melange, etc. Par exemple, il est a priori plus dicile de separer deux instruments acordes enregistres en mono et jouant en harmonie et en synchronie que deux locuteurs ayant des conversations independantes et enregistres al’aide d’un reseau demicrophones. Ainsi, le cadre audio ore une grande palette de problemes et une large varietede niveaux de diculteau sein d’un me^me probleme. Les methodes de resolution sont donc diverses, chacune etant souvent specique aun type de probleme et generalement evaluee avec des signaux tests et des criteres choisis selon l’application. On concoit donc qu’il est dicile de savoir aquelle categorie de problemes et aquel niveau de dicultechaque methode peut s’appliquer, ce qui rend dicile la comparaison de plusieurs methodes. Dans ce chapitre nous allons presenter quelques methodes de separation de sources suivant les caracteristiques des melanges. On commencera par le cas des melanges instantanes dans la section 1.3.1 et dans la section 1.3.2 on verra quelques methodes pour le cas des melanges convolutifs.

Methodes basees sur la coherence temporelle

Dans le cas oules signaux sources possedent une coherence temporelle, L. Fety [54] et L. Tong [55] montrent qu’il est possible de separer les dierents signaux en utilisant les matrices d’intercovariance des signaux capteurs. Ces matrices possedent une structure simple qui permet de resoudre le probleme de l’identication aveugle par la procedure de decomposition propre. Dans cette section, on va decrire une technique d’identication aveugle basee sur une diagonalisation conjointe d’un ensemble de matrice d’intercovariance [56]. La robustesse est signicativement accrue en utilisant un ensemble de matrices plut ^ ot qu’une seule matrice comme dans [54, 55]. Les signaux sources sont supposes stationnaires au second ordre, de moyennes nulles, de puissances nies et mutuellement decorreles. On note i() la suite des coecients de covariance du processus si(t) : E[si(t)sj(t0)] = i(t − t0)ij 8t, t0 , (1.19) ouij designe le symbole de Kronecker. Le bruit additif w(t) estmodelisepar un processus aleatoire complexe stationnaire, temporellement blanc, de moyenne nulle et de matrice de covariance Rw : E[w(t + )w(t)H] = ()Rw . (1.20) Ce bruit additif est supposedecorreledes signaux sources. Sous ces hypotheses, les matrices d’intercovariance ont la structure simple suivante : Rx(0) = E[x(t)x(t)H] = ARs(0)AH + Rw (1.21) Rx() = E[x(t + )x(t)H] = ARs()AH 6= 0 , (1.22) ouRs() , E[s(t + )s(t)H] est la matrice d’intercovariance des signaux sources, diagonale gra^ce al’equation (1.19), ayant pour elements diagonaux les i() pour 1 i N. Dans ce qui suit, on se propose de resoudre le probleme de l’identi- cation aveugle en utilisant uniquement les matrices d’intercovariance Rx() des observations. SoitW une matrice de blanchiment complexe de dimension N ×M qui, appliquee aux signaux capteurs x, permet de se ramener aun melange unitaire des signaux sources :

Comme on l’a vu dans la section , la matrice de blanchiment peut etre determinee apartir de la matrice de covariance des observations. On note qu’il est ici possible de blanchir avec une combinaison lineaire denie positive des matrices d’intercovariance prises ades retards dierents de zero. Cette facon de proceder permet de s’aranchir de toute modelisation du bruit. Soient maintenant les matrices d’intercovariance blanchies Rx() denies par : Rx() = URs()UH 86= 0 , (1.24) Comme U est unitaire et Rs() diagonale, la relation (1.24) signie que les matrices d’intercovariance blanchies se diagonalisent sous la m^eme transformation unitaire U. Un principe simple d’identication aveugle consiste alors en une diagonalisation conjointe des matrices d’intercovariance blanchies. On trouve cette idee sous dierentes formes dans [54,55]. Rappelons que si les valeurs propres d’une matrice sont uniques, il n’en est pas de m^eme pour les vecteurs propres. Pour les valeurs propres distinctes, les vecteurs propres normes sont determines aune phase et une permutation pres.

Comme les vecteurs propres des matrices d’intercovariance blanchies sont les colonnes de la matrice U, on trouve les me^me indeterminations que dans le probleme de la separation de sources. La diagonalisation d’une seule matrice Rx() resout le probleme de la separation de sources si ses valeurs propres sont distinctes : les vraies indeterminations apparaissent dans le cas de valeurs propres degenerees. A priori, il n’est pas possible de determiner un retard pour lequel les valeurs propres de Rx() soient distinctes. Si les sources ont des spectres de formes dierentes, la degenerescence des valeurs propres est peu probable. Mais ce probleme n’est pas purement academique car il est evident que quand les valeurs propres de Rx() sont proches de la degenerescence, la robustesse de la determination de U apartir d’une decomposition propre est serieusement aectee.

Table des matières

Introduction générale
Presentation du probleme
Motivations
Plan du document et contributions
1 La séparation de sources audio
1.1 Bref historique
1.2 Les principes de la separation aveugle de sources
1.2.1 Probleme de la separation de sources
1.2.2 Analyse en composantes independantes
1.2.3 Maximum de vraisemblance
1.3 La separation de sources audio
1.3.1 Melanges instantanes
1.3.2 Melanges convolutifs
1.4 Conclusion
2 La séparation de sources audio sous-determinee
2.1 Introduction
2.2 Melanges instantanés
2.2.1 Methodes basees sur un modele probabiliste
2.2.2 Methodes basees sur une representation parcimonieuse
2.3 Melanges convolutifs
2.4 Conclusion
I La SAS audio utilisant la decomposition modale
3 La SAS audio utilisant la decomposition modale : melanges instantanes
3.1 Introduction
3.2 Formalisation du probl eme et hypoth eses
3.3 L’algorithme MD-UBSS
3.3.1 Estimation des composantes modales
3.3.2 Classication et estimation des signaux sources
3.3.3 Cas des composantes modales communes
3.4 L’algorithme MD-UBSS modie
3.5 Discussion
3.6 Simulations
3.7 Conclusion
4 La SAS audio utilisant la décomposition modale : melanges convolutifs
4.1 Introduction
4.2 Formalisation du probleme et hypotheses
4.3 L’algorithme MD-UBSS convolutif
4.3.1 Estimation du canal de melange
4.3.2 Association des composantes modales et estimation des sources
4.4 L’algorithme MD-BSS convolutif sur-d etermin e
4.4.1 Synth ese des signaux
4.4.2 Crit ere de parcimonie
4.5 Discussion
4.6 Simulations
4.7 Conclusion
II La SAS audio utilisant la representation temps-frequence
5 La SAS audio utilisant la representation temps-frequence : melanges instantanes
5.1 Introduction
5.2 Formalisation du probl eme et hypoth eses
5.2.1 Distributions temps-fr equence
5.2.2 Conditions TF sur les sources
5.3 Approche TF-UBSS bas ee sur la classication pour des sources TFdisjointes
5.3.1 Algorithme TF-UBSS quadratique bas e sur la classication
5.3.2 Algorithme TF-UBSS lin eaire bas e sur la classication
5.4 Approche TF-UBSS bas ee sur la projection en sous-espace pour des sources TF-non-disjointes
5.4.1 Algorithme TF-UBSS quadratique bas e sur la projection en sous-espace
5.4.2 Algorithme TF-UBSS lin eaire bas e sur la projection en sousespace
5.5 Discussion
5.6 Simulations
5.6.1 Simulations de l’algorithme TF-UBSS lin eaire
5.6.2 Simulations de l’algorithme TF-UBSS quadratique
5.7 Conclusion
6 La SAS audio utilisant la representation temps-frequence : melanges convolutifs
6.1 Introduction
6.2 Formalisation du probl eme et hypoth eses
6.3 L’algorithme TF-CUBSS
6.3.1 Identication du canal
6.3.2 Algorithme TF-CUBSS bas e sur la classication
6.3.3 Algorithme TF-CUBSS bas e sur la projection en sous-espace
6.4 Discussion
6.5 Simulations
6.6 Conclusion
III La SAS audio utilisant les techniques iteratives
7 La SAS audio utilisant la parcimonie temporelle
7.1 Introduction
7.2 L’algorithme ISBS pour les m elanges instantan es
7.3 L’algorithme ISBS pour les m elanges convolutifs
7.3.1 R esolution des ambigut es de permutation et d’ echelle
7.4 Simulations
7.5 Conclusion
8 La SAS utilisant les statistiques d’ordre deux
8.1 Introduction
8.2 Algorithme de s eparation utilisant le gradient relatif
8.2.1 Fonction de contraste bas ee sur les statistiques d’ordre deux
8.2.2 Algorithme de d ecorr elation utilisant le gradient relatif
8.2.3 Impl ementation adaptative
8.3 Analyse de performances
8.3.1 Analyse th eorique des performances
8.3.2 Validations et simulations
8.4 Conclusion
Conclusion generale
A Identiabilite au second ordre
A.1 Conditions n ecessaires et susantes d’identiabilit e
A.2 Identiabilit e partielle
A.3 Test d’identiabilit e
A.3.1 R esultat th eorique
A.3.2 Test d’identiabilit e utilisant des techniques de
r e echantillonnage
A.3.3 Techniques de r e echantillonnage : jackknife
A.4 Discussion
A.5 Simulations et r esultats
A.6 Conclusion
B Demonstrations
B.1 D emonstration du th eor eme A.3
B.2 D emonstration du th eor eme A.4
Bibliographie