Modélisation robuste de données non-négatives

Modélisation robuste de données non-négatives

Dans la deuxième partie de ce manuscrit, nous nous sommes intéressés à des modèles de signaux qui permettent d’obtenir des contraintes de phase dans un but de reconstruction de celle-ci. Au chapitre précédent, nous avons proposé un modèle probabiliste qui prend en compte les à prioris que l’on peut obtenir sur la phase grâce à de tels modèles. Néanmoins, nous avons jusqu’à présent supposé que les amplitudes des sources étaient connues (cas Oracle) ou bien estimées par avance. En tout cas, elles étaient déterministes. Dans le but de mettre au point un modèle de sources complet pour une application de séparation de sources réaliste, nous allons chercher à modéliser les amplitudes des sources. En outre, nous avons constaté expérimentalement (aux chapitres 5 et 8 en particulier) que la performance des techniques de reconstruction de phase dépend de la qualité des amplitudes estimées préalablement. C’est pourquoi, dans ce chapitre, nous nous intéressons à la modélisation de données nonnégatives. En particulier, nous mettons en évidence le fait que les lois usuelles (telles que la loi de Poisson Virtanen et al. (2008); Cemgil (2009)) employées pour modéliser des données non-négatives, notamment en traitement du signal audio, ne sont pas à queue lourde : cela implique que de telles distributions représentent mal des valeurs éloignées de leurs modes et qui sont considérées comme « abbérantes », alors que de telles valeurs sont pourtant fréquentes en audio. Les lois α-stables Nolan (2015), en revanche, présentent cette propriété de robustesse aux valeurs abbérantes tout en conservant la propriété d’additivité des lois de Poisson. Ces distributions ont été utilisées avec succès dans des applications de traitement du signal robuste, notamment en audio Samoradnitsky et Taqqu (1994); Godsill et Kuruoglu (1999); Bassiou et al. (2013). Nous introduisons un sous-ensemble des lois stables : les distributions Positives α-stables (PαS), qui sont à support non-négatif, et peuvent donc modéliser des données non-négatives telles que des amplitudes de TFCT de signaux audio. Après avoir introduit cette famille de lois, nous en étudions un cas particulier : la distribution de Lévy. Il s’agit du seul cas de loi PαS pour lequel nous pouvons écrire analytiquement la densité de probabilité. Nous proposons un modèle de mélange de données non-négatives appelé Lévy NMF, qui est appliqué à la séparation de sources non-négatives. Ceci ne porte que sur un sous-problème particulier de notre objectif final, qui consiste à séparer des sources complexes (en utilisant notamment un modèle de données non-négatives), mais nous avons trouvé intéressant d’étudier plus en détail ce modèle, car il s’agit d’une thématique de recherche active. La séparation de sources non-négatives est en effet un problème fondamental dans de nombreux domaines tels que l’imagerie par résonance magnétique Sajda et al. (2004), la reconnaissance de visage Guillamet et Vitria (2002) ou la fouille de données textuelles Pauca et al. (2004). Nous proposons des applications en débruitage de spectrogrammes audio et en séparation de sources en spectroscopie de fluorescence Liu et al. (2013). Un des résultats forts de ce chapitre, la généralisation du filtrage de Wiener aux variables PαS, a fait l’objet d’une publication dans un rapport technique déposé dans la base de données de Télécom ParisTech Magron et al. (2016c). Le modèle de Lévy NMF ainsi que la partie expérimentale ont fait l’objet d’un article soumis dans la revue IEEE Signal Processing Letters Magron et al. (2017c). Ce travail ayant été mené conjointement avec Antoine Liutkus de l’INRIA Nancy, nous profitons de ce préambule pour le remercier. Dans la section 9.1, nous introduisons les distributions PαS. Dans le section 9.2, nous présentons un modèle de mélange de données non-négatives, dont nous estimons les paramètres par différentes méthodes. Dans la section 9.3, nous fournissons une justification théorique à l’utilisation d’un filtrage de Wiener généralisé pour estimer les sources de mélanges PαS. Une validation expérimentale est proposée dans la section 9.4 avec des exemples d’application en audio et en spectroscopie de fluorescence. Enfin, nous concluons dans la section 9.5.

Approche Majoration-Minimisation

L’algorithme Majoration-Minimisation (MM) Hunter et Lange (2004) fournit un cadre théorique qui permet de minimiser la fonction de coût C(θ). Le principe de l’algorithme MM (cf. chapitre 2, section 2.2.4) est de majorer la fonction de coût C(θ) par une fonction auxiliaire G(θ, ¯θ), telle que G( ¯θ, ¯θ) = C( ¯θ). À ¯θ fixé, la minimisation de G par rapport à θ produit une mise à jour de ce paramètre qui conduit, par construction de G, à la décroissance de C. Pour construire la fonction auxiliaire G, on s’inspire de la démarche conduite dans Févotte et Idier (2011); Févotte (2011), qui consiste à écrire C comme somme de fonctions convexes et concaves. Les termes convexes sont majorés via l’inégalité de Jensen, et les termes concaves sont majorés par leurs tangentes. Nous détaillons ici la construction de la fonction auxiliaire en un point W(f, k) (cette notation ne désigne pas ici la conjugaison complexe, puisqu’on travaille sur des données nonnégatives). Un calcul semblable permet d’obtenir la fonction auxiliaire en un point H(k, t) pour obtenir la règle de mise à jour sur H.

Approche Majoration-Égalisation

L’approche MM présentée ci-dessus est un moyen d’obtenir des règles de mise à jour pour lesquelles on a une garantie de décroissance de la fonction de coût. Néanmoins, il y a d’autres façons d’obtenir de telles mises à jour qu’en minimisant la fonction majorante : en effet, toute mise à jour vérifiant C(θ (it+1)) ≤ C(θ (it) ) convient. L’approche Majoration-Égalisation (ME) consiste à choisir θ (it+1) tel que G(θ (it+1), θ(it) ) = G(θ (it) , θ(it) ). Cette approche est illustrée sur la figure 9.3. ce qui prouve que la fonction objectif C est décroissante sous cette mise à jour. Nous proposons donc d’appliquer cette méthode pour obtenir une nouvelle procédure d’estimation des paramètres. En effet, cette approche peut être intéressante car il est montré dans Févotte et Idier (2011) que les mises à jour ME convergent plus rapidement que les mises à jour MM dans le cas de la NMF avec β-divergence. Il est possible que pour notre cas d’application également, de telles mises à jour accélèrent la convergence de l’algorithme. Pour l’estimation de W (encore une fois, celle de H est équivalente, nous ne la détaillons donc pas)

Estimateur des sources

L’algorithme de Lévy NMF permet d’estimer les paramètres des sources. On cherche à présent à obtenir un estimateur des sources construit à partir de ces paramètres. Ce qui suit est valable pour toute loi positive α-stable, et pas uniquement la distribution de Lévy. Afin de clarifier la démonstration qui suit, on considère dans un premier temps un mélange de 2 sources uniquement (K = 2) et une seule entrée matricielle. On note alors, pour un jeu d’indices (f, t), x = X(f, t), s1 = X1(f, t) et s2 = X2(f, t), de sorte à ce que x = s1 + s2. Le résultat sera par la suite étendu à K sources et à des variables matricielles. 9.3.1 Somme de 2 variables Soit α ∈]0, 1[. Considérons deux variables s1 et s2 indépendantes et distribuées selon une loi PαS de paramètres de dispersion σ1 et σ2 respectivement. Nous allons nous inspirer de la démonstration qui est conduite dans Badeau et Liutkus (2014) (pour des variables aléatoires SαS) pour obtenir les estimateurs des sources donnés par l’espérance à postériori des sources sachant les observations, que nous notons sˆ1 et sˆ2. L’estimateur de s1 est donc : sˆ1 = Es1|x(s1), (9.53) et par ailleurs, cette espérance est définie si et seulement si la fonction caractéristique de s1|x, ϕs1|x(t1) = Es1|x(e it1s1 ), est différentiable en t1 = 0, auquel cas on a (par exemple d’après Badeau et Liutkus (2014)) : Es1|x(s1) = 1 i dϕs1|x dt1 (0). (9.54) Ainsi, en déterminant la fonction caractéristique de s1|x puis la dérivée de celle-ci, on pourra en déduire l’estimateur de s1. L’intérêt de cette méthode est d’utiliser les fonctions caractéristiques de lois stables, alors que l’on ne sait pas exprimer (dans le cas général) leurs densités de probabilités.