Méthodes à haute résolution pour l’estimation et le suivi de sinusoïdes modulées

Dans le cadre du traitement de la parole et des signaux de musique, la partie tonale d’une grande variété de sons trouve une modélisation efficace comme une somme de sinusoïdes à paramètres lentement variables. Par exemple, les sons qui produisent une sensation de hauteur bien définie possèdent une forme d’onde quasi périodique (sur une durée supérieure à quelques dizaines de milisecondes). L’analyse de Fourier montre que ces signaux sont composés de sinusoïdes satisfaisant une relation d’harmonicité, ce qui signifie que leurs fréquences sont multiples de la fréquence fondamentale, définie comme l’inverse de la période. C’est notamment le cas des signaux de parole dits voisés, produits par vibration quasi périodique des cordes vocales, comme les voyelles. De nombreux instruments à vent ou à corde produisent également des sons harmoniques ou quasi harmoniques. Cependant, dans un signal de musique polyphonique, les sons émis simultanément par un ou plusieurs instruments se superposent ; ainsi la relation d’harmonicité n’est plus vérifiée, mais le signal reste essentiellement constitué de sinusoïdes.

En traitement de la parole, le modèle sinusoïdal a été introduit par McAulay et Quatieri au début des années 80 pour coder le signal en bande téléphonique [Mc Aulay et Quatieri, 1986]. Ce type de représentation a également été utilisé en traitement des signaux de musique, notamment à Stanford, dans le cadre des travaux de X. Serra qui a développé un système complet d’analyse / synthèse [Serra et Smith, 1990]. Cette approche a également été adoptée pour coder les signaux de musique, notamment dans le cadre du codeur bas-débit MPEG4-HILN. De telles applications nécessitent de disposer d’outils performants pour estimer les paramètres du modèle. Il s’agit d’un problème classique d’estimation, vieux de plus de deux cents ans. Dans ce domaine, la transformation de Fourier est un outil privilégié en raison de sa robustesse, de la simplicité de sa mise en oeuvre, et de l’existence d’algorithmes rapides (Fast Fourier Transform (FFT)). Elle présente néanmoins un certain nombre d’inconvénients. Tout d’abord, sa précision fréquentielle, c’est-à-dire la précision avec laquelle la fréquence d’une sinusoïde peut être estimée, est limitée par le nombre d’échantillons utilisés pour la calculer. Cette première limitation peut cependant être contournée en prolongeant le signal utile par une suite de zéros. Cependant, sa résolution fréquentielle, c’est-à-dire sa capacité à distinguer deux sinusoïdes proches, est limitée par la durée du signal observé. Malgré ces inconvénients, la transformation de Fourier reste aujourd’hui encore l’outil le plus utilisé en analyse spectrale. Elle a donné lieu à de nombreuses méthodes d’estimation des fréquences des sinusoïdes [Keiler et Marchand, 2002].

Les méthodes dites à Haute Résolution (HR), qui trouvent leurs applications en traitement d’antenne comme en analyse spectrale [Marcos et al., 1998], présentent l’avantage de s’affranchir des limitations naturelles de l’analyse de Fourier. En effet, en l’absence de bruit, leur précision et leur résolution fréquentielles sont virtuellement infinies (bien qu’en pratique limitées par la précision finie des machines de calcul). Ceci est rendu possible en s’appuyant fortement sur un modèle paramétrique de signal. Ainsi, contrairement à l’analyse de Fourier qui consiste à représenter le signal dans un domaine transformé, les méthodes HR sont des méthodes d’estimation paramétrique. Dans le cadre du traitement du signal audio, malgré leur supériorité en terme de résolution spectrale (en particulier sur des fenêtres temporelles courtes), elles restent peu utilisées en raison de leur forte complexité algorithmique. L’origine des méthodes HR remonte aux travaux de Prony publiés en 1795, qui visent à estimer une somme d’exponentielles par des techniques de prédiction linéaire [Riche de Prony, 1795]. Plus récemment, cette approche a été approfondie par Pisarenko pour estimer des sinusoïdes [Pisarenko, 1973]. Les fréquences se déduisent alors des racines du polynôme prédicteur. Les méthodes HR modernes reposent sur les propriétés particulières de la matrice de covariance du signal. Ainsi, l’étude de son rang permet de séparer l’espace des données en deux sous-espaces, l’espace signal engendré par les sinusoïdes, et l’espace bruit qui est son complémentaire orthogonal. Les méthodes HR issues de cette décomposition en sous-espaces sont plus robustes que les techniques de prédiction linéaire. Citons par exemple la méthode MUltiple SIgnal Classification (MUSIC) [Schmidt, 1986], qui s’appuie sur l’espace bruit, et les méthodes Matrix Pencil [Hua et Sarkar, 1990] et Estimation of Signal Parameters via Rotational Invariance Techniques (ESPRIT) [Roy et al., 1986], qui s’appuient sur l’espace signal.

En outre, les méthodes HR sont bien adaptées pour estimer les paramètres d’une somme de sinusoïdes dont l’amplitude varie exponentiellement (modèle Exponential Sinusoidal Model (ESM)). Ce type de modulation permet de décrire l’amortissement naturel des systèmes vibratoires libres, tels que la vibration d’une corde pincée [Jensen et al., 2004]. D’autre part, il a été montré dans [Laroche, 1993] que les méthodes HR se révèlent particulièrement performantes dans le cas de signaux fortement atténués. D’une manière plus générale, le modèle ESM permet de décrire des signaux à forte variation d’amplitude [Hermus et al., 2002]. Par ailleurs, les signaux de musique contiennent souvent des paires ou des triplets de fréquences très proches qui engendrent un phénomène de battements. Ces battements contribuent fortement à l’aspect naturel du son. Ils résultent souvent des propriétés particulières des systèmes de vibration. Par exemple, une dissymétrie mineure dans la géométrie d’une cloche conduit à des paires de modes de vibration. Dans le cas d’une guitare, le couplage entre les cordes et le chevalet peut être représenté par une matrice dite de mobilité, dont il est possible de déduire des paires de fréquences [Lambourg et Chaigne, 1993]. Dans le cas du piano, le couplage des modes de vibration horizontal et vertical de chaque corde et la présence de paires ou de triplets de cordes pour la plupart des notes expliquent la présence de quatre ou six fréquences voisines au niveau de chaque harmonique [Weinreich, 1977]. L’analyse de Fourier ne permet généralement pas de distinguer toutes ces fréquences. Les études menées dans [Laroche, 1993] sur des sons de piano et de guitare ont montré la supériorité des méthodes HR, et de l’algorithme Matrix Pencil, dans ce domaine. Cette supériorité se révèle plus particulièrement sur des fenêtres temporelles courtes. La même technique a été utilisée pour estimer des paramètres physiques, comme le facteur de rayonnement d’une guitare [David, 1999], et pour étudier la propagation d’ondes mécaniques dans des matériaux solides [Jeanneau et al., 1998]. Enfin, de nombreux auteurs ont remarqué que le modèle ESM peut aussi modéliser efficacement des sons transitoires, en particulier des attaques et des sons percussifs [Laroche, 1989, Nieuwenhuijse et al., 1998, Jensen et al., 1999, Hermus et al., 2002, Karjalainen et al., 2003]. En effet, certaines attaques peuvent être décrites comme la réponse impulsionnelle d’un filtre linéaire invariant dans le temps, qui satisfait justement le modèle ESM. De plus, une attaque est un son de courte durée, qui se prête donc particulièrement bien à l’analyse HR. Cependant, il est indispensable de veiller à ce que la fenêtre d’analyse débute à l’instant précis de l’attaque, sinon l’analyse HR donne des résultats imprécis, et conduit généralement à des phénomènes de pré-écho, souvent observés en codage audio. Pour résoudre ce problème, R. Boyer a proposé l’usage des modèles Damped and Delayed Sinusoids (DDS) et Partially Damped and Delayed Sinusoids (PDDS), pour lesquels il propose des méthodes d’estimation spécifiques [Boyer et Abed-Meraim, 2004] .

Table des matières

Introduction
I État de l’art des méthodes à haute résolution
I.1 Introduction
I.2 Modèle de signal
I.3 Méthode du maximum de vraisemblance
I.3.1 Application du principe du maximum de vraisemblance au modèle ESM
I.3.2 Maximum de vraisemblance et résolution de Fourier
I.4 Méthodes à haute résolution
I.4.1 Techniques de prédiction linéaire
I.4.2 Méthodes sous-espace
I.5 Estimation des autres paramètres
I.5.1 Estimation de l’ordre de modélisation
I.5.2 Estimation des amplitudes, des phases et de l’écart-type du bruit
I.6 Performances des estimateurs
I.6.1 Borne de Cramer-Rao
I.6.2 Performances des méthodes HR
I.7 Conclusion
II Estimation des paramètres dans le cas de pôles multiples
II.1 Introduction
II.2 Le modèle Polynomial Amplitude Complex Exponentials
II.2.1 Equations de récurrence linéaires et homogènes
II.2.2 Polynômes binomiaux
II.2.3 Paramétrisation complète du modèle de signal
II.3 Les matrices de Pascal-Vandermonde
II.4 Méthode du maximum de vraisemblance
II.5 Généralisation de l’algorithme ESPRIT
II.5.1 Structure singulière de la matrice de données
II.5.2 Structure singulière de la matrice de corrélation
II.5.3 L’algorithme ESPRIT généralisé
II.6 Estimation des amplitudes, des phases et de l’écart-type du bruit
II.7 Conclusion
III Performances de l’algorithme ESPRIT généralisé
III.1 Introduction
III.2 Bornes de Cramér-Rao
III.2.1 Bornes de Cramér-Rao pour le modèle PACE
III.2.2 Bornes de Cramér-Rao asymptotiques
III.3 Etude des perturbations et de la performance des estimateurs
III.3.1 Perturbations induites par le bruit additif
III.3.2 Performance des estimateurs
III.4 Simulations numériques
III.4.1 Modèle de signal réel
III.4.2 Modulation d’amplitude polynomiale
III.4.3 Modulation d’amplitude et de fréquence
III.5 Conclusion
IV Estimation de l’ordre de modélisation
IV.1 Introduction
IV.2 Impact d’un ordre de modélisation erroné
IV.2.1 Sur-estimation de l’ordre du modèle
IV.2.2 Sous-estimation de l’ordre du modèle
IV.3 Sélection d’un ordre de modélisation approprié reposant sur l’erreur d’estimation
IV.3.1 Calcul récursif de Φ(p)
IV.3.2 Calcul récursif de E(p)
IV.4 Simulations numériques
IV.4.1 Pertinence des bornes d’erreur a priori et a posteriori
IV.4.2 Sélection de l’ordre du modèle pour un signal synthétique
IV.4.3 Comparaison statistique des performances
IV.4.4 Sélection de l’ordre du modèle pour un signal de musique
IV.5 Conclusion
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *