CLASSIFICATION DU SON AVEC PLUSIEURS FAMILLES DE COEFFICIENTS

CLASSIFICATION DU SON AVEC PLUSIEURS FAMILLES DE COEFFICIENTS

Pour toutes les expérimentations que nous avons effectuées jusque-là, nous n’avions considéré l’utilisation que d’un seul type de paramètres acoustiques : MFCC. Comme mentionné précé- demment, les coefﬁcients MFCC sont couramment utilisés en reconnaissance de la parole et en reconnaissance et vériﬁcation du locuteur. La raison en est que les ﬁltres triangulaires utilisés dans le calcul de ces coefﬁcients correspondent au système auditif humain plus que les ﬁltre linéaires [Picone, 1993] [Schroeder, 1977]. Toutefois, il existe un nombre non négligeable de coefﬁcients qui peuvent être extraits d’un signal audio, chaque famille de coefﬁcients pouvant mettre en exergue une ou plusieurs caractéristiques du signal. Certaines familles de coefﬁcients sont effectivement utilisées dans d’autres domaines audio voisins tels que la reconnaissance de genre ou d’instruments musicaux [Peeters, 2004] [West and Cox, 2004] [Jang et al., 2008] [Duxbury et al., 2003] [Eronen and Klapuri, 2000] [Mierswa and Morik, 2005]. Ce chapitre propose une étude d’un certain nombre de coefﬁcients acoustiques pour les exploiter en reconnaissance des sons de l’environnement. Comme dans le chapitre précédent, les méthodes de classiﬁcation utilisées sont basées sur les GMMs et les SVMs. L’utilisation des GMMs est semblable à celle que nous avons appliquée au chapitre précédent. Pour les SVMs, en revanche, nous testons deux méthodes pour la transformation de séquences de vecteurs. Nous faisons une comparaison entre les performances obtenues avec chaque famille de coefﬁcients ainsi que celles obtenues en utilisant toutes les familles conjointement. Les sections suivantes expliquent les motivations de cette démarche et les techniques mises en œuvre pour la transformation de séquences de vecteurs.

Motivations de l’utilisation de plusieurs familles de coefﬁcients

En reconnaissance ou vériﬁcation du locuteur, la plupart des techniques d’extraction de caracté- ristiques utilisent des informations spectrales de bas niveau qui véhiculent les caractéristiques du conduit vocal [Kinnunen and Li, 2010b]. Les informations spectrales sont extraites depuis des fenêtres d’une durée de 20 à 30 ms de signal de parole en utilisant le carré de l’amplitude de la transformée de Fourier discrète (DFT pour Discrete Fourier transform). Étant donnée la lente Les coefﬁcients MFCC ont initialement été proposés pour une tâche bien particulière, la recon- naissance de la parole. Ils ont par la suite trouvé leur utilisation auprès de la communauté de la reconnaissance du locuteur bien que les deux tâches soient de nature différente. Ils sont même les coefﬁcients les plus utilisés pour les deux tâches du fait de l’existence de méthodes de calcul rapides et d’une certaine robustesse au bruit [Sahidullah and Saha, 2012].D’après Kinnunen [Kinnunen, 2003] [Kinnunen, 2005], le fait que les MFCC soient l’une des familles de coefﬁcients les plus utilisées dans les deux domaines peut s’avérer quelque peu « iro- nique » étant données les natures différentes des deux problèmes. En effet, l’un des problèmes les plus gênants en reconnaissance de la parole est la variabilité des locuteurs, alors qu’en reconnais- sance du locuteur, c’est justement cette variabilité que l’on cherche à exploiter pour discriminer les locuteurs.

Nous restons tout de même sceptiques quant à ces observations car, d’une part, les MFCC ren- contrent un grand succès en reconnaissance du locuteur comme en témoignent les bons résultats obtenus avec ces coefﬁcients depuis de très nombreuses années. En étudiant la littérature récente en matière de reconnaissance du locuteur, on peut constater que tous les efforts se sont concentrés sur les méthodes de classiﬁcation plutôt que sur les coefﬁcients acoustiques utilisés. En effet, tandis que les MFCC constituent souvent le choix standard en matière de coefﬁcients acoustiques, beaucoup d’algorithmes de classiﬁcation ont été étudiés (VQ, GMMs, ANNs, SVMs, etc.). D’autre part, les MFCC peuvent s’avérer très utiles pour la différentiation de certains classes de sons. En effet, il est vrai que ces coefﬁcients sont conçus pour modéliser la parole (d’où l’utilisation de ﬁltres triangulaires qui sont plus étroits pour les basses fréquences, c’est à dire les fréquences où se situe majoritairement le signal de la parole), mais cela peut s’avérer bien utile pour différencier, par exemple, certains sons humains d’autres sons dont les plages de fréquences les plus importantes se trouvent dans une autre partie du spectre, ou bien remplissent tout le spectre.Pour illustrer ce dernier point, examinons les spectrogrammes de trois classes de sons très différents : des cris humains, le bruit d’un moteur électrique (rasoir), et des claquements de porte. Les ﬁgures de 5.1 à 5.3 montrent les spectrogrammes de 4 enregistrements de chacune de ces 3 classes respectivement. On peut y observer que, pour les cris, les basses fréquences (entre 800Hz et 1500Hz environ) sont toujours d’une intensité élevée, contrairement aux hautes fréquences (de plus de 5500Hz) qui sont quasiment absentes.

Télécharger le document complet