Caractérisation de l’environnement musical dans les documents audiovisuels

Caractérisation de l’environnement musical dans les documents audiovisuels

Les transcriptions – la mélodie

Les travaux sur ce sujet se divisent en deux grandes catégories : la transcription de la partie percussive, et la transcription d’une ligne mélodique dominante. La ligne mélodique peut être un instrument, ou une voix chantée.

La partie percussive

La question Il s’agit de fournir une partition de la partie jouée par les percussions. L’extraction de la partie percussive a de nombreuses applications : elle peut permettre l’identification du genre [DGW04] (le jazz et le rock sont par exemple très différents de ce point de vue), la recherche par le rythme d’extrait musicaux dans une base de données [KBT04, GR05], ou encore servir d’outil pour la composition ou le mixage de musiques [PK03, GR05]. Historique Les recherches se sont tout d’abord attelées à une version simplifiée du problème : la transcription d’une partie percussive solo. Par la suite, le problème s’est complexifié, quand les chercheurs se sont penchés sur le problème de la transcription de la partie percussive en contexte polyphonique. La très grande majorité des recherches se sont concentrées sur quelques types de percussions, à savoir celles rencontrées dans les musiques pop et rock, autrement dit la batterie : cela inclut la caisse claire, la grosse caisse, les toms, le charleston et les cymbales. Les différences entre ces instruments sont à la fois d’ordre fréquentiel (la caisse claire est plus aigu¨e que les toms, eux mêmes plus aigus que la grosse caisse), et d’ordre temporel (durée du son produit) [HYG02].

Méthodes actuelles

Comme Gillet et Richard le résument dans leur article [GR08], trois approches sont actuellement utilisées pour cette tˆache : – « segmentation puis classification », – « recherche de motif et adaptation », – « séparation puis détection ». Dans la première approche, l’étape de segmentation du signal audio en « événements », précède l’étape de classification dans laquelle leur sont attribué un instrument. La segmentation est une détection soit des débuts de notes (tˆache difficile), soit du tatum (voir partie 2.5.3, tˆache plus facile), mais une erreur de sur-segmentation peut alors être très gênante. L’étape de classification commence par l’extraction de paramètres. La plupart des paramètres « classiques » ont été testés : les MFCC, leurs dérivées première et seconde, ainsi que les moyenne et variance de chacun des coefficients [GR04, PK03], l’énergie par bandes de fréquence [GR04, HDG03], les quatre premiers moments du spectre [PR02]. . . Le module de décision reprend également les outils classiques : en mode supervisé ou non, avec des GMM, des SVM, ou des arbres de décision. Cette méthode générale (segmentation et classification) a été développée au départ pour la transcription de percussion solo, et s’avère effectivement très efficace dans ce cas [GR04]. Dans le cas de musique polyphonique, cette approche est nettement plus difficile à mettre en œuvre [TDDB05], puisque les autres sources vont non seulement rendre plus difficile la segmentation, mais également influer sur les paramètres utilisés pour la classification. La seconde approche, nécessite de disposer d’un exemple de chaque instrument pour en déduire un motif caractéristique. Ce motif, temporel [ZPDG02] ou fréquentiel [YGO04], est recherché dans le signal. Une fois qu’il est trouvé, on peut l’adapter, chercher le nouveau motif, le réadapter, et ainsi de suite. Notons que cette méthode sous-entend que le motif de chaque instrument reste toujours le même. La troisième approche, fait appel aux méthodes de séparation de sources pour extraire la partie de percussion, puis la transcrire. Si on dispose d’autant de canaux que de sources, alors des méthodes telles que l’Analyse en Composantes Indépendantes (ICA) peuvent être utilisées. Cependant, dans la majorité des cas, on ne dispose que de deux signaux (enregistrements stéréos), voire même que d’un seul signal (enregistrements monos). La plupart des algorithmes se sont concentrés sur ce dernier cas. Après avoir séparé les différentes sources, et avoir identifié celles correspondant aux percussions, il s’agit idéalement d’une simple tˆache de transcription monophonique. Pour plus de détails sur les méthodes de séparation de sources, on pourra se référer à la synthèse de Virtanen, dans le chapitre 9 de l’ouvrage dirigé par Klapuri et Davy [KD06], ou encore aux campagnes d’évaluation SiSec [VAB09].

La mélodie principale

La question Il s’agit d’obtenir une transcription de la mélodie principale. Une application de cet outil est la recherche d’extraits musicaux en fredonnant la mélodie, « Query by Humming » en anglais. Il est en effet nécessaire de savoir extraire la mélodie principale d’un extrait pour pouvoir la reconnaˆıtre automatiquement. Historique Un des précurseurs en la matière fut Goto [Got99, Got04], qui développa en 1999 sa méthode « PreFEst », qui permet d’estimer la fréquence fondamentale prédominante dans de la musique polyphonique et d’obtenir la ligne mélodique principale, ainsi que la ligne de basse. L’idée est de détecter les fréquences présentes30, puis de rechercher la ligne mélodique caractérisée par des intensités fortes, et une certaine continuité temporelle. Pour distinguer la mélodie de la ligne de basse, l’auteur propose simplement de séparer les hautes et moyennes fréquences (mélodies) des basses fréquences (ligne de basse). Méthodes actuelles Deux approches sont possibles : – détecter les fréquences présentes, puis les assigner au bon instrument (ou à la bonne voix), – faire de la séparation de sources, puis transcrire chacune des sources monophoniques. Les campagnes d’évaluation MIREX 2004 et 2005, ont mis en évidence de nombreux systèmes (14 au total, avec plusieurs systèmes pour certains participants) : Dressler [Dre05], Marolt [Mar04b], Goto [Got04], Ryyn¨anen et al. [RK05], Poliner et al. [PE05], Paiva et al. [PMC04], et Vincent et al. [VP05]. Une analyse des résultats de ces deux campagnes est proposée dans l’article de Poliner et al. [PEE+07b] Les algorithmes proposés lors de ces campagnes suivent tous l’approche directe : détecter les fréquences présentes à l’aide d’un algorithme de « multipitch », puis sélectionner 30Pour ce qui est de la détection des fréquences présentes (polyphoniques ou monophoniques), on se référera par exemple à la thèse de Yeh [Yeh08]. la bonne fréquence (si elle existe, c’est-à-dire s’il y a une mélodie principale). Les algorithmes « multipitch » se basent globalement : soit sur la Transformée de Fourier à Court Terme [Dre05, Mar04b, Got04, RK05, PE05], soit sur le corrélogramme [PMC04], soit sur l’algorithme YIN (décrit dans la partie 3.3.1 [VP05]). Ces paramètres sont analysés, pour aboutir à la détection de 1 à 5 fréquences fondamentales. Des étapes de détection des débuts de notes, et de suivi sont éventuellement rajoutées pour arriver au résultat final. Plus récemment, Durrieu et al. [DOF+09] ont utilisé l’approche type « séparation de sources ». Dans ce cas, les données sont stéréophoniques. Pour plus de détails, on se référera à l’ouvrage de Klapuri et Davy [KD06] pour les méthodes, et à l’article de Vincent et al. [VAB09] pour la campagne d’évaluation SiSec 200831 . Performances Les corpora de test utilisés lors des campagnes MIREX, contiennent divers genres musicaux (Pop, Jazz, Classique, R&B, Rock), la mélodie principale étant tenue par des instruments divers : voix (hommes, femmes et synthétiques), saxophone, guitare et instruments synthétiques. L’évaluation est faite sur les valeurs estimées de fréquences fondamentales, à 25 cents près (soit un huitième de ton) – la mélodie s’en déduisant en arrondissant les valeurs de fréquences fondamentales aux notes les plus proches. Les meilleurs résultats sont obtenus par Dressler avec 71,4 % d’accuracy globale, et Ryyn¨anen et al. avec 74,1 % d’accuracy en ramenant les notes sur une seule octave.

Le cas particulier du chant

La question L’extraction de la mélodie chantée est un cas particulier de l’extraction de la mélodie. Cependant, nous choisissons d’y consacrer un paragraphe pour les raisons suivantes : le chant est souvent la mélodie que l’auditeur retient, et la voix humaine chantée présente des caractéristiques particulières qui ont mené au développement de méthodes spécifiques à cette tˆache. Les systèmes de « Query by Humming » se sont notamment concentrés sur ce problème, qui diffère, même pour des extraits monophoniques, de la transcription des instruments. La voix chantée est moins stable que les notes produites par des instruments, soit que la personne chante faux, soit qu’elle change brusquement de ton, soit tout simplement parce qu’elle contient par nature du vibrato. Pour un état de l’art sur la transcription du chant solo, on pourra se référer au chapitre 12, écrit par Ryyn¨anen de l’ouvrage de Klapuri et Davy [KD06].

Table des matières

Table des figures
Liste des tableaux
Chapitre
Introduction
1.1 L’environnement de recherche
1.2 L’indexation de la musique et par la musique
1.3 Positionnement de l’étude
1.4 Organisation du mémoire
Chapitre 2 L’environnement musical – Introduction
2.1 Introduction – environnement sonore, environnement musical
2.2 Les outils du traitement automatique de la musique
2.2.1 Les paramètres « traditionnels »
2.2.2 Les paramètres « musicaux »
2.2.3 Les méthodes de classification et de modélisation
2.2.4 Les librairies de calcul
2.3 Les jingles
2.3.1 Définition
2.3.2 Les caractéristiques des jingles
2.3.3 Quelques travaux réalisés sur le sujet
2.4 La musique de fond
2.4.1 Les paramètres et les modélisations
2.4.2 Les performances
2.5 Les extraits musicaux
2.5.1 L’effectif, le timbre
2.5.2 La tonalité
2.5.3 La pulsation, le tempo
2.5.4 Le genre
2.5.5 Les émotions dans la musique
2.5.6 L’identité du chanteur
2.5.7 Les transcriptions – la mélodie
2.5.7.1 La partie percussive
2.5.7.2 La mélodie principale
2.5.7.3 Le cas particulier du chant
2.5.8 Les transcriptions – la partition
2.5.9 Les transcriptions – la suite d’accords
2.5.10 Les transcriptions : les paroles
2.6 Conclusion
Chapitre 3 Monophonique / Polyphonique
3.1 Positionnement de l’étude
3.1.1 Quelques définitions
3.1.2 Etat de l’art
3.2 Notre approche
3.2.1 L’extraction des paramètres
3.2.2 La prise de décision
3.3 L’indice de confiance – Définition et comportement statistique
3.3.1 Le YIN
3.3.2 Le vecteur de paramètres
3.3.3 Choix de la loi de Weibull bivariée
3.3.3.1 Présentation de la loi de Weibull bivariée
3.3.3.2 Validation théorique
3.4 Estimation des paramètres d’une loi de Weibull bivariée par la méthode des moments
3.4.1 Les moments de la loi
3.4.2 L’estimation de θ1, θ2, β1 et β2
3.4.3 L’estimation de δ
3.5 Cadre expérimental
3.5.1 Le corpus
3.5.2 L’apprentissage
3.6 Résultats expérimentaux
3.6.1 Le système primaire : l’approche « Classe »
3.6.2 Comparaison avec des méthodes classiques – Validation de la méthode proposée
3.6.2.1 Système de base
3.6.2.2 Validation des paramètres et de la modélisation
3.6.2.3 Validation de l’approche bivariée
3.6.2.4 Validation de l’approche probabiliste
3.6.3 Une amélioration : l’approche « Sous-classe »
3.7 Conclusion
Chapitre 4 Détection du chant
4.1 Introduction
4.2 Etat de l’art
4.2.1 Les paramètres utilisés
4.2.2 Méthodes de classification
4.2.3 Les corpora étudiés, les résultats obtenus
4.3 Les paramètres de notre étude
4.3.1 Le vibrato
4.3.1.1 Définition
4.3.1.2 Mécanismes de production
4.3.1.3 Caractéristiques du vibrato des chanteurs
4.3.2 Une segmentation du signal
4.3.2.1 La segmentation sinuso¨ıdale
4.3.2.2 La segmentation pseudo-temporelle
4.3.3 Le vibrato étendu
4.4 La détection du chant
4.4.1 Le système primaire
4.4.2 Une nouvelle définition du chant
4.4.3 Prise en compte du contexte monophonique ou polyphonique
4.4.3.1 La détection en contexte monophonique
4.4.3.2 La détection en contexte polyphonique
4.5 Expériences
4.5.1 Système de base
4.5.2 Système primaire : pas de segmentation monophonie / polyphonie
4.5.3 Utilisation de la segmentation monophonie / polyphonie
4.5.3.1 Avec une segmentation monophonie / polyphonie manuelle
4.5.3.2 Avec une segmentation monophonie / polyphonie automatique
4.6 Conclusion
Chapitre 5 Conclusion et perspectives
5.1 Conclusion
5.1.1 La distinction Monophonie / Polyphonie
5.1.2 La détection du chant
5.1.3 Bilan sur la structuration d’un document
5.1.4 Application sur une émission
5.2 Perspectives
5.2.1 Sur les méthodes
5.2.2 Sur la description des contenus audio par leur contenu musical
Annexes
Annexe A Mesures de performances
A.1 Le Taux d’Erreur Global
A.2 La Matrice de Confusion
A.3 La Précision et le Rappel
A.4 La F-Mesure
A.5 L’Accuracy
Annexe B Test de Kolmogorov
B.1 Descriptif du test
B.2 Table du test de Kolmogorov
B.3 Cas o`u Nc > 100
Annexe C Détail du corpus
Bibliographie
Résumé
Abstract