Fusion multi-niveaux par boosting pour le tagging automatique

La diversité culturelle est souvent synonyme de richesse, et cela est également vrai en ce qui concerne la musique. De ce point de vue, il est grisant de constater que notre société propose un accès sans précédent à une grande variété de musiques, tant dans le spectacle vivant qu’en terme d’enregistrements. Les individus possèdent des goûts très différents les uns des autres, et une même personne apprécie souvent plusieurs types de musique. L’éclectisme musical est d’ailleurs une qualité de plus en plus valorisée socialement [Cou10].

Cette diversité musicale se retrouve naturellement dans les médiathèques et les magasins de musique où, pour contenter tous les publics, les références disponibles sont souvent très nombreuses. Le client peut ainsi se retrouver un peu perdu face à un choix aussi large, c’est pourquoi des employés sont souvent là pour le conseiller. Certaines enseignes sont d’ailleurs réputées pour la qualité des conseils de leurs vendeurs, capables de proposer des disques en fonction de critères très précis.

La distribution de musique se fait de plus en plus sous format dématérialisé, au détriment du support physique . Cette tendance a plusieurs conséquences :
– Premièrement, la distribution de musique dématérialisée possède un coût de distribution bien moindre que sur support physique. La diminution de cet investissement permet de proposer davantage de références peu connues, moins susceptibles de se vendre. Cela augmente considérablement le nombre de références disponibles .
– Par ailleurs, le contact avec le vendeur disparaît. Le contact à distance étant beaucoup moins spontané, les plates-formes de distribution en ligne n’ont pas jugé utile de proposer des contacts avec des spécialistes pour recommander ou retrouver les disques. Par conséquent, l’organisation et la présentation du service en ligne deviennent primordiales.
– On note également que le contenu audio des morceaux est directement disponible pour la lecture et l’analyse. Cela facilite par exemple la pré-écoute par l’utilisateur avant d’acheter, mais permet également la diffusion de musique par flux (streaming), dans des services intégralement en ligne.

Avec l’augmentation de la taille des bases de données et la disparition du conseiller, les utilisateurs ont donc besoin de données très bien organisées et indexées, afin de trouver facilement ce qu’ils cherchent. En outre, les discothèques numériques personnelles sont parfois très étoffées et il est souhaitable de bénéficier d’une bonne indexation. Heureusement, la version dématérialisée permet de stocker des métadonnées permettant une indexation élaborée, et générées par des humains ou des processus automatiques. Ces derniers exploitent des données externes ou le flux luimême, désormais exploitable directement.

Les tags sont des métadonnées utilisées pour indexer le contenu multimédia. Ce sont des labels sémantiques textuels, décrivant n’importe quel aspect d’un fichier. Ils peuvent servir de mots-clés pour la recherche, ou de critères de similarité. On peut les apposer sur n’importe quel type de données. Ainsi sont-ils utilisés par des services en ligne pour indexer la musique (par exemple sur Last.fm ou MusicBrainz), mais aussi la vidéo (Youtube) et les images (Flickr). Ces étiquettes sont également de plus en plus utilisées sur les réseaux sociaux pour indexer les publications (comme sur Tumblr ou Twitter).

Les tags peuvent également être utilisés pour estimer la similarité entre les morceaux, afin de générer des listes de lecture [MCJT12] ou pour recommander des morceaux. C’est d’ailleurs une similarité par tags qui est utilisée par la radio en ligne Pandora .

L’annotation d’un morceau par des tags peut être effectuée par ceux qui publient le morceau (on parlera alors de tags éditoriaux), ou par les utilisateurs du service (tags sociaux). Les tags éditoriaux sont plutôt coûteux en temps et en argent car ils nécessitent un investissement humain de la part de la maison de disques ou du distributeur. Ils sont donc en général peu nombreux mais fiables et bien structurés, c’est à dire que le vocabulaire des tags est cohérent, logique et aisément interprétable. Les tags sociaux, en revanche, sont construits par une communauté d’utilisateurs et leur exploitation est donc moins coûteuse que la construction de tags éditoriaux. Mais ils sont moins fiables et souvent mal structurés, puisque le vocabulaire est libre.

Une troisième option est l’association automatique des tags par un système informatique. Ce procédé est favorisé par la disponibilité immédiate du signal audio de tous les morceaux, qui peut être associé à d’autres sources de données. Le tagging automatique constitue un bon compromis entre les tags éditoriaux et les tags sociaux. En effet, tout en restant modérément coûteux, ces tags peuvent s’avérer raisonnablement fiables, leur vocabulaire est aisément structurable, et le problème du « démarrage à froid » est inexistant.

Le tagging automatique fait en général appel à des techniques d’apprentissage pour la classification. C’est à dire que le système, en analysant un grand nombre d’exemples, apprendra lui-même à distinguer les morceaux sur lesquels un tag donné s’applique.

Un système classique de tagging automatique . On considère ici un tag à la fois, et le but est d’apprendre à classifier les morceaux en deux catégories : ceux sur lesquels le tag s’applique, et ceux sur lesquels il est inapproprié. La procédure comporte deux étapes :

– une étape préalable d’apprentissage, dont le but est de construire, d’après de nombreux exemples, une règle de décision sur les morceaux ;
– puis le tagging proprement dit, où cette règle peut être utilisée sur n’importe quel nouveau morceau pour décider si le tag s’applique. Pour commencer, l’apprentissage consiste donc à analyser un grand nombre d’exemples pour apprendre à classifier de nouveaux morceaux. Il nécessite deux jeux de données connectés :
– un ensemble de morceaux de musique, représentés par leur signal audio et/ou des données provenant de services en ligne ;
– des annotations fiables, indiquant quels morceaux sont associés au tag considéré. L’apprentissage commence par l’extraction, à partir des signaux d’entraînement, d’informations et de caractéristiques supposées pertinentes. On obtient alors un ensemble de descripteurs, généralement numériques, rassemblés dans des vecteurs xi . Chacun de ces vecteurs possède une valeur d’annotation associée yi , indiquant si le tag s’applique ou non sur le morceau correspondant. Puis une technique d’apprentissage statistique va utiliser les xi et les yi pour construire une règle de décision binaire h(x) ∈ {−1, 1}.

Table des matières

1. Introduction
1.1. Indexation audio et tags
1.1.1. La nécessité d’une indexation de qualité
1.1.2. Les tags : des étiquettes sémantiques très répandues
1.2. Apprentissage automatique pour le tagging
1.3. Différents niveaux d’abstraction
1.4. Problématiques
1.5. Résumé des contributions
1.6. Structure du document
2. Classification pour le tagging automatique
2.1. Introduction
2.2. Représentation des morceaux
2.2.1. Descriptions du signal
2.2.2. Données sociales et contextuelles
2.2.3. Le problème de la représentation des variations temporelles
2.3. L’apprentissage automatique des tags
2.3.1. Classification multi-labels
2.3.2. Algorithmes d’apprentissage
2.4. Fusion d’informations hétérogènes
2.5. Données pour le tagging automatique
2.5.1. Récolte des annotations
2.5.2. Choix d’une base de données
2.6. Évaluation
2.6.1. Cadre d’évaluation pour la classification
2.6.2. Validité statistique des résultats
2.7. Conclusion
3. Boosting d’arbres de décision : un cadre performant et flexible
3.1. Introduction
3.2. Le boosting : une classe de méta-classifieurs
3.2.1. Un méta-classifieur itératif
3.2.2. Un modèle flexible
3.3. Le cas particulier des arbres de décision
3.3.1. Définition et construction
3.3.2. Comportement des arbres boostés
3.4. Adaptation à plusieurs fonctions de coût
3.5. Le boosting pour la fusion de classifieurs
3.6. Gestion des descripteurs manquants
3.6.1. L’algorithme Ada-ABS
3.6.2. Relation avec Adaboost
3.7. Conclusion
4. Conclusion