Application à l’indexation multimédia par le contenu

Application à l’indexation multimédia par le contenu

Dans les chapitres précédents, nous avons à dessein considéré les données d’entrées comme une matrice d’échantillons quelconque. Notamment, nous n’avons posé aucune hypothèse de structure sur les vecteurs d’entrée et formulé des résultats théoriques généraux. Dans ce chapitre, nous étudions le comportement des méthodes présentées dans les chapitres 2,3 et 4 sur des problèmes concrets de recherche par le contenu (Content-Based Retrieval, CBR). La recherche par le contenu étend les concepts des moteurs de recherches textuels aux docu- ments non textuels (images [164], vidéos [126], son [50], modèles 3D [232], etc). Si la maturité et les performance des moteurs de recherche textuels permettent aujourd’hui à des milliards d’utilisateurs d’accéder à des documents textuels au sein de collections extrêmement larges et variées, la recherche de contenus multimédias représente quant à elle un déﬁ scientiﬁque de pre- mier plan. En effet, une part grandissante des documents disponibles sur les réseaux comprend des données non textuelles pour lesquelles on ne dispose d’aucune métadonnée structurée asso- ciée. Ces documents requièrent alors des méthodes de recherche spéciﬁques faisant intervenir directement leur contenu visuel, sonore, etc. Contrairement aux méthodes textuelles, aucune mé- thode de recherche par le contenu actuelle ne fournit une précision de recherche sufﬁsante à des coûts de calcul et de stockage acceptables pour permettre une recherche à l’échelle du web. Par exemple, en recherche d’images, les techniques les plus performantes restent limitées à quelques millions de documents quand on en recense plusieurs dizaines de milliards sur l’Internet.

Pour comparer le contenu de deux documents, un système de recherche par le contenu en ex- trait un ensemble de descripteurs, qui isolent des caractéristiques visuelles, auditives, textuelles, etc, à la fois représentatives et discriminantes. Dans l’idéal, on cherche ainsi à ce que ces des- cripteurs soient invariants aux perturbations qui empêchent l’isolation du « concept » recherché (changement de point de vue, de fond, de conditions d’éclairage, etc). Les méthodes de des- cription globales extraient un unique vecteur de caractéristiques par document (histogramme de couleurs, décomposition sur une base d’ondelettes, etc). La comparaison entre documents est alors directement réalisée via une certaine métrique vectorielle sur leurs descripteurs (e.g., ). Les méthodes locales produisent pour chaque document un ensemble de descripteurs corres- pondant à des régions spatiales et/ou temporelles locales (on parle de sac de descripteurs). Ces méthodes sont beaucoup plus précises que les méthodes globales, mais elles exigent de com- parer des sacs de descripteurs. Or le coût computationnel élevé de cette comparaison la rend inexploitable lorsque le nombre de documents à comparer est très grand.Les techniques modernes recourent donc à une étape hors-ligne dite d’indexation, par la- quelle chaque sac de descripteurs est converti en un unique vecteur appelé signature. L’ensemble des signatures est stocké sous la forme d’un index. Les documents sont ainsi directement com- parés via une métrique vectorielle sur leur signature. On épargne au passage le coût d’extraction et de stockage des descripteurs qui est effectué une seule fois hors-ligne.Ces dernières années, un nombre croissant de méthodes d’indexation font ainsi appel à des techniques d’apprentissage statistique pour produire des encodeurs de signatures discriminants et invariants aux perturbations [183]. L’espace des descripteurs est modélisé par une densité de probabilité paramétrique (e.g., GMM) ou par catégorisation (e.g., K-means). Les descripteurs projetés sur ce modèle sont compressés via des techniques de réduction de dimension (e.g., PCA). Enﬁn, les signatures de faible dimension obtenues sont classiﬁées de manière supervisée (e.g., par une SVM) lorsque la tâche le requiert.

Les techniques d’indexation par le contenu supposent classiquement que l’ensemble des docu- ments soit stockés en un unique site et traités par une même machine. Les algorithmes d’appren- tissage impliqués peuvent alors être directement exploités sous leur forme centralisée. Malheu- reusement, la quantité d’information multimédia disponible sur les réseaux augmente bien plus rapidement que la capacité de stockage et de calcul des machines individuelles. Typiquement, il faut plusieurs semaines à un cœur de calcul séquentiel équipé d’une centaine de giga-octets de mémoire vive pour traiter un million d’images en saturant sa mémoire. Le nombre de cœurs d’une machine étant limité à une centaine, même une implémentation parallélisée échouera à indexer une collection à l’échelle du web en un temps raisonnable. Aucune méthode centralisée ne permet ainsi d’indexer le ﬂux continu de nouveaux contenus disponibles (e.g., en 2015, 300 heures de vidéo sont mises en ligne chaque minute sur Youtube.