Systèmes de recommandation et de recherche de l’information

Les problèmes de recherche d’information se sont posés à chaque fois que l’être humain fut confronté à de grands volumes de données. Ainsi, au cours de l’Antiquité, dans la bibliothèque d’Alexandrie, les 500 000 à 800 000 volumes étaient étiquetés, puis rangés par thèmes, et finalement ordonnés par auteurs [157]. En informatique, cette bataille pour retrouver les informations aboutit à une structuration en deux principaux domaines. Il s’agit, tout d’abord, de la recherche à proprement parler qui, à partir d’une requête q – généralement à mots clés, mais pas uniquement – et d’une fonction de score s, s’emploiera à retrouver chaque document d satisfaisant q (i.e. s(q, d) > 0). Ces documents sont généralement présentés à l’utilisateur triés par score décroissant [108, 141, 170]. C’est aussi ce que l’on appelle le « problème de la bibliothèque ».

En second lieu, la recommandation (cf. Définition 1) permet de retourner automatiquement (i.e. sans soumission de requête) des contenus pertinents à l’utilisateur.

Définition 1 (Recommandation) En exploitant l’ensemble des objets it ∈ I d’une plateforme et les profils des utilisateurs, il s’agit de leur présenter automatiquement un sousensemble de I susceptible de les intéresser par l’application de techniques spécifiques, dites de recommandation. On appelle liste de recommandations ce sous-ensemble qui est retourné à l’utilisateur.

Deux étapes sont nécessaires à la réalisation d’une recommandation. Il s’agit,

Systèmes de recommandation et de recherche de l’information

tout d’abord, de la prédiction – ou filtrage –, qui correspond à la capacité du système à prédire la satisfaction d’un utilisateur par rapport à un produit. Deux approches principales sont ici confrontées :
1. Le filtrage collaboratif : il s’appuie sur l’idée qu’une recommandation sera de meilleure qualité si elle provient d’une personne de confiance. Ces méthodes exploitent généralement une matrice « Users × Items », notée S, qui associe à chaque utilisateur les notes qu’il a déjà données à certains objets (e.g. l’utilisateur u a mis la note de 5/5 à l’article Phenotyping…., ou 0/1, si l’utilisateur a consulté ou partagé un contenu ou non). Le but devient alors, en exploitant la matrice S, de prédire le comportement de u (i.e. les notes qu’il attribuerait) pour des objets qu’il n’a pas encore évalués, en exploitant les notes soumises par des utilisateurs qui ont eu le même comportement par le passé.
2. Le filtrage basé sur les contenus : une seconde technique de recommandation s’appuie sur le contenu des objets. Il s’agit alors de recommander à un utilisateur u les objets les plus similaires à ceux qu’il a déjà noté (e.g. u a partagé des observations de plantes de la famille asteraceae : il lui en sera donc recommandé d’autres de cette même famille).

La deuxième étape, qui suit celle de prédiction, est la recommandation en soi qui est l’opération permettant de retourner à un utilisateur donné les meilleures prédictions qui le concernent. Nous exploitons dans ce travail la notion de « recherche et recommandation » ou de « recherche de recommandations ». Cette dernière est définie ci-après.

Définition 2 (Recherche de recommandations). Étant donné une requête à mots clés q, un utilisateur u et l’ensemble des objets I, il s’agit de retourner à u des résultats Rq ⊂ I pertinents étant donné q, mais aussi étant donné le profil de u, par l’application de techniques issues des systèmes de recommandation.

D’autres solutions découlent des deux points précédents, comme le filtrage hybride, combinaison des approches décrites. Il est ainsi possible de définir les profils des utilisateurs à partir du contenu des objets (e.g. contenu textuel) qu’ils partagent, et de réaliser le processus de recommandation de manière collaborative, par exemple : en botanique, cela reviendrait à recommander des observations provenant d’utilisateurs ayant observé des plantes au sein d’une même région géographique ou des mêmes familles que celles de l’utilisateur courant. Les systèmes de recommandation souffrent malheureusement de deux principales limitations [2, 16, 176] :

1. Diversification : les recommandations faites à chaque utilisateur u ont tendance à être trop redondantes. Elles ont souvent un contenu très proches les une des autres. Ainsi, un utilisateur dont le profil indique, par exemple, qu’il partage des données de phénotypage traitant de la plante arabidopsis se verra recommander des objets similaires, soit un ensemble d’objets traitant tous de cette même plante et n’aura aucune ouverture. La Figure 2.1 illustre bien ce problème ; la première colonne, non diversifiée, regroupe un ensemble d’observations très similaires, correspondants au profil de l’utilisateur (i.e. marguerites). Les recommandations font également très souvent référence à des objets déjà populaires, car ils sont tout simplement les plus présents dans la matrice « Users × Items ». Yu et al. [176] ont montré que sur Delicious, au moment de la primaire démocrate de 2008, le thème élection ne permettait de retrouver que des liens relatifs à Barack Obama, qui en plus d’être très proches en termes de contenus étaient également les plus populaires sur la plateforme. En botanique, le problème est le même. La Figure 1.2, en page 3, présente la distribution des observations qu’il peut y avoir dans l’application Pl@ntNet. On observe que très peu de plantes sont très populaires (e.g. marguerites, roses) ; elles représenteront donc la majorité des recommandations. Les techniques de diversification permettent cependant de limiter ce problème de redondance en introduisant une notion de distance entre les objets recommandés : étant donné une liste de résultats R à recommander à l’utilisateur u, un objet (i.e. item) it ∈ R doit être pertinent pour u mais également distant des autres objets présents dans R .

2. Sérendipité : les recommandations faites aux utilisateurs sont généralement très proches de ce que l’utilisateur a déjà évalué ou vu, ce qui risque de rendre la plateforme ennuyante [2]. En effet, puisque le profil de l’utilisateur courant u est utilisé pour produire les recommandations, que ce soit les méthodes collaboratives ou basées sur les contenus, elles recommanderont des contenus provenant soit d’utilisateurs très similaires à u (i.e. qui sont donc associés à des objets très proches de ceux partagés par u), soit directement très similaires aux contenus partagés ou évalués par u. La Figure 2.1, encore une fois, illustre bien ce problème ; la première colonne ne contient que des observations très proches du profil de l’utilisateur (i.e. marguerites). Les techniques évoquées ici sont dites de sérendipité : l’objectif est d’introduire de la distance entre les objets déjà évalués par l’utilisateur et ceux retournés par le moteur de recommandation.

Table des matières

1 Introduction
1.1 Motivations et cas d’application
1.2 Problématiques
1.3 Aperçu de l’état de l’art
1.4 Contributions
1.5 Contexte de la thèse
1.6 Organisation de la thèse
2 État de l’art
2.1 Systèmes de recommandation et de recherche de l’information
2.1.1 Présentation et définitions
2.1.2 Modèles de recommandation ou prédiction
2.1.3 Algorithmes de recherche et de recommandation
2.1.4 Diversification et sérendipité
2.2 Systèmes de gestion de données distribués
2.2.1 Présentation et définitions
2.2.2 Catégories de réseaux P2P
2.2.3 Techniques de réplication
2.2.4 Bilan des systèmes de gestion de données distribués
2.3 Systèmes distribués de recherche et de recommandation
2.3.1 Systèmes P2P pour la recherche d’information
2.3.2 Systèmes P2P de prédiction
2.3.3 Systèmes multisites de recherche d’information
2.4 Conclusion et Discussion
2.4.1 Modèle de recherche et recommandation
2.4.2 Distribution des données
2.4.3 Conclusion
3 Diversification des profils pour la recherche et la recommandation
3.1 Introduction
3.2 Concepts de base et définition du problème
3.3 Modèle de score
3.3.1 Diversification probabiliste .
3.3.2 Fonction de score ProfDiv
3.4 Calcul des résultats divers
3.4.1 Algorithme top-k
3.4.2 Diversification des profils
3.4.3 Retours utilisateurs pour adapter la diversité
3.5 Évaluation expérimentale
3.5.1 Mise en place des expériences
3.5.2 Résultats expérimentaux
3.6 Travaux connexes
3.7 Conclusion et perspectives de recherche
4 Techniques d’optimisation dans le calcul d’un top-k divers
4.1 Introduction
4.2 Concepts de base et définition du problème
4.3 Optimisations
4.3.1 Simplification du score de diversification
4.3.2 Seuil raffiné
4.3.3 Limiter la taille de la liste des candidats
4.3.4 Indexation diversifiée
4.3.5 Indexation diversifiée adaptative
4.4 Évaluation expérimentale
4.4.1 Mise en place des expériences
4.4.2 Résultats expérimentaux
4.5 Travaux connexes
4.6 Conclusion
5 Conclusion