Impact des liens hypertextes sur la précision en recherche d’information

La Recherche d’Information (RI), née en 1950, s’attache à définir des modèles et des systèmes dont le but est de faciliter l’accès à un ensemble de documents sous forme électronique (corpus de documents), afin de permettre à des utilisateurs de retrouver les documents dont le contenu répond à leur besoin d’information. La RI est donc centrée sur la notion de pertinence qui est définie par le degré de corrélation entre la requête utilisateur et les réponses retrouvées. Les modèles de RI sont construits autour du triplet document, besoin d’information et fonction de correspondance. Ces modèles constituent encore aujourd’hui la base sur laquelle sont développés les systèmes de recherche d’information (SRI), dont les moteurs de recherche sur le Web. Ainsi, un SRI est un système qui indexe un corpus de document et qui évalue un ensemble de documents pertinents en réponse à une requête formulée par un utilisateur. Les systèmes de recherche d’information sont composés essentiellement de deux modules : un module d’indexation et un module d’interrogation. Le module d’indexation construit des abstractions des contenus de documents appelées index.Le module d’interrogation construit des abstractions des besoins d’information utilisateurs appelées requêtes et les compare à l’index grâce à une fonction de correspondance, laquelle permet de calculer une pertinence entre la requête et l’index. Cette fonction de correspondance est un composant très important dans tout SRI. Dans le cas de la recherche d’information sur le Web, son importance devient critique vu la taille du Web, qui atteint des milliards de documents. Il est donc impératif d’avoir de bonnes fonctions de correspondance afin de mieux répondre aux besoins d’information utilisateurs exprimés à travers les requêtes.

La qualité d’un système doit être mesurée en comparant les réponses du système avec les réponses idéales que l’utilisateur espère recevoir. Plus les réponses du système correspondent à celles que l’utilisateur espère, meilleur est le système. La démarche de validation en recherche d’information repose sur l’évaluation expérimentale des performances des modèles ou des systèmes proposés. Cette évaluation peut porter sur plusieurs critères : le temps de réponse, la pertinence, la qualité et la présentation des résultats, etc. Le critère le plus important est celui qui mesure la capacité du système à satisfaire le besoin d’information d’un utilisateur, c’est à dire la pertinence qui est une une notion complexe. Deux facteurs permettent d’évaluer ce critère. Le premier est le rappel, il mesure la capacité du système à sélectionner tous les documents pertinents. Le second est la précision, il mesure la capacité du système à ne sélectionner que les documents pertinents ou à rejeter tous les documents non pertinents. Les mesures de précision et de rappel sont très utilisées sur des corpus textuels lorsqu’on connaît l’ensemble des éléments du corpus analysé. Cependant, ces mesures sont difficilement applicables dans le cas d’un moteur de recherche car il est difficile d’avoir une idée précise de l’ensemble des documents visibles sur le Web.

Au fur et à mesure de l’évolution du domaine de la recherche d’information, d’autres méthodes standard de mesure de qualité telle que la précision moyenne MAP (« Mean Average Precision »), la précision à X documents retrouvés ont été mises au point afin de pouvoir comparer aisément des algorithmes différents de RI. Les mesures d’évaluation basées sur la notion de précision et de rappel comptent parmi les plus anciennes du domaine de la RI. Par definition, la précision est le rapport du nombre de documents pertinents retrouvés sur le nombre total de documents retrouvés ; alors que le rappel est le rapport du nombre de documents pertinents retrouvés sur le nombre total de documents pertinents. Considérons un exemple de besoin d’information et son ensemble P de documents pertinents. Soit | P | le nombre de documents de cet ensemble. Supposons une stratégie donnée de recherche d’information qui traite ce besoin d’information et produit un ensemble de réponses R. soit | R | le nombre de documents de cet ensemble. De plus, soit | PR | le nombre de documents de l’intersection des deux ensembles P et R. PR est composé de documents pertinents au besoin d’information et retrouvés par la stratégie de recherche.

Avec le développement du Web, la quantité d’information indexée et accessible aux utilisateurs ne cesse de croître de manière exponentielle. Comme indication, une étude, menée conjointement par deux chercheurs des universités de Pise (Italie) et de l’Iowa (Etats-Unis) [GS05], donne une taille approximative de 11, 5 milliards de documents pour le Web « indexable » (ou « visible ») en janvier 2005. L’étude tente d’indiquer également le taux de couverture réel de chaque moteur de recherche. Google, avec un index effectif de 8 milliards de pages, est en tête devant Yahoo ! (6, 6), Ask Jeeves (5, 3) et MSN (5, 1 milliards). Toujours selon cette étude, et en tenant compte du taux de recouvrement entre les différents outils, 9, 4 milliards de pages (sur les 11, 5 au total) seraient « accessibles » en utilisant les moteurs de recherche. Bien sûr, ces informations ne tiennent pas compte du « Web invisible » dont la taille n’est pas mesurable. Ainsi, la RI doit faire face à de nouveaux défis d’accès à l’information, à savoir retrouver une information dans un espace diversifié et de taille considérable. Il est donc nécessaire d’avoir des outils performants pour une recherche efficace et effective. Le but d’un système de recherche d’information performant est donc d’arriver à afficher dans les dix à vingt premières réponses les documents répondant le mieux à la requête posée par l’utilisateur.

Dans la recherche d’information, obtenir une liste, la plus exhaustive possible, des sources répondant à une requête est nécessaire, mais insuffisant dès lors que le nombre de réponses dépasse la centaine. Il devient important de pouvoir discriminer, classer et évaluer tous ces résultats. L’utilisateur a besoin d’un ordre de lecture de toutes ces pages. Mais il peut aussi éprouver l’envie d’avoir une idée sur les différents thèmes abordés dans ces documents pour l’aider à mieux comprendre l’intégralité de l’information obtenue. Le principal outil d’aide proposé par les systèmes de recherche d’information est le classement des résultats, selon un indicateur souvent nommé « indice de pertinence ».

Dans la RI traditionnelle, la pertinence d’un document par rapport à la requête utilisateur réside dans son contenu seul. Par conséquent, les documents répondant à une requête utilisateur sont classés selon un degré de pertinence estimé pour chaque document et calculé en fonction de son contenu textuel. Ce degré de pertinence repose à la fois sur la fréquence d’apparition des termes de la requête dans la page et sur la localisation des termes (par exemple assigner des poids plus importants pour les termes qui apparaissent dans le titre, les metadonnées et au début de la page). Cet indicateur est utilisé systématiquement par les systèmes de recherche d’information traditionnels, de façon à classer le résultat d’une recherche par ordre d’intérêt décroissant. Les utilisateurs de ces systèmes ont pu vérifier, par expérience, du peu d’intérêt qu’a ce classement[GCH+01a]. Il n’est pas rare de retrouver, en tête de liste, des pages Web qui ne sont pas du tout en adéquation avec la requête. En effet, le classement par pertinence a été altéré par le besoin par les auteurs de rendre leurs sites plus visibles. Par conséquent, les auteurs de sites se sont mis à étoffer le contenu de leurs documents à l’aide de techniques plus ou moins honnêtes, par exemple en surchargeant un document par des mots non visibles à l’utilisateur et indexés par les moteurs de recherche (par exemple ajout de mot-clés dans la balise). Très souvent, au lieu de ne renvoyer que les documents pertinents, l’utilisateur se retrouvait alors face à des documents dont le contenu était à but commercial ou répondait à des critères de visibilité au lieu d’être réellement lié à sa requête.

Table des matières

1 Introduction
1.1 Contexte
1.2 Problématique
1.3 Objectifs et contributions de la thèse
1.4 Plan de la thèse
2 Modèles d’analyse de liens en recherche d’information
2.1 Introduction
2.2 Propagation de popularité
2.2.1 Propagation de popularité sur l’ensemble d’une collection
2.2.2 Propagation de popularité sur les résultats d’une requête
2.3 Propagation de pertinence
2.3.1 Propagation d’une fraction du score de pertinence
2.3.2 Modèle général de propagation de pertinence
2.3.3 Propagation de pertinence probabiliste
2.3.4 Discussion sur les modèles de propagation de pertinence
2.4 Analyse des liens au niveau blocs thématiques
2.4.1 Segmentation linéaire du texte brut par cohésion lexicale
2.4.2 Segmentation structurelle de pages Web
2.4.3 Utilisation de liens au niveau blocs
2.5 Conclusion
3 Modélisation du nouveau système
3.1 Introduction
3.2 Modèle de propagation de pertinence
3.2.1 Représentation des documents
3.2.2 Représentation des requêtes
3.2.3 Indexation
3.2.4 Fonction de correspondance
3.3 Architecture du système en trois couches
3.3.1 Niveau page
3.3.2 Niveau site
3.3.3 Niveau bloc
3.4 Algorithme de segmentation
3.4.1 Algorithmes génétiques
3.4.2 Principe de notre algorithme
3.4.3 Processus de segmentation thématique à critères visuels
3.4.4 Les inconvénients de la méthode de segmentation
3.4.5 Complexité de l’algorithme de segmentation
3.5 Conclusion
4 Expérimentations sur les collections TREC et GOV
4.1 Métriques d’évaluation
4.2 Expérimentations au niveau page
4.3 Expérimentations au niveau bloc thématique
4.4 Expérimentations des liens au niveau bloc
5 Conclusion