Recherche des objets complexes dans le Web structuré

Nous assistons aujourd’hui à un développement continu et rapide du Web Structuré, dans lequel les documents ne sont plus composés que du texte non structuré mais sont centrés sur les données (data-centric), présentant des contenus structurés et des objets complexes. Les plates-formes de recherche d’information (IR) actuelles s’inspirent des procédures et des techniques utilisées dans les systèmes de recherche documentaire. Le passage à des contenus structurés, avec des schémas prédéfinis, nécessite des techniques d’interrogation plus précises et plus riches, et soulève de nouveaux défis auxquels nous essayons de fournir des réponses. En effet, la recherche par mots-clés n’est pas adaptée pour interroger le Web structuré. De nouveaux moyens de recherche sur le Web sont donc nécessaires, pour permettre à l’utilisateur de cibler des données complexes avec une sémantique précise.

Nous étudions dans cette thèse les défis théoriques et pratiques qui sont soulevés dans la recherche d’objets complexes dans le Web. Nous proposons ObjectRunner, un système pour l’extraction et l’interrogation de données du Web structuré, qui exploite la redondance du Web et la régularité des structures des pages pour mieux déterminer les données à extraire. Ce système fournit un résultat le plus complet possible à des requêtes plus riches que celles constituées de simples mots-clés. Nous proposons une approche d’interrogation en deux étapes, qui permet à l’utilisateur de décrire de façon souple et précise le schéma des objets recherchés. Ensuite, pour chaque source Web (ensemble de pages HTML), le schéma cible et la structure des pages sont analysés pour : (1) sélectionner les sources répondant à la requête de l’utilisateur, (2) retrouver les données pouvant répondre à sa requête, et (3) les extraire. La solution proposée par notre système est générique, dans le sens où elle n’est pas spécifique à un domaine d’application ou un type d’objet en particulier. Les résultats expérimentaux que nous avons obtenus montrent une amélioration significative de la qualité et la précision des données extraites, par rapport aux approches existantes dans la littérature.

La popularité, le développement du Web et sa large utilisation dans différents domaines font que de nouveaux besoins apparaissent, tels que la recherche d’entités complexes (ou objets complexes). Dans ce contexte, une requête utilisateur peut cibler des entités complexes telles qu’un événement sportif ou culturel, un produit, une œuvre d’art, une vente d’appartement, etc. L’utilisateur s’attend à avoir des résultats bien précis, qui répondent à ses attentes en terme de structure et de sémantique des objets recherchés. Cependant, les moteurs de recherche actuels ne permettent d’obtenir que des pages en utilisant des méthodes traditionnelles de recherche par des mots-clés. Ces méthodes sont sémantiquement pauvres et limitées, elles ne permettent pas une recherche précise des objets et ne tiennent pas compte de la sémantique associée à la requête de l’utilisateur. Prenons les exemples de requêtes suivantes qui concernent la recherche d’entités complexes :

– Scénario 1. L’utilisateur recherche un événement culturel : Concert de Coldplay à Paris le 4 février 2012. La requête fait référence à un objet précis constitué de trois entités élémentaires : une date (4 février 2012), un lieu (Paris) et un nom de l’artiste (Coldplay). Une recherche par mots-clés produirait une liste de pages contenant tout (ou une partie) des mots-clés : concert, Coldplay, Paris, 4 février 2012.
– Scénario 2. L’utilisateur recherche le livre The Alchemist de l’auteur Paolo Coelho. Cette requête fait référence à un objet constitué de deux entités élémentaires : un titre du livre et un nom de l’auteur. Une recherche par mots-clés produirait une liste de pages contenant les entités : The Alchemist et Paolo Coelho.

De façon générale, l’objectif de ces requêtes n’est plus de rechercher des pages par des mots-clés mais de rechercher des objets structurés – un concert, un livre – de façon automatique et à l’aide de méthodes adaptées.

Le même objet livre(titre The Alchemist, auteur Paolo Coelho ) peut se trouver également dans des pages Web structurées . Le Web structuré est de plus en plus répondu et le nombre de sources structurées augmente très rapidement. Une page du Web structuré présente des structures plus ou moins régulières. Ces pages sont typiquement composées de blocs (segments), organisés hiérarchiquement et présentés selon une disposition qui indique des liens possibles entre leurs contenus. Les blocs sémantiquement liés sont disposés de manière à illustrer leurs relations. De telles propriétés peuvent fournir des informations essentielles pour analyser les pages Web et extraire des données complexes.

L’exploitation de telles sources reste difficile pour répondre à des requêtes complexes, sans connaissances sur le schéma des données. De plus, d’une source à l’autre les mêmes objets peuvent être structurés différemment. Par conséquent, une étape préliminaire d’extraction d’information est nécessaire pour transformer ces sources en des collections de données (objets) structurées, avant de passer à l’étape d’interrogation. À cet effet, nous avons besoin de techniques spécifiques pour capter les structures des données contenues dans chaque source et les extraire.

La tâche d’extraction de données à partir d’une source Web structurée est réalisée par ce qu’on appelle dans la littérature un wrapper (extracteur). Chaque wrapper applique un ensemble de règles d’extraction qui s’appuient sur la structure des pages HTML pour repérer les données et construire un modèle de pages commun (template). Ce modèle va permettre d’extraire les informations contenues dans ces pages.

C’est dans ce contexte (extraction au préalable de l’interrogation) que s’inscrit cette thèse. L’objectif était d’étudier les problèmes fondamentaux soulevés par l’extraction d’objets à partir du Web et de proposer des solutions pratiques, qui peuvent passer à l’échelle, et qui permettent d’améliorer la qualité des résultats de recherche que l’utilisateur peut obtenir.

Table des matières

1 Introduction
1.1 Contexte et Problématique
1.2 Contributions de la thèse
1.3 Organisation du manuscrit
2 Contexte et travaux connexes
2.1 Extraction d’information
2.1.1 Entités, relations, type d’extraction
2.1.2 Annotation sémantique
2.1.3 Extraction d’information à partir du Web textuel
2.1.4 Extraction d’information à partir du Web structuré
2.1.4.1 Sources Web structurées (Encodage)
2.1.4.2 Extracteur Web (Décodage)
2.1.4.3 Types de pages Web structurées
2.1.5 Systèmes de génération de wrappers
2.1.5.1 Alignement de plusieurs records
2.1.5.2 Inférence de grammaires
2.1.5.3 Fréquence d’apparition des tokens
2.1.5.4 Caractéristiques visuelles
2.2 Découverte et sélection de sources
2.3 Synthèse et positionnement
3 Préliminaires et définitions des problèmes
3.1 Définitions, notations
3.1.1 Description d’information structurée
3.1.1.1 Types, SODs
3.1.1.2 Instances d’objets
3.2 Pré-traitement de pages Web
3.3 Définition des problèmes
3.3.1 Le problème de la selection de sources
3.3.2 Le problème d’extraction d’objets
3.4 Les avantages d’une interrogation à deux étapes
3.5 Conclusion
4 Conclusion