Consolidation endogène de réseaux lexico-sémantiques

A l’ère actuelle, le texte numérique est l’un des moyens principaux de représentation et de transmission de l’information comme en témoigne la dominance de l’écrit, e-mails, textes, weblogs, articles, rapports, corpus, etc. L’explosion de ces ressources numériques textuelles a rendu urgent le développement d’une technologie aidant à gérer et à exploiter l’information obtenue.

Le Traitement Automatique de la Langue Naturelle (TALN) ayant pour but de donner aux machines la capacité d’interpréter et comprendre le texte, présente de nombreuses approches de traitement sémantique tels que la traduction automatique, l’extraction de mots-clé, l’indexation des textes, l’analyse de texte, l’extraction d’information, le résumé automatique, la génération automatique des textes, etc. Toutes ces approches ont connu un succès indéniable (Chowdhury, 2003). Néanmoins, on constate de plus en plus que de telles approches se livrent à une compréhension très peu profonde (Yvon, 2010).

Afin d’améliorer le niveau de compréhension des approches d’analyse sémantique actuelles, de grandes bases de connaissances sémantiques spécialisées mais aussi généralisées sont nécessaires pour avoir la capacité d’automatiser une compréhension de texte plus profonde.

Plusieurs types de connaissances peuvent être le sujet de recherches mais le plus dur à obtenir, qui est également le plus largement applicable, est le type de connaissances possédé par tout le monde ou plus généralement appelé sens commun. Tandis que dans un contexte quotidien le terme sens commun ou bon sens est considéré comme synonyme de bon jugement, dans les disciplines scientifiques il renvoie aux millions de faits, de connaissances générales et aux conventions possédées par la plupart des personnes : Une tortue respire. Un citron est acide. Si on marche sous la pluie on va être mouillé. Si deux personnes se disputent, ils vont être probablement fâchés après, etc..

Ce type de connaissances, ainsi identifié, couvre une énorme partie des expériences humaines, englobant la connaissance des aspects spatiaux, physiques, sociaux, temporels et psychologiques de la vie quotidienne. En admettant que chaque personne possède cette connaissance, celle-là est typiquement non explicite dans les communications sociales et en particulier dans les textes tant elle semble aller de soi.

Une extraction de relations fines lors d’une analyse d’un texte ainsi qu’une compréhension assez complète de ce dernier, exige une quantité surprenante des connaissances du monde (linguistiques et terminologiques) que seuls les humains possèdent actuellement. Néanmoins, dans le TALN une orientation majeure des efforts de recherche consiste à concrétiser ou expliciter les connaissances implicites précédemment mentionnées et ce sous forme de ressources lexico-sémantiques en les mettant ainsi à la portée des machines (Gala and Zock, 2013). Ces ressources sont de formes et conceptions variées et répondent à différents types d’usages. La constitution de ces ressources est l’une des tâches primordiales en TALN. La plupart des réseaux lexico-sémantiques existants ont été construits manuellement (par exemple WordNet (Miller and Fellbaum, 2007) ). Des outils ont été conçus afin d’en vérifier la validité et la complétude, mais leur mise en œuvre nécessite généralement beaucoup de temps, d’argent et d’efforts.

Les approches automatiques, quant à elles, sont le plus souvent limitées aux co occurrences de termes, et la détermination précise de relations sémantiques entre termes reste délicate. Citons comme exemples EuroWordnet (Vossen, 1998), une version multilingue de WordNet, et WOLF (Sagot and Fiser, 2008), une version française de WordNet, construits automatiquement par croisement de WordNet avec d’autres ressources lexicales. Navigli and Ponzetto (2012) a construit automatiquement BabelNet, un réseau lexical multilingue de grande taille, à partir de co-occurrences de termes dans Wikipédia.

De nouvelles approches, fondées sur l’externalisation ouverte (Lebraty, 2007), apparaissent en TALN, avec en particulier le développement de Amazon Mechanical Turk (Crowston, 2012) ou dans un contexte plus étendu l’émergence de Wikipédia et Wiktionnary. Afin de construire de manière collaborative un réseau lexical (ou n’importe quelle ressource similaire), deux grandes stratégies peuvent être mises en œuvre. La première résulte en un système contributif tel que Wikipédia. Dans la seconde stratégie, les contributions sont faites indirectement au travers de jeux, plus connus sous le nom de Games With A Purpose (GWAP) (von Ahn and Dabbish, 2008).

Quelle que soit la stratégie mise en œuvre, la ressource construite n’est pas exempte d’erreurs qui doivent être corrigées au fur et à mesure de leur découverte. Un grand nombre de relations, pourtant pertinentes, ne sont pas présentes dans le réseau, bien que nécessaires pour une ressource de qualité suffisante pour être utilisée dans diverses applications en TALN, en particulier en analyse sémantique.

Dans cette thèse nous avons pris comme cas d’étude le réseau lexicosémantique JeuxDeMots construit par le biais d’un outil contributif (Diko) et de multiples GWAP en ligne et nous cherchons à détecter les silences d’information et à les combler, détecter le bruit et l’information fausse et les corriger ou les supprimer, ainsi que déceler la polysémie et enrichir les termes en question afin d’éviter dans la mesure du possible l’ambiguïté.

Le lexique d’une langue est un ensemble de lemmes (mots) ou plus précisément d’unités lexicales de cette langue associées à une brève définition ou à son équivalent dans une autre langue pas nécessairement dans un ordre alphabétique. Généralement les lexiques portent sur un domaine précis. Ceux d’un langage de spécialité se présente sous la forme de listes de termes employés dans ce domaine spécialisé (exemple: lexique de terminologie linguistique, de termes d’art, de marine, d’agriculture…).

Exemple de lexique théâtral : (Bouchard, 1878) Les exemples sont extraits du Mariage de Figaro de Beaumarchais:

• Un aparté : réplique qu’un personnage dit à part, pour lui-même, sans que les autres ne l’entendent ; l’aparté est toujours signalé par une didascalie : à part Le Comte, à part .- Ah! voilà mon fripon du billet;
• Une tirade : longue réplique qui peut être narrative par exemple un personnage fait le récit d’événements qui se sont passés;
• La stichomythie : échange très rapide de répliques très courtes (interjections, phrases très concises, etc.) Suzanne – Le cachet, à quoi? La Comtesse – A son brevet Suzanne – Déjà ;
• Le monologue: un personnage seul sur scène dit à voix haute ce qu’il pense ou ce qu’il ressent;
• La didascalie: indication scénique qui relève du paratexte auctorial (vous ne devez pas la lire). Elle est utile pour comprendre les jeux de scènes.

Ces ressources sont destinées à être utilisées par les machines dans les applications de TALN, mais aussi par les humains. Elles doivent être formalisées selon deux critères. Un critère linguistique qui impose que le lexique-grammaire de la langue soit explicitement et clairement exprimé (Leclère et al., 2004). L’autre critère est informatique et exige que l’implémentation permette un requêtage utile tout en étant le plus rapide possible.

Dans ce domaine, un lexique se présente sous forme d’entrées lexicales / unités linguistiques élémentaires s’associant généralement aux notions de mots. Il associe à chaque entrée une clé permettant l’accès à l’ensemble d’informations linguistiques décrivant cette entrée. Il doit permettre à la machine l’accès aux informations associées aux mots, l’ajout / suppression / modification d’entrées, la modification de la structure des entrées…

Table des matières

INTRODUCTION
1 CONNAISSANCES LEXICO-SÉMANTIQUES
1.1 Ressources de connaissances
1.1.1 Lexiques / glossaires / index / vocabulaires
1.1.2 Dictionnaires
1.1.3 Ontologies
1.1.4 Les réseaux lexicaux, lexico-sémantiques
1.2 Acquisition des ressources
1.2.1 Acquisition manuelle
1.2.2 Acquisition (semi-)automatique
1.2.3 Acquisition par externalisation ouverte
2 INFÉRENCE DE RELATIONS SÉMANTIQUES
2.1 Introduction
2.2 La déduction et l’induction
2.2.1 La déduction
2.2.2 L’induction
2.2.3 La réconciliation
2.2.4 Expérimentations
2.3 L’abduction
2.3.1 Principe de fonctionnement
2.3.2 Filtrage et paramétrage
2.3.3 Quelle réconciliation?
2.3.4 Expérimentations
2.4 L’inférence par raffinement
2.4.1 Principe de fonctionnement
2.4.2 Expérimentation
2.5 Conclusion et perspectives
3 ANNOTATION DE RELATIONS
3.1 Annotation de relation : définition, motivation et représentation
3.2 Utilisation des annotations dans le moteur d’inférence
3.3 Expérimentations
3.4 Conclusion et perspectives
4 EXTRACTION DE RÈGLES D’INFÉRENCE
4.1 Principe de fonctionnement
4.1.1 Génération de règles
4.1.2 Traitement post-générateur des règles
4.2 Expérimentations
4.2.1 Expérimentation 1 (Π > 50)
4.2.2 Expérimentations (25 6 Π < 50)
4.2.3 Estimation de la véracité des règles
4.3 Conclusion et perspectives
CONCLUSION