Architecture générale

Architecture générale

Nous présentons maintenant l’implémentation et l’évaluation de l’approche que nous avons proposée dans les parties précédentes. De manière générale, le processus que nous cherchons à mettre en œuvre peut être vu comme un apprentissage automatique [Mitchell, 1997] et comporte donc deux phases distinctes. La première étape est le paramétrage du modèle à partir de données pour lesquelles les entités nommées sont connues, soit l’extrac- tion des règles d’annotation et l’estimation des paramètres d’un modèle numérique utilisant ces règles, comme décrits en section 6.3. La seconde étape utilise ces paramètres au sein d’un système pour réaliser une prédiction, dans notre cas une annotation, de données pour lesquelles nous cherchons à reconnaître les entités nommées. En faisant abstraction des prétraitements, ce principe est résumé en ﬁgure 7.1. Quelle que soit l’étape considérée, nous réalisons les mêmes enrichissements sur les données à l’aide d’analyses préalables (c.f. 5.2). Comme le système doit être en mesure de traiter de la parole spontanée, sans connaissance a priori du type de texte (modalité, thème) fourni en entrée, nous sommes contraints de mettre en œuvre des traitements ﬁables, robustes et peu profonds : tokenisation, lemmatisation, catégorisation en morpho- syntaxe, traits sémantiques. De manière schématique, nous concevons notre système selon une architecture analogue aux chaînes de traitements, comme l’illustre la ﬁgure 7.2 :

Nous disposons d’outils libres qui réalisent eﬃcacement les prétraitements linguistiques, notamment TreeTagger [Schmid, 1994]. Notre travail portera donc essentiellement sur la bonne exploitation des ressources lexicales et sur l’implémentation du module mXS. Si le procédé présenté par la ﬁgure 7.2 est le même pour le paramétrage ou pour la prédiction, les données en entrée, en sortie et les fonctionnalités de mXS activées sont : Ainsi, les prétraitements linguistiques et l’utilisation de ressources lexicales fonctionnentde manière identique, modulo les annotations en entités nommées, qui sont présentes lors du paramétrage mais évidemment absentes lors de la prédiction. L’enrichissement des don- nées est réalisé à l’aide de connaissances (linguistiques, lexicales) que l’on suppose utiles pour analyser le langage et en particulier pour reconnaître les entités nommées. Ces connais- sances mises à disposition doivent ainsi permettre à mXS de réaliser son paramétrage lors de l’exploration des données de manière à ce que que la phase de prédiction reste performante sur d’autres données. Pour réaliser les prétraitements linguistiques, après essai de divers outils disponibles (MElt, Macaon, FRMG), nous utilisons TreeTagger [Schmid, 1994] qui a l’avantage d’être couramment utilisé par la communauté TAL et d’être relativement robuste aux divers types de textes fournis en entrée. Par ailleurs, cet outil réalise conjointement la tokenisation, la lemmatisation et l’étiquetage morpho-syntaxique. Sur l’énoncé ‘Je suis au Centre Georges Pompidou.’, TreeTagger nous fournit une sortie comme l’indique le tableau 7.1.

A partir d’une séquence de caractères, TreeTagger crée une ligne par token détecté. Chaque ligne est formée de trois colonnes, séparées par des tabulations. La première contient le token dans sa forme originale, la seconde sa catégorisation morpho-syntaxique, la dernière son lemme. Nous utilisons ces informations pour segmenter le texte en tokens puis pour procéder aux premiers enrichissements. Remarquons à ce sujet que le token ‘suis’, volontairement ambigu, donne lieu à deux hypothèses de lemmatisation séparées par la barre verticale ‘|’, cette ambiguïté est représentée à l’aide de la disjonction ex- clusive. Par ailleurs, l’utilisation des deux points ‘:’ correspond à une sous-catégorisation en morpho-syntaxe, dont nous pouvons tenir compte. Tel quel, nous obtiendrions l’énoncé enrichi suivant : Les catégories morpho-syntaxiques de TreeTagger sont résumées dans le tableau 7.2, auxquelles nous adjoignons pour information les proportions relevées au sein du corpus Etape (c.f. 7.3.3). Cependant, cet outil n’ayant pas vocation à traiter les entités nommées en particulier, nous procédons à quelques adaptations aﬁn de nous focaliser sur les informa- tions que nous supposons déterminantes pour reconnaître les entités nommées et de ne pas tenir compte de celles qui nous paraissent moins utiles. En voici la description détaillée :Ces diverses adaptations ont été apportées au fur et à mesure de l’implémentation du système et ont été testées aﬁn d’améliorer la reconnaissance des entités nommées (lorsque des informations sont ajoutées) ou de réduire la richesse des données à explorer (lorsque des informations sont supprimées). Nous notons cependant que la plupart d’entre elles ne modiﬁent pas de manière décisive les performances du système, sauf celles concernant lesCes enrichissements nous fournissent les premiers niveaux de généralisation disponibles lors de l’exploration des données et la recherche de règles d’annotation. Ils reposent sur des analyses de nature linguistique et ne portent pas sur une catégorisation sémantique de tokens ou d’expressions composées. Cependant, comme ils s’appuient sur la morphologie des tokens (morpho-syntaxe, nombres, suﬃxes), ces informations ont pour objectif d’apporter une certaine robustesse au système, en particulier en ce qui concerne la reconnaissance d’expressions qui n’ont jamais été observées telles quelles lors de l’exploration de données et qui ne seraient pas présentes dans les ressources lexicales.