L’analyse automatique des textes grecs

L’analyse automatique des textes grecs

Introduction

Rappelons que l‟objectif de la présente étude est la description morpho-syntaxique et sémantique des adverbes figés et semi-figés en vue de l‟analyse automatique des textes grecs. La méthode que nous appliquons ici repose sur une description linguistique exacte et exhaustive et n‟utilise aucune information statistique. Cette méthode nécessite la construction de grandes bases de données linguistiques, représentées sous un formalisme aisément traitable. Des expériences pratiques ont déjà été tentées pour utiliser les ressources linguistiques à des fins d‟analyse automatique (à savoir : analyse lexicale, morphologique et syntaxique) en corpus de textes écrits. Les méthodes les plus abouties sont celles d‟E. Roche (1993, 1997), de J. Senellart (1999) et de M. Silberztein (1993, 1998), basées sur l‟exploitation des données linguistiques à l‟aide d‟automates et de transducteurs à états finis récursifs. Après un bref exposé du système global de l‟analyse automatique des textes grecs (cf. V, 1.1), nous focaliserons notre recherche sur la tâche préalable de la reconnaissance lexicale automatique des unités lexicales recensées dans cette étude (cf. V, 1.2). Nous insisterons d‟abord sur les problèmes de nature linguistique (i.e. variantes internes, variables, formes discontinues, etc.), propres aux formes adverbiales figées, qui gênent leur identification automatique dans les textes grecs (cf. V, 1.3). Nous aborderons ensuite diverses méthodes informatiques (cf. V, 1.4), et nous signalerons leurs limites lors de leur application à la reconnaissance lexicale automatique des adverbes (semi-)figés grecs (cf. V, 1.5). Pour franchir ces limites nous nous proposerons d‟explorer d‟autres méthodes d‟identification automatique (cf. V, 1.5.4). Enfin, nous donnerons un bref aperçu des problèmes les plus aigus concernant l‟attribution de l‟étiquette « ADV » aux formes (semi-)figées reconnues (cf. V, 1.6). Les observations mises au point ici auront pour but de secourir des études ultérieures portant sur l‟analyse syntaxique automatique des textes grecs. Notons que l‟opération de la reconnaissance lexicale automatique des adverbes (semi-)figés n‟a jamais été effectuée – en tout cas de façon globale et systématique – ni pour le grec moderne ni pour d‟autres langues étrangères. La complexité et l‟hétérogénéité morphosyntaxique de la classe adverbiale ainsi que les problèmes particuliers liés au phénomène du figement rendent ce travail particulièrement ardu.

L’analyse automatique des textes grecs

Pour analyser des textes en langue naturelle, il faut modéliser des phénomènes plus ou moins bien délimités, à savoir des phénomènes typographiques, morphologiques et syntaxiques. L‟analyse syntaxique automatique des textes avec utilisation de ressources linguistiques présuppose l‟analyse (ou reconnaissance) lexicale et morphologique. Le système global de l‟analyse automatique des textes grecs a été exhaustivement décrit par T. Kyriacopoulou (2003), il n‟est donc pas nécessaire d‟y revenir ici en détail. Nous nous contentons seulement de rappeler que « le rôle de l‟analyse lexicale consiste à identifier les unités minimales de traitement, c‟est-à-dire les mots (simples ou composés) du texte. Cette étape s‟appelle couramment étiquetage du texte » (cf. M. Silberztein 1993). L‟analyse morphologique, autrement dit la lemmatisation des mots du texte, « a pour but de ramener les unités lexicales identifiées à leur forme canonique » (cf. M. Silberztein 1993). En grec moderne, l‟identification des mots du texte s‟effectue, notamment pour les mots simples et les noms composés, « par la consultation de dictionnaires électroniques morphologiques » (T. Kyriacopoulou 2003 : 18). Par conséquent, il est important que ces dictionnaires soient d‟une très grande couverture lexicale : tout mot du texte non reconnu par le dictionnaire risque de faire échouer l‟analyse syntaxique. Mais, l‟analyse lexicale conduit à représenter un texte avec un grand nombre d‟ambiguïtés1 , qui sont introduites lors de la consultation des dictionnaires pour chacun de ses mots (cf. A. Anastassiadis-Syméonidis et al. 2000). La non-reconnaissance des mots et les ambiguïtés sont les problèmes majeurs qui gênent l‟analyse syntaxique automatique des textes.

Reconnaissance lexicale des expressions figées lors de l’analyse automatique

Depuis longtemps, on insiste sur la nécessité d‟identifier les expressions figées2 dans les tâches de traitement automatique du langage, mais leur nombre et leur caractère mouvant rendent relativement complexe une identification automatisée. La majorité des systèmes existants ne les prennent pas en compte d‟une façon satisfaisante, « car on manque de méthodes générales pour les reconnaître » (E. Laporte 1988 : 117). Par « reconnaissance lexicale » des expressions figées, ici en l‟occurrence des adverbes figés, nous entendons l‟identification de leurs combinaisons lexicales (tout en tenant compte de leurs contraintes distributionnelles) dans les textes, indépendamment de leur position syntaxique. Il s‟agit donc de localiser dans les textes les structures lexicales, susceptibles d‟avoir un emploi circonstanciel (ou adverbial), sans décrire leur fonction dans les phrases, en particulier « sans mention de leurs contraintes avec les prédicats » (M. Gross 2002 : 22). Bien évidemment, l‟attribution de leur catégorie syntaxique (dans notre cas, de la catégorie « ADV ») dépend forcément du prédicat de la phrase, et n‟est possible, dans la majorité des cas, qu‟au niveau de l‟analyse syntaxique. Nous reviendrons sur ce point plus en détail au §1.6 de ce même chapitre. Les expressions figées sont, par définition, des formes composées3 (ou polylexicales). Pour leur identification dans les textes, les systèmes d‟analyse doivent donc disposer d‟une base de données donnant leur forme in extenso et toutes leurs propriétés. Mais, malgré ce que suggère leur nom, la grande majorité des expressions figées est susceptible de variations quelconques4 (dans ce cas, on les qualifie souvent d‟expressions semi-figées), qui rendent leur reconnaissance dans les textes assez complexe. Ainsi, la plupart de ces expressions comportent un nombre fixe de mots simples et une partie variablePar conséquent, la méthode de la reconnaissance lexicale des expressions figées consiste, dans un premier temps, à identifier dans les textes leur partie figée. Dans ce but, Eric Laporte introduit en 1988 la notion de « zone fixe » d‟une expression figée. Ainsi, dans l‟adverbe semi-figé : Adv=: Prép Ddéf C =: (1) γηα ηελ πιάθα (κνπ+ηεο+ζαο+…) pour la plaque-Afs (à moi-Gmfs+à elle-Gfs+à vous-Gmfp+…) (pour (mon+son+votre+…) plaisir)) la variable symbolise un adjectif possessif simple qui peut prendre plusieurs formes, comme il est montré ci-dessus. Malgré sa variabilité, l‟adjectif possessif peut être identifié dès l‟étiquetage du texte (à condition qu‟il soit enregistré dans le dictionnaire électronique morphologique). C‟est pourquoi nous considèrerons, conformément à la définition précitée, qu‟il fait partie de la « zone fixe » de l‟adverbe, bien qu‟il varie. La « zone fixe » de l‟adverbe est donc l‟ensemble : γηα ηελ πιάθα /pour Poss plaisir. Bien évidemment, la délimitation et reconnaissance de la « zone fixe » présupposent une étude distributionnelle, syntaxique et sémantique de chaque expression figée. Dans le chapitre suivant, nous signalerons les différents problèmes linguistiques concernant la délimitation de la « zone fixe » et, éventuellement, la reconnaissance lexicale des adverbes figés et semi-figés dans les textes grecs