Les ressources dictionnairiques

Les ressources dictionnairiques

Le dictionnaire, outil dans la diffusion du savoir de notre société, est le résultat d’un long processus de développement et de représentation de notre connaissance des langues. Les premiers dictionnaires sont apparus dans l’Antiquité sous forme de listes de mots, comme les listes bilingues akkadien-sumérien (vers 2400 av. J.-C.), les listes de mots de la Grèce antique, dont par exemple celle de Protagoras d’Abdère contenant des mots difficiles extraits des poèmes d’Homère (vers le Ve siècle av. J.-C.), ou encore les dictionnaires chinois (IIe siècle av. J.-C.). C’est seulement vers 1502 qu’Ambrogio Calepino1 va publier le Dictionarium (dictionnaire bilingue latin-italien), qui au fil de ses éditions va devenir le tout premier dictionnaire multilingue avec onze langues (latin, grec, italien, espagnol, français, allemand, hébreu, flamand, anglais, polonais et hongrois) en 1588. Aujourd’hui, les dictionnaires papier tels que le Larousse, le Robert ou bien d’autres encore font partie intégrante de notre vie quotidienne. Avec le développement de l’informatique, la plupart des dictionnaires existant sur support papier ont été mis sur support électronique et commercialisés sur CD-ROM, sur DVD-ROM ou bien sont accessibles sur Internet. Il s’agit d’un nouveau type de dictionnaire, que nous allons appeler dictionnaire informatisé. Depuis une vingtaine d’années, de nombreux chercheurs ont développé un grand nombre de modèles de bases de données lexicales ou dictionnaires électroniques formalisés, que nous appellerons dictionnaires électroniques. Les dictionnaires électroniques comportent des données spécifiques destinées à l’analyse automatique des langues. Nous pouvons distinguer deux types d’usage d’un dictionnaire électronique : usage humain ou usage automatique. Un dictionnaire électronique à usage humain contient souvent des informations implicites qui nécessitent une connaissance de la part du lecteur et qui ne sont pas adaptées aux machines. Un dictionnaire électronique servant de données pour des programmes de TAL a besoin d’informations explicites et non ambiguës. Dans cette partie, nous allons présenter uniquement les projets qui nous ont inspiré dans la construction de notre dictionnaire. Nous avons utilisé les travaux sur les codes flexionnels des dictionnaires DELA. Les projets EuroWordNet et Papillon montrent la nécessité d’utiliser une approche par pivot dans la structure d’un dictionnaire multilingue. Nous découvrirons une stratégie de peuplement de base lexicale à travers le projet Papillon. Nous avons étudié les relations sémantiques de WordNet et du DEC pour définir les relations

Travaux du LADL

Sous la direction de Maurice Gross, le Laboratoire d’Automatique Documentaire et Linguistique (LADL) de l’université de Paris VII a développé plusieurs dictionnaires électroniques, qui peuvent être regroupés en deux catégories. La première catégorie comporte les dictionnaires de formes non fléchies : le DELAS [Courtois, 1992] pour les mots monolexicaux, le DELAP [Laporte, 1990] pour la phonémisation des mots monolexicaux et le DELAC [Silberztein, 1990] pour les mots polylexicaux. La seconde catégorie regroupe les dictionnaires de formes fléchies : le DELAF, le DELAPF et le DELACF. [Courtois, 1992] définit ainsi l’objectif des dictionnaires du LADL : Un objectif des dictionnaires électroniques est de construire des structures où sont répertoriées les unités de la langue, avec un certain nombre de propriétés nécessaires au traitement automatique. Le DELAS, ou Dictionnaire Électronique du LADL de formes simples, pour le français comporte environ 80 000 entrées de mots monolexicaux, c’est-à-dire des séquences de lettres. Une entrée du DELA se présente sous la forme suivante : abacule,N1+z3 abajoue,N21+z3 cheval,N4+Anl+z1 où le mot abacule correspond à la forme canonique. Le code N1 indique que ce mot est un nom qui suit la classe morphologique numéro 1 : (0,-,s,-) (voir Annexe B) ; z3 est un code sémantique permettant de préciser que le mot abacule appartient à un langage spécialisé, contrairement au mot cheval. La figure 2.1 et la figure 2.2 présentent les codes grammaticaux et les codes sémantiques du DELAS [Paumier, 2006]. En appliquant les règles de flexion sur le DELAS, nous obtenons le Dictionnaire Électronique du LADL de formes fléchies ou DELAF, constitué d’environ 900.000 formes fléchies. Une entrée du DELAF se présente sous la forme suivante : mercantiles,mercantile.A+z1:mp:fp glace,.N+z1:fs où mercantiles correspond à la forme fléchie et mercantile à la forme canonique (ou lemme). A+z1 précise que ce mot est un adjectif appartenant au langage courant. mp et fp indiquent que mercantiles est la forme du masculin pluriel et aussi la forme du féminin pluriel de la forme canonique mercantile. La structure du DELAC (Dictionnaire Électronique du LADL de mots composés) et celle du DELACF (Dictionnaires Électronique du LADL de mots composés fléchis) sont identiques aux deux dictionnaires précédents. Le DELACF est constitué de plus de 100 000 mots composés (90 000 noms, 15 000 constructions être Prép N, 8 000 adverbes et 500 conjonctions). Dans le dictionnaire DELAP (Dictionnaire phonémique) et DELAPF (Dictionnaire phonémique de formes fléchies), chaque entrée comporte en plus une représentation phonémique de sa prononciation. Le DELAPF contient environ 620 000 entrées .Il existe aussi des dictionnaires du LADL pour l’allemand, l’anglais, le coréen, l’espagnol, le grec, l’italien, le norvégien, le portugais, le serbe et le thaïlandais. Multiflex [Savary, 2006] est un programme qui permet de fléchir des mots polylexicaux [Savary, 2000] à partir de leur lemme. Pour cela, un formalisme [Savary, 2005] permettant de décrire la création des formes fléchies a été mis en place. Des données spécifiques pour chaque langue sont nécessaires. Voici un exemple pour le polonais : Polish Nb : sing, pl Case : Nom, Gen, Dat, Acc, Inst, Loc, Voc Gen : masc_pers, masc_anim, masc_inanim, fem, neu noun : (Nb,),(Case,),(Gen,) adj :(Nb,),(Case,),(Gen,) adv : La première partie de ce fichier décrit les catégories grammaticales (nombre, cas, genre) qui existent en polonais. La deuxième partie précise pour chaque classe grammaticale si celle-ci varie suivant le nombre, le cas ou le genre. En lisant ce fichier, on constate que le genre des noms polonais est toujours fixe et qu’ils varient suivant le nombre et le cas, tandis que les adverbes sont invariables. Les mots polylexicaux sont découpés en unités et chaque unité est associée à une variable ($1, $2…). Par exemple, le mot Athens ’04 est décomposé en cinq unités : $1=Athens $2= $3=’ $4=0 $5=4 Chaque unité est associée à un code flexionnel, sauf si celle-ci est invariable. Par exemple : avant-garde(garde.N21:fs) Dans cet exemple, le code N21 indique que l’unité garde suit la règle morphologique : (-,0,-,s). Le code fs signifie féminin singulier. On attribue à chaque mot polylexical un code flexionnel : avant-garde(garde.N21:fs),NC_XXN Les codes flexionnels de Multiflex peuvent être représentés sous la forme d’un graphe (figure 2.3). Pour notre exemple, on aura donc dans la variable $1 le mot avant, dans $2 le trait d’union et dans $3 le mot garde. L’expression Gen==$g signifie que le genre est fixe et qu’il correspond au genre de la troisième unité, c’est-à-dire féminin. L’expression Nb=$n indique que le nombre peut être variable et prendre toutes les valeurs de sa catégorie, à savoir singulier et pluriel. précise le genre et le nombre du résultat qui sont déterminés par l’unification et qu’ils s’accordent avec le genre et le nombre de la 3ème unité. En appliquant le programme Multiflex, on obtiendra le résultat suivant : – avant-garde,avant-garde.NC_XXN:fs – avant-gardes,avant-garde.NC_XXN:fp

EuroWordNet

Avant de présenter la base de données lexicale multilingue EuroWordNet, il nous paraît indispensable de commencer par une description du projet WordNet, qui constitue sans doute une référence indispensable à connaître dans le monde des dictionnaires électroniques et qui sert de point de départ à EuroWordNet.

WordNet

Développé en 1985 par des linguistes du Laboratoire des Sciences Cognitives de l’Université de Princeton, sous la direction de G. A. Miller, WordNet [Miller, 1995] est une base de données lexicales anglaises dont la conception a été inspirée des théories psycholinguistiques et informatiques sur la mémoire lexicale humaine. L’objectif de ce projet est de lister, de classifier et d’établir des relations entre le contenu lexical et le contenu sémantique de la langue anglaise. La version actuelle de WordNet (2.1), consultable sur le site www.cogsci.princeton.edu, comporte plus de 150 000 mots. WordNet est un réseau lexical où chaque nœud correspond à un synset et chaque arc est formé par les relations entre synsets. Le synset (ou synonym set) est défini comme un ensemble de mots interchangeables, représentant un sens particulier. Par exemple, le nom propre anglais Paris (figure 2.4) appartient à quatre synsets différents. Dans WordNet, le lexique est partitionné en quatre catégories syntaxiques : nom, verbe, adjectif, adverbe (figure 2.5). Ce découpage est basé sur une hypothèse cognitive, selon laquelle les mots dans notre mental sont classés en fonction de leur catégorie syntaxique. Chaque catégorie syntaxique possède sa propre hiérarchie de classes sémantiques et ses propres relations sémantiques. Il n’existe aucune relation entre des unités lexicales de catégories syntaxiques différentes. Les noms sont regroupés dans vingt-cinq classes : – act, action, activity – attribute, property – quantity, amount – natural object – plant, flora – event, happening – animal, fauna – body, corpus – relation – natural phenomenon – possession – food – artifact – process – group, collection – person, human being – communication – substance – location, place – time – motive – shape – state, condition – cognition, knowledge – feeling, emotion Les verbes sont regroupés en quinze familles : – body : verbs of grooming, dressing and bodily care. – change : verbs of change of size, temperature, intensity, etc. – cognition : verbs of thinking, judging, analyzing, doubting, etc. – communication : verbs of telling, asking, ordering, singing, etc. – competition : verbs of fighting, athletic activities, etc. – consumption : verbs of eating and drinking. – contact : verbs of touching, hitting, tying, digging, etc. – creation : verbs of sewing, baking, painting, performing, etc. – emotion : verbs of feeling. – motion : verbs of walking, flying, swimming, etc. – perception : verbs of seeing, hearing, feeling, etc. – possession : verbs of buying, selling, owning, and transfer. – social : verbs of political and social activities and events. – stative : verbs of being, having, spatial relations. – weather : verbs of raining, snowing, thawing, thundering, etc. Les adjectifs sont divisés en deux classes : – adjectifs descriptifs (big, interesting) – adjectifs relationnels, qui sont des dérivés de noms (fraternal, presidential) Les adverbes ne possèdent aucune structure hiérarchique dans WordNet. WordNet est construit autour de deux relations principales : la synonymie, qui est modélisée à travers le concept de synset, et l’hyperonymie (figure 2.6), une relation transitive permettant de construire une hiérarchie entre les synsets. Autour des synsets, WordNet a défini d’autres relations sémantiques (figure 2.7). La méronymie, relation inverse de l’holonymie, permet de spécifier si un synset est une partie => entity, something => object, physical object => artifact, artefact => instrumentality, instrumentation => conveyance, transport => vehicle => motor vehicle, automotive vehicle car, auto, automobile, machine, motorcar Fig. 2.6 – Exemple de relation d’hyperonymie dans WordNet. d’un autre synset. L’antonymie exprime les sens opposés entre les synsets. La relation d’implication (entailment) s’applique uniquement pour les verbes.

EuroWordNet

Le projet européen EuroWordNet [Vossen, 1998], coordonné par P. Vossen de l’université d’Amsterdam, a été lancé en 1996. L’objectif d’EuroWordNet est de construire une base de données lexicales multilingue contenant plusieurs langues européennes. Comportant au départ seulement quatre langues (néerlandais, italien, espagnol et anglais), EuroWordNet s’est achevé pendant l’été 1999 avec quatre langues de plus (allemand, français, estonien et tchèque). Selon [Vossen et al., 1997], il existe plusieurs manières de développer une base de données multilingue : – La première solution, sans doute la plus coûteuse, consiste à créer des liens par paire de langues. Pour une base de données multilingue contenant quatre langues, il faudrait 12 liens interlingues différents (néerlandais → italien, italien → néerlandais, néerlandais → espagnol, espagnol → néerlandais, néerlandais → anglais, anglais → néerlandais, italien → espagnol, espagnol → italien, italien → anglais, anglais → italien, espagnol → anglais, anglais → espagnol). L’ajout d’une nouvelle langue peut s’avérer très compliqué. La complexité du problème augmente avec le nombre de langues.– Une deuxième solution consiste à créer une langue artificielle structurée qui va servir d’interlangue. La mise en place d’une langue artificielle nécessite de résoudre plusieurs difficultés. Le lexique doit être précis et assez large pour pouvoir englober les lexiques des différentes langues. L’ajout d’une nouvelle entrée dans une langue peut parfois amener à revoir et améliorer la langue artificielle. – Une autre solution serait de prendre une des langues comme pivot. Mais cela rend le modèle dépendant de la structure de la langue servant de pivot. Si un sens donné d’un mot est absent dans la langue pivot alors qu’il existe dans une autre langue, cela peut aussi être gênant pour le modèle. – Une quatrième solution, celle qui a été adoptée par les concepteurs d’EuroWordNet, envisage d’utiliser un ensemble de concepts non structurés, qui servent de liens interlingues. L’avantage d’une telle solution est que cette liste d’index non structurée ne doit respecter aucune théorie linguistique ou cognitive, car elle contiendra simplement des numéros d’identité uniques et ne possédera pas de structure interne. De plus l’ajout d’une nouvelle langue ne remettra pas en cause la totalité de l’index ou les relations que les wordnets entretiennent déjà avec l’index, mais seulement une petite partie de celui-ci. L’architecture globale d’EuroWordNet [Vossen, 1999] [Jansen, 2004] (figure 2.8) est formée de trois niveaux. Le premier niveau comprend les différentes bases de données lexicales monolingues, qui ont été développées suivant le modèle de WordNet 1.5. Le deuxième niveau, indépendant des langues, comprend un Inter-Lingual-Index (ILI). Les synsets de wordnets monolingues ayant été reliés à un même élément de l’ILI (enregistrement-ILI) seront considérés comme des concepts équivalents. L’ensemble des synsets de WordNet 1.5 a servi de point de départ à l’ILI d’EuroWordNet. Le dernier niveau contient une ontologie de domaine (Domain Ontology) et une ontologie supérieure (Top Ontology) (figure 2.9) [Vossen et al., 1998]. L’ontologie supérieure fournit une hiérarchie sémantique des différents enregistrements-ILI et l’ontologie de domaine permet de répartir les enregistrements-ILI selon des thèmes (sport, hôpital, restaurant, trafic aérien, etc.). L’ontologie supérieure se décompose en trois parties : – Entité du premier ordre (1stOrderEntity) : entité concrète de notre environnement. Par exemple : Comestible (Function), Living (Natural, Origin), etc. – Entité du deuxième ordre (2ndOrderEntity) : situation statique ou dynamique. Par exemple : length (Property), day (Time), etc. – Entité du troisième ordre (3rdOrderEntity) : entité non observable. Par exemple : idea, thought, information, theory, plan, etc. Contrairement à WordNet, EuroWordNet autorise des relations entre les différentes catégories syntaxiques. Dans le projet EuroWordNet, il existe deux types de relations : les relations internes d’une langue entre les synsets (figure 2.10) et les relations entre les synsets et les enregistrements-ILI. Voici les relations les plus importantes entre les enregistrements-ILI et les synsets d’EuroWordNet : – EQ_SYNONYM : si le synset correspond à un seul et unique enregistrement-ILI (synset : diventare IT / enregistrement-ILI : to become). – EQ_NEAR_SYNONYM : si un synset correspond à plusieurs ILI-records, si plusieurs synsets correspondent à un même enregistrement-ILI, ou encore s’il y a des doutes sur le choix de l’enregistrement-ILI. – EQ_HAS_HYPERONYM : si un synset est plus spécifique que les enregistrementsILI disponibles (synset : kunstproduct NL (artifact substance) / enregistrements-ILI : artifact ; product).

Télécharger le document complet