Le logiciel Unitex

Le logiciel Unitex

Unitex : un outil à base de méthodes symboliques

Développé par Sébastien Paumier (2002), Unitex est un logiciel qui réunit différents programmes pour le traitement de textes en langues naturelles sur la base de ressources lexicales. Plus précisément, il s’agit de ressources issues des travaux du lexiquegrammaire – dictionnaires électroniques, des tables et des grammaires locales – qui, grâce au réseau RELEX, ont été étendus à d’autres langues. Le logiciel, dont la dernière version est la 3.1 bêta122, est téléchargeable sous une licence LGPLLR depuis le site du LIGM123 . Les langues actuellement disponibles dans l’outil sont : l’allemand, l’anglais, l’arabe, le coréen, l’espagnol, le finnois, le français, le géorgien ancien, le grec (ancien et moderne), l’italien, le norvégien, le polonais, le portugais (du Portugal et du Brésil), le serbe, le russe et le thaï. Unitex n’a pas besoin d’un système opérationnel précis pour être utilisé : il marche tant sur Windows que sur Linux et Macintosh OS. Le logiciel accepte des données brutes (c.-à-d., qui n’ont pas été prétraitées), la seule condition à respecter pour pouvoir analyser un texte est de le coder en Little-Endian Unicode124. Il n’y a pas de restrictions sur la taille des textes non plus : étant basé sur des méthodes symboliques, le logiciel peut analyser même des textes courts, à la différence des outils statistiques. En outre, le logiciel est désormais partie intégrante du projet Gramlab, qui vise à mettre à disposition des entreprises des logiciels libres d’accès et gratuits125 Nous renvoyons au manuel d’utilisation126 pour les procédures d’installation du logiciel. Le manuel, tout comme les menus du logiciel, est en langue anglaise. 1.3. La phase de prétraitement Lorsque l’on utilise Unitex pour la première fois, le logiciel demande à l’utilisateur de choisir un répertoire de l’ordinateur où il veut stocker ses données. Si l’on travaille sur plusieurs langues – comme dans notre cas – un répertoire différent est créé pour chaque langue. Dans ce répertoire, le logiciel installe six dossiers : Cassys, Corpus, Dela, Elag, Graphs, Inflection. L’utilisateur place dans le dossier Corpus les fichiers à soumettre à l’analyse : il sera ainsi possible de les sélectionner depuis le menu Text. Une fois ouvert le texte, le logiciel ouvre une interface qui demande si l’on veut prétraiter le texte. Par défaut, le logiciel applique au texte les dictionnaires disponibles pour la langue choisie. Si c’est nécessaire à de l’analyse, on peut demander de produire aussi l’automate du texte à la fin de l’étape de prétraitement, en cochant la case Construct Text Automaton (en bas à gauche)127 : Figure 2 : l’interface permettant l’accès au prétraitement. Trois opérations fondamentales sont exécutées pendant la phase de prétraitement : le comptage des formes du texte, l’étiquetage de ces formes, la segmentation du texte en phrases. Les résultats de ces opérations sont affichés dans trois fenêtres différentes. Ainsi, dans la première fenêtre (Token List) sont données toutes les formes128 présentes dans le texte (signes diacritiques inclus) avec le nombre d’occurrences. Il est possible d’afficher la liste par fréquence (ordre décroissant) ou par ordre alphabétique. La deuxième fenêtre, Word Lists, est divisée en trois sous-fenêtres : une contenant les mots simples, une autre listant les formes composées (dans ces deux premiers cas, il s’agit des formes reconnues par les dictionnaires appliqués) et une dernière dans laquelle sont listées toutes les formes non reconnues par les dictionnaires.Les formes étiquetées se différencient des formes inconnues tout d’abord par l’utilisation de couleurs : bleu, rouge, vert et jaune. Elles sont suivies d’une série de codes morphosyntaxiques : outre la catégorie grammaticale, pour chaque forme sont donnés, dans le cas du dictionnaire DELA du français, le genre et le nombre (personne, mode et temps dans le cas des verbes). Certaines formes se voient attribuer une étiquette sémantique (par exemple, Conc pour les noms concrets). Des informations sur la fréquence du mot dans la langue sont explicitées par l’étiquette « z », qui prend des valeurs numériques de 1 à 3, selon que le mot est un mot très courant (z1), un mot spécialisé (z2) ou un mot très spécialisé (z3). L’entrée est en bleu, la forme canonique en rouge, les informations sur la catégorie grammaticale, la fréquence et d’éventuelles étiquettes sémantiques sont en vert, alors que les informations relatives à la flexion sont en jaune. En guise d’exemple, considérons les deux entrées suivantes dans le DELA du français : 1) buccale,buccal.A+z2:fs ; 2) sels minéraux,sel minéral.N+NA+Conc+z1:mp. L’exemple 1) nous décrit la forme buccale : c’est un adjectif féminin singulier, dont la forme canonique est buccal et l’emploi relève d’un niveau de langue quelque peu technique (z2). L’exemple 2) définit une forme composée, sels minéraux : il s’agit d’un nom composé masculin pluriel (la forme canonique est sel minéral) du type Nom-Adjectif, qui désigne un nom concret et dont l’emploi est fréquent dans la langue. Suite aux dernières modifications opérées sur le logiciel, il est désormais possible de vérifier rapidement si une unité lexicale fait partie de la nomenclature des dictionnaires électroniques. Depuis le menu DELA, on sélectionne Lookup : on accède ainsi à une fenêtre qui permet de choisir les dictionnaires dans lesquels on veut vérifier une unité lexicale donnée : Figure 4 : fenêtre Dictionary Lookup. En ce qui concerne la liste des mots inconnus, elle peut être très intéressante dans une optique terminographique : souvent, bon nombre des formes inconnues sont des néologismes ou des termes propres à un domaine donné, qui ne sont donc pas inclus dans les dictionnaires électroniques. La liste peut se révéler un point de départ pour le repérage des termes que l’on recherche. D’autres formes inconnues peuvent être des entités nommées – qui présentent elles aussi un intérêt du point de vue terminographique –, des fautes de frappe et des mots étrangers. La troisième et dernière fenêtre présente le texte segmenté en phrases : le symbole {S} (= sentence) délimite une portion de texte que le logiciel a reconnu comme une phrase, sur la base des signes diacritiques (notamment, les points) et des lettres capitales. Une fois achevée la phase de prétraitement, on peut commencer à mener des recherches en exploitant les informations fournies en fonction de l’application visée.

À la recherche des termes, simples et composés

La priorité des terminologues est la recherche des concepts et des termes utilisés pour les décrire, comme nous l’avons vu au début de ce chapitre. Pendant la phase de documentation, les terminologues établissent « l’arbre du domaine », qui sert à hiérarchiser les concepts en génériques, spécifiques et associés (qui au niveau linguistique sont des hyperonymes, des hyponymes et des co-hyponymes). Ils recherchent ensuite les termes désignant ces concepts dans les corpus textuels. Il y a différentes façons de mener la recherche des termes : si l’on recourt à un extracteur de terminologie, on peut procéder à la validation des candidats-termes sur la base des occurrences dans le corpus. Si le but du travail est la mise à jour d’une terminologie, on recherche les termes contenus dans des index ou d’autres produits terminographiques dans des corpus textuels plus récents, de façon à éliminer les termes périmés et ajouter les éventuels néologismes. Les termes se répartissent en simples et composés, selon qu’ils sont formés d’un seul ou de plusieurs mots au sens typographique (les termes composés par soudure comme balnéothérapie sont des termes simples). D’habitude, les termes-clés d’un domaine sont ceux qui interviennent dans la formation des composés. Ces derniers, dont le nombre dépasse de loin les termes simples, demandent une attention particulière de la part des terminographes pour plusieurs raisons. Tout d’abord, le découpage du terme : il faut bien établir les limites du terme ; cela peut être d’autant plus compliqué dans le cas des termes surcomposés, qui sont des composés contenant un ou plusieurs termes composés. Ensuite, il faut considérer que les structures syntaxiques de ces composés peuvent varier selon les domaines : si les structures du type Nom Adjectif ou Nom de Nom (au moins pour la langue française) sont très productives pour tous les domaines, l’identification des structures des surcomposés nécessite d’une analyse plus approfondie. L’étude des structures syntaxiques des composés est d’autant plus importante dans une optique contrastive : non seulement ces structures peuvent changer dans le passage d’une langue source à une langue cible (songeons par exemple que les structures Nom Adjectif du français sont plutôt des structures Adjectif Nom en anglais), mais il arrive qu’un terme soit un composé dans la langue source et un terme simple dans la langue cible et vice-versa (c’est le cas de maladie cœliaque en français, traduit en italien par celiachia). Dans les paragraphes suivants, nous montrons comment nous avons procédé à la recherche des termes – simples et composés – à partir des résultats du prétraitement des corpus dans Unitex.