Extraction des termes complexes

Extraction des termes complexes

Approches d’extraction des termes complexes

Plusieurs travaux de recherche ont été proposés pour l’extraction des TCs. Ces travaux sont classés selon l’approche adoptée : linguistique, statistique ou hybride. Les études récentes ont montré que les méthodes hybrides donnent de meilleurs résultats par rapport aux méthodes linguistiques et statistiques [Tadi´c & Sojat 2003 ˇ ]. Dans cette Section, nous passons en revue des approches principales d’extraction des termes complexes.

Approche linguistique

Les méthodes de cette approche reposent sur l’exploitation des connaissances linguistiques et la structure de la langue traitée (syntaxe, morphologie, etc.) pour le repérage et l’identification des TCs. La plupart des méthodes adoptant cette approche reposent sur l’utilisation des patrons syntaxiques et peu de travaux utilisent les frontières de TCs. Les méthodes utilisant les partons syntaxiques reposent sur une analyse complète des phrases pour identifier les syntagmes nominaux susceptibles d’ˆetre des TCs. Les autres procèdent par une analyse de surface de la phrase pour les repérer [Bounhas & Slimani 2009, Boulaknadel et al. 2008b]. Nous présentons par la suite quelques outils proposés pour l’acquisition des terminologies.

TERMINO

TERMINO est le premier système proposé pour l’extraction de terminologie à partir des textes en utilisant des patrons morpho-syntaxiques [David & Plante 1990]. Les versions récentes de ce système sont distribuées sous le nom NOMINO. Il permet d’extraire les termes candidats, appelés synapsies, en procédant par l’identification des syntagmes nominaux du corpus. Le prétraitement du corpus s’effectue en utilisant une base de données lexicale et des règles de désambig¨uisation lexico-syntaxiques. Les termes candidats sont repérés à partir des différentes expansions des noms. Le système retourne également une liste de termes qui sont jugés valides. 2.2.1.2 LEXTER Le système LEXTER a été proposé dans [Bourigault 1994] en adoptant l’approche linguistique, o`u les syntagmes nominaux (susceptibles d’ˆetre des termes) sont repérés en utilisant la méthode de frontières. Puis, ces syntagmes sont décomposés en tˆete et expansion afin de les proposer en tant que des candidats termes. Pour le repérage, il définit plusieurs signes permettant de séparer les syntagmes nominaux à partir des autres constituants de la phrase : • les signes de ponctuation ; • les verbes ; • les pronoms ; • les déterminants précédés d’un verbe ou d’un signe de ponctuation ; • etc. 

FASTER

L’outil FASTER 1 est proposé dans [Jacquemin 1997] pour l’extraction de terminologie. Cet outil utilise une liste de référence de termes valides et permet d’identifier l’ensemble des variantes de ces termes. Ces variantes sont identifiées en utilisant un ensemble de méta-règles qui opèrent à plusieurs niveaux : morpho-syntaxique, syntaxique ou syntaxico-sémantique. 2.2.1.4 SYNTEX Le SYNTEX est un analyseur syntaxique proposé pour l’extraction des syntagmes nominaux, l’extraction des terminologies et la construction des ontologies [Bourigault & Fabre 2000, Bourigault et al. 2005]. Le système re¸coit comme entrée un corpus étiqueté préalablement. Il procède par une analyse de dépendance pour reconnaitre les différentes relations syntaxiques telles que le sujet, l’objet direct, le complément prépositionnel (de nom, de verbe et d’adjectif), l’antécédence relative, la modification adjectivale (épithète, attribut) et la subordination [Bourigault et al. 2005]. Ces relations permettent de construire un réseau terminologique, ou chaque syntagme est lié à sa tˆete et ses expansions. 

Approche statistique

Le but principal de l’utilisation des méthodes statistiques pour l’extraction des TCs consiste à ordonner les termes candidats selon une mesure d’association particulière qui donne des scores plus élevés aux bons termes candidats. Les termes candidats au-dessus d’un seuil particulier sont considérés en tant que des TCs valides. L’idée sous-jacente est que les termes candidats qui sont fréquents ont tendance d’ˆetre des TCs valides et de représenter des concepts importants du domaine en question. Cependant, la fréquence seule ne compte que le nombre d’occurrences d’un terme candidat dans le texte, mais ne donne aucune information sur le degré d’association entre les mots qui le composent. Par conséquent, la plupart des approches statistiques visent à extraire les TCs à partir d’un corpus en utilisant des mesures d’association qui se concentrent sur le degré d’unité et/ou le degré de spécificité [Kageura & Umino 1996]. Ces mesures sont basées sur des informations de fréquences, de co-occurrence et de contexte telles que le T-score [Church et al. 1991], la loglikelihood (LLR) [Dunning 1993], le C/NC-Value [Frantzi et al. 2000], etc. Nous présentons brièvement par la suite quelques systèmes qui reposent sur des méthodes statistiques.

MANTEX

Le système MANTEX repose sur la méthode de segment répété pour l’extraction de la terminologie [OUESLATI 1999]. Les segments non séparés par des délimiteurs et dont le nombre d’occurrences est supérieur à un seuil particulier sont considérés comme des termes candidats. Ces délimiteurs sont les signes de ponctuation, des verbes, des pronoms, etc. Le repérage s’effectue en indexant les mots ainsi leurs positions en utilisant des fenˆetres de un à dix mots de la mˆeme phrase. Une étape de filtrage est nécessaire pour considérer que les meilleurs termes candidats.

Approche hybride

Les approches linguistiques se concentrent sur les structures syntaxiques de la langue et les méthodes statistiques se concentrent sur les caractéristiques récurrentes de TCs. Les méthodes hybrides consistent à combiner les deux approches pour bien bénéficier des avantages des deux [Daille 1994]. En effet, les méthodes linguistiques effectuent une analyse plus fine de la langue pour assurer un meilleur découpage des termes du corpus. Les méthodes statistiques permettent de filtrer les termes candidats importants en vue de les considérer comme des termes valides. Nous présentons brièvement par la suite quelques systèmes qui reposent sur des méthodes hybrides. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *