Extraction des termes et des relations à partir de textes

Extraction des termes et des relations à partir de textes

 De nombreuses méthodes d’analyses linguistique ou statistique existent, issues des recherches de linguistes et d’informaticiens. Parmi ces méthodes, certaines sont susceptibles d’être appliquées à des textes, les processus utilisés alors, sont dans la majorité des cas itératifs, permettant un enrichissement de la connaissance. Ces approches peuvent être utilisées dans différentes applications. Ce qui nous intéresse dans ce chapitre c’est l’extraction des termes et des relations dont l’objectif est la construction d’ontologies à partir de textes. Nous allons présenter dans ce chapitre les différentes approches et outils utilisés dans l’extraction des termes et des relations. 2. La construction d’ontologies à partir de textes 2.1. Définitions Avant d’aborder les étapes de création d’ontologies, donnons quelques définitions pour mieux comprendre les termes utilisés dans les différentes étapes. 

Mot

Nous entendons par mot toute séquence de caractères délimitée par deux séparateurs (blanc ou autre marqueur de séparation, tel que la ponctuation) ou unité minimale de signification appartenant au lexique appelé lexème. Si une séquence de caractères de ce type se répète 2, 3, n fois, elle correspond à 2, 3 ou n mots, mais constitue un seul et même item (Azé & Heitz, 2004). Exemple : La suite de caractère « مزبة « est un mot, il peut avoir plusieurs sens (livre, missive, etc).

Terme

Un terme est une expression possédant un sens unique pour un domaine particulier (Azé & Heitz, 2004). Dans le Coran considéré comme Corpus d’un domaine donné, le mot « مزبة « devient un terme par rapport au domaine, il a une signification unique, c’est une des écritures saintes révélées par l’Archange Gabriel aux différents prophètes (PSSE). 34 35

Concept

Un concept est « l’idée générale et abstraite que se fait l’esprit humain d’un objet de pensée concret ou abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions qu’il en a, et d’en organiser les connaissances » Larousse30 . « Faculté, manière de se représenter une chose concrète ou abstraite; résultat de ce travail; représentation » CNRTL31 . Ainsi si « مزبة « est un terme dans le domaine cité plus haut, le concept est l’idée, la perception que l’on se fait de ce terme.

Terminologie

Une terminologie représente l’ensemble des termes particuliers à une science, un domaine ou un art (Larousse, 1988), à un groupe de personnes ou à un individu (Office de la langue française, 2001). La terminologie, considérée comme science, s’intéresse donc, au recensement des concepts d’un domaine et des termes qui le désignent pour faciliter l’échange de connaissances dans une langue et d’une langue à l’autre (Baneyx, 2007). 

Ontologie Une ontologie comprend une certaine vue du monde par rapport à un domaine donné. Cette vue est souvent conçue comme un ensemble de concepts (entités, attributs, processus), leurs définitions et leurs interrelations. On appelle cela une conceptualisation (Baneyx, 2007). Une définition plus détaillée de l’ontologie a été donnée au chapitre2. 

Les étapes de construction d’une ontologie à partir de textes

La création d’une ontologie à partir de textes, nécessite une suite logicielle outillant une méthodologie globale de construction (Zaidi & al, 2010b). 30 http://www.larousse.fr/dictionnaires/français Figure 9: Etapes pour la construction d’ontologies à partir de textes La figure 9 donne une idée sur les différentes étapes nécessaires pour la construction automatique d’ontologie du domaine. Nous explicitons dans cette section chaque étape. 

Le corpus

Un corpus est un ensemble de textes homogènes, présentés sous un format brut ou semi-structuré (Azé & Heitz, 2004). Le corpus doit être soigneusement choisi en fonction du domaine et de l’application visée. La taille des corpus et la masse d’informations contenues impliquent l’utilisation d’outils de terminologie textuelle spécifiques pour préparer les textes bruts à être utilisés par une quelconque application dont l’objectif serait par exemple de construire des ressources linguistiques telles que des ontologies ou des terminologies. Le prétraitement de corpus est l’étape préliminaire pour identifier les données lexicales à partir des textes (Harrathi, 2009). Les prétraitements des données textuelles consistent à normaliser les diverses manières d’écrire un même mot, à corriger les fautes d’orthographe évidentes ou les incohérences typographiques et à expliciter certaines informations lexicales exprimées implicitement dans les textes. Les traitements consistent, par exemple, à remplacer (ح, أ,ٛ ( qui sont écrites habituellement (ٓ, ا, ٙ(, ou à extraire la structure superficielle des textes à partir d’indices comme une ligne vide pour délimiter les paragraphes (Heitz, 2006). 

La segmentation

La segmentation est une étape quasiment obligatoire avant l’extraction d’information. Elle permet de découper le texte en unités linguistiques suffisamment élémentaires pour qu’elles soient traitées (Dubois, 1994). C’est une étape qui permet de découper un texte d’abord en section puis en phrase et enfin en mot. 

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *