Modèle automatique d’organisation des contexonymes (ACOM)

Modèle automatique d’organisation des contexonymes (ACOM)

Le modèle automatique d’organisation des contexonymes

ACOM1 (Ji et Ploux 2003) qui a été développé dans cette étude utilise la même notion de clique et la représentation géométrique que Ploux et al. ont développé (Ploux 1997, Ploux et Victorri 1998,Ploux et Ji 2003). Nous désignerons ce dernier modèle par son nom actuel Atlas Sémantique. Contrairement à la plupart des modèles sémantiques, l’Atlas Sémantique organise automatiquement du sens des mots sans la consultation de la classification du sens des dictionnaires, des thésaurus ou du WordNet. Par exemple, l’Altas Sémantique n’utilise pas de classification du sens telle que PEU DE GRAISSE, PEU ÉPAIS, PEU ABONDANT, PEU D’IMPORTANCE, etc. pour le mot maigre des références lexicales ; il n’utilise en effet que la liste des synonymes non organisés comme la suivante : (10) maigre : hâve, émacié, sec, fin, pauvre, stérile, petit, médicre.

Le modèle sémantique pour deux langues, développé par Ploux et Ji (2003), intègre un mécanisme matriciel qui permet de sélectionner les mots de la langue cibles pour des mots donnés de la langue source. Dans ce modèle, les différents sens (S1) d’un mot sont comparés aux les sens des mots d’une autre langue qui correspondent à l’ensemble des mots ayant les sens S1. La figure 5.1 montre l’appariement des sens du mot maigre avec les mots correspondants en anglais. On peut constater dans cette figure que les sens STÉRILE, FIN et PAUVRE sont bien distingués.

En consultant les synonymes de chaque fils dans (10), l’Atlas Sémantique classe et organise les synonymes selon leur sens de manière automatique. Pour ce faire, Ploux (1997) a proposé la notion de clique définie ici comme « unité » minimale du sens qui sert à réorganiser le sens des mots. Le calcul des cliques permet en suite de représenter les différents sens dans un espace sémantique multidimensionnel. Malgré cette capacité de classification distingué du modèle, le modèle Atlas Sémantique dépend des ressources manuellement traitées.

C’est-à-dire, bien que ce modèle ne dépende pas de la classification lexicographique des sens d’un mot, la liste des synonymes préparée par l’homme pour chaque terme est indispensable pour le modèle. En revanche le modèle actuel (ACOM) dans cette étude ne dépend aucunement des ressources organisées par l’homme mais utilise directement les textes bruts eux-mêmes comme par exemple, les articles de journaux, des textes littéraires, etc. En outre, une série de mécanismes spécifiques qui permettent de choisir les contexonymes de manière automatique a été intégrée dans le modèle actuel. Dans ce chapitre, la série des étapes pour avoir la représentation des contexonymes pour un mot donné sera expliquée par étape par étape. 

LIRE AUSSI :  Violation du droit au silence et du privilège de non-incrimination

Procédure d’organisation du contexonyme

Etape 1 Pour un corpus donné, les co-occurrences de tous les mots dans un passage défini (une phrase ou une fenêtre) sont comptées et enregistrées. Chaque entrée Wn i (1 ≤ i ≤ N, où N est égal au nombre total de types2 dans le corpus) possède des fils cj qui sont rangés dans l’ordre descendant des co-occurrences avec Wn i ; les fils dont les co-occurrences sont inférieures au 10 000e de la fréquence globale de l’entrée Wn i sont éliminés afin de réduire le bruit : 2Le nombre de mots différents. 94 Modèle automatique d’organisation des contexonymes (ACOM) Wn i : c1,c2,.. . ,cn. Etape 2

Pour le mot cible, le tableau d’association des mots est construit en utilisant quatre paramètres. Etape 2-1 Afin d’éliminer les fils qui ne sont guère co-occurrents avec le Wn i , une première portion α (où 0 < α ≤ 1)) de mots est choisie. Ainsi Wn i devient : Wn i : c1,c2,. .. , ck, où k = nα et n est le nombre initial des fils de Wn i . Etape 2-2 Le paramètre β (0 < β ≤ 1) sert à enlever les mots qui sont rarement cooccurrents avec le fils cj : c m j : g1,g2,. . ., gl (1 ≤ j ≤ k, l = mβ). De cette manière, le tableau d’association du mot (Tab. 5.1) est obtenu.

Avec cette méthode, les contexonymes liés au sens rarement utilisés du mot Wn i ne sont pas choisis quand la valeur du paramètre β reste petite. Ceci ne pose pas de problème néanmoins dans la mesure où les contexonymes reflètent des associations de mots attestées. Par exemple, il est difficile de supposer que le mot fast seul fait penser chez les anglophones au sens hungry dont l’emploi est très rare.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *