Extraction des entités nommées et des relations sémantiques

Extraction des entités nommées et des relations sémantiques

Définitions d’une entité nommée

Dans le domaine d’EI, plusieurs chercheurs ont tenté à valoriser et attribuer une définition d’une EN. La définition attribuée peut faciliter l’identification de ces EN dans des corpus pour déterminer leur limite et leur aspect sémantique. L’analyse des EN offre l’opportunité de faciliter la compréhension des documents textuels. Cependant, les définitions proposées différent selon des critères tels que la référence, l’unicité et le domaine d’étude. Dans la section courante, nous citons des définitions des EN proposées dans la littérature. 

Définition d’une entité nommée de Ehrmann

Dans le but de savoir la capacité d’une EN à renvoyer un référent unique, Ehrmann dans [Ehrmann, 2008] a défini une EN comme suit : « On appelle entité nommée toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus ». Selon cette définition, l’EN est considérée ainsi comme une forme d’expression qui recouvre une réalité caractérisable par rapport à la référence. Une EN peut être alors un nom propre comme « Victor Hugo » ou une expression temporelle (heure, journée, année, etc.). Cependant, les expressions ayant une description incomplète ne peuvent pas être des EN comme « le président de la république ». Cela revient à poser la question quel pays préside-t-il ? alors que « le président de la république française » peut-être une EN. 

Définition d’une entité nommée de Poibeau

Avec plus de précision par rapport aux définitions précédentes, Poibeau dans [Poibeau, 2011] a considéré une EN comme étant « Les types d’unités lexicales particuliers qui font référence à une entité du monde concret dans certains domaines spécifiques notamment humains, sociaux, politiques, économiques ou géographiques et qui ont un nom (typiquement un nom propre ou un acronyme) ». L’EN définie couvre non seulement les noms propres (Gustave Flaubert), mais aussi des EN plus complexes comme les expressions ; de temps (18 mars 1989, date de naissance), de quantité (Cinq cents mètre, gradeur physiques).

Définition d’une entité nommée du projet Quaero

Le modèle d’annotation Quaero dans [Grouin et al., 2011] a proposé une nouvelle définition étendue définie comme suit : « Une expression qui peut ne pas contenir un nom propre et elle peut être structurée via des sous-catégories et des composantes ». Selon cette définition, une EN peut être assigner à une catégorie comme nom de personne comme « Bertrand Delanoë ». Une catégorie peut avoir des sous-catégories comme la catégorie fonction ayant la souscatégorie métier comme « maire de Paris » (le ministère des affaires étrangères ayant la catégorie organisation et la sous-catégorie administration).

Définition d’un évènement du projet Quaero

Le modèle d’annotation Quaero admettait également une nouvelle définition pour une EN exprimant un événement. Selon [Arnulphy et Tanier, 2013], la définition est la suivante : « Un évènement est ce qui se produit, doit arriver ou ne s’est pas réalisé. L’événement est ancré dans la temporalité ». L’EN « la coupe du monde » peut être retenue par la définition proposée. Les expressions de durée peuvent aussi désigner un évènement comme « ces trois heures de musique écoutées comme en rêve ».

Définition d’un évènement médicale de Tourille

La nature des corpus peut faire varier les définitions d’une EN mais la qualité des corpus représentant le même domaine peut engendrer une légère différence entre ces définitions. Dans cette optique, [Tourille et al., 2017] ne se basaient pas sur les définitions précédentes attribuées à une EN médicale mais ils ont proposé une nouvelle définition liée juste à un évènement. Pour cette raison, les auteurs ont défini une EN médicale exprimant un évènement comme suit : « Un événement médical est tout ce qui pourrait intéresser le calendrier clinique d’un patient ». Selon la définition, un évènement ne pourrait être qu’une procédure médicale d’une maladie ou d’un diagnostic.

Discussion des définitions proposées

Les définitions d’EN précédentes étaient proposées après des études analytiques sur des corpus. Les EN étaient considérées comme des unités linguistiques caractérisées par des significations pertinentes. Dans le tableau 1, nous présentons les points forts et faibles de chaque définition déjà citée. Tableau 1. Récapitulation sur les définitions d’EN Définitions Points forts Points faibles [Erhmann, 2008] Entité ayant une référence unique et autonome Pas d’indication sur la nature du domaine d’étude [Poibeau, 2011] Unité lexicale particulière et concrète L’EN peut être une expression complexe Dépendance de domaine particulier [Grouin et al., 2011]   D’après le tableau illustré ci-dessus, les EN être classiques (un nom de personne, un nom de lieu, etc.) ou spécifiques. Les EN spécifiques dépendent d’un domaine d’étude particulier comme les EN médicales. Toutes les définitions citées possèdent le même objectif qui est la délimitation d’une EN. Cependant, Les chercheurs ont commencé par des définitions d’une EN générique indépendamment de sa classe d’appartenance pour aller à des définitions propres à une classe définie d’avance (évènement). Cette spécification apparaît progressivement avec l’utilisation des corpus dépendant d’un domaine particulier (médical). La définition du projet Quaero prend en compte les expressions qui ne contiennent pas des noms propres alors que celle de Erhmann ne la considère que lors de la présence de son référent dans le même corpus. Les définitions déjà citées ont été exprimées directement mais il existe d’autres définitions qui se représentent à travers une catégorisation d’EN. Dans la section suivante, nous présentons les catégorisations faites sur les EN depuis les conférences MUC.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *