Extraction des termes composés (Collocations) 

Extraction des termes composés (Collocations) 

Dans cette partie nous allons présenter une méthode hybride pour l’extraction de termes composés sous forme de collocations. L’objectif étant toujours de construire l’ontologie du Coran. A partir de ce chapitre nous n’allons travailler que sur le Crescent Quranic Corpus. Les termes complexes sont extraits par une méthode linguistique en utilisant l’outil GATE, que nous avons adapté à l’Arabe et ce, en intégrant de nouvelles règles JAPE respectant les patrons syntaxiques arabes pour l’extraction de collocations. Nous gardons les collocations candidates dans un fichier. Par la suite, cette liste des collocations jugées pertinentes, est filtrée par une méthode statistique basée sur l’information mutuelle.

Description des composants du système

La figure26 montre les différentes étapes proposées pour l’extraction de collocations, nous décrivons dans ce qui suit les principaux composants du système.

La méthode linguistique Méthode statistique (IM) Méthode linguistique GATE Exécution de l’application Ecriture de la règle JAPE Création du transducteur et d’une nouvelle application Extraction des collocations Choix du patron syntaxique Calcul de l’information Mutuelle Filtrage après fixation du seuil Collocations retenues Liste finale des collocations 

Le choix des patrons syntaxiques

Les patrons syntaxiques sont le schéma que doit respecter une suite de mots pour qu’elle soit considérée comme une collocation. Une collocation étant « l’emploi d’un terme relativement à d’autres, toutes variantes morphologiques confondues, et sans égard à la classe grammaticale » 48 . Une collocation est « la position d’un objet par rapport à d’autres au sein d’un ensemble, d’un mot par rapport à d’autres le long de la chaîne parlée49 ». Une collocation est donc une expression à mots multiples c’est à dire des unités lexicales constituées par plusieurs mots orthographiques tels que feu rouge en Français ou « ٌٞ ا أجش «en Arabe. Nous nous intéressons ici aux collocations formées de deux unités lexicales ou trois et respectant les schémas suivants :  Nom-NomPropre ( ه٘سع(  NomPropre-Nom)ٌٞي اى)  NomPropre-Adjectif)ٌٞاي ) nous considérons que les adjectifs tels que (ٌٞاي (deviennent des noms, lorsqu’ils sont déterminés (ٌٞي اى(. (ص٘د اىْجٜ) Nom-Nom   Adjectif-Nom )اىذابء َٞع) )صساثٜ ٍجث٘ خ(Adjectif-Nom   Nom-Préposition-Nom)سّ٘ ٚاي سّ٘) )اىََلئنخ ٝ ٖذُٗ( Verbe-Nom  )ٝزّفج اىشع٘ه( Nom-Verbe  48 http://www.cnrtl.fr 49 http://www.larousse.fr Chapitre 4 : Le système proposé 77 Figure 25: Exemple de collocations sous forme (NomPropre-Adjectif) Si le patron choisi est (Nom-NomPropre), le mot « » est alors le deuxième selon l’ordre de droite à gauche. Figure 26: Exemple de collocations sous forme (Nom-NomPropre) Des collocations respectant le schéma (Verbe-NomPropre) avec le NomPropre choisi toujours : . Nous obtenons : Figure 27: Exemple de collocations sous forme (Verbe-NomPropre) Il est à noter certains problèmes auxquels nous nous sommes confrontés, comme les particules agglutinées aux noms qui se sont affichées comme Nom-Nom ou Nom-Verbe et que nous avons refusé parce qu’alors le corpus était étiqueté ainsi. 2.2. GATE GATE, comme nous l’avons présenté dans la section 3.1.1 du chapitre 3, définit tout en termes de composants: des unités réutilisables spécialisées dans des taches spécifiques.

Formation et coursTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *