Construction d’ontologies à partir de textes arabes

Construction d’ontologies à partir de textes arabes

Le système proposé

Nous présentons dans ce chapitre une méthode hybride pour l’extraction des termes et des relations, nous avons d’abord procédé à l’extraction de termes simples à l’aide d’une approche statistique basée sur la métrique tf-idf. A la fin, nous avons établi une liste de termes simples. Pour extraire des termes composés, nous avons utilisé d’abord une approche linguistique en utilisant des patrons prédéfinis, puis nous avons filtré les résultats avec une approche statistique basée sur l’information mutuelle. Pour l’extraction des relations sémantiques, nous avons suivi le même modèle, d’abord nous appliquons une approche linguistique basée sur les marqueurs permettant de repérer des relations entre termes, puis nous avons validés les résultats par une approche statistique. Apres avoir défini quelques instances pour des concepts concrets, nous avons procédé à la formalisation des concepts (entités, relations et instances) avec la logique de description et avons donné à la fin un exemple d’opérationnalisation de l’ontologie. 2. Motivation L’objectif étant de fournir une plateforme pour la construction d’ontologies à partir de textes arabes, le premier corpus auquel nous pouvions penser était le Coran. Notre hésitation ne fit pas long feu. Le corpus était sur le web et un sérieux travail de prétraitement était entrain de se faire par des personnes des quatre coins du monde. Et si on disposait d’une ontologie du Coran ? Alors on pouvait l’utiliser dans l’indexation, la recherche d’information, la traduction automatique… (Bien que là c’est un peu trop ambitieux voire même prétentieux !). 62 Et pourquoi ne serait-elle pas une aide à découvrir de nouvelles interprétations avec toutes les relations conceptuelles dont on pouvait disposer ? L’horizon paraissait infini et le travail gigantesque, mais tout commence par un petit pas. C’est ce premier petit pas que nous avons tenu à faire, pour ouvrir la porte et permettre à d’autres de faire de grands pas de géants !

Objectif et Choix du Corpus

L’objectif initial était de fournir une plateforme pour la construction d’ontologies à partir de textes arabes. Pour ce faire il fallait disposer d’un corpus étiqueté sinon, il fallait se résoudre à commencer à faire un travail d’analyse du TALN qui consiste à construire un corpus et fournir les outils nécessaires pour le traiter. 3.1. Choix du premier corpus Par chance en discutant avec un chercheur John Funk40, j’ai su qu’il y avait un travail qui se faisait sur la construction du corpus coranique et qui était à l’étape d’étiquetage. Kais Dukes41 contacté, m’oriente sur le travail qu’il fait, en précisant qu’il est toujours entrain d’affiner l’étiquetage. Donc le choix était fait, reste à choisir une démarche à suivre. La méthodologie adoptée s’inspire de celle proposée par (Noy & Guiness, 2000) avec quelque modification selon le besoin. Parce que le travail était gigantesque et nous nous sommes résolu à simplifier certaines étapes comme l’édition et la détermination de tous les attributs et les axiomes et à en rajouter d’autres, comme la formalisation et l’opérationnalisation. Donc les points saillants de notre travail étaient l’extraction des termes et des relations. C’est sur ces deux taches qu’on va se focaliser le plus, sans oublier bien sur la formalisation à la fin. Le corpus choisi « The Quranic Arabic Corpus42 » ou The Crescent Corpus, était en cours de traitement et d’expansion, un travail mené par Dukes et auquel participaient des centaines d’autres personnes des quatre coins du monde. Le travail a suscité l’engouement de tellement de personnes qu’il est devenu plus énorme et ne cesse de s’améliorer. Beaucoup s’y sont intéressés, qui pour l’utiliser, qui pour y participer, Eric Atwell, Nizar Habash, Ahmed Abdelali et même Tim Buckwalter. Figure 17: Carte des utilisateurs du Crescent corpus (donné par Google analytics) Le projet a commencé par un étiquetage automatique des mots du Coran, nombre de personnes du domaine ont participé à des validations manuelles, puis l’étiquetage se raffinait peu à peu et une ontologie en anglais a vu le jour, et plus récemment une multi-interprétation vers l’Anglais.

Choix du deuxième corpus

Pour les besoins de certaines étapes de notre application, nous avons eu besoin de travailler sur un autre corpus, parce qu’alors nous avions besoin de comparer ou de discriminer les termes de notre corpus par rapport aux autres, nous avons eu recours à celui proposé par Al-Sulaiti43 (Atwell & al, 2004). C’est un corpus construit en XML à l’université de Leeds. Le corpus est divisé en 16 catégories dont la science, le sport, les biographies, les histoires pour enfant etc. La suite de ce chapitre sera organisée en quatre parties : La première sera consacrée à l’extraction des termes simples, la deuxième traitera l’extraction des termes composés, la troisième abordera l’extraction des relations, quant à la dernière, elle présentera la formalisation des concepts.