Combinaison d’Approches pour les Résumés Automatiques de Textes Arabes

Combinaison d’Approches pour les Résumés
Automatiques de Textes Arabes

Classification des Systèmes de Résumé Automatique

Différentes taxonomies sont proposées par les auteurs pour la classification des systèmes de résumé automatique. Chaque auteur propose sa propre classification selon ses propres critères. Selon Jones [JONE, 1999], les systèmes de résumé automatique sont classés selon trois critères: source, objectif, et sortie. Tandis que Mani et Maybury [MANI, 1999a] ont proposé une classification en se basant sur le niveau de traitement. Ainsi, compte tenu de toutes les taxonomies proposées, les systèmes de résumé automatique peuvent être classés selon les critères suivants (voir Figure 1-1) : L’entrée (input) : l’entrée d’un système de résumé automatique peut être un seul document ou un ensemble de documents. Ainsi, un système de résumé automatique peut être monodocument ou multi-document. Dans les systèmes multi-document, Le résumé doit contenir les informations les plus pertinentes contenus dans tous les documents, notons que si ces documents sont liés par un sujet commun, il risque d’y avoir de nombreuses informations communes [BLAI, 2008], de ce fait le résumé construit doit alors éviter toutes forme de redondance d’information. Le style de la sortie (style of output): selon le style de la sortie, on distingue deux classes de système: indicatif et informatif. Indicatif : fait intervenir la notion de thématisassions, c’est-à-dire qu’il ne présente au lecteur que les thèmes développés dans le document source [MANI, 2001]. Le résumé indicatif tend à fournir au lecteur les principaux sujets abordés pour qu’il puisse juger s’il doit consulter ou non le texte source. Informatif : fournit une information générale sur tous les points essentiels du document source en cherchant à couvrir tous les sujets traités par le document. Il est plus difficile à produire puisqu’il nécessite un processus complexe de compréhension/généralisation de l’information. Les résumes informatifs sont souvent utilisés comme une vue d’ensemble de documents source. Ils sont appropriés pour répondre aux besoins d’un utilisateur qui veut obtenir une vision globale et générale du contenu d’un document. SUMUM [SAGG, 2002a] est l’un des systèmes de résumé automatique qui fournit en sortie des résumés indicatifs et informatifs. L’approche employée: Les méthodes de production de résumés automatiques de texte peuvent être regroupées en deux familles : extractives et abstractives. On distingue, ainsi, des systèmes de résumé par extraction et des systèmes par abstraction. Systèmes de résumé par abstraction (Abstarctive text summarization systems): dans ces systèmes, le résumé produit est comparable à ce que fait un être humain, qui lit un texte, le résume et le reformule avec ses propres mots. Un abstrait contient habituellement des paraphrases des phrases du texte d’entrée, et permet un haut niveau de condensation. Système de résumé par extraction (Extractive text summarization systems): produit des résumés composés des segments extraits du texte source. Aucun processus de génération n’est accompli. L’idée principale sous-jacente à une méthodologie par extraction consiste à identifier les parties les plus importantes du texte source et à les extraire pour former un résumé. Ces méthodes sont fondées sur l’hypothèse qu’il existe, dans tout texte, des unités textuelles saillantes. Elles emploient un algorithme de sélection fondé sur des connaissances statistiques ou linguistiques pour sélectionner une liste d’unités textuelles qui constitueront le résumé (extrait). Par abus de langage, le mot résumé en Français ne fait pas la distinction entre un extrait et un abstrait, et génère, alors, une certaine ambigüité. Par contre en Anglais, il y a peu d’ambigüité entre les deux termes ‘summary’ et ‘abstract’. Ainsi les deux termes ‘summarization’ et ‘abstraction’ désignent respectivement la génération automatique d’un extrait et d’un abstrait. L’objectif (purpose): selon l’objectif voulu, un système de résumé automatique peut être: générique, Guidé, ou mis à jour. Générique : consiste à produire des résumés tout en préservant les thématiques principales et sans considérer les besoins d’information du lecteur. Cette tâche, qui paraît être simple, pose plusieurs difficultés. Parmi lesquelles, le type de document que l’on veut résumer. en effet, il est plus ou moins facile de résumer des articles de presse et quasiment impossible de résumer des œuvres littéraires [MIHA, 2007] Guidé : consiste en la production d’un résumé qui satisfait les besoins d’information d’un utilisateur. Ces besoins sont généralement exprimés au moyen d’une requête et doivent permettre au système d’isoler les parties de document concernant une thématique bien précise [BOUD, 2008]. L’objectif est de produire un résumé de document incluant uniquement les passages en rapport direct avec la thématique demandée. Mis à jour (update summary) : dans ce type de système, on suppose que le lecteur a déjà lu les documents et leurs résumés sur un sujet bien spécifié. Le résumé mis à jour se contente donc de montrer seulement les nouveautés importantes, tout en évitant la redondance d’information avec les documents déjà lus par l’utilisateur. Les résumés mis à jour ont été introduits lors de la campagne d’évaluation DUC (Document Understanding Conference) en 2007 (cette campagne sera décrite dans la section 5.2), afin d’améliorer la qualité du résumé lorsque l’on dispose de plus d’informations à propos des connaissances et des attentes de l’utilisateur [BOUD, 2008 ].

Architecture Générale d’un système de Résumé Automatique

D’après Bawakid [BAWA, 2011], la génération automatique d’un résumé passe par trois étapes : le prétraitement, l’analyse et la génération de résumé, comme illustré dans la figure 1-2. Ces étapes sont partagées par tous les systèmes de résumé disponibles. Les détails de l’implémentation de ces étapes sont ce qui rend un système différent de l’autre.

Le prétraitement

La première étape dans tout système de résumé automatique concerne le prétraitement des données d’entrée qui sont : le document à résumer, la requête utilisateur (dans les systèmes guidés) et éventuellement le taux de compression. Le système analyse d’abord ces données, puis il prépare et converti le document en un format acceptable par le module d’analyse. Les symboles inutiles non traitables par le système vont être supprimés à ce niveau. le document est segmenté en phrase en se basant sur quelque marques de ponctuation comme « . » et « ? ». Des informations supplémentaires peuvent être étiquetées à chaque phrase comme sa position dans le document et/ou dans le paragraphe. Dans des systèmes qui emploient des techniques numériques, d’autres traitements peuvent être employés comme le stemming qui consiste à convertir chaque mot à sa forme racine ainsi que la suppression des mots vides. Tandis que dans les systèmes qui génèrent des abstraits, cette étape consiste à déterminer une représentation indiquant les sujets abordés et comment ils changent dans le texte [LIOR, 2012].

L’analyse

A ce niveau, le système doit évaluer et sélectionner l’information pertinente du document Généralement, un score est attribué à chaque phrase du document en fonction de son importance. Ce score est calculé en fonction de certains critères spécifiques comme la position de la phrase, la fréquence des termes..etc. Les phrases ayant les scores les plus élevés sont considérées les plus importantes. Dans les systèmes qui génèrent des abstraits, les techniques de simplification et de compression de phrases sont aussi employées à ce niveau [BAWA, 2011].

La génération du résumé

La génération automatique de résumé consiste à fusionner et reformuler les phrases/clauses précédemment identifiées. Comme cette étape n’est pas facile à aborder, les approches de résumé par extraction ne se concentrent que sur les deux premières étapes, en extrayant simplement les phrases considérées importantes (les mieux classées) telles qu’elles apparaissent dans les documents [LIOR, 2012], puis les assembler pour produire le résumé. Le nombre de phrases extraites dépend du taux de compression spécifié par l’utilisateur. 5. Description de deux Approches: Extraction vs. Abstraction Comme cela a déjà été mentionné dans la section 3, les approches de génération automatique de résumé peuvent être regroupées en deux catégories: l’extraction et l’abstraction. Les approches par abstraction sont fondées sur une compréhension profonde du texte et cherchent à produire des résumés de qualité en utilisant des sources de connaissance. Très peu de système ont été créés sous cette optique vu la complexité de la mise en œuvre de ces approches [LIOR, 2012]. En revanche, les approches par extraction se contentent de sélectionner les phrases qui semblent importantes en se basant sur plusieurs critères puis de les assembler pour produire le résumé. Ces approches sont généralement simples à implémenter et ne nécessitent que certains aspects linguistiques [TORR, 2011]. Dans ce qui suit, une description globale de ces deux courants de recherche sera présentée. Une étude plus détaillée focalisée sur les approches par extraction fera l’objet du prochain chapitre.

Approches de résumé par extraction

Les approches de résumé automatique par extraction peuvent être catégorisées en deux groupes: les approches numériques et les approches linguistiques. Nous englobons dans le champ des approches numériques tout ce qui renvoie à des techniques calculatoires sur des valeurs numériques, à savoir les approches statistiques, les approches à base de graphe et les approches à base de l’apprentissage automatique. Les approches statistiques prennent comme critère de pertinence une valeur numérique attribuée à un segment textuel, calculée par une fonction de score portant sur un ou plusieurs critères [BLAI, 2008], tels que la position de la phrase, les mots-clés, les expressions indicatives…etc. Un segment textuel est alors extrait si son poids est suffisamment élevé par rapport à un seuil ou par rapport au poids des autres segments. Plusieurs travaux dans la littérature ont adopté des approches statistiques pour produire des résumés automatiques, toutefois nous n’en citerons dans ce chapitre que deux pour illustration : les travaux de Luhn [LUHN, 1958], et ceux de Edmundson [EDMU, 1969] qui sont considérés les premiers travaux portant sur la production de résumé automatique de textes. Luhn a décrit une technique spécifique aux articles scientifiques qui utilise les fréquences des mots dans le document pour pondérer les phrases. Un peu plus tard Edmundson [EDMU, 1969] a étendu ces travaux en tenant compte de la présence des mots provenant de la structure du document (i.e. titres, sous-titres, etc.) et des expressions indices ainsi que la position des phrases. Il est à noter 15 [Chapitre 1 : Résumé Automatique de Textes] que l’approche proposée par Edmundson [EDMU, 1969] peut être employée uniquement dans les documents ayant une structure fixe, comme le titre, la section, le paragraphe..etc. Par ailleurs, d’autres systèmes de résumé automatique sont basés sur les techniques de l’apprentissage automatique. A titre d’exemple Kupiec et al. [KUPI, 1995] ont développé un système de résumé automatique basé sur le classifier bayésien naïf. Lin [LIN, 1999] a utilisé les arbres de décision pour modéliser la problématique d’extraction de phrases. Son système s’est avéré être globalement plus performant. Le deuxième groupe des approches par extraction regroupe celles de nature linguistique qui s’appuient, pour évaluer la pertinence des segments textuels, sur la présence de marqueurs linguistiques et particulièrement sur certaines de leurs propriétés sémantiques ou discursives, sans essayer de faire appel à une quelconque forme d’évaluation quantitative de la pertinence. Ce type d’approches admet souvent l’hypothèse que certaines marques de surface dans un contexte textuel bien précis permettent d’affecter une valeur sémantique ou rhétorique à la phrase ou la proposition qui les contient, et ainsi de connaître sa pertinence dans le texte afin de l’extraire pour construire le résumé. Certaines de ces approches sont fondées sur la théorie de la structure rhétorique [MANN, 1988] qui vise à exploiter la structure discursive du document pour en produire le résumé. Il est à noter que la majorité des systèmes qui exploitent ces approches linguistiques, utilise conjointement des techniques statistiques formant ce qu’on appelle des approches hybrides. L’avantage principal de l’approche par extraction est de ne pas passer par une analyse en profondeur du texte [BLAI, 2008], ce qui permet de produire un résumé de façon plus simple sans également devoir générer du texte automatiquement. Mais l’inconvénient de cette approche porte sur les mauvaises liaisons entre les segments extraits, et ainsi le manque de la cohérence du résumé produit. Néanmoins, cette approche reste actuellement la plus adéquate dans un cadre pratique et applicatif [LIOR, 2012].

Table des matières

Introduction Générale
1 Contexte
2 Motivations et Objectifs
2 Contributions
4 Organisation de la thèse
1. Résumé Automatique de Textes
1 Introduction
2 Qu’est-ce qu’un résumé automatique
3 Classification des systèmes de résumé automatique
4 Architecture globale d’un système de résumé automatique
5 Description de deux approches : extraction vs abstraction
5.1 Approches de résumé par extraction
5.2 Approches de résumé par abstraction
6 Evaluation du résumé automatique
6.1 Méthodes d’évaluation
6.1.1 Évaluations extrinsèques
6.1.2 Évaluations intrinsèques
6.1.2.1 Méthodes d’évaluation automatique
6.1.2.2 Evaluation manuelle de résumé automatique
6.2 Les campagnes d’évaluation
7 Applications de résumé automatique de textes
8 Conclusion
2. Approches de Résumé Automatique de Textes
1 Introductio
2 Approches de résumé automatique
2.1 Les approches statistiques
2.2 Approches basées sur l’apprentissage automatique
2.2.1 Approches basées sur l’apprentissage supervisé
2.2.2 Approches basées sur le clustering
2.3 Approches basées sur les graphes
2.4 Approches basées sur l’analyse de discours
2.4.1 La théorie de la structure rhétorique (RST)
2.4.2 Méthodes de résumé basées sur la RST
2.5 Les Approches basées sur l’analyse sémantique
3 Le résumé automatique de textes Arabes
4 Corpus disponibles pour le résumé automatique en langue Arabe
5 Conclusion
3. Annotation Rhétorique d’un Corpus Arabe
1 Introduction
2 La construction du corpus
3 Etapes de l’annotation rhétorique
3.1 Détermination des relations rhétoriques Arabes
3.1.1 Méthodologie suivie
3.1.2 Définition des relations rhétoriques Arabes
3.2 Elaboration du manuel d’annotation
3.2.1 Segmentation des textes
A. Principes de base
B. Les Règles de segmentation
3.2.2 Détermination du statut rhétorique
3.3 Annotation du corpus
3.3.1 Processus d’annotation
3.3.2 Détails statistiques du corpus annoté
4 Conclusion
4. Identification Automatique des Relations Rhétoriques
Arabes
1 Introduction
2 Travaux Connexes
3 Le modèle proposé
4 Expérimentations
5 Résultats et Analyses
5.1 Résultats globaux
5.2 Classification des relations fines.
5.3 Classification des relations fusionnées
6 Conclusion
5. Nouvelle Approche Pour le Résumé Automatique de Textes Arabes
1 Introduction
2 Approche proposée
3 Etapes de génération de résumé
3.1 La phase de l’analyse rhétorique
3.1.1 Segmentation du texte source
3.1.2 Identification des relations rhétoriques
3.1.2 Compression des phrases
3.2 La phase de traitement statistique
3.2.1 Prétraitement du résumé primaire
3.2.2 Pondération et classement des phrases
3.2.3 Génération du résumé final
4 Evaluation de l’approche proposée
4.1 Evaluation Automatique
4.1.1 Métriques d’évaluation
4.1.2 Résultats et analyse
4.2 Evaluation manuelle
4.2.1 Démarche suivie
4.2.2 Résultats et analyse
5 Conclusion
Conclusion Générale et Perspectives
Références Bibliographiques