Analyse discursive de documents pour le résumé automatique

Analyse discursive de documents pour le résumé automatique

Nous avons créé un système de résumé automatique générique, facilement adaptable à de nouvelles langues car fondé en grande partie sur des statistiques. Notre système utilise également un étiqueteur morpho-syntaxique, le tree-tagger, qui prend en charge onze langues différentes. Son utilisation permet de traiter plus efficacement la majorité des langues européennes. Nous avons également implémenté l’utilisation d’une ressource lexico-sémantique, WordNet, qui est inactive dès que l’on traite une langue autre que l’anglais. Cette généricité a un coût : CBSEAS ne peut pas rivaliser avec des systèmes qui traitent spécifiquement une langue en réalisant des traitements linguistiques poussés. C’est pourquoi nous proposons dans ce chapitre deux méthodes pour améliorer la qualité des résumés générés : d’un côté, l’intégration d’un outil de reconnaissance des entités nommées et de résolution d’anaphore, de l’autre la gestion fine de types de documents particuliers via l’identification de leur structure rhétorique. Cette deuxième partie a fait l’objet de deux publications, dans « TALN 2009 » et « RANLP 2009 », dont les références Les entités nommées « correspondent traditionnellement à l’ensemble des noms propres présents dans un texte, qu’il s’agisse de noms de personnes, de lieux ou d’organisations, ensemble auquel sont souvent ajoutées d’autres expressions comme les dates, les unités monétaires, les pourcentages et autres »(Ehrmann et Jacquet, 2006). Elles sont généra- lement très fréquentes en corpus et composent près d’un tiers des mots des corpus de dépêches que nous avons étudiés (corpus de la tâche « Résumé et mise à jour » de TAC 2008, corpus « Côte d’Ivoire » du projet Infom@gic). Reconnaître et traiter spécifiquement les entités nommées constitue une probléma- tique importante du fait de leur fréquence d’apparition et de l’intérêt que leur portent les utilisateurs de systèmes d’extraction d’information. De plus, les entités nommées sont souvent composées de plusieurs mots. Leur variabilité influence négativement leur pon- dération dans les différents calculs de CBSEAS. Reconnaître ces entités et regrouper les différents mots qui composent une même entité nommée pourrait permettre d’améliorer les calculs de CBSEAS sur les phrases.Les entités nommées sont sujettes à des variations morphologiques ainsi qu’à la prono- minalisation. Une même entité nommée peut donc avoir plusieurs réalisations différentes, comme illustré en figure 4.1. L’entité « Mark Felt » est exprimée par « Mark », « Felt », « Mark Felt Sr », et « Deep Throat ». Identifier les trois dernières réalisations comme référant à Mark Felt peut se faire via des systèmes à base de règles portant sur la forme des syntagmes. En revanche, la dernière réalisation pose problème, puisque l’on ne peut résoudre sa référence que par une analyse syntaxique et sémantique de l’extrait de phrase « Felt told he was « Deep Throat » ». Relier les différentes réalisations d’une entité nom- mée à un unique référent serait positif pour le calcul de similarité entre phrases. De plus, cela permettrait de compresser au maximum les résumés générés, en remplaçant toutes les entités nommées par leur réalisation la plus courte.

Résoudre les co-références améliorerait non seulement les différents calculs de similaritéde notre système, mais permettrait également de rendre les résumés générés plus lisibles. Un résumé doit en effet se suffire à lui-même, et doit donc être exempt de tout élément A retired FBI official, Mark Felt, was the « Deep Throat » source who leaked secrets to two Washington Post reporters about the Watergate scandal that brought down former president Richard Nixon, his family said Tuesday.Felt’s grandson, Nick Jones, made the claim in a statement read to reporters outside the family home in Santa Rosa, California, following an article in Vanity Fair in which Felt told the magazine he was « Deep Throat. » The identity of the person who provided Washington Post reporters Bob Woodward and Carl Bernstein with crucial information about the Watergate cover-up has been one of journalism’s most enduring mysteries.Woodward and Bernstein have said they will not reveal the identity of « Deep Throat » until his death. « My grandfather is pleased that he is being honored for his role as Deep Throat with his friend Bob Woodward, » said the statement read by his grandson Jones. « The family believes my grandfather, Mark Felt Sr., is a great American hero who went well and above the call of duty at much risk to himself, » the statement said. « We all sincerely hope the country will see him this way, as well. »Mark had expressed reservations in the past about revealing his identity and about whether his actions were appropriate for an FBI man, » the statement said. « But as he recently told my mother, I guess people used to think Deep Throat was a criminal. But now they think he’s a hero. »

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *