Segmentation en phrases par étiquetage de séquence

Segmentation en phrases par étiquetage de séquence

Il a été remarqué dans la section 2.2 que la segmentation en phrases demandait une attention particulière dans le cadre du résumé de parole par extraction (Rappelons que Mrozinski et al. (2006) ont observé une forte réduction de la qualité des résumés de parole fondés sur une segmentation automatique par rapport à une segmentation manuelle). Dans la littérature, le problème de segmentation en phrases est généralement reformulé en un problème d’identification de frontières de phrases (étiquetage de séquence). La transcription automatique est employée pour générer une suite de mots et des frontières (événement binaire B) sont recherchées entre les mots. La décision est généralement issue d’une combinaison de paramètres prosodiques (événement S) et linguistiques (événement L). Trouver des frontières de phrases est loin d’être facile, en attestent par exemple Stevenson et Gaizauskas (2000), qui évaluent les performances d’annotateurs humains sur la reponctuation d’un texte, et qui observent qu’il est beaucoup plus facile de reponctuer un flux de mots contenant les majuscules d’origine (F1-mesure de 0.95) qu’en l’absence de ces marqueurs (F1-mesure de 0.80), comme dans le cas d’une transcription automatique. La majorité des approches sont fondées sur des modèles probabilistes tentant de prédire la séquence B en fonction de S et L. Gotoh et Renals (2000) constituent un modèle pour chacune des modalités (S et L) sur des ensembles de données séparés. La probabilité linguistique P(B, L) qu’une frontière de phrase précède un mot est modélisée à partir de données textuelles disponibles en masse ; l’implication de la prosodie P(B, S) est modélisée à partir des durées de pauses sur un corpus acoustique de plus petite taille. Les deux modèles sont fusionnés grâce à une heuristique1 . Shriberg et al. (2000) étudient les différentes caractéristiques prosodiques en profondeur : les pauses, le rythme phonétique ou syllabique, la pente de fréquence fondamentale (f0) et sa continuité, les sauts de f0, l’écart à la moyenne de la f0, et la qualité de voix. Les valeurs sont fonction du locuteur ou d’un locuteur moyen lorsque les données sont insuffisantes. En plus de ces paramètres, la décision repose sur la durée des phrases et les changements de locuteurs (segmentation manuelle en locuteurs). Un arbre de décision donne une sélection des paramètres les plus pertinents et ces derniers servent à construire un modèle de séquence génératif. Les paramètres les plus efficaces sur des données radio-diffusées semblent être les pauses et les changements de locuteurs. Liu et al. (2005) continuent ce travaux en comparant des approches HMM, maximum d’entropie et CRF pour l’étiquetage de la séquence : ce dernier modèle s’avérant être le plus efficace (une fusion des trois apporte un gain complémentaire). Il est intéressant de noter que la décision prosodique sur la frontière est prise avant l’inclusion dans le modèle de séquence. Des travaux similaires de (Kim et al., 2004) intègrent des arbres de décision avec un système de détection de difficultés de prononciation. La tâche de détection de frontières de phrase (en anglais, Sentence Unit Boundary Detection, SUBD) a été évaluée lors des éditions 2002 à 2004 des campagnes Rich Transcription « automne » (RT-fall), organisées par NIST. Les données de référence reposent sur un guide d’annotation (Strassel, 2003) 2 précisant que la notion de phrase à l’oral (nommée « unité syntagmatique ») est différente de l’écrit. Les différences sont avant tout grammaticales ; les unités sont classées selon leur type (déclarations, questions, éléments phatiques et unités incomplètes). La mesure de performance NIST est le taux d’erreur sur les frontières (nombre de frontières oubliées, ajoutées ou de mauvais type, divisé par le nombre de frontières dans la référence : équation 4.1 dans laquelle nb(·) est le cardinal d’un ensemble de frontières). SBerr = nb(oubli) + nb(ajout) + nb(mauvais type) nb(référence) (4.1) Sur des données radio-diffusées, Liu et al. (2005) aboutissent à un taux d’erreur de 0.54 (sans prendre en compte les erreurs de type). Cette valeur correspond à une F1-mesure d’environ 0.70, proche des performances annoncées par les autres auteurs. La détection de frontières de phrases que nous avons mise en place pour le résumé de parole est similaire à l’approche de Liu et al. (2005). En restant dans le cadre de l’étiquetage bi-classe de la séquence de mots, nous appliquons un modèle CRF sur des caractéristiques prosodiques et linguistiques. Ces dernières sont issues de la chaîne de structuration Speeral. Les frontières de phrases sont recherchées dans les émissions de radio en français de la campagne ESTER.

Conditional Random Fields

Conditional Random Fields (CRF, Lafferty et al., 2001) est un cadre probabiliste discriminant pour l’étiquetage de séquences. Au lieu de modéliser la probabilité jointe d’apparition des séquences d’observation et des séquences d’étiquettes comme le fait une approche générative telle que HMM, CRF repose sur la probabilité conditionnelle de l’étiquetage sachant l’ensemble de la séquence. Les méthodes à maximum d’entropie de Markov (MEMM) recherchent aussi à maximiser cette probabilité conditionnelle, mais de façon locale. Ceci pose des problèmes au niveau des hypothèses partielles débouchant sur un petit nombre de successeurs car ils sont systématiquement préférés aux chemins de plus grande entropie. Cet effet est décrit sous le nom d’effet du biais des étiquettes par Lafferty et al. (2001).Appliquons CRF à une tâche de segmentation en phrases : B est une séquence d’étiquettes (B = 1 pour une frontière de phrase, B = 0 pour une absence de frontière) ; X est une séquence d’observations prosodiques et linguistiques. Le modèle conditionne la séquence B sur l’ensemble de la séquence X (figure 4.1). La meilleure hypothèse d’étiquetage est celle qui maximise la probabilité P(B|X). Cette probabilité est estimée par une distribution de forme exponentielle satisfaisant des caractéristiques sur des données d’apprentissage (équation 4.2).L’inférence des paramètres λi se fait par maximisation de la vraisemblance conditionnelle sur un ensemble de données étiquetées. Le maximum de cette fonction logconcave est découvert par des méthodes de maximisation classiques, comme Generalized Iterative Scaling (GIS, Darroch et Ratcliff, 1972), Improved Iterative Scaling (IIS, Della Pietra et al., 1997), ou Limited-memory Broyden-Fletcher-Goldfarb-Shanno (LBFGS, Liu et Nocedal, 1989), qui s’avère être la plus rapide. Ces méthodes sont comparées dans (Malouf, 2002). La dépendance des étiquettes sur l’ensemble de la séquence d’observation rend l’apprentissage beaucoup plus coûteux que pour un maximum d’entropie local classique. L’étiquetage d’une séquence nouvelle se fait par programmation dynamique.

La boîte à outils CRF++

L’ensemble de nos expériences sur la détection de frontières de phrases repose sur CRF++3 , une boîte à outils pour l’étiquetage de séquences fondée sur CRF. CRF++ implémente un apprentissage dont l’optimisation repose sur une méthode de quasiNewton (LBFGS) et un décodage grâce à l’algorithme Viterbi. Cette boîte à outils a été utilisée avec succès pour de nombreuses tâches de traitement automatique du langage naturel comme la désambiguïsation sémantique, la décomposition en groupes grammaticaux, l’étiquetage morpho-syntaxique ou encore la détection d’entités nommées (Kudo et al., 2004).

Traits acoustiques et linguistiques

Nous suivons les approches classiques pour la segmentation en phrases en recherchant des frontières potentielles uniquement entre les mots et en fixant l’événement B = 1 si une frontière a précédé un mot et B = 0 dans le cas contraire. La prédiction de la présence d’une frontière de phrase avant un mot dépend de caractéristiques linguistiques et acoustiques que nous allons décrire (voir table 4.1). Au niveau linguistique, les mots et leurs catégories morpho-syntaxiques modélisent les phénomènes grammaticaux de la séquence. La catégorie morpho-syntaxique des mots est trouvée grâce à lia_tagg4 . Cet étiqueteur repose sur un dictionnaire d’étiquettes possibles par mots et effectue l’étiquetage dans un cadre HMM. Alors que certains couples syntaxiques, comme «le déterminant et le nom », qui ne doivent pas être séparés par une frontière de phrase, sont plutôt bien capturés par cette modélisation, d’autres groupes comme «le verbe et son complément » sont moins faciles à détecter sans une modélisation plus approfondie de la grammaire. Si les éléments linguistiques sont utiles pour reponctuer un texte, ils peuvent être faussés par les erreurs de transcription, d’étiquetage morphosyntaxique et le manque relatif de grammaire de la langue parlée. Pour y remédier, il faut associer des caractères acoustiques aux indices linguistiques, comme les changements de locuteur et quelques éléments de prosodie. Les changements de locuteurs sont issus, comme la séquence de mots, de la chaîne de transcription et employés tels quels sans prendre en compte les identités retrouvées. En terme de prosodie, les pauses sont explorées à deux niveaux : avant le mot et à l’intérieur du mot pour essayer d’éviter de prendre les hésitations pour des fins de phrase. De plus, comme il est difficile de profiter des informations apportées par la courbe de fréquence fondamentale (f 0), nous utilisons seulement sa pente globale, sur trois horizons temporels différents (le mot, une fenêtre allant de 4 secondes avant le début du mot jusqu’à sa fin et une fenêtre allant de 8 secondes avant le début du mot jusqu’à sa fin). Bien que cette approche ne soit pas optimale, elle permet tout de même de modéliser les grands phénomènes macroprosodiques de la phrase. Toutefois, certaines caractéristiques sont perdues, comme les effets du rythme prosodique ou syllabique connus pour ralentir en fin de phrase. Les CRF++ facilite la génération des fonctions caractéristiques en utilisant des patrons de conjonction d’événements de X et B. Dans notre implémentation, une frontière de phrase potentielle est conditionnée par des séquences n-grammes de chaque type de caractères linguistiques et acoustiques autour du mot à étiqueter et par la conjonction des séquences précédentes (illustrées par la figure 4.2). La boîte à outils est cependant limitée dans sa version actuelle à des caractéristiques symboliques. Cette limitation implique la quantification des valeurs continues comme la durée des pauses ou la pente de fréquence fondamentale. La quantification se fait sur une fenêtre glissante en utilisant une répartition uniforme en n classes5 . Cette approche permet de normaliser les valeurs lors de changements de locuteurs et d’environnement.

Extraction d’entités nommées dans le flux de parole

Les entités nommées sont des entités du monde « réel », dont la forme linguistique est une représentation directe dénuée d’ambiguïté. Notamment, lorsqu’une de ces entités se retrouve dans le discours de plusieurs personnes, il est considéré que ces différentes références ont le même antécédent. Bien que cette affirmation soit loin d’être vraie dans le cas général, les types d’entités recherchés doivent s’en approcher le plus possible. Par exemple, « une table » est un concept qui se réfère à un objet dans un contexte donné. Dans un autre contexte, le locuteur se référera généralement à une autre entité. En revanche, dans un domaine journalistique, les noms propres se réfèrent à des objets considérés comme uniques, dont la forme linguistique peut être séparée de son contexte sans rendre la référence ambiguë. Ce type de comportement est très intéressant dans le cadre de l’analyse sémantique indispensable pour le résumé car la projection depuis la linguistique devient transparente. Dans le cadre de l’extraction de descripteurs sémantique de journaux radio diffusés, les entité nommées sont étendues à certaines quantités fortement porteuses d’information dans ce domaine. Les entités recherchées sont de deux types : entités uniques basées sur des noms propres (personnes, lieux, organisations…) et entités basées sur des séquences de noms communs (dates, quantités monétaires, distances…). Les majuscules des noms propres sont de bons indicateurs de la présence d’entités du premier type et les valeurs numériques sont de bons indicateurs de la présence du second type d’entité

Télécharger le cours complet