Mémoire Online: Transcription automatique de la parole spontanée

Sommaire: Transcription automatique de la parole spontanée

Table des ﬁgures
Liste des tableau
Acronymes
Introduction
1 Le projet ANR EPAC
2 Problématique
3 Structure du document
Partie I Contexte de travail et état de l’art
Chapitre 1: Reconnaissance de la parole
1.1 Principe de base
1.2 Extraction de paramètres
1.3 Modèles acoustiques
1.3.1 Modèles de Markov Cachés
1.3.2 Apprentissage
1.3.2.1 Techniques
1.3.2.2 Dictionnaire de phonétisation
1.3.2.3 Alignement phonème/signal
1.3.3 Adaptation
1.3.3.1 Méthode MLLR
1.3.3.2 Adaptation SAT-CMLLR
1.3.3.3 Méthode MAP
1.4 Modèle de langage
1.4.1 Modèle n-gramme
1.4.2 Estimation des probabilités
1.4.3 Lissage
1.4.4 Évaluation du modèle de langage
1.4.5 Mesures de conﬁance
1.4.5.1 Théorie
1.4.5.2 Évaluation des mesures de conﬁance
1.4.6 Évaluation des systèmes de RAP
1.5 Système du LIUM
1.5.1 Apprentissage
1.5.1.1 Données d’apprentissage
1.5.1.2 Vocabulaire
1.5.1.4 Modèles de langage
1.5.2 Transcription
1.5.2.1 Système de segmentation et de regroupement en locuteurs
1.5.2.2 Système de transcription multi-passes
1.6 Campagnes d’évaluation ESTER 1 et 2
Chapitre 2: Traitement de la parole spontanée
2.1 Spéciﬁcités de la parole spontanée
2.1.1 Les disﬂuences
2.1.1.1 Les pauses
2.1.1.2 Les troncations, répétitions et faux-départs
2.1.1.3 L’élision
2.1.1.4 Les hésitations
2.1.2 Autres phénomènes
2.1.2.1 Agrammaticalité
2.1.2.2 L’intonation
2.1.2.3 Le débit de parole et l’état émotionnel du locuteur
2.2 Gestion des disﬂuences
2.2.1 Objectifs
2.2.2 Détection automatique
2.2.3 Correction automatique
2.3 Impacts et solutions pour la reconnaissance de la parole
2.3.1 Modélisation acoustique
2.3.2 Modélisation linguistique
2.3.3 Dictionnaire de prononciations
2.3.3.1 Approche guidée par les données
2.3.3.2 Approche à base de connaissances
2.4 Conclusion
Chapitre 3: Homophonie
3.1 Description générale
3.1.1 Mots homophones sémantiquement différents
3.1.2 Mots homophones sémantiquement identiques
3.2 Systèmes de RAP et homophonie
3.2.1 Quelques particularités du français
3.2.2 Analyse des erreurs d’homophonie
3.3 Méthodes automatiques appliquées aux erreurs de reconnaissance des systèmes de RAP
3.3.1 Approches statistiques globales
3.3.1.1 Détection automatique des erreurs
3.3.1.2 Correction automatique des erreurs
3.3.2 Approches ciblées sur les homophones
3.3.2.1 Approches par règles linguistiques
3.3.2.2 Approches statistiques
3.3.3 Combinaison des approches
3.4 Conclusion
Partie II Contributions
Chapitre 4: Étude comparative de la parole préparée et spontanée en français
4.1 Caractérisation de la parole spontanée
4.1.1 Étiquettes et classes de spontanéité
4.1.2 Impact du degré de spontanéité
4.1.3 Extraction de caractéristiques de la parole spontanée
4.1.3.1 Caractéristiques prosodiques
4.1.3.2 Caractéristiques linguistiques
4.1.3.3 Mesures de conﬁance
4.2 Apprentissage automatique : le Boosting
4.2.1 Principe général
4.2.2 L’algorithme AdaBoost
4.3 Approche proposée
4.4 Détection automatique des segments de parole spontanée
4.4.1 Classiﬁcation au niveau du segment
4.4.2 Décision globale au moyen d’un modèle probabiliste
4.4.2.1 Présentation du modèle
4.4.2.2 Résolution de l’équation
4.5 Expériences
4.5.1 Données expérimentales
4.5.1.1 Corpus
4.5.1.2 Performances du système de RAP
4.5.1.3 Détection et catégorisation automatiques des segments de parole
4.5.2 Conclusion
Chapitre 5: Modélisation spéciﬁque de la parole spontanée pour la reconnaissance de la parole
5.1 Dictionnaire et variantes de prononciation
5.1.1 Analyse de variantes de prononciation spéciﬁques à la parole spontanée
5.1.2 Construction du nouveau dictionnaire de prononciations
5.1.3 Expériences
5.1.4 Résultats
5.1.5 Analyse des erreurs
5.1.5.1 Au niveau de variantes de prononciation
5.1.5.2 Au niveau du type de parole
5.1.5.3 Au niveau du segment
5.2 Adaptation des systèmes de RAP
5.2.1 Principe général
5.2.1.1 Adaptation non-supervisée des modèles acoustiques et de langage
5.2.1.2 Combinaison des systèmes
5.2.2 Adaptation automatique des modèles
5.2.2.1 Modélisation acoustique
5.2.2.2 Modélisation linguistique
5.2.3 Corpus
5.2.4 Expériences
5.2.4.1 Analyse du système adapté
5.2.4.2 Combinaison des systèmes
5.2.5 Conclusion
5.3 Approches spéciﬁques : le cas de l’homophonie en français
5.3.1 Approche proposée
5.3.1.1 Méthodologie générale
5.3.1.2 Règle grammaticale
5.3.1.3 Méthode statistique
5.3.2 Expériences réalisées
5.3.2.1 Mots et classes de mots étudiés
5.3.2.2 Outils
5.3.2.3 Données expérimentales
5.3.3 Résultats obtenus
5.3.3.1 Avec les règles grammaticales
5.3.3.2 Avec la méthode statistique
5.3.4 Conclusion
5.4 Résultats ﬁnaux des méthodes spéciﬁques
5.5 Perspectives
Conclusion et perspectives
1 Détecteur de la parole spontanée
2 Modélisation spéciﬁque des systèmes de RAP à la parole spontanée
2.1 Apprentissage non-supervisé des modèles acoustiques et linguistiques
2.2 Combinaison des systèmes
3 Correction d’erreurs spéciﬁques d’homophonie
4 Perspectives.
Bibliographie personnelle
Bibliographie
Résumé

Extrait du mémoire transcription automatique de la parole spontanée

1 Le projet ANR EPAC
Le projet EPAC, ﬁnancé par l’ANR 3 (Agence Nationale de la Recherche), concerne le traitement de données audio non structurées. Il met en scène quatre laboratoires académiques durant 44 mois :
–l’Institut de Recherche en Informatique de Toulouse (IRIT),
–le Laboratoire d’Informatique de Tours (LI),
–le Laboratoire d’Informatique d’Avignon (LIA),
–le Laboratoire d’Informatique de l’Université du Maine (LIUM).
Le projet EPAC propose des méthodes d’extraction d’information et de structuration de documents spéciﬁques aux données audio, en prenant en compte l’ensemble des canaux d’information: segmentation du signal (parole / musique / jingle. . . ), identiﬁcation et suivi du locuteur, transcription de parole, détection et suivi de thèmes, détection d’émotions, analyse du discours, interactions conversationnelles. . . Ces tâches de traitement du signal et de la parole sont en grande partie maîtrisées par les différents partenaires du projet dont la plupart ont participé aux campagnes d’évaluation ESTER (voir section1.6).
En particulier, ce projet met l’accent sur le traitement de la parole spontanée. Parmi les émissions radiophoniques ou télévisuelles d’information, la parole spontanée est souvent marginale: des techniques de détection et d’extraction de ce type de parole particulier doivent être proposées et développées. Le projet propose des méthodes de traitement de la parole spontanée en proposant des descripteurs pertinents et en développant les outils nécessaires à leur exploitation. Cette partie fut l’objet d’une collaboration entre chercheurs en linguistique (LI, LIUM) et chercheurs en traitement automatique de la parole (IRIT, LIA, LIUM). Enﬁn, un cadre d’évaluation commun aux différents acteurs du projet a été mis en place pour chacune des tâches étudiées. Cette évaluation portait sur une partie des 2 000 heures d’émissions radiophoniques disponibles, contribuant ainsi à la valorisation de ces données.
Le corpus, qui est réalisé dans le cadre du projet EPAC, se compose de transcriptions manuelles de 100 heures d’enregistrement audio. Ces transcriptions ont été annotées en partie grâce à une transcription assistée 4, le reste ayant été fait entièrement manuellement. Les enregistrements audio proviennent des 1 500 heures d’audio brut diffusées aux participants de la campagne ESTER 1. Il s’agit d’émissions de France Info, France Culture et RFI diffusées entre 2003 et 2004. Finalement, les sorties automatiques produites par les différents outils des partenaires du projet EPAC pour l’ensemble des 1 500 heures d’audio brut de ESTER 1 viennent s’ajouter à ces transcriptions manuelles.
2 Problématique
Dans le cadre du projet EPAC, l’un des objectifs ﬁnaux a été d’améliorer les systèmes de RAP sur la parole spontanée. Différents outils et solutions ont alors été apportés. La baisse des performances, pour ce type de parole, peut s’expliquer par ses multiples particularités que nous verrons dans la partie2.1. De plus, lorsque l’on traite d’émissions radiophoniques, différents styles de parole peuvent apparaître. Il est ainsi possible rencontrer de la parole proche d’un texte lu (type présentation d’un journal), ou, au contraire, de la parole plus spontanée (lors de débats ou d’interviews). L’objectif est de proposer des méthodes améliorant la reconnaissance de la parole sur la parole spontanée, sans dégrader les performances sur la parole préparée.
Différents objectifs sont alors attendus pour gérer la parole spontanée. Le premier objectif est de pouvoir fournir un détecteur automatique ﬁable de la parole spontanée. Le deuxième objectif est d’améliorer les systèmes de RAP sur ce type de parole. Le détecteur peut alors s’avérer très utile pour proposer des solutions spéciﬁques. Le dernier objectif de ce travail de thèse est de proposer une solution pour gérer le problème de l’homophonie, erreur récurrente dans les transcriptions automatiques fournies par les systèmes de RAP. Ce travail est en fait une extension de celui réalisé sur la parole spontanée, visant à fournir des solutions spéciﬁques pour traiter des problèmes particuliers de la parole.
………….

Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Mémoire Online: Transcription automatique de la parole spontanée (1.91 MB) (Rapport PDF)