Mémoire Online: Auto-adaptation et reconnaissance automatique de la parole

Sommaire: Auto-adaptation et reconnaissance automatique de la parole

Liste des tableau
Introduction : Contexte applicatif
1 Contexte
2 Problématique
3 Adaptation synchrone / asynchrone
4 Structure du document
Partie I Transcription d’enregistrements
Chapitre 1: Méthodes et outils pour la reconnaissance automatique de la parole
1.1 Introduction
1.2 Contexte
1.3 Vue générale d’un système de reconnaissance automatique de la parole
1.3.1 Paramétrisation du signal.
1.3.2 Dictionnaire de phonétisations
1.3.3 Les modèles acoustiques.
1.3.4 Les modèles de langage
1.3.5 Segmentation en locuteur
1.3.6 Décodage
1.3.7 Métrique
1.3.8 Performances.
1.3.9 Correction des transcriptions automatiques.
1.4 Conclusion
Partie II Assistance automatique à la transcription manuelle
Chapitre 2: État de l’art
2.1 Introduction
2.2 Stratégies d’afﬁchage pour l’assistance à la correction de transcriptions.
2.3 Traduction assistée par ordinateur.
2.4 Réordonnancement des hypothèses.
2.5 Conclusion.
Chapitre 3: Methode proposée
3.1 Réordonnancement automatique des hypothèses de reconnaissance
3.2 Méthode proposée
3.2.1 Principe
3.2.2 Application
3.2.3 Exemple
3.3 Modèle cache.
3.4 Mots hors vocabulaire
Chapitre 4: Expériences et résultats
4.1 Corpus & SRAP
4.2 Métriques.
4.3 Résultats
4.3.1 Sans utiliser la méthode de réordonnancement automatique
4.3.2 En utilisant la méthode de réordonnancement automatique
Chapitre 5: Conclusion : Assistance automatique à la transcription manuelle
Partie III Phonétisation automatique
Chapitre 6: État de l’art : méthodes de phonétisation
6.1 Introduction
6.2 Système à base de règles
6.3 Systèmes guidés par les données
6.3.1 Prononciation par classiﬁcations locales
6.3.2 Prononciation par analogie
6.3.3 Utilisation des données acoustiques
6.4 Conclusion
Chapitre 7: Méthode proposée
7.1 Introduction
7.2 Méthodes de G2P utilisées pour construire le dictionnaire initial.
7.2.1 Système à base de règles
7.2.2 Corpus parallèle (bitext)
7.2.3 Système à base de modèles à séquences jointes (JSM)
7.2.4 Utilisation d’un système SMT (Statistical Machine Translation)
pour la conversion G2P
7.3 Extraction de phonétisations à l’aide d’un DAP
7.4 Filtrage des variantes de phonétisation
7.4.1 Motivation
7.4.2 Méthodes
7.5 Méthode itérative de génération des phonétisations
7.5.1 Résumé de la méthode
Chapitre 8: Expériences et résultats
8.1 Expériences
8.1.1 Corpus
8.1.2 Modèles acoustiques et linguistiques
8.1.3 Métrique
8.2 Résultats
8.2.1 Nombre de variantes de phonétisation par nom propre
8.2.2 En utilisant une seule itération globale (alignement / extraction /ﬁltrage)
8.2.3 En utilisant le processus itératif complet
Chapitre 9: Conclusion : Phonétisation automatique
Chapitre 10: Conclusion et perspectives
10.1 Réordonnancement automatique des hypothèses de reconnaissance
10.1.1 Méthode proposée
10.1.2 Perspectives
10.2 Phonétisation automatique des noms propres
10.2.1 Méthode proposée
10.2.2 Perspectives
10.3 Perspectives générales
Annexe A : Applications pour la transcription manuelle
A.1 Transcriber
A.2 Praat
A.3 WinPitch
A.4 XTrans
A.5 Conclusion
Acronymes
Bibliographie personnelle
Bibliographie
Résumé

Extrait du mémoire auto-adaptation et reconnaissance automatique de la parole

Introduction : Contexte applicatif
1 Contexte
La société Spécinov, SSII (Société de Services en Ingénierie Informatique) située à Trélazé dans le Maine et Loire, souhaite réaliser une application d’aide à la gestion de réunions qui intègrerait un Système de Reconnaissance Automatique de la Parole (SRAP). De nombreuses situations nécessitent de garder des traces des réunions, comme leurs enregistrements sonores et leurs transcriptions. Ces transcriptions sont actuellement réalisées manuellement en saisissant dans un logiciel de traitement de texte les mots prononcés par les locuteurs. Une autre méthode consiste à conﬁer le travail de transcription à un sténotypiste. Celui-ci est formé à utiliser un appareil, appelé sténotype, proche d’une machine à écrire permettant de saisir le ﬂux de parole sous forme de caractères spéciaux (sténogrammes) basés sur les syllabes prononcées.
Ces sténogrammes sont ensuite transformés automatiquement à l’aide d’un logiciel spécialisé (par exemple TASF+ développé par IBM) en une suite de mots ; ceci avec un nombre d’erreurs non négligeable qui seront ensuite corrigées manuellement. Dans les deux cas, le coût des transcriptions est élevé. Dans le premier cas, la transcription manuelle est faite en plus de 10 heures pour obtenir la transcription d’une heure de réunion. Dans le second cas les sténotypistes ne sont pas nombreux, leur formation est longue et difﬁcile, ce qui justiﬁe le montant élevé de leurs prestations. Bien que les technologies de transcription automatique aient des performances correctes dans des contextes d’utilisation connus et contrôlés (conditions d’enregistrement, vocabulaire du métier), la qualité n’est pas encore sufﬁsante pour permettre une exploitation
directe des transcriptions. Pour le français, dans de bonnes conditions d’enregistrement, environ un mot sur dix comporte une erreur dans les résultats des meilleurs systèmes de transcription automatique [Galliano 2005]. Actuellement, il est donc nécessaire d’effectuer des corrections manuelles en écoutant quasi intégralement l’enregistrement pour corriger les erreurs de transcription.
Les travaux présentés dans ce document proposent des outils pour faciliter et accélérer cette phase de validation, inéluctable au vu de la maturité actuelle des systèmes de transcription.
La collaboration entre la société Spécinov et le LIUM (Université du Maine), matérialisée par la mise en place de ma thèse dans le cadre d’une convention CIFRE (Conventions Industrielles de Formation par la REcherche), a pour objectif de fournir des outils d’aide à la correction de textes générés automatiquement par un système de reconnaissance de la parole, en intégrant dans le processus de correction le système de transcription automatique lui-même. Ces outils seront utilisables sans formation supplémentaire par un utilisateur maîtrisant les outils standards de l’informatique. L’outil d’aide à la gestion de réunion visé par la société Spécinov intègrera une méthode d’indexation automatique des réunions transcrites, aﬁn de pouvoir naviguer aisément entre les différents documents disponibles. Un soin particulier devra être apporté à la qualité de la transcription des noms des participants qui semble être un élément discriminant et important pour cette tâche. En effet, rechercher les interventions d’un participant dans divers documents audio pourrait être l’une des fonctionnalités envisagées.
2 Problématique
Les systèmes de reconnaissance de la parole sont développés pour une tâche donnée dans un contexte d’utilisation connu, comme par exemple la transcription d’émissions radiophoniques et télévisées, ou la transcription de conversations téléphoniques. Les performances des systèmes de transcription sont bonnes lorsque deux éléments critiques sont bien maîtrisés : la qualité de la prise de son et la disponibilité d’enregistrements représentatifs du contexte d’utilisation.
Ces enregistrements permettent d’estimer les modèles acoustiques et linguistiques inhérents aux systèmes de transcription. L’objectif du projet étant de créer une application d’aide à la transcription de réunion, le premier verrou à lever concerne la maîtrise de la prise de son. Il s’agit de fournir au système des enregistrements de bonne qualité avec peu de bruit, peu d’écho et peu ou pas de parole superposée (locuteurs s’exprimant simultanément). La résolution de ce verrou a été partiellement étudié dans une partie du projet ne concernant par cette thèse. De plus, l’application d’aide à la transcription devra permettre d’accélérer la phase de post-traitement des textes générés automatiquement par le SRAP. Un second verrou porte sur le développement d’une méthode permettant d’aider l’utilisateur en l’assistant dans l’étape de correction des sorties du SRAP. De plus, l’assistance apportée devra être sufﬁsamment rapide pour pouvoir être intégrée dans une application interactive. Le troisième verrou concerne la phonétisation des noms propres. L’un des objectifs de ces travaux de thèse est de proposer une méthode permettant de transcrire correctement les noms propres, de façon à faciliter l’indexation automatique des réunions transcrites. Tous les mots du vocabulaire du SRAP doivent être phonétisés (déterminer la suite de sons – phonèmes – qui doivent être émis pour prononcer chaque mot) aﬁn de pouvoir apparaitre dans le résultat du SRAP. La phonétisation des noms propres est plus difﬁcile à obtenir que celle des noms communs. En effet, un nom propre écrit de la même manière sera prononcé différemment selon l’origine de ce nom et selon l’origine du locuteur. Il s’agira donc de mettre à proﬁt les données disponibles pour proposer une méthode permettant de déterminer les séquences de phonèmes composant chacun des noms propres rencontrés. Enﬁn, le dernier verrou porte sur la recherche de méthodes permettant au système de s’enrichir d’un point de vue global en capitalisant les transcriptions déjà réalisées.

……….
Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Mémoire Online: Auto-adaptation et reconnaissance automatique de la parole (7.6 MB) (Cours PDF)