Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé

Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé

Modélisation supervisée d’unités linguistiques de parole

Plusieurs niveaux peuvent être concernés dans une tâche de modélisation d’unités linguistiques de parole : la phrase, le mot et les unités sous-lexicales (comme les phonèmes). Reconnaissance automatique de parole continue L’application la plus connue en traitement de la parole est probablement la Reconnaissance Automatique de la Parole (RAP ou, en anglais : Automatic Speech Recognition, ASR). L’ASR est généralement composé d’un modèle acoustique et d’un modèle de langue. De nombreux outils existent pour réaliser des modèles de reconnaissance automatique de la parole, comme Kaldi (POVEY, GHOSHAL et al. 2011). Kaldi regroupe un ensemble d’outils pour chaque étape, dont la modélisation acoustique. Parmi les outils proposés, nous pouvons citer les mélanges de lois gaussiennes (Gaussian Mixture Models, GMM) (BILMES et al. 1998) et leur version améliorée par l’utilisation de sous-espaces (Subspace Gaussian Mixture Models, SGMM) (POVEY, Lukáš BURGET et al. 2011) ou encore les modèles de Markov cachés (Hidden Markov Models, HMM) (RABINER 1989). Plus récemment, la renaissance des réseaux de neurones et en particulier des réseaux profonds (Deep Neural Network, DNN) et du deep learning en général a débouché sur des progrès significatifs en RAP. Les DNN ont d’abord été utilisés dans des systèmes hybrides HMM-DNN pour calculer les probabilités d’émission des états des HMM (G. HINTON et al. 2012). Plus récemment, des approches dites end-to-end essaient de se passer totalement des HMM, comme par exemple les systèmes « DeepSpeech » n’utilisant que des réseaux de neurones (HANNUN et al. 2014) illustrés figure 2.1. L’ajout d’un modèle de langue N-gram améliore néanmoins les résultats de manière significative en forçant à obtenir des phrases plus cohérentes. La reconnaissance automatique de la parole a de nombreuses applications. Elle peut par exemple servir pour faire du sous-titrage en direct (STADTSCHNITZER et SCHMIDT 2015) ou aussi être utilisée par des outils d’assistance pour conférence (ASSAYAG et al. 2015). Elle peut même servir de support à des études linguistiques, par exemple sur les variations entre les réalisations des phonèmes.

Reconnaissance automatique de mots 

La détection de termes parlés (Spoken Term Detection, STD) (MANDAL, K. P. KUMAR et P. MITRA 2014) est une tâche proche de l’ASR : il ne s’agit plus de reconnaître tout ce qui est dit mais seulement de détecter l’utilisation de certains mots. La STD étant une variante de l’ASR, elle peut être réalisée à l’aide de modèles de reconnaissance de la parole, de préférence à large vocabulaire . Un exemple d’application d’une STD utilisant un système LVCSR est la détection des mots anglais dans des conversations multilingues . Les méthodes non supervisées nous intéressent davantage : les techniques Queryby-Example (QBE), qui peuvent utiliser des mesures de similarité basées sur des déformations temporelles  au niveau des fenêtres (trames) ou au niveau des segments , comme illustré dans la figure 2.2. La DTW cherche la distorsion permettant d’obtenir la plus faible distance entre deux segments et permet ainsi de comparer des segments audio de tailles différentes. D’autres techniques utilisant des modèles supervisés peuvent être utilisées, telle que la modélisation de phonèmes (SZOKE, SCHWARZ et al. 2005), notamment basée sur les réseaux de neurones, ou de sous-mots (SZOKE, Lukás BURGET et al. 2008)

 Reconnaissance automatique de phonèmes 

Les outils de classification des phonèmes peuvent être ensuite utilisés par d’autres tâches, notamment par l’ASR. Selon l’application, il n’est pas nécessaire d’être trop précis sur les différentes prononciations des phonèmes et certaines classes phonétiques proches peuvent être regroupées lors du calcul du taux de classification (ou du taux d’erreur), passant de 61 à 39 classes sur TIMIT et permettant évidemment d’obtenir de meilleurs scores (K.-F. LEE et HON 1989). Dans le domaine de la classification phonétique, les réseaux de neurones obtiennent parmi les meilleurs scores. Joint à un GMM, un réseau de neurone profond a permis d’obtenir un peu moins de 20% d’erreur phonétique (Phone Error Rate, PER) sur TIMIT (TRAVADI et NARAYANAN 2015). Il existe plusieurs réseaux différents, tels que les réseaux denses (Multi-Layer Perceptron, MLP), les réseaux convolutionnels (Convolutional Neural Network, CNN) (LECUN, BENGIO et al. 1995) et les réseaux récurrents (Recurrent Neural Network, RNN) (DE MULDER, BETHARD et MOENS 2015). Des expériences ont comparé ces différents réseaux durant lesquelles les MLP se sont montrés moins adaptés à la tâche de reconnaissance de phonèmes que les CNN (PALAZ, COLLOBERT et DOSS 2013 ; PALAZ, COLLOBERT et al. 2015). Les RNN permettent quant à eux de prendre un plus grand contexte en considération et permettent d’obtenir seulement 17,7% d’erreur sur un ensemble de test de TIMIT (GRAVES, MOHAMED et G. HINTON 2013). Divers modèles de réseaux récurrents existent, comme ceux utilisant des couches LSTM (ARISOY et SARAÇLAR 2015) ou encore ceux utilisant à la fois des couches de convolution et des couches récurrentes (RCNN) (HU et al. 2015). Des réseaux moins courants peuvent aussi être utilisés avec succès pour l’ASR, illustrés figure 2.3. Nous pouvons par exemple citer les réseaux d’ondelettes (JEMAI et al. 2015), schéma de gauche. Ce sont des réseaux de neurones de trois couches : une couche d’entrée, une couche cachée dont les neurones sont des fonctions d’ondelettes et une couche de sortie. Nous pouvons aussi mentionner les réseaux à décharge, aussi appelés réseaux impulsionnels ou de spike (Spiking Neural Network, SNN) (LOISELLE 2004 ; LOISELLE et al. 2005 ; TAVANAEI et MAIDA 2017), schéma de droite. Ce sont des réseaux qui « accumulent » les valeurs reçues jusqu’à dépasser un seuil et se « décharger » en envoyant une impulsion.

Table des matières

1 Introduction
2 État de l’art, définitions, corpus
2.1 État de l’art
2.1.1 Modélisation supervisée d’unités linguistiques de parole
Reconnaissance automatique de parole continue
Reconnaissance automatique de mots
Reconnaissance automatique de phonèmes
2.1.2 Modélisation faiblement supervisée
À l’échelle du mot
À l’échelle du phonème
2.1.3 Modélisation non supervisée
Découverte de pseudo-phones
Apprentissage de représentations par réseaux de neurones
Apprentissage de représentations : contexte du Zero Resource
Speech Challenge
2.1.4 Conclusion
2.2 Définition des paramètres et des modèles
2.2.1 Paramètres audio
Signal brut
Spectre
Bancs de filtres
MFCC
2.2.2 Normalisations du signal et modification des paramètres
Analyse en Composantes Principales
Zero-phase Components Analysis
2.2.3 Méthodes de regroupement
k-means
GMM
2.2.4 Méthode de classification : réseaux de neurones
Introduction
Les neurones
Les couches de neurones
Les architectures de réseaux
L’apprentissage
Les librairies Python
2.3 Corpora
2.3.1 BUCKEYE
2.3.2 BREF
2.3.3 NCHLT
2.3.4 Corpora du ZRSC 2017
2.3.5 Étude comparative de BUCKEYE, NCHLT et BREF
2.4 Conclusion
3 Classification phonétique supervisée à l’aide de réseaux de neurones
3.1 Introduction
3.2 Architectures et ajustement des paramètres
3.2.1 Paramètres classiques pour l’apprentissage d’un réseau de neurones
Influence de la taille des sous-ensembles
Influence de la règle de mise à jour des poids
Influence du taux d’apprentissage
Influence du pré-apprentissage couche par couche
Influence de la régularisation par dropout
3.2.2 Paramètres propres à un réseau de neurones dense
Influence des paramètres d’entrée
Influence du nombre de couches et de neurones
Influence de la fonction d’activation
3.2.3 Paramètres propres à un réseau de neurones convolutionnel
Influence des paramètres d’entrée
Influence des paramètres des couches de convolution
Influence des paramètres des couches denses
3.3 Évaluation sur le corpus BUCKEYE-TEST
3.3.1 Réseau utilisé
3.3.2 Variabilité des résultats
Variabilité du taux de classification suivant les locuteurs
Variabilité du taux de classification suivant les phonèmes
3.3.3 Analyse des erreurs
3.3.4 Étude de la robustesse et de la portabilité
Étude de la robustesse
Étude de la portabilité
3.4 Conclusion
4 Segmentation en phonème
4.1 Introduction
4.1.1 Segmentation
4.1.2 Plan
4.2 Description du système
4.2.1 Paramétrisation
4.2.2 Réseau de neurones
4.2.3 Recherche de maxima locaux
4.3 Métriques d’évaluation
4.4 Expériences
4.4.1 Analyse du problème
4.4.2 Comparaison de différentes architectures sur BUCKEYE-DEV
Structure des réseaux
Prise en compte du contexte en entrée des réseaux
Réseau obtenu
4.4.3 Résultats sur BUCKEYE-TEST
4.4.4 Généralisation à d’autres langues
4.5 Conclusion
5 Génération de représentations par réseaux de neurones non supervisés
5.1 Introduction
5.2 Auto-Encodeurs : projection des paramètres dans un nouvel espace
5.2.1 Exploration des AE à faible dimension
Visualisation des paramètres de Bottleneck
Séparation des classes phonétiques
Augmentation du nombre d’axes
5.2.2 Optimisation des paramètres des AE
Réseau dense
Réseau convolutionnel
5.2.3 Résultats
Structures et paramètres des réseaux construits
Taux de classification
Regroupements non supervisés
5.2.4 Autres expériences avec AE : la compression audio
Introduction : compression audio et réseaux de neurones
Architecture du réseau
Signal reconstruit
Paramètres générés
5.2.5 Conclusion
5.3 Extraction de LPC avec réseaux de neurones
5.3.1 LPC
5.3.2 Imitation des paramètres LPC : prédiction par réseau de neurones
5.3.3 Prédictions d’un réseau de plusieurs couches
5.4 Conclusion
6 Classification non supervisée en phones
6.1 Introduction
6.1.1 Plan
6.2 Description du système
6.2.1 Regroupement
6.2.2 Classification : réseau de neurones
6.2.3 Métriques d’évaluation
Pureté
Taux d’erreur ABx
6.3 Ajustement des paramètres du système
6.3.1 Regroupement
6.3.2 Classification
6.3.3 Boucle itérative
6.4 Résultats au niveau lexical et sous-lexical
6.4.1 Pureté des regroupements
6.4.2 Étiquettes des groupes proches
6.4.3 Utilité des regroupements pour un travail sur les mots
6.5 Évaluation des représentations paramétriques
6.5.1 Corpora du ZRSC 2017
6.5.2 Optimisation du système
6.5.3 Résultats
6.5.4 Ouverture : réseau multi-locuteurs
6.6 Conclusion
7 Conclusion et perspectives
7.1 Conclusion
7.1.1 Classification phonétique supervisée
7.1.2 Segmentation phonétique supervisée
7.1.3 Réseaux de neurones non supervisés
7.1.4 Découverte de pseudo-phones et génération non supervisée de nouvelles représentations paramétriques
7.2 Perspectives
Bibliographie

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *