Mesures de confiance

Mesures de confiance

Les performances d’un système ASR peuvent être souvent altérées par différents pa- ramètres comme un environnement bruité, la variabilité entre locuteurs, les disfluences inhérentes à la parole spontanée, etc. Il est donc nécessaire pour un tel système de pou- voir, de manière automatique, évaluer la fiabilité des solutions données par le système. En d’autres termes, la mesure de confiance associée à une hypothèse h du système ASR (MC(h)) peut être assimilée à la probabilité que l’hypothèse soit correcte. Celle-ci doit être comprise dans l’intervalle [0, 1] et, idéalement, une valeur de 0 pour la mesure de confiance correspond à une hypothèse incorrecte, et une valeur de 1 à une hypothèse correcte.De nombreux domaines du traitement de la parole utilisent les mesures de confiance (Lee, 2001). On les retrouve par exemple dans la reconnaissance de la parole (Wessel et Ney, 2005; Cox et Dasmahapatra, 2002; Soong et al., 2004; Ketabdar et al., 2006), dans les système de dialogue (San-Segundo et al., 2001; Raymond et al., 2004; Raymond, 2005), dans l’identification des langues (Metze et al., 2000) ou dans la reconnaissance du lo- cuteur (Preti et al., 2007). Dans ces domaines, les mesures de confiance peuvent être appliquées à plusieurs niveaux : au niveau du phonème (principalement dans la recon- naissance de la parole), du mot, de la phrase, des concepts (unité sémantique permet- tant d’exprimer le sens d’une séquence de un ou plusieurs mots de façon conceptuelle, principalement utilisée dans les systèmes de dialogue (Kobus, 2006)) ou bien au niveau de la phrase. Dans la suite de ce chapitre on se placera au niveau du mot en ce qui concerne l’utilisation des mesures de confiance, sachant que l’utilisation des mesures de confiance dans le cadre des travaux présentés ultérieurement dans cette thèse se fait également au niveau du mot.L’article (Jiang, 2005) propose une classification des mesures de confiance en trois caté- gories distinctes : 1. Une grande majorité des travaux utilise les paramètres prédictifs dans le calcul des mesures de confiance. Un paramètre peut être appelé paramètre prédictif si la distribution de probabilité des mots reconnus comme étant corrects est différente de la distribution de probabilité des mots incorrects. Ces paramètres sont géné- ralement collectés pendant le décodage et sont ensuite combinés afin d’obtenir une seule mesure indiquant le degré de véracité du mot. Ils incluent des para- mètres acoustiques ainsi que des paramètres provenant du modèle de langage ou du comportement de l’algorithme de recherche.

La probabilité a posteriori d’un mot est souvent utilisée en tant que mesure de confiance étant donné le fait qu’elle représente une mesure absolue de la fiabilité d’une décision. La probabilité a posteriori est une estimation de la vraisemblance entre le mot w et la suite de vecteurs d’observations acoustiques X. Comme nous le verrons par la suite elle est assez difficile à calculer (voir 2.3), d’où les diffé- rentes méthodes proposées afin d’obtenir la meilleure approximation possible. Ces méthodes sont des méthodes simples, utilisant des modèles de type filler, aux approches plus complexes basées sur les graphes de mots. Les travaux de cette thèse se concentrent sur l’utilisation des mesures de confiance au niveau mot et plus précisément sur l’utilisation de la probabilité a posteriori du mot comme mesure de confiance. Dans ce chapitre nous présentons, tout d’abord, diffé- rentes techniques d’évaluation des mesures de confiance dans la section 2.1. Nous dé- taillons ensuite les mesures de confiance au niveau mot basées sur les paramètres pré- dictifs dans la section 2.2 et sur la probabilité a posteriori dans la section 2.3. La dernière partie 2.4, décrit l’algorithme Forward-Backward que nous avons adapté pour le calcul des probabilités a posteriori sur les graphes de mots. Une nouvelle méthode de norma- lisation des variables de l’algorithme Forward-Backward est aussi décrite. Étant donnéSi on considère les distributions des mesures de confiance calculées sur l’ensemble des hypothèses correctes et des hypothèses incorrectes dans la figure 2.1 on peut visualiser les taux de faux rejet (FR) et de fausses alarmes (FA) en fonction du seuil a. Quand le seuil se déplace vers la droite (sa valeur augmente), le taux de FA diminue alors que le taux de FR augmente. Si le seuil se déplace vers la gauche (sa valeur diminue), les ten- dances sont inversées, avec un taux de FA qui augmente et un taux de FR qui diminue. Pour chaque valeur du seuil a, un couple (FA, FR) peut être calculé. Ce couple de va- leurs détermine ce qu’on appelle un point de fonctionnement du système.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *