Description de l’interaction vocale

Description de l’interaction vocale

Un système de dialogue oral est un système informatique qui assure le dialogue vo- cal avec un utilisateur humain en vue de fournir un service. L’utilisateur doit pourvoir interagir avec le système de la manière la plus naturelle possible. La communication étant orale le système doit être capable de comprendre non seulement les paroles de l’utilisateur mais plus important leur sens de manière à produire une réponse adéquate et ceci de manière orale.Les travaux de cette thèse se placent dans le contexte de compréhension de la parole continue à travers l’utilisation d’une application téléphonique de dialogue oral en lan- gage naturel appelée service 3000, décrite dans la section 3.1. Ensuite nous décrivons les différents composants d’un système de dialogue dans la section 3.2. Le module de compréhension de la parole est détaillé dans la section 3.3 tel qu’il a été implémenté dans le service 3000. Dans la section 3.4 nous présentons une métrique d’évaluation au niveau interprétation, le taux d’erreur d’interprétation (IER) . Une courte description du gestionnaire du dialogue est aussi donnée dans la section 3.5. Le service 3000 est le premier service déployé à France Télécom acceptant la parole spontanée non contrainte. Il a été mis en service en Octobre 2005. Ce service permet aux clients de France Télécom d’obtenir des renseignements, de souscrire à environ 30 services liés à leur ligne téléphonique, ou bien d’accéder à des services dédiés comme la consultation de la consommation, le paiement de la facture ou l’activation d’un trans- fert d’appel.Etant donné que le service 3000 fonctionne dans des conditions réelles, les utilisa- teurs peuvent appeler de n’importe où et leur environnement peut être plus ou moins bruyant. Pour cela, le service 3000 utilise un module de détection Bruit/Parole. Ce mo- dule est placé avant le SRAP et a pour but d’éviter les activations intempestives du SRAP dues aux bruits environnants. Donc si le signal reçu par ce module ne contient que du bruit, ce module est censé le détecter et le rejeter. De cette façon le module de reconnaissance n’est censé recevoir qu’un signal contenant de la parole. En réalité, le calibrage du module de détection ne peut pas être parfait, et des signaux ne conte- nant que du bruit seront envoyés au SRAP. Comme nous l’expliquons dans les parties suivantes, les signaux bruités sont une caractéristique à prendre en considération lors- qu’on travaille avec des corpus réels. Le calibrage du module de détection Bruit/Parole n’est pas concerné par les travaux de cette thèse et ne sera pas abordé.

– LE MODULE DE COMPREHENSION : il se base sur la transcription réalisée par le SRAP aﬁn de trouver un sens aux paroles de l’utilisateur. Le processus d’inter- prétation est réalisé en deux étapes successives et met en œuvre différentes tech- niques qui permettent de passer des mots au sens. Dans un premier temps, le module réalise un passage des mots vers des concepts et ensuite, à partir des concepts et des connaissances sur le dialogue en cours, construit une représenta- tion sémantique qui sera exploitée par le module suivant, qui est le gestionnaire de dialogue. Le module de compréhension est présenté plus en détail dans la par- tie 3.3.peut être d’interroger une base de données si l’utilisateur à émis une requête, d’orienter l’utilisateur vers un autre service, de demander des précisions supplé- mentaires sur une requête émise ou bien de demander à l’utilisateur de répéter si le système ne l’a pas compris la première fois. – LE MODULE DE SYNTHÈSE DE PAROLE : le synthétiseur de parole doit trans- former la réponse textuelle du gestionnaire de dialogue en un signal de parole aﬁn que le système puisse converser de manière orale et naturelle avec l’utilisa- teur. Cette partie ne rentre pas dans les considérations de cette thèse, pour plus d’informations voir par exemple (Sorin et De Mori, 1998).