Développement d’une application de gestion des inscriptions basée sur les SVI

Télécharger le fichier original (Mémoire de fin d’études)

La technique du Word Spotting

Actuellement, la reconnaissance vocale se fait, en général, par Word Spotting, par la recherche de mots clefs, ce qui permet d’éliminer le problème du genre asyntaxique du dialogue. Cette technique se révèle souvent suffisante pour établir un dialogue simple avec la machine. Le Word Spotting est une technique de reconnaissance automatique de la parole dans laquelle l’ordinateur repère les mots d’une phrase pour comprendre celle-ci. La technique du Word Spotting est capable de reconnaître plusieurs mots clés dans un flot ininterrompu de paroles : le dialogue est alors plus fluide. Le Word Spotting est souvent employé dans les systèmes à reconnaissance échantillonnée pour offrir une illusion de reconnaissance continue. Les demandes sont formulées de manière plus naturelle comme pour s’adresser à une personne. Dans cette technique de reconnaissance, le système repère les mots utiles dans une phrase prononcée en langage naturel afin de savoir l’action à effectuer. Un filtrage de l’énoncé s’effectue pour n’interpréter que les actions signifiantes à l’application. Pour améliorer les performances de reconnaissance vocale par cette technique, l’utilisation d’un tableau d’équivalences lexicales s’avère importante au cas où l’utilisateur emploie des synonymes des mots clés.

La technique du langage naturel

Beaucoup plus récente, la reconnaissance par langage naturel offre une plus grande tolérance aux variations syntaxiques et lexicales. La nouvelle technologie de ‘Langage Naturel’ permet à l’utilisateur de commander le logiciel selon son propre mode de pensée, ce qui lui évite de retenir des commandes très précises. Le langage naturel apparaît comme étant la technologie vocale la plus proche de l’utilisateur puisqu’il converse normalement. Cette méthode est employée quand le domaine d’application est limité : plus précisément à un service spécialisé. Le dictionnaire des mots clés est donc orienté vers le domaine concerné (pour une banque, tout le vocabulaire se rapportant aux valeurs monétaires sera compris, aux opérations bancaires…). Le langage naturel est une technologie permettant de reconnaître des mots clés à partir de phrases parlées. A partir des mots reconnus, le système interprète plus ou moins efficacement le sens de la phrase. Par exemple, un utilisateur dit « Je souhaite prendre un avion d’Orly à destination du Portugal ». Placé dans un contexte de réservation de billet d’avion, le système reconnaît alors l’origine et la destination et demande les informations manquantes (exemple: » A quelle date souhaitez-vous partir? »). [12] Elle est toutefois peu utilisée par les serveurs vocaux. Depuis 1991, les SVI intègrent les solutions des meilleurs fournisseurs de technologies de reconnaissance vocale : France Télécom R&D Phil 90, Nuance, Philips, SpeechWorks… [1] Actuellement, bien que la reconnaissance vocale soit encore loin d’être parfaite, les échecs de cette technique sont le plus souvent causés par une mauvaise compréhension notamment pour les mots hors vocabulaire, un modèle de dialogue inadapté ou encore par le comportement et les attitudes de l‘utilisateur mal modélisés. Ce dernier n’agissant pas comme prévu, le système comprend mal ses attitudes et la stratégie de dialogue peut alors devenir déroutante pour l’usager.

Le traitement vocal

Dés que l’utilisateur entre en contact avec le SVI, il entend un message de bienvenue ou une annonce. Cette annonce le guide dans l’utilisation du SVI. Cette annonce peut-être créée de plusieurs manières selon son type. Il s’agit dans tous les cas de stocker du son ou de la parole sur les SVI. Ainsi l’annonce peut être accompagnée d’un fond sonore ou pas, dans ce cas, on parle d’annonce classique.
a) L’Enregistrement d’une annonce avec un fond sonore
Ce type d’annonce d’accueil mélange donc un message vocal et un fond sonore destiné à améliorer l’interface vocale : menu, mélodie d’attente,…. Concrètement, cette opération est effectuée dans un studio d’enregistrement. Le message est numérisé à 64 kbps (8kHz) suivant la technique d’encodage MIC, soit un échantillon toutes les 125µs. Le résultat final peut- être ensuite compressé afin de réduire l’espace disque sur le SVI. L’algorithme de compression MIC-DA (Modulation par Impulsions Codées – Différentielle Adaptative) peut faire descendre le débit à 32kbps en réduisant les blancs. Cet algorithme est normalisé par l’UIT-T sous la recommandation G.721. Il est possible d’atteindre des taux de 13Kbps par codage SBC (Sub-Band Coding). Dans ce cas, 1h00 d’enregistrement de voix occupe 5,3Mo d’espace disque. Figure n°12 : Enregistrement vocal
b) La synthèse vocale
Auparavant, pour délivrer un message de texte pur au niveau du SVI, on enregistrait le message sous forme de fichier sonore. Cependant, cette méthode prenait un espace disque important. Pour palier à cela la synthèse vocale est introduite dans le SVI.
La synthèse de la parole à partir du texte est la passerelle- clé entre le monde de l’écrit et celui de l’oral. La synthèse vocale est une technologie qui produit » des sons de parole à partir d’une représentation phonétique du message « . Cette technologie ne doit pas être confondue avec la restitution d’un message préenregistré dans laquelle le texte est fixe puisque la synthèse à partir du texte est utilisée à la place de la restitution de messages préenregistrés, dès que la fréquence (et donc le coût) de mise à jour de ces messages devient trop importante. Le principe est extrêmement simple: tout texte écrit peut être traduit en message vocal grâce à une simple carte de synthèse vocale.
Deux grandes familles de synthèse vocale sont à distinguer :
Les systèmes qui utilisent la concaténation de mots entiers qui ont un vocabulaire limité et qui offrent une qualité de parole excellente. Ces systèmes ne nécessitent pas d’analyse linguistique.
Les systèmes dits de synthèse à partir du texte qui dans une première étape convertissent un texte en une chaîne de phonèmes marqués par des informations prosodiques (ensemble des phénomènes d’intonation d’une langue), et dans une seconde étape qui transforment cette chaîne en un ensemble de données acoustiques à transmettre à un synthétiseur. [13]
Le synthétiseur vocal permet de créer une voix artificielle semblable à celle de l’homme. Il convertit le texte codé au moyen d’un lecteur sonore d’écran et le transmet à la carte son afin d’obtenir une reproduction orale en appliquant au signal les caractéristiques linguistico-prosodiques. Contrôlé au moyen d’un logiciel de lecteur sonore, le synthétiseur vocal peut faire varier la cadence, le débit, le volume et la langue.

Table des matières

Chapitre I : Introduction
Chapitre II : Les Serveurs Vocaux Interactifs (SVI)
II-1- Définition
II-2- Le rôle d’un SVI
II-3- Les Domaines d’application
II-4- La typologie des SVI
II-4-1- L’arborescence vocale
II-4-2- Les types de base d’un SVI
II-4-3- Les fonctionnalités annexes
II-5- L’intégration d’un SVI dans le réseau d’une entreprise
II-5-1- Fonctionnement indépendant
II-5-2- Intégration en aval du PABX
II-5-3- Intégration en amont du PABX
II-5-4- Les interfaces de raccordement d’un SVI au PABX
II-5-5- La normalisation du protocole de communication entre SVI et PABX
II-6- L’architecture d’un SVI
II-6-1- L’architecture matérielle
II-6-2- L’architecture logicielle
II-7- L’interaction clients-SVI
II-7-1- Les touches DTMF
II-7-2- La reconnaissance vocale par mots-clés
II-7-3- Le traitement vocal
Chapitre III : Fonctionnement d’un SVI
III-1- Conception
III-1-1- L’application vocale
III-1-2- Le noyau vocal
III-1-3- Le traitement des appels
III-2- Mise en oeuvre
III-2-1- L’opérateur téléphonique
III-2-2- Le MIC (Modulation par Impulsions Codées)
III-2-3- Le simulateur
III-2-4- La carte vocale
Chapitre IV : Développement d’une application de gestion des inscriptions basée sur les SVI
IV-1- L’environnement Open Source
IV-1-1- Les SVI et l’environnement Open Source
IV-1-2- Définition d’un logiciel open source
IV-1-3- Pourquoi Open Source ?
IV-1-4- Les technologies utilisées (XML, VoiceXml, http, etc)
IV-1-5- L’état de l’art au niveau de la recherche
IV-1-6- Les différents projets en cours
IV-1-7- Les perspectives
IV-2- Réalisation d’un centre de réservation pour l’inscription des étudiants à l’UCAD
IV-2-1- Le choix de l’environnement
IV-2-2- L’architecture du SVI
IV-2-3- Le fonctionnement de l’application du centre de réservation
Chapitre V : Conclusion et perspectives
BIBLIOGRAPHIE
TABLE DES FIGURES