Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées

La reconnaissance automatique de la parole consiste à extraire, à l’aide d’un ordinateur, l’information lexicale contenue dans un signal de parole. Les applications de cette technologie sont nombreuses. Il existe des logiciels de dictée, des systèmes d’indexation automatique de documents audiovisuels ou des systèmes de dialogue. Les sorties du système de reconnaissance automatique de la parole peuvent également servir d’entrée à d’autres systèmes, par exemple pour la traduction dans le but construire un système de traduction automatique de la parole.

Parmi les 6000 langues parlées dans le monde, seul un tout petit nombre d’entre-elles possède les ressources nécessaires pour implémenter des technologies issues du traitement du langage naturel. Il s’agit des langues des pays développés ou des langues qui présentent un intérêt stratégique ou politique, comme par exemple l’anglais, le français, l’allemand, le mandarin, le japonais, l’arabe. Depuis plus de deux décennies, des recherches intensives dans ce domaine ont été accomplies par de nombreux laboratoires internationaux. Des progrès importants ont été accomplis grâce notamment aux efforts de collecte des données linguistiques nécessaires pour la modélisation statistique de la parole.

En reconnaissance automatique de la parole, il subsiste un certain nombre de verrous, notamment en ce qui concerne la généricité des méthodes utilisées et leur portabilité vers de nouvelles langues. Premièrement, les approches statistiques utilisées dans la modélisation de la parole nécessitent de très grands corpus de données pour construire des modèles performants. Pour les langues parlées dans les pays en voie de développement ou pour les langues qui ne suscitent pas d’intérêt économique ou politique, ces ressources sont généralement disponibles en quantité insuffisante pour le développement d’un tel système. Ces langues sont appelées des langues “peu dotées” dans plusieurs études, notamment dans la thèse de V. Berment intitulée “Méthodes pour informatiser des langues et des groupes de langues peu dotées” [Berment, 2004] et dans la thèse de V-B. Le intitulée “Reconnaissance Automatique de la parole des langues peu dotées” [Le, 2006], des travaux réalisés ces dernières années au LIG. Deuxièmement, les méthodes de modélisation qui ont été initialement étudiées pour les langues comme l’anglais ou le français ne sont pas directement applicables sur les autres langues qui possèdent des caractéristiques différentes. Par exemple, pour beaucoup de langues, déterminer la frontière des mots dans le texte est une tâche particulièrement difficile comparativement à une langue comme l’anglais et la méthode de modélisation statistique du langage par n-grammes ne peut pas s’appliquer directement sur le corpus de texte comme dans le cas de l’anglais ou du français.

D’un point de vue plus opérationnel, nous développons dans le cadre de ce travail de thèse, les systèmes de reconnaissance automatique de la parole pour deux langues peu dotées parlées en Asie du sud-est : le khmer et le laotien. Nous développons donc un système de reconnaissance automatique de la parole de l’état de l’art pour ces deux langues (broadcast news) à partir des ressources collectées. Ce travail permet ainsi de revisiter les méthodes et les outils de l’état de l’art proposées pour la collecte rapide de données et le développement rapide d’un système de reconnaissance pour une nouvelle langue peu dotée.

Idéalement, informatiser une langue consiste à mettre à la disposition de l’utilisateur humain tous les moyens dont il a besoin dans sa langue, qu’elle soit écrite ou non : dialogue avec la machine, outils pour écrire ou lire un texte, reconaissance automatique de la parole, synthèse vocale, traduction informatisée dans une autre langue, etc. L’absence des outils informatiques élémentaires dans la langue d’un pays rend l’accès aux informations difficile voir impossible et cela renforce la fracture numérique entre les pays. La fracture numérique peut être définie comme une inégalité face aux possibilités d’accéder et de contribuer à l’information, à la connaissance, ainsi que de bénéficier des capacités majeures de développement offertes par les nouvelles technologies de information et de la communication (NTIC).

Pour entrer dans le monde numérique d’aujourd’hui sans renier sa culture, une nation doit le faire en utilisant des logiciels dans sa propre langue. Les logiciels en langue étrangère exacerbent la fracture numérique, rendent les formations de base en informatique difficiles et coûteuses, appauvrit la culture, et bloque la plupart des traitements informatiques de base pour la gouvernance du pays.

Parmi les 6000 langues parlées dans le monde, seul un tout petit nombre d’entre-elles possède les ressources nécessaires pour implémenter des technologies issues du traitement du langage naturel. Pour ces langues dites bien dotées, un certain nombre de ressources est disponible en grande quantité, à savoir : une orthographe stable dans un système d’écriture donné, des ouvrages de référence (grammaires, dictionnaires), des œuvres de diffusion massive (presse écrite et audiovisuelle, films, chansons et musique), des ouvrages techniques et d’apprentissage (publications techniques et scientifiques, ouvrages didactiques) et un nombre abondant d’applications informatiques dans cette langue. D’un autre côté, un très grand nombre de langues dites peu dotées, parlées généralement dans les pays en voie de développement, ne dispose pas suffisamment, voire pas du tout, des ressources dont sont généralement dotées les grandes langues. Une langue peut être majoritaire, écrite, enseignée à l’école, mais manquer cruellement de ressources informatiques ou même de ressources linguistiques en quantité et en qualité suffisantes. Les langues dites peu dotées peuvent être en effet des langues en grand danger de disparition ou bien des langues émergentes qui possèdent déjà une bonne partie de ces ressources mais en nombre estimé insuffisant et incomplet.

D’une manière générale, pour les langues peu dotées, les technologies vocales ne sont peut-être pas la première lacune à combler, les outils de traitement informatique de bases comme la saisie, l’affichage, l’impression et le tri lexicographique sont des applications plus critiques et plus demandées. Mais la recherche et le développement sur ce thème, génère des outils et des corpus qui peuvent servir à d’autres tâches et d’autres applications. L’intérêt des technologies vocales est mis en évidence dans le contexte du projet Spoken-Web [Kumar et al., 2007] initié par IBM Research qui vise à imiter le Web en proposant l’accès aux informations vocales aux habitants dans les villages en Inde via le téléphone. Le Web est une révolution et représente une source d’informations très importante mais seulement 17% de la population mondiale bénéficie d’un accès à ces ressources  . Il y plusieurs raisons qui empêchent les autres 83% de la population de bénéficier de cette nouvelle technologie. Une première cause est le coût très élevé des ordinateurs par rapport au niveau de vie local et le manque d’infrastructure : l’électricité, le réseaux Internet. Deuxièmement, une grande partie de la population mondiale est encore illettrée et ne sait pas utiliser un ordinateur. Troisièmement, les contenus disponibles sur le Web sont généralement dans une langue étrangère dominante comme l’anglais et ne sont pas adaptés aux besoins quotidiens de ce groupe de population. En revanche, le développement du réseau téléphonique n’a pas rencontré le même handicap que le réseau Internet. Le coût du téléphone, les frais de communication et la complexité d’utilisation sont plus faibles que ceux de l’Internet, ce qui fait que le taux de pénétration du téléphone portable est très élevé dans beaucoup de pays. La vision du projet Spoken-Web est de créer un réseau similaire au Web mais avec des sites vocaux accessibles par le téléphone en utilisant la voix humaine comme vecteur de communication. La mise en place de ce concept a besoin intensivement de technologies vocales très avancées, en particulier la reconnaissance automatique de la parole.

Table des matières

Introduction
1 Contexte d’étude et état de l’art
1.1 Contexte
1.1.1 Motivations
1.1.2 Projet en collaboration
1.2 Reconnaissance automatique de la parole
1.2.1 Historique
1.2.2 Formulation statistique du problème de reconnaissance
1.2.3 Modélisation du langage
1.2.4 Modélisation acoustique
1.2.5 Dictionnaire de prononciation
1.2.6 Décodage
1.2.7 Evaluation
1.3 Problématique de la thèse
1.3.1 Reconnaissance automatique de la parole pour des langues peu dotées
1.3.2 Langues non segmentées
1.3.3 Sujet de thèse
1.4 Conclusion
2 Reconnaissance automatique de la parole en langue khmère
2.1 Introduction
2.2 Présentation de la langue khmère
2.2.1 Le khmer, une langue peu dotée ?
2.2.2 Traitement automatique de la langue khmère
2.3 Recueil de ressources linguistiques
2.3.1 Corpus de parole
2.3.2 Vocabulaire
2.3.3 Corpus de texte
2.3.4 La segmentation automatique
2.3.5 La segmentation automatique pour le khmer
2.4 Modélisation de prononciation
2.5 Modélisation acoustique
2.6 Modélisation du langage
2.7 Résultats d’expérimentation
2.7.1 Modèle acoustique à base de Phonème Vs Graphème
2.7.2 Modèles mot/sous-mot
2.8 Conclusion
Conclusion

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *