Exploitation d’informations riches pour guider la traduction automatique statistique

Exploitation d’informations riches pour guider la traduction automatique statistique

Le problème de la traduction automatique statistique

La traduction automatique statistique (TAS) consiste à résoudre le problème probabiliste suivant (Brown et al., 1990) : ebest = arg max e p(e|f) (2.1) ebest étant la meilleure traduction telle que pour la phrase à traduire f dans la langue source on ait la phrase e dans la langue cible vers laquelle on traduit. 2 Ce problème peut être décomposé en appliquant la règle de Bayes : ebest = arg max e p(f|e)p(e) (2.2) Cette décomposition fait apparaître p(f|e), soit la probabilité d’associer la phrase f avec une traduction générée automatiquement e. Cette probabilité peut être calculée via différents modèles (voir section 2.3.2), dont un modèle de traduction, qui correspond en pratique lui-même un ensemble de modèles, appris typiquement sur des corpus bilingues parallèles. Dans de tels corpus, les textes sont alignés phrase à phrase de telle sorte que les phrases du texte original sont associées avec leur traduction. 3 Les paires de phrases ainsi formées sont généralement appelées biphrases. Un exemple de corpus parallèle est présenté par la Table 2.1 pour la paire de langues anglais-français. L’équation 2.2 fait également apparaître p(e), la probabilité que la phrase e produite existe dans la langue cible vers laquelle on traduit. Si la phrase e est grammaticalement incorrecte ou plus généralement peu probable étant donné un grand corpus représentatif de la langue en question, alors la valeur de p(e) sera faible. Cette probabilité est donnée par un modèle de langue (voir la section 2.3.2.3). Le problème de la génération d’une traduction ne peut cependant pas se résumer à chercher la traduction d’une phrase présente dans un corpus bilingue. Cela reviendrait en effet à considérer que toutes les phrases qu’il est possible de former ont déjà été traduites par des humains et que nous avons accès à cette traduction. Pour tenter de résoudre ce problème, les premiers systèmes de TA statistiques découpaient la phrase en mots : on les décrit donc comme systèmes fondés sur les mots (word-based).

Alignements mot à mot

Les systèmes de traduction fondés sur les mots reposent sur la décomposition de la phrase à traduire en mots, ou plus généralement en tokens, par un traitement de tokénisation (ou segmentation en tokens) 4 . Cette segmentation permet de déterminer des alignements mot à mot tel qu’illustré par la Figure 2.1. Les modèles IBM (Brown et al., 1993) permettent de déterminer quel mot de la langue cible est aligné avec quel mot de la langue source. Il existe cinq modèles IBM 5 avec un degré de complexité croissant. Le modèle 1 considère tous les alignements possibles comme étant équi-probables, sans tenir compte de l’ordre des mots, tandis que le modèle 2 ajoute un modèle de réordonnancement basé sur la position absolue des mots dans la phrase cible et la phrase source ; les détails de ces modèles IBM sont donnés par Brown et al. (1993). En considérant par exemple le plus simple de ces modèles, le modèle 1, la probabilité p(f|e) se calcule avec la formule suivante : p(f, a|e) = ǫ (le + 1)lf Y le j=1 t(fj |ea(j)) (2.3) où lf est la longueur de la phrase f à traduire, le la longueur de la traduction e avec un alignement de chaque token ei avec chaque token fj selon la fonction d’alignement a : i → j. Le modèle de traduction estime ici la probabilité d’associer chaque mot de la phrase en langue source avec chacune de ses traductions en langue cible. Cependant, cette modélisation se confronte à divers problèmes, notamment à celui de la polysémie lexicale et de l’homographie. Dans une traduction du français vers l’anglais, si on a par exemple le mot « avocat », le système de traduction devra décider s’il le traduit par « lawyer » ou par « avocado ». En exploitant certains corpus parallèles bilingues, le modèle de traduction pourrait par exemple donner des probabilités telles que : p(lawyer|avocat) = 0.8, et p(avocado|avocat) = 0.2. Concrètement, la traduction « avocado » ne pourrait être effectivement choisie que si, en particulier, le modèle de langue p(e) avait une nette préférence pour cette traduction dans le contexte où elle est générée (voir la Table 2.2). D’autres problèmes peuvent rendre difficile l’estimation des probabilités de traduction mot à mot. Un token rare, peu observé dans les corpus parallèles utilisés, aura des probabilités de traduction peu fiables. Cette rareté peut être naturelle, notamment dans les langues morphologiquement riches où un mot peut avoir différentes formes dépendant de la fonction grammaticale qu’il occupe dans la phrase. Mais cette rareté peut être aussi la conséquence d’une mauvaise tokenization. En outre, les corpus parallèles peuvent être bruités, c’est-à-dire contenir des paires de phrases qui ne sont pas des traductions l’une de l’autre. 6 Finalement, un autre problème important concerne l’idiomaticité de certaines traductions : il est en effet souvent impossible de traduire un mot par un mot exactement. Par exemple, le mot composé « pomme de terre » se traduit en anglais par « potatoe », et plus généralement il est fréquemment nécessaire de traduire un groupe de tokens par un groupe de tokens. La traduction statistique dite fondée sur les segments (phrase-based SMT 7 ) tente d’apporter des solutions à ce problème.

La traduction automatique statistique fondée sur les segments

Les bisegments comme unités de traduction

Contrairement à la traduction fondée sur les mots, la traduction fondée sur les segments (Och et al., 1999; Och et Ney, 2003; Koehn et al., 2003) utilise comme unités de traduction des groupes de tokens dont la taille maximale est bornée 8 . Un segment peut donc capturer des éléments de contexte local, tant que ceux-ci appartiennent au segment, permettant ainsi de diminuer les risques d’ambiguïtés lexicales. Par exemple, le segment « avocat d’ affaires », si sa traduction a été correctement extraite (“business lawyer” en anglais), permet de résoudre l’ambiguïté décrite plus haut sur la traduction de « avocat ». À partir des alignements mot à mot calculés sur un corpus parallèle (voir la section 2.2), il est possible d’extraire des appariements entre segments source (segments de la phrase à traduire) et un ou plusieurs segments cible correspondant. La paire de segments associant un segment source à un segment cible est généralement appelée bisegment (biphrase). Pour chaque bisegment, un ensemble de scores peuvent être calculés, par exemple : — la probabilité de traduction directe : p(e|f) — la probabilité de traduction inverse : p(f|e) — la pondération lexicale directe : lex(e|f) — la pondération lexicale inverse : lex(f|e) La probabilité de traduction évalue la probabilité du bisegment (e, f) selon un corpus parallèle. Dans sa forme la plus simple elle est donnée par la fréquence relative dans le corpus parallèle de cette association rapportée à toutes les occurrences de f : p(e|f) = F(e, f) Σek F(ek, f) (2.4) où F(e, f) compte le nombre de fois où le bisegment (e, f) a été observé et F(ek, f) compte le nombre de fois où est observé f pour les k segments source avec lesquels il a été associé.

Table des matières

1 Introduction
2 Vue d’ensemble sur la traduction automatique statistique
2.1 Le problème de la traduction automatique statistique
2.2 Alignements mot à mot
2.3 La traduction automatique statistique fondée sur les segments
2.3.1 Les bisegments comme unités de traduction
2.3.2 Une fonction de score qui met en jeu des modèles
2.3.2.1 Une fonction de score pour évaluer les traductions
2.3.2.2 Des tables de traduction pour collecter les bisegments
2.3.2.3 Modèle de langue
2.3.2.4 Des modèles de réordonnancement pour réorganiser les traductions
2.3.3 Parcours de l’espace de recherche
2.4 Les métriques d’évaluation automatique de la traduction
2.4.1 Rôles des métriques d’évaluation automatique
2.4.2 BLEU et ses variantes
2.4.3 TER
2.4.4 METEOR
2.4.5 Les limites de l’évaluation automatique
2.5 L’optimisation d’un système de traduction
2.5.1 La recherche des meilleurs poids à attribuer aux modèles
2.5.2 L’algorithme d’optimisation KB-MIRA
Résumé
3 Améliorer la sortie d’un système de traduction automatique
3.1 Données et systèmes de traduction de référence
3.1.1 Systèmes de traduction d’articles d’actualité (news)
3.1.2 Systèmes de traduction de textes médicaux (médical)
3.1.3 Systèmes de traduction de présentations orales (TED Talks)
3.2 Le décodage et ses limites
3.2.1 Un parcours de l’espace de recherche qui doit être efficace
3.2.2 Des modèles trop complexes pour être intégrés au décodage
3.2.2.1 Modèles nécessitant une hypothèse complète pour être calculés
3.2.2.2 Modèles trop coûteux pour être intégrés au cours du décodage
3.2.2.3 Modèles indisponibles au cours d’un premier décodage
3.3 Le reclassement des n-meilleures hypothèses de traduction
3.3.1 Le reclassement et ses limites
3.3.2 Systèmes de traduction de référence avec reclassement d’hypothèses
3.3.2.1 Modèles complexes utilisés
3.3.2.2 Résultats des expériences de reclassemen
3.4 Regénérer une traduction après un premier décodage
3.5 Au-delà du décodage : la recherche locale
3.6 La post-édition pour améliorer une traduction
3.6.1 La post-édition par un humain
3.6.2 La post-édition automatique .
Résumé
4 Une recherche locale enrichie avec des modèles complexes
4.1 Évaluation du potentiel d’amélioration des traductions produites .
4.1.1 La recherche locale oracle
4.1.1.1 Une métrique d’évaluation automatique comme fonction de score
4.1.1.2 Opérations de réécriture
4.1.2 Systèmes de référence europarl-intersect et BTEC
4.1.3 Expériences et analyse
4.1.3.1 Mise en évidence du potentiel d’amélioration des traductions
4.1.3.2 Effets de la réduction des données d’entraînement et du filtrage des tables de traduction
4.1.3.3 Impact de la langue cible .
4.1.3.4 Une opération paraphrase pour améliorer l’atteignabilité des traductions de référence
4.1.3.5 Les dérives d’une recherche locale oracle guidée par sBLEU
4.2 Réécriture automatique de traductions à l’aide de modèles complexes
4.2.1 Une réécriture guidée par des modèles inutilisables lors du décodage
4.2.1.1 Table de réécriture
4.2.1.2 Optimisation de la nouvelle fonction de score
4.2.1.3 Le système de réécriture : rewriter
4.2.2 Expériences
4.2.2.1 Systèmes de référence
4.2.2.2 Résultats
4.2.3 Analyse
4.2.3.1 Impact de la table de réécriture et des exemples d’entraînement
4.2.3.2 Performance de rewriter en fonction de la qualité de la traduction à réécrire
4.2.3.3 Expériences semi-oracle : ne pas réécrire ce qui est déjà correct
4.2.3.4 Analyse manuelle des erreurs effectuées
4.2.3.5 Une réécriture très locale et parfois trop limitée
Résumé
5 Un décodage mieux informé guidé par des modèles complexes
5.1 Un décodage à passes multiples
5.1.1 Guidage du décodeur par le résultat d’un reclassement d’hypothèses
5.1.2 Exploitation des informations nouvelles d’un reclassement par partitionnement des tables de traduction
5.1.2.1 Partitionnement des tables par identification des bisegments à privilégier ou à pénaliser
5.1.2.2 Traduction spécialisée pour chaque token
5.1.3 Fonctionnement global du décodage à passes multiples
5.1.3.1 Accumulation des modèles et des hypothèses produites
5.1.3.2 Optimisation du système
5.2 Expériences
5.2.1 Systèmes de référence
5.2.2 Résultats
5.3 Analyse
5.3.1 Des listes d’hypothèses plus diversifiées
5.3.1.1 Analyse au niveau des hypothèses
5.3.1.2 Analyse au niveau lexical
5.3.1.3 Une meilleure diversité pour un reclassement d’hypothèses amélioré
5.4 Combinaison du décodage à passes multiples et de la recherche locale
5.4.1 Ajout d’une nouvelle étape de réécriture après chaque décodage
5.4.2 Résultats et analyse
5.5 Analyse des différences entre les traductions produites par les systèmes
Résumé
6 Regénérer une traduction à l’aide de l’humain : la pré-post-édition
6.1 La pré-post-édition
6.1.1 Description de l’approche
6.1.2 Partitionnement des modèles en fonction des annotations .
6.1.2.1 Modèles de langue
6.1.2.2 Tables de traduction
6.1.3 Fonctionnement global
6.1.3.1 Utilisation des nouveaux modèles
6.1.3.2 Optimisation du systèm
6.2 Expérience
6.2.1 Le paradigme de la post-édition simulée
6.2.2 TERPPE : une métrique pour l’évaluation de la pré-post-édition
6.2.3 Systèmes de référence
6.2.4 Résultats
6.3 Analyse
6.3.1 Évaluation de l’importance des modèles ajoutés
6.3.2 Ajout d’une passe de reclassement d’hypothèses après chaque itération
Résumé
7 Conclusion
Appendices
Annexe A Extraits de bicorpus
A.1 Extrait du bicorpus d’évaluation utilisé pour la tâche news
A.2 Extrait du bicorpus d’évaluation utilisé pour la tâche médical
A.3 Extrait du bicorpus d’évaluation utilisé pour la tâche TED Talks
Annexe B Exemples de tokens hors-vocabulaire
B.1 Tokens hors-vocabulaire du corpus d’évaluation de la tâche news
B.2 Tokens hors-vocabulaire du corpus de test de la tâche médical
B.3 Tokens hors-vocabulaire du corpus de test de la tâche TED Talks
Annexe C Exemples de traductions produites
Annexe D Publications de l’auteur