TRADUCTEURS EN LIGNE ET PRATIQUES DE LITTÉRATIE NUMÉRIQUE

Télécharger le fichier original (Mémoire de fin d’études)

La traduction neuronale

La traduction neuronale est apparue en 2015 dans le sillage des recherches sur l’apprentissage profond. L’apprentissage profond peut être défini comme « un principe […] d’apprentissage de niveaux multiples »2 (Goodfellow, Bengio, & Courville, 2016, p.13). Bien que ce champ de recherche semble très récent, il a émergé dans les années 1940, mais on préférait alors le terme de cybernétique. Les recherches sur l’apprentissage profond sont nées de la volonté d’améliorer les systèmes d’intelligence artificielle afin qu’ils puissent exécuter des tâches que nous exécutons de façon intuitive, mais qui sont difficilement réalisables par ces systèmes : la reconnaissance faciale ou la reconnaissance de la langue parlée ont représenté, par exemple, des défis majeurs. L’apprentissage profond peut constituer une solution à ce problème :
Cette solution consiste à permettre aux ordinateurs d’apprendre par l’expérience et de comprendre le monde en termes d’une hiérarchie de concepts, chaque concept étant défini en fonction de sa relation avec des concepts plus simples. En rassemblant les connaissances à partir de l’expérience, cette approche évite aux opérateurs humains de devoir spécifier de façon formelle toutes les connaissances dont l’ordinateur a besoin. La hiérarchie de concepts permet à l’ordinateur d’apprendre des concepts complexes en les construisant à partir de concepts plus simples. Si nous dessinons un graphique qui montre comment ces concepts sont construits les uns sur les autres, le graphique est profond et comprend de nombreuses couches. C’est pourquoi nous appelons cette approche de l’intelligence artificielle apprentissage profond. (Goodfellow et al., 2016, pp.1–2, ma traduction)3.
L’enjeu est alors de permettre à la machine d’organiser les informations rencontrées dans le cadre de l’« expérience », mot-clé dans l’extrait ci-dessus. Le rôle des programmateurs n’est alors plus de programmer les informations nécessaires au système, mais de créer un programme qui permette à la machine de créer son propre réseau d’informations.
2 « Le terme moderne d’ « apprentissage profond » va au-delà de la perspective neuroscientifique sur la génération actuelle de modèles d’apprentissage automatique. Il fait appel à un principe plus général d’apprentissage de niveaux multiples de composition qui peut être appliqué dans des cadres d’apprentissage automatique qui ne sont pas nécessairement d’inspiration neuronale » (Goodfellow, Bengio, & Courville, 2016, p.13, ma traduction).
Le texte original est le suivant : « The modern term « deep learning » goes beyond the neuroscientific perspective on the current breed of machine learning models. It appeals to a more general principle of learning multiple levels of composition, which can be applied in machine learning frameworks that are not necessarily neurally inspired ».
L’approche neuronale correspond aux développements les plus récents de l’apprentissage profond. Elle s’appuie sur les recherches relatives aux réseaux de neurones, que Poibeau présente ainsi : Les réseaux de neurones étaient à l’origine inspirés par le cerveau biologique : les neurones transmettent et traitent des informations de base à partir desquelles le cerveau est capable de construire des représentations de plus haut niveau qui, d’elles-mêmes, peuvent donner naissance à des idées complexes. Les réseaux de neurones artificiels, tout comme le cerveau, peuvent construire des représentations complexes à partir d’informations riches, assemblées de manière hiérarchique. (2019, p.69).
Ainsi, la traduction neuronale s’appuie sur des réseaux de neurones artificiels qui imitent le fonctionnement du cerveau pour analyser la langue en tant que système (Poibeau, 2019). Ce système de traduction présente plusieurs similitudes avec la traduction statistique : il analyse un corpus parallèle, aussi appelé corpus bilingue, et s’appuie sur des calculs de probabilités pour produire la traduction qui a le plus de chances d’être valide. Comme le rappelle Hofstadter (2018), l’analyse textuelle ne relève pas d’une opération cognitive mais d’algorithmes : l’analyse est le produit d’une « suite d’instructions […] qui permettent de résoudre le problème du traitement de l’information en la recherchant, traitant, classant, hiérarchisant, etc. » (Paveau, 2017, p.19). La traduction neuronale présente néanmoins une différence fondamentale avec le système précédent : le système ne décompose plus la phrase en mots ou en segments pour la traduire mais l’analyse comme un tout. Les algorithmes effectuent des analyses contextuelles globales et prennent en compte les cooccurrences lexicales pour créer des « plongements de mots »4 (Poibeau, 2019, p.122), c’est-à-dire des groupes de mots thématiques. Lorsque le système a créé des plongements de mots dans la langue source et dans la langue cible, un algorithme met en relation les plongements de mots correspondants pour établir des correspondances lexicales. L’exemple suivant5 semble illustrer cette notion (cf. Figure 1.2) :
4 « L’analyse porte principalement sur les mots « pleins » (aussi appelés « sémantiquement pleins »). Les mots pleins correspondent aux noms, aux verbes, aux adjectifs et éventuellement aux adverbes […]. Chaque mot plein est alors lié à un ensemble plus large, homogène sémantiquement –ou plutôt « thématiquement »-, appelé « plongement de mots » (ou word embedding en anglais) obtenu par l’analyse automatique de très gros corpus (plusieurs millions, voire milliards de mots) » (Poibeau, 2019, p.122)
Dans cet exemple, l’expression idiomatique « tomber dans les pommes » est traduite par « fall in love », ce qui relève du contresens. Cette erreur peut être perçue comme la trace d’un « plongement de mots » (Poibeau, 2019) : le traducteur a identifié le champ thématique du texte à partir du nom « amoureuse » et de l’adjectif « amoureux » et semble avoir traité le verbe « tomber » dans le cadre de cette thématique. Il a rapproché le verbe de l’expression « tomber amoureux » et a traduit en conséquence l’expression « tomber dans les pommes » par « fall in love »6.
Le fonctionnement des traducteurs qui s’appuient sur l’apprentissage profond a plusieurs conséquences. Tout d’abord, ces systèmes s’appuient sur l’analyse de corpus bilingues et requièrent une importante base de données pour augmenter les chances de produire des traductions correctes (Bellos, 2011). Or, Poibeau (2019) estime qu’une quinzaine de langues seulement disposent d’une telle base de données7. Lorsque les corpus ne sont pas suffisamment fournis, le traducteur a recours à une langue-pivot, généralement l’anglais, ce qui a des incidences sur la qualité des traductions produites. En outre, les traductions sont de meilleure qualité lorsque les paires linguistiques8 concernent des langues proches, du moins de la même famille. Darancik (2016) a ainsi constaté que les traductions entre anglais et allemand présentaient moins d’erreurs que les traductions entre allemand et turc. Poibeau (2019) signale toutefois que les traductions de l’allemand vers l’anglais sont meilleures que dans le sens inverse, en raison des difficultés que posent les mots composés, fréquents en allemand, aux traducteurs automatiques. Enfin, comme les systèmes de traduction s’appuient sur des analyses contextuelles globales, les traductions ont davantage de chances d’être correctes si les recherches sont contextualisées.
Les traducteurs en ligne analysent donc un corpus bilingue disponible en ligne selon des principes statistiques pour proposer la traduction qui présente la plus forte probabilité d’être correcte. Le terme de traducteur en ligne restreint alors les systèmes de traduction automatique aux systèmes qui s’appuient sur l’analyse des bases de données disponibles en ligne.

Conclusion intermédiaire

Cette section a présenté un bref historique du développement de la traduction automatique. Ce champ de recherche s’est développé dans les années 1950, à la suite de l’apparition des premiers ordinateurs. Après l’échec des systèmes de traduction à base de règles, les recherches se sont portées sur la traduction statistique. Les systèmes actuels s’appuient sur la traduction neuronale, une forme de traduction statistique qui a été développée à partir de l’apprentissage profond. Comme la traduction statistique, la traduction neuronale analyse les corpus parallèles présents en ligne et la qualité des traductions dépend de la somme de données relatives à cette paire linguistique disponible en ligne. Toutefois, à la différence de la traduction statistique, la traduction neuronale analyse la phrase dans sa globalité pour prendre en compte le contexte. Les traducteurs en ligne constituent une forme d’outils d’aide à la traduction, au même titre que les dictionnaires et les concordanciers. Les spécificités de ces différents outils seront présentées dans la section suivante.

Les principaux outils d’aide à la traduction : points communs et différences

L’indifférentiation des outils d’aide à la traduction par certains utilisateurs semble faire écho au constat de L’Homme et Cormier (2014) à propos des outils lexicographiques numériques. Selon elles, le développement d’outils numériques brouille de plus en plus les frontières entre les dictionnaires et les autres types de ressources. Les spécificités numériques communes à ces différents outils seront étudiées, puis je dresserai une brève typologie des principaux outils mentionnés par les lycéens et par les enseignants dans le cadre de cette recherche, tels que dictionnaires et traducteurs en ligne.

Spécificités des outils numériques d’aide à la traduction

Le développement de ressources numériques a profondément transformé les outils lexicographiques (L’Homme & Cormier, 2014), il en est de même avec les outils d’aide à la traduction. Outre la simplification de l’actualisation des données, l’affranchissement du support papier a permis de se défaire des limitations inhérentes à la matérialité des livres et au format de la page. Les outils en ligne peuvent offrir rapidement un plus grand nombre d’informations aux utilisateurs, au risque toutefois de les submerger. Les captures d’écran donnent à voir les résultats obtenus lors de la consultation de Linguee ou de Wordreference (cf. Figure 1.3) : On peut constater que de nombreuses informations figurent sur chaque écran : les traductions (Wordreference) et les extraits de corpus bilingue (Linguee) qui apparaissent ici ne constituent qu’une partie des traductions proposées à l’utilisateur, qui peut faire défiler la page pour accéder à davantage de résultats. En outre, ces captures d’écran montrent que Linguee propose également un dictionnaire bilingue et que Wordreference donne aussi accès à un dictionnaire monolingue et à la prononciation du mot, sous sa forme phonétique mais aussi sous sa forme audiophonique. De fait, la conception d’outils numériques permet également de fusionner plusieurs fonctionnalités en un seul outil. Ainsi, Linguee est présenté comme un « [d]ictionnaire français-anglais [et outil de] recherche via un milliard de traductions »9. Il ne propose donc pas seulement un concordancier, mais aussi un dictionnaire bilingue, comme on peut l’observer sur la capture d’écran ci-dessus. Le numérique permet par ailleurs de créer des hyperliens entre les différentes fonctionnalités du même outil. Par exemple, la sélection d’un mot sur Wordreference redirige l’utilisateur vers les traductions de ce mot ou vers le forum.
Enfin, les outils numériques peuvent s’adapter au support utilisé pour les consulter. Ainsi, Google Traduction ne propose pas les mêmes fonctionnalités selon que l’utilisateur emploie un ordinateur ou un téléphone portable (cf. Figure 1.4).
Les captures d’écran montrent que l’application employée sur téléphone portable propose uniquement la traduction en ligne tandis que le même site consulté sur ordinateur donne accès à un dictionnaire unilingue, indiqué par un ovale orange (1), et à un dictionnaire bilingue, signalé par un ovale jaune (2).
Il ressort de ces quelque exemples qu’un même outil associe souvent plusieurs fonctionnalités : le concordancier Linguee tout comme le traducteur en ligne Google Traduction comportent également des dictionnaires bilingues ou unilingues, tandis que Wordreference permet d’obtenir les « [p]rincipales traductions » des mots recherchés, comme on peut le lire sur la capture d’écran de la Figure 1.3. Dans ces conditions, il peut être difficile d’établir une distinction entre les différents outils disponibles. Pourtant, une bonne connaissance de leurs spécificités semble nécessaire non seulement pour pouvoir utiliser les outils existants de façon critique et informée (Ollivier et al., 2018), mais aussi pour mieux s’emparer de ceux qui ne manqueront pas d’apparaître dans un avenir plus ou moins proche.

Typologie des principaux outils d’aide à la traduction

Cette section vise à présenter les spécificités de Wordreference puis de Linguee pour établir une brève typologie des outils d’aide à la traduction les plus souvent mentionnés par les lycéens et les enseignants qui ont participé à cette recherche : les dictionnaires en ligne, les concordanciers et les traducteurs en ligne.

Wordreference et Linguee : lexicographie et analyse de données

Bien que Wordreference et Linguee soient tous deux présentés comme des dictionnaires, des différences fondamentales existent entre les deux sites.
Wordreference est avant tout un ensemble de dictionnaires bilingues gratuits, comme le rappelle son fondateur, Michael Kellogg10. Cet ensemble de dictionnaires donnent de nombreuses informations telles que la nature des mots, les différentes traductions selon le sens ou le contexte, le registre mais aussi de nombreuses expressions et collocations. Autrement dit, ces dictionnaires en ligne proposent des informations similaires à celles que l’on trouve dans un dictionnaire non numérique. Dans la capture d’écran ci-dessus (cf. Figure 1.3 p.33), le nom « défense » est identifié comme un nom féminin et trois sens apparaissent à l’écran ainsi que la variation orthographique entre anglais britannique et anglais américain. En outre, comme nous l’avons déjà vu, l’outil permet d’accéder à la prononciation du mot non seulement par le biais de sa transcription phonétique mais aussi grâce à l’icône qui figure à côté du mot et donne à entendre le mot en question.
Wordreference inclut également des dictionnaires unilingues, des dictionnaires de synonymes ou de collocations. On peut encore mentionner une aide à la conjugaison et l’accès à des données iconographiques par le biais de l’onglet « images », qui propose un lien vers le moteur de recherche Google. Les différents dictionnaires sont le fruit du travail d’une équipe d’experts composée non seulement de programmateurs informatiques, mais aussi de linguistes et de lexicographes (Crespi, 2017). Outre ces nombreuses aides, Wordreference propose un forum où les utilisateurs peuvent poser des questions relatives à l’usage. C’est cette dimension collaborative qui conduit Crespi à considérer Worderefence comme une « Wikipedia lexicographique », bien que la collaboration prenne ici la forme d’échanges entre les membres de la communauté plutôt que d’une présentation encyclopédique des connaissances.
Linguee est lui aussi présenté comme un dictionnaire bilingue, mais celui-ci est d’emblée associé à un moteur de recherche11, ce qui conduit Buyse et Verlinde (2013) à considérer Linguee comme un dictionnaire basé sur l’analyse de données, ou « data driven dictionary » (2013, p.508). La différence avec Wordreference est fondamentale : bien que les entrées du dictionnaire fassent l’objet d’une vérification humaine12, les informations auxquelles l’utilisateur peut accéder sont avant tout le résultat de l’analyse automatique d’un corpus parallèle. Lorsque l’utilisateur effectue une recherche, les résultats sont présentés sous deux formes, tout d’abord sous la forme d’entrées simplifiées de dictionnaires bilingues, puis sous la forme d’extraits de corpus. On peut voir dans la capture d’écran ci-dessus (cf. Figure 1.3 p.33) que dans la fenêtre « dictionnaire », l’expression « récolter des fonds » est décomposée et les mots sémantiquement pleins sont traduits de façon isolée. Aucune indication n’est donnée sur les différences de sens des traductions proposées, seule la nature des mots apparaît. Dans la fenêtre inférieure « sources externes », Linguee propose environ 30 extraits de corpus bilingue sélectionnés, donnant ainsi accès à des données authentiques et contextualisées (Buyse & Verlinde, 2013).

Brève comparaison des principaux outils d’aide à la traduction

L’identification des principales différences entre Wordreference, Linguee et Google Traduction permet d’identifier les spécificités des dictionnaires en ligne, des concordanciers et des traducteurs en ligne. Le tableau suivant (cf. Figure 1.5) ne prétend pas à une description exhaustive des outils mentionnés, mais vise plutôt à synthétiser les points les plus saillants.
Ce tableau présente les différents sites du point de vue des concepteurs de ces sites puis de celui des utilisateurs. Des différences se dessinent entre les trois outils à l’étude au stade de la conception : Wordreference s’appuie sur l’expertise de linguistes, contrairement à Google Traduction. Quant à Linguee, l’expertise linguistique s’exerce uniquement pour le dictionnaire bilingue, à des fins de vérification. Le concordancier Linguee et Google Traduction fonctionnent tous deux à partir de l’analyse automatique de corpus et se passent d’une telle expertise au stade de la conception. On peut donc observer des similitudes entre le concordancier et le traducteur au stade de la conception, mais lorsqu’on s’intéresse à l’utilisation de l’outil, le concordancier présente davantage d’analogies avec le dictionnaire en ligne : les deux sites peuvent proposer de nombreuses traductions parmi lesquelles l’utilisateur doit faire une sélection, tandis le traducteur en ligne n’offre qu’une traduction qu’il revient à l’utilisateur d’évaluer. Malgré ces différences, on peut enfin remarquer que dans ces trois cas, il revient à l’utilisateur de s’appuyer sur ses propres connaissances linguistiques, afin de sélectionner la traduction adéquate ou d’évaluer la proposition du traducteur en ligne.
Bien qu’il soit parfois difficile d’établir une distinction entre les différents outils d’aide à la traduction, il semble que les différences au niveau de la conception du site (construction des données, intervention ou non d’une expertise linguistique) et de l’utilisation de ce site (nombre de traductions proposées, contextualisation ou non de ces traductions) permette de différencier dictionnaires en ligne, concordanciers et traducteurs en ligne. Cette précision est d’importance dans le cadre de l’enseignement-apprentissage, dans la mesure où le recours à un outil d’aide à la traduction entraîne la mise en œuvre d’activités cognitives spécifiques à cet outil de la part de l’utilisateur : sélection de la traduction adéquate à partir des différents éléments d’information (Wordreference ou Linguee) ou évaluation d’une traduction unique (Google Traduction). La nature de l’outil sélectionné a également des incidences sur la nature du texte source : Wordreference permet de traduire des mots et certaines expressions tandis que Google Traduction est plus fiable lorsque la recherche est contextualisée, c’est-à-dire lorsque l’utilisateur traduit une phrase entière (cf. 1.1.2). L’évaluation de la qualité de la traduction produite par les traducteurs en ligne peut s’avérer complexe pour les utilisateurs non-experts, mais elle est essentielle.

Table des matières

INTRODUCTION GÉNÉRALE
PREMIÈRE PARTIE : TRADUCTEURS EN LIGNE ET PRATIQUES DE LITTÉRATIE NUMÉRIQUE
Chapitre 1 : Traducteurs en ligne et outils d’aide à la traduction
Synthèse du chapitre 1
Chapitre 2 : Aspects cognitifs du processus rédactionnel en L2
Synthèse du chapitre 2
Chapitre 3 : Pratiques de littératies numériques en contexte scolaire
Synthèse du chapitre 3
DEUXIÈME PARTIE : MÉTHODOLOGIE
Chapitre 4 : Une approche holistique pour cerner des pratiques buissonnières
Synthèse du chapitre 4
Chapitre 5 : Recueil des données et méthodes d’analyses
Synthèse du chapitre 5
TROISIÈME PARTIE : ANALYSES ET RÉSULTATS
Chapitre 6 : Enquêtes par questionnaires
Synthèse du chapitre 6
Chapitre 7 : Observations des pratiques d’élèves : captures d’écran sur tablettes
Synthèse du chapitre 7
Chapitre 8 : Étude de cas
Synthèse du chapitre 8
QUATRIÈME PARTIE : DISCUSSION
Chapitre 9 : Enjeux didactiques, limites méthodologiques et pistes de recherche
EN CONCLUSION
BIBLIOGRAPHIE
INDEX DES AUTEURS
TABLE DES FIGURES
TABLE DES TABLEAUX
TABLE DES TRANCRIPTIONS
TABLE DES ANNEXES
TABLE DES MATIÈRES