Le TALN et Le RTE

Le TALN et Le RTE

Brève historique du traitement automatique du langage naturel

Historiquement, les premiers travaux importants dans le domaine du TALN ont porté sur la traduction automatique, avec, dès 1954, la mise au point du premier traducteur automatique (très rudimentaire). Quelques phrases russes, sélectionnées à l‟avance, furent traduites automatiquement en anglais. Depuis 1954, de lourds financements ont été investis et de nombreuses recherches ont été lancées. Les principaux travaux présentés concernent alors la fabrication et la manipulation de dictionnaires électroniques, car les techniques de traduction consistent essentiellement à traduire mot à mot, avec ensuite un éventuel réarrangement de l‟ordre des mots. Cette conception simpliste de la traduction a conduit à l‟exemple célèbre suivant : la phrase The spirit is willing but the flesh is weak (l‟esprit est fort mais la chair est faible) fut traduite en russe puis retraduite en anglais. Cela donna quelque chose comme : The vodka is strong but the meat is rotten (la vodka est forte mais la viande est pourrie) ! Ce qui ressort de cet exemple, c‟est que de nombreuses connaissances contextuelles (i.e. portant sur la situation décrite) et encyclopédiques (i.e. portant sur le monde en général) sont nécessaires pour trouver la traduction correcte d‟un mot (par exemple ici spirit, qui, suivant les contextes peut se traduire comme esprit ou comme alcool). Posant comme conjecture que tout aspect de l‟intelligence humaine peut être décrit de façon suffisamment précise pour qu‟une machine le simule, les figures les plus marquantes de l‟époque (John Mc Carthy, Marvin Minsky, Allan Newell, Herbert Simon) y discutent des possibilités de créer des programmes d‟ordinateurs qui se comportent intelligemment, et en particulier qui soient capables d‟utiliser le langage. Aujourd‟hui, le champ du traitement du langage naturel est un champ de recherche très actif. De nombreuses applications industrielles (traduction automatique, recherche documentaire, interfaces en langage naturel), qui commencent à atteindre le grand public, sont là pour témoigner de l‟importance des avancées accomplies mais également des progrès qu‟il reste encore à accomplir.

Les niveaux de traitement

Nous introduisons dans cette section les différents niveaux de traitements nécessaires pour parvenir à une compréhension complète d‟un énoncé en langage naturel. Ces niveaux correspondent à des modules qu‟il faudrait développer et faire coopérer dans le cadre d‟une application complète de traitement de la langue. Nous considérons à titre d‟exemple l‟énoncé suivant : (1) Le président des antialcooliques mangeait une pomme avec un couteau, Nous envisageons les traitements successifs qu‟il convient d‟appliquer à cet énoncé pour parvenir automatiquement à sa compréhension la plus complète. Il nous faudra successivement : – identifier les composants lexicaux, et leurs propriétés : c‟est l‟étape de traitement lexical ; – identifier des constituants (groupe) de plus haut niveau, et les relations (de dominance) qu‟ils entretiennent entre eux : c‟est l‟étape de traitement syntaxique ; – construire une représentation du sens de cet énoncé, en associant à chaque concept évoqué un objet ou une action dans un monde de référence (réel ou imaginaire) : c‟est l‟étape de traitement sémantique. – identifier enfin la fonction de l‟énoncé dans le contexte particulier de la situation dans lequel il a été produit : c‟est l‟étape de traitement pragmatique.

Le niveau lexical

Le but de cette étape de traitement est de passer des formes atomiques (tokens) identifiées par le segmenteur de mots (Nugues, 2006), c‟est-à-dire de reconnaître dans chaque chaîne de caractères une (ou plusieurs) unité(s) linguistique(s), dotée(s) de caractéristiques propres (son sens, sa prononciation, ses propriétés syntaxiques, etc). Selon l‟exemple (1), l‟étape d‟identification lexicale devrait conduire à un résultat voisin de celui donné ci-dessous, dans lequel on peut constater en particulier l‟ambiguïté d‟une forme telle que président: cette chaîne correspond à deux formes du verbe présider (indicatif et subjonctif), ainsi à une forme nominale, et sa prononciation diffère selon qu‟elle représente un nom ou un verbe On conçoit aisément que pour les mots les plus fréquents, comme « le », la solution la plus simple est de rechercher la forme dans (un lexique) 1 précompilé. Dans les faits, c‟est effectivement ce qui se passe, y compris pour des formes plus rares, dans la mesure où l‟utilisation des formalismes de représentations compacts permettant un accès optimisé (par exemple sous la forme d‟automates d‟états finis), et l‟augmentation de la taille des mémoires rend possible la manipulation de vastes lexiques (de l‟ordre de centaines de milliers de formes). Pour autant, cette solution ne résout pas tous les problèmes. Le langage est création, et de nouvelles formes surgissent tous les jours, que ce soit par emprunt à d‟autres langues (il n‟y a qu‟a écouté parler les enseignants des autres modules de la dominante informatique !), ou, plus fréquemment, par l‟application de procédés réguliers de créations de mots, qui nous permettent de composer pratiquement à volonté de nouvelles formes immédiatement compréhensibles par tous les locuteurs de notre langue : si j‟aime lire Proust, ne peut-on pas dire que je m‟emproustise, que de proustien je deviens proustiste, voire proustophile, puis que, lassé, je me désemproustise… Ce phénomène n‟a rien de marginal, puisqu‟il est admis que, même si l‟on dispose d‟un lexique complet du français, environ 5 à 10 % des mots d‟un article de journal pris au hasard ne figureront pas dans ce lexique. La solution purement lexicale atteint là ses limites, et il faut donc mettre en œuvre d‟autres approches, de manière à traiter aussi les formes hors-lexiques. 3.2) Le niveau syntaxique La syntaxe est l‟étude des contraintes portant sur les successions licites de formes qui doivent être prises en compte lorsque l‟on cherche à décrire les séquences constituant des phrases grammaticalement correctes: toutes les suites de mots ne forment pas des phrases acceptables (Ligauzat, 1994). La description des contraintes caractéristiques d‟une langue donnée se fait par le biais d‟une grammaire. Les modèles et les formalismes grammaticaux proposés dans le cadre du traitement automatique du langage sont particulièrement nombreux et variés. Le niveau syntaxique est donc le niveau conceptuel concerné par le calcul de la validité de certaines séquences de mots, les séquences grammaticales ou bien-formées. On conçoit bien l‟importance d‟un tel traitement dans une application de génération, pour laquelle il est essentiel que la machine engendre des énoncés corrects. Dans une application de compréhension, la machine analyse des textes qui lui sont fournis, et dont on peut supposer qu‟ils sont grammaticaux. Pourquoi donc, dans ce cas, mettre en œuvre des connaissances syntaxiques ? Une première motivation provient du fait que les textes ne sont pas toujours grammaticaux, par exemple à cause des fautes d‟orthographes. Une analyse syntaxique peut donc permettre de choisir entre plusieurs corrections à apporter à une phrase incorrecte, mais également se révéler bien utile pour améliorer les sorties d‟un système de reconnaissance optique de caractère ou d‟encore un système de reconnaissance de la parole.