Construction d’une base de données lexicale pour les mots français abstraits et concrets

Construction d’une base de données lexicale
pour les mots français abstraits et concrets

Caractérisation des mots abstraits et concrets

Aspects neuropsycholinguistiques

Il est considéré dans la littérature qu’il existe deux systèmes du codage de l’information verbale et visuelle. Ces codages sont réalisés dans des régions du cerveau différentes, ce qui est prouvé par des expériences avec l’utilisation de l’imagerie par résonance magnétique fonctionnelle (IRMf) et l’électroencéphalographie (EEG). M. Just et ses collègues (Just et al., 2004) ont observé que les mots abstraits sont souvent associés aux régions du cerveau touchées chez les enfants dyslexiques ; cependant, il est nécessaire de distinguer les types de dyslexie. Les erreurs sémantiques ne sont pas uniquement présentes dans les cas de dyslexie profonde, acquise et non observée chez les enfants. Une expérience avec des phrases de haute et basse iconicité montre que cela prend plus de temps de répondre ‘vrai’ ou ‘faux’ pour les phrases avec un haut degré d’iconicité. Cependant, Paivio a constaté que l’effet de concrétude, caractérisé par le temps de réponse plus rapide a des mots concrets, ne se produit pas seulement face à des données provenant 1 ANR ALECTOR. Consulté le 20 mai 2020, à l’adresse https://alectorsite.wordpress.com/. 9 d’individus souffrant de dyslexie profonde, mais également chez les normo-lecteurs (Paivio, 1991). Les principales théories expliquant l’effet de concrétude chez les normo lecteurs incluent la théorie du double codage (Paivio, 1990) qui soutient que les mots concrets ont un avantage en termes de traitement car ils activent le système verbal (linguistique) et le système non-verbal (d’imagerie), tandis que les mots abstraits activent seulement le système verbal (Figure 1). Figure 1. Système de double codage Une autre explication de l’effet de concrétude est la théorie de la disponibilité du contexte (Schwanenflugel et al., 1988; Schwanenflugel & Shoben, 1983; Schwanenflugel & Stowe, 1989) qui soutient que les mots concrets sont fortement associés à quelques contextes, tandis que les mots abstraits sont faiblement associés à de nombreux contextes. L’effet de concrétude est toutefois exagéré chez les personnes souffrant de dyslexie profonde, de sorte qu’il peut être impossible de lire des mots abstraits à cause d’un déficit sémantique de ces mots. Certaines preuves suggèrent que cet effet de concrétude exagéré se reflète également dans les différences d’activation neuronale chez les normo-lecteurs et les personnes aphasiques (Sandberg & Kiran, 2014). Diverses théories expliquant l’effet de concrétude dans la dyslexie profonde ont été proposées. Selon l’hypothèse de Coltheart (Coltheart et al., 1988) l’hémisphère gauche permet une lecture abstraite des mots. Les lecteurs souffrant de dyslexie profonde ayant des dommages à l’hémisphère gauche utilisent fortement l’hémisphère droit, ce qui entraîne des difficultés avec les mots abstraits. Morton et Patterson (1980) proposent un modèle à double voie dans lequel la dyslexie profonde résulte de lésions multiples. Dans ce modèle, la lecture s’effectue via la voie sémantique ; cependant, la sémantique des mots abstraits est altérée. De même, Plaut et Shallice (1993), dans leur modèle connexionniste, proposent un avantage pour la lecture de mots concrets, car les mots concrets sont plus simples à caractériser que les mots 10 abstraits. En outre, le modèle des différents cadres de représentation de Crutch et Warrington (2005) propose que les mots concrets sont représentés dans un cadre catégorique (basé sur la similarité sémantique) et les mots abstraits sont principalement représentés par une association sémantique (contextes linguistiques). Cette théorie soutient que les mots concrets partagent davantage de représentations avec d’autres mots similaires (par exemple, vache – mouton) qu’avec d’autres mots associés (par exemple, vache – étable), tandis que les mots abstraits partagent davantage de représentations avec d’autres mots associés (par exemple, vol-punition) qu’avec d’autres mots similaires (par exemple, vol – crime). En conséquence, les lecteurs souffrant de dyslexie profonde produisent plus d’erreurs associatives, comme vol – punition, que d’erreurs sémantiquement similaires, comme vol – crime en réponse à des mots cibles abstraits et plus d’erreurs sémantiquement similaires que des erreurs associatives en réponse à des mots cibles concrets.

Sur les notions d’abstrait et de concret

La caractérisation des mots en concrets et abstraits reste une tâche difficile. Premièrement, par des mots concrets on comprend des mots qui ont un degré élevé d’iconicité. Selon Tellier et al., (2018), les mots concrets sont associés à une grande iconicité, notamment en termes de représentation mentale, tandis que les mots abstraits sont plutôt encodés verbalement (Paivio, 1986). Les mots concrets sont davantage associés aux informations contextuelles et aux expériences sensorimotrices que les mots abstraits, dans la mesure où les mots concrets sont liés à une haute iconicité et les mots abstraits à une faible iconicité. La notion de nom ‘concret’ fait référence aux objets, matériaux, sources de sensations relativement directes (Gorman, 1961); la notion de nom ‘abstrait’ fait référence à des objets, des matériaux et des sources de sensations indirectes. Un mot peut être générique (nommer un groupe ou une catégorie) ou spécifique (nommer une idée ou un objet spécifique) et abstrait, ainsi que générique ou spécifique et concret. On classe comme ‘abstrait’ tous les noms de mesures, processus, types d’humains, avec un trait sensoriel. Les noms des créatures mystiques sont classés comme concrets. Les états, périodes et qualités, phénomènes et événements sont classés comme abstraits. La notion de concrétude concerne aussi les mots qui peuvent être ressentis par l’un des cinq sens (Dove, 2016). Les mots concrets se réfèrent généralement à des concepts qui sont 11 spatialement et physiquement perceptibles, alors que les mots abstraits se réfèrent souvent à des concepts composés d’information sociale ou introspectif (Danguecan & Buchanan, 2016) (cf. Table 1).Une classification binaire des mots en abstraits et concrets, cependant, reste assez subjective, premièrement, parce que chaque personne a une expérience linguistique différente, et deuxièmement, parce que dans le vocabulaire de chaque langue, il y a beaucoup de mots polysémiques qui souvent ont des significations liées à différentes catégories sur l’échelle de l’iconicité. Même si la nature binaire d’une telle division peut sembler être un obstacle à la classification, dans cette étude, nous adhérons à une telle binarité. On suppose que si des études précédentes ont pu prouver la différence dans la perception des mots abstraits et concrets par le cerveau humain, la ligne entre l’abstrait et le concret existe dans le lexique et peut se refléter dans des caractéristiques spécifiques inhérentes au vocabulaire. En revanche, cette binarité n’est pas absolue : à la lumière des résultats de notre évaluation par des humains (cf. section 6.3) il y a une certaine gradation dans la perception de l’iconicité. Par exemple, ‘gare’ sera perçu comme très concret, ‘signe’ ou ‘nation’ au milieu de l’échelle, et ‘manie’ comme plutôt abstrait. Il existe cependant quelques bases de données contenant des informations sur les mots abstraits. Elles reflètent généralement les résultats d’annotations humaines, contiennent moins d’un millier de mots, peu de traits sémantiques ou lexicales. (Brysbaert et al., 2014; Bonin et al., 2003). Par exemple, Ferrand et Alario ont utilisé une base de données contenant 260 mots abstraits 12 (Ferrand, 2001) et 366 mots concrets (Ferrand & Alario, 1998) afin de mener une expérience d’associations de mots. Ces listes de mots hors contexte avec le niveau d’iconicité ont été compilées sur la base des corpus américains et canadiens traduits et approuvés par des francophones. Une ressource comme JeuxDeMots (Lafourcade, 2007), réseau lexical de référence pour le français, ne contient pas, à ce jour, des informations de ce type.

Méthodes d’annotation de mots abstraits et concrets

Différentes tentatives de construction de listes annotées de mots abstraits et concrets sont décrites dans la littérature. Rabinovich et al. (2018) utilisent une approche faiblement supervisée pour prédire l’abstractivité des mots et des expressions en l’absence totale de données étiquetées. Ils exploitent uniquement les indices morphologiques en tant que suffixes et préfixes et l’environnement contextuel d’un mot tel qu’il apparaît dans le texte. Leurs résultats montrent que les indices proposés sont suffisamment puissants pour obtenir une forte corrélation avec les marqueurs humains. Les résultats démontrent également qu’un indice morphologique minimum et un corpus textuel sont suffisants pour fournir quelques prédictions. Les auteurs ont utilisé l’ensemble des « indicateurs d’abstractivité » en anglais, comme les suffixes -ness, -ence, -ety, – ship etc. D’autres recherches en anglais montrent différents degrés de concrétude pour les formes de mots construits dans la représentation mentale. Les mots à structure opaque (‘departement’) peuvent être plus difficiles à catégoriser que les mots qui peuvent être facilement décomposés en une racine avec une forte signification sémantique et un morphème qui forme le dérivé (‘happiness’) (Marslen-Wilson et al., 2013). Avec l’essor récent des techniques de plongement de mots (ou word embeddings), les méthodes de construction ont évolué permettant d’étendre automatiquement les réseaux de distribution en utilisant les informations de proximité sémantique comme vecteurs. Des études impliquant l’utilisation des algorithmes de word embedding pour prédire le caractère concret des mots dans une langue et entre les langues ont été proposées par Ljubešić et al. (2018). Pierrejean & Tanguy (2019) ont également étudié le problème de la stabilité du plongement des mots en fonction de l’affectation à la catégorie concrété ou abstraite. Les résultats de cette étude ont montré que la propagation de mots concrets est plus performante que la propagation de mots abstraits. Enfin, Abnar et collaborateurs (2018) ont mené des expériences en utilisant plusieurs algorithmes 13 pour comparer leurs performances aux résultats de l’activité cérébrale dans le but de trouver une meilleure solution pour arriver à la classification des noms en abstraits et concrets.

Table des matières

1. Introduction
2. Caractérisation des mots abstraits et concrets
2.1. Aspects neuropsycholinguistiques
2.2. Sur les notions d’abstrait et de concret
2.3. Méthodes d’annotation de mots abstraits et concrets
3. Expérience 1. Impact de la fréquence sur l’abstractivité du lexique
3.1. Stimuli
3.2. Participants et tâche
3.3. Résultats et discussion
3.4. Biais d’étude
4. Expérience 2. Impact de la morphologie sur l’abstractivité du lexique
4.1. Stimuli
4.2. Questionnaire et tâche
4.3. Participants
4.4. Résultats
4.5. Discussion
5. Expérience 3. Annotation automatique du lexique en traits abstrait et concret
5.1. Données
5.2. Méthodologie
5.3. Résultats
5.4. Évaluation
5.4.1. Stimuli et procédure
5.4.2. Participants
5.4.3. Analyse statistique et résultats
A. Analyse de la précision des méthodes distributionnels
B. Analyse de l’impact de temps de réaction
C. Analyse de l’impact de la langue maternelle et des troubles du langage
D. Analyse d’effet de l’ambiguïté abstrait/concret
E. Analyse de l’impact de la fréquence des stimuli
5.4.4. Discussion
6. Conclusion
Bibliographie