Représentation des événements en TALN et traitement automatique des nouvelles

La comparaison : la symétrie et l’asymétrie

En science cognitive, la reconnaissance, l’apprentissage et le jugement sont des exemples de processus mentaux cognitifs où les humains catégorisent des stimuli en termes de similarité. En ce sens, nous supposons que tout objet à comparer fait partie d’un ensemble d’objets qui partagent des caractéristiques communes. La similarité a souvent été abordée en philosophie et en psychologie comme une relation symétrique (Tversky, 1977). Cepentant, Tversky (1977) et Tversky & Gati (1978) ont démontré que la similarité pour l’homme est, dans la plupart des cas, une relation asymétrique. Particulièrement, Tversky (1977) indique que la similarité asymétrique est observée dans les tâches de production, comme la reconnaissance des formes et l’association de mots. L’asymétrie est également présente dans la relation entre les prédicats et les arguments puisque tout changement dans la structure du prédicat implique une interprétation différente de l’événement (Di Sciullo, 2013). En informatique, les auteurs se sont intéressés à la similarité pour comparer des images, des mots, des phrases et des textes. Dans ce contexte, la similarité est toujours une mesure symétrique ; cela s’explique par l’utilisation de modèles géométriques qui dominent la plupart des approches. En TALN , un modèle géométrique fréquemment utilisé pour calculer la similarité des mots est l’analyse sémantique latente (LSA); celle-ci est basée sur sur un modèle vectoriel ou Vector Space Model (VSM) en anglais. Nous analysons de plus près les concepts de symétrie et d’asymétrie puisqu’ils sous-tendent l’approche que nous proposons.

La symétrie / l’asymétrie

Le concept de symétrie 3 a été employé depuis l’antiquité, principalement dans le domaine de l’architecture et de l’art (peinture, sculpture et aussi musique 4 ). Les mathématiques modernes ont formalisé le concept de symétrie géométrique en termes d’un ensemble de transformations géométriques possibles : la translation, la rotation, et la réflexion (Mitchell, 1990). Dans un plan cartésien, par exemple, ces opérations peuvent se réaliser à partir d’un point de repère, d’un axe ou encore sur l’arête d’une figure géométrique. L’idée d’une symétrie naturelle 5 a aussi mené à son application pour décrire des processus cognitifs tels la comparaison. Pour ce faire, le concept géométrique de distance a dû être emprunté. La distance est utilisée pour déterminer le degré de similarité entre deux objets, A et B, qui ont été projetés dans un espace de coordonnées. Si les deux objets A et B sont près l’un de l’autre dans l’espace, ils sont envisagés comme deux objets similaires. Par contre, si les objets A et B sont éloignés l’un de l’autre, ils seront envisagés comme étant deux objets différents qui ne partagent pas les mêmes caractéristiques. La distance est donc une fonction symétrique, car la distance entre les objets A et B est la même qu’entre B et A.

Cependant, Tversky (1977) postule que la similarité est une relation asymétrique et qu’elle est mieux décrite comme une correspondance (entre des ensembles de caractéristiques ou un processus d’appariement) plutôt qu’un calcul de distance entre deux points. Dans sa proposition, Tversky (1977) considère que chaque élément à comparer détient un rôle différent. C’est ainsi qu’il distingue le référent et le sujet de comparaison. Le référent est l’objet de comparaison qui détient les caractéristiques ou les stimuli les plus proéminents. Le choix de l’objet qui jouera le rôle de référent dépend de l’importance qui est attribuée aux caractéristiques de l’objet. Le sujet de comparaison est généralement l’objet ayant des caractéristiques moins proéminentes, (Tversky, 1977). Il existe donc une direction dans la comparaison qui dépend de la proéminence des caractéristiques des objets à comparer, (Tversky, 1977). Pour mieux comprendre la différence entre référent et sujet de comparaison, Tversky mentionne que les jugements de similarité peuvent être envisagés comme une extension d’énoncés en langue naturelle qui exprime la similarité, tel que : A est comme B; où A est le sujet de comparaison et B, le référent. Dans ce sens, nous aurons aussi des énoncés en langue naturelle comme : Le fils ressemble à son père, ou le portrait de Jean ressemble à Jean. L’inversion de l’ordre dans ces énoncés ne nous semblerait pas naturelle. Le choix des énoncés en langue naturelle est associé avec la symétrie/asymétrie en jugement de similarité, (Tversky, 1977).

Mesures à base syntaxico-sémantique Mihalcea et al. (2006) suggèrent que les mesures de similarité qui sont conçues avec des approches de type bag of words ignorent la structure de la phrase (les relations entre le sujet et le prédicat). Indirectement les auteurs suggèrent, dans leur conclusion, qu’une mesure de similarité sémantique devrait prendre en compte les configurations de la langue comme les relations sémantiques ou syntaxiques. Pour trouver automatiquement les arbres syntaxiques et les relations sémantiques, nous avons besoin d’un autre type d’outil. Par exemple FrameNet (Ruppenhofer et al., 2006), est une ressource lexicale pour l’anglais basé sur la sémantique des cadres 16. « La sémantique des cadres, qui suit la théorie des cas de Fillmore (1967), est une théorie de la signification qui souligne la relation étroite entre le langage et l’expérience »(Roth, 2014). L’objectif de FrameNet, disponible en ligne, est de documenter la gamme de combinaisons sémantiques et syntaxiques pour chaque mot dans chacun de ses sens. Ce processus se réalise à l’aide d’ordinateurs. FrameNet contient environ 10 000 unités lexicales et plus de 135 000 phrases annotées. Une unité lexicale est l’appariement d’un mot avec une signification. Généralement, chaque sens d’un mot polysémique appartient à une cadre sémantique différent. Dans ce contexte, un cadre sémantique est une sorte de structure qui décrit une situation particulière, un objet ou même un événement avec ses participants et d’autres éléments qui donne plus d’information sur le même événement (Ruppenhofer et al., 2006). Nous présentons, ici, un exemple tiré de Ruppenhofer et al. (2006) :

(1) [Cook Matilde] fried [Food the catfish] [Heating_instrument in a heavy iron skillet] Dans la phrase présentée en (1), l’unité lexicale est fried et les éléments du cadre sont Cook pour le sujet, Food pour l’objet et Heating_instrument pour l’adjoint-locatif. Pour un verbe comme fried, nous aurons accès à ses dépendants syntaxiques ; ces éléments permettraient aux outils de pouvoir générer des arbres syntaxiques ou d’identifier des rôles sémantiques dans les phrases. Les cadres ne se limitent pas aux verbes ; sur FrameNet, nous en trouverons pour quelques noms et certains adjectifs. Un autre outil utilisé pour ce type d’analyse est PropBank, qui contient les annotations des arguments et des adjoints des verbes. Chaque argument du verbe est numéroté à partir de zéro jusqu’à n, selon le nombre d’arguments du verbe présents dans une phrase, (Palmer et al., 2005). L’argument zéro, Arg0, est généralement le sujet du verbe et Arg1 correspond à l’objet du verbe. Si le verbe présente plus d’arguments, il seront numérotés à partir de Arg2. La motivation de cette numérotation est due à la difficulté de définir un ensemble de rôles thématiques couvrant tous les types de prédicats, (Palmer et al., 2005). Nous montrons un exemple tiré de Palmer et al. (2005), p. 78.

(2) [Arg0John] opened [Arg1the door] [Arg2 with his foot] Dans la phrase (2) le verbe open présente trois arguments, Arg0, Arg1, Arg2. Le premier correspond au sujet, le deuxième à l’objet et finalement Arg2 correspond à un instrument. Deux caractéristiques principales distinguent FrameNet et PropBank. D’abord, FrameNet contient des annotations pour les verbes, les noms et les adjectifs. Alors que FrameNet contient des annotations pour les verbes reliant des annotations fondées sur la sémantique, car elle sont basées sur la sémantique des cadres. PropBank comprend des annotations fondées sur des critères syntaxiques. Le principal problème avec ce type d’outil réside dans le nombre de mots courants, c’est-à-dire les unités lexicales comprises dans la base de données. Il peut arriver que quelques 30 mots dans la phrases à traiter ne soient pas disponibles. Notons que ces outils sont d’avantage développés pour la langue anglaise.

Table des matières

INTRODUCTION
CHAPITRE 1 REVUE DE LA LITTÉRATURE
1.1 La couverture d’information
1.1.1 Couverture des productions étudiantes
1.1.2 Couverture des textes journalistiques
1.2 La comparaison : la symétrie et l’asymétrie
1.2.1 La symétrie / l’asymétrie
1.3 Les mesures de similarité textuelle
1.3.1 Mesures à base lexicale
1.3.2 Mesures à base taxinomique
1.3.3 Mesures à base syntaxico-sémantique
1.4 Scénario 1 : les dissertations d’étudiants
1.4.1 La langue et son rôle dans l’apprentissage
1.4.2 L’analyse linguistique de textes académiques
1.4.3 Évaluation automatique de dissertations d’étudiants
1.4.4 Le TALN dans le contexte de Learning Analytics
1.5 Scénario 2 : les textes journalistiques
1.5.1 Les origines
1.5.2 Le biais
1.5.3 La structure d’une nouvelle : les événements
1.5.4 Représentation des événements en TALN et traitement automatique des nouvelles
CHAPITRE 2 PROBLÉMATIQUE ET OBJECTIFS
2.1 Problématique générale
2.2 Objectifs
CHAPITRE 3 MÉTHODOLOGIE
3.1 Justification du choix méthodologique
3.2 Scénario 1 : couverture d’information dans les dissertations des étudiants
3.2.1 Données et prétraitement
3.2.2 Mesures de similarité lexicale et de couverture
3.2.3 Alignement des dissertations par rapport aux RG et aux RS
3.2.4 Évaluation
3.3 Scénario 2 : couverture d’information de textes journalistiques
3.3.1 Remarques sur le corpus TREC
3.3.2 Étiquetage du corpus
3.3.3 Création de patrons linguistiques
3.3.4 Mesure de couverture adaptée
3.3.5 Expérimentation
3.3.6 Evaluation
3.4 Synthèse des choix méthodologiques
CHAPITRE 4 RÉSULTATS
4.1 Scénario 1 : la couverture d’information dans les dissertations d’étudiants
4.1.1 Nombre de documents couverts par chaque dissertation
4.1.2 L’influence des RG et des RS sur la production des dissertations
4.1.3 Réseaux de mots des dissertations
4.1.4 Évaluation
4.2 Scénario 2 : La couverture d’information dans les textes journalistiques
4.2.1 L’accord des annotateurs sur le corpus
4.2.2 Évaluation
4.3 Derniers mots sur les résultats
CHAPITRE 5 DISCUSSION
5.1 Scénario 1 : couverture d’information dans les dissertations d’étudiants
5.1.1 La direction de la comparaison
5.1.2 Les relations lexico-sémantiques pour capturer la couverture des concepts
5.1.3 Évaluation
5.1.4 Cohésion
5.1.5 La différence entre prédire et expliquer une note
5.2 Scénario 2 : couverture d’information de textes journalistiques
5.2.1 Remarques sur la direction de la comparaison
5.2.2 Problèmes avec TREC
5.2.3 La couverture d’information : un type de biais
5.2.4 La structure des nouvelles
5.2.5 Intérêt des patrons pour expliquer l’origine de la nouveauté
5.2.6 Les observations des annotateurs
5.3 Derniers mots sur la discussion
CONCLUSION ET RECOMMANDATIONS
ANNEXE I DIFFUSION SCIENTIFIQUE
ANNEXE II ANALYSE COMPLÉMENTAIRE DE LA COUVERTURE D’INFORMATION DANS LES DISSERTATIONS
ANNEXE III GRAPHIQUES DE LA COUVERTURE D’INFORMATION DES DISSERTATIONS : DIRECTION SUJET-RÉFÉRENT
ANNEXE IV TABLEAUX DES TITRES DES DOCUMENTS DES RG ET DES RS
ANNEXE V SURVOL SUR L’HISTOIRE DE LA SYMÉTRIE VS L’ASYMÉTRIE
ANNEXE VI INSTRUCTIONS POUR LA NOUVELLE ANNOTATION DU CORPUS NOVELTY TREC
BIBLIOGRAPHIE