Analyse syntaxique probabiliste

Analyse syntaxique probabiliste

Dans le cadre de l’analyse syntaxique, deux modèles de la syntaxe sont majoritairement uti- lisés : structures de constituants et dépendances syntaxiques. Pour ces deux modèles, il existe une multitude d’algorithmes permettant de modéliser statistiquement le problème. Les gram- maires sont une de ces possibilités, et sont principalement utilisées pour l’analyse en consti- tuants. On peut distinguer plusieurs types de grammaires. Les grammaires de type génératif dont les représentants sont les grammaires hors-contexte CFG11 et leur version probabiliste PCFG12. Quant aux grammaires d’unification, on peut en citer quelques-unes comme les gram- maires catégorielles13, les grammaires dirigées par les têtes14, ou encore les grammaires lexi- cales fonctionnelles15. Parmi cette multitude d’algorithmes, les PCFG sont un des plus utilisés, et ceci pour deux raisons principales. Tout d’abord, des hypothèses d’indépendances entre les variables de la grammaire sont posées, et conduisent donc à une modélisation du problème ma- thématiquement et graphiquement peu complexe. En effet, dans une PCFG, la dérivation d’un symbole non-terminal (et la probabilité associée) est indépendante de son contexte dans l’arbre (ancêtres, frères,…), ce qui est plus que discutable d’un point de vue linguistique. Malgré cette apparente simplicité mathématique, de nombreux travaux ont montré que les analyseurs syn- taxiques basés sur ce type de grammaire obtiennent des résultats au niveau de l’état de l’art, et ceci pour diverses langues dont l’anglais (Charniak, 2000; Petrov, 2010), et le français (Crabbé & Candito, 2008; Seddah et al., 2009b). On peut néanmoins noter que ces performances éle- vées sont atteintes grâce à des algorithmes modifiant en profondeur le modèle mathématique de base des PCFG. Ces algorithmes ont pour but de rendre une grammaire plus efficace en corrigeant partiellement certains problèmes liés au formalisme génératif, comme la dispersion des données.

La dispersion représente la difficulté d’estimer la probabilité de phénomènes syn-taxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l’apprentissage des analyseurs. Ces phénomènes qui posent un problème de dispersion des données sont en général des phénomènes courants : les locuteurs en ont déjà entendu et produit des exemples innombrables, et ils en entendent et en produisent régulièrement. Ils sont rares dans les corpus annotés actuellement utilisés, d’une taille sans commune mesure avec la masse de formes linguistiques à laquelle est exposé un locuteur.Il existe, en parallèle de ces grammaires, d’autres modélisations possibles du problème, et notamment les modèles discriminants (ou discriminatifs). Un algorithme d’apprentissage dis- criminatif est basé sur une modélisation complexe de phénomènes syntaxiques, dont la parti- cularité est, théoriquement, de ne pas poser initialement d’hypothèses d’indépendances entre les variables16. L’avantage par rapport aux PCFG est donc de pouvoir incorporer une multitude d’informations, pouvant provenir de différentes sources, sans avoir à altérer le formalisme ma- thématique afin de les prendre en compte efficacement. Parmi les modèles les plus utilisés, on peut citer les modèles Maximum d’Entropie (Jaynes, 1957; Berger et al., 1996), les Champs Conditionnels Aléatoires (Lafferty et al., 2001), ou encore les algorithmes de classification linéaire comme le Perceptron (Rosenblatt, 1958) ou les Séparateurs à Vastes Marges (Boser et al., 1992). Bien que ce type de modélisation soit plus adapté à l’analyse en dépendances (tâches de classification), nous verrons que quelques systèmes d’analyse en constituants ont réussi à dompter la complexité relative de ces modèles, et ceci de différentes façons et pour différents buts.

Dans la section suivante, nous indiquons l’ensemble des métriques permettant d’évaluer les performances, et donc la qualité, des analyseurs syntaxiques. Puis, dans la section 2.3, nous verrons en détail le principe des grammaires PCFG, ainsi que les problèmes associés, et les principales solutions pour les résoudre. Ensuite, dans la section 2.4, nous décrirons plusieurs modélisations statistiques discriminatives, et les systèmes d’analyse qui en découlent. Pour fi- nir, nous faisons, dans la section 2.5, une petite parenthèse sur l’adaptation des analyseurs à de petits corpus et à des textes de genres différents, puis, nous concluons. L’évaluation des analyseurs syntaxiques est une étape essentielle et ce, dans le but d’établir un classement des analyseurs en terme de performances mais également de repérer les forces et les faiblesses de chacun d’entre eux. De manière générale, les expérimentations sont menées dans le but de comparer les résultats de deux expériences ayant les mêmes données d’éntrées, mais avec un paramétrage différent des algorithmes sous-jacents. Typiquement, on pourrait vouloir comparer les performances d’un analyseur entraîné sur deux corpus distincts, un cor- pus d’apprentissage de base et ce même corpus avec un jeu d’étiquettes morpho-syntaxiques plus complexe. Il existe de nombreuses métriques d’évaluation parmi lesquelles quatre sont uti- lisées majoritairement dans les travaux traitant de l’analyse syntaxique.

 

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *