Grammaires locales

Grammaires locales

Est-il possible de concevoir un modèle abstrait et universel du langage ? Tel est le projet de Noam Chomsky qui jusqu’à présent n’a pas pu être atteint. En revanche, les travaux initiés par Maurice Gross ﬁxent pour objectif de réaliser une description satisfaisante des langues naturelles, ceci en contraste avec les modèles formels des langages qui ne s’attardent pas sur les descriptions, à l’instar des grammaires génératives transformationnelles proposées par Chomsky.Pour parvenir à une description satisfaisante des langues naturelles Maurice Gross préconise, à la place de concevoir un modèle qui s’appliquerait à toutes les langues, plutôt un de nature strictement locale où la phrase se constitue comme l’unité élémentaire de base au niveau syntaxique et sémantiqueCe chapitre est dédié aux grammaires locales (lgs). Les grammaires locales sont un formalisme, proche des automates ﬁnis, pour décrire, sous forme de graphes, des contraintes syntaxiques ou sémantiques d’une langue. Le concept de grammaire locale est issu des travaux menés par Maurice Gross (1993, 1996, 1997). Nous présentons d’abord un aperçu général des grammaires locales pour étudier ensuite leur déﬁnition et principales caractéristiques..

Le formalisme de lgs est proche de celui des automates à états ﬁnis et plus largement associée à des réseaux de transitions récursifs (rtns) (Woods, 1970, Bates, 1978) et des rtns comportant des sorties (Sastre et Forcada, 2009). Bien qu’il soit aussi fréquemment assimilé au concept de transducteur ﬁni, de part la capacité d’une grammaire locale à gérer des sorties, observons que même si la notion de sortie est comparable à celle de transduction, les grammaires locales et les transducteurs ne sont pas toujours équivalents. En eﬀet, comme souligné par Blanc (2006, p. 62), l’application d’un transducteur sur un texte en entrée produit comme résultat un nouveau texte composé par la concaténation des sorties, tandis qu’avec une grammaire locale, le résultat peut être en plus égal au texte en entrée combiné avec les séquences de sortie.

En général dans la littérature, la notion de grammaire locale renvoie à des déﬁnitions et des mises en œuvre diﬀérentes. D’une part, par la variété de types de grammaires locales concernées, ces type peuvent être divisées selon l’analyse eﬀectuée : lexicale (ﬂexion, prétraitement), syntaxique (locale ou structurelle) ou transformationnelle. D’autre part, par les appellations utilisées pour y faire référence, entre autres : trans- ducteurs ﬁnis (Fairon et Watrin, 2003, Sætre, 2003, Ranchhod et al., 2004, Kevers, 2006), automates ﬁnis (Traboulsi, 2005), automates lexicaux (Blanc et Dister, 2004), automates syntaxiques (Monnier et al., 2003). Finalement, la notion de grammaire locale dépend aussi de l’outil informatique utilisée, nous pouvons distinguer deux groupes :

Outils existants

classiques, OpenFst met à disposition des extensions avec de nouveaux algorithmes et des automates équivalents aux wfsts, dans ces derniers, une extension permettant de manipuler des transducteur à pile (pdt) est fournie. Une des opérations disponibles sur les pdts, est celle de l’aplatissement (Allauzen et Riley, 2012, p. 8) d’un rtn, c’est-à-dire, le remplacement des transitions étiquetées par des symboles non-terminaux qui désignent l’appel à un sous-graphe par une copie exclusive du même graphe, aﬁn d’obtenir un pdts équivalent.

Caractéristiques principales

Les grammaires locales comportent la notion de sous-graphe. Cette notion permet de décomposer une analyse en diﬀérentes analyses plus simples qui s’attachent chacune à la reconnaissance d’une sous-partie du motif recherché. Considérons par exemple une version simpliﬁée de la reconnaissance de dates. Elle peut être exprimée par la reconnaissance des quatre sous-motifs suivants : Nom de Jour, Numéro de Jour, Nom de Mois, Numéro d’Année.Le graphe 3.2 fait appel à un sous graphe pour chacun des constituants potentiels d’une date complète. Comme nous le constatons dans la ﬁgure, certains d’entre-eux sont optionnels. Les sous graphes peuvent être de simples graphes ou bien, eux-mêmes faire appel à d’autres sous-graphes. Il serait possible par exemple de créer un sous-graphe pour traiter le sous-motif lorsqu’il est écrit en chiﬀre et un autre pour le traitement de la version en lettres. Cette notion de sous-graphe « en réseau » proche de celle des rtns rend possible une représentation aisée et structurée de motifs complexes.

Le graphe 3.5 stocke le patronyme et le prénom dans des variables et délimite le nom complet reconnu au moyen de balises d’étiquette « Personne ». La balise fermante comporte la séquence Prénom:$Prenom$ Patronyme:$Patronyme$ dans laquelle les symboles $ sont utilisés pour indiquer que nous voulons aﬃcher le contenu de la variable qu’ils entourent. Ainsi, si dans un texte nous rencontrons le nom Emmanuel Macron le graphe produit : <Personne>Emmanuel Macron</Personne Prénom:Emmanuel Patronyme:Macron>. Dans ce graphe les variables mémorisent des éléments issus du texte analysé en entrée. Il est également possible de stocker des données issues des sorties d’une grammaire.