Modélisations linguistiques

Modélisations linguistiques

Langages abstrait et concrets

Nous présentons maintenant la structure du langage abstrait décrit par notre grammaire, ainsi que celle des deux langages concrets évoqués plus haut (forme phonologique et représentation sémantique). Comme décrit dans les chapitres précédents, ces derniers seront des langages de lambda-termes construits sur une signature appropriée, représentant respectivement des séquences de mots et des formules logiques. Langage abstrait Comme dans l’exemple du chapitre 3, notre langage abstrait sera un ensemble d’arbres dénotés par des termes, dont les nœuds internes sont construits au moyen d’un symbole unique • muni d’une arité fixée, et dont les feuilles seront des éléments du lexique. Les arêtes seront comme auparavant nommées, chaque étiquette d’arête correspondant à un entier de [ρ(•)]. En particulier, la notion de tête syntagmatique sera représentée par une étiquette tête ; les autres étiquettes d’arêtes utilisées initialement étant sujet, objet et déterm, dénotant respectivement la relation entre un syntagme et son sujet, son objet et son déterminant. Le langage que décriront ces arbres coïncide essentiellement avec la notion de syntaxe profonde d’une langue décrite par Chomsky (deep structure). Notons que le regroupement des syntagmes dans une structure abstraite ne correspond pas toujours à celui qui apparaît dans sa forme phonologique, bien qu’ils soient en pratique souvent similaires. Une exception notable à cette corrélation s’observe dans l’antéposition des pronoms relatifs et interrogatifs, susceptibles de traverser un grand nombre de subordonnées enchâssées ; une autre exception apparaissant dans nos modélisations sera l’ordre des mots dans les dépendances croisées en série, en néerlandais. Les feuilles de nos structures abstraites seront des entrées lexicales, représentées par un mot associé à un ensemble de propriétés par un lexique, tout comme dans l’exemple du chapitre précédent. La table 4.1 présente quelques entrées possibles pour notre grammaire initiale. Parmi les propriétés qu’elle contient, nous distinguons des parties du discours (verbe, nom, nom propre, pronom, déterminant), dont l’usage sera similaire aux propriétés booléen, entier et opérateur dans l’exemple du chapitre précédent : ces propriétés seront surtout utilisées comme des symboles non-terminaux dans la grammaire d’approximation, restreignant la catégorie syntaxique des feuilles pouvant apparaître à certains endroits de la structure abstraite. D’autres propriétés (transitif, intransitif), n’apparaîtront que dans les contraintes de bonne formation, ou dans le cadre de réalisations conditionnelles lors de la linéarisation, guidant l’usage 4. Modélisations linguistiques ou l’interprétation des phrases qui les contiennent de manière plus subtile. Elles incluront principalement des propriétés morphosyntaxiques ou liées à la sous-catégorisation (valence, restrictions de sélection, etc.). un déterminant chien nom François nom propre il pronom regarde verbe, transitif marche verbe, intransitif Table 4.1 – Exemples d’entrées lexicales pour le langage abstrait Tout au long de ce chapitre, le langage abstrait et son lexique seront progressivement étendus afin d’enrichir la grammaire. Nous introduirons en particulier de nouvelles propriétés lexicales et étiquettes d’arête afin de modéliser les phénomènes nouvellement couverts par la grammaire. Forme de surface La forme phonologique d’un énoncé, désignée dans la suite par le terme de forme de surface, est, formellement, un mot sur un alphabet Σ constitué par l’ensemble des mots du lexique. Le langage concret que nous construirons sera formé de lambda-termes, représentant des formes de surface de la manière évoquée dans la section 2.2.4. Ces lambda-termes s’appuieront sur un ensemble de constantes de type ∗ → ∗, correspondant aux mots du lexique. Pour faciliter la lecture de ces termes, nous omettrons systématiquement l’opération de concaténation ainsi que les annotations de typage, pour ne conserver qu’une représentation directe du mot résultant. Ainsi, la concaténation (. a (. b c)) =β λx.a (b (c x)) de trois termes a, b et c représentant des chaînes sera simplement notée a b c, sans ambigüité supplémentaire en raison de l’associativité de la concaténation. Sémantique Pour représenter le sens des énoncés, nous nous appuierons tout au long de ce chapitre sur la sémantique par la théorie des modèles initialement proposée par Montague. Dans ce cadre, le sens d’une phrase déclarative est dénoté par une formule logique, et le monde dans lequel cet énoncé se situe est associé à un modèle mathématique. Ainsi, la notion de vérité d’un énoncé coïncide avec la satisfaction de la formule logique représentant son sens, par le modèle correspondant au monde auquel il appartient, aux termes d’une interprétation fixée à l’avance. Nous adopterons plusieurs conventions issues de cette tradition, en particulier en matière de traitement des quantifications par passage de continuation. Nous reviendrons à l’issue de ce chapitre sur le choix de cet outil, notamment dans le but de simplifier nos règles de linéarisation sémantiques. Mise au point d’un formalisme syntaxique de haut niveau pour le TAL Concrètement, nos réalisations en sémantique seront des lambda-termes représentant des formules logiques, suivant la méthode présentée dans le dernier paragraphe de la section 2.2.4. Afin de distinguer visuellement ces formules sémantiques de celles employées pour contraindre la grammaire et guider la linéarisation, nous emploierons une police spécifique pour les connecteurs logiques et quantificateurs sémantiques : ¬,∧,∨,⇒,⇔,∃,∀. En outre, pour faciliter la lecture des lambda-termes sémantiques, nous omettrons l’abstraction lors d’une quantification, en notant par exemple ∃x.M au lieu de ∃λx.M ; nous emploierons également les connecteurs comme des opérateurs infixes, en leur attribuant leurs priorités usuelles : ainsi, le terme M ∨ ¬N ∧ O abrégera le terme ∨ M (∧ (¬ N) O), par exemple. Outre les constantes correspondant aux connecteurs logiques et quantificateurs, nos règles de linéarisation sémantiques pourront inclure des constantes représentant les prédicats du lexique (verbes, noms, etc.), tandis que les déterminants et pronoms se verront associer des termes d’ordre supérieur assurant la quantification. La nature exacte de ces constantes sera détaillée lors de la constructions de la linéarisation sémantique. Les types atomiques sur lesquels s’appuient nos lambda-termes sémantiques sont e et t, correspondant respectivement aux éléments (les objets du modèle représentant le monde) et aux propositions (valeurs de vérité des énoncés). Par convention, les abstractions portant sur un type atomique (usuellement e) emploieront pour variable une lettre minuscule (x, y, z, . . .) ; tandis que celles portant sur des termes d’ordre supérieur (par exemple de type e → t) emploieront une majuscule (P, Q, . . .). Ainsi, nous pourrons omettre les annotations de type de la plupart des termes, leur typage étant implicite par convention (par exemple dans λP.λQ.λx.P x ∧ Q x). Pour finir, l’approche que nous décrivons ici associe aux énoncés une sémantique extensionnelle : nous avons opté pour ce modèle pour préserver la simplicité de nos exemples sémantiques. Toutefois, linéariser nos structures abstraites vers une représentation sémantique intensionnelle (permettant d’exprimer les notions de croyance et de mondes possibles) ou tout autre modèle demeure également possible, aussi longtemps que les formules correspondantes peuvent être représentées par le biais du lambda-calcul simplement typé.

Grammaire initiale

Ayant spécifié les types d’objets que nous manipulerons, nous proposons maintenant une grammaire constituant un modèle simple de la phrase en français. Cette grammaire sera par la suite enrichie progressivement au fil des prochaines sections. En suivant la méthode exposée tout au long du chapitre 3, nous décrivons d’abord le langage abstrait, modélisant la syntaxe profonde, par le biais d’une 74 Jérôme Kirman 4. Modélisations linguistiques grammaire régulière d’approximation, que nous complèterons ensuite par des contraintes logiques de bonne formation. Nous proposerons enfin des règles de linéarisation en surface et en sémantique pour les productions de cette grammaire. Grammaire d’approximation Notre grammaire support emploiera deux symboles non-terminaux, P et A, qui correspondent respectivement aux propositions et à leurs arguments ; le symbole P tenant lieu d’axiome. Elle se compose de quatre productions, données par la figure 4.1. P −→ • : p verbe : v tête A : ssujet (A) : o objet A −→ • déterminant : d déterm nom : n tête A −→ nom propre : np A −→ pronom : p Figure 4.1 – Grammaire d’approximation initiale La première production (en haut à gauche) permet de construire une proposition, dont la tête syntaxique (étiquetée v pour la suite) est une entrée lexicale ayant la propriété verbe. Elle est munie d’un argument sujet (étiqueté s), ainsi que d’un argument objet optionnel (o). Les autres productions permettent de construire un argument comme un syntagme nominal, pouvant être composé d’une paire déterminant/nom (le nom étant dans ce cas considéré comme la tête syntaxique), d’un nom propre, ou bien d’un pronom. Contraintes logiques Comme suggéré dans le chapitre 3, la grammaire d’approximation précédente, complétée par un lexique tel que celui suggéré par la table 4.1, ne décrit pas exactement le langage des structures abstraites que nous souhaitons considérer comme valides. Elle permet en effet de construire des phrases mal formées, ne tenant pas compte, par exemple, de la transitivité d’un verbe. La figure 4.2 illustre ce problème de sur-génération : les deux structures abstraites qu’elle dépeint sont sanctionnées par la grammaire support, mais celle de droite comprend un usage transitif du verbe marche, ce qui ne devrait pas être permis par le lexique. Nous raffinons maintenant le langage abstrait esquissé par la grammaire d’approximation précédente, par le biais de contraintes utilisant le langage logique décrit section 3.3. Nous nous contenterons initialement de garantir le respect de la transitivité des verbes, en associant dans la première production l’existence d’un argument objet optionnel (o) avec la propriété lexicale de transitivité du verbe qui lui correspond (v). Cette contrainte est traduite par la formule suivante : avec(o) ⇔ transitif(v). Mise au point d’un formalisme syntaxique de haut niveau pour le regarde tête • un déterm chien tête sujet François objet • marche tête il sujet François objet Figure 4.2 – Deux structures abstraites non contraintes La structure de droite de la figure 4.2 est ainsi correctement exclue, tout en préservant de la validité de la structure de gauche. Cette dernière sera utilisée dans la suite pour exemplifier le résultat des linéarisations, en surface et en sémantique. Linéarisations Nous donnons maintenant, pour chacune des productions de la grammaire, des règles de linéarisation construisant la forme de surface des énoncés, ainsi que leur sémantique. Forme du surface Pour l’instant, les règles de linéarisation produisant la forme de surface demeurent très simples ; elles ne contiennent pas de réalisations multiples ou de conditions. Nous rappelons les quatre productions de notre grammaire, en précisant à droite de chaque production la règle de linéarisation qui lui est associée : 1. P −→ • : p verbe : v tête A : ssujet (A) : o objet s v o 2. A −→ • déterminant : d déterm nom : n tête d n 3. A −→ nom propre : np np 4. A −→ pronom : p p Cette linéarisation produit simplement le résultat de la concaténation des entrées lexicales de la phrase en suivant l’ordre des mots usuel en français : la première règle construit une proposition suivant l’ordre SVO, la seconde place le déterminant avant le nom, et les deux dernières reprennent simplement la forme de surface de l’entrée lexicale qui réécrit le symbole A. Ainsi, dans le cas de la structure abstraite valide donnée par la figure 4.2 (à gauche), la réalisation associée est la séquence de mots attendue : « un 76 Jérôme Kirman 4. Modélisations linguistiques chien regarde François ». La seconde production (instanciée pour construire l’argument sujet) combine les mots associées aux entrées lexicales de ses variables d et n pour produire la chaîne un chien, et la troisième production produit l’argument objet, en recopiant la réalisation de son unique variable np (ici, François) ; enfin, la première production concatène les réalisations de ses trois arguments s, v et o (dans cet ordre) pour produire la réalisation associée à la phrase. Remarquons que la variable o dans la première règle correspond à un nœud optionnel : nous considérons ici par simplicité que le lambda-terme associé aux feuilles étiquetées ⊥ est la constante ε dénotant le mot vide. Une manière plus explicite d’aboutir au même résultat pourrait être d’employer une linéarisation conditionnelle comme suit : 1. P −→ • : p verbe : v tête A : ssujet (A) : o objet avec(o) −→ s v o sans(o) −→ s v Les résultats produits par ces deux variantes de la première règle de linéarisation sont identiques. Par la suite, nous adopterons fréquemment pour des raisons pratiques cette convention d’attribuer une valeur « par défaut » aux arguments optionnels absents, sans spécifier systématiquement des linéarisations alternatives pour chaque cas. Sémantique Nous décrivons maintenant la linéarisation sémantique de nos structures abstraites, en commençant par détailler les réalisations associées à leurs entrées lexicales. Chaque entrée du lexique est associée à un lambda-terme sur la signature logique évoquée précédemment (cf. page 73). Dans la plupart des cas, ce lambda-terme se réduit à une constante, dont le type dépend de la catégorie syntaxique du mot en question ; d’autres entrées (en particulier des grammèmes comme les déterminants) auront pour réalisations des lambda-termes complexes. La table 4.2 donne quelques exemples de réalisations associées à des entrées lexicales. François F rançoise chien chiene→t marche marchee→t regarde regardee→e→t un λP.∃x.P x Table 4.2 – Lambda-termes sémantiques associés aux entrées lexicales Les noms propres sont ainsi simplement associés à des constantes de type e, correspondant à l’entité qu’ils dénotent. Les constantes associées aux noms communs sont des prédicats de type e → t, le terme « livre x » s’interprétant comme vrai lorsque l’élément désigné par x est un livre dans le modèle. Le Mise au point d’un formalisme syntaxique de haut niveau pour le type des constantes associées au verbe dépend de leur valence : ainsi, une constante associée à un verbe intransitif (comme marche) a le type e → t, tandis que celle associée à un verbe transitif (comme regarde) requiert un argument supplémentaire, ayant le type e → e → t. Leur interprétation sera similaire à celle des noms communs, vérifiant que l’action dénotée par le verbe est bien effectuée par ses arguments d’après le modèle. D’autres entrées lexicales, comme les déterminants, se voient associer un terme plus complexe, ayant le même type qu’un quantificateur, dont ils ont le rôle. Ainsi, la réalisation sémantique du déterminant un est λP.∃x.P x, affirmant l’existence d’un élément x, qui aura par la suite les propriétés spécifiées par le syntagme nominal et la proposition auquel il appartient. Cette conjonction de propriétés est désignée par la variable (abstraite) P, dont la valeur sera construite progressivement lors de la linéarisation de la phrase en sémantique. Cette interprétation des déterminants suit l’analyse proposée par Montague [1988].