MODERNITÉ ET MODERNISME

Baudelaire et la ”Poésie obscure” : la réincarnation du modernisme français dans la philosophie poétique chinoise à la fin du XXème siècle

EXPÉRIENCES (II) : VECTORISATION PAR PLONGMENT DE MOTS

Bien que les Expériences (I) nous amènent à des résultats très intéressants, les approches adoptées sont loin d’être optimales : Tout d’abord, 1) La représentation sémantique ne pourrait pas se réduire à une simple distribution des unités lemmatisées ou des étiquettes grammaticalisées. 2) La vectorisation par fréquence exagère largement la contribution des mots courants, sans mentionner qu’elle ne conserve pas l’ordre séquentiel, le lien inter-lexical et la cohésion pragmatique. 3) Les résultats dépendent de la constitution des corpus, parce que la vectorisation fréquentielle est gérée par l’interdépendance entre les objets examinés, c’est-à-dire, un réarrangement des corpus pourrait aboutir à des sorties instables. Ainsi, une référence externe plus généralisée nous paraît très nécessaire à ce point-là. Et puis, en traitant les séquences morphosyntaxiques, l’examen des n-grammes (n-grams) est une démarche plus ou moins chaotique : Cette variable cherche à maximiser la reconnaissance des chaînes morphologiques, sans prendre en compte la composition naturelle des segments sémantiques, ceci risque de fragmenter mécaniquement la continuité logique, de multiplier des bruits insignifiants, et de contrebalancer l’efficacité des « attributs ». D’ailleurs, les n-grammes, ainsi que les mots fonctionnels, tendent à accentuer les particularités du savoir-écrire individuel d’un poète. En revanche, ils risquent d’affaiblir l’homogénéité du courant dans la représentation stylistique. Ces variables sont efficaces dans l’identification des auteurs, mais leurs applicabilités aux recherches stylométriques seraient discutables. En fin, les modélisations appliquées aux Expériences (I) consistent à représenter un style par des « variables » isolées, et une « variable » est décomposée de nouveau en « attributs » indépendants. Ce procédé n’est pas suffisamment argumentatif pour déduire une conclusion bien justifiée, car chaque variable est traitée séparément, mais avec un poids égalitaire. Par exemple, il est intéressant de conclure que le style baudelairien est : 1) romantique, par son savoir-écrire et ses thèmes abordés ; 2) moderniste par son renouvellement néologique des lexiques poétiques. Pourtant, ceci ne pourrait pas nous confirmer la position précise de Baudelaire sur la métamorphose du romantisme vers le modernisme. En conséquence, dans ce chapitre, nous nous engageons à introduire un autre corpus qui est énorme, linguistique et référentiel, sur lequel deux plongements de mots s’effectueront à l’aide de l’apprentissage neuronal : un sur les « lemmes », l’autre sur la combinaison de « lemme-POS ». Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 284 

Entraînement des Modèles W2V

Deux modèles W2V ont été entraînés sur le corpus référentiel : Tableau 35 Rapport sorti de l’entraînement des modèles W2V1 Objet Volume Articles entraînés 4,596,271 Nombre de mots > 50 1,855,399 Nombre de mots < 50 2,740,872 Mots entraînés 899,318,813 Effectifs 706,588,981 Non-effectifs 192,721,832 Conservés 255,562 (UNIQUES) Tableau 36 Description des modèles W2V2 Modèle Volume du vocab Nombre de dimensions Type des données W2V-Lemmes 255,562 500 Float32 W2V-LemmePos 325,716 700 Float32 Etant donné que le corpus poétique contient un grand nombre de termes à basse fréquence, nous avons choisi, lors de l’entraînement des modèles, les algorithmes « Skip-gram + Hierarchical Softmax » qui assurent un apprentissage plus subtil aux termes moins fréquents. 

Calcul des vecteurs textuels

Avec les modèles W2V, on pourrait projeter une unité lexicale ( i v ) sur un espace multidimensionnel, et un corpus pourrait ainsi se représenter par une matrice de vecteurs lexicaux. Donc, le vecteur textuel ( T v ) se calculerait par la moyenne de vecteurs lexicaux : n v v n i i T   1 4.03) C’est une méthode simple et efficace, mais ce procédé égalitaire ignore la différence de la contribution de chaque terme dans le texte. Un traitement de pondération est ainsi requis.  Inspirés par les algorithmes de (Sanjeev Arora, Yingyu Liang, Tengyu Ma, 2017) 1 sur le plongement de phrases (sentence embedding), nous adoptons ici la méthode décrite en pseudo-code au suivant (LDA : Langage de Description d’Algorithmes) : Algorithm Text Embedding2 Input : Word Embeddings{ vw : wV }, Text T , Smoothing parameter  , Words frequencies {p(w): wV} , Weight of w

Résultats

Les résultats seront visualisés avec un graphique de PCA (Principal Component Analysis) et un dendrogramme du « clustering agglomératif ». En outre, puisque les corpus sont vectorisés en grandes dimensions, nous y ajouterons un autre graphique de T-SNE en 3D, pour que la transitivité, baudelairienne ou symboliste, soit potentiellement plus visible. 1) Lemmes Figure 26 PCA, TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et  moderniste (LEMME, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés, le style baudelairien semble plus romantique ; 3) Le romantisme montre une structure interne beaucoup plus dense que celle du modernisme ; 4) Le symbolisme prouve une transitivité, surtout au cas de Verlaine et de Rimbaud, ce dernier ayant un rôle déchiré ; 5) Par T-SNE (3D), le modernisme se met à part. 

BAUDELAIRE – EXPÉRIENCES AGGLOMÉRATIVES

Lemmes substantiels

Figure 27 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMMES SUBSTANTIELS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes substantiels (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (violet) Modernisme, (purple) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés substantiels, le style baudelairien semble plus romantique ; 3) Le romantisme montre une structure interne beaucoup plus dense que celle du modernisme ; 4) Les symbolistes, sauf Mallarmé, confirment leurs préférences au modernisme ; 5) À l’intérieur de l’agglomération romantique, les auteurs sont mal classifiés, c’est-à-dire, le style romantique prouve une homogénéité forte. Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 288 3) Lemmes-POS Figure 28 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMME-POS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemmes-pos (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme.

OBSERVATION

1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes pondérés et étiquetés, le style baudelairien semble plus romantique ; 3) Le modernisme se met à côté par un décalage évident ; 4) Ce sont les symbolistes qui paraissent transitifs, mais leur attachement au style romantique est incontestable ; 5) À l’intérieur de l’agglomération romantique, Baudelaire a un rôle relativement indépendant.  4) Lemmes-POS substantiels Figure 29 PCA et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (LEMMES-POS, SUBSTANTIELS, W2V) PCA, T-SNE (3D) et Dendrogrammes du clustering agglomératif et hiérarchique sur les lemme-pos substantiel (W2V) (Méthode de Ward, Distance de Manhattan, Transformation Z-Score, et Normalisation vectorielle de longueurs), avec le nombre des features, le coefficient agglomératif. Corpus : poèmes répartis sur 4 courants littéraires adjacents : (rouge) Romantisme, (bleu) Baudelairien, (vert) Modernisme, (violet) Symbolisme. OBSERVATION : 1) L’hypothèse nulle (H0) est acceptée ; 2) Jugé sur les lemmes substantiels, pondérés et étiquetés, le style baudelairien semble plus romantique ; 3) Le modernisme se met à côté par un décalage évident ; 4) Les symbolistes, sauf Mallarmé, confirment leurs préférences au modernisme ; 5) À l’intérieur de l’agglomération romantique, Baudelaire a un rôle relativement indépendant. Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon  En révisant les expériences effectuées au-dessus, nous remarquons que, quelle que soit la méthode de vectorisation, les symbolistes montrent un statut instable dans l’examen des corpus substantiels : les « lemmes substantiels » (Fig. 19, 20, 27), les « lemmes-POS substantiels » (Fig. 29). C’est aussi le cas pour Baudelaire sur les « lemmes substantiels » (Fig. 19, 20) sous la vectorisation par fréquence. Ainsi, nous allons analyser respectivement, dans le suivant, les termes adjectifs, nominaux, adverbaux et verbaux. 1) Lemmes nominaux Figure 30 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (NOMs, W2V) 2) Lemmes adjectifs Figure 31 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (ADJs, W2V)  TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (VERs, W2V) Thèse en Littérature Générale et Comparée – École Normale Supérieure, Université de Lyon 292 4) Lemmes adverbiaux Figure 33 TSNE et Dendrogrammes du clustering sur les corpus romantique, baudelairien, symbolique et moderniste (ADVERs, W2V) Les expériences agglomératives menées au chapitre précédent nous confirment au moins trois points importants : primo, la typologie des courants poétiques romantique, symbolique et moderniste est bien justifiée par les résultats, malgré une moindre confusion relevée parmi quelques poètestransitifs; secundo, les variables, ou plus techniquement, les « features » choisis pour la modélisation textuelle semblent efficaces et fiables dans la représentation stylistique du langage poétique ; tertio, les symbolistes prouvent une transitivité stylistique plus forte que Baudelaire, alors que ce dernier montre un statut très fidèle au romantisme. La méthode du partitionnement non-supervisé (clustering) nous promet une vision naturelle sur la distribution stylistique des poètes. Néanmoins, les données textuelles sont généralement très dispersées, et le calcul de distance entre les vecteurs de hautes dimensions est facilement influencé par des valeurs singulières, c’est un cas typique au traitement des corpus poétiques. Des confusions inattendues seraient ainsi possibles (e.g. c’est pourquoi Eluard et Musset qui sont mal classifiés dans certains cas). Ainsi, dans le présent chapitre, nous allons réanalyser les styles baudelairiens et symboliques avec l’apprentissage supervisé. Cette analyse se basera sur le corpus poétique (II), et les œuvres romantiques et modernistes serviront des données d’entraînement (training sets). Enfin, un modèle informatique sortira pour prédire le rattachement de chaque poème baudelairien au courant le plus probable.

Table des matières

INTRODUCTION
0.1 PROBLEMATIQUE ET HYPOTHESE
0.2 ETAT DE L’ART ET METHODOLOGIE
0.3 PLAN DE THESE
PREMIERE PARTIE : DEUX MODERNISMES AU COMPARATISME
CHAPITRE I MODERNITÉ ET MODERNISME
1.1 MODERNITE « MULTIFACTORIELLE »
1.2 MODERNISME CREATIF
CHAPITRE II FIN-DE-SIÈCLE, UN MODERNISME « ORTHODOXE »
2.1 MAL DE LA « FIN-DE-SIÈCLE »
2.1.1 Mentalité apocalyptique
2.1.2 Création littéraire
2.1.3 Origines : idéologique, philosophique et esthétique
2.2 DE BAUDELAIRE AU MODERNISME
2.2.1 Panorama poétique
2.2.2 Décadentisme
2.2.3 Mysticisme
2.2.4 Symbolisme
2.3 PRÉ-MODERNISME BAUDELAIRIEN AU COMPARATISME
2.3.1 Baudelaire et De Quincey
2.3.2 Baudelaire et Allan Poe
2.3.3 Baudelaire et Hoffmann
2.3.4 Baudelaire et la Modernité romantique
CHAPITRE III NOUVELLE POÉSIE CHINOISE, UN MODERNISME « DÉRIVÉ »
3.1 CONCEPTUALISATION DE LA NOUVELLE POÉSIE
3.1.1 Poésie du nouveau monde
3.1.2 Révolution poétique et littéraire
3.2 EMPIRISME POÉTIQUE
3.2.1 Empirisme vs poésie réaliste
3.2.2 « Le Ruisseau » vs le baudelairien
3.3 RENAISSANCE ROMANTIQUE
3.3.1 Un romantisme subjectif & le Rabelaisien
3.3.2 Un romantisme lyrique & l’Hugolien
3.3.3 Un romantisme impressionniste
3.3.4 Un romantisme symbolique et expressionniste & le Baudelairien
3.3.5 Un romantisme amoureux & les Lakistes
3.4 PARALLÉLISME SYMBOLIQUE ET RÉALISTE
3.4.1 Deux orientations opposées et croisées
3.4.2 La liberté et l’autonomie de la création
3.5 RÉALISME : JEU ENTRE L’UNIVERSEL ET LE PARTICULIER
3.5.1 Coucher du Soleil romantique : poètes chinois & Baudelaire
3.5.2 Un réalisme ontologique et contextualisé
3.5.3 Un réalisme moderne & le spleen baudelairien
3.5.4 Un réalisme de lutte & le Mal baudelairien
3.5.5 Un réalisme prolétarien
3.5.6 Un réalisme gauchiste
3.5.7 Un réalisme à « mi-chemin »
3.5.8 Réalisme révolutionnaire & poèmes guerriers français
DEUXIEME PARTIE : IDENTITES ESTHETIQUES DE BAUDELAIRE ET DE LA POÉSIE OBSCURE
CHAPITRE I BAUDELAIRE – PROJET DES EXPERIENCES NUMERIQUES
1.1 HYPOTHESE DU CHAPITRE
1.2 CORPUS
1.2.1 Corpus poétiques et référentiels
1.2.2 Prétraitement de corpus
1.2.3 Restructuration
1.2.4 Étiquetage Morphosyntaxique
1.3 VECTORISATION DU CORPUS
1.3.1 Vectorisation par fréquence (Frequency based Vectorization)
1.3.2 Plongement de mots
1.4 MODELISATION TEXTUELLE
1.4.1 Lemme
1.4.2 POS (Part-of-speech)
1.4.3 Séquences morphosyntaxiques
CHAPITRE II BAUDELAIRE – EXPÉRIENCES AGGLOMÉRATIVES
2.1 PARTIOTIONNMENT (CLUSTERING)
2.1.1 Regroupement hiérarchique
2.1.2 Fonctions de Distance
2.1.3 Visualisation
2.2 CORPUS D’OBJET : POÉTIQUE I
2.3 EXPÉRIENCES (I) : VECTORISATION PAR FRÉQUENCE
2.3.1 Niveau lexical
2.3.2 Niveau grammatical
2.3.3 Niveau syntaxique
2.4 EXPÉRIENCES (II) : VECTORISATION PAR PLONGMENT DE MOTS
2.4.1 Entraînement des Modèles W2V
2.4.2 Calcul des vecteurs textuels
2.4.3 Résultats
2.5 EXPÉRIENCES (III) : RÉVISION DES CORPUS SUBSTANTIELS
CHAPITRE III BAUDELAIRE – EXPÉRIENCES SUPERVISÉES
3.1 APPRENTISSAGE SUPERVISÉ (MACHINE LEARNING)
3.1.1 Modèle Bayésien Naïf
3.1.2 Modèle SVM (Support Vector Machine)
3.1.3 Modèle FastText
3.2 CORPUS D’OBJET : POÉTIQUE II
3.3 EXPÉRIENCES SUPERVISÉES
3.3.1 Symbolisme aux références romantiques-modernistes
3.3.2 Baudelaire aux références romantiques-modernistes
3.3.3 Baudelaire aux références romantiques-symboliques
CHAPITRE IV BAUDELAIRE – ANALYSES SYNTHETIQUES
4.1 OBSERVATIONS DU CLUSTERING
4.1.1 Clusterabilité (Clusterability)
4.1.2 De la particularité d’un poète vers l’homogénéité du courant
4.2 STYLE DU SYMBOLISME BAUDELAIRIEN
CHAPITRE V LA NOUVELLE POESIE -EXPERIENCES NUMERIQUES ET ANALYSES
5.1 PRÉTRAITEMENT DU CORPUS
5.2 MODÉLISATION
5.2.1 Échantillons composés
5.2.2 Lacunes algorithmiques
5.3 RÉSULTATS
5.3.1 Niveau lexical
5.3.2 Niveau stylistique
5.4 CONTRÔLE DE CORPUS
5.4.1 Corpus raffinés
5.4.2 Rôle de la poésie obscure
5.5 DEUX MODERNISATIONS A COMPARER
TROISIEME PARTIE : MODERNISMES CROISÉS – BAUDELAIRE ET OBSCURS
CHAPITRE I POESIE OBSCURE
1.1 MODERNITÉ OBSCURE
1.1.1 Une naissance subculturelle
1.1.2 Un concept faux
1.2 IDENTITÉ DISCUTABLE
1.2.1 Un désordre diachronique
1.2.2 Un déchirement stylistique
CHAPITRE II BAUDELAIRE AUX ÉCRITS OBSCURS
2.1 PRÉSENCE BAUDELAIRIENNE AU CONTEMPORAIN
2.1.1 Une introduction restreinte
2.1.2 Une interprétation manipulée
2.2 BAUDELAIRE ET LES POETES OBSCURS
2.2.1 Lecteurs de Baudelaire .
2.2.2 Baudelaire et SHI Zhi : L’un vers Dieu, l’autre vers Satan
2.2.3 Baudelaire et GEN Zi : Le prophète de l’apocalypse
2.2.4 Baudelaire et BEI Dao : du lyrique au moderne
CHAPITRE III BAUDELAIRE AUX PHILOSOPHIES OBSCURES
3.1 INFLUENCE ET ANGOISSE
3.1.1 Poète fort ou modernisme fort ?
3.1.2 Baudelaire : Un Œdipe
3.1.3 Poètes obscurs : Des révisionnistes
3.2 FOULES ET INDIVIDU
3.2.1 Individualisme littéraire sino-occidental
3.2.2 Baudelaire : De l’individu à l’universel
3.2.3 Poètes obscurs : Entre l’Homme et l’Histoire
CHAPITRE IV APRÈS LE CROISEMENT
4.1 DEUX MAUX DE SIÈCLE : la Fin-de-siècle et le Post-obscur
4.2 BAUDELAIRE ET LES POETES OBSCURS : ENFANTS DU SIECLE ?
CHAPITRE V BAUDELAIRE ET LA POESIE OBSCURE EN NUMERIQUES
5.1 LES PROBLÈMES TECHNIQUES PRÉALABLES
5.1.1 Le Choix des méthodes
5.1.2 Le Choix de la langue cible
5.1.3 L’Exception : un Baudelaire traduit
5.2 LA NOUVELLE POÉSIE COMPARÉE AUX RÉFÉRENCES FRANÇAISES
5.2.1 Le Contrôle de corpus
5.2.2 Les Résultats : par vectorisation fréquentielle
5.2.3 Les Résultats : par vectorisation W2V
5.3 LA MODERNITÉ « TEXTUELLE » DE LA POÉSIE OBSCURE
5.3.1 La Modernité textuelle
5.3.2 L’Obscurité interprétative
CONCLUSION
BIBLIOGRAPHIE
INDEX

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *