Autocorrélation textuelle

Autocorrélation textuelle

Dans ce chapitre, l’indice d’autocorrélation (3.4) exposé dans la section 3.2 est appliqué à diﬀérentes caractéristiques mesurées sur des unités textuelles. Les résultats exposés sont adaptés de ceux présentés dans deux articles : Bavaud et al. (2012) et Bavaud, Cocco et Xanthos (accepté pour publication), dans lesquels se trouvent de plus amples détails concernant le formalisme, ainsi que d’autres résultats. Le premier traitement proposé se base sur la diﬀérence de longueurs des mots (section 6.1). Ensuite, un deuxième exemple considère des dissimilarités basées sur la présence et l’absence de certaines parties du discours dans un voisinage donné (section 6.2). Finalement, un dernier exemple, plus sophistiqué, utilise les dissimilarités entre les sens des mots (section 6.3). Diﬀérents textes on été utilisés dans ce chapitre, en raison de leur disponibilité, l’objectif étant d’observer les propriétés génériques, plutôt que spéciﬁques, des textes. 610 au total) de Notre-Dame de Paris de Victor Hugo, paru en 1831, ont étéconsidérés. Concernant le voisinage, les trois matrices d’échange proposées dans la section 3.1.1 seront utilisées. Ainsi, ce premier cas permettra, d’une part, d’analyser l’autocorrélation qui La première constatation est que les résultats semblent, de prime abord, très diﬀérents selon le voisinage choisi. En eﬀet, les trois matrices d’échange considèrent diﬀérents types de voisinage et, par conséquent, révèlent des informations diﬀérentes.

La ﬁgure 6.1 expose le résultat obtenu avec la matrice d’échange itérée (3.1). Le graphique de gauche, qui présente l’ensemble des valeurs obtenues pour r compris entre 1 et n, montre que les valeurs maximales obtenues pour δ diminuent lorsque r augmente. Ce phénomène provient du fait que lorsque r augmente, de plus en plus de voisins sont considérés. En eﬀet (cf. table 3.1), lorsque r = 1, alors on regarde l’autocorrélation entre la position i et deux voisins, soit un à la position j = i − 1 et un autre à j = i + 1 ; lorsque r = 2, on considère deux fois la position i avec Cette alternance entre le fait de considérer la position i avec elle-même pour chaque valeur de r paire et de ne pas le faire pour chaque valeur de r impaire conduit à une courbe en dents de scie visible sur le graphique de droite, car pour chaque r pair, il y a un élément exactement identique à lui-même, conduisant à une autocorrélation plus élevée. Ce phénomène, systématique pour toutes les applications, rend le graphique diﬃcile à interpréter, c’est pourquoi la matrice itérée ne sera plus utilisée dans les exemples suivants. (δ) pour les r pairs.On retrouve donc, comme attendu, le fait que deux mots qui se suivent auront des longueurs contrastées. En particulier, l’autocorrélation la plus négative, δ = −0.1767, est obtenue pourLa ﬁgure 6.2 présente les résultats obtenus avec une matrice d’échange périodique (3.2). Contrairement aux deux autres matrices d’échange, cette dernière permet aussi de ne pas consi- dérer de décalage (r = 0), ce qui implique, par déﬁnition, que e dans l’exemple précédent d’alternance entre mots outils et mots pleins. De plus, l’alternance irrégulière de δ entre des valeurs positives et négatives, parfois signiﬁcatives, bien que diﬃcile à interpréter, semble cohérente avec l’hypothèse d’alternance entre mots longs et courts. La matrice d’échange périodique, particulièrement utile pour l’analyse de partitions musicales (cf. section 8.2), paraît moins pertinente pour le texte et ne sera donc plus utilisée dans la suite de ce chapitre.

Finalement, l’indice d’autocorrélation a été calculé avec la matrice d’échange à fenêtres mo- biles (3.3) qui considère un voisinage, à droite et à gauche de la position i, croissant avec r (ﬁgure 6.3). Ainsi, lorsque r → n, alors δ → E Une variante de cette dissimilarité, qu’on nommera dissimilarité binaire d’une partie du dis- cours (PDD), consiste à ne considérer que deux « termes » : présence et absence d’une partie du discours donnée. Dans cet exemple, on se limite à considérer quatre parties du discours : les noms, les verbes, les adjectifs et les adverbes. Ainsi, X est de taille n × 2 et la dissimilarité Les résultats sont présentés dans la ﬁgure 6.4. Pour le cas des noms, l’autocorrélation est négative et signiﬁcative pour r = 1, 2. Ceci semble cohérent, car un nom est rarement suivi ou précédé par un autre nom (r = 1), et parfois suivi ou précédé, avec un décalage de deux, par un nom (r = 2), comme par exemple : « conservation des droits » ou « toutes dignités, places et emplois ». A contrario, pour les verbes, δ est signiﬁcativement positif pour r = 1, 2. En eﬀet, les verbes peuvent fréquemment se suivre, lors de l’emploi de temps composés (« a prescrites », « ait été déclaré ») ou lorsqu’un inﬁnitif suit un auxiliaire modal (« doit être », « peuvent être fondées »). Quant aux adjectifs et aux adverbes, l’autocorrélation n’est presque jamais signiﬁcative. Cependant, dans les deux applications, elle est négative pour r = 1 et positive pour r = 2. En eﬀet, des adjectifs ou des adverbes se suivent rarement directement, mais parfois dans un voisinage de largeur deux lorsqu’ils sont liés par une conjonction, comme par exemple : « établie et promulguée » ou « juste et préalable » pour les adjectifs et « strictement et évidemment » pour les adverbes.