Les emplois adnominaux des démonstratifs tchèque et français dans la langue orale informelle

Les emplois adnominaux des démonstratifs tchèque et français dans la langue orale informelle

 Présentation des corpus et de la méthodologie du travail avec les données

Après avoir introduit le lecteur au sujet du démonstratif (Chapitre 1) et avant de faire le bilan de la situation des démonstratifs adnominaux en tchèque et en français (Chapitres 3 et 4), nous consacrerons ce chapitre à la présentation de nos corpus ainsi qu’à la description détaillée de notre traitement et de notre exploitation du matériel empirique. Dans un premier temps, nous présenterons les corpus pour ensuite exposer notre méthodologie d’analyse. Dans ce cadre, le système de nos annotations sera présenté. Pour finir, nous décrirons notre procédure d’échantillonnage des résultats obtenus à partir des requêtes appliquées aux corpus de langue orale informelle.

Présentation des sources de données utilisées et des informateurs sollicités

Ce premier volet sera consacré aux sources auxquelles nous avons recouru pour réaliser le présent travail et qu’il est possible de répartir en deux catégories : 1) les sources primaires et 2) les sources secondaires. Se trouvent, dans la première catégorie, les corpus de langue parlée informelle, à savoir ORTOFON v1 de la plateforme du Corpus national tchèque (CNT) et le Corpus d’Études pour le Français Contemporain (CEFT) de la plateforme Orféo, mais aussi le corpus parallèle multilingue InterCorp de la plateforme du CNT. Dans les Sections 2.1.2 et 2.1.3, il s’agira à la fois de donner une description à grands traits de ces trois sources et d’exposer la façon particulière dont nous les avons ajustées pour les objectifs de notre travail. Sous la seconde bannière se trouvent regroupés tous les autres corpus – notamment écrits – et sources de données que nous avons consultés de manière complémentaire, mais, en plus de cela, également une série d’informateurs natifs en tchèque et en français, autant de « ressources humaines », auprès de qui nous avons pu vérifier certains constats et intuitions au sujet de l’emploi du démonstratif dans les deux langues. Ces sources et ces informateurs seront présentés, respectivement, dans la Section 2.1.4 et la Section 2.1.5. Enfin, dans la Section 2.1.6, nous exposerons les méthodes statistiques de traitement des données auxquelles nous avons recouru dans le but d’étayer nos analyses quantitatives. Mais avant même de faire tout cela, nous tenons, dans un tout premier temps, à élucider certains choix terminologiques ayant trait à la typologie textuelle. 

Types de textes, registres, genres… quels choix terminologiques ?

Il existe une pluralité d’approches et de parti-pris dans le domaine de l’étude et du classement des textes. Cette pluralité apparaît comme particulièrement frappante, voire irréconciliable, lorsqu’il est question de plusieurs traditions dont chacune est issue d’un milieu linguistique et savant différent. Dans notre cas, il est évidemment question des milieux intrinsèquement liés aux deux langues faisant l’objet de la présente étude, ce à quoi s’ajoute une certaine prégnance de la tradition anglosaxonne. Dans une telle conjoncture, que faire pour ne pas sombrer dans un chaos terminologique ? S’il est inévitable de faire des choix, ceux-ci devraient, à notre avis, entrer autant que faire se peut en résonance avec la nature du matériel empirique exploité. C’est donc à la fois au profil des corpus utilisés et aux choix terminologiques opérés par leurs créateurs que devraient s’adapter nos propres choix. Parallèlement à cela, il nous semble impossible d’éviter un certain biais terminologique, qui, dans notre cas personnel, procède de ce que notre formation en la matière a eu lieu dans le milieu tchèque. En effet, celui-ci peut être fier d’une longue et fructueuse tradition en matière de stylistique et typologie textuelle, développée notamment au sein du paradigme structuraliste du Cercle linguistique de Prague. Au sein de cette tradition se trouve une approche fonctionnelle („funkční stylistika“), articulée autour de la notion de « style fonctionnel » : Le concept de départ de la tradition stylistique tchèque est la fonction du texte/discours en tant que facteur objectif de genèse de style (le choix des moyens linguistiques et leur organisation dans un agrégat plus complexe obéissent à l’effort de remplir cette fonction de manière adéquate), donnant lieu à la définition du style fonctionnel1 . (Cvrček et al., 2020 : 18) Les styles fonctionnels fondamentaux traditionnellement reconnus sont : le style de la communication ordinaire („prostěsdělovací“), le style professionnel („odborný“), le style journalistique („publicistický“) et le style artistique („umělecký“ ; cf. Hausenblas, 1955 et 1991 ; Hoffmannová et Homoláč, 2016). Nous sommes là face à une taxinomie reposant essentiellement sur une perspective interne, à savoir les propriétés affichées par les textes, lesquels textes, répétons-le, obéissent à une (éventuellement à plusieurs) fonction de l’acte de communication. Afin de réaliser leur but communicationnel, les styles fonctionnels recourent à un ensemble de procédés appelés « procédés de style » („stylové postupy“), tels que la description, la narration, l’exposition, l’argumentation, etc. 1 Nous traduisons : „Výchozím konceptem české stylistické tradice je funkce textu/projevu jako objektivního stylotvorného faktoru (výběr jazykovývh prostředků a způsob jejich spojování ve vyšší celek jsou vedeny snahou tuto funkci adekvátně naplnit), na jehož základě vymezuje funkční styl […]“ 83 Ces procédés ne sont pas sans rappeler la typologie textuelle développée par Adam (cf.1997, 2005 [1992] et 1999), qui reconnaît l’existence de cinq types textuels appréhendés en des unités appelées « séquences ». Le linguiste de Lausanne distingue ainsi cinq types de séquences : narrative, descriptive, argumentative, explicative et dialogale (2005 [1992] : 30). Chaque séquence est caractérisée par un certain nombre de traits prototypiques et elle est composée d’unités atomiques appelées « propositions énoncés », elles-mêmes regroupées en « macro propositions » (2005 [1992] : 35-43). L’auteur insiste par ailleurs sur le fait que s’il est possible de parler de « types textuels », il n’en va pas de même pour les « textes » tout court, car « [l’]unité “texte” est trop complexe et trop hétérogène pour présenter des régularités linguistiquement cernables. » (1997 : 665)  Dans tous les cas, l’approche d’Adam nous semble avoir pour point commun avec la tradition tchèque l’orientation interne des analyses. La tradition anglosaxonne, quant à elle, a coutume de travailler avec le concept de « registre » (cf. Biber, 2014). Ce concept, relevant également d’une approche orientée vers l’intérieur, c’est-àdire vers les propriétés spécifiques des textes, correspond à peu près à celui de « procédé de style » (voire « style fonctionnel » ; Cvrček et al., 2020 : 19) dans la tradition tchèque et à celui de « type textuel » dans le système de la linguistique textuelle adamienne. Vus à travers le prisme externe, les textes se répartissent en « genres », terme employé de façon systématique et doté d’une acception très proche dans les deux (voire trois) traditions. Hoffmannová et Homoláč (2016 : 156) définissent les genres comme des unités textuelles « […] figées, obéissant à des normes plus ou moins strictes, voire codifiées »  Biber et Conrad (2009 : 7) précisent que si les genres sont eux aussi caractérisés par la présence d’une série de traits, ces traits sont rarement omniprésents, ayant davantage tendance à apparaître de manière ponctuelle : Genre features are not pervasive; rather, they might occur only one time in a complete text, often at the beginning or ending boundary. They are also often conventional rather than functional. Les créateurs du CNT appliquent un système de classement des textes qui opère la distinction entre plusieurs niveaux hiérarchiques, dont le genre représente le niveau le plus bas. Ce système est bien plus complexe dans le cas des corpus écrits que dans celui des corpus parlés. Dans les corpus écrits de la série SYN, les auteurs distinguent d’abord le niveau appelé « groupe de types de textes » (“text-type group”), suivi du niveau « type de textes » (“text-type”), sachant que les premiers sont au nombre de trois : la fiction, la non-fiction/littérature spécialisée („oborová literatura“ 4 ) et la presse.  La même réserve est émise par Cvrček et al. (2020 : 128), qui attirent tout particulièrement l’attention sur l’hétérogénéité propre aux textes de fiction (ainsi, dans un roman, la narration cède tantôt à la description, tantôt au dialogue, etc.).  Nous traduisons : „[…] ustálené, různě striktně normované či přímo kodifikované.“  Les termes de « non-fiction » / « littérature spécialisée » ont été choisis par nous à défaut d’un meilleur équivalent de traduction. Cette catégorie englobe des textes spécialisés dans un domaine particulier, de nature philosophique, 84 Le deuxième niveau (« types de textes ») introduit un classement plus fin. Ainsi, le groupe de types de textes « fiction » contient des types de textes tels que « roman », « poésie », « pièces de théâtre », etc. Le groupe de types de textes « littérature spécialisée » contient les types de textes « littérature scientifique », « littérature professionnelle » et « littérature populaire »5 . Il apparaît donc que la notion de « type de textes » relève, elle aussi, de la perspective externe du classement des textes. En cela même, elle entre en dissonance avec la perspective adamienne, où l’unité appelée « type textuel » correspond à un classement interne (voir supra). Restant plus proche ici de la tradition tchèque et des choix des créateurs du CNT, nous utiliserons dans l’ensemble de ce travail le terme de « type de textes » pour référer aux différents textes avec lesquels nous travaillerons (conversations, entretiens, fiction, textes de presse, textes de littérature spécialisée, etc.6 ). Ce terme nous paraît également le plus à même d’éviter d’éventuelles confusions terminologiques. À présent, focalisons-nous davantage sur le terme de « conversations », tout à fait crucial pour notre travail. Pour mieux circonscrire ce terme, nous nous rapporterons notamment à la publication Registry v češtině (Registres du tchèque) de Cvrček et al. (2020). Appliquant l’« analyse multidimensionnelle » de Biber (cf. 2014) à un corpus représentatif de plusieurs types de communication, les auteurs élaborent une taxinomie de registres en tchèque. Cette taxinomie repose sur une série de dimensions articulées en oppositions binaires, dont les plus importantes sont celles entre le dynamique vs le statique, ainsi que le spontané vs le préparé. Dans cette optique, la « conversation » („konverzace“) est un registre dynamique et spontané, caractérisé par un degré élevé d’interaction informelle, riche en mots phatiques, en mots de remplissage et en pronoms démonstratifs. Sur le plan syntaxique, l’on constate un degré de cohésion textuelle moindre qu’à l’écrit (ou dans les productions orales préparées), se manifestant notamment par une présence faible de conjonctions de subordination (c’est la juxtaposition qui sembler primer ; Cvrček et al., 2020 : 126). Du point de vue des « styles fonctionnels », le registre des conversations recourt le plus souvent au style de la « communication ordinaire » (voir supra). Pourtant, contrairement à l’usage de la publication de Cvrček et al. (2020), le terme de « registre » sera employé, dans le présent travail, dans une acception beaucoup plus vague, à savoir pour référer à l’opposition entre la langue formelle et la langue informelle. Cette opposition fondamentale sera susceptible d’un classement plus raffiné, scientifique (y compris académique), éducative, des textes de vulgarisation, ainsi que des manuels, des textes administratifs, des textes de nature professionnelle et des mémoires et autobiographies de nature non littéraire. Sur le plan des « styles fonctionnels », il s’agit de textes appartenant au style « professionnel » (voir supra). La tradition allemande emploie souvent le terme de « Fachstil »  Tout en prenant cependant certaines libertés avec le terme et en l’employant avec une extension plus large, ce dernier pouvant ainsi s’appliquer à la fois à ce que les créateurs du CNT appellent « groupes de types de textes », « types de textes », voire plus encore. En revanche, ce terme sera toujours entendu dans l’acception qu’il reçoit au sein de la tradition tchèque, c’est-à-dire comme un terme correspondant au classement externe des textes. 85 et c’est à ce moment-là que nous parlerons de « variétés » des deux langues, telles que, dans le cas du tchèque, les variétés écrite et parlée du tchèque soutenu, le « tchèque commun », les différents dialectes de Moravie et de Silésie, etc. (voir à cet égard le Chapitre 3). 

Les corpus de langue orale informelle 

 Comme il a déjà été annoncé dans l’Introduction générale, deux sources majeures de données empiriques ont été mobilisées dans le cadre de ce projet. Il s’agit, pour la langue française, d’une partie du Corpus d’Études pour le Français Contemporain (CEFC) de la plateforme Orféo et, pour la langue tchèque, de la plateforme du CNT. De cette dernière, nous avons avant tout retenu le corpus de langue orale informelle ORTOFON v1. Le corpus multilingue InterCorp, également présent sur le site du CNT, a été utilisé comme une source additionnelle, et ce notamment pour nous donner un aperçu la traduction en français d’une partie des démonstratifs adnominaux tchèques. Il sied à présent de faire une description plus détaillée des deux corpus principaux7 , utilisés pour l’étude de la langue orale informelle. La toute première question qui se pose tout naturellement est la suivante : ces deux corpus sont-ils comparables ? Nous sommes convaincu que, globalement, ils le sont, et ce même si une série de différences importantes les opposent. De celles-ci, les plus « graves » sont sans doute les suivantes : 1) une différence de taille non négligeable et 2) des critères différents relatifs à la récolte et la nature des données, ainsi qu’à l’accessibilité des métadonnées. Une différence de taille d’abord, car la taille de l’ensemble retenu pour le français ne fait qu’à peu près 75 % de la taille de la totalité des conversations d’ORTOFON v1. Mais ce n’est pas dans cette première disproportion que nous voyons un éventuel point faible de notre projet, et cela pour deux raisons. D’abord, ce n’est pas tant la fréquence absolue des phénomènes étudiés qui compte que leur fréquence relative (“items per million” ; ipm), à savoir le nombre d’occurrences du phénomène relativement à un million de positions (tokens)8 du corpus interrogé. Ensuite, notre travail se veut – malgré une série de comparaisons quantitatives nécessaires, notamment présentées dans le cadre du Chapitre 5 – avant tout qualitatif. Compte-tenu de tout cela, il n’est pas impératif de disposer de deux corpus de même taille ; tout ce qui compte, à ce moment-là, c’est que les deux corpus soient d’une taille satisfaisante eu égard au phénomène étudié, de telle sorte que les observations puissent être validées sur une masse de données suffisamment grande. À cet égard, la taille de nos deux corpus 7 Afin d’éviter toute confusion terminologique, nous distinguerons dans ce travail entre quatre termes relatifs à quatre niveaux hiérarchiques : « plateforme/base », renvoyant à l’ensemble du projet en question (cf. Orféo et le CNT) ; « corpus », renvoyant aux macro-corpus que sont ORTOFON v1, le CEFC (à la fois dans son intégralité et la partie retenue par nous), InterCorp et d’autres corpus encore ; « sous-corpus », renvoyant aux différentes sources dont est composé le corpus CEFC, ainsi qu’aux sous-corpus définis par nous au sein d’ORTOFON v1, d’InterCorp, etc., et, enfin, « conversation/texte », référant, respectivement, aux plus petites unités dont sont composés les corpus oraux et écrits (cf. les pièces d’un corpus de théâtre, les différentes conversations d’un corpus de conversations). 8 Aussi indiquée, pour certains corpus, relativement à un million de mots. 86 s’avère suffisante, les démonstratifs adnominaux comptant, dans les deux langues, parmi les mots apparaissant avec une fréquence élevée dans les discours parlés informels9 . Enfin,le recours à des tests statistiques, notamment à la fonction de vraisemblance, permet d’étayer la validité des éléments quantitatifs obtenus (voir la Section 2.1.5 infra). C’est certainement la seconde série de différences qui pose davantage problème, remettant partiellement en cause la nature comparable de nos corpus oraux et, sans doute, de l’ensemble de notre projet. La création d’ORTOFON v1, marquée par la volonté de parvenir à un équilibrage aussi parfait que possible, a obéi à une série de contraintes strictes qui ont porté sur les quatre paramètres suivants : l’origine géographique des locuteurs, leur sexe, leur âge et leur niveau de formation.

Table des matières

Remerciements
Résumé
Sommaire
Introduction générale
Partie I : Fondements théorico-méthodologiques et état de l’art
Chapitre 1. Le démonstratif : présentation générale
Chapitre 2. Présentation des corpus et de la méthodologie du travail avec les données
Chapitre 3. Le démonstratif en tchèque
Chapitre 4. Le démonstratif en français
Partie II : Analyses quantitatives
Chapitre 5. Le démonstratif adnominal : bilan quantitatif
Partie III : Analyses qualitatives
Chapitre 6. La grammaticalisation du démonstratif TEN en article défini
Chapitre 7. Les emplois « émotionnels » du démonstratif TEN
Conclusion générale
Bibliographie, index et annexes
Bibliographie
Index des auteurs
Annexes
Table des matière

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *