Analyses produites à partir d'une classification de termes

ANALYSES FOCALISEES SUR DES TERMES D’INTERET VISANT A DECRIRE QUI TRAVAILLE SUR QUOI ET COMMENT

L’équation de recherche présentée ci-dessus en section 1.2. a permis de constituer un corpus de 25 980 résultats dans la base Scopus (interrogée le 6 mai 2019). Ce corpus couvre donc une période allant du 01/01/1996 au 05/05/2019, et l’on s’y référera ci-après via l’indication « janvier 1996 – avril 2019 ». Il a été téléchargé sous la forme d’une liste de 25 980 notices de documents au format RIS et a été analysé avec CorText. Comme indiqué en introduction de ce rapport, le volume de ce corpus (en termes de nombres de notices bibliographiques qui le constituent) ne diffère que de 0,06% par rapport au corpus analysé directement sur Scopus le 31/01/2020 (analyses présentées dans la partie 2 ci- dessus). De plus, comme nous l’avons vu ci-avant (partie 3), les analyses portant sur les auteurs et les pays les plus publiants au sein de ce corpus téléchargé le 06/05/2019 montrent eux-aussi que l’on peut considérer que les caractéristiques générales (présentées ci-avant, section 2.2) sont les mêmes. La raison pour laquelle une classification de « termes d’intérêt »27 a été réalisée est qu’une telle classification permet de focaliser les analyses sur certains groupes de termes, avec différents niveaux de détail. Dans le cas présent, elle nous permettra d’analyser l’évolution temporelle du nombre de documents traitant de tel ou tel thème, avec différents niveaux de granularité dans l’analyse, et, dans une certaine mesure, de visualiser « qui travaille sur quoi et comment ». La classification sert à la plateforme à choisir les termes à représenter sur les visualisations. Elle permet donc de produire une visualisation sur mesure, avec uniquement les termes d’intérêts, et leur interrelation. L’application de la classification ne biaise pas le corpus, puisque les données s’appliquant aux termes choisis et à leurs relations restent les mêmes. La structure sémantique sous-jacente est inchangée. Seul est adaptée la visualisation de ces termes et relations, puisque seuls ceux d’intérêt selon la classification sont représentés.

La liste des termes d’intérêt a été élaborée au fil d’un travail collectif associant Olivia Roth- Delgado (ANSES), Olivier Merckel (ANSES) et Aurélien Féron (LISIS), et visant d’une part à alimenter la liste des termes d’intérêt, et d’autre part à définir différents niveaux de hiérarchisation au sein de la liste, en familles et sous-familles de termes. – une extraction des termes les plus pertinents28 de notre corpus a été réalisée avec le logiciel CorTexT Manager. (Cette extraction a porté sur les titres, les résumés, et les mots-clés associés aux documents.) Une liste d’environ 1500 termes ainsi extraits du corpus a été présentée aux deux agents de l’ANSES, qui ont sélectionné tous les termes qui leur paraissaient pertinents vis-à-vis du cadre de notre étude (les productions scientifiques portant sur l’exposition aux RF – d’autres termes ont également été ajoutés, sur proposition des deux agents de l’ANSES, ou sur suggestion d’Aurélien Féron validée par ces derniers, à partir de leurs questionnements, de leurs connaissances de la littérature et des débats touchant à la thématique de l’étude, ou encore suite à la consultation de divers documents dans le but de compléter et hiérarchiser les familles et sous-familles de termes.

Le tableau présentant l’ensemble de la classification des termes d’intérêts est présenté en annexe. Il présente également le détail des « formes » lexicales (ou autrement dit les chaînes de caractères) recherchées dans le corpus pour chacun des « termes d’intérêt ». Par exemple : pour le terme d’intérêt « RFID », CorText, étant donné la liste qui lui a été fournie, recherche dans le corpus les chaînes de caractères suivantes : « RFID », « radio frequency identification » « radio-frequency identification ». Ainsi, lorsqu’il est écrit ci-après, par exemple, « les documents comportant le terme « RFID » … », il s’agit d’une simplification pour dire « les documents comportant au moins une des chaînes de caractère parmi « RFID », « radio frequency identification » et « radio-frequency identification » … ». Certaines de ces sept familles, comme cela a été rapidement indiqué, contiennent elles- mêmes des sous-familles (que l’on appellera aussi « thèmes ») avec un nombre variable de niveaux hiérarchiques selon les familles. Par exemple, la famille « Effets biologiques et sanitaires » ne contient que deux niveaux hiérarchiques différents : le niveau le plus détaillé Comme cela a également été brièvement évoqué ci-dessus, l’intérêt d’une part d’avoir conçu une classification des termes ainsi organisée en famille, et d’autre part d’avoir défini différents niveaux hiérarchiques au sein de ces familles est de disposer des deux choix suivants pour chacune des analyses produites à partir de cette classification de termes.

Télécharger le document complet