INDEXER POUR LA RECHERCHE D’INFORMATION

Télécharger le fichier original (Mémoire de fin d’études)

Le document support cognitif de l’information

Il existe de multiples définitions des notions de document, d’information et de connaissance siégeant au cœur du domaine des Sciences de l’Information et de la Communication (SIC). Le chercheur Chaim ZINS9, qui s’intéresse à la cartographie des sciences de l’information, apporte la preuve de cette diversité. Dans un article paru en 2007, il a fait référence à une étude menée auprès de 57 experts du domaine, sélectionnés dans 16 pays. Il a mis ainsi en évidence 130 concepts différents des trois mots-clés : donnée, information, connaissance. En d’autres termes, des disparités sur le sens de concepts fondamentaux, au sein d’une même communauté d’experts, peuvent persister. Est-ce l’influence de la personnalité de chacun d’eux qui permet une telle diversité ? Est-ce le contraste des langues maternelles de chacun ? Cet article ne nous autorise pas à répondre à ces questions, mais témoigne de l’importance de la compréhension du sens des mots.
Le mot et ce qu’il signifie en contexte, bien que parfois très fortement liés, sont deux « entités » pouvant prendre une multitude de valeurs selon l’individu qui les exprime. Les dictionnaires arborent bien plusieurs définitions pour un même mot selon le contexte. On essaie de rapprocher un sens dans tel contexte pour tel mot. Tout cela avec pour seul objectif : un consensus social qui doit nous simplifier la communication inter individus. Rappelons d’ailleurs que dans notre société, l’enseignement scolaire du français comprend des « règles» pour interpréter et trouver le sens d’un mot10 ; soit l’enfant cherche dans un dictionnaire pour y trouver la définition « qui convient dans le contexte » dans lequel se situe le mot, soit il « devine » d’après la phrase et sa restitution dans l’ensemble du texte.
Le document constitue un moyen pour transmettre l’information. Le premier support cognitif de l’information dans notre histoire humaine est issu d’un système de langue. Les supports de l’information se sont aussi diversifiés au cours de l’évolution et des avancées technologiques, notamment avec les productions d’écrits. C’est ainsi qu’on pouvait traiter puis diffuser une information. Aujourd’hui devenu un objet dans notre société, le document peut se trouver sous différents formats tels que papier, image, son et même matériel informatique lorsqu’il est constitué par une photo, une conversation ou un fichier.
Le document peut aussi n’être le support que de données brutes. Par exemple, un relevé de température au cours du temps peut constituer une série de données qui prendront sens dans le cerveau du technicien chargé de la maintenance. Ces données constitueront pour lui un document support d’information. Par contre pour une autre personne cet ensemble de données ne signifiera rien de plus qu’une série de chiffres dépourvue de sens. Sans la signification, la donnée reste un simple signe, ou forme sémiotique externe, sur un support. Avec du sens, la donnée devient information. Son support passe au statut de document. Au centre des SIC, la notion de document est strictement liée à celle d’information au moins depuis l’apparition de l’expression « recherche d’information11 » (information retrieval en anglais). Quelques décennies plus tard, Internet a ouvert la diffusion de l’information via un support de l’information qui aujourd’hui se trouve le plus largement diffusé à travers notre planète : le fichier informatique, ou document numérique. Dans nos travaux de recherche, l’information est donc caractérisée par un ensemble de connaissances liées aux données. L’information prend du sens pour celui qui la reçoit. L’information a pour vocation d’être transmise, elle est au cœur de la communication interhumaine. L’information est immatérielle ; elle est invisible, insaisissable, impalpable. Elle ne se matérialise que par une interprétation possible d’une personne généralement avisée par le contexte.
L’information est par conséquent, inséparable de l’interprétation du document. « L’information est, en final, une pure subjectivité en ce sens qu’elle n’est que le regard de quelqu’un sur quelque chose, à un moment donné, dans un contexte donné… » Jean MICHEL12.
Le terme information est toujours ambigu car on ne peut pas enregistrer l’information en tant que telle, on ne peut pas enregistrer une interprétation cognitive d’un ensemble de données.

Indexer pour la recherche d’information

Par conséquent, le document est formé d’un ensemble de données. Il peut constituer le moyen pour transmettre l’information. L’information n’existe qu’au travers d’une interprétation humaine, de la compréhension des données et de leur analyse au niveau cérébral.

L’apprentissage et l’interprétation

Selon le constructivisme Piagétien, apprendre c’est construire des schèmes mémoriels pour l’acquisition des connaissances au cours de son développement biologique, c’est acquérir les outils conceptuels pour comprendre le monde et c’est aussi s’approprier les objets qui se découpent dans son environnement. L’apprentissage s’initie lors de l’émergence de la fonction symbolique dans le développement de l’enfant.
L’apprentissage consiste en une adaptation de nos schèmes de pensée à de nouvelles données du réel soit par assimilation, soit par accommodation. L’assimilation consiste à interpréter les nouveaux événements à la lumière des schèmes de pensée déjà existants. Par exemple un enfant de moins de deux ans, comprend l’objet qu’il a dans les mains en le touchant, le lançant, le mettant à la bouche, et va très vite saisir son hochet préféré avec les doigts d’une main et le lancer pour qu’il fasse du bruit. Tout nouvel objet subira le même traitement. Avec l’accommodation qui représente le processus complémentaire à l’assimilation, la structure cognitive change pour intégrer un nouvel objet ou un nouveau phénomène. A ce stade, si un ballon se trouve devant l’enfant, il va essayer de l’attraper avec une seule main, comme il fait pour son hochet, et s’apercevoir que cette préhension ne convient pas, il pourra alors peut-être découvrir que l’usage des deux mains est préférable.

Indexer pour la recherche d’information

Conformément à l’école Piagétienne, chez l’enfant les processus de compréhension du monde qui l’entoure s’étalent sur quatre périodes de sa vie globalement explicitées dans le tableau suivant :
Tableau 1 : Caractéristiques cognitives selon Piaget en fonction des tranches d’âge
C’est un passage constant de l’assimilation à l’accommodation qui structure l’apprentissage durant l’enfance.
S’opposant à Jean PIAGET13, Lev Semenovitch VYGOTSKI a considéré que le langage était «d’abord social et intersubjectif». En effet, l’enfant construit son intelligence en passant par différents stades, mais aussi par une relation à autrui qui se définit par le langage. Il affirme que la conceptualisation correspond à la signification des mots, mais également que la signification des mots dans la langue courante est à distinguer du sens des mots. Cette réflexion prend toute son importance dans la compréhension de la fonction « élaboration du langage » dans le cerveau et démontre la force du signe comme outil médiateur de la construction de la pensée chez l’être humain, dans un univers culturellement marqué.
« Le rapport de la pensée au mot est avant tout non une chose, mais un processus, c’est le mouvement de la pensée au mot et inversement du mot à la pensée. » [VYGOTSKI, 97]
Le mot pour VYGOTSKI n’est pas un mot au sens du vocabulaire, c’est un symbole associé à un schème.
Ce concept de développement cognitif, le constructivisme, a fait l’objet de plusieurs autres critiques relatives aux périodes des stades de développement. Nous proposons donc d’en exprimer notre interprétation pour définir l’apprentissage en prenant en compte plusieurs points :
• l’environnement socioculturel dans lequel vit l’enfant et avec lequel il interagit joue un rôle prédominant dans son développement.
• c’est donc au sens large, qu’il faut décrire l’environnement culturel de l’enfant et laisser une place importante au langage égocentrique, moyen indispensable pour transmettre des connaissances.
• à mesure que l’apprentissage de l’enfant progresse, son langage évolue par la pratique d’un langage externe qui devient l’outil par lequel la connaissance est transmise.
Cette argumentation sur l’apprentissage chez l’enfant est très importante pour mieux comprendre les étapes qui mènent de la reconnaissance et de l’identification des sons (la parole venant avant l’écriture) à la distinction entre les unités linguistiques et à l’apparition des premiers mots identifiés. Les connaissances ne sont pas inscrites dans le cerveau à la naissance, elles ne sont pas non plus une copie conforme à la réalité. Les connaissances se construisent par et avec l’expérience. La signification des mots n’est donc pas contenue dans le message lui-même, mais elle dépend des structures cognitives qui lui préexistent : « le sens précède le signe » [KRUMEICH, 2005]
Au niveau du langage, l’utilisation par l’enfant d’un langage externe va lui permettre dans un premier temps d’exprimer ce qu’il voit et de prendre en compte le mot dans une langue donnée. Notons toutefois que depuis son acquisition de la fonction sémiotique, il utilise son langage interne (langage symbolique) qui est plus élaboré et permet de réfléchir et de structurer ce qui est dit. Le langage devient inventif, il peut concevoir une diversité infinie de phrases à partir de symboles et de règles syntaxiques de nature phonétique. Il est signifiant et représentatif des idées et permet la communication entre individus.
Comprendre cette intersubjectivité fait partie de l’étude du développement et de l’acquisition des connaissances. «La notion d’intersubjectivité est une notion relativement récente ou plutôt, une notion qui a connu un développement considérable dans le champ de la psychologie développementale et de la psychiatrie du nourrisson..» [GOLSE, 99]. Pour Bernard GOLSE14 cette différenciation extra psychique permet l’accès à l’intersubjectivité et se reflètera ultérieurement, vers l’âge de deux ans, par l’acquisition du « Je » :
• Pouvoir dire « Je » témoigne en effet de l’acquisition du sentiment d’exister en tant que personne singulière, spécifique et unique.
• Pouvoir dire « Je » signifie que l’enfant se vit comme séparé et distinct d’autrui.
Cela suppose à la fois une reconnaissance de l’autre comme d’un objet à part entière et une prise en considération de l’écart existant entre soi et l’autre. C’est avec son langage que l’enfant va pouvoir lier un symbole à une forme sémiotique. Il va ainsi pouvoir échanger et communiquer. L’acte de lecture qui intervient plus tard dans l’enfance est aussi la construction de la signification d’un texte. L’enfant établit alors une relation entre forme sémiotique externe et une ou plusieurs interprétations. Le sens apparaît donc ici comme l’aboutissement d’un processus sémiotique d’interprétation. Paul RICOEUR montre l’articulation entre le premier acte de la compréhension qui s’apparente plutôt au fait de deviner le sens, et les procédures de validation mettant à l’épreuve cette première intuition. [RICOEUR, 1995]
C’est d’ailleurs une réalité biologique présentée par Gérald EDELMAN15, dans toute son œuvre : les enfants ont une pensée logique, « ils comprennent d’abord les situations et les intentions humaines, et seulement après ce qui se dit » [EDELMAN, 92].
Tout ce raisonnement sur le développement cognitif de l’enfant apporte à nos travaux de recherche un argumentaire sur la compréhension des processus d’interprétation mis en œuvre à l’âge adulte lors de la prise de connaissance d’un document. L’apprentissage est un processus dynamique où les expériences relatives à notre environnement sont les bases pour comprendre et interpréter les informations. L’interprétation est l’acte indispensable pour s’approprier les connaissances contenues dans le langage ou dans l’énoncé. Communication et lecture sont liées.
Ainsi la maîtrise d’une langue étrangère ne se résume pas dans l’apprentissage des règles de grammaire et du vocabulaire, mais est étroitement liée aux capacités du traducteur à interpréter ce qu’il entend pour ensuite le retranscrire dans une autre langue. Les théories avancées par Danica SELESKOVITCH16 et Marianne LEDERER17 apportent une nouveauté dans le domaine de la traduction. Le traducteur passe par une étape de déverbalisation, où les unités de sens existent dans son esprit mais sans être attachées à une formulation, ni dans la langue de départ ni dans la langue d’arrivée. Ce n’est qu’ensuite que la réexpression du sens se fait en langue d’arrivée, avec la même spontanéité raisonnée de l’écrivain cherchant ses mots pour bien exprimer sa pensée. « Les unités de sens se succèdent en se chevauchant dans l’esprit de l’interprète, de simultanées pour produire le sens général, elles se transforment en connaissances déverbalisées au fur et à mesure qu’elles s’intègrent en des unités plus vastes, en des idées plus conséquentes…» [LEDERER, 94].
« Ce souvenir qui est celui du sens, éclaire le processus de toute compréhension ; la prise de notes en interprétation consécutive révèle simplement le rapport qui existe toujours entre les perceptions et leur compréhension. » [SELESKOVITCH, 1975].
En traitement informatique de la langue, la notion de sens semble représentée dans une logique relationnelle au mot. Les ontologies pour la représentation des connaissances lexicales sont fondées sur des notions de concepts et de relations entre concepts. Un concept n’existe que par l’ensemble des relations dans lesquelles il intervient. Le choix des concepts reste arbitraire, puisqu’il dépend à la fois des analyses linguistiques, des groupements de données disponibles, des contraintes techniques et de considérations de pertinence pour un domaine particulier. Dans les réseaux sémantiques, la connaissance est représentée par des nœuds (correspondant à des concepts), des arbres et des relations. Une représentation de connaissances est toujours supposée. L’intelligence artificielle (IA) utilise ces réseaux sémantiques dans la représentation des connaissances sur la base d’un système définissant une série de symboles et une série d’opérations sur ces symboles. En tant que représentations, les symboles ont un contenu sémantique mais les opérations qu’on leur associe ne sont déterminées que par leur syntaxe. Dans cette logique mathématique, les règles de valuation (associée une valeur – vrai ou faux – à une formule de langage IA) sont indispensables. [CHAMPAVERE, 2009]. Dans le cadre de nos travaux de recherche cette représentation de la mémoire ne correspond pas à notre interprétation qui se rapporte plus aux caractéristiques biologiques du cerveau humain : à chacun ses réseaux de neurones18. Un autre article publié en 2007, utilise l’EEG 19 comme mesure lors de l’acte de traduction, et montre par l’enregistrement d’ondes thêta et alpha, que lors de la traduction d’une langue il y a une implication certaine d’un processus de « lexicalisation sémantique » cérébral.
« La parole que l’on entend évoque le savoir que l’on possède de la signification individuelle des mots, mais elle n’est comprise qu’au travers de la connaissance et de l’expérience que l’on a du domaine auquel se rapporte le message. A toute perception ponctuelle s’associe un schème beaucoup plus vaste, et la résultante de cette association est à la fois compréhension et souvenir » [SELESKOVITCH, 1975]

L’actualisation des connaissances et la mémoire

En [Annexe 1] on trouvera des illustrations de la biologie du cerveau, que nous ne traiterons que succinctement dans notre thèse.
La mémoire est une des fonctions du cerveau. Elle collecte, traite, catégorise, hiérarchise, analyse, reformule, et rappelle à des fins d’interprétation toute « information » de façon consciente ou non. La mémoire est utile et indispensable à l’être humain pour apprendre et se souvenir.
Dans nos travaux préliminaires de recherche [SELLIER, 2006], nous avions montré le rôle de la mémoire dans l’apprentissage et son implication dans l’acte de langage. Depuis, d’autres découvertes sur les phénomènes biologiques liés à la mémoire et au cerveau ont été faites ; des revues et articles scientifiques révélant les dernières innovations en matière de fonctionnement de la mémoire et du cerveau sont très nombreux. C’est même un thème assez populaire qui apparaît dans des revues telles que Science&Vie, Çà m’intéresse, Pour la Science ou encore le numéro spécial de La Recherche de Juillet – Août 2009.
Biologiquement notre mémoire correspond à l’activité particulière de certains réseaux de neurones ayant des connexions renforcées entre eux par des jonctions singulières appelées synapses. A l’âge adulte, le cerveau humain a profité de la mise en place des connexions neuronales indispensables réalisées durant la période de l’enfance à l’adolescence. Mais la plasticité cérébrale perdure durant toute la vie. Elle permet notamment d’enregistrer tous les souvenirs des épisodes de la vie, tout l’apprentissage sémantique comme l’acquisition de nouveaux concepts, mais aussi de consolider toute la partie procédurale par la succession des répétitions qui réorganisent et renforcent les réseaux neuronaux. Depuis la découverte en novembre 1998, de cellules souches neuronales dans l’hippocampe du cerveau humain20, les neurobiologistes ont montré que les nouveaux neurones produits étaient capables de réagir de façon plus efficace aux stimulations, ceux qui n’étaient pas utiles pour conserver une information étaient détruits.
La théorie de la plasticité synaptique a été énoncée dans un premier temps par Donald O. Hebb21 en 1946, indiquant que si une synapse fait partie d’un réseau souvent utilisé, sa perméabilité devient plus grande et par conséquence augmente son efficacité. Plus le réseau neuronal est stimulé, plus il devient performant. Les expériences produites ensuite par plusieurs équipes de recherche ont permis de valider cette théorie. Le mécanisme moléculaire fondamental de la plasticité synaptique a été mis en évidence. A ce réseau de neurones, s’ajoute les cellules gliales (dix à quinze fois plus nombreuses que les neurones), qui ont des fonctions essentielles à la survie des neurones : nourrir, protéger, supporter. Découvertes en 1891 par Santiago Ramon y Cajal, l’activité des cellules gliales concernait uniquement une fonction d’assistance aux neurones. En 2006, Stéphane Oliet 22 démontrait le rôle important des cellules gliales dans l’activité de mémoire et d’apprentissage où les liaisons du glutamate sur ses récepteurs, déclenchent le passage de l’influx nerveux d’un neurone à l’autre. Les cellules gliales sont aussi impliquées dans la plasticité cérébrale.
En fait les signaux qui forment les souvenirs et les pensées se déplacent à travers le neurone sous forme de minuscules charges électriques.
Lorsqu’une charge électrique atteint une synapse, celle-ci peut déclencher de minuscules impulsions de substances chimiques appelées neurotransmetteurs. Les neurotransmetteurs traversent la synapse pour porter le message à d’autres cellules. Les scientifiques ont identifié des dizaines de neurotransmetteurs.
La biologie dynamique du cerveau humain et de ses fonctions cognitives est très complexe, prenant en compte des influx électriques et chimiques.
Lors de l’apprentissage d’un mot, des circuits de neurones sont modifiés dans le cerveau. Les synapses facilitent le passage de l’influx nerveux dans un circuit particulier. Le circuit du cortex visuel est sollicité pour la reconnaissance orthographique, celui du cortex auditif pour entendre la prononciation, et enfin d’autres régions associatives du cortex permettent de relier ce mot à d’autres connaissances.
Cet apprentissage repose alors sur cette plasticité neuronale décrite précédemment. Cette plasticité se résume par la capacité des neurones à modifier de façon durable l’efficacité de leur transmission synaptique, certains contacts entre neurones disparaissent tandis que d’autres apparaissent. Le cerveau traite de l’information dans des réseaux de synapses modifiées et la récupère en activant ces réseaux. Les neurones impliqués dans l’établissement d’un réseau doivent déjà être connectés par des synapses pour que celles-ci soient renforcées ou affaiblies. Le façonnage d’un réseau s’effectue donc à partir et grâce à un câblage préexistant. Certains de ces réseaux pré câblés, comme ceux de l’hippocampe par exemple, jouent d’ailleurs un rôle clé dans la formation des souvenirs. Aucun neurone isolé ne contient en lui-même l’information nécessaire à la restitution d’un souvenir. La trace mnésique est plutôt latente, ou encore virtuelle, dans la mesure où son existence ne peut être mise en évidence que lorsqu’un réseau de plusieurs neurones interconnectés est activé. Plusieurs souvenirs peuvent être encodés à l’intérieur du même réseau de neurone par différents modèles de connexions synaptiques. De même, un souvenir peut aussi faire appel à l’activation simultanée de plusieurs assemblées de neurones réparties dans différentes aires du cerveau.
Globalement, la mémoire humaine constitue une association de différents sous-systèmes en constante interaction. Toute cette fonction mémorielle est démontrée et reconnue biologiquement en 2000, avec les travaux d’Eric KANDEL23 récompensé pour avoir montré l’importance des synapses et les mécanismes moléculaires qui commandent les processus d’apprentissage et de mémorisation chez un mollusque. Cette découverte a permis d’extrapoler les interactions entre biologie et psychisme chez l’homme.
Les progrès en imagerie neuro-fonctionnelle permettent de cartographier de plus en plus précisément les aires cérébrales qui sont impliquées dans les fonctions cognitives, tels que par exemple les processus mentaux mis en jeu dans le langage, la mémoire, le calcul, l’apprentissage de la lecture. La compréhension du cheminement de l’information et son mode de traitement dans le cerveau commence à être visualisé (c’est l’exemple de la plateforme NeuroSpin24) : on peut ainsi suivre en imagerie par résonance magnétique fonctionnelle le réseau cérébral impliqué lorsque nous évoquons un souvenir et constater qu’il s’agit du même réseau engagé lorsque nous formons des projets. Des faisceaux de connexions permettent ainsi la transmission de l’activation entre différentes régions cérébrales. L’illustration 1 réalisée par le Centre national de la recherche scientifique

Table des matières

INTRODUCTION
PARTIE I INDEXER POUR LA RECHERCHE D’INFORMATION
CHAPITRE I DU DOCUMENT A LA CONNAISSANCE
1. LE CONTEXTE GENERAL DE LA RECHERCHE D’INFORMATION
• Du papier au document numérique
• Toujours plus d’information
• …et accessible à tous
• Sans perdre de temps
• Des bases structurées ou non
• A la recherche d’un nouveau traitement
• Le chercheur face à l’information
• De l’utilité du professionnel de l’information
2. LE DOCUMENT SUPPORT COGNITIF DE L’INFORMATION
3. L’APPRENTISSAGE ET L’INTERPRETATION
4. L’ACTUALISATION DES CONNAISSANCES ET LA MEMOIRE
5. LA CONNAISSANCE, FONDEMENT IMPLICITE DE L’ACTE DE LANGAGE
CHAPITRE II POUR UNE INDEXATION QUALITATIVE EN RECHERCHE D’INFORMATION
1. LE DOCUMENT NUMERIQUE
2. LES METADONNEES ATTACHEES A L’ENONCE
3. L’INDEXATION DOCUMENTAIRE
4. L’INDEXATION AUTOMATIQUE
• L’indexation automatique quantitative
• L’indexation automatique qualitative
5. UTILISATION D’UN THESAURUS (APPROCHE QUANTITATIVE)
6. VERS UNE AUTRE FORME D’INDEXATION
CHAPITRE III « INFORMATION RETRIEVAL » ET VEILLE SCIENTIFIQUE
1. LA RECHERCHE DOCUMENTAIRE
2. LA VEILLE SCIENTIFIQUE
3. L’INFORMATION RETRIEVAL
4. DES USAGES DE LA RECHERCHE DOCUMENTAIRE
5. DIFFERENTS POINTS DE VUE, UNE SEULE RECHERCHE
CHAPITRE IV DE L’INFORMATION UTILE A UNE NOTION DE PERTINENCE
1. L’INFORMATION UTILE
2. LA QUALITE DE L’INFORMATION
3. LA PERTINENCE
PARTIE II LA METHODE QUALITATIVE
CHAPITRE I COMPLEXITE BIOLOGIQUE ET THERAPEUTIQUE : SIMPLE VEILLE ?
1. L’ANALYSE DE L’INFORMATION
2. QU’EST-CE QUE LE PLAN DE VEILLE?
3. LA MALADIE D’ALZHEIMER, L’EXEMPLE
4. LES CIBLES ETUDIEES
5. PREOCCUPATION D’UN LABORATOIRE DE RECHERCHE
CHAPITRE II LA METHODOLOGIE MEVA
1. CE QUE N’EST PAS MEVA
2. METHODE INSPIREE DU MODELE COGNITIF
3. PRINCIPE DE L’INDEXATION QUALITATIVE PAR MEVA
4. RESUME DE LA METHODOLOGIE MEVA
CHAPITRE III EXPERIMENTATION SUR L’EXEMPLE ALZHEIMER
1. MEDLINE, LA BASE DE DONNEES
2. INTERROGATION SUR MEDLINE : PUBMED
3. L’EXPERIENCE
4. MISE EN EVIDENCE DE L’ASPECT QUALITATIF
CONCLUSION