Le destin des formalismes : à propos de la forme des plantes
Deuxième usage : l’analyse statistique et la morphométrie
L’analyse statistique et, plus spécifiquement, la morphométrie ou morphologie statistique proposent de « mesurer » et de comparer les formes du vivant ou, plus largement, ses caractères morphologiques, dans leur évolution et dans leur répartition. Ce qui doit nous surprendre à première vue est le remarquable essor de la morphométrie dans l’après-guerre. On peut voir à cela deux raisons majeures en rapport avec notre propos. D’une part, elle bénéficie des méthodes de mathématisation descriptive développées avant-guerre par Fisher et ses successeurs dans un contexte génétique puis agronomique et que nous avons partiellement rappelées. Surtout, elle profite des raffinements conceptuels apportés entre-temps par le statisticien M. S. Bartlett avec sa proposition d’une analyse multivariée (1947) 4 . D’autre part, elle bénéficie de la mise à disposition progressive des calculateurs numériques que lui sont les computers. Et nous allons ici nous interroger un peu plus avant pour comprendre cette étonnante pré-adaptation entre une mathématisation descriptive et une machine conçue au départ pour calculer de façon arithmétique. Dans un premier temps donc, un peu avant que les ordinateurs ne soient à disposition, c’est-à-dire à partir de la fin des années 1940, le développement systématique de l’analyse multivariée donne un nouveau souffle à cette approche dans la mesure où des outils conceptuels plus complexes peuvent arracher la taxonomie descriptive de sa dépendance aux choix subjectifs des caractères distinctifs entre genres, espèces et variétés 5 . Une telle analyse fondée sur la mesure des caractères morphologiques, et donc sur leur quantification, se présente directement à l’époque comme une prolongation mathématisée de l’anatomie comparée et de la paléontologiquantitative telles qu’elles existaient déjà dans les années 1920 et 1930 1 . Fisher lui-même, dans un article de 1936 2 , avait indiqué les possibles usages taxonomiques de son approche statistique de l’expérience. La morphométrie procède en effet à des caractérisations réputées plus objectives dans la mesure où elle tâche de quantifier les dénominations qualitatives : elle remplace, quand elle le peut, des distinctions qualitatives par des différenciations quantitatives ou, à tout le moins, par des différenciations ordonnées en des échelles factorielles. Dans tous les cas, il s’agit donc soit d’une énumération, soit d’une mesure. Dans ce cadre, au cours des années 1950, le support du calcul reste essentiellement arithmétique 3 . Cette recherche d’objectivité par la mesure et par la médiation, autant que possible, d’un instrument formel qui puisse neutraliser les projections subjectives de l’observateur était déjà le fait de la psychologie expérimentale du tournant du siècle. Mais c’est essentiellement le statisticien M. S. Bartlett du University College de Londres qui a travaillé au développement de l’analyse multivariée et à ses applications en morphométrie, notamment à la suite des travaux en analyse multifactorielle du psychologue américain C. Spearman 4 , mais aussi bien sûr à la suite des recherches en analyse statistique et biométrie de son collègue R. A. Fisher. Bartlett définit la statistique multivariée comme « l’étude de plusieurs variables en même temps dans le but d’augmenter soit l’efficacité de l’analyse statistique, soit la puissance de l’interprétation » 5 . Comme dans l’analyse statistique appliquée à l’agronomie, le but du développement de ces outils conceptuels en biologie a en fait essentiellement été d’augmenter le pouvoir de discrimination entre des groupes d’individus présentant tous une collection de propriétés métriques (ou métriquement exprimables) à des degrés variables. Venant donc au départ de la biométrie eugéniste anglaise, puis de la psychométrie, ces techniques ont été très vite utilisées dans le domaine du diagnostic médical 6 . Dans la morphométrie, en particulier, il y a bien le projet de représenter quantitativement les caractères des êtres vivants à commencer par leurs formes ou plutôt par leurs caractères morphologiques. Mais, là encore, l’objectif de cette application de l’analyse multivariée à la taxonomie n’est pas du tout de représenter un individu en tant que tel mais plutôt la distance entre les individus en vue de leur discrimination : ce sont les relations entre des caractères un à un homogènes qui sont mathématiquement traitables en des termes métriques mais pas l’hétérogénéité de l’individu à lui-même, de ses parties ou de ses formes entre elles, ou de ses parties avec son organisme entier. Comme en biométrie, l’approche est donc d’emblée relationnelle, métrique et apparemment purement descriptive. La morphogenèse de l’individu n’y est pas traitée en tant que telle. S’y ajoute cependant un but précis : phylogénétique. Avec ce but classificatoire, la morphométrie rencontre une autre tradition qui n’est plus seulement à visée descriptive mais qui cherche des représentations mathématiques en vue d’explications phylogénétiques. Il faut bien comprendre ici que ces représentations mathématiques de distances métriques entre des caractères diversement présents ne deviennent pas pour autant en elles-mêmes explicatives mais des chercheurs comme R. E. Blackith, du département de zoologie de l’Université de Melbourne, prétendent toutefois les faire directement servir à une interprétation théorique et explicative. Or, dans ce cadre-là, les avatars de la morphométrie dépendent bien sûr intégralement du grand débat amplement étudié par ailleurs 1 et qui oppose la génétique quantitative, avec son hypothèse d’une évolution graduelle, et la génétique mendélienne, avec sa théorie des mutations brusques et discontinues. Pour le morphométricien, les mathématiques sont essentiellement une technique de mesure. L’approche logique et classificatoire reste une métrique dégénérée aux yeux de l’axiomatique implicite du biométricien. Elle ne nous oriente de toute façon nullement vers une explication selon lui. Comme elle est essentiellement inféodée aux objectifs de la taxonomie et aux problématiques phylogénétiques, la morphométrie des années 1940 et 1950 sert encore comme un outil statistique dédié à une approche plutôt phylogénétique qu’ontogénétique. De plus, comme ce sont des relations entre des formes homogènes qui sont de fait objectivées dans la mathématisation statistique et non la forme des êtres vivants, en eux-mêmes, pris séparément dans leur histoire et chacun comme un tout, la morphométrie s’est développée très aux marges d’une autre approche morphologique quantitative et qui s’est au contraire prétendue d’emblée théorique et explicative. Ainsi, le deuxième usage de l’ordinateur qui se répand rapidement est bien évidemment celui de l’analyse de données. Car, on l’a compris, il s’agit là essentiellement de traitements de données numériques en très grand nombre. Dans ce cadre-là, puisqu’on a toujours affaire à des quantités discrètes de données, on peut comprendre que l’utilisation des calculateurs numériques n’y ait même pas été le plus souvent précédée par celle des calculateurs analogiques. Le caractère numérique du computer lui sied très bien. En revanche, il faut que les biométriciens et les morphométriciens s’adaptent très vite au calculateur numérique ; mais ils avaient déjà auparavant recours à des machines à calculer électromécaniques (arithmétiques) et les langages évolués facilitent la maîtrise de l’outil dès le début des années 1960. Notons, pour finir sur ce point, que l’intérêt des biologistes en ce domaine recoupe clairement celui des statisticiens de l’économie et des affaires qui avaient été auparavant à l’origine des travaux de Hollerith mais aussi de la naissance d’IBM 2 . Le transfert de formalisme ne semble pas poser de question dans la mesure où l’on reconnaît les statistiques comme appartenant à une mathématique de la surface, une mathématique descriptive et non fonctionnelle ou explicative. Le choix pour le calculateur numérique peut sembler donc évident à ce moment-là dans ce que Rashevsky appelait la « biologie quantitative » : les capacités de traitement et de stockage du calculateur numérique sont inappréciables en ce qu’elles soulagent des fastidieux et répétitifs calculs numériques. Dans l’ensemble, les langages évolués comme FORTRAN 3 et ALGOL permettent d’ailleurs d’implémenter utilement et convenablement les formules de l’analyse multivariée comme les tests statistiques, puisque les mathématiques algébriques et arithmétiques ainsi que quelques fonctions transcendantes y sont prises en compte grâce à des tabulations directement mises en mémoire dans le calculateur.
Troisième usage : le traitement de données non numériques ou traitement d’informations
Le troisième usage du calculateur numérique dans les sciences de la vie est celui du traitement de données non numériques. R. S. Ledley donne comme premier exemple l’analyse de chaînes d’acides aminés par calculateur telle qu’elle est intervenue en biochimie des protéines 1 . Une protéine est en effet construite comme une chaîne séquentielle de diverses espèces d’acides aminés qu’il faut identifier puis situer sur la chaîne protéique relativement aux autres acides aminés, un peu comme des lettres dans un mot. Or, les seules expérimentations de chimie organique possibles sur cette protéine conduisent à divers types de ruptures intervenant à divers endroits de la chaîne. Ces expérimentations étant en grand nombre, les sous-produits de ces réactions sont très nombreux également, puisqu’ils sont des fragments eux-mêmes inanalysés. En codifiant chaque acide aminé par une lettre, on a la possibilité de laisser à l’ordinateur le loisir de synthétiser et de tester empiriquement, mais virtuellement, toutes les chaînes protéiques qui rendent possibles les quelques expérimentations de rupture accessibles et réellement faites. Il s’agit donc là d’une forme d’analyse logique par synthèse reconstitutive, formellement réaliste (non mathématiquement abstractive puisque chaque acide aminé est représenté univoquement par un caractère alphanumérique ‘A’ ou ‘B’) et hypothétique. C’est ici la possibilité de concaténer selon des règles logiques des données non numériques qui est mise en œuvre dans le calculateur. On conçoit bien que ce type de problème combinatoire, et non numérique en ce sens, s’apparente davantage à la simulation d’une activité que l’on pourrait dire « intelligente » car mettant en œuvre, face à des données faiblement formalisées, un procédé qui ne relève pas immédiatement du calcul déterministe mais de la procédure heuristique classique essai/erreur. Ledley donne comme deuxième exemple de traitement de données non numériques le cas du traitement d’image microphotographique, comme la microphotographie d’un chromosome, d’un axone ou de cellules sanguines 2 . Rappelons qu’à l’époque, la biologie cellulaire travaille très souvent à établir les karyogrammes des êtres vivants, cette caractérisation chromosomique ayant de nombreuses applications utiles : non seulement dans le diagnostic de certaines maladies mais aussi en amélioration des plantes dès lors qu’il s’agit par exemple de déterminer la ploïdie des espèces que l’on souhaite hybrider. Le calculateur numérique peut servir dans ce cas à la reconnaissance du type de chromosome en question et à la mesure précise de ses bras par exemple. Il a ainsi une fonction de reconnaissance qui ne s’appuie pas d’abord sur des techniques statistiques de tests mais plutôt sur des suivis complexes (et a priori non formulables analytiquement), et pas à pas, des contours d’objets en vue d’une reconnaissance de formes qui soit aussi une caractérisation numérique pour cet objet et pas seulement une discrimination par rapport à d’autres. L’image est pour cela d’abord convertie (scannée) en un tableau bidimensionnel de nombres entiers déterminés en fonction des tons de l’image au moyen d’un convertisseur analogique-numérique. Ce tableau est ensuite mémorisé. Pour reconnaître et caractériser automatiquement les contours des objets photographiés, ce tableau est systématiquement parcouru par ce que les chercheurs de la National Biomedical Research Foundation appellent un « cafard » [« bug »] 3 de telle sorte qu’il passe à la case voisine qui a le ton le plus proche de celle qu’il occupait précédemment. Cela dessine un parcours dans ce tableau bidimensionnel qui discerne et situe effectivement les formes photographiées. Les vecteurs qui relient les points de ce parcours dans le tableau peuvent ensuite être analysés entre eux par des procédés mathématiques élémentaires inspirés de l’analyse et de l’algèbre et praticables en FORTRAN (produits scalaires, projections…) : sont-ils parallèles ? Y a-t-il une rotation et, si oui, dans quel sens ?, etc. Ce calcul permet de discriminer des formes élémentaires : en U, en S, en ligne droite… Un certain ordre de concaténation de ces formes élémentaires correspond à la forme précise d’un chromosome (en X). Enfin, une fois reconnu et situé automatiquement, on peut dimensionner ce chromosome, c’est-à-dire le caractériser métriquement, si l’on connaît le taux de grossissement de l’image. À travers ce procédé dans lequel le calculateur conserve une image de l’objet étudié, il y a donc la possibilité de caractériser numériquement des compositions de courbures et de formes élémentaires qui ne pourraient l’être mathématiquement. Le manque de modèle mathématique simple et abréviatif pour la description des formes complexes est donc ici pallié par une analyse d’image « à vue » et pas à pas, c’est-à-dire élément d’image par élément d’image. Il n’y a donc pas de modèle mathématique quantifié et abréviatif qui soit sous-jacent au procédé de parcours. Il y a seulement des règles logiques ou heuristiques de parcours de données numériques. Ces règles logiques sont censées reprendre intuitivement les règles que le regard humain suit devant une forme nouvelle, devant une forme à laquelle il ne s’attend pas, et qu’il ne peut anticiper. C’est donc une approche purement empirique, beaucoup plus empirico-inductive qu’hypothéticodéductive, bien que, au final et malgré tout, il y ait des « modèles » de séquences de vecteurs qui permettent de reconnaître des types de formes élémentaires. Cela est dû au fait que l’on cherche finalement à pouvoir tenir quand même une sorte de discours sur ces séquences de formes élémentaires et qu’ainsi une re-connaissance s’opère bien au moins au niveau de la forme globale. Le calculateur numérique a ainsi le pouvoir de caractériser ce qui n’a pas encore de sens, c’est-à-dire pas de forme substantielle. Du moins permet-il de disjoindre l’étape de la caractérisation d’une forme de l’étape de sa reconnaissance. Et il établit ainsi une passerelle entre l’analyse d’image et le traitement purement syntaxique et structural (donc non sémantique) de signaux tel qu’il intervient dans la théorie de la communication de Shannon.
AVANT-PROPOS |
