Extraction de caractéristiques et apprentissage statistique pour l’imagerie biomédicale cellulaire et tissulaire

Le traitement d’images biomédicales [Abràmoff et al., 2004 ; Bankman, 2008 ; Demirkaya et al., 2008] est une branche du traitement de l’image de plus en plus étudiée et que l’on retrouve dans de nombreux domaines applicatifs (microscopie, imagerie par résonance magnétique, . . . ). Son objectif principal est d’accompagner les biologistes et les médecins dans le traitement des données auxquelles ils sont confrontés au quotidien. Par exemple, certaines techniques permettent d’améliorer la qualité des images observées (débruitage [Delpretti et al., 2008 ; Luisier et al., 2009], défloutage [Choi et al., 2006 ; Tristán-Vega et al., 2012], . . . ) ou de réaliser certaines tâches (semi-) automatiquement et à grande échelle (comme détecter et compter des cellules [Kothari et al., 2009 ; Poulain et al., 2015]).

Le traitement de telles images présente des spécificités que l’on ne retrouve pas systématiquement dans le domaine du traitement de l’image. Par exemple, il est généralement plus simple de connaître les ordres de grandeurs de ce que l’on observe dans la mesure où on connaît le matériel qui a fait l’acquisition de l’image ainsi que l’échantillon observé.

La classification est une étape que l’on retrouve de façon récurrente dans le domaine biomédical. En effet, les biologistes et médecins sont régulièrement amenés à établir un diagnostic, ce qui revient généralement attribuer une classe générale y au phénomène x observé (pathologie, cellule, . . . ). En apprentissage statistique, on distingue deux grandes familles d’algorithmes de classification :
— La classification supervisée (qui sera discutée plus en détails en Partie I) consiste à apprendre une règle de classification à partir de données (telles que des images) préalablement annotées, c’est-à-dire auxquelles un expert a attribué une classe parmi un ensemble (prédéfini) de classes. Un algorithme de classification supervisée prendra donc en entrée un ensemble d’objets X et l’ensemble Y des classes correspondantes.
— La classification non-supervisée (ou clustering, Cf. Partie II) [Hastie, Tibshirani et Friedman, 2009] cherche à réaliser la même tâche, mais en n’ayant recours qu’à des données non-annotées, c’est-à-dire sans connaissance a priori sur l’ensemble des classes. En d’autres termes, un algorithme de classification non-supervisée n’aura que l’ensemble d’objets X en entrée.

Ces deux types de classification ont leur place dans le domaine biomédical. En effet, la classification supervisée permet à l’algorithme d’apprendre une règle de classification fondée sur des classes bien définies. À l’inverse, l’apprentissage non supervisé peut quant à lui s’utiliser lorsque les classes ne sont pas clairement définies, qu’on cherche à les définir, ou lorsque l’acquisition d’une vérité terrain sur un nombre significatif d’échantillons n’est pas envisageable.

L’extraction de caractéristiques est une composante du traitement de l’image qui va souvent de paire avec la classification. En effet, pour établir une règle de classification (supervisée ou non), on se base généralement sur un ensemble de critères numériques décrivant l’objet ou le phénomène observé x ∈ X. En pratique et selon le contexte, deux types de caractéristiques peuvent être extraites :

— Des descripteurs génériques n’ayant pas nécessairement d’interprétation physique ou biologique (SIFT [Lowe, 2004], SURF [Bay et al., 2008], histogrammes de gradients orientés [Dalal et Triggs, 2005], contexte de forme [Belongie et al., 2002], sacs de mots [Sivic et Zisserman, 2003], . . . ),

— Des descripteurs ayant un sens physique. Typiquement, dans le domaine biomédical, il peut s’agir de caractéristiques morphologiques décrivant les objets observés (taille d’une cellule, épaisseur d’un vaisseau, . . . ).

Le problème de la classification d’objets consiste à établir une procédure qui associe une classe (appartenant à un ensemble de classes) à une donnée. La classification supervisée se fait à partir d’un ensemble d’apprentissage, composée d’objets et des classes qui leur correspondent, et d’un ensemble de test, composée d’objets dont la classe est inconnue. Une classification supervisée se réalise alors en deux temps. Elle commence par la phase d’apprentissage, pendant laquelle la procédure (généralement appelée classifieur) permettant d’associer un objet à une classe est définie. S’en suit alors la phase de classification (ou de prédiction) pendant laquelle les règles de classification établies (ou apprises) lors de la phase précédente sont utilisées pour en déduire la classe, a priori inconnue, d’un objet.

Pour ce faire, une donnée quelconque (que ce soit un document texte, un fichier audio, une image, une vidéo, un maillage, . . .) est généralement convertie en un vecteur de valeurs réelles, pouvant appartenir à un espace de grande dimension, parfois appelé signature [Oliva et Torralba, 2001 ; Sivic et Zisserman, 2003]

La classification binaire correspond au cas où il n’y a que 2 classes. C’est une situation courante dans le contexte biomédical, par exemple lorsqu’il s’agit de faire la distinction entre malin et bénin [Jiang et al., 1996 ; Stavros et al., 1995]. Par conséquent, certains algorithmes d’apprentissage s’appliquent uniquement au cas où il n’y a que deux classes. On parle alors de classifieurs binaires. Parmi les plus populaires dans la littérature, on retrouve les séparateurs à vaste marge , et le Boosting (et plus particulièrement AdaBoost, un meta-algorithme consistant à combiner des classifieurs dits « faibles » afin d’obtenir un classifieur dit « fort » [Schapire, 2003]). Par opposition au cas binaire, on parle de classification « multiclasse » lorsque le nombre de classe est supérieur ou égal à 3. Là encore, les applications dans le domaine biomédical ne manquent pas. On peut citer à titre d’exemple la classification histologique de la tumeur [Kleihues et al., 2002 ; Sobin et Fleming, 1997] ou la classification de séquences d’ADN [J. T. Wang et al., 1999]. Certains classifieurs binaires peuvent être reformulés afin d’être applicables au cas multiclasse (par exemple AdaBoost [Zhu et al., 2009] et les SVM [Crammer et Singer, 2002]). D’autres sont directement multiclasses. C’est le cas notamment pour les réseaux de neurones artificiels [Bengio et al., 2013], ainsi que les arbres de décision et les forêts d’arbres décisionnels [Breiman, 2001 ; Quinlan, 1986].

De nombreuses extensions ont été proposées dans la littérature [Allwein et al., 2001; Aly, 2005 ; Hastie, Tibshirani et al., 1998 ; Hsu et Lin, 2002]. Les plus populaires d’entre elles peuvent être classées dans 4 principales catégories : un contre tous, un contre un, code correcteur et division pour régner.

un contre tous Souvent abrégée OVA (de l’anglais « one versus all »), cette famille d’extensions [Athitsos et al., 2007 ; Manikandan et Venkataramani, 2009 ; Mota et Thome, 2009 ; Rifkin et Klautau, 2004] consiste à comparer chaque classe à son complémentaire, c’està-dire la classe virtuelle composée de l’ensemble des n − 1 autres classes. Dans ce cas, le nombre de classifieurs binaires appris K est égal à n. La classe prédite y d’une nouvelle signature x est alors celle qui maximise le critère de confiance .

Table des matières

1 introduction générale
1.1 Le traitement d’images dans le domaine biomédical
1.1.1 La classification
1.1.2 L’extraction de caractéristiques
1.2 Organisation du manuscrit
1.2.1 Extension d’un classifieur binaire au cas multiclasse
1.2.2 Analyse morphologique de neurones
1.2.3 Étude du réseau vasculaire de carcinomes rénaux
I Classification supervisée
2 généralisation d’un classifieur binaire
2.1 Introduction
2.1.1 Classification supervisée d’objets
2.1.2 Classification binaire et classification multiclasse
2.1.3 Passage du cas binaire du cas multiclasse
2.1.4 Le cas des Margin Trees
2.1.5 Un schéma récursif d’extension général
2.2 Une extension fondée sur la coupure de graphe
2.2.1 Motivations et défis
2.2.2 Approche proposée : Graph Cut SVM (GCSVM)
2.2.3 Équilibrage de l’arbre binaire
2.2.4 Complexité
2.3 Résultats expérimentaux
2.3.1 Choix d’implémentation
2.3.2 Résultats sur des données 2D synthétiques
2.3.3 Résultats en reconnaissance de lettres
2.3.4 Résultats sur un ensemble de vidéos d’endomicroscopie
2.4 Conclusions et Perspectives
II Classification non supervisée
3 analyse morphologique de neurones de souris
3.1 Introduction
3.1.1 Contexte biologique : le néocortex mammifère
3.1.2 Présentation des données
3.1.3 Défis et enjeux
3.2 Étude des images x40
3.2.1 Segmentation des neurones
3.2.2 Calcul des descripteurs
3.3 Étude des images x10
3.3.1 Détection des neurones
3.3.2 Reconstruction des neurones
3.4 Mise en correspondance des neurones
3.4.1 Définition du problème
3.4.2 Motivation
3.4.3 Formalisation du problème : appariement d’ensembles de points de l’espace
3.4.4 Résolution des problèmes d’optimisation linéaire
3.4.5 Cas d’ambiguïté
3.4.6 Appariement de données synthétiques
3.4.7 Application à la correspondance de neurones
3.5 Interprétation des résultats
3.5.1 Histogrammes des distributions
3.5.2 Classification par k-moyennes
3.6 Conclusion et perspectives
4 analyse de l’architecture d’un carcinome rénal
4.1 Introduction
4.1.1 Contexte biomédical : le carcinome à cellules rénales
4.1.2 Présentation des données
4.1.3 Motivation
4.1.4 Défis et enjeux
4.2 Images à grossissement minimal
4.2.1 Segmentation du tissu tumoral
4.2.2 Résultats de segmentation
4.2.3 Découpage de la région d’intérêt
4.3 Analyse de l’architecture
4.3.1 Pré-traitements
4.3.2 Extraction du réseau vasculaire
4.3.3 Graphe représentant le réseau vasculaire
4.3.4 Combinaison d’information : Fusion de graphes voisins
4.4 Analyse du graphe
4.4.1 Extraction des données
4.4.2 Interprétations biomédicales des données
4.5 Conclusion
4.5.1 Chaîne de traitement proposée
4.5.2 Temps de calcul
4.5.3 Perspectives
5 conclusion générale
5.1 Revue des contributions
5.2 Perspectives
5.2.1 Extension d’un classifieur binaire
5.2.2 Analyse de la morphologie de neurones de souris
5.2.3 Analyse de l’architecture d’un carcinome rénal
III Conclusion