Méthodes pour l’apprentissage semi-supervisé

méthodes pour l’apprentissage semi-supervisé

Survol des approches d’apprentissage faiblement supervisé

L’expression ’faiblement annotée’ peut paraître confuse, notamment dans le cas de l’apprentissage automatique. Comme le fait remarquer Zhia-Hua Zhou dans son article (Zhou (2017)), cette formule peut faire référence à trois cas de figure, souvent combinés . L’apprentissage à partir de données faiblement annotées peut dans un premier temps faire référence au cas où seulement une partie de la base de données, généralement petite, est annotée. La supervision est alors qualifiée d’incomplète. L’auteur mentionne deux grandes familles dans ce cas : la prise en compte ou non d’un annotateur, faisant office d’oracle. Si on prend en compte l’intervention humaine dans la supervision, le but sera de présenter à cet annotateur les données sans annotations qu’il serait le plus pertinent d’annoter. Cette pertinence fait l’objet d’un domaine de recherche appelé apprentissage actif. De manière naïve, on pourrait par exemple solliciter l’expert sur les images que le modèle n’arrive pas à prédire de manière catégorique (Zhou et al. (2017)). D’un autre côté, l’apprentissage est effectué uniquement à partir des données.

La première famille d’approche, qui est la plus répandue, consiste à utiliser les données non annotées pour affiner l’apprentissage. Une fois l’algorithme entraîné, il est testé sur une base de test. Il s’agit de l’apprentissage semi-supervisé. La deuxième famille d’approches utilise les données de test comme données non annotées lors de l’entraînement, et le test est effectué sur ces mêmes images. Le pseudo-labelling (Lee (2013)) peut être utilisé à cette intention. Le but de cette approche vise à attribuer une annotation hypothétique aux données non annotées par l’algorithme pour qu’elles puissent être utilisées de la même manière que les données annotées. La distinction décrite dans l’article (Zhou (2017)) n’est pas ferme. Il est tout à fait envisageable d’effectuer un mélange de plusieurs types de supervision lors de l’apprentissage.

Pour l’utilisation d’images faiblement annotées, un deuxième cas de figure pourrait faire référence à la situation où les données sont annotées de manière globale. La supervision est alors qualifiée d’inexacte. La base de données pour le concours BACH entre dans cette catégorie. Seul le label de l’image complète est connu. Une des méthodes fréquemment utilisée pour ce type de supervision est l’apprentissage d’instances multiples (Foulds & Frank (2010)). Dans ce cas, les images sont considérées comme des sacs et les patches que l’on extrait comme des instances.

Enfin, la formule ’faiblement annotée’ peut évoquer l’imprécision dans l’attribution des labels. Dans ce cas, les annotations attribuées ne représentent pas toujours le label réel. Cette situation est courante dans le domaine du traitement d’images médicales. Ce cas de figure est traité dans la littérature en tant que ’label bruité’. Dans leur bilan (Frénay et al. (2014)), Frenay et Kaban répertorient trois grandes familles d’approches permettant de lutter contre ce phénomène.

Tout d’abord, la première famille concerne le surapprentissage. Les techniques qui permettent de limiter la mémorisation des données d’entraînement restreignent l’influence des exemples dont le label n’est pas correct. Parmi ces méthodes, on retrouve l’utilisation de modèles possédant un plus petit nombre de paramètres, l’utilisation de couche de dropout, les techniques d’arrêt prématuré de l’apprentissage ou encore l’utilisation de pénalité (norme L1 ou L2) sur les paramètres appris.

La deuxième approche consiste à effectuer un tri dans les données d’apprentissage à partir de connaissances a priori. Ces techniques varient d’un problème à l’autre, le but étant de retirer les données ayant le plus de chance d’être bruitées. Cette famille suppose que certaines données ont plus ou moins de chance de correspondre au label qui leur a été attribué. Pour l’apprentissage à partir d’images histologiques, une pratique courante (Hou et al. (2016)) (Zanjani et al. (2018)) vise à éliminer les patches qui possèdent un certain pourcentage de pixels blancs (c.-à-d. les patches qui possèdent le moins de tissu). On retrouve aussi des méthodes plus globales comme la recherche de valeur aberrante dans les distributions des données, notamment à l’aide de méthode de partionnement de données (Muhlenbach et al. (2004)). Cette recherche peut aussi être effectuée durant l’apprentissage du modèle en retirant les patches que le modèle ou les modèles ne classent pas correctement (Hou et al. (2016)).

La dernière approche consiste à prendre en compte le bruit présent dans l’annotation. Dans cette catégorie on retrouve des approches visant à inférer sur le degré de confiance qu’une prédiction peut avoir (DeVries & Taylor (2018)). On retrouve aussi des approches comme celle proposée dans les travaux de Szegedy et al. (2016) dont le but est d’assouplir la fonction de coût. Au lieu de pousser le modèle à produire les prédictions catégoriques (0% ou 100%), on prend en compte l’imprécision dans l’annotation en pénalisant moins l’erreur de prédiction (par exemple, en déplaçant l’intervalle d’objectif à [0.1 0.9]).

Hypothèses de l’apprentissage semi-supervisé

L’objectif de l’apprentissage semi-supervisé est de pouvoir améliorer les décisions d’un modèle en faisant intervenir des images sans annotations. Dans leur livre (Chapelle et al. (2006)), les auteurs mettent en évidence plusieurs hypothèses qui permettent d’appliquer un tel type d’apprentissage. Ces hypothèses supposent un certain nombre de relations entre les espaces de départ que représentent les images avec l’espace d’arrivé, celle des annotations. L’hypothèse principale est celle de smoothness.

«Semi-supervised smoothness assumption : If two points x1 , x2 in a high-density region are close, then so should be the corresponding outputs y1 , y2.» (Chapelle et al. (2006))

Cette hypothèse suppose une certaine relation qu’il est possible d’imaginer entre les données et leurs annotations. S’il n’y a pas de corrélation entre les deux, l’utilisation des données non annotées devient alors inefficace. Comme l’indiquent Chapelle et al. (2006), cette hypothèse met en évidence que cette relation est plus probable dans les zones de forte densité, et a contrario, elle est moins probable dans les zones de faible densité.

Par ailleurs, il faut noter que cette relation n’est pas nécessairement directe. Une autre hypothèse importante émise par Chapelle et al. (2006) porte sur l’existence d’un espace, différent de l’espace de départ dans lequel il est possible d’utiliser certains algorithmes d’apprentissage semi-supervisés .

«Manifold assumption : The (high-dimensional) data lie (roughly) on a low dimensional manifold.» (Chapelle et al. (2006)) .

Les points x1 et x2, ainsi que les points y1 et y2 peuvent être projetés dans des espaces de plus faible dimension où cette hypothèse s’applique.

Les deux prochaines hypothèses sont des cas particuliers qui découlent de la première supposition. Ils supposent que les points de départ forment des clusters dans un certain espace de représentation. Si l’on se fit au premier postulat, les points dans les zones de haute densité, dans un espace de représentation judicieusement choisi, devraient avoir la même classe. Dans ce cas, on peut imaginer la formation de zones de plus ou moins forte densité. Ce qui conduit aux deux prochaines hypothèses.

«Cluster assumption : If points are in the same cluster, they are likely to be of the same class. (Chapelle et al. (2006))» «Low density separation : The decision boundary should lie in a low-density region. (Chapelle et al. (2006))» Les données non annotées appartenant au même cluster devraient ainsi avoir la même classe. Et ces mêmes ensembles sont délimités par des régions de faible densité de données.

Modèles conventionnels

Cette partie présente un aperçu des familles d’approches fréquemment utilisées avant l’arrivée de l’apprentissage profond. Parmi les premières méthodes d’apprentissage semi-supervisées, on retrouve le self-training. Cette technique permet de prendre en compte les données sans annotations lors de l’entraînement d’algorithmes de reconnaissance. Elle consiste à annoter les données sans annotations par l’intermédiaire d’un algorithme automatique. On entraîne dans un premier temps le modèle à classer les données annotées. Une fois paramétré, on utilise le modèle pour prédire le label des données sans annotations. Ces dernières dont le modèle est confiant (supérieur à un seuil à définir) se voient attribuer le label prédit. L’algorithme est alors réentraîné à partir des données annotées ainsi qu’avec les nouvelles données annotées. On renouvelle alors l’opération pour un certain nombre d’itérations. Cette méthode très simple est particulièrement efficace lorsque l’on se trouve dans un espace de représentation où les classes sont nettement séparées (pas ou peu de chevauchement entre les différentes classes). Si ce n’est pas le cas, certaines données vont alors se voir attribuer le mauvais label, ce qui va nuire à la classification.

Une des alternatives pour pallier cette condition a été d’utiliser l’avis de plusieurs algorithmes de classification pour attribuer des labels aux données non annotées.

Table des matières

INTRODUCTION
CHAPITRE 1 CONTEXTE
1.1 Diagnostic des images histologiques pour le cancer du sein
1.2 Approches conventionnelles
1.3 Approches basées sur l’apprentissage profond
1.4 Discussion
CHAPITRE 2 MÉTHODES POUR L’APPRENTISSAGE SEMI-SUPERVISÉ
2.1 Survol des approches d’apprentissage faiblement supervisé
2.2 Hypothèses de l’apprentissage semi-supervisé
2.3 Modèles conventionnels
2.4 Les approches basées sur l’apprentissage profond
2.4.1 Cohérence des prédictions
2.4.2 Les réseaux antagonistes génératifs
2.4.3 Les auto-encoders
2.4.4 Autre approche
2.5 Étude détaillée des modèles utilisés
2.5.1 Ladder network
2.5.2 Virtual Adversarial Training
2.5.3 Mean teacher
2.5.4 Deep Co-training
CHAPITRE 3 MÉTHODOLOGIE EXPÉRIMENTALE
3.1 Expériences
3.2 Base de données : Tumor Proliferation Assessment Challenge 2016
3.2.1 Description
3.2.2 Mise en forme de la base de données
3.2.2.1 Choix des patches
3.3 Base de données : Grand Challenge on BreAst Cancer Histology images
3.3.1 Description
3.3.2 Techniques pour traiter la supervision imprécise : le cas de la base BACH
3.3.2.1 Annotation des patches
3.3.2.2 Prédiction de l’image complète
3.4 Mesures de performances
3.5 Protocole expérimental
CHAPITRE 4 RÉSULTATS EXPÉRIMENTAUX ET ANALYSES
4.1 Première partie des expériences : la base BACH
4.1.1 Étude des patches
4.1.1.1 Choix du critère
4.1.1.2 Résultats des expériences
4.1.1.3 Limites de l’étude
4.1.2 Étude des images complètes
4.2 Deuxième partie des expériences : la base TUPAC
4.2.1 Résultats des expériences 1 et 3
4.2.2 Limites de l’étude
4.3 Bilan sur les approches
4.4 Le cas du Deep Co-Training
4.4.1 Mesure de diversité
4.4.2 Influence du nombre de modèles et de l’ajout de diversité
4.4.3 Influence de l’ajout de données générées
CONCLUSION