Etude informatique des effets cliniques et omiques des modulateurs de CFTR dans la mucoviscidose et recherche de nouvelles cibles

Facebook Tweet Pin Email

Etude informatique des effets cliniques et omiques des modulateurs de CFTR dans la mucoviscidose et recherche de nouvelles cibles

L’Analyse en Composantes Principales

L’analyse de données, quelle que soit la nature de ces dernières, demande bien souvent un processus de simplification de leur représentation afin d’en extraire des informations interprétables. Je me suis retrouvé face à cette nécessité par deux fois au cours de ma thèse, pour deux problématique très différentes. Lors de mon analyse de l’évolution des paramètres cliniques en réponse au traitement par modulateurs (étude 1), il était nécessairement de pouvoir visualiser facilement et identifier les interdépendances des 6 paramètres pris en compte. En parallèle, le coeur de la problématique lors du développement de l’algorithme rRoma (étude 4) consistait à simplifier au maximum l’information complexe contenue dans les niveaux d’expression de différents gènes aux fonctions similaires ou appartenant aux mêmes voies de signalisation. La base mathématique pour résoudre ces deux problématiques a été la même. J’ai utilisé des variations de la méthode d’ACP (Pearson 1901, Hotelling 1933). Il s’agit d’une méthode permettant de réduire la dimension des données (donc, le nombre de paramètres considérés) en conservant le maximum d’information possible, et de mettre en évidence les relations entre les différents paramètres pris en compte dans l’étude. Dans cette section, j’explique en détail le fonctionnement de la méthode ACP, dans un premier temps au moyen d’une approche simplifiée pour les non mathématiciens, et dans un second temps d’un point de vue mathématique. Ces explications permettront de mieux comprendre les analyses conduites dans les études 1 et 4 de ce manuscrit.

EXPLICATION POUR LES NON MATHÉMATICIENS

Cas simple de deux dimensions Dans un premier temps, considérons une cohorte de patients qui serait décrite par deux paramètres cliniques. La cohorte est notre jeu de données, et comme il n’y a que deux paramètres, les patients peuvent être représentés par des points dans un espace de deux dimensions, c’est-à-dire 73 un plan (l’horizontale représentant le premier paramètres clinique, et la verticale le second) (figure 14, panel de gauche) Dans une ACP, deux combinaisons des 2 paramètres initiaux sont employées, appelées composantes principales 1 et 2 (PC1 et PC2), et les données sont représentées selon ces nouveaux paramètres correspondant à de nouveaux axes horizontaux et verticaux. Les composantes PC1 et PC2 sont calculées de telle sorte que les données soient le plus dispersées possibles le long de l’axe PC1, la variance entre les points étant beaucoup plus faible selon l’axe PC2. On peut alors utiliser cette nouvelle représentation pour réduire la dimension de nos données. Si l’on décidait de représenter des points de données le long d’une droite unique tout en conservant le plus de variance possible, alors la meilleure droite correspondrait à l’axe de la PC1. On perdrait certes l’information (de la variance) liée à la PC2, mais cette dernière est par construction beaucoup plus faible. Cet exemple reste limité : passer de 2 dimension à une seule n’est pas d’une grande utilité puisque l’on peut très bien visualiser les informations en 2 dimensions. Mais il permet de poser les concepts pour les cas plus complexes pour lesquels plus de paramètres sont pris en compte, et donc pour lesquels le nombre de dimensions de départ est plus grand. Figure 14 : Visualisation de l’effet de l’ACP dans un cas à deux dimensions. Gauche : nuage de points initial. La PC1 est y est représentée en rouge et capture le maximum de variance de la distribution. La PC2 est représentée en bleu. Milieu : Représentation du nuage de points dans l’espace des deux premières composantes. Droite : Cercle de participation des dimensions initiales aux composantes principales Cas de 3 dimensions Pour mieux comprendre l’importance de l’ACP, plaçons-nous désormais dans le cas à trois dimensions, le plus simple pour lequel la réduction de dimension est utile. Reprenons l’exemple précédent, en ajoutant un troisième paramètre pour décrire les patients. Ces derniers doivent donc désormais êtres représentés par des points projetés dans un espace à trois dimension, plus difficilement lisible (figure 15 gauche). Dans ce cas, l’ACP fonctionne de la même manière qu’en deux dimensions. On oriente l’espace (on le « fait tourner ») en définissant trois nouvelles directions perpendiculaires les unes aux autres (les PC1, PC2 et PC3), de sorte à ce que la variance le long de la première direction (la PC1) soit la plus grande possible, puis que la variance restante soit la plus grande possible le long de la PC2, la PC3 capturant la variance restante non prise en compte dans les PC1 et PC2. Dans cette nouvelle représentation, la plus grande partie de la dispersion des points est visible le long des PC1 et PC2. Pour simplifier la représentation, on peut alors représenter les données en 2 dimensions, i.e. dans le plan défini par PC1 et PC2, en minimisant l’information que l’on ne prend pas en compte, c’est-à-dire celle portée par PC3 (figure 15 droite). Le pourcentage de la variance totale (donc de l’information totale) conservé par chaque PC est aussi indiqué. Ainsi, dans notre exemple, on a réalisé une réduction de dimension, de 3 à 2, en ne perdant que 15% de l’information présente initialement dans nos données. Mais l’ACP permet aussi de déterminer quels paramètres de départ sont les plus importants pour expliquer la variance présente dans les données, et si les patients se répartissent de manière similaire selon certains paramètres (c’est-à-dire si les paramètres sont corrélés entre eux). Les PCs sont en fait obtenues en réalisant une combinaison linéaire des paramètres initiaux utilisés pour décrire les données. Un paramètre jouant un rôle important dans une PC aura un coefficient élevé, à l’inverse il sera très faible si le paramètre ne contribue que faiblement à cette composante. Ces coefficients témoignent donc aussi de la corrélation des paramètres avec les PCs : si plusieurs paramètres ont des coefficients élevés pour la même PC, cela signifie qu’il sont corrélés à cette PC, et donc entre eux. L’information sur la participation des paramètres aux différentes PCs peut être visualisée dans l’espace de ces dernières, par des flèches représentant les paramètres de départ : plus une flèche est alignée avec une PC, plus elle contribue de manière importante à cette dernière (son coefficient pour cette composante est grand). Ainsi, dans notre exemple, on peut voir que les paramètres x et y participent de manière similaire et importante à la PC1, alors que le paramètre z 75 participe à la PC2. Les paramètres x et y sont donc corrélés, ils portaient une information redondante synthétisée par la PC1. Figure 15 : Visualisation de l’ACP dans le cas d’une réduction de dimension de 3 à 2 composantes. Gauche : Représentation initiale du nuage de points. Droite : Nuage de points projeté dans l’espace des deux premières composantes principales, et cercle de participation des dimensions initiales à ces dernières. Cas de plus de dimensions L’ACP est généralement appliquée à des cas plus complexes pour lesquels les patients sont décrits par un plus grand nombre n de paramètres. On définit alors n nouvelles composantes, nommées PC1 à PCn, toute perpendiculaires les unes aux autres. Elles sont organisées de sorte à ce que les points soient le plus dispersés possible le long de la PC1, puis le long de la PC2, et ainsi de suite jusque’à la PCn, qui explique le moins de variance. Dans ces cas complexes, l’ACP permet donc de grandement simplifier l’information, par exemple en ne conservant que les deux premières PCs pour pouvoir facilement visualiser les données sur un plan. De manière plus générale, la réduction de dimension facilite l’interprétation des données et aide à en tirer des conclusions. De plus, comme pour le cas à trois dimensions, on peut déterminer quels paramètres initiaux sont le plus impliqués dans la constructions des premières PCs et sont donc les plus intéressants pour l’étude. Enfin, on peut déterminer quelles corrélations existent entre les différents paramètres de départ : des paramètres participant fortement à la même PC sont corrélés, alors qu’à l’inverse deux paramètres qui ne contribuent jamais à la même PC ne le sont pas.

DÉTAILS MATHÉMATIQUES DE L’ACP

On définit un dataset constitué de n individus, décrits par p variables numériques, que l’on représente par une matrice X de taille . Dans cette matrice, la i ème colonne correspond au vecteur des observations de la variable i. L’ACP doit déterminer quelle combinaison linéaire des est associée au maximum de variance, c’est-à-dire trouver tel que soit maximal, avec et . Dans un tel cas, on a , où C est la matrice de variance covariance de X. Pour s’assurer que ce problème de maximisation ait une solution, il faut ajouter une condition sur a. La condition la plus simple est d’imposer que . Alors . On peut alors utiliser la méthode du multiplicateur de Lagrange pour trouver le maximum (Astaiza-Gómez 2020). On définit L le lagrangien tel que . Si a est un maximum de avec , alors il existe tel que L admette une différentielle nulle en . En particulier, pour tout : Or correspond à la i ème ligne de C. Ces contraintes sont donc équivalentes à : est donc un vecteur propre de C, et la valeur propre associée. De plus : . Le maximum est donc atteint lorsque est la plus grande valeur propre de C. Ainsi, la projection associée au maximum de variance correspond au vecteur propre de la matrice de variance covariance associé à la plus grande valeur propre de cette dernière. C’est la première composante principale (Jolliffe 2016). Les composantes suivantes sont obtenues de manières similaires en tant que vecteurs propres associés aux valeurs propres suivantes de la matrice de variance-covariance. La trace de la matrice de variance covariance est égale à la somme des variances de tous les paramètres initiaux. Or elle est aussi égale à la somme de ses valeurs propres, donc à la somme des variances de la projection du nuage de point dans chaque composante principale. Grâce à cette n × p xi xi a var(Xa) a = a1, a2, . . . , ap Xa = p ∑ i=1 aixi var(Xa) = aTCa ∥a∥ = 1 aT a = 1 L(x, λ) = xTCx − λ(xT x − 1) var(Xa) ∥a∥ = 1 λ0 (a, λ0) i ∈ {1,…,p} ∂L ∂ui = 2 ∂aT ∂ui Ca = 2λ0ai ∂aT ∂ui C Ca = λ0a a λ0 var(Xa) = aTCa = λ0aT a = λ0∥a∥ = λ0 λ0 77 propriété, il est possible de savoir quelle proportion de la variance totale est expliquée par chaque composante. Si l’on note la proportion de variance expliquée par la composante i, alors on a : Où sont les valeurs propres de la matrice de variance covariance de X, organisées en ordre décroissant.

L’algorithme de clustering k-means

Au cours de ma thèse, j’ai été amené à séparer des échantillons en plusieurs groupes avec des caractéristiques similaires. Pour cela, j’ai utilisé la méthode dite de k-means clustering. Nos échantillons peuvent être représentés par des points dans un espace de dimension k (par exemple le nombre de caractéristiques prises en compte dans nos échantillons). On définit dans un premier temps un nombre fixe de centroïdes, des points placés aléatoirement dans cet espace. Un processus itératif débute alors : – Chaque échantillon est associé au centroïde dont il est le plus proche – La position des centroïdes est recalculée comme étant la position moyenne des échantillons qui lui sont reliés Ces deux étapes se répètent jusqu’à convergence (i.e les centroïdes ne se déplacent quasiment plus). Les échantillons reliés au même centroïde sont alors considérés comme appartenant au même cluster.

Tests statistiques utilisés

Si les tests statistiques utilisés en biologie pour comparer des résultats entre deux groupes sont le plus souvent des tests T de Student (éventuellement appariés si les échantillons comparés proviennent des mêmes individus, mais sont prélevés à des instants différents), ces derniers présentent deux limitations majeures. D’une part, une hypothèse forte est la normalité de la distribution des données étudiées. Or il m’est arrivé de travailler avec des données ne respectant pas cette condition. D’autre part, lorsque de nombreux tests sont réalisés sur les mêmes échantillons, ils qi qi = λi ∑p j=1 λj {λ1, . . . , λp} 78 est attendu que certains d’entre eux témoignent d’une différence significative en réalité inexistante. Afin de prendre en compte ce biais, il est nécessaire de réaliser une correction pour tests multiples.

CAS OÙ L’HYPOTHÈSE DE NORMALITÉ N’EST PAS VÉRIFIÉE

Dans les cas où l’hypothèse de normalité n’était pas vérifiée, le test qui a été employé est celui dit des rangs signés de Wilcoxon. Il s’agit d’une alternative non paramétrique au test de Student pour des échantillons appariés. L’hypothèse nulle est l’égalité des médianes entre les deux groupes. On mesure pour chaque sujet de l’étude la différence entre la première et la deuxième mesure, puis les patients sont ordonnés par ordre croissant de la valeur absolue de cette différence, associant ainsi un rang à chaque patient. De même, à chaque patient est associé un signe, selon que la différence est négative ou positive. Les rangs sont ainsi « signés ». Ces rangs signés sont sommés, et l’hypothèse nulle est rejetée si la somme est trop éloignée de zéro. Ce test se basant sur les rangs, il peut être employé sans vérification des conditions de normalité.

CAS DE TESTS MULTIPLES

On utilise généralement 0.05 comme limite à un test statistique pour déterminer si une différence est significative où non. Cela signifie que l’on accepte un taux d’erreur de 5%. Ainsi, pour 100 tests statistiques différents réalisés à partir des mêmes échantillons et significatifs, en moyenne 5 sont en réalité des faux positifs. Des corrections pour tests multiples doivent ainsi être appliquées afin de limiter au maximum ces erreurs. Ici sera décrite la correction de Benjamini-Hochberg, utilisée dans ce manuscrit, mais d’autres méthodes existent, notamment basées sur des permutations multiples du jeu de données initial. La procédure de Benjamini-Hochberg consiste dans un premier temps à ordonner les différents tests réalisés par ordre croissant de p-values, et ainsi à leur associer un rang j. En notant nbp le nombre de tests réalisés au total, les p-values de chaque test sont alors modifiées par la formule suivante : On appellera en général q-value cette p-value ainsi modifiée, qui prend en compte la multiplicité des tests effectués, et on appliquera la même limite de 0.05 à partir de cette q-value pour définir si un test est effectivement significatif. pBen jaminiHochberg = min(p * nbp/j,1).

Table des matières

I. Introduction
1. La mucoviscidose
1.1 Population touchée
1.2 Diagnostic de la maladie
1.3 Symptômes
1.3.1 Symptômes pulmonaires et respiratoires
1.3.2 Symptômes pancréatiques
1.3.3 Symptômes intestinaux
1.3.4 Symptômes du foie
1.3.5 Symptômes génitaux
1.3.6 Symptômes de la peau
1.3.7 Autres Symptômes
2. CFTR
2.1 Le gène CFTR
2.2 La protéine CFTR
2.3 Biogénèse de CFTR
2.4 Les classes de mutation
2.4.1 Classe I : Mutation menant à l’absence de synthèse de la protéine malgré la production d’ARNm
2.4.2 Classe II : Mutation affectant la maturation de la protéine CFTR
2.4.3 Classe III : Mutation entraînant un défaut de la fonction canal chlorure de CFTR
2.4.4 Classe IV : Mutation limitant la conductance du canal chlorure de CFTR
2.4.5 Classe V : Mutation limitant la production de la protéine CFTR
2.4.6 Classe VI : Mutation menant à une protéine CFTR instable à la membrane
2.4.7 Classe VII : Mutation menant à l’absence de production d’ARNm
3. Traitement par modulateurs
3.1 Mesures en clinique pour évaluer l’effet des traitements
3.2 Historique du développement des traitements par modulateurs
3.2.1 Ivacaftor
3.2.2 Lumacaftor
3.2.3 Tézacaftor
3.2.4 Elexacaftor
3.3 L’essor des combothérapies
3.3.1 Lumacaftor/Ivacaftor (Orkambi)
3.3.2 Tezacaftor/Ivacaftor (Symkevi)
3.3.3 Triple combinaison VX-770/VX-661/VX-445 (TRIKAFTA)
3.3.4 Développement d’autres modulateurs
3.4 Nouveaux défis pour la détection de bénéfices cliniques
3.5 La recherche d’un score de réponse aux traitements
4. Approches omiques et intérêt dans la mucoviscidose
4.1 L’analyse protéomique
4.1.1 L’analyse Bottom-up
4.1.2 Protéomique dans la mucoviscidose
4.2 L’analyse transcriptomique
4.2.1 Réalisation pratique
4.2.2 Transcriptomique dans la mucoviscidose
5. Méthodes et algorithmes employés
5.1 L’Analyse en Composantes Principales
5.1.1 Explication pour les non mathématiciens
5.1.2 Détails mathématiques de l’ACP
5.2 L’algorithme de clustering k-means
5.3 Tests statistiques utilisés
5.3.1 Cas où l’hypothèse de normalité n’est pas vérifiée
5.3.2 Cas de tests multiples
II. Objectifs de la thèse
1. Peut-on caractériser l’hétérogénéité de la réponse clinique aux modulateurs de CFTR ?
2. Peut-on mieux comprendre le mécanisme d’action des modulateurs de CFTR à travers l’étude de la sueur ?
3. Peut-on mieux comprendre le mécanisme d’action des modulateurs de CFTR à travers l’étude de cellules épithéliales respiratoire ?
4. Quels outils utiliser lorsqu’une analyse gène par gène est insuffisante ?
III. Résultats
1. Analyse de la réponse clinique aux traitements par modulateurs de CFTR
1.1 Introduction
1.2 Matériels et méthodes
1.2.1 DESCRIPTION DES DONNEES
1.2.2 UTILISATION DE L’ACP
1.2.3 GROUPEMENT DES PATIENTS
1.2.4 ANALYSES STATISTIQUES
1.2.5 IMPUTATION DES VALEURS MANQUANTES
1.3 Résultats
1.3.1 CARACTERISTIQUES DE LA COHORTE
1.3.2 ANALYSE DES DONNEES DES PATIENTS AGES DE 12 A 18 ANS
1.3.3 ANALYSE DES DONNEES DES PATIENTS AGES DE 6 A 12 ANS
1.4 Discussion des résultats
1.5 Conclusion de l’étude
2. Analyse protéomique de la sueur de patients
2.1 Introduction
2.2 Matériels et méthodes
2.2.1 CARACTERISATION DES PATIENTS
2.2.2 PREPARATION DES ECHANTILLONS EN VUE D’UNE ANALYSE PAR
SPECTROMETRIE DE MASSE
2.2.3 ANALYSE CHROMATOGRAPHIE/SPECTROMETRIE DE MASSE
2.2.4 ANALYSE DES DONNEES
2.3 Résultats
2.4 Discussion de l’étude
2.5 Cas de l’analyse de la trithérapie
2.6 Conclusion
3. Analyse multi-omique de cellules primaire de patients, évaluation
des effets de traitements par modulateurs
3.1 Introduction
3.2 Matériels et méthodes
3.2.1 PATIENTS DE L’ETUDE
3.2.2 CULTURE CELLULAIRE
3.2.3 ANALYSE RNA-seq
3.2.4 ANALYSE PROTEOMIQUE
3.2.5 ANALYSE INFORMATIQUE
3.3 Résultats
3.4 Discussion
3.5 Conclusion
4. rRoma, un algorithme pour l’étude de groupement des gènes lors d’analyses omiques
4.1 Introduction
4.2 Méthodes
4.2.1 UTILISATION DE L’ACP
4.2.2 PRETRAITEMENT DES DONNEES POUR RROMA
4.2.3 ORIENTATION DES COMPOSANTES
4.2.4 RETRAIT DES ECHANTILLONS « ANORMAUX »
4.2.5 SUPPRESSION DES VALEURS ABERRANTES
4.2.6 INTERPRETATION DES RESULTATS
4.2.7 OPTIMISATION DU CALCUL DES DISTRIBUTIONS NULLES
4.3 Application pratique
4.4 Conclusion
Discussion générale