Inférence des interactions entre processus évolutifs

Inférence des interactions entre processus évolutifs

Motivation à développer une nouvelle méthode

Cette section aurait aussi pu ˆetre titrée “Un bref historique de mon doctorat”, tant la construction des outils et méthodes présentés les parties suivante de cette thèse ont évolué et été construits progressivement, en mˆeme temps que sa problématique s’a

La première question

Notre question initiale, au début de cette thèse, était motivée principalement par la considération de deux des exemples cités au cours de cette introduction, les Compensated Pathogenous Deviations et le travail de Dan Weinreich sur les paysages adaptatifs. Au vu de ces exemples, il paraˆıt clair qu’il existe des mécanismes qui contraignent su

La temporalité, chronologie des évènements

Cet outil devait donc ˆetre à mˆeme de discriminer les paires de mutations qui se suivent dans le temps, en autorisant des délais plus ou moins longs, et de fa¸con eNous avons discrétisé notre méthode selon les branches de l’arbre pour se contenter de la résolution “à la branche près”. Ainsi, pour chaque mutation, la position est définie parmi les branches de l’arbre, en laissant de cˆoté la position exacte sur la branche (ou arˆete), ce qui laisse autant de choix que l’arbre a de branches, et non plus une infinité. On voit bien ici le gain en terme de calculs, de mˆeme que l’analogie avec le travail de Julien Dutheil détaillé plus haut. Nous avons aussi pu introduire la notion de temporalité, en distinguant les paires d’évènements ayant lieu sur les mˆemes branches que nous appelons coocurrences, et celles ayant lieu sur des branches distinctes d’une mˆeme lignée que nous nommons chronologies. Cette distinction sur les paires d’évènements est certes largement dépendante de la résolution de l’arbre, et en particulier des longueurs de branches, mais elle permet de facilement abstraire le problème qui nous intéresse et de développer des statistiques

Allons plus loin dans l’abstraction

Nous avons donc décidé de distinguer les cooccurrences des chronologies, qui dépendent de la topologie de l’arbre. L’enjeu est donc de coder la topologie de l’arbre en question – ainsi que ses longueurs de branches – et la position des mutations dans cet arbre, pour pouvoir, à partir de ce formalisme “bas niveau”, développer des statistiques pour estimer la dépendance entre les processus évolutifs sous-jacents à notre problème. Une conséquence directe de ce formalisme est qu’il nous ouvre la porte à des problèmes bien plus larges que ceux abordés initialement. En e↵et, puisque les mutations placées sur l’arbre phylogénétique sont formalisées comme des entiers dans un vecteur, pourquoi se cantonner seulement à ce type d’évènement évolutif ? En pratique, il est strictement équivalent de traiter ainsi des mutations sur une séquence ou le gain ou la perte d’un caractère ou d’une fonction biologique. Plus généralement, ce formalisme nous permet de traiter n’importe quel type d’évènement évolutif, dans la mesure o`u il est discret et o`u ses diverses occurrences peuvent ˆetre replacées sur les branches d’un arbre phylogénétique. Nous dirons donc que nous travaillons non plus sur l’ordre des mutations, mais plus généralement sur des évènements évolutifs

De la construction de statistiques

Evidemment la construction d’un tel formalisme et des statistiques associées n’est pas immédiate, ´ nous avons dˆu tˆatonner avant de pouvoir conclure sur une théorie rigoureuse. La base sur laquelle nous nous sommes appuyés au départ est somme toute assez classique, il s’agit d’étudier des expressions de la forme attendu des z

Méthode non-paramétrique

Introduction et résumé des résultats

Dans ce premier article, nous exposons une méthode non-paramétrique de détection de la coévolution. Les données traitées par cette méthode sont un arbre phylogénétique ainsi que les positions des occurrences de deux évènements évolutifs sur celui-ci. Les évènements en question peuvent donc ˆetre de natures très variées, tant qu’ils sont ponctuels et que l’on peut replacer leurs occurrences sur une phylogénie. Ainsi, nous pouvons appliquer cette méthode à des mutations sur des sites particuliers d’un génome, mais aussi au gain/perte d’un gène ou mˆeme d’une fonction biologique. Pour une paire d’occurrences de chacun des deux évènements considérés, on dira qu’elle forme une cooccurrence si ces elles sont sur une mˆeme branche de l’arbre, et une chronologie si elles sont situées sur deux branches distinctes d’une mˆeme lignée (i.e. d’une mˆeme suite de branches allant de la racine de l’arbre à une de ses branches terminales). La notion de cooccurrences décrit les interactions fortes, puisque les évènements en questions sont proches dans le temps, mais ne permet pas de les ordonner. A contrario, la notion de chronologie décrit des interactions a priori plus modérée, mais pour lesquels nous connaissons l’ordre entre les évènements, puisqu’ils sont situés sur des branches distinctes. D’un point de vue technique, cette méthode traduit la position relative des branches de l’arbre dans di↵érentes matrices S et Id. Nous définissons aussi le vecteur des longueurs de branches et, pour chaque évènement Ei, le vecteur ei décrivant les positions de ses occurrences sur les branches de l’arbre. Ainsi, tout le système considéré est décrit dans un formalisme matriciel, qui nous permet, pour deux évènements évolutifs, d’une part de compter le nombre de cooccurrences (resp. de chronologies) qu’ils forment à l’aide de la formule générale eT 1 Me2, qui a pour valeur le nombre de cooccurrences dans lesquels la paire (E1; E2) est impliquée si M = Id (la matrice identité), et le nombre de chronologies si M = S. Cette mˆeme formule permet aussi de compter à la fois les cooccurrences et les chronologies si M = S + Id. Par la suite, ce formalisme permet de calculer les moments exactes de ces comptages (espérance, variance) sous une hypothèse d’indépendance H0. Sous cette mˆeme hypothèse, nous pouvons calculer analytiquement une p-value associée à ce comptage. Ceci nous permet de rejeter ou non l’hypothèse H0, avec un seuil de confiance a priori (typiquement, 95%). Nous avons testé avec des résultats satisfaisants cette méthode sur des données simulées grˆace à un modèle de coévolution que nous avons développé, et établi des courbes de puissance nous donnant un bon aper¸cu des forces et des limites de la méthode. Enfin, nous avons testé la méthode sur un exemple biologique, en étudiant le lien qui pouvait exister entre (i) la perte du flagelle chez certaines souches d’Escherichia coli et (ii) le passage dans un milieu de vie intracellulaire. Nous avons montré que l’intracellularité précède probablement la perte du flagelle. Cet article a été accepté par Systematic Biology le 21 Janvier 2016.

Table des matières

Liste des abréviations
Table des figures
Remerciements
Avant propos : le bio-*-ticien, une histoire de modèles
I Introduction
1 L’Evolution
1.1 Un bref historique de la théorie de l’évolution
1.2 Les grandes idées modernes
1.2.1 Transformisme
1.2.2 Sélection naturelle
1.2.3 Génétique des populations et Théorie Synthétique de l’Evolution
1.2.4 Biologie moléculaire et Théorie Neutraliste de l’Evolution
2 La Coévolution
2.1 Interactions à l’échelle de l’individu et de l’espèce .
2.2 L’épistasie
2.2.1 L’exemple des Déviation Pathogènes Compensatoires
2.2.2 Di↵érents types d’épistasie
2.2.3 Les paysages adaptatifs
2.3 A l’échelle de l’ARN
2.4 A l’échelle de la protéine
2.5 Régulation génétique et facteurs de transcriptions .
3 Comment repérer et étudier la coévolution ?
3.1 Méthodes indépendantes de la reconstruction phylogénétique .
3.1.1 Tests statistiques
3.1.2 Théorie de l’information et entropie .
3.2 Vraisemblance
3.2.1 Eléments de définitions
3.2.2 Estimer numériquement le maximum
3.2.3 Echantillonner numériquement le paysage
3.3 Les phylogénies
3.3.1 Parcimonie
3.3.2 Clustering hiérarchique
3.3.3 Vraisemblance .
3.3.4 Replacer les mutations sur la phylogénie
3.4 Méthodes de détection de la coévolution basées sur la phylogénie
3.4.1 Une méthode non-paramétrique (Dutheil et al., 5)
3.4.2 Méthodes utilisant la vraisemblance
4 Motivation à développer une nouvelle méthode
4.1 La première question .
4.2 La temporalité, chronologie des évènements
4.3 Allons plus loin dans l’abstraction
4.4 De la construction de statistiques
II Résultats
5 Méthode non-paramétrique
5.1 Introduction et résumé des résultats
5.2 Article 1
6 Méthode paramétrique
6.1 Introduction et résumé des résultats
6.2 Article
7 Un pipeline pour détecter et expliquer la coévolution
Implémentation
III Discussion
8 Des données aux modèles
8.1 De l’intérˆet de se poser les bonnes questions
8.2 L’hypothèse H
9 Les biais
9.1 Les biais dus aux données brutes
9.2 Reconstruction des phylogénies
9.3 Reconstruction des états ancestraux
9.3.1 Parcimonie
9.3.2 Méthodes utilisant la vraisemblance
9.4 Biais dus à la méthode
9.4.1 Les sites monomorphes
9.4.2 Un nombre entier de mutations est nécessaire .
9.4.3 Les mutations multiples sur une mˆeme branche
9.4.4 Notre modèle de coévolution n’est pas état-dépendant
Conclusions biologiques
10.1 A quelles questions pouvons nous tenter de répondre ?
10.2 De l’intérˆet de bien doser l’information biologique
10.3 Deux manières complémentaires d’utiliser nos
méthodes
10.4 Correctement interpréter les résultats
Perspectives
11.1 Traiter des graphes qui ne sont pas des arbres
11.2 Enrichir le modèle de coévolution
11.2.1 Traiter plus d’une occurrence par branche
11.2.2 Décrire un modèle de coévolution état-dépendant
11.3 Mieux comprendre les di↵érentes méthodes