Épidémiologie mathématique des maladies infectieuses

Télécharger le fichier original (Mémoire de fin d’études)

Phylogénies des infections

Terminologie

Une phylogénie ou arbre phylogénétique est un objet qui représente les liens de parenté entre des entités telles que des espèces, des populations, des individus ou des gènes (?). Dans une phylogénie, les nœuds internes représentent les ancêtres hypothé-tiques inférés des entités qui sont représentées par des nœuds externes, ou « feuilles ». Dans les phylogénies enracinées, le nœud qui représente l’ancêtre hypothétique de l’ensemble des entités est appelé « racine ». Les relations de parenté sont matériali-sées par les branches qui lient les nœuds. La structure des branchements définit la topologie de l’arbre. Un groupe monophylétique ou clade ou cluster comprend tous les descendants d’un ancêtre hypothétique et l’ancêtre lui-même.
Un nœud ne met pas toujours en relation trois liens. En eﬀet, certaines feuilles peuvent être connectées à plus de trois liens auquel cas nous parlerons de « multi-furcations » par opposition aux bifurcations classiques. Ces multifurcations peuvent provenir de deux causes. La première est due à la méthodologie. Certains jeux de données ou certaines méthodes ne parviennent pas à départager les diﬀérentes hypo-thèses de parenté possibles. Dans ce cas, les relations ne sont pas résolues et cette irrésolution est représentée par une multifurcation. La deuxième raison est biologique et provient d’une irrésolution temporelle. Si un groupe d’entités ancestral se diversifie très rapidement, il est possible que celui-ci soit divisé en plus de deux ensembles.

Liens avec les chaînes de transmission

L’avènement des techniques de séquençage de nouvelle génération a conduit à la génération en grande quantité de données génétiques presque en temps réel. ? ont pu générer 142 séquences génomiques du virus ébola via l’emploi d’un séquenceur portable et ce malgré la crise sanitaire en Guinée. Un exemple plus récent est celui de la génération et la disponibilité de données de séquences de génomes, en masse, du virus SARS-CoV-2 depuis le début de l’épidémie. L’abondance des données de séquences de micro-organismes associée à leur évo-lution rapide, en particulier des virus à ARN, a conduit à l’émergence de phylogénies d’infections qui sont construites à partir de séquences récoltées chez diﬀérents pa-tients sur de courtes échelles de temps épidémiologiques. Leurs feuilles représentent des infections, et non pas des espèces comme dans les arbres phylogénétiques clas-siques. Ainsi, ces phylogénies d’infections permettent de mettre en évidence des liens entre diﬀérentes infections par un pathogène, liens qui reflètent des chaînes de trans-mission entre individus. Un exemple célèbre est l’utilisation, dans un cadre médico-légal, d’une phylogénie du VIH confirmant des contaminations provenant d’un den-tiste (?).
Les phylogénies d’infections, comme toutes les phylogénies, sont construites à partir d’alignement de séquences par diverses approches d’inférence statistique, sous des hypothèses telles que celles faites sur le modèle d’évolution des séquences et la topologie de l’arbre. Les séquences sont généralement datées, permettant par exemple de dater l’origine d’une épidémie.

Alignement des séquences

Lorsque l’on construit une phylogénie à partir de séquences, on fait l’hypothèse que celles-ci sont homologues, c’est-à-dire qu’elles partagent un ancêtre commun. L’alignement consiste à identifier, pour chaque séquence, les caractères (nucléotides ou acides aminés) homologues et à les positionner en regard. L’alignement de sé-quences est une étape clé pour toutes les approches d’inférence phylogénétique.
La Figure 1.3 illustre un alignement réalisé à partir de trois séquences nucléo-tidiques de longueur diﬀérente. Un alignement optimal arrange deux séquences ou plus de manière à ce qu’un nombre maximal de caractères, des nucléotides ou des acides aminés, identiques ou similaires soient mis en correspondance en colonne. Une colonne d’un alignement est appelée « site ». Ce processus de réarrangement peut se faire par l’introduction d’un ou plusieurs espaces, appelés gaps, représentés par des tirets dans l’alignement. Un gap indique une perte ou un gain possible d’un carac-tère. Ainsi, les alignements de séquences peuvent mettre en évidence des événements d’insertion ou de délétion évolutive, regroupés dans le terme indels. L’introduction des gaps dans un alignement doit être faite avec parcimonie. Un bon alignement contient le moins d’événements de mutation possibles, pondérés selon l’événement mutationnel (substitution, insertion, délétion, prolongation des gaps, etc.). Notons qu’une substitution désigne une mutation, événement lié aux processus biochimiques, qui s’est fixée dans le génome et donc dans la population.
Le nombre d’alignements possibles est important et tous ne sont pas de qualité équivalente. Le meilleur alignement peut être identifié à l’aide d’une fonction de score. Dans la notation nucléotidique, les paires de nucléotides identiques se voient attribuer un score positif et les gaps, des scores négatifs, selon une matrice de substitution et un modèle de pénalité associée aux gaps.
FIGURE 1.3 – Exemple d’un alignement possible (à droite) réalisé à partir de trois séquences de longueurs diﬀérentes (à gauche). Exemple extrait de ?.
Il existe deux types d’alignements : l’alignement de séquences par paires, qui ne considère que deux séquences à la fois, et l’alignement de séquences multiples, qui aligne l’ensemble des séquences simultanément. Les méthodes d’alignement par paires sont les plus simples à mettre en œuvre et sont en général utilisées pour rechercher une homologie entre une séquence test et une séquence de référence, souvent extraite d’une base de données. L’alignement multiple est plus avantageux car il prend en compte plusieurs membres d’une famille de séquences et fournit ainsi plus d’infor-mations biologiques. Ce type d’alignement est également un préalable aux analyses génomiques comparatives pour l’identification et la quantification de régions conser-vées ou de motifs fonctionnels au sein d’une famille de séquences, ainsi que pour l’estimation de la divergence évolutive entre séquences.
Pour l’alignement par paires, la programmation dynamique fournit toujours l’ali-gnement optimal (c’est-à-dire celui qui a le meilleur score) en notant toutes les paires possibles de caractères alignés et en pénalisant les gaps. Cependant, cette méthode étant coûteuse en termes de calcul et de mémoire, elle est rarement utilisée pour plus de quelques séquences. La plupart des approches d’alignement multiple sont donc heuristiques, fournissant une solution d’alignement réalisable dans un laps de temps court et limité. Ces méthodes sont implémentées dans de nombreux logiciels dont les plus connus sont CLUSTAL (??), T-Coﬀee (?), MUSCLE (?) ou encore MAFFT (??). Ces deux derniers logiciels sont les plus précis et les plus rapides. Ils sont donc plébiscités pour aligner des gros jeux de données de séquences.
Cependant, ces approches d’alignement de séquences présentent certaines limites. La première est qu’elles supposent que les séquences sont colinéaires, c’est-à-dire qu’elles conservent un ordre ancestral commun d’éléments, que ce soient des nucléo-tides, des acides aminés ou des gènes, selon les séquences comparées. Cette colinéa-rité n’est pourtant pas toujours observée, notamment au sein des génomes viraux qui présentent une grande variation dans le nombre et l’ordre des éléments géné-tiques en raison de leurs taux de mutation élevés, des événements de recombinaison génétique fréquents, des transferts horizontaux de gènes, des duplications de gènes et des gains/pertes de gènes (?). Un autre exemple se présente au sein des génomes bactériens où l’ordre des gènes a tendance à être moins conservé. Une autre limite est qu’un alignement de séquences dépend d’hypothèses concernant l’évolution des séquences via les matrices de substitution et le modèle de pénalisation de gap. Les paramètres associés à ces hypothèses sont relativement arbitraires dans le sens où chaque méthode a une fonction de score spécifique et un faible changement de ces paramètres peut aﬀecter l’alignement (?). Enfin, une des limites de ces méthodes d’alignement basées sur des approches heuristiques est qu’elles sont approximatives et ne garantissent donc pas l’identification de l’alignement optimal avec le score le plus élevé. Cela peut entraîner des inexactitudes qui peuvent limiter la qualité de nombreuses analyses en aval, telle que la phylogénétique.
Une solution relativement récente, qui s’aﬀranchit de ces limites, consiste à uti-liser des approches de comparaison de séquences sans alignement (?). Celles-ci sont nombreuses et calculent des mesures de dissimilarité ou de distances, par paires, entre séquences. Parmi ces méthodes, se trouvent celles basées sur le calcul de dis-tance, comme la distance Euclidienne, entre fréquences de mots ou sous-séquences de longueur k (ou k-mer) des séquences comparées par paires. Cette distance repré-sente une bonne mesure de la dissimilarité entre séquences et est ensuite enregistrée dans une matrice de distance qui peut par la suite être utilisée pour reconstruire une phylogénie (?).
La plupart des articles publiés impliquant les méthodes de comparaison de sé-quences sans alignement sont encore principalement techniques, explorant leurs fon-dements mathématiques et leurs performances théoriques par rapport aux approches basées sur l’alignement. Ils reposent très souvent sur des données simulées. De plus, les méthodes sans alignement publiées ne sont pas toujours implémentées dans des lo-giciels dédiés et ne peuvent donc pas être facilement être comparées sur des ensembles de données communs. Par conséquent, il est encore relativement délicat d’indiquer si une méthode sans alignement pourrait être particulièrement adaptée à une certaine analyse.

Inférence phylogénétique

Il existe de nombreuses méthodes d’inférence phylogénétique. Nous présentons ici les méthodes probabilistes basées sur le concept de vraisemblance, qui mettent en jeu la méthode du maximum de vraisemblance et une approche bayésienne. Ces méthodes reposent sur un modèle dont les composantes sont la topologie, qui correspond à l’ordre des branchements, les longueurs de branches associées à la topologie, qui correspond au nombre de substitutions accumulées au cours de l’évolution, et les paramètres du modèle d’évolution des séquences.
Modèles d’évolution des séquences
Les modèles d’évolution permettent de calculer les probabilités des substitutions observées entre les séquences. Ces modèles font l’hypothèse que les processus de sub-stitution sont Markoviens, c’est-à-dire que la probabilité de changement d’un état de caractère i à un état de caractère j dépend uniquement de l’état i. Ils s’appuient aussi sur l’hypothèse que les positions dans le génome, ou sites, évoluent indépendamment les uns des autres.
Le modèle de substitution pionnier et le plus simple est le modèle JC69 proposé par ? qui émet l’hypothèse que les fréquences en nucléotides A, C, G et T sont égales et que les taux de changement d’un nucléotide vers un autre sont identiques. Ce modèle n’a donc qu’un paramètre. De nombreux modèles ont par la suite été introduits pour augmenter le niveau de réalisme, ajoutant ainsi de nouveaux para-mètres. Par exemple, le modèle K2P (?) incorpore deux types de substitutions, les transitions (changement d’un nucléotide d’une famille vers un nucléotide de la même famille ; A ↔ G pour les purines et C ↔ T pour les pyrimidines) et les transversions (changement d’un nucléotide d’une famille vers un nucléotide d’une autre famille). Il introduit pour cela un nouveau paramètre qui correspond au rapport des transitions et des transversions. Lorsque ce ratio est élevé, les transitions sont plus probables que les transversions. Le modèle HKY85 (?), lui, suppose trois types de substitutions (2 classes de transitions et 1 classe de transversions) et des fréquences nucléotidiques inégales. Le modèle le plus général est le modèle GTR (pour General Time Rever-sible) aussi appelé REV (pour Reversible) (?). Il considère que le changement d’un nucléotide i vers un nucléotide j est égal au changement d’un nucléotide j vers un nucléotide i et introduit six taux de substitution ainsi que des fréquences propres à chaque nucléotide. Cependant, ces modèles font l’hypothèse que les taux de substitution sont les mêmes pour tous les sites et ne varient pas dans le temps. Cette hétérogénéité des vitesses d’évolution relatives entre sites a été modélisée par une distribution gamma ( ) de paramètre de forme α, avec α > 0 (?). Plus α est faible, plus l’hétérogénéité d’un site à l’autre est élevée.
Les méthodes probabilistes sont dépendantes du modèle d’évolution sous-jacent. Il est donc important de choisir des modèles qui s’ajustent le mieux aux données analysées. Des tests statistiques tels que le rapport des vraisemblances (LRT pour Likelihood Ratio Test ) et le critère d’information d’Akaike (AIC pour Akaide Infor-mation Criterion) sont utilisés pour comparer les diﬀérents modèles. Des programmes de sélection de modèles ont été développés tels que jModelTest (?) ou SMS (?).
Inférence phylogénétique par maximum de vraisemblance
L’application de la méthode du maximum de vraisemblance en phylogénétique a été introduite par ? dans les années 1960 et développée par ?.
Appliquée en phylogénétique, la fonction de vraisemblance est la probabilité conditionnelle d’observer des données X, ici un alignement de séquences, étant donné un modèle M décrit par la topologie d’un arbre τ , des longueurs de branches ν et les paramètres θ d’un modèle décrivant l’évolution des séquences le long des branches de l’arbre. On la note L(τ, ν, θ) = P r(X|τ, ν, θ) (1.11)
L’inférence phylogénétique par maximum de vraisemblance consiste à trouver les estimateurs τ ∗, ν∗ et θ∗ qui maximisent la fonction de vraisemblance, c’est-à-dire (τ ∗, ν∗, θ∗) = argmaxτ,ν,θL(τ, ν, θ) (1.12)
Une recherche exhaustive explorant toutes les combinaisons des arbres possibles implique de calculer la fonction de vraisemblance pour chacun d’entre eux, ce qui devient rapidement très coûteux en temps de calcul. En eﬀet, pour n nombre de sé-quences représentées par des feuilles, le nombre de phylogénies possibles est 2N−2 (n−2) avec n ≥ 2. Ainsi, pour 10 individus ou feuilles, il existe plus de 34 millions de topo-logies possibles. Diverses méthodes de recherches heuristiques ont été proposées afin de contrer ce problème. Ces méthodes considèrent d’abord un arbre aléatoire comme point de départ, arbre calculé par des méthodes de parcimonie ou de distance qui sont de moins bonne qualité que les méthodes de vraisemblance mais plus rapides. Puis, à partir de cet arbre, ces méthodes essaient de l’améliorer en explorant le voisinage de cet arbre jusqu’à obtenir le meilleur arbre. L’approche heuristique permet ainsi d’inférer, en un temps raisonnable, un arbre satisfaisant mais sans avoir la possibilité de savoir si celui-ci est optimal. Ces méthodes sont implémentées dans des logiciels tels que PhyML (?), IQ-TREE (?), RAxML (?) et FastTree (?). Ce dernier est le plus rapide notamment pour des phylogénies de grande taille mais présente de moins bon résultats d’inférence que les trois autres outils (??).
Inférence phylogénétique bayésienne
L’approche bayésienne a été appliquée en phylogénétique à partir des années 1990 (?). Dans le cadre de l’inférence phylogénétique, en reprenant les notations précé-dentes, la distribution a posteriori P (τ, ν, θ|X) des paramètres sachant les données observées X (ici un alignement de séquences) peut s’écrire : P (τ, ν, θ|X) = P (X|τ, ν, θ) P (τ, ν, θ) (1.13) où P (τ, ν, θ) constitue la distribution a priori à définir au préalable des paramètres relatifs à la topologie de l’arbre, aux longueurs de branches et au modèle d’évolution des séquences. P (X|τ, ν, θ) est la fonction de vraisemblance et P (X) la probabilité des données.
L’inférence bayésienne cherche à estimer une distribution de probabilité a poste-riori sur l’ensemble des arbres possibles, par opposition à la méthode par maximum de vraisemblance qui cherche à trouver un arbre, le plus vraisemblable. Lorsque les données et/ou la distribution a priori sont informatives, la distribution des probabili-tés a posteriori est généralement concentrée sur un arbre (ou un petit sous-ensemble d’arbres dans un grand espace d’arbres). Dans les autres cas, la probabilité a pos-teriori peut vite se retrouver répartie sur un très grand nombre d’arbres. Il faut alors estimer la distribution a posteriori à l’aide de l’échantillonnage de Monte Carlo par chaînes de Markov. La méthode la plus couramment utilisée est l’algorithme de Metropolis-Hastings (??). L’algorithme se base sur la construction d’une chaîne de Markov dont chaque pas implique une modification aléatoire de la topologie, des longueurs de branches et des paramètres d’évolution des séquences.
Ces approches sont implémentées dans les logiciels MrBAYES (?), BEAST (?) et BEAST2 (?). Ces deux derniers logiciels sont souvent utilisés dans l’analyse de données de séquences de pathogènes.

Calibration temporelle

Dans le milieu des années 1960, ? ont émis l’hypothèse que le taux d’évolution d’une protéine donnée est constant dans le temps. Ainsi, la distance génétique, c’est-à-dire le nombre de substitutions, entre séquences provenant d’espèces diﬀérentes peut être convertie en temps de divergence entre ces espèces. Cette hypothèse de l’existence d’une « horloge moléculaire » a donné naissance à la datation moléculaire qui permet d’estimer le taux de substitution et la date de chaque ancêtre commun le plus récent (MRCA pour Most Recent Common Ancestor ) d’une phylogénie.
Les phylogénies d’infections présentent une diﬀérence majeure avec les phylogé-nies d’espèces classiquement utilisées en biologie. Ces dernières sont représentées par des arbres ultramétriques, c’est-à-dire que toutes les feuilles sont contemporaines. Des données fossiles peuvent alors être utilisées comme points de calibrations pour dater l’âge des diﬀérents nœuds internes, âges souvent exprimés en millions d’an-nées. Dans le cas des phylogénies d’infections, les séquences de génomes microbiens, en particulier ceux évoluant rapidement tels que les virus à ARN, accumulent gé-néralement des mutations sur des échelles de temps épidémiologiques se comptant en années voire en mois, de telle façon que les diﬀérences entre les dates d’échan-tillonnages ne sont plus du tout négligeables par rapport à la date de la racine de la phylogénie. Les arbres ne sont donc plus ultramétriques. Mais cela implique aussi que les dates d’échantillonnage peuvent être utilisées comme points de calibration.
Bien qu’il puisse y avoir un taux moyen d’évolution relativement constant sur des échelles de temps épidémiologiques, il peut y avoir une variation des taux d’évolution entre les lignées d’un arbre phylogénétique. Ne pas tenir compte de telles variations peut conduire à des inférences incorrectes des taux et des dates d’évolution. Pour pallier à cela, il existe des approches bayésiennes qui supposent un modèle dit d’hor-loge moléculaire relâchée (par opposition au modèle classique d’horloge moléculaire stricte) où les taux d’évolution varient d’une branche à l’autre de l’arbre phylogéné-tique (?).
Les approches de datation moléculaire basées sur ces deux modèles d’horloge moléculaire ont donné naissance à de nombreuses méthodes. Certaines méthodes sont basées sur le maximum de vraisemblance (méthode implémentée dans le logiciel TreeTime (?)), sur la datation par moindres carrées (logiciel LSD (?) et package R treedater (?)) ou sur l’inférence bayésienne (logiciels BEAST (?) et BEAST2 (?)). Les deux derniers outils, par opposition aux deux premiers cités, autorisent un modèle d’horloge moléculaire relâchée.
Cependant, avant d’utiliser un modèle d’horloge moléculaire pour calibrer un arbre dans le temps à partir de séquences hétérochrones, c’est-à-dire structuées dans le temps, il est conseillé de vérifier que les séquences étudiées contiennent bien un signal phylogénétique suﬃsant pour une estimation fiable. Autrement dit, il faut qu’il y ait suﬃsamment de variations génétiques entre les dates d’échantillonnage pour reconstruire un lien statistique entre la divergence génétique et le temps. En eﬀet, si la fenêtre d’échantillonnage n’est pas suﬃsamment large, ou si le taux d’évolution est trop faible, ou si les séquences génomiques ne sont pas suﬃsamment longues, il se peut que le nombre de substitutions soit trop limité. Dans un tel cas où le signal phylogénétique est trop limité, il est préférable de fixer la valeur du taux de substitution.
L’exploration du degré de signal phylogénétique peut être réalisé à l’aide d’une approche simple basée sur la régression linéaire entre les dates d’échantillonnage des feuilles et leurs distances à la racine mesurées en nombre de substitutions. Cette approche est implémentée dans le logiciel TempEst (?).
Une autre méthode d’exploration du signal est de construire diﬀérentes phylogé-nies à partir de jeux de données où les dates d’échantillonnage sont randomisées, afin de brouiller la structure temporelle, et d’estimer ensuite le taux de substitution. Si la diﬀérence entre le taux de substitution obtenu à partir de la phylogénie réelle et ceux obtenus à partir des phylogénies randomisées est significative alors il existe un signal phylogénétique (?).

Phylodynamique

L’utilisation des arbres phylogénétiques en épidémiologie moléculaire est apparue vers la fin des années 1990. Des chercheurs travaillant sur la phylogénétique d’agents pathogènes infectieux, comme le VIH, ont constaté que des variations de tailles de population des microbes aﬀectent la topologie et les longueurs de branches d’une phylogénie d’individus de ces populations permettant ainsi d’identifier des périodes de croissance ou de décroissance de la taille de ces populations (?). Puisque les phylogénies et les longueurs de branches peuvent être inférées à partir de séquences, on peut émettre l’hypothèse que les séquences peuvent contenir de l’information sur l’histoire démographique de populations de pathogènes (??).
L’étude simultanée des processus épidémiologiques, immunologiques et évolutifs d’un pathogène infectieux à travers les phylogénies est décrite comme la phylodyna-mique. Ce terme est apparu pour la première fois dans une revue de ?. Ce champ est en plein essor, notamment grâce au progrès des techniques de séquençage et des puissances de calcul permettant le développement de nouveaux modèles.
La plupart des méthodes d’inférence phylodynamique sont basées sur des mo-dèles de dynamique de populations tels que le modèle de coalescent ou le modèle de naissance et de mort et utilisent une approche d’inférence bayésienne reposant sur les chaînes MCMC. Les implémentations les plus populaires sont sans contestes celles dans les logiciels BEAST (?) et BEAST2 (?). Dans le contexte phylodynamique, la fonction de distribution a posteriori des paramètres de l’arbre phylogénétique T , des paramètres liés au modèle épidémiologique η et des paramètres liés au modèle d’évolution θ sachant les données D est (?) : f (T, η, θ|D) = f (D|T, θ) f (T |η) f (η, θ) (1.14) où f (D|T, θ) est la vraisemblance phylogénétique de l’équation 1.11, f (T |η) le modèle de transmission (modèle de coalescent ou modèle de naissance et de mort), f (η, θ) la distribution a priori et f (D) un terme de normalisation.

Méthodes basées sur la théorie du coalescent

Les premiers modèles appliqués à la phylodynamique se sont basés sur la théorie du coalescent de ?, qui décrit le lien entre généalogies et histoires démographiques de populations. Les généalogies, en génétique de populations, répondent à la question qui descend de qui ?, tandis que les phylogénies informent sur la proximité génétique entre entités. Le modèle de coalescent est une approximation du modèle de Wright-Fisher (??). Ce dernier représente l’évolution, à des pas de temps discrets, d’une population, où chaque individu « choisit » au hasard un parent de la génération précédente. Les hypothèses du modèle de Wright-Fisher sont que la population est finie et de taille constante, que la reproduction est un processus aléatoire et qu’aucun processus de sélection ou de recombinaison n’est autorisé. L’approximation additionnelle du modèle de coalescent est que la taille de la population est grande et que la taille de l’échantillon est beaucoup plus petite. Le modèle de coalescent décrit ainsi la dynamique d’une population en remontant dans le temps à travers des processus de fusion de branches, processus appelés coalescences. Des modèles ont par la suite été introduits décrivant des tailles de population selon des fonctions de croissance exponentielle ou logistique (???).
Les premières approches phylodynamiques basées sur les modèles de coalescent ont permis d’inférer des paramètres démographiques tels que la taille de population et les taux de migration à partir de généalogies. Ainsi, ? ont introduit une approche basée sur la construction graphique de l’accumulation de lignées d’une phylogénie datée au cours du temps (ou LTT pour Lineage Through Time) sous la forme d’une fonction constante par morceaux.
? ont eux introduit la méthode de Skyline Plot qui a posé les bases pour un calcul plus précis de la reconstruction de l’histoire démographique donnant naissance à une famille de méthodes dites de Skyline permettant d’estimer les variations de la taille de la population de pathogènes au cours du temps. Pour reconstruire l’histoire démogra-phique, ces méthodes supposent que la taille moyenne de la population pour chaque intervalle de coalescence peut être estimée par le produit de la taille de l’intervalle de coalescence γi, correspondant à la distance temporelle séparant des nœuds (internes ou externes), et de i(i − 2)/2 où i est le nombre de lignées dans l’intervalle. Des amé-liorations ont ensuite été implémentées pour inférer les paramètres démographiques par approche bayésienne utilisant les chaînes MCMC. Par exemple, la méthode Baye-sian Skyline Plot (?) estime simultanément le modèle d’évolution, la phylogénie et l’histoire démographique à partir de séquences hétérochrones. Quant à la méthode Bayesian Skygrid (?), elle reconstruit, à partir de séquences hétérochrones, le graphe de dynamique de population sous la forme d’une fonction constante par morceaux puis le lisse grâce à une fonction de noyau gaussien, permettant à l’utilisateur de définir au préalable les points de changement. Ces deux modèles sont implémentés dans les logiciels BEAST (?) et/ou BEAST2 (?).

Table des matières

1 État de l’art
1.1 Épidémiologie mathématique des maladies infectieuses
1.1.1 Du « mauvais air » au SARS-CoV-2
1.1.2 Modélisation en épidémiologie
1.1.3 Inférence de paramètres épidémiologiques à partir de données épidémiques
1.2 Phylogénies des infections
1.2.1 Terminologie
1.2.2 Liens avec les chaînes de transmission
1.2.3 Alignement des séquences
1.2.4 Inférence phylogénétique
1.2.5 Calibration temporelle
1.3 Inférence phylodynamique
1.3.1 Phylodynamique
1.3.2 Méthodes basées sur la théorie du coalescent
1.3.3 Méthodes basées sur le processus de naissance et de mort
1.3.4 Méthode basée sur le calcul bayésien approché
1.4 Objectifs de la thèse
2 Simulation de séries temporelles et de phylogénies avec le package TiPS
2.1 Présentation générale de TiPS
2.1.1 Contexte et structure du simulateur
2.1.2 Rcpp : langages de programmation R et C++
2.1.3 Nouvel algorithme de simulation stochastique de trajectoires
2.1.4 Simulations de phylogénies
2.1.5 Applications
2.2 TiPS : Simulating trajectories and phylogenies from population dynamics models
2.2.1 Introduction
2.2.2 Methods
2.2.3 Results
2.2.4 Discussion
2.2.5 Supplementary Information
2.3 Vignette du package TiPS
3 Phylodynamique du virus de l’hépatite C au sein d’une population hétérogène, par ABC-régression
3.1 Résumé
3.2 Quantifying transmission dynamics of acute hepatitis C virus infections in a heterogeneous population using sequence data
3.2.1 Background
3.2.2 Results
3.2.3 Discussion
3.2.4 Material and methods
3.2.5 Appendix
4 Phylodynamique du VIH-1 de groupe O par ABC-régression
4.1 Introduction
4.2 Methods
4.2.1 Times-scaled viral phylogeny
4.2.2 Epidemiological model and simulations
4.2.3 Regression-ABC inference
4.3 Results
5 Phylodynamique du SARS-CoV-2 en France
5.1 Résumé
5.2 Early phylodynamics analysis of the COVID-19 epidemic in France
5.2.1 Introduction
5.2.2 Materials and Methods
5.2.3 Results
5.2.4 Discussion
5.2.5 Appendix
6 Discussion
6.1 Comparaison de méthodes
6.2 Modification du prior après simulations
6.3 Biais d’échantillonnage
6.4 Signal phylogénétique
6.5 Sélection du modèle
6.6 Perspectives ABC-régression
6.7 Qu’est-ce-qu’un bon outil ?