Méthodes d’analyse comparative de la variabilité intraspécifique des pangénomes procaryotes

Méthodes d’analyse comparative de la variabilité intraspécifique des pangénomes procaryotes

Génomique microbienne

Le but de ce chapitre est de donner aux lecteurs les outils pour comprendre le contexte scientifique et les implications des travaux que j’ai pu réaliser autour des génomes bactériens de manière assez générale. Il introduit un outil clé de cette thèse, la théorie des graphes, puisqu’une grande partie des problèmes que l’on rencontre en génomique peuvent être résolus avec ces approches. Il inclut aussi une introduction sur les manières dont les génomes des procaryotes évoluent et dont la compréhension est centrale à la bioinformatique moléculaire. Lecteur, bon courage. 

Génomique, organisation et fonctions

Les génomes

La génomique microbienne est une science qui consiste à analyser des génomes de microbes avec des outils informatiques. Parmi ceux-ci, je ne parlerais que des bactéries, car la majorité des données de génomes sont des génomes de bactéries, et car je n’ai en très grande majorité que travaillé sur des bactéries. C’est un des nombreux domaines de la bioinformatique, ses pratiquants se considèrent généralement comme des bioinformaticiens, ou parfois comme des biologistes avec une appétence pour la bioinformatique. Les génomes des bactéries ont plusieurs caractéristiques communes. Il est souvent circulaire et constitué de quelques centaines de milliers de paires de bases, pour les plus petits, à quelques millions pour les plus grands. Les tailles exprimées en génomique seront indiquées comme lorsqu’on compte les octets en informatique : 1 kb représente mille paires de bases, 1 Mb représente 1 million de paires de bases, 1 Gb représente un milliard de paires de bases. Les bactéries avec les génomes les plus petits sont souvent des bactéries parasites intracellulaires obligatoires, comme Chlamydia trachomatis. Son génome fait 1 Mb dans un seul chromosome, et ne dispose pas de certaines capacités métaboliques fondamentales. Elle n’a pas la capacité de survivre et de se développer autrement qu’en infectant des cellules qui vont lui permettre de récupérer ces métabolites. Les génomes les plus grands sont souvent, mais pas toujours, associés à des bactéries environnementales, comme les bactéries du sol. Un exemple est Burkholderia cepacia qui est un organisme trouvable dans l’environnement, mais aussi impliqué dans des infections notamment chez les patients atteints de mucoviscidose. Cette bactérie possède un génome d’environ 8 Mb, réparti dans 3 chromosomes linéaires différents. Pour comparaison, la figure 2.1 illustre la taille des génomes de différents organismes sur une échelle logarithmique, en indiquant quelques espèces connues comme Escherichia coli ou Homo sapiens (l’humain). On notera dans cette figure que les bactéries sont, de loin, les organismes ayant les génomes les plus petits, avec l’exception notable des virus qui ne sont pas représentés et qui ont des génomes généralement encore plus petits, mais majoritairement incapable de se reproduire et de se développer seuls.

Les gènes Un génome en soi ne permet rien

Il contient l’information dont un organisme a besoin pour fonctionner, mais il n’est que le récipient de cette information. Certaines parties du génome vont être retranscrites en des petites molécules d’Acides Ribonucléiques (ARN) lors d’une étape qu’on appelle la transcription. Certaines de ces molécules ont une fonction propre, notamment celles qui sont palindromiques et vont pouvoir former des structures grâce à cette propriété. Tel est le cas des ARN de transfert (dit tRNA, ou ARNt) qui sont essentiels pour une bactérie, car elles participent à la synthèse des protéines. D’autres molécules ARN, les ARN messagers, vont être lues par la machinerie de la bactérie pour faire des protéines dans une étape qu’on appelle la traduction. Les protéines sont les molécules qui réalisent la majorité des fonctions dans une bactérie. Elles sont constituées d’acides aminés, pour lesquels on dénombre une centaine de structures différentes, mais dont seuls 20 d’entre eux, dits standards, sont d’ordinaire considérés en génomique microbienne. Le passage d’une molécule d’ARN à une molécule d’acides aminés ne se fait pas aléatoirement, il suit un ordre précis qui est défini par ce qu’on appelle le code génétique. Le code génétique n’est pas universel puisqu’il en existe 33 différents, recensés au 23 juillet 2021, et potentiellement des dizaines, voir des centaines d’autres. Un récent article rend compte de plusieurs usages de codons alternatifs non référencés et présents dans des génomes de bases de données publiques (Shulgina et al., 2021). Figure 2.1 – Tailles des génomes (en nucléotides) de différents groupes taxonomiques d’organismes cellulaires Cette figure représente la taille des génomes (en nucléotides) de différents groupes taxonomiques en utilisant une échelle logarithmique, avec quelques espèces connues indiquées comme références. Copié de Milo et al., 2015. Le « code génétique standard », très tristement nommé, correspond à celui de certains eucaryotes (avec beaucoup d’exceptions), notamment les vertébrés. Les bactéries, Archées et plantes utilisent un code commun légèrement différent au niveau du codon d’initiation des protéines (avec, encore une fois, des exceptions). Dans ledit code génétique, une suite de 3 bases, appelée codon, va donner un acide aminé. On génère ainsi un code avec 64 combinaisons de 3 bases, certaines étant redondantes, différents codons pouvant donner le même acide aminé. Ces combinaisons permettent 21 résultats possibles : les 20 acides aminés standards, et un codon spécial qu’on appelle « codon STOP » qui indique la fin de la protéine à la machinerie cellulaire de la bactérie, et ainsi la fin de la traduction. Pour illustrer, la figure 2.2 montre le code génétique qui est utilisé pour traduire la séquence d’un gène à l’exception du premier codon, le codon d’initiation. Figure 2.2 – Code génétique Cette figure représente le code génétique utilisé pour faire correspondre une séquence d’ADN à une séquence d’acides aminés. Copié de https://svtfeyder.wordpress.com/ le-code-genetique/. La portion de génome qui correspond à une protéine est ce qu’on appelle un gène. Les portions de génome qui correspondent à certains ARN fonctionnels comme les ARNt sont aussi appelés gènes. Néanmoins, par abus de langage et comme les gènes codant les protéines sont des éléments importants dans ce document, on utilisera, par la suite, le terme « gène » pour désigner un gène codant des protéines. Il y a débat dans certaines sphères sur la définition de « gène », je n’ai aucune volonté de rentrer ou de répondre à celui-ci dans ce document. Les gènes recouvrent l’immense majorité des génomes des bactéries, contrairement aux génomes eucaryotes. Une protéine bactérienne peut être constituée de quelques acides aminés à plusieurs milliers, mais en moyenne ce nombre oscille autour de 300, ce qui représente une taille approximative de 1 kb pour le gène correspondant.

Homologie

Le génome, et notamment celui des bactéries, évolue à chaque génération. Il change continuellement, ce qui donne une certaine diversité même aux bactéries qui sont génétiquement proches. Les portions de génomes qui ont une origine ancestrale commune, c’est-à-dire issue de la même portion de génome originelle, sont dites homologues. On peut parler d’homologie pour n’importe quel élément du génome, et notamment des gènes. Deux gènes sont homologues s’ils ont un gène ancestral en commun. Les évènements évolutifs qui séparent deux gènes homologues peuvent être divers et permettent de préciser le type d’homologie dont il est question. Deux gènes séparés par un évènement de duplication sont dits paralogues. Entre autres, on parlera de paralogie lorsqu’une portion de génome est dupliquée et que les deux portions résultantes évoluent par la suite de manière indépendante à l’intérieur du même génome. Par ailleurs, deux gènes séparés exclusivement par des évènements de spéciation sont dits orthologues. Tel est le cas de deux gènes présents dans deux génomes différents, mais issus d’un même gène originel non dupliqué. Ces notions sont importantes, car elles sont le fondement de la génomique comparative et permettent d’émettre plusieurs d’hypothèses. Premièrement, on va supposer que les gènes orthologues ont généralement les mêmes fonctions (ou en tout cas, des fonctions très proches) et sont donc impliqués dans les mêmes processus. Les gènes paralogues peuvent avoir des fonctions légèrement différentes : par exemple, des enzymes ayant des substrats différents, mais catalysant le même type de transformation chimique. Les gènes qui ont une origine commune sont similaires dans la séquence de nucléotides qui les compose. Si les séquences de nucléotides (et par extension, les séquences d’acides aminés) de deux gènes sont similaires et présents dans deux génomes différents, on va alors supposer que ces deux gènes sont homologues. Néanmoins, la discrimination entre orthologie et paralogie ne peut pas se faire sur la seule base de la similarité. Il est important de noter que deux gènes associés à une même fonction ne sont pas nécessairement homologues. Il existe des cas de convergence évolutive, c’està-dire que des fonctions similaires se sont développées, mais sans avoir d’origine commune. De même, certaines régions de génomes peuvent être similaires sans être homologues : c’est possible, par hasard, pour des séquences courtes, et également pour des régions ayant une faible complexité dans certaines protéines. 2.1.4 Organisation des génomes La majorité du génome d’une bactérie est recouvert de gènes, mais ceux-ci ne sont pas disposés aléatoirement le long d’un génome. Dans un premier temps, certains gènes peuvent se regrouper dans ce qu’on appelle un opéron. Un opéron est un bloc d’ADN qui est transcrit en un unique ARNm et qui contient plusieurs gènes. Ces gènes sont orientés de la même manière et sont généralement impliqués dans un même processus.  De manière équivalente, même si entre les génomes de différentes espèces on retrouve des ordres différents de gènes et d’opérons, un gène va généralement être retrouvé dans un contexte similaire (Lathe III et al., 2000), c’est-à-dire que ses voisins seront souvent impliqués dans les mêmes processus. La conservation de l’ordre des gènes dans les génomes est appelée synténie conservée. Les gènes dans un génome participent à des fonctions très diverses. Certains sont nécessaires à la survie de la bactérie, comme les gènes qui codent des protéines impliquées dans la synthèse de nucléotides. D’autres ont une utilité contextuelle, qui n’a pas forcément d’intérêt dans tous les milieux de vie, comme les protéines utilisées pour dégrader un composé chimique particulier. Ainsi, certains gènes sont retrouvés dans la majorité des bactéries, et d’autres seront beaucoup plus rares. On vérifie cela au travers de l’organisation des gènes le long du chromosome bactérien. Les gènes dits « essentiels », qui remplissent donc des fonctions nécessaires, sont retrouvés beaucoup plus souvent sur le brin direct que sur le brin indirect du chromosome (Rocha et al., 2003). Un autre niveau d’organisation se fait au niveau de l’expressivité des gènes. Effectivement, la bactérie ne produit pas toutes les protéines de son génome en même temps, ni en même quantité. Plusieurs mécanismes, appelés mécanismes de régulation, vont rentrer en jeu pour produire les protéines dont la bactérie a besoin uniquement lorsqu’elles sont nécessaires. Cette nécessité se reflète notamment dans l’organisation du génome de la bactérie : chez les bactéries avec un taux de division élevé (celles qui se reproduisent vite), les gènes qui ont le plus besoin d’être exprimés sont retrouvés à proximité de l’origine de réplication et sont plus éloignés du terminus de réplication (Sharp et al., 1989 ; Vieira-Silva et al., 2010). Cela permet d’augmenter l’expressivité de ces gènes : chez ces mêmes bactéries, il peut y avoir plusieurs cycles de réplication simultanément (Fujisawa et al., 1973). Ainsi, les gènes proches de l’origine de réplication peuvent être présents simultanément en plusieurs copies dans une cellule, et ainsi être beaucoup plus exprimés que les gènes proches de la terminaison. Ces différentes observations sont des tendances globales qui ont été mesurées sur les génomes bactériens, et non des règles strictes ; il y a donc bien sûr souvent des exceptions.

Table des matières

I Introduction
1 Contexte
1.1 Bacteria, « à quoi ça sert ? »
1.2 Génome et génomique
1.3 Objectifs de la thèse
II État de l’art
2 Génomique microbienne
2.1 Génomique, organisation et fonctions
2.1.1 Les génomes
2.1.2 Les gènes
2.1.3 Homologie
2.1.4 Organisation des génomes
2.1.5 Gènes et fonctions
2.2 Évolution des génomes
2.2.1 Variabilité et transfert vertical
2.2.1.1 Types de mutations
2.2.1.2 Réarrangement
2.2.1.3 Recombinaison
2.2.2 Transfert horizontal de gènes
2.2.2.1 Transformation naturelle
2.2.2.2 Conjugaison
2.2.2.3 Transduction
2.2.2.4 Autres
2.2.2.5 Conclusions sur le transfert horizontal
2.2.3 Duplication
2.2.4 Gènes nouveaux
3 Génomique comparative et pangénome
3.1 Graphes en bioinformatique
3.2 Principes et débuts de la génomique comparative
3.2.1 Les premières comparaisons de séquences
3.2.2 Les premières comparaisons de génomes
3.3 Familles de gènes homologues
3.3.1 Aspect informatique du problème
3.3.2 Les approches bioinformatiques
3.3.2.1 Clusters de Groupes Orthologues (ou COGs)
3.3.2.2 CD-hit
3.3.2.3 InParanoid
3.3.2.4 OrthoMCL
3.3.2.5 SEED/FigFam
3.3.2.6 UBLAST / USEARCH / UCLUST
3.3.2.7 kClust / MMSeqs / Linclust
3.3.2.8 Conclusion sur la construction des familles de gènes en bioinformatique
3.4 Des espèces chez les procaryotes ? !
3.4.1 Définition d’espèce
3.4.2 Approches moléculaires pour définir une espèce
3.4.3 Approches par comparaison de génomes
3.4.4 Vers un consensus de l’espèce chez les procaryotes ?
3.4.5 Homogénéisation de la taxonomie
3.5 Pangénome
3.5.1 Définitions et origine
3.5.2 Modéliser les parties du pangénome
3.5.3 Partitions du pangénome
3.5.4 Construire un pangénome
4 Îlots génomiques
4.1 Origine et définition
4.2 Méthodes de détection des îlots génomiques
4.2.1 Méthodes basées sur la composition
4.2.2 Méthodes basées sur la génomique comparative
4.2.2.1 MOSAIC
4.2.2.2 tRNAcc / tRIP / mobilomeFINDER
4.2.2.3 IslandPick/IslandViewer .
4.2.2.4 xenoGI
4.2.3 Faiblesses des approches de détections d’îlots génomiques
4.3 Points chauds d’insertion
4.3.1 Définition et détection
4.3.2 Caractérisation globale des points chauds d’insertion
5 Modules en génomique
5.1 Annotation par association
5.1.1 Concept
5.1.2 Modules et modularité
5.2 Identification de modules
5.2.1 Modules fonctionnels
5.2.1.1 Réseaux d’interactions protéines-protéines
5.2.1.2 Fusion/Fission
5.2.1.3 Opérons
5.2.1.4 Métabolisme
5.2.1.5 Identification de fonctions spécifiques
5.2.2 Modules conservés
5.2.2.1 Occurrences et profils phylogénétiques
5.2.2.2 Synténie conservée
5.2.2.3 Phylogénie
5.3 Liens entre modules fonctionnels et modules conservés
III Résultats
6 PPanGGOLiN
6.1 Graphes de pangénome et partitionnement statistique
6.1.1 Objectifs de PPanGGOLiN
6.1.2 Principe de l’approche et analyses
6.2 Article 1 : PPanGGOLiN : depicting microbial diversity via a partitioned pangenome graph
6.3 Évolution de PPanGGOLiN
6.3.1 Construction des familles de gènes
6.3.2 Identification du persistent dans les MAGs
6.4 Conclusion
7 panRGP
7.1 Détection de régions de plasticité génomique dans un pangénome
7.2 Article 2 : panRGP : a pangenome-based method to predict genomic
islands and explore their diversity
7.3 Conclusion
8 panModule
8.1 Détection de modules conservés dans les régions variables des pangénomes
8.2 Article 3 : panModule : detecting conserved modules in the variable
regions of a pangenome graph
8.3 Conclusion
9 panGBank
9.1 Préambule et historique
9.2 Introduction
9.3 Workflow de panGBank
9.3.1 Téléchargement des génomes
9.3.2 Contrôle qualité
9.3.3 Assignation taxonomique
9.3.4 Contenu et résultats de panGBank
9.4 Futur de panGBank
IV Conclusions
Conclusions et perspectives
10.1 Conclusions sur ce travail de thèse
10.2 Perspectives sur les méthodes développées
10.2.1 PPanGGOLiN et réserves sur la méthode de partitionnement
10.2.2 panRGP, et l’usage d’un score arbitraire
10.2.3 panModule, des modules conservés mais à quelle échelle ?
10.3 Perspectives sur la génomique comparative
Bibliographie

projet fin d'etudeTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *