Cartographie d’un gène majeur de résistance

Télécharger le fichier original (Mémoire de fin d’études)

Identification des locus de résistance

Plusieurs stratégies sont possibles pour identifier un gène ou un ensemble de gènes responsables d’un caractère phénotypique. Elles se divisent en deux groupes : la carto-graphie par analyse de liaison et la génétique d’association.

Cartographie génétique par analyse de liaison

Historiquement, la première stratégie utilisée afin d’identifier le déterminisme géné-tique d’un caractère a été la cartographie par analyse de liaison.
Que ce déterminisme soit mono ou polygénique, la première étape de ce type d’étude est la construction de la population de cartographie. Les populations utilisées sont issues de croisements, la plupart du temps biparentaux entre des parents polymorphes au niveau du caractère étudié, sur une ou plusieurs générations (génération F2, populations de lignées recombinantes, lignées d’haploïdes doublés…). Une carte génétique est alors construite : la ségrégation des marqueurs génétiques est mesurée et le nombre d’événe-ments de recombinaison entre deux marqueurs est transformé en distance génétique additive.
Afin de suivre la ségrégation des polymorphismes, plusieurs types de marqueurs ont été utilisés par le passé. Les premiers ont été les restriction fragment length poly-morphism (RFLP) et les amplified fragment length polymorphism (AFLP), toutefois ce type de polymorphismes nécessitait des diﬀérences génétiques importantes entre les parents afin de disposer d’un nombre de marqueurs suﬃsant. Le développement des marqueurs microsatellites a permis de densifier les cartes génétiques. Avec l’avènement du séquençage et des méthodes NGS (Next-generation sequencing), les polymorphismes nucléotidiques (SNP) sont de plus en plus utilisés, notamment grâce à leur utilisation possible à très haute densité et de façon automatisée. De plus, le nombre de génomes dis-ponibles augmentant de manière continue, la réalisation de la carte génétique n’est plus une obligation et les distances génétiques sont remplacées par des distances physiques.
La deuxième étape est le phénotypage, plus ou moins fin selon que le caractère est qualitatif ou quantitatif. Les méthodes employées par la suite diﬀérent selon la nature du caractère étudié.

Cartographie d’un gène majeur

Afin de cartographier un gène majeur, les corrélations entre marqueurs et phéno-type sont étudiées afin d’obtenir des régions du génome candidates. Pour aﬃner la cartographie du gène, les eﬀectifs sont augmentés et les régions candidates densifiées en marqueurs.
La taille du fragment chromosomique identifié comme contenant le gène dépend du nombre de marqueurs disponibles et du nombre d’événements de recombinaison. La finesse de la cartographie est également liée au potentiel de recombinaison de la région génique. Lorsqu’on ne trouve plus d’individus recombinants dans la région candidate, des approches gènes candidats sont alors utilisées pour identifier le gène sous-jacent au caractère. Il s’agit notamment de rechercher dans la région des gènes dont la fonction est connue pour être impliquée dans le caractère étudié et de chercher à valider les gènes soupçonnés d’être impliqués dans le caractère par des approches fonctionnelles telles que la transformation génétique.

Cartographie de caractères quantitatifs

Beaucoup de caractères d’intérêt agronomique ont une distribution continue (ren-dement, qualité, certaines résistances à des agents pathogènes…). La cartographie génétique permet également d’identifier les QTL sous-jacents à ces caractères. Afin d’ob-tenir une bonne résolution, la taille de la population doit être suﬃsamment importante. Diﬀérentes approches statistiques (régression simple, interval mapping ou composite interval mapping) peuvent ensuite être utilisées afin de détecter la localisation des QTL (Haley et al., 1992; Thoday, 1961; Zeng, 1993)
Les QTL à eﬀet majeur identifiés peuvent ensuite être aﬃnés par cartographie fine de la même manière qu’un gène majeur.
Bien que la cartographie génétique soit une stratégie intéressante pour identifier des gènes responsables de variations quantitatives, elle souﬀre de certains inconvénients. Ces études sont réalisées sur des populations biparentales, donc seul l’eﬀet de deux allèles à chaque locus peut être quantifié et la génération des populations de cartographie peut prendre un temps long. Par ailleurs, le nombre d’événements de recombinaison dans ces populations est restreint et les QTL identifiés par cartographie sont donc définis sur des segments génomiques de 10 à 20 cM (Ingvarsson and Street, 2011).

Génétique d’association

La baisse des coûts de génotypage et le développement de nouvelles techniques telles que les puces SNP ou les NGS a vu l’essor de la génétique d’association. Cette méthode de cartographie permet l’étude de populations d’individus non apparentés. Les recombinaisons observées sont des recombinaisons historiques, bien plus nombreuses que dans une descendance de cartographie (Figure 1.7), ce qui permet de réduire l’intervalle des QTL.

Le principe

Les approches de génétique d’association ont été développées pour la recherche de déterminants génétiques de caractères chez l’humain, où l’étude de larges populations en ségrégation est impossible (Spielman et al., 1993). La méthode reposait à l’origine sur la constitution de deux cohortes au phénotype diﬀérent, par exemple sain et malade dans le cas d’une pathologie. Les individus des deux cohortes étaient ensuite génotypés à diﬀérents marqueurs et une association statistique entre le génotype et le phénotype était recherchée. Si la méthode a d’abord été appliquée à des caractères contrastés, elle l’est maintenant à des caractères complexes et continus.
En l’absence d’un reséquençage complet des individus, la probabilité de détecter le polymorphisme causal est extrêmement faible. La génétique d’association repose donc sur une relation triangulaire entre le phénotype d’intérêt, le locus causal de la variation observée et un marqueur en déséquilibre de liaison (DL) avec le locus causal (Balding, 2006) (Figure 1.8).
Figure 1.8 – Schématisation de la relation triangulaire à la base de la génétique d’association (d’après Balding (2006)). Le locus marqueur typé est directement lié par une relation de DL avec le locus causal du phénotype observé. Ce locus est donc indirectement lié au phénotype.

Le déséquilibre de liaison

Le déséquilibre de liaison (DL) est une propriété des génomes des populations naturelles comme domestiques. Il s’agit de l’association non aléatoire entre les allèles de diﬀérents locus dans une population donnée. L’étendue de ce dernier le long du génome donne la résolution de la cartographie par génétique d’association.
Dans une population à l’équilibre d’Hardy-Weinberg (population panmictique sans migration ni mutation ou sélection), le DL ne dépend que de la distance physique entre deux locus et de la fréquence de recombinaison. Toutefois dans une population réelle plusieurs autres facteurs peuvent influer sur le DL (Rafalski and Morgante, 2004). La mutation crée de nouveaux allèles à certains locus. La sélection rapide d’un allèle à eﬀet positif crée un balayage sélectif : les allèles présents à d’autres locus dans les individus possédant l’allèle sélectionné augmentent alors en fréquence dans la population, augmentant le DL. La recombinaison est la seule force pouvant faire diminuer le DL, cassant ces associations au fur et à mesure des événements de reproduction. Les espèces à autogamie majoritaire expérimentent une hybridation entre génotypes moins intense que les allogames majoritaires. La recombinaison y est donc moins eﬃcace à l’échelle de la population et le DL est plus élevé.
L’isolement génétique entre familles et la subdivision des populations crée du DL : dans chaque sous-population les fréquences alléliques augmentent de manière indépendante sous l’eﬀet de la sélection et de la dérive génétique. Des blocs d’haplotypes diﬀérents apparaissent dans les diﬀérentes sous-populations et le DL de la population globale augmente sur l’ensemble du génome. La migration et l’hybridation de ces sous-populations fait diminuer le DL au cours du temps.
De même, dans des populations à faible taille eﬃcace ou ayant subi un goulot d’étranglement récent, les fréquences alléliques peuvent changer rapidement sous l’eﬀet de la dérive génétique. La disparition de certains allèles maintient le DL entre les haplotypes, en nombre limité dans la population.
Dans certaines populations, il peut y avoir du DL entre deux locus situés sur des chromosomes diﬀérents. C’est notamment le cas du riz asiatique O. sativa, où une très forte structuration existe entre les sous-espèces indica et japonica (Wang et al., 2014a). Ce patron peut être dû à la structuration de la population ou bien à un phénomène génétique réel (épistasie).
La structure chromosomique joue aussi un rôle sur le DL. Le taux de recombinaison n’est pas le même le long du génome. L’exemple le plus flagrant est la recombinaison très limitée à proximité des centromères.
L’ensemble de ces facteurs crée une variation de l’étendue du DL le long du génome spécifique à chaque population. La connaissance de l’étendue du DL dans le génome au sein de la population étudiée est primordiale pour la réalisation d’études de génétique d’association. Si le DL est très étendu dans la population, il est inutile de disposer d’un nombre très important de marqueurs car leur information sera redondante : plus le DL sera grand, plus la densité de marqueurs nécessaire à une bonne couverture sera faible, et inversement. Cependant, l’intervalle d’un QTL identifié sera également plus large dans une population à fort DL (Figure 1.9).
Figure 1.9 – Relation entre l’étendue du DL et la résolution des études d’association (publié dans Rafalski (2002)). En (a) le DL avec le gène responsable du phénotype (ovale rouge) décline doucement avec la distance. Une faible densité de marqueurs (barres rouges) est suﬃsante pour identifier des marqueurs associés au phénotype (flèches jaunes). En (b), le DL est très peu étendu, il faut donc une grande densité de marqueurs afin d’en identifier un associé.
Plusieurs indices permettent de calculer le DL entre une paire de marqueurs (Flint-Garcia et al., 2003; Gupta et al., 2005). Les plus fréquemment utilisés sont r2 (Hill and Robertson, 1968) et D’ (Lewontin, 1964). Ces deux statistiques n’expliquent pas les mêmes aspects du DL (Figure 1.10).

Les études de génétique d’association sur génome entier

Les études de génétique d’association sur génome entier (GWAS) nécessitent :
— une population choisie pour maximiser la diversité génétique et phénotypique aux traits d’intérêts (souvent une core collection),
— le phénotype des individus la constituant,
— un nombre de marqueurs suﬃsamment grand pour couvrir le génome.
Plutôt que des marqueurs, il est de plus en plus fréquent d’utiliser des données de séquences des individus, souvent obtenues par des techniques de next-generation se-quencing (NGS) à faible profondeur (génotypage par séquençage, GBS).
Un modèle statistique est ensuite appliqué pour tester l’association entre les locus et les valeurs phénotypiques. Le modèle le plus simple est le modèle linéaire global(GLM) pour lequel chaque SNP a un eﬀet fixe linéaire sur le phénotype. Ce modèle très simple ne prends pas en compte l’eﬀet de la structuration de la population sur la structure du DL, qui peut causer des associations entre le polymorphisme et des SNP non physiquement liés aux SNP causaux.
Des modèles plus complexes, tels que le modèle linéaire mixte (MLM), introduisent l’eﬀet de la structure de la population comme eﬀet fixe et celui de l’apparentement entre individus comme eﬀet aléatoire dans le modèle (Yu et al., 2006). L’assignation des individus aux sous-populations peut se faire à l’aide de modèles cherchant à minimiser l’écart à l’équilibre d’Hardy-Weinberg et le DL entre locus au sein des sous-populations (STRUCTURE (Pritchard et al., 2000), sNMF (Frichot et al., 2014)…) ou bien en réalisant une analyse en composantes principales (ACP) (Price et al., 2010). L’intégration de la structure et de l’apparentement dans les modèles permet de diminuer le nombre de faux positifs. Toutefois cela peut engendrer une perte de puissance pour la détection des vrais positifs.
Afin de choisir le modèle le plus adapté aux données, la distribution des tests statistiques observés générés par le GWAS doit être vérifiée. Sous le modèle nul, la distribution des p-values est attendue uniforme. La déviation observée sur un quantile-quantile (Q-Q) plot doit ne pas présenter une trop grande inflation des p-values par rapport au modèle nul (Figure 1.11).
Les SNP associés se détachent des autres sur le Q-Q plot et forment un pic sur le Manhattan plot représentant la distribution des eﬀets des SNP calculés par le modèle GWAS le long du génome. Plusieurs seuils de significativité peuvent être appliqués. Le plus classique est calculé par le critère de Bonferroni selon la formule : S=Nα où α est le seuil de significativité global souhaité (la plupart du temps fixé à 5 %) et N le nombre de tests réalisés, fixé ici au nombre de SNP. Ce critère est toutefois jugé trop conservatif, notamment car il considère que tous les SNP sont indépendants alors que nombre d’entre eux sont en DL. Plusieurs méthodes comme simpleM (Gao et al., 2008) ou Kef f (Moskvina and Schmidt, 2008) évaluent le nombre de tests eﬀectivement indépendants pour corriger le critère de Bonferroni.
L’utilisation de permutations est également vue comme une méthode fiable d’éva-luation de significativité (Churchill and Doerge, 1994). Les phénotypes sont permutés alors que la structure génétique demeure. Ces permutations permettent de simuler l’hypothèse nulle de non-association. Toutefois un grand nombre de permutations est nécessaire afin d’obtenir des résultats fiables et le temps de calcul est long.
Enfin, il est possible de calculer le false discovery rate (FDR) qui évalue la proportion de faux positifs parmi les tests déclarés positifs (Dolejsi et al., 2014; Yoav Benjamini, 1995). Le seuil obtenu est la plupart du temps bien moins conservatif que celui du critère de Bonferroni.

Utilisation de populations multi-parentales

Les populations multi-parentales combinent les aspects de la cartographie génétique et de la génétique d’association. Plusieurs types de populations sont utilisés. Les principales sont les populations de nested association mapping (NAM) et les multi-parent advanced generation inter-cross (MAGIC) (Figure 1.12). Les NAM, mis au point par Yu et al. (2008) sur maïs, sont créées en mélangeant en proportions égales les diﬀérentes recombinent-inbred line (RIL) impliquant un parent récurrent. Les MAGIC (Cavanagh et al., 2008) sont des populations issues d’un nombre de parents important (huit au minimum) interfécondés afin que la contribution de chaque parent au génome des descendants soit la même. Les descendants obtenus sont interfécondés un grand nombre de fois afin d’obtenir des RIL.
Ce type de population permet de combiner les événements de recombinaisons anciens des populations naturelles et les événements récents des populations de cartographie. L’eﬀet de la structure des populations est ainsi limitée tout en augmentant le nombre de recombinaisons dans le génome. Toutefois certains désavantages de la cartographie génétique subsistent (Mitchell-Olds, 2010) :
— le nombre de fondateurs reste limité et ne représente donc pas l’ensemble de la diversité allélique qu’on peut obtenir dans une population de génétique d’asso-ciation classique ;
— les croisements nécessaires à l’obtention de ces populations nécessitent un nombre de générations important et donc un temps long.
Figure 1.12 – Exemple de populations multi-parentales (adapté de Cavanagh et al. (2008) et Yu et al. (2008)). (A) : population NAM ; (B) : population MAGIC

Autres méthodes

La cartographie par analyse de liaison et la génétique d’association sont des applica-tions de génétique classique ou forward genetics : la recherche de la variation génétique est basée sur la variation phénotypique observée dans la variabilité existante. À l’ère de la génomique, les approches de génétique inverse ou reverse genetics se développent. Il s’agit de rechercher l’eﬀet d’un gène en observant le phénotype de variants à ce gène. C’est notamment le cas des approches de type targeting induced local lesions in genomes (TILLING) (McCallum et al., 2000). Elles consistent en une étape de mutagenèse classique suivie du screening des mutations obtenues pour trouver celles présentes dans le gène d’intérêt. Cela peut également permettre de créer de nouveaux allèles à un gène et ainsi d’étudier le rôle des diﬀérents domaines d’un gène dans le phénotype.
Ces méthodes sont souvent combinées à la génétique classique. Une région candidate contenant plusieurs gènes est identifiée par génétique classique puis le gène causal du phénotype peut être validé par génétique inverse.
L’étude de systèmes hétérologues peut également permettre d’étudier eﬃcacement la génétique gouvernant un caractère. La levure est notamment présentée comme un système intéressant pour étudier les interactions des plantes avec certains virus (Nagy et al., 2014). En eﬀet, la levure possède un génome plus simple que les plantes avec un nombre de séquences intergéniques et d’introns bien inférieur. Les ressources génétiques et génomiques disponibles pour cet organisme simple sont également très importantes : un grand nombre de séquences, des banques de mutants… De plus, cet organisme a beaucoup de similarités fonctionnelles avec une cellule végétale et certains virus de plantes peuvent donc s’y répliquer. Cette réplication a été démontrée notamment pour le Brome mosaic virus (BMV) et le Tomato bushy stunt virus (TBSV). L’étude de la réplication en levure permet d’identifier des gènes impliqués. Leurs homologues dans la plante hôte sont donc candidats pour jouer un rôle dans leur réplication, et donc potentiellement permettre la résistance s’ils sont mutés.

Table des matières

Introduction générale
Chapitre 1 Revue bibliographique
1 Résistance des plantes aux virus
1.1 Résistance non-spécifique
1.2 Les gènes majeurs
1.2.1 Les NB-LRR
1.2.2 Les facteurs d’initiation de la traduction
1.2.3 Les autres types de gènes majeurs
1.3 Résistance quantitative
1.4 Résistance aux vecteurs
1.5 Contournement et durabilité des résistances
1.6 Modèles évolutifs des gènes de résistance
2 Identification des locus de résistance
2.1 Cartographie génétique par analyse de liaison
2.1.1 Cartographie d’un gène majeur
2.1.2 Cartographie de caractères quantitatifs
2.2 Génétique d’association
2.2.1 Le principe
2.2.2 Le déséquilibre de liaison
2.2.3 Les études de génétique d’association sur génome entier
2.3 Utilisation de populations multi-parentales
2.4 Autres méthodes
3 Le pathosystème
3.1 Le riz
3.1.1 Le genre Oryza
3.1.2 Les espèces cultivées
3.1.3 Importance économique du riz en Afrique
3.1.4 Contraintes à la production en Afrique
3.2 La panachure jaune du riz
3.2.1 La maladie
3.2.2 Le Rice yellow mottle virus
3.3 Les résistances du riz au RYMV
3.3.1 RYMV1
3.3.2 RYMV2
3.3.3 QTL de résistance chez O. sativa
3.3.4 Le contournement de la résistance
Chapitre 2 Matériels et méthodes généraux
1 Matériel végétal
2 Matériel viral
3 Évaluation de la résistance au RYMV
3.1 Conditions d’inoculation
3.2 Observation des symptômes
3.3 Évaluation du contenu en virus
4 Ressources génomiques
5 Génotypage
Chapitre 3 Cartographie d’un gène majeur de résistance
1 Introduction
2 Fine mapping of RYMV3 : a new resistance gene to Rice yellow mottle virus from Oryza glaberrima
2.1 Introduction
2.2 Materials and Methods
2.2.1 Plant material
2.2.2 Viral material
2.2.3 Phenotypic evaluation
2.2.4 Genomic resources
2.2.5 Development of molecular markers and PCR procedure
2.3 Results
2.3.1 Tog5307 resistance spectrum
2.3.2 Inheritance of Tog5307 resistance
2.3.3 Identification of a candidate locus for Tog5307 resistance on chromosome
2.3.4 Fine mapping of RYMV3
2.3.5 RYMV3 candidate genes
2.3.6 Tog5672 second resistance gene is linked to RYMV3
2.4 Discussion
3 Conclusion générale et perspectives
3.1 RYMV3 confère une résistance monogénique dominante
3.2 RYMV3 est probablement un gène de type CC-NBS-LRR
3.3 Contournement ou pénétrance incomplète de la résistance ?
Chapitre 4 Analyse de la résistance au RYMV dans l’espèce O. glaberrima et son apparenté sauvage O. barthii
1 Introduction
2 Résultats
2.1 Identification des individus résistants
2.2 Recherche d’allèles aux gènes de résistance connus
2.2.1 Allèles à RYMV1
2.2.2 Allèles à RYMV2
2.2.3 Polymorphismes à RYMV3
2.2.4 Conclusion sur les allèles de résistance identifiés
2.3 Répartition des résistances dans la diversité des riz africains
2.3.1 Diversité génétique
2.3.2 Répartition géographique
3 Discussion
3.1 Fréquence des sources de résistance élevée chez les riz africains
3.2 Gènes et allèles de résistance identifiés
3.2.1 RYMV1
3.2.2 RYMV2
3.2.3 RYMV3
3.2.4 Conclusion sur les sources de résistance de la collection IRD
3.3 Diversité des gènes et évolution
3.3.1 Profils de diversité aux gènes de résistance
3.3.2 Structuration de la diversité des allèles de résistance au RYMV
Chapitre 5 Génétique d’association dans l’espèce O. glaberrima
1 Introduction
2 Matériel et méthodes spécifiques
2.1 Obtention des données de phénotype
2.1.1 Matériel végétal
2.1.2 Matériel viral
2.1.3 Dispositif expérimental
2.1.4 Mise au point et réalisation de la mesure de l’accumulation virale
2.1.5 Traitement des données de phénotypage
2.2 Étude de génétique d’association
2.2.1 Traitement des données de séquences et analyse de la structure de population
2.2.2 Réalisation de l’étude de génétique d’association
3 Résultats
3.1 Évaluation de la résistance partielle
3.1.1 Choix des dates et des dilutions
3.1.2 Phénotypes obtenus
3.2 Étude d’association
3.2.1 Structure de la population
3.2.2 Choix du modèle
3.2.3 Détection des QTL
3.2.4 Étude préliminaire des QTL identifiés
4 Discussion et perspectives
4.1 Phénotypage de la résistance partielle
4.2 Génétique d’association
4.3 Conclusions et perspectives
Chapitre 6 Discussion générale et perspectives
1 Une grande diversité de résistances au RYMV
1.1 De la diversité des déterminants de résistance
1.2 De la diversité des mécanismes de résistance
1.3 Quelles raisons à la diversité de résistance chez O. glaberrima ?
2 Vers une résistance durable au RYMV au champ ?
2.1 Exploitation des résistances de l’espèce O. glaberrima
2.2 Exploitation des QTL de résistance
2.3 Le contournement des résistances : quelle stratégie employer pour une résistance durable ?
3 Conclusion générale
Références bibliographiques
Annexe A Tableaux
Annexe B Figures annexes XIII