Structure du génome humain

La génétique moderne remonte aux travaux de Mendel qui fut le premier à établir les lois de l’hérédité [1] [2] [3]. À l’époque, ses travaux sur le pois cultivé (Pisum sativum) passèrent presque inaperçus. La redécouverte des lois de Mendel en 1900 par de Vries a permis à celui-ci de développer la théorie de la mutation [4] [5] [6]. Par la suite, ce sont les travaux de T. H. Morgan qui permirent d’établir la théorie chromosomique de l’hérédité c’est-à-dire que les gènes sont organisés en série linéaire le long des chromosomes. Ses travaux de recherche ont été réalisés en utilisant la mouche à vinaigre, Drosophila mélanogaster [7]. L’ensemble de son œuvre fut publié en 1915 [8]. Par la suite, plusieurs chercheurs participèrent à la démonstration que l’ADN était la substance de l’hérédité [9]. C’est en 1953 que la structure de l’ADN a été décrite par Watson et Crick [10]. Dans les années 1960, de nombreux mécanismes de base impliqués dans l’expression des gènes furent expliqués. Du milieu jusqu’à la fin du 20e siècle nous assistons à une explosion dans l’avancement des connaissances en biologie moléculaire.

De ces découvertes fondamentales en biologie découle la mise au point d’une multitude d’outils en biologie moléculaire. L’application de ces découvertes a permis la réalisation de cartes génétiques. Les premières cartes furent appliquée notamment chez les grandes monocultures en agroalimentaire telles que la pomme de terre, la tomate, etc. pour l’identification des gènes de résistance aux maladies[11] [12]. Les chercheurs ont élucidé de nombreux mécanismes de l’expression des gènes, le développement de techniques permettant la manipulation de ces gènes ainsi que de nombreuses applications médicales et en agriculture tels que les OGM (organismes génétiquement modifiés).

Les bactéries ont été les premiers organismes à être génétiquement modifiées [13 [14]. Une des grandes avancées à la fin du siècle dernier a été le développement des méthodes pour le séquençage de l’ADN. Ces techniques permettent de déterminer l’ordre des nucléotides (A, T, G, C) c’est-à-dire la séquence exacte d’un fragment d’ADN.

Le projet du génome humain ‘The Human Genome Project‘ (HGP) débutât dans les années 1990, et consistait à déterminer la séquence complète du code génétique (ADN) chez l’homme. La première carte génétique de l’homme a été publiée par Schuler et coll. en 1996. Plus de 2000 scientifiques, et au-delà de 20 instituts provenant de six pays collaboraient à la première ébauche du génome humain [15] [16]. L’achèvement du projet de séquençage du génome humain a bénéficié de l’utilisation des installations de séquençage ainsi que de ses ressources considérable afin d’effectuer des projets encore plus ambitieux [17]. Un exemple d’un tel projet a pour objectif de séquencer la totalité des microbes du corps humain permettant une vue de l’homme comme étant un superorganisme [17] [18].

Chez les eucaryotes , dont les humains font partie, l’ADN se trouve dans le noyau des cellules  , L’ADN est composé de 23 paires de chromosomes. Ces chromosomes sont constitués de gènes et de régions intergéniques. Les gènes des eucaryotes sont composés d’exons et d’introns. Les exons contiennent les informations nécessaires à la synthèse des protéines. Dans les régions codantes (exons), chaque groupe de trois bases (aussi connu sous le nom codon) forme un acide aminé (AA) et ce sont ces AA qui forment les protéines .

Le génome humain complet a été séquencé il y a une douzaine d’années. Cela signifie que l’ordre des trois milliards de nucléotides qui constituent le code génétique est connu. Il reste cependant à identifier tous les fragments qui codent pour des protéines. Le regroupement de ces sections courtes forme ce qu’on appelle un gène.

Les chercheurs du Genoscope ont été parmi les premiers à suggérer, en 2000, un nombre total de gènes humains de l’ordre de 30000 [19], soit une valeur bien inférieure aux estimations (centaine de milliers) qui avaient cours à cette époque [20] [21]. Aujourd’hui, nous estimons avoir trouvé près de 20000 gènes humains. Certains suggèrent qu’il n’y a approximativement que 5000 gènes qui ont un rôle dans les maladies héréditaires. Puisque nous en connaissons déjà près de 1500, il en resterait environ 3500 à découvrir [22].

Les stratégies en biologie moléculaire pour l’identification d’un gène sont nombreuses, complexes, longues et très coûteuses. Cette section décrit les grandes étapes d’une de ces stratégies pour l’identification d’un gène impliqué dans une maladie héréditaire mono génique.

L’étape subséquente implique une prise de données biologiques telle qu’une biopsie ou des analyses sanguines afin d’établir le bon diagnostic. L’extraction de l’ADN génomique des participants se fait à partir d’une prise de sang (5-10 ml). Ce sang est composé de deux groupes principaux de cellules : les globules rouges qui sont les plus nombreux (plus de 98%) et les globules blancs (moins de 2 %). Les globules rouges n’ont pas de noyau donc ne possèdent pas d’ADN. Seuls les globules blancs possèdent un noyau contenant de l’ADN. C’est à partir de ces cellules que nous obtiendrons l’ADN génomique des participants [23]. Le temps pour effectuer le travail dépendra du nombre d’échantillons prélevé, soit d’environ 1- 2 mois.

Table des matières

Introduction
1 Structure du génome humain
1.1 Problématique
1.2 Objectif
2 Revue de la littérature
2.1 Approche classique
2.2 Prédiction de gènes à partir d’une plateforme informatique
2.2.1 Approches existantes en bio-informatique pour la détection de gènes
2.2.1.1 Méthode avec chaîne de MARKOV
2.2.1.2 Méthode de la courbe-Z
2.2.1.3 Méthode des réseaux de neurones
2.2.1.4 Méthode des hexamères
2.2.1.5 Analyse en fréquences
2.2.1.6 Méthodes GENSCAN et TWINSCAN (extrinsèque)
3 Approche proposée
4 Analyse en fréquences pour l’identification d’un gène
4.1 Création des vecteurs
4.2 Méthodes d’analyse en fréquences
4.2.1 DFT
4.2.2 FFT
4.2.3 Algorithme de Goertzel
4.3 Fenêtrage
4.3.1 Fenêtre coulissante
4.3.2 Taille des fenêtres
4.4 Mise en œuvre
4.4.1 Processeurs multicoeurs
4.4.2 GPU
4.4.2.1 Matlab R2011b
4.4.2.2 JACKET
4.4.2.3 Gestion des données pour la mise en œuvre sur GPU
4.5 Configuration des tests
4.6 Résultats
4.6.1 Gène HFE2 pour la validation des analyses
4.6.2 Détection des régions codantes
4.6.3 Temps de traitement
4.7 Critères de décisions pour l’identification d’un gène
4.7.1 Seuil positif, négatif et fenêtre négative
4.7.2 Processus d’analyse
5 Analyse d’hexamères
5.1 Stratégie complémentaire pour la prédiction de gène
5.2 Utilisation des hexamères comme statistique
5.3 Techniques d’analyse
5.3.1 Caractéristiques statistiques des exons dans les gènes humains
5.4 Résultats de l’analyse par hexamère
6. Fusion des données et interprétation des résultats
7. Conclusion

Cours gratuitTélécharger le document complet

 

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *