Identification de cibles d’un facteur de transcription limiter les faux-positifs

Identification de cibles d’un facteur de transcription limiter les faux-positifs

Modélisation du TFBS LXRα

L’objectif du projet est de parvenir à prédire des gènes régulés de façon directe par des facteurs de transcription dans les espèces eucaryotes. Puisque la reconnaissance de motifs de TFBS génère un grand nombre de faux-positifs, les biologistes souhaitent obtenir une liste suffisamment restreinte de candidats fiables afin de mener des validations expérimentales. Nous avons travaillé sur le facteur de transcription LXRα, car il est l’un des facteurs pour lequel nos collaborateurs biologistes possèdent une expertise poussée. LXRα est un facteur fortement impliqué dans la régulation du métabolisme des lipides, dont une partie des cibles est déjà connues. Il nous a servi d’exemple pour mettre au point une stratégie de prédiction que nous voulons applicable à tous les facteurs de transcription pour lesquels on connaît des références du site de fixation. 3.1.1 Séquences de référence du motif LXRα Pour établir le modèle du site de fixation de LXRα, une recherche de l’ensemble des sites de fixation connus au travers de la littérature a été effectuée. Un ensemble de 13 séquences de référence, validées expérimentalement, a été retenu. D’après la littérature [DLD+11], la protéine LXRα reconnaît un motif de type DR4, c’est-à-dire un motif composé d’une répétition directe, séparée par 4 nucléotides non-définis. L’élément répété de LXRα est long de 6 nucléotides. Le motif TFBS totalise donc une taille de 16 nucléotides. 3.1.2 Jeu de gènes contrôle pour LXRα : gènes différentiellement exprimés Nous disposons d’une liste de 840 gènes très fortement différentiellement exprimés (DE) entre des souris « sauvages » et des souris chez qui le gène LXRα a été « éteint ». Une simple expression différentielle d’un gène n’implique pas forcément la présence d’un motif du TBFS de LXRα dans l’upstream de ces gènes, puisqu’un gène peut être régulé de façon indirecte par le FT. Néanmoins, nous avons posé l’hypothèse que la proportion de séquences directement régulées par LXRα est plus forte dans l’ensemble des gènes DE que dans l’ensemble des gènes non DE.

Modèle du TFBS LXRα

Bien que LXRα soit considéré comme étant un motif de type DR4, dans les faits, le motif répété n’est pas conservé et se prête mal à une modélisation sous forme de grammaire exploitant ce concept de répétition. Cette modélisation est discutée plus en détail dans la partie 5.1. Par ailleurs, nous avons vu dans le chapitre 2 que les modèles grammaticaux sont peu pertinents pour modéliser un motif dont les références présentent autant de positions variables et que les matrices étaient une approche préférable. Nous avons donc fait le choix de modéliser le TFBS LXRα sous la forme d’une matrice de score. Figure 3.1 – Matrice LXRE13 : matrice de comptage établie à partir des 13 séquences de références. Les 4 nucléotides centraux ont reçu des valeurs identiques afin que ces positions n’influent pas sur les scores des hits 3.2 Limitation des faux-positifs par la contrainte de conservation au cours de l’évolution La recherche du TFBS avec la matrice sur un génome eucaryote, même en se limitant aux zones upstreams des gènes, rapporte de trop nombreux hits, le motif TFBS étant un signal faible. Nous avons défini un filtrage basé sur le principe de conservation au cours de l’évolution pour limiter le nombre de faux-positifs. Sa mise en œuvre se fait en deux temps : dans un 68 Chapitre 3. Identification de cibles d’un facteur de transcription : limiter les faux-positifs A4 A7 A5 A6 A8 A3 A2 A1 A9 Ai : gène A de l’espèce i Figure 3.2 – Exemple de relations d’orthologies pour le gène A parmi différentes espèces i. {A1, A2 A3, A4, A5}, {A5, A6, A7, A8} et {A8, A9} forment les plus grandes cliques d’orthologie parmi ces relations. premier temps, une sélection de gènes se fait au niveau des espèces, par l’orthologie. Les gènes retenus sont ceux qui sont suffisamment conservés pour conserver un lien d’orthologie direct avec d’autres espèces, c’est-à-dire, si l’espèce possède un gène commun hérité d’une même espèce ancestrale et ayant suffisamment peu évolué pour rester similaire [VSUV+09]. Dans un second temps, la sélection se fait au niveau des TFBS identifiés pour un gène parmi plusieurs espèces, qui doivent alors posséder un minimum de similarité pour respecter le principe de conservation.

Conservation au niveau des espèces : filtre d’orthologie

Une première conservation est vérifiée au travers des liens d’orthologie : un gène est conservé pour un ensemble d’espèces si l’ensemble des espèces forment une clique d’orthologie pour le gène considéré, c-à-d si chaque espèce partage un lien d’orthologie one-to-one pour le gène considéré avec chaque autre espèce. Par exemple, la figure 3.2 représente les liens d’orthologie one-to-one pour le gène A parmi 9 espèces. Les espèces 1, 2, 3, 4 et 5 forment une clique d’orthologie : chacune des espèces possèdent un lien d’orthologie direct deux à deux avec chaque autre membre de la clique. De la même façon, les espèces 5, 6, 7 et 8 forment une clique d’orthologie. Inversement, les espèces 1, 5 et 7 ne partagent pas de liens d’orthologie deux-à-deux avec chacun des autres et ne forment donc pas une clique d’orthologie. Étant donné un ensemble d’espèces, les cliques présentes sur ces espèces pointent des gènes bien conservés sur cet ensemble d’espèces.