COEFFICIENT DE DETERMINATION

COEFFICIENT DE DETERMINATION

Les composés organiques industriels, estimés actuellement à 120 000 avec apparition annuelle sur les marchés de 1000 produits nouveaux, ne sont pas toujours sans risques pour la santé publique et l’environnement.Les fichiers de données expérimentales, complets, homogènes et précis les concernant, s’ils sont parfois disponibles, peuvent faire défaut même pour les composés du commerce les plus courants et les plus importants. La détermination expérimentale systématique de toutes les données manquantes qui se traduirait par une lourde charge, économiquement insupportable pour les industriels et l’autorité de régulation, dépasse les capacités de recherche disponibles, nonobstant les larges marges d’erreurs qu’elle pourrait engendrer. Aussi, la gestion systématique et globale des risques encourus par la présence sur le marché et dans l’environnement de la grande masse de produit chimiques, ne peut reposer uniquement sur la seule disponibilité des données expérimentales. D’où l’intérêt à développer des modèles quantitatifs qui permettent la prévision rapide et précise de la toxicité et de l’évolution dans l’environnement de polluants organiques, à partir de la seule information encodée dans leurs formules structurales.

La concentration d’inhibition 50% de la croissance (CIC 50) d’une population de protozoaires ciliés sert souvent d’indice de toxicité, on considère que l’action des polluants se manifeste par un dysfonctionnement des membranes cellulaires et donc la toxicité éventuelle d’une molécule dépend de sa tendance à s’y accumuler. L’octanol, milieu apolaire, constitue un modèle simple des membranes, ce qui explique que de nombreuses relations structure /activité intègrent logP comme variable explicative. L’analyse de régression est réalisée en utilisant, souvent, la méthode des moindres carrés ordinaire. L’utilisation de la méthode des moindres carrés dans le modèle de régression linéaire nécessite certaines hypothèses, notamment sur les erreurs. Pour construire le modèle et admettre que les coefficients de la régression sont sans biais et convergents, on montre qu’il faut poser comme hypothèses: a) Les résidus ei ont une espérance (E) mathématique nulle: E (ei) = 0 b) Le modèle choisi est correct (aucune variable explicative n’a été omise). c) Les résidus sont indépendants entre eux: E (ej, ei) = 0 si i ≠ j

Il faut de plus mentionner que, même si la majorité des erreurs dans le modèle suivent une distribution normale, il arrive souvent qu’un petit nombre d’observations suivent une distribution différente. Dans ce cas, on dit que l’échantillon est contaminé par des valeurs aberrantes. Puisque les estimateurs LAD sont peu sensibles aux données aberrantes, ils sont particulièrement adaptés à ce genre de situations. Le but de ce travail consiste à faire une comparaison entre les méthodes LAD et LS en ce qui concerne la modélisation de la toxicité CIC50 de 21 alcools et 9 amines avec l’indicateur d’hydrophobicité logP. En anglais least absolue déviations, la méthode des moindres écarts en valeurs absolues, est une méthode de régression basée sur la minimisation de la somme des erreurs en valeurs

 MODELISATION:

Propriété d’une substance (poison) capable de tuer un être vivant, pCIC50 signifie log(1/CIC50) servira d’indicateur de toxicité (CIC50 =Concentration d’inhibition 50 % de la croissance.). La modélisation des données est l’art d’extraire des informations utiles d’un ensemble de données obtenues par des mesures, et de condenser cette information dans un modèle exploitable. I.1.5- REGRESSION :Un problème de régression consiste à étudier les changements de la valeur moyenne d’une variable (aléatoire) quand une autre variable ou plusieurs autres variables prennent différentes valeurs fixes. La première variable est appelée variable dépendante ou variable expliquée, les autres variables sont appelées variables indépendantes, variables explicatives. Comme dans notre étude il y a une seule variable explicative, on dit qu’il y a une régression simple; lorsqu’il y a au moins deux variables explicatives on dit qu’il y a une régression multiple.

Mais, du fait de l’incertitude liée aux fluctuations d’échantillonnage, il est impossible de connaître avec certitude la valeur exacte dans la population : on ne peut que l‘estimer en calculant la probabilité que cette véritable valeur se trouve comprise dans un certain intervalle. I.1.8- PROTOZOAIRES : Les Protozoaires, étant unicellulaires, sont de petits organismes de moins d’un millimètre, pouvant s’associer en colonies. Ils vivent exclusivement dans l’eau ou dans de la terre humide. Ils sont connus pour être responsables de nombreuses maladies telle que la malaria. I.2- PROBLEMATIQUE : La méthode la plus utilisée pour estimer les paramètres d’un modèle de régression linéaire simple est sans doute la méthode des moindres carrés (LS) mais cette dernière présente moins de robustesse aux valeurs aberrantes, qui sont assez fréquentes dans la recherche d’un modèle, qui prédit la toxicité pCIC50 de 21alcools et 9 amines en fonction du coefficient de partage (Octanol/Eau) logP, d’où le nécessaire recours à une méthode alternative robuste aux valeurs aberrantes.

Cours gratuitTélécharger le document complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *