Régression Logistique Binaire

Facebook Tweet Pin Email

Partie I Régression Logistique Binaire
1 Régression Logistique Binaire – Principe et estimation
1.1 Un cadre bayesien pour l’apprentissage supervisé
1.1.1 Apprentissage supervisé – Problématique
1.1.2 Apprentissage supervisé – Évaluation
1.1.3 Un cadre bayesien pour l’apprentissage supervisé
1.1.4 Un exemple : prédire COEUR en fonction de ANGINE
1.1.5 Insuffisances de l’approche basée sur les fréquences
1.2 Hypothèse fondamentale de la régression logistique
1.3 Le modèle LOGIT
1.4 Estimation des paramètres par la maximisation de la vraisemblance
1.5 L’algorithme de Newton-Raphson
1.5.1 Quelques remarques
1.5.2 Vecteur des dérivées partielles premières de la log-vraisemblance
1.5.3 Matrice des dérivées partielles secondes de la log-vraisemblance
1.6 Première évaluation de la régression : les pseudo-R2
1.6.1 Estimation du paramètre a et de la déviance du modèle trivial
1.6.2 Quelques pseudo-R2 0
2 Évaluation de la régression
2.1 La matrice de confusion
2.1.1 Construction et indicateurs associés
2.1.2 Autres indicateurs
2.1.3 Exemple : coeur = f(age, taux max, angine)
2.1.4 Le modèle est-il « intéressant »?
2.1.5 Subdivision « apprentissage – test » des données pour une évaluation plus fiable
2.1.6 Inconvénients de la matrice de confusion
2.2 Diagramme de fiabilité
2.2.1 Calcul et interprétation du diagramme de fiabilité
2.2.2 Exemple : COEUR= f(age, taux max, angine)
2.2.3 Exemple : Acceptation de crédit
2.3 Test de Hosmer-Lemeshow
2.3.1 Construction du test de Hosmer-Lemeshow
2.3.2 Acceptation de crédit – Test de Hosmer-Lemeshow
2.4 Le test de Mann-Whitney
2.4.1 Pourquoi un test de comparaison de populations?
2.4.2 Fichier COEUR – Test de Mann-Whitney
2.4.3 Acceptation de crédit – Test de Mann-Whitney
2.5 La courbe ROC
2.5.1 Justification et construction de la courbe ROC
2.5.2 Le critère AUC
2.5.3 Fichier COEUR – Courbe ROC
2.5.4 Critère AUC et Statistique de Mann-Whitney
2.6 La courbe rappel-précision
2.6.1 Principe de la courbe rappel-précision
2.6.2 Fichier COEUR – Courbe rappel-précision
3 Tests de significativité des coefficients
3.1 Quoi et comment tester?
3.1.1 Écriture des hypothèses à tester
3.1.2 Deux approches pour les tests
3.2 Tests fondés sur le rapport de vraisemblance
3.2.1 Principe du rapport de vraisemblance
3.2.2 Tester la nullité d’un des coefficients
3.2.3 Tester la nullité de q (q < J) coefficients
3.2.4 Tester globalement la nullité des J coefficients (a)
3.3 Tests fondés sur la normalité asymptotique des coefficients – Tests de Wald 1,. .. , a J
3.3.1 Matrice de variance-covariance des coefficients
3.3.2 Tester la nullité d’un des coefficients
3.3.3 Intervalle de confiance de Wald pour un coefficient
3.3.4 Tester la nullité de q (q < J) coefficients
3.3.5 Tester globalement la nullité des J coefficients
3.3.6 Écriture générique des tests de significativité
3.3.7 Aller plus loin avec la forme générique des tests
3.4 Bilan : Rapport de vraisemblance ou Wald?
Partie II Pratique de la régression logistique binaire
4 Prédiction et intervalle de prédiction
4.1 Prédiction ponctuelle
4.2 Intervalle de prédiction
5 Lecture et interprétation des coefficients
5.1 Risque relatif, odds, odds-ratio
5.2 Le cas de la régression simple
5.2.1 Variable explicative binaire
5.2.2 Variable explicative quantitative
5.2.3 Variable explicative qualitative nominale
5.2.4 Variable explicative qualitative ordinale
5.3 Le cas de la régression multiple
5.3.1 Odds-ratio partiel
5.3.2 Coefficients standardisés en régression logistique

Régression Logistique Binaire – Principe et estimation

1.1 Un cadre bayesien pour l’apprentissage supervisé
1.1.1 Apprentissage supervisé – Problématique
En apprentissage supervisé, l’objectif est de prédire et/ou expliquer une variable catégorielle Y à partir d’une collection de descripteurs X = (X). Il s’agit en quelque sorte de mettre en évidence l’existence d’une liaison fonctionnelle sous-jacente (en anglais, underlying concept) de la forme 1 ,X 2 ,. .. , X J Y = f(X, α) entre ces variables.
La fonction f(.) est le modèle de prédiction, on parle aussi de classieur ; α est le vecteur des para-mètres de la fonction, on doit en estimer les valeurs à partir des données disponibles.
Dans le cadre de la discrimination binaire, nous considérons que la variable dépendante Y ne prend que 2 modalités : positif « + » ou négatif « -« . Nous cherchons à prédire correctement les valeurs de Y , mais nous pouvons également vouloir quantier la propension (la probabilité) d’un individu à être positif (ou négatif).
Les applications sont nombreuses, certains touchent directement à notre vie quotidienne :
1. Déterminer la viabilité d’un client sollicitant un crédit à partir de ses caractéristiques (age, type d’emploi, niveau de revenu, autres crédits en cours, etc.) ;
2. Quantier le risque de survenue d’un sinistre pour une personne sollicitant un contrat d’assurance (ex. un jeune homme venant d’obtenir son permis de conduire et demandant une assurance tous risques pour une 205 Turbo-kittée avec un aileron de requin sur le toit aura très peu de chances de trouver une compagnie conciliante);
3. Discerner les facteurs de risque de survenue d’une maladie cardio-vasculaire chez des patients (ex. l’âge, le sexe, le tabac, l’alcool, regarder les matches de l’équipe de France de foot, etc.) ;
4. Pour une enseigne de grande distribution, cibler les clients qui peuvent être intéressés par tel ou tel type de produit.
Comme dans toute démarche de modélisation, plusieurs questions se posent immédiatement [23] (pages 104-105) :
1. Choisir la forme de la fonction.
2. Estimer les paramètres du modèle à partir d’un échantillon Ω.
3. Évaluer la précision des estimations.
4. Mesurer le pouvoir explicatif du modèle.
5. Vérifier s’il existe une liaison significative entre l’ensemble des descripteurs et la variable dépendante.
6. Identifier les descripteurs pertinents dans la prédiction de Y , évacuer celles qui ne sont pas significa-tives et/ou celles qui sont redondantes.
7. Mesurer l’influence de chaque observation, au besoin détecter celles qui peuvent avoir une influence exagérée au point de fausser les résultats.
8. Pour un nouvel individu à classer, déterminer la valeur de π à partir des valeurs prises par les X.
9. Construire un intervalle de variation (fourchette) de π.
La régression logistique permet de répondre précisément à chacune de ces questions. Elle le fait surtout de manière complètement cohérente avec sa démarche d’apprentissage, la maximisation de la vraisemblance. Ce n’est pas un de ses moindres mérites par rapport à d’autres méthodes supervisées.

Si le lien ne fonctionne pas correctement, veuillez nous contacter (mentionner le lien dans votre message)
Régression logistique binaire et polytomique (4.13 MB) (Cours PDF)