Cours informatique traitement des données

Tests non paramétriques sur des groupes indépendants

Test de la médiane

Objectif du test : comparer les médianes dans deux ou plusieurs groupes indépendants, lorsque la variable dépendante est ordinale ou numérique. Ouvrez le classeur Statistica Enfants-PRN.stw. On veut comparer l’IDM à 24 mois dans le groupe témoin et dans le groupe expérimental à l’aide d’un test de la médiane.
Rappel de la méthode : on construit un tableau de contingence en croisant les variables « Groupe » et « Position par rapport à la médiane » et on réalise un test du khi-deux sur le tableau de contingence obtenu.
En utilisant, par exemple, le menu Statistiques – Tests non paramétriques – Statistiques ordinales, vérifiez que la médiane des IDM à 24 mois est égale à 111,5.
Dans le cours, le test de la médiane a été présenté avec une variable « Groupe » à deux modalités. Cependant, la méthode peut s’étendre sans difficultés au cas où la variable « Groupe » comporte plus de deux modalités. C’est pourquoi Statistica range ce test dans le menu : Statistiques – Tests non paramétriques – Comparaison de plusieurs échantillons indépendants :
Spécifiez la variable dépendante et la variable de classement, puis cliquez sur le bouton « Synthèse : ANOVA de Kruskal-Wallis & test de la Médiane ». On obtient le résultat suivant :
Remarque : Le test de la médiane ne met pas en évidence de différence entre les deux groupes. En revanche, un test unilatéral de comparaison de moyennes établit une différence au bénéfice du groupe expérimental. Mais le test de la médiane est moins puissant, et c’est nécessairement un test bilatéral.

Test bilatéral de Kolmogorov-Smirnov

Objectif du test : comparer les distributions de la variable dépendante dans deux ou plusieurs groupes indépendants, lorsque la variable dépendante est ordinale ou numérique.
On reprend la comparaison des deux groupes à l’aide du test de Kolmogorov-Smirnov.
Reprenez le menu Statistiques – Tests non paramétriques. Sélectionnez l’item « Comparaison de deux échantillons indépendants ». Si nécessaire, spécifiez de nouveau la variable dépendante et la variable de classement, puis cliquez sur le bouton « Test de Kolmogorov-S. de deux échant. ».
On sait que la mise en oeuvre du test de Kolmogorov-Smirnov repose sur le choix d’un découpage en classes, puis la détermination des fonctions de répartition (fréquences cumulées) des deux distributions observées. Il est légitime de se demander quelles sont les bornes de classes utilisées par Statistica.De plus, il semble que Statistica utilise des tables spécifiques à ce test, et non une approximation par un khi 2.Il peut être intéressant de visualiser la « distance » entre les deux courbes cumulatives à l’aide d’un graphique. Par exemple, utilisez le bouton « Histogramme catégorisé par groupe » du dialogue obtenu par le menu Statistiques – Tests non paramétriques – Comparaison de deux échantillons indépendants. Avec quelques modifications du graphique.
Modifications à faire à partir du graphique produit avec les réglages par défaut de Statistica : à l’aide du bouton droit de la souris, sélectionnez l’item de menu Propriétés du graphique (Toutes les options)… puis :
– Sous l’onglet Tracé — Histogramme, sélectionnez Représentation de l’histogramme : cumulé
– Sous l’onglet Tracé — Histogramme, dans la zone Propriétés, cochez la boîte Effectifs relatifs cumulés
– Sous l’onglet Catégorisation, dans la zone Mise en forme des catégories, sélectionnez Superposées
– Sous l’onglet Tracé — Ajustement, cliquez sur le bouton Supprimer de la zone Type d’ajustement.
Remarque.
Le test de Kolmogorov-Smirnov peut être utilisé pour tester soit une hypothèse unilatérale (la VD a une intensité plus grande dans l’un des groupes), soit une hypothèse bilatérale (la distribution de la VD n’est pas la même dans les deux groupes). Comme pour les autres tests, Statistica ne fournit que le test bilatéral.

Test de Wald-Wolfowitz

Objectif du test : comparer les distributions de la variable dépendante dans deux ou plusieurs groupes indépendants, lorsque la variable dépendante, ordinale ou numérique, ne comporte pas d’ex aequo. Ce test étudie notamment si l’interclassement des valeurs issues des deux groupes peut être dû au hasard. Ainsi que nous l’avons vu en cours, le test de Wald-Wolfowitz s’applique à une variable continue, ne comportant pas d’ex aequo. Son application à des données telles que celles de Enfants-PRN.stw risque donc de réserver quelques surprises… Nous utiliserons donc un autre exemple pour présenter ce test.En vue d’une expérience, vous avez recruté 50 sujets que vous devez affecter au hasard à l’une ou l’autre de deux conditions expérimentales. Pour cela :
– Vous saisissez les identifiants des 50 sujets dans une colonne d’une feuille de données Statistica (par exemple, vous utilisez comme identifiants les nombres de 1 à 50).
Définissez un nouveau classeur Statistica, insérez dans ce classeur une feuille de données comportant 50 lignes. Dans la première variable, appelée Sujets, saisissez les valeurs 1 et 2, puis utilisez la souris pour réaliser une copie incrémentée :
– Vous générez dans une deuxième colonne une suite de nombres aléatoires compris entre 0 et 1 (menu Edition – Remplir Centrer-réduire le bloc – Remplir de valeurs aléatoires.
– Vous affectez ensuite chacun des sujets à l’une ou l’autre des conditions expérimentales A et B en comparant à 0,5 le nombre aléatoire correspondant.
Pour cela, créez une troisième variable, calculée à l’aide de la formule :
=iif(v2<0,5; »A »; »B »)
Vous obtenez ainsi une feuille ayant l’allure suivante :
N.B. Les résultats qui suivent dépendent des valeurs aléatoires générées par le logiciel. Ils ne sont donc pas strictement reproductibles.
Vous vous demandez alors si l’affectation des sujets aux 2 conditions s’est bien faite de façon aléatoire (le générateur de nombres aléatoires utilisé est-il correct ?). Deux questions peuvent se poser :
– Les effectifs des groupes A et B sont-ils compatibles avec l’hypothèse d’une affectation « au hasard » (p=0,5) des sujets dans les groupes ?
Il n’est pas si simple de traiter cette question à l’aide de Statistica. Par exemple, on pourra :
– Remarquer que les étiquettes de texte A et B sont associées aux valeurs numériques 101 et 102 (dans un ordre quelconque) ;
– Définir une 4è variable, contenant la constante 101,5
– Réaliser un test des signes entre la variable « Condition » et la variable « Constante ». (menu Statistiques – Tests non paramétriques – Comparaison de deux échantillons appariés)
On constate qu’ici, le déséquilibre entre les groupes (19 sujets dans l’un des groupes pour 31 dans l’autre) est compatible avec l’hypothèse d’une affectation au hasard, au seuil de 5%.
Remarque : On peut aussi recenser les valeurs de la variable « Condition » à l’aide du menu Statistiques – Statistiques élémentaires – Tables de fréquences :
puis utiliser le menu Statistiques – Tests non paramétriques – Tables 2×2, en indiquant les effectifs 19 et 31 dans les cases A/D ou B/C du tableau de contingence. On lit alors le résultat comme valeur du Chi-deux de Mac Nemar..