Le traitement des valeurs manquantes

Le traitement des valeurs manquantes

Analyses préliminaires

Avant de passer à l’analyse multivariée, il est nécessaire d’examiner au préalable les données pour pouvoir détecter les problèmes et trouver les solutions adéquates (Hair et al. 20093). Pour ce faire, nous avons procéder aux analyses suivantes : le traitement des valeurs manquantes, le traitement des valeurs aberrantes, le traitement des valeurs extrêmes et enfin le test de la normalité des données.

Traitement des valeurs aberrantes (outliers) et extrêmes

L’élimination des valeurs aberrantes et extrêmes permet également d’améliorer le caractère non multinormal des données. De nombreux tests statistiques sont 1 Shrout et Bolger (2002), op, cit. 2 Sobel, M. E. (1982), Asymptotic confidence intervals for indirect effects in structural equation models, Sociological Methodology, 13, p.290–313. 3 Hair et al. (2009), op, cit. 4 Raymond, M.R., & Roberts, D.M. (1987), A comparison of methods for treating incomplete data in selection research, Educational and Psychological Measurement, 47, p.13-26. La présence de données manquantes peut avoir un impact considérable sur les résultats de l’étude et leur interprétation néanmoins d’après le manuel IBM SPSS Missing Values 20, lorsque celle-ci représentent moins de 5% des données et se présentent aléatoirement leur effet n’est pas significatif et peuvent être supprimées. Pour Raymond et Roberts (1987)4, le seuil est fixé à moins de 10% des données. Pour ces taux, toutes les méthodes de substitution des données manquantes peuvent être utilisées. Dans notre cas le problème des valeurs manquantes ne se posait pas car grâce au mode de recueil que nous avons choisi (lsensibles aux valeurs aberrantes, il est donc important de les identifier et de prendre la bonne décision. Toute valeur extrême qui est anormalement élevée ou petite dans un ensemble de données est considérée comme valeur aberrante (Anderson et al., 20091). Ces valeurs sont différentes de la tendance globale des autres observations dans un ensemble de données dont les caractéristiques sont communes (Nicolau, 20052). Source des outliers Selon Tabachnick et Fidell, (2007)3, les valeurs aberrantes peuvent provenir : d’une erreur de saisie lors de l’entrée de données d’un mauvais mode de substitution des valeurs manquantes dans la syntaxe de l’ordinateur où les valeurs manquantes sont interprétées comme des données réelles. le répondant ne fait pas parti de l’échantillon sélectionné. L’échantillon choisi a une distribution non normale. Hair et al. (1998)4 identifient quatre raisons : 1. Erreurs de saisie de données ou codage incorrect (par exemple avoir une réponse « 6 » sur une échelle à cinq modalités codées de « 1 » à « 5 »). 2. Des événements exceptionnels ou inhabituels peuvent être la cause. Ils recommandent la suppression de ces valeurs. 3. Quelques valeurs aberrantes n’ont aucune explication ou les sujets sont de bons candidats pour la suppression. 4. Des valeurs aberrantes se produisent lors d’une combinaison de valeurs de plusieurs variables. Une fois les valeurs aberrantes détectées, le chercheur doit ensuite décider si elles devraient être supprimées ou conservées (Pallant, 20075). D’après Anderson et al. e questionnaire face à face), le sujet est obligé à répondre à toutes les questions.

Analyses exploratoires et confirmatoires

Des analyses exploratoires et confirmatoires ont été réalisées une deuxième fois sur l’ensemble des échelles pour s’assurer des résultats obtenus dans le chapitre précédent. Des ACP avec rotation promax ont été conduites sur les échelles : personnalité de la marque et les personnalités réelle et idéale des consommateurs. En outre, la rotation varimax a été appliquée aux autres échelles. Les résultats mentionnés en annexe 10 indiquent : Pour toutes les échelles, les données sont adéquates à la factorisation (tous les KMO sont supérieur à 0,7 et le test de sphéricité de Bartlett est significatif). Le pourcentage de la variance expliquée dépasse 70% pour les quatre construits. Les communautés et les poids factoriels des items sont également élevés (>0,5). Les personnalités réelle et idéale ont une structure identique à celle de la personnalité de la marque a été retrouvée pour avec 5 facteurs et 20 items1. L’alpha de Cronbach et le Rhô de Jöreskog sont très satisfaisants. Les analyses confirmatoires relèvent une bonne qualité d’ajustement des modèles.

La normalité des variables

La normalité désigne le degré par lequel la distribution des données d’échantillons correspond à une distribution normale (Hair et al., 20062). La normalité de la distribution observée peut être vérifiée par plusieurs tests selon le type de variable. Les tests de Kolmogorov-Smirnov et Shapiro-Wilk sont utilisés lorsqu’il s’agit de variables continues. D’autres tests sont conçus pour les autres variables. En général, les coefficients d’asymétrie (skewness) et d’aplatissement (kurtosis) sont souvent utilisés pour évaluer la normalité de la distribution des données (Tabachnick et Fidell, 2007)3 où la distribution observée est comparée à une distribution normale ou courbe de Gauss.