Evaluation du questionnaire et validation des échelles de mesure

Evaluation du questionnaire et validation des échelles de mesure

Les critères de qualité des instruments de mesure

Selon Evrard & al. [2000, p.288], deux critères importants permettent de juger de la qualité d’un instrument de mesure : il s’agit de sa fiabilité (ou fidélité) et de sa validité.

La fiabilité

La fiabilité de l’outil de mesure est satisfaisante lorsque celui-ci est suffisamment stable et cohérent : le même phénomène mesuré plusieurs fois avec le même instrument doit permettre d’obtenir le même résultat, et les énoncés constituant l’outil de mesure doivent permettre au répondant d’apporter des réponses cohérentes. La fiabilité peut donc être évaluée de plusieurs manières : – La stabilité de l’outil peut être estimée dans le temps en administrant le même questionnaire à la même population à deux moments différents (méthode du test-retest). Elle peut également être évaluée auprès de sujets différents, en administrant en même temps le même questionnaire à deux échantillons différents (méthode des deux moitiés ou « split-half »). En pratique cette méthode des deux moitiés consiste soit à scinder l’échantillon de l’enquête en deux moitié et vérifier que les résultats obtenus sur les deux moitiés sont suffisamment corrélés, soit à scinder en deux les items d’une échelle de mesure et vérifier que les deux demi-échelles donnent des résultats corrélés sur l’ensemble de l’échantillon [Igalens & Roussel – 1998]. – La méthode recommandée pour mesurer la cohérence interne (appelée aussi homogénéité ou consistance) des échelles de mesure est généralement le calcul du coefficient Alpha de Cronbach [Cronbach – 1951]. Ce coefficient permet de vérifier si tous les items se réfèrent à des notions communes, autrement dit si chaque item présente une cohérence avec l’ensemble des autres items de l’échelle [Igalens & Roussel – 1998, p141].

La validité La validité d’un outil de mesure

correspond à sa capacité à mesurer effectivement et efficacement le construit visé. Cette notion est propre au champ des sciences sociales, dans lesquelles la recherche porte souvent sur des concepts abstraits, non directement observables [Drucker & al.. 1999]. Cette validité doit être envisagée à plusieurs niveaux : on distingue habituellement la validité de contenu, la validité de trait et la validité prédictive.

La validité de contenu ou validité faciale

Il s’agit d’une évaluation subjective mais systématique de la manière dont le contenu d’une échelle représente bien le construit à mesurer [Malhotra – 2004 p 209]. Ce type d’évaluation est en général réalisé par le chercheur, qui peut s’appuyer également sur le jugement de ses pairs : le critère de validité repose alors sur la notion d’accord intersubjectif. Une échelle de mesure sera donc jugée valide si elle fait l’objet d’un consensus auprès d’un certain nombre d’experts. La vérification de la validité de contenu apparaît à la fois comme la première étape et le minimum requis lorsque l’on souhaite mesurer l’adéquation de l’outil de mesure par rapport aux concepts à mesurer [Schrieschen & al. – 1995]. En pratique, tester la validité de contenu d’un outil de mesure consiste à soumettre celle-ci au jugement de deux types d’évaluateurs : il s’agit en premier lieu des experts du domaine étudié (chercheurs ou professionnels connaissant bien le sujet) et en second lieu des représentants de la population à qui est destinée l’étude. A l’issue de cette opération, une première épuration des différentes échelles peut être réalisée en supprimant les items peu compréhensibles ou mal adaptés à la population visée, ainsi que les items peu représentatifs du concept, ambigus ou redondants [Roussel – 2005]. En ce qui concerne la présente étude, la validité de contenu sera évaluée lors d’un pré-test auprès d’un échantillon composé de d’experts du domaine (responsables d’agence) et d’intérimaires.

La validité de construit ou validité de trait

Tester la validité de construit dans une logique quantitative revient généralement à évaluer la représentativité statistique des items d’une échelle de mesure [Drucker & al.. 1999] : il s’agit pour le chercheur de s’assurer de la validité convergente et discriminante du construit. La validité convergente est assurée si l’on peut vérifier que les énoncés issus d’une échelle et destinés à mesurer un construit particulier soient suffisamment corrélés entre eux, ou que différents outils de mesure du même construit donnent des résultats convergents. La validité discriminante est assurée lorsque les items de l’échelle se distinguent suffisamment des items censés mesurer d’autres phénomènes voisins. Plusieurs méthodes sont utilisables pour apprécier la validité convergente et discriminante : l’une des plus souvent recommandée est la matrice multitrait- multiméthodes [MTMM, Campbell & Friske – 1959], qui consiste à mesurer un construit multidimensionnel en utilisant plusieurs méthodes : l’application de cette méthode dans le champ de l’implication organisationnelle conduit par exemple le chercheur à mesurer les trois composantes de l’implication (affective, calculée et normative) en utilisant plusieurs échelles de mesure (ex : échelles tri-dimensionnelle de Meyer & Allen et d’O’Reilly & Caldwell). Cette méthode est rigoureuse, mais difficile à employer dans une étude telle que la notre, comportant plusieurs échelles de mesure, car elle alourdit considérablement le questionnaire et le rend difficilement testable. La difficulté de mise en place de la méthode MTMM conduit souvent les chercheurs à lui préférer l’analyse factorielle, dont l’utilisation dans le domaine de la GRH progresse constamment depuis les années 60 [Igalens & Roussel – 1998, p.153]. Ce type d’analyse permet de juger à la fois de la validité convergente et discriminante des échelles de mesure. On peut schématiquement affirmer 288 que la validité convergente (capacité à mesurer précisément le concept) est assurée lorsque les résultats de l’analyse factorielle montrent que les items d’une échelle sont suffisamment corrélés à un facteur, et la validité discriminante (capacité à mesurer uniquement le concept) est assurée lorsque ces items sont corrélés de manière claire à un seul axe si le construit théorique sous-jacent est considéré comme unidimensionnel, ou à plusieurs axes (sans chevauchement) lorsque le construit est considéré comme multidimensionnel. Dans le cadre de la présente étude, nous utiliserons donc l’analyse factorielle pour évaluer la validité des échelles de mesure multiples destinées à mesurer certaines variables. Bien que plusieurs échelles de notre questionnaire aient déjà fait l’objet de procédures de validation, nous entreprendrons de nouveaux tests, en suivant les propositions d’Igalens & Roussel [2005 p.106] qui recommandent de procéder à une vérification de fiabilité et de validité pour les questionnaires incorporant des outils préexistants, mais destinés à être utilisés dans un contexte différent de celui pour lequel ils ont été conçus.

La validité prédictive ou validité nomologique

La validité nomologique ou prédictive d’un construit peut se définir comme « le degré auquel les prévisions fondées sur un concept, qu’un instrument est censé mesurer, sont confirmées » [Zaltman & al- 1973, cités par Drucker Godard & al. – 1999 p 259]. Comme le remarquent Igalens & Roussel [1998], cette validité prédictive ne peut être évaluée qu’au moment de l’étude des relations empiriques entre les concepts. Il s’agit alors de vérifier que les prédictions théoriques concernant les relations entre les concepts mesurés sont vérifiées par des tests portant sur les données empiriques. Dans le cas de notre recherche, la validité nomologique pourra donc être évaluée lors de la phase de discussion des résultats obtenus suite aux tests réalisés sur les hypothèses de notre modèle (voir chapitre suivant).

Télécharger le cours complet