L’évaluation en France, un positionnement instable

L’évaluation, opération de jugement, étayée sur la méthode et orientée vers l’action

Au-delà de la diversité des définitions qui, selon les auteurs, mettent l’accent sur une composante particulière, on note une convergence sur la nature de l’évaluation : une opération qui consiste à construire un jugement (Mathison, 2005).
• L’évaluation est ce qu’elle est, la détermination du mérite ou de la valeur, et ce à quoi elle sert est une tout autre question » (Scriven, 1980, p.7).
• L’évaluation est « le processus pour décrire, obtenir et fournir de l’information pour juger des alternatives à la décision » (Stuffelbeam, 1973, p.129).
Par ailleurs, l’évaluation est définie en tant que méthode pour traiter l’information et ne peut être distinguée des finalités poursuivies.
• L’évaluation de programme est la collecte systématique de données au sujet des activités, des caractéristiques et des effets des programmes, afin de porter des jugements sur ces derniers, d’améliorer leur efficacité et/ou d’être en mesure de prendre des décisions plus éclairées au sujet des programmes futurs » (Patton, 1997, p.23).
Enfin, d’autres définitions mettent l’accent sur le questionnement.
« L’évaluation doit se préoccuper de l’utilité, de la mise en œuvre, de l’efficacité et de l’efficience des mesures qui ont pour but d’améliorer le sort des membres de la société » (Rossi et al., 2003, p.35).

Les fondements théoriques de l’évaluation

D’où vient l’évaluation ? Alkin (2004) utilise la métaphore de l’arbre pour présenter le développement de l’évaluation. Pour lui, les racines de l’évaluation sont doubles, d’une part, dans la recherche en sciences sociales, et, d’autre part, dans le contrôle et la reddition de comptes1. En fonction de la croissance de l’une ou l’autre de ces racines, l’évaluation s’est développée dans trois directions (branches), selon qu’étaient privilégiées, la méthode, la notion de valeur ou l’utilisation de l’évaluation. Analysant leurs théories, Alkin positionne les théoriciens de l’évaluation, principalement nord-américains, (nous n’en citerons que quelques-uns) sur la branche qui représente le mieux le courant dans lequel ils s’inscrivent.
La branche du milieu, Méthode, dérive de la recherche en sciences sociales. Fondée sur le paradigme scientifique, l’évaluation, considérée comme une activité de recherche, est guidée par les méthodes en vue de produire de la connaissance et des données probantes, objectives, valides. La preuve de l’efficacité, de même que les questions de validité et de reproductibilité sont fondamentales. Tylor, Campbell, Rossi, Chen et Weiss sont positionnés sur cette branche : Campbell pour ses travaux sur les devis expérimentaux, Tylor pour le développement de l’évaluation basée sur les objectifs, Chen pour la théorie de programme visant à expliciter les relations de causalité. Selon cette orientation, l’évaluation est une activité scientifique et l’évaluateur adopte une posture de chercheur.
La branche Valeur représente l’évaluation orientée vers le jugement. L’évaluateur joue un rôle fondamental car c’est lui qui choisit les critères et le modus operandi pour introduire du jugement dans les données. C’est le modèle de l’évaluation expertise au service des décideurs. Les théories sont inspirées des travaux de Scriven pour qui, « ce qui est mauvais est mauvais et ce qui est bon est bon, et c’est à l’évaluateur qu’il incombe de décider lequel est lequel » (Scriven, 1986, p.19). D’autres auteurs adoptent cette orientation avec toutefois des nuances. Pour House, l’évaluateur ne détermine pas ce qui est bon ou mauvais mais ce qui est juste. Guba et Lincolm considèrent que la détermination du mérite revient aux parties prenantes, dont les perceptions et interprétations traduisent les multiples aspects de la réalité ; le rôle de l’évaluateur est de faciliter la négociation des différents points de vue.
La branche Utilisation porte les théories de l’évaluation centrée sur l’utilisation. L’évaluation doit aider les utilisateurs à prendre des décisions pour leur programme. Stuffelbeam a développé le modèle CIPP (Context, Inputs, Process, Products) centré sur le processus de décision. Selon son approche, l’évaluateur s’entoure d’un collectif avec qui définir les questions d’évaluation, le devis, réviser le rapport et en diffuser les conclusions. Il a par ailleurs identifié les quatre principaux standards (utilité, faisabilité, précision, propriété) devant guider la pratique des évaluateurs. Wholey qui définit l’évaluation comme une forme appliquée de la recherche en sciences sociales, insiste sur l’importance de s’accorder sur les buts du programme et les critères de performance ; il a développé la notion d’évaluabilité (evaluability assessment), exercice qui permet d’apprécier l’utilité et la faisabilité de l’évaluation avant de s’y engager. Patton (1997) est un des auteurs qui a le plus développé la théorie de l’utilisation (utilization-focused evaluation). Il considère que l’évaluation doit être entièrement orientée sur les besoins des utilisateurs et préconise d’identifier les véritables utilisateurs de l’évaluation, « intended primary users », l’intérêt des personnes envers l’évaluation étant le facteur le plus influent de l’utilisation. Plus récemment, Patton (2010) a introduit l’évaluation développementale (developmental evaluation) selon laquelle l’évaluateur est partie prenante de l’équipe du programme, son rôle étant d’en aider le développement. Alkin, l’auteur de l’ouvrage figure sur cette branche dans la lignée de Patton, ainsi que les auteurs, tels que Cousins, Preskill, et Fetterman, qui soutiennent les approches participatives et habilitantes. L’évaluateur aide les utilisateurs à choisir les modèles et approches en fonction de leur situation particulière.
L’arbre de Alkin, révisé depuis sa première édition, présente l’avantage de situer les auteurs et leurs théories dans une filiation, de comprendre les proximités et les différences entre ces théories et, transposé à notre contexte, leurs prolongements dans les représentations et pratiques d’évaluation actuelles.

L’évolution de l’évaluation

D’autres auteurs ont analysé la trajectoire de l’évaluation à travers son évolution dans le temps en reliant les principales étapes de son histoire aux contextes sociopolitiques.

L’évaluation sur quatre générations

Considérant l’évaluation dans sa chronologie, Guba et Lincolm (1984) ont proposé une division en quatre générations. Le résumé de cette évolution s’appuie sur la synthèse présentée par Dubois et al. (2009).
Héritage du siècle des Lumières, l’évaluation de première génération (début XIXème aux années 30) place la rationalité au cœur de la démarche. La recherche scientifique est la voie privilégiée pour accroître la connaissance indispensable à la construction des politiques destinées à l’amélioration des conditions de vie. Bénéficiant des apports de la statistique et de l’épidémiologie, l’évaluation élabore des outils de collecte et de mesure pour documenter, quantifier, comparer les conditions de vie des populations. C’est l’ère de la mesure et l’évaluation demeure l’apanage des techniciens et experts.
L’évaluation de deuxième génération (années 30-60) s’est développée en réaction aux insuffisances des méthodes précédentes, lesquelles ne rendraient pas compte des performances des programmes. Les travaux de Tyler sur la mesure de l’atteinte des objectifs sont alors déterminants dans la diffusion de cette approche. C’est la naissance de l’évaluation formative car l’évaluation est attendue sur des propositions d’amélioration des programmes. Cette période est marquée par deux convictions : l’obtention d’un progrès social avec les politiques menées et l’utilisation des connaissances pour améliorer les politiques. Outre les activités de mesure, l’évaluateur doit apporter des éléments de compréhension et des perspectives d’amélioration. Davantage descriptive, l’évaluation émerge comme activité propre et différente de la seule mesure. L’évaluation de troisième génération (années 60-70) prend acte des critiques formulées sur les méthodes, jugées insuffisantes pour éclairer la décision. Il manque des éléments pour juger de la valeur et de la pertinence des objectifs des programmes et c’est à l’évaluateur qu’il revient d’accomplir cette fonction. C’est à cette période que se situent les travaux de Stuffelbeam (modèle CIPP) et de Scriven sur la construction du jugement évaluatif. L’évaluation acquiert une légitimité scientifique pour la décision. Cependant, constatant qu’elle est peu utilisée, ou utilisée sans relation avec la qualité scientifique des travaux, plusieurs auteurs, dont Weiss (1997) vont approfondir la problématique de l’utilisation et développer l’approche centrée sur les utilisateurs. La production d’ouvrages pédagogiques, de revues, la création d’associations professionnelles, la mise en place de normes attestent de la construction d’un champ professionnel spécifique à l’évaluation. L’évaluation de quatrième génération (à partir des années 90) accorde sa faveur à une approche différente, fondée sur le paradigme constructiviste. Guba et Lincolm (1984) s’inscrivent dans la tradition ontologique qui postule que la réalité en soi n’existe pas et soutient que la réalité est le produit d’une construction sociale. Dans cet esprit, la connaissance requise pour l’évaluation se construit avec les parties prenantes de l’évaluation. Cette approche élargit le cercle de l’évaluation à d’autres acteurs que les seuls experts, positionne l’évaluateur comme négociateur et facilitateur et préconise le pluralisme des méthodes. Elle sera le tremplin au développement des approches participatives. L’évaluation n’est pas seulement un outil au service des décideurs, c’est aussi un instrument d’émancipation.
Ces quatre générations, privilégiant des normes très différentes, coexistent encore aujourd’hui, comme l’illustre l’auteur suivant.

La diffusion de l’évaluation en quatre vagues

Plus récemment, Vedung (2010) a retracé l’évolution de l’évaluation des quarante dernières années, avec un focus particulier sur la Suède et, dans une moindre mesure, les pays du Nord. Pour cet auteur, l’évaluation est le produit de la sédimentation d’éléments déposés par vagues successives. Il associe, s’agissant de la Suède, le flux des différentes vagues aux idéologies politiques des gouvernements. Sa lecture de l’histoire, brièvement résumée ci-dessous, prolonge la présentation précédente.
Le première vague, scientifique, déferle dans les années 60. L’évaluation est basée sur le paradigme positiviste. L’évaluation, qui mobilise un arsenal de méthodes scientifiques, introduit de la rationalité dans les politiques. Le modèle d’ingénierie de l’action publique permet l’interaction entre la décision publique et le monde scientifique. L’évaluation est conçue dans une vision instrumentale au service de la décision. Selon la classification précédente, elle serait dans sa troisième génération.
La seconde vague, orientée vers le dialogue, présente les caractéristiques de l’évaluation de quatrième génération. L’évaluation produit de la connaissance et du sens avec les parties prenantes. C’est une arène pour l’expression de la démocratie.
La troisième vague, néolibérale, réintroduit la science, l’évaluation démocratique basée sur les idéologies étant jugée biaisée. Inscrite dans la réforme du New Public Management, l’évaluation met alors l’accent sur le management basé sur les résultats, la mesure de la performance, le développement des outils de suivi. La satisfaction des consommateurs (bénéficiaires) a relayé les points de vue des parties prenantes sur les opinions et besoins à prendre en compte.
La quatrième vague, retour vers expérimentation, (1995-2000) signe la résurgence de la science avec la quête de la preuve (evidence). La production croissante de revues systématiques, la hiérarchie des niveaux de preuve qui place les études randomisées au sommet donnent un autre visage à l’évaluation.
La métaphore des vagues est tout à fait illustrative de la constitution par strates successives de la culture d’évaluation, chaque vague apportant son lot de transformations sans pour autant emporter les sédiments de la vague précédente.

Les enjeux de l’évaluation aujourd’hui

Les enjeux de l’évaluation aujourd’hui témoignent de ces évolutions.
La sophistication des méthodes reste d’actualité. A côté des méthodes expérimentales, d’autres méthodes sont à l’honneur : l’approche Realist de Pawson et Tiley (1997), l’évaluation basée sur la théorie (Chen, 2010), la formalisation des méthodes mixtes (Guével and Pommier, 2012), la recherche de méthodes adaptées à l’évaluation des interventions complexes (Walton, 2014). L’analyse du contexte comme cadre de référence fait désormais partie de l’arsenal des méthodes d’évaluation (Rog et al., 2012).
La recherche sur les formes d’évaluation participative, collaborative, habilitante qui mettent l’accent sur la participation des parties prenantes (Rodriguez-Campos, 2011) a capté l’intérêt des praticiens de l’évaluation.

L’évaluation, une activité spécifique

Les exposés précédents ont montré la pluralité des formes prises par l’évaluation et des théories qui la sous-tendent. L’idéal de la pratique s’incarne dans une chaîne logique entre les attentes envers l’évaluation, le questionnement, l’approche et la méthode choisie.
Les buts de l’évaluation sont multiples : juger de la valeur, rendre compte, juger de la conformité, améliorer le programme, développer la connaissance (Fitzpatrick et al., 2009). La finalité de l’évaluation, point de départ de la démarche, détermine la stratégie et l’approche de l’évaluation. La stratégie est définie comme « la direction générale pour atteindre le but d’une évaluation donnée2 » et l’approche comme « l’ensemble des procédures et principes guidant l’évaluation pour satisfaire les attentes des parties prenantes3 » (Chen, 2004, p.144).
Le choix de l’approche dépend de la commande institutionnelle d’évaluation mais aussi de la pratique de l’évaluateur. Certains ajustent leur modèle au contexte, d’autres utilisent leur modèle favori quel que soit le contexte et une partie d’entre eux ne travaillent que dans des contextes qui leur conviennent (Contandriopoulos and Brousselle, 2009).
L’habilité de l’évaluateur s’apprécie dans la façon dont il combine connaissances, savoirs expérientiels, perception du contexte et affects pour appliquer sa théorie de l’évaluation sur un terrain à chaque fois nouveau et souvent imprévisible (Kundin, 2010). Stevahn et al. (2005) ont fourni un cadre d’analyse des compétences essentielles requises pour les évaluateurs de programme. Ces dernières associent des qualités méthodologiques, une connaissance du contexte et des aptitudes personnelles et relationnelles (Tourmen, 2009).
Ces particularités nous aident à distinguer l’évaluation d’autres formes de production de connaissances, que sont la recherche et l’expertise.

La distinction entre évaluation, recherche et expertise

L’évaluation présente à la fois des traits communs et des différences avec la recherche et l’expertise.

L’évaluation, une forme de recherche appliquée

Wholey (2004) considère l’évaluation comme une forme appliquée de recherche en sciences sociales. Son but principal est de regarder les résultats du programme pour rendre compte, améliorer la performance du programme et accompagner la décision.
Pour Weiss (1997) et Levin-Rozalis (2003), l’évaluation présente des similitudes et des différences avec la recherche. Levin-Rozalis (2003) soutient que l’évaluation dépend avant tout de l’action. Pour Weiss (1997), l’évaluation se rapproche de la recherche parce qu’elle fait appel aux mêmes méthodes de recherche et techniques d’enquête. Cependant, elle s’en distingue par le cadre de la commande et les compétences requises. Les questions évaluatives sont orientées par les décideurs et les praticiens en fonction de l’utilisation prévue de l’évaluation.
Ce qui distingue l’évaluation de la recherche, ce n’est pas la méthode ou le sujet mais le but pour lequel elle est faite4» » (Weiss, 1997, p.15).
Cet auteur considère que l’évaluation exige un plus haut niveau de compétences que la recherche afin de produire une recherche rigoureuse, utile et adaptée à la complexité du monde réel.

L’évaluation, une forme d’expertise collective

L’évaluation est-elle synonyme d’expertise ? Tabuteau (2010) explorant les figures de l’expert et ses relations avec la décision en santé publique, débute son propos par un rappel de l’étymologie du terme. L’expertise est avant tout définie par celui qui la réalise. Le Littré définit les experts comme les « personnes qui ayant la connaissance acquise de certaines choses, sont commis pour les vérifier et en décider ». Tabuteau identifie les deux fonctions de l’expert : produire des connaissances nécessaires à la décision – l’expert « antidote de l’ignorance » ; produire les méthodes et cadres de réflexion en vue de les interpréter.
De ce point de vue, l’évaluation tend à se confondre avec l’expertise, rejoignant la conception de Sriven. Cependant, la reconnaissance par plusieurs auteurs du rôle des parties prenantes dans la négociation des référentiels de jugement en fait un exercice d’une autre nature. L’étendue des acteurs impliqués, leur degré de participation et le rôle de l’évaluateur dans l’animation de la démarche composent une palette de situations, de l’évaluation experte et dissociée de l’action à une activité clairement délibérative.

L’évaluation, une pratique composite, clivée, contrastée, pluridisciplinaire

A la croisée de la connaissance et de l’action5 », l’évaluation est une pratique composite, contrastée, clivée et résolument pluridisciplinaire.
Composite parce qu’elle est façonnée par un ensemble de paramètres : les attentes des demandeurs, les finalités et enjeux, les types d’acteurs engagés, la nature de leur implication et leurs représentations de l’évaluation, les approches, les méthodes, la temporalité de l’évaluation et les contextes sociopolitiques ;
Clivée à cause des deux traditions philosophiques radicalement différentes qui la sous-tendent (Dubois and Marceau, 2005) ; ainsi, pour Trosa (2010), l’évaluation demeure « dans un équilibre difficile entre le positivisme et le constructivisme, entre la preuve et la construction de l’argumentaire ».
Contrastée parce qu’elle épouse des formes variées, selon la prédominance des dimensions (cognitive, instrumentale, normative, démocratique) qu’elle porte ;
Pluridisciplinaire parce qu’elle emprunte les méthodes d’une variété de disciplines pour recueillir et traiter les données qui lui sont utiles.
Le chapitre suivant situe l’évaluation dans le contexte français, précisant les étapes qui ont jalonné son histoire, les courants principaux qui la traversent et les modèles de référence, souvent implicites qui étayent les pratiques.