Remonter
Évaluation de groupes
Indices de fidélité

 

Indices généraux

Indices généraux de validité

Les nombres sont, parmi toutes les conceptions, les plus faciles a opérer et la science cherche partout des opportunités de les appliquer. (Bertrand Russell)

Ces pages expliquent quelques notions pour juger la fiabilité et la viabilité de nos mesures de façon générale. Il y a des exemples plus concrets provenant du monde du travail, du milieu académique et d'autres milieux. Des indices du genre sont aussi disséminés ailleurs, par exemple. Ces indices sont généralement enseignés dans les cours d'introduction aux statistiques en psychométrie.

Ils sont enseignés, mais de moins en moins. La psychologie comme domaine d'étude tourne le dos à la mesure.

La distinction de Dokimos

Ce qui est particulier chez Dokimos c'est que le laboratoire est à côté. Ceci permet de faire un lien bien plus direct entre les règles générales et les cas particuliers.

Notre attitude est de supposer que nous avons de bonnes prédictions sur des groupes quand nous avons démontré nous-mêmes que nous en avons. Quand nous interprétons les tests pour des cas individuels, nous utilisons de façon plus libérale les travaux d'autres chercheurs et provenant d'autres domaines que la psychologie.

Il n'est pas question ici des règles fondamentales qui servent à faire des tests. Elles sont dans les manuels. Il est question ici de prédictions qu'on fait avec un test existant et avec plusieurs mesures. Il est aussi question des prédictions qui sont faites avec de grands groupes varié. Le fait que des prédictions avec des groupes différents vont dans le même sens est une preuve bien plus solide qu'un seul chiffre obtenu avec un seul groupe et une seule mesure. Les statistiques ne sont qu'une façon de structurer des arguments. Dans la vraie vie, il faut dépasser les chiffres et porter des jugements à un moment donné. Rendu là, le jugement des non-spécialistes vaut bien celui des théoriciens.

Les tests sont bons

Il se donne des millions de tests chaque année dans le monde et c'est une grosse industrie. L'Académie nationale des sciences des États-Unis a examiné la validité des tests psychologiques. Widgor et Garner ont publié en 1982 des résultats que l'Académie a endossé. Bien qu'ils ne soient loin d'être parfaits, les tests sont la façon la plus juste, la plus précise pour prendre des décisions au sujet des individus. Ils ont dit que c'était la meilleure méthode (the best). Wigdor, A., (1982 Psychological  testing and the law of employent discrimination. In A. Wigdor & W. Garner (Eds), Ability testing: Uses consequences and controversies, Part II: Documentation section, Washington DC, NAS

Malgré tout, c'est un domaine où la controverse règne car des points de vue bien différents se côtoient. Éliminons ici le point de vue des gens qui rejettent les tests parce que faire des différences entre les gens n'est pas gentil. Ce point de vue est facile à réfuter.

La contestation interne

Les spécialistes de la psychométrie ne sont pas nécessairement des experts de l'interprétation des tests. Il y a d'un des spécialistes de la personnalité qui utilisent des tests. Des praticiens ne connaissent pas grand chose en psychométrie et bien des théories sont basées sur des opinions et l'expérience clinique. Des interprètes des tests donnent un sens aux mesures et aux combinaisons entre les mesures sans se compliquer la vie. Ils le font sans faire appel à des calculs et sans s'appuyer sur des lois générales locales. Ils peuvent dire ce que des chercheurs ont fait ailleurs avec d'autres populations et d'autres tests. Ils peuvent aussi interpréter de façon originale, mais c'est plus risqué.

Il y a en psychologie bien des experts qui ne s'intéressent pas aux différences individuelles. Pour les chercheurs, les différences entre les sujets d'un groupe expérimental sont du bruits expérimental. C'est une nuisance dont ils se passeraient bien. D'autres ne croient pas qu'il y a des différences stables entre les personnes. Ces chercheurs sont évidemment très critiques de nos activités.

Enfin, il y a des chercheurs qui développent des outils et qui sont très critiques des outils qu'ils développent. Tout simplement parce qu'ils sont sévères. Ils veulent toujours faire mieux. Tant que les psychologues prétendront être des scientifiques-professionnels, le jugement des experts qui pratiquent ne comptera pas beaucoup. Il en résulte que l'opinion des chercheurs prévaut, ce qui fausse les règles du jeu. En médecine, la patron qu pratique est e grand expert. En psychologie, le modèle du scientifique-professionnel dicte que le chercheur est le grand patron. Le savoir pratique n'a pas beaucoup de poids.

Par exemple, les chercheurs ne s'intéressent qu'aux mesures les plus récentes qui n'ont pas été validées dans une variété de milieux. Ces concepts les plus récents sont prometteurs. Pourtant, plusieurs ne tiendront pas la route ou ajouteront peu à ce qui existe déjà. Le meilleur outils de diagnostic approuvé pour usage courant dans un hôpital n'est jamais aussi précis que les meilleurs essais d'un appareil expérimental qui sera au point dans 5 ans. Il est normal d'attendre monts et merveilles des nouvelles techniques pour réaliser plus tard que ce n'est pas si génial.

Les chercheurs montrent aux étudiants comment valider une échelle une fois, mais oublient qu'un outil est vraiment bon quand il a été validé dans plusieurs milieux. Ils oublient que les praticiens utilisent beaucoup de mesures à la fois. Le point de vue des chercheurs et des théoriciens n'est donc pas le nôtre. Nous cherchons les différences individuelles et nous interprétons en accumulant le savoir pratique de façon organisée.

La transparence

Il faut donc établir que les tests prédisent bien malgré tout ce que disent les experts de la psychologie. Ce n'est pas inutile de dire aussi qu'ils sont aussi précis que les tests utilisés en médecine. Dans le cas de la médecine, la précision des tests de laboratoire n'est pas expliquée au patient de façon générale.

La tradition de la psychologie est différente et l'ouverture est la norme. C'est une bonne chose que d'expliquer les outils qui servent à prendre des décisions importantes. Il faut cependant faire la différence entre les outils des chercheurs, leurs normes idéales, et des outils pratiques qui ont accumulé des preuves de validité dans plusieurs milieux.

De façon générale, les normes sont devenues de plus en plus sévères, mais la façon de penser la validité a aussi beaucoup évoluée. Les concepteurs d'outils doivent être transparents, mais les critiques doivent aussi se mettre à jour.

Un outil est valide quand un réseau de preuves variées, un réseau nomothétique, attestent de sa validité. Les chercheurs n'accumulent pas ces preuves. Ils ont tendance à valoriser les indices mathématiques initiaux et ils ne tiennent pas compte de l'accumulation des preuves provenant de sources variées et de la puissance issues de l'usage de plusieurs mesures. Quand un outil fournit plusieurs mesures, la prédiction dépasse au global ce que les chercheurs peuvent obtenir avec une seule mesure ou deux mesures.

De leur côté, les chercheurs font des échelles pour des populations spécifiques. Ils obtiennent lors de la conception des indices plus élevés que ceux qui sont obtenus avec une variété de populations. Quand ces mesures sont appliquées dans d'autres milieux, elles perdent en qualité. La traduction est aussi une source de perte de qualité.

Les professeurs de psychométrie

Les professeurs de statistiques sont sont souvent les garants de la pureté méthodologique en recherche. Ils ont tendance à proposer que faire une échelle une fois est toute la psychométrie. Par exemple, Le livre de N. Pettersen (2000, Évaluation du potentiel humain dans les organisations, PUQ, Ste-Foy) porte un sous-titre: Évaluation et validation d'instruments de mesure.

C'est un bon livre qui traite de l'évaluation et de la validation des instruments de mesure. Dans notre perspective, le sous-titre du livre devrait être le titre. Il reste de la place pour plusieurs autres volumes avant de couvrir l'évaluation psychométrique comme domaine.

Le livre de Pettersen ne traite donc pas de l'usage des statistiques quand un outil a été élaboré. Il traite de la validation seulement dans le contexte de la conception. Une fois que la validité initiale est suffisante pour travailler, c'est l'accumulation de la preuve qui compte. Un bon test a donc accumulé des preuves de validité dans plusieurs milieux. Si ce travail n'a pas été fait de façon soutenue, c'est difficile d'utiliser le test une première fois dans un nouveau milieu. Les praticiens doivent faire du bon travail du premier coup.

Un bon outil peut faire un bon travail dans une variété de situations et c'est légitime de l'utiliser s'il y a de bonnes chances de bien prédire. Un chercheur n'a pas ces contraintes, mais il ne tente pas non plus d'utiliser plusieurs mesures. Il a assez de travail à développer quelques mesures nouvelles. Il cherche à définir la mesure. Il ne peut combiner la mesure à définir avec plusieurs autres.

La synergie entre les mesures

Nous avons une grande variété de mesures qui couvrent les domaines du fonctionnement intellectuel au travail, pas juste celui du fonctionnement intellectuel académique. Nous combinons ces mesures avec des mesures de la personnalité. Par exemple, être créatif exige une façon de voir les choses et des capacités intellectuelles. La synergie entre ces types de mesures donne les meilleurs résultats possible. Historiquement, les études du fonctionnement intellectuel ont été faite sans lien avec les mesures de la personnalité.

En fait, les experts d'un type de mesure sont comme les enfants auxquels on donne un marteau. Bien des choses deviennent des clous. Leurs mesures préférées ne conviennent pas toujours. C'est la force de notre approche que de couvrir presque tous les angles et de constituer un filet aux mailles assez petites pour comprendre une grande variétés d'individus.

Remonter Évaluation de groupes Indices de fidélité