Remonter

 

Entretenir un test

 

Cette page démontre que les outils basés sur des méthodes statistiques ont besoin d'entretien. Il est de plus en plus clair que les vieux outils utilisés ont besoin d'être revus et améliorés quand c'est possible. Le cas d'un test très utilisés qui avait besoin d'être amélioré montre que c'est possible. Il est cependant aussi évident que la pression pour le faire n'est pas encore assez grande pour que la chose se fasse systématiquement.

Campbell et Fiske, en 1959, posaient déjà bien le problème de la validation dans un article qui a fait époque. Il ne faut plus penser qu’un test est un produit figé. Sa validation doit être continue et il faut voir les gains obtenus. "Psychologists today should be concerned not with evaluating tests as if the tests were fixed and definitive, but rather with developing better tests. ...We are proposing that the validational process be viewed as an aspect of an ongoing program for improving measuring procedures and that the “validity coefficients” obtained at any one stage in the process be interpreted in terms of gains over preceding stages and as indicator of where further efforts is needed (p. 103)".

 *16PF est une marque de commerce déposée de IPAT qui en surveille bien l'usage. Nous préférons renommer le test 4X4PF puisque nous proposons une autre correction.

Correction du 4X4PF version 4 en 2002

En 2001-2002, dans le cadres de travaux du comité des tests de la SQPTO, Hélène Lepire, Jacques Ouellet et Robert Léveillé ont partagé des fichiers pour améliorer la correction du 4X4PF(R)    Les trois ont partagé ensuite les résultats combinés de ces sujets de la forme française A, version 1977.

Les échelles du test ne sont pas toutes fidèles à un degré suffisant quand on utilise la grille originale. La solution a été d'enrichir les échelles à partir des items déjà présents dans le test. Les échelles de ce test sont en corrélation à cause de sa construction. C'est normal d'espérer trouver ailleurs de bons items avec un peu de chance.

Nous avons présenté ces données à l'Université de Sherbrooke au colloque du Département de psychologie en mai 2002. Une fois les échelles améliorées, il restait à faire les analyses factorielles pour ces nouvelles échelles. Ceci, dans le but de trouver de nouvelles échelles secondaires (selon l'ancienne appellation de 1977).

Ce travail laisse place à plus d’arbitraire. J’ajoute maintenant des normes calculées avec les nouvelles formules et une présentation selon les 5 facteurs de l’approche des Big 5 qui ressemble autant que possible à ce qui a été publié avec la version 1993 (la nouvelle version 5 par les éditeurs du test). L'appellation a changé en 1993 et nous essayons ici de faire du neuf avec du vieux.

La consigne

La consigne française du questionnaire encourage les sujets à répondre B plus souvent que la consigne originale en anglais. L’effet est dévastateur pour qui veut utiliser les normes et les interprétations originales publiées en anglais. Il faut modifier la consigne pour restreindre ce phénomène à l’avenir. C’est d’autant plus grave que le test a peu d’items par échelle au départ. Depuis la publication du Handbook de 1970 existe, il est recommandé par l’auteur de donner deux formes du test. Par exemple la forme A plus la forme B pour avoir assez d’items dans les échelles. Ceci, pour avoir des résultats fiables. Hors, en français, les versions A et B ne sont pas présentées sous le même format et n'ont pas été traduites de la même façon.

La solution la plus réaliste est d'adopter la même optique que celle adoptée en 1993. Il faut considérer que les échelles secondaire de 1977, qui sont composées de plus d’une échelle primaire, ont assez d’items et de fiabilité. Il faut donc les mettre en évidence et considérer que les échelles primaires sont des facettes moins fiables, comme dans le cas du Neo-PI. C’est la solution qui est proposée dans la version 5 de 1993 et elle est aussi applicable aux questionnaire de 1977.

Pour ce faire, il faut quand même des échelles primaires fiables au niveau d'une population. On peut ensuite compter sur plus d’une échelle pour atteindre le nombre d’items suffisant pour interpréter chaque échelle composite dans des cas individuels.

La correction spéciale

Un autre problème avec le 16PF est la correction qui donne des points aux sujets qui répondent évasivement. Sans le réaliser, les utilisateurs du test interprètent les réponses de gens qui ont refusé de répondre, ou qui n’ont pas été capables de le faire. Ceci est difficile à justifier. Cattell ne l’a jamais fait, mais les résultats obtenus avec les items indiquent qu’il savait ce qu’il faisait. La prudence nous dicte de nous en tenir à ce que nous comprenons.

Le tableau 1 provient du texte qui a été présenté à l’université de Sherbrooke lors du colloque annuel de mai 2002. Ce tableau montre que les indices alpha de plusieurs échelles ne sont pas suffisants. Comme la version B a été traduite en France, elle ne permet pas vraiment de doubler le questionnaire ici. Les résultats qui suivent impliquent que ce test ne devrait pas être utilisé autrement que pour des activités de recherche avec les échelles les plus fiables. Ce serait important que l’Ordre des psychologues prenne position sur le sujet. Une prise de position sur les techniques utilisées aurait plus d’impact que des vœux pieux sur le comportement moral des psychologues. Il faut de bons outils et les dentistes disent comment il faut stéréliser les instruments. Ce n’est pas dégradant pour un ordre professionnel de dire à ses membres comment agir avec des techniques. C’est même le plus important quand il y a des techniques car ce sont elles sui définissent le plus assurément la contribution d’une sorte de professionnels. Les grandes professions ont des actes réservés et des outils.

 L’amélioration de la fiabilité

Comme les échelles étaient en corrélation, il a été possible de piger dans des échelles similaires des items pour améliorer les indices alpha. La colonne de droit du tableau 1 (en caractère gras) montre les indices obtenus par cette méthode en utilisant seulement les données des sujets qui ont répondu 8 fois ou moins B.

 L’Échelle I demeure faible et cette échelle va former un facteur en soi dans la nouvelle interprétation. C’est une faiblesse qui va durer à moins d’ajouter quelques items. Ce que nous nous proposons de faire. Dans le manuel technique de 1993, ces indices sont à la page 81. Avec 3 échantillons différents de 820 à 1340 sujets l’alpha le plus faible est de .64. Avec tous ces sujets mis ensemble, il y en a un de .66. Nous sommes donc assez près de cette qualité. L’indice alpha ne peut être calculé pour les échelles globales qui sont dérivées.

 

 

N = 2207

N de B moyen = 25.27

N = 1185

N de B moyen =

10.78

N = 830

N de B

Moyen =

8.30

N = 439

N de B

Moyen =

3.48

 

I=2

I=1

I=2

I=1

I=2

I=1

I=2

I=1

A

.447

.460

.435

.418

.431

.415

.441

.401

.735

C

.599

.636

.604

.601

.598

.599

.603

.603

.798

E

.448

.501

.441

.424

.458

.443

.510

.502

.697

F

.504

.518

.460

.434

.464

.445

.439

.420

.716

G

.404

.451

.378

.376

.402

.399

.411

.407

.688

H

.747

.755

.737

.723

.739

.728

.746

.744

.805

I

.506

.504

.496

.492

.501

.495

.466

.467

.617

L

.392

.415

.393

.393

.389

.398

.416

.413

.776

M

.206

.335

.215

.212

.198

.195

.219

.208

.706

N

.069

.194

.060

.067

.101

.106

.029

.028

.811

O

.555

.539

.565

.554

.557

.556

.590

.585

.808

Q1

.275

.371

.298

.312

.324

.330

.338

.331

.673

Q2

.506

.530

.495

.476

.509

.490

.461

.461

.714

Q3

.379

.401

.382

.353

.373

.353

.343

.330

.669

Q4

.687

.675

.698

.694

.700

.699

.709

.708

.801

Tableau 1 – Effet des réponses B et des corrections qui donnent un point à la réponse Je ne sais pas. La colonne en gras représente l’alpha obtenu en améliorant les échelles

Les professionnels ne devraient pas utiliser des boules de cristal ou interpréter les échelles avec les alphas les plus faibles. Par exemple, l’échelle N avec un indice de .069 est ni plus ni moins que la lecture des feuilles de thé. Il faut donc dénoncer les utilisateurs du test qui n’ont pas refait leurs devoirs après 20 ans. La psychologie est une science et c’est aussi une profession, mais ce n’est pas encore une discipline.

 Il a été possible de trouver des items pour améliorer la fiabilité parce qu’ils étaient là. La cause essentielle est que Cattell a établi ses 16 échelles avec des analyses factorielles trop optimistes. Il extrayait trop de facteurs. Il avait une confiance exagérée dans ces calculs, comme tous les pionniers des années 30 qui comptaient que la méthode indiqueraient ce qu’il faut mesurer. Dans les années 1970, Cattell a publié des échelles secondaires moins nombreuses, plus fondamentales, et mieux reconnues depuis par l’ensemble de la communauté scientifique. En 1993, une nouvelle version du 16PF confirme cette évolution vers la théorie à 5 facteurs et cette version ajuste le test en conséquence.

L’objectif de notre travail a été d’obtenir quelque chose de semblable à la version 5 à partir de la version 4 qui est moins vieille et pour laquelle nous avons ramassé des données. Il faut maintenanr parler de 5 facteurs plus des facettes. Nos facettes sont fiables et les facteurs, qui dépendent des facettes, le sont encore plus. Afin de nous en tenir à ce que nous connaissions, les items qui ont été ajoutés aux échelles pour les étoffer ne comptent que pour un point. Les items originaux comptent comme dans la correction originale.

Les améliorations de la version 4 à la version 5

De façon générale, l’interprétation de 1993 colle plus à la réalité. Par exemple, l’échelle G est maintenant centrée sur l’adhérence aux règles sans chercher à inclure un sens plus général du devoir (manuel 1993 p.190). Il en est de même pour plusieurs échelles. Les inférences qu’on en tire sont plus réalistes, plus concrètes. Cette évolution va dans le sens de l’évolution des mesures de personnalité depuis leur invention. Plus concrètes, mieux adaptées à un milieu précis. En clair, l’interprétation fait moins d’inférences tirées par les cheveux. Une raison d’utiliser la version 4 est le texte français de la version 5 qui n'a pas été une amélioration pour le Québec.

 L’échelle B

Il y a d’autres différences entre les deux versions et la principale est la place de l’échelle B. La capacité de résoudre des problèmes pratiques demeure la plus importante forme d’intelligence dans le milieu du travail. Les travailleurs doivent souvent composer avec des idées mal structurées, des réponses incomplètes et insatisfaisantes dans le monde des affaires. Dans la théorie à 5 facteurs, on parle d’ouverture intellectuelle, mais pas d’intelligence.

 L’échelle B est maintenant un modulateur des autres échelles. C’est ce que propose le manuel de 1993. Les items sont ensemble à la fin du questionnaire. L’intelligence est maintenant exclue de la personnalité. Cattell proposait que c’était une dimension importante de la personnalité. L’échelle B est une mesure de fonctionnement intellectuel faible. On peut en convenir sans enlever à l’intelligence son rôle fondamental. Cela me semble une erreur que de mettre l’intelligence comme une sorte de modulateur. Chaque dimension est un élément modulateur des autres et ce terme ne veut pas dire grand chose. Ces deux domaines de recherche ont malheureusement évolué parallèlement. L’intégration des deux domaines doit continuer. Ma position est de mesurer l’ensemble de la personne et c’est ce que je fais dans mon test TIP. La position de Cattell en 1997 me semble donc plus adéquate que l’attitude véhiculée par le manuel de 1993. C’est aussi vrai qu’il faut une meilleure mesure que ce que le 16PF propose en autant que possible.

 Les spécialistes de la personnalité qui longtemps travaillé dans leur coin sans tenir compte des travaux dans le domaine du fonctionnement intellectuel. Nous arrivons maintenant à intégrer les deux domaines. Cattell a montré cette voie. Il était un des rares spécialistes à s’intéresser à l’intelligence et à la personnalité. La Bruyère, un moraliste français du XVIIème siècle disait: «Un sot ni n'entre, ni ne sort, ni ne s'assied, ni ne se lève, ni ne se tait, ni n'est sur ses jambes, comme un homme d'esprit».

 Starke R. Hathaway a été un des deux auteurs d’un test de personnalité très utilisé depuis 50 ans, le MMPI. Ce test empirique ne mesurait pas l’intelligence, mais Hathaway répétait à tous ses stagiaires:'Nous avons tendance à traiter l’intelligence générale comme si elle comptait seulement en éducation et dans le contexte du travail; en réalité, elle sature tout ce que nous faisons et c’est un aspect important de la personnalité’. Cette habitude a été rapportée par Paul E. Meehl et citée dans Sanders, Lubinski et Benbow (1995).

Les praticiens du milieu du travail utilisent généralement des mesures de l’intelligence meilleures que celle du 16PF. Ils font des rapports dans lesquels ils jugent la personne en englobant intelligence et personnalité. Ils vont continuer de le faire. Il faut pourtant définir une place pour la notion d’intelligence dans les résultats et j’ai choisi de la présenter à la fin. Ce qui permet aux utilisateurs d’en faire ce qu’ils veulent. Le résultat n’est pas intégré dans une autre échelle et c’est conforme au manuel de 1993 et aussi à la théorie à 5 facteurs. De cette façon, chaque position sera bien servie.

 5 ou 6 échelles globales?

La deuxième étape a consisté à refaire les analyses factorielles pour faire des échelles globales à partir de notre échantillon. Le facteur B nous hante encore ici.

Le tableau 2 montre une structure qui satisfait assez bien la théorie à 5 facteurs. A Sherbrooke, la solution au tableau 2 a été présentée. On peut voir que l’Échelle B fait partie de l’ouverture intellectuelle. Les gens plus brillants sont généralement plus ouverts, mais les théoriciens du Big 5 ne veulent pas intégrer la notion d’intelligence. Du moins, ils ne l’ont jamais fait et ils auraient pu. Les divers théoriciens des 5 facteurs ne s’entendent pas sur la nature de ce qu’ils mesurent dans le cas du facteur ouverture intellectuelle.

 Le manuel de 1993 du 16PF sépare le facteur intelligence comme c'est mentionné plus haut. C’est-à-dire qu’il n’est pas intégré dans les 5 facteurs, même s’il peut en faire partie.

  

 

F1

F2

F3

F4

F5

Névrotisme

Extraversion

Agréable

Conscientieux

Ouverture I.

Q4

.817

 

 

 

 

C

-.790

 

 

 

 

O

.778

 

 

 

 

L

.633

 

.447

 

 

A

 

.762

 

 

 

H

-.422

.670

.232

 

 

F

 

.618

.348

 

 

I

.314

.405

-.367

-.295

.341

Q1

 

 

.699

 

 

E

 

.266

.663

 

 

N

 

 

-.529

 

 

G

 

 

 

.879

 

Q3

-.477

 

 

.617

 

B

 

 

 

 

.735

M

-.220

 

 

-.230

.555

Q2

 

-.489

 

 

.530

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Rotation converged in 7 iterations.

Tableau 2

 Notons que l’édition de 1993 présente dans un tableau séparé le facteur global qui contient à peu près seulement l’échelle B, et seulement dans certains cas. Le manuel est inconsistant sur ce point. On présente une solution à 5 facteurs qui n’inclut pas l’échelle B et on dit que l’intelligence doit moduler l’interprétation des autres échelles. C’est vrai. Cela a toujours été vrai pour toutes les échelles. On présente à part les question formant l’échelle B dans le questionnaire. Quand on l’interprète, on appelle ce facteur Raisonnement (Reasoning) plutôt qu’intelligence. C’est effectivement la nature de l’exercice et c’est difficile de critiquer cette retenue dans les inférences qu’on tire et qui nous semble louable en général. Le raisonnement est un aspect important de l’intelligence, mais pas le seul. Il y a longtemps que des spécialistes de l’interprétation proposent de remplacer l’échelle B par une meilleure mesure de l’intelligence quand une mesure est disponible. On peut donc continuer de proposer cette substitution et continuer d’interpréter le test comme avant.

 A la page 84 du manuel technique on compare les facteurs de la version A, que nous utilisons ici, et les facteurs de la nouvelle version de 1993 (version 5). Comme l’échelle primaire B est de toutes façons ce qui constitue l’intelligence dans le 16PF traditionnel, il faut seulement se demander si nous voulons l’intégrer ou non au facteur ouverture intellectuelle qui est ci-haut. De son côté, le manuel de 1993 du 16PF, qui se targue de correspondre à la théorie à 5 facteurs, veut aussi coller à la tradition du test. C’est difficilé de concilier les deux modèles. Ils ne sont pas aussi bien conciliés dans la version 5 que ce qu’on laisse entendre.

Une solution à 6 facteurs

Le problème de l’échelle B m’a incité à opter pour une solution à 6 facteurs. Dans les pages qui suivent, je propose des résultats par norme dans lesquels l’intelligence a été extraite séparément. Cette solution a l’avantage de présenter chaque échelle primaire une fois et seulement une fois. C’est donc une solution à 6 facteurs où l’intelligence, ou le raisonnement, demeure comme un facteur pur.

 Le choix d’une solution factorielle implique une part d’arbitraire. La solution à 5 facteurs du tableau 2 correspond à la théorie du Big 5. Cette solution offre donc des facteurs globaux qui sont aussi conformes que possible à la théorie générale et les dimensions ont été mise en haut des colonnes appropriées. Il ne faut cependant pas oublier que les poids des facteurs obtenus ne correspondent pas aux canons de la théorie à 5 facteurs. Les facteurs sont là, mais pas avec la bonne importance. Si les mesures sont fiables, c’est secondaire.

 Le facteur III, Indépendance, de la version 5 provient de quelques échelles, la plus importante étant l’Échelle Q1. L’ouverture intellectuelle devrait inclure l’ouverture aux changements (Q1). Dans le tableau 2 ici, l’intelligence est associée aux facteurs M et Q2. Ce sont les contributeurs majeurs du facteur Ouverture intellectuelle, mais l’échelle Q1 devrait faire partie de ce facteur selon la théorie à 5 facteurs. Par ailleurs, le facteur 3 ci-haut intègre le résultat de Q1 en lui donnent beaucoup d’importance. Les gens Q1 plus sont-ils ouverts au plan intellectuel? Ce n’est plus aussi évident.

 La solution à 6 facteurs est un bon compromis qui sépare la personnalité de l’intelligence, ou qui permet de l’intégrer selon le goût, et qui permet de présenter chaque facteur primaire une seule fois.

 Des normes discriminantes

Dans la correction, les résultats sont en rangs centiles. Nous avons 10 normes. Les données que les membres du comité des tests ont en main et qui sont définies au début.

 Il y avait dans les données disponibles 2000 sujets et la moitié ont répondu plus de 24 fois B. Pour faire des normes, la limite de 24 réponses B a été retenue en supposant qu’une nouvelle consigne les limitera à l’avenir. Maintenir le critère de 8 réponses B a permis de faire de bonnes analyses factorielles, mais il n’y avait pas assez de sujets pour faire des normes en respectant ce critère. Déjà, retenir les sujets avec moins de 25 réponses B coupe déjà la population en deux.

 Il est donc resté plus de 1207 sujets, mais tous n’étaient pas codés correctement. Les normes sont comme la sauce. Un petit échantillon concentré vaut mieux qu’une grande quantité de jus fade. C’est ce que disent les bons cuisiniers en tout cas et les experts en évaluation que j’aime. Ceux qui font autrement ne s’occupent pas beaucoup des normes et c’est une erreur traditionnelle en psychologie. Les sociologues portent beaucoup d’attention à leurs échantillons, mais nous avons tendance à mettre n’importe quoi dans les normes.

 Les tableaux suivants présentent les résultats de 10 normes de sujets du milieu du travail. Il y a une très grande majorité d’hommes dans toutes les normes, sauf la norme de secrétaire qui est faite de femmes. ON peut référer à ce tableau pour savoir quelles normes sont disponibles.

 Ces tableaux devraient permettre de juger si les échelles discriminent entre les populations que nous avons et si elles discriminent comme il le faut. C’est-à-dire, par exemple, si les ingénieurs doivent être plus élevés ou plus faibles sur une échelle que les cols bleus. Est-il normal que les ingénieurs et les cadres supérieurs soient les plus intelligents de tous les groupes? Est-il normal que les secrétaires soient les plus sensibles? Quel groupe devrait être le plus indépendant?

 Si vous avez de bonnes normes, elles confirment vos préjugés. Ou plutôt votre expertise pour être plus poli. Si votre expertise provient de votre travail avec des tests, vous avez assimilé ce que les tests disent par osmose. Si vos tests ne discriminent pas, vous ne savez rien. Si les normes ne correspondent pas à votre savoir, il faut trouver un test qui le fasse ou revoir votre savoir.

 Je vous invite donc à examiner les tableaux qui suivent. Je vous invite aussi a les comparer aux résultats que vous avez déjà accumulés avec vos tests. Si ces tableaux contredisent ce que vous avez ou qu’ils n’ajoutent rien à ce que vous savez déjà et que vous mesurez bien, ils ne contribuent en rien à votre compétence.

 

Tableau 3 – Résultats relatifs des divers groupes de sujets sur l’introversion-extroversion. Les résultats sont en écart-type.

Le tableau 3 montre les résultats pour l’échelle globale introversion-extroversion pour 10 normes.

 

Tableau 4 – Résultats relatifs des divers groupes de sujets sur l’échelle d’anxiété. Les résultats sont en écart-type.

Tableau 5 – Résultats relatifs des divers groupes de sujets sur l’échelle Indépendance. Les résultats sont en écart-type.

Tableau 6 – Résultats relatifs des divers groupes de sujets sur l’échelle Contrôle de soi. Les résultats sont en écart-type.

 

Tableau 7 – Résultats relatifs des divers groupes de sujets sur l’échelle Fermeté. Les résultats sont en écart-type.

Cette échelle est l’échelle sensibilité, mais inversée.

Tableau 9 – Résultats relatifs des divers groupes de sujets sur l’échelle B. Les résultats sont en écart-type.

Cette échelle est l’échelle B. Quand on constate l’écart entre les cols bleus non-spécialisés, les cols bleus spécialisés et les ingénieurs, on peut constater qu’elle discrimine malgré toutes ses faiblesses.

Conclusion sur l'exercice du 4X4PF

C'est nécessaire de suivre la validité des outils utilisés pour juger et comprendre les gens. Depuis 1970, dans le Handbook sur le test, l'auteur recommande de ne pas utiliser une seule version du test, mais de donner deux version. En effet, il n'y a pas assez d'items pour fournir 16 échelles fiables. On peut cependant trouver dans ce questionnaire 5 échelles fiables et des facettes qu'il faut regarder avec méfiance.

La nouvelle correction fait de ce test un outil légitime et plusieurs éléments de la version 5 de 1993 ont été intégrés dans la version 4 par la même occasion. Les utilisateurs du tests de tous les milieux devraient donc faire cet exercice, mais peu l'ont fait à date à notre connaissance.

 

Remonter