Tutoriel – Analyser les items d’un questionnaire

Information

Auteur : Philippe Dessus, LSE & Espé, Univ. Grenoble Alpes.

Date de création : Décembre 2015.

Date de modification : 28 mai 2018.

Statut du document : Terminé.

Résumé : Ce tutoriel décrit la mise en œuvre de techniques d’analyse d’items d’un questionnaire (difficulté, discrimination, etc.).

Licence : Document placé sous licence Creative Commons : BY-NC-SA

Introduction

Nous avons vu, dans le document Rédiger des items de QCM, quelques principes et recommandations pour concevoir des QCM efficaces. Ces principes interviennent a priori, pendant que l’enseignant construit son QCM et avant que ses élèves le passent. Il y a un autre moyen, a posteriori, d’améliorer la qualité de chaque item, et de rejeter les éventuels items ne répondant pas à certains critères. C’est l’objet de cette section.

Crisp et Palmer [CP07] ont montré que les enseignants (du supérieur, dans leur article) étaient insuffisamment formés aux techniques d’analyse statistique des QCM qu’ils pouvaient faire passer à leurs élèves (ils ne calculent en effet, en majorité, que la moyenne et la médiane des résultats), et qu’une simple batterie de tests statistiques pouvait leur permettre, notamment, d’améliorer la qualité de ces derniers. Comme le signale Haladyna [Hal04], avec un certain humour, il existe des régularités dans les réponses des apprenants aux QCM, régularités que peuvent donc capturer des tests : « […] les élèves avec de hauts niveaux de connaissance ou habileté tendent à choisir la bonne réponse et les élèves avec de bas niveaux de connaissance ou habileté tendent à choisir la mauvaise » (id., p. 203).

Pourquoi analyser les réponses aux items ?

Une fois le questionnaire passé auprès d’apprenants, il est nécessaire d’analyser de plus près les réponses afin de :

  • se faire une idée du niveau de connaissances des personnes l’ayant passé, en analysant apprenant par apprenant et question par question leur réussite ou échec ;

  • redistribuer l’ordre des questions, de manière, par exemple, à placer les questions faciles au début et les questions plus difficiles vers la fin ;

  • voir si certains items sont vraiment utiles et considérer leur suppression,

    • soit parce qu’ils sont trop ou pas assez difficiles (proportion de personnes ayant sélectionné la bonne réponse trop élevée ou trop basse), ce qui peut s’analyser à partir de la proportion de personnes ayant sélectionné telle ou telle réponse d’une question ;
    • soit parce qu’ils sont pas assez discriminants (c’est-à-dire qu’ils ne permettent pas bien de distinguer les étudiants performants dans le domaine du QCM de ceux moins performants, ce qui se passe lorsque tous deux répondent correctement à l’item, quel que soit leur niveau), ce qui peut s’analyser en calculant la corrélation entre le score à un item et le score total du questionnaire, par élève.
  • voir si certains distracteurs ne jouent pas leur rôle, parce qu’ils sont pas assez – ou même trop – choisis.

Il faut toutefois faire remarquer au lecteur les points suivants. Tout d’abord, ces processus d’analyse d’items ne remplacent pas une analyse soignée par l’enseignant de la validité de chaque question (c.-a.-d., se demander si la réponse à la question met bien en œuvre la compétence et la connaissance voulue par lui). Ils peuvent toutefois alerter l’enseignant sur des items pouvant poser des problèmes.

De plus, ce type d’analyse ne peut se faire que pour un nombre suffisamment important d’élèves. Haladyna mentionne le nombre minimal de 20, tout en considérant qu’un « petit » effectif en comprend moins de 200. Tout calcul réalisé sur des échantillons de moins de 20 élèves est donc à prendre avec la plus grande précaution.

Ensuite, les indices ci-après dont nous préconisons le calcul sont dépendants du niveau des élèves ou étudiants qui passent le test. Cela signifie qu’ils ne permettent pas un calcul (resp. de la difficulté et du pouvoir discriminant) des items dans l’absolu, mais lié au niveau des élèves y répondant. Il est donc tout à fait possible qu’un item détecté pour une passation et un groupe d’élèves comme difficile soit analysé comme plus facile avec un autre groupe et vice versa. Là aussi, le jugement de l’enseignant prévaut.

Etudions plus en détail ces indices. Pour les calculer, un simple tableur (LibreOffice, OpenOffice ou MS Excel) peut être utilisé pour les calculs ci-dessous et les formules sont à la portée de tout utilisateur averti.

La difficulté/facilité des questions

Le premier indice que nous calculons est lié à la difficulté/facilité de chacun des items du QCM. Il est tout à fait nécessaire que le questionnaire comprenne quelques questions plutôt faciles, de manière à rassurer l’élève ou l’étudiant. En revanche, une trop grande proportion de questions faciles amène à un « effet-plafond » (et un effet-plancher pour des questions trop difficiles) et donc ne représente pas une tâche suffisamment consistante et cognitivement engageante pour la plupart des élèves. De plus, les items trop faciles ne permettent de discriminer que parmi les élèves faibles (tous les forts le réussiront) et vice versa.

L’indice \(P_i\) (variant entre 0 et 1) est la proportion d’élèves ayant répondu juste à un item i. Un item est d’autant plus facile qu’il a un indice P élevé et il est donc à viser que la majorité des items ne soient ni trop faciles, ni trop difficiles : que leur P se distribue autour de 0,5. Comment apprécier cette valeur ? McAlpine [McA2b] considère que les réponses trop difficiles (P < 0,15, soit lorsque moins de 15 % des participants ont répondu juste à la question donnée), ou trop faciles (P > 0,85, soit lorsque au moins 85 % y ont répondu juste) peuvent être écartées du QCM. Les premières sont « impossibles », les secondes « triviales » et donc ni l’une ni l’autre ne permettent la mesure efficace des compétences des personnes passant le QCM.

Il faut noter que, selon les auteurs de manuels sur la construction de QCM, ces valeurs varient : 80 % et 25 % pour [Bod80], et que, d’autre part, des raisons pédagogiques peuvent amener à conserver des questions au-delà ou en-deçà de ces seuils.

L’indice P, en lui-même, n’est pas suffisant pour juger de la qualité des items, et donc pour les accepter ou rejeter définitivement. Il est nécessaire pour cela de s’intéresser à leur pouvoir discriminant, c’est-à-dire à ce que leur réussite locale permet d’inférer à propos des compétences globales.

Le pouvoir discriminant des items

Le deuxième indice que nous calculons concerne le pouvoir discriminant de chaque item. Il permet de déterminer dans quelle mesure la réussite à un item particulier est reliée à la réussite du test en entier.

L’indice de discrimination (ID) est une variante du coefficient de corrélation de Pearson et est nommé r point-bisériel (rpbis), à utiliser lorsque l’une des deux variables est dichotomique (en effet, les scores à un item sont soit 0 soit 1). Il varie, comme tout coefficient de corrélation, entre –1 et 1, et correspond au coefficient de corrélation entre un item et le score total au test. Il est ensuite important de voir dans quelle mesure une question donnée contribue, par elle-même, à sélectionner de « bons » élèves ou de « moins bons ». La valeur du rpbis d’un item donné peut être :

  • positive et élevée, ce qui signifie que les élèves réussissant bien au test réussissent également bien à l’item concerné.
  • négative, ce qui signifie, soit que ce sont les élèves peu performants en général (sur l’ensemble du questionnaire) qui réussissent bien à l’item, ce qui peut laisser penser que cet item est un faible prédicteur de la connaissance ou compétence mesurée dans le test, et donc qu’il faut considérer sa suppression. Soit encore que les élèves performants en général réussissent moins bien à cet item : il convient dans ce cas de se demander pourquoi (il faut au passage noter qu’un rpbis élevé et négatif est rarement rencontré, et témoigne très souvent d’une erreur de saisie des données).
  • nulle ou faible (en valeur absolue inférieure à 0,20), ce qui signifie que le lien entre la réussite à l’item et la réussite au test est nul ou faible. L’enseignant peut considérer sa suppression du test.

Trois points sont à noter.

  • Un item discriminant n’est pas nécessairement difficile. À l’inverse, un item problématique (donc à rejeter ou reformuler) a presque toujours un ID faible.
  • Si une question a une corrélation item-test faible (en valeur absolue inférieure à 0,20), cela peut signifier qu’elle mesure une compétence/connaissance qui n’appartient pas au même domaine que celui du test complet (un pouvoir discriminant est satisfaisant si la corrélation est supérieure à 0,40). Même si nous devons le déconseiller dans le cadre de ce cours, si le test est conçu pour être multidimensionnel (mesure plusieurs types de compétences/connaissances), la corrélation est à réaliser entre la question et le sous-ensemble de questions liées à une compétence particulière.
  • Enfin, un test a une bonne cohérence interne (i.e., il est composé d’items qui concourent à mesure un type de connaissance/compétence) si ses items ont des ID élevés (plutôt proches de 1). Il existe un autre indice rendant compte de cette cohérence en une seule valeur (alpha de Cronbach, ou Kuder-Richardson), mais son étude sort du propos de ce document.

Pour finir, il est utile d’avoir cette mesure de discrimination entre bons faibles élèves seulement si on se place dans une optique différenciatrice (ou sommative). Cela n’est pas du tout l’objectif d’un enseignant qui se place dans une démarche formative, ou de pédagogie de la maîtrise. Dans ce cas, il importe moins de déterminer les bons/faibles que de déterminer ceux qui maîtrisent/ne maîtrisent pas un contenu donné (au-dessus d’un seuil fixé par l’enseignant). Dans ce cas, on s’intéresse à calculer un « indice de discrimination au seuil de maîtrise » [LG02], pp. 222–223), ou indice de Brennan (variant entre –1 et 1).

Il convient tout d’abord de fixer le seuil de maîtrise. Bloom [Blo88], dans la pédagogie de la maîtrise, stipulait qu’un élève maîtrisait un contenu s’il réussissait 80 % des items). Il est donc aisé de faire deux groupes d’élèves, l’un contenant tous les élèves réussissant ces 80 % du test, l’autre groupe contenant tous les autres élèves.

L’indice de Brennan (B) est simplement la différence entre deux indices de difficulté d’un item : celui pour ceux ayant atteint le seuil de maîtrise dans le test entier (groupe « maîtrise ») duquel on soustrait ceux ne l’ayant pas atteint (groupe « non-maîtrise »). Un indice positif montre le pourcentage d’élèves du groupe « maîtrise » a mieux réussi l’item que dans le groupe « non-maîtrise ». Si la valeur B est négative, cela veut dire que c’est le groupe « non-maîtrise » qui réussit mieux l’item. Ce dernier ne discrimine donc pas les élèves dans le bon sens et on peut considérer à le supprimer. Attention, il convient d’utiliser des notes ou des critères différents de ceux utilisés pour calculer l’indice, afin d’éviter tout problème de circularité.

Le Tableau 1 ci-dessous et les calculs plus bas indiquent comment calculer B. Les colonnes du Tableau indiquent les élèves par groupe de maîtrise (14 élèves sont dans le groupe « non-maîtrise et parmi eux seuls 5 ont réussi l’item ; 20 élèves sont dans le groupe « maîtrise » et parmi eux 16 ont réussi l’item).

Tableau 1 — Organisation des données pour le calcul de l’indice B de Brennan ([LG02], p. 222).

    Non-maîtrise a + c Maîtrise b + d
  Réussi a + b a = 5 b = 16
Item Echoué c + d c = 9 d = 4

Ensuite, il est aisé de calculer les indices de difficulté de l’item pour ces deux groupes, resp. Pm et Pnm.

\[ \begin{align}\begin{aligned}Pm = \frac{b}{(b+d)} = 0,8\\Pnm = \frac{a}{(a+c)} = 0,36\\B = Pm-Pnm = 0,8-0,36 = 0,44\end{aligned}\end{align} \]

Cela signifie que si on compare la réussite des élèves du groupe « maîtrise » à celle du groupe « non-maîtrise », il y en a 44 % de plus qui réussissent l’item dans le premier groupe. On peut considérer que cet item est à conserver. Un onglet du tableur Excel dont l’URL figure dans la Section Calculer les différents indices permet de calculer B.

Le but d’un questionnaire peut être de mesurer une compétence/connaissance donnée, et donc de pouvoir discriminer les élèves en fonction de cette dernière. Bien évidemment, il est possible de considérer exactement le contraire : que le questionnaire n’est pas fait pour discriminer ou sélectionner, mais pour simplement certifier des compétences (test critérié). Dans ce dernier cas, calculer un tel indice de discrimination peut tout de même être utile pour détecter les items mal formulés ou ayant trait à une dimension de connaissance/compétence différente de celle mesurée par le test.

Le rôle des réponses distractrices

La troisième et dernière procédure va s’intéresser, item par item, aux réponses distractrices. Tout item de QCM contient une bonne réponse et des réponses distractrices. Il convient aussi de vérifier si les différents distracteurs ont bien joué leur rôle (pour un distracteur donné, si personne ne l’a sélectionné il ne l’est pas, si tout le monde l’a sélectionné, il l’est sans doute trop et les étudiants ont été massivement induits en erreur). Johnstone [Joh03] considère qu’un distracteur remplit son rôle si environ 5 % au moins des personnes le choisissent. La valeur de choix maximale dépend bien sûr du nombre de réponses, mais il est possible, en affichant une représentation graphique de tous les choix question par question, de déterminer les réponses distractrices qui ont été massivement évitées : il faudra sans doute les reformuler.

Le moyen de déterminer si les réponses distractrices remplissent bien leur rôle est simple : il suffit de représenter graphiquement une distribution par item et par réponse, et de vérifier visuellement la distribution des choix. La Figure 2 ci-dessous en donne un exemple.

_images/item-distract.jpg

Figure 2 – Pourcentage des réponses des élèves par item (1–6) et par réponse (a–c). Les flèches indiquent les bonnes réponses.

Une analyse de ce type de graphique peut nous permettre de tirer les conclusions suivantes. Tout d’abord, il est possible de déterminer si la place de la bonne réponse se distribue uniformément entre les différentes réponses (ici il y a uniformité). Ensuite, il est possible de détecter les distracteurs jamais choisis (e.g., c pour l’item 2) et de le reformuler de manière à le rendre plus proche du bon résultat, tout en étant faux. Enfin, comme le suggèrent [CP07], lorsque les items sont de difficulté croissante, il est ainsi possible de vérifier qu’au début, les élèves choisissent plus aisément la bonne réponse qu’à la fin du questionnaire (ici, ce sont les questions 4 et 5 qui ont les distracteurs les plus attractifs).

Une stratégie d’analyse des items

L’examen attentif et parallèle des deux derniers indices (difficulté et discrimination) permet d’analyser finement la qualité des items. Il est facile de régler les cas où les indices P et ID d’un item sont conjointement bas (item très difficile et peu discriminant, donc à rejeter) ou conjointement élevés (item très facile et très discriminant, donc à conserver, mais en gardant également des items plus difficiles). Evoquons les autres cas.

Lorsqu’un item a un ID élevé et un P bas, cela indique que seuls les meilleurs élèves ont réussi l’item. Cet item très sélectif pourra être conservé, là aussi en le mixant avec des items plus faciles. Lorsqu’un item a un ID faible et un P élevé, il faut en analyser la raison élève par élève : il est très probable qu’un ou plusieurs bons élèves (i.e., ayant bien répondu à des items plus difficiles que celui-ci) n’aient pas compris la consigne de l’item. Il est possible que cet item doive être reformulé ; mais aussi qu’il mesure des connaissances ou compétences non reliées aux autres.

Calculer les différents indices

Le fichier tableur disponible à http://webcom.upmf-grenoble.fr/sciedu/pdessus/cours/tabQCM.xls et dans un format compatible MS Excel, LibreOffice et OpenOffice permet de calculer les différents indices ci-dessus. Il sera nécessaire d’adapter le tableau au nombre d’items et d’élèves du QCM passé, ce qui est aisé à faire en copiant/collant les cellules des différents tableaux.

Voici comment faire pour remplir les différents tableaux. Commençons par la feuille « Analyse distracteurs ». Soit un QCM à 6 items, passé à 10 élèves, qui ont chacun 3 réponses possibles (a, b ou c). Dans le cas où le QCM est passé avec plus d’élèves, comporte plus d’items ou de réponses, il est aisé de créer des lignes ou colonnes supplémentaires en en insérant, voire en en supprimant dans le cas contraire. L’enseignant aura ensuite à remplir le tableau comme celui de la Figure 3, qui montre par exemple que la bonne réponse de la question 1 est le choix a, et que l’élève A a donc trouvé la bonne réponse de cet item.

_images/xls-tab-1.png

Figure 3 – Tableau pour consigner les résultats du QCM par items et élèves.

Les colonnes référencent les différents items (questions) du QCM et les lignes les résultats de chaque élève. Il faut mentionner dans la ligne 2 la bonne réponse de chaque question et la réponse sélectionnée par chacun des 10 élèves (les lignes 3 à 12). Les autres tableaux se remplissent automatiquement et le graphique de la Figure 2 est mis à jour.

L’autre feuille de ce classeur, nommée « Calcul de P et ID », fonctionne de manière équivalente. Le calcul de ces indices est fait à partir du tableau items/élèves en 0/1 qui est généré dans la feuille précédente (en haut à droite) et il faut le recopier puisque aucun lien entre les feuilles n’a été créé (voir Figure 4, qui montre par exemple que l’élève A a réussi les items 1, 2, et 3 et échoué aux 4 et 5). Là encore, remplir ce tableau fait recalculer automatiquement toutes les autres valeurs. Au bas de la figure 4 sont détaillés, item par item, les indices P et ID (resp. sur les lignes grises et jaunes).

_images/xls-tab-2.png

Figure 4 – Tableau de données pour le calcul de P et ID.

Pour information, la formule du rpbis est la suivante, où \(\bar{X_1}\) est la moyenne (variable continue) de ceux pour lesquels la variable dichotomique est 1 ; \(\bar{X_0}\) est la moyenne de ceux pour lesquels elle est 0. \(\bar{S_y}\) est l’écart type des scores de tous les participants. p est la proportion de participants ayant eu l’item juste, q celle qui ont eu l’item faux.

\(r_pbis = \frac{\bar{X_1}-\bar{X_0}}{S_y}\sqrt{pq}\)

Les modèles de réponse à l’item

Ce qui suit est repris de Laveault et Grégoire [LG02] et Bertrand et Blais [BB04]. Le problème inhérent aux indices décrits plus haut est qu’ils dépendent du niveau des élèves testés. Si les élèves sont faibles, un item donné sera considéré comme difficile, et vice versa. Prenons l’exemple d’une note à un test dans la théorie classique : cette note est calculée comme la somme des points obtenus, ou la moyenne, aux différents exercices réalisés, et ne dépendra donc pas seulement de l’habileté de l’élève, mais aussi de la difficulté des exercices.

Si cela n’a pas trop d’importance pour un test unique, cela en a une si des questions sont puisées dans une batterie de questions ayant été testées par des élèves provenant d’années ou de classes différentes : il n’est pas possible de déterminer un niveau de difficulté d’un item indépendamment des capacités des élèves l’ayant réussi ou échoué. Il pourrait donc être intéressant de disposer d’un moyen de mesure qui puisse distinguer l’habileté à réussir des items difficiles vs. faciles, en apportant une pondération au score classique. Ainsi, la difficulté des items serait considérée comme fixe.

Prenons un exemple fictif de 6 questions auxquelles des élèves ont répondu, censées mesurer un même trait (caractéristique psychologique, p. ex., l’habileté en géométrie). Le graphique de la Figure 5 représente des courbes d’item. En abscisses est représenté le score dans l’habileté, centré (la moyenne est au centre) et réduit (l’écart type représente une variation de 1) ; en ordonnée est représentée la probabilité de réussir l’item considéré. Les courbes en forme de S représentent donc la probabilité qu’un élève d’habileté \(\theta\) réussisse l’item i – ou encore que p % d’élèves d’habileté \(\theta\) réussissent l’item i.

Il y a deux manières de considérer la mesure de ce trait : un élève ayant une valeur de trait inférieure à 0 va échouer à l’item, mais y réussir certainement du moment que la valeur de son trait passe ce seuil (trait en gras). Il existe des moyens psychométriques de construire de telles échelles absolues, permettant une évaluation métrique des items indépendante des items utilisés pour les mesurer, à partir de fonction logistiques.

Dans un modèle probabiliste, les seuils sont moins tranchés : de manière générale, plus un élève a un niveau de trait donnée élevée, plus sa probabilité de réussir l’item considéré va être élevée, et réciproquement. La Figure 5 décrit des cas de difficulté différents : les élèves, quelle que soit leur valeur de trait, ont une probabilité de réussir à Q1 (courbe supérieure) bien meilleure qu’à Q3 (courbe plate inférieure). Le graphique permet donc de déterminer, pour un niveau d’élève donné, ses probabilités de réussir chaque item considéré. Il permet également de déterminer, au point d’inflexion, la population qui est le mieux discriminée selon sa compétence : par exemple Q1 a un point d’inflexion (représenté sur la Figure) se situant vers -1 (seulement 20 % des élèves d’habileté -2 réussissent l’item Q1 et env. 60 % des élèves d’habileté -1 le réussissent).

_images/irt-modele.jpg

Figure 5 – Modèle déterministe vs. probabiliste de réponse à un item.

L’analyse des courbes permet de retrouver graphiquement les informations ci-dessus. De manière générale, trois paramètres composent les courbes :

  • \(a_i\), la pente de la courbe, qui est un indice de discrimination de l’item (une courbe de pente nulle est réussie indifféremment par tous, quels que soit leur niveau d’habileté).
  • \(b_i\), la probabilité de réussite à l’item pour un élève d’habileté moyenne \(\theta = 0\), ou difficulté de l’item (un tel élève aura env. 80 % de chances de réussir l’item Q1 et env. 50 % de chances de réussir l’item Q4).
  • \(c_i\), la valeur de P vers laquelle la courbe tend lorsque \(theta\) est le plus faible possible, représente la probabilité de réussir un item donné pour des élèves ayant une habileté très faible. Dans le cas d’items à choix multiple, cette valeur ne peut être nulle.

Il est à noter que, dans la Figure 5 (et dans ce cours), c’est le modèle à un paramètre qui a été choisi (les paramètres \(b_i\) et \(c_i\) étant constants), seule, supposant que le seul paramètre qui varie inter-items est celui de la difficulté (appelé \(b_i\)).

Logiciels d’analyse d’items

Il existe quelques logiciels (voir Section Logiciels permettant le calcul d’analyse d’items), la plupart payants mais certains gratuits, qui aident les enseignants à calculer automatiquement les indices ci-dessus. Ce tri fin, item par item, peut conduire au rejet d’un item particulier, mais aussi à la sélection d’items qui pourront être réutilisés lors d’examens suivants.

La gestion régulière de QCM amène l’enseignant, s’il veut gagner du temps dans la sélection de questions, à les enregistrer dans une base de données. Des logiciels spécifiques existent (p. ex., http://fr.wikipedia.org/wiki/Logiciel_de_questionnaire_%C3%A0_choix_multiples), mais un simple logiciel de base de données peut très bien convenir.

Le site IRTShiny (http://kylehamilton.net/shiny/IRTShiny/) permet de calculer aisément la plupart des indices mentionnés dans cette section.

Pour aller plus loin

Références

[BB04]R. Bertrand and J.-G. Blais. Modèles de mesure. L’apport de la théorie des réponses aux items. Presses de l’université du Québec, Sainte-Foy, 2004.
[Blo88]B. S. Bloom. Le problème des deux sigmas, pages 45–83. Delachaux et Niestlé, Neuchâtel, 1988.
[Bod80]George M. Bodner. Statistical analysis of multiple-choice exams. Journal of Chemical Education, 57(3):188–190, 1980.
[CP07](1, 2) Geoffrey T. Crisp and Edward J. Palmer. Engaging academics with a simplified analysis of their multiple-choice question (mcq) assesment results. Journal of University Teaching and Learning Practice, 4(2):88–106, 2007.
[Hal04]T. M. Haladyna. Developing and validating multiple-choice test items. Erlbaum, Mahwah, 3th edition, 2004.
[Joh03]A. Johnstone. Effective practice in objective assessment. the skills of fixed response testing. Technical Report, LTSN Physical Sciences, 2003.
[LG02](1, 2, 3) D. Laveault and J. Grégoire. Introduction aux théories des tests en psychologie et en sciences de l’éducation. De Boeck, Bruxelles, 2e edition, 2002.
[McA2b]Mhairi McAlpine. Principles of assessment. Technical Report, CAA Centre, 2002b.