Vous êtes sur la page 1sur 41

L’EVALUATION OBJECTIVE

analyses statistiques pour


améliorer la qualité de vos test

Moyenne, écart-type
Scores standards
Pondération
Corrélation
Écart des quartiles
KR20 et marge d’erreur
Identification des questions à revoir

www.experquiz.com
Avant-propos
ExperQuiz offre une solution complète et efficace dédiée à la mesure
et à la gestion des connaissances en entreprise. Cette plateforme
web permet l’élaboration simple et rapide de questionnaires à base
de questions très variées, intégrant tout type de média (image,
audio, vidéo, documents). Les questionnaires peuvent être utilisés
en mode apprentissage, évaluation ou certification dans les
conditions souhaitées (sécurisée, rythmée…).
ExperQuiz permet de préparer et animer des formations en
présentiel ou à distance et de créer des modules de e-learning. C'est
une solution qui s’adresse à toute entreprise soucieuse de
capitaliser, partager et faire progresser les connaissances, ainsi
qu’aux organismes de formation et aux établissements
d’enseignement.

Notre vision est simple : nous pensons que l'expertise et la


motivation des femmes et des hommes sont les biens les plus
précieux des entreprises et qu’elles auront beaucoup à gagner à
déployer une solution d'évaluation et de e-learning de manière la
plus large possible. Pour cela, nous voulons leur offrir le meilleur
outil d'évaluation qui soit, à tous égards, un outil qui permette de
s'adapter aux changements, dans le respect de l'humain.
Le déploiement de la solution ExperQuiz au service de nos clients a
consolidé une solide expertise des problématiques d'évaluation et
nous a permis aussi de recenser une grande diversité de cas
d'usage.

1
C'est un peu de cette expertise que nous partageons ici avec vous.
Qu'il s'agisse de recrutement, d'accompagnement de la formation,
de gestion des connaissances et de capitalisation, de la vérification
des savoirs intégrée à une démarche d'assurance qualité, du suivi
des objectifs qualitatifs, d'évaluation ou de certification... dans de
multiples domaines, les outils d'évaluation seront facteurs
d'économies, de maîtrise des risques, de qualité, mais aussi de
motivation et d'adhésion.

Ce livre blanc traite d'un sujet souvent négligé et parfois mal


maîtrisé : le traitement statistique des résultats, leur interprétation,
l'analyse de la qualité des tests dans leur ensemble, de la marge
d'erreur, ainsi que l'identification des questions qui dégradent la
qualité.

Nous vous souhaitons une bonne lecture et serons heureux


d'accompagner votre entreprise dans son déploiement d'évaluations.

2
1 Pourquoi s'intéresser à la
qualité des tests ?
Si l’on se propose d’évaluer la connaissance de collaborateurs ou
d’étudiants au moyen d’un test, il est essentiel de savoir s’assurer
de la fiabilité de ce test. C’est autant une nécessité pratique (si le
test n’est pas fiable, chacun perd son temps), qu’une obligation
morale envers les intéressés. Et pourtant, de très nombreux tests
sont déployés, parfois à grande échelle, sans que leur fiabilité ne soit
évaluée. Et ce qui est presque choquant, c’est de voir à quel point
cette vérification peut être facile, et comment une démarche très
simple permet d’améliorer ces tests.
Lorsque l’on soumet un test d’évaluation objective afin de mesurer
le niveau de connaissance d’une personne, chaque réponse apporte
un peu d’information sur ses connaissances. Et la somme de ces
réponses permet d’évaluer, par échantillonage, son niveau de
manière fiable, pour autant qu’il y ait suffisamment de questions.
Mais il faut ajouter: “à condition que les questions posées soient
de bonne qualité”.
Qu’est-ce qu’une question de qualité ? Nous allons voir que la
chose peut s’analyser sous deux angles: l’un est difficile, l’autre est
très simple.
La manière difficile d’aborder le sujet, consiste à étudier chacune des
questions, incluant les réponses proposées, tant dans sa formulation
que dans sa sémantique. Est-elle clairement posée, facile à
comprendre, sans ambiguïté ni complexité inutile ? Et surtout, est-

3
elle correcte sur le fond, la réponse annoncée exacte l’est-elle
vraiment ? Pour s’en assurer, il faut une excellente connaissance
du domaine, de la langue, des usages et bonnes pratiques propres
aux évaluations objectives. Et il faut du temps, bien sûr.
Il y a une seconde manière de valider la qualité d’un test, qui ne
demande ni expertise, ni ressources. Oui, c’est quasiment
magique. Voyons cela.
Si chaque réponse apportée par un utilisateur nous apprend quelque
chose sur son niveau de connaissance, de manière égale chaque
réponse nous apprend quelque chose sur la qualité de la
question posée. En fait, une réponse nous apprend autant sur la
personne que sur la question, mais comme l’objectif premier était
d’évaluer la personne et non la question, on oublie en général de se
pencher sur les questions.
L’étude des questions repose sur des outils statistiques qui ne sont
pas d’une complexité exceptionnelle, mais malgré tout ne sont pas à
la portée de tous. Nous ne citerons aucune formule mathématique
ici, ce n’est pas l’objet. Si vous voulez en savoir plus, vous pouvez
consulter le livre blanc publié par ExperQuiz. Ce qu’il est essentiel
de retenir, c’est ceci: peu importe que des calculs sous-jacents
soient complexes puisqu’un programme va faire ces calculs
pour vous, et vous donner un résultat prêt à l’emploi, très facile
à interpréter et à utiliser.
L’indicateur le plus important est certainement le calcul de la
corrélation entre chacune des questions et le test dans son
ensemble. C’est un coefficient, propre à chaque question, qui prend
une valeur comprise entre -1 et +1. S’il est proche de 1, cela
signifie que, en moyenne, les personnes qui répondent correctement
à cette question ont aussi un bon score au test dans son ensemble.
Une autre manière de le formuler est de dire que les personnes les
plus expertes tendent à répondre correctement à cette question. Si
la corrélation est proche de 0, cela signifie qu’il n’y a pas de lien
entre une bonne réponse à cette question et le niveau d’expertise
général. Par exemple une question sur Picasso insérée dans un
test portant sur le droit du travail aura probablement une corrélation
faible: elle n’apporte pas grand chose, mais ne nuit pas non plus.

4
Enfin, si la corrélation est négative, la chose est plus
préoccupante. Cela traduit le fait que “plus on est expert du sujet,
plus on répond faux à cette question”. C’est clairement un
problème, et il est bien possible que la question soit tout simplement
fausse.
On peut calculer un autre coefficient, semblable à la corrélation,
l’écart des quartiles. Il est un peu moins mathématique, et donc
un peu plus facile à bien comprendre. Rangez tous les utilisateurs
qui ont passé votre test du meilleur score global, jusqu’au moins
bon. Prenez les 25% les meilleurs, qu’on appellera ‘premier
quartile’ et les 25% les moins bons, le ‘dernier quartile’.
Maintenant, pour chacune des questions, calculez la note
moyenne des personnes du premier quartile, et la note moyenne des
personnes du dernier quartile, et considérez la différence de ces
deux moyennes. Le plus souvent, cette différence est supérieure à
20% (ou disons à 4 points si l’on note sur 20). Si cette différence est
négative, alors comme pour une corrélation négative, la question
mérite probablement d’être ré-examinée. L’identification claire et
précise des problèmes est l’une des forces de la solution ExperQuiz.
Comment retravailler les questions à problème ? La manière
rapide et brutale consiste à les retirer de votre test. Si vous aviez
suffisamment de questions au départ, et qu’un petit nombre
seulement sont à problème, alors c’est une démarche raisonnable.
La manière subtile consiste à demander à quelques-unes des
personnes les plus expertes de bien vouloir expliquer pourquoi ils
n’ont pas choisi la réponse attendue, et de vous dire si, à la
réflexion, ils estiment que la réponse réputée bonne l’est
véritablement.
Ce qu’il faut bien comprendre c’est que, dans la pratique, presque
tous les tests comportent quelques questions de ce genre, qui
méritent d’être revues. D’où le titre de cet article: il est probable
que cela s’applique à vos tests aussi. En petit nombre, ces
questions médiocres n’invalident pas totalement le test, mais du
moins elles diminuent sa fiabilité. Or si l’on évalue des
collaborateurs ou des étudiants sur la base de tests, la fiabilité doit
être une préoccupation prioritaire.

5
Il existe un indicateur global de qualité d’un test, que l’on
appelle le KR20, et qui mesure en quelques sorte l’alignement
d’ensemble des questions du test. C’est un nombre en général
compris entre 0 et 1 (on l’exprime parfois entre 0% et 100%). Pour
qu’un test soit fiable, on considère qu’il doit avoir un KR20 meilleur
que 70%. Si ce n’est pas le cas pour l’un de vos tests, faites la
chasse aux questions faibles selon la démarche donnée plus haut.
Une chose essentielle à souligner, est que tous ces calculs
statistiques ne sont pertinents que si l’on dispose d’un
échantillon suffisamment important de réponses fournies. A
moins d’une vingtaine, il est à peu près inutile de s’y pencher. A
partir d’une quarantaine, ils commencent à avoir du sens. C’est
pourquoi il est recommandé de gérer et faire vivre ses bases de
questions sur la durée, si possible sur plusieurs années, de
manière à disposer de statistiques très fiables, et ainsi d’améliorer
en continu la qualité de ses questions, donc de ses tests.
En conclusion, gérer ses évaluations au moyen d’outils numériques
ne doit pas seulement viser une meilleure productivité et un meilleur
suivi, l’un des bénéfices les plus essentiels est de parvenir à des
évaluations plus fiables, des évaluations dont le niveau de qualité
est prouvé.

6
2 Evaluation et statistiques

2.1 Résultats des utilisateurs

2.1.1 Score brut, pondération


À partir des réponses des utilisateurs, on commence par calculer un
score brut. Le plus simple est d'additionner le nombre de réponses
correctes obtenues.
On se demande souvent s'il est utile de pondérer les questions :
certaines pourraient valoir plus que d'autres, typiquement parce
qu’elles mesureraient un savoir plus important.
En général, ce n'est pas très utile :

● il sera souvent délicat de trouver les coefficients pertinents,


● même si la pondération modifie mathématiquement le score
obtenu, le plus souvent elle ne changera pas profondément
le score relatif de chacun.
Il y a toutefois des cas d'utilisation possible.

● Une pondération en fonction du caractère discriminant de la


question, et en particulier du résultat d'un choix aléatoire.
Une question de type Vrai/Faux a 50% de succès pour un
choix aléatoire, tandis qu'une question à choix multiples
comportant quatre réponses possibles n'a qu'un taux de
succès aléatoire de 25%. Une réponse correcte à la seconde

7
question apporte donc deux fois plus d'informations qu'une
bonne réponse à la première.
● On veut parfois identifier des connaissances particulièrement
importantes, essentielles, voire même des connaissances
dont l'ignorance est éliminatoire. Un coefficient élevé pourra
gérer ce cas de figure.
Il est possible aussi de pondérer les réponses : pour une même
question posée, certaines réponses pourront apporter plus de points
que d’autres. Certaines réponses incorrectes pourront aussi, si
elles sont sélectionnées, apporter un score négatif. Ici aussi, disons
que ce sont des possibilités dont il est bon de disposer, mais qu’il ne
faut pas se forcer à utiliser, en l’absence d’un besoin précis. Écrire
de bonnes questions est déjà un important travail, il est souvent plus
utile de ne pas s’encombrer l’esprit avec un scoring complexe.
Revenons au score brut : par simple somme, ou après pondération,
on a converti les réponses de chaque utilisateur en un total, qui
constitue le score brut. Par exemple s'il y a 25 questions, en
l'absence de pondération, le score de chacun est théoriquement
entre 0 et 25. Dans la pratique, la probabilité d'avoir 0, même en
l'absence de la moindre connaissance, sera faible.
On peut aisément convertir les scores absolus en scores relatifs.
Cela permet de comparer les scores obtenus à deux tests qui
auraient un nombre différent de questions.
Par exemple pour un test de 25 questions, 18 sur 25, deviendra 0.72
ou 7.2/10 ou 72%. Pour un test de 40 questions, 32 sur 40 deviendra
0.8 ou 8/10 ou 80 %. C'est facile à interpréter et à comparer. Mais
bien moins parlant que les scores standardisés, que nous verrons
plus loin.

2.1.2 Moyenne, écart-type


La moyenne est une notion assez bien connue, elle figurait sur nos
bulletins dès l'école primaire. Pour calculer la moyenne des scores
de la population d'utilisateurs, on calcule la somme de ces scores,
que l'on divise par le nombre d'utilisateurs:

8
N
1
m= ∑v
N i =1 i
Où le symbole Σ représente la somme, et :

● m est la moyenne des scores


● vi, le score obtenu par un utilisateur i
● N, le nombre d'utilisateurs ayant passé le test.
Cela suffit pour repérer si le score d'un utilisateur est au-dessus ou
en dessous de la moyenne.
Pour illustrer la suite, nous allons considérer une petite population de
15 utilisateurs, ayant obtenu les scores suivants :

9
Pour une meilleure lisibilité des résultats, on peut ordonner les
utilisateurs par score, du moins bon au meilleur score.

10
Une fois les scores ordonnés, on peut identifier ce que l'on appelle
des percentiles, c'est-à-dire la position de chaque utilisateur dans la
population, exprimée en pourcentage. Puisqu'il y a 15 utilisateurs,
chacun correspond à 100/15 = 6.66% de la population.
Sur cette base, on peut dire par exemple que le score de l'utilisateur
#3 est dans les 20% les moins bons, tandis que le score de
l'utilisateur #10 est dans les 30% les meilleurs.
On peut aussi distinguer 4 sous-ensembles parmi ces utilisateurs,
selon leur positionnement :

● entre 0 et 25%, on appellera ce groupe le quartile inférieur,


● entre 25% et 50%, le second quartile,
● entre 50% et 75%, le troisième quartile,
● entre 75% et 100%, le quartile supérieur.
Dans notre exemple, ces groupes ont respectivement 3 utilisateurs
(#5, #6, #3), 4 utilisateurs (#7, #9, #13, #11), 4 utilisateurs (#2, #4,
#14, #10) et 4 utilisateurs (#15, #1, #8, #12).
Par construction, ces quartiles ont toujours le même nombre
d'utilisateurs, à 1 près.

11
Soulignons que si le classement est la chose la plus simple, il faut
être vigilant quant aux utilisations qu'on en fait, tout particulièrement
sur de petites populations. Si on a demandé à un groupe
d'utilisateurs de bien apprendre quelques faits essentiels pour leur
travail et que l'on effectue un test pour vérifier ces acquis, la question
posée est de savoir si tous ont atteint le niveau requis, ou qui ne l'a
pas atteint. Il est très possible que les utilisateurs du dernier quartile
aient le niveau demandé, auquel cas il est inutile de chercher
d'autres conclusions. Autrement dit, l'enjeu n'était pas de savoir qui
était le meilleur et il est important que chacun sache que ce n'était
pas l'enjeu.

Rappelons aussi que, dans le contexte des entreprises, il est interdit,


en général, d’avoir une pratique de notation qui conduise
structurellement à identifier une population de collaborateurs réputés
en échec : la notion de succès doit être absolue et non relative.

Une autre utilisation courante des scores ordonnés est d'identifier le


score médian, c'est-à-dire celui qui partage la population en deux
groupes égaux. Sur notre exemple il est de 15. Le score médian est
parfois plus pertinent que le score moyen, il est moins impacté par
les valeurs extrêmes.

2.1.3 Écart-type et distribution


Jusqu'ici, ces notions sont généralement bien maîtrisées par tous.
L'écart-type l'est un peu moins, car sa formulation est un peu plus
mathématique :


N
1
σ= ∑
N i=1
(v i −m)
2

Où:

● vi est le score brut obtenu par l'utilisateur i,

12
● m est la moyenne des N utilisateurs.
L'écart-type est une mesure de la dispersion des données : pour
observer dans quelle mesure elles sont 'resserrées' autour de la
moyenne. On voit aisément que si tous les vi étaient égaux, la
moyenne m aurait la même valeur que les vi et l'écart-type serait nul.
Dans l'exemple précédent, on obtient :

Notons que les outils bureautiques tels que Excel ou LibreOffice Calc
disposent tous de fonctions calculant moyenne et écart-type.

2.1.4 Scores standardisés


Exprimer les scores en termes de pourcentage de bonnes réponses
est un moyen simple d'évacuer le nombre de questions du test. De
même, s'intéresser à l'écart de chaque utilisateur par rapport à la
moyenne générale, permet de faire abstraction de cette moyenne.

13
On standardise les scores de la manière suivante : pour chacun
des scores, on soustrait la moyenne, puis on divise le résultat par
l'écart-type.

(vi −m)
Soit : v'i=
σ
On obtient un ensemble de scores positifs et négatifs, compris à peu
près entre -3 et +3. En théorie, les scores standards sont entre -
infini et +infini, mais un très petit nombre est hors de l'intervalle
[-3; +3].
En faisant l'hypothèse que la répartition des scores suit une loi dite
normale ̶ ce qui est souvent le cas dans les mesures de traits
humains, ou plus largement de nombreuses caractéristiques
naturelles ̶ alors la répartition des scores ainsi standardisés est
telle que : 34.1% des utilisateurs ont un score standardisé situé entre
0 et 1, 68% donc entre -1 et +1.

Les scores ainsi standardisés ne sont pas les plus habituels, ni les
plus lisibles et ne sont donc pas utilisés directement. Mais les
exploitations statistiques des résultats s'appuient souvent sur des
scores standardisés.

14
Notons que, une fois que l'on dispose des scores standardisés, on
peut très facilement élaborer des scores sur une échelle qu'on aura
choisie, avec la moyenne et l'écart-type qu'on aura choisis.

2.1.5 Retraiter les scores


À partir des scores standardisés, une simple règle de trois permet
d'obtenir des scores avec une moyenne donnée et une répartition
donnée.
Ainsi, si l'on veut retraiter les scores pris en exemple plus haut afin
d'avoir une moyenne à 14 et un écart-type de 4, il suffit de multiplier
les scores standards par 4, puis d'ajouter 14.
On pourra aussi choisir de définir un plafond à ne pas dépasser et
les notes supérieures seront limitées à ce plafond. On pourra par
exemple mettre 20 à tout ce qui dépasse 20. On sait que cela fait
perdre de l'information, mais c'est une pratique courante dans
l'enseignement. De même bien sûr pour les scores négatifs.

15
Si l'on dispose de deux jeux de scores, correspondant à deux tests
passés par une même population, on peut de cette manière aligner
l'un et l'autre, en fixant une moyenne et un écart-type cibles. Ce
serait une manière de calculer ensuite une moyenne des deux tests
pour chaque utilisateur.
Attention, s'il est aisé d'aligner ainsi deux jeux de scores, cela ne
signifie en rien que les deux tests mesurent la même chose. Nous
verrons plus loin les traitements qui permettent de s'assurer de cela,
c'est-à-dire de mesurer la corrélation entre les deux tests.

Imaginons que, l'année dernière, on ait fait passer un test T A à une


population d'utilisateurs. Cette année, le test a été modifié pour
donner un test TB. Certaines questions ont été retirées et des
questions nouvelles ont été écrites. On se demande s'il est possible
de comparer les résultats obtenus pour TA avec ceux de TB.
Un alignement par les scores standards est possible, mais est-il
correct ?
Il conviendra ici de commencer par mesurer la corrélation entre T A et
TB. Si les populations sont différentes, alors on pourra mesurer, au
sein de TB, la corrélation entre le sous-ensemble issu de T A et les
questions nouvelles ou modifiées. Si la corrélation est satisfaisante,
alors seulement on pourra comparer les scores standardisés.

2.2 Statistiques portant sur les questions

2.2.1 Appréciation des utilisateurs


Il est toujours pertinent de demander leur avis aux utilisateurs, de
leur proposer de fournir un "feedback", un avis sur chacune des
questions posées. Ceci à deux égards :

● Ces retours permettent de déceler plus rapidement des


erreurs qu'on aurait laissé passer dans la rédaction du test.

16
● Ils montrent aux utilisateurs que l'on est à leur écoute, que
leur avis est important.
Bien entendu, il ne s'agit pas de compter sur les utilisateurs pour
valider et corriger nos tests. Chaque test doit passer par différentes
étapes de validation avant d'être soumis à des utilisateurs véritables.
Mais la possibilité d'un retour offre un dernier filet de sécurité.
L'interface doit permettre deux niveaux de retours :
● Un niveau instantané, typiquement par le choix d'un certain
nombre d'étoiles, entre 1 et 5,
● Un niveau plus complet, où l'utilisateur pourra décrire le
défaut qu'il voit dans la question.
Bien évidemment, l'utilisateur doit pouvoir faire ce retour sans que
son temps soit décompté.
Même dans ces conditions, il ne faut pas s'attendre à avoir des
retours nombreux et précis. Les utilisateurs sont globalement dans
une disposition d'esprit qui n'est pas propice: d'une part ce sont eux
qui sont testés, d'autre part ils sont soumis à un léger stress.

En revanche, il existe une autre forme de retours, dont on dispose


nécessairement: ce sont les résultats des passages. Ils constituent
une source d'information extrêmement précieuse et souvent
négligée.
Comme on l'a vu, chaque réponse nous informe sur les capacité de
l'utilisateur, mais aussi sur la question elle-même. Bien souvent, on
ne s'intéresse qu'aux résultats des utilisateurs ̶ et nous avons
commencé par là ̶ mais il faut également utiliser les données pour
qualifier les questions elles-mêmes.

2.2.2 Utilisation des statistiques


L'analyse statistique des réponses fournit des informations
extrêmement précieuses qui permettent d'améliorer un test de
manière sûre. Malheureusement, une majorité de rédacteurs de
tests occasionnels connaissent peu le sujet, n'y sont pas sensibilisés

17
et ne disposent pas des outils nécessaires pour mener à bien cette
tâche.
Pourtant, les formules permettant un traitement statistique sont
faciles à mettre en œuvre, surtout évidemment si elles sont
programmées. On peut donc, à l'issue d'un test passé par
suffisamment d'utilisateurs, indiquer immédiatement les questions
qui devraient être étudiées de plus près, et éventuellement
modifiées, afin de rendre le test plus fiable.
Il y a quatre analyses principales à considérer :

● le taux de succès des questions,


● la comparaison des quartiles,
● la corrélation des questions avec l'ensemble du test,
● la fiabilité globale du test et l’erreur type.

2.2.3 Taux de succès des questions


Si chaque question a été passée un grand nombre de fois, par une
population assez large, le taux de succès de la question est une
information précieuse.
En première analyse, le taux de succès semble témoigner de la
difficulté de la question. Mais ce n'est pas si simple.
Une question avec un taux de succès élevé :

● peut témoigner d'un savoir largement répandu dans la


population concernée, ce qui est le but visé,
● mais peut aussi être mal construite, les mauvaises réponses
par exemple étant trop faciles à démasquer.
De même pour une question qui est rarement réussie, on peut juger
simplement qu'elle est trop difficile, mais il peut y avoir d'autres
raisons.
Une question avec un taux de succès bas :
● peut témoigner d'un savoir sous-jacent peu répandu et dans
ce cas est-il véritablement utile de le tester ?

18
● ou, ici encore, peut être mal posée, avec une certaine
ambiguïté,
● ou encore, plus grave, peut être simplement fausse.
Indépendamment de l'estimation de difficulté relative, le taux de
succès est l'indication du caractère discriminant d'une question: un
taux de succès de 10%, comme un taux de 90%, caractérisent des
questions peu discriminantes, qui ne contribuent pas beaucoup à
départager les utilisateurs. Un taux de succès de 50% est au
contraire le plus discriminant.
En général, il faut éviter les questions trop peu discriminantes,
puisqu'elles n'apportent pas beaucoup au test alors qu'elles
consomment du temps et des efforts. Mais il peut y avoir des
exceptions. Par exemple, quelques questions très faciles pourront
donner confiance aux utilisateurs les plus faibles, tandis que
quelques questions difficiles permettront aux plus forts de se
distinguer.
Certains points sont connus des personnes plus expertes. Des
sujets que l'on ne rencontre pas souvent, des bonnes pratiques dont
on sait qu'elles sont peu répandues. Les questions difficiles peuvent
être peu discriminantes pour l'ensemble de la population, mais
discriminantes au sein du quartile supérieur.
On peut se donner pour règle qu'au plus 20% des questions ont un
taux supérieur à 80% ou inférieur à 20%, autrement dit, au moins
80% des questions ont un taux de succès entre 20 et 80%.

2.2.4 Comparaison des quartiles supérieurs


et inférieurs
Nous avons vu comment il était possible de répartir les utilisateurs
en quartiles selon les scores obtenus.
D'une manière générale, on souhaite que chaque question contribue
positivement au score total des utilisateurs. Cela ne signifie pas que
chaque question apporte forcément des points, mais qu’elles
contribue à forger le score final.

19
Ce principe peut s'analyser en termes de corrélation, comme on le
verra plus loin. Il peut aussi s’énoncer plus simplement : si toutes les
questions portent sur différents aspects de la même connaissance
d'ensemble, alors on doit s'attendre à ce que, sur chaque question,
les utilisateurs du quartile supérieur aient des résultats
meilleurs que ceux du quartile inférieur.
Une fois déterminés les utilisateurs composant ces quartiles, on peut
calculer le score moyen de chacun des quartiles d'utilisateurs sur
chacune des questions. On s'intéressera alors à la différence de taux
de succès entre le quartile supérieur et le quartile inférieur (delta).
Par exemple:

Taux de succès Taux de succès


du quartile du quartile
Question inférieur supérieur Delta

#1 42 76 34

#2 23 61 38

#3 53 51 -2

#4 45 82 37

#5 39 52 13

...

On a fait apparaître ici une question (#3) dont le delta est négatif,
c'est-à-dire qu'en moyenne les meilleurs utilisateurs (pour le test
dans son ensemble) y ont moins bien répondu. C'est une anomalie,
et en général l'indice d'une question qui pose problème. Sur la
question #5, le delta n'est que de 13 points, ce qui n'est pas très
élevé: cette question ne permet pas de bien distinguer les meilleurs
éléments.

20
D'une manière générale, un écart inférieur à 20 points mérite
d'être analysé, ce qui le plus souvent conduira à retoucher la
question.

2.2.5 Corrélation des résultats


Corrélation entre deux jeux de résultats
Supposons un ensemble d'utilisateurs U et leurs scores obtenus à
deux tests TA et TB.
Il est intéressant de se demander si les résultats obtenus à T A et à TB
sont corrélés, c'est-à-dire si, en moyenne, un utilisateur qui obtient
un bon score à TA obtient un bon score à TB.
On peut imaginer que TA et TB soient deux tests portant sur des
sujets différents, par exemple l'un de vocabulaire et l'autre de
représentation spatiale. Malgré la différence de sujets, on observe
souvent une corrélation: certains individus sont à l'aise dans l'un et
l'autre et ils sont plus nombreux que ceux qui n'excellent que dans
un sujet unique. Rechercher des corrélations entre des mesures est
un exercice intéressant pouvant conduire à identifier des relations
réelles insoupçonnées, mais attention cela peut aussi faire croire à
des relations qui n'existent pas.
TA et TB peuvent aussi être deux tests portant sur le même sujet,
ayant les mêmes objectifs d'évaluation. Dans ce cas, on s'attend à
une forte corrélation et l'on peut même dire que la corrélation est
une mesure de la qualité des tests: s'ils ne sont pas corrélés, alors
l'un des tests, voire les deux, ne donne pas une mesure fiable.
Un cas de figure particulier est celui où T A et TB sont deux passages
du même test à quelque temps d'écart. Ici, la corrélation mesurera à
la fois les variations de "forme individuelle", la fraîcheur des savoirs,
et la composante aléatoire toujours présente. Malgré cela, la
corrélation doit être forte, disons supérieure à 70%. Entre deux tests
de QI élaborés et ajustés scientifiquement, on arrive à des
corrélations supérieures à 90%.

21
Calcul de la corrélation
Sur un jeu de scores standardisés de N utilisateurs, la corrélation se
calcule très simplement:
N
1
r= ∑ x'i y'i
N i=1
Où les x'i et y'i sont les scores standardisés obtenus par chaque
utilisateur Ui respectivement sur TA et sur TB.
La corrélation est une mesure comprise entre -1 et 1. Une valeur de
zéro, ou proche de zéro, traduit une absence de corrélation. Une
valeur de 1 traduit une corrélation parfaite: le score standardisé de
chaque utilisateur sera identique sur l'un et l'autre test. Une valeur
supérieure à 0.5 traduit une corrélation qui commence à être
significative. Les corrélations négatives indiquent une relation
inverse: plus un utilisateur est bon sur T A, moins il est bon sur T B. Si
TA et TB portent sur des thématiques très opposées, cela peut se
rencontrer.

Corrélation entre chaque question et le test entier


Comme on l'a dit, chaque question doit participer positivement à
l'obtention du score final. Autrement dit, pour chaque question on
doit pouvoir dire que, en moyenne, plus un utilisateur est bon sur le
sujet dans son ensemble, plus il obtient un résultat correct sur cette
question.
On comprend bien que l'affirmation contraire traduirait un problème :
si les individus globalement les plus experts sur le sujet ont, sur une
question donnée, des résultats moins bons que les individus les
moins compétents. C'est ce que nous avons identifié plus haut au
moyen de la méthode des quartiles supérieur et inférieur.
On peut le relever de manière plus complète en calculant la
corrélation entre chaque question et le test dans son ensemble.
Considérons une question Q0 d'un test T. Cette question peut être
considérée comme un test en soi, appelons-le T 0 , dont le score est 0
si la réponse est incorrecte, 1 si la réponse est correcte.

22
Par la méthode précédente, on peut calculer les scores des
utilisateurs au tests T0, puis la corrélation entre le test T0 et le test T
pour la même population d'utilisateurs.

On retient que :

● une corrélation négative traduit certainement un


problème dans la question,
● une corrélation proche de zéro est le signe d'une question
n'apportant pas grand chose au test, elle pourrait être
retirée sans que les scores ne soient beaucoup modifiés,
● une corrélation supérieure à 0.5 est satisfaisante.

Cohérence interne, mesure de fiabilité du test


La formule appelée Kuder-Richardson-20, ou encore KR 20, exprime
la cohérence interne d'un test, c'est-à-dire la corrélation moyenne
entre le test dans son ensemble et chacune de ses questions.

KR20 =
N
[1−
∑ pi qi ]
N −1 σ²
Où :
N est le nombre de questions du test,
pi, le taux de réponse correcte à la question i,
qi, le taux de réponses incorrectes à la question i,

σ2 l'écart-type des scores du test, au carré.


Pour être précis, ce que mesure le KR20, c'est la corrélation estimée
entre le test considéré et une hypothétique forme alternative. Une
valeur supérieure à 0.7 est jugée satisfaisante1.
La formule de Kuder-Richardson s'applique quand chaque question
est binaire, le résultat étant correct ou incorrect. Dans le cas où

1Par exemple, dans http://chemed.chem.purdue.edu/chemed/stats.html, l'auteur cite des


résultats de 51 tests de chimie de l'Université de Purdue, avec un indice moyen de 0.779.

23
chaque question a une échelle de scores possibles, la généralisation
de cette formule est appelée Alpha de Cronbach et s'exprime ainsi:

α=
N
[1−
∑ σ2i
]
N−1 σ²

σ2i est la variance (écart-type au carré) des scores de chaque


question i
Il faut souligner que, si ces formules peuvent sembler complexes,
leur calcul est un jeu d'enfant pour un programme informatique,
tandis que leur apport dans l'analyse et l'amélioration d'un test peut
être très important. À l'arrivée, la formule donne une valeur unique,
qui traduit la fiabilité du test. Si cette fiabilité est faible, il convient de
creuser en analysant la cohérence particulière de chacune des
questions.

24
2.2.6 Un exemple
Voyons la mise en œuvre de ces calculs sur quelques données
exemples.
Considérons un test fait de 25 questions, qui a été passé par 15
utilisateurs. Chaque question est notée de manière binaire: 0 si la
réponse est incorrecte, 1 si elle est correcte.
On a obtenu le tableau suivant:

25
Le score de chaque utilisateur est simplement la somme de ses
réponses positives et l'on peut calculer, comme on l'a vu plus haut,
moyenne et écart-type :

26
En soustrayant la moyenne à chaque score, et en divisant par
l'écart-type, on obtient les scores standardisés :

On peut, de la même manière, s'intéresser au score de chaque


utilisateur sur la question 1 et standardiser ce score :

27
Nous avons fait apparaître le score de chaque utilisateur sur
l'ensemble du test, ainsi que le score standardisé, et enfin, dans la
colonne Produit, le produit des scores standardisés de Q1 et du test
entier. Nous calculons ainsi la corrélation entre Q1 et le test,
moyenne de ces produits, qui vaut ici 0.80, ce qui est une corrélation
très satisfaisante.

En procédant de la même manière pour les autres questions, on


obtient :

28
Sur ce tableau, on constate deux choses :

● les questions Q15 et Q25 ont des taux de succès extrêmes:


moins d'une personne sur 10 a réussi la Q15 et tout le
monde a réussi la Q25. Ces questions méritent d'être
ré-examinées;
● la question Q14, bien qu'elle ait un taux de succès classique
de 0.60, ressort par un taux de corrélation très faible, de
0.06, c'est-à-dire que le résultat des utilisateurs à cette
question ne semble en rien corrélé à leur niveau. Ici aussi,
c'est une question qu'il faut sans doute retravailler.
Les questions Q15 et Q25 n'apportent pas grand chose au test. La
question Q14 a peut-être un effet néfaste, elle dégrade sans doute la
qualité du test.

29
Pour finir l'exercice, calculons le KR20 de ce test:

On obtient une valeur de KR20 égale à 0.93, ce qui est satisfaisant.

30
2.2.7 Erreur-type
Le score obtenu à un test, même un test de grande qualité, ne
représente que l'approximation d'une hypothétique valeur vraie de la
personne sur le savoir testé. Les sources d'erreur ou de variations
sont nombreuses: état de forme intellectuelle, aléas de l'intersection
entre les connaissances et les questions posées, part des réponses
faites au hasard.
Malgré ces sources de variation, si l'on pouvait faire passer des
centaines de tests équivalents à une même personne sur un même
sujet, son score moyen convergerait vers une valeur, que l'on
considère comme valeur vraie de la mesure. Et l'on pourrait calculer,
sur l'ensemble des tests passés, comment se répartissent les scores
autour de cette valeur moyenne, et donc calculer l'écart-type de cette
distribution, que l'on appelle erreur-type.
De la même manière que pour la distribution des notes, 68% des
tests passés par une même personne auront des résultats compris
entre v-e et v+e, où v est le score vrai de la personne et e est l'erreur
type.

C'est ce qui est représenté sur la figure suivante :

68% entre v-e et


v+e

v- v v+ autre utilisateur
e e
Bien sûr, ce ne sont pas ces hypothétiques centaines de passages
de tests qui nous intéressent, mais plutôt l'affirmation réciproque : si
vt est le score mesuré par notre test, alors le score vrai se situe entre

31
vt-e et vt+e avec une probabilité de plus des deux tiers. On peut donc
retenir, schématiquement, que les scores sont valables avec une
marge d'erreur de e. Et par exemple un classement des utilisateurs
n'est fiable que dans la mesure où les écarts entre deux utilisateurs
sont supérieurs à e.
La valeur de e peut se calculer au moyen de l'estimation de fiabilité
obtenue par la formule de Kuder-Richardson évoquée plus haut:

e=σ √1−KR 20 où e est l'erreur-type, σ est l'écart-type.

Dans notre exemple du §2.2.6, l'erreur-type est donc de 1.95 sur les
scores bruts.
Ici encore, les formules peuvent sembler complexes, mais elles ne le
sont pas quand un programme s'en occupe pour vous, et
l'information qu'elles apportent est essentielle, on ne doit pas en faire
abstraction.
La marge d’erreur est une mesure importante, trop souvent négligée.
Supposons par exemple que votre notation soit sur une échelle de 0
à 20. Si votre marge d’erreur est de 1.5, cela signifie qu’une note de
14 doit être interprétée comme une note comprise entre 12.5 et 15.5.
Il est clair que si votre marge d’erreur est de 5, et que la note est
donc « comprise entre 9 et 19 », on pourrait aussi bien dire que cette
note ne vaut pas grand-chose.

2.3 Synthèse
Nous n'avons abordé ici que les notions relativement simples de
l'analyse statistique liée aux tests.
Si certaines formules peuvent malgré tout être rebutantes, il faut
surtout retenir que tout cela peut être entièrement automatisé, c'est-
à-dire qu'un programme vous indiquera simplement les questions qui
sont probablement à ré-étudier.

32
Avec de bons outils, une analyse statistique relativement avancée
est chose aisée et nous pensons que les entreprises devraient en
faire un usage plus systématique.

33
3 ExperQuiz
ExperQuiz est une solution LMS en mode SaaS, qui dispose de
fonctionnalités particulièrement avancées en matière d’évaluation de
connaissances et compétences.
ExperQuiz permet aisément de créer, déployer et analyser des
évaluations de connaissances, quelle qu’en soit la thématique.
Les possibilités sont d’une richesse exceptionnelle, couvrant tous les
besoins et cas d’usage.
Ainsi, en matière de questions :
• 10 types de questions possibles (choix unique, choix
multiple, vrai/faux, réponse saisie, ordonnancement,
correspondance, texte à trou, texte avec sélecteur, zone
image à identifier, réponse libre).
• Pour chaque type de question, de très nombreuses options :
titre, explication, rappel de cours, domaines, tags, score
spécifique, temps de passage spécifique, question
essentielle, séquence de questions.
• Utilisation de tous types de médias pour illustrer les
questions : images, vidéos, audio, fiches html, pdf,
document bureautique, prezzi, etc.
Les questions sont ensuite sélectionnées pour intervenir dans des
questionnaires, qui permettent de définir des évaluations.
Les questionnaires présentent également une large palette de
possibilités et d’options :

34
• Questionnaires définis par une sélection fixe de questions,
ou questionnaires procédant par un tirage aléatoire de
questions au sein d’une base.
• Tirage de questions pouvant être orienté en termes de
niveau de difficulté ou de domaines couverts.
• Présentation des questions au candidat, soit toutes les
questions sur une même page, soit défilement des questions
l’une après l’autre.
• Optionnellement, présentation de l’explication et du rappel
de cours après chaque réponse dans une logique d’auto-
apprentissage.
• Mélange possible des questions au sein du test, mélange
des réponses aux questions.
• Modalités de contrôle du temps : illimité, temps pour
l’ensemble du test ou bien temps par question.
• Modalités de scoring : utilisation de scores différenciés par
réponse, valorisation des réponses partiellement correcte,
seuil de certification, etc.
• Modalités de présentation : configuration de l’interface
player, des transitions entre questions, des messages
d’introduction et de conclusion.
• Affichage ou non du score en cours de test, affichage d’une
page de résultats détaillés.
• Association d’un formulaire de collecte de données
(enquête) en amont ou en aval du test.
• Projection du score par domaine et par tag.
• Gestion des conséquences d’un test : mise en place
d’actions dépendant des résultats de l’utilisateur.

Enfin, les résultats d’une évaluation sont extrêmement complets :

35
• Par utilisateur : score global, score par domaine, score par
tag
• Score sur chacune des questions, réponse fournie, temps de
réponse
• Analyse des réponses données par l’ensemble des
répondants
• Export des résultats sous la forme d’un fichier Excel multi-
onglets, facilement exploitable
• Export des corrections sous la forme d’un document Word
• Export des résultats vers un système d’information client, via
des APIs
• Traçabilité complète des passages.

ExperQuiz intègre aussi un module Qualité des bases de questions,


unique en son genre, qui permet de mener les analyses statistiques
évoquées dans cet ouvrage.
La page de synthèse se présente comme ceci :

36
Pour chacun des indicateurs, une puce colorée permet de situer
votre base vis à vis des valeurs cibles de l’indicateur.
En cliquant sur le bouton « définir les infos qualité », vous répercutez
les résultats de cette analyse sur chacune des questions. Il sera
possible ensuite, sur la page des questions, de disposer des
indicateurs calculés sur cet échantillon, avec une puce colorée
permettant en un coup d’œil de retrouver les questions à corriger.
En cliquant sur le bouton « répartir les niveaux », vous redéfinissez
les niveaux de difficulté des questions, avec un niveau 5 (expert) aux
20 % de questions qui ont le plus bas taux de succès, et ainsi de
suite.
Vous disposez aussi de différents graphes, qui permettent d’avoir
une vision synthétique des caractéristiques de votre base de
questions :

37
• La distribution des taux de succès des questions
• La distribution des scores des répondants
• La distribution des mesures de corrélation des quesitons.

Sur cette dernière courbe, on voit clairement s’il existe des questions
faiblement corrélées ou bien négativement corrélées au test dans

38
son ensemble, qui sont, comme on l’a vu plus haut, probablement à
revoir.

Une fois vos questionnaires préparés, ExperQuiz vous permet de les


soumettre dans un grand nombre de contextes :
• Les mettre en accès libre, c’est à dire de disposer d’une URL
que vous pouvez communiquer, et qui permet de lancer le
test sans même s’identifier.
• Les rendre disponibles, après authentification, à une
population d’utilisateurs, selon leur appartenance à des
groupes
• Lancer des invitations à passer une évaluation, que soit à
destination d’utilisateurs de votre organisation, disposant
déjà d’un compte, ou bien à destination d’utilisateurs dont
vous ne connaissez encore qu’une adresse email, ou un
numéro de mobile, et qui ne disposent pas d’un compte.
• Intégrer les questionnaires dans le contexte d’une formation,
où ils pourront soit être mis à disposition des stagiaires, soit
être explicitement soumis par le formateur.
• Intégrer les questionnaires à un module de e-learning, c’est
à dire qu’ils pourront constituer des phases de tests, qui
viendront entrecouper les phases de cours, et qui pourront,
selon le paramétrage, conditionner ou non la progression
dans le module.

39
Nos remerciements
Nous vous remercions de votre intérêt pour l'évaluation objective en
entreprise et pour la plateforme ExperQuiz.
Nous espérons avoir su vous montrer l'intérêt et les multiples cas
d'utilisations du test en entreprise, ainsi que les caractéristiques
uniques de notre plateforme.
L'équipe ExperQuiz est à votre disposition pour répondre à vos
questions et échanger avec vous sur le déploiement de ces outils
dans votre entreprise.

40