Vous êtes sur la page 1sur 57

Evaluation et certifications

Master Didactique des langues


Université des Antilles

Bruno MÈGRE – Bruno STEFANI


Termes associés à l’évaluation
Contrôle Performances
Sanction Notes
Examen Certification
Diplôme Exigences
Connaissances Compétences
Vérification Stress
Enjeux Mesure
Appréciation Estimation
Niveaux Pondération
Critères Impression
Erreur Objectivité
Termes associés à l’évaluation classés par catégorie

Les objectifs Les moyens

Vérification Contrôle
Mesure Examen
Appréciation Certification
Estimation Diplôme
Impression Test

Les outils
L’objet
Notes
Performances Exigences
Connaissances Pondération
Compétences Critères
Niveaux Erreur
Où classer ces derniers termes ?
• Sanction
• Stress
• Objectivité
• Enjeux
Les objectifs

Vérification
Mesure
Appréciation
Estimation
Impression

Du moins précis au plus précis : de grandes nuances séparent ces termes


pourtant rassemblés dans la même catégorie

Estimation Mesure
Les moyens

Contrôle
Examen
Certification
Diplôme
Test

Du plus informel au plus officiel : de grandes nuances séparent ces termes


pourtant rassemblés dans la même catégorie

Contrôle Diplôme
Pratiques de classe et évaluation externe

Les objectifs Les moyens

Vérification Contrôle
Mesure Examen
Appréciation Certification
Estimation Diplôme
Impression Test

Estimation Mesure

Contrôle Diplôme
Mais que faire de ces derniers
termes :
Sanction ?
Stress ?
Objectivité ?
Enjeux ?
Sanction ? > L’évaluation ne peut
être considérée comme un acte
de punition.
Stress ? > inhérent à la nature
humaine, cet état doit être traité à
part.
Mais que faire d’eux :
Objectivité ?
Enjeux ?
Définir d’abord un objectif
d’évaluation
Types et fonctions de l’évaluation : deux
manières de les définir
➢ Vert : définition selon C. Tagliante
➢ Orange : définition selon J. M. De Ketele
(diapositive suivante)

Types d’évaluation Fonctions de l’évaluation


Formative (régulation) Pronostiquer (orientation)
Sommative Diagnostiquer
Inventorier
Types et fonctions de l’évaluation

Types d’évaluation Fonctions de l’évaluation


Formative (régulation) Pronostiquer (orientation)
Sommative Diagnostiquer
Inventorier

Processus de l’évaluation Fonctions de l’évaluation


Sommative Orienter
Descriptive Réguler
Herméneutique Certifier
Types et fonctions de l’évaluation :
croisements possibles
Types d’évaluation Fonctions de l’évaluation
Formative (régulation) Pronostiquer (orientation)
Sommative Diagnostiquer
Inventorier

Processus de l’évaluation Fonctions de l’évaluation


Sommative Orienter
Descriptive Réguler
Herméneutique ? Certifier
Notre but est de concevoir des
épreuves normées et
standardisées que nos objectifs
soient :
➢ Sommatif/ Formatif
➢ Sommatif/descriptif

Types d’évaluation
Formative (régulation)
Sommative
Concevoir des épreuves d’évaluation en
lien avec le CECR
Des épreuves :
- conçues en adéquation avec les
principes de l’approche
communicative et de la perspective
actionnelle : tâches, domaine, thèmes de
communication, activités langagières,
composantes …
- harmonisées sur les descripteurs de
compétences
- Harmonisées sur les niveaux de
compétence
Attention à la
notion de tâches !
Faites la différence
entre :
- l’ exercice (ex. :
1)
- l’activité de
communication
(ex. : 2)
- la tâche (ex. : 3) >
cette dernière doit
comporter un
contexte de
communication, un
objectif de
réalisation et,
éventuellement,
une contrainte).
Exemples de tâches
© CIEP
DELF B1 COMPREHENSION DES ECRITS

EXERCICE 1 : LIRE POUR S’ORIENTER: comprendre des informations essentielles


DELF B1 COMPREHENSION DES ECRITS
DELF B2 PRODUCTION ECRITE
Exemple 1:
Vous êtes de plus en plus nombreux dans votre lycée à souhaiter créer un journal scolaire. En tant
que délégué des élèves, vous écrivez au directeur de l’établissement pour demander l’autorisation
de lancer ce journal. Vous lui indiquez les avantages d’un tel journal et les bénéfices que le lycée
pourrait en tirer.
(250 mots environ)

Exemple 2:
Entre pratique de classe et fort enjeu

Processus de l’évaluation Fonctions de l’évaluation


Sommative Orienter
Descriptive Réguler
Herméneutique Certifier

Herméneutique
Démarche intuitive et interprétative du Différences
jugement évaluatif > évaluation entre
informelle qui repose sur un jugement évaluation
d’expert (prise en compte de et mesure
paramètres et d’indices qualitatifs et
quantitatifs variés)
Evaluation descriptive / évaluation herméneutique

Descriptive :
je décris des faits, des performances à partir
d’objectifs prédéfinis (grilles, critères,
descripteurs de compétences)

Herméneutique :
je donne du sens intuitivement à un faisceau
de signes
Evaluation en classe de langue

Exemples d’éléments d’interprétation conduisant à une


évaluation herméneutique

• Degré de participation (prise de parole)


• Assiduité
• Ponctualité
• Application (présentation, écriture)
• Originalité des productions (prise de risque)
• Intérêt manifesté (questions posées)
• Travail supplémentaire
• Progression (efforts consentis)
Evaluation et parasites
Effets parasites de
l’évaluation (exemples)
Exemples d’éléments d’interprétation
conduisant à une évaluation Effet de
herméneutique favoritisme

Degré de participation (prise de parole) Effet de halo


Assiduité
Ponctualité
Effet de
Application (présentation, écriture) stéréotypie
Originalité des productions
Intérêt manifesté (questions posées)
Effet de
Travail supplémentaire contamination
De l’évaluation herméneutique à l’évaluation descriptive en
salle de classe :
l’apport du CECR et de la perspective actionnelle

• De nouveaux principes
– Les composantes
• Linguistiques
• Sociolinguistiques
• Pragmatiques
• Socioculturelles (attention à sa présence en évaluation >
cf. cours)
– Les activités langagières (écrit et oral)
• La production
• La réception
• L’interaction
• La médiation
Evaluation sommative ou descriptive : de la
compétence à la performance

• LINGUISTIQUES, PRAGMATIQUES, SOCIOLINGUISTIQUES :


– Permettent d’évaluer la performance
– Doivent se décliner sous forme de critères
– Doivent refléter les compétences attendues en
fonction :

• Des niveaux de compétences


• Des descripteurs de compétences
Les composantes

grammaticales lexicales sémantiques


Une composante phonologiques orthographiques
linguistique
Les marqueurs des relations sociales
Les tours de paroles
Les différences de registre
Une composante Les dialectes et accents
sociolinguistique Les expressions idiomatiques
Le lexique

capacité à organiser des phrases dans un


Une composante ensemble cohérent, à structurer son
pragmatique discours, à repérer des types et genres
textuels, des effets d’ironie ; ponctuation ;
paragraphes ; mise en page…
Et l’objectivité ?
Objectivité

• Objectivité : porter un jugement sans faire


intervenir de préférences personnelles /
jugement qui décrit des faits avec
exactitudes
Objectivité ou équité ?

• Objectivité : porter un jugement sans faire


intervenir de préférences personnelles /
jugement qui décrit des faits avec
exactitudes

• Equité : attribuer avec impartialité à chacun


ce qui lui est dû par référence aux principes
de justice
L’équité

L’équité n’est pas un but en soi. Elle permet


d’obtenir la fiabilité de l’évaluation, c’est-à-dire le
degré de confiance que l'on peut accorder aux
résultats observés.

L’équité nous renseigne sur le degré de relation


qui existe entre la note obtenue et la note vraie
sachant que la note vraie est une abstraction, un
point de convergence souhaité indépendant des
évaluateurs et des circonstances.
L’équité

1. Les résultats observés seront-ils les mêmes si on recueille


l'information à un autre moment, avec un autre outil ou par
une autre personne ?

2. Les résultats obtenus seront-ils en adéquation avec ce que l’on


souhaite observer ?
L’équité pour obtenir une évaluation fiable la mise en place de
critères qualitatifs pour évaluer nos outils d’évaluation :

- La fidélité

- La validité

- La standardisation
Equité et évaluation / équité et mesure
L’équité conduit à la mesure en évaluation
Processus de l’évaluation
Sommative
Descriptive
Herméneutique

Fonctions de l’évaluation
Orienter
Réguler
Certifier
La notion d’enjeu : le curseur qualitatif pour la mesure en évaluation

Les mesures des compétences


à faible enjeu à fort enjeu

© CIEP
La notion d’enjeu : le curseur des outils mis en œuvre pour la
mesure en évaluation

Les mesures des compétences


à faible enjeu à fort enjeu

Des mesures sensibles, fidèles, équitables et valides


relative importante

© CIEP
La notion d’enjeu : le curseur des outils mis en œuvre pour la
mesure en évaluation

Les mesures des compétences


à faible enjeu à fort enjeu

Des mesures sensibles, fidèles, équitables et valides


relative importante

Recours aux méthodes psychométriques


léger conséquent

© CIEP
Des enjeux sociaux forts en lien avec des projets de vie

- Admission dans une université


- Validation d’un cursus universitaire
- Accès à l’emploi
- Promotion ou mobilité professionnelle
- Immigration durable (obtention d’un visa permanent)
- Intégration sociale (Ex. : contrat d’accueil et
d’intégration)
- Naturalisation / accès à la citoyenneté
- Obtention d’un titre de séjour
Une évaluation qui doit répondre à des standards
qualitatifs

- Fidélité
- Standardisation
Une évaluation qui doit répondre à des standards
qualitatifs

- Fidélité
- Validité
Les critères de performance doivent permettre de mesurer les
compétences en français de manière …

A/ fidèle 
B/ standardisée 
C/ valide 

… pour être …

D/ équitables 

Elaborés pour des candidats qui ont des projets de vie et pour les
utilisateurs finaux qui souhaitent vérifier si l’objectif est atteint.

© CIEP
Répondre aux normes en évaluation

• Validité : mesurer ce que l’on doit mesurer.

• Fidélité : obtenir une stabilité des résultats.

• Equité : obtenir un traitement identique pour tous les candidats


quel que soit leur profil (fonctionnement différentiel)

• Objectif : le résultat de la certification ne doit pas dépendre de la


personne qui l’applique (observateur, correcteur, examinateur). La
certification ne doit pas non plus dépendre de l’outil de
mesure(le test ou l’examen).
Fidélité et validité : les critères de l’évaluation
permettent de viser cette équité

S’il n’y a pas de fidélité, il n’y a pas de validité

© CIEP
Principe fondamental
• « Une personne qui a une habileté supérieure à une autre personne
doit avoir une plus grande probabilité de réussir un item lié à cette
compétence, et de façon similaire, un item qui est plus difficile qu’un
autre signifie que pour une personne quelconque la probabilité de
résoudre le second item est plus importante »

Georg Rasch, 1960

Item 2 Item 1

individu a individu b
Le modèle psychométrique de Rasch ►
• Pour déterminer si :

▪ Le comportement de l’item est tel qu’attendu


• (comparaison des courbes)

▪ L’item ne génère pas des réponses incohérentes


• (ex : un item facile échoué par un candidat fort)

▪ L’item ne génère pas des choix heureux par ignorance


• (pouvoir discriminant de l’item)

▪ L’item n’a pas de fonctionnement différentiel (biais)


• (ex : l’item est plus facile pour les femmes)

• Les items non conformes sont exclus


Le modèle psychométrique de mesure classique ►

• Pour déterminer si :

▪ L’item n’est ni trop facile, ni trop difficile


• (% de réussite ?)

▪ La clé de l’item fonctionne bien


• (est-elle identifiée par ceux qui sont censés l’identifier ?)

▪ Les distracteurs jouent bien leur rôle


• (sont-ils choisis par un minimum de candidats ?)

▪ L’item est suffisamment discriminant


• (coefficient de corrélation point-bisérial)

• Les items non conformes sont exclus


Cet item ne fonctionne pas car pas assez discriminant :
99% des candidats y ont bien répondu

Item 3 T4300O03S
1.0

0.8

Proportion
0.6
B*
0.4
C
0.2 D

0.0
1 2 3 4
Score Groups
Subgroup 0 -- Subtest 0

Pourcentage Les choix de réponse Coefficient de


de candidats Clé : B discrimination
0,5% A. Bonjour, un café s’il vous plaît ! -12
99% B. Bonjour, un kilo de tomate s’il vous plaît ! 15
0,5% C. Bonjour, un litre de lait s’il vous plaît ! -9
0% D. Bonjour, un steak haché s’il vous plaît ! 0
Cet item ne
Item 50 T4900G50S
fonctionne pas car 1.0
trop discriminant :
0.8
9% des candidats
A*

Proportion
0.6
seulement y ont
B
correctement 0.4
C
répondu. 0.2 D

0.0
1 2 3 4
Score Groups
Subgroup 0 -- Subtest 0 (Missings)
Pourcentage Les choix de réponse Coefficient de
de candidats Clé : A discrimination
La réussite de cette recette de cuisine n’est pas difficile…
9% A pour peu 8
32% B si seulement -21
41% C à moins 12
18% D de sorte 4
… que tu prêtes un peu attention au dosage des ingrédients.
ETUDE DU FONCTIONNEMENT DIFFERENTIEL DES ITEMS
Exemple de graphique pour étudier les biais d’item

Problème de biais Aucun biais apparent


Comparaison de la difficulté des items selon le Comparaison de la difficulté des items selon le
sexe des candidats sexe des candidats
3 3

4 4
2 15 2

12 11 12 11
1 16 1 16

209 20 9
223018 2230 18
27 27
0 0
6 6
15
homme

Homme
26
23 8 26
23 8
-1 -1
2 2

19 19
-2 -2

-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
femme Femme

Mesure de difficulté pour les hommes = 1.75


Mesure de difficulté pour les femmes = -0.72
Chaque point représente
un item (ici, un item, de
grammaire). On constate,
à l’étude des items à
l’issue d’une passation de
test, que l’item codé g31 a
été mieux réussi par une
catégorie de candidats (ici
des candidats de langue
tonale : chinois) que par
des candidats de langue
agglutinante (japonais).
Cet item, qui discriminent
une catégorie identifiée de
candidat sera donc retiré
des versions de test (ici, le
TCF).
Standards minimum de qualité mis en
place par ALTE pour garantir la qualité
(équité = fidélité + validité +
standardisation) des examens et des tests
de langue en Europe.
ALTE : des principes internationaux valables d’une langue à l’autre

La conception des examens de langue

▪1. Définir ce que chaque examen évalue et indiquer dans quels cas l’utiliser.
Décrire le(s) type(s) de public(s) auquel l’examen s’adresse.
▪2. Expliquer de façon suffisamment claire les critères de notation de façon
détaillée selon le(s) destinataire(s).
▪3. Décrire le processus de conception des examens.
▪4. Expliquer comment sont déterminés le contenu des examens et les
compétences à évaluer.
▪5. Fournir aux utilisateurs, sous forme d’échantillon représentatif ou de
documents exhaustifs, des exemples de questions, de consignes, de feuilles de
réponse, de manuels et de rapports de résultats.
▪6. Décrire la méthode employée pour garantir l’adéquation de chaque examen
aux différents groupes susceptibles d’être évalués, en fonction de leurs diverses
caractéristiques linguistiques.
▪7. Identifier et communiquer les différentes conditions et compétences requises
pour chaque examen.
ALTE : des principes internationaux valables d’une langue à l’autre

L’interprétation des résultats des examens

▪8. Fournir rapidement des rapports faciles à comprendre concernant les


résultats des examens, décrivant de façon précise et claire la performance des
candidats.
▪9. Décrire les procédures appliquées pour accorder l’admission et/ou attribuer
les différents niveaux.
▪10. Si aucun niveau d’admission n’est déterminé à l’avance, proposer aux
utilisateurs des informations permettant de les aider à déterminer un niveau
d’admission, lorsque cela est souhaité.
▪11. Avertir les utilisateurs de certaines erreurs spécifiques et pouvant être
anticipées dans l’utilisation des résultats.
ALTE : des principes internationaux valables d’une langue à l’autre

La recherche de l’équité

▪12. Revoir et corriger les tâches et tout support les concernant afin d’éviter tout
contenu ou langage potentiellement blessant.
▪13. Mettre en place des procédures permettant de garantir que les différences
de performance sont liées en premier lieu aux compétences évaluées et non à
des facteurs sans rapport avec ces compétences tels que le sexe, ou l’origine
sociale.
▪14. Lorsque cela est faisable, concevoir des formes d’examen ou des
procédures d’examen adaptées aux candidats présentant des conditions de
handicap.
ALTE : des principes internationaux valables d’une langue à l’autre

L’information aux candidats

▪15. Fournir aux utilisateurs et aux candidats des informations leur permettant
de décider s’il convient de passer ou d’utiliser tel ou tel examen, ou si un
examen existant de niveau inférieur ou supérieur est plus adéquat.
▪16. Transmettre aux candidats les informations nécessaires pour savoir sur
quoi porte l’examen, connaître les types de questions et de rubriques le
composant et leur fournir d’autres consignes ou stratégies pour passer
l’examen. S’efforcer de rendre ces informations disponibles de façon équitable à
l’ensemble des candidats.
▪17. Fournir des informations concernant les droits éventuels des candidats à
obtenir des exemplaires de livrets de questions ou des feuilles de réponses
complétées, de repasser un examen, de demander une nouvelle correction ou
de vérifier ses résultats.
▪18. Fournir des informations concernant la durée de conservation des résultats
et indiquer à quelle personne ou institution et dans quels cas les résultats des
examens seront ou ne seront pas communiqués.
Constitution de versions de test parallèles

Rédaction des items Validation linguistique

Formations Commission interne

Validation finale Validation psychométrique


Commission mixte Prétest ou post-test
Ajout des items
validés

Banque d’items
Test
Test
Test

© CIEP
Des principes éthiques fondamentaux pour
les organismes certificateurs

• Dire ce que l’on fait


• Dire pourquoi on le fait
• Faire ce qu’on dit
• Etre en mesure de le prouver

Vous aimerez peut-être aussi