Tests Et Méthodes Résumé

Année Académique
2021 / 2022
Prof. Joël Billieux PhD.
Table des matières

Module 1 : Introduction à l’évaluation et à la psychométrie ......................................5
Définitions et concepts de base .................................................................................................................. 5
Psychométrie : Objectifs centraux (Bernaud, 2014) .................................................................................................................................. 5
Cinq principes de la Psychométrie (Bernaud, 2014) ................................................................................................................................. 5
Qu’est-ce qu’une méthode d’évaluation ou un « test » ? ........................................................................................................................... 6
Bref historique de l’évolution de la psychométrie ................................................................................ 7
Utilisation des tests, éthique, et déontologie .......................................................................................... 8
Règles d’utilisation des tests ....................................................................................................................................................................... 8
Quand ne pas utiliser un test ? .................................................................................................................................................................. 9
Rapport psychométrique (selon Wolber & Carne, 2002) .......................................................................................................................... 9
Code de déontologie .................................................................................................................................................................................. 9
Classification des méthodes d’évaluation ....................................................... Erreur ! Signet non défini.
Tests de performance ..................................................................................................................................... Erreur ! Signet non défini.
Questionnaires d’auto-évaluation (mais aussi hétéro-évaluation) ........................................................................................................... 10
Méthodes d’observation .......................................................................................................................................................................... 10
Tests implicites ........................................................................................................................................................................................ 10
Autres (tests projectifs, récits, etc.) ........................................................................................................................................................... 11
Module 2 : Concepts clés en Psychométrie ...................................................................12

Techniques d’échantillonnage : quelques définitions .............................................................................................................................. 12
Techniques d’échantillonnage : Méthodes Probabilistes .................................................................. 12
Échantillonnage probabiliste stricte ........................................................................................................................................................ 12
Échantillonnage par Stratification ........................................................................................................................................................... 13
Échantillonnage en grappe ...................................................................................................................................................................... 13
Tableau récapitulatif ............................................................................................................................................................................... 13
Techniques d’échantillonnage : Méthodes non-probabilistes ......................................................... 14
Échantillonnage par quotas ..................................................................................................................................................................... 14
Autres méthodes non-probabilistes (en dehors de la méthode par quotas) ............................................................................................. 15
Scores brutes et données normatives ..................................................................................................... 15
Rappel statistique .................................................................................................................................................................................... 15
Types de normes : Rangs (per)centiles .................................................................................................................................................... 16
Types de normes : Scores pondérés (score Z / score T) .......................................................................................................................... 16
Types de normes : Normes de développement ....................................................................................................................................... 18
Scores seuils, sensibilité, spécificité ....................................................................................................... 19
Score seuil : Méthodes basées sur le contenu des tests ............................................................................................................................ 19
Score seuil : Méthodes basées sur la performances des individus ........................................................................................................... 20
Score seuil : Méthodes axées sur des indices de sensibilité et spécificité ................................................................................................. 21
Fidélité ............................................................................................................................................................ 23
Définition de la fidélité ............................................................................................................................................................................ 23
Erreur de mesure ..................................................................................................................................................................................... 23
Calcul de la fidélité .................................................................................................................................................................................. 24
Fidélité test-retest ..................................................................................................................................................................................... 25
Fidélité des tests parallèles ....................................................................................................................................................................... 25
Fidélité : Méthode de bissection (« split-half ») ........................................................................................................................................ 26
Fidélité : Indices de consistance interne (« internal reliability ») ................................................................................................................. 26
Fidélité : Accord inter-juges ..................................................................................................................................................................... 27
Validité ............................................................................................................................................................ 28
Validité de Contenu (content validity) ......................................................................................................................................................... 28
Validité de Critère (criterion validity) .......................................................................................................................................................... 29
Validité de Construit (construct validity) ..................................................................................................................................................... 30
Validité de Conséquence ......................................................................................................................................................................... 31
Validité basée sur les Processus de réponse ............................................................................................................................................. 32
Validité Incrémentale (incremental validity) [ou incrémentielle] ................................................................................................................. 32
Pour conclure (synthèse validité – fidélité) ............................................................................................................................................... 33
2
Module 3 : Développement et Adaptation de questionnaires ...................................34
Les étapes de développement d’un test .................................................................................................. 34
Étape 1 : Déterminer l’utilisation du test / questionnaire ....................................................................................................................... 34
Étape 2 : Définir ce que l’on souhaite évaluer ......................................................................................................................................... 34
Étape 3 : Créer les items .......................................................................................................................................................................... 35
Étape 4 : Évaluation des items................................................................................................................................................................. 35
Étape 5 : Déterminer les propriétés (psycho)métriques du test / questionnaire...................................................................................... 36
Versions courtes de tests existants – Checklist de points à considérer..................................................................................................... 36
Illustration de développement de questionnaires sur le Binge-Watching .................................... 37
Étude qualitative ...................................................................................................................................................................................... 38
Étude de validation .................................................................................................................................................................................. 38
Étude Cross-Culturelle ............................................................................................................................................................................ 40
Module 4 : Les diagnostiques psychopathologiques ...................................................42

Modèles traditionnels (catégoriels) en Psychiatrie ............................................................................. 42
Emil Kraepelin (psychiatre allemand 1856 – 1926) ................................................................................................................................ 42
Eugen Bleuler (psychiatre suisse 1857 – 1939) ........................................................................................................................................ 43
Approche « néo-kraepelinienne » et la classification des troubles mentaux............................................................................................ 43
Le manifeste « néo-kraepelinien » : Klerman (1978)............................................................................................................................... 44
Approches diagnostiques traditionnelles .............................................................................................. 44
DSM-IV................................................................................................................................................................................................... 44
Structure et Contenu du DSM-V ............................................................................................................................................................ 46
Principaux changements du DSM-IV au DSM-V .................................................................................................................................. 46
Vers une pathologisation croissante du fonctionnement psychologique ? .............................................................................................. 47
Le péché de l’approche « confirmatoire » ............................................................................................................................................... 48
Approches critique des Modèles traditionnels (catégoriels) en Psychiatrie ................................ 48
Critique 1 : frontière stricte entre le normal et le pathologique ? ........................................................................................................... 49
Critiques 2 : Non équivalence des symptômes et hétérogénéité intra-diagnostique ............................................................................... 49
Critique 3 : Existe-t-il réellement des maladies mentales distinctes ? ...................................................................................................... 50
Critique 4 : Même symptôme mais des causes ou des fonctions différentes............................................................................................ 50
Richard Bentall : Le Manifeste Post-Kraepelinien .............................................................................. 50
IMPORTANT !!! Une critique de l’approche kraepelinienne (Bentall, 2003) ....................................................................................... 50
Lecture obligatoire G. Boateng ........................................................................................51

Phase 1 : Développement des items ........................................................................................................ 51
Step 1 : Identification du/des domaines(s) et génération des items ......................................................................................................... 51
Step 2 : Validité du contenu .................................................................................................................................................................... 51
Phase 2 : Développement de l’échelle ..................................................................................................... 52
Step 3 : Questions de pré-test .................................................................................................................................................................. 52
Step 4 : Administration de l’enquête et taille de l’échantillon ................................................................................................................. 52
Step 5 : Réduction des items ................................................................................................................................................................... 53
Step 6 : Extraction des facteurs ............................................................................................................................................................... 54
Phase 3 : Évaluation de l’échelle .............................................................................................................. 54
Step 7 : Évaluation de la dimensionnalité ............................................................................................................................................... 54
Step 8 : Tests de fidélité ........................................................................................................................................................................... 54
Step 9 : Tests de validité .......................................................................................................................................................................... 55
Conclusion ............................................................................................................................................................................................... 56
Lecture obligatoire J. Billieux ...........................................................................................56

Abstract.................................................................................................................................................................................................... 56
Introduction ............................................................................................................................................................................................. 56
Addictions comportementales : une plaie de notre ère ? ......................................................................................................................... 56
Comment créer de nouveaux diagnostic basés sur des anciennes recettes ? ........................................................................................... 57
Syndromes VS Processus ......................................................................................................................................................................... 58
3
Lecture obligatoire M. Van der Linden ..........................................................................58
La conception essentialiste des difficultés psychologiques : caractérisation et limites ............................................................................. 59
Une illustration : l’approche essentialiste de la dépression ...................................................................................................................... 59
Une autre approche des difficultés psychologiques ................................................................................................................................. 61
Conclusion ............................................................................................................................................................................................... 62
4
Module 1 : Introduction à l’évaluation et à la psychométrie
Définitions et concepts de base

Psychométrie = science de la mesure en psychologie
• Méthodes spécifiques d’investigation complémentaires aux méthodes qualitatives
• Objectif de construire des théories psychologiques et/ou de les vérifier
• Participe à la définition d’une psychologie scientifique
Pas une finalité en soi, mais plutôt un outil au service des psychologues !!!!
Psychométrie : hypothèses de base

L’être humain possède des traits ou caractéristiques reconnaissables (ex: habiletés verbales, mémoire,
extraversion, impulsivité, connaissances de l‘histoire, etc.) = facettes importantes des individus.
à Les différences entre les personnes sont importantes (différences individuelles)
à Ces traits ou caractéristiques sont quantifiables (identification sur un continuum)
à Ces traits ou caractéristiques ont un certain degré de stabilité ou de permanence
Les traits ou caractéristique stables que quantifient les tests ont des liens importants avec le
comportement dans des situations réelles (important pour le praticien !)
Psychométrie : Objectifs centraux (Bernaud, 2014)
A. Comprendre le fonctionnement psychologique, élaborer / vérifier des théories

• Modèles psychologiques sont composés de plusieurs construits articulés entre eux et visent à rendre
compte de certains aspects du comportement afin de pouvoir le décrire, l’expliquer et/ou le prédire
B. Réduire l’erreur d’appréciation d’un phénomène psychologique

• Entretien et observation spontanée : nécessaires, mais hautement subjectifs. En particulier pour les
phénomènes psychologiques, notre expertise supposée ou avérée peut être biaisée (erreur
fondamentale d’attribution ; biais de confirmation ; stéréotypes ; effet de halo, etc.)
C. Aider au développement des personnes (contexte professionnel, scolaire, clinique, etc.)

• Tests et questionnaires ne servent pas qu’au « diagnostic », mais aussi au développement personnel
et/ou à l’identification de force/vulnérabilité psychologiques
D. Faciliter la communication entre professionnels et bénéficiaires

• Utilisation raisonnée et raisonnable des tests et questionnaires permet de susciter la réflexion, la
distanciation, l’illustration, l’explicitation des propos, échanger des informations, les confronter, les
infirmer ou les préciser. Ceci est possible si l’on considère les test et questionnaires non pas comme
le reflet de vérités inébranlables, mais comme des observations permettant la réflexion sur soi et
l’introspection
Cinq principes de la Psychométrie (Bernaud, 2014)
A. L’équité entre répondants

• Principe de standardisation : nécessité d’attribuer les résultats aux caractéristiques de la personne
évaluée et non aux fluctuations de la situation
B. L’approche quantitative de l’examen psychologique

• Choix épistémologiques qui répondent à plusieurs exigences : économie dans la présentation et
l’analyse des données ; clarification et opérationnalisation des construits employés ; fiabilité élevée
des indicateurs élevés, erreur de mesure réduite
• Ne pas écarter les interprétations qualitatives et holistiques : l’analyse des réponses aux items
participe également à donner une interprétation plus individualisée et qualitative aux données
recueillies
5
C. Un cadre théorique : les modèles de la psychologie différentielle
• La psychologie différentielle a développé des cadres référentiels permettant de rendre compte des
différences individuelles dans différents domaines : fonctionnement cognitif (y compris
intelligence), intérêt, tempérament, et personnalité
• Psychologie différentielle : modèles théoriques descriptifs des différences individuelles vs.
Psychométrie : développement de mesures fiables permettant d’évaluer les différences individuelles
D. La qualité de la mesure comme critère fondamental

• Qualités métrologiques des instruments : sensibilité, fidélité et validité
E. Des instruments et méthodes d’évaluation variés

• Entretiens cliniques : structurés ; semi-structurés ; non-structurés
• Questionnaires validés : auto-observation ; hétéro-évaluation
• Autres mesures : tests projectifs ; récits ; tests neuropsychologiques ; autres tâches de laboratoire
Qu’est-ce qu’une méthode d’évaluation ou un « test » ?
Définition de « test »
• « Instrument ou processus d’évaluation dans lequel un échantillon de comportement d’un candidat dans
un domaine donné est obtenu et subséquemment évalué et corrigé selon un processus standardisé »
Test : 5 points communs à toutes les définitions

1) Type de méthode ou d’outil
2) Fournit des informations sur le comportement, les cognitions, les attitudes, etc. (≠ mesure physique ou
mesure médicale)
3) Renseigne sur un échantillon, souvent réduit, du construit cible
4) Méthode systématique et standardisée (= méthode uniforme d’administration et de cotation)
5) L’information récoltée est traduite sous forme numérique
IMPORTANT !!!! « L'hypothèse scientifique par défaut est qu'on ne sait mesurer aucune grandeur psychologique
(...). Les tests psychologiques ne sont pas des instruments de mesure, mais des instruments d'observation
et/ou d'évaluation » (Vautier, 2017)
Mesurer des construit latents

• Une variable latente (théorique) n'est pas observable directement, mais est estimée par un ensemble
d'observations (variables observées ou variables manifestes)
• Pour définir une variable latente, on utilise « un modèle de mesure » ou « modèle théorique »
Principe : distinguer items vs construits

• Items : chaque unité élémentaire exprimant un aspect manifeste de la tâche proposée
• Construits : variables latentes, i.e., non visibles a priori, inférées à partir des réponses aux items
Le nombre de variables latentes, leur niveau, leur structuration et leur interprétation sont abordés dans la
formalisation d’un modèle général qui permet de donner sens à l’opération de mesure (apport de l’analyse
factorielle). Ces variables latentes sont opérationnalisées à partir d’échelles (ou dimensions psychologiques) qui
sont constituées d’un ensemble d’items.
Mesure réflective (approche classique en psychométrie)

On suppose qu'il existe une dimension sous-jacente (variable latente) théorique (non observable) et que le résultat
à un test est causé par cette dimension (la variable latente)
• La dimension théorique prédit la variable mesurée
• Dans un modèle de mesure réflective, la corrélation entre les items/tests s'expliquent par le fait qu'ils sont
sous-tendus par la même variable latente. Les variables manifestes reflètent la variable latente.
Utilisation et utilisateurs des tests

• Domaine « clinique »
• Domaine scolaire / enseignement
• Domaine gestion du personnel (entreprise et armée)
• Domaine de la recherche
6
Bref historique de l’évolution de la psychométrie
1. Le passé lointain : 1840
a. La psychologie tire son origine de la philosophie.
b. Antiquité, Moyen âge, Renaissance : peu d’intérêt pour les différences individuelles
c. Fin de la renaissance : préoccupation du fonctionnement de l’esprit humain
2. La mise en place : 1840 – 1880

a. Intérêt accru pour les « maladies mentales »
b. Instauration des examens écrits à l’école (USA)
c. Influence des travaux de Darwin
d. Naissance de la psychologie expérimentale (W. Wundt)
3. L’enracinement : 1880 – 1915

a. Développement de la Psychométrie
b. Francis Galton : fondateur de la psychométrie et de la psychologie différentielle
c. James Cattell : création des batteries de tests pour prédire le succès scolaire
d. Alfred Binet : père des tests d’aptitudes intellectuelles
e. Charles E. Spearman : statisticien à l’origine de l’analyse factorielle et d’une théorie empirique de
l’intelligence humaine fondée sur les résultats aux tests
4. L’essor : 1915 – 1940

a. Traduction et adaptation de l’échelle de Binet aux USA ; utilisation d’un score unique pour
représenter l’intelligence (critiqué par Thurstone, 1938)
b. Développement de tests standardisés dans différents domaines
5. La consolidation : 1940 – 1965

a. La Psychométrie se développe et son usage prend de l’ampleur dans la pratique clinique, les écoles,
l’armée (guerre). Devient une pratique professionnelle acceptée et reconnue
b. Connaissances accumulées correspondent à la Théorie Classique des Tests (TCT)
i. X[score] = T[score vrai] + ε[erreur de mesure]
6. Le passé récent : 1965 – 2000

a. Élaboration de la théorie de réponse à l’item (« item response theory », IRT) : méthode permettant
d’examiner une gamme complète de questions concernant la fidélité, l’échelonnage et l’élaboration
des tests
b. Activisme législatif (tests obligatoire vs interdits)
c. Critiques de la Psychométrie : remise en cause de la validité des tests, aspects culturels
d. Influence des ordinateurs
7. Période actuelle : dès 2000

a. Augmentation fulgurante du nombre et de la diversité des tests
b. Influence grandissante de la gestion intégrée des soins de santé : tests ciblés et liens étroits entre
diagnostic et traitement et traitement et résultats
c. Développement et importance de la pratique « fondée sur les données probante s»
d. Tests et résultats communiqués en ligne
e. Nouvelles approches s’ajoutent aux approches traditionnelles réflexives, à la théorie classique des
tests (TCT) et à la théorie de réponse à l’item (IRT)
f. Essor du « testing en ligne ». Mais aussi développement de logiciels simulant les jugements humains
Sources principales du développement de la Psychométrie actuelle

• L’impulsion scientifique (nécessité d’utiliser des mesures scientifiques empiriquement fondées)
• Les préoccupations tournées vers la personne (développement de la Psychométrie comme science d’évaluation de l’individu)
• Les applications pratiques (faciliter le diagnostic, orienter les élèves, sélectionner les militaires, etc.)
• La méthodologie statistique (données bivariées = relations entre deux variables, r de Pearson et de Spearman, etc.)
• L’essor de la psychologie clinique (sens large)
• L’utilisation des ordinateurs (administration des tests en ligne, programmation de nouveaux tests, facilitent l’analyse des données)
• Développement de la psychologie et neuropsychologie cognitive
• Développement de la psychologie clinique empirique et de la TCC
7
Utilisation des tests, éthique, et déontologie
Les tests en psychologie servent à donner des éléments de réponse à des questions précises posées par le
psychologue lui-même, une institution, un patient, etc. De plus ils aident à apprécier les forces, les faiblesses, et
les particularités des comportements de l’individu tout en tenant compte du fait que les outils d’évaluation sont
imparfaits : par exemple certains manuels de test ne comportent pas toutes les données psychométriques utiles
pour s’assurer de leurs qualités ou encore certains tests disponibles en libre accès, commerciaux, ne sont pas
forcément adéquat d’un point de vue psychométrique (sensible, valide et fidèle) !!! Une bonne connaissance des
méthodes de construction des tests est donc nécessaire.
Standardisation
La standardisation des tests est essentielle et constitue un prérequis de leur interprétation et comparaison.
• Objectif : différences entre les scores observés habituellement et les scores observés lors de la passation
du test ne sont pas la conséquence de variations de la situation.
Un Test standardisé c’est un test dans lequel les items/tâches ou questions, les conditions d’administration,
l’édition, la notation et l’interprétation des résultats s’appliquent de façon cohérente et prédéterminée pour toutes
les personnes évaluées. Respecter la standardisation permet de minimiser les biais que pourrait introduire
l’observateur.
Règles d’utilisation des tests
Un « manuel de test » doit être disponible pour pouvoir sélectionner et administrer un test. Ce manuel doit à
minima préciser :
• Les objectifs généraux du test
• Le référentiel théorique des concepts utilisés
• Les grandes étapes et les justifications ayant conduit à sélectionner les questions constitutives de l'épreuve
• Les consignes précises de passation et de cotation (indispensable pour une bonne standardisation)
• Les données permettant d'apprécier les qualités psychométriques de l'instrument
• La définition de la population de référence (ou des populations de référence) et la méthode
d'échantillonnage
• Les qualités métrologiques : sensibilité, fidélité(s), validité (travaux de validation)
• La (les) table(s) d'étalonnage ou les règles de transformation des scores bruts en scores étalonné
• La date de publication des normes d'étalonnage
• Éventuellement des exemples d’utilisation clinique quand l'épreuve s'y prête
1. Dans l'exercice de sa profession, le psychologue doit tenir compte des principes scientifiques généralement
reconnus en psychologie
2. Le psychologue ne diffuse pas le contenu des tests
3. Le test n'est pas une fin en soi, mais un outil standardisé qui complète, éclaire des données recueillies sur la
personne. Il s'inscrit généralement dans une démarche hypothético-déductive
4. Le psychologue ne doit pas remettre à autrui les données brutes et non interprétées inhérentes à une
consultation psychologique
5. Le psychologue doit éviter toute possibilité de fausse interprétation ou d'emploi erroné des
informations qu'il transmet à autrui
a. Psychologue doit rédiger des comptes rendus qui dans leurs formes doivent s’adapter aux
destinataires
b. Lors d’un bilan, la personne concernée doit toujours avoir une restitution du bilan (orale et écrite).
Cette restitution doit être expliquée et discutée, s’assurer que la personne a compris
6. Le rapport psychométrique - rapport d'évaluation

a. Ensemble cohérent de toutes les données relatives à l’évaluation
b. Éviter de faire des commentaires sur ce qui est moyen ou « normal »
c. Répondre aux questions posées et doit éviter tout ce qui ne concerne pas ces questions
d. Rédigé en fonction des besoins et des connaissances
8
Quand ne pas utiliser un test ?
1. Les objectifs du test sont peu ou pas clairs pour le psychologue

2. Le psychologue n'est pas familier avec le test, pas assez entraîné à son administration
3. Le psychologue ne sait pas à qui est destiné le test ou comment seront utilisés les résultats du test
4. Les informations que pourraient fournir le test sont déjà disponibles ou peuvent être obtenues par
d'autres moyens ou des sources plus sûres
5. La personne devant être testée n'est pas d'accord/pas prête pour coopérer à une situation de test
6. Le test ou la situation de test peut engendrer un préjudice à la personne testée
7. L'environnement et/ou les conditions de passation ne sont pas adaptés à la situation de test
8. Le format du test n'est pas adapté en raison de l'âge, de l’aspect linguistique, culturel, ou de tous les
autres facteurs qui rendent invalides les données obtenues
9. Les normes sont trop anciennes ou inadaptées et inapplicables à la personne testée
10. Le manuel du test (documentation) concernant le test ne donne pas d'informations suffisantes
concernant la fidélité et la validité des scores observables
Rapport psychométrique (selon Wolber & Carne, 2002)
Le rapport psychométrique doit contenir

1. Données personnelles (nom et prénom, date de naissance, date de l'évaluation)
2. Mandat (raison de l'évaluation)
3. Méthodes et instruments d'évaluation (entrevue, tests, étude de dossiers)
4. Présentation de la personne (statut social, relations familiales, scolarité, histoire du développement, situation
actuelle, éléments les plus significatifs de la vie, portrait clinique)
5. Observations et conditions de passation (comportements et attitudes lors de l'entrevue, coopération,
motivation, motricité, empathie)
6. Résultats, impressions sur le plan clinique et interprétation (inférences basées sur des variables
significatives des tests et sur les observations compte tenu de l'objectif de l'évaluation; discussion sur les
résultats par thèmes)
7. Éléments de diagnostic (appartenance à une catégorie psychologique ou clinique)
8. Résumé et recommandations (conseils reliés au but de l'évaluation)
Nombreuses chartes, directives reprenant ces principes. Voir par exemple texte de référence proposé par la
commission internationale des tests : https://www.intestcom.org/files/guideline_test_use.pdf
Codes, standards, directives

• International Test Commission : La commission Internationale des Tests (ITC) définit des règles d'usage et
de bonne conduite dans l'utilisation des tests (guidelines) : http://www.intestcom.org/
• Standards for Educational and Psychological Testing (2014) : développés conjointement par l'APA
(American Psychological Association) et l’AERA (American Educational Research Association)
• European Federation of Psychologists' Associations (EFPA) : définit des directives et principes à l'origine
des codes de déontologie nationaux
Code de déontologie
Déontologie = ensemble de règles ou devoirs régissant la conduite à tenir pour les membres d'une profession
(cadrée ou non) par la loi.
En psychologie : premiers codes de déontologie élaborés par les organisations professionnelles des psychologues
(années 50). En Europe, les codes s'inspirent de la charte européenne de déontologie votée le 5 novembre 1994 à
Malte et du métacode de la Fédération Européenne des Associations de Psychologie (EFPA) adopté le 1 juillet
1985 à Athènes
• Un psychologue doit respecter le code de déontologie de son pays mais aussi connaître des règles de
conduite comme celles proposées pour l'usage des tests par la commission internationale des tests
(International Test Commission)
Il ne faut pas négliger les aspects socio-culturel, éthiques et déontologiques car un questionnaire (ou test) est par
essence empreint du contexte social, politique, économique et culturel dans lequel il a été élaboré. Un questionnaire
peut aussi devenir obsolète, et il n’est pas forcément transposable d’un contexte (social / culturel) à un autre.
9
Classification des méthodes d’évaluation
Tests de performances
• « Aptitudes » cognitives : mémoire, fonctions exécutives, raisonnement, etc.
• Aptitudes psychomotrices, physiques et sensorielles
• Tests de connaissances
• Tests de jugement situationnels
Avantage
• Pas (ou moins) influencées par les biais de désirabilité sociale
• Pas influencé par les problèmes d’anosognosie (par ex. tâches de mémoire) ou de dénis
Limites
• Validité écologique pas toujours élevée
• Peu de données normatives
• Nécessitent une formation à la passation et des conditions d’administration rigoureuses
• Leur analyse requiert parfois des compétences techniques et/ou du logiciel informatique
• Influence de la motivation, fatigue, stress, etc.
• Pas toujours facilement implémentable dans les cabinets de consultation
• A l’exception des tests projectifs et neuropsychologiques, davantage utilisés en recherche qu’en clinique
Questionnaires d’auto-évaluation (mais aussi hétéro-évaluation)

• Examiner ses propres comportements, intérêts, attitudes, valeurs, traits de personnalité, etc.
• Procédure standardisée et scores latents inférés à partir des réponses
• Représente ce que la personne affirme être dans un contexte d’évaluation particulier / spécifique
Limites
• Propriétés psychométriques
• Données normatives (trop) souvent lacunaires et/ou inappropriées
• Sources de Biais de mesure (désirabilité sociale, introspection, dénis, etc.)
• Pas adapté à toutes les populations / personnes / clients (handicap, langage, etc.)
Méthodes d’observation
• Évaluer des conduites dans un environnement naturel (évaluation écologique)
• Aspects de standardisations
o Dispositif rigoureusement défini
o Définir des unités élémentaires permettant d’enregistrer certains aspects du comportement
o Système de synthèse de l’information
o Vérifier la justification du modèle construit, notamment par l’étude de la fidélité inter-
observateurs et de la validité des observations traitées
• Auto-évaluation (self-monitoring) ou hétéro-évaluation
Tests implicites
• Performances basées sur des comportements qui ne sont pas perçus par les individus comme l’expression
du construit examiné ou qui ne peuvent pas être contrôlés par la personne
Avantages
• Évaluer des processus qui ne sont pas consciemment accessibles
• Ne peuvent pas être déformés par des stratégies de réponse comme la désirabilité sociale
10
Autres (tests projectifs, récits, etc.)
Types de tests projectifs
IMPORTANT !!! Informations importantes concernant le Test du Rorschach

• Test psychologique ayant suscité le plus de controverse (c’est à la fois le plus «chéri» et le plus «détesté»
des tests psychologiques)
• Test toujours largement utilisé (en psychologique clinique et légale notamment), malgré une pauvreté des
données scientifiques associées
• Seule la méthode de Exner (ignorée dans bcp de milieux francophone) a fait l’objet d’étude scientifiques
• Un nombre conséquent d’indices issus du test ne sont pas validés empiriquement
• Faible fidélité test-retest
• Faible validité incrémentale (ne permet pas de prédire un critère diagnostique mieux que ferait une
batterie de tests sans ce test lui-même), or administrer ce test prend généralement 45 min et le
coter/interpréter 1h-2h !
Récits – exemple : Souvenir définissant le soi

intégrés dans la mémoire autobiographique
reflètent les buts, préoccupations ou conflits non résolus qui sont centraux dans la vie
d’un individu
vivaces (comportent beaucoup de détails sensori-perceptifs)
haute intensité émotionnelle
haut niveau de récapitulation (ils sont fréquemment récupérés), par ex:

permet de rappeler à la personne ce qu’elle veut ou ne veut pas être (influence la motivation)
peuvent aussi être récupérés par nostalgie (revivre des bons moments)
lien avec des souvenirs similaires
événement datant d’au moins un an
Lardi, C., & Van der Linden, M. (2012). Les souvenirs définissant le soi: Les liens entre la mémoire des événements personnels et l’identité.
In S. Brédart et M. Van der Linden (eds.), Identité et Cognition: Apports de la psychologie et de la neuroscience cognitives.
Bruxelles: De Boeck
11
Module 2 : Concepts clés en Psychométrie
Techniques d’échantillonnage : quelques définitions
Échantillon
• Groupe d’individus représentatif de la population (population parente) pour la mesure effectuée
• Si l'échantillonnage est réalisé correctement, les résultats observés sur cet échantillon sont supposés
similaires à ceux que l'on observerait dans la population parente.
Échantillon normatif
• Échantillon permettant d’étalonner un test (créer des normes)
Population parente (ou de référence)

• La population constituée de l'ensemble des individus sur lesquelles porte l'objet de l'étude (population de
référence)
• Application à la construction d'un test : un test est construit pour différencier les individus d'une
population donnée et doit permettre de situer un individu par rapport à cette population (si test normatif)
Lors de la construction d’un test on va extraire un ou plusieurs échantillons représentatifs (échantillonnage) pour :
• Développer le test / questionnaire
• Étudier ses qualités métrologiques
• Réaliser l’étalonnage (= développer des normes)
Comment définir un modèle de la population parente ?

Modèle de la population parente = description de cette population à partir de variables censées être en relation
avec le test en construction. Ce « modèle » de la population parente permet par exemple de construire les quotas
dans l'échantillonnage par la méthode des quotas ou de définir des strates dans la méthode probabiliste par
stratification.
Techniques d’échantillonnage : Méthodes Probabilistes

Méthodes d'échantillonnage dans lesquelles chaque individu de la population peut être tiré au sort et a donc la
même probabilité de faire partie de l'échantillon
• Nécessitent une liste exhaustive de la population parente (exception - l'échantillonnage en grappe)
à Technique d’échantillonnage difficile à réaliser
Échantillonnage probabiliste stricte
La méthode probabiliste stricte (i.e. totalement aléatoire) peut-être mise en œuvre de deux manières : par tirage
simple au hasard vs. par tirage systématique.
• Tirage simple au hasard (tirage au sort sans remise) : pour sélectionner le groupe représentatif de la
population parente, on tire au sort chaque individu
o Contrainte: toutes les personnes de la population de référence doivent avoir la même probabilité
d'être sélectionnées (méthode coûteuse lorsque la population parente est très importante)
• Tirage systématique : Le principe de cette méthode implique

o choisir au hasard un point de départ (un seul tirage au sort) depuis la liste des individus de la
population de référence
§ sélectionner les personnes à intervalle régulier k (à partir de la position tirée au hasard) sur
cette liste en la parcourant vers le haut (fin) et vers le bas (début)
§ intervalle de sélection : k ≤ N/n (2000(N) / 50(n) = 40)
o calculer taux de sondage
§ e.g. : Population étudiée = 10.000 individus
§ échantillon = 200 personnes
§ taux de sondage = 2%
o parcourir la liste des personnes constituant la population parente
o Plus simple que tirage simple quand population parente grande
12
Échantillonnage par Stratification
Cette méthode nécessite d'avoir des informations sur chaque individu (par exemple : sexe, âge, profession, etc.) et
la fréquence de ces données dans la population de référence (population parente).
• On reproduit dans l'échantillon les caractéristiques de la population de référence, en tirant au hasard les
individus non plus dans la population globale mais dans des strates (sous-groupes) définies par les
variables retenues pour caractériser la population
On peut stratifier un échantillon sur plusieurs caractères considérés conjointement (p.ex., sexe, revenu et habitat)
• Les personnes sont ensuite tirées au hasard à l'intérieur des strates prédéfinies
à Augmente la représentativité de l’échantillon !!!!
Remarques
• Avec cette méthode, on a autant de tirage simple au hasard que de strates
• Cette méthode présente un intérêt si le critère de stratification est en relation avec l'objet d'étude
• Cette méthode est toujours une méthode probabiliste. Chaque individu de la population parente possède
la même probabilité de faire partie de l'échantillon. Elle nécessite toujours une liste exhaustive de la
population parente
• Si les variables à la base des strates sont bien choisies, cette méthode permet de diminuer les risques de
biais d'échantillonnage (donc permet en principe, pour le même risque d'erreur, de diminuer la taille de
l'échantillon). La qualité des strates détermine en partie la représentativité de l'échantillon
Échantillonnage en grappe
L'échantillonnage en grappe permet de s’affranchir des difficultés de mise en œuvre de la technique

d'échantillonnage probabiliste stricte ou par stratification.
• Dans cette méthode l'unité de sondage n'est plus l'élément tiré au hasard. On tire cette fois au hasard des
groupes de personnes. Toutes les personnes de ce groupe (à la grappe)
o Cette méthode permet de prendre des unités de tirage au sort plus importantes (villes, écoles,
etc.)
• Avantage : Pas besoin d’avoir une liste nominative de tous les membres de la population parente
• Inconvénients : risque d’homogénéité des grappes
o Taille de l’échantillon plus important que l’échantillonnage probabiliste stricte
Échantillonnage par grappe à plusieurs degrés

Dans le système d'échantillonnage par grappe, on peut effectuer une succession de tirages par grappes de plus en
plus petites, incluses dans celles choisies au niveau précédent.
• Par exemple : pour effectuer une étude sur les étudiants universitaires en Suisse, on peut sélectionner au
hasard cinq universités (premier niveau d'échantillonnage en grappe), puis dans chacune de ces
universités, toujours au hasard, quatre filières d'enseignement, et enfin dans chacune de ces filières, deux
niveaux (bachelor et master)
Tableau
Tableau Récapitulatif
récapitulatif
Suppose d’avoir une

base de sondage
13
La base de sondage est un fichier comprenant l'ensemble de la population
étudiée lors d'une enquête quantitative et au sein duquel est prélevé par
tirage au sort les individus interrogés (échantillon).
Les non-réponses (= la personne sélectionnée ne répond pas)
Méthodes probabilistes engendrent un taux de non-réponses pouvant être important
• ≠ méthode des quotas et la plupart des méthodes non probabilistes
Le taux de non-réponses peut introduire un biais d'échantillonnage si les caractéristiques des répondants et des
non-répondants diffèrent et que cette différence a un impact sur la mesure examinée
• Toujours indiquer le taux des non-réponses dans un échantillonnage probabiliste
Techniques d’échantillonnage : Méthodes non-probabilistes

Méthodes de sélection où la représentativité de l'échantillon est assurée par une démarche raisonnée en utilisant
des règles de sélection des individus fixées préalablement
• Plusieurs méthodes non-probabilistes: la plus utilisée en psychologie est la méthode des quotas
• Principales différences entre méthodes probabilistes et méthodes non probabilistes ?
o Pas de hasard au sens strict dans les méthodes non probabilistes
o Pour les méthodes non probabilistes, la probabilité qu'a un individu de la population d'appartenir
à l'échantillon est inconnue
à Impossible de mesurer la précision des estimations (degré de confiance dans les résultats observés)
IMPORTANT : Pas de non-réponse !!! : lorsqu’une personne ne répond pas, elle est remplacée par une autre.
Échantillonnage par quotas
L'objectif est d'assurer la représentativité de l'échantillon en conformant la structure de l'échantillon aux

caractéristiques de la population de référence
• Méthode qui repose sur des statistiques fiables concernant la population parente
Méthode proche de la méthode par stratification, mais sans hasard

• On choisit les personnes que l’on veut, mais en respectant les proportions de diverses catégories de la
population parente
• Exemple: si dans la population de référence il y a 10% de psychologues parmi lesquels 70% de femmes
et 30% d'hommes à pour un échantillon de 100 personnes, on devra sélectionner 70 psy F et 30 psy H
Étapes
1. Construire un modèle de la population parente : on décrit la population à partir de variables supposées être en
relation avec l'objet de mesure
2. Décider quelles sont les variables traitées comme des variables simples ou croisées
3. On cherche des statistiques concernant ces variables simples ou croisées (fréquence dans la population parente
de l’échantillon que l’on veut constituer)
4. Fixer le nombre des personnes à interroger et déterminer les quotas de façon à ce que les proportions observées
dans la population de référence soient respectées dans l’échantillon
5. La difficulté pour les enquêteurs est qu'au fur et à mesure de l’étude, la personne à trouver risque d'avoir des
caractéristiques très spécifiques
Contraintes
• On doit connaître les caractéristiques de la population parente (mais on n'a pas besoin d'une liste
exhaustive des individus constituant cette population). Le plus souvent ces caractéristiques peuvent être
données par les organismes nationaux de statistiques
• La difficulté pour trouver des individus participant à l'échantillon augmente au fur et à mesure que l'on
avance dans la construction de l'échantillon. Les dernières personnes à interroger sont parfois très
difficiles à trouver si l'on veut respecter les caractéristiques de la structure de la population parente.
Avantages
• Cette méthode présente l'avantage d'être souvent plus rapide et moins coûteuse (aussi en temps, énergie,
etc.) que les méthodes probabilistes.
• Pas de non-réponses. Lorsqu'une personne ne veut pas participer, on en cherche une autre !
• Remarque : Les psychologues utilisent souvent la méthode des quotas lors de la construction de tests
d’intelligence et d’aptitudes (e.g., échelle d’intelligence de Wechsler)
14
Autres méthodes non-probabilistes (en dehors de la méthode par quotas)
Ces méthodes peuvent induire des biais plus ou moins importants dans la représentativité de l'échantillon !!!
Exemples d'échantillonnages non-probabilistes

• Échantillonnage sur la base du volontariat (pas de garantie de représentativité) = convenience sample
• Technique « boule de neige » : on utilise le parrainage ou les amis et collègues des répondants pour
construire l'échantillon
• L'échantillonnage dirigé (« purposive or judgmental sample ») : on détermine l'échantillon en fonction
de l'objet d'étude (on sélectionne des personnes que l'on pense appropriées en fonction d'une expertise
dans un domaine). En psychologie, cette méthode est utilisée lorsque l'on sélectionne des groupes
extrêmes ou un groupe clinique
Scores brutes et données normatives
Normes à transformations des scores bruts

Scores bruts
• Nombre de bonnes réponses à un test de connaissance
• Nombre de réponses «oui» à un test utilisant des items dichotomiques (bcp de tests de personnalité
notamment)
• Somme des réponses à codes numériques donnés à des items utilisant des échelles de Likert
Le plus souvent les items sont combinés par addition pour obtenir un score brut
Difficilement interprétable à Besoin de transformer ces scores
Rappel statistique
Forme de la distribution : Asymétrie

Asymétrie (skewness) : Une distribution statistique est symétrique si les observations repérées par leur fréquence
sont également dispersées de part et d'autre d'une valeur centrale
• La valeur de ce coefficient est de 0 pour une distribution normale
• Si coefficient négatif à asymétrie avec une queue de distribution plus étendue à gauche (souvent le
cas si effet plafond, i.e. tâche facile)
• Si coefficient positif à asymétrie avec une queue de distribution plus étendue à droite (souvent le cas
si effet plancher, i.e. tâche difficile)
Forme de la distribution : Aplatissement

Aplatissement (kurtosis) : mesure de l’aplatissement (ou voussure) de la distribution
• Si distribution normale, la valeur de ce coefficient = 3. (courbe mésokurtique)
• Un coefficient d'aplatissement négatif à distribution aplatie (courbe platykurtique)
• Un coefficient d'aplatissement positif à distribution « pointue » (courbe leptokurtique)
« Règle de pouce » (Skewness / Kurtosis)

Barèmes indiquant une ± forte déviation par rapport à une distribution normale
• Skewness : Si l’indice d’asymétrie se situe entre -1 et +1 (parfois entre -2 et + 2, ou -3 et +3)

à pas de forte déviation par rapport à une distribution normale
• Kurtosis : Si l’indice d’aplatissement (voussure) se situe entre -7 et + 7 (parfois entre -10 et +10)
à pas de forte déviation par rapport à une distribution normale
Forme de la distribution : La loi normale

Lorsqu'une série de mesures subit l'influence de sources de variation aléatoires, alors les caractéristiques de cette
série répondent à la loi normale (théorème central limite)
• La loi normale est la plus connue des lois de probabilité
o Sa fonction de densité a une forme simple (courbe en cloche) et symétrique
o Presque toutes les valeurs (> 99%) se trouvent entre ± 3 écarts-types de la moyenne
o 95% des valeurs se trouvent à ± 1.96 écart-type de la moyenne
15
Variance
En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon
ou d'une distribution de probabilité.
• Écart-type = Racine carrée de la variance
• La variance est un indice de dispersion qui s’exprime en unités au carré
• On préfère donc l’écart-type qui exprime la dispersion dans le même système d’unités que la moyenne
Types de normes : Rangs (per)centiles
Proportion des membres du groupe de référence qui se situe sous et/ou est égale à un score donné
• Si un score brut de 55 se trouve à un rang percentile de 66, alors 66% des membres du groupe de référence
ont obtenu un score égal ou inférieur à 55.
Diverses variantes du système de percentile: déciles, quintiles, quartiles

• Divisent la distribution respectivement en dixièmes, cinquièmes et quarts
• Valeurs de 1 à 99, médiane = 50
Avantage
• Notion simple, facile à comprendre
Désavantage
• Inégalités des intervalles aux divers points de l’échelle: les rangs percentiles se regroupent au centre et
s’étalent aux deux extrémités de la distribution
IMPORTANT !!! : l’écart entre le Pc 50 et 60 n’est pas égal à l’écart entre le Pc 80 et 90. Il est donc difficile de
comparer les sujets entre eux. Les percentiles ne nous renseignent que sur le rang d’une personne, mais par
sur l’écart qui la sépare des autres personnes.
Types de normes : Scores pondérés (score Z / score T)
Un système de score pondéré est une conversion des scores en un nouveau système comportant une moyenne et
un écart-type choisis de manière arbitraire.
• Transformations le plus souvent linéaires (fréquemment utilisés en psychologie)
Joue un rôle crucial dans l’élaboration de certaines normes de tests / questionnaires
Aussi utile pour comparer des scores n’utilisant pas les mêmes métriques
Transformation linéaire : le score Z

Transformation en score Z : calculer la différence entre chaque valeur de x et la moyenne (M) de la distribution,
puis diviser cette différence par l’écart-type (ET)
à z = (x-M)/ET
Dans la distribution des scores Z : M = 0 et ET = 1 (étendue : -4 à +4). Peu importe les scores bruts, lorsqu’ils sont
convertis en scores Z, ils ont toujours la même moyenne (0) et le même écart-type (1).
La transformation linéaire n’affecte pas l’ordre de grandeur des valeurs et la forme de la distribution n’est pas
changée. Si elle était non-normale, elle le reste !
On utilise les scores Z pour « tracer » la courbe normale en fonction des surfaces de la courbe
• Les scores Z s’étendent entre ± 3 ET de la moyenne de la distribution
Transformation linéaire
La transformation en score Z permet de représenter toute distribution normale sur une échelle commune le score z (4)(M = 0;
ET = 1). La Table de probabilité de la distribution normale réduite nous donne l’aire sous la courbe pour chaque
La table de la distribution normale nous permet de calculer des
intervalle entre la moyenne (i.e., 0) et la valeur de z qui s’échelonnent de 0.01 àvaleurs
4.00.très utiles
• Pour l’intervalle entre la moyenne et 0.75, l’aire sous la courbe est de 0.2734
• 68.26% des scores sont inclus dans l’intervalle [-1 ET; +1 ET]
• 95.44% des scores sont inclus dans l’intervalle [-2 ET; + 2 ET]
• Si on tire un score au hasard au sein de la distribution, nous avons 27.34% descores
• 99.74% des chance de l’intervalle
sont inclus dans tirer un [-3 ET;score
+3 ET]
inclus dans l’intervalle [0.00 ; 0.75]
La table de la distribution normale nous permet de calculer des valeurs très utiles
• 68.26% des scores sont inclus dans l’intervalle [-1 ET; +1 ET]
• 95.44% des scores sont inclus dans l’intervalle [-2 ET; + 2 ET]
• 99.74% des scores sont inclus dans l’intervalle [-3 ET; +3 ET] 29
16
Score pondéré : le score T
Largement utilisé pour les tests de la personnalité et d’autres types de tests comme le MMPI
• ATTENTION : A ne pas confondre avec le test statistique t de Student (t « minuscule »)
• Score pondéré où Moyenne (M) = 50 et Écart-type (ET) = 10
• Score T = (Z*10) + 50
• Étendue effective allant de 20 (Z = -3) à 80 (Z = +3)
Autres exemples de scores pondérés
QI standard ou de déviation
• M = 100 ; ET = 15
Note Standard
• M = 10 ; ET = 3
• Sous-tâches des échelles de Wechsler
Stanines
• M = 5 ; ET = 2
• Utilisés fréquemment dans des tests de rendement scolaire
• Distribution divisée en 9 intervalles couvrant des distances égales sur le niveau de référence de la courbe
normale, sauf à chaque extrémité de la distribution (intervalles 1 et 9)
Équivalents de la Courbe Normale (ECN)

• M = 50 ; ET = 21
• Scores correspondant aux rangs centiles aux points 1, 50, et 99
IMPORTANT !!! Conventions d’interprétation (de données normatives)

Il est important d’être transparent sur les critères utilisés (e.g. dans votre rapport psychométrique, bilan de
compétence, etc.)
Transformation linéaire : Avantage

• Nombreux tests psychologiques suivent vraisemblablement une distribution normale, les scores pondérés
sont donc utiles
• Facilite la comparaison entre les résultats à différents tests
• Facilite l’interprétation de scores brutes obtenus à des tests
• Les scores pondérés permettent d’éviter le problème lié aux percentiles en ce qui concerne l’inégalité
marquée des intervalles dans les différentes sections de la distributions normale
Transformation linéaire : Inconvénients

• Peu de personnes savent ce qu’est une courbe normale ou un score Z
• Pour qu’un score pondéré fasse sens, toujours rappeler les valeurs de la moyenne (M) et de l’ET
17
Types de normes : Normes de développement
A du sens si le trait examiné se développe avec le temps dans la population visée

• Exemple l’âge mental (parmi les premiers types de normes utilisées dans les tests psychologiques –
notamment Binet-Simon)
Avantage
• Facilitent la compréhension (éviter le jargon)
Rapports narratifs dans le cadre du rapport psychométrique
• « Un élève de 4ème année lit comme un élève de 8ème année »
Limites
• Ne s’appliquent qu’aux variables qui affichent des modes de développement clairs (≠ traits de
n renvoie souvent le score au groupe de référence: «Comparativement
personnalité)
• Même les variables qui affichent un niveau de développement ne poursuivent pas continuellement leur
ux autres garçons de son âge et de son niveau scolaire, Joël se situe au
croissance
• Écarts-types non contrôlés (souvent augmentent avec l’âge)
40 pour ce qui est des aptitudes mathématiques, ce qui est
• Équivalent de niveau scolaire : un enfant de 4ème obtient un équivalent de niveau scolaire de 6.5, non pas
en connaissant la même matière qu’un élève type de 6ème, mais en répondant parfaitement aux items de
gèrement au dessous de la moyenne des jeunes de son âge».
2ème, 3ème et 4ème année.
Rapports narratifs et normes (ex. dans le cadre du rapport psychométrique)

Les normes fournissent un contexte permettant d’interpréter un score brut. Souvent l’information normative est
n détermine souvent un score «très élevé par rapport à une
quantitative, mais parfois présentée de manière descriptive (rapport narratif)
à Traduction verbale de scores normés
opulation de référence» , «déviant» ou «déficitaire» à
On renvoie souvent le score au groupe de référence: « Comparativement aux autres garçons de son âge et de son
niveau scolaire, Joël se situe au Pc 40 pour ce qui est des aptitudes mathématiques, ce qui est légèrement au-
dessous de la moyenne des jeunes de son âge ».
X > M + (1.65 * ET) [correspond au 10 % de la distribution]
On détermine souvent un score « très élevé par rapport à une population de référence » , « déviant » ou
« déficitaire » à
• X > M + (1.65 * ET) [correspond au 10 % de la distribution]
ou X > M + (1.96 * ET) [correspond au 5% de la distribution]
• X > M + (1.96 * ET) [correspond au 5% de la distribution]
10 %
1.65
50
18
Scores seuils, sensibilité, spécificité
Scores seuil / Cut-off
Les normes sont utiles pour comparer les performances d’un individu à une population de référence [tests normés].
On peut aussi comparer les performances d’un individu par rapport à un niveau de performance ou score souhaité
[tests critériés].
• Score seuil = score permettant de classer les individus qui atteignent le niveau souhaité VS qui ne
l’atteignent pas [e.g., performance cognitive, critères diagnostiques]
o Pour un même test, on peut fixer plusieurs scores seuils
Comment déterminer un score seuil ?

• Impressions générales sont subjectives et peu valides
• Difficultés liées au fait de fixer des scores seuils
o La plupart des variables mesurées sont continues ... alors qu’un score seuil vise une classification
dichotomique (performance atteinte / non atteinte ; critères diagnostiques présents / absents)
o La définition des seuils est souvent empreinte de la subjectivité des personnes qui les
déterminent
2 types de méthodes pour déterminer des scores seuils
• Basées sur le contenu des tests vs. sur la performance des individus (= scores au test)
IMPORTANT !!! Au plan diagnostique, un score seuil bien défini doit permettre de :
• Identifier un maximum de personnes ayant réellement le problème X (« vrais positif s»)
• Réduire au minimum le risque de négliger des personnes ayant le problème X (« faux négatifs »)
• Réduire au minimum le risque de diagnostiquer des personnes n’ayant pas le problème X
(« faux positifs ») = surpathologisation
Score seuil : Méthodes basées sur le contenu des tests
Dans ce type de méthode, plusieurs juges analysent le contenu des items, puis décident du niveau de performance
suffisant définissant la réussite du test.
Méthode de Nedelsky [méthode pour QCM] Méthode de Nedelsky (exemple)
• Pour chaque question, demander aux juges de déterminer le

choix de réponse qu’un sujet possédant une compétence X XX
minimale pourrait repérer comme incorrect X
• On peut dès lors déterminer la probabilité de répondre XX

XXX
correctement en choisissant une des alternatives restantes au X XXX
hasard (= parmi les réponses que le sujet ne doit avec performance XX

minimale ne doit pas forcément repérer comme incorrect) [= réponse
probable] X = réponse qu’un sujet, possédant une
compétence minimale, devrait repérer Dans cet exemple, si un sujet possède une
• Additionner le score probable à chaque test et calculer la comme incorrect
Lettre en italique = bonne réponse
compétence minimale, il devrait obtenir au
moins 3 points pour passer le test
moyenne des scores probables entre chaque juge ( 3 = valeur seuil du test)
12
La méthode d’Angoff (exemple)

Méthode d’Angoff
S’applique uniquement aux questions dichotomiques (« item » ou
« question » ou « tâche » réussie ou loupée)
• Demander aux juges d’estimer la probabilité qu’un
individu ayant un niveau de compétence minimal aurait
de réussir chaque item du test
• Imaginer un groupe de 100 personnes ayant une
compétence minimale et estimer le nombre d’entre elles En fonction des situation et du nombre de
juges, le % de réussite peut faire l’objet d’un Dans cet exemple, si un sujet possède une
qui répondraient correctement à l’item en question consensus inter-juge (ou de calcul de moyenne
si un consensus n’est pas atteint)
compétence minimale, il devrait obtenir au
moins 3 réponses justes pour passer le test
• Chaque juge calcule un score seuil au test en additionnant

Pour un résumé de la méthode: ( 3 = valeur seuil du test)
https://www.camrt.ca/fr/wp-
content/uploads/sites/3/2020/02/La-
les proportions de réussite aux différents items m%C3%A9thode-Angoff.pdf
14
19
Méthode d’Ebel Très
Important
Important Peu
Important
• Plus complexe car on demande aux juges de prendre en compte la pertinence et la Difficile
Moyen
80%
90%
70%
80%
40%
50%
difficulté des items La méthode d’Ebel (exemple)

Facile 100% 90%
• Chaque question / item est placé dans une des cases du tableau de • Chaque question / item est placé dans une des cases du tableau de référence
• Chaque juge évalue la proportion de chaque case devant être atteint pour
référence que la compétence minimale soit atteinte
• On multiplie le nombre de questions placées par case par la proportion
• Chaque juge évalue la proportion de chaque case devant être atteint pour (par exemple si 4 questions sont dans la case «Difficile / Très important», le
calcul donne 4 X 0.8 = 3,2)
que la compétence minimale soit atteinte • La somme de ces multiplications donne le score seuil
• On multiplie le nombre de questions placées par case par la proportion

• Calculer la moyenne des scores seuils des différents juges
16
(par exemple si 4 questions sont dans la case « Difficile / Très important

», le calcul donne 4 X 0.8 = 3,2) 36
• La somme de ces multiplications donne le score seuil Dans cet exemple, si un sujet possède une
compétence minimale, il devrait obtenir au moins 29
• Calculer la moyenne des scores seuils des différents juges réponses justes (sur 36) pour passer le test
( 29 = valeur seuil du test)
17
La méthode de Jaeger (exemple)

Méthode de Jaeger
La notion de « compétence minimale» (à atteindre) peut être abstraite.
Méthode itérative (plusieurs étapes)
• Les juges passent en revue (= répondent) chaque item en se
posant la question suivante : « Tous les individus bénéficiant
d’une décision favorable sur la base des résultats du test (=
critère minimal de réussite) devraient-ils être capables de réussir
cet item ? » [réponse oui ou non]
• Lorsque tous les items ont été évalués une première fois, les Tableau 6.6. : Synthèse des scores à obtenir à la fin du processus d’itération
juges sont informés des estimations des autres juges (d’autres Dans cet exemple (qui représente la fin du processus itératif), si
aspects peuvent être utilisés, comme le % de réussite sur base de un sujet possède une compétence minimale, il devrait obtenir au
moins 10 réponses justes (sur 12) pour passer le test
leur évaluation lors d’un prétest) ( 10 = valeur seuil du test)
19
• Les juges réévaluent les items

• On leur présente le % d’échec sur base de leurs estimations
• Nouvelle réévaluation des items
• Score seuil = Moyenne ou Médiane des scores seuils déterminés par chaque juge
Validité des scores seuils

Réduire la subjectivité dans la détermination d’une valeur seuil
• Nombre suffisant de juges [par ex. la littérature sur les méthodes de consensus itératives indique
fréquemment entre 15-20 expert.e.s]
• Sélection aléatoire des juges [pas toujours réaliste en pratique]
• Juges soumis à un entraînement préparatoire
• Instructions claires à propos du contexte d’usage d’un test
• La notion de compétence minimale peut être abstraite pour les juges / expert.e.s
Score seuil : Méthodes basées sur la performances des individus
Ces méthodes visent à réduire la subjectivité dans la définition du score seuil en utilisant des données empiriques,
en l’occurrence les résultats recueillis avec le test sur un échantillon de sujets.
Méthode des groupes limites

• Les juges sélectionnent au sein d’un groupe les personnes dont les compétences sont proches du niveau
minimal attendu (par ex. les enseignant.e.s ou les formateur.trice.s de l’échantillon cible)
o On écarte les plus faibles et les plus forts (bien connaître l’échantillon)
Score seuil o Les participants « limites » passent le test
ur la performance (=réponses/scores au test) des
individus o Le score seuil est déterminé par la médiane des résultats des participants « limites »
hode des groupes contrastés IMPORTANT : Les juges doivent avoir une expérience suffisante des sujets qui vont avoir à passer le test.
participants en deux
étents versus non
• Les juges classent les participants en deux groupes (jugés compétents versus non compétents)
• Les deux groupes passent le test
sent le test
ique des
ux groupes
n des deux courbes
• Représentation graphique des performances des deux groupes
euil
négatifs (personnes
• Le point d’intersection des deux courbes représente la valeur seuil
nt le test) et les faux
compétentes et
• On minimise les faux négatifs (personnes compétentes échouant le test) et les faux positifs
Faux positifs
Faux négatifs (personnes incompétentes et réussissant le test)
23
20
Score seuil : Méthodes axées sur des indices de sensibilité et spécificité
En statistique, la sensibilité d'un test mesure sa capacité à donner un résultat positif lorsqu'une hypothèse est
vérifiée. Elle s'oppose à la spécificité, qui mesure la capacité d'un test à donner un résultat négatif lorsque
l'hypothèse n'est pas vérifiée.
• Sensibilité = taux de vrais positifs (les « cas »)
o La sensibilité d’un instrument psychométrique mesure sa capacité à identifier correctement, dans
une population ciblée, les personnes ayant vraiment la caractéristique recherchée.
• Spécificité = taux de vrais négatifs (les « non-cas »)
o La spécificité d’un instrument psychométrique mesure sa capacité à identifier, dans une
population ciblée, les personnes n’ayant pas une caractéristique spécifique donnée.
à basse spécificité = pathologisation excessive
Sensibilité
Taux de Vrais Positifs à VP / (VP+FN)
Une sensibilité de 1 = 100% des personnes identifiées comme ayant un trouble

sur base du test sont effectivement porteuses du trouble (pas de faux négatifs)
Un score < 1 indique que certaines personnes sont porteuses du trouble, mais ne
sont pas identifiées par le test (faux négatifs)
Spécificité
Taux de Vrais Négatifs à VN / (FP+VN)
Une spécificité de 1 signifie que 0% des personnes sans trouble sont considérées
comme porteuses du trouble sur la base du test (absence de faux positifs)
Un score < 1 indique que certaines personnes ne sont pas porteuses du trouble,
mais ont été identifiées par le test (faux positifs)
Faux positifs et faux négatifs
Taux de Faux Positifs : FP / (FP+VN) = 1-(spécificité)

Proportion de personnes qui sont erronément identifiées comme porteuses du
trouble sur la base de leur score au test.
Taux de Faux Négatifs : FN / (VP+FN) = 1-(sensibilité)

Proportion de personnes qui sont erronément identifiées comme non-porteuses
du trouble sur la base de leur score au test.
Valeur Prédictrice Positive et Négative
Valeur Prédictrice Positive (VPP) : VP / (VP+FP)

Proportion de personnes porteuses du trouble parmi les personnes identifiées
comme positive par le test.
Valeur Prédictrice Négative (VPN) : VN / (FN+VN)

Proportion de personnes non-porteuses du trouble parmi les personnes
identifiées comme négatives par le test. VP FP
FN VN
Précision diagnostique : VP + VN / (VP+FP+FN+VN) Laveault & Grégoire, 2014
Sensibilité: VP/(VP+FN) = 80/(80+30) = 80/110 = 0.73

Spécificité: VN/(VN+FP) = 70/(70+20) = 70/90 = 0.78
Taux de faux positifs (1-spécificité) : 1-0.78 = 0.22
Exemple à Taux de faux négatifs (1 – sensibilité) : 1-0.73 = 0.27
Valeur prédictrice positive: VP/ (VP+FP) = 80/(80+20) = 0.80
VP FP
Valeur prédictrice négative : VN/ (VN+FN) = 70/(70+30) = 0.70
FN VN Précision Diagnostique (Diagnostic Accuracy) = (VP + VN) / (VP+FP+FN+VN) =
Laveault & Grégoire, 2014 (80+70) / (200) = 0.75
Sensibilité: VP/(VP+FN) = 80/(80+30) = 80/110 = 0.73
Spécificité: VN/(VN+FP) = 70/(70+20) = 70/90 = 0.78
Taux de faux positifs (1-spécificité) : 1-0.78 = 0.22
2135
Taux de faux négatifs (1 – sensibilité) : 1-0.73 = 0.27

Valeur prédictrice positive: VP/ (VP+FP) = 80/(80+20) = 0.80
Valeur prédictrice négative : VN/ (VN+FN) = 70/(70+30) = 0.70
Précision Diagnostique (Diagnostic Accuracy) = (VP + VN) / (VP+FP+FN+VN) =
(80+70) / (200) = 0.75
35
Operating Characteristics (ROC)
Receiver Operating Characteristics (ROC)
n fonction de divers L’efficacité d’un test diagnostic en fonction de divers scores seuils peut être
au moyen des courbes
évaluée au moyen des courbes ROC
liser la sensibilité (taux
x positifs (1-spécificité) Pour tracer une courbe ROC
spond aux
à utiliser la sensibilité (taux de VP) et le taux de FP (1-spécificité)
de 1- spécificité pour
Chaque point de la courbe correspond aux coordonnées de la sensibilité et de 1-
spécificité pour chaque score seuil possible
ux positifs est nul et le
=> identification des
cune erreur
bon test diagnostic doit
Coordonnée (0;1) : le taux de faux positifs est nul et le taux de vrai positifs est
de 100% à identification des individus est toujours exacte (aucune erreur
Taux Faux Positifs diagnostic) : la courbe ROC d’un bon test diagnostic doit tendre vers ce point.
ée par son aire sous la courbe (AUC). L’AUC
Courbe ROC est évaluée par son aire sous la courbe (AUC).
lité qu’un sujet «non-cas » ait un score plus
(par ex. 81% dans l’exemple• donné).
L’AUC représente la probabilité qu’un sujet « non-cas » ait un score plus bas qu’un sujet « cas » (par ex.
81% dans l’exemple donné).
36
Remarques
• Il n’existe pas de consensus sur les seuil « acceptables » en termes de sensibilité et spécificité. Il convient
d’approcher des valeurs « le plus proches possible » de 1 (règle « de pouce » souvent utilisée : >.95)
• La spécificité et la sensibilité sont interdépendantes
o Si on modifie le score seuil pour augmenter la sensibilité, alors on diminue la spécificité, et vice-
versa
• Le choix du bon positionnement de la valeur seuil d’un test est délicat, doit être bien réfléchi
IMPORTANT !!! Faut-il équilibrer le nombre de FP et de FN ? Ou un % inférieur de l’un ou de l’autre ?
Tout dépend des objectifs du test / des enjeux

• Identifier des enfants ayant besoin d’aide au niveau du langage oral à réduire au maximum le taux de
faux négatifs ?
• Identifier les personnes à risque de développer une maladie d’Alzheimer (pas de traitement efficace, ni
curatif !) à diminuer au maximum le nombre de faux positifs ?
• Identifier des personnes présentant une utilisation problématique des jeux vidéo (loisir le plus fréquent
sur terre)
o diminuer au maximum le nombre de faux positifs pour éviter la pathologisation ??
o réduire au maximum les faux négatifs pour identifier les personnes ayant potentiellement besoin
d’aide ???
22
Fidélité
Une question importante lors de l'élaboration d'un test évaluant une dimension : Les différences observées entre
les personnes correspondent-elles à des différences réelles ou ces différences observées sont-elles dues au hasard,
marquées par des erreurs et donc pas reproductibles ?
• Un test fidèle est un test avec une erreur de mesure faible. La fidélité est donc un indicateur de la
précision, de la reproductibilité, et de la constance des scores
Plus un instrument est fidèle, plus le score observé sera proche du score vrai (celui qui serait obtenu si le test était
parfait). En psychométrie, un test fidèle donne de façon constante le même résultat (ou des résultats similaires)
pour un individu.
Définition de la fidélité
IMPORTANT !!!
Théorie Classique des Tests : Une observation X peut être décomposée en deux sources T et e :
X=T+e
où « T » représente le score vrai et « e » l'erreur de mesure
Fidélité = Proportion de variance des scores observés imputables à la variance des scores vrais (i.e. des
différences réelles entre les individus)
• T (score vrai) est le score obtenu dans des conditions idéales avec un instrument parfait
o C'est aussi, la moyenne des scores obtenus par un sujet suite à un nombre infini d'administration
indépendante du même test
o Cette définition est théorique
Considérer la fidélité d’un test consiste à estimer la part d'erreur aléatoire dans la mesure. Sans fidélité (i.e., sans
mesure précise et reproductible), toute discussion sur la validité est un non-sens.
Erreur de mesure
X=T+e
L'erreur de mesure correspond à l'écart existant entre la valeur réelle (T) que l’on veut mesurer et l’observation
réalisée (X).
On doit cependant distinguer deux types d'erreurs :
• Systématique : Cette erreur est une « déviation » constante, négative ou positive

o Elle survient en raison de facteurs étrangers au test.
o On parle d'erreur systématique quand, par rapport à une valeur de référence x, l'instrument
donnera toujours comme valeur observée x + b (déviation positive ou négative)
o Exemple : une balance affiche systématiquement +1 kg par rapport au poids réel, l’erreur
systématique est donc de +1 kg. [biais au niveau de la mesure]
• Aléatoire : Dans la théorie classique des tests (TCT) et l'analyse de la fidélité, quand on parle d'erreur de
mesure, on fait référence à l'erreur aléatoire
o Cette erreur résulte d'un ensemble de facteurs (pas connus) qui font que parfois la mesure sera
légèrement supérieure à la valeur réelle et parfois légèrement inférieure
o Un instrument de mesure est toujours sensé être construit pour minimiser cette erreur aléatoire
(la mesure observée doit être toujours proche du score vrai, i.e. la dispersion autour de cette
valeur de référence, lors d'observations multiples, doit être faible)
o Cette erreur aléatoire est celle qui est associée à la notion de fidélité et celle à laquelle on
fait le plus souvent référence lorsque l'on parle d'erreur de mesure dans la construction des tests
en psychologie
23
Remarques additionnelles sur les deux erreurs
1. Dans le cadre de l’évaluation psychologique, ces deux erreurs s'additionnent
2. Dans le cadre de la théorie classique des tests (x = T + e) :
a. l'erreur systématique est confondue avec T (le score vrai)
b. l’erreur de mesure (e) fait référence à l’erreur aléatoire
3. L'erreur systématique affecte donc la validité de la mesure, alors que l'importance de l'erreur aléatoire est en
relation avec la fidélité d'une épreuve
4. Si on répète une mesure et qu'on calcule la moyenne de ces mesures
a. l'effet de l'erreur systématique reste identique sur la moyenne
b. l'effet de l'erreur aléatoire sur la moyenne diminue (en effet parfois l'erreur de mesure augmente la
valeur et parfois la diminue).
Principales sources d’erreurs aléatoires

Un test est fidèle si on minimise l'erreur de mesure aléatoire
• On veut s'assurer que les différences interindividuelles (variance du test) ne sont pas (ou le moins
possible) attribuables à une erreur aléatoire de mesure
Erreur engendrée par le test

• Facteurs contrôlables et doit faire l'objet de l'attention des psychologues qui construisent les tests
Erreur liée aux variations de conditions de passation du test et erreur liée aux cotateurs sont contrôlables
• Importance de la standardisation
• Suivre parfaitement les instructions, le minutage et les consignes (de passation comme de cotation), etc.$
Erreur liée aux répondants

• Difficile à contrôler
• Exemple : motivation, anxiété, habitude de passer des tests, fatigue, capacités attentionnelles, etc.
• Toutes ces variables doivent aussi être prises en compte lors de l'analyse des résultats
• Les résultats d'un test demandent donc une interprétation à intégrer dans une démarche clinique
plus générale
Calcul de la fidélité
X=T+e
Fidélité = corrélation entre les scores observés (X) et les scores vrais (T) ; elle varie entre 0 et 1
• Plus cette corrélation est élevée, plus le test est fidèle
• Plus le coefficient de fidélité est proche de 0, plus l’erreur de mesure aléatoire est importante
La fidélité informe directement sur la part de variance dont la source est aléatoire (erreur de mesure). Si le
coefficient de fidélité est de .80, cela signifie que 80% de la variance observée est de la variance vraie et 20% de
la variance d'erreur (aléatoire).
Le calcul du coefficient de fidélité peut paraître impossible ! On peut connaître X, mais on ne connaît par définition
pas T ! Il est possible d’estimer un coefficient de fidélité en utilisant différentes techniques (ou méthodes) qui
n'évaluent cependant pas exactement de la même façon les sources de l'erreur de mesure. Ces méthodes se basent
sur la corrélation entre deux séries de mesures prises sur les mêmes individus. La validité de ces méthodes implique
cependant l'acceptation de plusieurs postulats de la théorie classique des tests.
Postulats importants dans le cadre du calcul de la fidélité (TCT)
Postulat de base de TCT : Score observé X = score vrai (T) + erreur de mesure (e)
• Les erreurs aléatoires de mesure doivent être indépendantes en toutes circonstances.
• Les conditions de testing (standardisation) garantissent :
o Pas de corrélation entre Score Vrai et Erreur de mesure aléatoire.
§ Les erreurs n’augmentent ou diminuent pas en fonction de la compétence vraie du sujet
o Pas de corrélation entre Erreur de mesure aléatoire dans deux séries de mesure prises à un
moment différent
o Pas de corrélation entre les Erreurs de mesures aléatoires aux différents items du test
24
La théorie classique tient compte d’une erreur strictement aléatoire. Si les postulats de base sont respectés, i.e. les
différentes sources d’erreur sont indépendantes les unes des autres, alors celle-ci pourront s’annuler de sorte que
sur un grand nombre de mesures répétées, l’espérance mathématique des scores observés soit le score vrai de
l’individu.
Pour augmenter la fidélité :

• Augmenter le nombre d’items / d’essais (si ces items/essais mesurent bien la même chose) à le score
observé est précis
• Découle du postulat indiquant que la moyenne des scores observés d’un individu tend vers son score vrai
Interprétation du coefficient de fidélité
• Plus il y a d’items / d’essais, plus l’erreur aléatoire de cette moyenne sera faible, et par conséquent, plus
l’erreur de mesure sera réduite
Pas de règle stricte dans l'Interprétation des valeurs du
coefficient du
Interprétation de coefficient
fidélité, mais il existe un relatif consensus sur
de fidélité
Pas l'ordre
de règlede
stricte dans l'Interprétation
grandeur des fidélités des valeurs
et leur du coefficient de fidélité, mais il existe un relatif consensus
signification
sur l'ordre de grandeur des fidélités et leur signification.
Coefficient Interprétation
1.00 à 0.96 Fidélité excellente. Pas ou peu d’erreur de mesure
0.95 à 0.86 Très bonne fidélité. Le test contient peu d’erreur de mesure
0.85 à 0.70 Bonne fidélité. Evaluer la personne une seconde fois
0.69 à 0.50 Test peu précis, mais peut contenir des informations utiles
0.49 à 0.00 Test imprécis, ne pas l’utiliser
Fidélité
Source: test-retest
http://www.psychometrie.jlroulin.fr/cours/cours-psychometrie.pdf
Consiste à faire passer deux fois l'épreuve aux mêmes personnes avec un intervalle de temps souvent fixé au
21
préalable (souvent de 1 à 3 mois) et de calculer la corrélation entre les performances observées lors de la
première puis de la seconde passation.
• Ce coefficient de fidélité est parfois appelé « coefficient de constance » ou de « stabilité »
Limites : difficile de fixer le temps optimal entre deux passations. Si le délai est trop long, le niveau de compétence
peut avoir changé, (évolution). Si le délai est trop court, les résultats peuvent être faussés par un phénomène
d'apprentissage ou de mémorisation.
Intervalle de temps déterminé doit aussi être construit-dépendant !
• Traits de personnalité (traits, tempérament)
• Symptômes psychopathologiques
• Stratégies de coping
• Etc.
Fidélité des tests parallèles
La méthode des tests parallèles permet d'éviter les inconvénients de la méthode du test-retest. Le principe consiste
à construire deux versions équivalentes d'un test, dont seul le détail des items varie. Les deux versions sont
administrées le même jour (ou avec un délai très court entre les deux passations), puis on calcule la corrélation
entre les deux versions
• Ce coefficient de fidélité est aussi appelé le coefficient d'équivalence (méthode d'équivalence)
Limites : l'équivalence n'est jamais parfaite entre les formes parallèles : deux épreuves sont-elles vraiment
équivalentes si elles comportent des items différents ?
Hypothèse : un test doit évaluer une dimension relativement indépendante des situations. Si on construit une forme
A d'un test, on doit pouvoir construire par la même méthode de construction un test mesurant la même dimension
avec d'autres items (forme B)
S'il n'y a pas de corrélation forte entre ces deux formes différentes à on ne peut pas faire confiance à cette mesure
• La possibilité de construire une forme parallèle est une garantie que l'on maîtrise ce que l'on construit
Cette méthode est coûteuse et exige beaucoup de temps et deux formes parallèles ne sont jamais équivalentes à
100 %. En pratique, méthode relativement peu utilisée pour des questionnaires ; plus fréquemment utilisé pour
certaines tâches mesurant les processus cognitifs.
25
Fidélité : Méthode de bissection (« split-half »)
Méthode « comparable » à celle du test parallèle. Dans la méthode de bissection, on va considérer deux parties
d’un test comme des version parallèles. Les participants passent l'épreuve une seule fois mais le test est ensuite
subdivisé en deux moitiés en fonction de différentes approches, par ex :
• La partition aléatoire (random split)
• La séparation des items pairs et impairs (plus fréquent)
• La séparation des items entre première et deuxième moitié du test
• La réalisation d’une partition appariée en fonction du contenu et de la difficulté (matched split)
Calcul
1. On calcule le score pour chaque groupe d'items (par exemple : pairs et impairs)
2. On calcule la corrélation r12 entre ces scores. Cette corrélation est une estimation de la fidélité rxx
3. Pour tenir compte que l'on a réduit la longueur du test par deux, appliquer la formule de Spearman-Brown :
rxx = 2*r12/(1+ r12)
Avant de calculer le coefficient de fidélité et après avoir séparé (quelle que soit la procédure) les deux groupes
d'items, s'assurer que les moyennes et les variances sur les deux parties du test sont similaires
• Dans le cas contraire, l'estimation de la fidélité pourrait être biaisée
Avantage principal
• Éviter la construction d’une version parallèle et/ou la double administration d’un même test
Limites principales
• Les simulations sur des jeux de données montrent que la valeur du coefficient peut varier de façon
significative selon la partition utilisée
• La partition en deux moitiés peut donc engendrer une erreur d'estimation de la fidélité (le hasard peut mal
faire les choses)
• La fidélité fournit des estimations au-dessous de la fidélité du score total car elle est calculés sur un
nombre d’items ou d’essais moins élevés.
Fidélité : Indices de consistance interne (« internal reliability »)
Approche la plus utilisée [devenu « un gold standard » dans toute étude visant à valider les propriétés
psychométriques d’un test].
• Approche différente : Se base sur la covariance entre les différents items d’un test
Ces approches reposent sur le postulat que chaque item peut être considéré comme une partie d’un test et qu’un
test peut être considéré comme étant composé d’autant de parties que d’items. Plus les covariances entre tous les
items pris deux à deux sont élevées, plus les items sont homogènes et mesurent la même chose.
Différentes méthodes, selon que les items sont dichotomiques ou non :
• Le Kuder Richardson (KR20) : Ce coefficient ne s'applique qu'aux items dichotomiques
• Lʼalpha de Cronbach : similaire au KR20 mais concerne des items non dichotomiques
IMPORTANT !!! Seuils alpha de Cronbach
Cronbach’s alpha Internal Consistency
a ≥ 0.9 Excellent (High-Stakes testing) Alpha

Alphade
deCronbach: formule(pour
Cronbach: formule (pour info)
info)
0.7 ≤ a < 0.9 Good (Low-Stakes testing)

nn 1 Vi
Vi
1
n
n 11 Vtest
Vtest
0.6 ≤ a < 0.7 Acceptable
0.5 ≤ a < 0.6 Poor – n = number of questions

– n–=Vinumber of questions
= variance of scores on each question
– Vi
– Vtest = total of
= variance scoresofon
variance eachscores
overall question
(not %’s) on
a < 0.5 Unacceptable – Vtest
the = totaltest
entire variance of overall scores (not %’s) on
the entire test
34
26
34
(uni)dimensionnalité
Le test = mesure d'une variable latente qualitativement semblable pour tous les individus, ceux-ci se différenciant
sur cette variable.
• Hypothèses à la base de la construction des tests = l'ensemble des items ou des questions qui le sous-
tendent mesure un seul construit
• Une épreuve peut mesurer plusieurs construits latents si elle composée de plusieurs sous-ensemble d'items
respectant chacun cette condition dʼuni-dimensionnalité
• Unidimensionnalité si chaque item d’un test ne dépend que d'une seule dimension (une seule
variable latente)
Remarques
Le coefficient alpha n'est pas une mesure de l'unidimensionnalité du test
• Il indique que le test mesure quelque chose de consistant (si le coefficient est élevé) mais pas quoi
(plusieurs dimensions ?)
• Par exemple si plusieurs dimensions existent dans un test mais qu’elle sont au moins en partie corrélée,
un alpha sur le score global pourra être élevé
Plus le nombre d'items est important, plus le coefficient alpha tend à augmenter
• On peut augmenter la valeur de ce coefficient en augmentant le nombre des items (même si ceux-ci
évaluent des dimensions en partie différentes)
Fidélité : Accord inter-juges
Méthode utilisée dans les cas où il peut y avoir ambiguïté (p.ex., subjectivité) dans l'évaluation (cotation) des
résultats au test (Tests projectifs, observations, etc.)
• Principale source de l'erreur de mesure = le cotateur lui-même !
• Fidélité à évaluer s'il existe un degré d'accord suffisamment élevé entre les jugements de plusieurs
observateurs
• Calcul : Ce coefficient de fidélité est généralement simplement la corrélation entre les scores attribués
par le premier et le second évaluateur
o On considère souvent que l'accord est moyen entre 0.40 et .60, satisfaisant à partir de .60 et
excellent pour plus de .80
Il existent d’autres indicateurs statistiques (non abordés dans ce cours) permettent d'évaluer l'accord inter-juge, par
exemple quand il y a plus de deux cotateurs (Kappa de Fliess).
27
Validité
Validité = ensemble des éléments (preuves) qui doit conduire à nous assurer que l'interprétation des scores
est correcte. Processus fondamental dans l'élaboration des tests.
• Le construit de validité à relation entre les éléments théoriques (modèles, définitions, concepts,
hypothèses, etc.) et la réalité empirique supposée les représenter
• Différents types de validité (de construit, de critère, incrémentale, etc.)
Précision sur des aspects de terminologie

• La validation correspond aux processus mis en place pour évaluer les propriétés psychométriques d’un
test.
• La validité renvoie à la "mesure" des preuves empiriques et théoriques accumulées pour supporter
l'interprétation des résultats du test [preuves supportant que le test mesure bien ce qu’il est sensé mesurer].
La validité d'un test est sous la responsabilité du concepteur de test (qui doit fournir des preuves de validité), mais
aussi de l'utilisateur du test (psychologue) qui doit s'assurer que l'usage qu'il fait du test correspond à celui
indiqué par les concepteurs du test (AERA / APA / NCME, 2014).
Validité de Contenu (content validity)
La notion de validité de contenu porte sur la façon dont le test couvre, à partir de l'ensemble des questions
posées, le domaine que l'on veut évaluer.
Dans quelle mesure les items du test constituent un échantillon suffisamment représentatif du ou des phénomènes
(par ex. comportement) que l'on veut évaluer (par ex. un trait de personnalité spécifique) ?
• Pour la population cible (validité « d’apparence » ou de surface, face validity)
• Pour des experts du domaine (validité de contenu sur base de modèles)
Le test est considéré comme un échantillon représentatif d'une population d'items (de questions) bien définis. Cela
requiert de définir l’étendue des concepts que doivent couvrir ces questions. Par exemple, dans un test de calcul,
la validité de contenu ne serait pas suffisante si seuls des problèmes de soustraction sont inclus en négligeant les
autres opérations (à moins qu'on ne décide qu'il s'agisse d'un test de soustraction).
Dans les étapes préliminaires de construction des tests il faut s'assurer que les items sont pertinents et représentatifs
des concepts ou des définitions sous-tendant la mesure.
La validité de contenu suppose que des experts (non impliqués dans le développement des items du test) jugent si une mesure
représente pleinement la définition de ce que l'on veut mesurer. Ça implique une définition théorique du concept
acceptée par les pairs, et une sélection des indicateurs (questions) qui couvrent l'ensemble du « concept » qui doit
être mesuré. La validité de contenu permet de s'assurer que la mesure correspond au concept tel qu'il a été défini
par le chercheur.
Delphi = Métho
Évaluation par des experts itérative pour o
consensus au
d’experts
Delphi
Une technique
méthode in a nutshell
possible (parmi d’autres) pour évaluer la validité de contenu est la technique « Delphi »
http
1/add
Recruitment of the experts and compilation of statements used
C’est une méthode structurée et itérative (par étapes)
pour obtenir un consensus au sein d’un groupe
The facilitator gathers responses from the experts using a pre-designed
d’experts.
questionnaire giving the possibility to add new statements.
X Statements that reach a pre-stablished level of consensus (to be included or to

be excluded) are not rated in subsequent rounds. Exemple à
Facilitator gives individualized feedback to experts about how their answers fit in with
the answers of the rest of the panel before launching the new Delphi round.
X Experts can revise their responses and adopt group consensus or maintain their answers.
International training school and conference on Problematic Usage of the Internet (PIU), Cambridge, 14-16th 2019
The Delphi study finishes when a pre-stablished level of consensus is achieved OR when
responses are stable between rounds. ICD-1
DSM-5 criteria
28
Évaluation par la population cible
Validité apparente (= face validity) à Est-ce que les items mesurent de manière adéquate le construit cible selon
la population cible (ou selon des personnes « profanes » ; ou d’autres catégories de personnes)
Méthode possible : Entretien cognitif (« cognitive interviewing »)
Étape 1 – Déterminer un échantillon

• 5-15 participants (selon Boateng et al., 2018)
• Le plus représentatif possible de la population cible (par ex. en termes socio-demo-graphiques)
Étape 2 – Passation des items par l’échantillon

• Verbalisation processus mentaux impliqués dans la génération de la réponse
• Analyse qualitative des verbalisations réalisées par les participants
Apports du « cognitive interviewing »

• Permet de s’assurer que les participants comprennent les items
• Permet de s’assurer que les réponses données correspondent à ce que nous souhaitons mesurer
• Permet de raffiner et/ou reformuler les items au besoin.
• Permet d’identifier une série de problèmes, tels que :
o Items dont la formulation est trop compliquée ou confusionnelle
o Jargon
o Question inappropriées (ne s’appliquent pas au répondant)
o Questions auxquelles il est difficile de répondre
Validité de Critère (criterion validity)
Parfois aussi appelée « validité empirique ». Il s'agit d'une liaison constatée entre un test et un critère. La validité
de critère d'un test (par exemple un test d’aptitudes de calcul) est la liaison constatée entre ce test et un critère
observable (par exemple, les notes scolaires en mathématique ). Elle sert à évaluer le lien entre les performances
du participant dans un test et ses performances dans une autre activité que le test est censé prédire.
• Le test est considéré comme un instrument qui sert à prédire un comportement appelé le « critère »
o La validation critère est l'étude de la relation entre le test et ce critère
Généralement établie en analysant la relation entre le test et le critère (e.g., coefficient de corrélation r de Bravais-
Pearson, modèle de régression).
On distingue deux types de validité empirique
• Validité concourante ou concomitante (concurrent

validity) : corrélation entre le test et un critère mesuré
au même moment
• Validité prédictive : le test prédit le critère qui sera

évalué ultérieurement
Chacune de ces deux validité empirique se divise en
• La validité convergente : estimer la validité d'un test par sa ressemblance avec d'autres mesures
considérées comme similaires
o Hypothèse d’une corrélation forte entre le test et le critère
• La validité divergente : estimer la validité d'un test par la divergence des résultats qu'on obtient entre le
test et d'autres mesures dont on fait l'hypothèse qu‘elles mesurent autre chose
o Hypothèse d’une corrélation nulle/faible entre le test et le critère
IMPORTANT !!! : Permet de s'assurer que la variance vraie associée au test (les différences réelles
observées) est pour l'essentiel associée au construit que l'on souhaite mesurer et non à un autre construit.
29
Validité de Construit (construct validity)
Aussi appelée validité conceptuelle ou théorique, ce type de validité vise à s’assurer que l’instrument mesure
vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle
théorique sur lequel il s’appuie.
Différentes approches
• Structure factorielle (validité structurelle ; « structural validity »)
• Corrélation avec un autre test mesurant le même construit
• Approche des groupes connus (« Known Group »)
• Vérification d’hypothèses théoriques en lien avec le construit mesuré
IMPORTANT !!! Analyse Factorielle Exploratoire (AFE)

L’analyse factorielle exploratoire (AFE) est une technique qui permet de mettre en évidence la structure latente
d’une masse de données. On entend par structure latente, la présence d’un certain nombre de facteurs (ou de
dimensions sous- jacentes) permettant d’expliquer pourquoi certaines de nos variables sont intercorrélées, alors
que d’autres variables ne le sont pas. Les variables latentes (communément appelées facteurs) ne sont pas
directement observables, mais elles sont inférées en tenant compte du patron de corrélation observé entre nos
variables.
• Méthode exploratoire
• Objectifs
o Identifier des facteurs d'organisation sous-tendant les données afin de réduire le nombre de
variables (recherche Analyses
de variables Factorielles
latentes) (in a nutshell)
Comprendre
o Analyse la structure
Factorielle d’un ensemble de données
Exploratoire Analyse Factorielle Confirmatoire
o Permet de déterminer un nombre de facteurs
o Dans le cadre de la validation de questionnaire, Méthodepermet d’identifier de potentiels items
hypothético-déductive
problématiques (voir aussi Boateng et al., 2018, step 6)
Méthode exploratoire
• Objectifs
IMPORTANT !!!L’analyse
Analyse Factorielle
factorielle Confirmatoire
exploratoire (AFE) est (AFC)
Tester a priori l'adéquation des données à
L'analyse factorielle confirmatoire estpermet
un casdeparticulier un modèle théorique
une technique qui mettre en de la modélisation par équations structurales (structural
on fixe a priori un modèle qui précise le
equation modelling). Dans
évidencece latype d'approche,
structure on fixe
latente d’une a priori un modèle
masse nombrequidevafacteurs,
préciserleslerelations
nombreentre
de facteurs,
les relations éventuelles entre cesOnfacteurs,
de données. entend par lesstructure
relations entre ces facteurs et les variables
ces facteurs, observées,
les relations les termes
entre ces
facteurs et les variables observées, les
d'erreurs attachés à chaque
latente,variable
la présenceobservée et lesnombre
d’un certain corrélations éventuelles entre eux.
termes d'erreurs attachés à chaque
de facteurs (ou de dimensions sous-
• Méthode hypothético-déductive variable observée, etc.
jacentes) permettant d’expliquer pourquoi
• Objectifs certaines de nos variables sont
o Tester a priori l'adéquation
intercorrélées, des données
alors que d’autres
Indice d’ajustement: khi2,
variablesà un modèle théorique
o On fixe
ne le asont
priori
pas.un
Lesmodèle
variablesqui précise le nombrestandardized
latentes
root
de facteurs, les mean square
relations entre ces facteurs, les
residuals (SRMR), Root mean square
relations entre cesappelées
(communément facteursfacteurs)
et les ne
variables observées, les termes d'erreurs
of error approximation (RMSEA), attachés
etc.à chaque
variable observée,
sont pas directementetc. observables, mais
• Validité
Indice d’ajustement
de construit :–khi2,
elles sont inférées standardized
en tenant compte
Corrélation avecrootune
dumean square residuals (SRMR), Root mean square of error
autre Possible de comparer l’ajustement de
patron de corrélation
approximation (RMSEA), etc. observé entre nos
mesure évaluant
variables. le même construit (exemple) plusieurs modèles
• Possible de comparer l’ajustement de plusieurs modèles
AFC et AFE se sont souvent combinées (typiquement dans deux

sous-échantillons indépendants) 43
Corrélation avec une autre mesure évaluant le même construit (exemple)
Validité de Construit Validité convergente (liens

R = .69 avec une autre échelle attendus avec impulsivité et
50
mesurant addiction JV symptômes psychopathologiques)
30
Validité de construit – Groupes connus
Groupes connus (exemple en lien avec impulsivité )
Exemple en lien avec l’impulsivité
à Comparer les performances à une échelle

d’impulsivité de personnes présentant un
trouble addictif et de personnes ne présentant
pas un tel trouble.
Chapitre 3, p.95 Si des différences sont observées, cela

supporte la validité de construit !!!
Exemple d’approche par «Groupes Connus»

Vérification d’hypothèse
-> Comparer les performances à une échelle d’impulsivité de personnes présentant un
trouble addictif et de personnes ne présentant pas un tel trouble
-> Si des différences sont observées, cela supporte la validité de construit 51

Exemple de vérification d’une hypothèse
théorique en lien avec une échelle mesurant
la recherche de sensation :
Les scores de recherche de sensation doivent
être plus élevés chez ado et jeunes adultes.
Si hypothèse vérifiée, supporte la validité

de construit !!!
Remarques : Validité de construit

Il existe différentes classifications des
La validation de construit n'est pas une méthode unique pour établir la validité d’un test, mais un ensemble de
méthodes qui ont le même but objectif : établir jusqu'à quel point le test fournit une mesure adéquate du construit
théorique qu’il esttypes de validité
censé examiner.
Il existe différentes classifications des

types de validité
Validité de Conséquence
Séminaire de psychométrie - P. Golay 56
• Conséquences de l’utilisation des tests

• Étiquetage
• Éthique
o L’évaluation psychologique ne doit pas se faire aux dépends de la personne évaluée
o Pathologisation de comportements atypiques
o Créer des injustices – discriminer des groupes minoritaires
31
Validité basée sur les Processus de réponse
Vérifier si les démarches mises en œuvre par le sujet pour produire leurs réponses correspondent bien à ce qui est
prévu dans le cadre conceptuel qui sous-tend le test. Vérifier si les scores aux tests se conforment aux exigences
du modèle théorique de référence.
Exemples
• Test d’arithmétique à un enfant peut trouver la réponse en calculant ou sur base de sa mémoire à long
terme
o Si des réponses sont fournies trop rapidement (temps de réaction trop courts), cela plaide pour
l’utilisation de la mémoire à long terme (et pas des capacités d’arithmétique) à Potentielle
remise en question de la validité du test pour mesurer les capacités d’arithmétique.
• Version informatisée d’un test à est-ce que le format affecte le processus de réponse ?
o Par exemple comparaison entre version classique d’un test et sa version informatisée (mêmes
processus cognitifs impliqués ?)
§ Manipulation de cubes pour reproduire un dessin (test classique)
§ Usage de la souris pour déplacer des formes sur l’écran afin de reproduire le dessin
(version informatisée)
Méthodes
• Analyses détaillées de réponses individuelles
• Vidéos, enregistrements
• Analyse des temps de réponse
• Questionnaires sur le test (administré après le test)
• Cognitive Interviewing (voir exemple en lien avec validité de contenu)
Validité Incrémentale (incremental validity) [ou incrémentielle]
Un test apporte-t-il davantage pour prédire un critère que les autres informations déjà disponibles (tests ou autres
techniques) ?
• Un test est valide s'il permet de mieux prédire un critère que ce que ferait une batterie de tests sans ce test
lui-même
• Exemple du Rorschach
Estimée le plus souvent par des techniques de régression multiple hiérarchique.
Exemple D. Validité incrémentale (exemple)
Différentes mesures
• Différentes de «de
mesures pleine
«pleineconscience » sont
conscience» considérées.
sont considérées
Des modèles de régression sont utilisés pour voir dans quelle mesure ces différentes échelles prédisent davantage
de• laDes
variance
modèles dedevariables théoriquement
régression supposées
sont utilisés pour comme
voir dans quelle influencées
mesure par la pleine conscience (outcome
variables). Par ex. tendance
ces différentes à l’inquiétude,
échelles prédisent acceptation
davantage des émotions
de la variance pénibles, etc.
de variables
Cettethéoriquement
approche permet de déterminer
supposées commequelle est l’échelle
influencées avec laconscience
par la pleine meilleure validité incrémentale.
(outcome variables)
• Par ex. tendance à l’inquiétude, acceptation des émotions
pénibles, etc.
• Cette approche permet de déterminer quelle est l’échelle avec la

meilleure validité incrémentale
Pour plus de détails: https://doi.org/10.1007/s10862-016-9546-x

65
32
Pour conclure (synthèse validité – fidélité)
La validation d'un test est une démarche progressive qui

commence dès la construction du test (validité de contenu).
Distinction Validité - Fidélité.

L'absence de fidélité traduit une erreur non constante ou
aléatoire autour d'un point moyen (qui peut être la cible ou
non), l'absence de validité traduit une erreur constante qui
éloigne le résultat de la cible visée
Relation d'implication : la fidélité est une condition

nécessaire mais non suffisante pour la validité d'un test
(1) Un test valide est nécessairement, a minima, un peu fidèle
(2) Un test fidèle n'est pas nécessairement valide
33
Module 3 : Développement et Adaptation de questionnaires
Les étapes de développement d’un test
Étape 1 : Déterminer l’utilisation du test / questionnaire
Sélectionner des sujets ? Diagnostiquer ? Évaluer la maîtrise des compétences attendues ? Etc.
Tests normés
• Discriminer les sujets appartenant à la population pour laquelle est construit le test
• Tests de performance, Questionnaires mesurant des traits, des symptômes, etc.
• Exemple: niveau d’anxiété d’un individu par rapport à l’anxiété de la population de référence
Tests critériés
• Évaluer si un individu possède ou non une caractéristique prise comme référence
• Tests certificatifs, tests diagnostiques, etc.
• Exemple: Est-ce que l’anxiété d’un individu correspond aux critères spécifiques d’un Trouble Anxieux
Généralisé (TAG) selon le DSM ?
Beaucoup de tests publiés et fréquemment utilisés (en recherche, en clinique) ne peuvent pas être considérés
comme des tests normés ou des tests critériés.
Tests mesurant des construits « état » (donc fluctuant), par opposition aux construits « traits » (dispositions stables)
• Les tests mesurant des construits « états » doivent aussi être validés sur le plan psychométrique
• Les tests mesurant des construits « états » ne doivent pas être utilisés comme des tests normatifs
Étape 2 : Définir ce que l’on souhaite évaluer
Exemple : « Évaluer les troubles de la mémoire»

• Objectif trop vague pour débuter la construction d’un test
• Nécessité d’approfondir et d’opérationnaliser les construits
• Définir avec précision les caractéristiques que le test doit évaluer
Aspect Fondamental :
à Référence à un cadre conceptuel / théorique : se baser sur un modèle !!!
Exemples d’approches
• Tableau de spécifications (typiquement pour l’élaboration de tests certificatifs) : préciser ce que les sujets
sont censés maîtriser à un certain niveau de leur apprentissage
• Analyser le contenu d’entretiens : si on n’a pas d’idées précises à interroger des personnes appartenant
à la population visée
• Observation directe des comportements : Méthode ayant utilisée par Binet lors du développement de son
test pour évaluer l’intelligence
Une étape préliminaire à la réalisation
de cet outil a été de réaliser un focus
Tableau de spécifications – Examen de Tests et méthodes d’évaluation en psychologie et group (approche qualitative et
psychopathologie phénoménologique) chez des
personnes regardant des séries TV de
manière régulière et intensive
Niveau Taxonomique Total
Connaissance Compréhension
Module 1 - 1 items 4 item 5 items = 25 %

Introduction
Module 2 – Concept 2 items 6 items 8 items = 40%
clés
Module 3 – 1 items 3 items 4 items = 20 %
Elaboration de tests
Module 4 - 1 items 2 items 3 items = 15 %
Diagnostics
Dans le cadre de sa thèse de doctorat, Maèva Flayelle a
Total 5 items 15 items 20 items développé une nouvelle mesure permettant de mesurer les
(25%) (75%) (100%) conduites de «Binge-Watching»
M. Flayelle, Ph.D.
Première version du Tableau certificatif initial réalisé

pour préparer l’examen de Janvier 2020 (en plein
34
pandémie).
Étape 3 : Créer les items
Citation (Gallup, 1943, cité par Laveault & Grégoire, 2014)

• « Trop d’attention a été accordée à la constitution des échantillons et trop peu à la création des questions
[...] des différences dans la construction des questions conduisent souvent à des résultats qui présentent
de plus grande variations que celles habituellement observées en fonction des différentes techniques
d’échantillonnage »
Quel format d’items choisir ?

• Dichotomique
o Importance de la formulation (e.g. formulation négatives plus compliquées…)
o Problème du caractère tranché du choix de réponse demandée
o Beaucoup de construits psychologiques se déclinent sur des continuums (e.g. symptômes
psychopathologiques) et/ou suivent des distributions normales
o Accentue les phénomènes de désirabilité sociale (réponde en fonction de ce qui est le plus
valorisé socialement, le moins stigmatisé, répondre en fonction des attentes perçues de la
personne administrant le test, etc.)
• Catégoriel bipolaire (Likert)
o Échelles dites de Likert (Likert, 1932)
o Nombre de catégories ordonnées se limite généralement à 5 modalités
o Problème de la tendance à donner une réponse centrale [solution à opter pour quatre catégories,
ce qui pousse à faire un choix]
o Également sensibles à la désirabilité sociale (mais moins que dichotomiques)
• À choix forcé, échelles visuelles analogiques, etc.
IMPORTANT !!! Le choix du format d’items est tout à fait susceptible d’influencer les réponses données
aux tests !
Quel doit être le niveau de difficulté des items ?

• Varie en fonction des objectifs du test et du construit mesuré
• Les items les plus «difficile» sont les plus discriminatifs
Combien faut-il créer d’items ?

• Durée du test
• Niveau désiré de fidélité du test (en général, les tests longs sont plus fidèles que les tests courts)
• Si plusieurs dimensions dans un questionnaire : assurer la fidélité avec suffisamment d’items par
dimensions (minimum 3 items par construit latent)
• Prendre en compte l’élimination éventuelle de certains items après leur évaluation par des experts et leur
mise à l’essai
o à créer davantage d’items pour en avoir suffisamment pour la version finale (30 à 50% d’items
supplémentaires sont à prévoir)
Étape 4 : Évaluation des items
Une définition précise de ce que l’on souhaite évaluer et une méthodologie rigoureuse de construction des items
sont des conditions nécessaires, mais non suffisantes pour obtenir des items fidèles et valides.
Nécessité d’évaluer les items via deux méthodes complémentaires

• Évaluation des items par des juges
• Réalisation d’une mise à l’essai suivie d’une analyse qualitative et quantitative des résultats
o Administrer le test/questionnaire à un échantillon de la population, mais pas nécessairement
représentatif, ni de grande taille (dépend de l’hétérogénéité de la population visée)
o Analyse de la distribution des items
Permet de sélectionner les items, d’en supprimer, d’en reformuler, etc., mais aussi de vérifier la cotation, le temps
de passation, la qualité du matériel, des consignes, etc.
35
Étape 5 : Déterminer les propriétés (psycho)métriques du test / questionnaire
Une fois la version définitive du test constituée

• Examiner de manière approfondie la fidélité et la validité de l’outil
• Si test normé : constituer des normes (voir module 2, échantillonnage, données normatives/scores bruts)
• Si test critérié : définir des valeurs seuils pertinentes (voir module 2, scores seuils, sensibilité, spécificité)
Comparaison entre les guidelines proposées par Boateng

et al. 2018 et Laveault & Grégoire (2014)
1. Déterminer l’utilisation du
test/questionnaire
2. Définir ce que l’on souhaite évaluer
3. Créer les items

4. Evaluer les items
5. Déterminer les propriétés psychométriques

du test
Laveault & Grégoire, 2014
Boateng et al., 2018
Versions courtes de tests existants – Checklist de points à considérer
1. S’assurer que la version originale (longue) est suffisamment validée
2. Démontrer le gain de temps et de ressources et leurs relations avec la perte de validité et fidélité de manière
empirique
3. Mener une analyse de contenu sur chaque facteur afin de préserver autant que possible le contenu couvert par
chaque facteur.
4. Montrer que chaque facteur remplit les standards en termes de fidélité
5. Examiner la structure factorielle de la version courte et rendre le lecteur attentif à toute différence par rapport
à la version longue
6. Valider la version courte dans la forme avec laquelle elle sera effectivement utilisée (ne pas extraire les items
de la version longue et effectuer les analyses a posteriori)
7. Si approprié, examiner dans quelle mesure la version courte classifie bien les individus
36
Illustration de développement de questionnaires sur le Binge-Watching
Binge-Watching définition
• Visionnage boulimique ou en « rafale » de plusieurs épisodes de séries TV à la fois
Un nouveau trouble addictif ? (approche centrée sur les symptômes et confirmatoire)

Chapitre lecture
• Approche centrée sur la compréhension des processus psychologiques sous-jacents
obligatoire 4
1
Développer des instruments de mesure valides pour
explorer le phénomène du binge-watching (motivations,
engagement)
Les rendre disponibles en plusieurs langues pour assurer

2 une comparaison fiable des résultats entre les différentes
études internationales menées sur le sujet
Les trois étapes de l’approche confirmatoire

(Billieux et al., 2015)
Une approche multi-étapes
Une approche multi-étapes First items 2

generation
+
Qualitative
data collection
Final
instruments
adaptation
A Psychometric
validation
Cross-cultural
5
validation
30
ateng et al. (2018)
37
Étude qualitative
Objectif
à Explorer les caractéristiques phénoménologiques uniques du binge-
Méthodologie
watching
Méthodologie
à Analyse thématique de
• 7 amateurs de séries TV • Focus group contenu
Objectif
• Critères d’inclusion: • Série de questions ouvertes
≥ 18 ans
Avoir regardé des épisodes de séries TV
régulièrement ou plus intensément (plusieurs
épisodes en une session) sur support DVD, US B ,
R és ultats
SVOD ou en streaming au cours des 6 derniers
mois
E TUDE R és ultats E xplorer les caractéristiques phénoménologiques

uniques du binge-watching
TV series watching motivations
TV series watching engagement
QUAL ITATIVE
Structural characteristics of TV series
Résultats
Des ressemblances avec les
…mais aussi des aspects différents
addictions aux substances…
Temps consacré au visionnage de séries TV parfois significatif Opinion positive du binge-watching
Temps de visionnage souvent plus long que prévu Sur-implication transitoire
Tentatives infructueuses pour réduire le visionnage de séries Dépendance au contexte

TV Impact sur la vie quotidienne relativement faible
Réduction des autres champs d’intérêt
Étude de validation
Objectif
à Développer et valider deux instruments de mesure, l’un évaluant les
motivations au visionnage de séries TV, et l’autre le niveau d’engagement
dans la conduite du binge-watching
Méthodologie
Méthodologie
• 6,556 amateurs de séries TV • E nquête en ligne: • Analyses Factorielles E xploratoires

et Confirmatoires (dans deux
Données sociodémographiques échantillons indépendants)
• Critères d’inclusion:
≥ 18 ans Watching TV Series Motives Questionnaire
• Corrélations de Spearman
Avoir regardé des épisodes de séries TV Binge-Watching Engagement and Symptoms Questionnaire
Objectif
épisodes en une session) sur support DVD, US B , Positive and Negative Affect Schedule
mois Compulsive Internet Use Scale
Alcohol Use Disorders Identification Test
E TUDE DE Développer et valider deux instruments de mesure, l’un évaluant

Fagerstrom Test for Nicotine Dependence
R és ultats les motivations au visionnage de séries TV, et l’autre le niveau

VALIDATION Résultats AFEd’engagement
(Échantillon 1)dans la conduite du binge-watching
Analyse Factorielle E xploratoire
Gaudreau et al. (2006); Khazaal et al. (2012); Gache et al. (2005); Etter et al.
(1999)
38
R és ultats E chantillon 2
Analyse Factorielle Confirmatoire

Résultats AFC (Échantillon 2)
Model Chi-sq df p CFI SRMR RMSEA ΔCFI
4-factors
WTSMQ 3175.747 203 <.001 0.942 0.066 0.067 -
(correlated)
4-factors
19588.242 209 <.001 0.621 0.164 0.168 0.321
(uncorrelated)
1-factor 9911.041 209 <.001 0.810 0.112 0.119 0.132
7-factors
BWESQ 10728.017 719 <.001 0.951 0.072 0.073 -
(correlated)
7-factors
135025.716 740 <.001 0.344 0.260 0.262 0.607
(uncorrelated)
R és ultats 1-factor 23146.560 740 <.001 0.891 0.103 0.107 0.06

E chantillon total
Corrélations de Spearman
Résultats échantillon total (Corrélations de Spearman)
R és ultats E chantillon total
R és ultats E chantillon total
39
Étude Cross-Culturelle
Objectif
à Tester les propriétés psychométriques des WTSMQ et BWESQ en 9
langues, et examiner leur invariance de mesure selon la langue et le genre
Méthodologie
Méthodologie
• 12,616 amateurs de séries TV (échantillon

international, 17 pays)
• Critères d’inclusion:
≥ 18 ans
Objectif
Avoir regardé des épisodes de séries TV
mois
Méthodologie Tester les propriétés psychométriques des WTSMQ et

E TUDE CR OS S- BWE S Q en 9 langues,
9 langues: E spagnol, Français, Anglais, Hongrois, Italien, Allemand, Arabe, Persan,
Chinoiset examiner leur invariance de
CULTUR E LLE mesure selon la langue et le genre
• 12,616 amateurs de séries TV (échantillon • E nquête en ligne: • Validité structurelle

international, 17 pays)
Données sociodémographiques Analyses Factorielles Confirmatoires
individuelles
• Critères d’inclusion: Watching TV Series Motives Questionnaire
≥ 18 ans • Invariance de mesure
Binge-Watching Engagement and Symptoms Questionnaire
Avoir regardé des épisodes de séries TV Analyses Factorielles Confirmatoires
régulièrement ou plus intensément (plusieurs Subjective Happiness Scale multi-groupes
Brief Symptom Inventory-18 • Consistance interne
mois
short Impulsive Behavior Scale
Cronbach’s alpha (α),
Compulsive Internet Use Scale McDonald’s Omega (ω)
• Validité convergente
Méthode deIMPORTANT
Lyubomirsky !!!& LepperMéthode
Flayelle et al. (2019)
deet al.traduction
(1999); Derogatis (2001); Billieux (2012); Meerkerk et al. (2009) / contre-traduction
traduction/contre-
traduction Ex.
Français
Ex. Anglais
1er traducteur bilingue
Ex. Français
2ème traducteur
bilingue
R és ultats
alyses Factorielles Confirmatoires
Beaton et al. (2000)
individuelles
Résultats AFC individuelles
Rigdon (1996); Kenny & McCoach (2003 )

40
R és ultats
Analyses Factorielles Confirmatoires
multi-groupes
Résultats AFC multi-groupes
R és ultats
Consistance interne
Résultats Consistance interne
R és ultats
ngs de corrélations de
arman entre WTSMQ et
BWE S Q Résultats corrélations de Spearman entre WTSMQ et BWESQ
R és ultats R és ultats
Résultats corrélations de Spearman
Rangs de corrélations de Rangs de corrélations de
S pearman entre BWE S Q et autres
entreetWTSMQ
S pearman entre WTSMQ autres et autres mesures mesures
entre BWESQ et autres mesures
mesures
41
Module 4 : Les diagnostiques psychopathologiques
Modèles traditionnels (catégoriels) en Psychiatrie

Trouble mental (DSM-5 ; American Psychiatric Association)
• Syndrome caractérisé par une perturbation de la cognition d’un individu, de sa régulation émotionnelle
ou de sa régulation comportementale ; reflétant un dysfonctionnement dans les processus psycho, bio ou
développementaux sous-tendant le fonctionnement normal ; source de détresse ou d’une altération du
fonctionnement dans la VQ. En sont exclus les réponses attendues ou culturellement approuvées ainsi
que les comportements déviants sur le plan social.
Trouble mental (CIM-10; World Health Organization )

• Ensemble de symptômes et comportements cliniquement identifiables, associés généralement à de la
détresse et à une perturbation du fonctionnement personnel.
Schizophrénie
Terme très familier mais mal compris : représentation caricaturale de la « folie »
Dans sa définition classique, la schizophrénie :
• touche environ 1% de la population des deux sexes
Une constellation de symptômes
• installation généralement durant l’adolescence ou au début de
hallucinations (auditives, visuelles, etc.)
l’âge adulte idées délirantes (de persécution, de grandeur, avec des
aspects mystiques ou religieux)
phénomènes de passivité et d’interférence avec la pensée
Les symptômes de la schizophrénie repli sur soi
Trois facteurs : perte d’initiative ou de motivation (apathie)
• symptômes positifs : distorsions de la réalité (hallucinations, appauvrissement affectif (émoussement des affects)
expression anormale des émotions
idées délirantes) mouvements anormaux
• symptômes négatifs : repli sur soi, apathie langage désorganisé (changements de thème, méli-mélo de
mots, néologismes)
• désorganisation de la pensée, du langage et du comportement troubles cognitifs (dont troubles de la mémoire épisodique)
Emil Kraepelin (psychiatre allemand 1856 –Emil

1926)
Kraepelin (psychiatre allemand 1856-1926)
approche médicale de la maladie mentale

Approche médicale de la maladie mentale
La « folie » peut être scindée en un petit nombre de maladies
la « folie »(p.ex. démence
peut être scindéeprécoce, dépression
en un petit nombre
maniaque). Ces types peuvent être identifiés en étudiant les symptômes, par l’observation
de maladies (p.ex. démence précoce, directe des
anomalies du cerveau, ou en découvrant leur étiologie (p. ex. leur composante héréditaire)
dépression maniaque)
• Centration sur les aspects biologiques (et non psychologiques)
ces types peuvent être identifiés en étudiant les symptômes,
Il fait la distinction entre deux types de psychoses par l’observation directe des anomalies du cerveau, ou en
1. Démence précoce (= « schizophrénie ») découvrant leur étiologie (p. ex. leur composante héréditaire)
a. absence d’émotion ou émotions inadéquates
b. comportements stéréotypés ou postures anormales
centration sur les aspects biologiques (et non psychologiques)
c. hallucinations
d. croyances irrationnelles
e. détérioration des fonctions intellectuelles
f. Sous-types
Hébéphrénique : commence à l’adolescence et se traduit par une déficience intellectuelle progressive, un
ralentissement moteur et intellectuel, ...
Catatonique : caractérisée par des comportements moteurs inadaptés, rigides
Paranoïde : délire flou, imprécis, sans construction logique, thèmes variés, ...
2. Psychose maniaco-dépressive (= trouble bipolaire)

a. l’alternance, selon un rythme et une fréquence très variables, d’accès maniaques et d’accès
dépressifs, séparés par des intervalles libres asymptomatiques plus ou moins longs
Différentes phases
État maniaque : excitation intellectuelle et psychomotrice, rapidité de la parole, absence de fatigue (et
anosognosie)
État dépressif (mélancolie, ralentissement psychomoteur, bouffées délirantes, hallucinations)
État mixte : présence des états maniaque et dépressif durant la même période
42
Dans la dernière partie de sa vie, Kraepelin change un peu sa position
• Les symptômes de la « folie » dépendent aussi de la nature individuelle (psychologique) des personnes
• Intérêt pour la psychiatrie comparative : explorer les symptômes d’une maladie dans différentes
populations
• Évolution ignorée par la majorité des psychiatres à la suite de Kraepelin
Nosographie classique catégorielle
« On ne peut pas catégoriser des maladies

Schizophrénie
Psychoses mentales comme on catégorisait par exemple
(causées par des
anormalités des insectes. Les troubles psychologiques
biologiques) Trouble bipolaire sont multi-déterminés et des symptômes
apparemment identiques peuvent être
Maladie mentale
expliqués par des causes ou des processus
psychologiques différents. Ainsi, les
Névroses
(compréhensibles sur
Anxiété généralisée approches centrées sur des catégories de
base de la troubles ne sont pas nécessairement valides
personnalité et des
Phobies et tendent à négliger l’importance des
expériences)
différences individuelles » (citation du prof)
Eugen Bleuler (psychiatre suisse 1857 – 1939)
Il introduit le terme « schizophrénie » en 1911

• Schizo = Fendre Eugen Bleuler :
• Phren = Esprit psychiatre suisse né en 1857
• Littéralement : Esprit Fendu
introduit le terme «schizophrénie» en 1911
Les hallucinations et idées délirantes ne constituent pas lesSchizo
caractéristiques
= Fendre
les plus importantes
Phren = Esprit Littéralement : Esprit Fendu
• perte des associations liant le flux de la pensée, attitudes conflictuelles envers autrui (ambivalence), retrait
du monde social, affects inadéquats les hallucinations et idées délirantes ne constituent pas les
caractéristiques les plus importantes
Eugen Bleuler VS Emil Kraepelin
Eugen Bleuler : perte des associations liant le flux de la pensée, attitudes
• prise en compte des perturbations biologiques mais impressionné
conflictuelles par(ambivalence),
envers autrui l’ampleur des variations
retrait du monde
interindividuelles à intérêt pour la psychologie social,
des personnes
affects inadéquats
• Pas de démarcation claire entre schizophrénie et dépression maniaque
o mise en question de la distinction entre différents types de maladie mentale
o pas de frontière nette entre normalité et maladie
Approche « néo-kraepelinienne » et la classification des troubles mentaux
Les critères de Feighner (1972)

• différents types de maladies
• pour chaque maladie, une liste de symptômes
• 14 maladies mentales répertoriées (par ex. schizophrénie ; névrose anxieuse ; dépression ; personnalité
antisociale ; homosexualité, ...)
• des règles qui spécifient combien de symptômes sont requis pour effectuer un diagnostic
• modèle pour le DSM-III (Diagnostic and Statistical Manual of Mental Disorders)
Klerman (1978)
Dans les années 1970, aux Etats-Unis :
• problèmes de fidélité des diagnostics
• la question de l’homosexualité
• questions économiques (réguler les remboursements de soins par les assurances ; spécifier les troubles
visés par de nouveaux médicaments)
• désenchantement vis-à-vis de la psychanalyse
o traitement non efficace
o affaiblit les liens entre psychiatrie et médecine
43
Le manifeste « néo-kraepelinien » : Klerman (1978)
IMPORTANT !!!
• la psychiatrie est une branche de la médecine
• la psychiatrie doit utiliser des méthodes scientifiques modernes et fondées sur les connaissances
scientifiques
• la psychiatrie traite des personnes qui sont malades et qui requièrent un traitement
• il existe une frontière entre le normal et le pathologique
• les psychiatres doivent mettre un accent particulier sur les aspects biologiques de la maladie mentale
• il doit y avoir un intérêt explicite et intentionnel pour le diagnostic et la classification
• les critères de diagnostic doivent être codifiés et validés à DSM-III
Approches diagnostiques traditionnelles

Les troubles psychopathologiques ont une essence : un
caractère constitutif propre et nécessaire.
2013
Cette essence est possédée par tous les individus qui ont
ce trouble et par aucun individu qui ne le possède pas ;
1994 on a le trouble ou on ne l’a pas (comme la grippe ou
1987 une tumeur).
Rupture avec tradition
psychanalytique Les difficultés psychologiques peuvent être expliquées
1968 de la même manière que les maladies physiques.
Les symptômes sont le reflet d’un trouble latent.
1952
DSM-IV
Athéorique par « souci d’objectivité »

Critères diagnostiques = Consensus d’experts (majoritairement U.S.)
à massivement basé sur études U.S.
Un système multiaxial
• Axe 1 : Troubles mentaux majeurs
• Axe 2 : Troubles de la personnalité et retard mental
• Axe 3 : Aspects médicaux ponctuels et troubles physiques
• Axe 4 : Facteurs psychosociaux et environnementaux
• Axe 5 : Échelle d’évaluation globale du fonctionnement
Existences de critères monothétiques (symptômes obligatoires pour poser le diagnostic) et polythétiques

(symptômes non obligatoires mais présents chez un certain nombre de patients appartenant une catégorie
diagnostique donnée).
Utilisation de classes
polythétique : Approche
IMPORTANT !!! Une classe polythétique est définie par un dominante dans le DSM …
large ensemble de symptômes qui ne sont ni nécessaires ni

suffisants pour déterminer l’appartenance à la classe. Une
personne caractérisée par cette classe polythétique doit
posséder un certain nombre minimal de symptômes distinctifs,
Critères/Classes
sans qu’aucun de ces symptôme ne soit ne soit indispensable Polythétiques
(au diagnostic) en tant que tel.
• Un symptôme dit « polythétique » n’est donc pas
forcément présent chez une personne qui peut
toutefois présenter le trouble donné
44
IMPORTANT !!! Dans CIM (de l’OMS), approches monothétiques privilégiées
Exemple
Trouble lié au Jeu Vidéo (code 6C51)
• Implication persistante (minimum 12 mois) dans le jeu vidéo caractérisée par :
• Perte de contrôle sur les conduites de jeu vidéo
• Priorité donnée au jeu (par comparaison aux tâches du quotidien, autres loisirs, etc.)
• Conséquences négatives liées au jeu (sociales, personnelles, professionnelles, ...)
o Ensemble des critères doivent être présents et associés à une perturbation du
fonctionnement dans la vie quotidienne (« functional impairment »)
Catégories principales du DSM-IV

• Troubles de l'enfance et de l'adolescence (e.g., ADHD)
• Troubles neurocognitifs (e.g., démences)
• Troubles liés à une substance
• Schizophrénie et autres troubles psychotiques
• Troubles de l'humeur (e.g., épisode dépressif, dépression majeure, etc.)
• Troubles anxieux (e.g., phobies, TAG, TOC, PTSD, etc.)
• Troubles somatoformes (e.g., hypocondrie)
• Troubles dissociatifs (e.g., amnésie dissociative, dépersonnalisation)
• Troubles sexuels et de l’identité sexuelle
• Troubles des conduites alimentaires
• Troubles du sommeil
• Troubles du contrôle des impulsions (e.g., jeu pathologiques, trichotillomanie, kleptomanie, etc.)
• Troubles factices
• Troubles de l’adaptation
La classification du DSM-IV : Troubles de la personnalité (Axe II)

« Traits de personnalité » : modalités durables d’entrer en relation avec, de percevoir et de penser son
environnement et soi-même, qui se manifestent dans un large éventail de situations sociales et professionnelles
Troubles de la personnalité
• Mode durable des conduites et de l’expérience vécue qui dévie notablement de ce qui est attendu dans la
culture de l’individu
o Envahissant
o Rigide, stable
o Apparaît à l’adolescence ou au début de l’âge adulte
o Source de souffrance et altération du fonctionnement
• Paranoïaque ; schizoïde, schizotypique, antisociale, borderline, histrionique, évitante, narcissique,
dépendante, obsessionnelle-compulsive, NS.
45
Organisation du DSM (IV & V)
• Catégories diagnostiques :
o dépression, schizophrénie, …
• Critères diagnostiques pour chaque catégorie :
o symptômes requis, durée, …
• Évaluation de la sévérité et de caractéristiques du trouble :
o léger, moyen, chronique, …
Structure et Contenu du DSM-V
Section I
• « Bases du DSM-5 »:
• Intro.; utilisation du manuel, notamment en médecine légale
Section II
• « Critères diagnostiques et codes » CIM (9 et 10) des troubles m.
Section III
• « Modalités d’évaluation et modèles émergents » : Instruments d’évaluation
• Approche culturelle des problèmes de santé mentale
• Modèle alternatif pour les troubles de la personnalité
• Troubles proposés pour des études complémentaires
Annexes
• Changements entre DSM-IV et DSM-5
• Glossaires des termes techniques
• Glossaire des concepts culturels de détresse
• Listes alphabétiques et numériques des troubles
• Collaborateurs aux DSM-5
Principaux changements du DSM-IV au DSM-V
• Abandon du système multiaxial

• Abaissement de certains seuils diagnostics
o Pour contrer le problème des « syndromes sous-seuils »
• Ajouts de troubles
Nouvelles conceptualisations de certains troubles

• Modification de catégories de trouble existantes
o e.g. : DSM-IV, TOC et PTSD étaient classés dans les troubles anxieux, alors qu’avec le DSM-
V ont leurs propre catégorie
• Attribution de troubles à d’autres catégories
o e.g. : DSM-IV, le jeu pathologiques était classé dans les « troubles du contrôle des impulsions »
alors qu’avec le DSM-V est incorporé dans la catégorie « Substance-related and Addictive
Disorders »
• Apparition de nouveaux troubles
o Trouble dysphorique prémenstruel, trouble de dérégulation d’humeur dit d’humeur explosive,
trouble de symptômes somatiques ou le trouble neurocognitif mineur (MCI)
• Réduction du nombre de trouble lié à la personnalité
o Limite (i.e. Borderline), obsessionnelle, évitante, narcissique, antisociale, schizotypique
o Principalement dû au manque de validité des catégories de l’axe II du DSM-IV
Troubles émergents ou potentiels

• Pas encore inclus, section 3
• Troubles devant faire l’objet d’études complémentaires : Syndrome Psychotique Atténué ; Deuil
Pathologique ; Trouble lié aux jeux vidéo en ligne ; Trouble lié à l’utilisation de la caféine, etc.
46
Vers une pathologisation croissante du fonctionnement psychologique ?
2013 (+ 300 troubles, 947 pages) DSM-5 : abaissement des seuils diagnostiques
Non prise en compte du contexte

1994 (297 troubles, 886 pages) Introduction de nouvelles catégories de
1987 (265 troubles, 494 pages)
troubles, très problématiques
Rupture avec tradition

psychanalytique
1968 (182 troubles, 134 pages)
1952 (106 troubles; 130 pages)
Syndrome sous-seuil ou « partiels »

Existence de syndromes partiels ou « sous- seuil » tout en manifestant pourtant une souffrance ou une perturbation
dans la vie quotidienne = Souffrance Psychologique sans la présence de l’ensemble des critères nécessaires pour
poser un diagnostic donné
Abaissement des seuils diagnostiques

Abaissement des seuils diagnostiques : réduire le nombre et la gravité des critères considérés comme suffisants
pour qu’un diagnostic soit établi
• voir, p. ex., la boulimie ou l’ADHD ; voir aussi le retrait, pour le diagnostic de dépression majeure, du
critère d’exclusion lié à la présence d’un deuil
• conséquence : accroître le nombre de personnes susceptibles de recevoir un diagnostic psychiatrique
Non prise en compte du contexte

Par exemple dans la dépression
• Horwitz, A.V., & Wakefield, J. C. (2007). The loss of sadness. How psychiatry transformed normal
sorrow into depressive disorder? Oxford University Press
• DSM-5 : retrait, pour le diagnostic d’épisode dépressif majeur, du critère d’exclusion lié à la
présence d’un deuil
Introduction de nouveaux troubles

• P. ex., le trouble dysphorique prémenstruel, le trouble de dérégulation d’humeur dit d’humeur explosive,
le trouble de symptômes somatiques ou le trouble neurocognitif mineur
• Pathologisation du vécu :
o de certaines femmes
o de certains enfants /adolescents manifestant des sautes d’humeur importantes (pouvant être des
manifestations normales au plan développemental et se résoudre sans traitement)
o de personnes âgées (e.g. vieillissement normal et capacités cognitive)
Changement de paradigme : Reclassification du Gambling Disorder dans le DSM-V

• Similarité – symptômes
• Comorbidités psychiatriques
• Héritabilité et vulnérabilité génétique
• Similarités neurobiologiques
• Similarités neuropsychologiques
• Traitements efficaces
Reconnaissance officielle du diagnostic d’addiction comportementale. Un nombre croissant de comportements
« excessifs » sont considérés comme des addictions stricto sensu.
47
Le péché de l’approche “confirmatoire”
Le ou
péché de l’approche
“ comment utiliser de « confirmatoire
vieilles » créer de nouveaux troubles”
recettes pour
Etape 3 : Focalisation de la
Etape 1: Conceptualisation a priori
recherche sur les facteurs
de la conduite excessive comme une
étiologiques établis pour les
addiction «comportementale»
assuétudes aux substances
Etape 2: Développement d’outils de

dépistage/évaluation inspirés des
critères de l’assuétude aux substances
Conséquences Principales
- Perte de contrôle
- Régulation 1 Absence de prise en compte de modèles alternatifs
émotionnelle 2 Approche a-théorique (partant du symptôme)
- « Manque » 3 Non prise en compte des spécificités du trouble
- «Tolérance » 4 Non prise en compte des processus psychologiques
- Etc. Interventions potentiellement inappropriées
1.Kardefelt-Winther,
Quand onHeeren,
prendSchimmenti,
des conduites excessives (e.g. « jeux-vidéo »), on pourrais avoir des modèles étiologiques
van Rooij, Maurage, Carras, Edman, Blaszczynski, Khazaal, & Billieux, J. (2017). How can
we conceptualize behavioral addiction without pathologizing common behaviors? Addiction, 112, 1709-1715.
alternatifs comme par exemple, le fait que l’engagement excessif dans les jeux-vidéos est un coping une
stratégie pour faire face à quelque chose, qui peut devenir envahissante, en lien avec un épisode de
dépression ou, chez certains joueur avec une anxiété sociale marquée. Donc là on aurait finalement, un
symptôme uniquement qui serait la conséquence d’un autre trouble.
2. Approche qui part essentiellement du symptôme en ignorant largement les processus impliqués, notamment
les processus psychologiques.
3. On va se focaliser sur les similitudes potentielles avec les addictions aux substances en ignorant largement
les caractéristiques qui pourraient être vraiment spécifiques et uniquement retrouvées dans le trouble en
question. Et pour pouvoir bien comprendre ces spécificités, il va falloir passer par des analyses souvent
qualitatives, phénoménologiques, auprès des personnes impliqués (cf. procédure utilisé pour le Binge-
Watching).
4. Il y a plus le focus sur les aspects biologiques et on pourraient avoir des interventions potentiellement
inappropriés. Par exemple si on considère à priori qu’un symptôme d’usage excessif de jeux-vidéos reflète
une addiction, on pourrait être amené à réaliser un entretien motivationnel pour essayer de changer le
comportement, et puis si cette personne utilise le jeux-vidéo comme un coping, on serait dans une
intervention inapproprié.
Approches critique des Modèles traditionnels (catégoriels) en Psychiatrie

Fidélité
• Accord sur le diagnostic
• Bonne fidélité du DSM-IV (sauf certains états psychopathologiques, notamment les troubles de la
personnalité tels que conceptualiser dans l’axe 2)
• Études relatives aux nouveaux troubles (DSM-5) en cours
Validité
• Signes et symptômes choisis comme critères de diagnostic sont constamment associés et ce qu’ils
identifient diffère des autres catégories (validité de concept ou théorique)
• Degré auquel les caractéristiques d’un trouble sont réellement représentatives du phénomène étudié
(validité de contenu)
48
Critique 1 : frontière stricte entre le normal et le pathologique ?
Existe-t-il réellement une frontière stricte entre le normal et le pathologique ?

Prenons l’exemple des hallucinations. Ce sont des « perceptions sensorielles avec tous les attributs de la réalité,
sans stimulation externe » comme par exemple : Entendre la voix d’un ami alors qu’il n’y a personne ; voir la
visage de sa grand-mère décédée ; sentir son smartphone vibrer dans sa poche.
Les hallucinations constituent une manifestation fréquente dans la population tout-venant
• Van os et al. (2000)
o 7000 personnes de la population générale
o 1.7% rapportent des hallucinations associées à une souffrance, et 6.2% non associées à une
souffrance
• LarØi & Van der Linden (2003)
o Étudiants universitaires
o 34% rapportent l’occurrence d’hallucinations auditives
Similitudes avec les populations cliniques (peu de contrôle, émotions négatives, situations stressantes, personnages
connus / proches).
o Hypothèse du continuum : Pas de différence qualitative entre les hallucinations dites « cliniques » et
« non cliniques »
Critiques 2 : Non équivalence des symptômes et hétérogénéité intra-diagnostique

mple : La dépression
Exemple : La dépression
La dépression est une catégorie distincte de maladie (similaire à une

maladie physique)
La dépression est la cause commune de ses symptômes (« the
égorie common cause framework ») : les symptômes sont les indicateurs
aire à une observables
DSM-5 de: dépression
cette entité latente
(épisodequ’est la dépression.
dépressif majeur)
DSM-V : dépression (épisode dépressif majeur)

commune A. au moins 5 symptômes présents pendant deux semaines au minimum et qui
constituent un changement par rapport au fonctionnement antérieur
ommon
5 symptômes parmi:
mptômes • humeur dépressive
ables de • diminution marquée d’intérêt ou de plaisir

• perte ou gain de poids
a • insomnie ou hypersomnie
• agitation ou ralentissement psychomoteur
• fatigue ou perte d’énergie
• sentiment de dévalorisation ou de culpabilité excessive ou non appropriée
• diminution de l’aptitude à penser ou à se concentrer ou indécision
• pensées de mort récurrentes (idées suicidaires)
UDépression: hétérogénéité
n des symptômes doit des symptômes
être une humeur dépressive ou une diminution d’intérêt ou
S = symptômes, par exemple «idées suicidaires» de plaisir
(Olbert et al., 2014)
Figure 2. Associations between depressive symptoms and impairment domains.
Dépression : hétérogénéité des symptômes (Olbert et al., 2014)
Deux patients Deux patients Deux patients ne

avec avec un seul partageant aucun
superposition de symptôme symptôme
symptômes commun commun
Fried EI, Nesse RM (2014) The Impact of Individual Depressive Symptoms on Impairment of Psychosocial Functioning. PLoS ONE
9(2): e90311. doi:10.1371/journal.pone.0090311
http://127.0.0.1:8081/plosone/article?id=info:doi/10.1371/journal.pone.0090311
49
Critique 3 : Existe-t-il réellement des maladies mentales distinctes ?
à Comorbidité
Exemple de processus transdiagnostic : Impulsivité

abus de substances
troubles alimentaires
jeu pathologique
trouble obsessionnels-compulsifs
personnalité borderline
personnalité antisociale
déficit de l’attention / hyperactivité
70% des patients
présentent une etc.
comorbidité
psychiatrique Comorbidité élevée entre ces troubles
Facteur étiologique commun !
Billieux, J. (2012). Impulsivité et psychopathologie: une approche transdiagnostique.

Critique 4 : Même symptôme mais des causes ou des
Revue fonctions
Francophone différentes
de Clinique Comportementale et Cognitive, 17(3), 42-65.
Contextualisme fonctionnel (Ramnerö & Törneke, 2008)

• Les
Le contexte détermine la fonction
comportements d’un comportement.
différents…
• Un même comportement peut avoir différentes fonctions.
avec
• Différents la mêmepeuvent
comportements fonction
avoir la même fonction.
Automutilation
Les comportements différents… avec la même
Abus de substances fonction !!!
Emotion et/ou
humeur négative Boulimie / Purge
Un même symptôme : de multiples fonctions
possibles !
Jeu
Les fonctions de l’automutilation :
Etc. - Diminution des affects négatifs
- Recherche d’attention / protection
- Stimulation
Conséquences à moyen Soulagement des
/ long termes affects négatifs
- Autopunition
Richard Bentall : Le Manifeste Post-Kraepelinien
IMPORTANT !!! Une critique de l’approche kraepelinienne (Bentall, 2003)
• La compréhension et le traitement des problèmes psychopathologiques doivent être approchés à travers

diverses perspectives (neuroscience, psychologie, sociologie, anthropologie, etc.), aucune n’ayant préséance
sur l’autre
• La psychopathologie (évaluation et intervention) doit utiliser des méthodes scientifiques modernes et fondées
sur les données probantes (evidence-based approach)
• La pratique clinique s’adresse à des personnes qui se plaignent de problèmes psychologiques ou qui ont des
difficultés à s’adapter aux exigences de la vie quotidienne
o certaines manifestation, comme des hallucinations ou des croyances non conventionnelles, se
produisent chez des personnes qui n’en souffrent pas et qui fonctionnent bien: ces personnes ne
devraient pas être encouragées à chercher un traitement
• Il n’y a pas de frontière claire entre le normal et le pathologique (continuum)
• Il n’y a pas de maladies mentales distinctes; les catégories diagnostiques ne captent pas adéquatement la nature
des plaintes psychologique
50
• Une théorie adéquate des problèmes psychologiques doit montrer comment les explications biologiques et
psychologiques sont reliées
• Il faut commencer par une description détaillée et valides des plaintes psychologiques
• Il faut tenter de comprendre les mécanismes sous- tendant les plaintes psychologiques
o Notamment pour mieux comprendre les liens avec les facteurs sociaux et biologiques
o Notamment pour mieux comprendre la fonction des comportements problématiques
• Les plaintes psychologiques doivent être comprises comme le produit de trajectoires développementales,
déterminées par des interactions complexes entre des processus endogènes et environnementaux
Lecture obligatoire G. Boateng
Phase 1 : Développement des items
Step 1 : Identification du/des domaines(s) et génération des items
Domaine identification : Pour spécifier les limites du domaine et faciliter génération d’items
• Préciser la finalité/but du domaine
• Confirmer qu'il n'y a pas d'instruments existants
• Décrire le domaine et fournir des définition
• Préciser les dimensions du domaine si elles existent a priori
• Définir chaque dimension
Génération d’items (développement des questions) : Identifier les questions appropriées qui correspondent au
domaine identifié
• Méthodes déductives : revue de la littérature et évaluation échelles existantes
• Méthodes inductives: méthodologies de recherche exploratoire y compris des discussions de groupe et
des entretiens
Remarques : Il est recommandé de combiner à la fois déductif et méthodes inductives pour à la fois définir le
domaine et identifier les questions pour l'évaluer.
Le nombre d’items doit être au moins deux fois plus longue que l'échelle souhaitée. Les items devraient être
formulé simplement et sans ambiguïté. Les items ne doivent pas être offensant ou potentiellement biaisé en termes
d'identité sociale, c'est-à-dire le sexe, la religion, l'appartenance ethnique, la race, le statut économique ou
l’orientation.
Step 2 : Validité du contenu
Évaluation par expert : Évaluer chacun des items constituant le domaine pour la pertinence, la représentativité
et la qualité technique du contenu
• Quantifier les évaluations de 5 à 7 juges experts en utilisant une mise à l'échelle formalisée et des
procédures statistiques, y compris le taux de validité du contenu, l'indice de validité du contenu ou le
coefficient alpha de Cohen
• Conduire la méthode Delphi avec des juges experts
Évaluation par population cible : Évaluer chaque item constituant le domaine de représentativité de l'expérience
réelle de la population cible
• Mener des entretiens cognitifs avec les utilisateurs finaux des items d'échelle pour évaluer la validité
apparente
51
Phase 2 : Développement de l’échelle
Step 3 : Questions de pré-test
Le pré-test permet de s'assurer que les éléments sont significatifs pour le population cible avant que l'enquête ne
soit effectivement administrée (minimise les malentendus et les mesures ultérieures erreur).
Le pré-test comporte deux volets : le premier est l'examen de la mesure dans laquelle les questions reflètent le
domaine en cours d’étude. Le second est l'examen de l'étendue auquel les réponses aux questions posées produisent
des mesures.
Cognitif interviews : Évaluer dans quelle mesure les questions reflètent le domaine d'intérêt et que les réponses
produisent des mesures valides
• Administrer les brouillons de questions à 5 à 15 personnes interrogées en 2 à 3 tours tout en permettant
aux répondants de verbaliser le processus mental impliqué dans la fourniture de réponses
• Avantages
o Garantit que les questions produisent les données voulues
o Les questions qui prêtent à confusion sont modifiées à + de clarté
o Questions problématiques ou difficiles à comprendre sont modifiées
o Options d’interventions appropriés et adéquates
o Révèle le processus de réflexion des participants (cela peut indiquer une question problématique)
Step 4 : Administration de l’enquête et taille de l’échantillon
Administration du sondage : Pour collecter des données avec un minimum d'erreurs de mesure
• Administrer des éléments d'échelle potentiels sur un échantillon qui reflète la gamme de la population
cible en utilisant du papier ou un appareil
• Chaque approche présente des avantages et des inconvénients.
o En utilisant la technologie on peut réduire les erreurs liées à la saisie des données et
permet : la collecte de données à partir de grands échantillons avec un minimum coût, augmenter
le taux de réponse, réduire les erreurs des recenseurs, permettre rétroaction instantanée et
augmentation du suivi de la collecte de données et capacité à obtenir des données plus
confidentielles
§ La technologie offre la possibilité de joindre fichiers audio aux questions de l'enquête
afin que les questions puissent être enregistré et lu à haute voix aux participants peu
alphabétisés
o Formulaire papier : pas de plantage, pas de disparition des données
§ Avec grand échantillon : plus cher, forte intensité de main-d'œuvre, et les données sont
exposées de plusieurs manières erreur humaine
Établir la taille de l'échantillon : Assurer la disponibilité des données suffisantes pour le développement de
l'échelle
• La taille d'échantillon recommandée est de 10 répondants par item d'enquête et/ou de 200 à 300
observations
• Il n’existe pas de ratio d’éléments unique qui fonctionne pour toutes les enquêtes scénarios de
développement.
Un échantillon ou un répondant
• plus grand : le ratio d'items est toujours meilleur, car une plus grande taille d'échantillon implique des
erreurs de mesure plus faibles et plus, des chargements de facteurs stables, facteurs réplicables et
résultats généralisables à la population réelle structure
• plus petit : peut signifier des charges et des facteurs plus instables, aléatoires, non réplicables et résultats
non généralisables
à la taille est cependant toujours limitée par les ressources disponibles, et le plus souvent, le développement à
grande échelle peut être difficile à financer.
52
Déterminer le type de données à utiliser : Assurer la disponibilité des données pour le développement et la
validation des échelles
• Utiliser des données transversales pour l'analyse factorielle exploratoire
• Utiliser les données d’un deuxième moment, au moins 3 mois plus tard dans un semble de données
longitudinales ou un échantillon indépendant pour tester dimensionnalité (étape 7)
Le développement d’une échelle nécessite au minimum les données d’un seul point dans le temps.
Problème dans l'utilisation de données longitudinales : la variance d'erreur courante, car les mêmes participants,
potentiellement idiosyncratiques, seront impliqués.
• Pour donner le plus de crédibilité à la fidélité de l'échelle, dans l’idéal, la meilleure procédure consiste
à développer l'échelle sur l'échantillon A, que ce soit sectionnelle ou longitudinale, puis la tester sur un
échantillon B.
Step 5 : Réduction des items
Objectif : identifier les éléments qui ne sont pas ou sont les moins lié au domaine d’étude pour suppression ou
modification (items fonctionnels).
Remarque : deux théories, la Théorie Classique des Tests (CTT) et Théorie de la réponse à l’item (IRT), sous-
tend le développement à l'échelle.
• La CTT permet la prédiction des résultats des constructions et de la difficulté des items
• Le IRT, le paramètre de difficulté de l'élément, est la probabilité qu'un candidat particulier réponde
correctement à élément donné
o Avantage : permettre au chercheur d'identifier les différents niveaux de performance
individuelle
Indice de difficulté de l’item : Pour déterminer la proportion de bonnes réponses données par item (CTT) et pour
déterminer la probabilité qu'un candidat particulier répondre correctement à un item donné (IRT)
• La proportion peut être calculée pour le CTT et le paramètre de difficulté de l'item estimé pour l'IRT à
l'aide de progiciels statistiques
Indice de discrimination d’item tester : Pour déterminer dans quelle mesure un élément ou un ensemble de
questions de test mesure un attribut unitaire (CTT) et pour déterminer à quel point la probabilité de réponse correcte
change à mesure que la capacité augmente (IRT)
• Estimer les corrélations bisériales ou le paramètre de discrimination des items en utilisant des progiciels
statistiques (= ensembles statistiques)
Utilité :
• les éléments non discriminatoires, qui ne font pas de discrimination entre les répondants, devraient être
supprimés
• les éléments qui discriminent négativement devraient être réexaminés et modifiés
• les éléments qui établissent une discrimination positive devraient être conservés
Corrélation Inter-item et item total : Pour déterminer les corrélations entre les éléments de l'échelle, ainsi que
les corrélations entre chaque élément et le score total des éléments de l'échelle (CCT)
• Estimer les communautés inter-item / item, les corrélations item-total et item-total ajusté à l'aide de
progiciels statistiques
Analyse de l’efficacité des distracteurs : Pour déterminer la distribution des options incorrectes et comment elles
contribuent à la qualité des articles
• Estimer l'analyse des distracteurs à l'aide de progiciels statistiques
Suppression ou imputation (cas manquants) : Pour assurer la disponibilité de cas complets pour le
développement de l’échelle (2 approches)
• Supprimer les éléments comportant de nombreux cas manquants de façon permanente, ou utiliser
l'imputation multiple ou la probabilité maximale de renseignements complets pour l'imputation des
données
53
Step 6 : Extraction des facteurs
Analyse factorielle : Pour déterminer le nombre optimal de facteurs ou de domaines qui correspondent à un
ensemble d’item
• Utiliser des graphiques en éboulis (Scree Plot), une analyse factorielle exploratoire, une analyse parallèle,
qui correspondent à un ensemble d'items procédure partielle moyenne minimale et/ou la méthode de Hull
o C’est un modèle de régression dans lequel les variables standardisées observées sont régressés
sur des facteurs non observés
o L’analyse factorielle est utilisée pour comprendre la structure latente (interne) d'un ensemble
d'éléments, et mesure dans laquelle les relations entre les éléments sont en interne
cohérent
o Cela se fait en extrayant des facteurs latents qui représentent la variance partagée des réponses
parmi les multiples articles
Phase 3 : Évaluation de l’échelle
Step 7 : Évaluation de la dimensionnalité
Test de dimensionnalité : Pour répondre aux requêtes sur la structure latente des éléments d'échelle et leurs
relations sous-jacentes. C'est-à-dire pour valider si la structure hypothétique précédente correspond aux items
• Estimer le modèle de cluster indépendant (ICM) - analyse factorielle confirmatoire
• Estimer les modèles bifactoriels pour éliminer l'ambiguïté sur le type de dimensionnalité-
unidimensionnalité, bi-dimensionnalité ou multi-dimensionnalité
• Estimer l'invariance de mesure pour déterminer si le facteur et la dimension hypothétiques sont
congruents entre les groupes ou plusieurs échantillons
Éléments de l’échelle de score : Pour créer des scores d'échelle pour une analyse de fond, y compris fiabilité et
validité de l’échelle
• Calculer les scores de l'échelle en utilisant une approche non pondérée, qui comprend la somme des scores
normalisés des items et des scores bruts des items, ou calculer la moyenne des scores bruts des items
• Calculez les scores de l'échelle en utilisant une approche pondérée, qui comprend la création de scores
factoriels via une analyse factorielle confirmatoire ou des modèles d'équations structurelles
Step 8 : Tests de fidélité
Calculez la fidélité statistiques : Évaluer la cohérence interne de l'échelle, c'est-à-dire, le degré auquel l'ensemble
des éléments de l'échelle covarie, par rapport à leur score total
• Estimation en utilisant l'alpha de Cronbach
o L'alpha de Cronbach évalue la cohérence interne des éléments de l'échelle, c'est-à-dire le degré
auquel l'ensemble des éléments de l'échelle covarie, par rapport à leur score total
o Un coefficient alpha de .70 a souvent été considéré comme un seuil acceptable de fiabilité
o cependant, .80 et .95 sont préférés pour la qualité psychométrique des échelles
• D'autres tests tels que le rho de Raykov, l'alpha ordinal et celui de Revelle bêta peut être utilisé pour
évaluer la fiabilité de l'échelle
Test – retest fidélité : Évaluer dans quelle mesure la performance du participant est reproductible ; c'est-à-dire la
cohérence de leurs scores dans le temps
• Estimer la force de la relation entre les items de l'échelle sur deux ou trois points dans le temps; variété
de mesures possible
• Alors que certains préfèrent utiliser le coefficient de corrélation intra-classe (124), d'autres utilisent la
corrélation produit-moment de Pearson
• Dans les deux cas, plus la corrélation est élevée, plus la fidélité test – retest est élevée, des valeurs
proches de zéro indiquant une faible fidélité.
54
Step 9 : Tests de validité
Validité prédictive : Pour déterminer si les scores prédisent les résultats futurs
Validité des critères
• Utilisez la régression bivariée et multivariée ; des associations ou des effets causaux plus forts et
significatifs suggèrent une plus grande validité prédictive
Validité concurrente ou concomitante : Pour Déterminer dans quelle mesure les scores de l'échelle ont une
relation plus forte avec les mesures des critères effectuées près du moment de l'administration
• Estimer l'association entre les scores de l'échelle et « l'étalon-or » de la mesure de l'échelle ; une
association significative plus forte dans la corrélation produit-moment de Pearson suggère un soutien
pour la validité concurrente
Validité convergente : Pour examiner si le même concept mesuré de différentes manières donne des résultats
similaires
• Estimer la relation entre les scores de l'échelle et des constructions similaires à l'aide d'une matrice multi-
méthodes à caractères multiples, de la modélisation de variables latentes ou du coefficient produit-
moment de Pearson; des coefficients de corrélation plus élevés / plus forts suggèrent un soutien pour la
validité convergente
Validité de construction
Discriminant validité : Pour examiner si le concept mesuré est différent d’un autre concept
• Estimer la relation entre les scores d'échelle et les constructions distinctes en utilisant une matrice multi-
méthodes à caractères multiples, une modélisation de variables latentes ou un coefficient de produit-
moment de Pearson; des coefficients de corrélation plus faibles / plus faibles suggèrent un soutien pour
la validité discriminante
Différenciation par « Groupes connus » : Pour examiner si le concept mesuré se comporte comme attendue par
rapport aux « groupes connus »
• Sélectionner des variables binaires connues basées sur des connaissances théoriques et empiriques et
déterminer la distribution des scores de l'échelle sur les groupes connus; utiliser des tests t si binaire,
ANOVA si plusieurs groupes
Corrélation une analyse : Pour déterminer la relation entre les mesures ou variables existantes et les scores
d'échelle nouvellement développés
• Corréler les scores de l'échelle et les mesures existantes ou, de préférence, utiliser la régression linéaire,
le coefficient de corrélation intra-classe et l'analyse des écarts-types des différences entre les scores
Bien que l'analyse corrélationnelle soit fréquemment utilisée par plusieurs chercheurs, l'analyse de régression
bivariée est préférée à l'analyse corrélationnelle pour quantifier la validité.
L'analyse de régression entre les scores d'échelle et un indicateur du domaine examiné, présentent un certain
nombre d'avantages importants par rapport à l'analyse corrélationnelle :
• Analyse de régression quantifie l'association en unités significatives, facilitant le jugement de validité
• L'analyse de régression évite de confondre la validité avec la variation sous-jacente de l'échantillon et,
par conséquent, les résultats d'un échantillon sont plus applicables à d'autres échantillons dans lesquels la
variation sous-jacente peut différer.
• L'analyse de régression est préférée car le modèle de régression peut être utilisé pour examiner la validité
discriminante en ajoutant des mesures alternatives potentielles.
Prises ensemble, ces méthodes permettent d'évaluer la validité d'une échelle adaptée ou nouvellement
développée.
En plus de la validité prédictive, des études existantes dans des domaines tels que la santé, les sciences sociales et
comportementales ont montré que la validité d'échelle est soutenue si au moins deux des différentes formes de
validité de construit discutées dans cette section ont été examinées.
55
Conclusion
Les contraintes de ressources, y compris le temps, l'argent, l'attention et la patience des participants, sont bien
réelles et doivent être reconnues comme des limites supplémentaires à un développement d'échelle rigoureux.
Nous ne pouvons pas dire quelles étapes sont les plus importantes
• Les décisions difficiles sur les étapes à aborder moins rigoureusement ne peuvent être prises que par
chaque développeur d'échelle, en fonction de l'objectif de la recherche, des utilisateurs finaux proposés
de l'échelle et des ressources disponibles.
Nous espérons cependant qu'en décrivant la forme générale des phases et des étapes du développement à l'échelle,
les chercheurs seront en mesure de choisir délibérément les étapes à inclure, plutôt que d'omettre une étape
par manque de connaissances.
Des échelles bien conçues sont à la base d'une grande partie de notre compréhension d'une gamme de phénomènes,
mais s'assurer que nous quantifions avec précision ce que nous prétendons mesurer n'est pas une mince affaire.
En rendant le développement à l'échelle plus accessible et plus transparent, nous espérons faciliter l'avancement
de notre compréhension d'une gamme de résultats sanitaires, sociaux et comportementaux.
Lecture obligatoire J. Billieux
Abstract
Méthodes et objectif : manière dont l'utilisation d'approches de recherche athéorique et confirmatoire peut aboutir
à l'identification d'une liste illimitée de «nouvelles» addictions comportementales.
Conclusions: Nous avons suggéré que les études surpathologisant les activités de la vie quotidienne sont
susceptibles de susciter une évaluation dédaigneuse de la recherche sur la dépendance comportementale.
Introduction
Doctorant qui ce centre uniquement sur son CV et ses publication : ce doctorant répond aux critères d'un nouveau
sous-type de bourreau de travail appelé « Recherche Addiction ».
• Pas pris en compte : vivre avec son père, exposé à des abus psychologiques, n’a jamais été en couple
à c’est complètement absurde or c’est présent dans beaucoup de recherches
La manière dont l'utilisation d'approches athéoriques et confirmatoires dans la compréhension des comportements
excessifs pourrait aboutir à l'identification de ces «nouvelles» addictions comportementales maladroites à
Comme nous l'expliquerons, nombre de ces construits résultants n'ont ni spécificité ni validité externe et clinique.
Addictions comportementales : une plaie de notre ère ?
Le domaine de la recherche sur la toxicomanie a approuvé le terme « dépendance comportementale », ce qui a

conduit à une augmentation florissante de publications
• En 2013, une étape majeure vers la reconnaissance des addictions comportementales comme diagnostics
psychiatriques a été franchie lorsque le « jeu pathologique », rebaptisé « trouble du jeu »,
o à comportements addictifs ( DSM-5)
• Des décennies de recherche empirique ont été menées avant que ce trouble ne soit officiellement reconnu
comme un trouble addictif dans le DSM-5, favorisé par une accumulation de données étayant des
similitudes avec la toxicomanie.
Exemple : altérations neurobiologiques similaires ont été observées dans les troubles liés au jeu et aux drogues.
Déficiences analogues dans les mécanismes cognitifs ont été identifiées, y compris un niveau élevé d'impulsivité,
un mauvais contrôle exécutif descendant, la myopie vers des résultats retardés des choix et une hypersensibilité
aux signaux liés à la dépendance
• Section 3 du DSM-5, « trouble du jeu sur Internet ».
56
Cette inclusion est discutable et peut-être prématurée, car plusieurs incohérences de classification dans les études
antérieures ainsi que de faibles preuves concernant son étiologie et son évolution. Plusieurs études
épidémiologiques et programmes de recherche ont été fait.
En partant du lien entre troubles du jeu et l’usage de substance à les chercheurs ont conceptualisé un large éventail
de comportements quotidiens comme de « nouvelles » dépendances comportementales potentielles.
Les exemples de conduites dysfonctionnelles souvent décrites comme des dépendances comportementales
comprennent l'hyper-sexualité, les achats compulsifs, la frénésie alimentaire, l'implication excessive au travail ou
l'exercice physique excessif
à l’implication excessive dans tout type d'activité puisse être considérée comme un trouble psychiatrique
à Ce phénomène est susceptible d'entraîner une surpathologisation sévère des comportements quotidiens.
Comment créer de nouveaux diagnostic basés sur des anciennes recettes ?
Le principe derrière la création de nouveaux diagnostics de dépendance comportementale est souvent assez simple
et suit principalement une approche athéorique et confirmatoire en trois étapes (exemple dans l’encadré).
1 Sur la base d'observations, le comportement visé est a priori considéré comme un comportement addictif
2 Des outils de dépistage sont développés selon les critères traditionnels de toxicomanie
3 Des études sont menées pour déterminer si les facteurs de risque connus pour jouer un rôle dans le
développement et le maintien de la toxicomanie sont associés au nouveau trouble addictif.
Exemple : engagement élevé dans le tango argentin considéré comme une dépendance comportementale.
1 être accro au tango
2 développer un questionnaire basé à la fois sur les critères du DSM-IV pour la dépendance aux substances
et sur les critères de Goodman (1990) pour les troubles de dépendance
3 établir les corrélats biopsychosociaux de la nouvelle addiction comportementale identifiée en s'appuyant
sur les preuves disponibles en matière de toxicomanie
Sans surprise, ces études ont presque systématiquement mis l'accent sur des relations modérées à fortes entre les
constructions ciblées (par exemple, les traits d'impulsivité) et la présence de symptômes de dépendance.
• Les items évaluant le construit ciblé étaient basés sur le cadre de la toxicomanie, il est évident que des
corrélations avec des facteurs de risque établis pour les troubles liés à la toxicomanie seront trouvées.
Cet exemple est fictif mais il existe des cas aussi malheureux que celui-ci dans la littérature.
• Block : la tolérance, dans le cadre de la dépendance à Internet, « se traduit par le besoin d'un meilleur
équipement informatique, de plus de logiciels ou de plus d'heures d'utilisation »
• Chóliz : la tolérance, dans le cadre de la dépendance à la téléphonie mobile
La mauvaise opérationnalisation de ces construits caractérise souvent la traduction de l'abus de

substances biomédicales en comportements excessifs.
Le problème intrinsèque d'une telle approche athéorique et confirmatoire est qu'elle manque de spécificité.
Ainsi, sur la base d'études quantitatives déductives, les nouvelles dépendances comportementales sont décrites,
ainsi que leurs critères diagnostiques et leur prévalence dans la communauté.
• De plus, ces études reposent souvent sur l'hypothèse que, comme la nouvelle catégorie qu'ils ont
développée ne concerne qu'une petite partie de l'ensemble de l'échantillon, elle identifie le désordre.
• Tous les troubles ne sont pas rares (par exemple, la dépendance à la nicotine), et inversement les
conditions les plus rares (HPI) ne sont pas des troubles
La plupart des études menées pour identifier de nouvelles addictions comportementales ne prennent pas en
compte deux facteurs qui sont à notre avis obligatoires pour définir un état pathologique :
• la déficience fonctionnelle (i.e. impact délétère significatif sur la vie quotidienne) et
• la stabilité du comportement dysfonctionnel
57
Syndromes VS Processus
Le « modèle de la toxicomanie » est aujourd'hui fréquemment appliqué aux comportements excessifs.

• Ce phénomène s'explique en grande partie par l'accumulation de preuves suggérant un
chevauchement entre les facteurs sociaux, psychologiques et neurobiologiques impliqués dans
l'étiologie des addictions aux substances et comportementales (3ème étape décrite)
La principale conséquence d'une telle approche : les personnes qui présentent des symptômes de dépendance
comportementale sont généralement traitées avec des interventions standardisées qui se sont avérées efficaces pour
les patients présentant des problèmes de toxicomanie.
• Cette approche est centrée sur le diagnostic et elle néglige les processus psychologiques (motivationnels,
affectifs, cognitifs, interpersonnels et sociaux) soutenant l'implication dysfonctionnelle dans un
comportement spécifique
Illustration : la fonction des jeux multijoueurs en ligne (MOG) est fondamentale pour comprendre leur utilisation
excessive.
Du coup identifier les différents motifs individuels (accomplissement de jeu, stratégie d’évitement, anxiété
sociale) qui animent le jeu en ligne est une condition nécessaire pour comprendre un usage dysfonctionnel et pour
l'élaboration d'interventions psychologiques adaptées
• chacun de ces sous-types nécessitera des interventions psychologiques distinctes et individualisées
À un niveau plus global, une décennie de recherche à la fois qualitative et empirique soutient que l'implication
problématique dans la MOG dépend d'une constellation de facteurs qui sont propres à cette activité et non
nécessairement pertinent lorsque l'on considère d'autres types de « dépendances à Internet »
• Souligner la nature multiforme et l'hétérogénéité de ces troubles trop souvent négligées au profit d'une
description symptomatique simpliste
Lecture obligatoire M. Van der Linden

Lettre adressée à Association américaine de psychiatrie APA et DSM-5
à faiblesse scientifique et danger du DSM-5
à lettre écrite par la Société pour une psychologie humaniste
à signé par plus de 15'000 personnes dans le monde
à par plus de 50 associations
Malgré cette mobilisation l’APA a décidé de publier le DSM-5 en mai 2013 sans prendre en compte les
problèmes mentionnées dans la lettre
Changements voulus :
• Révision de la définition du trouble mental parce qu’il y a une faible validité des catégories
diagnostiques défini par le DSM-5
Ce changement n’a pas été fait et cela accentue plusieurs problèmes et risques des versions précédentes
notamment :
• Une fidélité test-retest faible
• Nouvelles catégories diagnostiques avec une validité contestable
o Trouble dysphorique prémenstruel
o Trouble de dérégulation dit d’humeur explosive
o Trouble de symptômes somatiques
o Trouble neurocognitif léger
à psychiatrisation du vécu des personnes
Jeu pathologique
• Dans le DSM-4 : trouble du contrôle des impulsions, alors que dans le DSM-5 : trouble d’utilisation de
substance
• Première reconnaissance du concept de dépendance comportementale (Addiction) en tant qu’état
pathologique ou maladie.
• D’autres type d’addiction ont été décrit ce qui a conduit à une sur-pathologisation de la vie
quotidienne
o Addiction : au sexe, au travail, à l’exercice physique, au shopping, à l’attachement aux autres,
à l’utilisation d’internet, au bronzage, à la cartomancie, à la danse (au tango)
58
La conception essentialiste des difficultés psychologiques : caractérisation et limites
DSM-5 constitue l’émancipation la plus tangible d’une conception essentialiste et catégorielle des difficultés
psychologiques
• Les difficultés psychologiques sont traduites en catégories diagnostiques de troubles mentaux
lesquelles sont considérées comme ayant une essence
• Cette essence est partagées par tous les individus qui ont se trouble et par aucun ne l’ayant pas
Critiques
• Pas adaptée à la variabilité observée au sein d’une catégorie diagnostique
• Existence d’une très grande comorbidité
• Présence d’étiologies multiples
• Interactions probabilistes entre causes et conséquences
Elle néglige que la plupart des difficultés psychologiques qui se situent au sein d’un continuum incluent des
expériences normales.
à revue qualitative des recherches taxométriques portant sur 177 articles (Haslam, Holland et Kuppens, 2012)
concluent que la plupart des troubles psychopathologiques (troubles de l’humeur, anxieux, alimentaire, internalisé
et de personnalité) sont des troubles de nature dimensionnelle et non pas catégorielle
La conception essentialiste conduit à

• Favoriser les explications neurobiologiques, en omettant le contexte relationnel et les causes sociales
(pauvreté, chômage, etc.) des difficultés psychologiques
• Elle se focalise sur les maladies (en tant qu’entités latentes) plutôt que sur les symptômes, en négligeant
le fait que les symptômes peuvent être des entités causales autonomes
• Tend à adopter une perspective de causalité linéaire, allant des gènes au cerveau, puis au comportement,
en ne prenant ainsi pas en compte les interrelations réciproques entre ces niveaux
• Une pathologisation croissante de la population
Une illustration : l’approche essentialiste de la dépression
Le diagnostic d’épisode dépressif majeur selon le DSM-5, il faut (critère A) manifester au moins cinq symptômes
présents pendant deux semaines au minimum et qu’ils constituent un changement par rapport au
fonctionnement antérieur.
Ces cinq symptômes sont à identifier parmi les neuf symptômes suivants :
1. humeur dépressive ;
2. diminution marquée d’intérêt ou de plaisir ;
3. perte ou gain de poids/diminution ou augmentation de l’appétit ;
4. insomnie ou hypersomnie ;
5. agitation ou ralentissement psychomoteur ;
6. fatigue ou perte d’énergie ;
7. sentiment de dévalorisation ou de culpabilité excessive ou non appropriée ;
8. diminution de l’aptitude à penser ou à se concentrer ou indécision ;
9. pensées de mort récurrentes (idées suicidaires).
Un des symptômes (obligatoire pour le diagnostic) doit être une humeur dépressive ou une diminution d’intérêt ou
de plaisir.
Remarques
Certains des symptômes dépressifs repris dans ce critère regroupent en fait des dimensions symptomatiques
distinctes (perte de plaisir ou d’intérêt, fatigue ou perte d’énergie, sentiment de dévalorisation ou de culpabilité
excessive ou non appropriée), ainsi que des dimensions symptomatiques opposées (perte ou gain de
poids/diminution ou augmentation de l’appétit, insomnie ou hypersomnie, agitation ou ralentissement
psychomoteur).
Le fait d’attribuer un diagnostic d’épisode dépressif majeur à une personne qui présente au moins 5 symptômes
dépressifs pendant deux semaines au minimum participe à la pathologisation croissante du fonctionnement
psychologique.
59
Le DSM-5 a retiré le deuil en tant que critère d’exclusion de l’épisode dépressif majeur et, ce faisant, a
transformé le chagrin normal en trouble dépressif
• en ne prenant pas en compte le contexte dans lequel les manifestations dépressives apparaissent, le DSM
tend à pathologiser ce qui est le plus souvent une réaction normale à des situations personnelles et sociales
difficiles.
La perspective essentialiste considère la dépression comme une catégorie distincte de maladie

• les symptômes comme indicateurs observables de l’entité latente qu’est la dépression.
• symptômes sont équivalents et interchangeables et qu’ils sont considérés comme non corrélés ou
localement indépendants
• dans le dépistage : ce qui est pris en compte est la quantité et non pas la nature des symptômes (score
seuil)
Problèmes
• données taxométriques et psychométriques indiquent que la dépression pas une catégorie discrète, mais
doit plutôt être envisagée comme une dimension
• l’importante comorbidité de la dépression avec d’autres types de troubles, tels que le trouble d’anxiété
généralisée et l’état de stress post-traumatique
• hétérogénéité des diagnostiques : les critères diagnostiques de la dépression selon le DSM-5 peuvent
produire un nombre considérable de combinaisons de symptômes, conduisant toutes au même diagnostic
de dépression (227 façons d’obtenir le diagnostic)
o le profil le plus courant étant observé par seulement 2 % des personnes
o environ 14 % des personnes présentaient des profils uniques, non partagés par une seule autre
personne.
En réalité
• les différents symptômes de la dépression ne sont pas équivalents et interchangeables
• L’influence de différents facteurs de risque variait significativement selon les symptômes individuels de
la dépression majeure.
• les symptômes de la dépression majeure variaient fortement, et de façon spécifique, dans leur relation
avec la perturbation du fonctionnement psychosocial (symptômes en lien avec différents domaines
: affectif, cognitif, somatique, motivationnel)
• Nécessité de dissocier les dimensions symptomatiques opposées
• la majorité des symptômes varient dans leur influence selon les domaines (travail, relation …)
• la présence des différents symptômes dépressifs variait en fonction du type d’événements de vie négatifs
auquel était confrontée la personne.
Pour résumer : la très importante hétérogénéité des manifestations symptomatiques de la dépression et des
relations qu’entretiennent les symptômes dépressifs individuels avec différents facteurs de risque et diverses
perturbations du fonctionnement psychosocial permet de mieux comprendre pourquoi des marqueurs
biologiques spécifiques de la dépression n’ont pas pu être identifiés et pourquoi les antidépresseurs n’ont qu’une
efficacité marginale par rapport au placebo
L’absence de différence significative entre

• l’efficacité́ des psychothérapies
• celle des antidépresseurs
• celle des thérapies alternatives
• des interventions de contrôle actives
Le type de traitement offert est moins important que le fait d’impliquer les personnes dans un programme
d’intervention active
60
Une autre approche des difficultés psychologiques
Les limites de l’approche essentialiste, Kendler et al. (2011) ont suggéré d’adopter une approche Mechanistic
Property Cluster (MCP)
• les problèmes psychopathologiques sont définis, non pas en termes d’essence, mais en termes de réseaux
complexes de mécanismes causaux se renforçant mutuellement.
Les types de troubles ainsi définis ont :

• des frontières floues
• sont hétérogènes
• les mécanismes impliqués correspondent à des niveaux différents (biologique, psychologique,
environnemental, socio-culturel)
• les symptômes eux-mêmes pouvant interagir entre eux et se renforcer l’un l’autre
Les individus ayant un type particulier de problème psychopathologique se ressemblent parce que les mécanismes
causaux induisent, de façon régulière, la co-occurrence de certaines caractéristiques ou propriétés (un
cluster)
à Cependant, certains clusters peuvent partager des propriétés
Les relations entre des mécanismes causaux et les symptômes ont souvent un caractère probabiliste à autrement
dit, des mécanismes causaux peuvent simplement changer le risque ou la probabilité qu’un symptôme ou un
ensemble de symptômes apparaisse
• Le même ensemble de symptômes peut provenir de mécanismes étiologiques différents.
Une approche du type MCP devrait conduire à de nouvelles propositions de classification des troubles.
Limites :
• le nombre potentiellement important de mécanismes impliques,
• leur chevauchement
• leurs interactions font qu’un appariement simple et unique entre mécanismes et diagnostic s’avèrera
vraisemblablement impossible
Borsboom et ses collaborateurs

• concevoir les troubles psychopathologiques, non pas comme des entités latentes qui causeraient un certain
nombre de symptômes, mais plutôt comme des patterns d’interactions dynamiques entre des
symptômes
• La question n’est donc plus d’avoir ou de ne pas avoir un trouble dépressif majeur (une maladie
depressive)
• Envisager l’épisode dépressif majeur comme un réseau de symptômes causalement reliés
• Chez une personne, ces symptômes peuvent, à tout moment, être activés ou inactivés (on ou off)
o à si le symptôme A est activé il augmentera la probabilité que le B le soi
Exemple, la chaîne suivante : évènement négatif (par exemple, rupture amoureuse) à humeur négative à
sentiment de culpabilité à insomnie à fatigue à problèmes de concentration.
Ces réseaux de symptômes sont par nature transdiagnostiques, dans la mesure où les troubles (considérés
comme des clusters de caractéristiques ou de propriétés co-occurrentes) peuvent partager des symptômes ou
« partager des symptômes avec des troubles qui partagent des symptômes avec des troubles qui... »
En reprenant l’exemple fourni par Borsboom et al., l’insomnie est un symptôme commun à la dépression majeure
et au trouble d’anxiété généralisée et il peut être provoqué par un sentiment de culpabilité (symptôme de la
dépression) ou par une anxiété chronique (symptôme du trouble d’anxiété généralisée). Par ailleurs, l’insomnie
peut à son tour influencer l’humeur depressive (symptôme de la dépression) ou l’irritabilité (symptôme de l’anxiété
généralisée).
Ainsi, l’insomnie établit un pont entre les deux troubles et, trouvant son origine chez la personne elle-même,
elle constitue un facteur transdiagnostique interne. En revanche, la rupture amoureuse représente un facteur
transdiagnostique externe.
• Cette approche en réseau permet aussi de rendre compte des importantes différences individuelles
dans l’expression symptomatique.
61
Remarque : En fonction de différences dans les forces de connexion entre symptômes, les réseaux de deux
personnes peuvent réagir différemment au même évènement négatif, avec une probabilité différente que
certains symptômes soient activés.
En même temps, on peut également s’attendre à une comorbidité importante, du fait de la propagation
d’activation au sein du réseau via des symptômes-ponts et des facteurs transdiagnostiques.
Les connexions les plus fortes sont uniformément positives, c’est-à-dire que, en général, quand la gravité d’un
symptôme change, les autres symptômes changent dans la même direction.
• analyses de centralité permettant de déterminer l’importance ou l’influence d’un symptôme dans
l’acheminement de l’information au sein du réseau
• certains symptômes ont une influence plus grande sur la propagation symptomatique que d’autres
• il est nécessaire de ne pas se limiter à l’évaluation des symptômes dépressifs de type DSM, lesquels ont
été établis davantage pour des raisons historiques qu’empiriques
Résumé
Au plan clinique, il s’agirait de déterminer la centralité symptomatique individuelle, à savoir identifier, pour une
personne donnée, quel symptôme a l’influence la plus importante, ce qui conduirait à en faire la cible prioritaire
d’une intervention.
Notons que les apports d’une approche en réseaux de symptômes ont été envisagés pour d’autres types de troubles
que la dépression et, en particulier, pour l’état de stress post-traumatique et le deuil complexe persistant.
Conclusion
Une conception plurielle, intégrative et individualisée de l’évaluation et de l’intervention psychologiques

• nécessaire de revoir profondément la manière dont la souffrance et les difficultés psychologiques sont
envisagées
• elles se situent au sein d’un continuum incluant des expériences normales, certaines expériences
devenant problématiques du fait de leur caractère extrême, de leur fréquence ou de leur persistance.
• Les facteurs qui sont la cause de ces difficultés psychologiques comportent le plus souvent des
dimensions sociales et circonstancielles, telles que la pauvreté, le chômage ou encore des expériences
traumatisantes
• D’autres facteurs (en particulier, génétiques et développementaux) peuvent influer sur la façon dont une
personne réagit aux défis auxquels elle est confrontée.
En gros : arrêter de concevoir la souffrance et les difficultés psychologiques comme les symptômes d’une
maladie et il faut donc s’affranchir des diagnostics catégoriels du type DSM.
• Une description détaillée et rigoureuse des expériences, problèmes, symptômes ou plaintes spécifiques
des personnes constitue une alternative scientifiquement plus valide et suffisante pour servir de base à
une planification des interventions et à la communication avec la personne qui consulte et avec d’autres
professionnels
à établir une liste n’est pas suffisant !!!
Il s’agit aussi d’en comprendre la nature et cela passe, pour les psychologues clinicien(ne)s, par le
développement d’une formulation psychologique qui tentera de décrire pourquoi une personne présente certaines
difficultés et ce, en se référant à des théories psychologiques empiriquement fondées.
Il s’agira également d’identifier le réseau de relations que peuvent entretenir ces difficultés et de déterminer les
symptômes caractérisés par un haut niveau de centralité au sein de ce réseau.
Kinderman (2005, 2014) a présenté un cadre théorique général, un modèle des processus psychologiques
médiateurs
• Les processus psychologiques sont conçus comme des médiateurs de la relation entre, d’une part, les
facteurs biologiques, sociaux et circonstanciels, et d’autre part, les problèmes psychologiques
• la précarité sociale et des expériences traumatiques et de maltraitance constituaient de forts prédicteurs
de niveaux élevé d’anxiété et de dépression
• l’anxiété et la dépression entaient associées à la présence d’évènements négatifs de vie, avec un effet
médiateur de la rumination
Comme le relèvent d’ailleurs Kinderman et ses collaborateurs, l’élaboration d’un plan d’intervention doit
bien entendu être dictée par une formulation psychologique individuelle.
62
La formulation d’une interprétation psychologique individuelle doit prendre en compte :
• la co-occurrence de difficultés différentes
• leur caractère multifactoriel et
• l’hétérogénéité des mécanismes qui les sous-tendent.
Il s’agit dès lors d’examiner différents types de processus psychologiques (cognitifs, affectifs, motivationnels,
relationnels, identitaires) et de tenter de les intégrer dans une interprétation cohérente, conduisant aussi à
l’identification, autant que possible, du rôle des facteurs biologiques, sociaux et circonstanciels.
Une telle approche, centrée sur la personne, permet d’aborder la dynamique du fonctionnement psychologique
dans toute sa complexité́ et dans son expression unique.
Elle s’inscrit également aisément dans une approche transdiagnostique selon laquelle certains processus sont
partagés par plusieurs types de difficultés psychologiques.
Les interventions psychologiques doivent être taillées sur mesure en fonction des problèmes spécifiques de la
personne : des interventions à plusieurs facettes complémentaires, focalisées sur différents processus
psychologiques (voir Van der Linden, Ceschi & Billieux, 2015).
Parallèlement, des interventions doivent également être envisagées au niveau social, afin d’améliorer les
conditions de vie (précarité, isolement, chômage, maltraitance, etc.) des personnes qui consultent, ainsi qu’au
niveau médical.
• Cette approche conduit à envisager autrement les structures de santé mentale, avec notamment la mise en
place d’équipes multidisciplinaires
• Pour les personnes en crise, des structures résidentielles peuvent s’avérer nécessaires, mais elles devraient
être articulées autour d’une perspective psychosociale et non médicale.
63

Tests Et Méthodes Résumé

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tests Et Méthodes Résumé

Transféré par

Droits d'auteur :

Formats disponibles

Année Académique

Table des matières

Module 2 : Concepts clés en Psychométrie ...................................................................12

Module 4 : Les diagnostiques psychopathologiques ...................................................42

Lecture obligatoire G. Boateng ........................................................................................51

Lecture obligatoire J. Billieux ...........................................................................................56

Définitions et concepts de base

Psychométrie : hypothèses de base

Psychométrie : Objectifs centraux (Bernaud, 2014)

A. Comprendre le fonctionnement psychologique, élaborer / vérifier des théories

B. Réduire l’erreur d’appréciation d’un phénomène psychologique

C. Aider au développement des personnes (contexte professionnel, scolaire, clinique, etc.)

D. Faciliter la communication entre professionnels et bénéficiaires

Cinq principes de la Psychométrie (Bernaud, 2014)

A. L’équité entre répondants

B. L’approche quantitative de l’examen psychologique

D. La qualité de la mesure comme critère fondamental

E. Des instruments et méthodes d’évaluation variés

Qu’est-ce qu’une méthode d’évaluation ou un « test » ?

Test : 5 points communs à toutes les définitions

Mesurer des construit latents

Principe : distinguer items vs construits

Mesure réflective (approche classique en psychométrie)

Utilisation et utilisateurs des tests

2. La mise en place : 1840 – 1880

3. L’enracinement : 1880 – 1915

4. L’essor : 1915 – 1940

5. La consolidation : 1940 – 1965

6. Le passé récent : 1965 – 2000

7. Période actuelle : dès 2000

Sources principales du développement de la Psychométrie actuelle

Règles d’utilisation des tests

2. Le psychologue ne diffuse pas le contenu des tests

6. Le rapport psychométrique - rapport d'évaluation

1. Les objectifs du test sont peu ou pas clairs pour le psychologue

Rapport psychométrique (selon Wolber & Carne, 2002)

Le rapport psychométrique doit contenir

Codes, standards, directives

Questionnaires d’auto-évaluation (mais aussi hétéro-évaluation)

Types de tests projectifs

IMPORTANT !!! Informations importantes concernant le Test du Rorschach

Récits – exemple : Souvenir définissant le soi

vivaces (comportent beaucoup de détails sensori-perceptifs)

haute intensité émotionnelle

haut niveau de récapitulation (ils sont fréquemment récupérés), par ex:

lien avec des souvenirs similaires

événement datant d’au moins un an

Techniques d’échantillonnage : quelques définitions

Population parente (ou de référence)

Comment définir un modèle de la population parente ?

Techniques d’échantillonnage : Méthodes Probabilistes

Échantillonnage probabiliste stricte

• Tirage systématique : Le principe de cette méthode implique

L'échantillonnage en grappe permet de s’affranchir des difficultés de mise en œuvre de la technique

Échantillonnage par grappe à plusieurs degrés

Suppose d’avoir une

Techniques d’échantillonnage : Méthodes non-probabilistes

Échantillonnage par quotas

L'objectif est d'assurer la représentativité de l'échantillon en conformant la structure de l'échantillon aux

Méthode proche de la méthode par stratification, mais sans hasard

Exemples d'échantillonnages non-probabilistes

Scores brutes et données normatives

Normes à transformations des scores bruts

Forme de la distribution : Asymétrie