Académique Documents
Professionnel Documents
Culture Documents
2021 / 2022
Prof. Joël Billieux PhD.
2
Module 3 : Développement et Adaptation de questionnaires ...................................34
Les étapes de développement d’un test .................................................................................................. 34
Étape 1 : Déterminer l’utilisation du test / questionnaire ....................................................................................................................... 34
Étape 2 : Définir ce que l’on souhaite évaluer ......................................................................................................................................... 34
Étape 3 : Créer les items .......................................................................................................................................................................... 35
Étape 4 : Évaluation des items................................................................................................................................................................. 35
Étape 5 : Déterminer les propriétés (psycho)métriques du test / questionnaire...................................................................................... 36
Versions courtes de tests existants – Checklist de points à considérer..................................................................................................... 36
Illustration de développement de questionnaires sur le Binge-Watching .................................... 37
Étude qualitative ...................................................................................................................................................................................... 38
Étude de validation .................................................................................................................................................................................. 38
Étude Cross-Culturelle ............................................................................................................................................................................ 40
3
Lecture obligatoire M. Van der Linden ..........................................................................58
La conception essentialiste des difficultés psychologiques : caractérisation et limites ............................................................................. 59
Une illustration : l’approche essentialiste de la dépression ...................................................................................................................... 59
Une autre approche des difficultés psychologiques ................................................................................................................................. 61
Conclusion ............................................................................................................................................................................................... 62
4
Module 1 : Introduction à l’évaluation et à la psychométrie
Pas une finalité en soi, mais plutôt un outil au service des psychologues !!!!
Les traits ou caractéristique stables que quantifient les tests ont des liens importants avec le
comportement dans des situations réelles (important pour le praticien !)
5
C. Un cadre théorique : les modèles de la psychologie différentielle
• La psychologie différentielle a développé des cadres référentiels permettant de rendre compte des
différences individuelles dans différents domaines : fonctionnement cognitif (y compris
intelligence), intérêt, tempérament, et personnalité
• Psychologie différentielle : modèles théoriques descriptifs des différences individuelles vs.
Psychométrie : développement de mesures fiables permettant d’évaluer les différences individuelles
Définition de « test »
• « Instrument ou processus d’évaluation dans lequel un échantillon de comportement d’un candidat dans
un domaine donné est obtenu et subséquemment évalué et corrigé selon un processus standardisé »
IMPORTANT !!!! « L'hypothèse scientifique par défaut est qu'on ne sait mesurer aucune grandeur psychologique
(...). Les tests psychologiques ne sont pas des instruments de mesure, mais des instruments d'observation
et/ou d'évaluation » (Vautier, 2017)
6
Bref historique de l’évolution de la psychométrie
1. Le passé lointain : 1840
a. La psychologie tire son origine de la philosophie.
b. Antiquité, Moyen âge, Renaissance : peu d’intérêt pour les différences individuelles
c. Fin de la renaissance : préoccupation du fonctionnement de l’esprit humain
7
Utilisation des tests, éthique, et déontologie
Les tests en psychologie servent à donner des éléments de réponse à des questions précises posées par le
psychologue lui-même, une institution, un patient, etc. De plus ils aident à apprécier les forces, les faiblesses, et
les particularités des comportements de l’individu tout en tenant compte du fait que les outils d’évaluation sont
imparfaits : par exemple certains manuels de test ne comportent pas toutes les données psychométriques utiles
pour s’assurer de leurs qualités ou encore certains tests disponibles en libre accès, commerciaux, ne sont pas
forcément adéquat d’un point de vue psychométrique (sensible, valide et fidèle) !!! Une bonne connaissance des
méthodes de construction des tests est donc nécessaire.
Standardisation
La standardisation des tests est essentielle et constitue un prérequis de leur interprétation et comparaison.
• Objectif : différences entre les scores observés habituellement et les scores observés lors de la passation
du test ne sont pas la conséquence de variations de la situation.
Un Test standardisé c’est un test dans lequel les items/tâches ou questions, les conditions d’administration,
l’édition, la notation et l’interprétation des résultats s’appliquent de façon cohérente et prédéterminée pour toutes
les personnes évaluées. Respecter la standardisation permet de minimiser les biais que pourrait introduire
l’observateur.
Un « manuel de test » doit être disponible pour pouvoir sélectionner et administrer un test. Ce manuel doit à
minima préciser :
• Les objectifs généraux du test
• Le référentiel théorique des concepts utilisés
• Les grandes étapes et les justifications ayant conduit à sélectionner les questions constitutives de l'épreuve
• Les consignes précises de passation et de cotation (indispensable pour une bonne standardisation)
• Les données permettant d'apprécier les qualités psychométriques de l'instrument
• La définition de la population de référence (ou des populations de référence) et la méthode
d'échantillonnage
• Les qualités métrologiques : sensibilité, fidélité(s), validité (travaux de validation)
• La (les) table(s) d'étalonnage ou les règles de transformation des scores bruts en scores étalonné
• La date de publication des normes d'étalonnage
• Éventuellement des exemples d’utilisation clinique quand l'épreuve s'y prête
1. Dans l'exercice de sa profession, le psychologue doit tenir compte des principes scientifiques généralement
reconnus en psychologie
3. Le test n'est pas une fin en soi, mais un outil standardisé qui complète, éclaire des données recueillies sur la
personne. Il s'inscrit généralement dans une démarche hypothético-déductive
4. Le psychologue ne doit pas remettre à autrui les données brutes et non interprétées inhérentes à une
consultation psychologique
5. Le psychologue doit éviter toute possibilité de fausse interprétation ou d'emploi erroné des
informations qu'il transmet à autrui
a. Psychologue doit rédiger des comptes rendus qui dans leurs formes doivent s’adapter aux
destinataires
b. Lors d’un bilan, la personne concernée doit toujours avoir une restitution du bilan (orale et écrite).
Cette restitution doit être expliquée et discutée, s’assurer que la personne a compris
8
Quand ne pas utiliser un test ?
Nombreuses chartes, directives reprenant ces principes. Voir par exemple texte de référence proposé par la
commission internationale des tests : https://www.intestcom.org/files/guideline_test_use.pdf
Code de déontologie
Déontologie = ensemble de règles ou devoirs régissant la conduite à tenir pour les membres d'une profession
(cadrée ou non) par la loi.
En psychologie : premiers codes de déontologie élaborés par les organisations professionnelles des psychologues
(années 50). En Europe, les codes s'inspirent de la charte européenne de déontologie votée le 5 novembre 1994 à
Malte et du métacode de la Fédération Européenne des Associations de Psychologie (EFPA) adopté le 1 juillet
1985 à Athènes
• Un psychologue doit respecter le code de déontologie de son pays mais aussi connaître des règles de
conduite comme celles proposées pour l'usage des tests par la commission internationale des tests
(International Test Commission)
Il ne faut pas négliger les aspects socio-culturel, éthiques et déontologiques car un questionnaire (ou test) est par
essence empreint du contexte social, politique, économique et culturel dans lequel il a été élaboré. Un questionnaire
peut aussi devenir obsolète, et il n’est pas forcément transposable d’un contexte (social / culturel) à un autre.
9
Classification des méthodes d’évaluation
Tests de performances
• « Aptitudes » cognitives : mémoire, fonctions exécutives, raisonnement, etc.
• Aptitudes psychomotrices, physiques et sensorielles
• Tests de connaissances
• Tests de jugement situationnels
Avantage
• Pas (ou moins) influencées par les biais de désirabilité sociale
• Pas influencé par les problèmes d’anosognosie (par ex. tâches de mémoire) ou de dénis
Limites
• Validité écologique pas toujours élevée
• Peu de données normatives
• Nécessitent une formation à la passation et des conditions d’administration rigoureuses
• Leur analyse requiert parfois des compétences techniques et/ou du logiciel informatique
• Influence de la motivation, fatigue, stress, etc.
• Pas toujours facilement implémentable dans les cabinets de consultation
• A l’exception des tests projectifs et neuropsychologiques, davantage utilisés en recherche qu’en clinique
Limites
• Propriétés psychométriques
• Données normatives (trop) souvent lacunaires et/ou inappropriées
• Sources de Biais de mesure (désirabilité sociale, introspection, dénis, etc.)
• Pas adapté à toutes les populations / personnes / clients (handicap, langage, etc.)
Méthodes d’observation
• Évaluer des conduites dans un environnement naturel (évaluation écologique)
• Aspects de standardisations
o Dispositif rigoureusement défini
o Définir des unités élémentaires permettant d’enregistrer certains aspects du comportement
o Système de synthèse de l’information
o Vérifier la justification du modèle construit, notamment par l’étude de la fidélité inter-
observateurs et de la validité des observations traitées
• Auto-évaluation (self-monitoring) ou hétéro-évaluation
Tests implicites
• Performances basées sur des comportements qui ne sont pas perçus par les individus comme l’expression
du construit examiné ou qui ne peuvent pas être contrôlés par la personne
Avantages
• Évaluer des processus qui ne sont pas consciemment accessibles
• Ne peuvent pas être déformés par des stratégies de réponse comme la désirabilité sociale
10
Autres (tests projectifs, récits, etc.)
reflètent les buts, préoccupations ou conflits non résolus qui sont centraux dans la vie
d’un individu
Lardi, C., & Van der Linden, M. (2012). Les souvenirs définissant le soi: Les liens entre la mémoire des événements personnels et l’identité.
In S. Brédart et M. Van der Linden (eds.), Identité et Cognition: Apports de la psychologie et de la neuroscience cognitives.
Bruxelles: De Boeck
11
Module 2 : Concepts clés en Psychométrie
Échantillon
• Groupe d’individus représentatif de la population (population parente) pour la mesure effectuée
• Si l'échantillonnage est réalisé correctement, les résultats observés sur cet échantillon sont supposés
similaires à ceux que l'on observerait dans la population parente.
Échantillon normatif
• Échantillon permettant d’étalonner un test (créer des normes)
Lors de la construction d’un test on va extraire un ou plusieurs échantillons représentatifs (échantillonnage) pour :
• Développer le test / questionnaire
• Étudier ses qualités métrologiques
• Réaliser l’étalonnage (= développer des normes)
La méthode probabiliste stricte (i.e. totalement aléatoire) peut-être mise en œuvre de deux manières : par tirage
simple au hasard vs. par tirage systématique.
• Tirage simple au hasard (tirage au sort sans remise) : pour sélectionner le groupe représentatif de la
population parente, on tire au sort chaque individu
o Contrainte: toutes les personnes de la population de référence doivent avoir la même probabilité
d'être sélectionnées (méthode coûteuse lorsque la population parente est très importante)
12
Échantillonnage par Stratification
Cette méthode nécessite d'avoir des informations sur chaque individu (par exemple : sexe, âge, profession, etc.) et
la fréquence de ces données dans la population de référence (population parente).
• On reproduit dans l'échantillon les caractéristiques de la population de référence, en tirant au hasard les
individus non plus dans la population globale mais dans des strates (sous-groupes) définies par les
variables retenues pour caractériser la population
On peut stratifier un échantillon sur plusieurs caractères considérés conjointement (p.ex., sexe, revenu et habitat)
• Les personnes sont ensuite tirées au hasard à l'intérieur des strates prédéfinies
à Augmente la représentativité de l’échantillon !!!!
Remarques
• Avec cette méthode, on a autant de tirage simple au hasard que de strates
• Cette méthode présente un intérêt si le critère de stratification est en relation avec l'objet d'étude
• Cette méthode est toujours une méthode probabiliste. Chaque individu de la population parente possède
la même probabilité de faire partie de l'échantillon. Elle nécessite toujours une liste exhaustive de la
population parente
• Si les variables à la base des strates sont bien choisies, cette méthode permet de diminuer les risques de
biais d'échantillonnage (donc permet en principe, pour le même risque d'erreur, de diminuer la taille de
l'échantillon). La qualité des strates détermine en partie la représentativité de l'échantillon
Échantillonnage en grappe
13
La base de sondage est un fichier comprenant l'ensemble de la population
étudiée lors d'une enquête quantitative et au sein duquel est prélevé par
tirage au sort les individus interrogés (échantillon).
Les non-réponses (= la personne sélectionnée ne répond pas)
Méthodes probabilistes engendrent un taux de non-réponses pouvant être important
• ≠ méthode des quotas et la plupart des méthodes non probabilistes
Le taux de non-réponses peut introduire un biais d'échantillonnage si les caractéristiques des répondants et des
non-répondants diffèrent et que cette différence a un impact sur la mesure examinée
• Toujours indiquer le taux des non-réponses dans un échantillonnage probabiliste
Étapes
1. Construire un modèle de la population parente : on décrit la population à partir de variables supposées être en
relation avec l'objet de mesure
2. Décider quelles sont les variables traitées comme des variables simples ou croisées
3. On cherche des statistiques concernant ces variables simples ou croisées (fréquence dans la population parente
de l’échantillon que l’on veut constituer)
4. Fixer le nombre des personnes à interroger et déterminer les quotas de façon à ce que les proportions observées
dans la population de référence soient respectées dans l’échantillon
5. La difficulté pour les enquêteurs est qu'au fur et à mesure de l’étude, la personne à trouver risque d'avoir des
caractéristiques très spécifiques
Contraintes
• On doit connaître les caractéristiques de la population parente (mais on n'a pas besoin d'une liste
exhaustive des individus constituant cette population). Le plus souvent ces caractéristiques peuvent être
données par les organismes nationaux de statistiques
• La difficulté pour trouver des individus participant à l'échantillon augmente au fur et à mesure que l'on
avance dans la construction de l'échantillon. Les dernières personnes à interroger sont parfois très
difficiles à trouver si l'on veut respecter les caractéristiques de la structure de la population parente.
Avantages
• Cette méthode présente l'avantage d'être souvent plus rapide et moins coûteuse (aussi en temps, énergie,
etc.) que les méthodes probabilistes.
• Pas de non-réponses. Lorsqu'une personne ne veut pas participer, on en cherche une autre !
• Remarque : Les psychologues utilisent souvent la méthode des quotas lors de la construction de tests
d’intelligence et d’aptitudes (e.g., échelle d’intelligence de Wechsler)
14
Autres méthodes non-probabilistes (en dehors de la méthode par quotas)
Ces méthodes peuvent induire des biais plus ou moins importants dans la représentativité de l'échantillon !!!
Rappel statistique
• Kurtosis : Si l’indice d’aplatissement (voussure) se situe entre -7 et + 7 (parfois entre -10 et +10)
à pas de forte déviation par rapport à une distribution normale
15
Variance
En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon
ou d'une distribution de probabilité.
• Écart-type = Racine carrée de la variance
• La variance est un indice de dispersion qui s’exprime en unités au carré
• On préfère donc l’écart-type qui exprime la dispersion dans le même système d’unités que la moyenne
Proportion des membres du groupe de référence qui se situe sous et/ou est égale à un score donné
• Si un score brut de 55 se trouve à un rang percentile de 66, alors 66% des membres du groupe de référence
ont obtenu un score égal ou inférieur à 55.
Avantage
• Notion simple, facile à comprendre
Désavantage
• Inégalités des intervalles aux divers points de l’échelle: les rangs percentiles se regroupent au centre et
s’étalent aux deux extrémités de la distribution
IMPORTANT !!! : l’écart entre le Pc 50 et 60 n’est pas égal à l’écart entre le Pc 80 et 90. Il est donc difficile de
comparer les sujets entre eux. Les percentiles ne nous renseignent que sur le rang d’une personne, mais par
sur l’écart qui la sépare des autres personnes.
Un système de score pondéré est une conversion des scores en un nouveau système comportant une moyenne et
un écart-type choisis de manière arbitraire.
• Transformations le plus souvent linéaires (fréquemment utilisés en psychologie)
Joue un rôle crucial dans l’élaboration de certaines normes de tests / questionnaires
Aussi utile pour comparer des scores n’utilisant pas les mêmes métriques
La table de la distribution normale nous permet de calculer des valeurs très utiles
• 68.26% des scores sont inclus dans l’intervalle [-1 ET; +1 ET]
• 95.44% des scores sont inclus dans l’intervalle [-2 ET; + 2 ET]
• 99.74% des scores sont inclus dans l’intervalle [-3 ET; +3 ET] 29
16
Score pondéré : le score T
Largement utilisé pour les tests de la personnalité et d’autres types de tests comme le MMPI
• ATTENTION : A ne pas confondre avec le test statistique t de Student (t « minuscule »)
• Score pondéré où Moyenne (M) = 50 et Écart-type (ET) = 10
• Score T = (Z*10) + 50
• Étendue effective allant de 20 (Z = -3) à 80 (Z = +3)
QI standard ou de déviation
• M = 100 ; ET = 15
Note Standard
• M = 10 ; ET = 3
• Sous-tâches des échelles de Wechsler
Stanines
• M = 5 ; ET = 2
• Utilisés fréquemment dans des tests de rendement scolaire
• Distribution divisée en 9 intervalles couvrant des distances égales sur le niveau de référence de la courbe
normale, sauf à chaque extrémité de la distribution (intervalles 1 et 9)
17
Types de normes : Normes de développement
Avantage
• Facilitent la compréhension (éviter le jargon)
Rapports narratifs dans le cadre du rapport psychométrique
• « Un élève de 4ème année lit comme un élève de 8ème année »
Limites
• Ne s’appliquent qu’aux variables qui affichent des modes de développement clairs (≠ traits de
n renvoie souvent le score au groupe de référence: «Comparativement
personnalité)
• Même les variables qui affichent un niveau de développement ne poursuivent pas continuellement leur
ux autres garçons de son âge et de son niveau scolaire, Joël se situe au
croissance
• Écarts-types non contrôlés (souvent augmentent avec l’âge)
40 pour ce qui est des aptitudes mathématiques, ce qui est
• Équivalent de niveau scolaire : un enfant de 4ème obtient un équivalent de niveau scolaire de 6.5, non pas
en connaissant la même matière qu’un élève type de 6ème, mais en répondant parfaitement aux items de
gèrement au dessous de la moyenne des jeunes de son âge».
2ème, 3ème et 4ème année.
10 %
1.65
50
18
Scores seuils, sensibilité, spécificité
Scores seuil / Cut-off
Les normes sont utiles pour comparer les performances d’un individu à une population de référence [tests normés].
On peut aussi comparer les performances d’un individu par rapport à un niveau de performance ou score souhaité
[tests critériés].
• Score seuil = score permettant de classer les individus qui atteignent le niveau souhaité VS qui ne
l’atteignent pas [e.g., performance cognitive, critères diagnostiques]
o Pour un même test, on peut fixer plusieurs scores seuils
IMPORTANT !!! Au plan diagnostique, un score seuil bien défini doit permettre de :
• Identifier un maximum de personnes ayant réellement le problème X (« vrais positif s»)
• Réduire au minimum le risque de négliger des personnes ayant le problème X (« faux négatifs »)
• Réduire au minimum le risque de diagnostiquer des personnes n’ayant pas le problème X
(« faux positifs ») = surpathologisation
Dans ce type de méthode, plusieurs juges analysent le contenu des items, puis décident du niveau de performance
suffisant définissant la réussite du test.
moyenne des scores probables entre chaque juge ( 3 = valeur seuil du test)
12
19
Méthode d’Ebel Très
Important
Important Peu
Important
• Plus complexe car on demande aux juges de prendre en compte la pertinence et la Difficile
Moyen
80%
90%
70%
80%
40%
50%
• Chaque question / item est placé dans une des cases du tableau de • Chaque question / item est placé dans une des cases du tableau de référence
• Chaque juge évalue la proportion de chaque case devant être atteint pour
• Chaque juge évalue la proportion de chaque case devant être atteint pour (par exemple si 4 questions sont dans la case «Difficile / Très important», le
calcul donne 4 X 0.8 = 3,2)
que la compétence minimale soit atteinte • La somme de ces multiplications donne le score seuil
16
• La somme de ces multiplications donne le score seuil Dans cet exemple, si un sujet possède une
compétence minimale, il devrait obtenir au moins 29
• Calculer la moyenne des scores seuils des différents juges réponses justes (sur 36) pour passer le test
( 29 = valeur seuil du test)
17
Ces méthodes visent à réduire la subjectivité dans la définition du score seuil en utilisant des données empiriques,
en l’occurrence les résultats recueillis avec le test sur un échantillon de sujets.
participants en deux
étents versus non
• Les juges classent les participants en deux groupes (jugés compétents versus non compétents)
• Les deux groupes passent le test
sent le test
ique des
ux groupes
n des deux courbes
• Représentation graphique des performances des deux groupes
euil
négatifs (personnes
• Le point d’intersection des deux courbes représente la valeur seuil
nt le test) et les faux
compétentes et
• On minimise les faux négatifs (personnes compétentes échouant le test) et les faux positifs
Faux positifs
Faux négatifs (personnes incompétentes et réussissant le test)
23
20
Score seuil : Méthodes axées sur des indices de sensibilité et spécificité
En statistique, la sensibilité d'un test mesure sa capacité à donner un résultat positif lorsqu'une hypothèse est
vérifiée. Elle s'oppose à la spécificité, qui mesure la capacité d'un test à donner un résultat négatif lorsque
l'hypothèse n'est pas vérifiée.
• Sensibilité = taux de vrais positifs (les « cas »)
o La sensibilité d’un instrument psychométrique mesure sa capacité à identifier correctement, dans
une population ciblée, les personnes ayant vraiment la caractéristique recherchée.
• Spécificité = taux de vrais négatifs (les « non-cas »)
o La spécificité d’un instrument psychométrique mesure sa capacité à identifier, dans une
population ciblée, les personnes n’ayant pas une caractéristique spécifique donnée.
à basse spécificité = pathologisation excessive
Sensibilité
Spécificité
Une spécificité de 1 signifie que 0% des personnes sans trouble sont considérées
comme porteuses du trouble sur la base du test (absence de faux positifs)
Un score < 1 indique que certaines personnes ne sont pas porteuses du trouble,
mais ont été identifiées par le test (faux positifs)
FN VN
Précision diagnostique : VP + VN / (VP+FP+FN+VN) Laveault & Grégoire, 2014
n fonction de divers L’efficacité d’un test diagnostic en fonction de divers scores seuils peut être
au moyen des courbes
évaluée au moyen des courbes ROC
liser la sensibilité (taux
x positifs (1-spécificité) Pour tracer une courbe ROC
spond aux
à utiliser la sensibilité (taux de VP) et le taux de FP (1-spécificité)
de 1- spécificité pour
Chaque point de la courbe correspond aux coordonnées de la sensibilité et de 1-
spécificité pour chaque score seuil possible
ux positifs est nul et le
=> identification des
cune erreur
bon test diagnostic doit
Coordonnée (0;1) : le taux de faux positifs est nul et le taux de vrai positifs est
de 100% à identification des individus est toujours exacte (aucune erreur
Taux Faux Positifs diagnostic) : la courbe ROC d’un bon test diagnostic doit tendre vers ce point.
ée par son aire sous la courbe (AUC). L’AUC
Courbe ROC est évaluée par son aire sous la courbe (AUC).
lité qu’un sujet «non-cas » ait un score plus
(par ex. 81% dans l’exemple• donné).
L’AUC représente la probabilité qu’un sujet « non-cas » ait un score plus bas qu’un sujet « cas » (par ex.
81% dans l’exemple donné).
36
Remarques
• Il n’existe pas de consensus sur les seuil « acceptables » en termes de sensibilité et spécificité. Il convient
d’approcher des valeurs « le plus proches possible » de 1 (règle « de pouce » souvent utilisée : >.95)
• La spécificité et la sensibilité sont interdépendantes
o Si on modifie le score seuil pour augmenter la sensibilité, alors on diminue la spécificité, et vice-
versa
• Le choix du bon positionnement de la valeur seuil d’un test est délicat, doit être bien réfléchi
22
Fidélité
Une question importante lors de l'élaboration d'un test évaluant une dimension : Les différences observées entre
les personnes correspondent-elles à des différences réelles ou ces différences observées sont-elles dues au hasard,
marquées par des erreurs et donc pas reproductibles ?
• Un test fidèle est un test avec une erreur de mesure faible. La fidélité est donc un indicateur de la
précision, de la reproductibilité, et de la constance des scores
Plus un instrument est fidèle, plus le score observé sera proche du score vrai (celui qui serait obtenu si le test était
parfait). En psychométrie, un test fidèle donne de façon constante le même résultat (ou des résultats similaires)
pour un individu.
Définition de la fidélité
IMPORTANT !!!
Théorie Classique des Tests : Une observation X peut être décomposée en deux sources T et e :
X=T+e
où « T » représente le score vrai et « e » l'erreur de mesure
Fidélité = Proportion de variance des scores observés imputables à la variance des scores vrais (i.e. des
différences réelles entre les individus)
• T (score vrai) est le score obtenu dans des conditions idéales avec un instrument parfait
o C'est aussi, la moyenne des scores obtenus par un sujet suite à un nombre infini d'administration
indépendante du même test
o Cette définition est théorique
Considérer la fidélité d’un test consiste à estimer la part d'erreur aléatoire dans la mesure. Sans fidélité (i.e., sans
mesure précise et reproductible), toute discussion sur la validité est un non-sens.
Erreur de mesure
Théorie Classique des Tests : Une observation X peut être décomposée en deux sources T et e :
X=T+e
où « T » représente le score vrai et « e » l'erreur de mesure
L'erreur de mesure correspond à l'écart existant entre la valeur réelle (T) que l’on veut mesurer et l’observation
réalisée (X).
• Aléatoire : Dans la théorie classique des tests (TCT) et l'analyse de la fidélité, quand on parle d'erreur de
mesure, on fait référence à l'erreur aléatoire
o Cette erreur résulte d'un ensemble de facteurs (pas connus) qui font que parfois la mesure sera
légèrement supérieure à la valeur réelle et parfois légèrement inférieure
o Un instrument de mesure est toujours sensé être construit pour minimiser cette erreur aléatoire
(la mesure observée doit être toujours proche du score vrai, i.e. la dispersion autour de cette
valeur de référence, lors d'observations multiples, doit être faible)
o Cette erreur aléatoire est celle qui est associée à la notion de fidélité et celle à laquelle on
fait le plus souvent référence lorsque l'on parle d'erreur de mesure dans la construction des tests
en psychologie
23
Remarques additionnelles sur les deux erreurs
1. Dans le cadre de l’évaluation psychologique, ces deux erreurs s'additionnent
2. Dans le cadre de la théorie classique des tests (x = T + e) :
a. l'erreur systématique est confondue avec T (le score vrai)
b. l’erreur de mesure (e) fait référence à l’erreur aléatoire
3. L'erreur systématique affecte donc la validité de la mesure, alors que l'importance de l'erreur aléatoire est en
relation avec la fidélité d'une épreuve
4. Si on répète une mesure et qu'on calcule la moyenne de ces mesures
a. l'effet de l'erreur systématique reste identique sur la moyenne
b. l'effet de l'erreur aléatoire sur la moyenne diminue (en effet parfois l'erreur de mesure augmente la
valeur et parfois la diminue).
Erreur liée aux variations de conditions de passation du test et erreur liée aux cotateurs sont contrôlables
• Importance de la standardisation
• Suivre parfaitement les instructions, le minutage et les consignes (de passation comme de cotation), etc.$
Calcul de la fidélité
Théorie Classique des Tests : Une observation X peut être décomposée en deux sources T et e :
X=T+e
où « T » représente le score vrai et « e » l'erreur de mesure
Fidélité = corrélation entre les scores observés (X) et les scores vrais (T) ; elle varie entre 0 et 1
• Plus cette corrélation est élevée, plus le test est fidèle
• Plus le coefficient de fidélité est proche de 0, plus l’erreur de mesure aléatoire est importante
La fidélité informe directement sur la part de variance dont la source est aléatoire (erreur de mesure). Si le
coefficient de fidélité est de .80, cela signifie que 80% de la variance observée est de la variance vraie et 20% de
la variance d'erreur (aléatoire).
Le calcul du coefficient de fidélité peut paraître impossible ! On peut connaître X, mais on ne connaît par définition
pas T ! Il est possible d’estimer un coefficient de fidélité en utilisant différentes techniques (ou méthodes) qui
n'évaluent cependant pas exactement de la même façon les sources de l'erreur de mesure. Ces méthodes se basent
sur la corrélation entre deux séries de mesures prises sur les mêmes individus. La validité de ces méthodes implique
cependant l'acceptation de plusieurs postulats de la théorie classique des tests.
Postulat de base de TCT : Score observé X = score vrai (T) + erreur de mesure (e)
• Les erreurs aléatoires de mesure doivent être indépendantes en toutes circonstances.
• Les conditions de testing (standardisation) garantissent :
o Pas de corrélation entre Score Vrai et Erreur de mesure aléatoire.
§ Les erreurs n’augmentent ou diminuent pas en fonction de la compétence vraie du sujet
o Pas de corrélation entre Erreur de mesure aléatoire dans deux séries de mesure prises à un
moment différent
o Pas de corrélation entre les Erreurs de mesures aléatoires aux différents items du test
24
La théorie classique tient compte d’une erreur strictement aléatoire. Si les postulats de base sont respectés, i.e. les
différentes sources d’erreur sont indépendantes les unes des autres, alors celle-ci pourront s’annuler de sorte que
sur un grand nombre de mesures répétées, l’espérance mathématique des scores observés soit le score vrai de
l’individu.
Fidélité
Source: test-retest
http://www.psychometrie.jlroulin.fr/cours/cours-psychometrie.pdf
Consiste à faire passer deux fois l'épreuve aux mêmes personnes avec un intervalle de temps souvent fixé au
21
préalable (souvent de 1 à 3 mois) et de calculer la corrélation entre les performances observées lors de la
première puis de la seconde passation.
• Ce coefficient de fidélité est parfois appelé « coefficient de constance » ou de « stabilité »
Limites : difficile de fixer le temps optimal entre deux passations. Si le délai est trop long, le niveau de compétence
peut avoir changé, (évolution). Si le délai est trop court, les résultats peuvent être faussés par un phénomène
d'apprentissage ou de mémorisation.
Intervalle de temps déterminé doit aussi être construit-dépendant !
• Traits de personnalité (traits, tempérament)
• Symptômes psychopathologiques
• Stratégies de coping
• Etc.
La méthode des tests parallèles permet d'éviter les inconvénients de la méthode du test-retest. Le principe consiste
à construire deux versions équivalentes d'un test, dont seul le détail des items varie. Les deux versions sont
administrées le même jour (ou avec un délai très court entre les deux passations), puis on calcule la corrélation
entre les deux versions
• Ce coefficient de fidélité est aussi appelé le coefficient d'équivalence (méthode d'équivalence)
Limites : l'équivalence n'est jamais parfaite entre les formes parallèles : deux épreuves sont-elles vraiment
équivalentes si elles comportent des items différents ?
Hypothèse : un test doit évaluer une dimension relativement indépendante des situations. Si on construit une forme
A d'un test, on doit pouvoir construire par la même méthode de construction un test mesurant la même dimension
avec d'autres items (forme B)
S'il n'y a pas de corrélation forte entre ces deux formes différentes à on ne peut pas faire confiance à cette mesure
• La possibilité de construire une forme parallèle est une garantie que l'on maîtrise ce que l'on construit
Cette méthode est coûteuse et exige beaucoup de temps et deux formes parallèles ne sont jamais équivalentes à
100 %. En pratique, méthode relativement peu utilisée pour des questionnaires ; plus fréquemment utilisé pour
certaines tâches mesurant les processus cognitifs.
25
Fidélité : Méthode de bissection (« split-half »)
Méthode « comparable » à celle du test parallèle. Dans la méthode de bissection, on va considérer deux parties
d’un test comme des version parallèles. Les participants passent l'épreuve une seule fois mais le test est ensuite
subdivisé en deux moitiés en fonction de différentes approches, par ex :
• La partition aléatoire (random split)
• La séparation des items pairs et impairs (plus fréquent)
• La séparation des items entre première et deuxième moitié du test
• La réalisation d’une partition appariée en fonction du contenu et de la difficulté (matched split)
Calcul
1. On calcule le score pour chaque groupe d'items (par exemple : pairs et impairs)
2. On calcule la corrélation r12 entre ces scores. Cette corrélation est une estimation de la fidélité rxx
3. Pour tenir compte que l'on a réduit la longueur du test par deux, appliquer la formule de Spearman-Brown :
rxx = 2*r12/(1+ r12)
Avant de calculer le coefficient de fidélité et après avoir séparé (quelle que soit la procédure) les deux groupes
d'items, s'assurer que les moyennes et les variances sur les deux parties du test sont similaires
• Dans le cas contraire, l'estimation de la fidélité pourrait être biaisée
Avantage principal
• Éviter la construction d’une version parallèle et/ou la double administration d’un même test
Limites principales
• Les simulations sur des jeux de données montrent que la valeur du coefficient peut varier de façon
significative selon la partition utilisée
• La partition en deux moitiés peut donc engendrer une erreur d'estimation de la fidélité (le hasard peut mal
faire les choses)
• La fidélité fournit des estimations au-dessous de la fidélité du score total car elle est calculés sur un
nombre d’items ou d’essais moins élevés.
Approche la plus utilisée [devenu « un gold standard » dans toute étude visant à valider les propriétés
psychométriques d’un test].
• Approche différente : Se base sur la covariance entre les différents items d’un test
Ces approches reposent sur le postulat que chaque item peut être considéré comme une partie d’un test et qu’un
test peut être considéré comme étant composé d’autant de parties que d’items. Plus les covariances entre tous les
items pris deux à deux sont élevées, plus les items sont homogènes et mesurent la même chose.
Différentes méthodes, selon que les items sont dichotomiques ou non :
• Le Kuder Richardson (KR20) : Ce coefficient ne s'applique qu'aux items dichotomiques
• Lʼalpha de Cronbach : similaire au KR20 mais concerne des items non dichotomiques
Remarques
Le coefficient alpha n'est pas une mesure de l'unidimensionnalité du test
• Il indique que le test mesure quelque chose de consistant (si le coefficient est élevé) mais pas quoi
(plusieurs dimensions ?)
• Par exemple si plusieurs dimensions existent dans un test mais qu’elle sont au moins en partie corrélée,
un alpha sur le score global pourra être élevé
Plus le nombre d'items est important, plus le coefficient alpha tend à augmenter
• On peut augmenter la valeur de ce coefficient en augmentant le nombre des items (même si ceux-ci
évaluent des dimensions en partie différentes)
Méthode utilisée dans les cas où il peut y avoir ambiguïté (p.ex., subjectivité) dans l'évaluation (cotation) des
résultats au test (Tests projectifs, observations, etc.)
• Principale source de l'erreur de mesure = le cotateur lui-même !
• Fidélité à évaluer s'il existe un degré d'accord suffisamment élevé entre les jugements de plusieurs
observateurs
• Calcul : Ce coefficient de fidélité est généralement simplement la corrélation entre les scores attribués
par le premier et le second évaluateur
o On considère souvent que l'accord est moyen entre 0.40 et .60, satisfaisant à partir de .60 et
excellent pour plus de .80
Il existent d’autres indicateurs statistiques (non abordés dans ce cours) permettent d'évaluer l'accord inter-juge, par
exemple quand il y a plus de deux cotateurs (Kappa de Fliess).
27
Validité
Validité = ensemble des éléments (preuves) qui doit conduire à nous assurer que l'interprétation des scores
est correcte. Processus fondamental dans l'élaboration des tests.
• Le construit de validité à relation entre les éléments théoriques (modèles, définitions, concepts,
hypothèses, etc.) et la réalité empirique supposée les représenter
• Différents types de validité (de construit, de critère, incrémentale, etc.)
La validité d'un test est sous la responsabilité du concepteur de test (qui doit fournir des preuves de validité), mais
aussi de l'utilisateur du test (psychologue) qui doit s'assurer que l'usage qu'il fait du test correspond à celui
indiqué par les concepteurs du test (AERA / APA / NCME, 2014).
La notion de validité de contenu porte sur la façon dont le test couvre, à partir de l'ensemble des questions
posées, le domaine que l'on veut évaluer.
Dans quelle mesure les items du test constituent un échantillon suffisamment représentatif du ou des phénomènes
(par ex. comportement) que l'on veut évaluer (par ex. un trait de personnalité spécifique) ?
• Pour la population cible (validité « d’apparence » ou de surface, face validity)
• Pour des experts du domaine (validité de contenu sur base de modèles)
Le test est considéré comme un échantillon représentatif d'une population d'items (de questions) bien définis. Cela
requiert de définir l’étendue des concepts que doivent couvrir ces questions. Par exemple, dans un test de calcul,
la validité de contenu ne serait pas suffisante si seuls des problèmes de soustraction sont inclus en négligeant les
autres opérations (à moins qu'on ne décide qu'il s'agisse d'un test de soustraction).
Dans les étapes préliminaires de construction des tests il faut s'assurer que les items sont pertinents et représentatifs
des concepts ou des définitions sous-tendant la mesure.
La validité de contenu suppose que des experts (non impliqués dans le développement des items du test) jugent si une mesure
représente pleinement la définition de ce que l'on veut mesurer. Ça implique une définition théorique du concept
acceptée par les pairs, et une sélection des indicateurs (questions) qui couvrent l'ensemble du « concept » qui doit
être mesuré. La validité de contenu permet de s'assurer que la mesure correspond au concept tel qu'il a été défini
par le chercheur.
Delphi = Métho
Évaluation par des experts itérative pour o
consensus au
d’experts
Delphi
Une technique
méthode in a nutshell
possible (parmi d’autres) pour évaluer la validité de contenu est la technique « Delphi »
http
1/add
Recruitment of the experts and compilation of statements used
C’est une méthode structurée et itérative (par étapes)
pour obtenir un consensus au sein d’un groupe
The facilitator gathers responses from the experts using a pre-designed
d’experts.
questionnaire giving the possibility to add new statements.
X Experts can revise their responses and adopt group consensus or maintain their answers.
International training school and conference on Problematic Usage of the Internet (PIU), Cambridge, 14-16th 2019
The Delphi study finishes when a pre-stablished level of consensus is achieved OR when
responses are stable between rounds. ICD-1
DSM-5 criteria
28
Évaluation par la population cible
Validité apparente (= face validity) à Est-ce que les items mesurent de manière adéquate le construit cible selon
la population cible (ou selon des personnes « profanes » ; ou d’autres catégories de personnes)
Parfois aussi appelée « validité empirique ». Il s'agit d'une liaison constatée entre un test et un critère. La validité
de critère d'un test (par exemple un test d’aptitudes de calcul) est la liaison constatée entre ce test et un critère
observable (par exemple, les notes scolaires en mathématique ). Elle sert à évaluer le lien entre les performances
du participant dans un test et ses performances dans une autre activité que le test est censé prédire.
• Le test est considéré comme un instrument qui sert à prédire un comportement appelé le « critère »
o La validation critère est l'étude de la relation entre le test et ce critère
Généralement établie en analysant la relation entre le test et le critère (e.g., coefficient de corrélation r de Bravais-
Pearson, modèle de régression).
• La validité convergente : estimer la validité d'un test par sa ressemblance avec d'autres mesures
considérées comme similaires
o Hypothèse d’une corrélation forte entre le test et le critère
• La validité divergente : estimer la validité d'un test par la divergence des résultats qu'on obtient entre le
test et d'autres mesures dont on fait l'hypothèse qu‘elles mesurent autre chose
o Hypothèse d’une corrélation nulle/faible entre le test et le critère
IMPORTANT !!! : Permet de s'assurer que la variance vraie associée au test (les différences réelles
observées) est pour l'essentiel associée au construit que l'on souhaite mesurer et non à un autre construit.
29
Validité de Construit (construct validity)
Aussi appelée validité conceptuelle ou théorique, ce type de validité vise à s’assurer que l’instrument mesure
vraiment le ou les construits qu’il a été conçu pour mesurer et qu’il offre une mesure adéquate du modèle
théorique sur lequel il s’appuie.
Différentes approches
• Structure factorielle (validité structurelle ; « structural validity »)
• Corrélation avec un autre test mesurant le même construit
• Approche des groupes connus (« Known Group »)
• Vérification d’hypothèses théoriques en lien avec le construit mesuré
30
Validité de construit – Groupes connus
Groupes connus (exemple en lien avec impulsivité )
Validité de Conséquence
Séminaire de psychométrie - P. Golay 56
31
Validité basée sur les Processus de réponse
Vérifier si les démarches mises en œuvre par le sujet pour produire leurs réponses correspondent bien à ce qui est
prévu dans le cadre conceptuel qui sous-tend le test. Vérifier si les scores aux tests se conforment aux exigences
du modèle théorique de référence.
Exemples
• Test d’arithmétique à un enfant peut trouver la réponse en calculant ou sur base de sa mémoire à long
terme
o Si des réponses sont fournies trop rapidement (temps de réaction trop courts), cela plaide pour
l’utilisation de la mémoire à long terme (et pas des capacités d’arithmétique) à Potentielle
remise en question de la validité du test pour mesurer les capacités d’arithmétique.
• Version informatisée d’un test à est-ce que le format affecte le processus de réponse ?
o Par exemple comparaison entre version classique d’un test et sa version informatisée (mêmes
processus cognitifs impliqués ?)
§ Manipulation de cubes pour reproduire un dessin (test classique)
§ Usage de la souris pour déplacer des formes sur l’écran afin de reproduire le dessin
(version informatisée)
Méthodes
• Analyses détaillées de réponses individuelles
• Vidéos, enregistrements
• Analyse des temps de réponse
• Questionnaires sur le test (administré après le test)
• Cognitive Interviewing (voir exemple en lien avec validité de contenu)
Un test apporte-t-il davantage pour prédire un critère que les autres informations déjà disponibles (tests ou autres
techniques) ?
• Un test est valide s'il permet de mieux prédire un critère que ce que ferait une batterie de tests sans ce test
lui-même
• Exemple du Rorschach
Estimée le plus souvent par des techniques de régression multiple hiérarchique.
Différentes mesures
• Différentes de «de
mesures pleine
«pleineconscience » sont
conscience» considérées.
sont considérées
Des modèles de régression sont utilisés pour voir dans quelle mesure ces différentes échelles prédisent davantage
de• laDes
variance
modèles dedevariables théoriquement
régression supposées
sont utilisés pour comme
voir dans quelle influencées
mesure par la pleine conscience (outcome
variables). Par ex. tendance
ces différentes à l’inquiétude,
échelles prédisent acceptation
davantage des émotions
de la variance pénibles, etc.
de variables
Cettethéoriquement
approche permet de déterminer
supposées commequelle est l’échelle
influencées avec laconscience
par la pleine meilleure validité incrémentale.
(outcome variables)
• Par ex. tendance à l’inquiétude, acceptation des émotions
pénibles, etc.
33
Module 3 : Développement et Adaptation de questionnaires
Sélectionner des sujets ? Diagnostiquer ? Évaluer la maîtrise des compétences attendues ? Etc.
Tests normés
• Discriminer les sujets appartenant à la population pour laquelle est construit le test
• Tests de performance, Questionnaires mesurant des traits, des symptômes, etc.
• Exemple: niveau d’anxiété d’un individu par rapport à l’anxiété de la population de référence
Tests critériés
• Évaluer si un individu possède ou non une caractéristique prise comme référence
• Tests certificatifs, tests diagnostiques, etc.
• Exemple: Est-ce que l’anxiété d’un individu correspond aux critères spécifiques d’un Trouble Anxieux
Généralisé (TAG) selon le DSM ?
Beaucoup de tests publiés et fréquemment utilisés (en recherche, en clinique) ne peuvent pas être considérés
comme des tests normés ou des tests critériés.
Tests mesurant des construits « état » (donc fluctuant), par opposition aux construits « traits » (dispositions stables)
• Les tests mesurant des construits « états » doivent aussi être validés sur le plan psychométrique
• Les tests mesurant des construits « états » ne doivent pas être utilisés comme des tests normatifs
Aspect Fondamental :
à Référence à un cadre conceptuel / théorique : se baser sur un modèle !!!
Exemples d’approches
• Tableau de spécifications (typiquement pour l’élaboration de tests certificatifs) : préciser ce que les sujets
sont censés maîtriser à un certain niveau de leur apprentissage
• Analyser le contenu d’entretiens : si on n’a pas d’idées précises à interroger des personnes appartenant
à la population visée
• Observation directe des comportements : Méthode ayant utilisée par Binet lors du développement de son
test pour évaluer l’intelligence
Une étape préliminaire à la réalisation
de cet outil a été de réaliser un focus
Tableau de spécifications – Examen de Tests et méthodes d’évaluation en psychologie et group (approche qualitative et
psychopathologie phénoménologique) chez des
personnes regardant des séries TV de
manière régulière et intensive
Niveau Taxonomique Total
Connaissance Compréhension
34
pandémie).
Étape 3 : Créer les items
IMPORTANT !!! Le choix du format d’items est tout à fait susceptible d’influencer les réponses données
aux tests !
Une définition précise de ce que l’on souhaite évaluer et une méthodologie rigoureuse de construction des items
sont des conditions nécessaires, mais non suffisantes pour obtenir des items fidèles et valides.
Permet de sélectionner les items, d’en supprimer, d’en reformuler, etc., mais aussi de vérifier la cotation, le temps
de passation, la qualité du matériel, des consignes, etc.
35
Étape 5 : Déterminer les propriétés (psycho)métriques du test / questionnaire
2. Démontrer le gain de temps et de ressources et leurs relations avec la perte de validité et fidélité de manière
empirique
3. Mener une analyse de contenu sur chaque facteur afin de préserver autant que possible le contenu couvert par
chaque facteur.
5. Examiner la structure factorielle de la version courte et rendre le lecteur attentif à toute différence par rapport
à la version longue
6. Valider la version courte dans la forme avec laquelle elle sera effectivement utilisée (ne pas extraire les items
de la version longue et effectuer les analyses a posteriori)
7. Si approprié, examiner dans quelle mesure la version courte classifie bien les individus
36
Illustration de développement de questionnaires sur le Binge-Watching
Binge-Watching définition
• Visionnage boulimique ou en « rafale » de plusieurs épisodes de séries TV à la fois
1
Développer des instruments de mesure valides pour
explorer le phénomène du binge-watching (motivations,
engagement)
+
Qualitative
data collection
Final
instruments
adaptation
A Psychometric
validation
Cross-cultural
5
validation
30
ateng et al. (2018)
37
Étude qualitative
Objectif
à Explorer les caractéristiques phénoménologiques uniques du binge-
Méthodologie
watching
Méthodologie
à Analyse thématique de
• 7 amateurs de séries TV • Focus group contenu
Objectif
• Critères d’inclusion: • Série de questions ouvertes
≥ 18 ans
Avoir regardé des épisodes de séries TV
régulièrement ou plus intensément (plusieurs
épisodes en une session) sur support DVD, US B ,
R és ultats
SVOD ou en streaming au cours des 6 derniers
mois
QUAL ITATIVE
Structural characteristics of TV series
Résultats
Des ressemblances avec les
…mais aussi des aspects différents
addictions aux substances…
Étude de validation
Objectif
à Développer et valider deux instruments de mesure, l’un évaluant les
motivations au visionnage de séries TV, et l’autre le niveau d’engagement
dans la conduite du binge-watching
Méthodologie
Méthodologie
Objectif
épisodes en une session) sur support DVD, US B , Positive and Negative Affect Schedule
SVOD ou en streaming au cours des 6 derniers
mois Compulsive Internet Use Scale
38
R és ultats E chantillon 2
4-factors
WTSMQ 3175.747 203 <.001 0.942 0.066 0.067 -
(correlated)
4-factors
19588.242 209 <.001 0.621 0.164 0.168 0.321
(uncorrelated)
7-factors
BWESQ 10728.017 719 <.001 0.951 0.072 0.073 -
(correlated)
7-factors
135025.716 740 <.001 0.344 0.260 0.262 0.607
(uncorrelated)
Corrélations de Spearman
Résultats échantillon total (Corrélations de Spearman)
Corrélations de Spearman
Corrélations de Spearman
39
Étude Cross-Culturelle
Objectif
à Tester les propriétés psychométriques des WTSMQ et BWESQ en 9
langues, et examiner leur invariance de mesure selon la langue et le genre
Méthodologie
Méthodologie
• Critères d’inclusion:
≥ 18 ans
Objectif
Avoir regardé des épisodes de séries TV
régulièrement ou plus intensément (plusieurs
épisodes en une session) sur support DVD, US B ,
SVOD ou en streaming au cours des 6 derniers
mois
• Validité convergente
Corrélations de Spearman
Méthode deIMPORTANT
Lyubomirsky !!!& LepperMéthode
Flayelle et al. (2019)
deet al.traduction
(1999); Derogatis (2001); Billieux (2012); Meerkerk et al. (2009) / contre-traduction
traduction/contre-
traduction Ex.
Français
Ex. Anglais
1er traducteur bilingue
Ex. Français
2ème traducteur
bilingue
R és ultats
alyses Factorielles Confirmatoires
Beaton et al. (2000)
individuelles
Résultats AFC individuelles
R és ultats
Consistance interne
R és ultats
ngs de corrélations de
arman entre WTSMQ et
BWE S Q Résultats corrélations de Spearman entre WTSMQ et BWESQ
R és ultats R és ultats
Résultats corrélations de Spearman
Rangs de corrélations de Rangs de corrélations de
S pearman entre BWE S Q et autres
entreetWTSMQ
S pearman entre WTSMQ autres et autres mesures mesures
entre BWESQ et autres mesures
mesures
41
Module 4 : Les diagnostiques psychopathologiques
Schizophrénie
Terme très familier mais mal compris : représentation caricaturale de la « folie »
Dans sa définition classique, la schizophrénie :
• touche environ 1% de la population des deux sexes
Une constellation de symptômes
• installation généralement durant l’adolescence ou au début de
hallucinations (auditives, visuelles, etc.)
l’âge adulte idées délirantes (de persécution, de grandeur, avec des
aspects mystiques ou religieux)
phénomènes de passivité et d’interférence avec la pensée
Les symptômes de la schizophrénie repli sur soi
Trois facteurs : perte d’initiative ou de motivation (apathie)
• symptômes positifs : distorsions de la réalité (hallucinations, appauvrissement affectif (émoussement des affects)
expression anormale des émotions
idées délirantes) mouvements anormaux
• symptômes négatifs : repli sur soi, apathie langage désorganisé (changements de thème, méli-mélo de
mots, néologismes)
• désorganisation de la pensée, du langage et du comportement troubles cognitifs (dont troubles de la mémoire épisodique)
Klerman (1978)
Dans les années 1970, aux Etats-Unis :
• problèmes de fidélité des diagnostics
• la question de l’homosexualité
• questions économiques (réguler les remboursements de soins par les assurances ; spécifier les troubles
visés par de nouveaux médicaments)
• désenchantement vis-à-vis de la psychanalyse
o traitement non efficace
o affaiblit les liens entre psychiatrie et médecine
43
Le manifeste « néo-kraepelinien » : Klerman (1978)
IMPORTANT !!!
• la psychiatrie est une branche de la médecine
• la psychiatrie doit utiliser des méthodes scientifiques modernes et fondées sur les connaissances
scientifiques
• la psychiatrie traite des personnes qui sont malades et qui requièrent un traitement
• il existe une frontière entre le normal et le pathologique
• les psychiatres doivent mettre un accent particulier sur les aspects biologiques de la maladie mentale
• il doit y avoir un intérêt explicite et intentionnel pour le diagnostic et la classification
• les critères de diagnostic doivent être codifiés et validés à DSM-III
Cette essence est possédée par tous les individus qui ont
ce trouble et par aucun individu qui ne le possède pas ;
1994 on a le trouble ou on ne l’a pas (comme la grippe ou
1987 une tumeur).
Rupture avec tradition
psychanalytique Les difficultés psychologiques peuvent être expliquées
1968 de la même manière que les maladies physiques.
Les symptômes sont le reflet d’un trouble latent.
1952
DSM-IV
Un système multiaxial
• Axe 1 : Troubles mentaux majeurs
• Axe 2 : Troubles de la personnalité et retard mental
• Axe 3 : Aspects médicaux ponctuels et troubles physiques
• Axe 4 : Facteurs psychosociaux et environnementaux
• Axe 5 : Échelle d’évaluation globale du fonctionnement
44
IMPORTANT !!! Dans CIM (de l’OMS), approches monothétiques privilégiées
Exemple
Trouble lié au Jeu Vidéo (code 6C51)
• Implication persistante (minimum 12 mois) dans le jeu vidéo caractérisée par :
• Perte de contrôle sur les conduites de jeu vidéo
• Priorité donnée au jeu (par comparaison aux tâches du quotidien, autres loisirs, etc.)
• Conséquences négatives liées au jeu (sociales, personnelles, professionnelles, ...)
o Ensemble des critères doivent être présents et associés à une perturbation du
fonctionnement dans la vie quotidienne (« functional impairment »)
Troubles de la personnalité
• Mode durable des conduites et de l’expérience vécue qui dévie notablement de ce qui est attendu dans la
culture de l’individu
o Envahissant
o Rigide, stable
o Apparaît à l’adolescence ou au début de l’âge adulte
o Source de souffrance et altération du fonctionnement
• Paranoïaque ; schizoïde, schizotypique, antisociale, borderline, histrionique, évitante, narcissique,
dépendante, obsessionnelle-compulsive, NS.
45
Organisation du DSM (IV & V)
• Catégories diagnostiques :
o dépression, schizophrénie, …
• Critères diagnostiques pour chaque catégorie :
o symptômes requis, durée, …
• Évaluation de la sévérité et de caractéristiques du trouble :
o léger, moyen, chronique, …
Section I
• « Bases du DSM-5 »:
• Intro.; utilisation du manuel, notamment en médecine légale
Section II
• « Critères diagnostiques et codes » CIM (9 et 10) des troubles m.
Section III
• « Modalités d’évaluation et modèles émergents » : Instruments d’évaluation
• Approche culturelle des problèmes de santé mentale
• Modèle alternatif pour les troubles de la personnalité
• Troubles proposés pour des études complémentaires
Annexes
• Changements entre DSM-IV et DSM-5
• Glossaires des termes techniques
• Glossaire des concepts culturels de détresse
• Listes alphabétiques et numériques des troubles
• Collaborateurs aux DSM-5
46
Vers une pathologisation croissante du fonctionnement psychologique ?
2013 (+ 300 troubles, 947 pages) DSM-5 : abaissement des seuils diagnostiques
47
Le péché de l’approche “confirmatoire”
Le ou
péché de l’approche
“ comment utiliser de « confirmatoire
vieilles » créer de nouveaux troubles”
recettes pour
Etape 3 : Focalisation de la
Etape 1: Conceptualisation a priori
recherche sur les facteurs
de la conduite excessive comme une
étiologiques établis pour les
addiction «comportementale»
assuétudes aux substances
Conséquences Principales
- Perte de contrôle
- Régulation 1 Absence de prise en compte de modèles alternatifs
émotionnelle 2 Approche a-théorique (partant du symptôme)
- « Manque » 3 Non prise en compte des spécificités du trouble
- «Tolérance » 4 Non prise en compte des processus psychologiques
- Etc. Interventions potentiellement inappropriées
1.Kardefelt-Winther,
Quand onHeeren,
prendSchimmenti,
des conduites excessives (e.g. « jeux-vidéo »), on pourrais avoir des modèles étiologiques
van Rooij, Maurage, Carras, Edman, Blaszczynski, Khazaal, & Billieux, J. (2017). How can
we conceptualize behavioral addiction without pathologizing common behaviors? Addiction, 112, 1709-1715.
alternatifs comme par exemple, le fait que l’engagement excessif dans les jeux-vidéos est un coping une
stratégie pour faire face à quelque chose, qui peut devenir envahissante, en lien avec un épisode de
dépression ou, chez certains joueur avec une anxiété sociale marquée. Donc là on aurait finalement, un
symptôme uniquement qui serait la conséquence d’un autre trouble.
2. Approche qui part essentiellement du symptôme en ignorant largement les processus impliqués, notamment
les processus psychologiques.
3. On va se focaliser sur les similitudes potentielles avec les addictions aux substances en ignorant largement
les caractéristiques qui pourraient être vraiment spécifiques et uniquement retrouvées dans le trouble en
question. Et pour pouvoir bien comprendre ces spécificités, il va falloir passer par des analyses souvent
qualitatives, phénoménologiques, auprès des personnes impliqués (cf. procédure utilisé pour le Binge-
Watching).
4. Il y a plus le focus sur les aspects biologiques et on pourraient avoir des interventions potentiellement
inappropriés. Par exemple si on considère à priori qu’un symptôme d’usage excessif de jeux-vidéos reflète
une addiction, on pourrait être amené à réaliser un entretien motivationnel pour essayer de changer le
comportement, et puis si cette personne utilise le jeux-vidéo comme un coping, on serait dans une
intervention inapproprié.
Validité
• Signes et symptômes choisis comme critères de diagnostic sont constamment associés et ce qu’ils
identifient diffère des autres catégories (validité de concept ou théorique)
• Degré auquel les caractéristiques d’un trouble sont réellement représentatives du phénomène étudié
(validité de contenu)
48
Critique 1 : frontière stricte entre le normal et le pathologique ?
UDépression: hétérogénéité
n des symptômes doit des symptômes
être une humeur dépressive ou une diminution d’intérêt ou
S = symptômes, par exemple «idées suicidaires» de plaisir
(Olbert et al., 2014)
Figure 2. Associations between depressive symptoms and impairment domains.
Dépression : hétérogénéité des symptômes (Olbert et al., 2014)
49
Critique 3 : Existe-t-il réellement des maladies mentales distinctes ?
à Comorbidité
Automutilation
Les comportements différents… avec la même
Abus de substances fonction !!!
Emotion et/ou
humeur négative Boulimie / Purge
Un même symptôme : de multiples fonctions
possibles !
Jeu
Les fonctions de l’automutilation :
Etc. - Diminution des affects négatifs
- Recherche d’attention / protection
- Stimulation
Conséquences à moyen Soulagement des
/ long termes affects négatifs
- Autopunition
• La psychopathologie (évaluation et intervention) doit utiliser des méthodes scientifiques modernes et fondées
sur les données probantes (evidence-based approach)
• La pratique clinique s’adresse à des personnes qui se plaignent de problèmes psychologiques ou qui ont des
difficultés à s’adapter aux exigences de la vie quotidienne
o certaines manifestation, comme des hallucinations ou des croyances non conventionnelles, se
produisent chez des personnes qui n’en souffrent pas et qui fonctionnent bien: ces personnes ne
devraient pas être encouragées à chercher un traitement
• Il n’y a pas de maladies mentales distinctes; les catégories diagnostiques ne captent pas adéquatement la nature
des plaintes psychologique
50
• Une théorie adéquate des problèmes psychologiques doit montrer comment les explications biologiques et
psychologiques sont reliées
• Il faut commencer par une description détaillée et valides des plaintes psychologiques
• Il faut tenter de comprendre les mécanismes sous- tendant les plaintes psychologiques
o Notamment pour mieux comprendre les liens avec les facteurs sociaux et biologiques
o Notamment pour mieux comprendre la fonction des comportements problématiques
• Les plaintes psychologiques doivent être comprises comme le produit de trajectoires développementales,
déterminées par des interactions complexes entre des processus endogènes et environnementaux
Domaine identification : Pour spécifier les limites du domaine et faciliter génération d’items
• Préciser la finalité/but du domaine
• Confirmer qu'il n'y a pas d'instruments existants
• Décrire le domaine et fournir des définition
• Préciser les dimensions du domaine si elles existent a priori
• Définir chaque dimension
Génération d’items (développement des questions) : Identifier les questions appropriées qui correspondent au
domaine identifié
• Méthodes déductives : revue de la littérature et évaluation échelles existantes
• Méthodes inductives: méthodologies de recherche exploratoire y compris des discussions de groupe et
des entretiens
Remarques : Il est recommandé de combiner à la fois déductif et méthodes inductives pour à la fois définir le
domaine et identifier les questions pour l'évaluer.
Le nombre d’items doit être au moins deux fois plus longue que l'échelle souhaitée. Les items devraient être
formulé simplement et sans ambiguïté. Les items ne doivent pas être offensant ou potentiellement biaisé en termes
d'identité sociale, c'est-à-dire le sexe, la religion, l'appartenance ethnique, la race, le statut économique ou
l’orientation.
Évaluation par expert : Évaluer chacun des items constituant le domaine pour la pertinence, la représentativité
et la qualité technique du contenu
• Quantifier les évaluations de 5 à 7 juges experts en utilisant une mise à l'échelle formalisée et des
procédures statistiques, y compris le taux de validité du contenu, l'indice de validité du contenu ou le
coefficient alpha de Cohen
• Conduire la méthode Delphi avec des juges experts
Évaluation par population cible : Évaluer chaque item constituant le domaine de représentativité de l'expérience
réelle de la population cible
• Mener des entretiens cognitifs avec les utilisateurs finaux des items d'échelle pour évaluer la validité
apparente
51
Phase 2 : Développement de l’échelle
Le pré-test permet de s'assurer que les éléments sont significatifs pour le population cible avant que l'enquête ne
soit effectivement administrée (minimise les malentendus et les mesures ultérieures erreur).
Le pré-test comporte deux volets : le premier est l'examen de la mesure dans laquelle les questions reflètent le
domaine en cours d’étude. Le second est l'examen de l'étendue auquel les réponses aux questions posées produisent
des mesures.
Cognitif interviews : Évaluer dans quelle mesure les questions reflètent le domaine d'intérêt et que les réponses
produisent des mesures valides
• Administrer les brouillons de questions à 5 à 15 personnes interrogées en 2 à 3 tours tout en permettant
aux répondants de verbaliser le processus mental impliqué dans la fourniture de réponses
• Avantages
o Garantit que les questions produisent les données voulues
o Les questions qui prêtent à confusion sont modifiées à + de clarté
o Questions problématiques ou difficiles à comprendre sont modifiées
o Options d’interventions appropriés et adéquates
o Révèle le processus de réflexion des participants (cela peut indiquer une question problématique)
Administration du sondage : Pour collecter des données avec un minimum d'erreurs de mesure
• Administrer des éléments d'échelle potentiels sur un échantillon qui reflète la gamme de la population
cible en utilisant du papier ou un appareil
• Chaque approche présente des avantages et des inconvénients.
o En utilisant la technologie on peut réduire les erreurs liées à la saisie des données et
permet : la collecte de données à partir de grands échantillons avec un minimum coût, augmenter
le taux de réponse, réduire les erreurs des recenseurs, permettre rétroaction instantanée et
augmentation du suivi de la collecte de données et capacité à obtenir des données plus
confidentielles
§ La technologie offre la possibilité de joindre fichiers audio aux questions de l'enquête
afin que les questions puissent être enregistré et lu à haute voix aux participants peu
alphabétisés
o Formulaire papier : pas de plantage, pas de disparition des données
§ Avec grand échantillon : plus cher, forte intensité de main-d'œuvre, et les données sont
exposées de plusieurs manières erreur humaine
Établir la taille de l'échantillon : Assurer la disponibilité des données suffisantes pour le développement de
l'échelle
• La taille d'échantillon recommandée est de 10 répondants par item d'enquête et/ou de 200 à 300
observations
• Il n’existe pas de ratio d’éléments unique qui fonctionne pour toutes les enquêtes scénarios de
développement.
Un échantillon ou un répondant
• plus grand : le ratio d'items est toujours meilleur, car une plus grande taille d'échantillon implique des
erreurs de mesure plus faibles et plus, des chargements de facteurs stables, facteurs réplicables et
résultats généralisables à la population réelle structure
• plus petit : peut signifier des charges et des facteurs plus instables, aléatoires, non réplicables et résultats
non généralisables
à la taille est cependant toujours limitée par les ressources disponibles, et le plus souvent, le développement à
grande échelle peut être difficile à financer.
52
Déterminer le type de données à utiliser : Assurer la disponibilité des données pour le développement et la
validation des échelles
• Utiliser des données transversales pour l'analyse factorielle exploratoire
• Utiliser les données d’un deuxième moment, au moins 3 mois plus tard dans un semble de données
longitudinales ou un échantillon indépendant pour tester dimensionnalité (étape 7)
Le développement d’une échelle nécessite au minimum les données d’un seul point dans le temps.
Problème dans l'utilisation de données longitudinales : la variance d'erreur courante, car les mêmes participants,
potentiellement idiosyncratiques, seront impliqués.
• Pour donner le plus de crédibilité à la fidélité de l'échelle, dans l’idéal, la meilleure procédure consiste
à développer l'échelle sur l'échantillon A, que ce soit sectionnelle ou longitudinale, puis la tester sur un
échantillon B.
Objectif : identifier les éléments qui ne sont pas ou sont les moins lié au domaine d’étude pour suppression ou
modification (items fonctionnels).
Remarque : deux théories, la Théorie Classique des Tests (CTT) et Théorie de la réponse à l’item (IRT), sous-
tend le développement à l'échelle.
• La CTT permet la prédiction des résultats des constructions et de la difficulté des items
• Le IRT, le paramètre de difficulté de l'élément, est la probabilité qu'un candidat particulier réponde
correctement à élément donné
o Avantage : permettre au chercheur d'identifier les différents niveaux de performance
individuelle
Indice de difficulté de l’item : Pour déterminer la proportion de bonnes réponses données par item (CTT) et pour
déterminer la probabilité qu'un candidat particulier répondre correctement à un item donné (IRT)
• La proportion peut être calculée pour le CTT et le paramètre de difficulté de l'item estimé pour l'IRT à
l'aide de progiciels statistiques
Indice de discrimination d’item tester : Pour déterminer dans quelle mesure un élément ou un ensemble de
questions de test mesure un attribut unitaire (CTT) et pour déterminer à quel point la probabilité de réponse correcte
change à mesure que la capacité augmente (IRT)
• Estimer les corrélations bisériales ou le paramètre de discrimination des items en utilisant des progiciels
statistiques (= ensembles statistiques)
Utilité :
• les éléments non discriminatoires, qui ne font pas de discrimination entre les répondants, devraient être
supprimés
• les éléments qui discriminent négativement devraient être réexaminés et modifiés
• les éléments qui établissent une discrimination positive devraient être conservés
Corrélation Inter-item et item total : Pour déterminer les corrélations entre les éléments de l'échelle, ainsi que
les corrélations entre chaque élément et le score total des éléments de l'échelle (CCT)
• Estimer les communautés inter-item / item, les corrélations item-total et item-total ajusté à l'aide de
progiciels statistiques
Analyse de l’efficacité des distracteurs : Pour déterminer la distribution des options incorrectes et comment elles
contribuent à la qualité des articles
• Estimer l'analyse des distracteurs à l'aide de progiciels statistiques
Suppression ou imputation (cas manquants) : Pour assurer la disponibilité de cas complets pour le
développement de l’échelle (2 approches)
• Supprimer les éléments comportant de nombreux cas manquants de façon permanente, ou utiliser
l'imputation multiple ou la probabilité maximale de renseignements complets pour l'imputation des
données
53
Step 6 : Extraction des facteurs
Analyse factorielle : Pour déterminer le nombre optimal de facteurs ou de domaines qui correspondent à un
ensemble d’item
• Utiliser des graphiques en éboulis (Scree Plot), une analyse factorielle exploratoire, une analyse parallèle,
qui correspondent à un ensemble d'items procédure partielle moyenne minimale et/ou la méthode de Hull
o C’est un modèle de régression dans lequel les variables standardisées observées sont régressés
sur des facteurs non observés
o L’analyse factorielle est utilisée pour comprendre la structure latente (interne) d'un ensemble
d'éléments, et mesure dans laquelle les relations entre les éléments sont en interne
cohérent
o Cela se fait en extrayant des facteurs latents qui représentent la variance partagée des réponses
parmi les multiples articles
Test de dimensionnalité : Pour répondre aux requêtes sur la structure latente des éléments d'échelle et leurs
relations sous-jacentes. C'est-à-dire pour valider si la structure hypothétique précédente correspond aux items
• Estimer le modèle de cluster indépendant (ICM) - analyse factorielle confirmatoire
• Estimer les modèles bifactoriels pour éliminer l'ambiguïté sur le type de dimensionnalité-
unidimensionnalité, bi-dimensionnalité ou multi-dimensionnalité
• Estimer l'invariance de mesure pour déterminer si le facteur et la dimension hypothétiques sont
congruents entre les groupes ou plusieurs échantillons
Éléments de l’échelle de score : Pour créer des scores d'échelle pour une analyse de fond, y compris fiabilité et
validité de l’échelle
• Calculer les scores de l'échelle en utilisant une approche non pondérée, qui comprend la somme des scores
normalisés des items et des scores bruts des items, ou calculer la moyenne des scores bruts des items
• Calculez les scores de l'échelle en utilisant une approche pondérée, qui comprend la création de scores
factoriels via une analyse factorielle confirmatoire ou des modèles d'équations structurelles
Calculez la fidélité statistiques : Évaluer la cohérence interne de l'échelle, c'est-à-dire, le degré auquel l'ensemble
des éléments de l'échelle covarie, par rapport à leur score total
• Estimation en utilisant l'alpha de Cronbach
o L'alpha de Cronbach évalue la cohérence interne des éléments de l'échelle, c'est-à-dire le degré
auquel l'ensemble des éléments de l'échelle covarie, par rapport à leur score total
o Un coefficient alpha de .70 a souvent été considéré comme un seuil acceptable de fiabilité
o cependant, .80 et .95 sont préférés pour la qualité psychométrique des échelles
• D'autres tests tels que le rho de Raykov, l'alpha ordinal et celui de Revelle bêta peut être utilisé pour
évaluer la fiabilité de l'échelle
Test – retest fidélité : Évaluer dans quelle mesure la performance du participant est reproductible ; c'est-à-dire la
cohérence de leurs scores dans le temps
• Estimer la force de la relation entre les items de l'échelle sur deux ou trois points dans le temps; variété
de mesures possible
• Alors que certains préfèrent utiliser le coefficient de corrélation intra-classe (124), d'autres utilisent la
corrélation produit-moment de Pearson
• Dans les deux cas, plus la corrélation est élevée, plus la fidélité test – retest est élevée, des valeurs
proches de zéro indiquant une faible fidélité.
54
Step 9 : Tests de validité
Validité prédictive : Pour déterminer si les scores prédisent les résultats futurs
Validité des critères
• Utilisez la régression bivariée et multivariée ; des associations ou des effets causaux plus forts et
significatifs suggèrent une plus grande validité prédictive
Validité concurrente ou concomitante : Pour Déterminer dans quelle mesure les scores de l'échelle ont une
relation plus forte avec les mesures des critères effectuées près du moment de l'administration
• Estimer l'association entre les scores de l'échelle et « l'étalon-or » de la mesure de l'échelle ; une
association significative plus forte dans la corrélation produit-moment de Pearson suggère un soutien
pour la validité concurrente
Validité convergente : Pour examiner si le même concept mesuré de différentes manières donne des résultats
similaires
• Estimer la relation entre les scores de l'échelle et des constructions similaires à l'aide d'une matrice multi-
méthodes à caractères multiples, de la modélisation de variables latentes ou du coefficient produit-
moment de Pearson; des coefficients de corrélation plus élevés / plus forts suggèrent un soutien pour la
validité convergente
Validité de construction
Discriminant validité : Pour examiner si le concept mesuré est différent d’un autre concept
• Estimer la relation entre les scores d'échelle et les constructions distinctes en utilisant une matrice multi-
méthodes à caractères multiples, une modélisation de variables latentes ou un coefficient de produit-
moment de Pearson; des coefficients de corrélation plus faibles / plus faibles suggèrent un soutien pour
la validité discriminante
Différenciation par « Groupes connus » : Pour examiner si le concept mesuré se comporte comme attendue par
rapport aux « groupes connus »
• Sélectionner des variables binaires connues basées sur des connaissances théoriques et empiriques et
déterminer la distribution des scores de l'échelle sur les groupes connus; utiliser des tests t si binaire,
ANOVA si plusieurs groupes
Corrélation une analyse : Pour déterminer la relation entre les mesures ou variables existantes et les scores
d'échelle nouvellement développés
• Corréler les scores de l'échelle et les mesures existantes ou, de préférence, utiliser la régression linéaire,
le coefficient de corrélation intra-classe et l'analyse des écarts-types des différences entre les scores
Bien que l'analyse corrélationnelle soit fréquemment utilisée par plusieurs chercheurs, l'analyse de régression
bivariée est préférée à l'analyse corrélationnelle pour quantifier la validité.
L'analyse de régression entre les scores d'échelle et un indicateur du domaine examiné, présentent un certain
nombre d'avantages importants par rapport à l'analyse corrélationnelle :
• Analyse de régression quantifie l'association en unités significatives, facilitant le jugement de validité
• L'analyse de régression évite de confondre la validité avec la variation sous-jacente de l'échantillon et,
par conséquent, les résultats d'un échantillon sont plus applicables à d'autres échantillons dans lesquels la
variation sous-jacente peut différer.
• L'analyse de régression est préférée car le modèle de régression peut être utilisé pour examiner la validité
discriminante en ajoutant des mesures alternatives potentielles.
Prises ensemble, ces méthodes permettent d'évaluer la validité d'une échelle adaptée ou nouvellement
développée.
En plus de la validité prédictive, des études existantes dans des domaines tels que la santé, les sciences sociales et
comportementales ont montré que la validité d'échelle est soutenue si au moins deux des différentes formes de
validité de construit discutées dans cette section ont été examinées.
55
Conclusion
Les contraintes de ressources, y compris le temps, l'argent, l'attention et la patience des participants, sont bien
réelles et doivent être reconnues comme des limites supplémentaires à un développement d'échelle rigoureux.
Nous ne pouvons pas dire quelles étapes sont les plus importantes
• Les décisions difficiles sur les étapes à aborder moins rigoureusement ne peuvent être prises que par
chaque développeur d'échelle, en fonction de l'objectif de la recherche, des utilisateurs finaux proposés
de l'échelle et des ressources disponibles.
Nous espérons cependant qu'en décrivant la forme générale des phases et des étapes du développement à l'échelle,
les chercheurs seront en mesure de choisir délibérément les étapes à inclure, plutôt que d'omettre une étape
par manque de connaissances.
Des échelles bien conçues sont à la base d'une grande partie de notre compréhension d'une gamme de phénomènes,
mais s'assurer que nous quantifions avec précision ce que nous prétendons mesurer n'est pas une mince affaire.
En rendant le développement à l'échelle plus accessible et plus transparent, nous espérons faciliter l'avancement
de notre compréhension d'une gamme de résultats sanitaires, sociaux et comportementaux.
Abstract
Méthodes et objectif : manière dont l'utilisation d'approches de recherche athéorique et confirmatoire peut aboutir
à l'identification d'une liste illimitée de «nouvelles» addictions comportementales.
Conclusions: Nous avons suggéré que les études surpathologisant les activités de la vie quotidienne sont
susceptibles de susciter une évaluation dédaigneuse de la recherche sur la dépendance comportementale.
Introduction
Doctorant qui ce centre uniquement sur son CV et ses publication : ce doctorant répond aux critères d'un nouveau
sous-type de bourreau de travail appelé « Recherche Addiction ».
• Pas pris en compte : vivre avec son père, exposé à des abus psychologiques, n’a jamais été en couple
à c’est complètement absurde or c’est présent dans beaucoup de recherches
La manière dont l'utilisation d'approches athéoriques et confirmatoires dans la compréhension des comportements
excessifs pourrait aboutir à l'identification de ces «nouvelles» addictions comportementales maladroites à
Comme nous l'expliquerons, nombre de ces construits résultants n'ont ni spécificité ni validité externe et clinique.
Exemple : altérations neurobiologiques similaires ont été observées dans les troubles liés au jeu et aux drogues.
Déficiences analogues dans les mécanismes cognitifs ont été identifiées, y compris un niveau élevé d'impulsivité,
un mauvais contrôle exécutif descendant, la myopie vers des résultats retardés des choix et une hypersensibilité
aux signaux liés à la dépendance
• Section 3 du DSM-5, « trouble du jeu sur Internet ».
56
Cette inclusion est discutable et peut-être prématurée, car plusieurs incohérences de classification dans les études
antérieures ainsi que de faibles preuves concernant son étiologie et son évolution. Plusieurs études
épidémiologiques et programmes de recherche ont été fait.
En partant du lien entre troubles du jeu et l’usage de substance à les chercheurs ont conceptualisé un large éventail
de comportements quotidiens comme de « nouvelles » dépendances comportementales potentielles.
Les exemples de conduites dysfonctionnelles souvent décrites comme des dépendances comportementales
comprennent l'hyper-sexualité, les achats compulsifs, la frénésie alimentaire, l'implication excessive au travail ou
l'exercice physique excessif
à l’implication excessive dans tout type d'activité puisse être considérée comme un trouble psychiatrique
à Ce phénomène est susceptible d'entraîner une surpathologisation sévère des comportements quotidiens.
Le principe derrière la création de nouveaux diagnostics de dépendance comportementale est souvent assez simple
et suit principalement une approche athéorique et confirmatoire en trois étapes (exemple dans l’encadré).
1 Sur la base d'observations, le comportement visé est a priori considéré comme un comportement addictif
2 Des outils de dépistage sont développés selon les critères traditionnels de toxicomanie
3 Des études sont menées pour déterminer si les facteurs de risque connus pour jouer un rôle dans le
développement et le maintien de la toxicomanie sont associés au nouveau trouble addictif.
Exemple : engagement élevé dans le tango argentin considéré comme une dépendance comportementale.
1 être accro au tango
2 développer un questionnaire basé à la fois sur les critères du DSM-IV pour la dépendance aux substances
et sur les critères de Goodman (1990) pour les troubles de dépendance
3 établir les corrélats biopsychosociaux de la nouvelle addiction comportementale identifiée en s'appuyant
sur les preuves disponibles en matière de toxicomanie
Sans surprise, ces études ont presque systématiquement mis l'accent sur des relations modérées à fortes entre les
constructions ciblées (par exemple, les traits d'impulsivité) et la présence de symptômes de dépendance.
• Les items évaluant le construit ciblé étaient basés sur le cadre de la toxicomanie, il est évident que des
corrélations avec des facteurs de risque établis pour les troubles liés à la toxicomanie seront trouvées.
Cet exemple est fictif mais il existe des cas aussi malheureux que celui-ci dans la littérature.
• Block : la tolérance, dans le cadre de la dépendance à Internet, « se traduit par le besoin d'un meilleur
équipement informatique, de plus de logiciels ou de plus d'heures d'utilisation »
• Chóliz : la tolérance, dans le cadre de la dépendance à la téléphonie mobile
Le problème intrinsèque d'une telle approche athéorique et confirmatoire est qu'elle manque de spécificité.
Ainsi, sur la base d'études quantitatives déductives, les nouvelles dépendances comportementales sont décrites,
ainsi que leurs critères diagnostiques et leur prévalence dans la communauté.
• De plus, ces études reposent souvent sur l'hypothèse que, comme la nouvelle catégorie qu'ils ont
développée ne concerne qu'une petite partie de l'ensemble de l'échantillon, elle identifie le désordre.
• Tous les troubles ne sont pas rares (par exemple, la dépendance à la nicotine), et inversement les
conditions les plus rares (HPI) ne sont pas des troubles
La plupart des études menées pour identifier de nouvelles addictions comportementales ne prennent pas en
compte deux facteurs qui sont à notre avis obligatoires pour définir un état pathologique :
• la déficience fonctionnelle (i.e. impact délétère significatif sur la vie quotidienne) et
• la stabilité du comportement dysfonctionnel
57
Syndromes VS Processus
La principale conséquence d'une telle approche : les personnes qui présentent des symptômes de dépendance
comportementale sont généralement traitées avec des interventions standardisées qui se sont avérées efficaces pour
les patients présentant des problèmes de toxicomanie.
• Cette approche est centrée sur le diagnostic et elle néglige les processus psychologiques (motivationnels,
affectifs, cognitifs, interpersonnels et sociaux) soutenant l'implication dysfonctionnelle dans un
comportement spécifique
Illustration : la fonction des jeux multijoueurs en ligne (MOG) est fondamentale pour comprendre leur utilisation
excessive.
Du coup identifier les différents motifs individuels (accomplissement de jeu, stratégie d’évitement, anxiété
sociale) qui animent le jeu en ligne est une condition nécessaire pour comprendre un usage dysfonctionnel et pour
l'élaboration d'interventions psychologiques adaptées
• chacun de ces sous-types nécessitera des interventions psychologiques distinctes et individualisées
À un niveau plus global, une décennie de recherche à la fois qualitative et empirique soutient que l'implication
problématique dans la MOG dépend d'une constellation de facteurs qui sont propres à cette activité et non
nécessairement pertinent lorsque l'on considère d'autres types de « dépendances à Internet »
• Souligner la nature multiforme et l'hétérogénéité de ces troubles trop souvent négligées au profit d'une
description symptomatique simpliste
Changements voulus :
• Révision de la définition du trouble mental parce qu’il y a une faible validité des catégories
diagnostiques défini par le DSM-5
Ce changement n’a pas été fait et cela accentue plusieurs problèmes et risques des versions précédentes
notamment :
• Une fidélité test-retest faible
• Nouvelles catégories diagnostiques avec une validité contestable
o Trouble dysphorique prémenstruel
o Trouble de dérégulation dit d’humeur explosive
o Trouble de symptômes somatiques
o Trouble neurocognitif léger
à psychiatrisation du vécu des personnes
Jeu pathologique
• Dans le DSM-4 : trouble du contrôle des impulsions, alors que dans le DSM-5 : trouble d’utilisation de
substance
• Première reconnaissance du concept de dépendance comportementale (Addiction) en tant qu’état
pathologique ou maladie.
• D’autres type d’addiction ont été décrit ce qui a conduit à une sur-pathologisation de la vie
quotidienne
o Addiction : au sexe, au travail, à l’exercice physique, au shopping, à l’attachement aux autres,
à l’utilisation d’internet, au bronzage, à la cartomancie, à la danse (au tango)
58
La conception essentialiste des difficultés psychologiques : caractérisation et limites
DSM-5 constitue l’émancipation la plus tangible d’une conception essentialiste et catégorielle des difficultés
psychologiques
• Les difficultés psychologiques sont traduites en catégories diagnostiques de troubles mentaux
lesquelles sont considérées comme ayant une essence
• Cette essence est partagées par tous les individus qui ont se trouble et par aucun ne l’ayant pas
Critiques
• Pas adaptée à la variabilité observée au sein d’une catégorie diagnostique
• Existence d’une très grande comorbidité
• Présence d’étiologies multiples
• Interactions probabilistes entre causes et conséquences
Elle néglige que la plupart des difficultés psychologiques qui se situent au sein d’un continuum incluent des
expériences normales.
à revue qualitative des recherches taxométriques portant sur 177 articles (Haslam, Holland et Kuppens, 2012)
concluent que la plupart des troubles psychopathologiques (troubles de l’humeur, anxieux, alimentaire, internalisé
et de personnalité) sont des troubles de nature dimensionnelle et non pas catégorielle
Le diagnostic d’épisode dépressif majeur selon le DSM-5, il faut (critère A) manifester au moins cinq symptômes
présents pendant deux semaines au minimum et qu’ils constituent un changement par rapport au
fonctionnement antérieur.
Ces cinq symptômes sont à identifier parmi les neuf symptômes suivants :
1. humeur dépressive ;
2. diminution marquée d’intérêt ou de plaisir ;
3. perte ou gain de poids/diminution ou augmentation de l’appétit ;
4. insomnie ou hypersomnie ;
5. agitation ou ralentissement psychomoteur ;
6. fatigue ou perte d’énergie ;
7. sentiment de dévalorisation ou de culpabilité excessive ou non appropriée ;
8. diminution de l’aptitude à penser ou à se concentrer ou indécision ;
9. pensées de mort récurrentes (idées suicidaires).
Un des symptômes (obligatoire pour le diagnostic) doit être une humeur dépressive ou une diminution d’intérêt ou
de plaisir.
Remarques
Certains des symptômes dépressifs repris dans ce critère regroupent en fait des dimensions symptomatiques
distinctes (perte de plaisir ou d’intérêt, fatigue ou perte d’énergie, sentiment de dévalorisation ou de culpabilité
excessive ou non appropriée), ainsi que des dimensions symptomatiques opposées (perte ou gain de
poids/diminution ou augmentation de l’appétit, insomnie ou hypersomnie, agitation ou ralentissement
psychomoteur).
Le fait d’attribuer un diagnostic d’épisode dépressif majeur à une personne qui présente au moins 5 symptômes
dépressifs pendant deux semaines au minimum participe à la pathologisation croissante du fonctionnement
psychologique.
59
Le DSM-5 a retiré le deuil en tant que critère d’exclusion de l’épisode dépressif majeur et, ce faisant, a
transformé le chagrin normal en trouble dépressif
• en ne prenant pas en compte le contexte dans lequel les manifestations dépressives apparaissent, le DSM
tend à pathologiser ce qui est le plus souvent une réaction normale à des situations personnelles et sociales
difficiles.
Problèmes
• données taxométriques et psychométriques indiquent que la dépression pas une catégorie discrète, mais
doit plutôt être envisagée comme une dimension
• l’importante comorbidité de la dépression avec d’autres types de troubles, tels que le trouble d’anxiété
généralisée et l’état de stress post-traumatique
• hétérogénéité des diagnostiques : les critères diagnostiques de la dépression selon le DSM-5 peuvent
produire un nombre considérable de combinaisons de symptômes, conduisant toutes au même diagnostic
de dépression (227 façons d’obtenir le diagnostic)
o le profil le plus courant étant observé par seulement 2 % des personnes
o environ 14 % des personnes présentaient des profils uniques, non partagés par une seule autre
personne.
En réalité
• les différents symptômes de la dépression ne sont pas équivalents et interchangeables
• L’influence de différents facteurs de risque variait significativement selon les symptômes individuels de
la dépression majeure.
• les symptômes de la dépression majeure variaient fortement, et de façon spécifique, dans leur relation
avec la perturbation du fonctionnement psychosocial (symptômes en lien avec différents domaines
: affectif, cognitif, somatique, motivationnel)
• Nécessité de dissocier les dimensions symptomatiques opposées
• la majorité des symptômes varient dans leur influence selon les domaines (travail, relation …)
• la présence des différents symptômes dépressifs variait en fonction du type d’événements de vie négatifs
auquel était confrontée la personne.
Pour résumer : la très importante hétérogénéité des manifestations symptomatiques de la dépression et des
relations qu’entretiennent les symptômes dépressifs individuels avec différents facteurs de risque et diverses
perturbations du fonctionnement psychosocial permet de mieux comprendre pourquoi des marqueurs
biologiques spécifiques de la dépression n’ont pas pu être identifiés et pourquoi les antidépresseurs n’ont qu’une
efficacité marginale par rapport au placebo
Le type de traitement offert est moins important que le fait d’impliquer les personnes dans un programme
d’intervention active
60
Une autre approche des difficultés psychologiques
Les limites de l’approche essentialiste, Kendler et al. (2011) ont suggéré d’adopter une approche Mechanistic
Property Cluster (MCP)
• les problèmes psychopathologiques sont définis, non pas en termes d’essence, mais en termes de réseaux
complexes de mécanismes causaux se renforçant mutuellement.
Les individus ayant un type particulier de problème psychopathologique se ressemblent parce que les mécanismes
causaux induisent, de façon régulière, la co-occurrence de certaines caractéristiques ou propriétés (un
cluster)
à Cependant, certains clusters peuvent partager des propriétés
Les relations entre des mécanismes causaux et les symptômes ont souvent un caractère probabiliste à autrement
dit, des mécanismes causaux peuvent simplement changer le risque ou la probabilité qu’un symptôme ou un
ensemble de symptômes apparaisse
• Le même ensemble de symptômes peut provenir de mécanismes étiologiques différents.
Une approche du type MCP devrait conduire à de nouvelles propositions de classification des troubles.
Limites :
• le nombre potentiellement important de mécanismes impliques,
• leur chevauchement
• leurs interactions font qu’un appariement simple et unique entre mécanismes et diagnostic s’avèrera
vraisemblablement impossible
Exemple, la chaîne suivante : évènement négatif (par exemple, rupture amoureuse) à humeur négative à
sentiment de culpabilité à insomnie à fatigue à problèmes de concentration.
Ces réseaux de symptômes sont par nature transdiagnostiques, dans la mesure où les troubles (considérés
comme des clusters de caractéristiques ou de propriétés co-occurrentes) peuvent partager des symptômes ou
« partager des symptômes avec des troubles qui partagent des symptômes avec des troubles qui... »
En reprenant l’exemple fourni par Borsboom et al., l’insomnie est un symptôme commun à la dépression majeure
et au trouble d’anxiété généralisée et il peut être provoqué par un sentiment de culpabilité (symptôme de la
dépression) ou par une anxiété chronique (symptôme du trouble d’anxiété généralisée). Par ailleurs, l’insomnie
peut à son tour influencer l’humeur depressive (symptôme de la dépression) ou l’irritabilité (symptôme de l’anxiété
généralisée).
Ainsi, l’insomnie établit un pont entre les deux troubles et, trouvant son origine chez la personne elle-même,
elle constitue un facteur transdiagnostique interne. En revanche, la rupture amoureuse représente un facteur
transdiagnostique externe.
• Cette approche en réseau permet aussi de rendre compte des importantes différences individuelles
dans l’expression symptomatique.
61
Remarque : En fonction de différences dans les forces de connexion entre symptômes, les réseaux de deux
personnes peuvent réagir différemment au même évènement négatif, avec une probabilité différente que
certains symptômes soient activés.
En même temps, on peut également s’attendre à une comorbidité importante, du fait de la propagation
d’activation au sein du réseau via des symptômes-ponts et des facteurs transdiagnostiques.
Les connexions les plus fortes sont uniformément positives, c’est-à-dire que, en général, quand la gravité d’un
symptôme change, les autres symptômes changent dans la même direction.
• analyses de centralité permettant de déterminer l’importance ou l’influence d’un symptôme dans
l’acheminement de l’information au sein du réseau
• certains symptômes ont une influence plus grande sur la propagation symptomatique que d’autres
• il est nécessaire de ne pas se limiter à l’évaluation des symptômes dépressifs de type DSM, lesquels ont
été établis davantage pour des raisons historiques qu’empiriques
Résumé
Au plan clinique, il s’agirait de déterminer la centralité symptomatique individuelle, à savoir identifier, pour une
personne donnée, quel symptôme a l’influence la plus importante, ce qui conduirait à en faire la cible prioritaire
d’une intervention.
Notons que les apports d’une approche en réseaux de symptômes ont été envisagés pour d’autres types de troubles
que la dépression et, en particulier, pour l’état de stress post-traumatique et le deuil complexe persistant.
Conclusion
En gros : arrêter de concevoir la souffrance et les difficultés psychologiques comme les symptômes d’une
maladie et il faut donc s’affranchir des diagnostics catégoriels du type DSM.
• Une description détaillée et rigoureuse des expériences, problèmes, symptômes ou plaintes spécifiques
des personnes constitue une alternative scientifiquement plus valide et suffisante pour servir de base à
une planification des interventions et à la communication avec la personne qui consulte et avec d’autres
professionnels
à établir une liste n’est pas suffisant !!!
Il s’agit aussi d’en comprendre la nature et cela passe, pour les psychologues clinicien(ne)s, par le
développement d’une formulation psychologique qui tentera de décrire pourquoi une personne présente certaines
difficultés et ce, en se référant à des théories psychologiques empiriquement fondées.
Il s’agira également d’identifier le réseau de relations que peuvent entretenir ces difficultés et de déterminer les
symptômes caractérisés par un haut niveau de centralité au sein de ce réseau.
Kinderman (2005, 2014) a présenté un cadre théorique général, un modèle des processus psychologiques
médiateurs
• Les processus psychologiques sont conçus comme des médiateurs de la relation entre, d’une part, les
facteurs biologiques, sociaux et circonstanciels, et d’autre part, les problèmes psychologiques
• la précarité sociale et des expériences traumatiques et de maltraitance constituaient de forts prédicteurs
de niveaux élevé d’anxiété et de dépression
• l’anxiété et la dépression entaient associées à la présence d’évènements négatifs de vie, avec un effet
médiateur de la rumination
Comme le relèvent d’ailleurs Kinderman et ses collaborateurs, l’élaboration d’un plan d’intervention doit
bien entendu être dictée par une formulation psychologique individuelle.
62
La formulation d’une interprétation psychologique individuelle doit prendre en compte :
• la co-occurrence de difficultés différentes
• leur caractère multifactoriel et
• l’hétérogénéité des mécanismes qui les sous-tendent.
Il s’agit dès lors d’examiner différents types de processus psychologiques (cognitifs, affectifs, motivationnels,
relationnels, identitaires) et de tenter de les intégrer dans une interprétation cohérente, conduisant aussi à
l’identification, autant que possible, du rôle des facteurs biologiques, sociaux et circonstanciels.
Une telle approche, centrée sur la personne, permet d’aborder la dynamique du fonctionnement psychologique
dans toute sa complexité́ et dans son expression unique.
Elle s’inscrit également aisément dans une approche transdiagnostique selon laquelle certains processus sont
partagés par plusieurs types de difficultés psychologiques.
Les interventions psychologiques doivent être taillées sur mesure en fonction des problèmes spécifiques de la
personne : des interventions à plusieurs facettes complémentaires, focalisées sur différents processus
psychologiques (voir Van der Linden, Ceschi & Billieux, 2015).
Parallèlement, des interventions doivent également être envisagées au niveau social, afin d’améliorer les
conditions de vie (précarité, isolement, chômage, maltraitance, etc.) des personnes qui consultent, ainsi qu’au
niveau médical.
• Cette approche conduit à envisager autrement les structures de santé mentale, avec notamment la mise en
place d’équipes multidisciplinaires
• Pour les personnes en crise, des structures résidentielles peuvent s’avérer nécessaires, mais elles devraient
être articulées autour d’une perspective psychosociale et non médicale.
63