Académique Documents
Professionnel Documents
Culture Documents
Statistique
Détecter, évaluer dans le cadre de bilans neurologiques, de prise en change, ou la qualité de vie pour
un psychologue de travail.
B- Variable et échelles
1- Les différents types de variables
a- Variable Indépendantes (VI)
VI: Variable que l’expérimentateur manipule pour étudier leur influence sur le comportement du
participant. Au moins deux modalités
t1 : Modalité 1
t2 : Modalité 2
t1 : En lumière
t2 : Dans le noir → VI provoquée inter
ou intra-sujet
Intra-sujet : plan de recherche répétées (ou plan de croissement). Les participants passent toutes les
modalités de la VI.
Inter- sujet : plan de recherche à mesure indépendantes (ou plan d’emboitement). Les participants
ne passent qu’une modalité de la VI.
Intra-sujet :
Inter-
:
Snb de *1er lettre du nom * 1er lettre du nom ---- S30*T2*G3 sujet
Participants De la VI1 Nb de De la VI1 Nb de
modalité modalité
Snb de <1er lettre du nom * 1er lettre du nom > -- S30<T2*G3>
Participants De la VI1 Nb de De la VI1 Nb de
Par condition modalités modalités
- Notation des plans d’expérience intra-sujet et inter-sujet : plan de recherche mixte
Snb de <1er lettre du nom > * 1er lettre du nom -- S30<T2>*G3
Participants De la VI1 Nb de De la VI1 Nb de
Par condition modalités modalités
S’il y a plusieurs VI intra sujet et/ou plusieurs inter-sujet, alors on applique les mêmes règles
précédentes.
Les variables dont les effets nuisibles ont été neutraliser devient une variable contrôlée
Exemple : ‘’il faut arrêter de faire des jeux vidéo violents. Ceux qui y jouent sont plus violent que
ceux qui joue à des jeux non violent’’ la personnalité n’a pas été prise en compte.
Stratégie de contrôle :
- Si on connait la variable confondue : analyser en conséquence
- S’entourer de personnes qui connaissent bien la littérature scientifique que le domaine ; ou
faire une revue de littérature poussée sur le sujet
- Réaliser une recherche expérimentale plutôt qu’une enquête (recherche corrélationnelle), ou
faire une enquête à mesure répétées au cours du temps, c’est-à-dire une enquête
longitudinale
C’est par l’accumulation des preuves que l’on arrive à améliorer la compréhension d’un
phénomène donné.
b- l’effectif
L’effectif de la modalité est le nombre d’observation de cette modalité (noté ni)
L’effectif d’une modalité est le nombre de fois où cette modalité apparait dans la série statistique
Exemple :
Note sur 20 Effectif
(xi) (n)
7 34
9 55
12 12 +
+
13,25 75
+
15 37
+
17,33 12
+
N=225
c- la fréquence (%)
Rapport d’un effectif par un effectif total
La fréquence relative d’une classe est le rapport de son effectif à l’effectif total (noté f)
La fréquence en pourcentage est la fréquence relative exprimée en % (noté f(%))
Exemple :
Note sur 20 Effectif Fréquence
(xi) (n) (%)
7 34 15,11
9 55 24,44 + La somme doit être
12 12 5,33 + égale ou proche de
13,25 75 33,33 + 100%
15 37 16,44 +
17,33 12 5,33 +
Exemple :
Notes sur 20 n f(%) nc fc (%)
(x)
7 34 15,11 34 15,11
9 55 24,44 89 39,55
12 12 5,33 101 44,88
13,25 75 33,33 176 78,21
15 37 16,44 213 94,65
17,33 12 5,33 225 99,98
2- le mode
a – définition
Le mode est la modalité qui à le plus grand effectif, la plus grande fréquence
Il est noté Mo
b- Exemples
Avec une variable qualitative
COULEUR n
Rouge 34
Noir 55
Jaune 12
Bleu 75
Violet 37
Vert 12
- Le mode est ‘’bleu’’
- L’effectif modal est de 75
3- La médiane
a- Définition
La médiane est la valeur de la variable qui partage en partie égales (ou en deux sous-ensembles
égaux) la population.
Elle divise une série statistique ordonnée en deux ensembles comportant chacun 50%.
50% des valeurs sont supérieur à la médiane et 50% inférieur.
4 Médiane 4
Si échantillon paire :
5 – 49 – 52 – 55 - 56 – 62 – 63 – 68 – 74 – 89
Médiane = (56+62) / 2 = 59
Lorsque le nombre de la modalité est paire, on fait la
moyenne des deux modalités du milieu.
ATTENTION : Quand on calcule la formule, le résultat n’est pas la médiane ! le résultat nous
indique sa place. Il faut ensuite regarder dans la série de données (colonne nc).
POID (kg) n nc
45 4 4 Va de 1 à 4
49 7 4+7 = 11 Va de 5 à 11
55 28 = 39 Va de 12 à 39
62 75 = 114
68 36 = 150 Va de 40 à 114
Va de 115 à 150
Médiane = 62
Calcule de médiane :
1) Ordonner les données
2) Calculer les effectifs cumulés (nc)
3) Déterminer le rang médian (la place de la médiane dans la série) en appliquant la formule
(N+1) / 2
4) Le situer dans les effectifs (colonne nc) et repérer la valeur correspondante (colonne x)
Cas particulier n°2 : avec une variable ordinale, on choisit de considérer comme médian celui
qui est immédiatement au-dessus (chiffre le plus grand).
(Degré de motivation à suivre une session de formation : 1 = très peu motivé, 2 = peu motivé, 3 =
motivé, 4 = très motivé)
x n nc
-> Ainsi, eux séries statistiques peuvent avoir une même moyenne mais présenter un étalement
différent autour de cette valeur.
Lorsque la dispersion est faible, cela signifie que les résultats sont concentrés autour de la
moyenne (A)
La dispersion est dite forte si les résultats sont très hétérogènes, très dispersés autour de la
moyenne (B)
TD 05/10
5. L’étendue
a . Définition :
L’étendu de la distribution correspond à la différence, ou l’écart entre la plus grande et la plus petite
modalité observée.
on regarde dans la colonne des modalités (‘’x’’)
Etendu = Xmax – Xmin
Il faut donc que l’échelle utilisée soit une échelle numérique
6. L’écart interquartile
a . définition
Il comprend 50% des observations les plus centrales. Soit l’espace compris entre les quartiles 1 & 3
Q1 = la valeur en dessous de laquelle se trouvent 25% des observations inférieurs
Q2 = la médiane, soit la valeur en dessous de laquelle se trouvent 50% des observations inférieurs
Q 3 = la valeur en dessous de laquelle se trouvent 75% des observations inférieures
Ce sont des types de quantiles : ils découpent les valeurs de l’échantillon (ordonnée de la plus petite
à la plus grande) en un nombre déterminé de sous-parties.
7. L’écart type
a . Définition
Il sert à caractériser l’écart plus ou moins grand de l’ensemble des valeurs par rapport à la valeur
moyenne (noté ‘’s’’ ou σ)
Plus il y a d’hétérogénéité des scores dans un échantillon, plus l’écart type
correspondra à une valeur élevée, à l’inverse, un échantillon plus homogène
constitué de scores concentrés autour de la moyenne, donnera un écart type plus
petit :
Ces deux courbes représentent des distributions qui ont la même moyenne et des écarts-types
différents.
Pour trouver un indice qui reflète les diversités des écarts des observations par rapport à la
moyenne :
Prendre la valeur absolue de chaque écart (=écart-moyen), mettre au carré ces écarts (=variance ou
carré moyen)
Ici, on va additionner les écarts au carré plutôt que les écarts eux-mêmes
Exemple :
Pour les nombres 1, 2 et 3, par exemple, la moyenne (m) est 2 : Variance = [(1
- 2)2 + (2 - 2)2 + (3 - 2)2] ÷ 3 = 0,667
La variance pour une population Variance pour un échantillon
Degré de liberté : Facteur à prendre en compte dans le calcule des indices basés sur les échantillons
pour qu’ils deviennent des estimateurs non-biaisés de la population.
Exemple : 4 scores, 8, 6, 4 et 10
Moyenne ici : 7
Si je veux changer librement les valeurs des scores (en gardant une moyenne identique) : je vais
pouvoir changer mes trois premières valeurs librement.
8, 6, 4
Si ma moyenne est toujours égale à
7, je n’aurai pas le choix pour le
2, 5, 1… et 20 dernier score. Il devra être de 20
Voila pourquoi nous perdons un degré de liberté (ddl) en calculant l’écart-type d’un
échantillon (s). Dans le cas de l’écart type de la population (), tous les paramètres sont
connus, aucun ddl n’est perdu et le dénominateur reste N
= total de
=
Concrètement : pour trouver les valeurs
x n n.x x² n.x²
1 2 2
2 3 6 2x1 = 2
3 5 15 3x2 = 6
4 7 28 5x3 = 15
5 2 10 …
6 5 30
7 0 0
8 1 8
9 9 81
10 4 40
Total 38 220
x n n.x x² n.x²
1 2 2 1
1² = 1
2 3 6 4
2² = 4
3 5 15 9
3² = 9
4 7 28 16
…
5 2 10 25
6 5 30 36
7 0 0 49
8 1 8 64
9 9 81 81
10 4 40 100
Total 38 220
x n n.x x² n.x²
1 2 2 1 2 2x1 = 2
2 3 6 4 12 3x4 = 12
3 5 15 9 45 5x9 = 45
4 7 28 16 112 …
5 2 10 25 50
6 5 30 36 180
7 0 0 49 0
8 1 8 64 64
9 9 81 81 729
10 4 40 100 400
Total 38 220 1594
S = 2,94
On récapitule : Quand utilisé quoi ?
Il est utilisé par exemple pour comparer un même caractère dans deux populations différentes
8. La loi normale
a. La loi normale : le principe
Plus nous avons d’observations dans notre échantillon, plus les valeurs accumulées sont le reflet de
ce qui se passe dans la nature
Si l’on retranscrit cette courbe des effectifs en densité de probabilité, comment interpréter cette
courbe ?
Nous avons une forte probabilité de tomber sur un individu de taille moyenne si on tire au
hasard un individu dans notre population
Nous avons une moins forte probabilité de tomber sur une personne de plus en plus petite ou
de plus en plus grande (qui sont fortement éloigner de la moyenne)
Le coefficient de symétrie (skewness) : une distribution normale est symétrique et possède une
valeur de skewness de 0
Méthode de calcul :
Le coefficient d’asymétrie de Yule :
Mesure l’asymétrie de la distribution en tenant compte des positions relatives des quartiles 1 et 3
par rapport à la médiane (Q2)
Coefficient de Pearson :
x n nc
159 3 3
160 5 8
162 7 15 Rang Q2 (médiane) : (N+1) / 2 = (90+1) / 2 = 45,5
164 8 23 Q2 = 169
167 12 35
169 15 50 Moyenne = 170,62
173 13 63 Ecart-type = 6,97
178 16 79
180 6 85
183 4 89
185 1 90
La distribution est très légèrement étalée à droite
c. Le coefficient d’aplatissement
(kurtosis)
Kurtosis : ¿
m 4
4
( é c a r t −t y p e )
Fisher propose ensuite une modification pour rendre l’indice K directement comparable à la loi
normale : soustraire 3 au Kurtosis donnant l’indice K’
Exemple :
J’ai passé un teste d’orientation spatiale avec 45 personnes
Ma distribution est-elle aplatie ? coefficient de Fisher
4 x 406,43 = 1625,72
17 10 1,49 4,93 49,29
19 7 3,49 148,35 1038,48
20 4 4,49 406,43 1625,72
TOTAL 45 9364,91
¿
¿
9364 , 91 = 208, 11
45
K’ = 2,13 – 3 = 0,87
¿
208,11 = 2,13
(3,15 )4
La plupart des tests statistiques font l’hypothèse à priori que les variables sur lesquelles portent les
hypothèses suivent des distributions normales
Pour savoir si une variable quantitative suit une loi normale, on doit étudier la forme de la
distribution (ou effectuer un test de normalité ‘’test de Shapiro-Wilks’’ comparant la courbe
observée à la courbe théorique.
Note pour plus tard : avant d’effectuer un test statistique impliquant que les données suivent
une distribution normale, vérifier avant en étudient la forme de la distribution
La valeur Z exprime la distance d’une observation par rapport à la moyenne en nombre d’écart-
type.
c. comparer en passant de X à Z
Exemple : jeanne a passé deux concours de professeur des écoles.
Jeanne se situe donc à =1.25 écart-type de la moyenne pour le concours de Nantes et à seulement
=0,75 écart-type de la moyenne pour le concours de Lyon.
Pour remédier à cela, on peut effectuer une transformation des notes Z telle que la moyenne des Z
ne sera plus 0 mais 100 par exemple.
Cette nouvelle moyenne est choisie de telle sorte que l’on ait plus de notes Z négative
Pour évaluer la proportion d’individus ayant une taille supérieure ou égale à 180cm :
on opère le changement de x en z :
z
¿
x −m o y e n n e
¿
é c a r t − t y p e
¿
180 − 170 = 1,63
¿
6,12
ATTENTION : lorsque le score brut x est supérieur à la moyenne, le score z calculé est positif
(comme c’est le cas ici). Ici, le résultat trouvé après avoir divisé par deux correspond à la proportion
d’individus du z jusqu’à l’extrémité droite de la distribution
Avec un score z positif, il faut calculer la proportion complémentaire pour pouvoir répondre à la
question ‘’quelle est la proportion d’individus ayant une taille inférieure ou égale à…’’
Pour évaluer la proportion d’individus ayant une taille inférieure ou égale à 155cm : on
opère le changement de x en z
¿
= -2,45
z
¿
x− m o y e n n e 155 −170
¿
é c a r t− t y p e ¿ ¿ 6,12
On lit ensuite dans la table la probabilité associée au score z trouvé (-2,45) : Même si la valeur est
négative, on cherche dans la table à 2,45.
P = 0.01429 soit 1,43% de sujets qui se trouvent d’un côté et de l’autres (probabilité bilatérales). On
s’intéresse seulement au côté gauche de la courbe, donc on divise par 2
0,71% des individus ont une taille inférieure ou égale à 155cm
ATTENTION : lorsque le score brut x est inférieur à la moyenne, le score z calculé est négatif
(comme ici). Ici, le résultat trouvé après avoir divisé par deux correspond à la proportion
d’individus du z jusqu’à l’extrémité gauche de la distribution :
Avec un score z négatif, on peut donc directement répondre à la question ‘’quelle est la proportion
d’individus ayant une taille inférieure ou égale à…’’
Avec un score z négatif, il faut calculer la proportion complémentaire pour pouvoir répondre à la
question ‘’quelle est la proportion d’individus ayant une taille supérieure ou égale à…’’
Il est aussi possible de connaître la proportion d’individus entre deux scores z connus.
On cherche ensuite à partir de quelle taille on a 10% des individus les plus grand.
La table est bilatérale : on va chercher à p = .200
On trouve p = 0.20055 qui correspond à la ligne 1.2 et à la colonne 0.08, donc : z = 1.28
On remplac e ensuite z dans : x = z x écart-type + moyenne
X = (1,28 x 6,12) + 170 = 177, 83