Vous êtes sur la page 1sur 24

06/09

Statistique

Les statistiques sont différents des Mathématiques


> Elles analysent quelque chose de social et non uniquement des chiffres

A- Statistique : Pourquoi et Comment


B- Variable et échelles
C- Indices de Tendance Centrale
D- Indices de dispersion
E- La loi normale
F- Indice de Khi-deux, Phi et V de Cramer
G- Introduction à la corrélation

A- Statistique : Pourquoi et Comment.


1- Pourquoi : Quels sont les intérêts

Statistique : Outils permettant de synthétiser, résumer, comparer ou mettre en relation un ensemble


de donné.
Dans le domaine de la science : - Généraliser à une population des comportements, des stratégies
cognitives ou des états mentaux à partir d’un échantillon de cette population.
- Inférer à une population des comportements, des stratégies
cognitives ou des états mentaux à un échantillon ou à un individu à partir des caractéristiques de la
population.

Détecter, évaluer dans le cadre de bilans neurologiques, de prise en change, ou la qualité de vie pour
un psychologue de travail.

Il sert également à devenir plus clairvoyant : Les statistiques changent en fonction de la


personnalité de ,l’expérimentateur sur un même sujet. - Population
- Contexte Variations
- Phénomène

2- Comment : Dans quel cadre ?


a- Connaître par l’enquête ( Recherche corrélationnelle)
Dispositif de recherche don l’objet porte sur des phénomènes naturels.
Enquête = - Entretien -Observation -Questionnement

b- Connaître par l’expérimentation (Recherche expérimentale)


Reproduction contrôlée d’un phénomène qui vise à tester une hypothèse.
Deux types d’analyse de statistiques

Statistique descriptive Statistique inférentielle


- Explorer des donnés → décrire - Faire des hypothèses
- Mesure et indice - Faire des prédictions
- Représentation graphique - Généraliser à une population donnée (face à un
phénomène)
→ On émet puis on vérifie
Ex : - Calculer la moyenne des groupes de TD Ex : - Vérifier si l’effet d’un médicament est réel
- Résumer les résultats d’un sondage ou dû au hasard
- Tracer la courbe d’évolution du tôt de chômage - Prédire les résultats des élections à partir des
depuis la COVID intentions de vote de 10 000 personnes
(Toujours en fonction d’une population donner)
“ La longueur des phrases dans “ Tchoupi fait du “ La longueur des phrases dans “ Tchoupi fait du
vélo ” est de 5,6 mots ” vélo ” est significativement plus courte que dans
“ Madame Bovary ”
(Intégration d’une donné connu/ Comparaison)

B- Variable et échelles
1- Les différents types de variables
a- Variable Indépendantes (VI)
VI: Variable que l’expérimentateur manipule pour étudier leur influence sur le comportement du
participant. Au moins deux modalités

Motivation interne = Si cela procure du plaisir


Motivation externe = Facteur extérieur Modalité de la motivation

→ On distingue deux variants de VI : La provoquée ou la invoquée


Provoquée : Quel est l’incidence sur le sujet
Exemples : Durée de l’entraînement, Temps de présentation à un stimulus, Type de tâche à
réaliser…
Invoquée : Inhérent à la personne
Exemples : Couleur des yeux, Sexe, Age, Taille, QI, Niveau de scolarité, Catégorie Socio-
professionnel, Nationalité…

→ Et deux types de VI : Les intra-sujet ou les inter-sujet


VI intra-sujet : Soumet les participants à chacune des modalités de la variable. Les
comportements sont mesurés à plusieurs reprise.
“ Plan de recherche à mesure répétées ”
VI inter-sujet : Soumet chaque participant à une seule modalité. Des groupes sont alors créés.
“ Plan de recherche à groupe dépendant ”
Notation des Variables Indépendantes

VI1² : Titre de la variable

t1 : Modalité 1
t2 : Modalité 2

Exemples : VI1² : Luminosité

t1 : En lumière
t2 : Dans le noir → VI provoquée inter
ou intra-sujet

- Notation des plans d’expérience à 1 facteur : (=1VI)

Intra-sujet : plan de recherche répétées (ou plan de croissement). Les participants passent toutes les
modalités de la VI.

Snb de Participants *1er lettre du nom ---- S30*T2


De la VI Nb de modalité

Inter- sujet : plan de recherche à mesure indépendantes (ou plan d’emboitement). Les participants
ne passent qu’une modalité de la VI.

Snb de Participants <1er lettre du nom > ---- S30<T2>


Par condition De la VI Nb de
modalités

- Notation des plans d’expérience à plusieurs facteurs : (= au moins deux VI)

Intra-sujet :
Inter-

:
Snb de *1er lettre du nom * 1er lettre du nom ---- S30*T2*G3 sujet 
Participants De la VI1 Nb de De la VI1 Nb de
modalité modalité

Snb de <1er lettre du nom * 1er lettre du nom > -- S30<T2*G3>
Participants De la VI1 Nb de De la VI1 Nb de
Par condition modalités modalités
- Notation des plans d’expérience intra-sujet et inter-sujet : plan de recherche mixte

Snb de <1er lettre du nom > * 1er lettre du nom -- S30<T2>*G3
Participants De la VI1 Nb de De la VI1 Nb de
Par condition modalités modalités

S’il y a plusieurs VI intra sujet et/ou plusieurs inter-sujet, alors on applique les mêmes règles
précédentes.

Pour trouver : Nb total / Nb de modalité

b – Variable dépendante (VD)


La VD, c’est ce que l’on mesure = réponse du sujet.
Cette réponse est donc dépendante de la situation expérimentale que l’expérimentateur à créé.

Ex : VD= Nombre de mot retenu


VD (la conséquence) est donc le résultat de VI (la cause)
La Vi détermine, influence, modifie, donne la VD

c – Les variables parasites


Variable dite ‘’ externe’’ que l’expérimentateur ne veut pas étudier mais qu’il doit contrôler du fait
de son impact potentiel sur le phénomène.
 Il s’agit de toute variable non désirable qui influe sur la VD et qui, de se fait nuit à
l’établissement clair d’une relation entre la VI et la VD.

Exemple : Les conditions de passations (Bruit, heure de la journée…)

Plusieurs stratégies de contrôle :


- Eliminer les variables parasites
- Maintenir constantes
- Equilibrer
- Répartir aléatoirement (aléatoirisassions, randomisation)
- Le contre balancement : supprimer les effets d’ordres
- Appliquer les procédés en simple ou double aveugle

 Les variables dont les effets nuisibles ont été neutraliser devient une variable contrôlée

d – Les variables confondues (ou de confusions)


Type particulier de variables externe qui joue à la fois sur la cause que l’on cherche à étudier (VI) et
la conséquence (VD).

Exemple : ‘’il faut arrêter de faire des jeux vidéo violents. Ceux qui y jouent sont plus violent que
ceux qui joue à des jeux non violent’’ la personnalité n’a pas été prise en compte.
Stratégie de contrôle :
- Si on connait la variable confondue  : analyser en conséquence
- S’entourer de personnes qui connaissent bien la littérature scientifique que le domaine ; ou
faire une revue de littérature poussée sur le sujet
- Réaliser une recherche expérimentale plutôt qu’une enquête (recherche corrélationnelle), ou
faire une enquête à mesure répétées au cours du temps, c’est-à-dire une enquête
longitudinale

 C’est par l’accumulation des preuves que l’on arrive à améliorer la compréhension d’un
phénomène donné.

1- Les différents échelles de mesure


a - les échelles nominales
Variable qualitative qui correspond à des noms, des catégories sans aucun ordre précis.

Exemple : couleur préférer, sexe, marque de voiture, signe astrologique…

b- Les échelles ordinales


Variables qualitatives dont les modalités peuvent être hiérarchisées. Elles présentent entre elles une
relation d’ordre.

Exemple : grade militaire, niveau de scolarité, tranche d’age…

c – Les échelles numériques discrètes


Variable quantitative dont les écarts entre modalité sont comparables. Elle continuer des nombres
finis.

Exemple : nombre d’enfants, nombre d’étudient…

d- Les échelles numériques continues


Variable quantitative dont les écarts de modalité sont comparables. Toutes les valeurs d’un
intervalle réel sont acceptables.

Exemple : poids, temps de réponse, taille…

Echelle nominale Qualitative ou


Echelle ordinale Catégorielle
Echelle numérique discrète Quantitative ou
Echelle numérique continue Numérique

Passage d’une échelle à l’autre :


 On peut transformer une échelle numérique en échelle ordinale
- On demande l’âge des participants dans un questionnaire
- On peut décider après coup de constituer une variable qui considère des groupes d’âge pour
analyser/ rapporter les résultats (la variable devient alors ordinale).
Exemple : les répondants à la tranche d’âge 20-25 ans pensent que…

 Les classes doivent être :


- Exhaustives
- Exclusives : la réponse doit pouvoir aller à un seul endroit
- Equilibré : chaque classe doit regrouper le même nombres de valeurs
 Une échelle qualitative ne peut pas être transformé en échelle quantitative.

C- Résumer un ensemble de données : les indices de tendances centrales


1- Réaliser un tri à plat
a - Liste des modalités
Les différentes valeurs que prend la variable sont appelées ‘’modalités’’ (noté xi)
Exemple :
Note sur 20
(xi)
7
9
12
13,25
15
17,33

b- l’effectif
L’effectif de la modalité est le nombre d’observation de cette modalité (noté ni)
L’effectif d’une modalité est le nombre de fois où cette modalité apparait dans la série statistique
Exemple :
Note sur 20 Effectif
(xi) (n)
7 34
9 55
12 12 +
+
13,25 75
+
15 37
+
17,33 12
+
N=225

c- la fréquence (%)
Rapport d’un effectif par un effectif total
La fréquence relative d’une classe est le rapport de son effectif à l’effectif total (noté f)
La fréquence en pourcentage est la fréquence relative exprimée en % (noté f(%))
Exemple :
Note sur 20 Effectif Fréquence
(xi) (n) (%)
7 34 15,11
9 55 24,44 + La somme doit être
12 12 5,33 + égale ou proche de
13,25 75 33,33 + 100%
15 37 16,44 +
17,33 12 5,33 +

fréquence relative f= effectif (n)/effectif total (N)

fréquence en %= effectif (n)/effectif total (N)×100


d - Effectifs et fréquences cumulés croissants 
Les effectifs (ou les fréquences) cumulés indiquent quel est l’effectif (ou la fréquence) de la série
dont la valeur est inférieure à une valeur donnée
On l’obtient en additionnant son effectif (sa fréquence) à ceux (celles) qui le précèdent 

Exemple : 
Notes sur 20 n f(%) nc fc (%)
(x)
7 34 15,11 34 15,11
9 55 24,44 89 39,55
12 12 5,33 101 44,88
13,25 75 33,33 176 78,21
15 37 16,44 213 94,65
17,33 12 5,33 225 99,98

Combien de personnes ont obtenues moins de 12/20 (12 non-inclus) ?


🡪 89 personnes
Quelle est la part de personnes obtenant 15/20 et moins ?
🡪 94,65%
Combien de personnes ont obtenues entre 12 et 15 (12 et 15 inclus) ?
🡪 (12+75+37) = 124 personnes
Combien de personnes ont obtenues au moins 10/20 ?
🡪 12+75+37+12 = 136

2- le mode
a – définition
Le mode est la modalité qui à le plus grand effectif, la plus grande fréquence
 Il est noté Mo

b- Exemples
Avec une variable qualitative
COULEUR n
Rouge 34
Noir 55
Jaune 12
Bleu 75
Violet 37
Vert 12
- Le mode est ‘’bleu’’
- L’effectif modal est de 75

Avec une variable quantitative


NOTES n
5/20 7
8/20 12
12/20 36
14/20 102
16/20 72
19/20 11
- Le mode est ‘’14/20 ‘’
- L’effectif modal est de 102
Deux modes = Distribution bimodale
Trois modes ou plus = Distribution multimodale

3- La médiane
a- Définition
La médiane est la valeur de la variable qui partage en partie égales (ou en deux sous-ensembles
égaux) la population.
Elle divise une série statistique ordonnée en deux ensembles comportant chacun 50%.
50% des valeurs sont supérieur à la médiane et 50% inférieur.

 Pour déterminer la médiane d’un échantillon ou d’une population :


- On classe les individus par ordre croissant
- On prend celui du milieu

b- Exemples : quand on a un petit effectif (variable numérique)


45 – 68 – 89 – 74 – 62 – 56 – 49 – 52 – 63
Classés par ordres croissant :
45 – 49 – 52 – 56 – 62 – 63 – 68 – 74 – 89

4 Médiane 4
Si échantillon paire :
5 – 49 – 52 – 55 - 56 – 62 – 63 – 68 – 74 – 89

Médiane = (56+62) / 2 = 59
 Lorsque le nombre de la modalité est paire, on fait la
moyenne des deux modalités du milieu.

c- Quand on a un grand effectif (variable numérique)


POID (kg) n
45 4
49 7
55 28 45-45-45-45-49-49-49-49-49…
62 75
68 36
Pour calculer la médiane :
- On classe les individus par ordre croissant
- On applique la formule (N+1) / 2

Ici on a 150 données, donc :


(150+1)/ 2 = 75,5
La valeur située entre la soixante-quinze et la soixante seizièmes données sera la médiane.

ATTENTION : Quand on calcule la formule, le résultat n’est pas la médiane ! le résultat nous
indique sa place. Il faut ensuite regarder dans la série de données (colonne nc).
POID (kg) n nc
45 4 4  Va de 1 à 4
49 7 4+7 = 11  Va de 5 à 11
55 28 = 39  Va de 12 à 39
62 75 = 114
68 36 = 150  Va de 40 à 114
 Va de 115 à 150
Médiane = 62
Calcule de médiane :
1) Ordonner les données
2) Calculer les effectifs cumulés (nc)
3) Déterminer le rang médian (la place de la médiane dans la série) en appliquant la formule
(N+1) / 2
4) Le situer dans les effectifs (colonne nc) et repérer la valeur correspondante (colonne x)

Que faire si le rang médian tombe entre deux modalités ?


Cas particulier n°1 : avec une variable numérique
Si le rang médian tombe à mi-chemin entre deux modalités
x n nc

1 4 4 Rang médian : (20+1)/2 = 10,5


(1 à 4) La médiane se situe entre la 10ème et la
2 6 10 11ème valeur.
(5 à 10)
3 8 18 Faire la moyenne des deux modalités.
(11 à 18)
4 2 20 Médiane : (2+3)/2 = 2,5
(19 à 20)

Cas particulier n°2 : avec une variable ordinale, on choisit de considérer comme médian celui
qui est immédiatement au-dessus (chiffre le plus grand).
(Degré de motivation à suivre une session de formation : 1 = très peu motivé, 2 = peu motivé, 3 =
motivé, 4 = très motivé)
x n nc

1 3 4 Rang médian : (20+1) / 2 = 10,5


(1 à 4) Médiane = 3
2 6 10
(5 à 10)
3 8 18
(11 à 18)
4 2 20
(19 à 20)

d- Médiane et variable nominale


Peut-on calculer une médiane et une moyenne avec une échelle de type nominale ?

Sexe n Même si on code avec des chiffres :


Homme = 1, Femme = 2

Hommes (I) 7 Moyenne = (1x7) + (2x13)…

Calculer une médiane à partir d’une échelle


Femmes (2) 13 nominale n’as pas de sens !
4. La dispersion
Les indices de dispersion expriment l’étendu de la variabilité des observations
Les indices de dispersion nous fournissent une information sur la façon dont les données sont
distribuées autour de la tendance centrale
Les données peuvent être concentrées autour de la tendance centrale ou, au contraire, très dispersées

-> Ainsi, eux séries statistiques peuvent avoir une même moyenne mais présenter un étalement
différent autour de cette valeur.
 Lorsque la dispersion est faible, cela signifie que les résultats sont concentrés autour de la
moyenne (A)
 La dispersion est dite forte si les résultats sont très hétérogènes, très dispersés autour de la
moyenne (B)

TD 05/10
5. L’étendue
a . Définition :
L’étendu de la distribution correspond à la différence, ou l’écart entre la plus grande et la plus petite
modalité observée.
 on regarde dans la colonne des modalités (‘’x’’)
Etendu = Xmax – Xmin
 Il faut donc que l’échelle utilisée soit une échelle numérique

Remarque : cet indice est très sensible aux valeurs extrêmes.

6. L’écart interquartile
a . définition
Il comprend 50% des observations les plus centrales. Soit l’espace compris entre les quartiles 1 & 3
Q1 = la valeur en dessous de laquelle se trouvent 25% des observations inférieurs
Q2 = la médiane, soit la valeur en dessous de laquelle se trouvent 50% des observations inférieurs
Q 3 = la valeur en dessous de laquelle se trouvent 75% des observations inférieures

Pour calculer les écarts interquartiles :


- Q1 (son rang) : on calcule (N/4) +0,5 puis on cherche dans l’effectif cumulé à quelle
modalité ce rang correspond
- Q3 (son rang) : On calcule (3N/4) +0,5 puis on cherche dans l’effectif cumulé à quelle
modalité ce rang appartient
- Ecart interquartile = Q3 – Q1
Si Q1 et Q3 tombent à mi-chemin entre deux modalités : on applique la même méthode que pour la
médiane
Attention : le point milieu de l’écart interquartile ne coïncide pas forcément avec la médiane SAUF
si la distribution est parfaitement symétrique.

b. Exemples Rang de Q1 : (N/4) +0,5 = (20/4) +0,5 = 5,5


x n nc Donc Q1 = 2
1 4 4
2 8 12 Rang de Q3 : (3N/4) +0,5 = (3x20/4) +0,5 = 15,5
3 6 18 Donc Q3 = 3
4 2 20
Espace interquartile = Q3 – Q1 = 3 – 2 = 1
 La moitié des observations du
centre de la distribution se regroupe sur 1 point

c. L’écart semi-interquartile (ou déviation quartile) 


Lorsqu’on divise l’écart interquartile par deux, on obtient l’écart semi-interquartile. Il représente la
moitié de la distance entre le 1er et le 3ème quartile.
Espace semi-interquartile = (Q3 – Q1)/ 2

d. Les déciles et les centiles.


On appelle déciles les valeurs qui divisent les données en 10 parties égales : notées D1, D2, …, D9
Les valeurs divisant les données en 100 parties égales sont appelées centiles (ou percentiles). Ils
divisent une série statistique ordonné en 100 ensembles comportant chacun 1% des données.

La 25ème et 75ème centile correspondent respectivement au 1er et aux 3èmes quartiles.

Ce sont des types de quantiles : ils découpent les valeurs de l’échantillon (ordonnée de la plus petite
à la plus grande) en un nombre déterminé de sous-parties.

7. L’écart type
a . Définition
Il sert à caractériser l’écart plus ou moins grand de l’ensemble des valeurs par rapport à la valeur
moyenne (noté ‘’s’’ ou σ)
Plus il y a d’hétérogénéité des scores dans un échantillon, plus l’écart type
correspondra à une valeur élevée, à l’inverse, un échantillon plus homogène
constitué de scores concentrés autour de la moyenne, donnera un écart type plus
petit :

Ces deux courbes représentent des distributions qui ont la même moyenne et des écarts-types
différents.

Pour trouver un indice qui reflète les diversités des écarts des observations par rapport à la
moyenne :
Prendre la valeur absolue de chaque écart (=écart-moyen), mettre au carré ces écarts (=variance ou
carré moyen)

 1ère solution : l’écart moyen


C’est la moyenne des écarts à la moyenne en valeurs absolues. La valeur absolue d’un nombre est la
valeur de ce nombre sans signe moins. Elle est indiquée par l’ajout de deux traits verticaux autour
du nombre

Formule de l’écart moyen :

 2ème solution : Variance (ou carré moyen)


La variance (σ2) = la moyenne des écarts à la moyenne élevés au carré.
La variance = [somme des écarts au carré] / nombres d’observations

Ici, on va additionner les écarts au carré plutôt que les écarts eux-mêmes
Exemple :
Pour les nombres 1, 2 et 3, par exemple, la moyenne (m) est 2 :  Variance = [(1
- 2)2 + (2 - 2)2 + (3 - 2)2] ÷ 3 = 0,667
La variance pour une population Variance pour un échantillon

 Ecart-type = Racine carrée de la variance

Pourquoi retrancher 1 au dénominateur quand on travaille sur un échantillon ?


 Pour que s soit un estimateur non biaisé de l’écart-type de la population ()
Ceci est lié à une notion statistique qu’on appelle ‘’degré de liberté’’

Degré de liberté : Facteur à prendre en compte dans le calcule des indices basés sur les échantillons
pour qu’ils deviennent des estimateurs non-biaisés de la population.
Exemple : 4 scores, 8, 6, 4 et 10
Moyenne ici : 7
Si je veux changer librement les valeurs des scores (en gardant une moyenne identique) : je vais
pouvoir changer mes trois premières valeurs librement.
8, 6, 4
Si ma moyenne est toujours égale à
7, je n’aurai pas le choix pour le
2, 5, 1… et 20 dernier score. Il devra être de 20

33, 12, 61…et -78

 Voila pourquoi nous perdons un degré de liberté (ddl) en calculant l’écart-type d’un
échantillon (s). Dans le cas de l’écart type de la population (), tous les paramètres sont
connus, aucun ddl n’est perdu et le dénominateur reste N

On résume le calcul de l’écart type :


1) Calculer la moyenne
2) Calculer les différences avec la moyenne pour chacune des valeurs
3) Calculer les écarts élevés au carré
4) Calculer la somme des écarts au carré
5) Calculer la variance qui est égale à la moyenne des écarts au carré.
6) Racine carré de la variance = l’écart-type

Voici la version globale de la formule :

= total de

=
Concrètement : pour trouver les valeurs
x n n.x x² n.x²
1 2 2
2 3 6 2x1 = 2
3 5 15 3x2 = 6
4 7 28 5x3 = 15
5 2 10 …
6 5 30
7 0 0
8 1 8
9 9 81
10 4 40
Total 38 220

x n n.x x² n.x²
1 2 2 1
1² = 1
2 3 6 4
2² = 4
3 5 15 9
3² = 9
4 7 28 16

5 2 10 25
6 5 30 36
7 0 0 49
8 1 8 64
9 9 81 81
10 4 40 100
Total 38 220

x n n.x x² n.x²
1 2 2 1 2 2x1 = 2
2 3 6 4 12 3x4 = 12
3 5 15 9 45 5x9 = 45
4 7 28 16 112 …
5 2 10 25 50
6 5 30 36 180
7 0 0 49 0
8 1 8 64 64
9 9 81 81 729
10 4 40 100 400
Total 38 220 1594

S = 2,94
On récapitule : Quand utilisé quoi ?

Mots sans moyen de


Echelle nominale hiérarchiser (moyen Mode -
de locomotion)
Mots avec Mode
Echelle ordinale hiérarchisation (degré Médiane Ecart interquartile
de satisfaction)
Nombre fini (nombre Mode Ecart interquartile
Echelle discrète d’enfant) Médiane Etendu
Moyenne Ecart type
Nombre pouvant être Mode Ecart interquartile
Echelle continue décimal (âge) Médiane Etendu
Moyenne Ecart-type

b. Comment représenter graphiquement la tendance et la dispersion ?


 Diagramme de quartiles

Cette représentation graphique est aussi appelée ‘’boite à moustache’’ ou ‘’boxplot’’

Ce diagramme résume certaines caractéristiques de position du caractère étudié (médiane, quartiles,


minimum, maximum ou déciles) et permet aussi de représenter la dispersion.

Il est utilisé par exemple pour comparer un même caractère dans deux populations différentes

Dans un diagramme de quartiles :


 Les extrémités du rectangle sont les quartiles supérieur et inférieur ; le rectangle couvre
donc l’écart interquartile,
 La médiane est indiquée par une ligner verticale située à l’intérieur du rectangle,
 Les ‘’moustaches’’ sont les deux lignes situées à l’extérieurs du rectangle qui s’étendent de
l’observation la plus élevée à l’observation la plus faible.

8. La loi normale
a. La loi normale : le principe
Plus nous avons d’observations dans notre échantillon, plus les valeurs accumulées sont le reflet de
ce qui se passe dans la nature

Si l’on retranscrit cette courbe des effectifs en densité de probabilité, comment interpréter cette
courbe ?
 Nous avons une forte probabilité de tomber sur un individu de taille moyenne si on tire au
hasard un individu dans notre population
 Nous avons une moins forte probabilité de tomber sur une personne de plus en plus petite ou
de plus en plus grande (qui sont fortement éloigner de la moyenne)

Comment savoir si notre distribution est normale ?


 Grâce aux indicateurs de la forme d’une distribution :

Le coefficient de symétrie (skewness) : une distribution normale est symétrique et possède une
valeur de skewness de 0

Le coefficient l’aplatissement (kurtosis) : permet de mesurer le relief ou l’aplatissement d’une


courbe issue d’une distribution. Il est de 0 pour une distribution normale (gaussienne)

b. Le coefficient de symétrie (skewness) :

- Un coefficient positif indique une distribution tassée à gauche de la médiane, avec


l’extrémité de la distribution étalée vers la droite.
- Un coefficient négatif indique une distribution tassée à droite de la médiane, avec
l’extrémité de la distribution étalée vers la gauche.

Méthode de calcul :
Le coefficient d’asymétrie de Yule :
Mesure l’asymétrie de la distribution en tenant compte des positions relatives des quartiles 1 et 3
par rapport à la médiane (Q2)

Le coefficient d’asymétrie de Pearson :


Examine l’étalement de la distribution à partir des valeurs de la moyenne, de la médiane et de
l’écart-type 
Coefficient de Yule :

Rang Q1 : (N/ 4) + 0,5 = (90 + 1) = 23


Exemple : Q1 = 164
J’ai interrogé 90 personnes
sur leur taille en cm. Rang Q2 (médiane) : (N+1) / 2 = (90+1) / 2 = 45,5
Ma distribution est-elle Q2 = 169
symétrique ?
Rang Q3 : (3N/ 4) + 0,5 = (3x90/ 4) + 0,5 = 68
x n nc Q3 = 178

 La distribution est très légèrement étalée à droite


159 3 3
160 5 8
162 7 15
164 8 23
167 12 35
169 15 50
173 13 63
178 16 79
180 6 85
183 4 89
185 1 90

Coefficient de Pearson :
x n nc
159 3 3
160 5 8
162 7 15 Rang Q2 (médiane) : (N+1) / 2 = (90+1) / 2 = 45,5
164 8 23 Q2 = 169
167 12 35
169 15 50 Moyenne = 170,62
173 13 63 Ecart-type = 6,97
178 16 79
180 6 85
183 4 89
185 1 90
 La distribution est très légèrement étalée à droite

c. Le coefficient d’aplatissement
(kurtosis) 

Il communique une information sur les extrémités des distributions


- Un coefficient positif indique une distribution de forme pointue au niveau de la moyenne
avec les extrémités plus longues et étendues. On parle de distribution Leptokurtique
- Un coefficient négatif indique une distribution arrondie autour de la moyenne avec des
extrémités plus cours et resserrées. On parle de distribution Platikurtique
- Un coefficient nul (= 0) correspond à une distribution normale Mésokurtique

 Ce coefficient est grand quand il y a beaucoup de valeurs éloignées de la moyenne.

Méthode de calcul : le coefficient d’aplatissement de Fisher :


- Calculer la moyenne de la distribution : m
- Soustraire à chaque observation la moyenne : x – m Rajouter dans le
tableau de calcule
- Elever à la puissance 4 : (x – m -> moment centré d’ordre 4
¿4
- Pondérer par l’effectif : n x (x - m
¿4
- Faire la somme de ces valeurs et diviser par l’effectif total N :
-> Cette étape s’appelle m4

Kurtosis : ¿

m 4
4
( é c a r t −t y p e )

Fisher propose ensuite une modification pour rendre l’indice K directement comparable à la loi
normale : soustraire 3 au Kurtosis donnant l’indice K’

Exemple :
J’ai passé un teste d’orientation spatiale avec 45 personnes
Ma distribution est-elle aplatie ? coefficient de Fisher

x n x-m (x-m)4 n x (x-m)4 Moyenne = 15,51


10 7 -5,51
10 – 15,51 = -5,51
13 5 -2,51 13 – 15,51 = -2,51
15 12 -0,51
17 10 1,49 (…)
19 7 3,49
20 4 4,49 20 – 15,51 = 4,49

x n x-m (x-m)4 n x (x-m)4 Moyenne = 15,51


10 7 -5,51 921,74
(-5,51)4 = 921,74
13 5 -2,51 39,69 (-2,51)4 = 39,69
15 12 -0,51 0,07
17 10 1,49 4,93 (…)
19 7 3,49 148,35
20 4 4,49 406,43 (4,49)4 = 406,43

Moyenne = 15,51 écart -type = 3,15


x n x-m (x-m)4 n x (x-m)4
10 7 -5,51 921,74 6452,15 7 x 921,74 = 6452,15
13 5 -2,51 39,69 198,46 5 x 39,69 = 198,46

15 12 -0,51 0,07 0,81


(…)

4 x 406,43 = 1625,72
17 10 1,49 4,93 49,29
19 7 3,49 148,35 1038,48
20 4 4,49 406,43 1625,72
TOTAL 45 9364,91

¿
¿
9364 , 91 = 208, 11
45

K’ = 2,13 – 3 = 0,87
¿
208,11 = 2,13
(3,15 )4

 La distribution est légèrement arrondie (Platikurtique)

La plupart des tests statistiques font l’hypothèse à priori que les variables sur lesquelles portent les
hypothèses suivent des distributions normales

Pour savoir si une variable quantitative suit une loi normale, on doit étudier la forme de la
distribution (ou effectuer un test de normalité ‘’test de Shapiro-Wilks’’ comparant la courbe
observée à la courbe théorique.

Note pour plus tard : avant d’effectuer un test statistique impliquant que les données suivent
une distribution normale, vérifier avant en étudient la forme de la distribution

9. distributions, fréquences et probabilités


a. Passer de X à Z : quel intérêt ?

La distribution normale dite ‘’centrée-réduite’’.


Ayant comme paramètre : moyenne = 0, écart type = 1

b. Comment passer de X à Z ?


Soit une distribution dont on a calculé la moyenne et l’écart-type. On sait que la distribution suit la
loi normale. On transforme chaque valeur de X en une valeur Z telle que :

La valeur Z exprime la distance d’une observation par rapport à la moyenne en nombre d’écart-
type.

c. comparer en passant de X à Z
Exemple : jeanne a passé deux concours de professeur des écoles.

Jeanne Ensemble des


candidats
Score Moyenne Ecart-type
Lyon 17/20 14 4 Lyon : (17-14) / 4 = 0.75
Nantes 15,5/20 13 2 Nantes : (15.5-13) / 2 = 1.25

Jeanne se situe donc à =1.25 écart-type de la moyenne pour le concours de Nantes et à seulement
=0,75 écart-type de la moyenne pour le concours de Lyon.

Les individus ayant obtenu la moyenne aux deux épreuves


auront un score Z égal à zéro
(14-14) / 4= 0

Les individus ayant obtenu une note inférieure à la


moyenne aux deux épreuves auront un score Z négatif
(12-14) / 4 = -0,5
La transformation en notes Z génère des notes négatives
pour toutes celles qui sont inférieure à la moyenne

 Cela peut être considéré comme gênant

Pour remédier à cela, on peut effectuer une transformation des notes Z telle que la moyenne des Z
ne sera plus 0 mais 100 par exemple.
Cette nouvelle moyenne est choisie de telle sorte que l’on ait plus de notes Z négative

Ordres de grandeur utiles à retenir :


Lorsque la distribution des individus dans une population obéit à la loi normale centrée-réduite, on
trouve
a. 50% des individus en-
dessous de la moyenne (µ) et
50% au-dessus : la loi
normale est symétrique
b. 68% des individus entre µ- 
et µ+
c. 95% des individus entre µ-2 et µ+2

d. 99,7% des individus entre µ-3 et µ+3

Caractéristique de la courbe de Laplace et Gauss

- Les valeurs se répartissent de façon régulière et symétrique autour


de la moyenne
- Elle est unimodale
- Elle se rapproche de zéro pour les valeurs très faibles ou très fortes
(= elle a pour asymptote l’axe des x)

Estimer des probabilités

a. Lecture de la table loi normale centrée réduite


- La première colonne de la table donne les valeurs de Z avec un chiffre après la virgule
- La première ligne de la table donne le deuxième chiffre après la virgule
- L’intérieur de la table indique les proportions (ou probabilités) associée à un score z donné.

Exemple : pour la valeur z = 1,43


- On repère la valeur de 1,4 dans la colonne de gauche
- On repère la valeur .03 dans la ligne du haut
- A l’intersection des deux, on trouve le résultat = 0,15272

 Il y a 15,272% des observations qui sont inférieures ou


égales à -1,43 et égales ou supérieurs à 1,43
 Il y en a donc 7,636% de chaque côté
CAS n°1 : évaluer la proportion existante avant ou après un score x
Moyenne : 170cm et écart-type : 6,12

Pour évaluer la proportion d’individus ayant une taille supérieure ou égale à 180cm :
on opère le changement de x en z :
z
¿
x −m o y e n n e
¿
é c a r t − t y p e
¿
180 − 170 = 1,63
¿
6,12

On lit ensuite dans la table de probabilité associée au score z trouvé (1,63) :

P = 0,10310 soit 10,31% de sujets qui se trouvent d’un côté et de l’autre


(probabilités bilatérales). Mais, on s’intéresse seulement au côté droit de
la courbe, donc il faut divisé par 2.

 5,15% des individus ont une taille supérieure ou égale à 180cm.

ATTENTION : lorsque le score brut x est supérieur à la moyenne, le score z calculé est positif
(comme c’est le cas ici). Ici, le résultat trouvé après avoir divisé par deux correspond à la proportion
d’individus du z jusqu’à l’extrémité droite de la distribution

A partir du moment où le z est positif, le résultat trouvé après avoir


divisé par deux correspondra à la proportion d’individus du z jusqu’à
l’extrémité droite de la distribution

Avec un score z positif, on peut donc directement répondre à la


question ‘’quelle est la proportion d’individus ayant une taille
supérieure ou égale à…’’
Pour connaître la proportion correspondant à ‘’l’autre côté’’, il faudra calculer la proportion
complémentaire : 100% - %trouvé = %
Complémentaire

Avec un score z positif, il faut calculer la proportion complémentaire pour pouvoir répondre à la
question ‘’quelle est la proportion d’individus ayant une taille inférieure ou égale à…’’

Pour évaluer la proportion d’individus ayant une taille inférieure ou égale à 155cm : on
opère le changement de x en z
¿
= -2,45
z
¿
x− m o y e n n e 155 −170
¿
é c a r t− t y p e ¿ ¿ 6,12

On lit ensuite dans la table la probabilité associée au score z trouvé (-2,45) : Même si la valeur est
négative, on cherche dans la table à 2,45.

P = 0.01429 soit 1,43% de sujets qui se trouvent d’un côté et de l’autres (probabilité bilatérales). On
s’intéresse seulement au côté gauche de la courbe, donc on divise par 2
 0,71% des individus ont une taille inférieure ou égale à 155cm

ATTENTION : lorsque le score brut x est inférieur à la moyenne, le score z calculé est négatif
(comme ici). Ici, le résultat trouvé après avoir divisé par deux correspond à la proportion
d’individus du z jusqu’à l’extrémité gauche de la distribution :

A parti du moment où le z est négatif, le résultat trouvé après avoir divisé


par deux correspondra à la proportion d’individus du z jusqu’à l’extrémité
gauche de la distribution.

Avec un score z négatif, on peut donc directement répondre à la question ‘’quelle est la proportion
d’individus ayant une taille inférieure ou égale à…’’

Pour connaitre la proportion correspondant à ‘’l’autre côté’’, il faudra


calculer la proportion complémentaire : 100% - % trouvé = %
complémentaire

Avec un score z négatif, il faut calculer la proportion complémentaire pour pouvoir répondre à la
question ‘’quelle est la proportion d’individus ayant une taille supérieure ou égale à…’’

Il est aussi possible de connaître la proportion d’individus entre deux scores z connus.

 100 – (0,71 + 5,15) = 94,14%


Donc 94,14% des individus mesurent entre 155cm et 180cm
CAS n°2 : retrouver le score x associée à une proportion
Moyenne : 170cm et écart-type : 6,12

On peut opérer le changement de x en z en appliquant :

On peut revenir à un score x à partir d’un score z en appliquant :

On cherche ensuite à partir de quelle taille on a 10% des individus les plus grand.
La table est bilatérale : on va chercher à p = .200

On trouve p = 0.20055 qui correspond à la ligne 1.2 et à la colonne 0.08, donc : z = 1.28
On remplac e ensuite z dans : x = z x écart-type + moyenne
X = (1,28 x 6,12) + 170 = 177, 83

C’est à partir de 177, 83cm qu’on a 10% des


individus plus grands.

Vous aimerez peut-être aussi