Vous êtes sur la page 1sur 62

Compétences de statistique

descriptive à deux variables

Aspects opératoires

Radouan Morchadi
morchadi@hotmail.com
La critique est aisée et l’art est difficile

2
« Mieux comprendre » et « Mieux résoudre ». n’est pas
toujours évident. Sauf lorsqu’on a la chance d’avoir des
fiches de révisions claires, complètes et pratiques
comme celles que je vous propose !

Elles n’ont qu’un seul objectif : Maximiser Votre


Potentiel et vous Aider à Faire Seul

3
Statistique à 2 variables

Modèles paramétriques
4
Objectifs de l’étude deux variables

▰ Pour une population donnée, on s'intéresse à deux


variables X et Y étudiées simultanément sur le même
individu et dont on pense qu'elles sont liées.
On s'intéressera à la :
▻ La forme
▻ La direction
▻ La force de cette relation
5
Corrélation / Pas de Causalité

On étudie 2
caractères sur

Même
Individus
Note de maths Couleur des yeux
6
Modèle mathématique
On étudie deux variables simultanément sur le même individu

(xi ,yi ) est le couple d’observations mesurées sur l’individu i


7
Les observations peuvent être
de nature qualitatives ou
quantitatives, continues ou
discrètes.
Exemple

✓ Augmentation de l’achat des lunettes de soleil et l’achat de glaces n’est pas causale. Elle
est due au soleil
✓ L’amélioration de la moyenne de vie et l’augmentation de la consommation d’alcool n’est
pas causale. Elle est du à l’amélioration du niveau de vie

La relation qui peut exister entre deux variables n’est pas toujours
causale, on parle donc de corrélation statistique 8
Le tableau de contingence est un moyen particulier de représenter
simultanément deux caractères observés sur une même population.
C’est tableau croisé dénombrant les modalités croisées des deux
caractères X et Y. Il permet de mettre en évidence la forme de la
relation entre deux variables.
Exemple : les résultats au Bac.

Réussite Échec

Garçon 30 40

Fille 90 40
9
Table de contingence des
effectifs
X\Y y1 ... yj ... yq Total
x1 n11 n1.
...
xi nij ni.
...
xp np.
Total n.1 n.j n.q n
10
Exemple :

On a interrogé 222 étudiants, et on leur a proposé de choisir un langage parmi C, Java et Python.
On représente les résultats en fonction du sexe.

X\Y F H Total
C 36 42 78
Java 39 33 72
Pytho 43 29 72
n
Total 118 104 222
11
• 𝒏𝒊𝒋 : effectif de la case correspondant à la ième ligne et la jième colonne du tableau,
c'est-à-dire nombre d'individus qui réalisent simultanément la ième modalité de 𝑋 et
la jième modalité de 𝑌.

• 𝒏𝒊. : somme de la ième ligne, c'est-à-dire nombre d'individus qui réalisent


la ième modalité de 𝑋
• 𝒏.𝒋 : somme de la jème colonne, c'est-à-dire nombre d'individus qui réalisent
la jème modalité de 𝑌
• 𝒏 : somme générale du tableau, c'est-à-dire nombre total d'individus étudiés
• C’est aussi la somme de tous le 𝒏𝒊. ou bien la somme de tout le 𝒏.𝒋

12
𝒏 = ෍ ෍ 𝒏𝒊𝒋
𝒊 𝒋

En ligne :

𝑞
𝒏𝒊. = σ𝑗=1 𝒏𝒊𝒋 = le nombre d’individus qui vérifient la modalité
𝒙𝒊
En colonne :

𝒏𝒋. = σ𝑖=1𝑝 𝒏𝒊𝒋 = le nombre d’individus qui vérifient la modalité


𝒚𝒋
13
Table de contingence des
fréquences

14
Les effectifs marginaux

15
Calcul des effectifs marginaux
Exemple

Etudie sur 5761 femmes de la survenue d’accouchement prématuré et de l’exposition à des


évènements stressants.
X : type d’accouchement variable qualitative à 2 modalités
Y : score sur une échelle allant de 0 à 3. variable quantitative discrète à 4 valeurs

16
Distributions marginales
Distribution marginale par rapport à X

Distribution marginale par rapport à Y

17
Remarque importante

▰ Les distributions marginales sont des séries statistique à un seul caractère

▰ A étudier donc en tant que telle.


▻ Graphiques
▻ Courbes
▻ Paramètres de positions
▻ Paramètres de dispersions

18
Distributions conditionnelles
Principe :
Comportement de l’une des deux variables quand l’autre a une valeur donnée.

Distribution conditionnelle Y sachant que X = 𝒙𝒊

A la ligne i du tableau de contingence, on lit l’effectif de la nouvelle population restreinte


à X = 𝒙𝒊

Distribution conditionnelle X sachant que Y = 𝒚𝒋

A la colonne i du tableau de contingence, on lit l’effectif de la nouvelle population restreinte


à Y = 𝒚𝒋
19
Prenons l’exemple

Ligne 2 du tableau de contingence : distribution de la variable Y sachant que les femmes ont eu
un accouchement prématuré.

Distribution conditionnelle de X sachant que la femme enceinte a subi un stress de niveau 2

20
Les fréquences conditionnelles sont données par les tableaux suivants:

21
Remarque importante

▰ Les distributions conditionnelles sont des séries statistique à un seul caractère

▰ A étudier donc en tant que telle.


▻ Graphiques
▻ Courbes
▻ Paramètres de position
▻ Paramètres de dispersion

22
Moyennes marginales et
moyennes conditionnelles
Exemple
Une entreprise employant 100 femmes relève pour chaque femme son âge, noté X, et le nombre
de journées d’absence durant le mois de janvier, noté Y .

23
Les moyennes et variances marginales

24
Les moyennes et variances conditionnelles

25
Récapitulatif fréquences conditionnelles

X/ Y = 𝒚𝒋 Y/ X = 𝒙𝒊

26
Représentation graphique

On peut représenterez la distribution du couple (X, Y ) par un nuage de points de coordonnées


(𝒙𝒊 , 𝒚𝒋 ), chaque point étant affecté du “poids” 𝒏𝒊𝒋 .

Le centre de gravité du nuage est alors le point (non


observé) de coordonnées G(µ(X); µ(Y )).
Ou
(µ(X); µ(Y )), sont les moyennes marginales 27
Le nuage de points de l’exemple

X est représentée par les centres de ses classes

28
Covariances de X et Y ; notée Cov(X, Y)

La Covariances de X et Y est un outils pour mesurer la dépendance linéaire entre deux


caractères quantitatifs X et Y. Elle est calculée de la manière suivante:

Une formule pratique


Cov( X , Y ) = XY − X *Y

29
Interprétation de la Covariances de X et Y

La Covariances de X et Y est un nombre réel.

Cov(X,Y) > 𝟎, les deux variables évoluent dans le même sens, (exemple : température
extérieure et consommation de crèmes glacées).

Cov(X,Y) < 0, les deux variables évoluent dans le sens contraire, (exemple : température
extérieure et consommation de chauffage).

Si les deux variables sont spécialement indépendantes. Alors Cov(X,Y) = 𝟎

30
Remarque importante

▰ Si Cov(X,Y) = 𝟎, les deux variables ne sont pas spécialement indépendantes.

▰ Cela signifie qu’il n’y a pas de relation linéaire entre X et Y. Cependant il peut exister
d’autres relations non linéaires qui peuvent être
▻ Exponentielles,
▻ Logarithmiques
▻ Puissances...

▰ Donc, attention aux conclusions hâtives...


31
Propriétés de Cov( X, Y)

▪ Vx = Covxx
▪ Covxy = Covyx
▪ CovaX+b , cY+d = ac* Covy,x
▪ Vx + y = Vx + Vy + 2Covxy
▪ Vx - y = Vx + Vy - 2Covxy
32
N effectif total de la population
nij l’effectif conjoint de xi et yj
𝜇(𝑋) la moyenne marginale de la distribution marginale / à X
𝜇(𝑌) la moyenne marginale de la distribution marginale / à Y

33
Méthode de Calcul de la covariance (X; Y)

X/Y 0 1 Marg X Marg X Y Marg Y


X
1 5 0 3
1 2 3 5
2 1 1 3
2 1 0 1
6 6
Marg 3 3 6
Y

𝟓∗𝟏+𝟏∗𝟐 𝟕
• La moyenne marginale par rapport à X = 𝝁 𝑿 = =
𝟔 𝟔
𝟑∗𝟎+𝟑∗𝟏 𝟏
• La moyenne marginale par rapport à Y = 𝝁 𝒀 = =
𝟔 𝟐

34
𝟓∗𝟏+𝟏∗𝟐 𝟕
• La moyenne marginale par rapport à X = 𝝁 𝑿 = =
𝟔 𝟔
𝟑∗𝟎+𝟑∗𝟏 𝟏
• La moyenne marginale par rapport à Y = 𝝁 𝒀 = =
𝟔 𝟐

X - 𝝁 𝑿 / Y- 𝝁 𝒀 𝟏 𝟏 𝟏 𝟏
0 - =- 1 - =
𝟐 𝟐 𝟐 𝟐

𝟕 𝟏 𝟏 𝟏 𝟏 𝟏
1 - = -𝟔 2*(- 𝟔)* (- 𝟐) 3*(- 𝟔)* (𝟐)
𝟔

𝟕 𝟓 𝟓 𝟏 𝟓 𝟏
2 - = 1*( )* (- ) 0*( )* ( )
𝟔 𝟔 𝟔 𝟐 𝟔 𝟐

35
𝟏
Cov(X,Y) = (𝒏𝟏𝟏 * (𝒙𝟏 - 𝑿) * (𝒚𝟏 - 𝒚)
𝟔
+ 𝒏𝟏𝟐 * (𝒙𝟏 - 𝑿) * (𝒚𝟐 - 𝒚) + 𝒏𝟐𝟏 * (𝒙𝟐 - 𝑿) * (𝒚𝟏 -
𝒚) + 𝒏𝟐𝟐 * (𝒙𝟐 - 𝑿) * (𝒚𝟐 - 𝒚) )
36
Cov(X,Y) est la somme de 4 valeurs

𝒊 = 𝟏 𝒆𝒕 𝒋 = 𝟏 ∶ 𝒏𝟏𝟏 * (𝒙𝟏 - 𝑿) * (𝒚𝟏 - 𝒚)

𝟏 𝟏
= 2*(- )* (- )
𝟔 𝟐

37
𝟏 𝟏
𝒊 = 𝟏 𝒆𝒕 𝒋 = 𝟐 ∶ 𝒏𝟏𝟐 * (𝒙𝟏 - 𝑿) * (𝒚𝟐 - 𝒚) = 3*(- )* ( )
𝟔 𝟐

𝟓 𝟏
𝒊 = 𝟐 𝒆𝒕 𝒋 = 𝟏 ∶ 𝒏𝟐𝟏 * (𝒙𝟐 - 𝑿) * (𝒚𝟏 - 𝒚) = 1*( )* (- )
𝟔 𝟐

𝟓 𝟏
𝒊 = 𝟐 𝒆𝒕 𝒋 = 𝟐 ∶ 𝒏𝟐𝟐 * (𝒙𝟐 - 𝑿) * (𝒚𝟐 - 𝒚) = 0*( )* ( )
𝟔 𝟐

38
𝟏 𝟏 𝟏 𝟏 𝟏 𝟓 𝟏 𝟓 𝟏
Cov(X,Y) = (2*(- )* (- ) + 3*(- )* ( )+ 1*( )* (- ) + 1*( )* (- ))
𝟔 𝟔 𝟐 𝟔 𝟐 𝟔 𝟐 𝟔 𝟐

39
Ajustement linéaire entre X et Y

Après avoir tracer graphiquement, le nuage de points. Si le nuage de point semble donner
une droite

Il est il légitime de supposer une relation linéaire entre X et Y et chercher à décrire l'équation
de la droite ayant le meilleur ajustement possible au nuage de points, afin de pouvoir
prédire une variable en connaissance de l’autre.

40
Exemple 1
La taille moyenne d’un jeune enfant est donnée, en fonction de son âge (en mois), dans le tableau
suivant :

Exemple 2
Lors d'essais de freinage d’un véhicule dans des conditions identiques, on a mesuré, pour
différentes vitesses du véhicule, la distance nécessaire pour s’arrêter :

Exemple 3
Dans le tableau suivant, on donne le nombre de frères et sœurs d’un groupe de 10 personnes et la
taille de ces personnes :

41
Représentation graphique : le nuage de points des exemples 123 :
Pour représenter graphiquement une série statistique à deux
variables, on se place dans un repère du plan et on associe à chaque couple 𝑥𝑖 ; 𝑦𝑖 de la série
le point Mi d’abscisse xi et d’ordonnée yi.
L’ensemble des points obtenus constitue le nuage de points représentant la série statistique.
Voici les nuages obtenus dans les exemples précédents :

42
Pour chaque nuage, on essaye de trouver une fonction f telle que la courbe d’équation 𝑌 = 𝑓(𝑋)
« passe le plus près possible » des points du nuage. C’est la notion d’ajustement
X est la variable
explicative

𝑌 = 𝑓(𝑋)
Y est la variable à
expliquer

43
 Dans l’exemple 1,
On peut imaginer qu’une droite D peut être tracée au voisinage des 10 points ; on dit alors
que l’on a un ajustement affine.

 Dans l’exemple 2,
Un ajustement affine ne convient pas ; on peut penser à « approcher » le nuage à l’aide d’une
parabole 𝑌 = 𝑓 𝑋 = 𝑎𝑋 2 +b X+c

 Dans l’exemple 3
Les points sont dispersés de façon quelconque ; cela veut dire qu’il n’existe aucun lien entre xi
et yi, un ajustement n’est pas possible.

44
Méthode d’ajustement des moindres carrés

• Ajustement linéaire 𝒀 = 𝒂 𝑿 + 𝒃 ou bien 𝑿 = 𝜶 𝒀 + 𝜷

• La droite d’ajustement passe impérativement par le centre de


gravité 𝑮(𝑿ഥ; 𝒀ഥ ) du nuage de point

• ഥ; 𝒀
𝑿 ഥ sont les moyennes marginales de X et de Y

45
Ajustement linéaire 𝒀 = 𝒂 𝑿 + 𝒃

𝑪𝒐𝒗(𝑿;𝒀) ഥ ∗ ഥ𝒀
𝑿∗𝒀 −𝑿
• 𝒂 = = ഥ 𝟐
𝑽𝒂𝒓(𝑿) 𝑿𝟐 − 𝑿

ഥ − 𝒂𝑿
• 𝒃 = 𝒀 ഥ

46
Ajustement linéaire 𝑿 = 𝜶 𝒀 + 𝜷

𝑪𝒐𝒗(𝑿;𝒀) ഥ ∗ ഥ𝒀
𝑿∗𝒀 −𝑿
• 𝜶 = = ഥ 𝟐
𝑽𝒂𝒓(𝒀) 𝒀𝟐 − 𝒀

ഥ − 𝜶𝒀
• 𝜷 = 𝑿 ഥ

47
Coefficient de corrélation linéaire

Pour mesurer la force de la relation linéaire, établir une relation linéaire et conclure d’une
bonne prévision, on a besoin de calculer le Coefficient de corrélation linéaire

𝑪𝒐𝒗(𝑿; 𝒀)
𝝆 =
𝝈 𝑿 ∗𝝈 𝒀

−𝟏 ≤ 𝝆 ≤ 𝟏
48
Interprétation Coefficient de corrélation linéaire

•Parfaite si 𝝆 = 1
•Très forte si 𝝆 > 0,8.
•Faible sinon
•Pas de relation linéaire si 𝝆 = 0 =Cov (X;Y) =0
49
50
-1 1

-0,8 0,8

51
▰ Lorsque 𝝆 > 0,8. la relation Y = aX + b est forte
▰ Que Je peux faire une bonne prévision
▰ C à d Y = mon salaire et X = mes années de travail
▰ Je veux prévoir quel serait mon salaire si je travaille 40 ans
▰ X= 40 et je cherche Y
𝑌 −𝑏
▰ Y = a* 40 + b ou bien X =
𝑎
▰ Comme a et b sont calculées par les relations

52
Indépendance de deux variables X et Y

Les variables X et Y sont dites indépendantes si

𝒏𝒊. ∗ 𝒏.𝒋
𝑷𝒐𝒖𝒓 𝒕𝒐𝒖𝒕 𝒊, 𝒋 𝒏𝒊𝒋 = 𝒏𝒊𝒋 ∗ =
𝒏
𝒏𝒊𝒋 effectif conjoint observé
𝒏𝒊𝒋 ∗ effectif Théorique

53
54
∗ 𝒏𝒊. ∗ 𝒏.𝒋
Exemple de calcul 𝒏𝒊𝒋 =
𝒏

𝑛11 = 46 ≠ 𝑛11 ∗ = 58,5, 𝒍𝒆𝒔 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆𝒔 𝑺𝒆𝒙𝒆 𝒆𝒕 𝒄𝒐𝒖𝒍𝒆𝒖𝒓 𝒏𝒆 𝒔𝒐𝒏𝒕 𝒑𝒂𝒔 𝒊𝒏𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒕𝒆𝒔

∗ 𝒏𝟏. ∗ 𝒏.𝟏 𝟗𝟎 ∗𝟏𝟑𝟎


𝑛11 = 58,5 = =
𝒏 𝟐𝟎𝟎 55
Comment mesurer l’indépendance de X et Y

En calculant le coefficient de cramer

𝟐
𝒏𝒊𝒋 − 𝒏∗𝒊𝒋
σ𝒊 σ𝒊
𝒏∗𝒊𝒋
𝑪𝒓 =
𝒏∗𝐦𝐢𝐧(𝒏𝒃−𝒍𝒊𝒈𝒏𝒆𝒔 −𝟏 ; 𝒏𝒃−𝒄𝒐𝒍𝒐𝒏𝒏𝒆𝒔 −𝟏)

𝟎 ≤ 𝑪𝒓 ≤ 𝟏 56
Interprétation du coefficient de Cramer

• 𝑪𝒓 = 0, signifie que les deux variables sont indépendantes

• Plus la valeur de 𝑪𝒓 est élevée et tend vers 1, plus la relation de dépendance est forte

57
Exemple de calcul

Les résultats au Bac.

Étape n° 1 :
Poser une "problématique"
Un proviseur se demande si, dans son établissement, la réussite au bac a
été "semblable" chez les garçons et les filles. Il émet une hypothèse de
relation qui peut se formuler de diverses manières :
• Les résultats sont liés au sexe
• Il existe une différence dans ces résultats en fonction du sexe
• La distribution des réussites et des échecs chez les garçons est
la même que chez les filles… 58
Détermination du tableau des effectifs conjoints théoriques

∗ 𝒏𝒊. ∗ 𝒏.𝒋
𝒏𝒊𝒋 =
𝒏
Réussite Echec

Garçon 42 28

Fille 78 52

X et Y sont dépendantes 59
nij nij* 𝟐
𝒏𝒊𝒋 − 𝒏∗𝒊𝒋
𝒏∗𝒊𝒋
N11 = 30 n11* = 42 𝟑𝟎−𝟒𝟐 𝟐
= 3,428
𝟒𝟐

N12 = 40 n12* = 28 𝟒𝟎−𝟐𝟖 𝟐


= 5,142
𝟐𝟖

N21 = 90 n21* = 78 𝟗𝟎−𝟕𝟖 𝟐


= 1,846
𝟕𝟖

N22 = 40 N22* =52 𝟒𝟎−𝟓𝟐 𝟐


= 2,769
𝟓𝟐

𝟑,𝟒𝟐𝟖+𝟓,𝟏𝟒𝟐+𝟏,𝟖𝟒𝟔+𝟐,𝟕𝟔𝟗 𝟏𝟑,𝟏𝟔
𝑪𝒓 = 𝟐𝟎𝟎∗𝐦𝐢𝐧(𝟐 −𝟏 ; 𝒏𝒃−𝟐−𝟏)
= 𝟐𝟎𝟎∗𝟏
= 0,25

60
Calcul du coefficient de Cramer

𝑪𝒓 = 0,25 proche de 0

Interprétation :la dépendance entre le sexe et la réussite en examen


est faible, cela veut dire que celui qui travaille bien réussi
indépendamment du fait qu’il soit garçon ou fille
61
THANKS!
Des questions?
You can find me at
morchadi@hotmail.com

62

Vous aimerez peut-être aussi