Vous êtes sur la page 1sur 7

19/03/2018

STATISTIQUES DESCRIPTIVES

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES

Dans certains cas, il semble exister un lien entre deux caractères d'une même populations c.-à-d. une
série statistique de deux variables, par exemple :
 la taille et le poids d'une personne,
 le chiffre d'affaires et les charges d'une entreprise,
 l'épaisseur d'un mur et la résistance et la température
 etc… .
𝒚
x x
Nuage de points: 𝑴𝒊 x
𝒙: 𝒙𝟏 , 𝒙𝟐 , … , 𝒙N 𝒚𝒊 x
Deux caractères ou deux variables
𝒚: 𝒚𝟏 , 𝒚𝟐 , … , 𝒚N x
x x
x
x
On représente dans le plan les points 𝑴𝒊 de coordonnées (𝒙𝒊 , 𝒚𝒊 )
𝒙𝒊 𝒙

1
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES

Exemple : Bébés nés le même jour dans une maternité.

Taille en cm Poids en Kg
Nuage de points
𝒙𝒊 𝒚𝒊 4
47,4 2,9 3,5
3
48,5 3,22
49,1 3,05 Y = poids 2,5
2
49,8 2,97 1,5
50,1 3,35 1
0,5
50,5 3,4
0
51,4 3,78 47 48 49 50 51 52 53
52,2 3,75 X = taille

La connaissance de la taille 𝒙 apporte une certaine information sur le poids 𝒚.

Il existe une relation de dépendance entre 𝒙 et 𝒚.


Lorsqu'il existe un lien entre les deux variables, on parle de corrélation entre ces dernières.

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES


Il existe cinq formes de représentations du nuage de points

1er Type 2ème Type


𝒚 𝒚
... ... . . . . ..
..
... ..................... .......
. . . . ..
𝒙 𝒙
Il n'existe aucun lien entre 𝒙 et 𝒚 . La connaissance de 𝒙 permet de déterminer exactement 𝒚.
𝒙 et 𝒚 sont indépendantes. Il y'a une relation fonctionnelle entre 𝒙 et 𝒚. (𝒚 = f(𝐱))

Absence de corrélation Parfaite corrélation.

2
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES

3ème Type 4ème Type 5ème Type


𝒚 𝒚 𝒚

. .
....
.
.. .. .
.
...... .............
𝒙 𝒙 𝒙
Il semble exister un lien entre Il existe un lien entre 𝒙 et 𝒚, 𝒙 et 𝒚 varient en sens inverse.
𝒙 et 𝒚, mais ce lien n'est pas mais ce lien n'est pas linéaire. Corrélation négative
aussi fort que le type 2.

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE

Mesure de la liaison entre 2 variables quantitatives:


N
1
Covariance de 𝒙 et 𝒚 : 𝒄𝒐𝒗(𝒙, 𝒚) = (𝑥𝑖 −𝑥) (𝑦𝑖 − 𝑦)
𝑁
𝑖=1
N
1
𝒄𝒐𝒗(𝒙, 𝒚) = (𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦 − 𝑥𝑦𝑖 + 𝑥 𝑦)
𝑁
𝑖=1
N N N
1 1 1
= 𝑥𝑖 𝑦𝑖 − ( 𝑥𝑖 )𝑦 − 𝑥( 𝑦𝑖 ) + 𝑥 𝑦
𝑁 𝑁 𝑁
𝑖=1 𝑖=1 𝑖=1
N
1
= 𝑥𝑖 𝑦𝑖 − 𝑥 𝑦 − 𝑥 𝑦 + 𝑥 𝑦
𝑁
𝑖=1
N
1
= 𝑥𝑖 𝑦𝑖 − 𝑥 𝑦
𝑁
𝑖=1
= Moyenne des produits - le produit des moyennes.

3
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE


Covariance
Propriétés:

i. 𝒄𝒐𝒗 𝒙, 𝒚 > 𝟎 ⟺ 𝒙 𝒆𝒕 𝒚 varient dans le même sens.

ii. 𝒄𝒐𝒗 𝒙, 𝒚 < 𝟎 ⟺ 𝒙 𝒆𝒕 𝒚 varient dans en sens inverse.

iii. 𝒄𝒐𝒗 𝒙, 𝒚 = 𝒄𝒐𝒗(𝒚, 𝒙)

iv. 𝒄𝒐𝒗 𝒙, 𝒙 = 𝑽 𝒙 = 𝝈(𝒙)𝟐

v. 𝒄𝒐𝒗 𝜶𝒙 + 𝜷𝒚, 𝒛 = 𝜶 𝒄𝒐𝒗 𝒙, 𝒛 + 𝜷𝒄𝒐𝒗(𝒚, 𝒛)

vi. Inégalité de Cauchy Schwarz


𝒄𝒐𝒗 𝒙, 𝒚 ≤ 𝝈(𝒙)𝝈(𝒚)
Il y'a égalité si et seulement si les points du nuage sont alignés

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE


𝒄𝒐𝒗(𝒙, 𝒚)
Corrélation linéaire: 𝝆=
𝝈(𝒙)𝝈(𝒚)
Propriétés:

i. −𝟏 ≤ 𝝆 ≤ 𝟏

𝝆 = 𝟏 𝒔𝒊 𝒃 > 𝟎
ii. 𝒚 = 𝒂 + 𝒃𝒙 ⟺
𝝆 = −𝟏 𝒔𝒊 𝒃 < 𝟎

iii. 𝝆 = 𝟏 ⟺ 𝒊𝒍 𝒆𝒙𝒊𝒔𝒕𝒆 𝒖𝒏𝒆 𝒓𝒆𝒍𝒂𝒕𝒊𝒐𝒏 𝒇𝒐𝒏𝒄𝒕𝒊𝒐𝒏𝒏𝒆𝒍𝒍𝒆 𝒆𝒏𝒕𝒓𝒆 𝒙 𝒆𝒕 𝒚

iv. 𝝆 = 𝟎 ⟺ 𝒙 𝒆𝒕 𝒚 𝒔𝒐𝒏𝒕 𝒊𝒏𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒕𝒔 𝒍𝒊𝒏é𝒂𝒊𝒓𝒆𝒎𝒆𝒏𝒕


Cependant, on peut avoir une 𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 non linéaire (exponentielle, puissance,
etc…)

iii. 0< 𝝆 < 𝟏 ⟺ 𝒍𝒂 𝒅é𝒑𝒆𝒏𝒅𝒂𝒏𝒄𝒆 𝒍𝒊𝒏é𝒂𝒊𝒓𝒆 𝒆𝒏𝒕𝒓𝒆𝒙 𝒆𝒕 𝒚 𝒆𝒔𝒕 𝒑𝒍𝒖𝒔 𝒇𝒐𝒓𝒕𝒆 𝒔𝒊 𝝆 𝒆𝒔𝒕 𝒂𝒔𝒔𝒆𝒛 𝒈𝒓𝒂𝒏𝒅.

4
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE


Droite de régression :

𝒚
Existe-t-il une fonction 𝒇 telle que 𝒚 = 𝒇(𝒙) ?
. Si une telle fonction existe, on dit que 𝒇 est un

..... modèle du phénomène étudié

....... 𝒙 est la variable explicative

𝒚 est la mariable expliquée

𝒙 𝒚

. .
..
....
Si le phénomène est linéaire (affine), on cherche
.
la droite 𝒚 = 𝒂 + 𝒃𝒙 telle qu'elle passe "au
mieux" à l'intérieur du nuage des points 𝒙.
......
𝒙

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE


Droite de régression linéaire de 𝒚 en 𝒙 :
𝒚 = 𝒂 + 𝒃𝒙 passe "au mieux" à l'intérieur du
𝒚 𝒚 = 𝒂 + 𝒃𝒙
.. . nuage des points 𝒙

.... .
... . 𝒆 = |𝒚
𝒂 + 𝒃𝒙𝒊 N N

𝒊 𝒊 − 𝒂 − 𝒃𝒙𝒊 | 𝑒𝑖2 = (𝑦𝑖 −𝑎 − 𝑏𝑥𝑖 ) 2


𝒚𝒊 Minimiser
𝑖=1 𝑖=1

𝒙𝒊 𝒙 Méthode des moindres carrés

Posons 𝜑(𝑎, 𝑏) = (𝑦𝑖 −𝑎 − 𝑏𝑥𝑖 ) 2 . On admet 𝜑 𝑎, 𝑏 admet un minimum 𝑎, 𝑏 satisfaisant:


𝑖=1
𝜕𝜑(𝑎, 𝑏)
=0
𝜕𝑎
𝜕𝜑(𝑎, 𝑏)
=0
𝜕𝑏

5
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE

Divisons par -2N

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE

Droite de régression linéaire 𝑫𝒚/𝒙 de 𝒚 en 𝒙

𝒄𝒐𝒗(𝒙, 𝒚)
𝒚 = 𝒂 + 𝒃𝒙 𝒃= 𝒂 = 𝒚 − 𝒃𝒙
𝝈𝟐 (𝒙)
𝑫𝒚/𝒙 passe par le point G = (𝒙, 𝒚) appelé point moyen du nuage.

6
19/03/2018

SERIE STATISTIQUE A DEUX VARIABLES QUANTITATIVES AJUSTEMENT LINEAIRE


Remarques :
𝒚 = 𝒂 + 𝒃𝒙 définit un modèle affine (ou linéaire)

𝒚𝒊 = 𝒂 + 𝒃𝒙𝒊 : valeur de 𝒚𝒊 prévue par le modèle (ou valeur ajustée)

𝒓𝒊 = 𝒚𝒊 - 𝒚𝒊 : résidu de la ième observation

𝒆𝒊 = 𝒓𝒊 = |𝒚𝒊 -𝒂 − 𝒃𝒙𝒊 | : erreur due au modèle

1 𝑁 1 𝑁
𝒚𝒊 = 𝑁 𝑖=1 𝒚𝒊 = 𝑎 +𝑏𝑁 𝑖=1 𝒙𝒊 = 𝒂 + 𝒃𝒙 = 𝒚
La moyenne des valeurs ajustées est égale à la moyenne des observations
1 𝑁 1 𝑁
𝒓= 𝑖=1 𝒓𝒊 = 𝑖=1(𝒚𝒊 - 𝒚𝒊 ) = 𝒚 − 𝒚𝒊 = 0
𝑁 𝑁