Vous êtes sur la page 1sur 4

0.

1 Série statistique à deux variables


L’objectif d’analyse des séries statistiques à deux variables est d’étudier les éventuelles
relations entre deux caractères statistiques. Dans cette section, on se limite qu’à la liaison entre
deux caractères quantitatifs.
On souhaite étudier la relation entre une première variable quantitative X, et une deuxième
variable quantitative Y . Les représentations en tableau suivantes donnent les valeurs de ces
deux variables :
Tableau simple
X x1 x2 x3 : : : x k
Y y 1 y 2 y 3 : : : yk
E¤ectifs n1 n2 n3 : : : nk
Tableau de contingence

Y nX x1 x2 x3 ::: xk
y1 n11 n12 n13 ::: n1k
y2 n21 n22 n23 ::: n2k
y3 n31 n32 n33 ::: n3k
..
.
yk nk1 nk2 nk3 ::: nkk

Par exemple : La taille et le poids des étudiants de première année MI.

0.1.1 La covariance
La covariance entre de X et Y , notée par cov(X; Y ), est dé…nie par :

1 X
k
cov(X; Y ) = ni (xi x) (yi y) :
N i=1

ou
1 XX
k k
cov(X; Y ) = nij (xi x) (yj y) :
N j=1 i=1

0.1.2 Le coe¢ cient de corrélation


Le coe¢ cient de corrélation linéaire des deux variables X et Y , noté (X; Y ), est dé…ni par

cov(X; Y )
(X; Y ) =
(X) (Y )

Interprétation du coe¢ cient de corrélation linéaire :


1. Lorsque (X; Y ) est au voisinage de 0, il y a absence de corrélation entre les variables X
et Y .

1
2. Lorsque le coe¢ cient de corrélation linéaire (X; Y ) est calculé, reportez-vous sur la droite
suivante pour interpréter le résultat.

0.1.3 Ajustement linéaire simple


Dé…nition 0.1 Le point moyen d’un nuage est le point (noté habituellement G) dont les coor-
données sont les moyennes des séries X et Y , :
G = (x; y):

Ajustement linéaire par la méthode des moindres carrés


Le moyen le plus couramment pour représenter un nuage de points par une droite est la
méthode des moindres carrés. L’objectif de cette représentation est de choisir la droite de la
forme Y = aX + b de telle sorte que la somme des carrés des « distances » entre les points du
nuage et la droite soit la plus petite possible.
Graphiquement
Y=aX+b

Y (xN ,yN )

(xk,yk)

(x3,y3 )
(x2,y2 )

(x1,y1)

La méthode des moindres carrés consiste à trouver les coe¢ cients a et b pour lesquels l’erreur
X
k
e (a; b) = (yi axi b)2 ;
i=1

est minimale, c.-à-d., 8


< @e (a; b) = 0
>
@a
: @e (a; b) = 0:
>
@b

2
On obtient un système de deux équations algébriques à deux inconnus a et b.
La solution de ce système est
8
< cov (X; Y ) (Y )
a= = (X; Y )
V (X) (X)
:
b = y ax:

Remarque 0.1 Lorsque (X; Y ) est au voisinage de 0, il y a absence de corrélation entre les
variables X et Y ; l’approximation du nuage de points par la droite de l’ajustement linéaire n’a
pas de sens.

Ajustement linéaire par la droite de Mayer


Une des méthodes les plus simples consiste à partager le nuage de points en deux groupes
(choisis en fonction de la forme du nuage, mais, très souvent, on partage le nuage en deux
groupes de points de même e¤ectif). Chacun de ces nouveaux nuages admet un point moyen
(G1 pour le premier nuage, G2 pour le second) ; la droite (G1 G2 ), appelée droite de Mayer,
constitue alors une représentation du nuage.

la droite de Mayer

Y (xk,yk)

(xi,yi )
G2

(x2 ,y2)
G1

(x1 ,y1 )

Exemple :
Les derniers recensements de la population d’une ville ont abouti aux données suivantes :

Année 1993 1995 1999 2002 2004 2006 2009


Nombre d’années xi depuis 1992 1 3 7 10 12 14 17
population yi (en milliers d’habitants) 4:4 4:7 4:8 4:9 5:5 5:5 5:7

Les moyennes :
x = 9:1429
y = 5:0714

3
L’ajustement linéaire Dx
cov (x; y)
a = = 0:081
V (x)
b = y ax = 4:33
Par conséquent, pour x = 20 ce qui correspond à l’année 2012, on trouve y=0.081 20+4:331 =
5:951: Selon ce modèle, on peut estimer la population de cette ville, en 2012, à 5951 habitants.
L’ajustement linéaire Dy
La droite de régression Dy de x en y, à pour équation x = ay + b, avec
cov (x; y)
a = = 11:297
V (y)
b = x ay = 48:147
Pour trouver la valeur de y correspondant à x = 20, on résout l’équation
11:297y 48:147 = 20
implique
y = 6:033
d’où 6033 habitants selon ce modèle.
La droite de Mayer
On va partager les points du nuage en deux groupes : le premier sera formé des deux
premiers points (correspondant aux modalités 1 et 3 de x) et le second des cinq derniers points
(correspondant aux autres modalités de x).
Chacun de ces nuages admet un point moyen (G1 pour le premier, G2 pour le second), dont
on calcule les coordonnées :
1+3 4:4 + 4:7
G1 = = 2; = 4:55
2 2
7 + 10 + 12 + 14 + 17 4:8 + 4:9 + 5:5 + 5:5 + 5:7
G2 = = 12; = 5:28
5 5
La droite de Mayer passe par les points G1 et G2 , donc
2a + b = 4:55
12a + b = 5:28
la solution de ce système est donnée par
a = 0:073
b = 4:404
alors, la droite de Mayer du nuage admet pour équation
y = 0:073x + 4:404
Elle nous permet d’obtenir une estimation de la population en 2012 ; pour ce faire, il su¢ t de
calculer y pour x = 20 :
y = 0:073 20 + 4:404 = 5:864
On peut donc estimer que la population de cette ville devrait s’élever, en 2012, à 5864
habitants.