Vous êtes sur la page 1sur 12

Série statistique double

__________________
I Introduction, nuage de points

1.Introduction
On se donne une population Ω d’effectif total N ; on numérote les individus de 1 à N : Pour
tout entier i de [1 ; N], soit ωi l’individu n°i.

 On se donne 2 caractères quantitatifs X et Y sur Ω : Pour tout entier i de [1 ; N], soit


xi=X(ωi) et yi=Y(ωi).

En associant à l’individu ωi n°i de Ω le couple de réels (xi, yi) pour n’importe quel entier i
compris entre 1 et N (au sens large), on a défini une série statistique double.
En pratique, on la présente sous forme de tableau de la manière suivante :

n° des individus 1 2 … i … N
X x1 x2 … xi … xN
Y y1 y2 … yi … yN

On omet souvent la première ligne du tableau.

 On recherche une relation mathématique entre les deux variables statistiques X et Y ,


pouvant fournir un outil de travail pour analyser par exemple :
- l’influence de la température sur le comportement d’un composant électronique, ou
sur une réaction chimique
- l’influence des temps de fonctionnements d’un appareil sur les avaries.

2. Nuage de points

L’ensemble des points de coordonnées (xi, yi), où l’entier i varie de 1 à N, constitue le nuage
de points de la série statistique double X, Y.
C’est l’ensemble de tous les points de coordonnées X(ω) et Y(ω) où ω est un individu.

Le point moyen M de ce nuage de points est le point M de coordonnées X et Y .

La forme du nage de points peut suggérer une relation mathématique entre X et Y.


y
L’ajustement linéaire consiste à chercher s’il
existe une droite (D) passant « très près » des
points nuage.
×
×M Si on est dans le cas de la figure ci-contre, on
peut considérer qu’approximativement :
×× Y=aX+b .
(D)

x
La droite (D) a pour équation y=ax+b
II. Recherche d’un ajustement linéaire par la méthode graphique

Exemple étudié
Une série de dix mesures simultanées de deux grandeurs X et Y a donné la série statistique
double suivante :

n° de la
mesure 1 2 3 4 5 6 7 8 9 10
X 62 63 65 68 60 68 70 66 63 66
Y 28 27 27,5 24 30,5 25,5 23,5 25 28,5 26,5

1°) Représenter le nuage de points.


2°) Rechercher graphiquement un ajustement linéaire.

Résolution

1°) Voir la figure ci-dessous.

2°) La recherche peut se faire


- directement, par pure estimation
- en faisant intervenir le point moyen du nuage M( X ,Y ) . On essaie alors de choisir une
droite passant par M.
Ici on a X =65,1 et Y =26,6.
- par la méthode de Mayer à connaître :

On partage l’ensemble des points rangés par abscisses croissantes en 2 sous-ensembles de


même effectif à une unité près. On détermine les points moyens M1 et M2 des deux sous-
ensembles, et on choisit pour droite d’ajustement la droite (M1M2).
Cette droite (M1M2) contient toujours le point M.

Dans notre exemple, on a les deux regroupements :

X1 60 62 63 63 65 X 1 = 62,6
Y1 30,5 28 27 28,5 27,5 Y 1 = 28,3

X2 66 66 68 68 70 X 2 = 67,6
Y2 25 26,5 24 25,5 23,5 Y 2 = 24,9

On prend les deux points M1( X 1 , Y 1 ) et M2 ( X 2 , Y 2 ) : La droite d’ajustement est la droite


(M1M2). On va déterminer l’équation de cette droite.

Y 2 −Y1 − 3,4
Le coefficient directeur de (M1M2) est a= = = −0,68 . L’équation de (M1M2)
X2 − X1 5
est y=ax+b ainsi Y 1 = a X 1 +b d’où b= Y 1 –a X 1 =28,3+0,48×62,6 soit b=70,868.
Finalement la droite (M1M2) a pour équation y= -0,68x+70,868 .
On considère que tous les points du nuage de points, de coordonnées X et Y, sont proches de
la droite (M1M2) ainsi approximativement Y= -0,68X+70,868 .

M1

M2
III Méthode des moindres carrés

On a encore la population Ω d’effectif total N et la série statistique double X,Y donnée par le
tableau :
X x1 x2 … xi … xN
Y y1 y2 … yi … yN
On considère le nuage de points de la série statistique double X,Y dans le repère
r r
R= (O, i , j ) du plan.

1. Covariance de X et Y

1
cov(X, Y), la covariance de X et Y, est définie par : cov(X, Y)=
N
∑ ( X (ω ) − X )(Y (ω ) − Y ) ,
1 N
soit : cov(X,Y)= ∑ ( xi − X )( yi − Y ) .
N i =1
Après développement et regroupement, on obtient :
1 1 N
cov(X, Y)= ∑ X (ω )Y (ω ) − X Y = ∑ xi y i − X Y .
N N i =1

Dans les formulaires on écrit aussi σX,Y à la place de cov(X,Y).

Pour la suite, on suppose que ni X, ni Y ne sont constantes :


V(X) et V(Y) sont des réels strictement positifs .

2. Droite de régression (ou d’ajustement) linéaire de Y par rapport à X

Avec a et b réels constants, on se donne la droite (D), non parallèle à l’axe des ordonnées
d’équation y=ax+b.
Soit ŷ1=ax1+b, ŷ2=ax2+b, … , ŷN = axN+b .

Pour i entier variant de 1 à N :


Soit Mi le point de coordonnées (xi, yi), soit Pi le point de coordonnées (xi, ŷi). Pi est le point
de (D) d’abscisse xi.
r
L’unité de longueur étant celle du vecteur j , la longueur du vecteur Pi M i est PiMi=|yi–ŷi| .

N N
2
On considère alors la somme Sor= ∑PM
i =1
i i = ∑ ( y i − yˆ i ) 2 .
i =1
On peut montrer que Sor est minimale pour a et b vérifiant les égalités suivantes :
cov( X , Y )
a= et Y = a X + b .
V( X )

DY/X , la droite d’ajustement de Y par rapport à X est cette droite (D) pour laquelle Sor est
minimale. DY/X constient le point moyen du nuage de points.
Figure du paragraphe 2

yi Mi

ŷi Pi

(D)

xi

3. Droite de régression (ou d’ajustement) linéaire de X par rapport à Y

Avec a et b réels constants, on se donne la droite (D), non parallèle à l’axe des abscisses,
d’équation x=αy+β.
Soit x̂ 1 = αy1+β , x̂ 2 = αy2+β , … , x̂ N = αyN+β .

Pour i entier variant de 1 à N :


Soit Mi le point de coordonnées (xi, yi), soit Qi le point de coordonnées ( x̂ i, yi). Qi est le point
de (D) d’ordonnée yi.
r
L’unité de longueur étant celle du vecteur i , la longueur du vecteur Q1 M i est QiMi=|xi– x̂ i | .

N N
2
On considère alors la somme Sab= ∑ Qi M i = ∑ ( xi − xˆ i ) 2 .
i =1 i =1

On peut montrer que Sab est minimale pour α et β vérifiant les égalités suivantes :
cov( X , Y )
α= et X = α Y + β .
V (Y )

DX/Y , la droite de régression de X par rapport à Y, est cette droite (D) pour laquelle Sab est
minimale. DX/Y contient le point moyen du nuage de points.
Figure du paragraphe 3

(D)

yi Qi Mi

x̂ i xi

Complément dans le cas où cov(X, Y) ≠ 0 :

cov( X , Y )
DX/Y a pour équation x=αy+β avec α= et X = α Y + β . α ≠0 d’où DX/Y a aussi
V (Y )
1 β 1 β
pour équation : x = y + soit encore y = x − . Finalement :
α α α α
1 V (Y )
= est le coefficient directeur de DX/Y .
α cov( X,Y )
4. Validité de l’ajustement linéaire
On juge l’ajustement linéaire (par la méthode des moindres carrés) valable si les droites DY/X
et DX/Y, passant par M( X , Y ) , sont voisines.

a) Cas où cov(X,Y) =0
DY/X est horizontale et DX/Y est verticale. L’ajustement linéaire n’est pas valable, on dit que X
et Y sont linéairement indépendantes.

b) On se place dans le cas où cov(X,Y)≠ 0


cov( X , Y ) 1 cov( X , Y )
DY/X a pour pente a= et DX/Y a pour pente où α= . L’ajustement
V( X ) α V(Y )
a
linéaire est valable si le rapport des coefficients directeurs = aα est voisin de 1 où
1/ α
cov 2 ( X , Y )
aα= .
V( X ).V(Y )
cov( X , Y )
En fait on pose r= ; r est appelé le coefficient de corrélation linéaire de X et Y.
σ ( X ).σ (Y )
r2 = aα est le rapport des coefficients directeurs des 2 droites DY/X et DX/Y.

On peut vérifier que :


 |r| ≤1
 pour |r|=1, les 2 droites DY/X et DX/Y sont les mêmes et tous les points du nuage se
trouvent sur ces droites.
De plus :
 Pour |r| ≤ 0,25 , on estime la corrélation linéaire très faible ou nulle
 Pour 0,7 ≤ |r| ≤ 1 , on estime l’ajustement linéaire valable.
 Pour 0,95 ≤ |r|≤ 1, on estime l’ajustement linéaire excellent.

DY/X DX/Y Figure obtenue avec le nuage de


points du paragraphe II
5. Exemples

Exercice 1

Une entreprise fabrique en série des tôles en acier galvanisé.


Ces tôles sont soumises à un traitement protecteur par galvanisation.
Il est impératif de contrôler régulièrement l’épaisseur du revêtement protecteur. On dispose
pour cela de deux procédés possibles : Le premier (procédé A) est peu coûteux, mais peu
précis ; le second (procédé B) est plus fiable, mais coûteux car il nécessite la destruction du
revêtement.
On a comparé les deux procédés en contrôlant 10 tôles. Sur le tableau ci-après, on trouvera les
épaisseurs, exprimées en micron, estimées pour chacun des deux procédés :

N°de la tôle 1 2 3 4 5 6 7 8 9 10
épaisseur x selon 47 52 60 50 55 55 58 62 60 58
le procédé A
épaisseur y selon 45 49 55 48 50 52 54 56 54 53
le procédé B

a) Construire le nuage des points M de coordonnées (x, y).


b) Calculer les coordonnées x et y du point moyen G du nuage. Calculer V(x), V(y) et
cov(x, y).
c) Donner le coefficient de corrélation linéaire r de x et y. Que peut-on en conclure ?
d) Donner une équation de la droite de régression de y par rapport à x et la construire sur le
graphique du a).
e) Lors d’un contrôle, le procédé A indique une épaisseur égale à 65µ. Donner une
estimation plus fiable de l’épaisseur du revêtement de cette tôle.

Résolution

a) La représentation graphique demandée est donnée à la page suivante.

b) Avec la calculette ou avec excel on obtient :


x =55,7 et y =51,6. V(x)=21,01 et V(y)=11,04. cov(x,y)= 14,98.

c) On obtient encore r ≈ 0,984. L’ajustement linéaire est excellent.

d) La droite de régression DY/X a pour équation Y=aX+b où a≈ 0,713 et b≈ 11,886.


Cette droite passe par le point G de coordonnées x et y et par exemple le point A de
coordonnées 47 et a× 47+b ≈45,40 , d’où la construction de cette droite.

e) L’ajustement linéaire est excellent, on considère qu’approximativement y=ax+b, et que


si x=65 on a approximativement y= 65a+b, en arrondissant à une valeur entière comme dans
le tableau de valeurs, on prend y=58 .
Représentation graphique de l’exercice

y G

DY/X

x
x
Exercice 2

Toutes les valeurs numériques demandées seront arrondies à 10-3.

Dans une fabrication de pièces en caoutchouc par moulage à l’aide d’une presse à injection,
on constate que la résistance à la rupture de chaque pièce est fonction du taux de goudron de
pin présent dans la gomme utilisée.

On note R, exprimée en newtons, la résistance à la rupture de la pièce.


On note T, exprimée en parties pour 100 parties de gomme, le taux de goudron de pin de la
gomme utilisée.
On dispose d’une série de 10 mesures du couple (T, R).

N° de la mesure 1 2 3 4 5 6 7 8 9 10
T 1,74 2,03 2,10 2,00 2,00 2,14 1,96 1,99 2,37 1,95
R 250,4 247,1 246,6 247,3 247,6 246,2 247,7 247,1 243,7 249

Ces couples de mesures sont représentées par le nuage de points ci-dessous.

a) Déterminer une équation de la droite DR/T de régression de R en T par la méthode des


moindres carrés, tracer cette droite. Préciser le coefficient de corrélation linéaire. Commenter
la valeur de ce coefficient. (On ne demande aucun calcul intermédiaire justifiant l’équation de
la droite de régression ou la valeur du coefficient de corrélation linéaire)

b) A l’aide de la régression effectuée au a), estimer la résistance à la rupture pour un taux de


goudron de pin de 1,8.
Corrigé

a) DR/T a pour équation R=aT+b où a≈ -10,627 et b≈ 268,821. Le coefficient de corrélation


linéaire de T et R est ρ avec ρ≈ -0,975.
DR/T passe, par exemple, le point A de coordonnées 1,7 et a×1,7+b≈250,756 et le point B de
coordonnées 2,3 et a×2,3+b≈244,380 d’où son tracé.

On estime l’ajustement linéaire excellent, et on considère que le nuage de points de la figure


est très proche de la droite DR/T et qu’approximativement : R=aT+b.

b) Pour T=1,8 , on estime que a×1,8+b donne la valeur de R ; comme a×1,8+b≈249,693 et


comme dans le tableau de l’énoncé les valeurs de R sont données au dixième près, on estime
ici que R=249,7.

Figure complétée de l’exercice

DR/T

T
IV Regroupement concernant une variable statistique double

On a la population Ω d’effectif N, un entier naturel non nul, et la série statistique double X,Y
donnée par le tableau :

X x1 x2 … xi … xp
Y y1 y2 … yi … yp
effectifs n1 n2 … ni … np
fréquences f1 f2 … fi … fp

C’est-à-dire :
 L’ensemble des couples (X(ω), Y(ω)), où ω est un individu est l’ensemble
{(x1, y1), (x2, y2), … , (xp, yp)}.
 Pour i entier variant de 1 à p, ni donne le nombre des individus associés, par la série
statistique double X,Y, au couple de réels (xi, yi) et fi = ni/N.

Par exemple on a alors :

p p
1 1
X=
N

i =1
ni xi et Y =
N
∑ny
i =1
i i

p p
1 2 2 1 2 2
V( X ) =
N
∑n
i =1
i xi − X et V(Y ) =
N
∑n i =1
i yi − Y
p
1
cov( X , Y ) =
N
∑n
i =1
i xi y i − XY

Vous aimerez peut-être aussi