Académique Documents
Professionnel Documents
Culture Documents
__________________
I Introduction, nuage de points
1.Introduction
On se donne une population Ω d’effectif total N ; on numérote les individus de 1 à N : Pour
tout entier i de [1 ; N], soit ωi l’individu n°i.
En associant à l’individu ωi n°i de Ω le couple de réels (xi, yi) pour n’importe quel entier i
compris entre 1 et N (au sens large), on a défini une série statistique double.
En pratique, on la présente sous forme de tableau de la manière suivante :
n° des individus 1 2 … i … N
X x1 x2 … xi … xN
Y y1 y2 … yi … yN
2. Nuage de points
L’ensemble des points de coordonnées (xi, yi), où l’entier i varie de 1 à N, constitue le nuage
de points de la série statistique double X, Y.
C’est l’ensemble de tous les points de coordonnées X(ω) et Y(ω) où ω est un individu.
x
La droite (D) a pour équation y=ax+b
II. Recherche d’un ajustement linéaire par la méthode graphique
Exemple étudié
Une série de dix mesures simultanées de deux grandeurs X et Y a donné la série statistique
double suivante :
n° de la
mesure 1 2 3 4 5 6 7 8 9 10
X 62 63 65 68 60 68 70 66 63 66
Y 28 27 27,5 24 30,5 25,5 23,5 25 28,5 26,5
Résolution
X1 60 62 63 63 65 X 1 = 62,6
Y1 30,5 28 27 28,5 27,5 Y 1 = 28,3
X2 66 66 68 68 70 X 2 = 67,6
Y2 25 26,5 24 25,5 23,5 Y 2 = 24,9
Y 2 −Y1 − 3,4
Le coefficient directeur de (M1M2) est a= = = −0,68 . L’équation de (M1M2)
X2 − X1 5
est y=ax+b ainsi Y 1 = a X 1 +b d’où b= Y 1 –a X 1 =28,3+0,48×62,6 soit b=70,868.
Finalement la droite (M1M2) a pour équation y= -0,68x+70,868 .
On considère que tous les points du nuage de points, de coordonnées X et Y, sont proches de
la droite (M1M2) ainsi approximativement Y= -0,68X+70,868 .
M1
M2
III Méthode des moindres carrés
On a encore la population Ω d’effectif total N et la série statistique double X,Y donnée par le
tableau :
X x1 x2 … xi … xN
Y y1 y2 … yi … yN
On considère le nuage de points de la série statistique double X,Y dans le repère
r r
R= (O, i , j ) du plan.
1. Covariance de X et Y
1
cov(X, Y), la covariance de X et Y, est définie par : cov(X, Y)=
N
∑ ( X (ω ) − X )(Y (ω ) − Y ) ,
1 N
soit : cov(X,Y)= ∑ ( xi − X )( yi − Y ) .
N i =1
Après développement et regroupement, on obtient :
1 1 N
cov(X, Y)= ∑ X (ω )Y (ω ) − X Y = ∑ xi y i − X Y .
N N i =1
Avec a et b réels constants, on se donne la droite (D), non parallèle à l’axe des ordonnées
d’équation y=ax+b.
Soit ŷ1=ax1+b, ŷ2=ax2+b, … , ŷN = axN+b .
N N
2
On considère alors la somme Sor= ∑PM
i =1
i i = ∑ ( y i − yˆ i ) 2 .
i =1
On peut montrer que Sor est minimale pour a et b vérifiant les égalités suivantes :
cov( X , Y )
a= et Y = a X + b .
V( X )
DY/X , la droite d’ajustement de Y par rapport à X est cette droite (D) pour laquelle Sor est
minimale. DY/X constient le point moyen du nuage de points.
Figure du paragraphe 2
yi Mi
ŷi Pi
(D)
xi
Avec a et b réels constants, on se donne la droite (D), non parallèle à l’axe des abscisses,
d’équation x=αy+β.
Soit x̂ 1 = αy1+β , x̂ 2 = αy2+β , … , x̂ N = αyN+β .
N N
2
On considère alors la somme Sab= ∑ Qi M i = ∑ ( xi − xˆ i ) 2 .
i =1 i =1
On peut montrer que Sab est minimale pour α et β vérifiant les égalités suivantes :
cov( X , Y )
α= et X = α Y + β .
V (Y )
DX/Y , la droite de régression de X par rapport à Y, est cette droite (D) pour laquelle Sab est
minimale. DX/Y contient le point moyen du nuage de points.
Figure du paragraphe 3
(D)
yi Qi Mi
x̂ i xi
cov( X , Y )
DX/Y a pour équation x=αy+β avec α= et X = α Y + β . α ≠0 d’où DX/Y a aussi
V (Y )
1 β 1 β
pour équation : x = y + soit encore y = x − . Finalement :
α α α α
1 V (Y )
= est le coefficient directeur de DX/Y .
α cov( X,Y )
4. Validité de l’ajustement linéaire
On juge l’ajustement linéaire (par la méthode des moindres carrés) valable si les droites DY/X
et DX/Y, passant par M( X , Y ) , sont voisines.
a) Cas où cov(X,Y) =0
DY/X est horizontale et DX/Y est verticale. L’ajustement linéaire n’est pas valable, on dit que X
et Y sont linéairement indépendantes.
Exercice 1
N°de la tôle 1 2 3 4 5 6 7 8 9 10
épaisseur x selon 47 52 60 50 55 55 58 62 60 58
le procédé A
épaisseur y selon 45 49 55 48 50 52 54 56 54 53
le procédé B
Résolution
y G
DY/X
x
x
Exercice 2
Dans une fabrication de pièces en caoutchouc par moulage à l’aide d’une presse à injection,
on constate que la résistance à la rupture de chaque pièce est fonction du taux de goudron de
pin présent dans la gomme utilisée.
N° de la mesure 1 2 3 4 5 6 7 8 9 10
T 1,74 2,03 2,10 2,00 2,00 2,14 1,96 1,99 2,37 1,95
R 250,4 247,1 246,6 247,3 247,6 246,2 247,7 247,1 243,7 249
DR/T
T
IV Regroupement concernant une variable statistique double
On a la population Ω d’effectif N, un entier naturel non nul, et la série statistique double X,Y
donnée par le tableau :
X x1 x2 … xi … xp
Y y1 y2 … yi … yp
effectifs n1 n2 … ni … np
fréquences f1 f2 … fi … fp
C’est-à-dire :
L’ensemble des couples (X(ω), Y(ω)), où ω est un individu est l’ensemble
{(x1, y1), (x2, y2), … , (xp, yp)}.
Pour i entier variant de 1 à p, ni donne le nombre des individus associés, par la série
statistique double X,Y, au couple de réels (xi, yi) et fi = ni/N.
p p
1 1
X=
N
∑
i =1
ni xi et Y =
N
∑ny
i =1
i i
p p
1 2 2 1 2 2
V( X ) =
N
∑n
i =1
i xi − X et V(Y ) =
N
∑n i =1
i yi − Y
p
1
cov( X , Y ) =
N
∑n
i =1
i xi y i − XY