Vous êtes sur la page 1sur 23

MOOC Statistique pour ingénieur

Thème 0 : statistique descriptive


Vidéo 2 : Statistiques à deux variables

F. Delacroix M. Lecomte
Institut Mines-Télécom
École Nationale Supérieure des Mines de Douai

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Sommaire

1 Distributions à deux caractères

2 Covariance

3 Coefficient de corrélation linéaire

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Un exemple
• Test en compression d’éprouvettes de
béton
• X=teneur en ciment (kg/m3 )
• Y=résistance à la compression (MPa)

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Collecte des données
Y
n = 90 mesures y1 ... yj ... yc Total
X
Y x1 n1j
60 80 100
X .. ..
. .
300 15 4 1 xi ni1 ... nij ... nic ni·
350 10 20 10 .. ..
. .
400 5 10 15 xr nrj
Total n·j n

nij = nombre d’observations avec X = xi et Y = yj

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Collecte des données
Y
n = 90 mesures y1 ... yj ... yc Total
X
Y x1 n1j
60 80 100
X .. ..
. .
300 15 4 1 xi ni1 ... nij ... nic ni·
350 10 20 10 .. ..
. .
400 5 10 15 xr nrj
Total n·j n

c
ni· = effectif marginal de la ième ligne = nij
j=1

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Collecte des données
Y
n = 90 mesures y1 ... yj ... yc Total
X
Y x1 n1j
60 80 100
X .. ..
. .
300 15 4 1 xi ni1 ... nij ... nic ni·
350 10 20 10 .. ..
. .
400 5 10 15 xr nrj
Total n·j n

r
n·j = effectif marginal de la jème colonne = nij
i=1

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Collecte des données
Y
n = 90 mesures y1 ... yj ... yc Total
X
Y x1 n1j
60 80 100
X .. ..
. .
300 15 4 1 xi ni1 ... nij ... nic ni·
350 10 20 10 .. ..
. .
400 5 10 15 xr nrj
Total n·j n

c ∑
r ∑
r ∑
c
n= nij = ni· = n·j
j=1 i=1 i=1 j=1

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Distribution conjointe
nij
Fréquence de la cellule Cij : fij =
n
Y Y
60 80 100 Total 60 80 100 fi·
X X
n1· 300 16,7% 4,4% 1,1% 22,2%
300 15 4 1
= 20 350 11,1% 22,2% 11,1% 44,4%
n2·
350 10 20 10 400 5,6% 11,1% 16,7% 33,3%
= 40
n3·
400 5 10 15
= 30 ni·
fi· = distribution marginale en X
n·1 n·2 n·3 n
Total 90
= 30 = 34 = 26

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Distribution conjointe
nij
Fréquence de la cellule Cij : fij =
n
Y Y
60 80 100 Total 60 80 100 fi·
X X
n1· 300 16,7% 4,4% 1,1% 22,2%
300 15 4 1
= 20 350 11,1% 22,2% 11,1% 44,4%
n2·
350 10 20 10 400 5,6% 11,1% 16,7% 33,3%
= 40
n3· f·j 33,3% 37,8% 28,9%
400 5 10 15
= 30 ni·
fi· = distribution marginale en X
n·1 n·2 n·3 n
Total 90 nj
= 30 = 34 = 26 f·j = · distribution marginale en Y
n

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Distributions marginales

• diagramme en barres
X =teneur en ciment

400

350

300

0% 10% 20% 30% 40% 50%


fréquence observée

• teneur moyenne en ciment des éprouvettes


1∑ ∑ r r
x= ni·xi = fi·xi ≃ 355,5 kg/m3
n
i=1 i=1

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Distribution conditionnelles

Y Y
60 80 100 Total y1 ··· yj ··· yc Total
X X
300 15 4 1 20 yj sachant
ni1 ··· nij ··· nic ni·
350 10 20 10 40 que X = xi
400 5 10 15 30
Total 30 34 26 90

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Distribution conditionnelles

Y Y
60 80 100 Total y1 ··· yj ··· yc Total
X X
300 15 4 1 20 yj sachant
ni1 ··· nij ··· nic ni·
fj/i 75% 20% 5% que X = xi
Fréquence de Y = yj sachant que X = xi :

nij fij
fj/i = =
ni· fi·

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Indépendance
Définition Y
60 80 100 fi·
X et Y sont indépendantes si la X
distribution conditionnelle de Y sachant 300 16,7% 4,4% 1,1% 22,2%
X = xi ne dépend pas de i :
350 11,1% 22,2% 11,1% 44,4%
∀i,j, fj/i = f·j 400 5,6% 11,1% 16,7% 33,3%
fij = fi· × f·j f·j 33,3% 37,8% 28,9%
0,333 × 0,222 ̸= 0,167
X et Y ne sont pas indépendantes.

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Sommaire

1 Distributions à deux caractères

2 Covariance

3 Coefficient de corrélation linéaire

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Covariance : un exemple

1∑
n
Cov (X,Y) = (xi − x) (yi − y)
n
i=1

1 ∑n
= xi yi − x y
n
i=1

X
20 24 28 22 32 28 32 36 41 41
engrais
Y
16 18 23 24 28 29 26 31 32 34
rendement

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Covariance : un exemple

1 ∑ 1∑
10 n

x= xi = 30,4 Cov (X,Y) = (xi − x) (yi − y)


10 n
i=1 i=1

1 ∑10
1 ∑n

y= yi = 26,1 = xi yi − x y
10 n
i=1 i=1

1 ∑
n
xi yi = 828,6
n
i=1

Cov (X,Y) = 828,6 − 30,4 × 26,1 = 35,16

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Propriétés de la covariance
Proposition
• Symétrie : Cov (X,Y) = Cov (Y,X)
• lien avec la variance : Cov (X,X) = V (X)
• transformation affine : Cov (aX + b,cY + d) = a c Cov (X,Y)
• Si X et Y sont indépendantes alors Cov (X,Y) = 0.

B La réciproque est fausse !


Cov (X,Y)=0 n’entraîne pas que X et Y sont indépendantes

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Variance d’une somme
Théorème
V (X + Y) = V (X) + 2Cov (X,Y) + V (Y)

Cas de variables décorrélées : V (X + Y) = V (X) + V (Y).

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Inégalité de Cauchy-Schwarz

Pour t ∈ R :

0 6 V (X + tY) = V (X) + 2 t Cov (X,Y) + t2 V (Y)

[ ]
∆ = [2Cov (X,Y)]2 − 4V (X) V (Y) = 4 Cov (X,Y)2 − V (X) V (Y) 6 0

Théorème (Inégalité de Cauchy-Schwarz)



|Cov (X,Y)| 6 V (X) V (Y) = σ(X) σ(Y)

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Sommaire

1 Distributions à deux caractères

2 Covariance

3 Coefficient de corrélation linéaire

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Coefficient de corrélation linéaire
Définition
Cov (X,Y)
r(X,Y) =
σ(X) σ(Y)
On a
−1 6 r(X,Y) 6 1

r(X,Y) ≃ 0 ⇒ absence de relation linéaire (décorrélation)


̸⇒ indépendance

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive


Exemple
Corrélation entre rendement et quantité d’engrais d’une parcelle de blé

X
20 24 28 22 32 28 32 36 41 41
engrais
Y
16 18 23 24 28 29 26 31 32 34
rendement
σ(X) ≃ 7,40 σ(Y) ≃ 5,91 Cov (X,Y) ≃ 35,16

35,16
r(X,Y) ≃ ≃ 0,89
7,40 × 5,91
Il y a corrélation linéaire forte.

MOOC Statistique pour ingénieur Thème 0 : statistique descriptive