Vous êtes sur la page 1sur 60

Stat-descriptive

Rappelles sur la statistique descriptive


INTRODUCTION Vocabulaire statistique L ’opérateur somme

VOCABULAIRE STATISTIQUE

Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.

Individu (ou unités statistiques) :


Les individus sont les éléments de la population statistique étudiée.

Caractère statistique ou variable statistique :


C'est ce qui est observé ou mesuré sur les individus d'une population statistique.
INTRODUCTION Vocabulaire statistique L ’opérateur somme

VARIABLES QUANTITATIVES

Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques (somme, etc...) ont un sens.

Variable quantitative discrète: Variable quantitative continue:


Une variable quantitative est discrète si elle Une variable quantitative est continue si ses
ne peut prendre que des valeurs isolées, valeurs peuvent être n'importe lesquelles
généralement entières. d'un intervalle réel.
INTRODUCTION Vocabulaire statistique L ’opérateur somme

VARIABLES QUALITATIVES

Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.

Variable qualitative nominale : Variable qualitative ordinale :


C'est une variable qualitative dont les C'est une variable qualitative dont les
modalités ne sont pas ordonnées. modalités sont naturellement ordonnées
INTRODUCTION Vocabulaire statistique L ’opérateur somme

(1) UN OUTIL : L ’OPERATEUR SOMME S

DEFINITION: q
p et q étant 2 entiers relatifs x
i= p
i = x p + x p +1 + ...... + xq

q q q

REMARQUE 1: i est une variable muette  x = x = x


i= p
i
j= p
j
h= p
h

REMARQUE 2: n

Quand il n’y a pas d’ambiguïté sur le domaine x = x = x


i =1
i
i
i i
de variation de i, celui-ci peut être omis
INTRODUCTION Vocabulaire statistique L ’opérateur somme

(2) UN OUTIL : L ’OPERATEUR SOMME S


PROPRIETE 1:  ka
i
i = k  ai
i
q q

 ka i = ka p + ka p +1 + ...... + kaq = k ( a p + a p +1 + ...... + aq ) = k  ai


i= p i= p
PROPRIETE 2: (a + b ) =  a + b
i
i i
i
i
i
i

(a i + bi ) = ( a p + b p ) + ( a p +1 + b p +1 ) + ..... + ( aq + bq )
i= p
q q
= ( a p + a p +1 + ..... + aq ) + ( bp + b p +1 + ..... + bq ) =  ai +  bi
i= p i= p

PROPRIETE3:  k ( a + b ) = k  a + k b
n
i i i i

 k = nk
i i i
PROPRIETE 4 :
i =1
n

 k = k + k + ..... + k = nk
i =1 q n
PROPRIETE5:  k = ( q − p + 1) k
i= p
TABLEAUX ET GRAPHIQUES
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUALITATIVES NOMINALES


Noms Couleur des yeux Modalités Effectifs Fréquences %
M. Med Vert Bleu 60 0,200 20,0
M. Halim Noir Noir 160 0,533 53,3
Mme zohra Noir
Noisette 40 0,133 13,3
Melle fatima Noisette
M. zidane Bleu Vert 40 0,133 13,3
M. hamid Noir Total : 300 1 100
M. kada Noisette
Mme hayat Noir Modalités Effectifs Fréquences %
Melle maria Bleu modalité 1 n1 f1= n1/n f1×100
M. tayeb Vert
… … …
M. farhat Bleu
modalité i ni fi= ni/n f i ×100
Mme karima Noir
… … …
modalité k nk fk= nk/n f k ×100
…. …. Total :  n i = n  fi =1 100
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUALITATIVES NOMINALES


Modalités Effectifs Fréquences %
Bleu 60 0.200 20,0
Noir 160 0,533 53,3
Noisette 40 0,133 13,3
Vert 40 0,133 13,3
Total : 300 1 100

Diagramme circulaire ou camembert Diagramme en barres


Vert 180
Bleu 160
13% 160
20%
140
Noisette 120
13%
100

80
60
60
40 40
40
20
Noir
54% 0
Bleu Noir Noisette Vert
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUALITATIVES ORDINALES


130 personnes ont été interrogées sur leur addiction au chocolat
Modalités Effectifs = Nombre de personnes
Les Pas du tout (A) 10
modalités Un peu (B) 25
sont Beaucoup (C) 40
présentées Passionnément (D) 32
dans l’ordre A la folie (E) 23

45
40
40

35 32

30
25
25 23

20

15
10
10

0
A B C D E
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES DISCRETES


REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

Nbre de produits financiers Effectif Fréquence


xi ni fi
0 103 0,286
1 115 0,319
2 95 0,264
3 35 0,097
4 10 0,028
5 2 0,006
Diagramme en bâtons
140

120

100

80

60

40

20

0
0 1 2 3 4 5 6
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES DISCRETES


EFFECTIFS ET FREQUENCES CUMULES
Nbre Nombre de Effectifs cumulés Effectifs cumulés
produits Clients croissants décroissants
financiers
0 103 103 360
Effectifs cumulés croissants: 1 115 218 257
Nombre d'individus pour lesquels la 2 95 313 142
3 35 348 47
variable est inférieure ou égale à xi. 4 10 358 12
Résultat de l'addition, de proche en 5 2 360 2
proche, des effectifs d'une distribution Total : 360
observée en commençant par le 1er.

Valeurs de la Effectif Effectifs cumulés Effectifs cumulés


variable croissants décroissants
Effectifs cumulés décroissants: xi ni
Nombre d'individus pour lesquels la x1 n1 N1= n1 N’1= nk+ ….+ n1= n
variable est supérieure ou égale à xi. x2 n2 N2= n1+ n2 N’2= nk+ ….+ n2
Résultat de l'addition, de proche en x3 n3 N3= n1+ n2+ n3 N’3= nk+ ….+ n3
proche, des effectifs d'une distribution … … …. ….
xk-1 nk-1 Nk-1= n1+ ….+ nk-1 N’k-1= nk+ nk-1
observée en commençant par le dernier. xk nk Nk= n1+ ….+ nk= n N’k= nk
Total : n
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES DISCRETES


EFFECTIFS ET FREQUENCES CUMULES
Nombre de Nombre de Effectifs Effectifs Fréquences Fréquences Fréquences
produits clients cumulés cumulés cumulées cumulées
financiers croissants décroissants croissantes décroissantes
xi ni Ni fi Fi F’i
0 103 103 360 0,2861 0,2861 1
1 115 218 257 0,3194 0,6055 0,7139
2 95 313 142 0,2639 0,8694 0,3945
3 35 348 47 0,0972 0,9666 0,1306
4 10 358 12 0,0278 0,9944 0,0334
5 2 360 2 0,0056 1 0,0056
Total : 360 1

Il y a 313 clients possédant un nombre de produits financiers inférieur ou égal à 2

Il y a 47 clients possédant un nombre de pro. fin. supérieur ou égal à 3


La proportion de clients possédant un nombre de pro. fin. inférieur ou égal à 4 est de 99,44%

La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES DISCRETES


COURBES CUMULATIVES
400
xi ni Ni N’i 350

300
0 103 103 360
250
1 115 218 257
200
2 95 313 142
150
35 348 47
3 100
10 358 12
4 50
2 360 2 0
5
-2 -1 0 1 2 3 4 5 6

On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES CONTINUES


REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500
[10 – 20 [ 92 400

[20 – 30[ 63 300

[30 – 50[ 15 200


100
0

0
3

30

50
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 HISTOGRAMME
200
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150

[10 – 20 [ 92 10 9,2 100


[20 – 30[ 63 10 6,3
50
[30 – 50[ 15 20 0,75
0

30

50
0
3
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES CONTINUES


REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES

Classes Effectifs Amplitude Effectifs 350


Effectif rectifié
ni ai rectifiés 300
ni /ai
250
[0 – 3[ 830 3 276,7 HISTOGRAMME
[3 – 5[ 615 2 307,5 200

[5 – 10[ 510 5 102,0 150


[10 – 20[ 92 10 9,2
[20 – 30[ 63 10 6,3 100

[30 – 50[ 15 20 0,75 50

30

50
0
3
La surface = ai × (ni/ai) est de 830 unités

La surface = ai × (ni/ai) est de 615 unités


Dans un histogramme, ce sont les surfaces des rectangles (ce que l’œil voit), qui sont
proportionnelles aux effectifs, et non les hauteurs de ces rectangles

Remarque: Le tracé de l’histogramme des fréquences est identique. Il suffit de porter


en ordonnées la fréquence rectifiée di = fi/ai, appelée densité.
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES CONTINUES


EFFECTIFS ET FREQUENCES CUMULES
Classes Effectifs Effectifs Effectifs Fréquences Fréquences
cumulés cumulés cumulées cumulées
croissants décroissants croissantes décroissantes
[ei – ei+1[ ni Ni N’i Fi F’i
Variable observée: [0 – 3[ 830 830 2125 0,391 1,000
augmentation moyenne [3-5[ 615 1445 1295 0,680 0,609
mensuelle du salaire , [ 5 - 10 [ 510 1955 680 0,920 0,320
[10 - 20 [ 92 2047 170 0,963 0,080
des employés d’une
[20 - 30 [ 63 2110 78 0,993 0,037
multinationale au cours [30 – 50[ 15 2125 15 1,000 0,007
de l’année 2005. Total : 2125

Il y a 1445 employés dont l’augmentation est strictement inférieure à 5

Il y a 170 employés dont l’augmentation est supérieure ou égale à 10

Combien y-a-t-il d’employés dont l’augmentation est inférieure à 17 ?


TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

VARIABLES QUANTITATIVES CONTINUES


COURBES CUMULATIVES
On appelle courbe cumulative croissante le tracé de la fonction F (N pour les effectifs) qui à tout réel x
associe F( x ) = nombre d'observations inférieur ou égal à x.

On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
x associe F’( x ) = nombre d'observations supérieur strictement à x.

Exemple :Reprenons la distribution des tailles des 175 étudiants.


La courbe cumulative des fréquences est représentée ci-dessous.

Remarque : a l’intérieur de chaque classe, on fait l’hypothèse que la répartition est uniforme
Courbe cumulative des fréquences
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue

(7) VARIABLES QUANTITATIVES CONTINUES


COURBES CUMULATIVES
Quelle est la proportion p d’employés dont l’augmentation est inférieure à 17 ?
x [ei – ei+1[ Fi F(x)
0 0
1
[0-3[ 0,391 0,950,9
3 0,391 0,8
[3-5[ 0,680 0,7

5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3

17 [10 - 20 [ 0,963 p 0,2


0,1
20 0,963 0
-10 0 10 20 30 40 50 60
[20 - 30 [ 0,993 17
30 0,993
[30 - 50 [ 1
50 1
17 − 10
17 - 10
=
p - 0,92 D'où p = 0,92 + ( 0,963 − 0,920 )  95%
20 - 10 0,963-0,920 20 − 10
TABLEAUX ET GRAPHIQUES

RESUME
VARIABLE QUALITATIVE VARIABLE QUANTITATIVE
Nominale Ordinale Discrète Continue

Effectifs ou Fréquences Effectifs ou Fréquences


Diagramme en barres Diagramme en barres Diagramme en bâtons Histogramme

Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences
PARAMETRES STATISTIQUES
PARAMETRES STATISTIQUES

Les représentations graphiques ont permis une première synthèse visuelle de la


distribution des observations

Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.

! Les paramètres statistiques ne concernent que les variables quantitatives

Variable Variable Variable


3000 3000 3000

2500 2500 2500

2000 2000 100 % - A % 2000


Dispersion
1500
Tendance centrale 1500 1500
Position
1000 1000
A% 1000

500 500 500

0 0 0
0 N° individu 0 N° individu 0 N° individu
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LE MODE
Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres
maxima relatifs.
La lecture s’effectue sur le diagramme en bâtons ou l'histogramme.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6
900 1400 1900 2400 2900 3500 ou plus...

Mode Mode Classe modale

Le mode correspond à l'abscisse du maximum, c.à.d. la valeur la plus fréquente


PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LE MODE
Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou
plurimodale.
La population est composée de plusieurs sous-populations ayant des caractéristiques de
tendance centrale différentes.
90

80
140
70
120
60
100
50
80
40
60
30
40 20
20 10

0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...

Mode 1 Mode 2 Mode 1 Mode 2


PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

Formule pour calculer le mode


d’une var- stat continue
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LA MEDIANE

Les valeurs observées doivent être rangées par ordre croissant.

La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".

Nombre impair d’observations Nombre pair d’observations

3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9

4 valeurs 4 valeurs 4 valeurs 4 valeurs


M Intervalle médian
M = milieu = 5,5
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LA MEDIANE à partir d’une distribution continue
x [ei – ei+1[ Fi F(x) 1
0,9
0
0 0,8
[0-3[ 0,391 0,7
3 0,391 0,6
M [3-5[ 0,680 0,5 0,5
0,4
5
0,680 0,5 0,3
[ 5 - 10 [ 0,920 0,2
10 0,920 0,1
0
[10 - 20 [ 0,963 -10 0 10 20 30 40 50 60
20 0,963
[20 - 30 [ 0,993 3,22
30 0,993 M
[30 - 50 [ 1
50 1
M-3 0,5-0,391 0,5 − 0,391
= D'où M = 3 + ( 5 − 3)  3, 22
5-3 0,680-0,391 0,680 − 0,391
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LA MOYENNE ARITHMETIQUE

La moyenne arithmétique est notée x

1 n
Série brute x1, x2, … , xn x =  xi
n i=1

Série groupée Valeurs de Effectifs Fréquences 1 k


la variable x =  nixi
x1 n1 f1= n1/n n i=1
… … …
k
nixi k
xi ni fi= ni/n
= = fi x i
… … … i=1 n i=1
xk nk fk= nk/n
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LA MOYENNE ARITHMETIQUE

Classes Effectifs Fréquences Centres de classe


Série classée
[e1 – e2[ n1 f1 x1= ( e1 + e2)/2
[e2 – e3[ n2 f2 x2= ( e2 + e3)/2
…. …. …. ….
[ek – ek+1[ nk fk xk= ( ek + ek+1)/2

1 k k
x =  n i x i =  fi x i
n i=1 i=1
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


LA MOYENNE ARITHMETIQUE
Comment faire la moyenne de plusieurs populations ?

Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2

Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x?

k
nixi
x= 1 1 2 2 =
nx +n x Moyenne globale = moyenne des moyennes
n i=1 n
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE TENDANCE CENTRALE


MOYENNES GEOMETRIQUE ET HARMONIQUE

Moyenne géométrique

G = n x1n1 x n2 2 .....x nk k

Utilisée dans le cas de phénomènes multiplicatifs (taux de croissance moyen)

Moyenne harmonique

n
H= k n

x
i=1
i

Utilisée dans le cas où l’on combine 2 variables sous forme de rapport


(pièces/heure, km/litre,…)
PARAMETRES STATISTIQUES Tennce centrale Position
Position Dispersion

PARAMETRES DE POSITION
LES QUARTILES

Définitions: La liste des N données est rangée par ordre croissant.


Le premier quartile Q1 est la plus petite donnée de la liste telle qu’au moins 25% des
données soient inférieures ou égales à Q1.

Le troisième quartile Q3est la plus petite donnée de la liste telle qu’au moins 75% des
données soient inférieures ou égales à Q3.

Méthode: Pour Q1, on calcule N/4, puis on détermine le premier entier p supérieur ou égal
à N/4. Cet entier p est le rang de Q1. Pour Q3, on fait de même avec 3N/4
Exemple: Pour N=15, on a N/4=3,75 et 3N/4 = 11,25. Donc Q1est la quatrième valeur de
la série et Q3 est la douzième valeur.
L’Ecart interquartile: c’est la différence Q3-Q1
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
On peut représenter ces données sous forme de diagramme en boîte ou boîte à moustaches
ou (TUKEY).
Sur ce diagramme apparaissent la valeur minimale, Q1, Me,Q3 et la valeur maximale.
De cette boîte s'étirent deux moustaches (représentées par des traits) jusqu'au minimum et
au maximum.
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

LES FRACTILES OU QUANTILES

On appelle fractiles ou quantiles d'ordre k les (k-1) valeurs qui divisent les observations
en k parties d'effectifs égaux.

1 médiane M qui divise les observations en 2 parties égales

3 quartiles Q1, Q2, Q3 qui divisent les observations en 4 parties égales

9 déciles D1, D2, …, D9 qui divisent les observations en 10 parties égales

99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

LES FRACTILES OU QUANTILES


Quartiles, déciles, centiles s’obtiennent de la même façon que la médiane.

Variable discrète Variable continue

1
0,9 0,9
1 0,8
0,75
0,7
0,75 0,6
0,5 0,5
0,5
0,4
0,3
0,2 0,2
0,1
0
-2 -1 0 1 2 3 4 5 6 0 MQ3D
-10 0 9
10 20 30 40 50 60
D2 M Q3
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE DISPERSION

Etendue : R = xmax - xmin

Variance : Série brute : Série groupée ou classée :

1 n 1 k k
V =  ( xi - x ) V =  n i ( x i - x ) =  fi ( x i - x )
2 2 2

n i=1 n i=1 i=1

1 k
V =  n i x i2 − x 2 = Moyenne des carrés - Carré de la moyenne
n i=1

Ecart-type : σ= V
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion

PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?

Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2

Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?

1 k 1 k
V =  n i Vi +  n i ( x i -x )
2

n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
PARAMETRES STATISTIQUES

PROPRIETES IMPORTANTES
DE LA MOYENNE ET DE LA VARIANCE

Comment se comportent la moyenne et la variance


lorsqu’on fait subir un changement de variable aux observations?

xi y i = a xi + b

y=ax+b V(y) = a 2 V(x) σ(y) = a σ(x)

Comment se comportent la moyenne et la variance


de la somme de deux séries d’observations?

xi
zi = xi + yi
yi
z= x+ y V(z)  V(x)+ V(y)
ETUDE DE 2 VARIABLES
QUANTITATIVES
ETUDE DE 2 VARIABLES QUANTITATIVES

MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

95

90
Poids
Nom Taille xi (cm) Poids yi (kg) 85
Med 175 73 80
omar 168 56
75
….. ….. …..
70
Maria 185 87
65

60

55
Taille
50
150 160 170 180 190 200

La connaissance de la taille x apporte une certaine information sur le poids y

Il existe une relation de dépendance entre x et y


ETUDE DE 2 VARIABLES QUANTITATIVES

MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

La connaissance de x n’apporte La connaissance de x permet de


aucune certaine information sur y connaître exactement la valeur de y

x et y sont indépendantes Il existe une relation fonctionnelle


entre x et y
ETUDE DE 2 VARIABLES QUANTITATIVES

MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

1 n
Covariance : Cov ( x,y ) =  ( x i -x )( yi -y )
n i=1

Propriétés :

Cov ( x,y )  0  x et y varient dans le même sens

Cov ( x,y )  0  x et y varient en sens contraire

Cov ( x,y ) = Cov ( y,x )

Cov ( x,x ) = V(x)

Cov ( a x + b y , z ) = a Cov ( x,z ) + b Cov ( y,z )


ETUDE DE 2 VARIABLES QUANTITATIVES

MESURE DE LA LIAISON ENTRE 2


VARIABLES QUANTITATIVES

cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)

Propriétés :

−1  ρ  1
 ρ = 1 si a > 0
y=ax+b 
ρ = -1 si a < 0
ρ = 1  Il existe une relation fonctionnelle entre x et y
ρ=0  x et y sont indépendantes
0  ρ  1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand

! Ne pas confondre causalité et corrélation


ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE
95

90
y = Poids
85

80

75

70

65

60

55
x = Taille
50
150 160 170 180 190 200

Est-il possible de trouver une fonction numérique f telle que y = f (x) ?

Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.

x est la variable explicative.


y est la variable expliquée.
ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE
95

90
y = Poids
85

80

75

70

65

60

55
x = Taille
50
150 160 170 180 190 200

On désire trouver la droite qui passe « au mieux » à l’intérieur du nuage de points


ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE

« au mieux »

n n
Minimiser S =  e 2
i
Minimiser S' = 
i=1
e'i2
i=1

95 95

90
y = Poids 90
y = Poids
85 85

80 80
e'i
75 ei 75

70 70

65 65

60 60

55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200

Droite de régression de y en x Droite de régression de x en y


ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95

90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65

60

55
x = Taille
50
150 160 170 180 190 200
xi
n n

  ( yi -ax i -b )
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e =
i
i=1 i=1
n
1 i=n
 ( x i -x )( yi -y ) Cov ( x,y )
n
 x i yi − x y
a = i=1 n = = i =1 b = y - ax
 i ( )
2 V(x) V(x)
x -x
i=1 Dy/x passe par le point moyen ( x , y )
ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95

90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65

60

55
x = Taille
50
150 160 170 180 190 200
xi
y = a x + b définit un modèle affine

ŷi = a x i + b = valeur de yi prévue par le modèle

ri = yi - yˆ i = résidu de la ième observation

ei = ri = yi - a x i - b = erreur due au modèle


ETUDE DE 2 VARIABLES QUANTITATIVES

AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE X EN Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85
f(y) = x = a’y+b’
Droite de régression y80i
75
linéaire de x en y
70
x = f(y) = a’y + b’
65

60

55
x = Taille
50
150 160
x170i a’yi+b’
180 190 200

n n

  ( x i -a'yi -b')
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = e' =
i
i=1 i=1
n

 ( x -x )( y -y )
i i
Cov ( x,y )
a' = i=1
n
= b' = x - a' y
 ( y -y )
2 V(y)
i=1
i
Dx/y passe par le point moyen ( x , y )
ETUDE DE 2 VARIABLES QUANTITATIVES

LIENS ENTRE CORRELATION


ET DROITES DE REGRESSION
Cov ( x,y )
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov ( x,y )
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
 y= x −
a' a'

( x, y ) ( x, y )
( x, y )

r² = a a’ = 0 0 r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire Liaison fonctionnelle linéaire
se mesure à la proximité des
droites de régression
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION EXPONENTIELLE

25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression linéaire
2,7 1,5 15,0 de y en x
4,2 1,9
4,1 2,3 10,0

…. ….
4,0 3,1 5,0

0,0
0 10 20 30 40 50 60

2
Analyse des résidus
1

0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2
abscisses:
-3 le modèle affine ne convient pas
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,0

Modèle exponentiel
20,0

y = ex exponentielle de base e
15,0

10,0
y = ax exponentielle de base a

5,0 y = b a x Forme exponentielle générale


0,0
0 10 20 30 40 50 60
Changement de variable
ln y = ln b + x ln a

Y=AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = eA , b = eB , et le modèle y = b a x
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION EXPONENTIELLE


25,00

20,00 Série initiale (xi,yi)


15,00 Série prévue par le modèle ( x i ,yˆ i )

10,00

5,00

0,00
0 10 20 30 40 50 60

1,50

1,00

0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60

-0,50

-1,00 Le modèle exponentiel est mieux


-1,50 adapté que le modèle affine
ETUDE DE 2 VARIABLES QUANTITATIVES

(1) AJUSTEMENT A UNE FONCTION PUISSANCE

900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60

150

100

50

0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
ETUDE DE 2 VARIABLES QUANTITATIVES

(2) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
Modèle puissance y = b xa
700
600
500 Changement de variable
400
300 ln y = ln b + a ln x
200
100 Y=AX + B
0
avec Y = ln y
0 20 40 60 X = ln x
A=a
B = ln b

L’ajustement affine de Y en fonction de X donne A et B,


d ’où a = A , b = eB , et le modèle y = b x a
ETUDE DE 2 VARIABLES QUANTITATIVES

(3) AJUSTEMENT A UNE FONCTION PUISSANCE


900
800
700 Série initiale (xi,yi)
600
500 Série prévue par le modèle ( x i ,yˆ i )
400
300
200
100
0
0 20 40 60

80

60

40

20

Analyse des résidus 0


0 10 20 30 40 50 60
-20

-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80
ETUDE DE 2 VARIABLES QUANTITATIVES

QUALITE D’UN AJUSTEMENT

 ( yi -y ) = ( yˆ i -y ) +  ( yi -yˆ i )
2 2 2
On montre que
SCM SCR
SCT = SCM + SCR  1= +
SCT SCT
Somme des carrés des Somme des carrés des Somme des
écarts à la moyenne
= écarts du modèle
+ carrés des résidus

L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.

SCM
R= = Coefficient de détermination = r² = (coef. de corrélation)²
SCT

= proportion de la variation totale due à l'ajustement

0  R 1

Vous aimerez peut-être aussi