Rappel Stat D Escript

Stat-descriptive
Rappelles sur la statistique descriptive

INTRODUCTION Vocabulaire statistique L ’opérateur somme
VOCABULAIRE STATISTIQUE
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.
Individu (ou unités statistiques) :

Les individus sont les éléments de la population statistique étudiée.
Caractère statistique ou variable statistique :

C'est ce qui est observé ou mesuré sur les individus d'une population statistique.
VARIABLES QUANTITATIVES
Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques (somme, etc...) ont un sens.
Variable quantitative discrète: Variable quantitative continue:

Une variable quantitative est discrète si elle Une variable quantitative est continue si ses
ne peut prendre que des valeurs isolées, valeurs peuvent être n'importe lesquelles
généralement entières. d'un intervalle réel.
VARIABLES QUALITATIVES
Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.
Variable qualitative nominale : Variable qualitative ordinale :

C'est une variable qualitative dont les C'est une variable qualitative dont les
modalités ne sont pas ordonnées. modalités sont naturellement ordonnées
(1) UN OUTIL : L ’OPERATEUR SOMME S
DEFINITION: q
p et q étant 2 entiers relatifs x
i= p
i = x p + x p +1 + ...... + xq
q q q
REMARQUE 1: i est une variable muette  x = x = x

i= p
i
j= p
j
h= p
h
REMARQUE 2: n
Quand il n’y a pas d’ambiguïté sur le domaine x = x = x

i =1
i
i
i i
de variation de i, celui-ci peut être omis
(2) UN OUTIL : L ’OPERATEUR SOMME S

PROPRIETE 1:  ka
i
i = k  ai
i
q q
 ka i = ka p + ka p +1 + ...... + kaq = k ( a p + a p +1 + ...... + aq ) = k  ai

i= p i= p
PROPRIETE 2: (a + b ) =  a + b
i
i i
i
i
i
i
(a i + bi ) = ( a p + b p ) + ( a p +1 + b p +1 ) + ..... + ( aq + bq )
i= p
q q
= ( a p + a p +1 + ..... + aq ) + ( bp + b p +1 + ..... + bq ) =  ai +  bi
i= p i= p
PROPRIETE3:  k ( a + b ) = k  a + k b
n
i i i i
 k = nk
i i i
PROPRIETE 4 :
i =1
n
 k = k + k + ..... + k = nk
i =1 q n
PROPRIETE5:  k = ( q − p + 1) k
i= p
TABLEAUX ET GRAPHIQUES
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
VARIABLES QUALITATIVES NOMINALES

Noms Couleur des yeux Modalités Effectifs Fréquences %
M. Med Vert Bleu 60 0,200 20,0
M. Halim Noir Noir 160 0,533 53,3
Mme zohra Noir
Noisette 40 0,133 13,3
Melle fatima Noisette
M. zidane Bleu Vert 40 0,133 13,3
M. hamid Noir Total : 300 1 100
M. kada Noisette
Mme hayat Noir Modalités Effectifs Fréquences %
Melle maria Bleu modalité 1 n1 f1= n1/n f1×100
M. tayeb Vert
… … …
M. farhat Bleu
modalité i ni fi= ni/n f i ×100
Mme karima Noir
… … …
modalité k nk fk= nk/n f k ×100
…. …. Total :  n i = n  fi =1 100
VARIABLES QUALITATIVES NOMINALES

Modalités Effectifs Fréquences %
Bleu 60 0.200 20,0
Noir 160 0,533 53,3
Noisette 40 0,133 13,3
Vert 40 0,133 13,3
Total : 300 1 100
Diagramme circulaire ou camembert Diagramme en barres

Vert 180
Bleu 160
13% 160
20%
140
Noisette 120
13%
100
80
60
60
40 40
40
20
Noir
54% 0
Bleu Noir Noisette Vert
VARIABLES QUALITATIVES ORDINALES

130 personnes ont été interrogées sur leur addiction au chocolat
Modalités Effectifs = Nombre de personnes
Les Pas du tout (A) 10
modalités Un peu (B) 25
sont Beaucoup (C) 40
présentées Passionnément (D) 32
dans l’ordre A la folie (E) 23
45
40
40
35 32
30
25
25 23
20
15
10
10
0
A B C D E
VARIABLES QUANTITATIVES DISCRETES

REPRESENTATION GRAPHIQUE DES EFFECTIFS ET FREQUENCES
Nbre de produits financiers Effectif Fréquence

xi ni fi
0 103 0,286
1 115 0,319
2 95 0,264
3 35 0,097
4 10 0,028
5 2 0,006
Diagramme en bâtons
140
120
100
80
60
40
20
0
0 1 2 3 4 5 6

EFFECTIFS ET FREQUENCES CUMULES
Nbre Nombre de Effectifs cumulés Effectifs cumulés
produits Clients croissants décroissants
financiers
0 103 103 360
Effectifs cumulés croissants: 1 115 218 257
Nombre d'individus pour lesquels la 2 95 313 142
3 35 348 47
variable est inférieure ou égale à xi. 4 10 358 12
Résultat de l'addition, de proche en 5 2 360 2
proche, des effectifs d'une distribution Total : 360
observée en commençant par le 1er.
Valeurs de la Effectif Effectifs cumulés Effectifs cumulés

variable croissants décroissants
Effectifs cumulés décroissants: xi ni
Nombre d'individus pour lesquels la x1 n1 N1= n1 N’1= nk+ ….+ n1= n
variable est supérieure ou égale à xi. x2 n2 N2= n1+ n2 N’2= nk+ ….+ n2
Résultat de l'addition, de proche en x3 n3 N3= n1+ n2+ n3 N’3= nk+ ….+ n3
proche, des effectifs d'une distribution … … …. ….
xk-1 nk-1 Nk-1= n1+ ….+ nk-1 N’k-1= nk+ nk-1
observée en commençant par le dernier. xk nk Nk= n1+ ….+ nk= n N’k= nk
Total : n

Nombre de Nombre de Effectifs Effectifs Fréquences Fréquences Fréquences
produits clients cumulés cumulés cumulées cumulées
financiers croissants décroissants croissantes décroissantes
xi ni Ni fi Fi F’i
0 103 103 360 0,2861 0,2861 1
1 115 218 257 0,3194 0,6055 0,7139
2 95 313 142 0,2639 0,8694 0,3945
3 35 348 47 0,0972 0,9666 0,1306
4 10 358 12 0,0278 0,9944 0,0334
5 2 360 2 0,0056 1 0,0056
Total : 360 1
Il y a 313 clients possédant un nombre de produits financiers inférieur ou égal à 2
Il y a 47 clients possédant un nombre de pro. fin. supérieur ou égal à 3

La proportion de clients possédant un nombre de pro. fin. inférieur ou égal à 4 est de 99,44%
La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%

COURBES CUMULATIVES
400
xi ni Ni N’i 350
300
0 103 103 360
250
1 115 218 257
200
2 95 313 142
150
35 348 47
3 100
10 358 12
4 50
2 360 2 0
5
-2 -1 0 1 2 3 4 5 6
On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
VARIABLES QUANTITATIVES CONTINUES

900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500
[10 – 20 [ 92 400
[20 – 30[ 63 300
[30 – 50[ 15 200

100
0
0
3
30
50
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 HISTOGRAMME
200
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150
[10 – 20 [ 92 10 9,2 100

[20 – 30[ 63 10 6,3
50
[30 – 50[ 15 20 0,75
0
30
50
0
3

Classes Effectifs Amplitude Effectifs 350

Effectif rectifié
ni ai rectifiés 300
ni /ai
250
[0 – 3[ 830 3 276,7 HISTOGRAMME
[3 – 5[ 615 2 307,5 200
[5 – 10[ 510 5 102,0 150

[10 – 20[ 92 10 9,2
[20 – 30[ 63 10 6,3 100
[30 – 50[ 15 20 0,75 50
30
50
0
3
La surface = ai × (ni/ai) est de 830 unités
La surface = ai × (ni/ai) est de 615 unités

Dans un histogramme, ce sont les surfaces des rectangles (ce que l’œil voit), qui sont
proportionnelles aux effectifs, et non les hauteurs de ces rectangles
Remarque: Le tracé de l’histogramme des fréquences est identique. Il suffit de porter

en ordonnées la fréquence rectifiée di = fi/ai, appelée densité.

Classes Effectifs Effectifs Effectifs Fréquences Fréquences
cumulés cumulés cumulées cumulées
croissants décroissants croissantes décroissantes
[ei – ei+1[ ni Ni N’i Fi F’i
Variable observée: [0 – 3[ 830 830 2125 0,391 1,000
augmentation moyenne [3-5[ 615 1445 1295 0,680 0,609
mensuelle du salaire , [ 5 - 10 [ 510 1955 680 0,920 0,320
[10 - 20 [ 92 2047 170 0,963 0,080
des employés d’une
[20 - 30 [ 63 2110 78 0,993 0,037
multinationale au cours [30 – 50[ 15 2125 15 1,000 0,007
de l’année 2005. Total : 2125
Il y a 1445 employés dont l’augmentation est strictement inférieure à 5
Il y a 170 employés dont l’augmentation est supérieure ou égale à 10
Combien y-a-t-il d’employés dont l’augmentation est inférieure à 17 ?


COURBES CUMULATIVES
On appelle courbe cumulative croissante le tracé de la fonction F (N pour les effectifs) qui à tout réel x
associe F( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
x associe F’( x ) = nombre d'observations supérieur strictement à x.
Exemple :Reprenons la distribution des tailles des 175 étudiants.

La courbe cumulative des fréquences est représentée ci-dessous.
Remarque : a l’intérieur de chaque classe, on fait l’hypothèse que la répartition est uniforme
Courbe cumulative des fréquences
(7) VARIABLES QUANTITATIVES CONTINUES

COURBES CUMULATIVES
Quelle est la proportion p d’employés dont l’augmentation est inférieure à 17 ?
x [ei – ei+1[ Fi F(x)
0 0
1
[0-3[ 0,391 0,950,9
3 0,391 0,8
[3-5[ 0,680 0,7
5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
17 [10 - 20 [ 0,963 p 0,2

0,1
20 0,963 0
-10 0 10 20 30 40 50 60
[20 - 30 [ 0,993 17
30 0,993
[30 - 50 [ 1
50 1
17 − 10
17 - 10
=
p - 0,92 D'où p = 0,92 + ( 0,963 − 0,920 )  95%
20 - 10 0,963-0,920 20 − 10
TABLEAUX ET GRAPHIQUES
RESUME
VARIABLE QUALITATIVE VARIABLE QUANTITATIVE
Nominale Ordinale Discrète Continue
Effectifs ou Fréquences Effectifs ou Fréquences

Diagramme en barres Diagramme en barres Diagramme en bâtons Histogramme
Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences
PARAMETRES STATISTIQUES
Les représentations graphiques ont permis une première synthèse visuelle de la

distribution des observations
Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.
! Les paramètres statistiques ne concernent que les variables quantitatives
Variable Variable Variable

3000 3000 3000
2500 2500 2500
2000 2000 100 % - A % 2000

Dispersion
1500
Tendance centrale 1500 1500
Position
1000 1000
A% 1000
500 500 500
0 0 0
0 N° individu 0 N° individu 0 N° individu
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
PARAMETRES DE TENDANCE CENTRALE

LE MODE
Une distribution est unimodale si elle présente un maximum marqué, et pas d'autres
maxima relatifs.
La lecture s’effectue sur le diagramme en bâtons ou l'histogramme.
100
140 90
80
120
70
100
60
80 50
60 40
30
40
20
20
10
0 0
0 1 2 3 4 5 6
900 1400 1900 2400 2900 3500 ou plus...
Mode Mode Classe modale
Le mode correspond à l'abscisse du maximum, c.à.d. la valeur la plus fréquente


LE MODE
Si la distribution présente 2 ou plus maxima relatifs, on dit qu'elle est bimodale ou
plurimodale.
La population est composée de plusieurs sous-populations ayant des caractéristiques de
tendance centrale différentes.
90
80
140
70
120
60
100
50
80
40
60
30
40 20
20 10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...
Mode 1 Mode 2 Mode 1 Mode 2

Formule pour calculer le mode

d’une var- stat continue

LA MEDIANE
Les valeurs observées doivent être rangées par ordre croissant.
La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".
Nombre impair d’observations Nombre pair d’observations
3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9
4 valeurs 4 valeurs 4 valeurs 4 valeurs

M Intervalle médian
M = milieu = 5,5

LA MEDIANE à partir d’une distribution continue
x [ei – ei+1[ Fi F(x) 1
0,9
0
0 0,8
[0-3[ 0,391 0,7
3 0,391 0,6
M [3-5[ 0,680 0,5 0,5
0,4
5
0,680 0,5 0,3
[ 5 - 10 [ 0,920 0,2
10 0,920 0,1
0
[10 - 20 [ 0,963 -10 0 10 20 30 40 50 60
20 0,963
[20 - 30 [ 0,993 3,22
30 0,993 M
[30 - 50 [ 1
50 1
M-3 0,5-0,391 0,5 − 0,391
= D'où M = 3 + ( 5 − 3)  3, 22
5-3 0,680-0,391 0,680 − 0,391

LA MOYENNE ARITHMETIQUE
La moyenne arithmétique est notée x
1 n
Série brute x1, x2, … , xn x =  xi
n i=1
Série groupée Valeurs de Effectifs Fréquences 1 k

la variable x =  nixi
x1 n1 f1= n1/n n i=1
… … …
k
nixi k
xi ni fi= ni/n
= = fi x i
… … … i=1 n i=1
xk nk fk= nk/n

Classes Effectifs Fréquences Centres de classe

Série classée
[e1 – e2[ n1 f1 x1= ( e1 + e2)/2
[e2 – e3[ n2 f2 x2= ( e2 + e3)/2
…. …. …. ….
[ek – ek+1[ nk fk xk= ( ek + ek+1)/2
1 k k
x =  n i x i =  fi x i
n i=1 i=1

Comment faire la moyenne de plusieurs populations ?
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x?
k
nixi
x= 1 1 2 2 =
nx +n x Moyenne globale = moyenne des moyennes
n i=1 n

MOYENNES GEOMETRIQUE ET HARMONIQUE
Moyenne géométrique
G = n x1n1 x n2 2 .....x nk k
Utilisée dans le cas de phénomènes multiplicatifs (taux de croissance moyen)
Moyenne harmonique
n
H= k n
x
i=1
i
Utilisée dans le cas où l’on combine 2 variables sous forme de rapport

(pièces/heure, km/litre,…)
PARAMETRES STATISTIQUES Tennce centrale Position
Position Dispersion
PARAMETRES DE POSITION
LES QUARTILES
Définitions: La liste des N données est rangée par ordre croissant.

Le premier quartile Q1 est la plus petite donnée de la liste telle qu’au moins 25% des
données soient inférieures ou égales à Q1.
Le troisième quartile Q3est la plus petite donnée de la liste telle qu’au moins 75% des
données soient inférieures ou égales à Q3.
Méthode: Pour Q1, on calcule N/4, puis on détermine le premier entier p supérieur ou égal
à N/4. Cet entier p est le rang de Q1. Pour Q3, on fait de même avec 3N/4
Exemple: Pour N=15, on a N/4=3,75 et 3N/4 = 11,25. Donc Q1est la quatrième valeur de
la série et Q3 est la douzième valeur.
L’Ecart interquartile: c’est la différence Q3-Q1
LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
On peut représenter ces données sous forme de diagramme en boîte ou boîte à moustaches
ou (TUKEY).
Sur ce diagramme apparaissent la valeur minimale, Q1, Me,Q3 et la valeur maximale.
De cette boîte s'étirent deux moustaches (représentées par des traits) jusqu'au minimum et
au maximum.
LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
LES FRACTILES OU QUANTILES
On appelle fractiles ou quantiles d'ordre k les (k-1) valeurs qui divisent les observations
en k parties d'effectifs égaux.
1 médiane M qui divise les observations en 2 parties égales
3 quartiles Q1, Q2, Q3 qui divisent les observations en 4 parties égales
9 déciles D1, D2, …, D9 qui divisent les observations en 10 parties égales
99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales
LES FRACTILES OU QUANTILES

Quartiles, déciles, centiles s’obtiennent de la même façon que la médiane.
Variable discrète Variable continue
1
0,9 0,9
1 0,8
0,75
0,7
0,75 0,6
0,5 0,5
0,5
0,4
0,3
0,2 0,2
0,1
0
-2 -1 0 1 2 3 4 5 6 0 MQ3D
-10 0 9
10 20 30 40 50 60
D2 M Q3
PARAMETRES DE DISPERSION
Etendue : R = xmax - xmin
Variance : Série brute : Série groupée ou classée :
1 n 1 k k
V =  ( xi - x ) V =  n i ( x i - x ) =  fi ( x i - x )
2 2 2
n i=1 n i=1 i=1
1 k
V =  n i x i2 − x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart-type : σ= V
PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?
1 k 1 k
V =  n i Vi +  n i ( x i -x )
2
n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
PROPRIETES IMPORTANTES
DE LA MOYENNE ET DE LA VARIANCE
Comment se comportent la moyenne et la variance

lorsqu’on fait subir un changement de variable aux observations?
xi y i = a xi + b
y=ax+b V(y) = a 2 V(x) σ(y) = a σ(x)
Comment se comportent la moyenne et la variance

de la somme de deux séries d’observations?
xi
zi = xi + yi
yi
z= x+ y V(z)  V(x)+ V(y)
ETUDE DE 2 VARIABLES
QUANTITATIVES
ETUDE DE 2 VARIABLES QUANTITATIVES
MESURE DE LA LIAISON ENTRE 2

95
90
Poids
Nom Taille xi (cm) Poids yi (kg) 85
Med 175 73 80
omar 168 56
75
….. ….. …..
70
Maria 185 87
65
60
55
Taille
50
150 160 170 180 190 200
La connaissance de la taille x apporte une certaine information sur le poids y
Il existe une relation de dépendance entre x et y


La connaissance de x n’apporte La connaissance de x permet de

aucune certaine information sur y connaître exactement la valeur de y
x et y sont indépendantes Il existe une relation fonctionnelle

entre x et y

1 n
Covariance : Cov ( x,y ) =  ( x i -x )( yi -y )
n i=1
Propriétés :
Cov ( x,y )  0  x et y varient dans le même sens
Cov ( x,y )  0  x et y varient en sens contraire
Cov ( x,y ) = Cov ( y,x )
Cov ( x,x ) = V(x)
Cov ( a x + b y , z ) = a Cov ( x,z ) + b Cov ( y,z )


cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés :
−1  ρ  1
 ρ = 1 si a > 0
y=ax+b 
ρ = -1 si a < 0
ρ = 1  Il existe une relation fonctionnelle entre x et y
ρ=0  x et y sont indépendantes
0  ρ  1  Il existe une dépendance linéaire d’autant plus forte que |r| est grand
! Ne pas confondre causalité et corrélation

AJUSTEMENT LINEAIRE
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
Est-il possible de trouver une fonction numérique f telle que y = f (x) ?
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
x est la variable explicative.

y est la variable expliquée.
AJUSTEMENT LINEAIRE
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
On désire trouver la droite qui passe « au mieux » à l’intérieur du nuage de points

AJUSTEMENT LINEAIRE
« au mieux »
n n
Minimiser S =  e 2
i
Minimiser S' = 
i=1
e'i2
i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200
Droite de régression de y en x Droite de régression de x en y

AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
n n
  ( yi -ax i -b )
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e =
i
i=1 i=1
n
1 i=n
 ( x i -x )( yi -y ) Cov ( x,y )
n
 x i yi − x y
a = i=1 n = = i =1 b = y - ax
 i ( )
2 V(x) V(x)
x -x
i=1 Dy/x passe par le point moyen ( x , y )
AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95
90
y = Poids
85
f(x) = y = ax+b
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
y = a x + b définit un modèle affine
ŷi = a x i + b = valeur de yi prévue par le modèle
ri = yi - yˆ i = résidu de la ième observation
ei = ri = yi - a x i - b = erreur due au modèle

AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE X EN Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85
f(y) = x = a’y+b’
75
linéaire de x en y
70
x = f(y) = a’y + b’
65
60
55
x = Taille
50
150 160
x170i a’yi+b’
180 190 200
n n
  ( x i -a'yi -b')
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = e' =
i
i=1 i=1
n
 ( x -x )( y -y )
i i
Cov ( x,y )
a' = i=1
n
= b' = x - a' y
 ( y -y )
2 V(y)
i=1
i
Dx/y passe par le point moyen ( x , y )
LIENS ENTRE CORRELATION

ET DROITES DE REGRESSION
Cov ( x,y )
Dy/x : y = ax + b a= b = y - ax
σ(x) σ(y)
V(x) r² = a a’ ρ=a = a'
σ(y) σ(x)
Cov ( x,y )
Dx/y : x = a’y + b’ a' = b' = x - a' y
1 b' V(y)
 y= x −
a' a'
( x, y ) ( x, y )
( x, y )
r² = a a’ = 0 0 r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire Liaison fonctionnelle linéaire
se mesure à la proximité des
droites de régression
(1) AJUSTEMENT A UNE FONCTION EXPONENTIELLE
25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression linéaire
2,7 1,5 15,0 de y en x
4,2 1,9
4,1 2,3 10,0
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
2
Analyse des résidus
1
0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2
abscisses:
-3 le modèle affine ne convient pas

25,0
Modèle exponentiel
20,0
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
5,0 y = b a x Forme exponentielle générale

0,0
0 10 20 30 40 50 60
Changement de variable
ln y = ln b + x ln a
Y=AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = eA , b = eB , et le modèle y = b a x

25,00
20,00 Série initiale (xi,yi)

15,00 Série prévue par le modèle ( x i ,yˆ i )
10,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60
-0,50
-1,00 Le modèle exponentiel est mieux

-1,50 adapté que le modèle affine
(1) AJUSTEMENT A UNE FONCTION PUISSANCE
900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150

900
800
Modèle puissance y = b xa
700
600
500 Changement de variable
400
300 ln y = ln b + a ln x
200
100 Y=AX + B
0
avec Y = ln y
0 20 40 60 X = ln x
A=a
B = ln b
L’ajustement affine de Y en fonction de X donne A et B,

d ’où a = A , b = eB , et le modèle y = b x a

900
800
700 Série initiale (xi,yi)
600
500 Série prévue par le modèle ( x i ,yˆ i )
400
300
200
100
0
0 20 40 60
80
60
40
20
Analyse des résidus 0

0 10 20 30 40 50 60
-20
-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80
QUALITE D’UN AJUSTEMENT
 ( yi -y ) = ( yˆ i -y ) +  ( yi -yˆ i )
2 2 2
On montre que
SCM SCR
SCT = SCM + SCR  1= +
SCT SCT
Somme des carrés des Somme des carrés des Somme des
écarts à la moyenne
= écarts du modèle
+ carrés des résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R= = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
= proportion de la variation totale due à l'ajustement
0  R 1

Rappel Stat D Escript

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rappel Stat D Escript

Transféré par

Droits d'auteur :

Formats disponibles

Stat-descriptive

Rappelles sur la statistique descriptive

Individu (ou unités statistiques) :

Caractère statistique ou variable statistique :

Variable quantitative discrète: Variable quantitative continue:

Variable qualitative nominale : Variable qualitative ordinale :

(1) UN OUTIL : L ’OPERATEUR SOMME S

REMARQUE 1: i est une variable muette  x = x = x

Quand il n’y a pas d’ambiguïté sur le domaine x = x = x

(2) UN OUTIL : L ’OPERATEUR SOMME S

 ka i = ka p + ka p +1 + ...... + kaq = k ( a p + a p +1 + ...... + aq ) = k  ai

VARIABLES QUALITATIVES NOMINALES

VARIABLES QUALITATIVES NOMINALES

Diagramme circulaire ou camembert Diagramme en barres

VARIABLES QUALITATIVES ORDINALES

VARIABLES QUANTITATIVES DISCRETES

Nbre de produits financiers Effectif Fréquence

VARIABLES QUANTITATIVES DISCRETES

Valeurs de la Effectif Effectifs cumulés Effectifs cumulés

VARIABLES QUANTITATIVES DISCRETES

Il y a 313 clients possédant un nombre de produits financiers inférieur ou égal à 2

Il y a 47 clients possédant un nombre de pro. fin. supérieur ou égal à 3

VARIABLES QUANTITATIVES DISCRETES

VARIABLES QUANTITATIVES CONTINUES

[20 – 30[ 63 300

[30 – 50[ 15 200

[10 – 20 [ 92 10 9,2 100

VARIABLES QUANTITATIVES CONTINUES

Classes Effectifs Amplitude Effectifs 350

[5 – 10[ 510 5 102,0 150

[30 – 50[ 15 20 0,75 50

La surface = ai × (ni/ai) est de 615 unités

Remarque: Le tracé de l’histogramme des fréquences est identique. Il suffit de porter

VARIABLES QUANTITATIVES CONTINUES

Il y a 1445 employés dont l’augmentation est strictement inférieure à 5

Il y a 170 employés dont l’augmentation est supérieure ou égale à 10

Combien y-a-t-il d’employés dont l’augmentation est inférieure à 17 ?

VARIABLES QUANTITATIVES CONTINUES

Exemple :Reprenons la distribution des tailles des 175 étudiants.

(7) VARIABLES QUANTITATIVES CONTINUES

17 [10 - 20 [ 0,963 p 0,2

Effectifs ou Fréquences Effectifs ou Fréquences

Les représentations graphiques ont permis une première synthèse visuelle de la

! Les paramètres statistiques ne concernent que les variables quantitatives

Variable Variable Variable

2500 2500 2500

2000 2000 100 % - A % 2000

500 500 500

PARAMETRES DE TENDANCE CENTRALE

Mode Mode Classe modale

Le mode correspond à l'abscisse du maximum, c.à.d. la valeur la plus fréquente

PARAMETRES DE TENDANCE CENTRALE

Mode 1 Mode 2 Mode 1 Mode 2

Formule pour calculer le mode

PARAMETRES DE TENDANCE CENTRALE

Les valeurs observées doivent être rangées par ordre croissant.

Nombre impair d’observations Nombre pair d’observations

4 valeurs 4 valeurs 4 valeurs 4 valeurs

PARAMETRES DE TENDANCE CENTRALE

PARAMETRES DE TENDANCE CENTRALE

La moyenne arithmétique est notée x

Série groupée Valeurs de Effectifs Fréquences 1 k

PARAMETRES DE TENDANCE CENTRALE