Académique Documents
Professionnel Documents
Culture Documents
VOCABULAIRE STATISTIQUE
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des observations.
VARIABLES QUANTITATIVES
Variable quantitative :
Une variable statistique est quantitative si ses valeurs sont des nombres exprimant
une quantité, sur lesquels les opérations arithmétiques (somme, etc...) ont un sens.
VARIABLES QUALITATIVES
Variable qualitative :
Une variable statistique est qualitative si ses valeurs, ou modalités, s'expriment de
façon littérale ou par un codage sur lequel les opérations arithmétiques telles que
moyenne, somme, ... , n'ont pas de sens.
DEFINITION: q
p et q étant 2 entiers relatifs x
i= p
i = x p + x p +1 + ...... + xq
q q q
REMARQUE 2: n
(a i + bi ) = ( a p + b p ) + ( a p +1 + b p +1 ) + ..... + ( aq + bq )
i= p
q q
= ( a p + a p +1 + ..... + aq ) + ( bp + b p +1 + ..... + bq ) = ai + bi
i= p i= p
PROPRIETE3: k ( a + b ) = k a + k b
n
i i i i
k = nk
i i i
PROPRIETE 4 :
i =1
n
k = k + k + ..... + k = nk
i =1 q n
PROPRIETE5: k = ( q − p + 1) k
i= p
TABLEAUX ET GRAPHIQUES
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
80
60
60
40 40
40
20
Noir
54% 0
Bleu Noir Noisette Vert
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
45
40
40
35 32
30
25
25 23
20
15
10
10
0
A B C D E
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
120
100
80
60
40
20
0
0 1 2 3 4 5 6
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
La proportion de clients possédant un nombre de pro. fin. supérieur ou égal à 1 est de 71,39%
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
300
0 103 103 360
250
1 115 218 257
200
2 95 313 142
150
35 348 47
3 100
10 358 12
4 50
2 360 2 0
5
-2 -1 0 1 2 3 4 5 6
On appelle courbe cumulative croissante le tracé de la fonction N (ou F pour les fréquences)
qui à tout réel x associe N( x ) = nombre d'observations inférieur ou égal à x.
On appelle courbe cumulative décroissante le tracé de la fonction N' (ou F’ pour les fréquences)
qui a tout réel x associe N'( x ) = nombre d'observations supérieur strictement à x.
Les courbes cumulatives N(x) et N’(x) sont symétriques par rapport à n/2 : N(x) + N’(x) = n
Les courbes cumulatives F(x) et F’(x) sont symétriques par rapport à 0,5 : F(x) + F’(x) = 1
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
900 effectif
Classes Effectifs 800
[0 – 3[ 830 700
[3 – 5[ 615 600
[5 – 10[ 510 500
[10 – 20 [ 92 400
0
3
30
50
350
Effectif rectifié
Classes Effectifs Amplitude Effectifs
300
ni ai rectifiés
ni /ai 250
[0 – 3[ 830 3 276,7 HISTOGRAMME
200
[3 – 5[ 615 2 307,5
[5 – 10[ 510 5 102,0 150
30
50
0
3
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
30
50
0
3
La surface = ai × (ni/ai) est de 830 unités
On appelle courbe cumulative décroissante le tracé de la fonction F’ (N’ pour les effectifs) qui a tout réel
x associe F’( x ) = nombre d'observations supérieur strictement à x.
Remarque : a l’intérieur de chaque classe, on fait l’hypothèse que la répartition est uniforme
Courbe cumulative des fréquences
TABLEAUX ET GRAPHIQUES Qualitative nominale Qualitative ordinale Quantitative discrète Quantitative continue
5 0,680 0,6
0,5
[ 5 - 10 [ 0,920 0,4
10 0,920 0,3
RESUME
VARIABLE QUALITATIVE VARIABLE QUANTITATIVE
Nominale Ordinale Discrète Continue
Modalités dans
l ’ordre
Diagramme circulaire Courbes cumulatives des effectifs ou des fréquences
PARAMETRES STATISTIQUES
PARAMETRES STATISTIQUES
Un paramètre statistique permet de résumer par une seule quantité numérique une
information contenue dans une distribution d’observations.
0 0 0
0 N° individu 0 N° individu 0 N° individu
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
80
140
70
120
60
100
50
80
40
60
30
40 20
20 10
0 0
0 1 2 3 4 5 6 900 1400 1900 2400 2900 3500 4000 4500 ou
plus...
La médiane M est la valeur du milieu de la série d’observations, c.à.d. telle qu'il y ait
autant d'observations "au-dessous" que "au-dessus".
3 4 4 5 6 8 8 9 10 3 4 4 5 6 8 8 9
1 n
Série brute x1, x2, … , xn x = xi
n i=1
1 k k
x = n i x i = fi x i
n i=1 i=1
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x?
k
nixi
x= 1 1 2 2 =
nx +n x Moyenne globale = moyenne des moyennes
n i=1 n
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
Moyenne géométrique
G = n x1n1 x n2 2 .....x nk k
Moyenne harmonique
n
H= k n
x
i=1
i
PARAMETRES DE POSITION
LES QUARTILES
Le troisième quartile Q3est la plus petite donnée de la liste telle qu’au moins 75% des
données soient inférieures ou égales à Q3.
Méthode: Pour Q1, on calcule N/4, puis on détermine le premier entier p supérieur ou égal
à N/4. Cet entier p est le rang de Q1. Pour Q3, on fait de même avec 3N/4
Exemple: Pour N=15, on a N/4=3,75 et 3N/4 = 11,25. Donc Q1est la quatrième valeur de
la série et Q3 est la douzième valeur.
L’Ecart interquartile: c’est la différence Q3-Q1
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
On peut représenter ces données sous forme de diagramme en boîte ou boîte à moustaches
ou (TUKEY).
Sur ce diagramme apparaissent la valeur minimale, Q1, Me,Q3 et la valeur maximale.
De cette boîte s'étirent deux moustaches (représentées par des traits) jusqu'au minimum et
au maximum.
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
LE DIAGRAMME EN BOÎTE À
MOUSTACHES OU BOX-PLOT (TUKEY)
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
On appelle fractiles ou quantiles d'ordre k les (k-1) valeurs qui divisent les observations
en k parties d'effectifs égaux.
99 centiles C1, C2, …, C99 qui divisent les observations en 100 parties égales
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
1
0,9 0,9
1 0,8
0,75
0,7
0,75 0,6
0,5 0,5
0,5
0,4
0,3
0,2 0,2
0,1
0
-2 -1 0 1 2 3 4 5 6 0 MQ3D
-10 0 9
10 20 30 40 50 60
D2 M Q3
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
PARAMETRES DE DISPERSION
1 n 1 k k
V = ( xi - x ) V = n i ( x i - x ) = fi ( x i - x )
2 2 2
1 k
V = n i x i2 − x 2 = Moyenne des carrés - Carré de la moyenne
n i=1
Ecart-type : σ= V
PARAMETRES STATISTIQUES Tendance centrale Position Dispersion
PARAMETRES DE DISPERSION
Comment faire la variance de plusieurs populations ?
Population P1 Population P2
Effectif n1 Effectif n2
Moyenne x1 Moyenne x 2
Variance V1 Variance V2
Population P = P1 P2
Effectif n = n 1+ n2
Moyenne x
Variance V ?
1 k 1 k
V = n i Vi + n i ( x i -x )
2
n i=1 n i=1
Variance globale = Moyenne des variances + Variance des moyennes
PARAMETRES STATISTIQUES
PROPRIETES IMPORTANTES
DE LA MOYENNE ET DE LA VARIANCE
xi y i = a xi + b
xi
zi = xi + yi
yi
z= x+ y V(z) V(x)+ V(y)
ETUDE DE 2 VARIABLES
QUANTITATIVES
ETUDE DE 2 VARIABLES QUANTITATIVES
95
90
Poids
Nom Taille xi (cm) Poids yi (kg) 85
Med 175 73 80
omar 168 56
75
….. ….. …..
70
Maria 185 87
65
60
55
Taille
50
150 160 170 180 190 200
1 n
Covariance : Cov ( x,y ) = ( x i -x )( yi -y )
n i=1
Propriétés :
cov(x,y)
Corrélation linéaire: ρ =
σ(x) σ(y)
Propriétés :
−1 ρ 1
ρ = 1 si a > 0
y=ax+b
ρ = -1 si a < 0
ρ = 1 Il existe une relation fonctionnelle entre x et y
ρ=0 x et y sont indépendantes
0 ρ 1 Il existe une dépendance linéaire d’autant plus forte que |r| est grand
AJUSTEMENT LINEAIRE
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
Si une telle fonction existe, on dit que f est un modèle du phénomène étudié.
AJUSTEMENT LINEAIRE
95
90
y = Poids
85
80
75
70
65
60
55
x = Taille
50
150 160 170 180 190 200
AJUSTEMENT LINEAIRE
« au mieux »
n n
Minimiser S = e 2
i
Minimiser S' =
i=1
e'i2
i=1
95 95
90
y = Poids 90
y = Poids
85 85
80 80
e'i
75 ei 75
70 70
65 65
60 60
55 55
x = Taille x = Taille
50 50
150 160 170 180 190 200 150 160 170 180 190 200
AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
n n
( yi -ax i -b )
2 2
La droite de régression linéaire de y en x, notée Dy/x , minimise S = e =
i
i=1 i=1
n
1 i=n
( x i -x )( yi -y ) Cov ( x,y )
n
x i yi − x y
a = i=1 n = = i =1 b = y - ax
i ( )
2 V(x) V(x)
x -x
i=1 Dy/x passe par le point moyen ( x , y )
ETUDE DE 2 VARIABLES QUANTITATIVES
AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE Y EN X
95
90
y = Poids
85
f(x) = y = ax+b
Droite de régression y80i
75
linéaire de y en x
y = f(x) = ax + b axi+b70 ei = |yi-axi-b|
65
60
55
x = Taille
50
150 160 170 180 190 200
xi
y = a x + b définit un modèle affine
AJUSTEMENT LINEAIRE
REGRESSION LINEAIRE DE X EN Y
95 ei’ = |xi-a’yi-b’|
90
y = Poids
85
f(y) = x = a’y+b’
Droite de régression y80i
75
linéaire de x en y
70
x = f(y) = a’y + b’
65
60
55
x = Taille
50
150 160
x170i a’yi+b’
180 190 200
n n
( x i -a'yi -b')
2 2
La droite de régression linéaire de x en y, notée Dx/y , minimise S' = e' =
i
i=1 i=1
n
( x -x )( y -y )
i i
Cov ( x,y )
a' = i=1
n
= b' = x - a' y
( y -y )
2 V(y)
i=1
i
Dx/y passe par le point moyen ( x , y )
ETUDE DE 2 VARIABLES QUANTITATIVES
( x, y ) ( x, y )
( x, y )
r² = a a’ = 0 0 r² = a a’ < 1 r² = a a’ = 1
Le degré de dépendance linéaire
Indépendance linéaire Liaison fonctionnelle linéaire
se mesure à la proximité des
droites de régression
ETUDE DE 2 VARIABLES QUANTITATIVES
25,0
xi yi
2,8 0,8 20,0
4,3 1,2 droite de régression linéaire
2,7 1,5 15,0 de y en x
4,2 1,9
4,1 2,3 10,0
…. ….
4,0 3,1 5,0
0,0
0 10 20 30 40 50 60
2
Analyse des résidus
1
0
Les résidus devraient se répartir
-1
0 10 20 30 40 50 60 au hasard autour de l’axe des
-2
abscisses:
-3 le modèle affine ne convient pas
ETUDE DE 2 VARIABLES QUANTITATIVES
Modèle exponentiel
20,0
y = ex exponentielle de base e
15,0
10,0
y = ax exponentielle de base a
Y=AX + B avec Y = ln y
X=x
A = ln a
L’ajustement affine de Y en fonction de X donne A et B, B = ln b
d ’où a = eA , b = eB , et le modèle y = b a x
ETUDE DE 2 VARIABLES QUANTITATIVES
10,00
5,00
0,00
0 10 20 30 40 50 60
1,50
1,00
0,50
Analyse des résidus 0,00
0 10 20 30 40 50 60
-0,50
900
800
700
600
500
Droite de régression linéaire de y en x
400
300
200
100
0
0 20 40 60
150
100
50
0
0 10 20 30 40 50 60
Analyse des résidus
-50
Le modèle affine ne
-100
convient pas
-150
ETUDE DE 2 VARIABLES QUANTITATIVES
80
60
40
20
-40
Le modèle puissance est mieux
-60
adapté que le modèle affine
-80
ETUDE DE 2 VARIABLES QUANTITATIVES
( yi -y ) = ( yˆ i -y ) + ( yi -yˆ i )
2 2 2
On montre que
SCM SCR
SCT = SCM + SCR 1= +
SCT SCT
Somme des carrés des Somme des carrés des Somme des
écarts à la moyenne
= écarts du modèle
+ carrés des résidus
L’ajustement est d’autant meilleur que SCR est proche de 0, c.à.d. que SCR/SCT est
proche de 0 ou SCM/SCT est proche de 1.
SCM
R= = Coefficient de détermination = r² = (coef. de corrélation)²
SCT
0 R 1