Académique Documents
Professionnel Documents
Culture Documents
des données
Statistique exploratoire et data
management et reporting
Institut
RCAR des finances Statistique
Statistique
et analyse
descriptive
des données 5
Introduction
La statistique descriptive est caractérisée par les principes communs
à toutes les méthodes statistiques d’Analyse des Données :
► la non utilisation de modèles ou d’hypothèses a priori,
► l’utilisation de concepts géométriques plus que probabilistes,
► la fidélité la plus grande possible aux données,
► la visualisation des données et les représentations graphiques,
► l’interprétation des résultats obtenus,
► l’utilisation de moyen de calculs (SAS, SPSS, SPAD, StatGraphs, Excel …)
Problématique ?
………
Tableau
de
données
Traitements élémentaires
Recodages
Analyses
Interprétations
Institut des finances Statistique et analyse des données 7
Types de variable
Variable direct : mesurable directement (salaire).
Indicateur : non mesurable directement (PIB).
Variable qualitative : caractéristiques (modalités) non numériques
1. dichotomique : ne prenant que deux modalités (sexe)
2. nominale : plusieurs modalités sans qu’il y a un ordre entre elles (type
de film)
3. ordinale : plusieurs modalités qui peuvent être ordonnées (qualité d’un
travail)
Variable quantitative : valeurs numériques
1. discrète : valeurs numériques isolées (nombre de buts inscrits dans un
match)
2. continue : valeurs numériques sur intervalle continu (salaire)
nominales ordinales
Ex : sexe Ex : échelle d’opinion discrètes et continues
Ex : revenu
recodage en « tranches »
données catégorisées
xJ nJ
Institut des finances Statistique et analyse des données 19
Fréquence, effectifs cumulés
et fréquences cumulées
1) Fréquence
A chaque valeur x j d'une variable, on peut associer
une fréquence nj
fj , j 1,..., J
2) Effectif cumulé n
A chaque valeur x j , on associe un effectif cumulé N j représentant
le nombre d'observations inférieures où égales à x j
j
N j n1 n2 n j nk
k 1
3) Fréquence cumulée
Pour la valeur x j , la fréquence cumulée est définie par
Nj
Fj , j 1,..., J
n
Institut des finances Statistique et analyse des données 20
Représentations graphiques
Variable qualitative ordinale Variable qualitative nominale
• Diagramme en secteurs • Diagramme en secteurs
• Diagramme en barres des effectifs
• Diagramme en barres des effectifs cumulés
Vacances à l’étranger Jamais Parfois Souvent Toujours
Exemple
Effectifs 5 19 23 3
25 60
20 50
40
Jamais 15
Nj
nj
Parf ois 30
Souvent
10
20
Toujours
5 10
0 0
Jamais Parfois Souvent Toujours Jamais Parfois Souvent Toujours
30
25
20
nj
15
10
0
x1 x2 x3 x4 x5 x6
Exemple 1
La sectrétaire du service de santé d’une entreprise a relevée sur une
période de 50 jours le nombre de personnes qui se sont présentées à
ce service pour raison médicale :
4 0 4 1 2 5 4 2 3 4 3 4 4 2 3 4 5 2 4 1
4 4 4 1 3 2 4 3 2 4 2 3 2 0 4 3 4 5 4 2
4 3 4 0 3 4 4 5 3 4
Propriétés
La moyenne est sensible aux valeurs aberrantes :
1,1, 2, 2, 2, 2,3,3 x 2.
1,1, 2, 2, 2, 2,3,300 x 39,125.
La série des valeurs centrées est de moyenne nulle :
1 n
n i 1
xi x 0
Institut des finances Statistique et analyse des données 27
Les indicateurs de position
b) Moyenne arithmétique d’une distribution observée
Lors de l’analyse d’une série statistique on est amené à construire une
distribution observée, obtenue en associant à chaque valeur distincte xi un
effectif ni représentant le nombre de fois qu’elle est observée (j=1, …, J).
Dans ces conditions on constate que la moyenne s’obtient par l’intermédiaire
de l’expression J
1
x nj xj
n j 1
Exemple : Pour la série statistique 1,1, 2, 2, 2, 2,3,3, on a
D.O. : x , n =1, 2 , 2, 4 , 3, 2
j j
1 1
x 1 1 2 2 2 2 3 3 2 1 2 4 2 3 2
8 8
Institut des finances Statistique et analyse des données 28
Les indicateurs de position
c) La moyenne de deux séries statistiques
Supposons qu'une variable X est observée sur deux échantillons distincts
de tailles n1 et n2 respectivement. série 1 : x1 , n1 , série 2 : x2 , n2 .
La moyenne globale x des deux séries comprenant n n1 n2 observations
n1 x1 n2 x2
x
n
d) La moyenne pondérée
Si on attribue à chaque observation xi un poids wi , correspondant à
l'importance que l'on donne à cette observation, telle que n
w 1
i 1
i
x1 2 x j
x j x j 1
x1 2
2
Remarque : on pose N0=0 si j=1.
Institut des finances Statistique et analyse des données 31
Les indicateurs de position
3) Les quantiles
La médiane est un cas particulier d’une valeur plus générale appelée quantile.
On appelle quantile d’ordre p la valeur xp , telle qu’il y a une proportion p des
observations qui sont inférieures ou égales xp. Le quantile xp peut être
déterminé en suivant la méthode suivante :
1. S'il existe une valeur x j telle que N j 1 np N j alors
xp x j
2. S'il existe une valeur x j telle que np N j alors
x j x j 1
xp
Exemple
2
Les quartiles : x1 4 , x1 2 et x3 4 ; Les déciles : x1 10 , x2 10 , , x9 10
Institut des finances Statistique et analyse des données 32
Les indicateurs de position
4) Le mode
Le mode est un paramètre de position qu’on utilise souvent et dont
l’objectif est de connaître, dans une série statistique, la valeur
observée qui apparaît le plus souvent.
Le mode d’une distribution observée, noté xM, est donc la valeur
parmi les valeurs distinctes {xj ; j=1, …, J} qui correspond au plus
grand effectif nj.
Une distribution observée peut avoir plusieurs Mode.
1) L’étendue
Le premier paramètre de dispersion qu’on peut construire est l’étendue, défini
par la différence entre la plus grande et la plus petite valeur observée :
E = x(n) – x(1)
Il correspond à la longueur de l’intervalle contenant toutes les observations.
L’inconvénient de ce paramètre est d’être sensible à la présence de valeurs
extrêmes.
Institut des finances Statistique et analyse des données 35
Les indicateurs de dispersion
2) L’écart interdéciles
Il est défini par la différence entre le premier et le neuvième décile de la série
d’observations :
ED = x9/10 – x1/10
Il correspond à la longueur de l’intervalle contenant les 80% des valeurs
centrales de la série d’observations.
3) L’écart interquartiles
Il se définit comme étant la différence entre le premier et le troisième quartile
de la série d’observations :
EQ = x3/4 – x1/4
Il correspond à la longueur de l’intervalle contenant les 50% des valeurs
centrales de la série d’observations.
Institut des finances Statistique et analyse des données 36
Les indicateurs de dispersion
4) Le Box Plot
xg xd
x1 4 x1 2 x3 4
n i 1 n i 1
b) La variance d'une distribution observée
La variance d'une D. O. x , n ; j 1,..., J est définie par
j j
s nj x j x nj x j2 x 2
2 1 J 2 1 J
n j 1 n j 1
Institut des finances Statistique et analyse des données 38
Les indicateurs de dispersion
6) L’écart-type
L’écart-type d’une série statistique (ou d’une D. O.) est la racine carrée de la
variance. Il a l’avantage de s’exprimer dans les mêmes unités que les
observations, et donc plus facile à interpréter que la variance :
1 n
s xi x
2
n i1
7) Le coefficient de variation
Afin de comparer la dispersion des séries statistiques (ou des D. O.) dont les
unités sont différentes, on peut calculer leur coefficient de variation défini par :
s
CV
x
Institut des finances Statistique et analyse des données 39
Les indicateurs de forme
1) Les paramètres d’asymetrie
Lors de l’étude d’une série statistique, on s’intéresse aussi à
savoir si la distribution des observations est symétrique ou
pas. Trois situations peuvent être rencontrées :
n i 1 n j 1
m3 0 : asymétrie à gauche
m3 0 : asymétrie à droite
m3 0 : symétrie
Le coefficient de Fisher est défini par :
m3
g1 3
s
Institut des finances Statistique et analyse des données 41
Les indicateurs d’asymétrie
où
l j , l j xc j nj Nj
l j l j
xc j le centre de la j ème classe
2
l1 , l1 xc1 n1 N1 n j et N j sont respectivement l'effectif
et l'effectif cumulé de la j ème classe
on a
J
l , l
J
J xcJ nJ NJ n
j 1
j n et N j N j 1 n j
Histogramme
des effectifs
Polygone des
effectifs
Histogramme
des effectifs
cumulés
Courbe
cumulative
EQ x3 4 x1 4 et ED x9 10 x1 10
Institut des finances Statistique et analyse des données 50
Distribution groupée
n j 1 n j 1
Les expressions de l'écart-type et le coefficient de variation
restent les mêmes que celles pour une distribution observée :
s
s s et CV
2
1 J
m3 n j xc j x
3
n j 1
Les expressions des coefficients de Fisher, de Pearson et de Yule et
Kendall, restent les mêmes que celles pour une distribution observée :
m3 x xM
g1 3 , Sk
s s
x1 4 x3 4 2 x1 2
Yk
x3 4 x1 4
140
120
100
80
Y
60
40
20
0
0 2 4 6 8 10 12 14 16 18
X
xy
x x
où le numérateur est la covariance
xy E X x Y x
et le dénominateur est le produit des écarts-types marginaux définis par
E X x E Y y
2 2 2 2
x et y
H0 : 0 H1 : 0
Si nous disposons d'un échantillon aléatoire simple d'effectif n prélevé
dans une population supposée normale, on peut montrer que, si
l'hypothèse H 0 est vraie :
r n2
tn2
1 r 2
r n2
RH 0 si tn 2;1 2 , tn 2;1 2
1 r 2
xi 12 12 15 14 16 14 12 13 11 11
yi 41 34 113 102 115 72 60 78 35 30
140
120
100
80
Y
60
40
20
0
0 2 4 6 8 10 12 14 16 18
X
i 1
Ainsi, l'équation de la droite de régression est donnée par
sxy
y a bx avec b et a y bx
sx s y
Institut des finances Statistique et analyse des données 66
Cas de deux variables quantitatives
Variance résiduelle et de régression
Décomposons la variance de la variable à expliquer Y en deux parties :
d’une part la partie expliquée par la droite de régression et d’autre part la
partie non expliquée par cette droite.
Pour le ième individu, notons par yi* la valeur obtenue avec l’équation de la
droite de régression, c’est-à-dire *
yi a bxi
s yi yi yi y
On peut montrer que 1 n 1 n *
* 2
2 2
y
n i 1 n i 1
se2 variance résiduelle 2
sreg variance de régression
Y
X y1 … yk … yK K
où n j . n jk
x1 n11 … n1k … n1K n1.
k 1
.. .. .. .. .. J
. . . . . n.k n jk
j 1
xJ nJ1 … nJk … nJK nJ.
s nj xj x
1 J
Variance marginale en X 2 2
X
n j 1
1 K
s n k yk y
2
Variance marginale en Y
2
Y
n k 1
Institut des finances Statistique et analyse des données 71
Distributions conditionnelles
Une distribution conditionnelle consiste à fixer a priori la valeur d’une variable
et à examiner les variations de l’autre.
a) Distributions conditionnelles de Y en X
En fixant une valeur de X, par exemple X=xj, l’ensemble de tous les couples
(xj, yk) où k=1, …, K définissent une distribution observée univariée appelée
distribution conditionnelle de Y en X, où X est fixé à la valeur xj. Cette
distribution est notée par :
n y yj
K
1 2
Variance conditionnelle s
2
y j
jk k
nj k 1
b) Distributions conditionnelles de X en Y
De la même manière, on peut également définir la distribution conditionnelle
de X en Y , où Y est fixé à la valeur yk. Cette distribution est notée par :
J
1
Moyenne conditionnelle xk
n.k
n jk
xk
j 1
J
1
n jk x j xk
2
Variance conditionnelle s x k
2
n.k j 1
n j 1 k 1
Y
n k 1
1 J K
n jk yk y j n j y j y
2 1 J 2
n j 1 k 1 n j 1
moyenne des variances variance des moyennes
conditionnelles conditionnelles
nj yj y
1 J
2
n j 1
y2. x
s 2y
Institut des finances Statistique et analyse des données 74
Cas de deux variables quantitatives
Mesure de l’intensité de la dépendance non linéaire
Propriétés de x. y
0 y2. x 1
Si s y2 j 0, pour j 1,..., J : y2. x 1
Si y j y , pour j 1,..., J : y2. x 0
r 2 y2. x
y2. x r 2 : indice de non-linéarité de la régression
Exemple
Un sondage effectué auprès de 120 ménages s’intéresse aux variables
X = « nombre de voitures par ménage » et Y = « nombre d’enfants par
ménage ». Les résultats sont donnés dans le tableau de contingence suivant
Y
X 0 1 2
0 12 18 22
1 10 22 10
2 8 8 10
1 K
X\Y 0 1 2 nj. yj y n k yk 1,1
n k 1
0 12 18 22 52 1,19
1 K
n k yk y 0,59
2
1 10 22 10 42 1 s 2y
n k 1
2 8 8 10 26 1,08
K
1
n.k 30 48 42 n=120 yj
nj
n jk
yk
k 1
nj yj y
J
1
2
1
n j 1 52 0,09 2
42 0,12
26 0,02 2
y2. x 120
s 2y 0,59
0,007
0,012
0,59
Institut des finances Statistique et analyse des données 77
Cas d’une variable quantitative
et d’une variable qualitative
s 2y yi y n j y j y n j s 2j
n J J
1 2 1 2 1
n i 1 n j 1 n j 1
Institut des finances Statistique et analyse des données 78
Cas d’une variable numérique
et d’une variable qualitative
Le rapport de corrélation
nj yj y
1 J
2
n j 1
y2. x
s 2y
Interprétation
y2. x 0 si y1 y2 y J absence de dépendance en moyenne
y2. x 1 si les valeurs de la variable Y pour les individus appartenant
X\Y 0 1 2 3 4 5
bonne 1 2 5 4 8 11
moyenne 2 6 10 8 7 6
Insuffisante 9 7 4 6 2 2
X\Y 0 1 2 3 4 5 nj. yj
Bonne 1 2 5 4 8 11 31 3,58
moyenne 2 6 10 8 7 6 39 2,77
Insuffisante 9 7 4 6 2 2 30 1,70
n.k 12 15 19 18 17 19
1 K
1 K 1 K
y n k yk 2,7 et s y n k yk y 2,71 yj
2 2
n jk yk
n k 1 n k 1 n j . k 1
j j
1 J
0,54
2
n y y 1
31 0,882
39 0,07 2
30 1,7 2
n j 1
y2. x 2
100 0,20
sy 2,71 2,71
D
2
J K
n jk n
* 2
jk
j 1 k 1 n*jk
Institut des finances Statistique et analyse des données 82
Cas de deux variables qualitatives
(nominales)
Test d’indépendance
Remarque
Plusieurs coefficients liés au D2 ont été proposés pour obtenir une
mesure comprise entre 0 (indépendance) et 1 (forte liaison). Par
exemple :
le coefficient de Cramer
D2
V
n inf J 1 ; K 1
yk
xk P D I nj.
F 21 15 9 45
H 39 13 3 55
n.k 60 28 12 100
yk xk\\ yk P D I
xk P D I nj. F 27 12,6 5,4
F 21 15 9 45 H 33 15,4 6,6
H 39 13 3 55 nj n k
Tableau des n*jk
n.k 60 28 12 100 n
xk\\ yk P D I D
2
J K
n jk n
* 2
jk
7,69
*
F 1,33 0,46 2,40 j 1 k 1 n jk
Tableau des
n jk n * 2
jk On rejette que les deux variables
n*jk soient indépendantes.
Remarques
n n 1 n n 1 2n 1
1 2 n et 1 2 n 2 2 2
2 2
n 1
2
La variance de la série 1,2, , n
12
Institut des finances Statistique et analyse des données 89
Cas de deux variables qualitatives ordinales
Le coefficient de corrélation de Spearman
Rs 1 i 1
n n 2 1
Interprétation
si Rs 1 les deux classement sont identiques
si Rs 1 les deux classement sont inverses l'un de l'autre
si Rs 0 les deux classement sont indépendants
Exemple 2 Deux juges attribuent des points à dix sportifs au cours d’une
compétition. Le tableau suivant nous donne les notes attribuées par chaque
juge (xi pour le premier et yi pour le second) :
xi 8,3 7,6 9,1 9,5 8,4 6,9 9,2 7,8 8,6 8,2
yi 7,9 7,4 9,1 9,3 8,4 7,5 9 7,2 8,2 8,1
Solution
rXi 5 2 8 10 6 1 9 3 7 4
rYi 4 2 9 10 7 3 8 1 6 5
1 n n 1 n 2
1
rX rY 5,5 et srX srY
2 2
8,25
n 2 12
1 n
cov rX , rY rXi rX rYi rY 7,55
n i 1
cov rX , rY 7,55
Rs 0,92
srX srY 8, 25
P1 F2 Par extension
E1 : 1
F1 P2 1 1 1
2 P X 0 , P X 1 et P X 2
E2 : F1 F2 4 2 4
Définition
X est une fonction définie sur
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .
P1 F2 Par extension
E1 : 1
F1 P2 1 1 1
2 P X 0 , P X 1 et P X 2
E2 : F1 F2 4 2 4
Définition
X est une fonction définie sur
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .
Variable Valeurs
Expérience
aléatoire X possibles V
Nombre de clients qui
Contacter 5 clients 0, 1, 3, 4, 5, 6
passent commande
Inspecter une cargaison de Nombre de radions
0, 1, …, 50
50 Radios défectueuses
Gérer un restaurant
Nombre de clients 0, 1, 2, 3, …
pendant une journée
Institut des finances Statistique inférentielle 99
Variable aléatoire
discrète et continue
Variable Valeurs
Expérience
aléatoire X possibles V
Jouer au Lotto Montant gagner R+
Gérer un restaurant
Bénéfices R+
pendant une journée
2) F 0 et F 1
3) F a F b a b avec a, b
4) P a X b P X b P X a F b F a a b
5) Si xi et x j deux valeurs de X telle que xi x j alors
P xi X x j F x j F xi 1
En particulier : P X x j F x j F x j 1
Institut des finances Statistique inférentielle 103
Espérance mathématique
d’une variable aléatoire discrète
Propriétés
a) Si b est une constante : E b b
Définition
Soit X une variable aléatoire dont la D.P. est x, p ; x V
x
V X px x 2
2
Propriétés :
a) Si b est une constante : V b 0
Paramètres
n n 1 n 2
1
- Moyenne : - Variance :
2
2 12
Institut des finances Statistique inférentielle 106
Lois discrètes particulières
2) Distribution Binomiale
Définition La distribution binomiale s'obtient après la réalisation
des étapes suivantes :
1) Expérience aléatoire E avec S , S succès, échec
2) E est répetée n fois sous des conditions "uniformes" :
PS p
restent constants
P S 1 p q
3) Les répétitions sont indépendantes
4) La variable aléatoire X qui compte le nombre de réalisations
de S est une binomiale de paramètres n et p : X Bin n, p
Institut des finances Statistique inférentielle 107
Lois discrètes particulières
Propriétés de f x
1) f x 0 pour x
2) f x dx 1, (il s'agit d'une condition nécéssaire
pour avoir une loi de probabilité)
3) P X x 0
P a X b P a X b P a X b f x dx
b
4)
a
E X x f x dx
2 2 2
x
2
1
f x e 2 2
où x
2
Notation X N , 2
Propriétés de X
Pour le tirage PEAR, les observations Xk k 1,..., n sont des variables
aléatoires indépendantes et équidistribuées, on a donc
EX
X est un estimateur sans biais de .
2
V X
n
Ce paramètre, destiné à connaître la dispersion des valeurs
de X autour de , permet de mesurer l'erreur d'échantillonnage.
Plus V X sera faible, plus l'erreur sera petite et l'estimateur précis.
X
Remarque appliquée à la variable , cette propriété s'énonce
n
comme suit :
X
P z1 2 z1 2 1
n
Institut des finances Statistique inférentielle 123
Intervalle de confiance pour
la moyenne de la population
Définition L'intervalle de confiance au niveau 1 pour la moyenne
est donné par
IC 1 x z1 2 ; x z1 2
n n
où x est la valeur observée de X à partir de l'échantillon d'effectif n,
et z1 2 est le quantile d'ordre 1 2 de Z .
Remarques
Le niveau de confiance 1 est arbitraire. Il dépend du degré de
précision qu'on désire obtenir.
La longueur de l'intervalle de confiance vaut 2 z1 2 .
n
Institut des finances Statistique inférentielle 124
Intervalle de confiance pour
la moyenne de la population
Remarques
Si la variance de la population est inconnue, on estime par
2 2
1)
ns 2 2
où s est la variance dans l'échantillon et on peut montrer que
n -1
x
tn1
s n 1
et l'intervalle de confiance devient
s s
IC 1 x tn1,1 2 ; x tn1,1 2
n 1 n 1
A 1 A ˆ A A
A N A,
ˆ N 0,1
n A 1 A
n
Définition L'intervalle de confiance, au niveau de confiance 1 pour la
proportion A est donné par
ˆ A 1 ˆ A ˆ A 1 ˆ A
IC 1 ˆ A z1 2 ; ˆ A z1 2
n n
où z1 2 est le quantile d'ordre 1 2 de Z N 0,1.
x 0
RH
0 si z1 2 , z1 2
n
RH dans le cas contraire
0
Institut des finances Statistique inférentielle 131
Test d’hypothèse relatif à
la moyenne de la population
Remarques
Si la variance de la population est inconnue, on estime par
2 2
1)
ns 2
et la règle de décision relative au test sur la moyenne devient
n -1
x 0
RH 0 si tn1,1 2 , tn1,1 2
s n 1
RH dans le cas contraire
0
2) Si la loi de la population n'est pas une loi normale alors on peut
montrer que les résultats obtenus avec une population normale
restent valides quand l'effectif de l'échantillon est supérieur où
égal à 30, c'est-à-dire n 30.
Institut des finances Statistique inférentielle 132
Test d’hypothèse relatif à
la proportion de la population
De la même manière que pour la moyenne, le test d'hypothèse relatif
à une proportion A d'individus qui possèdent une caractéristique A
peut être formulé de la manière suivante :
H0 : A 0 H1 : A 0
Règle de décision : la règle de décision relative à ce test est donnée par
ˆ A 0
RH 0 si z1 2 , z1 2
0 1 0
n
RH 0 dans le cas contraire
où ˆ A est la proportion dans l'échantillon d'individus ayant la
caractéristique A et z1 2 est le quantile d'ordre 1 2 de N 0,1.
Institut des finances Statistique inférentielle 133