Vous êtes sur la page 1sur 134

Méthodes avancées d’analyse

des données
Statistique exploratoire et data
management et reporting

Mohammed El Haj Tirari


Abderrahim Oulidi
Introduction

La statistique regroupe un ensemble de méthodes


statistiques dont la fonction principale est de mettre en
évidence les structures pertinentes de grands ensembles
de données.

Ses méthodes tentent de dégager les paramètres


caractéristiques d’un grand nombre de données recueillies,
par exemple lors d’enquêtes ou sondages.

Institut des finances Statistique et analyse des données 2


Introduction
Parmi les méthodes statistiques, on peut distinguer :
 les méthodes descriptives (ou exploratoires)
regroupées sous le nom d’Analyse des Données (AD),
 les méthodes inférentielles regroupées sous
le nom de Statistique inférentielle.

Les deux types de méthodes sont complémentaires et


sont utilisées conjointement dans la pratique statistique

Institut des finances Statistique et analyse des données 3


Introduction
Cette formation est consacrée à l’enseignement des
techniques statistiques descriptives et quelques
notions des techniques inférentielles.
 Les méthodes descriptives univariées : (tris à plat) diagrammes,
histogrammes, moyennes, écart-types, …

 Les méthodes descriptives bivariées : (tris croisés), lien entre


variables : corrélations , étude descriptive d’une série chronologique, …

 Les méthodes d’inférence statistique : Estimation des paramètres,


tests d’hypothèse, analyse de la variance

Institut des finances Statistique et analyse des données 4


Introduction
 La donnée de base de toute analyse statistique descriptive est un
tableau rectangulaire croisant des individus et des variables.
 La statistique descriptive a pour objectif d’étudier de tels tableaux
pour
► en extraire les informations essentielles en vue d’une description et d’une
synthèse (méthodes factorielles),
► en dégager des groupes homogènes d’individus ou de variables
(méthodes de classification)
► prévoir la valeur d’un individu sur une variable, dite à expliquer, à partir de
la connaissance de valeurs de ce même individu sur d’autres variables,
dites explicatives (méthodes de prédiction),
► obtenir un classement des individus (méthodes de scoring).

Institut
RCAR des finances Statistique
Statistique
et analyse
descriptive
des données 5
Introduction
La statistique descriptive est caractérisée par les principes communs
à toutes les méthodes statistiques d’Analyse des Données :
► la non utilisation de modèles ou d’hypothèses a priori,
► l’utilisation de concepts géométriques plus que probabilistes,
► la fidélité la plus grande possible aux données,
► la visualisation des données et les représentations graphiques,
► l’interprétation des résultats obtenus,
► l’utilisation de moyen de calculs (SAS, SPSS, SPAD, StatGraphs, Excel …)

RCAR des finances


Institut Statistique
Statistique
et analyse
descriptive
des données 6
Introduction

Problématique ?
………
Tableau
de
données

Traitements élémentaires

Recodages

Analyses

Interprétations
Institut des finances Statistique et analyse des données 7
Types de variable
 Variable direct : mesurable directement (salaire).
 Indicateur : non mesurable directement (PIB).
 Variable qualitative : caractéristiques (modalités) non numériques
1. dichotomique : ne prenant que deux modalités (sexe)
2. nominale : plusieurs modalités sans qu’il y a un ordre entre elles (type
de film)
3. ordinale : plusieurs modalités qui peuvent être ordonnées (qualité d’un
travail)
 Variable quantitative : valeurs numériques
1. discrète : valeurs numériques isolées (nombre de buts inscrits dans un
match)
2. continue : valeurs numériques sur intervalle continu (salaire)

Institut des finances Statistique et analyse des données 8


Variables
qualitatives quantitatives

nominales ordinales
Ex : sexe Ex : échelle d’opinion discrètes et continues
Ex : revenu

recodage en « tranches »

données catégorisées

Institut des finances Statistique et analyse des données 9


Exemple
On s’intéresse à l’étude du problème d’absentéisme en entreprises.
Un économiste a sélectionné 100 firmes et mesure la variable
X1 : nombre moyen de jours d’absence par employé sur une année.

Il a également mesuré plusieurs variables susceptibles d’influencer


le taux d’absentéisme :

 X2 : salaire moyen (quantitative continue)


 X3 : capacité à travailler en équipe (0=non, 1=oui ;
variable qualitative nominale)
 X4 : qualité des relations avec son supérieur (0=mauvais,
1=moyen, 2=bon ; variable qualitative ordinale)

Institut des finances Statistique et analyse des données 10


Exemple
Pour étudier le problème d’absentéisme en entreprises, l’économiste
peut commencer par faire l’étude statistique descriptive de la variable :
X1 : nombre moyen de jours d’absence par employé sur une année.

 Étude graphique : Histogramme, diagramme en secteurs,


courbe cumulative, …
 Étude paramétrique : Calcul d’un certain nombre de
valeurs caractéristiques qui ont pour but de résumer dans
une certaine mesure les informations recueillies.
Exemple pour la variable X1 on a :
Minimum = 2.10; Maximum = 14.8; Médiane = 5.65;
Moyenne = 6.23; Ecart-type = 3.36; etc.

Institut des finances Statistique et analyse des données 11


Exemple
Pour approfondir son étude, l’économiste étudier aussi l’influence des
autres variables (X2, X3, X4) sur la variable :
X1 : nombre moyen de jours d’absence par employé sur une année.

 Étude statistique bivariée : Étude de deux variables : test


de linéarité, test Khi2, …
 Étude statistique multivariée : Régression linéaire
multiple, analyse en composante principales, …

Institut des finances Statistique et analyse des données 12


Démarche scientifique
d’une étude statistique
Objectif(s) à atteindre, Question(s) à poser

Collecte des données au moyen d’enquêtes exhaustives ou partielles

Analyse descriptive : univariée, bivariée et p-variée (analyse de données)

Analyse confirmatoire : Estimation, Tests d’hypothèses …

Prévisions, Conclusions, Décisions


Institut des finances Statistique et analyse des données 13
Quelques définitions
 Population : l’ensemble de tous les individus sur lesquels porte
l’étude.
 Paramètre : mesure numérique décrivant une caractéristique de la
population.
 Échantillon : sous-ensemble d’individus obtenus à partir de la
population (méthodes de sondage).
 Une statistique : mesure numérique décrivant une caractéristique
de l’échantillon.
 Donnée : fait numérique ou non porteur d’information.
 Variable : caractéristique dont la valeur change d’un individu à
l’autres dans la population.

Institut des finances Statistique et analyse des données 14


Chapitre 1
Statistique descriptive univariée
Introduction
L’étude descriptive d’une série univariée :

 Étape préliminaire à toute étude statistique.

 Permet de « prendre contact » avec l’échantillon.

 Se divise en deux étapes :


1. Élaboration de tableaux et graphiques
2. Valeurs numériques résumant l’échantillon

Institut des finances Statistique et analyse des données 16


Notations
Les données sont souvent collectées dans un tableau
Individus Χ caractères
Var-
1 2 … j … p
Ind
1 x11 x12 … x1j … x1p où

2 x21 x22 … x2j … x2p


n : taille de
l’échantillon
… … … … … … … p : nombre
i xi1 xi2 … xij … xip de variables
… … … … … … …
n xn1 xn2 … xnj … xnp
Institut des finances Statistique et analyse des données 17
Notations
 Série statistique univariée si p = 1 :
{x1, x2, … , xn} = {xi ; i=1, … , n}
 Série statistique bivariée si p = 2 :
{(x1, y1), … , (xn, yn)} = {(xi, yi) ; i=1, … , n}

 Série statistique ordonnée :


La série statistique ordonnée  x(1) , x(2) , , x( n )  est telle que :
x(i )  x( j ) si i  j.
(i) est appelé le rang de l'observation x(i ) .
Exemple
Série statistique : {xi ; i=1, … , 6} = {5, 0, -4, 2, 3, 1}
Série statistique ordonnée : {x(i) ; i=1, … , 6} = {-4, 0, 1, 2, 3, 5}
Ainsi, x(1) = x3 ; x(3) = x6 ; x(6) = x1
Institut des finances Statistique et analyse des données 18
Distribution observée
à une dimension (D.O.1)
La distribution observée d’une série statistique {x1, x2, … , xn} est définie par les valeurs
distinctes qui apparaissent dans cette série et le nombre de fois que chacune d’elles
apparaît. Elle peut être représentée par l’ensemble des couples :
{(xj, nj) ; j=1,… , J}
où nj est l’effectif associé à xj et J est le nombre de valeurs distinctes de la série.
Cette distribution peut être également représentée par le tableau de la distribution
observée suivant :
xj nj
J
x1 n1 où n   nj
j 1

xJ nJ
Institut des finances Statistique et analyse des données 19
Fréquence, effectifs cumulés
et fréquences cumulées
1) Fréquence
A chaque valeur x j d'une variable, on peut associer
une fréquence nj
fj  , j  1,..., J
2) Effectif cumulé n
A chaque valeur x j , on associe un effectif cumulé N j représentant
le nombre d'observations inférieures où égales à x j
j
N j  n1  n2   n j   nk
k 1
3) Fréquence cumulée
Pour la valeur x j , la fréquence cumulée est définie par
Nj
Fj  , j  1,..., J
n
Institut des finances Statistique et analyse des données 20
Représentations graphiques
Variable qualitative ordinale Variable qualitative nominale
• Diagramme en secteurs • Diagramme en secteurs
• Diagramme en barres des effectifs
• Diagramme en barres des effectifs cumulés
Vacances à l’étranger Jamais Parfois Souvent Toujours
Exemple
Effectifs 5 19 23 3
25 60

20 50

40
Jamais 15

Nj
nj

Parf ois 30
Souvent
10
20
Toujours
5 10

0 0
Jamais Parfois Souvent Toujours Jamais Parfois Souvent Toujours

Diagramme en barres Diagramme en barres


Diagramme en secteurs des effectifs des effectifs cumulés
Institut des finances Statistique et analyse des données 21
Représentations graphiques
Variable quantitative discrète

Deux représentations graphiques peuvent être envisagées :

30

25

20
nj

15

10

0
x1 x2 x3 x4 x5 x6

Diagramme en bâtons Courbe cumulative

Institut des finances Statistique et analyse des données 22


Exemples

Exemple 1
La sectrétaire du service de santé d’une entreprise a relevée sur une
période de 50 jours le nombre de personnes qui se sont présentées à
ce service pour raison médicale :
4 0 4 1 2 5 4 2 3 4 3 4 4 2 3 4 5 2 4 1
4 4 4 1 3 2 4 3 2 4 2 3 2 0 4 3 4 5 4 2
4 3 4 0 3 4 4 5 3 4

Institut des finances Statistique et analyse des données 23


Exemples
Exemple 2 :
Un échantillon de 500 étudiants a été classé selon les 2 critères suivants :
le niveau de leurs études (X) et leur appréciation vis-à-vis de la quantité de
travail exigé (Y). Les résultats sont les suivants :
yk
xj Insuffisant Moyen Excédentaire
1e cycle 69 37 194
2e cycle 44 65 56
3e cycle 17 8 10

Institut des finances Statistique et analyse des données 24


Étude descriptive
numérique
 Après les représentations graphiques, si on désire approfondir l’étude
descriptive de la série statistique, il est nécessaire de décrire les différentes
caractéristiques des données en leur associant un certain nombre de valeurs
ou mesures, appelés paramètres, qui ont pour but de résumer dans une
certaine mesure les informations recueillies.
 Les indicateurs les plus courants peuvent être répartis en trois catégories :
 les indicateurs de position : Ce sont entre autres des valeurs centrales
de la série étudiée. Il s’agit en général des valeurs de localisations
particulières.
 les indicateurs de dispersion : permettent de caractériser la répartition
des observations les unes par rapport aux autres ou encore autour d’une
valeur centrale
 les indicateurs de forme : permettent d’étudier la forme de la
distribution des observations autour d’une valeur centrale de la
distribution observée.
Institut des finances Statistique et analyse des données 25
Les indicateurs de position
Plusieurs paramètres de position ont été proposés. Parmi ces paramètres ceux qu’on
utilise le plus souvent sont : La moyenne, la médiane, les quantiles et le mode.
1) La moyenne
a) La moyenne arithmétique
Un des objectifs de l’élaboration des paramètres de position est la détermination
d’une valeur centrale. Pour cela, la moyenne arithmétique est certainement la
plus connue parmi tous les paramètres destinés à définir une valeur centrale. La
moyenne arithmétique d’une série statistique {xi ; i=1, …, n} est définie par :
1 n
x   xi
n i 1
Exemple : Pour la série statistique 1,1, 2, 2, 2, 2,3,3 , on a
1
x  1  1  2  2  2  2  3  3   2
8
Institut des finances Statistique et analyse des données 26
Les indicateurs de position
Remarques
• Une moyenne ne se calcule que si les valeurs observées sont numériques.
• Une série ne peut pas posséder plusieurs moyennes distinctes.
• Une moyenne est rarement une valeur observée de la série.

Propriétés
 La moyenne est sensible aux valeurs aberrantes :
1,1, 2, 2, 2, 2,3,3  x  2.
1,1, 2, 2, 2, 2,3,300  x  39,125.
 La série des valeurs centrées est de moyenne nulle :
1 n

n i 1
 xi  x   0
Institut des finances Statistique et analyse des données 27
Les indicateurs de position
b) Moyenne arithmétique d’une distribution observée
Lors de l’analyse d’une série statistique on est amené à construire une
distribution observée, obtenue en associant à chaque valeur distincte xi un
effectif ni représentant le nombre de fois qu’elle est observée (j=1, …, J).
Dans ces conditions on constate que la moyenne s’obtient par l’intermédiaire
de l’expression J
1
x  nj xj
n j 1
Exemple : Pour la série statistique 1,1, 2, 2, 2, 2,3,3, on a
D.O. :  x , n =1, 2  ,  2, 4  , 3, 2 
j j
1 1
x 1  1  2  2  2  2  3  3   2 1   2  4    2  3  2
8 8
Institut des finances Statistique et analyse des données 28
Les indicateurs de position
c) La moyenne de deux séries statistiques
Supposons qu'une variable X est observée sur deux échantillons distincts
 
de tailles n1 et n2 respectivement. série 1 : x1 , n1 , série 2 : x2 , n2 .  
La moyenne globale x des deux séries comprenant n  n1  n2 observations
n1 x1  n2 x2
x
n
d) La moyenne pondérée
Si on attribue à chaque observation xi un poids wi , correspondant à
l'importance que l'on donne à cette observation, telle que n

w 1
i 1
i

La moyenne pondérée de la série  xi , i  1,..., n est définie par :


n
x   wi xi
i 1

Institut des finances Statistique et analyse des données 29


Les indicateurs de position
2) La médiane
La médiane est une mesure qui n’est pas liée à la valeur numérique des observations :
c’est la position de ces dernières les unes par rapport aux autres qui va être prise en
compte. Elle s’obtient donc à partir de la série ordonnée {x(i) ; i=1,… , n}.
La médiane est une valeur, notée x1/2 , telle que le nombre d’observations de la série
ordonnée qui la précèdent est égal au nombre d’observations qui la suivent.

a) La médiane d’une série statistique


Deux cas peuvent être considérés :
i) Si n est impair, on a : ii) Si n est pair, on a :
x1 2  x n1  x n   x n 
     1
2 2 
 2  x1 2 
2
Institut des finances Statistique et analyse des données 30
Les indicateurs de position
b) La médiane d’une distribution observée
Avec une distribution observée, pour déterminer la médiane, on peut se
baser sur les effectifs cumulés Nj, représentant le nombre de valeurs
inférieures ou égales à xj, en suivant la règle suivante :
1. S'il existe une valeur x j telle que N j 1  n 2  Nj alors

x1 2  x j

2. S'il existe une valeur x j telle que n 2  Nj alors

x j  x j 1
x1 2 
2
Remarque : on pose N0=0 si j=1.
Institut des finances Statistique et analyse des données 31
Les indicateurs de position
3) Les quantiles
La médiane est un cas particulier d’une valeur plus générale appelée quantile.
On appelle quantile d’ordre p la valeur xp , telle qu’il y a une proportion p des
observations qui sont inférieures ou égales xp. Le quantile xp peut être
déterminé en suivant la méthode suivante :
1. S'il existe une valeur x j telle que N j 1  np  N j alors

xp  x j
2. S'il existe une valeur x j telle que np  N j alors
x j  x j 1
xp 
Exemple
2
Les quartiles : x1 4 , x1 2 et x3 4 ; Les déciles : x1 10 , x2 10 , , x9 10
Institut des finances Statistique et analyse des données 32
Les indicateurs de position

Détermination d’un quantile graphiquement

Cas : Nj-1<np< Nj Cas : np= Nj

Institut des finances Statistique et analyse des données 33


Les indicateurs de position

4) Le mode
 Le mode est un paramètre de position qu’on utilise souvent et dont
l’objectif est de connaître, dans une série statistique, la valeur
observée qui apparaît le plus souvent.
 Le mode d’une distribution observée, noté xM, est donc la valeur
parmi les valeurs distinctes {xj ; j=1, …, J} qui correspond au plus
grand effectif nj.
 Une distribution observée peut avoir plusieurs Mode.

Institut des finances Statistique et analyse des données 34


Les indicateurs de dispersion
Considérons les deux séries statistiques suivantes :
{1, 2, 3, 4, 5, 6, 7} et {3, 3, 3, 4, 5, 5, 5}
On remarque que les deux séries ont une même valeur centrale 4 mais la
première série est plus dispersée autour de cette valeur que la deuxième série.
L’objectif sera ici de construire un ou plusieurs paramètres permettant de
mesurer la dispersion d’une série statistique ou d’une distribution observée.

1) L’étendue
Le premier paramètre de dispersion qu’on peut construire est l’étendue, défini
par la différence entre la plus grande et la plus petite valeur observée :
E = x(n) – x(1)
Il correspond à la longueur de l’intervalle contenant toutes les observations.
L’inconvénient de ce paramètre est d’être sensible à la présence de valeurs
extrêmes.
Institut des finances Statistique et analyse des données 35
Les indicateurs de dispersion
2) L’écart interdéciles
Il est défini par la différence entre le premier et le neuvième décile de la série
d’observations :
ED = x9/10 – x1/10
Il correspond à la longueur de l’intervalle contenant les 80% des valeurs
centrales de la série d’observations.

3) L’écart interquartiles
Il se définit comme étant la différence entre le premier et le troisième quartile
de la série d’observations :
EQ = x3/4 – x1/4
Il correspond à la longueur de l’intervalle contenant les 50% des valeurs
centrales de la série d’observations.
Institut des finances Statistique et analyse des données 36
Les indicateurs de dispersion
4) Le Box Plot

xg xd
x1 4 x1 2 x3 4

Les limites xg et xd de Box Plot, appelées valeurs adjacentes, sont déterminées


de la manière suivantes :
Notons par les valeurs pivots :
a1 = x1/4 – 1,5( x3/4 – x1/4)
a2 = x3/4 + 1,5( x3/4 – x1/4)
Alors
xg = Plus petite observation supérieure ou égale a1
xd = Plus grande observation inférieure ou égale a2
Institut des finances Statistique et analyse des données 37
Les indicateurs de dispersion
5) La variance
La variance permet de mesurer la dispersion des valeurs de la série statistique autour
de leur moyenne. On l’utilise surtout pour comparer la dispersion des valeurs de deux
séries d’observations dont les valeurs ont la même unité de mesure.
a) La variance d'une série statistique
La variance de la série statistique  xi , i  1,..., n est définie par
1 n 1 n 2
s    xi  x    xi  x 2
2 2

n i 1 n i 1
b) La variance d'une distribution observée
La variance d'une D. O.  x , n  ; j  1,..., J  est définie par
j j

s   nj  x j  x    nj x j2  x 2
2 1 J 2 1 J
n j 1 n j 1
Institut des finances Statistique et analyse des données 38
Les indicateurs de dispersion
6) L’écart-type
L’écart-type d’une série statistique (ou d’une D. O.) est la racine carrée de la
variance. Il a l’avantage de s’exprimer dans les mêmes unités que les
observations, et donc plus facile à interpréter que la variance :

1 n
s   xi  x 
2

n i1
7) Le coefficient de variation
Afin de comparer la dispersion des séries statistiques (ou des D. O.) dont les
unités sont différentes, on peut calculer leur coefficient de variation défini par :
s
CV 
x
Institut des finances Statistique et analyse des données 39
Les indicateurs de forme
1) Les paramètres d’asymetrie
Lors de l’étude d’une série statistique, on s’intéresse aussi à
savoir si la distribution des observations est symétrique ou
pas. Trois situations peuvent être rencontrées :

Asymétrie Distribution Asymétrie


à gauche symétrique à droite

Institut des finances Statistique et analyse des données 40


Les indicateurs d’asymétrie
Lors de l’étude d’une série statistique, on s’intéresse aussi à savoir si la
distribution des observations est symétrique ou pas.
1) Le coefficient de Fisher
L’étude de la symétrie d’une série statistique peut se faire en se basant sur le
moment centré d’ordre 3
m3    xi  x    n j  x j  x 
n J
1 3 1 3

n i 1 n j 1
m3  0 : asymétrie à gauche
m3  0 : asymétrie à droite
m3  0 : symétrie
Le coefficient de Fisher est défini par :
m3
g1  3
s
Institut des finances Statistique et analyse des données 41
Les indicateurs d’asymétrie

2) Les coefficients d’asymétrie empiriques


Il existe d’autres coefficient d’asymétrie plus rapides à calculer mais dont les
propriétés résultent de constatations empiriques.
a) Le coefficient de Pearson
x  xM
Sk 
s
b) Le coefficient de Yule et Kendall
x1 4  x3 4  2 x1 2
Yk 
x3 4  x1 4
L’interprétation de ces deux coefficients est la même que celle correspondant au
coefficient de Fisher.
Institut des finances Statistique et analyse des données 42
Les indicateurs de forme
Interprétation des coefficients d’aplatissement
Plus la série est aplatie, plus le valeurs de ces coefficients
d’aplatissement sont petites

Institut des finances Statistique et analyse des données 43


Distribution groupée
 Souvent, pour les variables dont les valeurs possibles sont des
réelles, il peut arriver que le nombre de valeurs distinctes observées
soit relativement élevé avec de nombreux effectifs de faible
amplitude. Cette situation ne permet pas de dégager facilement les
caractéristiques essentielles de la distribution.
 Pour cela, avant d’entamer l’étude de la série statistique relative à ce
type de variable, il est préférable de grouper les valeurs observées
dans des classes. Les classes construites permettent de définir ce
qu’on appelle la distribution groupée relative à cette variable.
 La distribution groupée d’une série statistique {xi ; i=1, …, n} est
définie par {(]lj-,lj+] , nj); j=1, …, J} où nj est l’effectif la classe ]lj-,lj+],
représentant le nombre de valeurs appartenant à cette classe.

Institut des finances Statistique et analyse des données 44


Distribution groupée

1) Tableau de la distribution groupée


Le tableau de la distribution groupée est définie par :


 l j , l j  xc j nj Nj
l j  l j
xc j   le centre de la j ème classe
2
 l1 , l1  xc1 n1 N1 n j et N j sont respectivement l'effectif
et l'effectif cumulé de la j ème classe
on a
J

 l , l 

J

J xcJ nJ NJ n
j 1
j n et N j  N j 1  n j

Institut des finances Statistique et analyse des données 45


Distribution groupée
Représentations graphiques

Variable quantitative continue (distribution par classe)

Histogramme
des effectifs

Polygone des
effectifs

Institut des finances Statistique et analyse des données 46


Distribution groupée
Représentations graphiques

Variable quantitative continue (distribution par classe)

Histogramme
des effectifs
cumulés

Courbe
cumulative

Institut des finances Statistique et analyse des données 47


Distribution groupée
2) Représentations graphiques
• Histogramme des effectifs et polygone des effectifs
• Histogramme des effectifs cumulés et courbe cumulative

3) Etude descriptive numérique


Tous les paramètres peuvent être calculés en supposant que chaque
classe peut être représentée par son centre.
a) La moyenne
L’expression de la moyenne pour une distribution groupée est la même
que celle pour une distribution observée, mais en considérant comme
valeurs les centres des classes : J
1
x 
n j 1
n j xc j

Institut des finances Statistique et analyse des données 48


Distribution groupée
b) Les quantiles
Le quantile xp d’une distribution groupée peut être déterminé en suivant la
méthode suivante :

S'il existe une valeur x j telle que N j 1  np  N j


np  N j 1
alors x p   l j , l j  et xp  l j  hj
nj
avec h j est la longueur de la classe  l j , l j  .

Institut des finances Statistique et analyse des données 49


Distribution groupée
c) Le mode
Le mode xM d’une distribution groupée est le centre de la classe modale, défini
comme étant la classe qui contient le plus d’observations, c’est-à-dire
Si  lM , lM  est la classe correspondant au plus grand effectif
l j  l j
parmi les effectifs n , j  1,...J , alors
j xM 
2
d) Les écarts interquartiles et interdéciles
Pour ces deux paramètres, les expressions restent les mêmes pour une
distribution groupée que pour une distribution observée :

EQ  x3 4  x1 4 et ED  x9 10  x1 10
Institut des finances Statistique et analyse des données 50
Distribution groupée

e) La variance, l'écart-type et le coefficient de variation


Pour une distribution groupée, la variance est définie par :
1 J

s   n j xc j  x  1 J
  n j xc j 2  x 2
2
2

n j 1 n j 1
Les expressions de l'écart-type et le coefficient de variation
restent les mêmes que celles pour une distribution observée :
s
s  s et CV 
2

Institut des finances Statistique et analyse des données 51


Distribution groupée
f) Les paramètres d'asymétrie
Pour une distribution groupée, le moment centré d'ordre 3 est défini par :

1 J
m3   n j xc j  x  
3

n j 1
Les expressions des coefficients de Fisher, de Pearson et de Yule et
Kendall, restent les mêmes que celles pour une distribution observée :
m3 x  xM
g1  3 , Sk 
s s
x1 4  x3 4  2 x1 2
Yk 
x3 4  x1 4

Institut des finances Statistique et analyse des données 52


Distribution groupée
4) Exemple
Considérons la série statistique ordonnée suivante relative aux âges
des membres d’un club sportif :
17 18 19 20 22 22 23 23 24 25 25 26 26 27 27
27 27 27 28 28 28 28 28 29 29 29 29 30 30 30
30 30 31 31 31 31 31 32 32 33 33 34 35 35 36
36 38 39 40 41

1. Groupez cette série dans des classes de longueur 5.


2. Faites l’étude descriptive complète de la distribution groupée
obtenue.

Institut des finances Statistique et analyse des données 53


Chapitre 2
Statistique descriptive bivariée
Introduction
 Lorsqu’on étudie le comportement de deux variables sur un ensemble
d’individus, on est amené à s’interroger sur les liens qui peuvent exister
entre elles.
 Dans certains cas, ces variables peuvent agir indépendamment l’une de
l’autre. Dans d’autres cas, il n’en est rien et on dit alors qu’il existe une
association dans le comportement de ces variables.
 On note qu’une association n’implique pas nécessairement un lien de
causalité entre ces variables. Il se peut qu’il existe une relation de
dépendance permettant d’expliquer partiellement le comportement d’une
variable en fonction de l’autre.
 La détermination d’un coefficient d’association et la construction
éventuelle d’une relation de dépendance peuvent être considérées d’un
point de vue uniquement descriptif.
 Il est aussi possible d’envisager ce problème sous un aspect confirmatoire
en considérant des tests d’indépendance.
Institut des finances Statistique et analyse des données 55
Introduction

 Considérons deux variables aléatoires X et Y. L’observation de ces


deux variables sur un échantillon de n individus nous permet d’obtenir
la série statistique bivariée {(xi, yi) ; i=1, …, n} où xi et yi sont les
valeurs observées des variables X et Y pour le ième individu.
 Dans le chapitre 1, nous avons vu comment, en partant de la série
bivariée {(xi, yi) ; i=1, …, n}, on étudie les distributions marginales et
conditionnelles relatives aux variables X et Y.
 Dans ce chapitre, on va s’intéresser à l’étude de la relation pouvant
exister entre les variable X et Y.
 Pour cela, la démarche suivie dépend du type des deux variables :
variables quantitatives et variables qualitatives.

Institut des finances Statistique et analyse des données 56


Cas de deux variables
quantitatives

 Quand les deux variables X et Y sont quantitatives, la première


étape de l’étude de la relation pouvant exister entre elles, est la
représentation graphique.
 Pour les variables quantitatives, la représentation graphique qu’on
utilise le plus souvent est le graphique de dispersion, appelé aussi le
graphique de nuage de points.
 Le graphique de dispersion consiste à représenter dans un plan
chaque individu i (i=1, …, n ) par un point dont les coordonnées
sont données par (xi, yi), c’est-à-dire les valeurs observées des
variables X et Y pour cet individu.
 Cette représentation graphique permet d’avoir une idée sur la
tendance de la relation qui existe entre les deux variables X et Y.

Institut des finances Statistique et analyse des données 57


Cas de deux variables quantitatives

Diagramme du nuage de points

140

120

100

80
Y

60

40

20

0
0 2 4 6 8 10 12 14 16 18
X

Institut des finances Statistique et analyse des données 58


Cas de deux variables quantitatives
Coefficient de corrélation

Le coefficient de corrélation est l’un des paramètres majeurs de l’analyse


statistique bivariée de variables quantitatives. La définition de ce paramètre
se base sur la notion de la covariance d’une série statistique :

Définition 1 Considérons une série statistique  xi , yi  ; i  1,..., n


relative à deux variables X et Y (quantitatives). La covariance de
cette série est définie par :
1 n
s xy    xi  x  yi  y 
n i 1
où x et y désignent les moyennes des séries marginales en X et Y .

Institut des finances Statistique et analyse des données 59


Cas de deux variables quantitatives
Coefficient de corrélation

Définition Pour une série statistique  xi , yi  ; i  1,..., n relative


à deux variables X et Y , le coefficient de corrélation est défini par :
s xy
r
sx s y
où s xy est la covariance entre X et Y ; s x et s y sont les écarts-types
des séries marginales en X et Y .
Propriétés
 1  r  1
 r  1 ou  1 : il existe une forte corrélation linéaire entre X et Y
 r  0 : il existe une faible corrélation linéaire entre X et Y

Institut des finances Statistique et analyse des données 60


Cas de deux variables quantitatives
Test d’hypothèse à un coefficient
de corrélation

Avant de définir le test d’hypothèse relatif à un coefficient de corrélation,


il faut introduire le concept de corrélation de la loi de probabilité bivariée
d’un vecteur aléatoire (X, Y) par l’intermédiaire du coefficient de corrélation :

 xy

 x x
où le numérateur est la covariance
 xy  E  X   x Y   x  
et le dénominateur est le produit des écarts-types marginaux définis par

  E  X  x    E Y   y 
2 2 2 2
x et y

avec x et y sont les moyennes des distributions marginales en X et Y .

Institut des finances Statistique et analyse des données 61


Cas de deux variables quantitatives
Test d’hypothèse pour un coefficient
de corrélation

 Un échantillon de n individus est sélectionné dans la population


d’étude. L’observation des variables X et Y permet d’obtenir la
série statistique {(xi, yi) ; i=1, …, n} dont l’analyse descriptive
permet de calculer le coefficient de corrélation observé r.
 La réalisation d’un test d’hypothèse est surtout pertinente dans le
cas où la population est supposée normale. En effet, si l’on se trouve
dans ce cas, les variables aléatoires X et Y sont indépendantes si et
seulement si leur coefficient de corrélation est nul.
 Ainsi, dans ce cas, tester l’indépendance entre les deux variables
alétatoires X et Y revient à tester si le coefficient de corrélation est
nul. La formulation de ce test est la suivante.
H0 :   0  H1 :   0

Institut des finances Statistique et analyse des données 62


Cas de deux variables quantitatives
Test d’hypothèse à un coefficient
de corrélation

H0 :   0  H1 :   0
Si nous disposons d'un échantillon aléatoire simple d'effectif n prélevé
dans une population supposée normale, on peut montrer que, si
l'hypothèse H 0 est vraie :
r n2
tn2
1 r 2

Règle de décision : sous les conditions énoncées, la règle de décision


relative à ce test, est donnée par

 r n2
 RH 0 si   tn 2;1 2 , tn 2;1 2 
 1 r 2

 RH dans le cas contraire


 0
Institut des finances Statistique et analyse des données 63
Cas de deux variables quantitatives
Exemple

Dans cet exemple, on s’intéresse à l’argent de poche donné à des jeunes


dont l’âge est compris entre 11 et 16 ans. Pour cela, sur un échantillon de
10 jeunes, sélectionné dans la population, on a observé sur une période d’une
année, l’âge (X) et le montant hebdomadaire moyen (Y), exprimé en euro :

xi 12 12 15 14 16 14 12 13 11 11
yi 41 34 113 102 115 72 60 78 35 30

1) Représentez le graphique de dispersion relative à cette série bivariée.


2) Calculez le coefficient de corrélation.
3) Testez si les deux variables X et Y sont indépendantes.

Institut des finances Statistique et analyse des données 64


Cas de deux variables quantitatives
Exemple

1) Diagramme du nuage de points

140

120

100

80
Y

60

40

20

0
0 2 4 6 8 10 12 14 16 18
X

Institut des finances Statistique et analyse des données 65


Cas de deux variables quantitatives
Droite de régression
 En supposant que la relation existant entre les variables X et Y est linéaire,
la droite de régression est la droite la plus proche possible, selon un certain
critère, des points dont les coordonnées sont données par (xi, yi).
 La droite de régression représente donc la relation linéaire qui existe entre
les variables X et Y.
 Pour déterminer l’équation de la droite de régression, on utilise le critère
des moindres carrées qui consiste à minimiser, par rapport aux constantes
a et b, la quantité suivante : n
Q  a, b     yi  a  bxi 
2

i 1
Ainsi, l'équation de la droite de régression est donnée par
sxy
y  a  bx avec b et a  y  bx
sx s y
Institut des finances Statistique et analyse des données 66
Cas de deux variables quantitatives
Variance résiduelle et de régression
 Décomposons la variance de la variable à expliquer Y en deux parties :
d’une part la partie expliquée par la droite de régression et d’autre part la
partie non expliquée par cette droite.
 Pour le ième individu, notons par yi* la valeur obtenue avec l’équation de la
droite de régression, c’est-à-dire *
yi  a  bxi

s    yi  yi    yi  y 
 On peut montrer que 1 n 1 n *
* 2

2 2
y
n i 1 n i 1
se2 variance résiduelle 2
sreg variance de régression

 Les variance résiduelle et de regréssion représentent respectivement la


partie non expliquée et la partie expliquée de la variance de la variable à
expliquer Y.

Institut des finances Statistique et analyse des données 67


Cas de deux variables quantitatives
Coefficient de détermination

 Le coefficient de détermination représente le pourcentage expliqué, par la


droite de régression, de la variance de la variable à expliquer Y :
2
sreg
R
s y2

 On peut montrer que le coefficient de détermination n’est rien d’autre que


le carré du coefficient de corrélation, c’est-à-dire
2
sreg sxy2
R   r2
s y2 s y2 sx2
 Propriétés
 se2  s 2y 1  r 2 
 sreg
2
 s 2y r 2
Institut des finances Statistique et analyse des données 68
Tableau de contigence

Une série statistique bivariée relative à deux variables X et Y peut être


également représentée par l’intermédiaire d’un tableau appelé tableau
de contingence :

Y
X y1 … yk … yK K
où n j .   n jk
x1 n11 … n1k … n1K n1.
k 1

.. .. .. .. .. J

. . . . . n.k   n jk
j 1
xJ nJ1 … nJk … nJK nJ.

n.1 … n.k … n.K

Institut des finances Statistique et analyse des données 69


Séries et distributions marginales

 L’étude d’une série statistique bivariée {(xi, yi) ; i=1, …, n} comporte


en premier lieu l’analyse des séries marginales univariées obtenues
en ne considérant qu’une variable à la fois dans le tableau de
contingence :
 Série marginale en X : {xi ; i=1, …, n}
 Série marginale en Y : {yi ; i=1, …, n}

 Si l’on dispose d’une D.O.2 sous forme d’un tableau de contingence


{(xj, yk, njk) ; j=1, …, J ; k=1, …, K} on peut par une démarche
analogue, définir des distributions marginales.
 Distribution marginale en X : {(xj , nj.); j=1, …, J}

 Distribution marginale en Y : {(yk , n.k) ; k=1, …, K}


Institut des finances Statistique et analyse des données 70
Séries et distributions marginales

On peut calculer les moyennes, variances, … marginales :


1 J
 Moyenne marginale en X x   nj xj
n j 1
1 K
Moyenne marginale en Y y   n k yk
n k 1

s   nj  xj  x 
1 J
 Variance marginale en X 2 2
X
n j 1
1 K
s   n k  yk  y 
2
Variance marginale en Y
2
Y
n k 1
Institut des finances Statistique et analyse des données 71
Distributions conditionnelles
Une distribution conditionnelle consiste à fixer a priori la valeur d’une variable
et à examiner les variations de l’autre.
a) Distributions conditionnelles de Y en X
En fixant une valeur de X, par exemple X=xj, l’ensemble de tous les couples
(xj, yk) où k=1, …, K définissent une distribution observée univariée appelée
distribution conditionnelle de Y en X, où X est fixé à la valeur xj. Cette
distribution est notée par :

D. C. (Y / X=xj) : {(yk , njk) ; k=1, …, K ; j fixé}


K
1
Moyenne conditionnelle y j 
nj
n jk
yk
k 1

n  y  yj 
K
1 2
Variance conditionnelle s
2
y j
 jk k
nj k 1

Institut des finances Statistique et analyse des données 72


Distributions conditionnelles

b) Distributions conditionnelles de X en Y
De la même manière, on peut également définir la distribution conditionnelle
de X en Y , où Y est fixé à la valeur yk. Cette distribution est notée par :

D. C. (X / Y = yk) : {(xj , njk) ; j=1, …, J ; k fixé}

J
1
Moyenne conditionnelle xk 
n.k
n jk
xk
j 1

 
J
1
 n jk x j  xk
2
Variance conditionnelle s x k
2

n.k j 1

Institut des finances Statistique et analyse des données 73


Cas de deux variables quantitatives
Mesure de l’intensité de la dépendance non linéaire

La variance de la variable à expliquer Y peut être décomposée en


1 K 1 J K

s   n k  yk  y     n jk  yk  y j  y j  y    
2 2
2

n j 1 k 1  
Y
n k 1
1 J K
   n jk  yk  y j    n j  y j  y 
2 1 J 2

n j 1 k 1 n j 1
moyenne des variances variance des moyennes
conditionnelles conditionnelles

Définition : Le rapport de corrélation  y . x est défini par son carré :

nj  yj  y 
1 J

2

n j 1
 y2. x 
s 2y
Institut des finances Statistique et analyse des données 74
Cas de deux variables quantitatives
Mesure de l’intensité de la dépendance non linéaire

Propriétés de  x. y
 0   y2. x  1
 Si s y2 j  0, pour j  1,..., J :  y2. x  1
 Si y j  y , pour j  1,..., J :  y2. x  0
 r 2   y2. x
  y2. x  r 2 : indice de non-linéarité de la régression

Institut des finances Statistique et analyse des données 75


Distributions observées et conditionnelles
pour une série bivariée

Exemple
Un sondage effectué auprès de 120 ménages s’intéresse aux variables
X = « nombre de voitures par ménage » et Y = « nombre d’enfants par
ménage ». Les résultats sont donnés dans le tableau de contingence suivant

Y
X 0 1 2
0 12 18 22
1 10 22 10
2 8 8 10

1. Donnez la moyenne et la variance marginales de Y.


2. Calculez le rapport de corrélation de Y en X.

Institut des finances Statistique et analyse des données 76


Distributions observées et conditionnelles
pour une série bivariée

1 K
X\Y 0 1 2 nj. yj y   n k yk  1,1
n k 1
0 12 18 22 52 1,19
1 K
  n k  yk  y   0,59
2
1 10 22 10 42 1 s 2y
n k 1
2 8 8 10 26 1,08
K
1
n.k 30 48 42 n=120 yj 
nj
n jk
yk
k 1

nj  yj  y
J
1
  
2
1
n j 1 52  0,09 2
 42  0,12
 26  0,02 2

 y2. x   120
s 2y 0,59
0,007
  0,012
0,59
Institut des finances Statistique et analyse des données 77
Cas d’une variable quantitative
et d’une variable qualitative

Exemple : On veut étudier la liaison entre le salaire Y et la


catégorie socio-professionnelle X d’un ensemble d’individus.
Pour étudier ce genre de liaison, on peut utiliser le rapport de corrélation.
 Si X une variable qualitative ayant J modalités, pour chaque
modalité (catégorie) on peut noter par :
 n1 , n2 , , nJ les effectifs observés
 y1 , y2 , , y J les moyennes de la variable Y
2 2
 s1 , s2 , , sJ2 les variances de la variable Y
2
 y et s y la moyenne et la variance totale de la variable Y
 On peut monter que

s 2y    yi  y    n j  y j  y    n j s 2j
n J J
1 2 1 2 1
n i 1 n j 1 n j 1
Institut des finances Statistique et analyse des données 78
Cas d’une variable numérique
et d’une variable qualitative
Le rapport de corrélation

Le rapport de corrélation de Y en X est donné par :

nj  yj  y
1 J

2

n j 1
 y2. x 
s 2y

Interprétation
  y2. x  0 si y1  y2   y J  absence de dépendance en moyenne
  y2. x  1 si les valeurs de la variable Y pour les individus appartenant

à une même catégorie sont égales.

Institut des finances Statistique et analyse des données 79


Cas d’une variable quantitative
et d’une variable qualitative

Exemple On a demandé à 100 élèves d’une école leur avis


sur la maîtrise des notions de statistique. Les réponses possibles
sont : «bonne» , «moyenne» et «mauvaise». Les mêmes élèves
ont subi un test composé de cinq QCM. La variable Y représente le
nombre de bonnes réponses. On a les résultats suivants :

X\Y 0 1 2 3 4 5
bonne 1 2 5 4 8 11
moyenne 2 6 10 8 7 6
Insuffisante 9 7 4 6 2 2

Calculez le rapport de corrélation de Y en X.

Institut des finances Statistique et analyse des données 80


Cas d’une variable quantitative
et d’une variable qualitative

X\Y 0 1 2 3 4 5 nj. yj
Bonne 1 2 5 4 8 11 31 3,58
moyenne 2 6 10 8 7 6 39 2,77
Insuffisante 9 7 4 6 2 2 30 1,70
n.k 12 15 19 18 17 19

1 K

1 K 1 K
y   n k yk  2,7 et s y   n k  yk  y   2,71 yj 
2 2
n jk yk
n k 1 n k 1 n j . k 1

j  j 
1 J
   0,54
2
n y  y 1
31  0,882
 39  0,07 2
 30  1,7 2
n j 1
 y2. x  2
 100   0,20
sy 2,71 2,71

Institut des finances Statistique et analyse des données 81


Cas de deux variables qualitatives
(nominales)

 Pour mesurer la relation existant entre deux variables qualitatives


nominales, on peut utiliser le coefficient d’association, noté D2, sur
lequel on se base pour construire le test d’indépendance.
 La définition du coefficient d’association D2 nécessite le calcul des effectifs
théoriques.
 A chaque effectif n jk d'un tableau de contingence, on associe un
*
effectif théorique n jk défini par
nj n k
n jk 
*
pour tout j  1,..., J et k  1,..., K
n
 Le coefficient d'association est défini par

D  
2
J K
n jk n 
* 2
jk

j 1 k 1 n*jk
Institut des finances Statistique et analyse des données 82
Cas de deux variables qualitatives
(nominales)
Test d’indépendance

 Si le tableau de contingence est défini à partir d’un échantillon prélevé


selon un sondage aléatoire simple, on peut tester l’hypothèse
H0 : les deux variables sont indépendantes
en utilisant la loi de D2 sous H0.
 En effet, si l’effectif n de l’échantillon est suffisamment grand, ce qui se
traduit par les conditions suivantes :
i ) n  30
ii ) n*jk  1 pour tout j  1,..., J et k  1,..., K
iii ) Au moins 80% des effectifs théoriques n*jk  5
On peut montrer que
D 2  2J 1 K 1

Institut des finances Statistique et analyse des données 83


Cas de deux variables qualitatives
(nominales)
Test d’indépendance

Le test d’indépendance, appelé aussi le test Khi 2, entre deux variables


qualitatives nominales est défini par :
 H 0 : les deux variables sont indépendantes

 H1 : les deux variables sont dépendantes
Règle de décision : sous les conditions énoncées, la règle de
décision relative à ce test est donnée par

 RH 0 si D 2   2J 1 K 1;1



 RH 0 dans le cas contraire
où  2J 1 K 1;1 est le quantile d'ordre 1   de la distribution  à
2

 J  1 K - 1 degrés de liberté.

Institut des finances Statistique et analyse des données 84


Cas de deux variables qualitatives
(nominales)

Remarque
Plusieurs coefficients liés au D2 ont été proposés pour obtenir une
mesure comprise entre 0 (indépendance) et 1 (forte liaison). Par
exemple :
le coefficient de Cramer

D2
V
n  inf  J  1 ;  K  1

Institut des finances Statistique et analyse des données 85


Cas de deux variables qualitatives
(nominales)
Exemple

Après avoir sélectionné un échantillon de 100 habitants d’une région, on s’est


intéressé aux variables suivantes : X représentant le sexe de ces habitants
avec Vx= {F=femme, H=Homme} et Y représentant leur attitude vis-à-vis du
sport avec Vy= {P=favorable, D=défavorable, I=indifférent }.

yk
xk P D I nj.
F 21 15 9 45
H 39 13 3 55
n.k 60 28 12 100

1) Calculez les effectifs théoriques.


2) Calculez le coefficient d’association D2.
3) Les deux variables X et Y sont-elles indépendantes ?
Institut des finances Statistique et analyse des données 86
Cas de deux variables qualitatives
(nominales)
Exemple

yk xk\\ yk P D I
xk P D I nj. F 27 12,6 5,4
F 21 15 9 45 H 33 15,4 6,6
H 39 13 3 55 nj n k
Tableau des n*jk 
n.k 60 28 12 100 n

xk\\ yk P D I D  
2
J K
n jk n 
* 2
jk
 7,69
*
F 1,33 0,46 2,40 j 1 k 1 n jk

H 1,09 0,37 1,96 2J 1 K 1;1   2;0.95


2
 5,99  D 2

Tableau des
 n jk n * 2
jk  On rejette que les deux variables
n*jk soient indépendantes.

Institut des finances Statistique et analyse des données 87


Cas de deux variables qualitatives ordinales
La corrélation des rangs

 Il arrive souvent de ne disposer que d’un ordre sur un ensemble


d’individus et non de valeurs numériques d’une variable mesurable :
• Soit parce qu’on ne dispose que de données du type classement (ordre de
préférence, …).
• Ou bien parce que les valeurs numériques d’une variable n’ont que peu de
sens et n’importent que par leur ordre.
Exemple

Institut des finances Statistique et analyse des données 88


Cas de deux variables qualitatives ordinales
La corrélation des rangs

 Soit {(xi, yi) ; i=1, …, n} la série statistique bivariée et considérons les


deux séries marginales ordonnées :
x  ,
1
, xi  , , x n   et  y  ,
1
, y i  , , y  n  
 Notons rXi le rang de l’observation xi et rYi le rang de l’observation de yi.
Exemple : Série statistique X : {xi ; i=1, … , 6} = {5, 0, -4, 2, 3, 1}
Série statistique ordonnée : {x(i) ; i=1, … , 6} = {-4, 0, 1, 2, 3, 5}
Série des rangs de X : {rXi ; i=1, … , 6} = {6, 2, 1, 4, 5, 3}

Remarques
n  n  1 n  n  1 2n  1
 1 2  n et 1  2   n  2 2 2

2 2
n 1
2
 La variance de la série 1,2, , n 
12
Institut des finances Statistique et analyse des données 89
Cas de deux variables qualitatives ordinales
Le coefficient de corrélation de Spearman

 Le coefficient de corrélation de Spearman n'est rien d'autre que


le coefficient de corrélation entre les deux séries des rangs des
observations des variables X et Y
cov  rX , rY 
Rs 
srX srY
 S'il n'y a pas d'ex-aequo, le coefficient de corrélation de Spearman
peut être également donné par :
n
6  rXi  rYi 
2

Rs  1  i 1

n  n 2  1

Institut des finances Statistique et analyse des données 90


Cas de deux variables qualitatives ordinales
Le coefficient de corrélation de Spearman

Interprétation
 si Rs  1  les deux classement sont identiques
si Rs  1  les deux classement sont inverses l'un de l'autre
si Rs  0  les deux classement sont indépendants

 Pour savoir si la valeur trouvée de Rs est significative, on se


rapportera à la table du coefficient de corrélation Spearman :
 si Rs  k il y a concordance des classes
 si Rs  k il y a discordance des classes

Institut des finances Statistique et analyse des données 91


Cas de deux variables qualitatives ordinales
Le coefficient de corrélation de Spearman

Exemple 2 Deux juges attribuent des points à dix sportifs au cours d’une
compétition. Le tableau suivant nous donne les notes attribuées par chaque
juge (xi pour le premier et yi pour le second) :
xi 8,3 7,6 9,1 9,5 8,4 6,9 9,2 7,8 8,6 8,2
yi 7,9 7,4 9,1 9,3 8,4 7,5 9 7,2 8,2 8,1

Calculez le coefficient de corrélation de Spearman entre Y en X.

Solution
rXi 5 2 8 10 6 1 9 3 7 4
rYi 4 2 9 10 7 3 8 1 6 5

Institut des finances Statistique et analyse des données 92


Cas de deux variables qualitatives ordinales
Le coefficient de corrélation de Spearman

1 n  n  1 n 2
1
rX rY   5,5 et srX  srY 
2 2
 8,25
n 2 12
1 n
cov  rX , rY     rXi  rX  rYi  rY   7,55
n i 1
cov  rX , rY  7,55
Rs    0,92
srX srY 8, 25

Institut des finances Statistique et analyse des données 93


Chapitre 3
Introduction aux lois et distributions de
probabilités
Définition d’une variable aléatoire
 Lors de la réalisation d’une expérience aléatoire, plusieurs résultats
sont possibles. L’étude de ces résultats permet de définir la notion
de la variable aléatoire. Avant de donner la définition d’une variable
aléatoire, rappelons les notions suivantes :
 Expérience aléatoire : processus dont on ne pas prévoir le
résultat
Exemples : lancer un dé, jouer au lotto, etc.
 Espace-échantillon  : ensemble des résultats possibles.
Exemple : on lance deux pièces de monnaie
w1 : P1 P2
 w2 : P1 F2
w3 : F1 P2
w4 : F1 F2
Institut des finances Statistique inférentielle 95
Définition d’une variable aléatoire

 Variable aléatoire : sa valeur est déterminée par le


résultat d’une expérience aléatoire.
Exemple : on lance deux pièces de monnaie et on s’intéresse
au nombre X de résultats « face » obtenus :
 V
w1 : P1 P2 0
w2 : P1 F2
1
w3 : F1 P2
w4 : F1 F2 2

Institut des finances Statistique inférentielle 96


Définition d’une variable aléatoire
Ex : événement composé des résultats associés à la valeur x de l’ensemble V.
V 1 1 1
E0 : P1 P2  P  E0   , P  E1   et P  E3  
0 4 2 4

  P1 F2  Par extension
E1 :  1
 F1 P2 1 1 1
2 P  X  0   , P  X  1  et P  X  2  
E2 : F1 F2 4 2 4

Définition
X est une fonction définie sur 
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .

Institut des finances Statistique inférentielle 97


Définition d’une variable aléatoire
Ex : événement composé des résultats associés à la valeur x de l’ensemble V.
V 1 1 1
E0 : P1 P2  P  E0   , P  E1   et P  E3  
0 4 2 4

  P1 F2  Par extension
E1 :  1
 F1 P2 1 1 1
2 P  X  0   , P  X  1  et P  X  2  
E2 : F1 F2 4 2 4

Définition
X est une fonction définie sur 
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .

Institut des finances Statistique inférentielle 98


Variable aléatoire
discrète et continue

Variable aléatoire discrète


Si V est un ensemble discret, la variable aléatoire est dite discrète.
Par exemples : V={1, 2, … , n} ; V=Z.

Variable Valeurs
Expérience
aléatoire X possibles V
Nombre de clients qui
Contacter 5 clients 0, 1, 3, 4, 5, 6
passent commande
Inspecter une cargaison de Nombre de radions
0, 1, …, 50
50 Radios défectueuses
Gérer un restaurant
Nombre de clients 0, 1, 2, 3, …
pendant une journée
Institut des finances Statistique inférentielle 99
Variable aléatoire
discrète et continue

Variable aléatoire continue


Si V est un ensemble continue, la variable aléatoire est dite continue.
Par exemple : V = R (l’ensemble des réels).

Variable Valeurs
Expérience
aléatoire X possibles V
Jouer au Lotto Montant gagner R+

Gérer un restaurant
Bénéfices R+
pendant une journée

Institut des finances Statistique inférentielle 100


Loi (distribution) de probabilité
d’une variable aléatoire discrète
Pour chaque valeur x de l'ensemble V , on associe l'ensemble
d'évenements :

E x  w w   et X  w   x 
On peut donc pour tout x  V :
px  Px  x   P  X  x   P E x 
 Loi de probabilité de X :  x, px  , x V 
Remarque :  x, px  , x V  est une distribution de probabilités (D.P.)
ssi px  0  x  V et  px  1
x
Exemple : X est le nombre de "Pile" obtenu suite au lancement de
2 pièces de monnaie.
 1   1   1  
 x, px  , x V    0, 4  ; 1, 2  ;  2, 4 
     
Institut des finances Statistique inférentielle 101
Fonction de répartition
d’une variable aléatoire discrète

Rappel : Pour les statistiques descriptives :


Fj = fréquence cumulée
= pourcentage d’observations inférieures ou égales à xj

Définition : La fonction de répartition d'une variable X est


est définie par
F  x   P  X  x  où x 
Si la distribution de probabilité de X est  x , p  ; j  1,..., J 
j j
alors
F  x   p j
x j x

Institut des finances Statistique inférentielle 102


Fonction de répartition
d’une variable aléatoire discrète
Propriétés
1) F  x  prend ces valeurs dans

2) F     0 et F     1
3) F  a   F  b   a  b avec a, b 

4) P  a  X  b   P  X  b   P  X  a   F b   F  a   a  b
5) Si xi et x j deux valeurs de X telle que xi  x j alors

P  xi  X  x j   F  x j   F  xi 1 
En particulier : P  X  x j   F  x j   F  x j 1 
Institut des finances Statistique inférentielle 103
Espérance mathématique
d’une variable aléatoire discrète

Définition : Soit X une variable aléatoire dont La D. P. est  x, p  ; x V 


x
L'espérance mathématique de X est définie par
E  X    xpx  
X  g  X  : x  g  x
x
De plus l'espérance mathématique d'une fonction
est définie par
 
E  g X   px g x   
x

Propriétés
a) Si b est une constante : E  b   b

b) Si a est une constante : E  aX   aE  X 

c) Si a et b sont des constantes : E  aX  b   aE  X   b


Institut des finances Statistique inférentielle 104
Variance d’une variable
aléatoire discrète

Définition
Soit X une variable aléatoire dont la D.P. est  x, p  ; x V 
x

La variance de X est définie par

V  X    px  x      2
2

Propriétés :
a) Si b est une constante : V  b   0

b) Si a est une constante : V  aX   aV  X 

c) Si c est une constante : V  X  c   V  X 

Institut des finances Statistique inférentielle 105


Lois discrètes particulières
1) Distribution uniforme (discrète)
Définition X U 1,..., n  si
- x appartient à 1, 2,..., n
1
- px 
n
Exemples
- valeur obtenue par le lancement d’un dé (n=6)
- valeur obtenue par le lancement d’une pièce (n=2)

Paramètres
n  n  1 n 2
1
- Moyenne :  - Variance :  
2

2 12
Institut des finances Statistique inférentielle 106
Lois discrètes particulières
2) Distribution Binomiale
Définition La distribution binomiale s'obtient après la réalisation
des étapes suivantes :


1) Expérience aléatoire E avec   S , S  succès, échec   
2) E est répetée n fois sous des conditions "uniformes" :

PS   p 
 restent constants
P  S   1  p  q 
3) Les répétitions sont indépendantes
4) La variable aléatoire X qui compte le nombre de réalisations
de S est une binomiale de paramètres n et p : X Bin  n, p 
Institut des finances Statistique inférentielle 107
Lois discrètes particulières

Propriétés Soit la variable aléatoire X Bin  n, p 


1) Les valeurs de X sont 0,1,..., n.
2) Pour tout x  0,1,..., n, px  P  X  x   Cnx p x q n x
3) La moyenne de X est définie par   np
4) La variance de X est définie par  2  npq

Définition Si X Bin  n, p  , la binomiale complémetaire de X


est définie par X Bin  n, q . X est la variable qui compte le
nombre de réalisations de S . De plus, on a
X X n
Institut des finances Statistique inférentielle 108
Loi (distribution) de probabilité
d’une variable aléatoire continue
Considérons le cas de la variable aléatoire continue X dont l'ensemble
des valeurs possibles est l'ensemble des réels .

Définition X est définie par f  x 


La loi de probabilité de la variable
appelé la fonction de densité (ou de probabilité) de X .

Propriétés de f  x
1) f  x   0 pour x 

2)  f  x dx  1, (il s'agit d'une condition nécéssaire

pour avoir une loi de probabilité)
3) P  X  x  0
P  a  X  b   P  a  X  b   P  a  X  b    f  x  dx
b
4)
a

Institut des finances Statistique inférentielle 109


La Fonction de répartition,
l’espérance et la variance
d’une variable aléatoire continue
Définition La fonction de répartition d'une variable aléatoire continue
X est définie par, pour tout x 
F  x   P  X  x    f  u du
x



Définition L'espérance et la variance d'une variable aléatoire continue


X sont définies par

   EX    xf  x dx



   E  X        x    f  x dx
2 2 2
  

Institut des finances Statistique inférentielle 110


Lois continues particulières
1) Distribution uniforme sur [a, b] (continue)
Définition X U  a, b  si sa fonction de densité est définie par
 1
 si x   a, b 
f  x  b  a
 0 sinon
Propriétés
 0 si xa
xa
 Fonction de répartition : F  x    si a xb
 b 1 a si xb

  
2
ab b a
 Moyenne :   et Variance : 
2

2 12
Institut des finances Statistique inférentielle 111
Lois continues particulières
2) Distribution Normale
Définition La fonction de densité d'une variable X qui suit
une loi normale est définie par


 x 
2

1
f  x  e 2 2
où x 
 2
Notation X N   , 2 

Distribution normale centrée réduite : Z  N  0,1


X 
Z

Institut des finances Statistique inférentielle 112

Définition des distributions


Khi-deux, Student et Fisher-Snédecor
Définition 1 (Khi-deux : 2 ) Considérons  v.a. normales centrées réduites
indépendantes Z1 , Z 2 ,..., Z . La variable aléatoire

XT   Xi
i 1
admet une distribution  2
à  degrés de liberté.
Définition 2 (Student : t ) Considérons deux v.a. indépendantes X N  0,1
et Y  . 2
La variable aléatoire
X
Y
admet une distribution de Student t à  degrés de liberté.
Définition 3 (Fisher-Snédecor : F1 , 2 ) Considérons deux v.a. indépendantes
X1 2 et X2 2 . La variable aléatoire
1 2
X1 1
X2 2
admet une distribution de Fisher-Snédecor F , à  1 et  2 degrés de liberté.
1 2

Institut des finances Statistique inférentielle 113


Chapitre 4
Échantillonnage, estimation et tests
d’hypothèses
Introduction
 Bien souvent il est impossible d’étudier l’ensemble de la population
(N grand), c’est pourquoi on se restreint à l’étude d’un échantillon de
taille n.
 Le concept d’échantillon est souvent opposé à celui de recensement
qui est destiné à établir une observation exhaustive de tous les
éléments de la population.
 Le sondage est une méthode qui permet de sélectionner un
échantillon de la population dont le but d’extrapoler les résultats
observés sur cet échantillon à la population entière.
 L’extrapolation des résultats observés sur l’échantillon à la population
passe par l’utilisation des estimateurs des différents paramètres de la
population.
 On notera toujours les paramètres de la population par des lettres
Greques et ceux de l’échantillon par des lettres Latines.
Institut des finances Statistique inférentielle 115
Sondage et échantillon aléatoire
 Pour sélectionner un échantillon à partir d’une population, il existe
plusieurs méthodes d’échantillonnage appelées plan de sondage.
Dans le cadre de ce cours, on va se limiter au plan de sondage
simple.
 Sondage aléatoire : un sondage est dit aléatoire si chaque individu
de la population a une probabilité connue et non nulle d’appartenir à
l’échantillon.
 Sondage aléatoire simple : un sondage aléatoire est dit simple si
tous les échantillons d’effectif n fixé a priori, sélectionnés au sein
d’une population d’effectif N, sont réalisables avec la même
probabilité.
 Pour le sondage aléatoire simple, tous les individus de la population
ont la même probabilité d’être sélectionnés.
Institut des finances Statistique inférentielle 116
Tirage aléatoire simple
avec remise et sans remise
Pour le sondage aléatoire simple, les tirages peuvent se faire avec remise
ou sans remise.

Tirage sans remise 1 Tirage avec remise


PESR 2 3 N PEAR
• n(s) = n < N • n(s) = n < N
• n fixé a priori • n fixé a priori
• n tirages successifs • n tirages successifs
(i=1,…, n ) et sans replacer (i=1,…, n ) en replaçant
l’unité sélectionnée dans la l’unité sélectionnée dans la
population avant le tirage population avant le tirage
suivant suivant

Institut des finances Statistique inférentielle 117


Échantillon aléatoire
Tirage PEAR
 Dans la théorie statistique, on suppose souvent que les données
observées sont les résultats des tirages à probabilités égales et avec
remise (PEAR).
 Cette hypothèse est souvent irréalisable mais il existe des résultats
asymptotiques qui montrent que lorsque le nombre de données est
important on a de fortes chances qu’elle soit vérifiée.
 Pour le tirage PEAR, à chaque tirage on se trouve toujours devant la
même population et chaque observation sera donc observée
indépendamment des autres.
 Ainsi, l’échantillon peut être considéré comme une suite de variables
aléatoires (X1,…, Xk ,…, Xn) – où Xk est la valeur observée pour le
kème individu sélectionné – telles que
E  X k    et V  X k    où k  1,..., n
2

avec  et  sont la moyenne et la variance de la population.


2

Institut des finances Statistique inférentielle 118


Estimation de la moyenne
de la population

 Supposons qu'un échantillon d'effectif n est sélectionné à partir de


la population selon un tirage PEAR.

 La moyenne arithmétique de cet échantillon définie par


1 n
X   Xk
n k
peut être utiliser pour estimer la moyenne de la population .
 En tant que variable aléatoire, X constitue un estimateur de  . Toute
valeur observée de X à partir d'un échantillon réel sera appelée une
estimation de .

Institut des finances Statistique inférentielle 119


Estimation de la moyenne
de la population

Propriétés de X
Pour le tirage PEAR, les observations Xk  k  1,..., n  sont des variables
aléatoires indépendantes et équidistribuées, on a donc

 EX   
X est un estimateur sans biais de  .
2
 V X 
n
Ce paramètre, destiné à connaître la dispersion des valeurs
de X autour de  , permet de mesurer l'erreur d'échantillonnage.
Plus V  X  sera faible, plus l'erreur sera petite et l'estimateur précis.

Institut des finances Statistique inférentielle 120


Intervalle de confiance pour
la moyenne d’une population
 On estime la moyenne de la population  à partir d'un échantillon
en utilisant la moyenne arithmétique X . Une telle opération ne nous
permet cependant pas de savoir si la valeur observée x de X est
proche ou non de la valeur inconnue .
 Pour rencontrer cette critique, on peut utiliser le concept d'estimation
par intervalle. Le principe est de construire un intervalle l1 , l2  dont
les limites l1 et l2 dépendent des observations de l'échantillon et sont
choisies de manière telle que cet intervalle va contenir la moyenne 
inconnue avec une probabilité que l'on se fixe a priori et que l'on choisie
habituellement grande :
IC 1     P  l1    l2   1  
IC 1    est appelé intervalle de confiance, au niveau de confiance 1   .
Institut des finances Statistique inférentielle 121
Intervalle de confiance pour
la moyenne de la population
Afin de montrer comment on peut construire un intrevalle de confiance
pour la moyenne d'une population, nous nous plaçons dans le cas

particulier d'une population dont la loi est normale N   , 2  .


2
Supposons que la variance  de la population est connue
La loi de l'estimateur X de  est définie par
 2 
X  N  , 
 n 
où encore, sous forme centrée réduite
X 
 N  0,1
 n
Institut des finances Statistique inférentielle 122
Intervalle de confiance pour
la moyenne de la population

Propriété Si  est un niveau de probabilité (compris entre 0 et 1) et


Z  N  0,1 , on peut affirmer que
P   z1 2  Z  z1 2   1  
où z1 2 est le quantile d'ordre 1   2  de Z .

X 
Remarque appliquée à la variable , cette propriété s'énonce
 n
comme suit :

 X  
P   z1 2   z1 2   1  
  n 
Institut des finances Statistique inférentielle 123
Intervalle de confiance pour
la moyenne de la population
Définition L'intervalle de confiance au niveau 1   pour la moyenne 
est donné par
   
IC 1      x  z1 2 ; x  z1 2
 n n 
où x est la valeur observée de X à partir de l'échantillon d'effectif n,
et z1 2 est le quantile d'ordre 1   2  de Z .

Remarques
 Le niveau de confiance 1   est arbitraire. Il dépend du degré de
précision qu'on désire obtenir.

 La longueur de l'intervalle de confiance vaut 2 z1 2 .
n
Institut des finances Statistique inférentielle 124
Intervalle de confiance pour
la moyenne de la population

Remarques
Si la variance de la population  est inconnue, on estime  par
2 2
1)
ns 2 2
où s est la variance dans l'échantillon et on peut montrer que
n -1
x 
tn1
s n 1
et l'intervalle de confiance devient

 s s 
IC 1      x  tn1,1 2 ; x  tn1,1 2 
 n  1 n  1 

Institut des finances Statistique inférentielle 125


Intervalle de confiance pour
la moyenne de la population

2) Si la loi de la population n'est pas une loi normale alors on peut


montrer que les résultats obtenus avec une population normale
restent valides quand l'effectif de l'échantillon est supérieur où
égal à 30, c'est-à-dire n  30.

Institut des finances Statistique inférentielle 126


Estimation de la proportion
de la population
 Si  A désigne la proportion d'individus qui possédent une caractéristique
particulière A dans une population.
 Supposons qu'un échantillon d'effectif n est sélectionné à partir de
la population selon un tirage PEAR.
 La proportion A peut être estimée par la proportion de A observée
dans l'échantillon : nA
ˆ A 
n
où nA est le nombre d'individus de l'échantillon qui possèdent A.
 Quand n est grand, on peut montrer que la loi de ˆ A est donnée par
  A 1   A  
ˆ A  N   A , 
 n 
Institut des finances Statistique inférentielle 127
Intervalle de confiance pour
la proportion de la population
Remarque

  A 1   A   ˆ A   A
 A  N  A,
ˆ    N  0,1
 n   A 1   A 
n
Définition L'intervalle de confiance, au niveau de confiance 1   pour la
proportion A est donné par

 ˆ A 1  ˆ A  ˆ A 1  ˆ A  
IC 1     ˆ A  z1 2 ; ˆ A  z1 2 
 n n 
où z1 2 est le quantile d'ordre 1   2  de Z N  0,1.

Institut des finances Statistique inférentielle 128


Tests d’hypothèses
 Toute analyse statistique d’un ensemble de données passe, à un
moment ou un autre, par des hypothèses.
 Des développements théoriques ou des études antérieures peuvent
nous amener à penser que certaines professions sont mieux
rémunérées que d’autres, que la proportion de fumeurs dans un
pays reste constante, …. La question se pose alors de tester la
validité d’une telle hypothèse.
 L’idée consiste à utiliser l’information disponible après avoir observé
les valeurs {x1, …, xn}. La question qu’on peut se poser est comment
utiliser cette information pour pouvoir établir une règle de décision
permettant de valider ou de rejeter l’hypothèse émise ?
 Dans ce chapitre, on va se limiter aux tests d’hypothèses relatifs à
une moyenne et une proportion.
Institut des finances Statistique inférentielle 129
Test d’hypothèse relatif à
la moyenne de la population
 Il est habituel de présenter les problèmes des tests de la manière
suivante :
 L'hypothèse à tester est appelée l'hypothèse nulle et notée H 0
 L'hypothèse alternative, notée H1, traduit la situation quand H 0
n'est pas vraie.
 L'objectif est d'établir une règle qui se traduit par deux possibilités :
 Soit on rejette l'hypothèse nulle H 0 , ce qu'on note par RH 0
 Soit on ne la rejette pas, ce qu'on écrit RH 0 . On accepte H1.
 Afin d'établir cette règle de décision, on sélectionne un échantillon
aléatoire simple  x1 ,..., xn . Pour estimer la moyenne de la population
par exemple, cet échantillon permet de l'estimer par la moyenne x de
l'échantillon.
Institut des finances Statistique inférentielle 130
Test d’hypothèse relatif à
la moyenne de la population
Afin d'établir, les test d'hypothèse relatif à une moyenne, nous nous
plaçons, dans un premier temps, dans la cas d'une population dont la
loi est normale N   , 2  . On suppose également que la variance  2
est connue.
Le test d'hypothèse relatif à une moyenne de la population  peut être
formulé de la manière suivante :
H 0 :   0  H1 :   0
Règle de décision : sous les conditions énoncées, la règle de décision
relative à ce test est donnée par

 x  0
RH
 0 si    z1 2 , z1 2 
  n
 RH dans le cas contraire
 0
Institut des finances Statistique inférentielle 131
Test d’hypothèse relatif à
la moyenne de la population

Remarques
Si la variance de la population  est inconnue, on estime  par
2 2
1)
ns 2
et la règle de décision relative au test sur la moyenne  devient
n -1
 x  0
 RH 0 si   tn1,1 2 , tn1,1 2 
 s n 1
 RH dans le cas contraire
 0
2) Si la loi de la population n'est pas une loi normale alors on peut
montrer que les résultats obtenus avec une population normale
restent valides quand l'effectif de l'échantillon est supérieur où
égal à 30, c'est-à-dire n  30.
Institut des finances Statistique inférentielle 132
Test d’hypothèse relatif à
la proportion de la population
De la même manière que pour la moyenne, le test d'hypothèse relatif
à une proportion A d'individus qui possèdent une caractéristique A
peut être formulé de la manière suivante :
H0 :  A   0  H1 :  A   0
Règle de décision : la règle de décision relative à ce test est donnée par

 ˆ A   0
 RH 0 si    z1 2 , z1 2 
  0 1   0 

 n
 RH 0 dans le cas contraire
où ˆ A est la proportion dans l'échantillon d'individus ayant la
caractéristique A et z1 2 est le quantile d'ordre 1   2  de N  0,1.
Institut des finances Statistique inférentielle 133

Théorème central limite


Théorème Soit X 1 ,..., X n une suite de n v.a. indépendantes et équidistribuées,
possédant une moyenne  et une variance  2 . Quand n tend vers l'infini, la v.a.
X T  X 1  ...  X n est telle que :
X T  n
 N  0,1
 n
Corollaire Soit X 1 ,..., X n une suite de n v.a. indépendantes et équidistribuées,
possédant une moyenne  et une variance  2 . Quand n tend vers l'infini, la v.a.
 
X  X 1  ...  X n n est telle que :
X 
 N  0,1
 n
Remarque : La convergence est d'autant plus rapide que la distribution
des v.a. X i est symétrique. En pratique, dans ce dernier, on convient que
le théorème et son corollaire sont d'application dès que n  30.
Institut des finances Statistique inférentielle 134

Vous aimerez peut-être aussi