Axe1 StatistiquesExploratoires

Méthodes avancées d’analyse
des données
Statistique exploratoire et data
management et reporting
Mohammed El Haj Tirari

Abderrahim Oulidi
Introduction
La statistique regroupe un ensemble de méthodes

statistiques dont la fonction principale est de mettre en
évidence les structures pertinentes de grands ensembles
de données.
Ses méthodes tentent de dégager les paramètres

caractéristiques d’un grand nombre de données recueillies,
par exemple lors d’enquêtes ou sondages.
Institut des finances Statistique et analyse des données 2

Introduction
Parmi les méthodes statistiques, on peut distinguer :
 les méthodes descriptives (ou exploratoires)
regroupées sous le nom d’Analyse des Données (AD),
 les méthodes inférentielles regroupées sous
le nom de Statistique inférentielle.
Les deux types de méthodes sont complémentaires et

sont utilisées conjointement dans la pratique statistique

Introduction
Cette formation est consacrée à l’enseignement des
techniques statistiques descriptives et quelques
notions des techniques inférentielles.
 Les méthodes descriptives univariées : (tris à plat) diagrammes,
histogrammes, moyennes, écart-types, …
 Les méthodes descriptives bivariées : (tris croisés), lien entre

variables : corrélations , étude descriptive d’une série chronologique, …
 Les méthodes d’inférence statistique : Estimation des paramètres,

tests d’hypothèse, analyse de la variance

Introduction
 La donnée de base de toute analyse statistique descriptive est un
tableau rectangulaire croisant des individus et des variables.
 La statistique descriptive a pour objectif d’étudier de tels tableaux
pour
► en extraire les informations essentielles en vue d’une description et d’une
synthèse (méthodes factorielles),
► en dégager des groupes homogènes d’individus ou de variables
(méthodes de classification)
► prévoir la valeur d’un individu sur une variable, dite à expliquer, à partir de
la connaissance de valeurs de ce même individu sur d’autres variables,
dites explicatives (méthodes de prédiction),
► obtenir un classement des individus (méthodes de scoring).
Institut
RCAR des finances Statistique
Statistique
et analyse
descriptive
des données 5
Introduction
La statistique descriptive est caractérisée par les principes communs
à toutes les méthodes statistiques d’Analyse des Données :
► la non utilisation de modèles ou d’hypothèses a priori,
► l’utilisation de concepts géométriques plus que probabilistes,
► la fidélité la plus grande possible aux données,
► la visualisation des données et les représentations graphiques,
► l’interprétation des résultats obtenus,
► l’utilisation de moyen de calculs (SAS, SPSS, SPAD, StatGraphs, Excel …)
RCAR des finances

Institut Statistique
Statistique
et analyse
descriptive
des données 6
Introduction
Problématique ?
………
Tableau
de
données
Traitements élémentaires
Recodages
Analyses
Interprétations
Types de variable
 Variable direct : mesurable directement (salaire).
 Indicateur : non mesurable directement (PIB).
 Variable qualitative : caractéristiques (modalités) non numériques
1. dichotomique : ne prenant que deux modalités (sexe)
2. nominale : plusieurs modalités sans qu’il y a un ordre entre elles (type
de film)
3. ordinale : plusieurs modalités qui peuvent être ordonnées (qualité d’un
travail)
 Variable quantitative : valeurs numériques
1. discrète : valeurs numériques isolées (nombre de buts inscrits dans un
match)
2. continue : valeurs numériques sur intervalle continu (salaire)

Variables
qualitatives quantitatives
nominales ordinales
Ex : sexe Ex : échelle d’opinion discrètes et continues
Ex : revenu
recodage en « tranches »
données catégorisées

Exemple
On s’intéresse à l’étude du problème d’absentéisme en entreprises.
Un économiste a sélectionné 100 firmes et mesure la variable
X1 : nombre moyen de jours d’absence par employé sur une année.
Il a également mesuré plusieurs variables susceptibles d’influencer

le taux d’absentéisme :
 X2 : salaire moyen (quantitative continue)

 X3 : capacité à travailler en équipe (0=non, 1=oui ;
variable qualitative nominale)
 X4 : qualité des relations avec son supérieur (0=mauvais,
1=moyen, 2=bon ; variable qualitative ordinale)

Exemple
Pour étudier le problème d’absentéisme en entreprises, l’économiste
peut commencer par faire l’étude statistique descriptive de la variable :
 Étude graphique : Histogramme, diagramme en secteurs,

courbe cumulative, …
 Étude paramétrique : Calcul d’un certain nombre de
valeurs caractéristiques qui ont pour but de résumer dans
une certaine mesure les informations recueillies.
Exemple pour la variable X1 on a :
Minimum = 2.10; Maximum = 14.8; Médiane = 5.65;
Moyenne = 6.23; Ecart-type = 3.36; etc.

Exemple
Pour approfondir son étude, l’économiste étudier aussi l’influence des
autres variables (X2, X3, X4) sur la variable :
 Étude statistique bivariée : Étude de deux variables : test

de linéarité, test Khi2, …
 Étude statistique multivariée : Régression linéaire
multiple, analyse en composante principales, …

Démarche scientifique
d’une étude statistique
Objectif(s) à atteindre, Question(s) à poser
Collecte des données au moyen d’enquêtes exhaustives ou partielles
Analyse descriptive : univariée, bivariée et p-variée (analyse de données)
Analyse confirmatoire : Estimation, Tests d’hypothèses …
Prévisions, Conclusions, Décisions

Quelques définitions
 Population : l’ensemble de tous les individus sur lesquels porte
l’étude.
 Paramètre : mesure numérique décrivant une caractéristique de la
population.
 Échantillon : sous-ensemble d’individus obtenus à partir de la
population (méthodes de sondage).
 Une statistique : mesure numérique décrivant une caractéristique
de l’échantillon.
 Donnée : fait numérique ou non porteur d’information.
 Variable : caractéristique dont la valeur change d’un individu à
l’autres dans la population.

Chapitre 1
Statistique descriptive univariée
Introduction
L’étude descriptive d’une série univariée :
 Étape préliminaire à toute étude statistique.
 Permet de « prendre contact » avec l’échantillon.
 Se divise en deux étapes :

1. Élaboration de tableaux et graphiques
2. Valeurs numériques résumant l’échantillon

Notations
Les données sont souvent collectées dans un tableau
Individus Χ caractères
Var-
1 2 … j … p
Ind
1 x11 x12 … x1j … x1p où
2 x21 x22 … x2j … x2p

n : taille de
l’échantillon
… … … … … … … p : nombre
i xi1 xi2 … xij … xip de variables
… … … … … … …
n xn1 xn2 … xnj … xnp
Notations
 Série statistique univariée si p = 1 :
{x1, x2, … , xn} = {xi ; i=1, … , n}
 Série statistique bivariée si p = 2 :
{(x1, y1), … , (xn, yn)} = {(xi, yi) ; i=1, … , n}
 Série statistique ordonnée :

La série statistique ordonnée  x(1) , x(2) , , x( n )  est telle que :
x(i )  x( j ) si i  j.
(i) est appelé le rang de l'observation x(i ) .
Exemple
Série statistique : {xi ; i=1, … , 6} = {5, 0, -4, 2, 3, 1}
Série statistique ordonnée : {x(i) ; i=1, … , 6} = {-4, 0, 1, 2, 3, 5}
Ainsi, x(1) = x3 ; x(3) = x6 ; x(6) = x1
Distribution observée
à une dimension (D.O.1)
La distribution observée d’une série statistique {x1, x2, … , xn} est définie par les valeurs
distinctes qui apparaissent dans cette série et le nombre de fois que chacune d’elles
apparaît. Elle peut être représentée par l’ensemble des couples :
{(xj, nj) ; j=1,… , J}
où nj est l’effectif associé à xj et J est le nombre de valeurs distinctes de la série.
Cette distribution peut être également représentée par le tableau de la distribution
observée suivant :
xj nj
J
x1 n1 où n   nj
j 1
xJ nJ
Fréquence, effectifs cumulés
et fréquences cumulées
1) Fréquence
A chaque valeur x j d'une variable, on peut associer
une fréquence nj
fj  , j  1,..., J
2) Effectif cumulé n
A chaque valeur x j , on associe un effectif cumulé N j représentant
le nombre d'observations inférieures où égales à x j
j
N j  n1  n2   n j   nk
k 1
3) Fréquence cumulée
Pour la valeur x j , la fréquence cumulée est définie par
Nj
Fj  , j  1,..., J
n
Représentations graphiques
Variable qualitative ordinale Variable qualitative nominale
• Diagramme en secteurs • Diagramme en secteurs
• Diagramme en barres des effectifs
• Diagramme en barres des effectifs cumulés
Vacances à l’étranger Jamais Parfois Souvent Toujours
Exemple
Effectifs 5 19 23 3
25 60
20 50
40
Jamais 15
Nj
nj
Parf ois 30
Souvent
10
20
Toujours
5 10
0 0
Jamais Parfois Souvent Toujours Jamais Parfois Souvent Toujours
Diagramme en barres Diagramme en barres

Diagramme en secteurs des effectifs des effectifs cumulés
Variable quantitative discrète
Deux représentations graphiques peuvent être envisagées :
30
25
20
nj
15
10
0
x1 x2 x3 x4 x5 x6
Diagramme en bâtons Courbe cumulative

Exemples
Exemple 1
La sectrétaire du service de santé d’une entreprise a relevée sur une
période de 50 jours le nombre de personnes qui se sont présentées à
ce service pour raison médicale :
4 0 4 1 2 5 4 2 3 4 3 4 4 2 3 4 5 2 4 1
4 4 4 1 3 2 4 3 2 4 2 3 2 0 4 3 4 5 4 2
4 3 4 0 3 4 4 5 3 4

Exemples
Exemple 2 :
Un échantillon de 500 étudiants a été classé selon les 2 critères suivants :
le niveau de leurs études (X) et leur appréciation vis-à-vis de la quantité de
travail exigé (Y). Les résultats sont les suivants :
yk
xj Insuffisant Moyen Excédentaire
1e cycle 69 37 194
2e cycle 44 65 56
3e cycle 17 8 10

Étude descriptive
numérique
 Après les représentations graphiques, si on désire approfondir l’étude
descriptive de la série statistique, il est nécessaire de décrire les différentes
caractéristiques des données en leur associant un certain nombre de valeurs
ou mesures, appelés paramètres, qui ont pour but de résumer dans une
certaine mesure les informations recueillies.
 Les indicateurs les plus courants peuvent être répartis en trois catégories :
 les indicateurs de position : Ce sont entre autres des valeurs centrales
de la série étudiée. Il s’agit en général des valeurs de localisations
particulières.
 les indicateurs de dispersion : permettent de caractériser la répartition
des observations les unes par rapport aux autres ou encore autour d’une
valeur centrale
 les indicateurs de forme : permettent d’étudier la forme de la
distribution des observations autour d’une valeur centrale de la
distribution observée.
Les indicateurs de position
Plusieurs paramètres de position ont été proposés. Parmi ces paramètres ceux qu’on
utilise le plus souvent sont : La moyenne, la médiane, les quantiles et le mode.
1) La moyenne
a) La moyenne arithmétique
Un des objectifs de l’élaboration des paramètres de position est la détermination
d’une valeur centrale. Pour cela, la moyenne arithmétique est certainement la
plus connue parmi tous les paramètres destinés à définir une valeur centrale. La
moyenne arithmétique d’une série statistique {xi ; i=1, …, n} est définie par :
1 n
x   xi
n i 1
Exemple : Pour la série statistique 1,1, 2, 2, 2, 2,3,3 , on a
1
x  1  1  2  2  2  2  3  3   2
8
Remarques
• Une moyenne ne se calcule que si les valeurs observées sont numériques.
• Une série ne peut pas posséder plusieurs moyennes distinctes.
• Une moyenne est rarement une valeur observée de la série.
Propriétés
 La moyenne est sensible aux valeurs aberrantes :
1,1, 2, 2, 2, 2,3,3  x  2.
1,1, 2, 2, 2, 2,3,300  x  39,125.
 La série des valeurs centrées est de moyenne nulle :
1 n

n i 1
 xi  x   0
b) Moyenne arithmétique d’une distribution observée
Lors de l’analyse d’une série statistique on est amené à construire une
distribution observée, obtenue en associant à chaque valeur distincte xi un
effectif ni représentant le nombre de fois qu’elle est observée (j=1, …, J).
Dans ces conditions on constate que la moyenne s’obtient par l’intermédiaire
de l’expression J
1
x  nj xj
n j 1
Exemple : Pour la série statistique 1,1, 2, 2, 2, 2,3,3, on a
D.O. :  x , n =1, 2  ,  2, 4  , 3, 2 
j j
1 1
x 1  1  2  2  2  2  3  3   2 1   2  4    2  3  2
8 8
c) La moyenne de deux séries statistiques
Supposons qu'une variable X est observée sur deux échantillons distincts
 
de tailles n1 et n2 respectivement. série 1 : x1 , n1 , série 2 : x2 , n2 .  
La moyenne globale x des deux séries comprenant n  n1  n2 observations
n1 x1  n2 x2
x
n
d) La moyenne pondérée
Si on attribue à chaque observation xi un poids wi , correspondant à
l'importance que l'on donne à cette observation, telle que n
w 1
i 1
i
La moyenne pondérée de la série  xi , i  1,..., n est définie par :

n
x   wi xi
i 1

2) La médiane
La médiane est une mesure qui n’est pas liée à la valeur numérique des observations :
c’est la position de ces dernières les unes par rapport aux autres qui va être prise en
compte. Elle s’obtient donc à partir de la série ordonnée {x(i) ; i=1,… , n}.
La médiane est une valeur, notée x1/2 , telle que le nombre d’observations de la série
ordonnée qui la précèdent est égal au nombre d’observations qui la suivent.
a) La médiane d’une série statistique

Deux cas peuvent être considérés :
i) Si n est impair, on a : ii) Si n est pair, on a :
x1 2  x n1  x n   x n 
     1
2 2 
 2  x1 2 
2
b) La médiane d’une distribution observée
Avec une distribution observée, pour déterminer la médiane, on peut se
baser sur les effectifs cumulés Nj, représentant le nombre de valeurs
inférieures ou égales à xj, en suivant la règle suivante :
1. S'il existe une valeur x j telle que N j 1  n 2  Nj alors
x1 2  x j
2. S'il existe une valeur x j telle que n 2  Nj alors
x j  x j 1
x1 2 
2
Remarque : on pose N0=0 si j=1.
3) Les quantiles
La médiane est un cas particulier d’une valeur plus générale appelée quantile.
On appelle quantile d’ordre p la valeur xp , telle qu’il y a une proportion p des
observations qui sont inférieures ou égales xp. Le quantile xp peut être
déterminé en suivant la méthode suivante :
1. S'il existe une valeur x j telle que N j 1  np  N j alors
xp  x j
2. S'il existe une valeur x j telle que np  N j alors
x j  x j 1
xp 
Exemple
2
Les quartiles : x1 4 , x1 2 et x3 4 ; Les déciles : x1 10 , x2 10 , , x9 10
Détermination d’un quantile graphiquement
Cas : Nj-1<np< Nj Cas : np= Nj

4) Le mode
 Le mode est un paramètre de position qu’on utilise souvent et dont
l’objectif est de connaître, dans une série statistique, la valeur
observée qui apparaît le plus souvent.
 Le mode d’une distribution observée, noté xM, est donc la valeur
parmi les valeurs distinctes {xj ; j=1, …, J} qui correspond au plus
grand effectif nj.
 Une distribution observée peut avoir plusieurs Mode.

Les indicateurs de dispersion
Considérons les deux séries statistiques suivantes :
{1, 2, 3, 4, 5, 6, 7} et {3, 3, 3, 4, 5, 5, 5}
On remarque que les deux séries ont une même valeur centrale 4 mais la
première série est plus dispersée autour de cette valeur que la deuxième série.
L’objectif sera ici de construire un ou plusieurs paramètres permettant de
mesurer la dispersion d’une série statistique ou d’une distribution observée.
1) L’étendue
Le premier paramètre de dispersion qu’on peut construire est l’étendue, défini
par la différence entre la plus grande et la plus petite valeur observée :
E = x(n) – x(1)
Il correspond à la longueur de l’intervalle contenant toutes les observations.
L’inconvénient de ce paramètre est d’être sensible à la présence de valeurs
extrêmes.
2) L’écart interdéciles
Il est défini par la différence entre le premier et le neuvième décile de la série
d’observations :
ED = x9/10 – x1/10
Il correspond à la longueur de l’intervalle contenant les 80% des valeurs
centrales de la série d’observations.
3) L’écart interquartiles
Il se définit comme étant la différence entre le premier et le troisième quartile
de la série d’observations :
EQ = x3/4 – x1/4
Il correspond à la longueur de l’intervalle contenant les 50% des valeurs
centrales de la série d’observations.
4) Le Box Plot
xg xd
x1 4 x1 2 x3 4
Les limites xg et xd de Box Plot, appelées valeurs adjacentes, sont déterminées

de la manière suivantes :
Notons par les valeurs pivots :
a1 = x1/4 – 1,5( x3/4 – x1/4)
a2 = x3/4 + 1,5( x3/4 – x1/4)
Alors
xg = Plus petite observation supérieure ou égale a1
xd = Plus grande observation inférieure ou égale a2
5) La variance
La variance permet de mesurer la dispersion des valeurs de la série statistique autour
de leur moyenne. On l’utilise surtout pour comparer la dispersion des valeurs de deux
séries d’observations dont les valeurs ont la même unité de mesure.
a) La variance d'une série statistique
La variance de la série statistique  xi , i  1,..., n est définie par
1 n 1 n 2
s    xi  x    xi  x 2
2 2
n i 1 n i 1
b) La variance d'une distribution observée
La variance d'une D. O.  x , n  ; j  1,..., J  est définie par
j j
s   nj  x j  x    nj x j2  x 2
2 1 J 2 1 J
n j 1 n j 1
6) L’écart-type
L’écart-type d’une série statistique (ou d’une D. O.) est la racine carrée de la
variance. Il a l’avantage de s’exprimer dans les mêmes unités que les
observations, et donc plus facile à interpréter que la variance :
1 n
s   xi  x 
2
n i1
7) Le coefficient de variation
Afin de comparer la dispersion des séries statistiques (ou des D. O.) dont les
unités sont différentes, on peut calculer leur coefficient de variation défini par :
s
CV 
x
Les indicateurs de forme
1) Les paramètres d’asymetrie
Lors de l’étude d’une série statistique, on s’intéresse aussi à
savoir si la distribution des observations est symétrique ou
pas. Trois situations peuvent être rencontrées :
Asymétrie Distribution Asymétrie

à gauche symétrique à droite

Les indicateurs d’asymétrie
Lors de l’étude d’une série statistique, on s’intéresse aussi à savoir si la
distribution des observations est symétrique ou pas.
1) Le coefficient de Fisher
L’étude de la symétrie d’une série statistique peut se faire en se basant sur le
moment centré d’ordre 3
m3    xi  x    n j  x j  x 
n J
1 3 1 3
n i 1 n j 1
m3  0 : asymétrie à gauche
m3  0 : asymétrie à droite
m3  0 : symétrie
Le coefficient de Fisher est défini par :
m3
g1  3
s
Les indicateurs d’asymétrie
2) Les coefficients d’asymétrie empiriques

Il existe d’autres coefficient d’asymétrie plus rapides à calculer mais dont les
propriétés résultent de constatations empiriques.
a) Le coefficient de Pearson
x  xM
Sk 
s
b) Le coefficient de Yule et Kendall
x1 4  x3 4  2 x1 2
Yk 
x3 4  x1 4
L’interprétation de ces deux coefficients est la même que celle correspondant au
coefficient de Fisher.
Les indicateurs de forme
Interprétation des coefficients d’aplatissement
Plus la série est aplatie, plus le valeurs de ces coefficients
d’aplatissement sont petites

Distribution groupée
 Souvent, pour les variables dont les valeurs possibles sont des
réelles, il peut arriver que le nombre de valeurs distinctes observées
soit relativement élevé avec de nombreux effectifs de faible
amplitude. Cette situation ne permet pas de dégager facilement les
caractéristiques essentielles de la distribution.
 Pour cela, avant d’entamer l’étude de la série statistique relative à ce
type de variable, il est préférable de grouper les valeurs observées
dans des classes. Les classes construites permettent de définir ce
qu’on appelle la distribution groupée relative à cette variable.
 La distribution groupée d’une série statistique {xi ; i=1, …, n} est
définie par {(]lj-,lj+] , nj); j=1, …, J} où nj est l’effectif la classe ]lj-,lj+],
représentant le nombre de valeurs appartenant à cette classe.

1) Tableau de la distribution groupée

Le tableau de la distribution groupée est définie par :
où
 l j , l j  xc j nj Nj
l j  l j
xc j   le centre de la j ème classe
2
 l1 , l1  xc1 n1 N1 n j et N j sont respectivement l'effectif
et l'effectif cumulé de la j ème classe
on a
J
 l , l 

J

J xcJ nJ NJ n
j 1
j n et N j  N j 1  n j

Variable quantitative continue (distribution par classe)
Histogramme
des effectifs
Polygone des
effectifs

Variable quantitative continue (distribution par classe)
Histogramme
des effectifs
cumulés
Courbe
cumulative

2) Représentations graphiques
• Histogramme des effectifs et polygone des effectifs
• Histogramme des effectifs cumulés et courbe cumulative
3) Etude descriptive numérique

Tous les paramètres peuvent être calculés en supposant que chaque
classe peut être représentée par son centre.
a) La moyenne
L’expression de la moyenne pour une distribution groupée est la même
que celle pour une distribution observée, mais en considérant comme
valeurs les centres des classes : J
1
x 
n j 1
n j xc j

b) Les quantiles
Le quantile xp d’une distribution groupée peut être déterminé en suivant la
méthode suivante :
S'il existe une valeur x j telle que N j 1  np  N j

np  N j 1
alors x p   l j , l j  et xp  l j  hj
nj
avec h j est la longueur de la classe  l j , l j  .

c) Le mode
Le mode xM d’une distribution groupée est le centre de la classe modale, défini
comme étant la classe qui contient le plus d’observations, c’est-à-dire
Si  lM , lM  est la classe correspondant au plus grand effectif
l j  l j
parmi les effectifs n , j  1,...J , alors
j xM 
2
d) Les écarts interquartiles et interdéciles
Pour ces deux paramètres, les expressions restent les mêmes pour une
distribution groupée que pour une distribution observée :
EQ  x3 4  x1 4 et ED  x9 10  x1 10
e) La variance, l'écart-type et le coefficient de variation

Pour une distribution groupée, la variance est définie par :
1 J

s   n j xc j  x  1 J
  n j xc j 2  x 2
2
2
n j 1 n j 1
Les expressions de l'écart-type et le coefficient de variation
restent les mêmes que celles pour une distribution observée :
s
s  s et CV 
2

f) Les paramètres d'asymétrie
Pour une distribution groupée, le moment centré d'ordre 3 est défini par :
1 J
m3   n j xc j  x  
3
n j 1
Les expressions des coefficients de Fisher, de Pearson et de Yule et
Kendall, restent les mêmes que celles pour une distribution observée :
m3 x  xM
g1  3 , Sk 
s s
x1 4  x3 4  2 x1 2
Yk 
x3 4  x1 4

4) Exemple
Considérons la série statistique ordonnée suivante relative aux âges
des membres d’un club sportif :
17 18 19 20 22 22 23 23 24 25 25 26 26 27 27
27 27 27 28 28 28 28 28 29 29 29 29 30 30 30
30 30 31 31 31 31 31 32 32 33 33 34 35 35 36
36 38 39 40 41
1. Groupez cette série dans des classes de longueur 5.

2. Faites l’étude descriptive complète de la distribution groupée
obtenue.

Chapitre 2
Statistique descriptive bivariée
Introduction
 Lorsqu’on étudie le comportement de deux variables sur un ensemble
d’individus, on est amené à s’interroger sur les liens qui peuvent exister
entre elles.
 Dans certains cas, ces variables peuvent agir indépendamment l’une de
l’autre. Dans d’autres cas, il n’en est rien et on dit alors qu’il existe une
association dans le comportement de ces variables.
 On note qu’une association n’implique pas nécessairement un lien de
causalité entre ces variables. Il se peut qu’il existe une relation de
dépendance permettant d’expliquer partiellement le comportement d’une
variable en fonction de l’autre.
 La détermination d’un coefficient d’association et la construction
éventuelle d’une relation de dépendance peuvent être considérées d’un
point de vue uniquement descriptif.
 Il est aussi possible d’envisager ce problème sous un aspect confirmatoire
en considérant des tests d’indépendance.
Introduction
 Considérons deux variables aléatoires X et Y. L’observation de ces

deux variables sur un échantillon de n individus nous permet d’obtenir
la série statistique bivariée {(xi, yi) ; i=1, …, n} où xi et yi sont les
valeurs observées des variables X et Y pour le ième individu.
 Dans le chapitre 1, nous avons vu comment, en partant de la série
bivariée {(xi, yi) ; i=1, …, n}, on étudie les distributions marginales et
conditionnelles relatives aux variables X et Y.
 Dans ce chapitre, on va s’intéresser à l’étude de la relation pouvant
exister entre les variable X et Y.
 Pour cela, la démarche suivie dépend du type des deux variables :
variables quantitatives et variables qualitatives.

Cas de deux variables
quantitatives
 Quand les deux variables X et Y sont quantitatives, la première

étape de l’étude de la relation pouvant exister entre elles, est la
représentation graphique.
 Pour les variables quantitatives, la représentation graphique qu’on
utilise le plus souvent est le graphique de dispersion, appelé aussi le
graphique de nuage de points.
 Le graphique de dispersion consiste à représenter dans un plan
chaque individu i (i=1, …, n ) par un point dont les coordonnées
sont données par (xi, yi), c’est-à-dire les valeurs observées des
variables X et Y pour cet individu.
 Cette représentation graphique permet d’avoir une idée sur la
tendance de la relation qui existe entre les deux variables X et Y.

Cas de deux variables quantitatives
Diagramme du nuage de points
140
120
100
80
Y
60
40
20
0
0 2 4 6 8 10 12 14 16 18
X

Coefficient de corrélation
Le coefficient de corrélation est l’un des paramètres majeurs de l’analyse

statistique bivariée de variables quantitatives. La définition de ce paramètre
se base sur la notion de la covariance d’une série statistique :
Définition 1 Considérons une série statistique  xi , yi  ; i  1,..., n

relative à deux variables X et Y (quantitatives). La covariance de
cette série est définie par :
1 n
s xy    xi  x  yi  y 
n i 1
où x et y désignent les moyennes des séries marginales en X et Y .

Coefficient de corrélation
Définition Pour une série statistique  xi , yi  ; i  1,..., n relative

à deux variables X et Y , le coefficient de corrélation est défini par :
s xy
r
sx s y
où s xy est la covariance entre X et Y ; s x et s y sont les écarts-types
des séries marginales en X et Y .
Propriétés
 1  r  1
 r  1 ou  1 : il existe une forte corrélation linéaire entre X et Y
 r  0 : il existe une faible corrélation linéaire entre X et Y

Test d’hypothèse à un coefficient
de corrélation
Avant de définir le test d’hypothèse relatif à un coefficient de corrélation,

il faut introduire le concept de corrélation de la loi de probabilité bivariée
d’un vecteur aléatoire (X, Y) par l’intermédiaire du coefficient de corrélation :
 xy

 x x
où le numérateur est la covariance
 xy  E  X   x Y   x  
et le dénominateur est le produit des écarts-types marginaux définis par
  E  X  x    E Y   y 
2 2 2 2
x et y
avec x et y sont les moyennes des distributions marginales en X et Y .

Test d’hypothèse pour un coefficient
de corrélation
 Un échantillon de n individus est sélectionné dans la population

d’étude. L’observation des variables X et Y permet d’obtenir la
série statistique {(xi, yi) ; i=1, …, n} dont l’analyse descriptive
permet de calculer le coefficient de corrélation observé r.
 La réalisation d’un test d’hypothèse est surtout pertinente dans le
cas où la population est supposée normale. En effet, si l’on se trouve
dans ce cas, les variables aléatoires X et Y sont indépendantes si et
seulement si leur coefficient de corrélation est nul.
 Ainsi, dans ce cas, tester l’indépendance entre les deux variables
alétatoires X et Y revient à tester si le coefficient de corrélation est
nul. La formulation de ce test est la suivante.
H0 :   0  H1 :   0

Test d’hypothèse à un coefficient
de corrélation
H0 :   0  H1 :   0
Si nous disposons d'un échantillon aléatoire simple d'effectif n prélevé
dans une population supposée normale, on peut montrer que, si
l'hypothèse H 0 est vraie :
r n2
tn2
1 r 2
Règle de décision : sous les conditions énoncées, la règle de décision

relative à ce test, est donnée par
 r n2
 RH 0 si   tn 2;1 2 , tn 2;1 2 
 1 r 2
 RH dans le cas contraire

 0
Exemple
Dans cet exemple, on s’intéresse à l’argent de poche donné à des jeunes

dont l’âge est compris entre 11 et 16 ans. Pour cela, sur un échantillon de
10 jeunes, sélectionné dans la population, on a observé sur une période d’une
année, l’âge (X) et le montant hebdomadaire moyen (Y), exprimé en euro :
xi 12 12 15 14 16 14 12 13 11 11
yi 41 34 113 102 115 72 60 78 35 30
1) Représentez le graphique de dispersion relative à cette série bivariée.

2) Calculez le coefficient de corrélation.
3) Testez si les deux variables X et Y sont indépendantes.

Exemple
1) Diagramme du nuage de points
140
120
100
80
Y
60
40
20
0
0 2 4 6 8 10 12 14 16 18
X

Droite de régression
 En supposant que la relation existant entre les variables X et Y est linéaire,
la droite de régression est la droite la plus proche possible, selon un certain
critère, des points dont les coordonnées sont données par (xi, yi).
 La droite de régression représente donc la relation linéaire qui existe entre
les variables X et Y.
 Pour déterminer l’équation de la droite de régression, on utilise le critère
des moindres carrées qui consiste à minimiser, par rapport aux constantes
a et b, la quantité suivante : n
Q  a, b     yi  a  bxi 
2
i 1
Ainsi, l'équation de la droite de régression est donnée par
sxy
y  a  bx avec b et a  y  bx
sx s y
Variance résiduelle et de régression
 Décomposons la variance de la variable à expliquer Y en deux parties :
d’une part la partie expliquée par la droite de régression et d’autre part la
partie non expliquée par cette droite.
 Pour le ième individu, notons par yi* la valeur obtenue avec l’équation de la
droite de régression, c’est-à-dire *
yi  a  bxi
s    yi  yi    yi  y 
 On peut montrer que 1 n 1 n *
* 2

2 2
y
n i 1 n i 1
se2 variance résiduelle 2
sreg variance de régression
 Les variance résiduelle et de regréssion représentent respectivement la

partie non expliquée et la partie expliquée de la variance de la variable à
expliquer Y.

Coefficient de détermination
 Le coefficient de détermination représente le pourcentage expliqué, par la

droite de régression, de la variance de la variable à expliquer Y :
2
sreg
R
s y2
 On peut montrer que le coefficient de détermination n’est rien d’autre que

le carré du coefficient de corrélation, c’est-à-dire
2
sreg sxy2
R   r2
s y2 s y2 sx2
 Propriétés
 se2  s 2y 1  r 2 
 sreg
2
 s 2y r 2
Tableau de contigence
Une série statistique bivariée relative à deux variables X et Y peut être

également représentée par l’intermédiaire d’un tableau appelé tableau
de contingence :
Y
X y1 … yk … yK K
où n j .   n jk
x1 n11 … n1k … n1K n1.
k 1
.. .. .. .. .. J
. . . . . n.k   n jk
j 1
xJ nJ1 … nJk … nJK nJ.
n.1 … n.k … n.K

Séries et distributions marginales
 L’étude d’une série statistique bivariée {(xi, yi) ; i=1, …, n} comporte

en premier lieu l’analyse des séries marginales univariées obtenues
en ne considérant qu’une variable à la fois dans le tableau de
contingence :
 Série marginale en X : {xi ; i=1, …, n}
 Série marginale en Y : {yi ; i=1, …, n}
 Si l’on dispose d’une D.O.2 sous forme d’un tableau de contingence

{(xj, yk, njk) ; j=1, …, J ; k=1, …, K} on peut par une démarche
analogue, définir des distributions marginales.
 Distribution marginale en X : {(xj , nj.); j=1, …, J}
 Distribution marginale en Y : {(yk , n.k) ; k=1, …, K}

Séries et distributions marginales
On peut calculer les moyennes, variances, … marginales :

1 J
 Moyenne marginale en X x   nj xj
n j 1
1 K
Moyenne marginale en Y y   n k yk
n k 1
s   nj  xj  x 
1 J
 Variance marginale en X 2 2
X
n j 1
1 K
s   n k  yk  y 
2
Variance marginale en Y
2
Y
n k 1
Distributions conditionnelles
Une distribution conditionnelle consiste à fixer a priori la valeur d’une variable
et à examiner les variations de l’autre.
a) Distributions conditionnelles de Y en X
En fixant une valeur de X, par exemple X=xj, l’ensemble de tous les couples
(xj, yk) où k=1, …, K définissent une distribution observée univariée appelée
distribution conditionnelle de Y en X, où X est fixé à la valeur xj. Cette
distribution est notée par :
D. C. (Y / X=xj) : {(yk , njk) ; k=1, …, K ; j fixé}

K
1
Moyenne conditionnelle y j 
nj
n jk
yk
k 1
n  y  yj 
K
1 2
Variance conditionnelle s
2
y j
 jk k
nj k 1

Distributions conditionnelles
b) Distributions conditionnelles de X en Y
De la même manière, on peut également définir la distribution conditionnelle
de X en Y , où Y est fixé à la valeur yk. Cette distribution est notée par :
D. C. (X / Y = yk) : {(xj , njk) ; j=1, …, J ; k fixé}
J
1
Moyenne conditionnelle xk 
n.k
n jk
xk
j 1
 
J
1
 n jk x j  xk
2
Variance conditionnelle s x k
2

n.k j 1

Mesure de l’intensité de la dépendance non linéaire
La variance de la variable à expliquer Y peut être décomposée en

1 K 1 J K

s   n k  yk  y     n jk  yk  y j  y j  y    
2 2
2
n j 1 k 1  
Y
n k 1
1 J K
   n jk  yk  y j    n j  y j  y 
2 1 J 2
n j 1 k 1 n j 1
moyenne des variances variance des moyennes
conditionnelles conditionnelles
Définition : Le rapport de corrélation  y . x est défini par son carré :
nj  yj  y 
1 J

2
n j 1
 y2. x 
s 2y
Mesure de l’intensité de la dépendance non linéaire
Propriétés de  x. y
 0   y2. x  1
 Si s y2 j  0, pour j  1,..., J :  y2. x  1
 Si y j  y , pour j  1,..., J :  y2. x  0
 r 2   y2. x
  y2. x  r 2 : indice de non-linéarité de la régression

Distributions observées et conditionnelles
pour une série bivariée
Exemple
Un sondage effectué auprès de 120 ménages s’intéresse aux variables
X = « nombre de voitures par ménage » et Y = « nombre d’enfants par
ménage ». Les résultats sont donnés dans le tableau de contingence suivant
Y
X 0 1 2
0 12 18 22
1 10 22 10
2 8 8 10
1. Donnez la moyenne et la variance marginales de Y.

2. Calculez le rapport de corrélation de Y en X.

Distributions observées et conditionnelles
pour une série bivariée
1 K
X\Y 0 1 2 nj. yj y   n k yk  1,1
n k 1
0 12 18 22 52 1,19
1 K
  n k  yk  y   0,59
2
1 10 22 10 42 1 s 2y
n k 1
2 8 8 10 26 1,08
K
1
n.k 30 48 42 n=120 yj 
nj
n jk
yk
k 1
nj  yj  y
J
1
  
2
1
n j 1 52  0,09 2
 42  0,12
 26  0,02 2
 y2. x   120
s 2y 0,59
0,007
  0,012
0,59
Cas d’une variable quantitative
et d’une variable qualitative
Exemple : On veut étudier la liaison entre le salaire Y et la

catégorie socio-professionnelle X d’un ensemble d’individus.
Pour étudier ce genre de liaison, on peut utiliser le rapport de corrélation.
 Si X une variable qualitative ayant J modalités, pour chaque
modalité (catégorie) on peut noter par :
 n1 , n2 , , nJ les effectifs observés
 y1 , y2 , , y J les moyennes de la variable Y
2 2
 s1 , s2 , , sJ2 les variances de la variable Y
2
 y et s y la moyenne et la variance totale de la variable Y
 On peut monter que
s 2y    yi  y    n j  y j  y    n j s 2j
n J J
1 2 1 2 1
n i 1 n j 1 n j 1
Cas d’une variable numérique
Le rapport de corrélation
Le rapport de corrélation de Y en X est donné par :
nj  yj  y
1 J

2
n j 1
 y2. x 
s 2y
Interprétation
  y2. x  0 si y1  y2   y J  absence de dépendance en moyenne
  y2. x  1 si les valeurs de la variable Y pour les individus appartenant
à une même catégorie sont égales.

Exemple On a demandé à 100 élèves d’une école leur avis

sur la maîtrise des notions de statistique. Les réponses possibles
sont : «bonne» , «moyenne» et «mauvaise». Les mêmes élèves
ont subi un test composé de cinq QCM. La variable Y représente le
nombre de bonnes réponses. On a les résultats suivants :
X\Y 0 1 2 3 4 5
bonne 1 2 5 4 8 11
moyenne 2 6 10 8 7 6
Insuffisante 9 7 4 6 2 2
Calculez le rapport de corrélation de Y en X.

X\Y 0 1 2 3 4 5 nj. yj
Bonne 1 2 5 4 8 11 31 3,58
moyenne 2 6 10 8 7 6 39 2,77
Insuffisante 9 7 4 6 2 2 30 1,70
n.k 12 15 19 18 17 19
1 K

1 K 1 K
y   n k yk  2,7 et s y   n k  yk  y   2,71 yj 
2 2
n jk yk
n k 1 n k 1 n j . k 1
j  j 
1 J
   0,54
2
n y  y 1
31  0,882
 39  0,07 2
 30  1,7 2
n j 1
 y2. x  2
 100   0,20
sy 2,71 2,71

Cas de deux variables qualitatives
(nominales)
 Pour mesurer la relation existant entre deux variables qualitatives

nominales, on peut utiliser le coefficient d’association, noté D2, sur
lequel on se base pour construire le test d’indépendance.
 La définition du coefficient d’association D2 nécessite le calcul des effectifs
théoriques.
 A chaque effectif n jk d'un tableau de contingence, on associe un
*
effectif théorique n jk défini par
nj n k
n jk 
*
pour tout j  1,..., J et k  1,..., K
n
 Le coefficient d'association est défini par
D  
2
J K
n jk n 
* 2
jk
j 1 k 1 n*jk
(nominales)
Test d’indépendance
 Si le tableau de contingence est défini à partir d’un échantillon prélevé

selon un sondage aléatoire simple, on peut tester l’hypothèse
H0 : les deux variables sont indépendantes
en utilisant la loi de D2 sous H0.
 En effet, si l’effectif n de l’échantillon est suffisamment grand, ce qui se
traduit par les conditions suivantes :
i ) n  30
ii ) n*jk  1 pour tout j  1,..., J et k  1,..., K
iii ) Au moins 80% des effectifs théoriques n*jk  5
On peut montrer que
D 2  2J 1 K 1

(nominales)
Test d’indépendance
Le test d’indépendance, appelé aussi le test Khi 2, entre deux variables

qualitatives nominales est défini par :
 H 0 : les deux variables sont indépendantes

 H1 : les deux variables sont dépendantes
Règle de décision : sous les conditions énoncées, la règle de
décision relative à ce test est donnée par
 RH 0 si D 2   2J 1 K 1;1


 RH 0 dans le cas contraire
où  2J 1 K 1;1 est le quantile d'ordre 1   de la distribution  à
2
 J  1 K - 1 degrés de liberté.

(nominales)
Remarque
Plusieurs coefficients liés au D2 ont été proposés pour obtenir une
mesure comprise entre 0 (indépendance) et 1 (forte liaison). Par
exemple :
le coefficient de Cramer
D2
V
n  inf  J  1 ;  K  1

(nominales)
Exemple
Après avoir sélectionné un échantillon de 100 habitants d’une région, on s’est

intéressé aux variables suivantes : X représentant le sexe de ces habitants
avec Vx= {F=femme, H=Homme} et Y représentant leur attitude vis-à-vis du
sport avec Vy= {P=favorable, D=défavorable, I=indifférent }.
yk
xk P D I nj.
F 21 15 9 45
H 39 13 3 55
n.k 60 28 12 100
1) Calculez les effectifs théoriques.

2) Calculez le coefficient d’association D2.
3) Les deux variables X et Y sont-elles indépendantes ?
(nominales)
Exemple
yk xk\\ yk P D I
xk P D I nj. F 27 12,6 5,4
F 21 15 9 45 H 33 15,4 6,6
H 39 13 3 55 nj n k
Tableau des n*jk 
n.k 60 28 12 100 n
xk\\ yk P D I D  
2
J K
n jk n 
* 2
jk
 7,69
*
F 1,33 0,46 2,40 j 1 k 1 n jk
H 1,09 0,37 1,96 2J 1 K 1;1   2;0.95

2
 5,99  D 2
Tableau des
 n jk n * 2
jk  On rejette que les deux variables
n*jk soient indépendantes.

Cas de deux variables qualitatives ordinales
La corrélation des rangs
 Il arrive souvent de ne disposer que d’un ordre sur un ensemble

d’individus et non de valeurs numériques d’une variable mesurable :
• Soit parce qu’on ne dispose que de données du type classement (ordre de
préférence, …).
• Ou bien parce que les valeurs numériques d’une variable n’ont que peu de
sens et n’importent que par leur ordre.
Exemple

La corrélation des rangs
 Soit {(xi, yi) ; i=1, …, n} la série statistique bivariée et considérons les

deux séries marginales ordonnées :
x  ,
1
, xi  , , x n   et  y  ,
1
, y i  , , y  n  
 Notons rXi le rang de l’observation xi et rYi le rang de l’observation de yi.
Exemple : Série statistique X : {xi ; i=1, … , 6} = {5, 0, -4, 2, 3, 1}
Série statistique ordonnée : {x(i) ; i=1, … , 6} = {-4, 0, 1, 2, 3, 5}
Série des rangs de X : {rXi ; i=1, … , 6} = {6, 2, 1, 4, 5, 3}
Remarques
n  n  1 n  n  1 2n  1
 1 2  n et 1  2   n  2 2 2
2 2
n 1
2
 La variance de la série 1,2, , n 
12
Le coefficient de corrélation de Spearman
 Le coefficient de corrélation de Spearman n'est rien d'autre que

le coefficient de corrélation entre les deux séries des rangs des
observations des variables X et Y
cov  rX , rY 
Rs 
srX srY
 S'il n'y a pas d'ex-aequo, le coefficient de corrélation de Spearman
peut être également donné par :
n
6  rXi  rYi 
2
Rs  1  i 1
n  n 2  1

Interprétation
 si Rs  1  les deux classement sont identiques
si Rs  1  les deux classement sont inverses l'un de l'autre
si Rs  0  les deux classement sont indépendants
 Pour savoir si la valeur trouvée de Rs est significative, on se

rapportera à la table du coefficient de corrélation Spearman :
 si Rs  k il y a concordance des classes
 si Rs  k il y a discordance des classes

Exemple 2 Deux juges attribuent des points à dix sportifs au cours d’une
compétition. Le tableau suivant nous donne les notes attribuées par chaque
juge (xi pour le premier et yi pour le second) :
xi 8,3 7,6 9,1 9,5 8,4 6,9 9,2 7,8 8,6 8,2
yi 7,9 7,4 9,1 9,3 8,4 7,5 9 7,2 8,2 8,1
Calculez le coefficient de corrélation de Spearman entre Y en X.
Solution
rXi 5 2 8 10 6 1 9 3 7 4
rYi 4 2 9 10 7 3 8 1 6 5

1 n  n  1 n 2
1
rX rY   5,5 et srX  srY 
2 2
 8,25
n 2 12
1 n
cov  rX , rY     rXi  rX  rYi  rY   7,55
n i 1
cov  rX , rY  7,55
Rs    0,92
srX srY 8, 25

Chapitre 3
Introduction aux lois et distributions de
probabilités
Définition d’une variable aléatoire
 Lors de la réalisation d’une expérience aléatoire, plusieurs résultats
sont possibles. L’étude de ces résultats permet de définir la notion
de la variable aléatoire. Avant de donner la définition d’une variable
aléatoire, rappelons les notions suivantes :
 Expérience aléatoire : processus dont on ne pas prévoir le
résultat
Exemples : lancer un dé, jouer au lotto, etc.
 Espace-échantillon  : ensemble des résultats possibles.
Exemple : on lance deux pièces de monnaie
w1 : P1 P2
 w2 : P1 F2
w3 : F1 P2
w4 : F1 F2
Institut des finances Statistique inférentielle 95
 Variable aléatoire : sa valeur est déterminée par le

résultat d’une expérience aléatoire.
Exemple : on lance deux pièces de monnaie et on s’intéresse
au nombre X de résultats « face » obtenus :
 V
w1 : P1 P2 0
w2 : P1 F2
1
w3 : F1 P2
w4 : F1 F2 2

Ex : événement composé des résultats associés à la valeur x de l’ensemble V.
V 1 1 1
E0 : P1 P2  P  E0   , P  E1   et P  E3  
0 4 2 4
  P1 F2  Par extension
E1 :  1
 F1 P2 1 1 1
2 P  X  0   , P  X  1  et P  X  2  
E2 : F1 F2 4 2 4
Définition
X est une fonction définie sur 
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .

Ex : événement composé des résultats associés à la valeur x de l’ensemble V.
V 1 1 1
E0 : P1 P2  P  E0   , P  E1   et P  E3  
0 4 2 4
  P1 F2  Par extension
E1 :  1
 F1 P2 1 1 1
2 P  X  0   , P  X  1  et P  X  2  
E2 : F1 F2 4 2 4
Définition
X est une fonction définie sur 
Une variable aléatoire (v.a.)
à valeurs dans un ensemble noté V .

Variable aléatoire
discrète et continue
Variable aléatoire discrète

Si V est un ensemble discret, la variable aléatoire est dite discrète.
Par exemples : V={1, 2, … , n} ; V=Z.
Variable Valeurs
Expérience
aléatoire X possibles V
Nombre de clients qui
Contacter 5 clients 0, 1, 3, 4, 5, 6
passent commande
Inspecter une cargaison de Nombre de radions
0, 1, …, 50
50 Radios défectueuses
Gérer un restaurant
Nombre de clients 0, 1, 2, 3, …
pendant une journée
Variable aléatoire
discrète et continue
Variable aléatoire continue

Si V est un ensemble continue, la variable aléatoire est dite continue.
Par exemple : V = R (l’ensemble des réels).
Variable Valeurs
Expérience
aléatoire X possibles V
Jouer au Lotto Montant gagner R+
Gérer un restaurant
Bénéfices R+
pendant une journée

Loi (distribution) de probabilité
d’une variable aléatoire discrète
Pour chaque valeur x de l'ensemble V , on associe l'ensemble
d'évenements :

E x  w w   et X  w   x 
On peut donc pour tout x  V :
px  Px  x   P  X  x   P E x 
 Loi de probabilité de X :  x, px  , x V 
Remarque :  x, px  , x V  est une distribution de probabilités (D.P.)
ssi px  0  x  V et  px  1
x
Exemple : X est le nombre de "Pile" obtenu suite au lancement de
2 pièces de monnaie.
 1   1   1  
 x, px  , x V    0, 4  ; 1, 2  ;  2, 4 
     
Fonction de répartition
Rappel : Pour les statistiques descriptives :

Fj = fréquence cumulée
= pourcentage d’observations inférieures ou égales à xj
Définition : La fonction de répartition d'une variable X est

est définie par
F  x   P  X  x  où x 
Si la distribution de probabilité de X est  x , p  ; j  1,..., J 
j j
alors
F  x   p j
x j x

Fonction de répartition
Propriétés
1) F  x  prend ces valeurs dans
2) F     0 et F     1
3) F  a   F  b   a  b avec a, b 
4) P  a  X  b   P  X  b   P  X  a   F b   F  a   a  b
5) Si xi et x j deux valeurs de X telle que xi  x j alors
P  xi  X  x j   F  x j   F  xi 1 
En particulier : P  X  x j   F  x j   F  x j 1 
Espérance mathématique
Définition : Soit X une variable aléatoire dont La D. P. est  x, p  ; x V 

x
L'espérance mathématique de X est définie par
E  X    xpx  
X  g  X  : x  g  x
x
De plus l'espérance mathématique d'une fonction
est définie par
 
E  g X   px g x   
x
Propriétés
a) Si b est une constante : E  b   b
b) Si a est une constante : E  aX   aE  X 
c) Si a et b sont des constantes : E  aX  b   aE  X   b

Variance d’une variable
aléatoire discrète
Définition
Soit X une variable aléatoire dont la D.P. est  x, p  ; x V 
x
La variance de X est définie par
V  X    px  x      2
2
Propriétés :
a) Si b est une constante : V  b   0
b) Si a est une constante : V  aX   aV  X 
c) Si c est une constante : V  X  c   V  X 

Lois discrètes particulières
1) Distribution uniforme (discrète)
Définition X U 1,..., n  si
- x appartient à 1, 2,..., n
1
- px 
n
Exemples
- valeur obtenue par le lancement d’un dé (n=6)
- valeur obtenue par le lancement d’une pièce (n=2)
Paramètres
n  n  1 n 2
1
- Moyenne :  - Variance :  
2
2 12
2) Distribution Binomiale
Définition La distribution binomiale s'obtient après la réalisation
des étapes suivantes :

1) Expérience aléatoire E avec   S , S  succès, échec   
2) E est répetée n fois sous des conditions "uniformes" :
PS   p 
 restent constants
P  S   1  p  q 
3) Les répétitions sont indépendantes
4) La variable aléatoire X qui compte le nombre de réalisations
de S est une binomiale de paramètres n et p : X Bin  n, p 
Propriétés Soit la variable aléatoire X Bin  n, p 

1) Les valeurs de X sont 0,1,..., n.
2) Pour tout x  0,1,..., n, px  P  X  x   Cnx p x q n x
3) La moyenne de X est définie par   np
4) La variance de X est définie par  2  npq
Définition Si X Bin  n, p  , la binomiale complémetaire de X

est définie par X Bin  n, q . X est la variable qui compte le
nombre de réalisations de S . De plus, on a
X X n
Loi (distribution) de probabilité
d’une variable aléatoire continue
Considérons le cas de la variable aléatoire continue X dont l'ensemble
des valeurs possibles est l'ensemble des réels .
Définition X est définie par f  x 

La loi de probabilité de la variable
appelé la fonction de densité (ou de probabilité) de X .
Propriétés de f  x
1) f  x   0 pour x 

2)  f  x dx  1, (il s'agit d'une condition nécéssaire

pour avoir une loi de probabilité)
3) P  X  x  0
P  a  X  b   P  a  X  b   P  a  X  b    f  x  dx
b
4)
a

La Fonction de répartition,
l’espérance et la variance
d’une variable aléatoire continue
Définition La fonction de répartition d'une variable aléatoire continue
X est définie par, pour tout x 
F  x   P  X  x    f  u du
x

Définition L'espérance et la variance d'une variable aléatoire continue

X sont définies par

   EX    xf  x dx


   E  X        x    f  x dx
2 2 2
  

Lois continues particulières
1) Distribution uniforme sur [a, b] (continue)
Définition X U  a, b  si sa fonction de densité est définie par
 1
 si x   a, b 
f  x  b  a
 0 sinon
Propriétés
 0 si xa
xa
 Fonction de répartition : F  x    si a xb
 b 1 a si xb

  
2
ab b a
 Moyenne :   et Variance : 
2

2 12
Lois continues particulières
2) Distribution Normale
Définition La fonction de densité d'une variable X qui suit
une loi normale est définie par

 x 
2
1
f  x  e 2 2
où x 
 2
Notation X N   , 2 
Distribution normale centrée réduite : Z  N  0,1

X 
Z


Définition des distributions

Khi-deux, Student et Fisher-Snédecor
Définition 1 (Khi-deux : 2 ) Considérons  v.a. normales centrées réduites
indépendantes Z1 , Z 2 ,..., Z . La variable aléatoire

XT   Xi
i 1
admet une distribution  2
à  degrés de liberté.
Définition 2 (Student : t ) Considérons deux v.a. indépendantes X N  0,1
et Y  . 2
La variable aléatoire
X
Y
admet une distribution de Student t à  degrés de liberté.
Définition 3 (Fisher-Snédecor : F1 , 2 ) Considérons deux v.a. indépendantes
X1 2 et X2 2 . La variable aléatoire
1 2
X1 1
X2 2
admet une distribution de Fisher-Snédecor F , à  1 et  2 degrés de liberté.
1 2

Chapitre 4
Échantillonnage, estimation et tests
d’hypothèses
Introduction
 Bien souvent il est impossible d’étudier l’ensemble de la population
(N grand), c’est pourquoi on se restreint à l’étude d’un échantillon de
taille n.
 Le concept d’échantillon est souvent opposé à celui de recensement
qui est destiné à établir une observation exhaustive de tous les
éléments de la population.
 Le sondage est une méthode qui permet de sélectionner un
échantillon de la population dont le but d’extrapoler les résultats
observés sur cet échantillon à la population entière.
 L’extrapolation des résultats observés sur l’échantillon à la population
passe par l’utilisation des estimateurs des différents paramètres de la
population.
 On notera toujours les paramètres de la population par des lettres
Greques et ceux de l’échantillon par des lettres Latines.
Sondage et échantillon aléatoire
 Pour sélectionner un échantillon à partir d’une population, il existe
plusieurs méthodes d’échantillonnage appelées plan de sondage.
Dans le cadre de ce cours, on va se limiter au plan de sondage
simple.
 Sondage aléatoire : un sondage est dit aléatoire si chaque individu
de la population a une probabilité connue et non nulle d’appartenir à
l’échantillon.
 Sondage aléatoire simple : un sondage aléatoire est dit simple si
tous les échantillons d’effectif n fixé a priori, sélectionnés au sein
d’une population d’effectif N, sont réalisables avec la même
probabilité.
 Pour le sondage aléatoire simple, tous les individus de la population
ont la même probabilité d’être sélectionnés.
Tirage aléatoire simple
avec remise et sans remise
Pour le sondage aléatoire simple, les tirages peuvent se faire avec remise
ou sans remise.
Tirage sans remise 1 Tirage avec remise

PESR 2 3 N PEAR
• n(s) = n < N • n(s) = n < N
• n fixé a priori • n fixé a priori
• n tirages successifs • n tirages successifs
(i=1,…, n ) et sans replacer (i=1,…, n ) en replaçant
l’unité sélectionnée dans la l’unité sélectionnée dans la
population avant le tirage population avant le tirage
suivant suivant

Échantillon aléatoire
Tirage PEAR
 Dans la théorie statistique, on suppose souvent que les données
observées sont les résultats des tirages à probabilités égales et avec
remise (PEAR).
 Cette hypothèse est souvent irréalisable mais il existe des résultats
asymptotiques qui montrent que lorsque le nombre de données est
important on a de fortes chances qu’elle soit vérifiée.
 Pour le tirage PEAR, à chaque tirage on se trouve toujours devant la
même population et chaque observation sera donc observée
indépendamment des autres.
 Ainsi, l’échantillon peut être considéré comme une suite de variables
aléatoires (X1,…, Xk ,…, Xn) – où Xk est la valeur observée pour le
kème individu sélectionné – telles que
E  X k    et V  X k    où k  1,..., n
2
avec  et  sont la moyenne et la variance de la population.

2

Estimation de la moyenne
de la population
 Supposons qu'un échantillon d'effectif n est sélectionné à partir de

la population selon un tirage PEAR.
 La moyenne arithmétique de cet échantillon définie par

1 n
X   Xk
n k
peut être utiliser pour estimer la moyenne de la population .
 En tant que variable aléatoire, X constitue un estimateur de  . Toute
valeur observée de X à partir d'un échantillon réel sera appelée une
estimation de .

Estimation de la moyenne
de la population
Propriétés de X
Pour le tirage PEAR, les observations Xk  k  1,..., n  sont des variables
aléatoires indépendantes et équidistribuées, on a donc
 EX   
X est un estimateur sans biais de  .
2
 V X 
n
Ce paramètre, destiné à connaître la dispersion des valeurs
de X autour de  , permet de mesurer l'erreur d'échantillonnage.
Plus V  X  sera faible, plus l'erreur sera petite et l'estimateur précis.

Intervalle de confiance pour
la moyenne d’une population
 On estime la moyenne de la population  à partir d'un échantillon
en utilisant la moyenne arithmétique X . Une telle opération ne nous
permet cependant pas de savoir si la valeur observée x de X est
proche ou non de la valeur inconnue .
 Pour rencontrer cette critique, on peut utiliser le concept d'estimation
par intervalle. Le principe est de construire un intervalle l1 , l2  dont
les limites l1 et l2 dépendent des observations de l'échantillon et sont
choisies de manière telle que cet intervalle va contenir la moyenne 
inconnue avec une probabilité que l'on se fixe a priori et que l'on choisie
habituellement grande :
IC 1     P  l1    l2   1  
IC 1    est appelé intervalle de confiance, au niveau de confiance 1   .
la moyenne de la population
Afin de montrer comment on peut construire un intrevalle de confiance
pour la moyenne d'une population, nous nous plaçons dans le cas
particulier d'une population dont la loi est normale N   , 2  .

2
Supposons que la variance  de la population est connue
La loi de l'estimateur X de  est définie par
 2 
X  N  , 
 n 
où encore, sous forme centrée réduite
X 
 N  0,1
 n
Propriété Si  est un niveau de probabilité (compris entre 0 et 1) et

Z  N  0,1 , on peut affirmer que
P   z1 2  Z  z1 2   1  
où z1 2 est le quantile d'ordre 1   2  de Z .
X 
Remarque appliquée à la variable , cette propriété s'énonce
 n
comme suit :
 X  
P   z1 2   z1 2   1  
  n 
Définition L'intervalle de confiance au niveau 1   pour la moyenne 
est donné par
   
IC 1      x  z1 2 ; x  z1 2
 n n 
où x est la valeur observée de X à partir de l'échantillon d'effectif n,
et z1 2 est le quantile d'ordre 1   2  de Z .
Remarques
 Le niveau de confiance 1   est arbitraire. Il dépend du degré de
précision qu'on désire obtenir.

 La longueur de l'intervalle de confiance vaut 2 z1 2 .
n
Remarques
Si la variance de la population  est inconnue, on estime  par
2 2
1)
ns 2 2
où s est la variance dans l'échantillon et on peut montrer que
n -1
x 
tn1
s n 1
et l'intervalle de confiance devient
 s s 
IC 1      x  tn1,1 2 ; x  tn1,1 2 
 n  1 n  1 

2) Si la loi de la population n'est pas une loi normale alors on peut

montrer que les résultats obtenus avec une population normale
restent valides quand l'effectif de l'échantillon est supérieur où
égal à 30, c'est-à-dire n  30.

Estimation de la proportion
de la population
 Si  A désigne la proportion d'individus qui possédent une caractéristique
particulière A dans une population.
 Supposons qu'un échantillon d'effectif n est sélectionné à partir de
la population selon un tirage PEAR.
 La proportion A peut être estimée par la proportion de A observée
dans l'échantillon : nA
ˆ A 
n
où nA est le nombre d'individus de l'échantillon qui possèdent A.
 Quand n est grand, on peut montrer que la loi de ˆ A est donnée par
  A 1   A  
ˆ A  N   A , 
 n 
la proportion de la population
Remarque
  A 1   A   ˆ A   A
 A  N  A,
ˆ    N  0,1
 n   A 1   A 
n
Définition L'intervalle de confiance, au niveau de confiance 1   pour la
proportion A est donné par
 ˆ A 1  ˆ A  ˆ A 1  ˆ A  
IC 1     ˆ A  z1 2 ; ˆ A  z1 2 
 n n 
où z1 2 est le quantile d'ordre 1   2  de Z N  0,1.

Tests d’hypothèses
 Toute analyse statistique d’un ensemble de données passe, à un
moment ou un autre, par des hypothèses.
 Des développements théoriques ou des études antérieures peuvent
nous amener à penser que certaines professions sont mieux
rémunérées que d’autres, que la proportion de fumeurs dans un
pays reste constante, …. La question se pose alors de tester la
validité d’une telle hypothèse.
 L’idée consiste à utiliser l’information disponible après avoir observé
les valeurs {x1, …, xn}. La question qu’on peut se poser est comment
utiliser cette information pour pouvoir établir une règle de décision
permettant de valider ou de rejeter l’hypothèse émise ?
 Dans ce chapitre, on va se limiter aux tests d’hypothèses relatifs à
une moyenne et une proportion.
Test d’hypothèse relatif à
 Il est habituel de présenter les problèmes des tests de la manière
suivante :
 L'hypothèse à tester est appelée l'hypothèse nulle et notée H 0
 L'hypothèse alternative, notée H1, traduit la situation quand H 0
n'est pas vraie.
 L'objectif est d'établir une règle qui se traduit par deux possibilités :
 Soit on rejette l'hypothèse nulle H 0 , ce qu'on note par RH 0
 Soit on ne la rejette pas, ce qu'on écrit RH 0 . On accepte H1.
 Afin d'établir cette règle de décision, on sélectionne un échantillon
aléatoire simple  x1 ,..., xn . Pour estimer la moyenne de la population
par exemple, cet échantillon permet de l'estimer par la moyenne x de
l'échantillon.
Afin d'établir, les test d'hypothèse relatif à une moyenne, nous nous
plaçons, dans un premier temps, dans la cas d'une population dont la
loi est normale N   , 2  . On suppose également que la variance  2
est connue.
Le test d'hypothèse relatif à une moyenne de la population  peut être
formulé de la manière suivante :
H 0 :   0  H1 :   0
Règle de décision : sous les conditions énoncées, la règle de décision
relative à ce test est donnée par
 x  0
RH
 0 si    z1 2 , z1 2 
  n
 0
Remarques
Si la variance de la population  est inconnue, on estime  par
2 2
1)
ns 2
et la règle de décision relative au test sur la moyenne  devient
n -1
 x  0
 RH 0 si   tn1,1 2 , tn1,1 2 
 s n 1
 0
2) Si la loi de la population n'est pas une loi normale alors on peut
montrer que les résultats obtenus avec une population normale
restent valides quand l'effectif de l'échantillon est supérieur où
égal à 30, c'est-à-dire n  30.
la proportion de la population
De la même manière que pour la moyenne, le test d'hypothèse relatif
à une proportion A d'individus qui possèdent une caractéristique A
peut être formulé de la manière suivante :
H0 :  A   0  H1 :  A   0
Règle de décision : la règle de décision relative à ce test est donnée par
 ˆ A   0
 RH 0 si    z1 2 , z1 2 
  0 1   0 

 n
 RH 0 dans le cas contraire
où ˆ A est la proportion dans l'échantillon d'individus ayant la
caractéristique A et z1 2 est le quantile d'ordre 1   2  de N  0,1.

Théorème central limite

Théorème Soit X 1 ,..., X n une suite de n v.a. indépendantes et équidistribuées,
possédant une moyenne  et une variance  2 . Quand n tend vers l'infini, la v.a.
X T  X 1  ...  X n est telle que :
X T  n
 N  0,1
 n
Corollaire Soit X 1 ,..., X n une suite de n v.a. indépendantes et équidistribuées,
possédant une moyenne  et une variance  2 . Quand n tend vers l'infini, la v.a.
 
X  X 1  ...  X n n est telle que :
X 
 N  0,1
 n
Remarque : La convergence est d'autant plus rapide que la distribution
des v.a. X i est symétrique. En pratique, dans ce dernier, on convient que
le théorème et son corollaire sont d'application dès que n  30.

Axe1 StatistiquesExploratoires

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Axe1 StatistiquesExploratoires

Transféré par

Droits d'auteur :

Formats disponibles

Méthodes avancées d’analyse

Mohammed El Haj Tirari

La statistique regroupe un ensemble de méthodes

Ses méthodes tentent de dégager les paramètres

Institut des finances Statistique et analyse des données 2

Les deux types de méthodes sont complémentaires et

Institut des finances Statistique et analyse des données 3

 Les méthodes descriptives bivariées : (tris croisés), lien entre

 Les méthodes d’inférence statistique : Estimation des paramètres,

Institut des finances Statistique et analyse des données 4

RCAR des finances

Institut des finances Statistique et analyse des données 8

Institut des finances Statistique et analyse des données 9

Il a également mesuré plusieurs variables susceptibles d’influencer

 X2 : salaire moyen (quantitative continue)

Institut des finances Statistique et analyse des données 10

 Étude graphique : Histogramme, diagramme en secteurs,

Institut des finances Statistique et analyse des données 11

 Étude statistique bivariée : Étude de deux variables : test

Institut des finances Statistique et analyse des données 12

Collecte des données au moyen d’enquêtes exhaustives ou partielles

Analyse descriptive : univariée, bivariée et p-variée (analyse de données)

Analyse confirmatoire : Estimation, Tests d’hypothèses …

Prévisions, Conclusions, Décisions

Institut des finances Statistique et analyse des données 14

 Étape préliminaire à toute étude statistique.

 Permet de « prendre contact » avec l’échantillon.

 Se divise en deux étapes :

Institut des finances Statistique et analyse des données 16

2 x21 x22 … x2j … x2p

 Série statistique ordonnée :

Diagramme en barres Diagramme en barres

Deux représentations graphiques peuvent être envisagées :

Diagramme en bâtons Courbe cumulative

Institut des finances Statistique et analyse des données 22

Institut des finances Statistique et analyse des données 23

Institut des finances Statistique et analyse des données 24

La moyenne pondérée de la série  xi , i  1,..., n est définie par :

Institut des finances Statistique et analyse des données 29

a) La médiane d’une série statistique

2. S'il existe une valeur x j telle que n 2  Nj alors

Détermination d’un quantile graphiquement

Cas : Nj-1<np< Nj Cas : np= Nj

Institut des finances Statistique et analyse des données 33

Institut des finances Statistique et analyse des données 34

Les limites xg et xd de Box Plot, appelées valeurs adjacentes, sont déterminées

Asymétrie Distribution Asymétrie

Institut des finances Statistique et analyse des données 40

2) Les coefficients d’asymétrie empiriques

Institut des finances Statistique et analyse des données 43

Institut des finances Statistique et analyse des données 44

1) Tableau de la distribution groupée

Institut des finances Statistique et analyse des données 45

Variable quantitative continue (distribution par classe)

Institut des finances Statistique et analyse des données 46

Variable quantitative continue (distribution par classe)

Institut des finances Statistique et analyse des données 47

3) Etude descriptive numérique

Institut des finances Statistique et analyse des données 48

S'il existe une valeur x j telle que N j 1  np  N j

Institut des finances Statistique et analyse des données 49

e) La variance, l'écart-type et le coefficient de variation

Institut des finances Statistique et analyse des données 51