Vous êtes sur la page 1sur 45

I NTRODUCTION À LA

STATISTIQUE I
C OURS D ’ INTRODUCTION À LA STATISTIQUE ,
PARTIE I, NIVEAU BA

Laurent Donzé
Laurent.Donze@UniFr.ch
Remarque préliminaire

Ces notes n’ont comme ambition que de résumer les points traités au cours. Elles ne
constituent en aucun cas un texte définitif sur le sujet et ne dispensent pas l’étudiant-e
d’une présence au cours, de résolutions d’exercices ou de lectures complémentaires.

Typeset with LATEX


c L. Donzé, 18 septembre 2018

@asamunifr
Table des matières

Table des matières 5

1 Chapitre introductif 7
1.1 Population et unité statistique . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Distributions empiriques 10
2.1 Variables catégorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3 Histogramme et fonction de distribution cumulée . . . . . . . . . . . . . 13
2.4 Estimation de distributions par fonction kernel . . . . . . . . . . . . . . . 14
2.5 Formes des fonctions de distribution . . . . . . . . . . . . . . . . . . . . 16

3 Caractérisation des fonctions de distribution 17


3.1 Mesures de localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Mesures de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Mesures d’asymétrie et de curtosie . . . . . . . . . . . . . . . . . . . . . 22
3.4 Courbe de Lorenz et indice de concentration de Gini . . . . . . . . . . . 23
3.5 La distribution normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.6 Le graphe des quantiles et des probabilités normales . . . . . . . . . . 27

4 Probabilités et inférence statistique 29


4.1 Le calcul de probabilités . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Variables aléatoires et lois de probabilité . . . . . . . . . . . . . . . . . . 33
4.3 Inférence statistique et intervalle de confiance . . . . . . . . . . . . . . . 37

Références 42

Index 43
SA 2018 7

1 Chapitre introductif

1.1 Population et unité statistique

Le besoin d’informations sur des sujets d’intérêt ou tout simplement notre curio-
sité nous incitent à collecter des données et à les analyser. Les données collectées
sont appelées dans le grand public des « statistiques », tandis que la science qui
propose les méthodes de collecte, de gestion puis d’analyse des données s’appelle
« statistique ».
Selon AGRESTI et F RANKLIN (2013), « statistics is the art and science of learning
from data. »
Les données concernent une population pour laquelle on aimerait extraire une
information.

Définition 1.1 (Population et échantillon).

— Une population P est un ensemble d’individus (d’unités, d’éléments, de sujets,


...) ;
— Un échantillon s est un sous-ensemble de P qui peut être obtenu par un pro-
cessus de sélection aléatoire.

Définition 1.2 (Unité statistique).


Une unité statistique est un élément d’une population ou d’un échantillon. On dé-
signe l’unité statistique par un indice, e.g. i.

Définition 1.3 (Taille).


La taille d’une population ou d’un échantillon est le nombre d’éléments de ces en-
sembles. On désigne en général la taille d’une population par N et celle d’un échan-
tillon par n.

Bien souvent, on précisera les caractéristiques de la population.


Cela nécessite de définir avec rigueur l’unité statistique (l’individu) en soulignant
ses caractères (ou caractéristiques). La population sera donc l’ensemble des individus
ayant telles ou telles caractéristiques.
Exemple 1.4.
Pour une population d’hommes et de femmes, le sexe, la taille, le poids, l’âge, le
statut matrimonial, le revenu, etc., sont des caractères.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
8 I NTRODUCTION À LA STATISTIQUE I

1.2 Variables

Définition 1.5 (Variables statistique (d’étude)).


On appelle variables statistiques (variables d’étude) ou tout simplement variables,
les caractères des unités statistiques.

Notation 1.1.
Soit s := {1, ... , n} un échantillon de n unités statistiques. Considérons une va-
riable d’étude y. Lorsque l’on observe l’unité statistique i = 1, ... , n, on enregistrera la
modalité (la valeur) yi obtenue par la variable y pour l’unité statistique i. On dira que
yi est la i-ème observation sur la variable y.

On distingue essentiellement les variables qualitatives des variables quantitatives.

Définition 1.6 (Variables qualitative et quantitative).


— Une variable qualitative est caractérisée par un nombre fini de modalités qui se
distinguent par leur nature, mais non par leur valeur (e.g. sexe, état civil) ;
— Une variable quantitative exprime une intensité ou une étendue. Au contraire
d’une variable qualitative, ses valeurs se trouvent de façon naturelle parmi les
nombres (e.g. revenu, âge).

Définition 1.7 (Variables dichotomique et polytomique).


— Une variable qualitative est dite dichotomique (ou binaire, muette) si elle pos-
sède deux modalités ;
— Elle est dite polytomique si elle a plus de deux modalités.

Définition 1.8 (Variables discrète et continue).


— Une variable est dite discrète si elle ne peut prendre qu’un nombre fini ou dé-
nombrable de modalités ;
— Une variable est dite continue si pour deux modalités différentes, toutes les va-
leurs réelles intermédiaires sont réalisables et pour autant que l’ensemble des
modalités soit un intervalle dans R.

Définition 1.9 (Variables catégorielles (ordinales et nominales)).


— Une variable est dite ordinale si ses modalités sont des catégories qui peuvent
être classées ;
— Une variable est dite nominale si ses modalités représentent plusieurs résultats
possibles ou catégories qui ne peuvent pas a priori être classés.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 9

F IGURE 1 – Types de variables

continue

z }| {
quantitative
discrète

}
catégorielle

{z
ordinale

z }| {
qualitative
nominale

|
— On regroupe sous l’appellation « catégorielles », les variables ordinales et no-
minales.

Remarque 1.1.
Une variable binaire (dichotomique, muette) est une variable catégorielle à deux
catégories, notées en général par 0 et 1 et indiquant qu’un événement a eu lieu ou
non ou qu’une caractéristique est présente ou non.

On peut résumer les types de variables par la figure 1 (cf. P OWERS et X IE (2000),
p. 7).
En pratique, il peut être admissible de considérer comme continues des variables
discrètes. Par contre, les variables continues doivent être « discrétisées », par exemple
en construisant des classes, si on veut les considérer comme variables discrètes.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
10 I NTRODUCTION À LA STATISTIQUE I

2 Distributions empiriques
2.1 Variables catégorielles

Soit y une variable catégorielle. Les valeurs que peut prendre y sont appelées
« catégories », « classes » ou « modalités ». Par exemple, la variable y désignant
le sexe d’une personne a deux modalités : H et F. On désignera par Mj , j = 1, ... , M,
les M modalités d’une variable. Enfin, on dispose sur y d’une série de n observations
{y1 , y2 , ... , yi , ... , yn }. La valeur yi est la modalité observée de l’unité statistique i.

Définition 2.1 (Effectif).


Soit une variable catégorielle y avec M modalités. Considérons la modalité Mj ,
j = 1, ... , M. On appelle effectif, le nombre nj d’observations yi , i = 1, ... , n, ayant la
modalité Mj . On a :
n
X
nj := 1{yi =Mj } .
i=1

Définition 2.2 (Fréquences absolue et relative).


1. On appelle fréquence absolue de la modalité Mj , l’effectif nj ;
2. On appelle fréquence relative de la modalité Mj , le rapport

nj
fj := .
n

Propriétés 2.1 (Fréquences absolue et relative).


En supposant que les données ne contiennent pas de valeurs manquantes, on a :
1. La somme des fréquences absolues (effectifs) donne le total des observations,
i.e.

M
X
n1 + n2 + ... + nM = nj = n;
j=1

2. La somme des fréqences relatives donne 1, i.e.

M
X
fj = 1.
j=1


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 11

Définition 2.3 (Distribution empirique).


On appelle distribution empirique des fréquences absolues et relatives respective-
ment l’ensemble des fréquences absolues {n1 , ... , nM } et l’ensemble des fréquences
relatives {f1 , ... , fM }.

Définition 2.4 (Fréquence relative cumulée).


On appelle fréquence relative cumulée Fj , la quantité

j
X
Fj := f1 + ... + fj = fh .
h=1

Il existe plusieurs manières de représenter les fréquences absolues et relatives,


soit sous forme de tableaux ou soit sous forme de graphiques : « tableaux statis-
tiques », « diagrammes en bâton (tuyaux d’orgue) », « graphiques par secteur (fro-
mages) », etc.
On comparera deux ou plusieurs distributions en juxtaposant par exemple les ta-
bleaux ou les graphiques.
Les médias aiment donner des effets visuels à la représentation graphique, no-
tamment en ajustant par rapport aux fréquences la taille des surfaces dessinées. La
bonne pratique statistique ne recommande pas ce genre d’effets qui ont tendance à
influencer la perception que pourrait avoir le lecteur des résultats. Il s’agit plutôt de
choisir un type de graphiques qui soit neutre et qui puisse mettre en valeur spécifi-
quement les statistiques présentées.
On pourrait s’intéresser aux relations statistiques entre deux variables d’étude.
Soient x et y des variables catégorielles avec respectivement K modalités M x et L
modalités M y . On peut alors facilement créer un tableau, appelé tableau croisé (ou
table de contingence), des fréquences absolues et relatives (Table 1).

TABLE 1 – Table de contingence


HH
y
H M1y M2y ··· Mly ··· MLy
x HH
H
M1x
M2x
..
.
Mkx nkl
..
.
MKx


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
12 I NTRODUCTION À LA STATISTIQUE I

Le nombre nkl de la table 1 est le nombre d’occurrences d’unités statistiques


x y Pn
avec la modalité Mk et Ml , i.e. nkl := i=1 1{xi =Mkx et yi =Ml } . On a évidemment que
y
PK PL nkl PK PL
k=1 l=1 nkl = n. Et si fkl = n , alors k=1 l=1 fkl = 1.

2.2 Variables quantitatives

Notons tout d’abord qu’une variable quantitative discrète, avec un nombre fini de
valeurs distinctes, peut être traitée comme une variable catégorielle, chaque valeur
distincte étant une catégorie.
D’autre part, une variable quantitative continue est caractérisée par un nombre
infini de modalités ou de valeurs distinctes. Pour l’analyse en termes de fréquence,
il faudrait au préalable « discrétiser » la variable en créant des classes. On pourrait
alors à nouveau calculer des fréquences absolues, relatives et cumulées.
Définition 2.5 (Classe, centre et largeur de classe).
1. Une classe C est un intervalle I ⊂ R ;
2. Soit C =]a, b], a et b ∈ R deux constantes. On appelle centre de classe, noté m,
la quantité

a+b
; m :=
2
3. On appelle largeur de classe, notée h, la quantité

h := b − a.

Soit y une variable quantitative continue à valeurs dans R. On peut schémati-


quement représenter c classes Cj par la figure 2, où C1 =]x0 , x1 ], C2 =]x1 , x2 ], . . . ,
Cc =]xc−1 , xc ].
F IGURE 2 – Construction de classes

C1 C2 C3 Cc
x0 x1 x2 x3 . . . . xc−1 xc R
| {z } | {z } |{z} | {z }
h1 h2 h3 hc

Remarques 2.1.
1. On peut également considérer des intervalles ouverts à droite pour les classes,
i.e. [a, b[ ;


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 13

2. En général, on fixe x0 := min{y1 , y2 , ... , yn } et xc := max{y1 , y2 , ... , yn }. Dans ce


cas, on définira C1 := [x0 , x1 ] ;
3. En principe, on fixe une même largeur pour toutes les classes, i.e. h1 = h2 =
· · · = hc = h ;
4. Le choix des bornes x0 , x1 , ... , xc peut être fait de différentes manières et par di-
vers algorithmes. S’il existe des définitions officielles, il peut être judicieux d’uti-
liser celles-ci.

2.3 Histogramme et fonction de distribution cumulée

Un histogramme est un outil graphique commode pour dessiner des distributions


empiriques de variables quantitatives continues. Un histogramme se construit en ap-
pliquant la procédure suivante qui va permettre de représenter des fréquences rela-
tives et faire en sorte que l’aire totale de l’histogramme soit égale à 1.
Algorithme 2.1 (Construction d’un histogramme).
1. Fixer l’origine x0 de l’histogramme et la largeur h des classes ;
2. Construire c classes Cj de largeur h :

Cj =]x0 + (j − 1)h, x0 + jh], j ∈ Z;


3. Calculer le nombre nj d’observations appartenant à la classe Cj ;
nj
4. Calculer fj∗ = nh
;
5. Dessiner l’histogramme en reproduisant sur chaque classe Cj un rectangle de
hauteur fj∗ et de largeur h.

De manière formelle, un histogramme est représenté par la fonction suivante défi-


nie sur R, dite fonction histogramme :
n
1 XX
f̂h (x) = 1{yi ∈Cj } 1{x∈Cj } ,
nh
i=1 j

où {y1 , ... , yn } est une série d’observations sur une variable quantitative continue y ;
Cj est une classe de largeur h ; j ∈ Z.
Remarques 2.2.
1. L’estimation de l’histogramme, i.e. de la fonction f̂h dépend non seulement du
choix de h, mais aussi de l’origine x0 ;
2. Si mj est le centre de la classe Cj , on peut vérifier que f̂h (x) donne pour chaque
x ∈ Cj =]mj − h/2; mj + h/2] la même estimation f̂h (mj ). La fonction est donc en
escalier.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
14 I NTRODUCTION À LA STATISTIQUE I

Définition 2.6 (Fonction de distribution cumulée empirique).


On appelle fonction de distribution cumulée empirique, la fonction F (x) suivante :
n
X
F (x) = 1/n 1{yi ≤x} .
i=1

2.4 Estimation de distributions par fonction kernel

La construction d’histogrammes permet l’estimation de distributions (densités) em-


piriques. Cette méthode a cependant des défauts. L’estimation de distributions (den-
sités) par une technique de type kernel est généralement préférable.
Les fonctions dites kernel, notées K (·), sont des fonctions de pondération, qui ont
pour effet de lisser les fonctions empiriques. Les fonctions kernel sont définies sur R
et à valeurs dans R, positives, continues et différentiables. La surface sous la fonction
a une aire égale à 1. On a donc :
Z
K (u) ≥ 0 et K (u)du = 1.

La table 2 nous donne la liste des fonctions kernel les plus utilisées. Prenons à
titre d’exemple la fonction kernel uniforme :

1
K (u) = 1{|u|≤1} .
2
Son graphe est représenté dans la figure 3.

F IGURE 3 – Fonction kernel uniforme

1/2

-1 0 1 R

Considérons un histogramme avec des largeurs de classe de 2h, i.e. [x − h; x + h].


On peut écrire la fonction histogramme de la manière suivante :


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 15

TABLE 2 – Fonctions kernel

Kernel K (u)

1
Uniforme 2 1{|u|≤1}

Triangle (1 − |u|)1{|u|≤1}

3
Epanechnikov 4 (1 − u 2 )1{|u|≤1}

15
Quartic (Biweight) 16 (1 − u 2 )2 1{|u|≤1}

Gaussien √1 exp(− 12 u 2 )

1 X
f̂h (x) = 1{x−h≤yi ≤x+h} ,
2hn
i

ou de manière équivalente :
1 X
f̂h (x) = 1{−1≤ x−yi ≤1} .
2hn h
i

Ainsi :

1 X1
f̂h (x) = 1 x−yi ,
hn 2 {| h |≤1}
i
1 X x − yi
= K( ),
hn h
i

où K (·) est la fonction kernel uniforme. On constate donc que la fonction histogramme
peut être écrite en utilisant une fonction kernel. Dans ce cas, la fonction kernel uni-
forme pondère les fréquences par 1/2 ou 0.
De manière générale, on considérera la classe d’estimateurs de type kernel sui-
vante :
1X
f̂h (x) = Kh (x − yi ),
n
i

où Kh (·) = h1 K (·/h) et K (·) est une fonction kernel.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
16 I NTRODUCTION À LA STATISTIQUE I

Remarques 2.3.
— Comme une somme de fonctions « lisses » est également « lisse », on obtient
une densité empirique estimée lissée ;
— L’estimation f̂h est une moyenne ;
— Le paramètre h est une constante positive appelée « bandwidth » ; il règle le de-
gré de « lissage » de la courbe ; plus h est petit, plus la densité est concentrée ;
— La qualité de l’estimation de f̂h dépend du nombre d’observations à disposition.

En pratique, on constate que la densité estimée dépendra bien plus du choix de


h que du kernel. Sous certaines conditions, on montre qu’un kernel « optimal » est
celui d’Epanechnikov. D’autre part, on choisit h en général de manière ad hoc. On
peut cependant utiliser la règle suivante :

h = 1.059σ/n1/5 ,
où σ est l’écart-type empirique des données (voir infra). Cette dernière solution marche
bien pour des kernels gaussiens et des données distribuées approximativement selon
une loi normale (voir infra).

2.5 Formes des fonctions de distribution

Les fonctions de distribution se caractérisent par leur forme et leurs queues. On


notera en particulier si la distribution est :
— unimodale, bimodale ou multimodale ;
— symétrique ou asymétrique (« skewed to the right or left », « positively or nega-
tively skewed ») ;
— aplatie ou non aplatie (curtosie, excès, leptocurtique, mésocurtique, platycur-
tique, « kurtosis », « leptokurtic », « mesokurtic », « platykurtic »).


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 17

3 Caractérisation des fonctions de distribution

Une simple analyse par tableaux statistiques ou par représentations graphiques


d’une distribution statistique est insuffisante. Il est nécessaire de considérer numéri-
quement certaines propriétés ou caractéristiques de la distribution.
Un premier type de mesures, appelées mesures de tendance centrale ou de lo-
calisation (« location ») concerne l’« ordre de grandeur » de la variable statistique et
permet de situer le « centre » de la distribution.
Le deuxième type de mesures, appelées mesures de dispersion (« scale »), sai-
sit la plus ou moins grande « variabilité » des observations autour de la tendance
centrale.
Le troisième type de mesures, appelées mesures d’asymétrie et de curtosie (« skew-
ness », « kurtosis »), se focalise sur la « forme » de la distribution.
Nous nous intéresserons essentiellement à la caractérisation de la distribution
d’une variable quantitative y, pour laquelle on dispose d’une série d’observations
{y1 , y2 , ... , yn } et d’une série de poids (de pondération) {w1 , w2 , ... , wn }. On suppo-
sera qu’il n’y a pas de valeurs manquantes dans la série d’observations.

3.1 Mesures de localisation

Définition 3.1 (Moyenne arithmétique simple et pondérée).


1. La moyenne arithmétique simple de y, notée ȳ, est égale à

n
1X
ȳ := yi ;
n
i=1

2. La moyenne arithmétique pondérée de y, notée ȳ w , est égale à


Pn
w wi yi
ȳ := Pi=1
n .
i=1 wi

Remarque 3.1 (Moyenne pour observations groupées).


Lorsque l’on a affaire à des observations groupées en classes et que l’on dispose
des effectifs par classe {n1 , n2 , ... , nc } et des centres de classe {m1 , m2 , ... , mc }, on
peut estimer la moyenne par la moyenne pondérée suivante :
c
! c
! c
X X 1X
ȳg := nl ml / nl = nl ml .
n
l=1 l=1 l=1


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
18 I NTRODUCTION À LA STATISTIQUE I

Définition 3.2 (Mode).


Le mode d’une distribution, noté M0 , est la valeur pour laquelle la fréquence est la
plus élevée.

Remarques 3.1 (Mode).


1. Le mode est donc la valeur de la variable qui se rencontre le plus souvent dans
la série d’observations ;
2. Le mode est la valeur pour laquelle la fonction de distribution (densité) atteint
son maximum.

Définitions 3.3 (α-quantile, médiane, quartile).


Pour α ∈ [0, 1] :
1. Le α-quantile est la valeur Q(α) telle que la fréquence relative cumulée des
observations ayant une valeur inférieure ou égale à Q(α) soit égale à α ;
2. On appelle le 0.5-quantile la médiane ;
3. Les 0.25-quantile et 0.75-quantile sont les quartiles inférieur et supérieur de la
distribution.

Remarques 3.2 (Quartiles, quintiles, déciles et centiles ).


1. Le quartile inférieur, la médiane et le quartile supérieur sont respectivement
notés Q1 , Q2 et Q3 ;
2. On parle également de quintiles, déciles et centiles lorsque l’intervalle [0,1] est
divisé en sous-intervalles de 20%, 10% et 1%.

Définition 3.4 (Fonction quantile empirique).


La fonction Q(α), pour α ∈ [0, 1], est appelée fonction quantile empirique.

Il existe plusieurs règles de détermination d’un α-quantile d’une distribution empi-


rique. Énonçons à titre d’exemple la règle par défaut du logiciel SAS.
Algorithme 3.1 (Calcul d’un α-quantile selon la règle SAS).
On considère les statistiques d’ordre y[1] , y[2] , ... , y[n] , i.e. les observations triées par
ordre croissant. Prenons pour α ∈ [0, 1] donné,

j = floor(n α − 1/2) et g = n α − 1/2 − j


et définissons
(
0 si g = 0 et si j est pair;
γ :=
1 sinon.
Alors, Q(α) = (1 − γ)y[j] + γy[j+1] .


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 19

Propriétés 3.1 (Mode, médiane, moyenne).


1. La médiane, contrairement à la moyenne, n’est pas influencée par des obser-
vations aberrantes, anormalement grandes ou petites. La médiane est plus ro-
buste ;
2. La médiane est cependant plus sensible que la moyenne aux fluctuations d’échan-
tillonnage ;
3. Lorsque la distribution est symétrique, la moyenne, le mode et la médiane se
confondent ;
4. Lorsque la distribution est asymétrique, la médiane est généralement comprise
entre le mode et la moyenne et plus proche de cette dernière.

3.2 Mesures de dispersion

Définition 3.5 (Étendue).


L’étendue (« range »), notée R, est la différence entre la plus grande et la plus
petite des valeurs observées, i.e.

R := max(y1 , y2 , ... , yn ) − min(y1 , y2 , ... , yn ).

Définition 3.6 (Écart interquartile).


L’écart interquartile (« Interquartile Range »), noté IQR, est la différence entre le
3 et le 1er quartile, i.e.
e

IQR := Q3 − Q1 .

Remarque 3.2 (IQR et étendue).


L’IQR par rapport à l’étendue est moins sujet aux valeurs aberrantes.

Définition 3.7 (Écart absolu moyen).


L’écart absolu moyen (écart absolu, « absolute deviation »), noté AD, est la moyenne
arithmétique des valeurs absolues des écarts à la moyenne arithmétique, i.e.
n
1X
AD := |yi − ȳ|.
n
i=1

Définition 3.8 (Déviation absolue médiane).


La déviation absolue médiane (« median absolute deviation »), notée MAD, est la
moyenne arithmétique des valeurs absolues des écarts à la médiane, i.e.
n
1X
MAD := |yi − Q2 |.
n
i=1


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
20 I NTRODUCTION À LA STATISTIQUE I

Définition 3.9 (Variance et écart-type (empirique)).

1. La variance (empirique) (« dispersion, spread, variance »), notée σ 2 , est la


moyenne arithmétique des carrés des écarts à la moyenne arithmétique, i.e.

n
1X
σ 2 := (yi − ȳ)2 .
n
i=1

2. L’écart-type (empirique) (« standard deviation »), noté σ, est la racine carrée de


la variance, i.e.

σ := σ2.

Remarque 3.3 (Variance empirique et estimateur sans biais).


En pratique, pour l’estimation de la variance empirique, on préférera l’estimateur
sans biais suivant :
n
1 X
s2 := (yi − ȳ)2 ;
n−1
i=1

et on retiendra pour l’estimateur de l’écart-type :



s := s2 .

Propriétés 3.2 (Écart-type empirique).

1. L’écart-type exprime relativement bien la dispersion de distributions même très


asymétriques ;
2. L’écart-type est peu sensible aux fluctuations d’échantillonnage ;
3. L’interprétation de l’écart-type est peu aisée.

Les études empiriques montrent que fréquemment les distributions traitées s’ap-
prochent d’une distribution dite « normale » (cf. infra). Sur cette base, on pourra dire
que :

ȳ ± 1s contient approximativement 68% des mesures,


ȳ ± 2s contient approximativement 95% des mesures,
ȳ ± 3s contient approximativement 99.7% des mesures.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 21

Remarque 3.4 (Variance pour observations groupées).


Lorsque l’on a affaire à des observations groupées en classes et que l’on dispose
des effectifs par classe {n1 , n2 , ... , nc } et des centres de classe {m1 , m2 , ... , mc }, on
peut estimer la variance empirique par la variance pondérée suivante :
c
1X
σg2 = nl (ml − ȳg )2 ,
n
l=1

où ȳg est l’estimation de la moyenne pour des observations groupées.

Un outil graphique dû à Tukey de représentation et d’analyse de distributions, no-


tamment par des mesures de localisation et de dispersion, est le « box-plot » (dia-
gramme boîte). La figure 4 décrit les éléments du box-plot.
Les règles suivantes sont généralement adoptées pour le calcul des valeurs adja-
centes. Si Bi := Q1 − 1.5 IQR et Bs := Q3 + 1.5 IQR, alors la valeur adjacente inférieure
est la plus petite observation qui est plus grande ou égale à Bi et la valeur adjacente
supérieure est la plus grande observation qui est plus petite ou égale à Bs .

F IGURE 4 – Box-plot
aberrantes

supérieure
adjacente

adjacente

aberrante
inférieure
valeurs

valeur

valeur

valeur

Q1 Q2 ȳ Q3

| {z }
IQR

Définition 3.10 (Centrer les données).


On appelle « centrer les données autour d’une valeur y0 » l’opération consistant
à soustraire à chaque yi la valeur y0 , i.e. yi − y0 . En général, on centre les données
autour de la moyenne, i.e. yi − ȳ.

Définition 3.11 (Standardiser les données).


On appelle « standardiser les données » (centrer-réduire) l’opération consistant à
diviser les données centrées autour de la moyenne par l’écart-type de la variable, i.e.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
22 I NTRODUCTION À LA STATISTIQUE I

yi − ȳ
z := .
s
Les valeurs standardisées sont appelées z-scores.

Propriétés 3.3 (Données centrées, réduites et z-scores).


1. Les valeurs centrées sur la moyenne ont une moyenne égale à zéro ;
2. Les valeurs réduites ont un écart-type égal à 1 ;
3. Les z-scores permettent de détecter rapidement quelles sont les valeurs ex-
trêmes ou aberrantes. D’autre part, la standardisation permet d’obtenir des va-
leurs indépendantes d’unités de mesure et donc permet la comparaison de dis-
tributions.

L’écart-type comme la moyenne s’expriment dans la même unité que la variable


statistique. Or, il est difficile de comparer des dispersions de distributions qui ne sont
pas de même unité ou de comparer des distributions dont les moyennes sont diffé-
rentes, comme par exemple les distributions des revenus de deux pays différents. Le
coefficient de variation peut être utile dans ce cas.
Définition 3.12 (Coefficient de variation).
Le coefficient de variation, noté CV , est le rapport de l’écart-type à la moyenne,
i.e.
σ
CV := .

Propriété 3.1 (Coefficient de variation).


Le coefficient de variation est un nombre sans dimension, indépendant des unités
choisies.

3.3 Mesures d’asymétrie et de curtosie

Définitions 3.13 (Moments empiriques).


1. Le moment empirique d’ordre k est la valeur
n
1X k
µ0k := yi ;
n
i=1

2. Le moment empirique centré d’ordre k est la valeur


n
1X
µk := (yi − ȳ)k .
n
i=1


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 23

Propriétés 3.4 (Moments empiriques).


1. Les moments centrés d’ordre pair µ2 , µ4 , ..., sont comme la variance (µ2 ) des
paramètres de dispersion ;
2. Les moments centrés d’ordre impair µ3 , µ5 , ..., sont des indicateurs d’asymétrie.
Nuls pour des distributions symétriques, ils sont différents de zéro pour les distri-
butions asymétriques et d’autant plus grands en valeur absolue que l’asymétrie
est accentuée. Le signe du moment indique le sens de l’asymétrie : un moment
négatif indique une asymétrie vers la gauche et moment positif une asymétrie
vers la droite.

Définition 3.14 (Coefficients β1 et β2 de Pearson).


Les coefficients β1 et β2 de Pearson sont les quantités suivantes :

β1 = µ23 /µ32 ;
et β2 = µ4 /µ22 .

Définition 3.15 (Coefficients d’asymétrie et d’excès de curtosie de Fisher).


Soient β1 et β2 , les coefficients de Pearson.
3/2 √
1. Le coefficient d’asymétrie est g1 = µ3 /µ2 , quelques fois mentionné sous β1
de Pearson ;
2. Le coefficient d’excès de curtosie est β2 − 3.

Propriétés 3.5 (Coefficients d’asymétrie et de curtosie).



1. Le coefficient d’asymétrie g1 peut être négatif — l’appellation β1 de Pearson
est donc douteuse. Un coefficient égal à zéro signale une distribution symé-
trique.
2. Le coefficient d’asymétrie est invariant à un changement d’échelle où d’origine ;
3. Si β2 − 3 < 0, la distribution est dite platycurtique et si β2 − 3 > 0, elle est
leptocurtique.

3.4 Courbe de Lorenz et indice de concentration de Gini

Deux concepts importants sont utilisés dans l’analyse de la répartition de valeur


au sein d’une population, comme par exemple la répartition de la richesse. Il s’agit :
— du concept de la concentration et de sa mesure ;
— de la courbe de Lorenz.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
24 I NTRODUCTION À LA STATISTIQUE I

Définition 3.16 (Concentration relative).


On parle de concentration relative (ou d’ inégalité, de disparité) si une petite part
des observations représente une grande part de la valeur totale, i.e. de la somme des
valeurs prises par la variable d’étude.

Considérons n observations yi ≥ 0, ordonnées dans l’ordre croissant :

y[1] ≤ y[2] ≤ ... ≤ y[n] ,

Pn
et supposons que i=1 yi > 0.
Soit alors la part hr de la r -ème observation à la valeur totale :
y[r ]
hr := Pn , r = 1, ... , n.
i=1 yi

On a dans ce cas de figure :

0 ≤ h1 ≤ h2 ≤ ... ≤ hn .

Définition 3.17 (Courbe de Lorenz).


Soit, pour i = 1, ... , n,
i i
i X X y[r ]
L( ) = hr = Pn .
n i=1 yi
r =1 r =1

On appelle courbe de Lorenz, la courbe qui relie les points :

1 1 2 2 n−1 n−1
(0, 0), ( , L( )), ( , L( )), ... , ( , L( )), (1, 1).
n n n n n n

Propriétés 3.6.
1. La courbe est monotone croissante et convexe ;
2. La disparité est minimale lorsque y[1] = y[2] = ... = y[n] , i.e. lorsque h1 = h2 = h3 =
... = hn , ce qui implique que L( ni ) = ni pour i = 0, 1, ... , n. La courbe de Lorenz est
dans ce cas la diagonale reliant (0, 0) à (1, 1) ;
3. La disparité est maximale lorsque y[n] = ni=1 y[i] , y[1] = y[2] = ... = y[n−1] = 0, i.e.
P
lorsque hn = 1, h1 = h2 = ... = hn−1 = 0, ce qui implique que L( nn ) = L(1) = 1 et
L( ni ) = 0 pour i = 0, 1, ... , n − 1.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 25

Définition 3.18 (Différence moyenne de Gini).


On appelle différence moyenne de Gini, la quantité :
n n
1 XX
∆ := 2 |yj − yk |.
n
j=1 k=1

Remarque 3.5 (Différence moyenne de Gini pour observations groupées).


Lorsque l’on a des observations groupées en C classes, la différence moyenne de
Gini est :
C C
1 XX
∆ := 2 |ȳj − ȳk |nj nk ,
n
j=1 k=1

où ȳj est la moyenne de la variable y dans la classe j, nj est la fréquence absolue


dans la classe j, n = Ci=1 ni .
P

Définition 3.19 (Coefficient de Gini).


Le coefficient de Gini, noté G, est la quantité suivante :


G := .
2ȳ

Géométriquement, le coefficient de Gini est le rapport de la « superficie comprise


entre la diagonale et la courbe de Lorenz » à la « superficie totale sous la diagonale ».

Propriétés 3.7.
1. Si les données sont ordonnées par ordre croissant, on peut calculer G comme :
Pn Pn
i=1 (2i − n − 1)y[i] 2 i=1 i hi − (n + 1)
G= = ;
n2 ȳ n
2. G = 0 ssi y1 = y2 = · · · = yn [disparité minimale] ;
1
3. G = 1 − n
ssi y1 = y2 = · · · = yn−1 = 0, yn > 0 [disparité maximale] ;
4. 0 6 G 6 1 − n1 .

On utilise souvent la courbe de Lorenz pour comparer (classer) deux distributions.


La question qui est alors posée est la suivante. La courbe de Lorenz de la distri-
bution A est-elle entièrement « dans » celle de la distribution B — i.e. plus proche de
l’égalité — ou non ?
Si cela s’avère être le cas, on dira que A domine B.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
26 I NTRODUCTION À LA STATISTIQUE I

On retrouve cependant des cas ambigus, par exemple lorsque les courbes de Lorenz
se coupent. On ne peut plus alors affirmer qu’il y a une évolution vers plus ou moins
d’égalité. Les courbes de Lorenz généralisées peuvent dans certaines situations dis-
siper l’ambiguïté.

3.5 La distribution normale

En pratique, il apparaît souvent que les distributions empiriques de variables quan-


titatives continues ressemblent à une distribution particulière, appelée distribution nor-
male.
Cette distribution qui a la forme d’une cloche a été caractérisée en premier par le
mathématicien français de Moivre en 1733, puis par Gauss. Ainsi, on parlera égale-
ment de distribution gaussienne (ou de distribution de Gauss).
La distribution normale est une « distribution continue ». Elle fait partie de la famille
des distributions dites « exponentielles ». C’est une « distribution théorique », qui
exprime une « loi de probabilité » (cf. infra).

Définition 3.20 (Distribution normale (gaussienne)).


Une distribution est dite normale ou gaussienne de paramètres µ et σ, si sa fonc-
tion de distribution (de densité), notée ϕ, est :

(y − µ)2
 
2 1
ϕ(y|µ, σ ) = √ exp − ,
2πσ 2σ 2
où y ∈ R, µ ∈ R, σ > 0. On notera la distribution N(µ,σ 2 ).

Définition 3.21 (Distribution standard normale).


Une distribution N(0,1) est dite standard normale.

Si y1 , y2 , ... , yi , ... , yn sont des observations d’une distribution N(µ,σ 2 ), alors les
observations standardisées z1 , z2 , ... , zi , ... , zn (z-scores), où
yi − µ
zi := ,
σ
auront une distribution N(0,1).
Remarques 3.3.
1. La distribution normale cumulée est notée Φ(y|µ, σ 2 ) ;
2. La fonction quantile d’une distribution normale est Q(α) = Φ −1 (α).
3. Il existe pour la distribution N(0,1) des tables reproduisant les valeurs de Φ(y|0, 1).

Propriétés 3.8 (Distribution normale).


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 27

1. Le paramètre µ est un paramètre de localisation et est égal à la moyenne de la


distribution ;
2. Le paramètre σ est un paramètre de dispersion (« scale ») et est égal à l’écart-
type de la distribution. σ 2 est donc la variance ;
3. La moyenne, la médiane et le mode sont égaux et valent µ ;
4. La distribution est symétrique. Les moments centrés impairs sont nuls. Le coef-
ficient d’asymétrie est donc égal à 0.
5. Le coefficient de curtosie est égal à 3.

3.6 Le graphe des quantiles et des probabilités normales

On peut aisément par un outil graphique, appelé graphe des quantiles ou q-q plot,
comparer deux distributions et vérifier si celles-ci sont « identiques » ou « diffèrent ».
Soient x1 , ... , xn , et y1 , ... , ym deux séries de valeurs observées sur les variables x
et y . Supposons que m < n. Nous aimerions vérifier à l’aide d’un graphe des quantiles
si la distribution empirique de x est identique à celle de y.
Trouvons les statistiques d’ordre :

x[1] ≤ ... ≤ x[n] , et y[1] ≤ ... ≤ y[m] .

Évaluons pour chaque valeur x[i] et y[j] , i = 1, ... , n et j = 1, ... , m, les proportions
cumulées pi et pj des observations plus petites que respectivement x[i] et y[j] . Pour ce
faire, on peut utiliser la règle de calcul suivante :

i − 1/2 j − 1/2
pi := et pj := .
n m
Pour la série d’observations sur y, y[j] est le pj -quantile de la distribution. Comme
m < n, il s’agit de trouver dans la distribution des x, le pj -quantile. Notons cette valeur
par x[i]∗ . Le q-q plot sera le graphe des points (x[i]∗ , y[j] ).
L’interprétation du q-q plot est la suivante. Si les distributions des x et des y sont
« identiques », alors le graphe sera une droite. Tout diagramme de dispersion qui
s’écarte d’une droite indique que les distributions des deux séries sont différentes.
Le graphe des quantiles peut également servir à comparer une distribution empi-
rique avec une distribution théorique. Par exemple, on pourrait se poser la question de
savoir si la série d’observations sur la variable y est distribuée selon une loi normale.
Soient y[1] ≤ ... ≤ y[n] , les statistiques d’ordre des observations yi . On peut trouver
n statistiques d’ordre u[1] ≤ ... ≤ u[n] d’une loi normale standard en prenant :


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
28 I NTRODUCTION À LA STATISTIQUE I

 
−1 i − 3/8
u[i] := Φ .
n + 1/4

Définition 3.22 (Graphe des probabilités normales).


Le graphe des points (u[i] , y[i] ) est appelé graphe des probabilités normales (« Nor-
mal q-q plot »).

Un graphe des probabilités normales qui s’écarte d’une droite en tout ou partie
signale la non-normalité de la série y.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 29

4 Probabilités et inférence statistique

Le concept de probabilité est important dans la prise de décision. Face à des


phénomènes incertains ou aléatoires, le calcul de probabilités permet de mesurer les
chances de succès de résultats ou d’événements possibles.
Le statisticien quant à lui est confronté à la part aléatoire (stochastique) qu’il trouve
dans ses données. La théorie des probabilités lui sera donc très utile. Celle-ci lui per-
mettra entre autres d’effectuer des tests statistiques (inférence statistique) à partir de
ses observations. En ce sens, la théorie des probabilités fera le lien entre la « statis-
tique descriptive » et l’« inférence statistique ».

4.1 Le calcul de probabilités

Le calcul, puis la théorie des probabilités, se sont développés progressivement à


partir du XVIIIes, période durant laquelle mathématiciens et joueurs (jeux de hasard)
ont confronté théories et expériences.
Parmi d’innonbrables contributeurs, on retiendra par exemple les noms de B ER -
NOULLI (1713) qui, le premier, introduit le concept d’aléatoire et de KOLMOGOROV
(1933), qui développa la théorie des probabilités à partir d’axiomes.
Définition 4.1 (Expérience aléatoire).
On appelle expérience aléatoire (« random experiment ») ou tout simplement ex-
périence, tout processus dont le résultat n’est pas connu à l’avance et est incertain,
i.e. aléatoire.

Une expérience aléatoire peut être construite, par exemple en lançant un dé ou


consister en l’observation d’un phénomène, e.g. en allumant une ampoule et en ob-
servant sa durée de vie.
Si une expérience aléatoire est répétée sous les mêmes conditions un certain
nombre de fois, on parlera pour chaque expérience d’essai ou de tentative (« trial »).
Une expérience aléatoire doit satisfaire aux trois conditions suivantes :
1. A chaque essai, tous les résultats possibles de l’expérience sont connus à
l’avance ;
2. Le résultat de l’essai n’est pas connu à l’avance ;
3. L’expérience peut être reproduite sous les mêmes conditions.

Définition 4.2 (Espace des événements).


On appelle espace des événements (espace de probabilités, ensemble fonda-
mental, univers, « sample space »), l’ensemble de tous les résultats possibles d’une
expérience aléatoire. On le note Ω et on désigne par ω un des résultats possibles.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
30 I NTRODUCTION À LA STATISTIQUE I

Définition 4.3 (Événement).


On appelle événement (« event »), noté E, un sous-ensemble de Ω, i.e. E ⊆ Ω.

On dira que l’événement E s’est réalisé si le résultat de l’expérience appartient à


E.
Remarques 4.1 (Événements).
1. L’ensemble vide ∅ ⊂ Ω est un événement impossible. L’ensemble Ω est un évé-
nement certain ;
2. Soient A, B ⊆ Ω, deux événements.
— L’événement A ∪ B consiste en tous les résultats qui sont soit en A, soit en
B, ou à la fois dans A et B ;
— L’événement A ∩ B consiste en tous les résultats qui sont à la fois dans A
et B ;
3. Soient A ⊆ Ω et Ac := Ω \ A, où Ac est le complémentaire de A dans Ω. L’évé-
nement Ac consiste en tous les résultats qui ne sont pas dans A, mais dans
Ω.

Définition 4.4 (Événements disjoints).


Soient A, B ⊆ Ω, deux événements. Ils sont dits disjoints ou mutuellement exclu-
sifs si A ∩ B = ∅. Deux événements disjoints ne peuvent pas être réalisés simultané-
ment.

Définition 4.5 (Concept informel de probabilités).


La probabilité d’un événement est une mesure de la chance de succès ou de
réalisation de cet événement. La mesure prend ses valeurs dans l’intervalle [0, 1],
où 1 désigne la certitude que l’événement se réalise et 0 qu’il ne se réalise pas. La
probabilité d’un événement A ⊆ Ω est notée P(A).

Définition 4.6 (Concept classique de probabilités).


1. Soient n résultats possibles équiprobables, i.e. qui ont la même chance d’être
réalisés, et m cas favorables à la réalisation d’un événement A. La probabilité
de l’événement A, i.e. de succès, est égal à

cas favorables m
P(A) = = ;
cas possibles n
2. Si tous les résultats possibles {ω1 , ω2 , ... , ωn } ne sont pas équiprobables, mais
de probabilités respectivement {p1 , p2 , ... , pn }, alors la probabilité de l’événe-
ment A := {ω1 , ... , ωm } est donnée par

P(A) = p1 + p2 + ... + pm .


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 31

Définition 4.7 (Concept de probabilités en termes de fréquences).


La probabilité d’un événement (d’un résultat) est la proportion de fois que l’événe-
ment se réalise sur un nombre répété suffisamment grand d’expériences.

Définition 4.8 (Concept axiomatique de probabilités).


Soit Ω, l’espace des événements. On appelle probabilité P(·) une fonction à va-
leurs réelles qui assigne à chaque événement A ⊆ Ω un nombre P(A) et qui est telle
que
1. P(·) est une fonction non négative, i.e. P(A) ≥ 0 ;
2. P(Ω) = 1 (événement certain) ;
3. Si A1 , A2 , ..., est une séquence infinie d’événements par paires mutuellement
exclusifs, i.e. Ai ∩ Aj = ∅, pour i 6= j, et Ai , Aj ⊂ Ω, alors


X
P(∪∞
i=1 Ai ) = P(Ai ).
i=1

Remarques 4.2 (Concept axiomatique de probabilités).


Les conséquences de cette dernière définition sont :
1. P(∅) = 0 ;
2. Pour une séquence finie de Pn événements A1 , A2 , ... , An , par paires mutuelle-
ment exclusifs, P(∪ni=1 Ai ) = ni=1 P(Ai ) ;
3. 0 ≤ P(A) ≤ 1 pour tout événement A ⊆ Ω.

Propriétés 4.1 (Probabilités : quelques propriétés).


Soient A, B ⊂ Ω. On a :
1. P(Ac ) = 1 − P(A), où Ac := Ω \ A ;
2. Si A ⊂ B, alors P(A) ≤ P(B) ;
3. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). Si P(A ∩ B) = ∅, alors

P(A ∪ B) = P(A) + P(B).

Proposition 4.1 (Principe de multiplication).


Soient m expériences aléatoires désignées par A1 , A2 , ... , Am , avec respectivement
n1 , n2 , ... , nm résultats possibles. Supposons que pour chaque résultat possible de A1 ,
il y ait n2 résultats possibles de A2 , et ainsi de suite. Alors, il y a n1 · n2 · ... · nm résultats
possibles pour l’expérience composite {A1 , A2 , ... , Am }.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
32 I NTRODUCTION À LA STATISTIQUE I

F IGURE 5 – Arbre de probabilités

r3(B)

r2(A) r2(B) Le nombre de


branches au sommet
r1(B) de l’arbre nous donne
le nombre de résultats
r3(B) possibles de
l’expérience {A, B} :
r1(A) r2(B) n1 · n2 = 2 · 3 = 6.

r1(B)

Le principe de multiplication peut être illustré graphiquement par ce qu’on appelle


un arbre de probabilités. La figure 5 représente un arbre pour m = 2 expériences
aléatoires désignées par A et B avec respectivement n1 = 2, n2 = 3 résultats possibles.

Définition 4.9 (Probabilité conditionnelle d’un événement).


Soient A, B ⊆ Ω deux événements. La probabilité conditionnelle de A étant donné
que B s’est réalisé, notée P(A|B), est égale à

P(A ∩ B)
P(A|B) = ,
P(B)
où P(B) > 0.

Propriétés 4.2 (Probabilités conditionnelles : quelques propriétés).


Soient A, B, E1 , E2 ⊂ Ω. On a :
1. Si E2 ⊂ E1 , alors P(E2 |A) ≤ P(E1 |A) ;
2. P(B|A) = 1 − P(B c |A) ;
3. P(E1 ∪ E2 |A) = P(E1 |A) + P(E2 |A) − P(E1 ∩ E2 |A) ;
4. P(A ∩ B) = P(B)P(A|B) = P(A)P(B|A).

Remarque 4.1 (Probabilités conditionnelles).


Soient A1 , A2 , ... , An ⊂ Ω. On a :

P(A1 ∩ A2 ∩ ... ∩ An ) =P(A1 )P(A2 |A1 )P(A3 |A1 ∩ A2 )·


...
· P(An |A1 ∩ A2 ∩ ... ∩ An−1 ).


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 33

Définition 4.10 (Événements indépendants).


Deux événements A, B ⊆ Ω, tels que P(A) 6= 0 et P(B) 6= 0, sont dits indépendants,
si P(A|B) = P(A) et P(B|A) = P(B). Dans le cas contraire, A et B sont dépendants.

En utilisant la définition de la probabilité conditionnelle, on peut vérifier que si


A, B ⊂ Ω sont deux événements indépendants, alors P(A ∩ B) = P(A)P(B). En effet,

P(A ∩ B)
P(A|B) = = P(A), [car indépendance]
P(B)
et donc P(A ∩ B) = P(A)P(B).

Proposition 4.2 (Probabilité totale).


Soit Ω = A1 ∪ A2 ∪ ... ∪ An , avec P(Ai ) > 0, i = 1, 2, ... , n, et Ai ∩ Aj = ∅ pour i 6= j.
Alors, pour tout événement B ⊂ Ω, on a :
n
X
P(B) = P(Ai )P(B|Ai ).
i=1

Le révérend Thomas Bayes (1701–1761) (B AYES (1763)) a formulé une règle qui
est à l’origine et à la base de la statistique bayésienne.

Proposition 4.3 (Règle (ou théorème) de Bayes).


Soit Ω = A1 ∪ A2 ∪ ... ∪ An , avec P(Ai ) > 0, i = 1, 2, ... , n, et Ai ∩ Aj = ∅ pour i 6= j.
Alors, pour tout événement B ⊂ Ω, avec P(B) > 0, on a :

P(Aj )P(B|Aj ) P(Aj )P(B|Aj )


P(Aj |B) = Pn = .
i=1 P(Ai )P(B|Ai )
P(B)

Remarque 4.2 (Règle (ou théorème) de Bayes).


On écrit souvent la règle de Bayes de la manière suivante :

P(Aj |B) ∝ P(Aj )P(B|Aj )


Pn −
où ∝ se traduit par « est proportionnel à », le facteur de proportionnalité étant i=1 P(Ai )P(B|Ai )
On appelle P(Aj ) la probabilité a priori, P(B|Aj ) la vraisemblance et P(Aj |B) la proba-
bilité a posteriori.

4.2 Variables aléatoires et lois de probabilité

On aimerait par le biais d’une fonction associer à chaque résultat possible d’un
événement un nombre. Le concept de variable aléatoire va nous permettre cela.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
34 I NTRODUCTION À LA STATISTIQUE I

Définition 4.11 (Variable aléatoire).


Une variable aléatoire (v.a.) (« random variable »), notée X , est une fonction défi-
nie sur l’espace des événements Ω, qui associe à chaque résultat possible ω ∈ Ω un
nombre réel, i.e. X (ω) = x, x ∈ R.

Il faut noter que dans la définition d’une variable aléatoire, le concept de probabilité
n’apparaît pas. Par contre, on tâchera de relier les valeurs prises par la variable à des
probabilités.

Notation 4.1 (Variable aléatoire).


Par convention, on note les variables aléatoires en majuscule (X , Y , Z ). Les va-
leurs prises par les variables sont notées en minuscule (x, y, z).

Définition 4.12 (Variable aléatoire discrète).


Une variable aléatoire est dite discrète si elle peut prendre un nombre fini ou infini
mais dénombrable de valeurs distinctes.

Définition 4.13 (Fonction ou loi de probabilité).


On appelle loi de probabilité ou fonction de probabilité (« probability mass function
(pmf) ») d’une variable aléatoire discrète X , la fonction p(xi ) suivante :

p(xi ) = P(X = xi ), i = 1, 2, ... .

Définition 4.14 (Fonction de densité et variable aléatoire continue).


Supposons qu’il existe pour une variable aléatoire X une fonction f : R → [0, ∞)
telle que pour tout intervalle [a, b],
Z b
P(X ∈ [a, b]) = f (t)dt.
a

Alors, f est appelée fonction de densité (« probability density function (pdf) », « density
function ») de la variable aléatoire X . Dans ce cas, la variable aléatoire X est dite
continue.

Propriétés 4.3 (Loi de probabilité ou fonction de densité).


1. Soit X , unePvariable aléatoire discrète. Alors, la loi de probabilité doit satisfaire :
p(xi ) ≥ 0 ; i p(xi ) = 1;
2. Soit X , une variableR aléatoire continue. Alors, la fonction de densité doit satis-

faire : f (x) ≥ 0, ∀x ; −∞ f (x)dx = 1.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 35

Définition 4.15 (Fonction de distribution cumulée).


On appelle fonction de distribution cumulée ou tout simplement fonction de distri-
bution (fonction de répartition, « cumulative distribution function (cdf) ») d’une variable
aléatoire X , la fonction F (x) suivante :

F (x) = P(X ≤ x).

Si X est une variable aléatoire discrète, alors


X
F (x) = p(y), −∞ < x < ∞.
∀y≤x

Si X est une variable aléatoire continue, alors


Z x
F (x) = f (t)dt.
−∞

Propriétés 4.4 (Fonction de distribution).


1. 0 ≤ F (x) ≤ 1 ;
2. limx→−∞ F (x) = 0 et limx→∞ F (x) = 1 ;
3. F est une fonction non décroissante et continue à droite.

Remarques 4.3.
1. Soit F (x), la fonction de distribution de la variable aléatoire X . On dira que X
« est distribuée selon » ou « suit » F (x) et on écrira

X ∼ F (x);
2. Si F est la fonction de distribution de la variable aléatoire continue X , alors la
fonction de densité f (x) de la variable aléatoire X est

dF (x)
f (x) = ;
dx
3. Soient f et F respectivement la fonction de densité et la fonction de distribution
de la variable aléatoire continue X . Alors,
Z b
P(a ≤ X ≤ b) = f (x)dx = F (b) − F (a).
a

Définitions 4.16 (Espérance mathématique).


On appelle espérance mathématique ou simplement espérance d’une variable
aléatoire X , notée µ ou E(X ),


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
36 I NTRODUCTION À LA STATISTIQUE I

1. pour X discrète de fonction de probabilité p(x),


X
µ = E(X ) = x p(x);
∀x

2. pour X continue de fonction de densité f (x),


Z ∞
µ = E(X ) = x f (x)dx.
−∞

Définition 4.17 (Variance et écart-type).


On appelle variance d’une variable aléatoire X , notée σ 2 ou Var(X ),

σ 2 = Var(X ) = E(X − µ)2 .



La racine carrée de la variance, i.e. σ = σ 2 , est l’écart-type de X .

Les tables 3 et 4 présentent quelques lois de probabilité discrètes et continues. Les


lois sont données avec leurs paramètres. Pour les lois chi-carrée, Student et Fisher-
Snedecor, les paramètres ν, ν1 et ν2 sont appelés degrés de liberté (« degrees of
freedom »).

TABLE 3 – Quelques lois de probabilité discrètes

Loi de Bernoulli : Bernoulli (p)


Loi binomiale : bin (n, p)
Loi uniforme (cas discret) : U (a, b)
Loi de Poisson : Poisson (λ)

TABLE 4 – Quelques lois de probabilité continues


Loi normale : N µ, σ 2
Loi chi-carrée : χ2ν
Loi Student ou loi t : tν
Loi de Fisher-Snedecor ou F : Fν1 ;ν2
Loi uniforme (cas continu) : U (a, b)


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 37

4.3 Inférence statistique et intervalle de confiance

On s’interroge sur la forme ou sur les paramètres de la distribution d’une variable


d’étude. Par exemple, est-ce qu’il s’agit d’une distribution normale ou est-ce que les
paramètres d’une distribution supposée normale sont égaux à une certaine valeur µ0
et σ0 ?
Se poser de telles questions est ce qu’on appelle faire de l’inférence statistique ou
des tests d’hypothèses ou des tests statistiques.
La théorie classique des tests d’hypothèse trouve son origine dans les travaux
de E. S. Pearson et J. Neyman. Dans cette théorie, un test est constitué de deux
hypothèses que l’on va opposer :
— l’hypothèse nulle, notée H0 ;
— l’hypothèse alternative, notée H1 .

Le test consistera à rejeter ou ne pas rejeter l’hypothèse nulle H0 par rapport à


l’hypothèse alternative H1 . On dira que l’on teste H0 contre H1 .
Définition 4.18 (Hypothèse statistique).
Une hypothèse statistique, notée H, est une supposition ou une conjecture au
sujet de la distribution d’une ou de plusieurs variables aléatoires.

Exemple 4.19 (Hypothèses statistiques).


On aimerait faire un test d’hypothèses sur le paramètre µ d’une distribution. On
considérera l’hypothèse nulle : H0 : µ = µ0 et les hypothèses alternatives suivantes :

H1 : µ 6= µ0 , [hyp. bilatère ou bilatérale]


ou H1 : µ < µ0 , [hyp. unilatère ou unilatérale]
ou H1 : µ > µ0 . [hyp. unilatère ou unilatérale]

Si l’hypothèse alternative est bilatérale, on parlera de test bilatéral (« two-sided


test »). Dans le cas contraire, le test sera unilatéral (« one-sided test »).

Définition 4.20 (Test statistique).


Un test d’une hypothèse statistique H est une règle de décision permettant de
rejeter ou non H.

Le test statistique va permettre de vérifier empiriquement sur la base d’un échan-


tillon la « justesse » d’une hypothèse. L’hypothèse que l’on cherche à vérifier sera
l’hypothèse alternative (hypothèse de travail). L’hypothèse nulle, présumée juste jus-
qu’à vérification, est celle que l’on tentera de rejeter.
Le test se fera à l’aide d’une statistique de test. C’est une fonction de l’échantillon.
On rejettera l’hypothèse nulle, si la valeur de la statistique de test appartient à la zone


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
38 I NTRODUCTION À LA STATISTIQUE I

critique ou zone de rejet du test. Cette zone de rejet est construite de manière ad hoc
selon le test que l’on effectue.

Définitions 4.21 (Les types d’erreur).


1. Une erreur de type I (ou erreur α) est le rejet de l’hypothèse nulle H0 alors que
H0 est vraie.
La probabilité de commettre une erreur de type I est notée α.
2. Une erreur de type II (ou erreur β) est l’acceptation de l’hypothèse nulle H0 alors
que H0 est fausse (H1 est vraie).
La probabilité de commettre une erreur de type II est notée β.

TABLE 5 – Tableau 1 : Types d’erreur

Décision
Accepter H0 Rejeter H0
H0 Décision juste Erreur de type
Vraie I
H1 Erreur de type Décision juste
II

Un test optimal serait celui qui minimiserait les deux types d’erreur. Or il est im-
possible de les minimiser simultanément. La stratégie adoptée est de fixer α et sous
cette condition de minimiser β.
On va construire la règle de décision du test en choisissant α. On fixe d’habitude
α petit, e.g. 10%, 5%, 1%.

Définition 4.22 (Niveau (ou seuil) de signification).


On appelle α le niveau (ou seuil) de signification du test.

Définition 4.23 (P-value).


On appelle P-value, la probabilité (observée) d’avoir observé un échantillon parti-
culier (ou tout autre échantillon constituant un « témoignage encore plus fort contre
l’hypothèse nulle ») étant donné que l’hypothèse nulle est vraie.

L’interprétation de la P-value est donc la suivante :


Plus la P-value est petite, plus fortes sont les évidences (en provenance
de l’échantillon) de rejeter H0 .


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 39

On rejettera l’hypothèse nulle au seuil α, si la P-value associée à la statistique de


test est plus petite ou égale à α.
Un test connu sous le nom de T-test permet de tester l’espérance mathématique
d’une distribution normale, de variance inconnue, e.g. tester H0 : µ = µ0 contre H1 :
µ 6= µ0 . Pour cela, il faut estimer la statistique de test :
x̄ − µ0
tobs := √ .
s/ n
On applique ensuite les règles de décision suivantes :
R ÈGLES DE DÉCISION :
Pour tester au seuil α, H0 : µ = µ0 contre H1 : µ 6= µ0 , on rejette H0 , si |tobs | >
t1−α/2;n−1 ;
Pour tester au seuil α, H0 : µ = µ0 contre H1 : µ < µ0 , on rejette H0 , si tobs <
−t1−α;n−1 ;
Pour tester au seuil α, H0 : µ = µ0 contre H1 : µ > µ0 , on rejette H0 , si tobs >
t1−α;n−1 .
où t1−α/2;n−1 et t1−α;n−1 sont respectivement le 1 − α/2-quantile et le 1 − α-quantile
d’une loi de Student à n − 1 degrés de liberté. Si les degrés de liberté sont grands, on
approximera ces quantiles par ceux d’une loi normale.
Pour un paramètre inconnu θ, on peut construire un intervalle de confiance (« confi-
dence interval »), tel que P (θ ∈ [Ii , Is ]) = 1−α, où α ∈ [0, 1] est un nombre choisi petit,
e.g. α égal à 10%, 5% et 1%. Les bornes de l’intervalle sont des variables aléatoires.
Le nombre 1 − α est appelé le niveau de confiance de l’intervalle.
Par exemple, un intervalle de confiance pour l’espérance mathématique µ d’une
loi normale, de variance inconnue, au niveau de confiance 1 − α, peut être estimé de
la manière suivante :
h s s i
x̄ − t1−α/2;n−1 √ ; x̄ + t1−α/2;n−1 √ .
n n


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
40 I NTRODUCTION À LA STATISTIQUE I


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 41

Références
AGRESTI, Alan et Christine F RANKLIN (2013). Statistics. The Art and Science of Lear-
ning from Data. The Art and Science of Learning from Data. Third Edition, Inter-
national Edition. Pearson, p. 757.
B AYES, Thomas (23 déc. 1763). “An essay towards solving a problem in the doctrine
of chances”. In : The Philosophical Transactions of the Royal Society of London
53, p. 370-418.
B EN -N AIM, Arieh (2015). Discover Probability. How to Use It, How to Avoid Misusing
It, and How It Affects Every Aspect of Your Life. World Scientific Publisching Co.
Pte. Ltd.
B ERMAN, Jules J. (2013). Principles of Big Data. Elsevier. 261 p. ISBN : 978-0-12-
404576-7.
B ERNOULLI, Jakob (1713). Ars conjectandi, opus posthumum. Accedit Tractatus de
seriebus infinitis, et epistola gallicé scripta de ludo pilae reticularis. Basel : Thur-
neysen Brothers.
C LEVELAND, William S. (1993). Visualizing data. Hobart Press.
— (1994). The elements of graphing data. Hobart Press.
D E G ROOT, Morris H. et Mark J. S CHERVISH (2012). Probability and Statistics. Fourth
Edition. Pearson Education, Inc.
G INI, C. (1910). Indici di concentrazione e di dipendenza. Tipografia Nazionale di G.
Bertero e C. URL : http://books.google.ch/books?id=sb3BoAEACAAJ.
— (1912). Variabilitä e mutabilità : contributo allo studio delle distribuzioni e delle
relazioni statistiche. ptie. 1. Tipogr. di P. Cuppini. URL : http://books.google.ch/
books?id=fqjaBPMxB9kC.
H AHN, Corinne et Sandrine M ACÉ (2012). Méthodes statistiques appliquées au ma-
nagement. Pearson, p. 342.
H ARRIS, Robert L. (1999). Information Graphics. A Comprehensive Illustrated Refe-
rence. Oxford University Press.
H YNDMAN, Rob J. et Yanan FAN (1996). “Sample Quantiles in Statistical Packages”.
In : The American Statistician 50.4, p. 361-365. ISSN : 00031305. URL : http :
//www.jstor.org/stable/2684934.
KOLMOGOROV, Andrey Nikolaevich (1933). Grundbegriffe der Wahrscheinlichkeits-
rechnung. Berlin : Julius Springer.
L ORENZ, M. O. (1905). “Methods of Measuring the Concentration of Wealth”. In : Publi-
cations of the American Statistical Association 9.70, p. 209-219. ISSN : 15225437.
URL : http://www.jstor.org/stable/2276207.
P OWERS, D. A. et Y. X IE (2000). Statistical Methods for Categorical Data Analysis.
Academic Press, p. 305.
R OBBINS, Naomi B. (2005). Creating More Effective Graphs. John Wiley & Sons, Inc.
R OSS, Sheldon M (2007). Initiation aux probabilités. Presses polytechniques et uni-
versitaires romandes.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
42 I NTRODUCTION À LA STATISTIQUE I

S COTT, David W. (1979). “On Optimal and Data-Based Histograms”. In : Biometrika


66.3, p. 605-610. ISSN : 00063444. URL : http : / / www . jstor . org / stable /
2335182.
S TURGES, Herbert A. (1926). “The Choice of a Class Interval”. In : Journal of the
American Statistical Association 21.153, p. 65-66. ISSN : 01621459. URL : http:
//www.jstor.org/stable/2965501.
S WIRES -H ENNESSY, Ed (2014). Presenting Data. How to Communicate Your Mes-
sage Effectively. John Wiley & Sons, Ltd.
T RIBOUT, Brigitte (2013). Statistique pour économiste et gestionnaire. 2e édition.
Pearson.
T RIOLA, Mario F. (2014). Elementary Statistics. Twelfth Edition, International Edition.
Pearson, p. 822.
T UFTE, Edward R. (2001). The Visual Display of Quantitative Information. Graphics
Press LLC.
T UKEY, John W. (1977). Exploratory Data Analysis. Massachusetts, USA : Addison-
Wesley Publishing Company. pp. 688.
W EWEL, Max C. (2014). Statistik im Bachelor-Studium der BWL und VWL. Statistik
im Bachelor-Studium der BWL und VWL. Methoden, Anwendung, Interpretation.
Methoden, Anwendung, Interpretation. 3., aktualisierte Auflage. Pearson, p. 352.
W ILK, M. B. et R. G NANADESIKAN (1968). “Probability Plotting Methods for the Ana-
lysis of Data”. In : Biometrika 55.1, p. 1-17. ISSN : 00063444. URL : http://www.
jstor.org/stable/2334448.


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
Index
Aléatoire, 29 asymétrique, 16, 19
expérience, 29 bimodale, 16
Arbre de probabilités, 32 curtosie, 16
empirique, 10, 13, 18
Bandwidth, 15 exponentielle, 26
Bayes fonction, 26
Théorème, 33 fonction cumulée empirique, 14
Box-plot, 21 Gauss (de), 26
gaussienne, 26
Caractéristique, 7 graphe des probabilités normales, 27
Catégorie, 10 graphe des quantiles, 27
Centile, 18 leptocurtique, 16
Classe, 10, 12 mésocurtique, 16
centre (de), 12 multimodale, 16
largeur (de), 12 non aplatie, 16
Coefficient normale, 26
β1 et β2 de Pearson, 23 standardisation, 26
asymétrie (d’), 23 normale cumulée, 26
curtosie (de), 23 platycurtique, 16
Fisher (de), 23 q-q plot, 27
Gini (de), 25 standard normale, 26
variation (de), 22 symétrique, 16, 19
Concentration théorique, 26
indice de Gini, 23 unimodale, 16
relative, 23 Données
Courbe de Lorenz, 23, 24 centrer, 21
généralisée, 25 réduire, 21
Curtosie, 16 standardiser, 21

Décile, 18 Écart absolu moyen, 19


Degrés de liberté, 36 Écart interquartile, 19
Déviation absolue médiane, 19 Écart-type, 20, 36
Diagramme boîte, 21 empirique, 20
Diagramme en bâton, 11 Échantillon, 7
Différence moyenne de Gini, 24 taille, 7
Disparité Effectif, 10
maximale, 23 Ensemble fondamental, 29
minimale, 23 Erreur
Dispersion, 20 type I (de), 38
Distribution type II (de), 38
aplatie, 16 Espace

43
44 I NTRODUCTION À LA STATISTIQUE I

événements, 29 Indépendance, 32
probabilités, 29 Indice de concentration de Gini, 23
Espérance mathématique, 35 Inférence, 29
Étendue, 19 Intervalle de confiance, 39
Événement, 30
disjoints, 30 Kernel, 14
indépendance, 32 bandwidth, 14
indépendants, 32 Epanechnikov, 16
mutuellement exclusifs, 30 fonction, 14
probabilité conditionnelle, 32 optimal, 16
Expérience aléatoire, 29 Lissage, 15
conditions, 29 Loi
essai, 29 probabilité (de), 26, 33, 34, 36
Fonction Médiane, 18, 19
densité (de), 26, 34 robuste, 19
densité empirique, 15 Mesure
distribution (de), 26 asymétrie (d’), 17, 22
cumulée, 34 curtosie (de), 17, 22
kernel, 14 dispersion (de), 17, 19
kernel uniforme, 14 échelle (d’), 17
probabilité (de), 34 localisation (de), 17
quantile tendance centrale (de), 17
distribution normale, 26 Modalité, 8, 10
quantile empirique, 18 Mode, 17, 19
répartition (de), 34 Moment empirique, 22
Fréquence, 10 centré d’ordre k, 22
absolue, 10 ordre k (d’), 22
relative, 10 Moyenne, 19
relative cumulée, 11 observations groupées, 17
Graphe pondérée, 17
probabilités normales (des), 28 simple, 17
Graphique par secteur, 11 Multiplication
principe, 31
Histogramme, 13
algorithme, 13 Niveau
fonction, 13 confiance (de), 39
Hypothèse signification (de), 38
alternative, 37 Observation, 8
nulle, 37
statistique, 37 Pondération
test, 37 poids, 17
travail (de), 37 Population, 7


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)
SA 2018 45

taille, 7 T-test, 39
Probabilité
a posteriori, 33 Unité, 7
a priori, 33 Univers, 29
arbre, 32 Valeur
conditionnelle, 32 aberrante, 19, 21
Définition axiomatique, 31 adjacente
Définition en termes de fréquences, 31 inférieure, 21
Définition informelle, 30 supérieure, 21
fonction (de), 34 Variable, 8
loi (de), 33 aléatoire, 33
normale, 28 continue, 34
Théorie (des), 29 discrète, 34
totale, 33 binaire, 8
P-value, 38 catégorielle, 8, 10
q-q plot, 28 continue, 8
α-quantile, 18 dichotomique, 8
Quartile, 18 discrète, 8
inférieur, 18 étude (d’), 8
supérieur, 18 intérêt (d’), 8
Quintile, 18 muette, 8
nominale, 8
Seuil ordinale, 8
signification (de), 38 polytomique, 8
Statistique, 7 qualitative, 8
bayésienne, 33 quantitative, 8, 12
inférence, 37 statistique, 8
ordre (d’), 18 Variance, 20, 36
test, 29, 37 empirique, 20
test (de), 37 estimateur sans biais, 20
unité, 7 observations groupées, 20
Statistique d’ordre, 27 Vraisemblance, 33
Stochastique, 29
Zone
Table de contingence, 11 critique (de), 37
Tableau croisé, 11 rejet (de), 37
Tableau statistique, 11 z-score, 21
Taille, 7
Test, 29
espérance mathématique (de l’), 39
hypothèse statistique (d’une), 37
hypothèses (d’), 37
statistique, 37


c L. Donzé, Département d’informatique, Université de Fribourg (Suisse)

Vous aimerez peut-être aussi