MAT206 COURS Aghoukeng

MAT 206: INTRODUCTION A LA STATISTIQUE
Ce cours à pour objectifs de données les bases de la statistique au jeune

mathématicien.
son programme est le suivant :
1. Statistique descriptives
2. Variable aléatoire Continue
3. Introduction à la théorie de l’estimation
4. Introduction à la théorie des tests.
5. Introduction aux series chronologiques
1
Première partie
Statistique descriptives
2
Chapitre 1
Généralité de la statistique
descriptive
1.1 Définition
Selon la définition de l’encyclopédia Universalis, le mot statistique désigne
à la fois un ensemble d’observation et l’activité qui consiste dans leur recueil,
leur traitement et leur interpretation. Nous dirons que la statistique est une
méthode mathématique qui permet de décrire quantitativement et qualitati-
vement les données qui sont susceptibles d’être influencées par le hasard ou
plus simplement, on appelle statistique l’ensemble des techniques et méthodes
permettant d’analyser (traiter) des ensembles des données. Nous voyons bien
que cette definition permet de faire la différence avec les statistiques qui
peuvent signifier les résultats des recencements ou des calculs. Pour conclure
la statistique est outil d’aide à la prise des décisions. Tout travail statistique
n’a de sens que s’il conduit à la prise des décisions et à l’action.
1.2 Terminologie de base

Précisons le sens de certains termes fondamentaux pour une étude statis-
tique
1.2.1 Unites statistique

Définition 1 On appelle Population ou population statistique ou univers
statistique l’ensemble des personnes, d’objets ou des élements sur lesquels
porte l’étude. On parle parfois de champs de l’étude.
3
Définition 2 On appelle individu ou unité statistique tout élement de la
population.
Exemple 3 L’ensemble des livres de la bibliothèque de l’université de Yaoundé
I forme une population. L’individu est un livre de la bibliothèque.
Définition 4 On appelle échantillon, un ensemble d’élements tirés au ha-
sard de la population sur lequel on éffectue une étude exhaustive pour ensuite
porter certaines conclusions sur l’ensemble de la population. C’est simple-
ment un sous ensemble de la population.
Exemple 5 De l’exemple précedent, un échantillon c’est l’ensemble de 100
livres de statistiques.
Définition 6 La taille d’une population (resp d’un échantillon) est le car-
dinal (le nombre d’élement) de la population (resp de l’échantillon). Elle est
généralement notée N (resp n.)
Exemple 7 De l’exemple précedent, la taille de l’échantillon est 100
1.2.2 Caractères
Chaque individus de la population peut être considéré selon un ou plu-
sieurs caractères
Définition 8 Un caractère ou une variable statistique est un critère étudié
dans la population. c’est une caractèristique relative à chacun des individus
de la population et sur laquelle on veut faire porter l’étude. c’est une variable
aléatoire sur l’ensemble fondamental Ω = population.
Exemple 9 Les domaines abordés dans les livres, le poids du livre, le nombre
de page du livre, la lanque utilisée dans le livre.
Chacun des caractères étudiés peut présenter deux ou plusieurs modalités
Définition 10 Les modalités sont les différentes situations où les individus
peuvent se trouver à l’égard du caractère considéré. Le nombre de modalités
varie selon le niveau de détails de l’information disponible
Exemple 11 De l’exemple précedent, la langue du livre peut être le français,
l’anglais, l’allemand, l’espagnol etc., le français, l’anglais, l’espagnol sont des
modalités du caractère langue
Les modalités d’un caractère sont à la fois incompatibles et exhaustive
c’est à dire un individus de la population ne doit posséder qu’une et une seule
modalité.
4
1.2.3 Les types de caractères
On classe les caractères en deux catégories : le caractère qualitatif et le
caractère quantitatif. Parmi ces derniers, on distingue le caractère quatitatifs
discret et le caractère quantitatif continu
Définition 12 Un caractère est dit qualitatif si ses diverses modalités ne
sont pas mesurables. On parle également d’attributs ou de variables catégorielle.
Dans la littérature, on fait la différence entre les variables qualitatives
nominales et les variables qualitatives ordinales. Une variable qualitative or-
dinale est une variable sur lequel on peut y établir un ordre. ce qui n’est pas
le cas pour les variables qualitatives nominale.
Exemple 13 le diplome est une variable qualitative ordinale alors que le
sexe, la réligion, la nationalité, la langue parlée dans un pays sont des va-
riables qualitatives nominales.
Définition 14 Un caractère est dit quantitatif si ses différentes modalités
sont mésurables ou répérables. Chaque modalité correspond à un nombre. ce
nombre varie d’une modalité à une autre. Un caractère quanttatif est ausi
appélé variable statitique.
Exemple 15 Le poids, la taille, le nombre de page d’un livre.
Définition 16 Une variable statitique est dite discrete lorsque ses valeurs
possibles sont des nombres isolés. les cas les plus généralement rencontrés
sont ceux où les valeurs possibles sont les entiers.
Exemple 17 Le nombre d’enfants d’un couple, le nombre de page d’un livre.
Définition 18 Une variable statistique est dite continue lorsque ses valeurs
possibles sont à priori en nombre infini et quelconques dans un intervalle de
valeurs.
Exemple 19 La taille, le poids
1.2.4 Le caractère quantitatif continu

Les observations d’une variable statistique continue sont généralement
regroupées en intervalles disjoints successifs et contigues (deux à deux dis-
joints) appélés classes. Le regroupement en classe permet de condenser les
données et de les rendre plus commode à étudier.
Définition 20 On appelle extremités ou limites de la classe, les nombres
entre lesquels sont comprises les valeurs rangées dans une classe. On la
5
note souvent [ei−1 ,ei ]. ei−1 est l’extremité inferieure(ou initiale) de la classe
[ei−1 ,ei ]. ei est l’extremité supérieure (ou finale) de la classe [ei−1 ,ei ].
Remarque 21 Un individu de la population doit être dans une classe et une

seule.
On est souvent améné à recalculer les limites réelles des classes surtout
lorsque les extremités des classes ne sont pas contigus. Ces limites doivent
être calculées de manière à conserver les centres des classes, les effectifs des
classes et avoir des classes adjacentes.
Définition 22 La largeur de la classe ou la longueur de l’intervalleest l’am-

plitude de la classe ai = ei − ei−1
6
Chapitre 2
Analyse d’une serie statistique

à un caractère
2.1 Introduction
Le chapitre précedant nous a permis de définir les élements de base de
la statistique. Notre objectifs dans le présent chapitre est de résumer, les
données sttistiques en remplaçant à celle ci un petit nombre de paramètres
(résultats numériques) qui permettent de synthètiser l’ensemble des données.
2.2 Representation des caractères quantita-

tifs continus
2.2.1 Tableau de fréquences
Lorsque la variable statistique est continue, les modalités du caractère
sont les classes des valeurs possibles définies par les extremités des classes.
Sa representation est la suivante
X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Fréquence absolue: ni n1 n2 ... ni ... nk N
Exemple 23 Distribution de poids de 100 adultes.
X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total

Effectifs : ni 5 12 31 31 16 5 100
7
2.2.2 Tableau de fréquences cumulées
La fréquence cumulée croissante (resp décroissante) correspondante à la
0
classe [ei−1 ,ei [ de la variable statistique Xnotée Fi (resp Fi ) se calcule de la
i−1 k
P 0 P 0
manière suivante : Fi = nj (resp Fi = nj ). Fi (resp Fi ) représente le
j=1 j=i
nombre d’individus dont les modalités du caractère sont inférieures ou égales
(resp. supérieures) à ei−1 . On la représente dans un tableau qui à la forme
suivante :
X: Classes [e1 ,e2 [ [e2 ,e3 [ ... [ei ,ei+1 [ ... [ek ,ek+1 [ Total
Effectifs: ni n1 n2 ... ni ... nk N
ECC 0 = F1 F2 = n1 ... Fi ... Fk = N − nk Fk+1 = N
0 0 0 0 0
ECD N = F1 F2 = N − n1 ... Fi ... Fk = nk Fk+1 = 0
0
où Fi = n1 + ... + ni−1 ; Fi = ni + ... + nk
Exemple 24 De l’exemple précedent on a :
X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total

Effectifs : ni 5 12 31 31 16 5 100
ECC 0 5 17 48 79 95 100
ECD 100 95 83 52 21 5 0
2.2.3 Diagramme différentiel ou histogramme

L’histogramme est la généralisation du diagramme en batons à la notion
de classe. Chaque classe [ei−1 ,ei [ dont la base est égale à l’amplitude ai de la
classe et la hauteur hi = naii où ni est l’effectif de la classe. Il ne doit pas y avoir
d’espace entre deux espaces consecutives et il ne doivent pas se chevaucher.
Lorsqu’on joint les points dont les abcisses sont les centres des differentes
classes et dont les coordonnées sont les hauteurs, on obtient le polygone des
effectifs ou des frequences. lorsqu’on lisse ce polygone, on obtient la courbe
des effectifs ou des fréquences.
2.2.4 Diagramme intégral

Le calcul de la fonction F se fait de la manière suivante :
Définition 25 Pour x ≤ e1 ,F (x) = F1 = 0,e1 est la limite inferieur de la

première classe.
8
Pour ei−1 < x ≤ ei ,F (x) = Fi ,i = 2,3,...,k
Pour x > ek , F (x) = Fk+1 = N, où N est l’effectif total.
On voit bien que F est une fonction en escalier. Lorsqu’on joint les points
de coordonnées (xi ,Fi ), on obtient le polygone des effectifs ou des frequences
cumulées croissants. lorsqu’on lisse ce polygone, on obtient la courbe des
effectifs ou des fréquences cumulées croissants ou la courbe cumulative.
Exemple 26 De l’exemple sur les la distribution des poids on a les gra-

phiques suivant: (à faire)
Remarque 27 1. Si on utilise les fréquences relatives, on remplace N

par 1 et par 100 si ce sont les pourcentages.
2. On peut également tracer la courbe (et ou le polygone ) des effectifs ou
fréquences cumulées décroissants.
2.2.5 e) Boite à moustache ou box plot

Une boı̂te à moustaches résume la série de données à l’aide des ca-
ractéristiques suivantes :
— la médiane est le trait centré au milieu de la boı̂te,
— la boı̂te est formée par les 1er quartile q1 et 3ème quartile q3 ,
— les moustaches sont définies par les valeurs observées les plus extrêmes
dans l’intervalle [q1 − 1,5(q3 − q1 ); q3 + 1,5(q3 − q1 )],
— les ◦◦ représentent les valeurs extrêmes non contenues dans l’intervalle
précédent.
Cette représentation permet également de comparer facilement la distri-
bution de différentes variables, ou encore de
la même variable pour différentes modalités d’une variable qualitative
2.3 Les paramètres de position ou caractéristiques

de tendance centrale
2.3.1 Le mode ou la dominante
Définition 28 Le mode est la valeur de la modalité qui apparait le plus sou-
vent dans la distribution. C’est la valeur de la modalité qui présente la plus
grande fréquence.Il est le plus souvent noté M0 . Lorsqu’il y’a un seul (resp
2) (resp. 3) (resp plusieurs) mode (s), on parle d’une distribution unimodale
(resp bimodale) (resp. trimodale) (resp. multimodale ou trimodale).
9
Dans le cas d’un cactère statistique continue avec les données regroupées
en classes, on parlera plutot de classe dominante ou de classe modale. c’est
celle qui a la plus grande hauteur ou la plus grande densité de fréquence. Le
mode dans ce cas est le centre de la classe modale.
Exemple 29 Dans l’exemple 3-11, le mode est la réligion caltholique. Dans

l’exemple 3-12, le mode est la valeur 4. Dans l’exemple 3-15, l’échantillon est
bimodale et les classes modale sont [50,55[et [55,60[ et les mode sont 52,5 et
57,5.
2.3.2 La médiane
Définition 30 La médiane d’une variable statistique est la valeur de cette
variable qui partage les individus, supposés rangés par ordre de valeurs crois-
sant ou décroissante de la variable en deux effectifs égaux. Elle est notée Me .
D’une manière générale, la médiane Me d’une variable statistique est la va-
leur de cette variable qui correspond à l’ordonnée 1/2 de la courbe cumulative.
F (Me ) = 12
Détermination de la médiane dans le cas de serie statistique avec

des données non groupées.
On range les observations par ordre croissant ou décroissant. Me = x (n+1)
2
x( n ) +x( n )+1
si n est impair et Me = 2
2
2
si n est pair.
Exemple 31 Les notes de 5 étudiant en Mat 118 sont : 6,14,8,17,12. on

classe et on a : 6,8,12,14,17 et Me = x3 = 12
Les notes de 6 étudiant en Mat 118 sont : 6,14,8,17,12,5. on classe et on
a : 5,6,8,12,14,17 et Me = x3 +x
2
4
= 10
Détermination de la médiane dans le cas de serie statistique avec

des données groupées.
Plusieurs se cas peuvent se presenter.
a) Cas d’un caractère statistique discret. Si la moitié de l’effectif total

apparait en clair sur la colonne des effectifs cumulés Sa ligne sépare deux
modalités xG et xD , alors l’intervalle [xG ,xD ] est un intervalle médian. Toute
10
valeur dans cette intervalle peut être la médiane. Par convention, on prend
Me = xG +x
2
D
Exemple 32
Poids xi Effectif ni Effectif cumulé croissant : Fi

10 14 0
20 18 14
30 14 32
40 11 46
50 3 57
60 4 60
Total 64 64
32 sépare xG = 20 et xD = 30; l’intervalle médiant [20,30] et la médianne

est Me = 20+30
2
= 25
Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des

effectifs cumulés elle est encadré par deux valeurs des effectifs cumulées et
ces deux valeurs encadrent une modalité. Cette modalité est la médiane.
Exemple 33
nombre d’enfants xi Effectif ni Effectif cumulé croissant : Fi

0 16 0
1 18 16
2 14 34
3 11 48
4 3 59
5 2 62
Total 64 64
32 est comprise entre 16 et 34. la seule valeur comprise entre les deux la
valeur 1. c’est donc notre médiane.
b) Cas d’un caractère statistique continu. Si la moitié de l’effectif

total apparait en clair sur la colonne des effectifs cumulés, sa ligne sépare
11
b+c
deux classes [a,b] et [c,d], alors la médiane est Me = 2
Exemple 34
Classe de poids xi Effectif ni Effectif cumulé croissant : Fi

[10,20[ 14 0
[20,30[ 18 14
[30,40[ 14 32
[40,50[ 11 46
[50,60[ 3 57
[60,70[ 4 60
Total 64 64
30+30
32 sépare [20,30[ et [30,40[ ; la médianne est Me = 2
= 30
Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des

effectifs cumulés elle est encadré par deux valeurs des effectifs cumulées
Fi−1 et Fi et ces deux valeurs encadrent une classe [ei−1 ,ei [. La médiane est
N N
i−1 −F −Fi−1
obtenue par interpolation. Me = ei−1 + F2i −Fi−1 (ei − ei−1 ) = ei−1 + 2
ni
ai
où ai est l’amplitude de la classe et ni l’effectif de la classe [ei−1 ,ei [
Exemple 35
Classe d’age xi Effectif ni Effectif cumulé croissant : Fi

[15,20[ 16 0
[20,25[ 18 16
[25,30[ 14 34
[30,35[ 11 48
[35,40[ 3 59
[40,45[ 2 62
Total 64 64
32−16
Me = 20 + 34−16
× 4 = 23,55
Remarque 36 Si vous travaillez avec les frequences relatives, la moitié de

l’effectif total est égal 0,5.
2.3.3 Les autres quantiles et percentiles

Les quartiles
Définition 37 Les quartiles sont les modalités du caractère qui permettent
de répartir l’ensemble de la population en quatres groupes d’effectifs égaux.
12
Une distribustion statistique a 3 quartiles gnéralement notée Q1 ,Q2 ,Q3 .
Q2 est confondu avec la médiane. Le quartile Qk est celui dont la fréquence
cumulée croissante correspond à l’effectif N 4×k où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.
Les autres quantiles particuliers

Définition 38 Les deciles (resp. les centiles ) sont les modalités du ca-
ractère qui permettent de tépartir l’ensemble de la population en 10 (resp
100) groupes d’effectifs égaux.
Une distribution statistique a 9 déciles d1 ,d2 ,...,d9 (resp. 99 centiles, c1 ,c2 ,...,c99 ).
Le decile dk (resp. le centile ck ) est celui qui correspond à une fréquence cu-
×k ×k
muléecroissante Fk = N10 (resp. Fk = N100 ) où N est l’effectif total de la
population. Leur détermnation algébrique obeit à la même démarche que le
calcul de la médiane et en utilisant u,iquement les effectifs cumulés croissants.
2.3.4 La moyenne
La moyenne arithmétique
Définition 39 La moyenne arithmétique est le centre de gravité d’une dis-
tribution. On la note x où mx .
Elle se calcule comme suit : x = N1 ki=1 ni xi où x =

P Pk
i=1 fi xi où N
est l’effectif total de la population et fi la fréquence relative de la modalité.
Lorsque le caractère statistique est continu avec les données regroupées Pk en
1
classe, les xi sont remplacés par les centres de classes ci . Ainsi x = N i=1 ni ci
Pk
où x = i=1 fi ci Pour simplifier la calcul de la moyenne arithmétique,
on peut proceder à un changement Pkde variable en remplaçant les xi par
0 xi −b 1 0
xi = a (a 6= 0) . et on a : x = N i=1 ni xi on retrouve x par x = ax0 + b
0
Exemple 40 De l’exemple 4-4, on a :

1
x = (10 × 14 + 20 × 18 + 30 × 14 + 40 × 11 + 50 × 3 + 60 × 4)
64
= 27,34
13
De l’exemple 4-6, on a
0 0
Classe poids xi Effectif ni ci ci ni ci
[10,20[ 14 15 -6 -84
[20,30[ 18 25 -4 -72
[30,40[ 14 35 -2 -28
:
[40,50[ 11 45 0 0
[50,60[ 3 55 2 6
[60,70[ 4 65 4 16
Total 64 -162
0
c0i = ci −45 , x0 = N1 ki=1 ni ci = −162
d’où x = 5x0 + 45 = 32,3.
P
5 64
,
Généralisation de la notion de moyenne: la ϕ − moyenne

ϕ est une fonction.
Définition 41 la ϕ−moyenne est la généralisation de la notion P de moyenne.
elle est notée xϕ et se calcule de la manière suivante : ϕ (xϕ ) = N ki=1 ni ϕ (xi )
1
On distingue quelque cas suivant :

– Lorsque ϕ : x 7→ ϕ (x) = x,ϕ est la fonction identité, xϕ = N1 ki=1 ni xi =
P
x est la moyenne arithmétique q P
– Lorsque ϕ : x 7→ ϕ (x) = x2 ,xϕ = N1 ki=1 ni x2i = xQ est la moyenne
quadratique
– Lorsque ϕ : x 7→ ϕ (x) = x1 ,xϕ = 1 Pk1 n x = xH est la moyenne
N i=1 i i
harmonique
k 1
Q ni N
– Lorsque ϕ : x 7→ ϕ (x) = log (x) ,xϕ = (xi ) = xG est la
i=1
moyenne géometrique
Remarque 42 1. xH ≤ xG ≤ x ≤ xQ
2. La moyenne utilise les mêmes unité que les modalités du caractère.
3. La moyenne arithmétique n’est rien d’autre que l’espérance mathématique.
2.4 Les parametres de dispersion

Les caracteristiques de dispersion servent à preciser la variabilité de la
serie c’est à dire à resumer l’éloignement de l’ensemble des observations par
rapport à leur étendue centrale. En d’autres termes, il faut déterminer les
élement qui permettent de dire si les observations sont fortement concentrer
autour du parametre de tendance centrale ou fortement dispersé.
14
2.4.1 L’étendue
Définition 43 C’est la largeur totale de la distribution notée E.
Pour une variable discrete dont les valeurs x1 ,x2 ,...,xn . ne sont pas re-
groupés en classes, l’étendue correspond à la difference entre la plus grande
modalité et la plus petite modalité du caractère. Pour une variable statistique
continue ou discrete avec valeurs regroupé en classe [ei ,ei+1 [ ,i = 0,1,...,k − 1,
alors E = ek − e1
Exemple 44 Pour les distribution suivantes, on a :
xi ni
18 12
19 25
20 32
21 27
22 8
[ei ,ei+1 [ ni
[15,20[ 8
[20,25[ 18
[25,30[ 23
[30,35[ 16
[35,40[ 10
E = 22 − 18 = 4
E = 40 − 15 = 25
2.4.2 L’écart interquartile et semi interquartile

Définition 45 L’écart interquartile noté EQ , mésure la différence entre le
3ème quartile et le 1er quartile. EQ = Q3 − Q1 . L’intervalle [Q1 ,Q3 ] est appélé
intervalle interquartile. il contient 50% des observations.
Définition 46 le semi-interquartile est la moitié de l’écart interquartile. Il

mésure la déviation moyenne des données par rapport à la moyenne.
2.4.3 L’écart moyen d’une distribution et l’écart médiant

Définition 47 L’écart moyen d’une distribution notée E est la moyenne
aritmétique des valeurs absolues des écarts par rapports à la moyenne arithmétique
15
k k
1
P P
de toutes les valeurs de cette distribution. E = N
ni |xi − x| = fi |xi − x|
i=1 i=1
N
1
P
si les données sont groupées en classes et E = N
|xi − x| sinon
i=1
Exemple 48
Nbre enfants xi 0 1 2 3 4 5 Total

Effectif ni 25 35 11 2 1 1 75
|xi − x| 0,96 0,04 1,04 2,04 3,04 4,04
ni |xi − x| 24 1,4 11,44 4,08 3,04 4,04 48
48
x = 0,96 et E = = 0,64
75
Définition 49 L’écart median d’une distribution notée EM est la moyenne
aritmétique des valeurs absolues des écarts par rapports à la médiane de
k k
toutes les valeurs de cette distribution. E = N1
P P
ni |xi − Me | = fi |xi − Me |
i=1 i=1
N
1
P
si les données sont groupées en classes et E = N
|xi − Me | sinon
i=1
2.4.4 La Variance et l’Ecart-type

Définition 50 La variance notée V d’une série statistique est la moyenne
arithmétique des carrées des écarts des données par rapport à la moyenne.
k k
1
ni (xi − x)2 = fi (xi − x)2 pour
P P
Cas des données groupées: V = N
i=1 i=1
k
1
ni x2i − x2 = x2 − x2 pour la formule de
P
la formule générale et V = N
i=1
Koenig
N
1
(xi − x)2 pour la formule générale
P
Cas des données non groupés: V = N
i=1
N
1
x2i − x2 = x2 − x2 pour la formule de Koenig
P
et V = N
i=1
Dans le calcul de la variance V, on peut également procéder à un chan-
gement de variable x0i = xia−b (a 6= 0) alors V = a2 V 0 . Le tableau statistique
standard pour le calcul de la variance est le suivant :
16
X ni ni xi ni x2i xi − x (xi − x)2 ni (xi − x)2
x1
x2
xk
k
P
Total N = ni A B C D E
i=1
2
A E B A
x = ;V = = −
N N N N
où
k
X
A = ni xi
i=1
Xk
B = ni x2i
i=1
Xk
C = xi − x
i=1
Xk
D = (xi − x)2
i=1
Xk
E = ni (xi − x)2
i=1
Définition 51 L’écart type encore appélée l’écart

√ quadratique moyen noté
σ est la racine carrée de la variance. σ = V . Si on fait changement de
variables alors σ = |a| σ 0 .
Il mésure la variabilité autour de la moyenne c’est à dire combien les ob-

servations sont réparties autour de la moyenne il est le paramtre de dispersion
le plus utilisé.
Remarque 52 Lorsque le caractère statistique est quantitatif continue avec

les données regroupées en classes, les modalités xi sont rempacées par les
centres des classes ci dans la formule.
17
Exemple 53
xi ni Ei = xi − x Ei2 ni Ei2
0 25 -0,96 0,9216 23,04
1 35 0,04 0,0016 0,056
2 11 1,04 1,0816 11,9
3 2 2,04 4,1616 8,3232
4 1 3,04 9,2416 9,2416
5 1 4,04 16,32 16,32
Total 75 68,88
68,88 p
V = = 0,92 enf ant2 ,σ = 0,92 = 0,95enf ant
75
Age ci ni c2i ni c2i

[18,19[ 18,5 16 342,25 5476
[19,20[ 19,5 27 380,25 10266,75
[20,21[ 20,5 38 420,25 15969,5
[21,22[ 21,5 37 462,25 17103,25
[22,23[ 22,5 19 506,25 9618,75
[23,24[ 23,5 10 552,25 5522,5
[24,25[ 24,5 3 600,25 1800,75
Total 150 65757,5
√
V = 65757,5
150
− (20,89)2 = 2,13 ans2 ,σ = 2,13 = 1,46ans
2.4.5 Le score et le coefficient de variation

Définition 54 Le score d’un individu de la population sera noté s. il mesure
à combien d’écart types l’observation d’un individus se trouve au dessus ou
au dessous de la moyenne. si = xiσ−x
Définition 55 Le coeffcient de variation notée Cv d’une distribution statis-
tique mesure la variation par unité de moyenne.Cv = σx
Le coefficient de variation permet de comparer deux series statistiques du
point de vue de la dispersion en éliminant les effets d’échelle ou d’unités. la
serie statistique qui a le plus grand Cv est le plus dispersée.
2.4.6 Les Moments

Définition 56 On appelle moment non centré d’odre r de la variable sta-
tistique X, la quantité notée mr qui désigne la moyenne arithméthique des
18
k
1
puissances rème des xi et calculée comme suit : mr = ni xri
P
N
i=1
Définition 57 On appelle moment centrée d’ordre r par rapport à x0 de la

variable statistique X, la quantité notée Mr,x0 qui est la moyenne arithméthique
des puissances rème des écarts des xi par rapport à x0 et calculée comme suit :
k
Mr,x0 = N1 ni (xi − x0 )r
P
i=1
Remarque 58 Lorsque
– r = 0,m0 = 1,M0,x0 = 1
– r = 1,m1 = x,M1,x = 0
– r = 2,M2,x = V
2.5 Les caracteristiques de formes

Ce sont les paramètres qui permettent d’évaluer l’asymétrie ou l’appla-
tissement de la courbe d’une serie statistique.
2.5.1 Le coéfficient d’asymetrie de Fischer.

Définition 59 Le coefficient d’asymétrie de Fischer permet d’évaluer l’asymétrie
ou le sens d’étalement de la courbe d’une serie statistique. Il est noté γ1 et se
M
calcule de la façon suivante : γ1 = σ3,x
3 où M3,x est le moment centré d’ordre
3 par rappport à x et σ l’écart type.
3 −2Me
Si on pose d = Q1 +Q 2Me
où Q1 ,Q3 sont les quartiles et Me la médiane.
Dans le cas d’une distribution unimodale,
– si γ1 = 0 = d alors la distribution est parfaitement symétrique.

– si γ1 > 0 (d > 0) l’étalement de la distribution est plus accentuée à
droite
– si γ1 < 0 (d < 0) l’étalement de la distribution est plus accentuée à
gauche
Graphique à faire
19
2.5.2 Le coefficient d’applatissement
Définition 60 Le coefficient d’applatissement de Yule ou de Fischer permet
d’évaluer l’applatissement de la courbe d’une serie statistique comparée à la
M
courbe de la loi normale. Notée γ2 , il se calcule comme suit: γ2 = σ4,x
4 −3
– si γ2 = 0 alors les deux courbes se confondent.

– si γ2 > 0 La courbe de la série est plus effilée que celle de Gauss
– si γ2 < 0 La courbe de la série est plus applatie que celle de Gauss
2.6 Les parametres de concentration

2.6.1 La médiale
Soit X la distribution d’une serie statistique à valeurs positives, on désigne
par xi les modalités de X et ni l’effectif de la modalité xi .
Définition 61 On appelle masse noté mi de la modalité xi le produit ni xi .

k
P
La masse globale de la série est M = mi où k est le nombre total des
i=1
i−1
P
modalités. Mi = mj est la masse cumulée croissante correspondante à la
j=1
modalité xi ou de la classe [ei−1 ,ei [ et represente la masse des individus dont
la modalité est inferieur à xi .
Définition 62 La médiale est la modalité qui sépare la masse globale en deux

parties égales c’est à dire celle qui correspond à M2 . Elle esst notée Md . Sa
détermination obéit à la même démarche que la détermination de la médiane
en utilisant les masses cumulées croissantes.
2.6.2 La courbe de concentration et indice de Gini

Définition 63 La courbe de concentration encore appélée la courbe de Lo-
rentz est la courbe qui permet d’évaluer les inégalités dans une distribution
statistique. C’est la courbe de representation des points FNi , M M
i
où Fi est la
fréquence absolue cumulée croissante de la modalité xi ,Mi est la masse cu-
mulée croissante de la modalité xi , N l’effectif total et M la masse globale de
la serie.
Fi Mi
Généralement on pose Pi = N
,Qi = M
20
Plus la courbe de Lorentz se rappoche de la diagonale, plus la distrinution
est égalitaire, plus elle s’éloigne, plus elle est inégalitaire.
Définition 64 Encore appélée indice de concentration; l’indice de Gini noté

g est un parametre statistique qui permet de mesurer l’inégalité d’une serie
statistique. Il se calcule comme suit: g = 2S où S est la surface comprise
entre la courbe de Lorents et la première bissectrice (diagonale). On montre
k−1
P k−1
P
que g = 1 − (Pi+1 − Pi ) (Qi+1 + Qi ) = 1 − fi (Qi+1 + Qi )
i=1 i=1
Plus g est grand plus la serie est inégalitaire. Elle est totalement inégalitaire
pour g = 1 et parfaitement égalitaire pour g = 0.
Exemple 65 Considérons une serie de salaire de 64 employés dans une

société de gardiennage
Salaire ni ci n i c i Pi Qi Ai Bi Ai Bi
[10,20[ 14 15 210 0/64 0 14/64 210/2070 14*210/64*2070
[20,30[ 18 25 450 14/64 210/2070 18/64 870/2070 18*870/64*2070
[30,40[ 14 35 490 32/64 660/2070 14/64 1810/2070 14*1810/64*2070
[40,50[ 11 45 495 46/64 1150/2070 11/64 2795/2070 11*2795/64*2070
[50,60[ 3 55 165 57/64 1645/2070 3/64 3455/2070 3*3455/64*2070
[60,70[ 4 65 260 60/64 1810/2070 4/64 5525/2070 4*5525/64*2070
Total 64 2070 64/64 2070/2070 D
où
k−1
X 107150
Ai = Pi+1 − Pi ,Bi = Qi+1 + Qi ,D = (Pi+1 − Pi ) (Qi+1 + Qi ) = = 0,808
i=1
132480
g = 1 − 0,808 = 0,191
Graphique à faire
2.7 Les melanges de population

Soit une population P formée de sous population P1 ,P2 ,...,Pm d’effectif
n.1 ,n.2 ,...,n.m . Les formules de mélanges des populations permettant d’établir
des relations entre les parametres statistiques calculés dans la population et
les sous populations. Considérons le tableau suivant :
21
xi ou [ei−1 ,ei [ Sous population Total
P1 P2 ... Pj Pj+1 ... Pm−1 Pm
x1 ou [e0 ,e1 [ n11 n12 ... n1j n1(j+1) ... n1(m−1) n1m n1·
x2 ou [e1 ,e2 [ n21 n22 ... n2j n2(j+1) ... n2(m−1) n2m n2·
.. .. .. . .. . .. ..
. . . ... .. . ... .. . .
xi ou [ei−1 ,ei [ ni1 ni2 ... nij ni(j+1) ... ni(m−1) nim ni·
.. .. .. . .. .. .. ..
. . . ... .. . ... . . .
xk ou [ek−1 ,ek [ nk1 nk2 ... nkj nk(j+1) ... nk(m−1) nkm nk·
Total n·1 n·2 ... n·j n·j+1 ... n·m−1 n·m n··
nij est l’effectif de la sous population Pj qui présente la modalité xi ou

k
P
qui sont dans la classe [ei−1 ,ei [ . n·j = nij est l’effectif total de la sous
i=1
m
P
population Pj toute modalité confondu. ni· = nij est l’effectif total de la
j=1
k P
P m k
P
population P qui presente la modalité xi N = n·· = nij = ni· =
i=1 j=1 i=1
m
P
n·j represente la taille de la population.
j=1
Désignons par x,V,σ (resp xj ,Vj ,σj ) la moyenne, la variance, l’écart-type
de la distribution du caractère X dans la population P (Resp. dans la sous
k k
population Pj ).On a : x = n1·· ni· xi ,V = σ 2 = n1·· ni· (xi − x)2 =
P P
i=1 i=1
1
k √
ni· x2i − x2 ,σ =
P
n··
V
i=1
k k k
1
nij xi ,Vj = σj2 = 1
nij (xi − x)2 = 1
nij x2i − x2 ,σj =
P P P
xj = n·j n·j n·j
p i=1 i=1 i=1
Vj
Les formules de mélanges de la population suivantes sont obtenues grace
aux formulesmci-dessus. m
n
x = n1··
P P
n·j xj = pj xj où pj = n·j·· . La moyenne x est la moyenne
j=1 j=1
arithmétique des moyennes des sous populations pondérées par leur poids.
m m m m
V = σ 2 = n1·· n·j σj2 + n1·· n·j (x − xj )2 = pj σj2 + pj (x − xj )2 =
P P P P
j=1 j=1 j=1 j=1
Vintra + Vinter La variance V de la population globale est égale à la moyenne
arithmétique des variances des sous populations pondérées par leur poids
auxquelles on ajoute la variance des moyennes des sous populations.
22
m
1
n·j σj2 est appélé variance intra sous population et est la
P
Vintra = n··
j=1
variance à l’interieur des sous populations. C’est la variance σ 2 qu’on obtien-
drait si les sous populations avaient toutes la même moyenne.
m
Vinter = n1·· n·j (x − xj )2 est appélé variance inter sous population et est
P
j=1
la variance entre les sous populations. C’est la variance σ 2 qu’on obtiendrait
si les sous populations étaient toutes homogènes (σj = 0).
Pour calculer xj ,Vj ,σj (resp. x,V,σ) on extrait du tableau statistique un
sous tableau formé de deux colones: la colone des modalités et la colonne des
effectifs nij de la sous population Pj (resp. la colonne des effectifs marginaux
n·j de la colonne totale) et on y applique les formules des moyennes, des
variances, et des écarts types.
Définition 66 On appelle fraction de la variance totale expliquée par l’hétérogénéité

m
pj (x−xj )2
P
j=1
des moyennes entre les sous populations, le rapport : R2 = σ2
=
m
n·j σj2
P
j=1
1− σ2
0 ≤ R2 ≤ 1 et R2 = 0 si toutes les sous populations ont une même

moyenne et R2 = 1 si toutes les sous populations sont homogènes.
Exemple 67 Considérons une distribution des notes de 100 étudiants réparti

en deux sous populations
N ote/100 P1 = garçon P2 = F ille Total

[10,20[ n11 = 5 n12 = 2 n1· = 7
[20,30[ n21 = 6 n22 = 6 n2· = 12
[30,40[ n31 = 14 n32 = 10 n3· = 24
[40,50[ n41 = 11 n42 = 9 n4· = 20
[50,60[ n51 = 10 n52 = 5 n5· = 15
[60,70[ n61 = 14 n62 = 8 n6· = 22
Total n·1 = 60 n·2 = 40 n·· = 100
de ce tableau on extrait les trois sous tableaux suivants :
23
N ote/100 P1 = garçon
[10,20[ n11 = 5
[20,30[ n21 = 6
[30,40[ n31 = 14
[40,50[ n41 = 11
[50,60[ n51 = 10
[60,70[ n61 = 14
Total n·1 = 60
x1 = 44,5; V1 = 248,08; σ1 = 15,75
N ote/100 P2 = F ille
[10,20[ n12 = 2
[20,30[ n22 = 6
[30,40[ n32 = 10
[40,50[ n42 = 9
[50,60[ n52 = 5
[60,70[ n62 = 8
Total n·2 = 40
x2 = 43,25; V2 = 219,43; σ2 = 14,91
N ote/100 Total
[10,20[ n1· = 7
[20,30[ n2· = 12
[30,40[ n3· = 24
[40,50[ n4· = 20
[50,60[ n5· = 15
[60,70[ n6· = 22
Total n·· = 100
x2 = 44; V2 = 237; σ1 = 15,391
24
Chapitre 3
Analyse d’une serie statistique

à deux caractères
3.1 Introduction
Dans ce chapitre, on s’interresse à l’étude de deux variables X et Y
étudiées sur la même population. L’objectif de l’étude est de mettre en
évidence, une eventuelle variation simultannée de deux variables que nous
appelons liaison ou dépendance. Dans certains cas, cette liaison peut à priori
être causale. c’est à dire une variable expliquant l’autre. Dans d’autres cas,
les deux variables jouants des roles symetriques. Lorsque l’on utilisera les
données regroupées en classes, les modalités xi seront remplacées par les
cebtres de classes dans les formules.
3.2 Les tableaux

3.2.1 Données non groupées
Il s’agit de la donnée de la serie statistique brute sous la forme (xi ,yi ) des
modalités des variables X et Y pour chaque individu. Ces données sont
généralement representé dans le tableau suivant :
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
Exemple 68 – la taille et le poids de 5 individus.
25
i 1 2 3 4 5
Taille: (X) 1,60 1,70 1,55 1,65 1,75
Poids : (Y) 70 75 80 80 80
– Le poids et la couleur des cheveux de 5 étudiants
i 1 2 3 4 5
Poids en kg: (X) 70 75 80 80 80
Couleur : (Y) Noire Rousse Chataine Blonde Noire
– La couleur des yeux et des cheveux de 5 étudiants
i 1 2 3 4 5
Yeux: (X) Noire Bleu marron Bleu Noire
Cheveux : (Y) Noire Rousse Chataine Blonde Noire
3.2.2 Données groupées

C’est le cas le plus rencontrée en pratique. Considérons X1 ,X2 ,...,XI et
Y1 ,Y2 ,...,YJ les modalités des variables X et Y . Soit nij l’effectif de la popula-
tion qui présente à la fois la modalité Xi de X et Yj de Y . Ces données sont
souvent representées dans un tableau à double entrées appélé tableau croisé
ou tableau de contingence. Ces tableaux ont la forme suivantes:
Y1 Y2 ... Yj ... YJ Total

X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
Xi ni1 ni2 ... nij ... niJ ni·
.. .. .. .. .. .. .. ..
. . . . . . . .
XI nI1 nI2 ... nIj ... nIJ nI·
Total n·1 n·2 ... n·j ... n·J n··
I
P
Comme dans le cas des melanges des populations on a : n·j = nij ; ni· =
i=1
J
P I P
P J I
P J
P
nij ; n·· = nij = ni· = n·j
j=1 i=1 j=1 i=1 j=1
Exemple 69 la répartition des couleurs de yeux et des cheveux de 592 femmes.
26
Brun Chatain Roux Blond Total
Marron 68 119 26 7 220
Noisette 15 54 14 10 93
vert 5 29 14 16 64
bleu 20 84 17 94 215
Total 108 296 71 127 592
Remarque 70 En divisant toute les valeurs du tableau par l’effectif total,
on obtient le tableau de frequences.
3.3 Les representations graphiques

Dans cette partie, on s’interressera aux données quantitatives.

On represente dans un répère orthonormé les points de coordonnées (xi ,yi ).
L’ensemble de ces points forme le nuage de points. Le nombre de ces points
est égale au nombre d’individus.
graphique à faire ici

On considère ici le tableau de contingence. On représente dans un répère
orthonormé les disques aux points de coordonnées (Xi ,Yj ) dont la surface
ou le rayon est proportionnelle aux effectifs. le nombre de disque est égale à
I ×J
graphique à faire ici
3.4 Statistique marginale

Les données sont généralement regroupées dans le tableau suivant:
i 1 2 ... i ... n
X x1 x2 ... xi ... xn
Y y1 y2 ... yi ... yn
27
n n n
1 1 2 1
x2i −
P P P
. Les statistiques marginales sont x = n
xi ; y = n
yi ,σX = n
i=1 i=1 i=1
n
1
x2 ,σY2 = yi2 − y 2
P
n
i=1

Les données sont généralement regroupées dans le tableau suivant:

X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
Total n·1 n·2 ... n·j ... n·J n··
Les couples (xi ,ni· ) ,1 ≤ i ≤ I définissent la distribution statistique mar-
ginale de X. .Les couples (Yj ,n·j ) ,1 ≤ j ≤ J définissent la distribution
statistique marginale de Y. Les statistiques marginales (moyennes, variances,
écart types...) de X (resp. Y) sont les statistiques obtenues sur les distri-
butions statistiques (xi ,ni· ) ,1 ≤ i ≤ I (resp. (Yj ,n·j ) ,1 ≤ j ≤ J) ainsi on
a:
I J
x = n1·· ni· xi ; y = n1··
P P
n·j yj ,
i=1 j=1
I I √
2 1
ni· (xi − x)2 = 1
ni· x2i − x2 ; σX =
P P
VX = σX = n·· n··
VX
i=1 i=1
J J √
VY = σY2 = 1
n·j (yj − y)2 = 1
n·j yj2 − y 2 ; σY =
P P
n·· n··
VY
j=1 j=1
3.5 Distribution et statistique conditionnelle

Dans cette partie, on s’interressera uniquement aux données groupées.
Considérons le tableau ci-dessous
28
X1 n11 n12 ... n1j ... n1J n1·
X2 n21 n22 ... n2j ... n2J n2·
.. .. .. .. .. .. .. ..
. . . . . . . .
.. .. .. .. .. .. .. ..
. . . . . . . .
Total n·1 n·2 ... n·j ... n·J n··
3.5.1 Distribution et statistique conditionnelle de X

La distribution conditionnelle de X sachant Y = Yj notée Xj ou X|Y =Yj
est la serie constituée des couples (Xi ,nij ) ,1 ≤ i ≤ I. C’est la distribu-
tion du caractère X dans la sous population des individus qui présentent la
modalité Yj du caractère Y . Les statistiques conditionnelles sont celles ob-
I
tenues sur la serie (Xi ,nij ) ,1 ≤ i ≤ I. Ainsi xj = n1·j nij xi ; Vj = σj2 =
P
i=1
I I
1 2 1
p
nij x2i − xj 2 ; σj =
P P
n·j
nij (xi − xj ) = n·j
Vj
i=1 i=1
3.5.2 Distribution et statistique conditionnelle de Y

La distribution conditionnelle de Y sachant X = Xi notée Yi ou Y |X=Xi
est la serie constituée des couples (Yj ,nij ) ,1 ≤ j ≤ J). C’est la distribu-
tion du caractère Y dans la sous population des individus qui présentent la
modalité Xi du caractère X. Les statistiques conditionnelles sont celles ob-
J
tenues sur la serie (Yj ,nij ) ,1 ≤ j ≤ J. Ainsi y i = n1i· nij yj ; Vj = σj2 =
P
j=1
J J √
1
nij (yj − y i )2 = 1
nij yj2 − y 2i ; σi =
P P
ni· ni·
Vi
j=1 j=1
3.5.3 Relation entre les statistique conditionnelles et

les statistiques marginales
n
Posons pj = n·j·· , qui est la part que represente la sous population Y = Yj
dans la population totale. La moyenne marginale (totale) de X est la moyenne
arithmétique des moyennes conditionnelles xj pondérées par les poids pj .
J J I I
x = n1·· pj xj ; y = n1··
P P P P
n·j xj = ni· y i = pi y i ,
j=1 j=1 i=1 i=1
29
J J J J
2 1
n·j σj2 + 1
n·j (xj − x)2 = pj σj2 + pj (xj − x)2
P P P P
VX = σX = n·· n··
j=1 j=1 j=1 j=1
La variance globale de X (resp. de Y) est égale à la moyenne arithmétique
des variances des moyennes conditionnelles de X (resp. de Y) pondérées par
les poids des sous populationsY = Yj (resp. X=xi ) auquel on ajoute la va-
riance des moyennes conditionnelles.
J I
pj σj2 (resp pi σi2 ) est appélé variance intra sous population
P P
Vintra =
j=1 i=1
ou variance résiduelle de X (resp. Y )
J I
pj (xj − x)2 (resp. pi (y i − y)2 ) est appélé variance inter
P P
Vinter =
j=1 i=1
sous population ou variance expliquée de X (resp. Y )
3.6 La covariance
Elle se calcule exactement de la même manière que pour les variables
aléatoires.

n n
1 1
P P
Cov(X,Y ) = n
(xi − x) (yi − y) = n
xi yi − xy
i=1 i=1

I P
J I P
J
1 1
P P
Cov(X,Y ) = n··
nij (xi − x) (yj − y) = n··
nij xi yj − xy
i=1 j=1 i=1 j=1
Remarque 71 – Cov (aX + b,cY + d) = acCov (X,Y )

– Cov (X,X) = V ar (X)
La covariance peut donner une valeur négative mais la variance est tou-
jours positive. la covariance est une mesure de la relation linéaire entre deux
variables statistiques. Plus la variance est élévé plus la relation linéaire est
entre deux variables est forte.
30
3.7 La regression et la corrélation statistique
3.7.1 Le coefficient de corrélation linéaire.
Le coefficient de corrélation linéaire encore appélé le coefficient de détermination
entre deux variables X et Y est le réel noté ρ (X,Y ) = Cov(X,YσX σY
)
Propriétés:
1. |ρ (X,Y )| ≤ 1
ac
2. ρ (aX + b,cY + d) = |ac|
ρ (X,Y )
3.7.2 Courbe ou ligne de regression

On appelle courbe de regression ou ligne de regression de Y en X ( resp.
de X en Y ) la courbe representative des points (xi ,y i ) (resp. (xi ,yi )) où y i
(resp. xi ) est la moyenne conditionnelle de Y (resp X) sachant que X = xi
(resp Y = yi ). Cette courbe permet d’estimer Y (resp X) en fonction de X
(resp Y ). C’est la raison pour laquelle cette courbe est encore appélée courbe
d’estimation de Y en X ( resp. de X en Y ). Elle fournit la valeur la plus
probable que peux prendre Y en X ( resp. X en Y ) pour une valeur donnée
de X. les courbes de regression de Y en X et. de X en Y se coupent au point
(x,y) . Ces courbes sont en réalité des lignes brisées que l’on peut lisser pour
obtenir une véritable courbe.
3.7.3 Droite de regression ou des moindres carrées

La droite de regression ou d’estimation ou des moindres carrés de Y en
X notée DY /X a pour équation DY /X : Y − Y = aX X − X où aX =
Cov(X,Y )
2
σX
= ρ (X,Y ) σσXY .
La droite de regression de Y en X notée DX/Y a pour équation DX/Y :
X − X = aY Y − Y où aY = Cov(X,Y )

2
σY
.
Si ρ (X,Y ) = ±1, on dit qu’il ya une corrélation parfaite et les droites
DY /X et DX/Y sont confondus. Si |ρ (X,Y )| tend vers 1, la corrélation linéaire
est meilleure. Elle est dite positive si X et Y varie dans le même sens. Elle
est négative si les deux varient en sens opposé.
3.7.4 Le rapport de corrélation

Le rapport de corrélation est une mesure de l’intensité de la liaison qui
existe entre les deux variables X et Y . On appelle Rapport de corrélation
de Y en X ( resp. de X en Y ) notée ηY2 /X (resp. ηX/Y
2
) la proportion de la
31
variance marginale VY de Y (resp VX de X) representé par la variance inter
groupe.
I I
1
ni· (y i −y)2 1
ni· σi2
P P
n·· n··
ηY2 /X = i=1
VY
=1− i=1
σY2
J J
1 1
n·j σj2
P P
n··
n·j (xj −x) n··
2 j=1 j=1
ηX/Y = VX
=1− 2
σX
Les rapports de corrélation sont compris entre 0 et 1 et sont invariant par
changement de variables. Ils donnent une mesure du pourcentage de variation
explicable par la variable indépendante.
3.7.5 Indépendance
Nous dirons que deux variables X et Y sont indépendantes si on a xj =
x,∀j ∈ {1,2,...,J} et y i = y,∀i ∈ {1,2,...,I}, ainsi les courbes de regression
n ×n
sont parallèles aux axes. Dans ce cas, on a nij = i·n·· ·j
3.8 Exemple
3.8.1 Enoncé
Soit X en milliers le salaire que gagne un personnel et Y en dizaines leur
age on a :
X\Y [2,3[ [3,4[ [4,5[ [5,6[

[4,8[ 15 10 5 5
[8,12[ 10 10 12 8
[12,16[ 5 5 8 7
3.8.2 Representation graphique
X\Y 2,5 3,5 4,5 5,5 T otal

6 15 10 5 5 35
10 10 10 12 8 40
14 5 5 8 7 25
T otal 30 25 25 20 100
Inserer le graphique ici
32
3.8.3 Moyenne et variance de X et Y
tableau en X
ci ni· ni· ci ci − c (ci − c)2 ni· (ci − c)2

6 35 210 −3,6 12,96 453,6
10 40 400 0,4 0,16 6,4
14 25 350 4,4 19,36 484
T otal 100 960 944
X = 9,6; VX = 9,44; σX = 3,1
tableau en Y
cj n·j n·j cj cj − c (cj − c)2 n·j (cj − c)2

2,5 30 75 −1,35 1,82 54,48
3,5 25 87,5 −0,35 0,12 3,06
4,5 25 112,5 0,65 0,42 10,56
5,5 20 110 1,65 2,72 54,45
T otal 100 385 122,75
Y = 3,85; VY = 9,44; σY = 1,11
3.8.4 Distribution et statistique conditionnelle de Y

Pour Y1
Y 2,5 3,5 4,5 5,5 T otal

n1j 15 10 5 5 35
n1j yj 37,5 35 22,5 27,5 122,5
yj − y 1 −1 0 1 2
2
(yj − y 1 ) 1 0 1 4
2
n1j (yj − y 1 ) 15 0 5 20 40
y1 = 3,5; V1 = 1,14; σ1 = 1,07
De la même manière vous obtenez

y 2 = 3,95 V2 = 1,14 σ2 = 1,07
y 3 = 4,18 V3 = 1,17 σ1 = 1,09
Variance intra et inter de Y

Vintra = 0,35 × 1,14 + 0,4 × 1,14 + 0,25 × 1,09 = 1,1534
33
Vinter = 0,35×(3,5 − 3,85)2 +0,4×(3,95 − 3,85)2 +0,25×(4,18 − 3,85)2 =
0,074
3.8.5 covariance et corrélation

3 P
4
1
P
Cov (X,Y ) = n··
nij xi yj − xy = 37,78 − 9,6 × 3,85 = 0,82
i=1 j=1
Cov(X,Y ) 0,82
ρ (X,Y ) = σ X σY
= 3,1×1,11 = 0,24
3.8.6 Rapport de corrélation

3
1
ni· (y i −y)2
P
n··
ηY2 /X
= VY
i=1
= 0,074
1,23
= 0,06
L’age explique 6% de la variation du salaire.
3.8.7 Courbe de regression de Y en X

Il suffit de rpresenter la courbe passant par les points (6; 3,5) , (10; 3,95) , (14; 4,18)
3.8.8 Droite de regression de Y en X

DY /X : Y − Y = aX X − X ie Y − 3,85 = 0,82

3,1
(X − 9,6) ,
DY /X : y = 0,26x + 6,35
Si x=20 ie c’est à dire x=20000 alors y=5,2+6,35=11,55 ie 115,5 ans
34
Deuxième partie
VARIABLES ALEATOIRES
35
Chapitre 1
Variables aléatoires continues
1.1 Introduction
Définition 72 Etant donné un espace probabilisé (Ω,A,p) et un espace prob-
bilisable (Ω0 ,B) avec Ω0 ⊂ R, on appelle variable aléatoire réel sur Ω, toute
application
X : Ω → Ω0
w 7→ X (w)
telle que : ∀B ∈ B,X −1 (B) ∈ A
Définition 73 Une variable aléatoire est dite discrète si elle ne prend que
des valeurs discontinues dans un intervalle donné (borné ou non borné).
L’ensemble des nombres entiers est discret. En règle générale, toutes les
variables qui résultent d’un dénombrement ou d’une numération sont de type
discrètes.
Exemple 74 Les variables aléatoires,
- le nombre de petits par porté pour une espèce animale donnée (chat,
marmotte, etc),
- le nombre de bactéries dans 100 ml de préparation,
sont des variables aléatoires discrètes.
Les variables aléatoires qui nous interessent lors d’une expérience aléatoire
ne sont pas toujours discretes. Par exemple la taille d’un individu, le temps de
fonctionnement d’un appareil peut prendre n’importe quelle valeur dans un
intervalle de R+ . Dans ce chapitre, nous sommes interéssés par des variables
prenant leur valeur dans un intervalle reel continu.
36
1.2 Densité de Probabilité
Définition 75 Une fonction f () de R dans R est une densité de probabilité
si :
1. f () est positive
2. f () est intégrable sur R
R
3. R f (x) dx = 1
Définition 76 On dit qu’une variable aléatoire X a pour densité la fonction

f () si f () est une densité de probabilité sur R qui est telle que ∀a,b ∈ R :
Rb
a < b on a : p {a < X < b} = p {X ⊂ ]a,b[} = a f (x) dx
Proposition 77 Soit X une variable aléatoire admettant une densité f () .
Pour tout a ∈ Ω0 ,p {X = a} = 0
Preuve. a − n1 < X < a + n1 n∈N∗ est une suite décroissante d’évenements

a − n1 < X < a + n1 = {X = a}. Il est clair que ∀n ∈ N∗ , {X = a} ⊂

T
telle que
n∈N∗
a − n < X < a + n1 Donc {X = a} ⊂
1
a − n1 < X < a + n1 . Réciproquement
T
n∈N∗
a − n1 < X < a + n1 , alors ∀n ∈ N∗ , on a a − n1 < X (w) <
T
si w ∈
n∈N∗
a + n1 En faisant tendre n vers +∞, on obtient a ≤ X (w) ≤ a. Ce qui
entraine X (w) = a. Donc p {X = a} = lim p a − n1 < X < a + n1 =
n→+∞
R a+ n1 Ra
lim a− 1 f {x} dx = a f {x} dx = 0
n→+∞ n
Pour une variable aléatoire admettant une densité, la probabilité d’at-
teindre un point donné est nulle ie p {X = x} = 0. Car il est impossible
d’observer exactement cette valeur.. On dit que la variable aléatoire est conti-
nue. Ceci constitue une différence fondamentale avec les variables aléatoires
discretes pour lequelles les probabilités d’atteindre differents points consti-
tue la loi de probabilité. Conséquence de cette proposition pour x admettant
une densité, ∀a,b ∈ R : a < b on a p {a < X < b} = p {a ≤ X < b} =
p {a < X ≤ b} = p {a ≤ X≤ b} . Si X est à valeus dans un intervalle O de
R, p {X ∈ O} = 1, alors p X ∈ O = 0. On déduit que la densité de X est
nulle dans le complémentaire.
Exemple 78 1. Densité uniforme sur [a,b] . C’est la densité d’une va-
riable aléatoire constante sur [a,b] et nulle en dehors de [a,b] . f (x) =

c si x ∈ [a,b] R Rb
On sait que : 1 = R f (x) dx = a cdx = c (b − a) donc
0 sinon
1
b−a
si x ∈ [a,b] 1
f (x) = = b−a 1[a,b] (x) . Notation : X U[a,b]
0 sinon
37
2. Densité exponentielle : Soit λ un réel strictement positif. On dit qu’une
variable X suit une loi exponentielle de −λx
parametre λ et on note X
λe si x > 0
ξ (λ) si X a pour densité. f (x) = = λe−λx 1R∗+ . On
0 sinon R
verifie facilement que f () est une densité sur R.En effet R f (x) dx =
R +∞ R +∞ +∞
f (x) dx = 0 d −e−λx = −e−λx 0 = 1

0
3. Lois normales
Soit m ∈ R et σ ∈ R∗+ On dit qu’une variable aléatoire suit une loi
2
normale de moyenne m et de variance σ et on note X N (m,σ 2 ) si
2
X a pour densité. f (x) = √2πσ 1
2
exp − (x−m)2σ 2
1
Si m = 0 et σ = 1 on a f (x) = √2π exp − x2 ,on dit X

N (0,1)
c’est à dire que X suit la loi normale centrée réduite.
Proposition 79 Soit X une variable aléatoire à valeurs dans un intervalle
ouvert U de R. Soit h : U → V une bijection de classe C 1 , telle que h
soit dérivable. Si X a pour densité f (), alors Y = h (X) a pour densité :
0
f (h−1 (y)) (h−1 ) (y) si y ∈ V
g (y) =
0 sinon
Preuve. Supposons que h soit décroissante. ∀a,b ∈ V,p {a < Y < b} = p {a < h (X) < b} =
R h−1 (a)
p {h−1 (b) < X < h−1 (a)} = h−1 (b) f (x) dx. Posons y = h (x) , On a x =
0 R h−1 (a)
h−1 (y) et dx = (h−1 ) (y) dy on a alors : p {a < Y < b} = h−1 (b) f (x) dx =
Ra 0 Rb 0 Rb 0
b
f (h−1 (y)) (h−1 ) (y) dy = − f (h−1 (y)) (h−1 ) (y) dy = f (h−1 (y)) (h−1 ) (y) dy
a a
Exemple 80 Soit X N (0,1) ,m ∈ R et σ ∈ R∗+ Déterminons la densité

de la variable aléatoire Y = σX + m. Soit X une variable aléatoire de densité
f, posons
h : R→R
x 7→ σx + m
h est une bijection de classe C 1 telle que
h−1 R→R
:
y−m
y →
7
σ
0
on a (h−1 ) (y) = σ1 il résulte de la proposition précedente
que 2la variable
(x−m)
aléatoire Y a pour densité g (y) = σ1 f y−m 1

σ
= √2πσ 2
exp − 2σ2 .ie Y
N (m,σ 2 )
38
1.3 Fonction de répartition
Définition 81 Soit X une variable aléatoire de densité f (), On appelle fonc-
tion de répartition de X la fonction
FX : R → [0,1]
x 7→ FX (x) = p ({X ≤ x})
FX (x) = p {X ∈ ]−∞,x]} = p {X ∈ ]−∞,x[} = lim p {X ∈ ]−n,x[} =

n→+∞
Rx −n<x
lim = −∞ f (y) dy
n→+∞
−n<x
Soit X une variable aléatoire quelconque, Déterminons p {a < x ≤ b} ,a,b ∈
R,a < b
{X ≤ a} ⊂ {X ≤ b} ainsi on a {X ≤ b}\{X ≤ a} = {w ∈ Ω,X (w) ≤ b,X (w) > a} =
{w ∈ Ω,a < X (w) ≤ b} = {a < X ≤ b} Par conséquent p {a < x ≤ b} =
p ({X ≤ b} \ {X ≤ a}) = p {X ≤ b}−p {X ≤ a} car {X ≤ a} ⊂ {X ≤ b} ,d’où
p {a < x ≤ b} = FX (b) − FX (a)
Si X possède une densité alors p {a < x < b} = p {a < x ≤ b} = p {a ≤ x ≤ b} =
p {a ≤ x < b} = FX (b) − FX (a)
Proposition 82 Soit X une variable aléatoire de densité f () et de fonction
de répartition F , soit x0 ∈ R. si f () est continue en x0 on a F 0 (x0 ) = f (x0 ) .
Preuve. Par hypothèse ∀ > 0,∃η > 0 tq ∀x ∈ R, |x − x0 | < η ⇒ |f (x) − f (x0 )| <
. Soit h ∈ R telque |h| < η, R R
x0 +h x0 +h
|F (x0 + h) − F (x0 ) − hf (x0 )| = x0 f (x) dx − hf (x0 ) = x0 (f (x) − f (x0 )) dx ≤

R x0 +h
x0
|(f (x) − f (x0 ))| dx ≤ |h|

F (x0 +h)−F (x0 )
Donc ∀h 6= 0 telque |h| < η, on a − f (x0 ) ≤ . Par

h

conséquent, on en déduit que lim F (x0 +h)−F (x0 )
− f (x 0 = 0 ce qui montre
)

h→0 h
que : lim F (x0 +h)−F

h
(x0 )
= f (x0 )
h→0
Proposition 83 Soit X une variable aléatoire de fonction de répartition F ,

on suppose que F est continue sur R, F est dérivable sur R privé eventuel-
lement d’un nombe fini de point {a1 ,a2 ,...,an } ,a1 < a2 < ,..., < an . Si F’ est
continue sur chacun des ensembles ]−∞,a1 [ , ]a1 ,a2 [ ,..., ]an−1 ,an [ , ]an , + ∞[ ,
F 0 (x) si x ∈ R \ {a1 ,a2 ,...,an }

alors la variable aléatoire X a pour densité : g (x) =
0 si x ∈ {a1 ,a2 ,...,an }
Preuve. Posons a0 = −∞ et an+1 = +∞, il faut montrer que ∀a,b ∈ R telque
Rb
a < b, on a : p {a < X < b} = a g (x) dx. Si a,b ∈ ]ai ,ai+1 [ , F (b) − F (a) =
39
Rb 0
Rb
a
F (x) dx = a
g (x) dx. Si a ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} ,∀b ∈ ]ai ,ai+1 [ ,
Rb Rb
on a F (b)−F (a) = a F 0 (x) dx = a g (x) dx. En faisant tendre bR vers a−
R ai+1 i+1 on
− 0 ai+1
obtient : F ai+1 −F (a) = F (ai+1 )−F (a) = a F (x) dx = a g (x) dx
Rb
intégrale généralisée. Si b ∈ ]ai ,b[ , on a F (b) − F (a) = a F 0 (x) dx =
Rb Rb
a
g (x) dx,En faisant tendre a vers a+ i on en déduit :F (b)−F (ai ) = ai g (x) dx
intégrale généralisée. ∀a,b ∈ ]ai ,ai+1 [ ,i ∈ {0,1,...,n − 1} , on a F (b) − F (a) =
Rb 0 Rb + −
a
F (x) dx = a
g (x) dx.En
faisant tendre a vers ai et b vers ai+1 , on de-
− +
duit que RF ai+1 − F ai = F (ai+1 ) − F (ai ) Car F est continue.F (ai+1 ) −
a
F (ai ) = aii+1 g (x) dx intégrale généralisée. Si a et b n’appartient pas à un in-
tervalle du type ]ai ,ai+1 [ , Soit {ai0 ,ai1 ,...,ain } l’ensemble des ai qui appartient
à [a,b],p {a < X < b} = F (b)−F (a) = (F (b) − F (a11 ))+(F (a11 ) − F (a12 ))+
Rb
.... + F a1n−1 − F (a1n ) + (F (a1n ) − F (b)) = a g (x) dx en utilisant la re-
lation de chasles pour l’intégration généralisée
1.4 Moment d’une variable aléatoire continue

ces nombres donnent des indications sur le comportement de la variable
aléatoire.
Définition 84 Soit X une variable

R aléatoire de densité f (), l’esperance de
RX existe si et seulement si R |x| f (x) dx < +∞. Et dans ce cas E (x) =
R
xf (x) dx
L’espérance de X correspond à la moyenne de la variable aléatoire.
Remarque 85 Soit X une variable aléatoire à valeurs dans un intervalle

[a,b] de densité f () alors E (x) existe. En effet f (x) = 0,∀x ∈ / [a,b] Donc
R Rb Rb
R
|x| f (x) dx = a |x| f (x) dx ≤ a max (|a| , |b|) f (x) dx ≤ max (|a| , |b|) <
+∞
Exemple 86 calcul d’expérance
- loi uniforme sur [a,b]

Rb x h 2 ib
b2 −a2
E (x) = R xf (x) dx = a b−a dx = b−a x2 = 2(b−a)
1
= b+a
R
2
a
- Loi exponentielle de parametre
R +∞ λ R +∞ +∞
E (x) = R xf (x) dx = 0 xλe−λx dx = 0 xd −e−λx = −xe−λx 0 +
R
R +∞ −λx 1 +∞
λe−λx dx = λ1
R
0
e dx = λ 0
- Loi normale N(0,1)
2
f (x) = √12π exp − x2 Montrons que ∀n ∈ N∗ , R |x|n f (x) dx < +∞
R
Etude de l’intégrale à +∞
40
2

On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2π 2
= 0. Par
x→+∞ x→+∞
R +∞
conséquent, ∃A > 0 tq ∀x > A, |x|n f (x) < x12 . Comme A x12 dx converge,
R +∞
alors A |x|n f (x) dx converge également.
Etude de l’intégrale à −∞
2
On sait que lim x2 [|x|n f (x)] = lim √1 xn+2 exp − x
2
= 0.Par
x→−∞ x→−∞ 2π
RB
conséquent, ∃B > 0 tq ∀x < B, |x|n f (x) < x12 . Comme −∞ x12 dx converge,
RB RB
alors −∞ |x|n f (x) dx converge également. Donc R |x|n f (x) dx = −∞ |x|n f (x) dx+
R
RA n R +∞
|x| f (x) dx + A |x|n f (x)Rdx < +∞ On déduit que R |x| f (x) dx <
R
B
+∞. par conséquent E (x) = R
xf (x) dx = 0 car la fonction xf (x) est
impaire.
Proposition 87 Soient X et Y deux variables aléatoires continues qui possèdent

une espérance. Soit a ∈ R
1. E (X + Y ) existe et on a E (X + Y ) = E (X) + E (Y )
2. E (aX) existe et on a E (aX) = aE (X)
3. Si X ≥ 0, alors E (X) ≥ 0 et si X > Y alors E (X) > E (Y )
Preuve. 1) admise
2) si a = 0 alors le résultat
1 y
est évident. Si a 6= 0, on sait que Y = aX a
pour densité g (y) = |a| f a .
1
f ay dy Posons x = ay , on a alors: R |y| g (y) dy =
R R R
R
|y| g (y) dy = R |y| |a|
( R
+∞ R +∞
−∞
|x| f (x) adx = −a −∞ |x| f (x) dx < +∞ si a < 0
R +∞ R +∞
−∞
|x| f (x) adx = a −∞ |x| f (x) dx < +∞ si a > 0
R R +∞
On déduit que R |y| g (y) dy = |a| −∞ |x| f (x) dx < +∞ On a alors
1
f ay dy. Si a < 0, posons x = ay , On a alors E (aX) =
R
E (aX) = R |y| |a|
R −∞ R +∞
+∞
−axf (x) dx = a −∞
xf (x) dx = aE (X) . Le cas a > 0 est évident.
R R +∞
3) Si X ≥ 0, Il est claire que = R xf (x) dx = 0 xf (x) dx ≥ 0
Si X ≥ Y,alors X −Y ≥ 0 par conséquent 0 ≤ E (X − Y ) = E (X)−E (Y )
Proposition 88 Soit X une variable aléatoire de densité fR (), et ϕ : R → R

R si et seulement si R |ϕ (x)| f (x) dx <
une fonction quelconque. E (ϕ (X)) existe
+∞. Dans ce cas on a : E (ϕ (X)) = R ϕ (x) f (x) dx.
Preuve. La variable aléatoire ϕ (X) n’admet pas forcément une densité.

La formule est cependant valide dans tous les cas. Nous allons faire cette
démonstration dans les deux cas particuliers.
41
Si X est à valeurs dans un intervalle ouvert U et ϕ une fonction bijective
de U dans V telque f et f−1 soit dérivable. Dans ce cas Y = ϕ (X) a pour
−1 0
−1

f (ϕ (y)) (ϕ ) (y) si y ∈ V

densité g (y) =
R 0 si y ∈ VR
On a alors E (Y ) = R yg (y) dy = V yg (y) dy.
Supposons que ϕ soit décroissante. Posons x = ϕ−1 (y) , alors
Z Z
0
yf ϕ−1 (y) ϕ−1 (y) dy

yg (y) dy = −
V ZV
0
yf ϕ−1 (y) ϕ−1 (y) dy en supposant que U = ]a,b[

= −
]ϕ(b),ϕ(a)[
Z a Z b
= − ϕ (x) f (x) dx = ϕ (x) f (x) dx
b a
Z b Z
= ϕ (x) f (x) dx = ϕ (x) f (x) dx car f (x) = 0,∀x ∈
/U
a R
n
P
Si ϕ (x) = ai 1Ai (x) où est une partition de R, On peut dire que
i=1
Y = ϕ (X) est à valeurs dans {a1 ,...,an } c’est donc une variable aleatoire
Pn Pn
discrete. Par conséquent E (Y ) = ai p {Y = ai } = ai p {X ∈ Ai } =
i=1 i=1
Pn R Pn R R P n
ai Ai f (x) dx = ai R 1Ai (x) f (x) dx = R ai 1Ai (x) f (x) dx =
Ri=1 i=1 i=1
R
ϕ (x) f (x) dx
Proposition 89 Inégalité de Markov.
Si X est une variable aléatoire positive telque E (X) existe. ∀a > 0, on a :
p {X ≥ a} ≤ E(X)
a
Preuve.
Z Z +∞
E (X) = xf (x) dx car ∀x < 0,f (x) = 0
xf (x) dx =
0
ZRa Z +∞ Z +∞
= xf (x) dx + xf (x) dx ≥ xf (x) dx
0 a a
Z +∞ Z +∞
≥ af (x) dx = a f (x) dx = ap {X ≥ a}
a a
Définition 90 Soit X une variable aléatoire telque E (X 2 ) < +∞. On ap-

pelle variance de X et on note var (X) la quantité var (X) = E (E (X) − X)2 =
E (X 2 ) − E (X)2
42
Proposition 91 Inégalité de Tchébitchev
Soit X une variable aléatoire telque E (X 2 ) < +∞. ∀a > 0, on a : p {|X − E (X)| ≥ a} ≤
var(X)
a2
Preuve.
E (E (X) − X)2

2 2
var (X)
p {|X − E (X)| ≥ a} = p (|X − E (X)|) ≥ a ≤ =
a2 a2
Propriété
∀a,b ∈ R var (aX + b) = a2 var (X)
1.5 Vecteurs aléatoires continus

L’orsqu’une variable aléatoire st valeurs dans Rd , d ∈ N\ {0,1}, on parle
de vecteur aléatoire. Un vecteur aléatoire X à valeurs dans Rd possède comme
composantes X1 ,...,Xd qui sont des variables aléatoires réelles. En général, il
n’est pas possible de déduire la loi de X = (X1 ,...Xd ) à partir de celle des
des variables Xi ,
Une fonction f (·,·) de R2 dans R est une densité de probabilité si :
1. f (·,·) est positive

2. f (·,·) est intégrable
RR
3. R2 f (x1 ,x2 ) dx1 dx2 = 1
La plupart du temps, f (·,·) est une fonction continue sur une partie D de
2
R et nulle en dehors de cette partie. Un vecteur aléatoire X de densité f (·,·)
est à valeurs dans une partie D de R2 et nulle en dehors de cette partie.
Définition 92 Soit f (·,·) une densité sur R2 , On dit que f (·,·) est la densité
de la variable aléatoire X = (X1 ,X2 ) si ∀a 1 ,b1 ,a2 ,b2 ∈ R,a1< b1 et a2 < b2
R b1 R b2
on a p (a1 < X1 < b1 ,a2 < X2 < b2 ) = a1 a2 f (x1 ,x2 ) dx2 dx1
Si X = (X1 ,X2 ) possède une densité, alors ∀x1 ,x2 ∈ R,p {X1 = x1 ,X2 = x2 } =
0
Proposition 93 Soit X = (X1 ,X2 ) un vecteur aléatoire à valeurs dans R2

de densitéR f (·,·) . alors la variable aléatoire
R X1 (resp.X2 )a pour densité
f1 (x1 ) = R f (x1 ,x2 ) dx2 resp. f2 (x2 ) = R f (x1 ,x2 ) dx1
Preuve. ∀a1 ,b1 ∈ R,a1 < b1 , on a : p (a1 < X1 < b1 ) = p (a1 < X1 < b1 ,X2 ∈ R) =
R b R +∞
p (a1 < X1 < b1 , − ∞ < X2 < +∞) = a11 −∞ f (x1 ,x2 ) dx2 dx1 . On en
43
R +∞
déduit que −∞ f (x1 ,x2 ) dx2 est la densité de la variable aléatoire X1 , Le
même raisonnement permet de retrouver la densité de la variable aléatoire X2 .
p (a2 < X2 < b2 ) = p (X
R +∞ R b2 1 ∈ R,aR2 <X 2 < b2 ) = p (−∞< X1 < +∞,a2 < X2 < b2 ) =
b2 R +∞
−∞ a2
f (x1 ,x2 ) dx2 dx1 = a2 −∞ f (x1 ,x2 ) dx1 dx2
Exemple 94 Si X = (X1 ,X2 ) est variable aléatoire de densité constante sur

m si (x1 ,x2 ) ∈ [a,b] × [c,d]
[a,b] × [c,d] ,a < b,c < d,f (x1 ,x2 ) =
0 sinon
RR RR R b R d
on a alors 1 = R2 f (x1 ,x2 ) dx1 dx2 = [a,b]×[c,d] f (x1 ,x2 ) dx1 dx2 = a c mdx2 dx1 =
1
m (d − c) (b − a), il résulte que m = donc f (x1 ,x2 ) = (d−c)(b−a) 1[a,b]×[c,d] (x1 ,x2 ) ,la
R
variable aléatoire X1 a pour densité f1 (x1 ) = R f (x1 ,x2 ) dx2 , Si x1 ∈/ [a,b] ,f1 (x1 ) =
Rd 1 1
0 sinon f1 (x1 ) = c mdx2 = m (d − c) = (b−a) donc f1 (x1 ) = (b−a) 1[a,b] (x1 )
1
de même f2 (x2 ) = (d−c) 1[c,d] (x2 )
Remarque 95 f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )
Exemple 96 Si X = (X1 ,X2 ) est variable aléatoirede densité constante sur

m si (x1 ,x2 ) ∈ D
D = {(x1 ,x2 ) ∈ R2 /x21 + x22 ≤ 1} donc f (x1 ,x2 ) = On
RR RR 0 RRsinon
sait que 1 = R2 f (x1 ,x2 ) dx1 dx2 = D f (x1 ,x2 ) dx1 dx2 = D mdx1 dx2 =
m × aire de D=cπ il en résulte que m = π1 , donc Rf (x1 ,x2 ) = π1 1D (x1 ,x2 ) ,
la variable aléatoire X1 a pour densité f1 (x1 ) = R f (x1 ,x2 ) dx2 , Si x1 ∈ /
R √1−x21 p
[−1,1] ,f1 (x1 ) = 0 sinon f1 (x1 ) = √ 2 mdx2 = 2m 1 − x21 donc f1 (x1 ) =
− 1−x1
2
p 2
p
2
π
1 − x 1 1[−1,1] (x 1 ) de même f2 (x 2 ) = π
1 − x22 1[−1,1] (x2 )
Remarque 97 f (x1 ,x2 ) 6= f1 (x1 ) f2 (x2 )
Proposition 98 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans

R2 de densité f (·,·) . Si RR
h est une fonction de R2 dans R,E (h (X1 ,X2 ))
RR si R2 |h (x1 ,x2 )| f (x1 ,x2 ) dx1 dx2 < +∞ et dans ce
existe si et seulement
cas E (h (X1 ,X2 )) = R2 h (x1 ,x2 ) f (x1 ,x2 ) dx1 dx2
Exemple 99 Soit X = (X1 ,X2 ) un couple de variables aléatoires de den-

sitéf (·,·) déterminer une condition nécessaire et suffisante pour que E (X12 X23 )
existe et donner sa valeur.
Soit h : R2 → R telque h (x1 ,x2 ) = x21 x32 . Il est clair que h (X1 ,X2 ) =
2 3 2 3
X1 X2 , Il en résulte
RRde la proposition précedente que E RR(X1 X22 )3 = E (h (X1 ,X2 ))
si et seulement si R2 |h (x1 ,xRR 2 )| f (x1 ,x2 ) dx1 dx2 = R2
|x1 x2 | f (x1 ,x2 ) dx1 dx2 <
2 3 2 3
+∞
RR dans ce cas E (X1 X2 ) = R2 x1 x2 f (x1 ,x2 ) dx1 dx2 .. De même E (X1 X2 ) =
x x f (x1 ,x2 ) dx1 dx2
R2 1 2
44
Définition 100 Si (U,V ) est un vecteur aléatoire à valeurs dans R2 de den-
sité f (·,·) telque E (U 2 ) < +∞ et E (V 2 ) < +∞, on appelle covariance
de U et de V , le réel noté cov (U,V ) défini par : cov (U,V ) = E (U V ) −
E (U ) E (V ) = E ((U − E (U )) (V − E (V ))) .
Définition 101 Soient X et Y deux variables aléatoires telles que E (X 2 ) <
+∞ et E (Y 2 ) < +∞,var (X) 6= 0 et var (Y ) 6= 0, on appelle coefficient
de corrélation du couple (X,Y ) le réel noté ρ (X,Y ) défini par ρ (X,Y ) =
√ cov(X,Y
√)
var(X) var(Y )
Proposition 102 1. −1 ≤ ρ (X,Y ) ≤ 1

2. ρ (X,Y ) = 1 ⇔ ∃a,b ∈ R p {Y = aX + b} = 1
Preuve. Soient U et V deux variables aléatoires réelles telles que E (U 2 ) <
+∞ et E (V 2 ) < +∞, ∀λ ∈ R, on a :E (λU + V )2 = λ2 E (U 2 ) + 2λE (U V ) +
E (V 2 ) ≥ 0pdonc ∆p 0
= (E (U V ))2 − E (U 2 ) E (V 2 ) ≤ 0 ce qui équivaut
|E (U V )| ≤ E (U 2 ) E (V 2 ) (1)
∆0 = 0 ⇔ le polynome admet une racine double λ0 = −E(U V)
E(U 2 )
⇒ E (λ0 U + V )2 =
n o
V)
0 ⇒ p {λ0 U + V = 0} = 1 ⇒ p V = E(U E(U 2 )
U = 1 (2)
p p
remarque : ∆0 = 0 ⇔ |E (U V )| = E (U 2 ) E (V 2 ) Posons U = X −
E (X) et V = Y − E (Y ) , D’après (1) on a |cov (X,Y )| ≤ σ (X) σ (Y ) d’où
|ρ (X,Y )| ≤ 1 p p
|ρ (X,Y )|n= 1 ⇔ |cov (X,Y )| = σ (X) σ (Y ) ⇔ |E (U V )| = E (U 2 ) E (V 2 ) ⇔
o
V)
∆0 = 0 ⇒ p V = E(U
E(U 2 )
U =1
n o
cov(X,Y )
⇒ p Y = var(X) (X − E (X)) + E (Y ) ⇒ p {Y = aX + b} = 1 avec
a = cov(X,Y
var(X)
)
et b = E (Y ) + aE (X)
Réciproquement si Y = aX + b alors cov(X,Y ) = cov(X,aX + b) =
acov(X,X) + cov(X,b) = avar (X) ; var(Y ) = var (aX + b) = a2 var (X)
(a 6= 0 car var (Y ) 6= 0) donc ρ (X,Y ) = √ cov(X,Y
√) = √ avar(X)
√
var(X) var(Y ) |a| var(X) var(X)
ceci montre que |ρ (X,Y )| = 1
Proposition 103 Si X = (X1 ,...,Xn ) est un vecteur aléatoire
Pn telle que
2
∀iP∈ {1,...,n} ,E (Xi ) < +∞ alors var (X1 + ... + Xn ) = i=1 var (Xi ) +
2 1≤i≤j≤n cov (Xi ,Xj )
1.6 Variables aléatoires indépendantes

Définition 104 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2
de densité f (·,·) , on dit que les variables aléatoires X1 et X2 sont indépendantes
45
si et seulement si pour tous les intervalles ouverts réels I1 et I2 , on a p {X1 ∈ I1 ,X2 ∈ I2 } =
p {X1 ∈ I1 } p {X2 ∈ I2 }
Remarque 105 L’indépendance des variables aléatoires X1 et X2 équivaut

à celle des évenements {X1 ∈ I1 } et {X2 ∈ I2 }
Proposition 106 Soit X = (X1 ,X2 ) un vecteur aléatoire à valeurs dans R2

de densité f (·,·) , Soit f1 (resp. f2 ) la densité de la variable aléatoire X1 (resp.
X2 ), les variables aléatoires X1 et X2 sont indépendantes si et seulement si
∀ (x1 ,x2 ) ∈ R2 f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )
Preuve. Si les variables aléatoires X1 et X2 sont indépendantes pour tous les

intervalles
R ouverts a Rp {X
Rréels I1 et I2 , on R1 ∈ I1 ,X2 ∈ I2 } = p {X 1 ∈ I1 } p {X2 ∈ I2 } =
f (x1 ) dx1
I1 1 I2 2
f (x2 ) dx2 = I1 I2 f1 (x1 ) f2 (x2 ) dx2 dx1 Ceci montre
que X = (X1 ,X2 ) a pour densité f (x1 ,x2 ) = f1 (x1 ) f2 (x2 )Réciproquement si
R R
f (x1 ,x2 ) = f1 (x1 ) f2 (x2 ) , on a p {X1 ∈ I1 ,X2 ∈ I2 } = I1 I2 f (x1 ,x2 ) dx2 dx1 =
R R R R
I1 I2
f1 (x 1 ) f2 (x 2 ) dx 2 dx 1 = I1
f1 (x 1 ) dx 1 I2
f2 (x 2 ) dx 2
= p {X1 ∈ I1 } p {X2 ∈ I2 } ,Ce qui montre que les variables aléatoires X1
et X2 sont indépendantes
Proposition 107 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2

de densité f (·,·) , telque E (|X1 |) < +∞ et E (|X2 |) < +∞, alors E (X1 X2 )
existe et E (X1 X2 ) = E (X1 ) E (X2 )
RR RR R R
Preuve. |x1 x2 | f (x1 ,x2 ) dx1 dx2 = |x1 x2 | f1 (x1 ) f2 (x2 ) dx1 dx2 = R |x1 | f1 (x1 ) dx1 R
|x2
R2 R2
d’après le théorème de Fubini
= E (|X1 |) E (|X2 |) RR
< +∞ ce qui montre que RE (X1 X2 ) existe., R on en
déduit que E (X1 X2 ) = x1 x2 f (x1 ,x2 ) dx1 dx2 = R x1 f1 (x1 ) dx1 x f (x2 ) dx2 =
R 2 2
R2
E (X1 ) E (X2 )
Corollaire 108 Si X = (X1 ,X2 ) est un vecteur aléatoire à valeurs dans R2

de densité f (·,·) , telque E (|X1 |) < +∞ et E (|X2 |) < +∞, alors cov (X1 ,X2 ) =
0 Lorsque les variables aléatoires sont indépendantes.
la réciproque est fausse.
Proposition 109 Si X et Y sont deux variables aléatoires indépendantes de

densité respectives
R f et g, la somme X+Y est une variable aléatoire de densité
h (v) = R f (u) g (v − u) du
46
Preuve. Soit A unRRintervalle de R, Soit B = {(x,y)
RR ∈ R2 ,x + y ∈ A} ,p {X + Y ∈ A} =
p {(X,Y ) ∈ B} = f (x) g (y) dxdy = f (x) g (y) dxdy
B {(x,y)∈R2 ,x+y∈A}
R Effectuons
R le changement de variables (u,v) = (x,x + y) , on a p {X + Y ∈ A} =
u∈A v∈A
f (u) g (v − u)
R dv du. Il en résulte que la variable aléatoire X+Y
a pour densité h (v) = R f (u) g (v − u) du
1.7 Convergences
Theorem 110 Loi faible des grands nombres
Soit (Xk )k≥1 une suite de variables aléatoires indépendantes deux à deux

de même loi, telles que E (X1 ) < +∞, alors ∀ > 0, lim p X n − E (X1 ) ≥ =
n→+∞
n
1
P
0 où X n = n Xi
i=1
n
n

1 nE(Xi ) 1
P P
Preuve. E X n = n
E (Xi ) = n
= E (Xi ) ; var X n = var n
Xi =
i=1 i=1
n
1 var(Xi )
P
n2
var (Xi ) = n
il résulte de l’inégalité de Tchébytchef que p X n − E (X1 ) ≥ ≤
i=1
var(X n )
2
= var(X
n2
i)
→ 0 quand n→ +∞
Cette loi faible des grands nombres, outre son importance en probabilité
sert beaucoup en statistique.
Theorem 111 Théorème limite centrale

Soit (Xk )k≥1 une suite de variables aléatoires indépendantes (iid) deux à
n
deux de même loi, on suppose que E (X12 ) existe. Posons Sn =
P
Xi alors
i=1
Rb 1 2
Sn −nE(Xi )
2
∀ (a,b) ∈ R ,a < b, on a lim p a < √ < b = a 2π exp − x2 dx
√
n→+∞ nvar(Xi )
Sn −nE(Xi ) √
Remarque 112 √ = √n −E(Xi )
nX
nvar(Xi ) var(Xi )
Ce théorème sert de justification théoriques à la règle pratique suivante :

lorsque n est assez grand (n ≥ 30) dans la pratique, si (Xk )k≥1 est une suite
de variables aléatoires iid telque E (Xi2 ) < +∞, on peut approximer la loi de
√ n −E(Xi ) √ n −E(Xi )
la variable aléatoire n X √ par la loi N (0,1) ,∀n, n X √ N (0,1)
var(Xi ) var(Xi )
47
1.8 Famille exponentielle:
La famille de loi exponentielle joue un rôle important statistique car elle
possède un certain nombre de propriété intéressante. Il s’agit
P de loi dont la
k
densité peut s’écrire sous la forme :f (x,θ) = a (θ) b (x) exp j=1 αj (θ) Tj (x)
Exemple 113 X B (n,p) ,θ = p

f (x,p) = p {X = x} = Cnx px (1 − p)n−x = Cnx (1 − p)n px (1 − p)−x=
Cnx (1 − p)n exp (x ln (p)) exp (−x ln (1 − p)) = Cnx (1 − p)n exp x ln 1−p
p

a (p) = (1 − p)n ,b (x) = Cnx ,α1 (p) = ln 1−p
p
,T1 (x) = x
−θ θ x
X p (θ) ,f (x,θ) = e x!
= e−θ x!1 exp (x ln (θ)) ,a (θ) = e−θ ,b (x) =
1
,α (θ) = ln (θ) ,T1 (x) = x
x! 1
48
Troisième partie
Inférence statistique
49
Chapitre 1
L’échantillonnage
1.1 Introduction
Le problème de l’inférence statistique est le suivant : Disposant d’un
échantillon de taille n, on désire en déduire les propriétés de la population
dont il est issu. Ainsi on cherchera à estimer, par exemple, la moyenne de la
population m à partir de la moyenne x d’un échantillon. ceci n’est possible
que si l’échantillon a été choisi d’une certaine manière.
La théorie de l’échantillonage étudié les relations qui existent entre la
distribution d’un caractère dans une population mère ou d’origine et les dis-
tributions de ce caractères dans tous les différents échantillons prélévés dans
cette population mère.
1.2 Notion élementaire sur les sondages

Définition 114 Un sondage est le mode d’obtention ou de prélèvement d’un
échantillon issue d’une population mère.
Définition 115 Une base de sondage est une liste numérotée de 1 à N des
N individus d’une population dans laquelle on veut extraire un échantillon.
Définition 116 Le taux de sondage est la proportion (pourcentage) de la
population totale échantillonée lors d’un sondage sans remise.
Exemple 117 1000 étudiants de la filère Biochimies font la mat 118. On
choisit au hasard 100 étudiants. La base de sondage ce sont les 1000 étudiants,
le taux de sondage est de 10%.
Il existe plusieurs modes d’obtentions d’un échantillon. Les méthodes em-
piriques et les methodes aléatoires.
50
1.2.1 Les méthodes empiriques
Ce sont plus connu du grand public et les plus utilisées par les instituts
de sondage d’opinion.
a) les méthodes des quotas ou sondage raisonné

L’enqueteur prélève librement son échantillon à condition de respecter
une composition donnée à l’avance: sexe, âge, catégorie professionnelle.
b) Méthodes des unités types

On choisit des unités d’individus que l’on considère comme fortement
representatives de certaines catégories de la population.
1.2.2 Les méthodes aléatoires

elle repose sur le tirage au hasard des échantillons.
a) méthodes élementaires
Elle consiste à tirer au hasard n individus dans une population N. Chaque
individu ayant une probabilité de 1/N d’être tiré. On parle aussi d’échantillon
aléatoire simple. Si les probabilités d’être tiré varie d’un individu à un autre,
on parle d’échantillon biaisé et de sondage à probabilité inégale.
b) Sondage stratifié
L’idée consiste à composer un échantillon à l’aide des sous échantillons
prélévés généralement de façon proportionnelle dans les différentes sous-
populations appélées strates de la population globale. cette méthode permet
d’améliorer considérablement la précision des estimations.
c) sondage systématique
Il consiste à prendre non pas des individus au hasard sur une liste comme
au point a, mais des individus régulièrement espacés sur la liste.
Exemple 118 Pour un sondage au 10ème, on prendra le 1er, le 11ème,

21ème
51
d) sondage par grappe
On tire au hasard des familles d’individus appélée grappes qu’on introduit
dans l’échantillon.
Exemple 119 On tire d’abord les immeubles, on interroge tous les habitants
de l’immeuble.
e) Sondage à plusieurs dégrés

C’est un tirage en cascade.
Exemple 120 On tire au hasard les villes, puis dans les villes on tire au
hasard les quartiers, puis les immeubles, puis les habitants.
Définition 121 L’échantillon sera dit exhaustif si le tirage est sans remise
et il est dit non exhaustif dans le cas contraire.
1.3 L’échantillon aléatoire

Exemple 122 Considérons l’exemple suivant :
Un rélévé complet du nombre d’automobile par résidence, pour les 50
maisons unifamilliales au quartier Santa Babara à yaoundé, précise que pour
30 d’entre elle, on ne compte qu’une seule voiture alors que chez les 20 autres
on en compte que deux.
Notons qu’ici la variable aléatoire est le nombre de vehicules par résidence.
ici on a affaire à une population et non un échantillon. et cette situation peut
Xi Ni P (X = xi )
1 30 3/5
être résumé comme dans le tableau suivant: La
2 20 2/5
Total 50 1
moyenne du nombre d’automobile par résidence est égale à µ = N1
P
Ni Xi =
(30×1)+(20×2) (30×12 )+(20×22 )
= 1,4 et la variance est égale σ 2 = N1 Ni Xi2 −µ2 =
P
50 50
−
2
(1,4) = 0,24. Deplus nous considérons comme ”succès” le fait qu’une mai-
son ne compte qu’un seule vehicule. Nous pouvons définir p=la proportion de
succès à l’interieur de cette population ” et le tableau ci dessus montre que
30
p = 50 = 0.6
Proposons nous maintenant, de prelever un échantillon de 3 maisons
et de noter le nombre d’auto que l’on compte pour chacune d’elle. Nous
procédons au tirage par hasard et avec remise. Chaque résultat dévient une
variable aléatoire indépendante des autres. A chaque échantillon (x1 ,x2 ,x3 )
52
P3
xi
, une variance s2 = 13 x2i − x2 , et
P
correspond une moyenne x = i=1 3
un écart type s et une proportion de succès (1 seule vehicule/résidence)
p = nombre de résidences de l’échantillon
3
ne possédant qu’un seul auto
Nous retrouvons de-
vant l’ensemble des possibilité suivants: P3
xi
s2 = 13 x2i − x p
P
(x1 ,x2 ,x3 ) p (x1 ,x2 ,x3 ) x = i=1 3
(1,1,1) 27/125 1 0 3/3=1
(1,1,2) 18/125 4/3 2/9 2/3
(1,2,1) 18/125 4/3 2/9 2/3
(1,2,2) 12/125 5/3 2/9 1/3
(2,1,1) 18/125 4/3 2/9 2/3
(2,1,2) 12/125 5/3 2/9 1/3
(2,2,1) 12/125 5/3 2/9 1/3
(2,2,2) 8/125 2 0 0
Dans toute la suite et comme en statistique, La majuscule désigne la va-
riable aléatoire ou l’ensemble des possibilités et la miniscule pour identifier
une réalisation ou une possibilité. Plusieurs x; s2 ,p nous amènent à considérer
les variables aléatoires X,S 2 ,P et leur caracteristiques respectives.
La distribution de probabilité de la variable X, moyenne d’échantillon
4 5
x 127 354 336 28 avec pour espérance E X =

aléatoire est :
P X=x 125 125 125 125
27 4 54
+ 53 × 12536 8
= 1,4 et sa variance V X = (1)2 ×

1 × 125 + 3 × 125 + 2 × 125
4 2 5 2
27 54 36
+ (2)2 × 125 8
− (1,4)2 = 0,08

125
+ 3
× 125
+ 3
× 125
La distribution de probabilité de la variable S 2 , variance d’échantillon
2
s2 0
aléatoire est : 2 2 35
9
90 avec pour espérance E (S 2 ) = 0 ×
P ({S = s }) 125 125
2 2 2
35 2 90 35 90
− (0,16)2 =
2

125
+ 9
× 125
= 0,16 et sa variance V (S ) = (0) × 125
+ 9
× 125
0,01
La distribution de probabilité de la variable P , proportion de succès aléatoire,
1 2
p 0 3 3
1
à l’interieur de l’échantillon est : 8 36 54 27 avec
P P =p 125 125 125 125
27
+ 23 × 12554
+ 13 × 125
36 8

pour espérance E P = 1× 125 +0× 125 = 0,6 et sa variance
2 2 2 2
27
+ 23 × 125 54
+ 13 × 125 36 8
− (0,6)2 = 0,08

V P = (1) × 125 + (0) × 125
Commençons par déterminer les composantes de tout prélèvement d’un

échantillon à l’interieur d’une population donnée. L’hypothèse de travail est
qu’une population est unique. Quant à un caractère X, elle possède une dis-
tribution qui lui est propre, une moyenne µ, une variance σ 2 et une propotion
de succès p. Un échantillon, prélévé dans cette population peut apparaitre
53
de differentes façons. L’ensemble des différentes échantillons possibles est dit
”échantillons aléatoires” et noté (X1 ,X2 ,...,Xn )
Un ensemble d’échantillons possibles amène un ensemble de moyenne
d’échantillon possibles, un ensemble de variance possibles et un ensemble
de proportions de succès possibles à l’interieur de l’échantillon. L’ensemble
des différentes moyennes d’échantillon possibles sont les observations d’une
variable aléatoire appélée ”moyenne d’échantillon aléatoire” et noté X.
Cette variable possède une distribution de probabilité, une espérance E X

et une variance V X . L’ensemble des différentes variances d’échantillon
possibles sont les observations d’une variable aléatoire appélée ”variance
d’échantillon aléatoire” et noté S 2 . Cette variable possède une distribu-
tion de probabilité, une espérance E (S 2 ) et une variance V (S 2 ) . L’ensemble
des différentes proportions de succès possibles à d’échantillon possibles sont
les observations d’une variable aléatoire appélée ”variance d’échantillon
aléatoire” et noté S 2 . Cette variable possède une distribution de probabi-
lité, une espérance E (S 2 ) et une variance V (S 2 ) .L’ensemble des differentes
proportions de succès possibles à l’interieur de l’echantillon est dit ” propor-
tion de succes ALEATOIRE à l’interieur de l’echantillon” et note P . Cette
variable possède
une distribution de
probabilité, une espe-
rance E P et une variance V P .Enfin une echantillon particulier tirer de
cette population est unique.il est noté(x1; x2 ....xn ) .et il possède une moyenne
unique:x, une variance unique :S 2 et une proportion de succès unique:P
1.4 CENTRE DE GRAVITE ET VARIANCE

DES VARIABLES X; S 2;ET P
1.4.1 ETUDE DE X
Theorem 123 Soit (X1 ,X2 ,...,Xn ) un echantillon aléatoire de X où les
Xi sont indépendantes les unes des autres et de même loi que X. Soit µ ,la
moyenne d’un caractère donné à l’interieur de la population, et σ 2 la variance
de ce caractère. SoitX , la moyenne d’echantillon aléatoire de ce caractère.
2
alors E X = µ et V X = σn où n est la taille de l’echantillon.

Preuve. E X = E n1 Xi = n1
P P
E (Xi ) car E () est linéaire. E X =
1
µ = n1 nµ = µ et V X = V n1 Xi = n12
P P P
n
V (Xi ) d’après les
1 1 σ2
P 2 2
propriétés des variances V X = n2 σ = n2 nσ = n
Remarque 124 la premiere partie de ce theorème nous indique que bien
qu’il ait plusieurs moyennes d’echantillon possibles x au moment de prelèvement
54
d’un echantillon,l’ensemble de ces differentes possibilite gravite autour de
µ,,la veritable moyenne de la population . comme exemple ;imaginons un
collège ou la moyenne d’age des etudiants serait µ = 18 ans.un echan-
tillon tiré de ce college pourrait presenter une moyenne d’age x1 de 17.75
ans;un second; une moyenne x2 de 18.25 ans;un troisieme; une moyenne x
3 de 17.85 ans, et ainsi de suite. Certains echantillons possèdent donc une
moyenne x inferieure à µ;d0 autre une moyenne supérieurne.mais
la moyenne
probable de ces differentes possibilités de moyennes;E X ;correspond precise-
ment à µ = 18 ans;la moyenne d’age reèlle des etudiants de ce collège.
Quant à la deuxieme partie de ce théorème;elle precise que ces differentes
moyennes d’échantillon possible x tournent autour de la vraie moyenne µ de
la population avec une dispersion qui depend de n au denominateur.ainsi;plus
n est grand;plus V[x] est petit;plus la dispersion des differntes Xest faible,plus
la concentration des xatour de µ est resserrée.pour illustrer cette loi,reprenons
notre exemple de l’age des etudiants d’un collège. Si nous ne prelevons qu’un
echantillon de 2 etudiants,il est possible que celui ci soit composé de 2
etudiants plus jeunes (ou de 2 etudiants très vieux)par rapport à l0 ensemble,
ce qui nous donne une possibilité d’obtenir une moyenne d’echantillon très
faible(ou trè forte)par rappot à la moyenne reelle µ de ce collège.une petite
taille d’echantillon offre donc une possibilité de differences importantes entre
les diverses moyennes d’echantillon possible. Par contre, si nous prelevons
un echantillon de 500 etudiants, il devient trè peu probable.bien que ce soit
toujours possible; que la moyenne xd’un tel echantillon soit très faibleou très
forte par rappot à celle du collège. Ainsi, plus la taille de l’echantillon est
grande,plus les differentes moyennes d’echantillon possibles x ont de chance
d’être rapprochées de la moyenne µ de la population.
1.4.2 ETUDE DE S2
Theorem 125 Soit σ 2 la variance d’un caractère donné a l’intérieur de la
population et S 2 la variance d’échantillon aléatoire de ce caractère, alors
E [S 2 ] = (n−1)
n
σ 2 où n est la taille de l’échantillon
Preuve. en Exercice
Remarque 126 Alors que les différentes moyennes d’échantillon possibles x

gravitent autour de µ , ce théorème nous indique que les différentes variances
d’échantillon possibles S 2 ne gravitent pas tout à fait autour de σ 2 , la variance
de la population , Elles tournent autour d’une valeur légèrement inférieure à
σ 2 , c’est à dire autour de (n−1)
n
σ 2 A cause de cette particularité , on dit que
55
les différentes variances d’échantillon S 2 sont ( Biaisées ) par rapport à σ 2 .
Le biais provenant du coéfficient n−1 n
. Nous pouvons quand meme constater
que plus la valeur de n est grande moins le biais est prononcé , car alors n−1 n
→ 1. D’autre part , à cause du n dénominateur de V [S 2 ] nous pouvons encore
déduire que plus la taille de l’échantillon est importante , plus la concentration
des différents S 2 est resserée autour de (n−1)
1
σ2
1.4.3 ETUDE DE P
Theorem 127 Soit p la proportion de succès à l’intérieur de la population
et p la proportion de succès aléatoire à l’intérieur d’un échantillon de taille
n prélevé dans cette population , alors E[p] = p et V [p] = pq n
Preuve. en Exercice
Remarque 128 Le sens de ce théorème est très voisin de l’énoncé précédent
au sujet deX Les différentes proportions de succès possibles p à l’intérieur
d’un échantillon gravitent autour de la proportion de succès à l’intérieur de
la population p avec une concentration d’autant plus forte que la taille de
l’échantillon est importante.
1.5 LOIS DE PROBABILITE PARTICULIERES

POUR X ET P
Après nous etre intérrogés sur le centre de gravité et la dispersion des
variables x . S 2 et P , nous tenterons maintenant de découvrir à quelles
lois de probabilité sont soumises ces différentes variables , cependant , étant
donné nos connaissances actuelles, nous devrons nous limiter aux lois de
probabilité des variablesx etp , le dévéloppement de celle de la variable S 2
dépassant de niveau de notre étude.
1.5.1 LOIS DE PROBABILITE PARTICULIERES POUR

X
Theorem 129 Soit X , la variable étudiée pour l’ensemble de la population ,
et X , la moyenne
d’échantillon
aléatoire de cette variable , si X N (u; σ 2 )
2
alors X N u; σn où n = la taille de l’échantillon
Preuve. en Exercice
Exemple 130 On affirme que dans une région donnée , la taille ( en cm )
des bébés garçons , à la naissance est distribuée selon une loi N ( 49 ; 1,5 ),
56
Si l’on se rappelle que dans une distribution normale , la presque totalité des
valeurs du caractère se situent dans l’intervalle (u − 3σ; u + 3σ), une telle
donnée nous permet de conclure que dans cette région √ la presque totalité
√ dse
bébés garçons mesurent à la naissance entre 49 − 3 1,5 et 49 + 3 1,5cm,
c’est à dire entre 45,33 et 52,67 cm. De plus , avec cette donnée si nous
notons X la taille d’un bébé garçon , nous pouvons calculer entre autres que
le probabilité qu’un bébé choisi au hasard mesure entre 48,5 et 49,5 est égale
à P [48,5 ≤ X ≤ 49,5] = P [−0,41 ≤ Z ≤ 0,41] = 0,3182. Que se passe-
rait -il si l’on tirait un petit échantillon composé de 5 de ces bébés? D’après
l’énoncé de ce théorème , si l’on notex, la taille moyenne d’un tel échantillon
alors x : N (49 : 1,5 5
) = N (49; 0,3), Nous pouvons donc calculer que la
presque totalité des moyennes possibles
√ , pour √ un échantillon
de cette taille
se situent dans l’intervalle 49 − 3 0,3; 49 + 3 0,3 = [47,36; 50,64] cm et
que pour un tel échantillon p [48,5 ≤ x ≤ 49,5] = p [−0,91 ≤ Z ≤ 0,91] =
0,6372, Que se passerait -il , maintenant si l’on tirait un écantillon com-
posé de 50 de ces bébés ? Toujours d’après l’énoncé de notre théorème ,
si l’on notex la taille moyenne d’un tel échantillon , alorsX: N(49; 1,5 50
) =
N (49;0,03 ) Nous pouvons cdonc calculer la presque totalité des moyennes
possibles
√ , pour un échantillon
√ de cette taille , se situent dans l’intervalle
49 − 3 0,03; 49 + 3 0,03 = [48,48; 49,52] cm, et que ,pour un tel échantillon
, P [48,5 ≤ x ≤ 49,5] = P [−2,89 ≤ z ≤ 2,89] = 0,9962, Ainsi, pour la va-
riable x distribuée dans l’ensemble de la population selon une loi N(49 ; 1,5
) , alors que ses différentes possibilités s’étalent normalement entre 45,33 et
52,67 cm ,les différentes possibilités de ses moyennes d’échantillon de taille
n s’étalent aussi normalement autour de u = 49 mais avec une concentration
d’autant plus forte que n est gand
Theorem 131 Soit X la variable étudiée pour l’ensmble de la population et

X la moyenne d’échantillon aléatoire de cette variable , si X suit la loi de
probabilité quelconque tel le que E [x] = µ , et V [x] = σ 2 et si n est
2
grand , alors X N (µ : σn ) , où n = la taille de l’échantillon
Preuve. en Exercice (utiliser le théorme de limite centrale)
Remarque 132 Plus n est grand ,plus cette approximation est juste dans la
pratique , on la cosidère généralement valable dès que n ≥ 30. Cependant,
si l’on soupçonne que la loi de probabilité de X est vraiment asymétrique ou
plurimodale , une étude minutieuse nous demanderait plutot de considérer
n ≥ 50
Exemple 133 Dans un certain hopital , le nombre de naissances par jour

varie de telle sorte qu’on en estime à 7 le nombre moyen et à 2 l’écart type
57
a ) quelle est la probabilité que le nombre moyen de naissances par jour ,
pour un échantillon de 10 jours se situe entre 6,5 et 7,5?
ici si l’on note X le nombre de naissances par jour, alors X suit une loi
quelconque, Comme n = 10 , la taille de l’échantillon est petite et le théorème
ne s’applique pas , nous ne pouvons pas donc connaitre la loi de probabilité
de X et delà , nous ne pouvons pas repondre à la question posée
b ) Si l’on revélait plutot un échantillon de 125 jours , quelle serait alors la
probabilité que le nombre moyen de naissance par jour , pour cette échantllon
se situe entre 6,5 et 7,5
2
Encore ici , X suit une loi2 aquelconque avec µ = 7 et σ = 4. comme n =
σ

125 est grand ,X N µ : n = N (7; 4/125) et ainsi P 6,5 ≤ X ≤ 7,5 =
P [−2,80 ≤ Z ≤ 2,80] = 0,9948
1.5.2 LOI DE PROBABILITE PARTICULIERE P

Theorem 134 Soit p , la proportion de succès à l’interieur de la population,
et P , la proportion de succès à l’interieur d’un échantillon aléatoire de
en même temps, n ≥ 30,np ≥ 5,nq ≥
taille nprélévé dans cette population, si
pq
5 (où q = 1 − p), alors P N p; n
Preuve. en Exercice (Lorsque n ≥ 30,np ≥ 5,nq ≥ 5; alors d’après le

théorème de limite centrale, la loi binomiale B(n,p) est approximer par la loi
normale N (np,npq))
Exemple 135 Dans une compagnie, 35% du personnel est de sexe feminin
a) Entre quelles valeurs, environ devrait se situer la proportion de femme
dans un échantillon de 100 individu dans cette compagnie?
b) Quelle est la probabilité de retrouver entre 33% et 36,5% à l’interieur
d’un tel échantillon?
a) si l’on note P la proportion des femmes à l’interieur de l’échantillon
et comme n = 100 ≥ 30,np = 100 × 0.35 = 35 ≥ 5,nq = 100 × 0.65 = 65 ≥ 5
pq
alors P ' N p; n = N (0.35; 0.002275) et ainsi
√ √
p ∈ 0.35 − 3 0.002275; 0.35 + 3 0.002275 = [0.2069; 0.4931]

b)p 0.335 ≤ P ≤ 0.365 ' p [−0.31 ≤ Z ≤ +0.31] = 0.2434
58
Chapitre 2
ESTIMATION
2.1 Introduction
La distribution exacte d’une variable X modélisant le caractère qui inter-
esse le statisticien (taux de pollution d’une rivière, dépenses des ménages
pour le logement...) est généralement partiellement connue. La loi de X
dépend d’un parametre inconnu. On cherche à se faire une idée sur ce pa-
ramètre à partir des données observées sur l’échantillon. Ainsi attribuer
au paramètre une valeur numérique unique est une ESTIMATION PONC-
TUELLE. Pour ce faire, on choisit une statistique dont la valeur est, après
tirage aléatoire de l’échantillon, l’estimation du paramètre. Cette statistique
est l’ESTIMATEUR. Mais quelles sont les chances pour que cette estima-
tion ponctuelle soit exacte? Plutôt que d’estimer un paramètre à l’aide d’un
seul nombre, il arrive fréquemment que l’on fasse l’estimation en donnant
un INTERVALLE de valeurs. Un INTERVALLE D’ESTIMATION (ou de
CONFIANCE) est défini de telle sorte que l’on puisse affirmer avec un degré
de confiance fixé que le paramètre visé se trouve dans cet intervalle.
Nous nous intéresserons dans ce chapitre à l’estimation des principales
caractéristiques (ou paramètres) d’une v.a dans une population, à savoir la
moyenne, la variance et la fréquence.
Notations
• les paramètres à estimer seront notés par des lettres grecques minuscules
µ : moyenne
σ : écart-type
σ 2 : variance
π: proportion
• les réalisations d’échantillon seront notées par des lettres latines minus-
cules
59
x1 ,...,xn : valeur de l’échantillon
x : moyenne de l’échantillon
s : écart-type de l’échantillon
s2 : variance de l’échantillon
p : proportion dans l’échantillon
• les estimateurs ( v.a. ou statistiques) seront notés par des majuscules
X
S2
F
2.2 Généralités sur les estimateurs

Soit X une v.a. dont la loi dépend d’un paramètre inconnu θ .Soit (X1 ,...,Xn )
un n-échantillon de X et (x1 ,...,xn ) sa réalisation. Il
s’agit d’estimer le paramètre θ.
Définition 136 Un ESTIMATEUR de θ sera une statistique T = f (X1 ,...,Xn )

et sa réalisation sera notée t = f (x1 ,...,xn )
Pour un même paramètre, il peut y avoir plusieurs estimateurs possibles

(ex: Le paramètre d’une loi de Poisson admet comme estimateurs possibles
la moyenne empirique et la variance empirique). Pour pouvoir choisir, il faut
définir les qualités qui font qu’un estimateur sera meilleur.
Définition 137 On appelle erreur d’estimation: T − θ.
Celle-ci peut se décomposer de la façon suivante: T − θ = T − E(T ) +

E(T ) − θ
Le terme T − E(T ) traduit la fluctuation de T autour de son espérance
et le terme E(T ) − θ = B(T ) représente l’erreur systématique et s’appelle
BIAIS de l’ESTIMATEUR
Définition 138 (estimateur sans biais): Un estimateur T de θ est dit sans

biais si E(T ) = θ , (ou bien B(T ) = 0)
Exemple 139 : La moyenne empirique est un estimateur sans biais du

paramètre λ d’une loi de Poisson. La variance empirique est estimateur
biaisé du même paramètre .
n−1
En effet, E(X) = λ , E(S 2 ) = n
λ car E (X) = V (X) = λ
Définition 140 Un estimateur T de θ est dit asymptotiquement sans biais

si E(T ) → θ pour n → +∞
60
Définition 141 Un estimateur sans biais ou asymptotiquement sans biais
est dit convergent si V (T ) → 0 pour n → +∞
Définition 142 Soient T et T 0 deux estimateurs sans biais de θ. T est dit

plus efficace que T 0 si V (T ) ≤ V (T 0 )
Définition 143 L’estimateur sans biais et de variance minimale est appelé

estimateur efficace.
2.3 Les qualités d’un estimateur

La première qualité que l’on attend d’un estimateur est qu’il converge vers
le paramètre qu’il estime, lorsque la taille de l’échantillon tend vers l’infini.
Définition 144 Un estimateur Tn est faiblement consistant s’il converge en

probabilité vers θ quand n tend vers l’infini
∀ > 0,p (|Tn − θ| ≥ ) →n→+∞ 0
Un estimateur Tn est fortement consistant s’il converge en presque sur-

ement vers θ quand n tend vers l’infini

p lim Tn = θ = 1
n→+∞
Une seconde qualité est l’absence de biais d’un estimateur.Un bon esti-
mateur doit être sans biais. c’est à dire que l’estimation ne soit pas décalé
systèmatiquement de sa vraie valeur.
Définition 145 On appelle biais d’un estimateur la quantité E (T n) − θ
On parle alors d’estimateur sans biais, biaisé ou asymptotiquement sans

biais.
Exemple 146 Que dire des estimateurs X, V 2 et S 2 ?
La troisième valeur d’un estimateur est la précision c’est à dire que si

l’on répète l’estimation sur un autre échantillon, on souhaite une estimation
cohérente donc peu de variation d’un echantillon à un autre. On parle aussi
d’efficacité. On mesure également la précision d’un estimateur Tn par l’erreur
2
quadratique moyenne E (Tn − θ) , qui se décompose sous la forme
E (Tn − θ)2 = V (Tn ) + (E (Tn ) − θ)2

61
Ainsi, de deux estimateurs sans biais, le plus performant sera celui de
variance minimale. Nous chercherons donc
généralement à utiliser des estimateurs sans biais de variance minimale.
Exemple 147 On peut montrer que lorsque µ est connue, l’estimateur Vµ2 =
1
Pn 2 2
n i=1 (Xi − µ) est meilleur que S .
Exercise 148 Proposer 2 estimateurs pour le paramètre d’une loi de Poisson

et déterminer le meilleur.
La robustesse: on souhaite que l’estimation ne soit pas sensible à la

présence des valeurs abérrantes. Tout estimation nécessite un temps de cal-
cul. On évalue de ce fait la complexité du calcul en fonction de la taille des
données n. En conclusion, un bon estimateur se doit d’être convergent, precis,
sans biais, robuste et peu complexe.
2.4 Estimateur exhaustif

Un échantillon X1 ,...,Xn contient une certaine information vis-à-vis d’un
paramètre inconnu de la population. Une statistique Tn résumant l’infor-
mation contenue dans l’échantillon, il sera très important de ne pas perdre
d’information : c’est cette qualité que l’on nomme l’exhaustivité.
Définition 149 Onappelle vraisemblance du paramètre θ la fonction

Qn

 f (xi ; θ) si les Xi sont continues
i=1
L(x1 ,...,xn ; θ) = n
Q

 p (Xi = xi ; θ) si les Xi sont discretes
i=1
où f (xi ; θ) est la densité de la variable aléatoire Xi et p (Xi = xi ; θ) est
la probabilité de l’événement {Xi = xi } paramétrée par θ .
Soit Tn une statistique fonction de X1 ,...,Xn de loi g(t; θ) (densité dans

le cas continu, P (T = t; θ) dans le cas discret).
Définition 150 La statistique T est exhaustive pour si
L(x1 ,...,xn ; θ) = g(t; θ)h(x1 ,...,xn )

En d’autre terme, elle est exhaustive si la loi de l’échantillon sachant T
= t ne dépend pas de θ
62
Ce qui signifie que si T est connue, l’échantillon n’apportera plus aucune
autre information supplémentaire sur θ
Exemple
Pn 151 Pour la loi normale de moyenne connue , la statistique T =
1 2 2
n i=1 (Xi − µ) est exhaustive pour σ .
Theorem 152 (de Darmois). Soit X1 ,...,Xn un échantillon dont le domaine

de définition de la loi ne dépend pas de θ. Une condition nécessaire et suf-
fisante pour que l’échantillon admette une statistique exhaustive est que la
densité soit de la forme :
f (xi ; θ) = exp [a(x)α(θ) + b(x) + β(θ)]
Une telle densité

Pn est dite de la famille exponentielle.PSi de plus l’appli-
1 n
cation x1 7→ i=1 a (xi ) est bijective et C alors T = i=1 a (Xi ) est une
statistique exhaustive particulière.
n
Q
Exemple 153 Montrer que T = ln Xi est une statistique exhaustive pour
i=1
xθ−1
une loi Gamma de paramètre θ inconnu, dont la densité est f (x) = Γ(θ)e−x
Exercise 154 Donner des statistiques exhaustives pour les lois de Bernoulli,
exponentielle et normale (avec soit la variance connue, soit la moyenne).
La notion d’exhaustivité renseigne sur le pouvoir d’une statistique à

véhiculer l’information contenue dans un échantillon vis-à-vis d’un paramètre
inconnu θ que l’on cherche à estimer. La quantité d’information sur le pa-
ramètre apportée par l’échantillon s’exprime elle par l’information de Fisher.
Définition 155 On appelle quantité d’information de Fisher In (θ) apportée

par un n-échantillon
h sur le paramètre θ la quantité suivante (si elle existe) :
i
∂ ln L 2
In (θ) = E ∂θ
Theorem 156 Si le domaine hde2 définition

i de la loi de l’échantillon ne dépend
∂ ln L
pas de θ, on a : In (θ) = −E ∂θ2
Propriété :
(i) Si le domaine de définition de la loi de l’échantillon ne dépend pas de
θ, In (θ) = nI1 (θ)
(ii) Si la loi de l’échantillon est une loi normale de variance connue, (θ =
µ), alors I1 (θ) = σ12
63
2
∂lng(t;θ)
(iii) en notant IT (θ) = E ∂θ
l’information de Fisher apportée
par la statistique T, avec g(t; θ) la densité de T, on a IT (θ) ≤ In (θ). On a
égalité si T est exhaustive, et réciproquement si le domaine de définition de
la loi de l’échantillon est indépendant de θ .
La propriété 1 dit que chaque observation a la même importance, ce qui

n’est pas le cas lorsque le domaine de définition dépend de θ, comme pour
une loi uniforme sur [0; θ], où la plus grande valeur de l’échantillon apporte
plus d’information que les autres sur θ.
La propriété 2 nous assure l’information apportée par une observation est
d’autant plus grande que la dispersion est petite.
2.5 Estimation sans biais de variance mini-

male
Nous avons vu précédemment que les deux qualités les plus importantes
pour un estimateur étaient d’être sans biais, et de variance minimale. Il existe
un certain nombre de théorèmes facilitant la recherche d’un tel estimateur.
Theorem 157 (Unicité). S’il existe un estimateur de sans biais de variance

minimale, il est unique presque sûrement.
Theorem 158 (Rao-Blackwell). Soit T un estimateur sans biais de θ et U

une statistique exhaustive pour θ . Alors T ∗ = E [T |U ] est un estimateur sans
biais de θ au moins aussi bon que T (d’un point de vue variance).
Theorem 159 S’il existe une statistique exhaustive U, alors l’unique esti-
mateur T de θ sans biais de variance minimale ne dépend que de U.
Définition 160 Une statistique U est complète si E [h(U ) = 0] ,∀θ =⇒ h =

0p.s.
Theorem 161 (Lehmann-Scheffé). Si T est un estimateur sans biais de θ

dépendant d’une statistique exhaustive complète U alors T ∗ est l’unique esti-
mateur sans biais de variance minimale. En particulier si l’on dispose d’un
estimateur T sans biais de θ, T ∗ = E [T |U ]
Exemple 162 Le nombre de bug informatique par semaine d’un logiciel

donné suit une loi de Poisson de paramètre λ . On cherche à évaluer la
probabilité de n’avoir aucune panne pendant une semaine P (X = 0) = e−λ .
Que proposez-vous?
64
Le résultat suivant nous indique une borne à laquelle ne peut être inférieure
la variance d’un estimateur.
Theorem 163 (Inégalité de Fréchet-Darmois-Cramer-Rao). Si le domaine
de définition de la loi de l’échantillon ne dépend pas de θ, tout estimateur T
vérifie
1
V (T ) >
In (θ)
et si T est un estimateur sans biais de h(θ)
[h0 (θ)]2
V (T ) >
In (θ)
Définition 164 Un estimateur qui atteint la borne de Cramer-Rao est dit
efficace. Autrement dit, un estimateur est efficace s’il n’est pas possible de
trouver un estimateur sans biais de variance plus faible.
Theorem 165 (efficacité). — la borne de Cramer-Rao ne peut être atteinte
que si la loi de l’échantillon est de la famille exponentielle :
f (x; θ) = exp [a(x)α(θ) + b(x) + β(θ)]
dans ce cas il n’existe qu’une seule fonction du paramètre (à une transforma-
tion linéaire près) qui
Theorem 166 puisse être estimée efficacement, c’est
β 0 (θ)
h(θ) = −
α0 (θ)
L’estimateur de h(θ) est alors
n
1X
T = a (Xi )
n i=1
et la variance minimale est

h0 (θ)
V (T ) =
nα0 (θ)
Exemple 167 Donner un estimateur de l’écart-type d’une loi normale de
moyenne connue.
La recherche d’estimateur sans biais de variance minimale passe donc par
la recherche d’estimateur exhaustif.Or cette recherche peut ne pas aboutir,
et elle est de plus assez lourde. La méthode du maximum de vraisemblance
est une méthode systématique permettant de trouver des estimateurs.
65
2.6 Méthode du maximum de vraisemblance
La méthode du maximum de vraisemblance permet de trouver des esti-
mateurs dans toutes les situations, même les plus compliquées. C’est une des
méthodes d’estimation les plus utilisées.
Cette méthode consiste à recherche le paramètre θ qui maximise la fonc-
tion de vraisemblance L(x1 ,...,xn ; θ), c’est-à-dire pour lequel la densité de
l’échantillon est la plus grande. L’estimateur du maximum de vraisemblance
(EMV) est donc une solution de l’équation de vraisemblance
∂
ln L(x1 ,...,xn ; θ) = 0
∂θ
∂2
vérifiant ∂θ 2 ln L(x1 ,...,xn ; θ) < 0. Un certain nombre de propriété nous
b
prouve l’intérêt de cette estimateur.
Propriété
(i) S’il existe une statistique exhaustive U, alors l’EMV en dépend.
(ii) Si θb est l’EMV, f (θ) b est l’EMV de f (θ)
(iii) Il existe une suite θbn de racines de l’équation de vraisemblance
qui converge presque sûrement vers θ. de
plus, il existe un rang à partir duquel le maximum est atteint.
L 1
(iv) θbn ,→ N θ, In (θ)
La dernière propriété nous assure que l’EMV est asymptotiquement effi-
cace. Il est donc important d’avoir un
échantillon important pour utiliser cet estimateur.
Lorsque le modèle comporte plusieurs paramètres θ1 ,...,θp , il sera nécessaire
de résoudre le système d’équation
simultanées
∂
ln L(x1 ,...,xn ; θ) = 0,∀1 ≤ i ≤ p
∂θi
Remarque 168 — L’équation de vraisemblance n’a pas nécessairement une
unique racine.
— La solution de l’équation de vraisemblance n’est pas toujours calculable
analytiquement. Dans ce cas, des algorithmes de recherche de maximum (de
type Newton) peuvent être utilisés.
66
2.7 Estimation ponctuelle des paramètres usuels
2.7.1 Estimation de la moyenne
Soit X une v.a dont on veut estimer la moyenne (ou espérance) µ = E(X)
à partir d’un n-échantillon (X1 ,...,Xn ) de X. On ne suppose rien sur la loi de
X.
n
1
P
Theorem 169 X = n
Xi , la moyenne empirique, est un estimateur effi-
i=1
cace de µ
Preuve. D’après le chapitre précédent X est un estimateur sans biais de µ,

et de plus V (X) = V (X)n
→ 0 quand n → +∞ et ∀T, un autre estimateur de
µ,V (T ) > V (X)
x est la réalisation de X et donc une estimation efficace de µ
2.7.2 Estimation de la variance d’une population Gaus-

sienne
Soit X une v.a qui suit une loi normale N (µ,σ). On veut estimer la
variance σ 2 de X.
a) µ connue
n
Theorem 170 T 2 = 1
(Xi − µ)2 est un estimateur efficace de σ 2
P
n
i=1
Preuve.
n n n
1X 1X 2 1X
2
E(T ) = E( (Xi − µ)2 ) = E( Xi − 2 µXi + µ2 )
n i=1 n i=1 n i=1
n n n
1X 1X 1X
= E(Xi2 ) − 2µ E (Xi ) + µ2 = E(Xi2 ) − µ2
n i=1 n i=1 n i=1
n n
1X 1X 2
= E(Xi2 ) − µ = σ = σ2
n i=1 n i=1
Donc un estimateur sans biais
67
n n
1X 2 1 X
2
(Xi − µ)2 )

V T = V( (Xi − µ) ) = 2 V (
n i=1 n i=1
n n
1 X 2 1 Xh 4 2 2
i
= V ((X i − µ) ) = E((X i − µ) ) − E((Xi − µ) ) = .... → 0
n2 i=1 n2 i=1
b) µ inconnue
n 2
1
Theorem 171 S 2 =
P
n
Xi − X c’est à dire la variance empirique est
i=1
2
un estimateur biaisé de σ , mais asymptotiquement sans biais.
n−1 2
Preuve. D’après le chapitre précedant E(S 2 ) = n
σ ;
B(S 2 ) = E(S 2 ) − σ 2 = n−1
n
σ 2 − σ 2 = − n1 σ 2
2
V (S ) → 0 quand n → +∞
n 2
Theorem 172 (S 0 )2 = n
S2 1
P
n−1
= n−1
Xi − X est un estimateur sans
i=1
biais de σ 2
Preuve. E((S 0 )2 ) = n
n−1
E(S 2 ) = n n−1 2
n−1 n
σ = σ 2 donc sans biais.
Remarque 173 1. Pour n grand, E(S 2 ) ≈ E((S 0 )2 ) et on préfère S 2

2. Pour n petit, on préfère (S 0 )2
2.7.3 Estimation d’une proportion

Soit une population ayant des individus possédant une certaine caractéristique
A. On veut estimer à partir d’un échantillon de taille n la proportion d’indivi-
dus possédant cette caractéristique A. Soit K la v.a qui représente le nombre
d’individus dans l’échantillon possédant la caractéristique A.
Theorem 174 La fréquence empirique F = K/n est l’estimateur efficace de

π.
Preuve. D’après le chapitre précedent, E(F ) = π et V (F ) = π(1−π)

n
→ 0
lorsque n → +∞ donc F est un estimateur sans biais convergent de π
68
2.7.4 Exemples d’estimations ponctuelles
Exercice 1: (estimation d’une moyenne, d’un écart-type)
Lors d’un concours radiophonique, on note X: le nombre de réponses
reçues chaque jour. On suppose X N (µ,σ). Durant 10 jours on a obtenu:
xi — 200 240 190 150 220 180 170 230 210 210 . Donner une estimation
ponctuelle de µ, σ 2 .
solution
n = 10
1 1
X = 10 (X1 + ... + X10 ) est un estimateur de µ, sa réalisation x = 10 (x1 +
... + x10 ) = 2000
10
= 200 est une estimation ponctuelle efficace de µ. Dans le cas
2 1 2 2
2
de la variance, la moyenne µ est inconnue d’où S = 10 (X1 +...+X10 )− X
1
est un estimateur biaisé de σ 2 , sa réalisation s2 = 10 (x21 + ... + x210 ) − (x)2 =
40700−40000 = 700 est une estimation biaisé de σ 2 . (S 0 )2 = n−1 n
S 2 = 10 9
700 =
778 est une estimation ponctuelle sans biais de σ 2 .
Exercice 2: (estimation d’une proportion)

Dans une population d’étudiants AES, on a prélevé indépendamment 2
échantillons de taille n1 = 120, n2 = 150. On constate que 48 étudiants du 1-
er échantillon et 66 du 2-ème ont une formation scientifique secondaire. Soit
π la proportion d’étudiants ayant suivi une formation scientifique. Calculer
3
estimations ponctuelles de π.
solution
K 48 66 48+66
F= ,f
n 1
= 120
= 0.4; f2 = 150
= 0.44; f3 = 120+150
= 0.422;
2.8 Intervalle de confiance

2.8.1 Généralités
Il est plus réaliste et plus intéressant de fournir une estimation du type
t1 < θ < t2 plutôt que d’écrire sèchement θ = t, car on sait que la valeur
estimée t diffère toujours de la valeur exacte du paramètre recherché, θ. Il
69
est donc souhaitable de donner la précision de l’estimation en acceptant de
faire une erreur sur celle-ci.
Définition 175 Soit X une v.a. dont la loi dépend d’un paramètre inconnu
θ; on appelle INTERVALLE DE CONFIANCE pour de niveau 1 − α (ou de
seuil α), un intervalle qui a la probabilité 1 − α de contenir la vraie valeur
de θ.
[t1 ,t2 ] est un intervalle de confiance de niveau 1 − α pour signifie P (t1 <
θ < t2 ) = 1 − α
(plus le niveau de confiance est élevé, plus la certitude est grande que la
méthode d’estimation produira une estimation contenant la vraie valeur de
θ)
Remarque 176 1. les niveaux de confiance les plus fréquemment utilisés

sont 90%,95%,99%
2. α est appelé le seuil (le risque); on choisira dans la plupart des cas un
intervalle à risques symétriques, c-a-d t.q. P (θ < t1 ) = α2 ,P (θ > t2 ) =
α
2
3. Si on augmente le niveau de confiance 1 − α , on augmente la longueur
de l’intervalle.
2.8.2 Intervalle de confiance pour une moyenne

a) cas où n, la taille de l’échantillon, est petite n ¡ 30
On suppose que X N (µ,σ).
On distingue deux cas σ connu et σ inconnu.

X−µ
a-1) connu On sait que X N µ, √σn ou √σ
N (0,1)
n
On se fixe le risque et on cherche dans la table de la loi normale la valeur
u1− α2 telle que
!
X −µ
p −u1− α2 < < u1− α2 = 1−α
√σ
n
!
X −µ α
p < u1− α2 = 1−
√σ 2
n
α
où u1− α2 est un fractile d’ordre 1 − 2
de la loi normale centrée réduite
70

X−µ
p −u1− α2 < √σ
< u1− α2 = 1−α ⇔ p X − u1− α2 √σn < µ < X + u1− α2 √σn =
n
1 − α par conséquent si x est une réalisation de X et l’intervalle de confiance

de µ de seuil α est

σ σ
I = x − u1− α2 √ ,x + u1− α2 √
n n
P15
Exemple 177 n = 15,σ = 3.75,α = 5%, i=1 xi = 2400 alors x = 2400 15
=
160,u1− 2 = 1.96 car p (U < −1.96) = 0.025, on suppose X gaussienne et
α
h i
3.75 3.75
on obtient l’intervalle de confiance : I = 160 − 1.96 √ 15
,160 + 1.96 √
15
=
[158.10; 161.90]
a-2) inconnu Il est connu que S/X−µ √

n−1
tn−1 et on cherche dans la table
de la loi de Student, α étant fixé, la valeur tn−1 1 − α2 telle que

α X −µ α
p −tn−1 1 − < √ < tn−1 1 − = 1−α
2 S/ n − 1 2

X −µ α α
p √ < tn−1 1 − = 1−
S/ n − 1 2 2
on a √ √
p X − tn−1 1 − α2 S/ n − 1 < µ < X + tn−1 1 − α2 S/ n − 1 = 1 −

α d’où si x est une réalisation de X et s une réalisation de S,

l’intervalle de confiance de µ de seuil α est

α s α s
I = x − tn−1 1 − √ ,x + tn−1 1 − √
2 n−1 2 n−1
P30 P30 2
Exemple 178 n = 30, i=1 xi = 1673, i=1 xi = 98285,α = 10%, alors
2
x = 55.77,s
h = 165.87,s = 12.88,t29(10%) = 1.699i
I = 55.77 − 1.699 12.88
√ ,55.77 + 1.699 12.88
29
√
29
= [51.71; 59.83]
b) cas où n, la taille de l’échantillon, est grande n ¿ 30

Il n’est plus nécessaire de supposer que X est Gaussienne.
X−µ
b-1) σ connu Le théorème de limite centrale montre que √σ
N (0,1)
n
On utilise la même démarche qu’en a-1 et si x est une réalisation de X

et l’intervalle de confiance de µ de seuil α est

σ σ
I = x − u1− α2 √ ,x + u1− α2 √
n n
71
b-2) σ inconnu On peut prendre comme intervalle de confiance celui de
X−µ
la section a-2). On peut également utiliser l’approximation suivante : S/ √
n
N (0,1) et on se fixe l’erreur α et on cherche dans la table de la loi normale
la valeur u1− α2 telle que

X −µ
p −u1− α2 < √ < u1− α2 = 1−α
S/ n

X −µ α
p √ < u1− α2 = 1−
S/ n 2
on a √ √
p X − u1− α2 S/ n < µ < X + u1− α2 S/ n = 1 − α d’où si x est une
réalisation de X et s une réalisation de S,
l’intervalle de confiance de µ de seuil α est

s s
I = x − u1− α2 √ ,x + u1− α2 √
n n
√ √
Remarque 179 Plus n est grand, plus I est petit (car 1/ n ou bien 1/ n − 1est
petit) et donc meilleure est la précision de l’estimation.
2.8.3 Intervalle de confiance pour la variance d’une va-

riable gaussienne

On suppose que X N µ, √σn
a) µ connue (peu fréquent)

n
T2 = 1
(Xi − µ)2 est un estimateur efficace de σ 2 et sa réalisation
P
n
i=1
n n
2 Xi −µ 2
1
(xi − µ)2 . Comme Xi −µ
N (0,1) , nT
2
P P
est t = n σ σ2
= σ
est une
i=1 i=1
somme de n variables aléatoires indépendantes qui suivent la loi normale
2
N (0,1) et donc nT
σ2
χ2n . L’erreur α étant 2
fixée, on cherche dans la table χn
2
les valeurs kn( α ) et kn(1− α ) telles que p kn( α ) < nT
σ2
< kn(1− α ) = 1−α ⇔
2 2 2 2
2 2
p k nT α < σ 2 < knTα = 1 − α. donc, si t2 est une réalisation de T 2 , alors
n(1− 2 ) n( 2 )
l’intervalle de confiance de σ 2 de seuil α est

" #
nt2 nt2
I= ,
kn(1− α ) kn( α )
2 2
72
et l’intervalle de confiance de σ de seuil α est
 
s s
n n 
I = t ,t
kn(1− α ) kn( α )
2 2
Exemple 180 n = 10,µ = 6, 10 2 2

P
i=1 xi = 402,α = 5% alors t = 40.2 − 36 =
4.2,k10(0.025) = 20.5,k10(0.975) = 3.25 ainsi l’intervalle de confiance de σ 2 de
seuil 5% est
10 × 4.2 10 × 4.2
I= , = [2.05,12.92]
20.5 3.25
b) µ inconnue
nS 2
On montre que σ2
χ2n−1 .L’erreur α étant fixée,
on cherche dans la table
2
χ2n−1 les valeurs kn−1( α ) et kn−1(1− α ) telles que p kn−1( α ) < nS
σ2
< kn−1(1− α ) =
2 2 2 2
2 2
1 − α ⇔ p k nS α < σ 2 < k nS α = 1 − α. donc, si s2 est une réalisation
n−1(1− 2 ) n−1( 2 )
de S 2 , alors l’intervalle de confiance de σ 2 de seuil α est

" #
ns2 ns2
I= ,
kn−1(1− α ) kn−1( α )
2 2
et l’intervalle de confiance de σ de seuil α est

 
s s
n n 
I = s ,s
kn−1(1− α ) kn−1( α )
2 2
Exemple 181 n = 30, 30

P P30 2
i=1 xi = 1683, i=1 xi = 98295,α = 10% alors
x = 55.77, s2 = 165.87,k29(0.025) = 42.6,k29(0.975) = 17.7 ainsi l’intervalle de
confiance de σ 2 de seuil 5% est

30 × 165.87 30 × 165.87
I= , = [116.81,281.14]
42.6 17.7
2.8.4 Intervalle de confiance pour une proportion

On sait que F = Kn est un estimateur de π où π est la proportion
de la population possédant le caractère considéré. On montre que F
73
q
π(1−π)
N π, n
pour nπ > 5,n (1 − π) > 5, on cherche dans la table de
la loi normale la valeur u1− α2 telle que
 
F −π
p −u1− α2 < q < u1− α2  = 1 − α
π(1−π)
n
q q
π(1−π) π(1−π)
on a p F − u1− α2 n
< π < F + u1− α2 n
=1−α
Le problème est le terme π (1 − π) est inconnu. Deux options sont envi-
sageables
Option 1:Méthode par estimation de l’écart type

q q
π(1−π)
On remplace n
par f (1−f
n
)
, f étant la valeur observée de F (esti-
mation de π) et on a
" r r #
f (1 − f ) f (1 − f )
I = f − u1− α2 ,f + u1− α2
n n
Option 2: méthode de l’ellypse (moins classique, mais plus rigou-

reuse)
q q
π(1−π) π(1−π)
p F − u1− α2 n
< π < F + u1− α2 n
=1−α
q
2
⇐⇒ p |F − π| < u1− α2 π(1−π)n
= 1−α ⇐⇒ p (F − π) − u 2
1− α
π(1−π)
n
< 0 =
2
1−α
On cherche les racines π1 et π2 de l’équation (f − π)2 − u21− α π(1−π)
n
<0
2
connaissant u1− α2
I = [π1 ,π2 ]
74
Chapitre 3
Test d’hypothèse
3.1 Introduction
Les tests statistiques constituent une deuxième forme d’inférence sta-
tistique, de conclusion portée sur la population à partir d’un échantillon
unique tiré de celle ci. Alors que l’estimation avait pour but de cerner le plus
précisement possible la valeur inconnue d’un parametre de la population, les
tests statistiques cherchent plutot à confronter deux hypothèses exprimant
deux tendances générales au sujet d’un parametre et à determiner au regard
de l’échantillon observé, laquelle des deux semble la plus vraisemblable.
Définition 182 Un test statistique est une règle de décision concernant une
hypothèse nulle notée H0 et eventuellement une hypothèse alternative notée
H1 . Un test d’hypothèse est un procédé d’inférence permettant de contrôler
(accepter ou rejeter) à partir de l’étude d’un ou plusieurs échantillons aléatoires,
la validité d’hypothèses relatives à une ou plusieurs populations.
Les méthodes de l’inférence statistique nous permettent de déterminer,

avec une probabilité donnée, si les différences constatées au niveau des échantillons
peuvent être imputables au hasard ou si elles sont suffisamment importantes
pour signifier que les échantillons proviennent de populations vraisemblable-
ment différentes.
Les tests d’hypothèses font appel à un certain nombre d’hypothèses concer-
nant la nature de la population dont provient l’échantillon étudié (normalité
de la variable, égalité des variances, etc).
On distingue différentes catégories de tests :
- les tests paramétriques ont pour objet de tester une certaine hypothèse
relative à un ou plusieurs paramètres d’une variable aléatoire de loi
75
spécifiée (généralement supposée normale). Lorsque le test est toujours
valide pour des variables non gaussiennes, on dit que le test est robuste
(à la loi).
- les tests non paramétriques qui portent généralement sur la fonction de
répartition de la variable aléatoire, sa densité...
- les tests libres (distributions free) qui ne supposent rien sur la loi de pro-
babilité de la variable aléatoire étudiée (et qui sont donc robuste). Ces
tests sont souvent non paramétriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalité :
- Tests sur une population :
Les tests destinés à vérifier si un échantillon peut être considéré comme
extrait d’une population donnée, vis-à-vis d’un paramètre comme la moyenne
ou la fréquence observée (tests de conformité) ou par rapport à sa distribu-
tion observée (tests d’ajustement). Dans ce cas la loi théorique du paramètre
est connue au niveau de la population. Est-ce que le taux de glucose moyen
mesuré dans un échantillon d’individus traités est conforme au taux de glu-
cose moyen connu dans la population ? (test de conformité) Est ce que la
distribution des fréquences génotypiques observées pour un locus donné est
conforme à celle attendue sous l’hypothèse du modèle de Hardy-Weinberg ?
(test d’ajustement).
Dans ce cours on fera un :
1. test sur le caractère centrale d’une population,
2. test sur la variance,
3. test sur une proportion,
4. test de l’aléatoire d’un échantillon,
5. test d’ajustement à une loi spécifiée,
6. test de liaison entre variables (quantitatives, qualitatives, mixtes)
- Tests de comparaison de deux populations
Les tests destinés à comparer plusieurs populations à l’aide d’un nombre
équivalent d’échantillons (tests d’égalité ou d’homogénéité) sont les plus
couramment utilisés. Dans ce cas la loi théorique du paramètre est incon-
nue au niveau des populations. On peut ajouter à cette catégorie le test
d’indépendance qui cherche à tester l’indépendance entre deux caractères,
généralement qualitatifs. Y a-t-il une différence entre le taux de glucose
moyen mesuré pour deux échantillons d’individus ayant reçu des traitements
différents? (tests d’égalité ou d’homogénéité). Est-ce que la distribution des
fréquences génotypiques observées pour un locus donné est indépendante du
sexe des individus? (test d’indépendance).
76
3.2 Principes des tests
Le principe des tests d’hypothèse est de poser une hypothèse de tra-

vail et de prédire les conséquences de cette hypothèse pour la population
ou l’échantillon. On compare ces prédictions avec les observations et l’on
conclut en acceptant ou en rejetant l’hypothèse de travail à partir de règles
de décisions objectives. Définir les hypothèses de travail, constitue un élément
essentiel des tests d’hypothèses de même que vérifier les conditions d’appli-
cation de ces dernières (normalité de la variable, égalité des variances ou
homoscédasticité, etc).
3.2.1 Role des hypothèses et erreurs commises

Un test est un procédé qui permet de trancher entre deux hypothèses, au
vu des résultats d’un échantillon : on teste une hypothèse nulle contre une
hypothèse alternative. L’hypothèse nulle H0 est l’hypothèse que l’on veut
contrôler. Elle est toujours de forme simple
H0 : θ = θ0
où θ0 est une valeur donnée du paramètre. Le choix de cette hypothèse
est fait de manière conservative : si on teste un médicament, on prendra H0
l’hypothèse où le médicament n’a pas d’effet. C’est également souvent la plus
importante des deux hypothèses puisque c’est celle dont on contrôle le risque.
L’hypothèse alternative H1 est quant à elle généralement composite :
H1 : θ ∈ Θ1
où Θ1 est une partie de R non nécessairement réduite à un élément.
Cette hypothèse se ramène souvent à un des cas suivants : θ < θ0 ,θ > θ0 (test
unilatéraux) ou θ 6= θ0 (test bilatéral).
Suivant la justesse de la décision prise à l’issue du test, on est en présence
de 4 cas de figure
H0 vrai H1 vrai
On décide H0 Conclusion correcte (1 − α) Erreur de 2ème espèce (Risque β)
On ne décide pas H0 Erreur de 1ère espèce (Risque α) Conclusion correcte (1 − β)
Exemple (Importance du choix des hypothèses). Considérons le test des
hypothèses suivantes :
— hypothèse H0 : le patient doit être hospitalisé,
— hypothèse alternative H1 : le patient ne doit pas être hospitalisé.
77
L’erreur de première espèce consiste à ne pas hospitaliser un patient qui
en avait besoin. Cette erreur est très grave, puisqu’elle peut conduire au
décès du patient. Le risque de deuxième espèce, qui consiste à hospitaliser
un patient qui n’en avait pas besoin peut s’avérer moins grave.
Le role des hypothèses n’est pas symétrique, en effet, la plupart du temp,
on préfère se tromper en affirmant H0 alors que’lle est fausse plutot que de re-
jeter H0 alorqu’elle est vraie. De plus il est commun d’avoir une hypothèse H0
très simple par rapport à une hypothèse alternative H1 plus vaste, plus com-
plexe. Par conséquent, On se retrouve fréquemment à connaitre la loi de la
statistique de test sous hypothèse nulle H0 mais aussi sous l’hypothèse alter-
native. En générale, nous rencontrons deux types d’alternatives : La négation
de l’hypothèse nulle ou un sous ensemble de cette négation.
3.2.2 Probabilité d’erreur et risque, puissance de test

On associe aux erreurs de première et deuxième espèces les probabilités
(risques). Le niveau de confiance du test est la probabilité 1 − α de ne pas
rejeter à raison H0 . Le risque de première espèce est le risque de rejeter H0
à tort. Le risque de deuxième espèce est le risque de conserver H0 à tort. En
pratique, il est d’usage de fixer le risque : 5%, 1%, 10%. Ainsi, on contrôle le
risque associé à l’erreur de première espèce, qui nous l’avons vu est l’erreur
la plus grave. Choisir un risque α trop petit va conduire à ne rejeter que très
rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter à tort !).
Au contraire, choisir un risque trop grand va conduire à n’accepter que très
rarement α.
Le risque β se déduit alors par le calcul, si la loi sous H1 est connue. Il
varie en sens contraire de α. Ainsi, en diminuant le risque α, on augmente le
risque β. On définit alors la puissance du test par 1 − β , qui correspond à
la probabilité de rejeter H0 à raison.
Le choix d’un test sera donc le résultat d’un compromis entre risque de
premier espèce et puissance du test.
3.2.3 Statistique de test

Une statistique de test est une variable aléatoire construit à partir d’un
échantillon aléatoire permettant de formuler une règle de décision pour le
test. Cette statistique n’est pas unique. On optera pour une statistique de
test contenant le maximum d’information sur l’échantillon observé de loi
differentes sous H0 et sous H1 . Il est impératif de connaitre sa loi lorsque
l’hypothèse nulle est vrai. sa loi sous l’hypothèse alternative est souvent in-
connue.
78
3.2.4 Synthèse
Différentes étapes doivent être suivies pour tester une hypothèse :
(1) définir l’hypothèse nulle (notée H0) à contrôler,
(2) choisir un test statistique ou une statistique pour contrôler H0,
(3) définir la distribution de la statistique sous l’hypothèse H0 est
réalisée ,
(4) définir le niveau de signification du test ou région critique notée 3b1,
(5) calculer, à partir des données fournies par l’échantillon, la valeur de
la statistique
(6) prendre une décision concernant l’hypothèse posée et faire une in-
terprétation
biologique
3.2.5 p-value
En pratique, plutôt que de calculer la région critique en fonction de α ,
on préfère donner un seuil critique α∗ , appelée p-value, qui est la plus grande
valeur de α conduisant à ne pas rejeter H0 . Cette information permet au
lecteur de conclure à l’acceptation de H0 pour tout risque de première espèce
α < α∗ , et à son rejet pour tout α > α∗
3.3 Tests sur une population

Nous pouvons maintenant présenter les différents tests statistiques clas-
siques, obtenus par la méthode de Neyman-Pearson lorsque les échantillons
sont gaussiens (voir de grandes tailles). Dans le cas de petits échantillons non
gaussiens, des alternatives non paramétriques seront présentées.
3.3.1 Test sur le caractère central d’une population

Cas d’un échantillon grand ou gaussien
Soit un n-échantillon (X1 ,...Xn ) issu d’une population de moyenne µ et de
variance σ 2 . Nous supposons que au moins l’une des deux conditions suivantes
est satisfaite :
— la population est de loi normale,
— l’échantillon est de taille n suffisamment grande (n ≥ 30).
Test H0 : µ = µ0 contre H1 : µ 6= µ0
Premier cas : lorsque σ 2 est connue
79
La statistique de test est
X − µ0
U= √
σ/ n
Sous H0 , cette statistique suit une loi normale centrée réduite. d’après
les conditions précédentes (via le théorème centrale limite si seule la seconde
condition est satisfaite).
La région critique, définie par |U | > k, se traduit par X − µ0 > −µ α2 √σn
est le quantile de la loi normale centrée réduite d’ordre α2 . Ainsi,
on rejette H0 si |x − µ0 | > −µ α2 √σn
Remarque 183 (Calcul de la p-value). Pour ce test, on rejette H0 dès que
|x−µ0 |
√σ
> −µ α2 . La p-value est la valeur critique α∗ de α telle que |x−µ
√σ
0|
= −µ α2
n n
d’où α∗ = 2Φ − |x−µ √σ
0|
avec Φ la fonction de répartition de la loi normale
n
centrée réduite. Ainsi, dès que l’on choisi un risque α plus grand que α∗ , on
a −µ α∗ > −µ α2 et donc on rejette H0 . Au contraire, si le risque α est plus
2
|x−µ0 |
petit, on aura cette fois √σ
= −µ α∗ > −µ α2 et on conserve H0 .
n 2
Remarque 184 (Tests unilatéraux). Si le test est unilatéral, H0 : µ = µ0

contre H1 : µ < µ0 , on rejette H0 si la vraie valeur de µ est trop éloignée
inférieurement de µ0 , ce qui se traduit par x > µ0 +µ α2 √σn
Si le test H0 : µ = µ0 contre H1 : µ > µ0 on rejette H0 si x > µ0 −µ α2 √σn
Deuxième cas : lorsque σ 2 est inconnue Ce test est généralement connu
sous le nom de test de Student.
Dans ce cas, la variance σ 2 est estimée par son estimateur S 2 . La statis-
tique de test est
X − µ0
T = √
S/ n
qui suit une loi de Student à n − 1 degré de liberté.
La conclusion du test devient alors on rejette H0 si |x − µ0 | > −t(n−1), α2 √sn
, où t(n−1), α2 est le quantile d’ordre α2 de la loi de Student à n − 1 degrés de
n
(xi −x)2
P
2 i=1
liberté, et s = n−1
3.3.2 Test sur la variance d’une population gaussienne

Soit un n-échantillon (X1 ,...Xn ) issu d’une population de loi normale, de
moyenne et de variance σ 2 . La normalité est indispensable pour ce test sur
la variance.
80
Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ connue
Lorsque la moyenne est connue, la statistique Vµ2 = n1 ni=1 (Xi − µ)2 est
P
la meilleure estimation de la variance
Sous l’hypothèse H0 , comme l’échantillon est gaussien, σn2 Vµ2 suit une loi
0
du χ2n (en tant que somme de carrés de N(0; 1)). Ainsi,
σ02 2 σ2
on rejette H0 si Vµ2 < χn, α ou encore Vµ2 > 0 χ2n,1− α
n 2 n 2
α α
où χn, α et χn,1− α sont les quantiles d’ordre 2 et 1 − 2 de la loi de χ2 à
2 2
2 2
n degrés de liberté. Attention, contrairement
à la loi de Student et à la loi normale, la loi du χ2 n’est pas symétrique.
Test H0 : σ 2 = σ02 contre H1 : σ 2 6= σ02 , moyenne µ inconnue

Lorsque la moyenne est inconnue, on la remplace par son estimateur X,
La variance est alors estimée par S = n−1 i=1 (Xi − µ)2 et la statistique
2 1
Pn
du test n−1
σ02
S 2 suit sous H0 une loi de χ2 à n − 1 degrés de liberté.
La conclusion du test est alors la suivante :
σ02 2 σ02 2
on rejette H0 si S 2 < χn−1, α ou encore S 2 > χ α
n−1 2 n − 1 n−1,1− 2
Tests unilatéraux sur la variance

Test H0 : σ 2 = σ02 contre H1 : σ 2 > σ02
σ02 2
- Si la moyenne µ est connue, on rejette H0 si Vµ2 > χ
n n,1−α
σ02
- Si la moyenne µ est inconnue, on rejette H0 si S 2 > n−1 χ2n−1,1−α
Test H0 : σ 2 = σ02 contre H1 : σ 2 < σ02

σ02 2
- Si la moyenne µ est connue, on rejette H0 si Vµ2 < χ
n n,α
σ02
- Si la moyenne µ est inconnue, on rejette H0 si S 2 < n−1 χ2n−1,α
81
3.3.3 Test sur une proportion pour un grand échantillon
Dans la population étudiée, une proportion p des individus possèdent un
certain caractère C. On se propose de comparer cette proportion p à une
valeur de référence p0 .
On considère un échantillon d’individus de taille n de cette population.
La variable aléatoire Xi égale à 1 si l’individu ipossède
P le caractère C suit
une loi de Bernoulli B(p), et le nombre d’individus ni=1 Xi possédant ce
caractère suit une loi binomiale B(n,p).
Si n est suffisamment grand, de sorte que np > 5 et n(1 − p) ¿ 5, on peut
considérer
Pn(loi des grands nombres)
que i=1 Xi suit une loi normale N (np,np(1 − p)), d’où la fréquence
Pn
empirique F = n i=1 Xi suit une loi normale N (p, p(1−p)
1
n
). Si n est trop
petit, le test est construit sur la loi binomiale.
Test H0 : p = p0 contre H1 : p 6= p0
La statistique du test est donc la fréquence empirique F qui suit sous H0
une loi N (p0 , p0 (1−p
n
0)
)
r
p0 (1 − p0 )
on rejette H0 si |f − p0 | > µ1− α2
n
Test unilateraux sur une proportion
q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p > p0 On rejette H0 si f > µ1−α n
+
p0 q
p0 (1−p0 )
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < µ1−α n
+
p0
3.4 Tests de comparaison de deux popula-

tions indépendantes
L’objectif de cette section est de dire si deux échantillons indépendants
sont issus d’une même population ou non. Voici quelques exemples d’appli-
cation :
— les rendements journaliers de deux usines d’un même groupe sont-ils
semblables?
— les ventes par semaine de deux actions sont-elles similaires?
82
On formule le problème de la façon suivante : on observe deux échantillons
(X1,1 ,...,X1,n1 ) et (X2,1 ,...,X2,n2 ), indépendants et de fonctions de répartition
F1 (x) et F2 (x). Le test exact revient à tester l’égalité de ces fonctions de
répartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x):
Nous verrons dans un premier temps des tests paramétriques qui, sous
l’hypothèse de normalité des échantillons (ou de grandes tailles), consistent à
tester l’égalité des variances et des espérances des deux populations. Dans un
second temps, lorsque les échantillons sont de petites tailles nous présenterons
des alternatives non paramétriques.
3.4.1 Cas de deux échantillons gaussiens ou de grandes

tailles
Supposons dans un premier temps que les deux échantillons sont gaus-
siens. Si les variances sont connues, ce qui n’arrive que rarement en pra-
tique, la statistique de test utilisée pour tester H0 : µ1 = µ2 contre H1 :
µ1 6= µ2 repose sur la différence entre les estimateurs des moyennes des deux
échantillons :
X 1 − X 2 − (µ1 − µ2 )
T = q 2
σ1 σ2
n1
+ n22
qui suit, sous H0 , une loi normale centrée réduite. Ainsi, on rejettera H0
si
s
σ12 σ22
|x1 − x2 | > −µ α2 +
n1 n2
Dans le cas le plus courant, les variances sont inconnues. On doit alors
tester dans un premier temps vérifier si elles sont égales ou non (test de
Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test
de Student).
Test de comparaison des variances de Fisher

Nous testons H0 : σ12 = σ22 contre H1 : σ12 6= σ22 . D’après les résultats de
la théorie de l’échantillonnage :
n1 V12 n2 V22
χ2n1 −1 et χ2n2 −1
σ12 σ22
83
Ainsi, sous l’hypothèse H0 que σ12 = σ22 , la statistique du test F suivante
suit une loi de Fisher Fn1 −1,n2 −1 ;
n1 V12
n1 −1 S12
F = n2 V22
=
S22
n2 −1
Cette variable de décision s’interprète comme le rapport des estimateurs

de σ12 et σ22 . Elle doit donc ne pas être trop différente de 1 si H0 est vérifiée. En
pratique, on met toujours au numérateur la plus grande des deux quantités,
ou autrement dit, on suppose que S12 > S22 (sinon on permute les indices).
La région de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
n1 −1
On rejette H0 si n2 V22
> fn1 −1,n2 −1,1−α
n2 −1
fn1 −1,n2 −1,1−α est le quantile de la loi de ficher-Snedecor Fn1 −1,n2 −1 d’ordre
1−α
Test de comparaison des moyennes de Student avec variances égales
Nous testons H0 : µ1 = µ2 contre H1 : µ1 =6 µ2 en supposant les variances

2 2 2
égales σ1 = σ2 = σ
n V2 2
On a pour i = 1; 2 : σi 2i χ2ni −1 et X i N µi , σni . Ainsi, la statistique
i
X 1 −X 2 −(µ1 −µ2 )
T = r
n1 V12 +n2 V22
suit une loi de Student à n1 +n2 −2 degrés de liberté.
1
n +n −2 n
+ n1
1 2 1 2
D’où la conclusion :
s
n1 V12 + n2 V22

1 1
on rejette H0 si |x1 − x2 | > −tn1 +n2 −2, α2 +
n1 + n2 − 2 n1 n2
Remarque 185 (Tests unilatéraux de comparaison de moyennes). Le test

unilatéral H0 : µ1 =rµ2 contre H1 : µ1 < µ2 conduit au rejet de H0 si

n1 V12 +n2 V22 1 1
x1 − x2 < −tn1 +n2 −2,α n1 +n2 −2 n1
+ n2
Test de comparaison des moyennes avec variances différentes

Lorsque les échantillons sont de grandes tailles (n > 30), le test de Student
reste encore approximativement valable.
84
Pour de petits échantillons gaussiens, l’approximation d’Aspin-Welch consiste
à utiliser le test de Student avec un degré de liberté non plus égal à n1 +n2 −2
mais égal à l’entier le plus proche de :
v12
1 n1 −1
n= ou c =
c2 (1−c)2 v12 v22
n1 −1
+ n2 −1 n1 −1
+ n2 −1
Échantillons non gaussiens

Théoriquement, le test de la variance de Fisher n’est plus valable car la
2
statistique nV σ2
ne suit plus une loi du χ2 . Néanmoins, le test de comparai-
son de moyennes de Student étant relativement robuste à un changement
dans la loi des échantillons, il est possible de l’utiliser pour comparer les
moyennes des deux échantillons, que les variances soit égales ou non, si les
tailles d’échantillons sont suffisamment grandes (au minimum 30 observations
par échantillon).
3.4.2 Échantillons de petites tailles

Lorsque les échantillons ne sont pas suffisamment grands pour permettre
une utilisation du test de Student, on utilise des alternatives non paramétriques,
qui ont pour but de tester :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x)
où F1 (x) et F2 (x) sont les fonctions de répartition de deux échantillons
(X1,1 ,...,X1,n1 ) et (X2,1 ,...,X2,n2 ).
Dans cette section nous concaténons les deux échantillons en un seul
(X1 ,...,Xn1 ,Xn1 +1 ,...Xn1 +n2 ) et nous allons travailler avec les rangs (R1 ,...,Rn1 +n2 )
associés à cet échantillon global.
Les statistiques de test utilisées seront de la forme
n1
X
S= a (Ri )
i=1
où a est une fonction de {1,...,n1 + n2 } dans R. A noter que seuls les rangs
du premier échantillon sont utilisés
dans la statistique S puisque la somme s’arrête à n1.
Lorsque les tailles d’échantillons n1 et n2 sont petites (¡ 30), il existe des
tables suivant la fonction a choisie
(Wilcoxon, médiane, scores normaux). Lorsque les tailles sont plus grandes
(cas dans lequel les tests paramétriques
85
sont également utilisables), la statistique S est approximativement dis-
tribuée suivant une loi normale.
Les moments de S sont :
nX
1 +n2 nX
1 +n2
n1 n1 n2
E [S] = a (i) V [S] = (a (i) − a)2
n1 + n2 i=1 (n1 + n2 ) (n1 + n2 − 1) i=1
1
Pn1 +n2
où a = n1 +n2 i=1 a (i)
Exemple 186 Test de Wilcoxon

On supposeraP 1 ici que n1 < n2 . En choisissant a(i) = ila statistique de test
devient S = ni=1 Ri
et correspond à la somme des rangs du premier échantillon (le plus petit
en nombre d’observations).
EH0 (W ) = n1 (n1 +n2
2 +1)
,VH0 (W ) = n1 n2 (n12
1 +n2 +1)
La loi de cette statistique a été tabulée pour de petites tailles d’échantillons

(moins de 10), et sa table
donne les bornes critiques de W pour des risques de première espèce de
5% et 1%. Pour de plus grandes tailles d’échantillons, la loi de W peut être
approchée par une loi normale.
Cas des ex-æquo En présence d’ex-æquo, nous remplacions les rangs
des exæquo par le rang moyen des rangs qu’ils devraient occuper. Si les tailles
d’échantillons sont inférieures à 10, les tables sont toujours utilisable. Pour
de plus grandes tailles, l’approximation gaussienne est toujours valable mais
la variance de W n’est plus identique à celle donnée précédemment.
Soit e le nombre de valeurs distinctes dans l’échantillon (X1 ,...,Xn1 ,Xn1 +1 ,...Xn1 +n2 ),
et soit V1 ,...,Ve ces valeurs distinctes.
Soit Dj le nombre d’apparitions de la valeur Vj dans l’échantillon (1 ≤j
≤e). La statistique W a alors pour variance :
n1 n2 e (Dj3 −Dj )
P
VH0 (W ∗ ) = V (W ) − 12(n1 +nj=1 2 )(n1 +n2 −1)
86

MAT206 COURS Aghoukeng

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

MAT206 COURS Aghoukeng

Transféré par

Droits d'auteur :

Formats disponibles

MAT 206: INTRODUCTION A LA STATISTIQUE

Ce cours à pour objectifs de données les bases de la statistique au jeune

son programme est le suivant :

1.2 Terminologie de base

1.2.1 Unites statistique

1.2.4 Le caractère quantitatif continu

Remarque 21 Un individu de la population doit être dans une classe et une

Définition 22 La largeur de la classe ou la longueur de l’intervalleest l’am-

Analyse d’une serie statistique

2.2 Representation des caractères quantita-

Exemple 23 Distribution de poids de 100 adultes.

X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total

Exemple 24 De l’exemple précedent on a :

X: Classes de poids [40,45[ [45,50[ [50,55[ [55,60[ [60,65[ [65,70[ Total

2.2.3 Diagramme différentiel ou histogramme

2.2.4 Diagramme intégral

Définition 25 Pour x ≤ e1 ,F (x) = F1 = 0,e1 est la limite inferieur de la

Exemple 26 De l’exemple sur les la distribution des poids on a les gra-

Remarque 27 1. Si on utilise les fréquences relatives, on remplace N

2.2.5 e) Boite à moustache ou box plot

2.3 Les paramètres de position ou caractéristiques

Exemple 29 Dans l’exemple 3-11, le mode est la réligion caltholique. Dans

Détermination de la médiane dans le cas de serie statistique avec

Exemple 31 Les notes de 5 étudiant en Mat 118 sont : 6,14,8,17,12. on

Détermination de la médiane dans le cas de serie statistique avec

a) Cas d’un caractère statistique discret. Si la moitié de l’effectif total

Poids xi Effectif ni Effectif cumulé croissant : Fi

32 sépare xG = 20 et xD = 30; l’intervalle médiant [20,30] et la médianne

Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des

nombre d’enfants xi Effectif ni Effectif cumulé croissant : Fi

b) Cas d’un caractère statistique continu. Si la moitié de l’effectif

Classe de poids xi Effectif ni Effectif cumulé croissant : Fi

Si la moitié de l’effectif total n’apparait pas en clair sur la colonne des

Classe d’age xi Effectif ni Effectif cumulé croissant : Fi

Remarque 36 Si vous travaillez avec les frequences relatives, la moitié de

2.3.3 Les autres quantiles et percentiles

Les autres quantiles particuliers

Elle se calcule comme suit : x = N1 ki=1 ni xi où x =

Exemple 40 De l’exemple 4-4, on a :

Généralisation de la notion de moyenne: la ϕ − moyenne

On distingue quelque cas suivant :

2.4 Les parametres de dispersion

Exemple 44 Pour les distribution suivantes, on a :

2.4.2 L’écart interquartile et semi interquartile

Définition 46 le semi-interquartile est la moitié de l’écart interquartile. Il

2.4.3 L’écart moyen d’une distribution et l’écart médiant

Nbre enfants xi 0 1 2 3 4 5 Total

2.4.4 La Variance et l’Ecart-type

Définition 51 L’écart type encore appélée l’écart

Il mésure la variabilité autour de la moyenne c’est à dire combien les ob-

Remarque 52 Lorsque le caractère statistique est quantitatif continue avec

Age ci ni c2i ni c2i

2.4.5 Le score et le coefficient de variation

2.4.6 Les Moments

Définition 57 On appelle moment centrée d’ordre r par rapport à x0 de la

2.5 Les caracteristiques de formes

2.5.1 Le coéfficient d’asymetrie de Fischer.

– si γ1 = 0 = d alors la distribution est parfaitement symétrique.

– si γ2 = 0 alors les deux courbes se confondent.

2.6 Les parametres de concentration

Définition 61 On appelle masse noté mi de la modalité xi le produit ni xi .

Définition 62 La médiale est la modalité qui sépare la masse globale en deux

2.6.2 La courbe de concentration et indice de Gini

Définition 64 Encore appélée indice de concentration; l’indice de Gini noté

Exemple 94 Si X = (X1 ,X2 ) est variable aléatoire de densité constante sur