Vous êtes sur la page 1sur 30

Partie I : Statistique descriptive

Description et reprsentation des donnes


1. Variables
1.1 Variables qualitatives
Parmi les variables qualitatifs, il faut distinguer les variables ordinales des
variables nominales
- Une variable nominale, reprsente des modalits distinctes les unes des
autres mais sans possibilits dordre, de hirarchie, ou de calcul entre elles. Par
exemples : sexe, dcoupages gographiques.
- Une variable ordinale, reprsente des modalits qui sont reprables et
peuvent tre hirarchiss entre elles mais, elles ne peuvent pas tre additionnes ou
multiplies entre elles. Ces variables sont trs frquentes dans les enqutes sur les
prfrences des consommateurs, ou dans les sondages dopinion. Par exemple, dans une
enqute de consommation, la question mangez-vous du fromage ? , les rponses
proposes beaucoup , modrment , un peu , pas
1.2 Variables quantitatives
Parmi les variables quantitatives, il faut distinguer les variables
continues des variables discrtes
On appelle variable quantitative discrte une variable ne prenant que
des valeurs entires.
Exemple :
- Le nombre denfants dans une population de famille.
- Le nombre dannes dtudes aprs le bac dans une population
dtudiants
On appelle variable quantitative continue une variable ne prenant que
des valeurs relles.
Exemples :
- La taille dune personne
- Laire
- Le volume
1
2. Donnes brutes
Aprs la cueillette des donnes, celles-ci apparaissent de faon brute. Sous cette
forme, elles sont peu informatives. Trouvons donc des moyens pour en extraire un
maximum d'informations
3. Rangement des donnes
C'est la mthode la plus simple d'organiser les donnes. Il s'agit simplement de
replacer ces donnes selon un ordre ascendant ou descendant.
Remarque :
Cette mthode plusieurs avantage. Elle donne immdiatement une ide de:
- La tendance centrale
- L'tendue
- Des concentrations particulires de valeurs.
En somme, a donne dj une image un peu plus prcise .Cependant, cette mthode
est peu pratique et manque de synthse et de rigueur, surtout si le nombre de valeurs
est lev (imaginez s'il y avait 2000 tudiants/es!).
4. Distribution de frquences
C'est une faon de prsenter les donnes sous une forme synthtique, sans perdre
l'essentiel de l'information. Il s'agit alors simplement de classer (intelligemment)
les donnes selon une caractristique observable.
Remarque :
- La distribution de frquences dcrit l'aspect gnral des donnes.
Cependant, dans la plupart des cas, cette compression des donnes entrane
une certaine perte d'information (exemple : l'tendue exacte), perte compense
par un gain de clart.
- Pour construire une distribution, il faut dterminer :
1 - Le nombre de classes utiliser.
2 - La largeur de ces classes.
3 - Le nombre d'observations
2
5. Diagrammes en btons:
Le diagramme en btons est une reprsentation graphique de la
distribution des effectifs d'une variable qualitative.
D'autres reprsentations sont galement possibles. Par exemple: le camembert
6. Histogramme et polygone des effectifs
6.1 Histogramme
Lhistogramme est une reprsentation graphique (en rectangle) de la
distribution des effectifs dune variable quantitative.
Souvent, les rectangles sont accols pour montrer la continuit de la
variable.
La hauteur du tuyau est proportionnelle aux effectifs de la classe
correspondante.
6.2 Polygone de frquences
Le polygone des effectifs est une autre reprsentation graphique (en
ligne brise) de la distribution des effectifs d'une variable quantitative.
Pour tracer le polygone, on joint les points milieu du sommet des
rectangles adjacents par un segment de droite.
Le polygone est ferm aux deux bouts en le prolongeant sur l'axe horizontal.
Remarque :
Le choix dpend de ce que l'on veut mettre en vidence : L'histogramme
permet une reprsentation claire o l'aire des rectangles reprsente
fidlement leffectifs de chaque classe
Le polygone de frquences peut tre fort utile lorsqu'il s'agit de comparer
plusieurs populations ou lorsque que le nombre de classes et de sujets est
lev et qu'un certain polissage s'avre pertinent
Exemple : supposons que l'examen de comptabilit soit administr tous
les comptables de Casablanca. La reprsentation graphique des rsultats
obtenus ressemblerait probablement la figure suivante:
3
Cette distribution, qui reviendra frquemment dans la suite du cours,
s'appelle la distribution normale.
7. Distribution des effectifs cumuls
Dans certaines situations, il est plus intressant de savoir le nombre
d'observations se situant au-dessous ou au-dessus de certaines valeurs, plutt
qu' l'intrieur d'un intervalle donn.
Mesures de synthse dune distribution
1. Mesures de tendance centrale
1.1 Moyenne arithmtique :
Soit un chantillon de n valeurs observes
n
x x x ,......, ,
2 1
dun
caractre quantitatif X, on dfinit sa moyenne observe x comme
la moyenne arithmtique)

n
i
i
x
n
x
1
1
1.2 Mdiane
Dfinition : La mdiane, note Me, est la valeur qui spare une srie
d'observations ordonnes en ordre croissant ou dcroissant, en deux parties
comportant le mme nombre d'observations La formule gnrale est
diffrente selon que le nombre d'observations (N) est pair ou impair.
4
Si N est impair dans le rangement ascendant (ou descendant) on a :
2
) 1 ( n observatio N
Me
e
+


Exemple : Si on a les donnes suivantes: 34, 37, 40, 41, 44, 44, 45, alors
41
2
) 1 7 (

+ n observatio
e
Si N est pair
la mdiane correspond au point milieu (ou la moyenne) des deux observations
centrales dans le rangement ascendant (ou descendant).
En formule, soit N = 2K, donc K = N/2; alors :
2
) 1 ( n observatio K n observatio K
Me
e e
+ +

.3 Mode :
Dfinition : Le mode, not Mo, est la valeur la plus frquente dans une
srie dobservations. (Note: le mode n'est pas ncessairement unique)
Exemples : - Pour les donnes suivantes: 5, 6, 6, 7, 8, 8 ; il y a deux
modes 6 et 8.
3 Proportion :
Dfinition : Quantit qui exprime le rapport entre le nombre de mesures
qui partagent une caractristique quelconque et le nombre total de mesures.
On transforme souvent la proportion en pourcentage.
3. Mesures de tendance centrale pour les donnes groupes
3.1 Moyenne :



k
i
k
i
i i i
n n avec x n
n
x
1 1
1
o
i
n
= leffectif de la classe i et
i
x
= le centre de la classe i .
3.2 Mdiane :
Etapes :
5
1- Localiser la classe mdiane, i.e. celle qui contient la mdiane ( partir de la
distribution des effectifs cumuls)
2- Dterminer laquelle des observations de cette classe correspond la mdiane
3- Dterminer, par interpolation, la valeur approximative de la mdiane
(on suppose une rpartition uniforme des donnes l'intrieur de la classe)
La formule est :
l
n
n N
L Me
Me
c
Me

,
_


+
2 /
o L
Me
= la limite infrieure de la classe mdiane
n
c
= leffectifs cumul de toutes les classes prcdant la classe mdiane
n
Me
= la frquence de la classe mdiane
l = la largeur de la classe mdiane
3.3 Mode :
Dfinition : La classe modale est la classe qui a la plus haute frquence.
Hypothse: on suppose que le mode appartient la classe modale
La formule est :
o L
Mo
= limite infrieure de la classe modale
d
1
= diffrence entre leffectif de la classe modale et celui de la prcdente
d
2
= diffrence entre leffectif de la classe modale et celui de la suivante
l = largeur de la classe modale
6
5. Mesures de dispersion
5.1 Etendue
Dfinition : L'tendue est la diffrence entre la plus grande valeur et la plus petite
valeur. La formule gnrale est :
O : G = la valeur la plus grande
P = la valeur la plus petite
5.2 Variance et cart-type
* Soit un chantillon de n valeurs observes
n
x x x ,....., ,
2 1
dun
caractre quantitatif X et soit x sa moyenne observe. On dfinit la
variance observe note
2
s
comme la moyenne arithmtique des carrs
des carts la moyenne.
( )
2
1
2
1

n
i
i
x x
n
s
ou

n
i
i
x x
n
s
1
2 2 2
1
L'cart type, not s, est simplement la racine carre de la variance.
* Dans le cas des donnes groupes en k classes deffectif
i
n , la
formule de la variance est la suivante :

k
i
i i
x x n
n
s
1
2 2
) (
1
6. Mesure de dispersion relative
Jusqu'ici, les seules mesures de dispersion qui ont t prsentes sont des mesures
dites absolues. Considrons maintenant une mesure de dispersion relative.
6.1 Coefficient de variation
Objectif:
Dans certaines situations, on dsire comparer le taux de dispersion de distributions
alors que leurs chelles de mesure respective ne sont pas comparables.
L'objectif du coefficient de variation est de fournir un indice quantitatif permettant
cette comparaison.
Dfinition :
7
Le coefficient de variation, not CV, correspond l'cart type de la distribution
exprim en pourcentage de la moyenne de la distribution. La formule gnrale est :
7. Mesure de dissymtrie
Coefficient de dissymtrie
Lorsque la distribution est symtrique, la moyenne et la mdiane sont gales.
Cependant, lorsqu'elle est dissymtrique, la moyenne se dplace plus rapidement
que la mdiane et ce, dans le sens de l'talement
Par consquent, on prend, comme mesure de dissymtrie, la distance entre ces deux
mesures de tendance centrale, pondre par l'cart type. La formule gnrale du
coefficient de dissymtrie (CD) est :
Le signe de ce coefficient indique le type de dissymtrie (positive ou ngative). Ce
coefficient est nul lorsque la distribution est symtrique.
Mesures de la relation entre deux variables
1. Concept de base
1.1 Dfinitions
- Analyse de rgression : mthode pour dduire une quation d'estimation qui
dcrit la nature fonctionnelle de la relation entre deux variables.
- Analyse de corrlation : mthode pour mesurer la force de la relation, i.e. dans
quelle mesure les variations d'une des variables
expliquent les variations de l'autre.
La variable qui doit tre estime est appele variable dpendante (note Y)
La variable qui sert estimer est appele variable indpendante (note X)
Ici, on verra uniquement l'analyse de rgression et corrlation linaire simple, i.e.
Linaire: la relation entre les variables peut tre reprsente par une droite
simple : il n'y a que deux variables impliques
2. Tableau de contingences
2.1 Objectif : mettre en relation deux variables qualitatives
8
( )
s
Me x
CD

3
2.2 Dfinition : le tableau de contingences est un tableau deffectifs double
entres o on utilise ses lignes et ses colonnes pour prsenter le nombre d'units
d'observation prsentant simultanment deux caractristiques
3. Diagramme de corrlation (dispersion)
3.1 Dfinition :
Le diagramme de corrlation est une reprsentation graphique, dans le plan, des
valeurs ponctuelles obtenues pour deux variables de nature quantitative.
Chaque symbole reprsente une unit d'observation et sa position dpend des
valeurs obtenues pour les variables X (en abscisse) et Y (en ordonne)
Ce diagramme aide dterminer s'il existe une relation entre les deux variables et,
si oui, il aide choisir le type d'quation qui permettrait de dcrire cette relation.
4. Droite de rgression
Dans les cas o le diagramme de dispersion montre l'existence d'une
relation linaire, on dsire dterminer la droite qui dcrira le mieux cette
relation.
Cependant, le choix de cette droite dpend d'un critre qu'il faudra fixer.
En formule, la droite de rgression (comme toute droite) sera donne par :
o X = la valeur de la variable indpendante
Y
c
= la valeur estime (calcule) de la variable dpendante
a = l'ordonne l'origine, i.e. la valeur de Y
c
lorsque X = 0
b = la pente.
Proprits de la droite de rgression
* ( )

n
i
ic i
y y
1
2
est minimale.
* ( )

n
i
ic i
y y
1
0
*
( ) ( ) ( )
( ) ( )
2
1 1
2
1 1 1



n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
b
*
x b y a
9
5. Prdiction laide de la droite de rgression
On utilise la droite de rgression pour estimer la valeur de la variable dpendante
sachant une valeur (relle ou potentielle) de la variable indpendante.
6. Coefficient de corrlation
6.1 Dfinition
Le coefficient de corrlation (de Pearson), not ou r, est dfini par :
( ) ( ) [ ]
( ) ( )

n
i
n
i
i i
n
i
i i
y y x x
y y x x
r
1 1
2 2
1
Remarque : Plus la valeur de r se rapproche de 1, plus la relation linaire est
forte, et plus la valeur de r est voisine
Partie II : Statistique infrentielle
Concept de base de la thorie des
probabilits
1. Dfinitions et types de probabilits
1.1 Dfinitions
10
Espace chantillonnal ou univers : est lensemble de tous les rsultats
potentiellement possibles dune exprience.
Evnement simple : est un lment de lespace chantillonnal.
Evnement compos : est un ensemble form dun ou de plusieurs
vnements simples
Probabilit dun vnement : note P (vnement) est une mesure des
chances (en proportion) de ralisation de lvnement. Toute probabilit est un
nombre situ entre 0 et 1
Evnement impossible : a une probabilit de 0.
Evnement certain : a une probabilit de 1
Probabilit conditionnelle : Soient P (A) = la probabilit que lvnement A
se produise et P (B) = la probabilit que lvnement B se produise.
On dfinit la probabilit conditionnelle de B tant donn A, note P (B | A),
comme la probabilit que lvnement B se produise tant donn que
lvnement A sest produit.
Evnements mutuellement exclusifs : Deux vnements sont dits
mutuellement exclusifs si la ralisation de l'un empche la ralisation de
l'autre:
P (B) 0 et P (B | A) = 0
dans le cas contraire, ces vnements sont dits non mutuellement exclusifs:
P (B) 0 et P (B | A) 0
Evnements indpendants : Deux vnements sont dits indpendants si la
ralisation ou la non-ralisation de lun ne modifie en rien la probabilit de
ralisation de lautre, cest--dire P (B | A) = P (B). Dans le cas contraire, ces
vnements sont dits dpendants.
Rgles de calcul des probabilits
2.1 Rgle du complment (= NON)
P (non A) = P ( A ) = 1 - P (A)
2.2 Rgles de l'addition (= OU)
11
P(A ou B) = P(A) + P(B) - P(A et B)
.3 Rgles de la multiplication (= ET )
vnements indpendants
P(A et B) = P(A) P(B)
vnements dpendants
P(A et B) = P(A) P(B | A)
3. Esprance mathmatique et variance
3.1 Esprance
On sait qu' chaque vnement de l'espace chantillonnal est associ une
probabilit; supposons qu'on lui associe galement une valeur (donne par
la variable alatoire).
La question est alors de savoir quelle valeur, long terme, peut-on obtenir.
La valeur espre, appele esprance mathmatique, est alors la moyenne
pondre, par la probabilit, de toutes les valeurs des vnements de l'espace
chantillonnal . Pour la calculer, on fait le produit de la valeur de chaque
rsultat possible par sa probabilit d'apparition et on fait la somme de tous les
produits ainsi obtenus. En formule
( ) ) (
1
i
n
i
i
x p x X E

o E(X) = l'esprance mathmatique de la variable X


i
x
= valeur que peut prendre la variable X
P( i
x
) = la probabilit de la valeur i
x
3.2 Variance
On appelle variance de la V.A X le nombre rel dfini par :
( ) ( ) [ ] ( ) ( )
2
1 1
2 2 2 2
. .

,
_



n
i
i i i
n
i
i
p x p x X E X E X E X E X V
4. Distributions de probabilits
4.1 Dfinition:
12
une distribution de probabilits est une numration de tous les rsultats
possibles d'une exprience avec leur probabilit respective
On remarque que la somme de toutes les probabilits est 1;ce qui est le cas
pour toutes les distributions de probabilits
Plusieurs distributions de probabilits s'avrent essentielles pour comprendre
les mthodes de l'infrence statistique. On tudiera ici: la distribution
binomiale, la distribution normale et la distribution de Poisson. Plus tard, on
prsentera: la distribution t de Student, la distribution F de Fischer et la
distribution du
2
.
5. Loi (ou distribution) binomiale
5.1 Dfinitions :
- la distribution binomiale dcrit la distribution de probabilits, dune variable alatoire
discrte, lorsqu'il n'y a que deux rsultats possibles chaque essai et que le rsultat d'un
essai est indpendant du rsultat de tout autre essai .
- On appelle les deux rsultats possibles: succs et chec. Le succs est le rsultat
pour lequel on dsire dterminer la distribution de probabilit, alors que l'chec est l'autre
rsultat. La probabilit (fixe) de succs en un essai est identifie par la lettre p alors que la
probabilit d'chec lors du mme essai est identifie par la lettre q avec q = 1 - p
- La probabilit d'obtenir r succs en n essais est donne par.

)! ( !
!
C o ) (
r
n
1
r n r
n
q p C r X P
r r r
n



6. Loi Normale
6.1 Dfinition
Une distribution normale correspond la distribution de probabilits d'une variable
alatoire continue dont la courbe est parfaitement symtrique, unimodale et en forme de
cloche.
Formellement, une distribution normale de moyenne et d'cart type est dfinie par la
formule
Graphiquement, si trois distributions normales ne diffrent que par leur moyenne on a :
13

Alors que si elles ne diffrent que par leur cart type on a :
Dans le cas des distributi
Partie II : Infrence statistique
Objectifs :
Lestimation statistique consiste obtenir des informations sur des variables lies
une population partir dun chantillon. En statistique descriptive un chantillon est
dfini comme un sous-ensemble de la population, en thorie des probabilits un
chantillon est constitue de variables alatoires qui suivent la mme loi. Les rsultats
issus de lchantillon permettent dinduire un certain nombre de caractristiques sur la
loi dune variable alatoire.
Ltude de la distribution et des caractristiques dune ou plusieurs variables
concernant une population ne peut gnralement tre faite sur lensemble des
individus qui composent la population. Par exemple, pour connatre les intentions de
vote dune population qui comporte des millions dlecteurs, il est impossible de
14
procder, hormis le jour des lections, autrement que par un sondage c'est--dire par le
recueil des informations auprs dun chantillon issu de cette population.
Lobjectif de ce chapitre est de prsenter les principales fonctions alatoires qui
permettent destimer une moyenne, une variance et une proportion, et surtout de
donner les proprits de ces fonctions qui sont appels estimateurs. Ce sont les
proprits de ces estimateurs qui permettent de dterminer une marge de lerreur sous
forme dintervalles de confiance Lorsquune caractristique dune population est
estime sur un chantillon.
1- Echantillonnage :
1.1 Mthodes alatoires :
Le statisticien met en uvre un procd donnant chaque individu de la
population une probabilit connue et non nulle dtre retenu. Cette mthode permet de
mettre en uvre le calcul des probabilits et dinfrer les caractristiques de la population.
- Tirage probabilts gales avec remise :
Cette mthode est identique au tirage avec remise de boule dans une urne.
- Tirage probabilts gales sans remise :
- Tirage systmatique :
Ce tirage est un cas particulier du prcdent. Lchantillon est constitu dunits
dont les numros sont en progression arithmtique, le premier tant tir au hasard (par
exemple, le logement n9, le n16, le n23, ect.).
- Tirage en grappes :
Les units statistiques sont tirs par paquet. Lensemble des logement dune
aire gographique, les logements dun immeuble, ect., sont des exemples de
sondage en grappes.
- Tirage stratifi :
On reproduit un chantillon conforme la population. Par exemple si on
s intresse un caractre qui dpend de lage des individus :
Population Echantillon
[0 , 10[ 20% 20%
[10 , 20 [ 25% 25%
[20 , 50[ 25% 25%
[50 et plus[ 30% 30%

15
1.2 Mthodes non alatoires :
Lchantillon laveuglette (qui nest pas synonyme) dau hasard) est construit
en recrutent des volontaires, en prenant des personnes dont le nom commence par
une certain lettre, etc.. Il est bien vident quil est loin de la reprsentativit. Le
micro-trottoir est la caricature de cette faon de faire.
La mthode la plus clbre et la plus employe des mthodes de sondage non
alatoire, est celle des quota. Elle consiste btir un modle rduit de la
population tudie. Cette mthode ressemble la mthode par stratification, mais
elle diffre par le mode de dtermination des personnes interroger, qui nest pas
alatoire.
1.3 Exemple :
Un relev complet du nombre dautomobiles par rsidence pour les 50
maison dun certain quartier prcise que pour 30 dentre elle il y a une voiture,
pour les 20 autres 2.
X
i
n
i
1
2
30
20

* 4 . 1
50
2 20 1 30

n
X n
m
i i
voiture par rsidence.
*
24 . 0 ) 4 . 1 (
50
2 20 1 30
2
2 2
2
2
2

+

m
n
X n
i i

* 6 , 0
50
30
p (proportion des maison ayant une voiture)
Soit X la v.a nombre de voiture par rsidence
X 1 2
p(X)
5
3
5
2

2
2
2 2
024
4
1
] ) 2 (
5
2
) 1 (
5
3
[ ) (
4 , 1
5
2
2
5
3
1 ) (

,
_

+
+
X V
m X E
Prlevons lensemble des chantillons de taille 3
16
Echantillon prob ralis de
chaque chantillon

i
X
2
2
2
) ( X
n
x
s
i



p
(1,1,1)
(1,1,2)
(1,2,1)
(1,2,2)
(2,1,1)
(2,1,2)
(2,2,1)
(2,2,2)

(3/5)
3

(3/5)
2
(2/5)
(3/5)
2
(2/5)
(3/5)(2/5)
2
(3/5)
2
(2/5)
(3/5)(2/5)
2
(3/5)(2/5)
2
(2/5)
3


1
4/3
4/3
5/3
4/3
5/3
5/3
2

0
2/9
2/9
2/9
2/9
2/9
2/9
0

1
2/3
2/3
1/3
2/3
1/3
1/3
0
Distribution de la moyenne :
Soit X moyenne de lchantillonnage
X 1 4/3 5/3 2
p( X = x
)
(3/5)
3
=
27/125
3(2/5)(3/5)
2
=
54/125
3(2/5)
2
(3/5)
= 36/125
(2/5)
3
=
8/125
La fonction de rpartition de la variable alatoire X a pour :
m
X x X P X E

+ + +

4 , 1
125
8
2
125
36
3
5
125
54
3
4
125
27
1
) ( ) (

) 3 ( 08 , 0
) 4 , 1 (
125
8
) 2 (
125
36
3
5
125
54
3
4
125
27
) 1 (
)) ( ( ) ( ) (
2
2 2
2 2
2
2 2

+
,
_

+
,
_

+

n
n
X E X E X V

Distribution de la proportion :
P 0 1/3 2/3 1
p(
p P
)
125
8
125
36
125
54
125
27
17
E( P) = 0,6 = p et V( P) = 0,08 =
n
pq
.
1.4 Distribution de la moyenne :
Soit X une variable alatoire quantitative, de moyenne m et variance
2


connues (poutres de longueur 4m avec = 0.05). Par sondage, on tire un
chantillon de taille n, (n tant petit par rapport la population). On obtient ainsi n
valeurs de
) ,......, , (
2 1 n
X X X X
. La moyenne :
n
X X X
X
n
+ + +

.....
2 1
est elle-mme une variable alatoire, dpendant de
lchantillon choisi, telle que :
n
X V m X E
2
) ( ) (


.
Dmonstration :

m nm
n
X E
n n
X
E X E
i
i

,
_


1
) (
1
) (

n
n
n
X V
n
n
X
V X V
i
i
2
2
2
2
) (
1
) (

,
_

Forme de distribution de
X
:
Daprs le Thorme centrale limite, la distribution dchantillonnage X
tend se rapprocher quand n est grand (n 30) dune loi normale de moyenne m
et de variance
n
X V
2
) (

1.5 Distribution de la proportion :


Thorme :
Soit p la proportion de succs lintrieur de la population, et
p
la
proportion observe du caractre tudi dans lchantillon.
n
p V p p E
pq
) ( ) (
Dmonstration :
18
Soit
) ,......, , (
2 1 n
X X X X
lchantillon alatoire, et Y le nombre de succs
alatoire lintrieur de lchantillon. Alors Y suit une loi B(n,p) telle que E(Y) =
np et V(Y) = npq.
Soit
p
la proportion de succs lintrieur de lchantillon .
n
Y
p
p
n
np
Y E
n n
Y
E p E

,
_

) (
1
) (
n
pq
n
npq
Y V
n
n
Y
V p V

,
_

2 2
) (
1
) (
Forme de la distribution de
p
Thorme :
Soit p la proportion de succs lintrieur de la population, et
p
la
proportion de succs alatoire lintrieur dun chantillon alatoire de taille n
prlev de cette population.
Si :

,
_

>
>
n
pq
p N p alors
nq
np
,
5
5
2. Estimation :
Le problme est ici diffrent. On ne connat pas la loi de X. On a seulement observ
les valeurs
) ,......, , (
2 1 n
X X X
sur un chantillon de taille n. A partir de toute srie
statistique, on peut calculer une moyenne (ou une proportion) observe, une variance,
mais on doit se demander alors ce quil est possible de conclure.
Lobjet de ce chapitre est prcisment dexposer les principes gnraux de la statistique
qui permettent, partir dchantillon et laide du calcul des probabilistes (modle
thorique, risque derreur), dtablir des procdures dinduction et dinterprter les
rsultats obtenus.
2.1 Notion destimateur :
a- Dfinition :
Soit X une v.a dont la loi de probabilit dpend dun paramtre a estimer.
Soient
n
x x x ,......, ,
2 1
les valeurs de X pour un chantillon de taille n et soit
T
n
(
n
x x x ,......, ,
2 1
) une fonction de ces valeurs.
On dit que T
n
(
n
x x x ,......, ,
2 1
) est un estimateur de si :
0 ) ( ) (
n n
T V et T E
19
quand n crot indfiniment.
2.2 Qualits dun estimateur :
Un bon estimateur est caractris par son absence de biais et sa faible dispersion.
a- Estimateur sans biais :
On dit que lestimateur T
n
est sans biais (ou sans distortion) si E(T
n
) = .
Lestimateur est alors centr sur la vraie valeur , quel que soit leffectif
de lchantillon.
Le biais B(T
n
) est gale : B(T
n
) = E(T
n
) - .
Exemple : T
n
= X est un estimateur sans biais de m, en effet :
m nm
n
X E
n n
X
E X E
i
i

,
_


1
) (
1
) (
b- Estimateur de faible dispersion :
Un estimateur T
n
est dautant meilleur quil comporte une plus faible
erreur alatoire. La variabilit de T
n
est mesure par sa variance :
V(T
n
) = E([T
n
E(T
n
)]
2
).
De deux estimateurs sans biais, le plus efficace est, par dfinition, celui qui a la plus
petite variance.
3. Estimation ponctuelle :
Il sagit destimer m,
2

et p dans la population gnrale. Les estimateurs


usuels de m,
2

et de p sont :
a- Estimateur usuel de m :
Lestimateur habituel de m est la statistique
X
, moyenne de lchantillon.
Puisque
n
X V m X E
2
) ( ) (


cet estimateur est sans biais et convergent. La moyenne x observe dans un
chantillon se rapproche de m = E(X) si n est trs grand.
b- Estimateurs usuels de
2

:
Lestimateur habituel de la variance
2

est :
* Si m = E(X) est connu lestimateur habituel est :
20

2
1
2
) (
n
n
i
i
n
m X
* Si m = E(X) est inconnu lestimateur habituelle est :
1
) (
2
1 2

n
X X
S
n
i
i
n
Aprs expriences, lestimation ponctuelle de
2

est :
1
) (
2
1 2

n
x x
s s
n
i
i
n
Ce nest pas tout fait la variance de lchantillon car on divise par n-1 au lieu de n.
Ces estimateurs ont t choisis parce quils sont sans biais et convergents.
c- Estimateur usuel de p :
Cest la statistique usuelle, proportion observe dans un chantillon :

n
Y
Y p p
i
n

o
i
Y
suit une loi de Bernoulli de paramtre p.
Puisque
n
pq
p V et p p E
n n
) ( ) ( tend vers zro quand n tend vers
linfini, alors p
n
converge en probabilit vers p.
4. Estimation par intervalle de confiance :
Nous venons de voir comment on peut estimer partir dun chantillon les
principales caractristiques dune population. Mais ces estimations ponctuelles ne
sont pas assorties dun niveau de confiance quon pourrait leur accorder. Il est donc
ncessaire, de construire des intervalles (centrs sur ces estimateurs) lintrieur
desquels la vraie valeur exacte m, (ou p) a une bonne probabilit de se trouver. Un
tel intervalle sappelle intervalle de confiance.
Dfinition :
Lestimation par intervalle de confiance (IC) cest un mode destimation qui
permet de dfinir un intervalle de valeurs lintrieur duquel un paramtre de la
population a une probabilit bien dtermine de se trouver.
Exemple :
Soit ]10,14[ lintervalle de confiance 95% de m , cela signifie que m a 95% de
chance davoir une valeur comprise entre 10 et 14.
Distribution de probabilit utilise pour lestimation par IC (cas avec remise)
21
Dans la pratique on utilise lapproximation suivante :
n q p
p p
n pq
p p
/ /

Exemples :
a- Cas ou
2

la variance de la population est connue, et quon cherche estimer


m
Exercice :
Paramtre
estimer Condition dapplication Loi utilise
m
2

connu
et

'

30 n
ou
normale X
n
m X
2

suit N(0,1)
2

inconnu

'

30 n
normale X
n
s
m X
n
2
1

suit T
n -1
2

inconnu
n 30 (TCL)
n
s
m X
n
2
1

suit N(0,1)
2

m connue
X normale
2
2
) (

m X
i
suit
2
n

m inconnu
X normale
2
2
1
) 1 (

n
s n
suit
2
n

p
n 30

'

>
15
5 5
npq
ou
nq et np
n
pq
p p
suit N(0,1)
22
La dure dun type de pile est distribu normalement avec un cart-type de 2
heures. Pour estimer la moyenne de cette distribution, on prlve au hasard un
chantillon de 20 piles dont on relve la moyenne. La dure moyenne est de 10
heures.
Donner un IC 95% degr de certitude de m dure moyenne de lensemble des
piles.
Rponse :
Soit X la dure des piles, X suit la loi normale N(m,2), donc ) 1 , 0 (
/
N
n
m X

Donc :
% 95 96 , 1
/
96 , 1
1
]
1

<

<
n
m X
p



95 , 0 96 , 1 96 , 1
1
]
1

< <
n
m X
n
p


95 , 0 96 , 1 96 , 1
1
]
1

+ < <
n
X m
n
X p


95 , 0 96 , 1 96 , 1
1
]
1

+ < <
n
X m
n
X p


Donc :
1
]
1

+
20
2
96 , 1 10 ;
20
2
96 , 1 10
% 95
IC
Remarque :
Les intervalles de confiance donns pour m doit tre obligatoirement centrs sur X .
b- Cas o
2

est inconnue et quon cherche estimer m :


Exercice 1 :
On sait que la consommation dessence (en l/ 100Km) dun certain model dauto est
distribu selon une loi normale.
On note la consommation de 25 voitures, on obtient une moyenne de 8,7 l/100 km et
un cart-type de 0,09 l/100km.
Estimer la consommation moyenne de ce modle laide dun IC de 90% de
certitude.
Rponse :
Soit X la consommation dessence des auto, X suit une loi N(m,
2

) avec m et
2


inconnues.
Soit X la consommation moyenne dessence de lchantillon.
n
s
m X
n
2
1

suit la loi
de student T
n-1 =
T
24
.
23

9 , 0 711 , 1
/
711 , 1
1

1
]
1

n s
m X
p
n
. Do :
] [ 8,67;8,73 soit 711 , 1 711 , 1 ) (
1 1
% 90

1
]
1
+

n
s
X m
n
s
X m IC
n n
c- Cas o m est connue et quon cherche estimer
2

Exercice :
On analyse le PH dun parfum, variable ayant un aspect normal de moyenne 2,8.
On prlve 25 units de ce parfum dont on mesure le PH on trouve
X
=3 et
0625 , 0 ) (
2
m X
i
.
Donner une estimation par IC (95%) de
2

.
Rponse :
Soit X le PH du parfum, X suit une loi N(2,8 ;
2

)
2

inconnue.

2
25
2
2
) (


m X
i

% 95 647 , 40
) (
120 , 13
2
2

1
1
]
1

<

<

m X
p
i

% 95
120 , 13
1
) (
647 , 40
1
2
2

1
1
]
1

<

<
m X
p
i


% 95
120 , 13
) (
647 , 40
) (
2
2
2

1
1
]
1


< <

m X m X
p
i i

Do : IC
95%
(
2

) = ]0,0015 ; 0,0048[.
d- Cas o la moyenne et la variance sont inconnues et quon cherche estimer la
variance de la population :
Exercice :
La consommation dessence dun certain modle de voiture est distribue selon une
loi normale N(m,
2

) , o m et
2

inconnues.
On donne n = 25 ,
X
= 8,72l/100km et s
n-1
= 0,09 l/100km.
Donner une estimation par IC (90%) de
2

de X.
Rponse :
Soit X la consommation dessence des auto, X suit une loi N(m,
2

) avec m et
2


inconnues.
2
1
2
2
1
) 1 (

n
n
s n


% 90 415 , 36
) 09 , 0 ( 24
848 , 13
2
2

1
1
]
1

< <

p

% 90
848 , 3
) 09 , 0 ( 24
415 , 36
) 09 , 0 ( 24
2
2
2

1
1
]
1

< < p
IC
90%
(
2

) = ]0,053 ; 0,0140 [.
Donc il y a 90% de chances pour que la variance de la population ait une valeur comprise
entre 0,053 et 0,0140.
24
e- Estimation de p :
Exercice :
Une enqute faite sur un chantillon de 1000 adultes rvle que 110 dentre eux
effectuent du travail au noir.
A laide de ce rsultat, estimer la proportion de la population adulte qui travaille au
noir avec 95% de certitude.
Rponse :

11 , 0 1000 p p n
? 5 et ? 5 30 nq np n
110 p
est la proportion de lchantillon.
p
et
q
sont des estimateurs efficaces de
p et q. On calculera n
p
et n
q
.
) 1 , 0 (
/
donc
5 890 q n
5 110 p n
N
n q p
p p

>
>

95 , 0 96 , 1
/
p - p
1,96 p
1
1
]
1

< <
n q p

95 , 0 96 , 1
n
q p
1,96 - p p
1
]
1

+ < <
n
q p
p p
Donc : IC
95%
(p) = ]0,09 ; 0,13[.
Distribution de
Probabilit utilise
Estimation par intervalle
de confiance
) 1 , 0 (
/
2
N
n
m X

1
]
1

+
n
z X
n
z X m

2 / 2 /
;
1
2
1
/

n
n
T
n s
m X

1
]
1
+

n
s
t X
n
s
t X m
n
n
n
n
1
) 1 (
1
) 1 (
2 / 2 /
;

2
2
2
) (
n
i
m X


1
1
]
1

1
2
2
2
2
) (
;
) (

m X m X
i i
2
1
2
2
1
) 1 (

n
n
s n

1
1
]
1


1
2
1
2
2
1 2
) 1 (
;
) 1 (

n n
s n s n
) 1 , 0 (
/
N
n q p
p p

1
]
1

+
n
q p
z p
2 / /2
;
n
q p
z - p p

25
5. Estimation par la mthode du maximum de vraisemblance
5.1 Objectif :
La mthode du maximum de vraisemblance consiste rechercher lestimation
du paramtre inconnu qui rend le plus probable ou le plus vraisemblable
lchantillon observ. Puisquil sagit de trouver un maximum, cette mthode fait
appel la notion de drive en mathmatiques.
Les estimateurs obtenus par la mthode du maximum de vraisemblance ont de
bonnes proprits statistiques.
5.2 Fonction de vraisemblance
Soit (X
1
, X
2
,, X
n
) un n chantillon de la variable X, discrte ou continue, qui
dpend dun paramtre .
Si X est discrte, sa loi est dfinie par
) ( ) ( x X P x P
, La vraisemblance de la
ralisation dun n chantillon (x
1
, x
2
,, x
n
) est la fonction L dfinie par :




n
1 i
n
1 i
i
2 2 1 1 2 1
) ( ou ) P(X
) ( )..... ( ) ( ) , ,...., , (
i i i
n n n
x X P x
x X P x X P x X P x x x L

Le produit est possible dans la mesure o les variables X


i
sont indpendantes.
Exemple : Loi de Poisson


! !
) ,......, , (
!
) P( ), ( ) (
1
2 1

n
i
i
i
x
n
i
x
n
i
x
i
x
e
x
e x x x L
x
e x X P X L
i
i
i
i

Si X est continue, sa loi est dfinie par sa densit


) (x f
. Par analogie avec le cas
discret, la vraisemblance L scrit :

n
1 i
2 1 2 1
) (
) ( ...... ) ( ) ( ) , ,...., , (
i
n n
x f
x f x f x f x x x L

Exemple :
Loi normale
2
2
1
2
1
) ( ), , (

,
_

m x
i
i
e x f m N
, cette loi dpend de et m :
26
( )

,
_


2
2
2
) (
2
1
2 /
2
1
n
1 i
2 1
2
1

2
1
) , , ,...., , (
m x
n n
m x
n
i
i
e
e m x x x L

5.3 Estimateur de maximum de vraisemblance


Lestimateur de maximum de vraisemblance est la valeur

qui vrifie :

'

<

ordre second du condition 0


) , ,....., , (
L
ordre premier du condition 0
) , ,...., , (
2
2 1
2
"
2 1 '

n
n
x x x L
x x x L
L

'

<

0
) , ,....., , ( ln
0
) , ,...., , lnL(
2
2 1
2
2 1

n
n
x x x L
x x x
5.4 Exemples :
a- Estimation du paramtre dune loi de poisson


) ! ln( ln ) , ,...., , ( ln
! !
) , ,......, , (
1 1
2 1
1
2 1

,
_

n
i
i
n
i
i n
n
i
i
i
x
n
i
x
n
x x n x x x L
x
e
x
e x x x L
i
i
i


La valeur

qui maximise la vraisemblance est la solution de lquation suivante :


- c.p.o
n
n
i
i
n
i
i
x
n
x x
n L
d
d

+
1 1

: o d' 0

)]

( ln[ln

-c.s.o
. 0 -

)]

( ln[
2 2
1
2
2
<



n
n
n
n
i
i
x
n
x
x n
x
L
d
d

27
Puisquune variable alatoire suivant une loi de poisson ne prend que des valeurs
positives ou nulles, donc
. 0 >
n
x
Lestimateur de :
n
n
i
i
X
n
X

et lestimation est
n
n
i
i
x
n
x

.
b- Estimation dune proportion
Soit un caractre qualitatif ne prenant que deux modalits. Une variable alatoire X
pouvant prendre la valeur 0 ou 1 lui est associe. Lestimation de la proportion p des
individus de la population, pour lesquels X vaut 1, est effectue laide dun chantillon
de taille n.
X est une variable de Bernoulli
1 ou 0 , ) 1 ( ) (
1


x p p x X P
x x
La fonction de vraisemblance scrit :




n
i
i
n
i
i
n
x x
x xn x x x x
p p
p p p p p p p L
1 1
2 2 1 1
) 1 (
1 1 1
) 1 (
) 1 ( ...... ) 1 ( ) 1 ( ) (
Comme prcdemment, la recherche du maximum se fera sur le logarithme de L :
) 1 ln( ln )) ( ln(
1 1
p x n p x p L
n
i
i
n
i
i

,
_

+

La solution du maximum de vraisemblance est :
0
1
) (ln
1 '


p
x n
p
x
L
n
i
i
n
i
i
p
Do :
p
n
x
p
n
i
i

Lestimation du maximum de vraisemblance dune proportion p est gale la frquence


empirique (ou proportion de lchantillon).
(vrifier les c.s.o)
c- Estimation des paramtres de la loi normale
Loi normale
2
2
1
2
1
) ( ), , (

,
_

m x
i
i
e x f m N
, cette loi dpend de et m .
La fonction vraisemblance est :

,
_

2
2
) (
2
1
2 1
2
1
) , , ,...., , (
m x
n
n
i
e m x x x L

Comme prcdemment, la recherche du maximum se fera sur le logarithme de L :


28

2
2
2 1
) (
2
1
) 2 ln( ) , , ,...., , ( ln m x n m x x x L
i n


Estimation de m :
Condition du premier ordre :
0 ) (
2
2 ln
2 2 2


nm x
m x
m
L
i
i
Do
n
x
m
i


Condition du second ordre :
0
1 ln
2 2
2
<

m
L
Donc
X
de lchantillon dune loi normale est lestimateur de maximum de
vraisemblance de m.
Estimation de
2
:

2
2
2
) (
2
1
ln
2
2 ln ln m x
n
n L
i


Condition du premier ordre :
0
2
) (
2
ln
4
2
2 2


+


m x n L
i
Do
n
m x
i

2
2
) (

Condition du second ordre


6
2
4 2 2
2
2
) ( 2
2 ) (
ln


m x n L
i
on remplaant :

0
2 2
2
2 ) (
ln
4 6
2
4 2 2
2
<


n n n L
29
30