Académique Documents
Professionnel Documents
Culture Documents
n
i
i
x
n
x
1
1
1.2 Mdiane
Dfinition : La mdiane, note Me, est la valeur qui spare une srie
d'observations ordonnes en ordre croissant ou dcroissant, en deux parties
comportant le mme nombre d'observations La formule gnrale est
diffrente selon que le nombre d'observations (N) est pair ou impair.
4
Si N est impair dans le rangement ascendant (ou descendant) on a :
2
) 1 ( n observatio N
Me
e
+
Exemple : Si on a les donnes suivantes: 34, 37, 40, 41, 44, 44, 45, alors
41
2
) 1 7 (
+ n observatio
e
Si N est pair
la mdiane correspond au point milieu (ou la moyenne) des deux observations
centrales dans le rangement ascendant (ou descendant).
En formule, soit N = 2K, donc K = N/2; alors :
2
) 1 ( n observatio K n observatio K
Me
e e
+ +
.3 Mode :
Dfinition : Le mode, not Mo, est la valeur la plus frquente dans une
srie dobservations. (Note: le mode n'est pas ncessairement unique)
Exemples : - Pour les donnes suivantes: 5, 6, 6, 7, 8, 8 ; il y a deux
modes 6 et 8.
3 Proportion :
Dfinition : Quantit qui exprime le rapport entre le nombre de mesures
qui partagent une caractristique quelconque et le nombre total de mesures.
On transforme souvent la proportion en pourcentage.
3. Mesures de tendance centrale pour les donnes groupes
3.1 Moyenne :
k
i
k
i
i i i
n n avec x n
n
x
1 1
1
o
i
n
= leffectif de la classe i et
i
x
= le centre de la classe i .
3.2 Mdiane :
Etapes :
5
1- Localiser la classe mdiane, i.e. celle qui contient la mdiane ( partir de la
distribution des effectifs cumuls)
2- Dterminer laquelle des observations de cette classe correspond la mdiane
3- Dterminer, par interpolation, la valeur approximative de la mdiane
(on suppose une rpartition uniforme des donnes l'intrieur de la classe)
La formule est :
l
n
n N
L Me
Me
c
Me
,
_
+
2 /
o L
Me
= la limite infrieure de la classe mdiane
n
c
= leffectifs cumul de toutes les classes prcdant la classe mdiane
n
Me
= la frquence de la classe mdiane
l = la largeur de la classe mdiane
3.3 Mode :
Dfinition : La classe modale est la classe qui a la plus haute frquence.
Hypothse: on suppose que le mode appartient la classe modale
La formule est :
o L
Mo
= limite infrieure de la classe modale
d
1
= diffrence entre leffectif de la classe modale et celui de la prcdente
d
2
= diffrence entre leffectif de la classe modale et celui de la suivante
l = largeur de la classe modale
6
5. Mesures de dispersion
5.1 Etendue
Dfinition : L'tendue est la diffrence entre la plus grande valeur et la plus petite
valeur. La formule gnrale est :
O : G = la valeur la plus grande
P = la valeur la plus petite
5.2 Variance et cart-type
* Soit un chantillon de n valeurs observes
n
x x x ,....., ,
2 1
dun
caractre quantitatif X et soit x sa moyenne observe. On dfinit la
variance observe note
2
s
comme la moyenne arithmtique des carrs
des carts la moyenne.
( )
2
1
2
1
n
i
i
x x
n
s
ou
n
i
i
x x
n
s
1
2 2 2
1
L'cart type, not s, est simplement la racine carre de la variance.
* Dans le cas des donnes groupes en k classes deffectif
i
n , la
formule de la variance est la suivante :
k
i
i i
x x n
n
s
1
2 2
) (
1
6. Mesure de dispersion relative
Jusqu'ici, les seules mesures de dispersion qui ont t prsentes sont des mesures
dites absolues. Considrons maintenant une mesure de dispersion relative.
6.1 Coefficient de variation
Objectif:
Dans certaines situations, on dsire comparer le taux de dispersion de distributions
alors que leurs chelles de mesure respective ne sont pas comparables.
L'objectif du coefficient de variation est de fournir un indice quantitatif permettant
cette comparaison.
Dfinition :
7
Le coefficient de variation, not CV, correspond l'cart type de la distribution
exprim en pourcentage de la moyenne de la distribution. La formule gnrale est :
7. Mesure de dissymtrie
Coefficient de dissymtrie
Lorsque la distribution est symtrique, la moyenne et la mdiane sont gales.
Cependant, lorsqu'elle est dissymtrique, la moyenne se dplace plus rapidement
que la mdiane et ce, dans le sens de l'talement
Par consquent, on prend, comme mesure de dissymtrie, la distance entre ces deux
mesures de tendance centrale, pondre par l'cart type. La formule gnrale du
coefficient de dissymtrie (CD) est :
Le signe de ce coefficient indique le type de dissymtrie (positive ou ngative). Ce
coefficient est nul lorsque la distribution est symtrique.
Mesures de la relation entre deux variables
1. Concept de base
1.1 Dfinitions
- Analyse de rgression : mthode pour dduire une quation d'estimation qui
dcrit la nature fonctionnelle de la relation entre deux variables.
- Analyse de corrlation : mthode pour mesurer la force de la relation, i.e. dans
quelle mesure les variations d'une des variables
expliquent les variations de l'autre.
La variable qui doit tre estime est appele variable dpendante (note Y)
La variable qui sert estimer est appele variable indpendante (note X)
Ici, on verra uniquement l'analyse de rgression et corrlation linaire simple, i.e.
Linaire: la relation entre les variables peut tre reprsente par une droite
simple : il n'y a que deux variables impliques
2. Tableau de contingences
2.1 Objectif : mettre en relation deux variables qualitatives
8
( )
s
Me x
CD
3
2.2 Dfinition : le tableau de contingences est un tableau deffectifs double
entres o on utilise ses lignes et ses colonnes pour prsenter le nombre d'units
d'observation prsentant simultanment deux caractristiques
3. Diagramme de corrlation (dispersion)
3.1 Dfinition :
Le diagramme de corrlation est une reprsentation graphique, dans le plan, des
valeurs ponctuelles obtenues pour deux variables de nature quantitative.
Chaque symbole reprsente une unit d'observation et sa position dpend des
valeurs obtenues pour les variables X (en abscisse) et Y (en ordonne)
Ce diagramme aide dterminer s'il existe une relation entre les deux variables et,
si oui, il aide choisir le type d'quation qui permettrait de dcrire cette relation.
4. Droite de rgression
Dans les cas o le diagramme de dispersion montre l'existence d'une
relation linaire, on dsire dterminer la droite qui dcrira le mieux cette
relation.
Cependant, le choix de cette droite dpend d'un critre qu'il faudra fixer.
En formule, la droite de rgression (comme toute droite) sera donne par :
o X = la valeur de la variable indpendante
Y
c
= la valeur estime (calcule) de la variable dpendante
a = l'ordonne l'origine, i.e. la valeur de Y
c
lorsque X = 0
b = la pente.
Proprits de la droite de rgression
* ( )
n
i
ic i
y y
1
2
est minimale.
* ( )
n
i
ic i
y y
1
0
*
( ) ( ) ( )
( ) ( )
2
1 1
2
1 1 1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
b
*
x b y a
9
5. Prdiction laide de la droite de rgression
On utilise la droite de rgression pour estimer la valeur de la variable dpendante
sachant une valeur (relle ou potentielle) de la variable indpendante.
6. Coefficient de corrlation
6.1 Dfinition
Le coefficient de corrlation (de Pearson), not ou r, est dfini par :
( ) ( ) [ ]
( ) ( )
n
i
n
i
i i
n
i
i i
y y x x
y y x x
r
1 1
2 2
1
Remarque : Plus la valeur de r se rapproche de 1, plus la relation linaire est
forte, et plus la valeur de r est voisine
Partie II : Statistique infrentielle
Concept de base de la thorie des
probabilits
1. Dfinitions et types de probabilits
1.1 Dfinitions
10
Espace chantillonnal ou univers : est lensemble de tous les rsultats
potentiellement possibles dune exprience.
Evnement simple : est un lment de lespace chantillonnal.
Evnement compos : est un ensemble form dun ou de plusieurs
vnements simples
Probabilit dun vnement : note P (vnement) est une mesure des
chances (en proportion) de ralisation de lvnement. Toute probabilit est un
nombre situ entre 0 et 1
Evnement impossible : a une probabilit de 0.
Evnement certain : a une probabilit de 1
Probabilit conditionnelle : Soient P (A) = la probabilit que lvnement A
se produise et P (B) = la probabilit que lvnement B se produise.
On dfinit la probabilit conditionnelle de B tant donn A, note P (B | A),
comme la probabilit que lvnement B se produise tant donn que
lvnement A sest produit.
Evnements mutuellement exclusifs : Deux vnements sont dits
mutuellement exclusifs si la ralisation de l'un empche la ralisation de
l'autre:
P (B) 0 et P (B | A) = 0
dans le cas contraire, ces vnements sont dits non mutuellement exclusifs:
P (B) 0 et P (B | A) 0
Evnements indpendants : Deux vnements sont dits indpendants si la
ralisation ou la non-ralisation de lun ne modifie en rien la probabilit de
ralisation de lautre, cest--dire P (B | A) = P (B). Dans le cas contraire, ces
vnements sont dits dpendants.
Rgles de calcul des probabilits
2.1 Rgle du complment (= NON)
P (non A) = P ( A ) = 1 - P (A)
2.2 Rgles de l'addition (= OU)
11
P(A ou B) = P(A) + P(B) - P(A et B)
.3 Rgles de la multiplication (= ET )
vnements indpendants
P(A et B) = P(A) P(B)
vnements dpendants
P(A et B) = P(A) P(B | A)
3. Esprance mathmatique et variance
3.1 Esprance
On sait qu' chaque vnement de l'espace chantillonnal est associ une
probabilit; supposons qu'on lui associe galement une valeur (donne par
la variable alatoire).
La question est alors de savoir quelle valeur, long terme, peut-on obtenir.
La valeur espre, appele esprance mathmatique, est alors la moyenne
pondre, par la probabilit, de toutes les valeurs des vnements de l'espace
chantillonnal . Pour la calculer, on fait le produit de la valeur de chaque
rsultat possible par sa probabilit d'apparition et on fait la somme de tous les
produits ainsi obtenus. En formule
( ) ) (
1
i
n
i
i
x p x X E
,
_
n
i
i i i
n
i
i
p x p x X E X E X E X E X V
4. Distributions de probabilits
4.1 Dfinition:
12
une distribution de probabilits est une numration de tous les rsultats
possibles d'une exprience avec leur probabilit respective
On remarque que la somme de toutes les probabilits est 1;ce qui est le cas
pour toutes les distributions de probabilits
Plusieurs distributions de probabilits s'avrent essentielles pour comprendre
les mthodes de l'infrence statistique. On tudiera ici: la distribution
binomiale, la distribution normale et la distribution de Poisson. Plus tard, on
prsentera: la distribution t de Student, la distribution F de Fischer et la
distribution du
2
.
5. Loi (ou distribution) binomiale
5.1 Dfinitions :
- la distribution binomiale dcrit la distribution de probabilits, dune variable alatoire
discrte, lorsqu'il n'y a que deux rsultats possibles chaque essai et que le rsultat d'un
essai est indpendant du rsultat de tout autre essai .
- On appelle les deux rsultats possibles: succs et chec. Le succs est le rsultat
pour lequel on dsire dterminer la distribution de probabilit, alors que l'chec est l'autre
rsultat. La probabilit (fixe) de succs en un essai est identifie par la lettre p alors que la
probabilit d'chec lors du mme essai est identifie par la lettre q avec q = 1 - p
- La probabilit d'obtenir r succs en n essais est donne par.
)! ( !
!
C o ) (
r
n
1
r n r
n
q p C r X P
r r r
n
6. Loi Normale
6.1 Dfinition
Une distribution normale correspond la distribution de probabilits d'une variable
alatoire continue dont la courbe est parfaitement symtrique, unimodale et en forme de
cloche.
Formellement, une distribution normale de moyenne et d'cart type est dfinie par la
formule
Graphiquement, si trois distributions normales ne diffrent que par leur moyenne on a :
13
Alors que si elles ne diffrent que par leur cart type on a :
Dans le cas des distributi
Partie II : Infrence statistique
Objectifs :
Lestimation statistique consiste obtenir des informations sur des variables lies
une population partir dun chantillon. En statistique descriptive un chantillon est
dfini comme un sous-ensemble de la population, en thorie des probabilits un
chantillon est constitue de variables alatoires qui suivent la mme loi. Les rsultats
issus de lchantillon permettent dinduire un certain nombre de caractristiques sur la
loi dune variable alatoire.
Ltude de la distribution et des caractristiques dune ou plusieurs variables
concernant une population ne peut gnralement tre faite sur lensemble des
individus qui composent la population. Par exemple, pour connatre les intentions de
vote dune population qui comporte des millions dlecteurs, il est impossible de
14
procder, hormis le jour des lections, autrement que par un sondage c'est--dire par le
recueil des informations auprs dun chantillon issu de cette population.
Lobjectif de ce chapitre est de prsenter les principales fonctions alatoires qui
permettent destimer une moyenne, une variance et une proportion, et surtout de
donner les proprits de ces fonctions qui sont appels estimateurs. Ce sont les
proprits de ces estimateurs qui permettent de dterminer une marge de lerreur sous
forme dintervalles de confiance Lorsquune caractristique dune population est
estime sur un chantillon.
1- Echantillonnage :
1.1 Mthodes alatoires :
Le statisticien met en uvre un procd donnant chaque individu de la
population une probabilit connue et non nulle dtre retenu. Cette mthode permet de
mettre en uvre le calcul des probabilits et dinfrer les caractristiques de la population.
- Tirage probabilts gales avec remise :
Cette mthode est identique au tirage avec remise de boule dans une urne.
- Tirage probabilts gales sans remise :
- Tirage systmatique :
Ce tirage est un cas particulier du prcdent. Lchantillon est constitu dunits
dont les numros sont en progression arithmtique, le premier tant tir au hasard (par
exemple, le logement n9, le n16, le n23, ect.).
- Tirage en grappes :
Les units statistiques sont tirs par paquet. Lensemble des logement dune
aire gographique, les logements dun immeuble, ect., sont des exemples de
sondage en grappes.
- Tirage stratifi :
On reproduit un chantillon conforme la population. Par exemple si on
s intresse un caractre qui dpend de lage des individus :
Population Echantillon
[0 , 10[ 20% 20%
[10 , 20 [ 25% 25%
[20 , 50[ 25% 25%
[50 et plus[ 30% 30%
15
1.2 Mthodes non alatoires :
Lchantillon laveuglette (qui nest pas synonyme) dau hasard) est construit
en recrutent des volontaires, en prenant des personnes dont le nom commence par
une certain lettre, etc.. Il est bien vident quil est loin de la reprsentativit. Le
micro-trottoir est la caricature de cette faon de faire.
La mthode la plus clbre et la plus employe des mthodes de sondage non
alatoire, est celle des quota. Elle consiste btir un modle rduit de la
population tudie. Cette mthode ressemble la mthode par stratification, mais
elle diffre par le mode de dtermination des personnes interroger, qui nest pas
alatoire.
1.3 Exemple :
Un relev complet du nombre dautomobiles par rsidence pour les 50
maison dun certain quartier prcise que pour 30 dentre elle il y a une voiture,
pour les 20 autres 2.
X
i
n
i
1
2
30
20
* 4 . 1
50
2 20 1 30
n
X n
m
i i
voiture par rsidence.
*
24 . 0 ) 4 . 1 (
50
2 20 1 30
2
2 2
2
2
2
+
m
n
X n
i i
* 6 , 0
50
30
p (proportion des maison ayant une voiture)
Soit X la v.a nombre de voiture par rsidence
X 1 2
p(X)
5
3
5
2
2
2
2 2
024
4
1
] ) 2 (
5
2
) 1 (
5
3
[ ) (
4 , 1
5
2
2
5
3
1 ) (
,
_
+
+
X V
m X E
Prlevons lensemble des chantillons de taille 3
16
Echantillon prob ralis de
chaque chantillon
i
X
2
2
2
) ( X
n
x
s
i
p
(1,1,1)
(1,1,2)
(1,2,1)
(1,2,2)
(2,1,1)
(2,1,2)
(2,2,1)
(2,2,2)
(3/5)
3
(3/5)
2
(2/5)
(3/5)
2
(2/5)
(3/5)(2/5)
2
(3/5)
2
(2/5)
(3/5)(2/5)
2
(3/5)(2/5)
2
(2/5)
3
1
4/3
4/3
5/3
4/3
5/3
5/3
2
0
2/9
2/9
2/9
2/9
2/9
2/9
0
1
2/3
2/3
1/3
2/3
1/3
1/3
0
Distribution de la moyenne :
Soit X moyenne de lchantillonnage
X 1 4/3 5/3 2
p( X = x
)
(3/5)
3
=
27/125
3(2/5)(3/5)
2
=
54/125
3(2/5)
2
(3/5)
= 36/125
(2/5)
3
=
8/125
La fonction de rpartition de la variable alatoire X a pour :
m
X x X P X E
+ + +
4 , 1
125
8
2
125
36
3
5
125
54
3
4
125
27
1
) ( ) (
) 3 ( 08 , 0
) 4 , 1 (
125
8
) 2 (
125
36
3
5
125
54
3
4
125
27
) 1 (
)) ( ( ) ( ) (
2
2 2
2 2
2
2 2
+
,
_
+
,
_
+
n
n
X E X E X V
Distribution de la proportion :
P 0 1/3 2/3 1
p(
p P
)
125
8
125
36
125
54
125
27
17
E( P) = 0,6 = p et V( P) = 0,08 =
n
pq
.
1.4 Distribution de la moyenne :
Soit X une variable alatoire quantitative, de moyenne m et variance
2
connues (poutres de longueur 4m avec = 0.05). Par sondage, on tire un
chantillon de taille n, (n tant petit par rapport la population). On obtient ainsi n
valeurs de
) ,......, , (
2 1 n
X X X X
. La moyenne :
n
X X X
X
n
+ + +
.....
2 1
est elle-mme une variable alatoire, dpendant de
lchantillon choisi, telle que :
n
X V m X E
2
) ( ) (
.
Dmonstration :
m nm
n
X E
n n
X
E X E
i
i
,
_
1
) (
1
) (
n
n
n
X V
n
n
X
V X V
i
i
2
2
2
2
) (
1
) (
,
_
Forme de distribution de
X
:
Daprs le Thorme centrale limite, la distribution dchantillonnage X
tend se rapprocher quand n est grand (n 30) dune loi normale de moyenne m
et de variance
n
X V
2
) (
,
_
) (
1
) (
n
pq
n
npq
Y V
n
n
Y
V p V
,
_
2 2
) (
1
) (
Forme de la distribution de
p
Thorme :
Soit p la proportion de succs lintrieur de la population, et
p
la
proportion de succs alatoire lintrieur dun chantillon alatoire de taille n
prlev de cette population.
Si :
,
_
>
>
n
pq
p N p alors
nq
np
,
5
5
2. Estimation :
Le problme est ici diffrent. On ne connat pas la loi de X. On a seulement observ
les valeurs
) ,......, , (
2 1 n
X X X
sur un chantillon de taille n. A partir de toute srie
statistique, on peut calculer une moyenne (ou une proportion) observe, une variance,
mais on doit se demander alors ce quil est possible de conclure.
Lobjet de ce chapitre est prcisment dexposer les principes gnraux de la statistique
qui permettent, partir dchantillon et laide du calcul des probabilistes (modle
thorique, risque derreur), dtablir des procdures dinduction et dinterprter les
rsultats obtenus.
2.1 Notion destimateur :
a- Dfinition :
Soit X une v.a dont la loi de probabilit dpend dun paramtre a estimer.
Soient
n
x x x ,......, ,
2 1
les valeurs de X pour un chantillon de taille n et soit
T
n
(
n
x x x ,......, ,
2 1
) une fonction de ces valeurs.
On dit que T
n
(
n
x x x ,......, ,
2 1
) est un estimateur de si :
0 ) ( ) (
n n
T V et T E
19
quand n crot indfiniment.
2.2 Qualits dun estimateur :
Un bon estimateur est caractris par son absence de biais et sa faible dispersion.
a- Estimateur sans biais :
On dit que lestimateur T
n
est sans biais (ou sans distortion) si E(T
n
) = .
Lestimateur est alors centr sur la vraie valeur , quel que soit leffectif
de lchantillon.
Le biais B(T
n
) est gale : B(T
n
) = E(T
n
) - .
Exemple : T
n
= X est un estimateur sans biais de m, en effet :
m nm
n
X E
n n
X
E X E
i
i
,
_
1
) (
1
) (
b- Estimateur de faible dispersion :
Un estimateur T
n
est dautant meilleur quil comporte une plus faible
erreur alatoire. La variabilit de T
n
est mesure par sa variance :
V(T
n
) = E([T
n
E(T
n
)]
2
).
De deux estimateurs sans biais, le plus efficace est, par dfinition, celui qui a la plus
petite variance.
3. Estimation ponctuelle :
Il sagit destimer m,
2
et de p sont :
a- Estimateur usuel de m :
Lestimateur habituel de m est la statistique
X
, moyenne de lchantillon.
Puisque
n
X V m X E
2
) ( ) (
cet estimateur est sans biais et convergent. La moyenne x observe dans un
chantillon se rapproche de m = E(X) si n est trs grand.
b- Estimateurs usuels de
2
:
Lestimateur habituel de la variance
2
est :
* Si m = E(X) est connu lestimateur habituel est :
20
2
1
2
) (
n
n
i
i
n
m X
* Si m = E(X) est inconnu lestimateur habituelle est :
1
) (
2
1 2
n
X X
S
n
i
i
n
Aprs expriences, lestimation ponctuelle de
2
est :
1
) (
2
1 2
n
x x
s s
n
i
i
n
Ce nest pas tout fait la variance de lchantillon car on divise par n-1 au lieu de n.
Ces estimateurs ont t choisis parce quils sont sans biais et convergents.
c- Estimateur usuel de p :
Cest la statistique usuelle, proportion observe dans un chantillon :
n
Y
Y p p
i
n
o
i
Y
suit une loi de Bernoulli de paramtre p.
Puisque
n
pq
p V et p p E
n n
) ( ) ( tend vers zro quand n tend vers
linfini, alors p
n
converge en probabilit vers p.
4. Estimation par intervalle de confiance :
Nous venons de voir comment on peut estimer partir dun chantillon les
principales caractristiques dune population. Mais ces estimations ponctuelles ne
sont pas assorties dun niveau de confiance quon pourrait leur accorder. Il est donc
ncessaire, de construire des intervalles (centrs sur ces estimateurs) lintrieur
desquels la vraie valeur exacte m, (ou p) a une bonne probabilit de se trouver. Un
tel intervalle sappelle intervalle de confiance.
Dfinition :
Lestimation par intervalle de confiance (IC) cest un mode destimation qui
permet de dfinir un intervalle de valeurs lintrieur duquel un paramtre de la
population a une probabilit bien dtermine de se trouver.
Exemple :
Soit ]10,14[ lintervalle de confiance 95% de m , cela signifie que m a 95% de
chance davoir une valeur comprise entre 10 et 14.
Distribution de probabilit utilise pour lestimation par IC (cas avec remise)
21
Dans la pratique on utilise lapproximation suivante :
n q p
p p
n pq
p p
/ /
Exemples :
a- Cas ou
2
connu
et
'
30 n
ou
normale X
n
m X
2
suit N(0,1)
2
inconnu
'
30 n
normale X
n
s
m X
n
2
1
suit T
n -1
2
inconnu
n 30 (TCL)
n
s
m X
n
2
1
suit N(0,1)
2
m connue
X normale
2
2
) (
m X
i
suit
2
n
m inconnu
X normale
2
2
1
) 1 (
n
s n
suit
2
n
p
n 30
'
>
15
5 5
npq
ou
nq et np
n
pq
p p
suit N(0,1)
22
La dure dun type de pile est distribu normalement avec un cart-type de 2
heures. Pour estimer la moyenne de cette distribution, on prlve au hasard un
chantillon de 20 piles dont on relve la moyenne. La dure moyenne est de 10
heures.
Donner un IC 95% degr de certitude de m dure moyenne de lensemble des
piles.
Rponse :
Soit X la dure des piles, X suit la loi normale N(m,2), donc ) 1 , 0 (
/
N
n
m X
Donc :
% 95 96 , 1
/
96 , 1
1
]
1
<
<
n
m X
p
95 , 0 96 , 1 96 , 1
1
]
1
< <
n
m X
n
p
95 , 0 96 , 1 96 , 1
1
]
1
+ < <
n
X m
n
X p
95 , 0 96 , 1 96 , 1
1
]
1
+ < <
n
X m
n
X p
Donc :
1
]
1
+
20
2
96 , 1 10 ;
20
2
96 , 1 10
% 95
IC
Remarque :
Les intervalles de confiance donns pour m doit tre obligatoirement centrs sur X .
b- Cas o
2
) avec m et
2
inconnues.
Soit X la consommation moyenne dessence de lchantillon.
n
s
m X
n
2
1
suit la loi
de student T
n-1 =
T
24
.
23
9 , 0 711 , 1
/
711 , 1
1
1
]
1
n s
m X
p
n
. Do :
] [ 8,67;8,73 soit 711 , 1 711 , 1 ) (
1 1
% 90
1
]
1
+
n
s
X m
n
s
X m IC
n n
c- Cas o m est connue et quon cherche estimer
2
Exercice :
On analyse le PH dun parfum, variable ayant un aspect normal de moyenne 2,8.
On prlve 25 units de ce parfum dont on mesure le PH on trouve
X
=3 et
0625 , 0 ) (
2
m X
i
.
Donner une estimation par IC (95%) de
2
.
Rponse :
Soit X le PH du parfum, X suit une loi N(2,8 ;
2
)
2
inconnue.
2
25
2
2
) (
m X
i
% 95 647 , 40
) (
120 , 13
2
2
1
1
]
1
<
<
m X
p
i
% 95
120 , 13
1
) (
647 , 40
1
2
2
1
1
]
1
<
<
m X
p
i
% 95
120 , 13
) (
647 , 40
) (
2
2
2
1
1
]
1
< <
m X m X
p
i i
Do : IC
95%
(
2
) = ]0,0015 ; 0,0048[.
d- Cas o la moyenne et la variance sont inconnues et quon cherche estimer la
variance de la population :
Exercice :
La consommation dessence dun certain modle de voiture est distribue selon une
loi normale N(m,
2
) , o m et
2
inconnues.
On donne n = 25 ,
X
= 8,72l/100km et s
n-1
= 0,09 l/100km.
Donner une estimation par IC (90%) de
2
de X.
Rponse :
Soit X la consommation dessence des auto, X suit une loi N(m,
2
) avec m et
2
inconnues.
2
1
2
2
1
) 1 (
n
n
s n
% 90 415 , 36
) 09 , 0 ( 24
848 , 13
2
2
1
1
]
1
< <
p
% 90
848 , 3
) 09 , 0 ( 24
415 , 36
) 09 , 0 ( 24
2
2
2
1
1
]
1
< < p
IC
90%
(
2
) = ]0,053 ; 0,0140 [.
Donc il y a 90% de chances pour que la variance de la population ait une valeur comprise
entre 0,053 et 0,0140.
24
e- Estimation de p :
Exercice :
Une enqute faite sur un chantillon de 1000 adultes rvle que 110 dentre eux
effectuent du travail au noir.
A laide de ce rsultat, estimer la proportion de la population adulte qui travaille au
noir avec 95% de certitude.
Rponse :
11 , 0 1000 p p n
? 5 et ? 5 30 nq np n
110 p
est la proportion de lchantillon.
p
et
q
sont des estimateurs efficaces de
p et q. On calculera n
p
et n
q
.
) 1 , 0 (
/
donc
5 890 q n
5 110 p n
N
n q p
p p
>
>
95 , 0 96 , 1
/
p - p
1,96 p
1
1
]
1
< <
n q p
95 , 0 96 , 1
n
q p
1,96 - p p
1
]
1
+ < <
n
q p
p p
Donc : IC
95%
(p) = ]0,09 ; 0,13[.
Distribution de
Probabilit utilise
Estimation par intervalle
de confiance
) 1 , 0 (
/
2
N
n
m X
1
]
1
+
n
z X
n
z X m
2 / 2 /
;
1
2
1
/
n
n
T
n s
m X
1
]
1
+
n
s
t X
n
s
t X m
n
n
n
n
1
) 1 (
1
) 1 (
2 / 2 /
;
2
2
2
) (
n
i
m X
1
1
]
1
1
2
2
2
2
) (
;
) (
m X m X
i i
2
1
2
2
1
) 1 (
n
n
s n
1
1
]
1
1
2
1
2
2
1 2
) 1 (
;
) 1 (
n n
s n s n
) 1 , 0 (
/
N
n q p
p p
1
]
1
+
n
q p
z p
2 / /2
;
n
q p
z - p p
25
5. Estimation par la mthode du maximum de vraisemblance
5.1 Objectif :
La mthode du maximum de vraisemblance consiste rechercher lestimation
du paramtre inconnu qui rend le plus probable ou le plus vraisemblable
lchantillon observ. Puisquil sagit de trouver un maximum, cette mthode fait
appel la notion de drive en mathmatiques.
Les estimateurs obtenus par la mthode du maximum de vraisemblance ont de
bonnes proprits statistiques.
5.2 Fonction de vraisemblance
Soit (X
1
, X
2
,, X
n
) un n chantillon de la variable X, discrte ou continue, qui
dpend dun paramtre .
Si X est discrte, sa loi est dfinie par
) ( ) ( x X P x P
, La vraisemblance de la
ralisation dun n chantillon (x
1
, x
2
,, x
n
) est la fonction L dfinie par :
n
1 i
n
1 i
i
2 2 1 1 2 1
) ( ou ) P(X
) ( )..... ( ) ( ) , ,...., , (
i i i
n n n
x X P x
x X P x X P x X P x x x L
n
i
i
i
x
n
i
x
n
i
x
i
x
e
x
e x x x L
x
e x X P X L
i
i
i
i
n
1 i
2 1 2 1
) (
) ( ...... ) ( ) ( ) , ,...., , (
i
n n
x f
x f x f x f x x x L
Exemple :
Loi normale
2
2
1
2
1
) ( ), , (
,
_
m x
i
i
e x f m N
, cette loi dpend de et m :
26
( )
,
_
2
2
2
) (
2
1
2 /
2
1
n
1 i
2 1
2
1
2
1
) , , ,...., , (
m x
n n
m x
n
i
i
e
e m x x x L
qui vrifie :
'
<
n
n
x x x L
x x x L
L
'
<
0
) , ,....., , ( ln
0
) , ,...., , lnL(
2
2 1
2
2 1
n
n
x x x L
x x x
5.4 Exemples :
a- Estimation du paramtre dune loi de poisson
) ! ln( ln ) , ,...., , ( ln
! !
) , ,......, , (
1 1
2 1
1
2 1
,
_
n
i
i
n
i
i n
n
i
i
i
x
n
i
x
n
x x n x x x L
x
e
x
e x x x L
i
i
i
La valeur
+
1 1
: o d' 0
)]
( ln[ln
-c.s.o
. 0 -
)]
( ln[
2 2
1
2
2
<
n
n
n
n
i
i
x
n
x
x n
x
L
d
d
27
Puisquune variable alatoire suivant une loi de poisson ne prend que des valeurs
positives ou nulles, donc
. 0 >
n
x
Lestimateur de :
n
n
i
i
X
n
X
et lestimation est
n
n
i
i
x
n
x
.
b- Estimation dune proportion
Soit un caractre qualitatif ne prenant que deux modalits. Une variable alatoire X
pouvant prendre la valeur 0 ou 1 lui est associe. Lestimation de la proportion p des
individus de la population, pour lesquels X vaut 1, est effectue laide dun chantillon
de taille n.
X est une variable de Bernoulli
1 ou 0 , ) 1 ( ) (
1
x p p x X P
x x
La fonction de vraisemblance scrit :
n
i
i
n
i
i
n
x x
x xn x x x x
p p
p p p p p p p L
1 1
2 2 1 1
) 1 (
1 1 1
) 1 (
) 1 ( ...... ) 1 ( ) 1 ( ) (
Comme prcdemment, la recherche du maximum se fera sur le logarithme de L :
) 1 ln( ln )) ( ln(
1 1
p x n p x p L
n
i
i
n
i
i
,
_
+
La solution du maximum de vraisemblance est :
0
1
) (ln
1 '
p
x n
p
x
L
n
i
i
n
i
i
p
Do :
p
n
x
p
n
i
i
,
_
m x
i
i
e x f m N
, cette loi dpend de et m .
La fonction vraisemblance est :
,
_
2
2
) (
2
1
2 1
2
1
) , , ,...., , (
m x
n
n
i
e m x x x L
Estimation de m :
Condition du premier ordre :
0 ) (
2
2 ln
2 2 2
nm x
m x
m
L
i
i
Do
n
x
m
i
Condition du second ordre :
0
1 ln
2 2
2
<
m
L
Donc
X
de lchantillon dune loi normale est lestimateur de maximum de
vraisemblance de m.
Estimation de
2
:
2
2
2
) (
2
1
ln
2
2 ln ln m x
n
n L
i
Condition du premier ordre :
0
2
) (
2
ln
4
2
2 2
+
m x n L
i
Do
n
m x
i
2
2
) (
Condition du second ordre
6
2
4 2 2
2
2
) ( 2
2 ) (
ln
m x n L
i
on remplaant :
0
2 2
2
2 ) (
ln
4 6
2
4 2 2
2
<
n n n L
29
30