Vous êtes sur la page 1sur 6

I.

Les estimations

Soit X une variable aléatoire définie sur une population mère Ω de taille N. Souvent, on
s’intéresse à la valeur d’un paramètre inconnu de X (espérance, variance, proportion…)

On cherche à évaluer ce paramètre noté θ à partir d’un échantillon.

A partir de l’échantillon, on peut en déterminer une valeur réelle fixe θ^ appelée estimation
ponctuelle de θ. Il est aussi possible de déterminer un intervalle [θ1 ; θ 2] qui contient la vraie
valeur de θ avec une probabilité fixée à l’avance.

1) Estimation ponctuelle

Définition1 : Soit X une variable aléatoire et θ un paramètre de X à estimer. Considérons un


échantillon de n individus.

Soient X 1 , X 2 ,… X n les variables aléatoires correspondant à X appliquée à chaque individu de


la population. Ces n variables aléatoires indépendantes constituent un échantillon aléatoire
simple de la variable si :

- E ( X 1 ) =E ( X 2 ) =…=E ( X n ) =E ( X )=m
- σ ( X 1 )=σ ( X 2 )=…=σ ( X n )=σ ( X )=σ

Définition2 : Soit X une variable aléatoire, θ un paramètre de X à estimer et soient


X 1 , X 2 ,… X n un échantillon aléatoire simple. On appelle estimateur toute statistique fonction de
X 1 , X 2 ,… X n susceptible de fournir la meilleure estimation de θ.

Exemple :

Considérons la variable note en statistique de l’ensemble des étudiants du Burkina.

Pour l’estimation de la note moyenne, on choisit au hasard 50 notes x 1, x 2 , … , x 50.

Une estimation de la moyenne peut être :

x1 + x 50 x + x +…+ x 49
ou 1 3 …
2 25

Définition3 : Soit X une variable aléatoire, θ un paramètre de X à estimer et soient


X 1 , X 2 ,… X n un échantillon aléatoire simple. On appelle estimateur sans biais du paramètre θ
toute statistique T fonction de X 1 , X 2 ,… X n telle que E ( T )=θ.

Définition3 : Si E ( T ) ≠ θ, T est biaisé et le biais vaut E ( T −θ )=E ( T )−θ.

X 1+ X 2 + …+ X n
Proposition : La variable moyenne X́ = est un estimateur sans biais de θ=m.(
n
cela revient à dire que dans un échantillon de taille n, la moyenne x́ est une estimation
ponctuelle de m.)
Proposition : ∑ ( X i− X́ )2 est un estimateur biaisé de θ=σ 2 avec pour biais −σ 2
n n

2 1
Proposition : S = ( X − X́)2 est un estimateur sans biais de θ=σ 2(Le nombre
n−1 ∑ i
n
s2= σ ' 2 est une estimation ponctuelle de la variance de X.
n−1

n
Le nombre s=
√ n−1
σ ' est une estimation ponctuelle de σ .)

Proposition : Soit p la proportion de X définie sur la population mère. p est inconnue. Dans
un échantillon de taille n, on a obtenu une fréquence f.

Alors f est une estimation ponctuelle de p.

2) Estimation par intervalle de confiance

L’objectif est de déterminer un intervalle symétrique [ a ; b ] qui contiendra le paramètre à


estimer A avec une probabilité α appelée seuil de confiance ou coefficient de confiance.

Cela revient à dire que P ( A ∈ [ a ; b ] ) =α ⟺ P ( A ∉ [ a ; b ] ) =1−α . Le nombre 1−α est appelé


seuil de risque ou coefficient de risque.

a) Estimation par intervalle de confiance d’une moyenne

Soit m la moyenne inconnue de la variable aléatoire X définie sur la population mère. Soit X́ n
la variable aléatoire qui à tout échantillon de taille n associe la moyenne de cet échantillon.

σ
On sait que si n ≥ 30 , X́ n ↪ N (m; ). Deux cas de figures sont à envisager.
√n
Premier cas : l’écart type de la population mère est connu

Alors l’intervalle de confiance de m au seuil de confiance α est donné par :

σ σ α +1
[
I C = x́−t α
√n
; x́ +t α
√n],t α /F (t α )=
2

Deuxième cas : l’écart type de la population mère n’est pas connu.

Alors :
s s α +1
[
I C = x́−t α
√n
; x́ +t α
√n],t α /F (t α )=
2
s est une estimation ponctuelle de σ .

b) Estimation par intervalle de confiance d’une proportion

Soit p la proportion inconnue de X définie sur la population mère. Dans un échantillon de


taille n, on a obtenu une fréquence f. Alors

[ √
I C = f −t α
f (1−f )
n √
; f +t α
f (1−f )
n ]
,t α /F (t α )=
α +1
2

Exemple :

Un sondage a été effectué auprès des jeunes pour déterminer le temps passé quotidiennement
sur leur téléphone portable. Les résultats sont consignés dans le tableau suivant :
Temps en minutes [0 ; 20[ [20 ; 40[ [40 ; 60[ [60 ; 120[
Age
[18 ; 22[ 15 55 37 9
1) Donner une estimation ponctuelle du temps moyen X que les 18-22 ans passent sur
leur téléphone portable ainsi qu’une estimation ponctuelle de la variance de X et de
son écart type.
2) Déterminer une estimation par intervalle de confiance au seuil de confiance 95% de la
moyenne.
3) Déterminer une estimation ponctuelle de la proportion des jeunes dont le temps passé
sur leur téléphone portable est de moins de 40 minutes.

Chapitre 3 Les tests d’hypothèses


Un test a pour objectif de vérifier si une hypothèse de départ est acceptable ou non.
I. Procédures d’un test
1) Présentation des hypothèses
Un test consiste à choisir entre deux hypothèses :
L’hypothèse nulle H 0 qui porte sur la loi théorique L ou sur une valeur particulière A de X
contre l’hypothèse alternative H 1 qui porte sur d’autres lois théoriques ou sur d’autres valeurs
de la variable aléatoire X.
2) Risques de première espèce et de seconde espèce
Prendre la décision de rejeter ou non une hypothèse nulle au profit d’une hypothèse
alternative, c’est prendre le risque de commettre une erreur. Deux types d’erreurs sont
possibles.
Si l’on rejette l’hypothèse nulle (H0) au profit de (H1) alors que (H0) est vraie, on parle
d’erreur de première espèce et, si l’on ne rejette pas (H0) au profit de (H1) alors que (H1) est
vraie, on parle d’erreur de deuxième espèce.
Il y a donc quatre situations possibles qui peuvent se résumer dans le tableau suivant:
D 0 : accepter H 0 D 1 : accepter H 1
hypothèses
H 0 vraie Pas d’erreur Erreur de première espèce
H 1 vraie Erreur de deuxième espèce Pas d’erreur

En résumé, tout test comporte un risque d’erreur, et une décision ne peut être prise qu’avec un
certain risque.
Les tests qui seront considérés dans ce cours seront construits selon la méthode de Neyman et
Pearson : l’hypothèse H 0 sera supposée vraie et le risque de première espèce α sera connu.
II. Ajustement d’une distribution observée à une loi de probabilité  : test du khi
deux
Il existe plusieurs types de tests d’hypothèses non paramétriques mais le plus connu est le test
du khi deux ou test de Karl Pearson.
Soit une population mère Ω sur laquelle est définie une variable aléatoire X, et L une loi de
probabilité connue.
Le test d’ajustement du khi deux teste les hypothèses :
H 0: la variable X suit la loi théorique L

Contre H 1: la variable aléatoire X ne suit pas la loi théorique L


Au seuil de risque α (ou de confiance 1−α).
1) Principe du test
L’étude de la représentation graphique de la variable aléatoire observée sur un échantillon de
taille n donne une idée de la loi théorique qui pourrait ajuster la distribution.
Cette approche graphique est insuffisante, et, le calcul des écarts entre la distribution
empirique et la distribution théorique qui serait obtenue avec la loi de probabilité supposée
permet de confirmer ou d’infirmer l’ajustement pressenti.

2) Indicateur d’écart χ 2cal

Soit une distribution statistique empirique d’effectif total N pour laquelle les observations
sont réparties en m classes C id’effectif ni .

Si l’hypothèse H 0 est vraie, la loi L est connue, et il est possible de calculer pour chaque
classe la probabilité pi que X appartienne à la classe C i et d’en déduire les effectifs théoriques
T i de chacune des classes avec T i=N p i.

Le test d’ajustement du khi deux permet de déterminer la qualité de l’ajustement par la loi de
probabilité théorique en mesurant la distance totale, notée χ 2cal , entre la distribution observée
et la distribution théorique. On a :
m
(ni −T i )2
χ 2cal =∑
i=1 Ti

Les données sont présentées sous formes de tableau :

Classes Effectifs Effectifs théoriques Ecarts


empiriques
C1 n1 T1 (n1 −T 1 )2
T1

Ci ni Ti (ni −T i )2
Ti

Cm nm Tm (n m−T m)2
Tm
2
Totaux N N χ cal

Remarque :
 Le test du khi deux se calcule sur des effectifs et n’est pas applicable aux
fréquences.
 La validité du test suppose que l’effectif théorique de chaque classe soit supérieur
à 5. Si ce n’est pas le cas, il est nécessaire de regrouper plusieurs classes
consécutives pour parvenir à T i ≥ 5.

3) Détermination du χ 2lu

Le χ 2lu à ν=m− p−1 degrés de liberté est déterminé par lecture de la table du khi deux dès
que le risque α est connu.
- m est le nombre de classes après regroupement ;
- p est le nombre de paramètres à estimer pour déterminer complètement la loi L.
Règle de décision :

Si χ 2cal < χ 2lu , on accepte l’hypothèse H 0 sinon elle est rejetée.

Exemple1 :
Bernard travaille tous les matins au standard téléphonique d’une entreprise. Il oriente les
différents appels vers les services concernés. Chaque matin, X appels ne sont pas destinés à
l’entreprise en question (erreurs de numéro). Bernard a noté, au cours de 150 matinées, le
nombre d’appels de ce type :

Nombre d’erreurs 0 1 2 3 4 5 6 7 8 9 10
Nombre de matinées 6 2 15 19 22 25 20 15 14 9 3

1) Calculer le nombre moyen d’erreurs par matinée sur cet échantillon.


2) Au seuil de risque 5% peut-on accepter l’hypothèse que X suit une loi de Poisson ?
Exemple2 :
Un sondage a été effectué auprès des jeunes pour déterminer le temps passé quotidiennement
sur leur téléphone portable. Les résultats sont consignés dans le tableau suivant :
Temps en minutes [0 ; 20[ [20 ; 40[ [40 ; 60[ [60 ; 120[

effectifs 15 55 37 9

Au regard des données du tableau précédent, peut-on considérer au seuil de risque


de 5%, que le temps passé par les 18-22 ans suit une loi normale ?

Vous aimerez peut-être aussi