Vous êtes sur la page 1sur 11

Analyse des données Mme.

Dumoulin

Chapitre 2 : Statistique inférentielle

Il s’agit de l’utilisation des données d’échantillons pour faire des inférences sur les
paramètres de la population.

Partie A : Estimer la valeur d’un paramètre d’une population à partir


d’un échantillon
I. Estimer la proportion d’une population
P= proportion de succès dans la population
q = 1-p proportion d’échec
^p = x/n = proportion de x succès dans un échantillon de taille n
p = proportion ou probabilité ou pourcentage

L’estimation d’une proportion s’écrit ^p pour un échantillon et p pour la population.

Un échantillon représentative d’une population est :


- Un échantillon aléatoire
- Un nombre fixe de répétition
- Des essais indépendants l’un de l’autre
- Une probabilité constante donc respecte la loi normale

1. Notion d’intervalles de confiance


Le paramètre de la population sera toujours le paramètre de l’échantillon +/- une marge
d’erreur. Donc p= ^p +/- E.

Ainsi, la moyenne de la population = la moyenne de l’échantillon +/- une marge d’erreur.


μ= x́+ E
La marge d’erreur est liée au risque. Donc la valeur de marge erreur dépend si le risque est
fort ou faible.

IC= intervalle de confiance Pour estimer la vraie valeur d’un paramètre d’une population

La valeur limite z = limite du risque donc juste après ou juste avant cette limite de risque on
est à 2,5% car loi symétrique.

Donc l’IC est un intervalle de valeur


situé entre nos limites. Ainsi le
niveau de confiance dépend du
niveau de risque donc NC = 1 – α
En général, α = 5% donc NC= 1-5%=
95%.
Analyse des données Mme. Dumoulin

Si on a un risque alpha de 5% on aura comme limite du risque z=1,96 et z=-1,96

On utilise des paramètres qui nous permettront à partir d’un échantillon on puisse calculer
proportion, moyenne écart type variance et faire une inférence vers la population.

Echantillon : ^p q^
Population : p q

P = ^p +/- E ESTIMATION
E : marge d’erreur = différence maximale probable entre ^p et la vraie valeur p de la
population.

La marge d’erreur sera utilisée pour soit décrire une estimation, soit pour définir un
intervalle de confiance de p : avec ^p - E < p < ^p + E donc [ ^p - E ; ^p + E]

Pour résumer un échantillon : N( x́ ;s)

Si on veut faire une estimation, il faut que :


- La loi soit normale
- np >= 5
- nq =< 5

Pour calculer la marge d’erreur E :


E = zα
√ ^ q^
p
n

Score z pour le risque associé


Lu dans la table de score z pour

^p : proportion de succès pour l’échantillon étudié


q^ =1− ^p =¿ Proportion d’échecs
n=¿ Effectif de l’échantillon
Z=1,96
α = 5% marge d’erreur

2
z α p^ q^
Soit on aura ^p connu donc bases biblio : n = 2
E
z α2 0,25
Soit on aura : ^p inconnu donc : n =
E2

Exercice 1 :
Analyse des données Mme. Dumoulin

Lignée de pois étudiés N = 580 pois


o 428 gousses vertes
o 152 gousses jaunes
1) Quel est le pourcentage et la proportion ^p de gousses jaunes obtenues ?
Le pourcentage = 26,21%
152
^p= =0,262
580

2) Trouvez la marge d’erreur qui correspond à un intervalle de confiance de 95%

E=z α
n√
^p q^
=1,96

0,262× 0,738
152
=0,069

3) Quel est l’IC à 95% de p


IC=[ ^p−E ; ^p + E ]
IC=[ 0,193 ; 0,331 ]
0,2621 – 0,069 <= p <= 0,2621 + 0,069
0,193 =< p =< 0,331

Si on veut estimer p :
P = ^p +/- E
P = 0,26 +/- 0,069

Exercice 2 :
On s’intéresse au pourcentage de foyer avec système de purification d’eau.
*Combien de foyer faut-il enquêter de façon à être certain à 95% que le pourcentage
d’échantillon aura une erreur de moins de 4 points ?
Sachant que :
En 1997, on avait 16,9% qui utilise un système de purification.

On cherche donc n avec une base biblio :


z α2 ^p q^
n=
E2

2
1,96 × 0,169× 0,831
n=¿ 2
=337,19=338
0,04

Il faut donc enquêter 338 foyers.


Analyse des données Mme. Dumoulin

II. Estimation de la moyenne d’une population


On aura 2 cas de figures :
- Soit σ est connu
- Soit σ est inconnu
Dans les deux cas, on a une population qui est normalisé donc N ( x ;s) et n>30

La moyenne de l’échantillon est la meilleure estimation de la moyenne d’une population.


- Si σ est connu
On aura
x−E< µ< x + E
µ = x± E

σ
E=z α
√n
Pour déterminer n on aura :
zασ 2
N= 2
E

- Si σ est inconnu
S
E=t α
√n
Avec t α dans la table de student : estimation de z
S écart type de l’échantillon
N effectif de l’échantillon

Exercice 1 :
N= 106 températures relevées
N (36,75°C ; 0,34°C)

1) Quelle est la meilleure estimation ponctuelle de la moyenne µ ?


µ = x± E
On cherche E :
σ
E=z α
√n
0,34
E= 1,96 =0,065
√ 106
Donc µ=¿ 36,78 ± 0,065 °C

2) Quel est l’IC à 95% ?


36,78 – 0,065 ≤ µ ≤ 36,845 + 0,065
36,715 °C ≤ µ≤ 36,845 °C
Analyse des données Mme. Dumoulin

Exercice 2 :
Un staff médical fait des statistiques sur le taux de cholestérol des employer.
On a 100 employer donc n = 100

Taux de cholestérol en cg Effectif


120 9
160 22
200 25
240 21
280 16
320 7

1) Quelle est la moyenne et l’écart-type de l’échantillon ?


x=213,6
s=56,057

2) Quelle est la moyenne de l’entreprise ?

Estimation de la moyenne de la population :


µ = x± E
S
L’écart type de la population est inconnu donc E = t α
√n
D’après la table student on a t= 1,984 avec α = 5% et ddl = 100 (99)
S= 56,058
N = 100

56,058
Donc E = 1,984 x =11, 225 cg
√ 100
Donc µ = 213,6 ± 11,225

3) Quel est l’IC pour cette moyenne ?

IC µ= [ x−E
;
x+E
202,375 224,825 ]
4) Déterminer la taille minimum d’échantillon pour que l’amplitude de l’intervalle de
confiance soit inférieure à 10.
S
E=t α
√n
Si on a amplitude < 10 donc la marge d’erreur < 5
n> (
Zα × t 2
E )
( )
2
T ×S
n>
E
Analyse des données Mme. Dumoulin

avec E = 5

(1,984 x 56,058)2
n > (1,984 x 56,058)2 / 25
25
n > 494,78

III. Estimation de la variance d’une population


Il faut s’assurer que la population est normale : N( x́ ;s)
L’échantillon utilisé est un échantillon aléatoire.

On va travailler à partir de la loi de χ 2

La loi de χ 2 n’est pas symétrique donc impossible de définir +/- à partir d’une valeur.
Analyse des données Mme. Dumoulin

On ne peut pas faire d’estimation ponctuelle donc on va travailler uniquement avec


l’intervalle de confiance.
( n−1 ) s 2 2 ( n−1 ) s 2
<σ <
χ 2D χ 2G
2
σ appartient à
χ 2D[
( n−1 ) s 2 ( n−1 ) s 2
;
χ 2G ]
Si on fait l’estimation de l’écart type on rajoute la racine. (voir exo rythme cardiaque).

Partie B : Tests statistiques


Identifier les hypothèses et les exprimer
Calculer la valeur du test
Donner un niveau de significativité
Identifier la P-Value
Conclure le test d’hypothèse

I. Définition des hypothèses


H0 = hypothèse nulle
Valeur d’un paramètre d’une population = à une valeur supposée
Hypothèse acceptée ou rejetée

H1 = hypothèse alternative
La valeur est différente de H0
Valeur < ou > ou ≠

II. Inférence sur un échantillon


Démarche générale
Test d’hypothèse pour une proportion
Test d’hypothèse pour une moyenne : écart-type connu
Test d’hypothèse pour une moyenne : écart-type inconnu
Test d’hypothèse pour une variance ou un écart-type

1. Calcul de la statistique de test


Statistique de test : valeur calculée qu’on va comparer à la statistique théorique
= conversion de la statistique en score
= rejet ou acceptation de l’hypothèse nulle

 Statistique de test pour une proportion : z


 Statistique de test pour une moyenne : z ou t
 Statistique de test pour un écart type : χ2

2. Notion de valeur critique


- Notion de région critique ou zone de rejet
- Notion de niveau de significativité (noté α) : probabilité que la statistique du test tombe
dans la région critique quand l’hypothèse H0 est vraie
Analyse des données Mme. Dumoulin

- Notion de valeur critique : valeur qui sépare la région critique des autres, valeurs de la
statistique de test

Zone d’acceptation : intervalle de confiance


Zone de rejet : correspond au risque

Si la l statistique de test l < l valeur critique l alors H0 acceptée


Si la l statistique de test l > l valeur critique l alors on est dans la zone de rejet ou zone de
risque donc H0 rejeté

On va travailler en valeur absolue, car on travaille sur une loi normale centrée réduite donc
ce qui est bon pour VC est bon pour –VC

Pour un test d’hypothèse alternative donc test bilatérale :

3. Test bilatéral et unilatéral


Test bilatéral :
La région critique est dans les 2 régions extrêmes

Test unilatéral à gauche :


La région critique est dans la région extrême gauche

Test unilatéral à droite :


La région critique est dans la région extrême droite

4. Décisions et conclusions
Dans les tests statistiques on utilise différentes méthodes :
- Méthode traditionnelle
Rejet de H0 = statistique de test dans région critique

- Méthode de la p-value : risque calculé par rapport au risque


que l’on s’impose
Rejet de H0 = p-value value ≤ α
Acceptation de H0 = p-value value > α
Analyse des données Mme. Dumoulin

- Méthode de l’intervalle de confiance


Paramètre de la population compris ou non dans l’IC
Si le paramètre appartient à l’IC, on est dans la zone d’acceptation, sinon on est dans la zone
de rejet.

5. Test d’hypothèse pour une proportion


(Exo Mendel)
Dans sa fameuse expérience sur les pois, Mendel aboutissaient à 580 nouveaux pois, dont
26,2% à gousse jaune.
Avait-il le droit d’affirmer que la proportion de pois à gousse jaune devait être égal à 25%?

Tester l’hypothèse
a.À l’aide de la méthode traditionnelle
b.À l’aide de la méthode de la p-value
c.À l’aide de l’intervalle de confiance

6. Test d’hypothèse pour une moyenne : sigma connu


Tester l’hypothèse
a.À l’aide de la méthode traditionnelle
b.À l’aide de la méthode de la p-value
c.À l’aide de l’intervalle de confiance

7. Test d’hypothèse pour une moyenne : sigma inconnu


Tester l’hypothèse
a.À l’aide de la méthode traditionnelle
b.À l’aide de la méthode de la p-value
c.À l’aide de l’intervalle de confiance

8. Test d’hypothèse pour une variance ou un écart-type


Tester l’hypothèse
a.À l’aide de la méthode traditionnelle
b.À l’aide de la méthode de la p-value
c.À l’aide de l’intervalle de confiance

III. Comparaison de 2 échantillons


2 proportions
2 moyennes : échantillons indépendants
2 moyennes : données appariées
Dispersion de 2 échantillons

^p1= p1 x 1=µ1 s21=σ 21


^p2= p2 x 2=µ2 s22=σ 22
^p1= ^p2 x 1=x 2 s21=s 22
Donc Donc
Analyse des données Mme. Dumoulin

p1= p2 µ1=µ2
1 seul p 1 seule population
Tester avec notre hypothèse H 0 ici
H 0 : p 1= p2
Comparaison de 2 proportions :
Echantillonage aléatoire

Comapraison de 2 moyennes :
Test t de student

Comparaison de 2 variance :
Test de Fisher-Scedecor

Partie C : Calcul de l’ANOVA (analyze of variance)

Définition : Méthode pour tester l’égalité des moyennes de 3 populations ou plus en


analysant leur variance.
Basée sur loi F

On va donc comparer la variance des moyennes.

Dans une ANOVA a un facteur, on a des données séparées en groupe selon une seule
caractéristique.
On va travailler avec la variance intra-groupe (VA), la variante inter-groupe (VE).
On va donc appliquer le test F à VA et VE.

Facteur différenciant : apport ou traitement


Analyse des données Mme. Dumoulin

Les hypothèses :
H0 : µ1 = µ2 = µ3 = µ4

VA = Sp2 : moyenne des variances des échantillons ou variance combinée


VE = ns 2x : la variance des moyennes

Pour calculer VE :
N=5
S on l’obtient en rentrant les valeurs des moyennes sur la calculatrice pour obtenir l’écart
type des moyennes.
= 1,56

Pour calculer VA :
On calcule la moyenne des variances
= 0,27

F= VE / VA = 5,78

On va donc comparer cette valeur à la valeur critique selon le tableau de Fisher.


Mais on a plusieurs échantillons donc pour les ANOVA :
- le ddl du numérateur = K -1 avec K le nb échantillons = 4-1 = 3
- le ddl du dénominateur = K * (n-1) = 4 * (5-1) = 16
On lit donc sur la table de Fisher la colonne 3 et la ligne 16, la valeur critique à 3,2389.
F= 5,78
VC= 3,2389
F > VC donc hypothèse H0 rejetée
Donc il y a des différences significatives marquées entre les différents échantillons car les
moyennes sont différentes.

Probabilité = p-value < 5% donc zone de rejet

Vous aimerez peut-être aussi