Chapitre 2 3

Analyse des données Mme.
Dumoulin
Chapitre 2 : Statistique inférentielle
Il s’agit de l’utilisation des données d’échantillons pour faire des inférences sur les
paramètres de la population.
Partie A : Estimer la valeur d’un paramètre d’une population à partir

d’un échantillon
I. Estimer la proportion d’une population
P= proportion de succès dans la population
q = 1-p proportion d’échec
^p = x/n = proportion de x succès dans un échantillon de taille n
p = proportion ou probabilité ou pourcentage
L’estimation d’une proportion s’écrit ^p pour un échantillon et p pour la population.
Un échantillon représentative d’une population est :

- Un échantillon aléatoire
- Un nombre fixe de répétition
- Des essais indépendants l’un de l’autre
- Une probabilité constante donc respecte la loi normale
1. Notion d’intervalles de confiance

Le paramètre de la population sera toujours le paramètre de l’échantillon +/- une marge
d’erreur. Donc p= ^p +/- E.
Ainsi, la moyenne de la population = la moyenne de l’échantillon +/- une marge d’erreur.

μ= x́+ E
La marge d’erreur est liée au risque. Donc la valeur de marge erreur dépend si le risque est
fort ou faible.
IC= intervalle de confiance Pour estimer la vraie valeur d’un paramètre d’une population
La valeur limite z = limite du risque donc juste après ou juste avant cette limite de risque on
est à 2,5% car loi symétrique.
Donc l’IC est un intervalle de valeur

situé entre nos limites. Ainsi le
niveau de confiance dépend du
niveau de risque donc NC = 1 – α
En général, α = 5% donc NC= 1-5%=
95%.
Analyse des données Mme. Dumoulin
Si on a un risque alpha de 5% on aura comme limite du risque z=1,96 et z=-1,96
On utilise des paramètres qui nous permettront à partir d’un échantillon on puisse calculer
proportion, moyenne écart type variance et faire une inférence vers la population.
Echantillon : ^p q^
Population : p q
P = ^p +/- E ESTIMATION
E : marge d’erreur = différence maximale probable entre ^p et la vraie valeur p de la
population.
La marge d’erreur sera utilisée pour soit décrire une estimation, soit pour définir un
intervalle de confiance de p : avec ^p - E < p < ^p + E donc [ ^p - E ; ^p + E]
Pour résumer un échantillon : N( x́ ;s)
Si on veut faire une estimation, il faut que :

- La loi soit normale
- np >= 5
- nq =< 5
Pour calculer la marge d’erreur E :

E = zα
√ ^ q^
p
n
Score z pour le risque associé

Lu dans la table de score z pour
^p : proportion de succès pour l’échantillon étudié

q^ =1− ^p =¿ Proportion d’échecs
n=¿ Effectif de l’échantillon
Z=1,96
α = 5% marge d’erreur
2
z α p^ q^
Soit on aura ^p connu donc bases biblio : n = 2
E
z α2 0,25
Soit on aura : ^p inconnu donc : n =
E2
Exercice 1 :
Lignée de pois étudiés N = 580 pois

o 428 gousses vertes
o 152 gousses jaunes
1) Quel est le pourcentage et la proportion ^p de gousses jaunes obtenues ?
Le pourcentage = 26,21%
152
^p= =0,262
580
2) Trouvez la marge d’erreur qui correspond à un intervalle de confiance de 95%
E=z α
n√
^p q^
=1,96
√
0,262× 0,738
152
=0,069
3) Quel est l’IC à 95% de p

IC=[ ^p−E ; ^p + E ]
IC=[ 0,193 ; 0,331 ]
0,2621 – 0,069 <= p <= 0,2621 + 0,069
0,193 =< p =< 0,331
Si on veut estimer p :
P = ^p +/- E
P = 0,26 +/- 0,069
Exercice 2 :
On s’intéresse au pourcentage de foyer avec système de purification d’eau.
*Combien de foyer faut-il enquêter de façon à être certain à 95% que le pourcentage
d’échantillon aura une erreur de moins de 4 points ?
Sachant que :
En 1997, on avait 16,9% qui utilise un système de purification.
On cherche donc n avec une base biblio :

z α2 ^p q^
n=
E2
2
1,96 × 0,169× 0,831
n=¿ 2
=337,19=338
0,04
Il faut donc enquêter 338 foyers.

II. Estimation de la moyenne d’une population

On aura 2 cas de figures :
- Soit σ est connu
- Soit σ est inconnu
Dans les deux cas, on a une population qui est normalisé donc N ( x ;s) et n>30
La moyenne de l’échantillon est la meilleure estimation de la moyenne d’une population.

- Si σ est connu
On aura
x−E< µ< x + E
µ = x± E
σ
E=z α
√n
Pour déterminer n on aura :
zασ 2
N= 2
E
- Si σ est inconnu
S
E=t α
√n
Avec t α dans la table de student : estimation de z
S écart type de l’échantillon
N effectif de l’échantillon
Exercice 1 :
N= 106 températures relevées
N (36,75°C ; 0,34°C)
1) Quelle est la meilleure estimation ponctuelle de la moyenne µ ?

µ = x± E
On cherche E :
σ
E=z α
√n
0,34
E= 1,96 =0,065
√ 106
Donc µ=¿ 36,78 ± 0,065 °C
2) Quel est l’IC à 95% ?

36,78 – 0,065 ≤ µ ≤ 36,845 + 0,065
36,715 °C ≤ µ≤ 36,845 °C
Exercice 2 :
Un staff médical fait des statistiques sur le taux de cholestérol des employer.
On a 100 employer donc n = 100
Taux de cholestérol en cg Effectif

120 9
160 22
200 25
240 21
280 16
320 7
1) Quelle est la moyenne et l’écart-type de l’échantillon ?

x=213,6
s=56,057
2) Quelle est la moyenne de l’entreprise ?
Estimation de la moyenne de la population :

µ = x± E
S
L’écart type de la population est inconnu donc E = t α
√n
D’après la table student on a t= 1,984 avec α = 5% et ddl = 100 (99)
S= 56,058
N = 100
56,058
Donc E = 1,984 x =11, 225 cg
√ 100
Donc µ = 213,6 ± 11,225
3) Quel est l’IC pour cette moyenne ?
IC µ= [ x−E
;
x+E
202,375 224,825 ]
4) Déterminer la taille minimum d’échantillon pour que l’amplitude de l’intervalle de
confiance soit inférieure à 10.
S
E=t α
√n
Si on a amplitude < 10 donc la marge d’erreur < 5
n> (
Zα × t 2
E )
( )
2
T ×S
n>
E
avec E = 5
(1,984 x 56,058)2
n > (1,984 x 56,058)2 / 25
25
n > 494,78
III. Estimation de la variance d’une population

Il faut s’assurer que la population est normale : N( x́ ;s)
L’échantillon utilisé est un échantillon aléatoire.
On va travailler à partir de la loi de χ 2
La loi de χ 2 n’est pas symétrique donc impossible de définir +/- à partir d’une valeur.
On ne peut pas faire d’estimation ponctuelle donc on va travailler uniquement avec

l’intervalle de confiance.
( n−1 ) s 2 2 ( n−1 ) s 2
<σ <
χ 2D χ 2G
2
σ appartient à
χ 2D[
( n−1 ) s 2 ( n−1 ) s 2
;
χ 2G ]
Si on fait l’estimation de l’écart type on rajoute la racine. (voir exo rythme cardiaque).
Partie B : Tests statistiques

Identifier les hypothèses et les exprimer
Calculer la valeur du test
Donner un niveau de significativité
Identifier la P-Value
Conclure le test d’hypothèse
I. Définition des hypothèses

H0 = hypothèse nulle
Valeur d’un paramètre d’une population = à une valeur supposée
Hypothèse acceptée ou rejetée
H1 = hypothèse alternative
La valeur est différente de H0
Valeur < ou > ou ≠
II. Inférence sur un échantillon

Démarche générale
Test d’hypothèse pour une proportion
Test d’hypothèse pour une moyenne : écart-type connu
Test d’hypothèse pour une moyenne : écart-type inconnu
Test d’hypothèse pour une variance ou un écart-type
1. Calcul de la statistique de test

Statistique de test : valeur calculée qu’on va comparer à la statistique théorique
= conversion de la statistique en score
= rejet ou acceptation de l’hypothèse nulle
 Statistique de test pour une proportion : z

 Statistique de test pour une moyenne : z ou t
 Statistique de test pour un écart type : χ2
2. Notion de valeur critique

- Notion de région critique ou zone de rejet
- Notion de niveau de significativité (noté α) : probabilité que la statistique du test tombe
dans la région critique quand l’hypothèse H0 est vraie
- Notion de valeur critique : valeur qui sépare la région critique des autres, valeurs de la
statistique de test
Zone d’acceptation : intervalle de confiance

Zone de rejet : correspond au risque
Si la l statistique de test l < l valeur critique l alors H0 acceptée

Si la l statistique de test l > l valeur critique l alors on est dans la zone de rejet ou zone de
risque donc H0 rejeté
On va travailler en valeur absolue, car on travaille sur une loi normale centrée réduite donc
ce qui est bon pour VC est bon pour –VC
Pour un test d’hypothèse alternative donc test bilatérale :
3. Test bilatéral et unilatéral

Test bilatéral :
La région critique est dans les 2 régions extrêmes
Test unilatéral à gauche :

La région critique est dans la région extrême gauche
Test unilatéral à droite :

La région critique est dans la région extrême droite
4. Décisions et conclusions
Dans les tests statistiques on utilise différentes méthodes :
- Méthode traditionnelle
Rejet de H0 = statistique de test dans région critique
- Méthode de la p-value : risque calculé par rapport au risque

que l’on s’impose
Rejet de H0 = p-value value ≤ α
Acceptation de H0 = p-value value > α
- Méthode de l’intervalle de confiance

Paramètre de la population compris ou non dans l’IC
Si le paramètre appartient à l’IC, on est dans la zone d’acceptation, sinon on est dans la zone
de rejet.
5. Test d’hypothèse pour une proportion

(Exo Mendel)
Dans sa fameuse expérience sur les pois, Mendel aboutissaient à 580 nouveaux pois, dont
26,2% à gousse jaune.
Avait-il le droit d’affirmer que la proportion de pois à gousse jaune devait être égal à 25%?
Tester l’hypothèse
a.À l’aide de la méthode traditionnelle
b.À l’aide de la méthode de la p-value
c.À l’aide de l’intervalle de confiance
6. Test d’hypothèse pour une moyenne : sigma connu

7. Test d’hypothèse pour une moyenne : sigma inconnu

8. Test d’hypothèse pour une variance ou un écart-type

III. Comparaison de 2 échantillons

2 proportions
2 moyennes : échantillons indépendants
2 moyennes : données appariées
Dispersion de 2 échantillons
^p1= p1 x 1=µ1 s21=σ 21

^p2= p2 x 2=µ2 s22=σ 22
^p1= ^p2 x 1=x 2 s21=s 22
Donc Donc
p1= p2 µ1=µ2
1 seul p 1 seule population
Tester avec notre hypothèse H 0 ici
H 0 : p 1= p2
Comparaison de 2 proportions :
Echantillonage aléatoire
Comapraison de 2 moyennes :
Test t de student
Comparaison de 2 variance :
Test de Fisher-Scedecor
Partie C : Calcul de l’ANOVA (analyze of variance)
Définition : Méthode pour tester l’égalité des moyennes de 3 populations ou plus en

analysant leur variance.
Basée sur loi F
On va donc comparer la variance des moyennes.
Dans une ANOVA a un facteur, on a des données séparées en groupe selon une seule
caractéristique.
On va travailler avec la variance intra-groupe (VA), la variante inter-groupe (VE).
On va donc appliquer le test F à VA et VE.
Facteur différenciant : apport ou traitement

Les hypothèses :
H0 : µ1 = µ2 = µ3 = µ4
VA = Sp2 : moyenne des variances des échantillons ou variance combinée

VE = ns 2x : la variance des moyennes
Pour calculer VE :
N=5
S on l’obtient en rentrant les valeurs des moyennes sur la calculatrice pour obtenir l’écart
type des moyennes.
= 1,56
Pour calculer VA :
On calcule la moyenne des variances
= 0,27
F= VE / VA = 5,78
On va donc comparer cette valeur à la valeur critique selon le tableau de Fisher.

Mais on a plusieurs échantillons donc pour les ANOVA :
- le ddl du numérateur = K -1 avec K le nb échantillons = 4-1 = 3
- le ddl du dénominateur = K * (n-1) = 4 * (5-1) = 16
On lit donc sur la table de Fisher la colonne 3 et la ligne 16, la valeur critique à 3,2389.
F= 5,78
VC= 3,2389
F > VC donc hypothèse H0 rejetée
Donc il y a des différences significatives marquées entre les différents échantillons car les
moyennes sont différentes.
Probabilité = p-value < 5% donc zone de rejet

Chapitre 2 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 2 3

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données Mme.

Chapitre 2 : Statistique inférentielle

Partie A : Estimer la valeur d’un paramètre d’une population à partir

L’estimation d’une proportion s’écrit ^p pour un échantillon et p pour la population.

Un échantillon représentative d’une population est :

1. Notion d’intervalles de confiance

Ainsi, la moyenne de la population = la moyenne de l’échantillon +/- une marge d’erreur.

Donc l’IC est un intervalle de valeur

Si on a un risque alpha de 5% on aura comme limite du risque z=1,96 et z=-1,96

Pour résumer un échantillon : N( x́ ;s)

Si on veut faire une estimation, il faut que :

Pour calculer la marge d’erreur E :

Score z pour le risque associé

^p : proportion de succès pour l’échantillon étudié

Lignée de pois étudiés N = 580 pois

2) Trouvez la marge d’erreur qui correspond à un intervalle de confiance de 95%

3) Quel est l’IC à 95% de p

On cherche donc n avec une base biblio :

Il faut donc enquêter 338 foyers.

II. Estimation de la moyenne d’une population

La moyenne de l’échantillon est la meilleure estimation de la moyenne d’une population.

1) Quelle est la meilleure estimation ponctuelle de la moyenne µ ?

2) Quel est l’IC à 95% ?

Taux de cholestérol en cg Effectif

1) Quelle est la moyenne et l’écart-type de l’échantillon ?

2) Quelle est la moyenne de l’entreprise ?

Estimation de la moyenne de la population :

3) Quel est l’IC pour cette moyenne ?

III. Estimation de la variance d’une population

On va travailler à partir de la loi de χ 2

On ne peut pas faire d’estimation ponctuelle donc on va travailler uniquement avec

Partie B : Tests statistiques

I. Définition des hypothèses

II. Inférence sur un échantillon

1. Calcul de la statistique de test

 Statistique de test pour une proportion : z

2. Notion de valeur critique

Zone d’acceptation : intervalle de confiance

Si la l statistique de test l < l valeur critique l alors H0 acceptée

Pour un test d’hypothèse alternative donc test bilatérale :

3. Test bilatéral et unilatéral

Test unilatéral à gauche :

Test unilatéral à droite :

- Méthode de la p-value : risque calculé par rapport au risque

- Méthode de l’intervalle de confiance

5. Test d’hypothèse pour une proportion

6. Test d’hypothèse pour une moyenne : sigma connu

7. Test d’hypothèse pour une moyenne : sigma inconnu

8. Test d’hypothèse pour une variance ou un écart-type

III. Comparaison de 2 échantillons

^p1= p1 x 1=µ1 s21=σ 21

Partie C : Calcul de l’ANOVA (analyze of variance)

Définition : Méthode pour tester l’égalité des moyennes de 3 populations ou plus en

On va donc comparer la variance des moyennes.

Facteur différenciant : apport ou traitement

VA = Sp2 : moyenne des variances des échantillons ou variance combinée

On va donc comparer cette valeur à la valeur critique selon le tableau de Fisher.

Probabilité = p-value < 5% donc zone de rejet

Vous aimerez peut-être aussi