Vous êtes sur la page 1sur 36

Partie 3

Statistiques Inférentielles
Echantillonnage et estimation

Echantillonnage
A- Distribution d’échantillonnage de la moyenne

Ech 1 Ech 2 ……………………… Ech p


X1 X1 ……… X1
X2 X2 ……… X2
…… …… ……… ……
xn xn ……… xn
………
Exemple 1:
N°ech. p1 p2 Moy.
1 1 1 1
2 1 2 1,5
3 1 3 2
4 2 1 1,5
5 2 2 2
6 2 3 2,5
7 3 1 2
8 3 2 2,5
9 3 3 3
B- Distribution d’échantillonnage d’une proportion

Ech 1 Ech 2 ……………………… Ech p


X1 X1 ……… X1
X2 X2 ……… X2
…… …… ……… ……
xn xn ……… xn
………

On obtient ainsi une distribution d’échantillonnage des proportions (f1; f2;…….fp)


N°ech. p1 p2 fi
1 1 1 0
2 1 2 0,5
3 1 3 0
4 2 1 0,5
5 2 2 1
6 2 3 0,5
7 3 1 0
8 3 2 0,5
9 3 3 0
De même; si on appelle F la variable aléatoire qui associe la proportion d’individus
présentant le caractère étudié dans l’échantillon; on peut écrire:
Estimation:
Remarque : La valeur de Zα/2 est donnée par la table : Loi Normale Centrée réduite pour une valeur α donnée.

Ex 1. On a mesuré le poids de raisin produit par pied sur 10 pieds pris


au hasard dans une vigne. On a obtenu les résultats suivants exprimés
en kilogrammes:
2.4 3.4 3.6 4.1 4.3 4.7 5.4 5.9 6.5 6.9

On modélise le poids de raisin produit par une souche de cette vigne


par une variable aléatoire de loi N (μ, σ).
1. Calculer la moyenne et la variance empiriques de l’échantillon.
2. Donner un intervalle de confiance de niveau 0.95 pour μ.

Intervalle de confiance
• Quelque soit la valeur de n, si X → N (µ, σ) et σ est inconnue,
L’intervalle de confiance de l’espérance µ pour un coefficient de risque α est donc

(
𝑃 𝑥 − 𝑡𝛼
𝜎^
√𝑛
≤ 𝜇 ≤ 𝑥 +𝑡 𝛼
𝜎^
√𝑛
=1 − 𝛼
)
quelque soit la valeur de n si X → N (µ, σ) et σ est inconnue.
Remarque : La valeur est donnée par la Table de Student pour un seuil de risque α et
n-1 degré de liberté.
Exemple : Dans un échantillon de 20 étudiants de
même classe d’âge et de même sexe, la taille
moyenne observée est de 1,73m et l’écart-type de
l’échantillon est de 10 cm.
Donner l’intervalle de la taille moyenne des
étudiants dans la population avec un coefficient de
confiance de 95%.
Table de Student
Exemple :
Un laboratoire d’agronomie a effectué une étude sur le maintien du pouvoir germinatif des graines
d’une plante donnée après une conservation de 3 ans.
Sur un lot de 80 graines, 47 ont germé.
Déterminer l’intervalle de confiance germination des graines de la plante après trois ans de
conservation avec un coefficient de risque de 5% :

𝑃 (
47
80
− 1, 96
√ 𝑓 ( 1− 𝑓 )
79
≤𝜋≤
47
80
+1 , 96
√ 𝑓 (1 − 𝑓 )
79 )
= 0 , 95

𝑃 ( 0,446 ≤ 𝜋 ≤ 0,729 ) =0 , 95
Tests statistiques
Permettent d’accepter / rejeter une hypothèse
bien précise (en assumant des risques d’erreur)
Test Statistique : Démarche
Formulation de la Question (réponse oui / non) ou la problématique

Formulation hypothèse nulle et hypothèse alternative

Choix du test statistique approprié et du seuil de risque α

Récolte des données

Exécution du test

Réponse à la question : si p-value < seuil α, alors on rejette H0 avec un risque proportionnel à p-value de se tromper
Etape 1 : Formulation de la question
A: Comparaison de 2 moyennes appartenant à 2 échantillons indépendants

Question : Les engrais A & B induisent-ils


une différence du taux moyen de sucre
chez la banane ?
Etape 2 : Formulation des hypothèses
Ho Hypothèse principale
En générale absence de différence ou de relation.
H0 : moyenne de sucre bananes A = moyenne de sucre bananes B

Hypothèse alternative
H1 En générale existence de différence ou de relation.
H1 : moyenne de sucre bananes A ≠ moyenne de sucre bananes B
Etape 3 a : Choix du test statistique approprié
Que cherche-t-on ?
Es qu’on cherche à faire :
Comparaison des moyennes ?
Si oui, Combien ?

Comparaison des Variances ?


Si oui, Combien ?
Dans notre cas on, on cherche à comparer 2 moyennes

Comparaison des Proportions ? Test t de Student pour deux échantillons indépendants


Si oui, Combien ?

Testons-nous une association ?


Etape 3 b : Choix du seuil de risque alpha

 Le seuil de risque α (compris entre 0 et 1) sera un seuil de décision de rejeter H0.

 Plus on veut limiter les risques de prendre une mauvaise décision, plus on doit diminuer α.

 Souvent, on prend α = 0,05.

Mais ce n’est pas une raison pour faire une règle systématique

Pour notre exemple, on prend α = 0,05


Etape 4: Récolte des données
Expérience : plantation de 27 bananiers soumis à l’engrais A et de 29 autres bananiers soumis à l’engrais B.
Mesure du taux de sucre en fin d’expériences
Engrais A A A A A A A A A A A A A A A A A A A A A A A A A A A
%Sucre 4,47 3,19 1,17 3,43 3,47 2,11 2,84 1,95 2,96 3,94 1,63 4,67 3,85 3,08 3,32 2,25 2,98 3,64 1,77 3,83 3,22 2,61 2,71 1,96 2,23 2,85 3,53
Engrais B B B B B B B B B B B B B B B B B B B B B B B B B B B B B
%Sucre 4,53 4,72 4,65 4,94 5,02 3,15 4,86 6,73 6,29 4,72 5,00 3,97 4,61 5,77 4,39 4,25 5,02 6,36 4,33 3,88 4,94 5,02 3,15 4,86 3,48 6,63 4,91 6,73 5,28
Etape 5: Exécution du test
A- Conditions d’ application du Test t de Student pour deux échantillons indépendants

A-1 Normalité de la variable % sucre aussi bien pour l’engrais A et l’engrais B.

Test de normalité de Shapiro et Wilk

1: Classer les différentes valeurs de la série A par ordre croissant


Engrais A

%Sucre 1,17 1,63 1,77 1,95 1,96 1,99 2,11 2,23 2,25 2,61 2,71 2,84 2,85 2,96 2,98 3,08 3,19 3,22 3,32 3,43 3,47 3,53 3,64 3,83 3,85 3,94 4,09

2: Calculer la moyenne

3: Calculer les différences respectives :

4: A chacune de ces différences, on affecte les coefficients a, donnés par la table, avec n nombre de différences
1- Table de Shapiro des
coefficients « a »
2- Table de Shapiro des
valeurs
Limites de W (W critique)
5: Calculer la valeur:

6: Calculer le rapport:

7: Comparer calculé au de la table, avec n données.

Si est supérieur au de la table, la normalité est acceptée.

Si est inférieur au de la table, la normalité est rejetée.

Test de Shapiro
A-2 Equivariance (ou homoscédasticité) des échantillons

Pour vérifier l’égalité des variances (l’homoscédasticité) on utilise

le test de Fisher (test F)

H0 : Les variances des 2 échantillons sont égales :

H1 : Les variances des 2 échantillons sont différentes :

Si les échantillons sont issus de populations normales (conditions de normalité), le rapport de leur variances

Suivra une distribution de F à .

Attention!!! Il faut toujours mettre la variance la plus grande au NUMÉRATEUR!

Test de Fischer
B: Exécution du test de Student (conditions d’application sont vérifiées)

Règle de décision :a) On rejette l’H0 si le


b) value < 0,05

C: Calcul de tc

E: Conclusion
D: Décision Statistique

Test de Student Tc = 7,93


B: Comparaison de plusieurs moyennes appartenant à p échantillons indépendants
Analyse de variance = ANOVA
Le principe de l’anova : deux étapes

Décomposition de la variance

SCE totale = SCE résiduelle + SCE factorielle


La variabilité totale se décompose en :
fluctuations individuelles : variance intra-groupe dite aussi résiduelle.
fluctuation entre les groupes : variance inter-groupe dite aussi factorielle.

Comparaison des variances inter et intra-groupes

Si la variance inter-groupe est supérieure à la variance intra-groupe alors on a au moins 2


moyennes sont différentes.
Hypothèses Statistiques

Hypothèse nulle H0 : les moyennes sont égales dans tous les groupes

Hypothèse alternative H1 : au mois un groupe possède une moyenne différente des autres

Conditions d’application du test

1) Normalité : Les échantillons sont issus de populations normalement distribuées. Test de Shapiro peut être utilisé
pour vérifier cette condition

2) Homoscédasticité : Les échantillons sont issus de populations de même variances. Le test de Bartlett peut être
utilisé pour vérifier cette seconde condition.

La statistique du test

F = Variance F/ Variance R ceci est identique (SCEF /p – 1)/ (SCER/n – p)

SCEF : Somme des carrés des écarts Factoriels p : Le nombre de groupes


SCER : Somme des carrés des écarts Résiduels n : Somme des effectifs de tous les groupes
´Décision statistique

Si Fc < Fthéorique non rejet de H0 au risque β

Si Fc ≥ Fthéorique rejet de H0 au risque α

Au risque α, il y a au moins deux groupes dont les moyennes sont différentes

Présentation classique des résultats : table d’ANOVA

Source de
Variation S.C.E d.d.l Variances Fc F th

Factoriel SCEF p-1 SCEF/p-1


Résiduel SCER n-p SCER/n-p V Fact /V Rés F(α;p-1;n-p)

Total SCET n-1

𝑃 𝑝
´
𝑆𝐶𝐸𝐹 = ∑ 𝑛𝑖 ( 𝑥 𝑖 − 𝑋 )
2
𝑆𝐶𝐸𝑅= ∑ ( 𝑛𝑖 − 1 ) 𝑆2𝑥 𝑖
𝑖=1 𝑖 =1
Comparaison de plusieurs moyennes : Analyse de variance = ANOVA
Exemple : Comparaison de l’effet de 4 traitements contre l’hypertension
Mesure de la pression artérielle systolique (en mm Hg) sur 4 échantillons de 8 patients chacun
hypertendus, un mois après le début du traitement.

Traitement1 123 120 122 127 112 121 124 115

Traitement2 127 129 118 121 134 123 127 120

Traitement3 119 123 113 128 125 121 117 123

Traitement4 137 128 140 131 125 128 132 131

Ces 4 traitements ont-ils le même effet sur la pression artérielle, au seuil de risque α = 0.05 ?

1- Les hypothèses statistiques


H0 : Les traitements ont le même effets
H1: Au moins un traitement diffère des autres : au moins

2-Test statistiques
Test F: Fc = Variance Fact./Variance Rés.
Conditions d’application du test
a) Normalité
Traitement Wc Pvalue Conclusion
Tr1 0,9419 0,6302 Normale
Tr2 0,9581 0,7926 Normale
Tr3 0,9832 0,9772 Normale
Tr4 0,9373 0,5848 Normale

b) Homoscédasticité : Test de Bartlett

Principe du test

Considérons p échantillons indépendants dont le ième a une variance si2 et un effectif égal à ni. Soit S2pd la variance
pondérée des p échantillons, c'est-à-dire la valeur de la meilleure estimation de la variance σ 2sous l’hypothèse H0 d’
équivariance :
𝑝

∑ ( 𝑛𝑖 − 1 ) 𝑆2
𝑖
𝑖 =1
𝑆2
𝑝𝑑 = 𝑝

∑ ( 𝑛𝑖 − 1)
𝑖 =1
Bartlett a montré que si les populations d’origine sont normales et possèdent la même variance σ 2 et si Spd2
et Si2 sont les variables aléatoires associées de s pd2 et si2, la variable B :

[ ]
𝑝 𝑝

𝑝𝑑 ∑ (
𝐵 = 𝑙𝑛 𝑆2 ∑( 𝑖 2
𝑛𝑖 − 1 ) − 𝑛 − 1 ) 𝑙𝑛 𝑆 𝑖
𝑖= 1 𝑖 =1

Obéit approximativement à une loi du khi2 à p-1 degré de liberté.


La conformité à la loi du khi2 a pu être amélioré grâce à un facteur de correction de c.

[ ]
𝑝
1 1 1
𝑐 =1 + ∑ − 𝑝
3 ( 𝑝 −1) ( 𝑛𝑖 − 1 )
∑ ( 𝑛𝑖 − 1 )
𝑖= 1

𝑖= 1

La nouvelle statistique de test s’écrit alors :

Le test de comparaison consiste maintenant à soumettre à une épreuve de vérité l’hypothèse principale

: toutes les ne sont pas égaux.

Si les populations d’origine sont normales et si H0 est vraie, la variable Bc obéit à une loi de .
Règle de décision : On rejette H0 si

Table de Khi2 1 On conclut les variances sont égales

3- règle de décision : On rejette l’H0 (c’est-à-dire l’égalité des p moyennes) si

𝛼 : 𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑟𝑖𝑠𝑞𝑢𝑒= 0 , 05 ; 𝜈1= 𝑝 −1=3 ; 𝜈2 =𝑛− 𝑝=32 − 4=28

4- Calcul du test:
𝑝
´ )
∑ 𝑛𝑖 ( 𝑥 𝑖 − 𝑋
2
/𝑝 −1
𝑖=1
𝐹 𝑐= 𝑝
=7 , 08
∑ ( 𝑛𝑖 − 1 ) 𝑆
2
𝑥𝑖 /𝑛 − 𝑝
𝑖 =1
5- Décision statistique : On rejette l’hypothèse H0 au seuil α = 0,05

6- CONCLUSION: Au moins un des traitements est différent des autres.

Vous aimerez peut-être aussi