Statistiques inférentielles

Partie 3
Statistiques Inférentielles
Echantillonnage et estimation
Echantillonnage
A- Distribution d’échantillonnage de la moyenne
Ech 1 Ech 2 ……………………… Ech p

X1 X1 ……… X1
X2 X2 ……… X2
…… …… ……… ……
xn xn ……… xn
………
Exemple 1:
N°ech. p1 p2 Moy.
1 1 1 1
2 1 2 1,5
3 1 3 2
4 2 1 1,5
5 2 2 2
6 2 3 2,5
7 3 1 2
8 3 2 2,5
9 3 3 3
B- Distribution d’échantillonnage d’une proportion
Ech 1 Ech 2 ……………………… Ech p

X1 X1 ……… X1
X2 X2 ……… X2
…… …… ……… ……
xn xn ……… xn
………
On obtient ainsi une distribution d’échantillonnage des proportions (f1; f2;…….fp)

N°ech. p1 p2 fi
1 1 1 0
2 1 2 0,5
3 1 3 0
4 2 1 0,5
5 2 2 1
6 2 3 0,5
7 3 1 0
8 3 2 0,5
9 3 3 0
De même; si on appelle F la variable aléatoire qui associe la proportion d’individus
présentant le caractère étudié dans l’échantillon; on peut écrire:
Estimation:
Remarque : La valeur de Zα/2 est donnée par la table : Loi Normale Centrée réduite pour une valeur α donnée.
Ex 1. On a mesuré le poids de raisin produit par pied sur 10 pieds pris

au hasard dans une vigne. On a obtenu les résultats suivants exprimés
en kilogrammes:
2.4 3.4 3.6 4.1 4.3 4.7 5.4 5.9 6.5 6.9
On modélise le poids de raisin produit par une souche de cette vigne

par une variable aléatoire de loi N (μ, σ).
1. Calculer la moyenne et la variance empiriques de l’échantillon.
2. Donner un intervalle de confiance de niveau 0.95 pour μ.
Intervalle de confiance
• Quelque soit la valeur de n, si X → N (µ, σ) et σ est inconnue,
L’intervalle de confiance de l’espérance µ pour un coefficient de risque α est donc
(
𝑃 𝑥 − 𝑡𝛼
𝜎^
√𝑛
≤ 𝜇 ≤ 𝑥 +𝑡 𝛼
𝜎^
√𝑛
=1 − 𝛼
)
quelque soit la valeur de n si X → N (µ, σ) et σ est inconnue.
Remarque : La valeur est donnée par la Table de Student pour un seuil de risque α et
n-1 degré de liberté.
Exemple : Dans un échantillon de 20 étudiants de
même classe d’âge et de même sexe, la taille
moyenne observée est de 1,73m et l’écart-type de
l’échantillon est de 10 cm.
Donner l’intervalle de la taille moyenne des
étudiants dans la population avec un coefficient de
confiance de 95%.
Table de Student
Exemple :
Un laboratoire d’agronomie a effectué une étude sur le maintien du pouvoir germinatif des graines
d’une plante donnée après une conservation de 3 ans.
Sur un lot de 80 graines, 47 ont germé.
Déterminer l’intervalle de confiance germination des graines de la plante après trois ans de
conservation avec un coefficient de risque de 5% :
𝑃 (
47
80
− 1, 96
√ 𝑓 ( 1− 𝑓 )
79
≤𝜋≤
47
80
+1 , 96
√ 𝑓 (1 − 𝑓 )
79 )
= 0 , 95
𝑃 ( 0,446 ≤ 𝜋 ≤ 0,729 ) =0 , 95
Tests statistiques
Permettent d’accepter / rejeter une hypothèse
bien précise (en assumant des risques d’erreur)
Test Statistique : Démarche
Formulation de la Question (réponse oui / non) ou la problématique
Formulation hypothèse nulle et hypothèse alternative
Choix du test statistique approprié et du seuil de risque α
Récolte des données
Exécution du test
Réponse à la question : si p-value < seuil α, alors on rejette H0 avec un risque proportionnel à p-value de se tromper
Etape 1 : Formulation de la question
A: Comparaison de 2 moyennes appartenant à 2 échantillons indépendants
Question : Les engrais A & B induisent-ils

une différence du taux moyen de sucre
chez la banane ?
Etape 2 : Formulation des hypothèses
Ho Hypothèse principale
En générale absence de différence ou de relation.
H0 : moyenne de sucre bananes A = moyenne de sucre bananes B
Hypothèse alternative
H1 En générale existence de différence ou de relation.
H1 : moyenne de sucre bananes A ≠ moyenne de sucre bananes B
Etape 3 a : Choix du test statistique approprié
Que cherche-t-on ?
Es qu’on cherche à faire :
Comparaison des moyennes ?
Si oui, Combien ?
Comparaison des Variances ?

Si oui, Combien ?
Dans notre cas on, on cherche à comparer 2 moyennes
Comparaison des Proportions ? Test t de Student pour deux échantillons indépendants

Si oui, Combien ?
Testons-nous une association ?

Etape 3 b : Choix du seuil de risque alpha
 Le seuil de risque α (compris entre 0 et 1) sera un seuil de décision de rejeter H0.
 Plus on veut limiter les risques de prendre une mauvaise décision, plus on doit diminuer α.
 Souvent, on prend α = 0,05.
Mais ce n’est pas une raison pour faire une règle systématique
Pour notre exemple, on prend α = 0,05

Etape 4: Récolte des données
Expérience : plantation de 27 bananiers soumis à l’engrais A et de 29 autres bananiers soumis à l’engrais B.
Mesure du taux de sucre en fin d’expériences
Engrais A A A A A A A A A A A A A A A A A A A A A A A A A A A
%Sucre 4,47 3,19 1,17 3,43 3,47 2,11 2,84 1,95 2,96 3,94 1,63 4,67 3,85 3,08 3,32 2,25 2,98 3,64 1,77 3,83 3,22 2,61 2,71 1,96 2,23 2,85 3,53
Engrais B B B B B B B B B B B B B B B B B B B B B B B B B B B B B
%Sucre 4,53 4,72 4,65 4,94 5,02 3,15 4,86 6,73 6,29 4,72 5,00 3,97 4,61 5,77 4,39 4,25 5,02 6,36 4,33 3,88 4,94 5,02 3,15 4,86 3,48 6,63 4,91 6,73 5,28
Etape 5: Exécution du test
A- Conditions d’ application du Test t de Student pour deux échantillons indépendants
A-1 Normalité de la variable % sucre aussi bien pour l’engrais A et l’engrais B.
Test de normalité de Shapiro et Wilk
1: Classer les différentes valeurs de la série A par ordre croissant

Engrais A
%Sucre 1,17 1,63 1,77 1,95 1,96 1,99 2,11 2,23 2,25 2,61 2,71 2,84 2,85 2,96 2,98 3,08 3,19 3,22 3,32 3,43 3,47 3,53 3,64 3,83 3,85 3,94 4,09
2: Calculer la moyenne
3: Calculer les différences respectives :
4: A chacune de ces différences, on affecte les coefficients a, donnés par la table, avec n nombre de différences
1- Table de Shapiro des
coefficients « a »
2- Table de Shapiro des
valeurs
Limites de W (W critique)
5: Calculer la valeur:
6: Calculer le rapport:
7: Comparer calculé au de la table, avec n données.
Si est supérieur au de la table, la normalité est acceptée.
Si est inférieur au de la table, la normalité est rejetée.
Test de Shapiro
A-2 Equivariance (ou homoscédasticité) des échantillons
Pour vérifier l’égalité des variances (l’homoscédasticité) on utilise
le test de Fisher (test F)
H0 : Les variances des 2 échantillons sont égales :
H1 : Les variances des 2 échantillons sont différentes :
Si les échantillons sont issus de populations normales (conditions de normalité), le rapport de leur variances
Suivra une distribution de F à .
Attention!!! Il faut toujours mettre la variance la plus grande au NUMÉRATEUR!
Test de Fischer
B: Exécution du test de Student (conditions d’application sont vérifiées)
Règle de décision :a) On rejette l’H0 si le

b) value < 0,05
C: Calcul de tc
E: Conclusion
D: Décision Statistique
Test de Student Tc = 7,93

B: Comparaison de plusieurs moyennes appartenant à p échantillons indépendants
Analyse de variance = ANOVA
Le principe de l’anova : deux étapes
Décomposition de la variance
SCE totale = SCE résiduelle + SCE factorielle

La variabilité totale se décompose en :
fluctuations individuelles : variance intra-groupe dite aussi résiduelle.
fluctuation entre les groupes : variance inter-groupe dite aussi factorielle.
Comparaison des variances inter et intra-groupes
Si la variance inter-groupe est supérieure à la variance intra-groupe alors on a au moins 2

moyennes sont différentes.
Hypothèses Statistiques
Hypothèse nulle H0 : les moyennes sont égales dans tous les groupes
Hypothèse alternative H1 : au mois un groupe possède une moyenne différente des autres
Conditions d’application du test
1) Normalité : Les échantillons sont issus de populations normalement distribuées. Test de Shapiro peut être utilisé
pour vérifier cette condition
2) Homoscédasticité : Les échantillons sont issus de populations de même variances. Le test de Bartlett peut être
utilisé pour vérifier cette seconde condition.
La statistique du test
F = Variance F/ Variance R ceci est identique (SCEF /p – 1)/ (SCER/n – p)
SCEF : Somme des carrés des écarts Factoriels p : Le nombre de groupes

SCER : Somme des carrés des écarts Résiduels n : Somme des effectifs de tous les groupes
´Décision statistique
Si Fc < Fthéorique non rejet de H0 au risque β
Si Fc ≥ Fthéorique rejet de H0 au risque α
Au risque α, il y a au moins deux groupes dont les moyennes sont différentes
Présentation classique des résultats : table d’ANOVA
Source de
Variation S.C.E d.d.l Variances Fc F th
Factoriel SCEF p-1 SCEF/p-1

Résiduel SCER n-p SCER/n-p V Fact /V Rés F(α;p-1;n-p)
Total SCET n-1
𝑃 𝑝
´
𝑆𝐶𝐸𝐹 = ∑ 𝑛𝑖 ( 𝑥 𝑖 − 𝑋 )
2
𝑆𝐶𝐸𝑅= ∑ ( 𝑛𝑖 − 1 ) 𝑆2𝑥 𝑖
𝑖=1 𝑖 =1
Comparaison de plusieurs moyennes : Analyse de variance = ANOVA
Exemple : Comparaison de l’effet de 4 traitements contre l’hypertension
Mesure de la pression artérielle systolique (en mm Hg) sur 4 échantillons de 8 patients chacun
hypertendus, un mois après le début du traitement.
Traitement1 123 120 122 127 112 121 124 115
Traitement2 127 129 118 121 134 123 127 120
Traitement3 119 123 113 128 125 121 117 123
Traitement4 137 128 140 131 125 128 132 131
Ces 4 traitements ont-ils le même effet sur la pression artérielle, au seuil de risque α = 0.05 ?
1- Les hypothèses statistiques

H0 : Les traitements ont le même effets
H1: Au moins un traitement diffère des autres : au moins
2-Test statistiques
Test F: Fc = Variance Fact./Variance Rés.
Conditions d’application du test
a) Normalité
Traitement Wc Pvalue Conclusion
Tr1 0,9419 0,6302 Normale
Tr2 0,9581 0,7926 Normale
Tr3 0,9832 0,9772 Normale
Tr4 0,9373 0,5848 Normale
b) Homoscédasticité : Test de Bartlett
Principe du test
Considérons p échantillons indépendants dont le ième a une variance si2 et un effectif égal à ni. Soit S2pd la variance
pondérée des p échantillons, c'est-à-dire la valeur de la meilleure estimation de la variance σ 2sous l’hypothèse H0 d’
équivariance :
𝑝
∑ ( 𝑛𝑖 − 1 ) 𝑆2
𝑖
𝑖 =1
𝑆2
𝑝𝑑 = 𝑝
∑ ( 𝑛𝑖 − 1)
𝑖 =1
Bartlett a montré que si les populations d’origine sont normales et possèdent la même variance σ 2 et si Spd2
et Si2 sont les variables aléatoires associées de s pd2 et si2, la variable B :
[ ]
𝑝 𝑝
𝑝𝑑 ∑ (
𝐵 = 𝑙𝑛 𝑆2 ∑( 𝑖 2
𝑛𝑖 − 1 ) − 𝑛 − 1 ) 𝑙𝑛 𝑆 𝑖
𝑖= 1 𝑖 =1
Obéit approximativement à une loi du khi2 à p-1 degré de liberté.

La conformité à la loi du khi2 a pu être amélioré grâce à un facteur de correction de c.
[ ]
𝑝
1 1 1
𝑐 =1 + ∑ − 𝑝
3 ( 𝑝 −1) ( 𝑛𝑖 − 1 )
∑ ( 𝑛𝑖 − 1 )
𝑖= 1
𝑖= 1
La nouvelle statistique de test s’écrit alors :
Le test de comparaison consiste maintenant à soumettre à une épreuve de vérité l’hypothèse principale
: toutes les ne sont pas égaux.
Si les populations d’origine sont normales et si H0 est vraie, la variable Bc obéit à une loi de .
Règle de décision : On rejette H0 si
Table de Khi2 1 On conclut les variances sont égales
3- règle de décision : On rejette l’H0 (c’est-à-dire l’égalité des p moyennes) si
𝛼 : 𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑟𝑖𝑠𝑞𝑢𝑒= 0 , 05 ; 𝜈1= 𝑝 −1=3 ; 𝜈2 =𝑛− 𝑝=32 − 4=28
4- Calcul du test:
𝑝
´ )
∑ 𝑛𝑖 ( 𝑥 𝑖 − 𝑋
2
/𝑝 −1
𝑖=1
𝐹 𝑐= 𝑝
=7 , 08
∑ ( 𝑛𝑖 − 1 ) 𝑆
2
𝑥𝑖 /𝑛 − 𝑝
𝑖 =1
5- Décision statistique : On rejette l’hypothèse H0 au seuil α = 0,05
6- CONCLUSION: Au moins un des traitements est différent des autres.

Statistiques inférentielles

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistiques inférentielles

Transféré par

Droits d'auteur :

Formats disponibles

Partie 3

Ech 1 Ech 2 ……………………… Ech p

Ech 1 Ech 2 ……………………… Ech p

On obtient ainsi une distribution d’échantillonnage des proportions (f1; f2;…….fp)

Ex 1. On a mesuré le poids de raisin produit par pied sur 10 pieds pris

On modélise le poids de raisin produit par une souche de cette vigne

Formulation hypothèse nulle et hypothèse alternative

Choix du test statistique approprié et du seuil de risque α

Récolte des données

Question : Les engrais A & B induisent-ils

Comparaison des Variances ?

Comparaison des Proportions ? Test t de Student pour deux échantillons indépendants

Testons-nous une association ?

 Le seuil de risque α (compris entre 0 et 1) sera un seuil de décision de rejeter H0.

 Souvent, on prend α = 0,05.

Pour notre exemple, on prend α = 0,05

A-1 Normalité de la variable % sucre aussi bien pour l’engrais A et l’engrais B.

Test de normalité de Shapiro et Wilk

1: Classer les différentes valeurs de la série A par ordre croissant

3: Calculer les différences respectives :

7: Comparer calculé au de la table, avec n données.

Si est supérieur au de la table, la normalité est acceptée.

Si est inférieur au de la table, la normalité est rejetée.

Pour vérifier l’égalité des variances (l’homoscédasticité) on utilise

le test de Fisher (test F)

H0 : Les variances des 2 échantillons sont égales :

H1 : Les variances des 2 échantillons sont différentes :

Suivra une distribution de F à .

Attention!!! Il faut toujours mettre la variance la plus grande au NUMÉRATEUR!

Règle de décision :a) On rejette l’H0 si le

Test de Student Tc = 7,93

SCE totale = SCE résiduelle + SCE factorielle

Comparaison des variances inter et intra-groupes

Si la variance inter-groupe est supérieure à la variance intra-groupe alors on a au moins 2

Conditions d’application du test

F = Variance F/ Variance R ceci est identique (SCEF /p – 1)/ (SCER/n – p)

SCEF : Somme des carrés des écarts Factoriels p : Le nombre de groupes

Si Fc < Fthéorique non rejet de H0 au risque β

Si Fc ≥ Fthéorique rejet de H0 au risque α

Au risque α, il y a au moins deux groupes dont les moyennes sont différentes

Présentation classique des résultats : table d’ANOVA

Factoriel SCEF p-1 SCEF/p-1

Total SCET n-1

Traitement1 123 120 122 127 112 121 124 115

Traitement2 127 129 118 121 134 123 127 120

Traitement3 119 123 113 128 125 121 117 123

Traitement4 137 128 140 131 125 128 132 131

1- Les hypothèses statistiques

b) Homoscédasticité : Test de Bartlett

Obéit approximativement à une loi du khi2 à p-1 degré de liberté.

La nouvelle statistique de test s’écrit alors :

: toutes les ne sont pas égaux.

Table de Khi2 1 On conclut les variances sont égales

3- règle de décision : On rejette l’H0 (c’est-à-dire l’égalité des p moyennes) si

𝛼 : 𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑑𝑒 𝑟𝑖𝑠𝑞𝑢𝑒= 0 , 05 ; 𝜈1= 𝑝 −1=3 ; 𝜈2 =𝑛− 𝑝=32 − 4=28

6- CONCLUSION: Au moins un des traitements est différent des autres.

Vous aimerez peut-être aussi