Biostatistique Cours 4: Principe Des Tests Statistiques

Biostatistique
Cours 4
Principe des tests statistiques
21 octobre 2021
Master 1 Santé Publique
julie.boucquemont@universite-paris-saclay.fr
Estimation
Prédiction
Valeur attendue
Intervalle de fluctuation
Valeur théorique
Observations
(ou vraie)
Population Echantillon
Estimation
Estimation ponctuelle
Intervalle de confiance
Biostatistique – M1 SP 2
Principe
Valeur théorique
Observations
(ou vraie)
Population 1 Echantillon 1
π1 n1 – p1
Population 0
π0 connue
Principe
Valeur théorique
Observations
(ou vraie)
π1 n1 – p1
Population 0
Populations semblables ?
π0 connue
Principe
Valeur théorique
Observations
(ou vraie)
π1 n1 – p1
Population 0
π0 connue
π1=π0 ?
Principe - Exemple
Valeur théorique
Observations
(ou vraie)
Population de la région Echantillon 1

π1 n1 – p1 = 4%
Population 0
π0 connue d’HTA = 17%
π1=π0 ?
Principe - Exemple
Valeur théorique
Observations
(ou vraie)

π1 n1 – p1 = 20%
Population 0
π1=π0 ?
Principe
→ Raisonnement par l’absurde : si nos observations s’éloignent trop de

ce qui est attendu sous une hypothèse d’égalité alors il est peu probable
que cette hypothèse soit vraie et on va la rejetter
Principe
→ Raisonnement par l’absurde : si nos observations s’éloignent trop de

ce qui est attendu sous une hypothèse d’égalité alors il est peu
probable que cette hypothèse soit vraie et on va la rejeter
→ Calcul de la probabilité d’observer nos données si les proportions

étaient égales. Si cette probabilité est trop faible (<5%), alors les
différences ou écarts observés ne peuvent pas être dus au hasard :
hypothèse d’égalité trop peu vraisemblable
Tests statistiques – 4 étapes
1. Formuler la question posée et l’hypothèse testée (H0)
2. Déterminer ce que seraient les observations si H0 était vraie
3. Confronter ce qu’on observe à ce qui est attendu sous H0
4. Choisir la règle de décision et conclure au rejet ou au non rejet de H0
Raisonnement par l’absurde : si nos observations s’éloignent trop de ce

qui est attendu sous H0 alors il est peu probable que « H0 soit vraie »
Tests statistiques – Etape 1
Population de la région Echantillon 1 H0 : π1 = π0 = 0.17

π1 n1 – p1 = 20%
Population 0
π1=π0 ?
• Hypothèse nulle
π1 n1 – p1 = 20%
• Hypothèse alternative
Hypothèse pour décrire
Population 0
Populations semblables ? la réalité si H0 fausse
π1=π0 ?
H1 : π1 ≠ π0 (bilatéral)
π1 n1 – p1 = 20%
H1 : π1 < π0 (unilatéral)
Population 0
Populations semblables ? ou
π1=π0 ?
H1 : π1 > π0 (unilatéral)
π1 n1 – p1 = 20%
H1 : π1 < π0 (unilatéral)
Population 0
Populations semblables ? ou
π1=π0 ?
H1 : π1 > π0 (unilatéral)
Attention : hypothèses sur les paramètres « vrais » de population
Fluctuations d’échantillonnage Calcul des probabilités
IF d’observer chaque %
𝜋0 (1 − 𝜋0 )
𝑃1 ~𝑁 𝜋0 , sous 𝐻0
Population de la région Echantillon 1 𝑛
π1 n1 – p1 = 20%
Statistique de test
𝑃1 − 𝜋0
Population 0 𝑍= ~𝑁(0,1) sous 𝐻0
𝜋0 (1 − 𝜋0 )
𝑛
Grands échantillons : nπ0 et n(1-π0) ≥ 5
Fluctuations d’échantillonnage
IF
Statistique de test
𝑃1 − 𝜋0
𝑍= ~𝑁(0,1) sous 𝐻0
𝜋0 (1 − 𝜋0 )
π1 n1 – p1 = 20% 𝑛
Grands échantillons : nπ0 et n(1-π0) ≥ 5
Population 0
Valeur de Z observée sur l’échantillon
π0 connue d’HTA = 17% 𝑝1 − 𝜋0
𝑧= Si H0 vraie :
𝜋0 (1 − 𝜋0 )
𝑛 𝑧 ∈ −1.96; 1.96 dans 95% des cas
Fluctuations d’échantillonnage
IF
• Exemple 1 : n1 = 100
0.2 − 0.17
𝑧= = 0.8
Population de la région Echantillon 1 0.17 × 0.83
π1 n1 – p1 = 20%
100
→ La valeur de z est conforme à ce
qu’on attend si H0 est vraie car elle
Population 0 appartient à [-1.96;1.96]
→ On ne rejette pas H0 au risque α=5%
Fluctuations d’échantillonnage • Exemple 2 : n1 = 100
IF
0.25 − 0.17
𝑧= = 2.13
0.17 × 0.83
π1 n1 – p1 = 25% 100
→ Ce n’est pas impossible si H0 est vraie
mais c’est peu fréquent (- de 5% des cas)
Population 0
→ La valeur de z n’est pas conforme à ce
π0 connue d’HTA = 17% qu’on attend si H0 est vraie car elle
n’appartient pas à [-1.96;1.96]
→ On rejette H0 au risque α=5%
4. Choisir la règle de décision
= choisir une valeur zs au-delà de laquelle on conclura au rejet de H0
Cas bilatéral
Risques d’erreur
Erreur de conclusion si :
• |z| ≥ zs alors que H0 vraie → risque α
• |z| < zs alors que H1 vraie → risque β
Cas bilatéral
Observations
|z| ≥ zs |z| < zs On choisit le risque α
Rejet de H0 Non rejet de H0 qu’on accepte de
prendre pour trouver
H0 est vraie α 1- α la valeur de zs
Réalité
H1 est vraie 1-β β
Risques d’erreur
Erreur de conclusion si :
• |z| ≥ zs alors que H0 vraie → risque α
• |z| < zs alors que H1 vraie → risque β
Cas bilatéral
Observations
|z| ≥ zs |z| < zs On choisit le risque α
Rejet de H0 Non rejet de H0 qu’on accepte de
prendre pour trouver
H0 est vraie α 1- α la valeur de zs
Réalité
Puissance du test = capacité du test à rejeter H0 quand elle est effectivement fausse
Risque d’erreur α et seuil de décision zs
α/2 α/2
Cas bilatéral
Si Z~N(0,1), on retrouve zs dans la table de la loi normale centrée réduite
α=5% : 𝑧𝛼/2 = 𝑧𝑠 = 1.96
α/2 α/2
Cas unilatéral ?
Cas unilatéral ?
α=5% : 𝑧𝛼 = 𝑧𝑠 = 1.64
Conclusions dissymétriques
Observations
|z| ≥ zs |z| < zs
Rejet de H0 Non rejet de H0
H0 est vraie α 1-α
Réalité
|z| ≥ zs |z| < zs

0.25 − 0.17 0.2 − 0.17
𝑧= = 2.13 𝑧= = 0.8
0.17 × 0.83 0.17 × 0.83
100 100
Rejet de H0 au seuil α=5% Non rejet de H0 au seuil α=5%
Acceptation de H0 au risque β inconnu
Observations
|z| ≥ zs |z| < zs
H0 est vraie α 1-α
Réalité
H1 est vraie 1-β =P(rejeter H0 si H1 est vraie) → si H1 vraie : π1 inconnue
|z| ≥ zs |z| < zs

0.25 − 0.17 0.2 − 0.17
𝑧= = 2.13 𝑧= = 0.8
0.17 × 0.83 0.17 × 0.83
100 100
Rejet de H0 au seuil α=5% Non rejet de H0 au seuil α=5%
Acceptation de H0 au risque β inconnu
Observations
|z| ≥ zs |z| < zs
H0 est vraie α 1- α
Réalité
• Démonstration que H0 est fausse
• Démonstration que H0 est vraie

→ H0 est « juste » compatible avec les observations
Degré de signification
• Quantifie la « force de conviction » de la conclusion d’un test
α → caractéristique du test
p → caractéristique de l’échantillon
Degré de signification : p = P(|Z|≥ z)
• Exemple 1 : n=100 ; HTA=25 ; p1=0.25
0.25 − 0.17
𝑧= = 2.13
0.17 × 0.83
100
• Exemple 2 : n=100 ; HTA=30 ; p1=0.30

0.30 − 0.17
𝑧= = 3.46
0.17 × 0.83
100
→ H0 est beaucoup moins vraisemblable dans le cas numéro 2 que dans le cas numéro 1
Résumé
1. Formuler les hypothèses H0 et H1
Conditions d’application
Choix de la statistique de test et de sa loi sous H0
3-4. Confronter les observations aux valeurs attendues et choisir la
règle de decision
Souvent α=5%
Calcul du p
Ne pas oublier la conclusion et la signification clinique !
Test du Chi-2
χ2 d’ajustement
• Contexte identique au précédent mais méthode ≠
Valeur théorique
(ou vraie)
Observations

π1 n1 – p1 = 20%
Population 0
π0 connue d’HTA = 17% Populations semblables ?
π1=π0 ?
χ2 d’ajustement
• Contexte identique au précédent mais méthode ≠
• Hypothèses nulle et alternative identiques
• H0 : π1 = π0
• H1 : π1 ≠ π0
• Ne se base plus sur les % mais sur les effectifs observés et sur les
effectifs attendus sous H0
M+ M- Effectif total
Effectifs
O1 O2 n
observés
Effectifs
C1=nπ0 C2=n(1-π0) n
théoriques
χ2 d’ajustement
• Statistique de test
𝑂1 − 𝐶1 2 𝑂2 − 𝐶2 2
2
χ0 = + ~χ2 à 1 𝑑𝑑𝑙 sous 𝐻0
𝐶1 𝐶2
Effectifs
O1 O2 n
observés
Effectifs
C1=nπ0 C2=n(1-π0) n
théoriques
Conditions de validité : effectifs théoriques ≥ 5
χ2 d’ajustement
• Règle de décision
o Si χ20𝑐 ≥ χ1,𝛼
2
: rejet de H0
o Si χ20𝑐 ≤ χ1,𝛼
2
: non rejet de H0
2
→ χ1,𝛼 = 3.84 pour α = 5%
Effectifs observés O1 O2 n
Effectifs
C1=nπ0 C2=n(1-π0) n
théoriques
χ2 d’ajustement
• Equivalence avec la comparaison de 2 pourcentages
𝑜 − 𝑐 2 𝑜 − 𝑐 2 𝑝1 − 𝜋0 2
2 1 1 2 2 2
χ0𝑐 = + =𝑧 =
𝑐1 𝑐2 𝜋0 (1 − 𝜋0 )
𝑛
• Mêmes conditions d’application
𝑐1 et 𝑐2 ≥ 5 ↔ 𝑛𝜋0 et 𝑛(1 − 𝜋0 ) ≥ 5
• Limites de signification équivalentes pour un même seuil α

𝑃 χ12 > 𝑎 = 𝑃 𝑍 > 𝑎 → 𝑃 χ12 > 3.84 = 𝑃 𝑍 > 3.84 = 𝑃 𝑍 > 1.96
χ2 d’ajustement : exemple
• Le % d'habitants d’une région qui consomment des anti-dépresseurs
diffère-t-il de la valeur 20% donnée par les chiffres de vente
nationaux ?
nationaux ?
• Hypothèses nulle et alternative
• H0 : ?
• H1 : ?
nationaux ?
• H0 : π1 = 0.2
• H1 : π1 ≠ 0.2
nationaux ?
• Hypothèses nulle et alternative (à formuler avant d’observer l’échantillon)
• H0 : π1 = 0.2
• H1 : π1 ≠ 0.2
• Echantillon représentatif de 422 habitants, 97 consomment des

antidépresseurs (23%)
• H0 : π1 = 0.2 et H1 : π1 ≠ 0.2

Conso+ Conso- Effectif total

Effectifs observés 97 422-97=325 422
Effectifs théoriques ?? ?? ??
• H0 : π1 = 0.2 et H1 : π1 ≠ 0.2


Effectifs théoriques 422*0.2=84.4 422*0.8=337.6 422
2 2
2
𝑂1 − 𝐶1 𝑂2 − 𝐶2
χ0 = + ~χ2 à 1 𝑑𝑑𝑙 sous 𝐻0
𝐶1 𝐶2
97 − 84.4 2 325 − 337.6 2

χ20𝑐 = + = 2.35
84.4 337.6
Effectifs théoriques 422*0.2=84.4 422*0.8=337.6 422
Conditions ok : effectifs théoriques ≥ 5
• Règle de décision
χ20𝑐 = 2.35
χ20𝑐 ≤ 3.84 : non rejet de H0 pour α = 5%
• Conclusion : on ne met pas en évidence de différence entre le

% de consommateurs d’antidépresseurs dans la région et la
valeur 20%
χ2 d’indépendance
• Comparaison de deux pourcentages
Valeur théorique
(ou vraie)
Observations
π1 n1 – p1
π1=π2 ?
π2 n2 – p2
• H0 : π1 = π2
• H1 : π1 ≠ π2
• Se base sur les effectifs observés et sur les effectifs attendus sous H0
E1 E2 Effectif total
M+ o11 o12 m1
M- o21 o22 m2
n1 n2 n
• H0 : π1 = π2
• H1 : π1 ≠ π2
M+ c11 c12 m1
M- c21 c22 m2
n1 n2 n
• H0 : π1 = π2
• H1 : π1 ≠ π2
𝑚1 𝑚1
M+ 𝑛1 𝑛2 m1
𝑛 𝑛
𝑚2 𝑚2
M- 𝑛1 𝑛2 m2
𝑛 𝑛
n1 n2 n
→ sous H0, % de malades observés devraient être identiques = m1/n
2
𝑂𝑖𝑗 − 𝐶𝑖𝑗
χ20 =෍ ~χ2 à 1 𝑑𝑑𝑙 sous 𝐻0
𝐶𝑖𝑗
𝑚1 𝑚1
M+ 𝑛1 𝑛2 m1
𝑛 𝑛
𝑚2 𝑚2
M- 𝑛1 𝑛2 m2
𝑛 𝑛
n1 n2 n
• Règle de décision et conclusion
χ2 d’indépendance : exemple
% d'hypotrophie du nouveau-né (poids trop petit) ≠ selon que la mère a
fumé ou pas pendant la grossesse ?
Valeur théorique
(ou vraie)
Observations
Population 1 = mères fumeuses Echantillon 1

π1 n1 – p1
π1=π2 ?
Population 2 = mères non fumeuses Echantillon 2
π2 n2 – p2

• H0 : ?
• H1 : ?

• H0 : % vrai d’hypotrophie dans la population 1 = % vrai d’hypotrophie dans la
population 2
• H1 : % vrai d’hypotrophie dans la population 1 ≠ % vrai d’hypotrophie dans la
population 2
• Effectifs observés
F+ F- Effectif total
Hypotrophie 45 68 113
Poids normal 748 1778 2526
793 1846 2639
% observé p1 = 45/793 = 5.7% ; % observé p2 = 68/1846 = 3.7%
• Effectifs théoriques sous H0

Hypotrophie
Poids normal
Conditions de validité ok : effectifs théoriques ≥ 5
• Effectifs théoriques sous H0

=(113/2639)*793
Hypotrophie 79 113
=34
Poids normal 759 1767 2526
793 1846 2639
Conditions de validité ok : effectifs théoriques ≥ 5
2
𝑂𝑖𝑗 − 𝐶𝑖𝑗
𝐶𝑖𝑗
• Calcul
2 45−34 2 68−79 2 748−759 2
1778−1767 2
χ0𝑐 = + + + = 5.32
34 79 759 1767
• Règle de décision : α=5% → χ20𝑐 > 3.84
• Conclusion statistique : rejet de H0 au seuil α=5%

• Degré de signification ?
• Degré de signification : p = P(χ12 >5.32)
5,32
• Il y a une relation entre la consommation de tabac pendant la

grossesse et l’hypotrophie du nouveau-né
• On observe que la relation est dans le sens : plus d’hypotrohiques

parmi les fumeuses
• On ne peut pas démontrer un lien causal entre tabac et hypotrophie
χ2 d’indépendance : autre écriture
E1 a b n1 (𝑎𝑑 − 𝑏𝑐)2 𝑛
χ20𝑐 =
E2 c d n2 𝑛1 𝑛2 𝑚1 𝑚2
m1 m2 n
Expression + simple mais attention à toujours vérifier effectifs théoriques ≥ 5
χ2 d’indépendance : petits échantillons
• Cas où un (au moins) des effectifs théoriques est < 5 mais tous sont ≥ 3
2
|𝑂𝑖𝑗 − 𝐶𝑖𝑗 | − 0.5
𝐶𝑖𝑗
consommé de l’alcool ou non pendant la grossesse ?

• H0 : % vrai d’hypotrophie dans la population 1 = % vrai d’hypotrophie dans la
population 2
• H1 : % vrai d’hypotrophie dans la population 1 ≠ % vrai d’hypotrophie dans la
population 2
% d'hypotrophie du nouveau-né (poids trop petit) ≠ selon la
consommation d’alcool de la mère pendant la grossesse ?
• Effectifs observés et théoriques

A+ A- Effectif total
Hypotrophie 7 (4.1) 106 (108.9) 113
Poids normal 88 (90.9) 2438 (2435.1) 2526
95 2544 2639
% observé p1 = 7.4% ; % observé p2 = 4.4%
2
|𝑂𝑖𝑗 − 𝐶𝑖𝑗 | − 0.5
𝐶𝑖𝑗
• Calcul
χ20𝑐 = 1.58
• Règle de décision : α=5% → χ20𝑐 < 3.84 donc non rejet de H0 au seuil α=5%
• Conclusion : on ne met pas en évidence de liaison entre la consommation

d’alcool pendant la grossesse et l’hypotrophie du nouveau-né
χ2 d’indépendance : autre écriture
E1 a b n1 𝑛 2
𝑛 (|𝑎𝑑 − 𝑏𝑐|) −
E2 c d n2 χ20𝑐 = 2
m1 m2 n 𝑛1 𝑛2 𝑚1 𝑚2
Expression + simple mais attention à toujours vérifier effectifs théoriques ≥ 3
Remarques
• Un des effectifs théoriques < 3 : test de Fisher (pas au programme)
• χ2 d’ajustement : peut s’appliquer à toute distribution qu’on

souhaiterait comparer à une distribution théorique
• χ2 d’indépendance : extensible à la comparaison de plus de 2

pourcentages

Biostatistique Cours 4: Principe Des Tests Statistiques

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Biostatistique Cours 4: Principe Des Tests Statistiques

Transféré par

Droits d'auteur :

Formats disponibles

Biostatistique

Population de la région Echantillon 1

Population de la région Echantillon 1

→ Raisonnement par l’absurde : si nos observations s’éloignent trop de

→ Raisonnement par l’absurde : si nos observations s’éloignent trop de

→ Calcul de la probabilité d’observer nos données si les proportions

Raisonnement par l’absurde : si nos observations s’éloignent trop de ce

Population de la région Echantillon 1 H0 : π1 = π0 = 0.17

Attention : hypothèses sur les paramètres « vrais » de population

Si Z~N(0,1), on retrouve zs dans la table de la loi normale centrée réduite

α=5% : 𝑧𝛼/2 = 𝑧𝑠 = 1.96

|z| ≥ zs |z| < zs

|z| ≥ zs |z| < zs

• Démonstration que H0 est fausse

• Démonstration que H0 est vraie

Degré de signification : p = P(|Z|≥ z)

• Exemple 2 : n=100 ; HTA=30 ; p1=0.30

Ne pas oublier la conclusion et la signification clinique !

Population de la région Echantillon 1

• Limites de signification équivalentes pour un même seuil α

• Echantillon représentatif de 422 habitants, 97 consomment des

• Echantillon représentatif de 422 habitants, 97 consomment des

Conso+ Conso- Effectif total

• Echantillon représentatif de 422 habitants, 97 consomment des

Conso+ Conso- Effectif total

97 − 84.4 2 325 − 337.6 2

χ20𝑐 ≤ 3.84 : non rejet de H0 pour α = 5%

• Conclusion : on ne met pas en évidence de différence entre le

Population 1 = mères fumeuses Echantillon 1

• Hypothèses nulle et alternative

• Hypothèses nulle et alternative

% observé p1 = 45/793 = 5.7% ; % observé p2 = 68/1846 = 3.7%

• Effectifs théoriques sous H0

Conditions de validité ok : effectifs théoriques ≥ 5

• Effectifs théoriques sous H0

• Règle de décision : α=5% → χ20𝑐 > 3.84

• Conclusion statistique : rejet de H0 au seuil α=5%

• Il y a une relation entre la consommation de tabac pendant la

• On observe que la relation est dans le sens : plus d’hypotrohiques

• On ne peut pas démontrer un lien causal entre tabac et hypotrophie

Expression + simple mais attention à toujours vérifier effectifs théoriques ≥ 5

• Hypothèses nulle et alternative

• Effectifs observés et théoriques

% observé p1 = 7.4% ; % observé p2 = 4.4%

• Conclusion : on ne met pas en évidence de liaison entre la consommation

Expression + simple mais attention à toujours vérifier effectifs théoriques ≥ 3

• χ2 d’ajustement : peut s’appliquer à toute distribution qu’on

• χ2 d’indépendance : extensible à la comparaison de plus de 2

Vous aimerez peut-être aussi