Académique Documents
Professionnel Documents
Culture Documents
____________________________________________
Faculty of Medicine
Objectifs du cours :
Connaitre les principes et les outils d'analyse statistique de comparaison de 02 pourcentages.
Savoir choisir et interpréter les tests statistiques adéquats.
Plan du cours :
Introduction
Démarche et hypothèses de réalisation d'un test statistique
Comparer deux pourcentages de séries indépendantes par le test de l'écart réduit.
L'importance du calcul du Nombre de Sujets Nécessaires (NSN).
Comparer deux pourcentages de séries dépendantes et appariées (Ecart réduit).
Comparer un pourcentage observé à un pourcentage de référence (Ecart réduit).
Conclusion
Pour aller plus loin, il est conseillé de lire et de consulter des livres et autres documents sur la
question (Exemple : voir les références bibliographiques de base de ce cours à la dernière page).
Cours conçu pour être utilisé en version numérique ou imprimé sur papier recto verso.
1. Introduction
Après le recueil de données et leur correction, l'analyse des résultats commence. On peut
voir enfin, les résultats. C’est une étape complexe, mais passionnante.
Dans ce cours, il s’agit de comparer deux pourcentages de variables qualitatives qui
ressortent lors de la 1ère étape de l’analyse descriptive.
Ainsi on peut avoir des pourcentages ou proportions de : poids, HTA, tabagisme, malade, …
Deux groupes se distinguent selon plusieurs facteurs : sexe, commune, groupe d'âge,
présence ou absence d’un facteur de risque, présence ou absence d’une maladie, …
La 1ère étape d’analyse de variables qualitatives et de proportions donne des tableaux et
des graphes : (Output Epi Info 6 et Excel)
Masculin
45 %
55 % Féminin
Et c’est à partir de ce moment qu’on se demande, quelle est la meilleure stratégie d’analyse.
Selon les différents cas de figures, (comparaison de pourcentages observés dans deux
échantillons différents, deux séries appariées, comparaison d’un pourcentage observé à un
pourcentage théorique de référence) il existe différentes solutions :
2
3. Comparaison de pourcentages dans deux séries indépendantes
3.1 Le test de l'écart réduit :
Le test z ou l'écart réduit (Ɛ), est utilisé pour la comparaison de deux pourcentages. Il
utilise les propriétés de la loi normale centrée réduite, pour comparer :
• Deux pourcentages observés dans 02 échantillons indépendants : p1 , p2
• Deux pourcentages observés dans 02 échantillons appariés.
• Un pourcentage observé dans un échantillon p à un pourcentage théorique P
Principe :
Pour savoir si les distributions des populations, dont sont issus les deux échantillons sont
identiques ou non, on compare la différence des pourcentages (p1 - p2) de ces échantillons.
Cette différence ∆ ou écart est une variable aléatoire qui tend vers 0, si H0 est vraie.
Sous certaines conditions, le rapport de cet écart ∆ sur son écart type S∆, suit une loi
normale centrée sur sa moyenne 0, et dont l'écart est réduit à 1, car il est divisé sur son
écart type S, c'est la loi Normale centrée réduite, définie par ses paramètres N (0, 1).1
Le test z calcule ce rapport et le compare à la table de loi normale centrée réduite.
z = ∆ / Sd
S'il dépasse un certain seuil (zα = 1,96) pour un risque d'erreur consenti (α = 5 %); alors, la
table de la loi normale centrée réduite, nous donne en fonction de la valeur du z calculé, la
probabilité p de se tromper, en affirmant que cette différence (p1 - p2) est bien réelle et non
pas due au hasard.
Exemple :
On étudie le surpoids dans un échantillon, le calcul des proportions par genre donne :
Hommes : (n1 = 50) p1 = 20 %
Femmes : (n2 = 50) p2 = 30 %
A première vue, la prévalence de l'obésité semble être plus élevée chez les femmes
1
(Voir le cours sur la loi normale centrée réduite).
3
Mais, … les apparences sont souvent trompeuses, cette différence peut être due aux biais,
aux fluctuations d’échantillonnage ou simplement à un réel facteur.
Donc des questions se posent :
Existe-t-il une réelle différence entre ces deux groupes ?
L’écart observé est-il réel ou est-il dû aux fluctuations d’échantillonnage ?
Ces deux groupes proviennent-ils de la même population ?
On doit réaliser un test statistique pour répondre de manière objective à ces questions.
. H 1 : p1 ≠ p2
. Il existe une différence entre les deux groupes, ils proviennent de populations différentes
. Le poids du groupe 1 est différent de celui du groupe 2.
. Le poids et le sexe sont des variables dépendantes.
4
5. Exécution du test et interprétation des résultats
Un test statistique calcule la probabilité que le hasard puisse expliquer les résultats. Si cette
probabilité est inférieure à un certain seuil α, on rejette H0 et on conclut que la différence
est significative. Ce seuil de signification est habituellement fixé à 5 %.
Si H0 est vraie, la différence ∆ (p1 - p2) suit une loi normale de moyenne 0 et le rapport de
cette différence sur son écart type suit une loi de z.
Si │z│ z : la différence ∆ est alors grande. On dit qu’elle est statistiquement significative.
H1 est alors retenue, avec un risque de se tromper, en affirmant cela, lu dans la table de z.
∆ I 𝒑𝟏 − 𝒑 𝟐 I I 0,3 − 0,2 I
Z= = = = 1,15
𝑆∆ 𝑷𝑸 𝑷𝑸 0,25 𝑥 0,75 0,25 𝑥 0,75
+ +
𝒏𝟏 𝒏𝟐 50 50
5
4. Comparaison de pourcentages dans deux séries appariées
On appelle séries appariées, deux séries de la même taille, pour lesquels chaque valeur
d’une série a un lien avec une valeur correspondante de l’autre série. On obtient à la fin, un
échantillon de n paires de mesures (x, y). Parfois, il s’agit de mesures qui sont faites chez le
même individu à des périodes différentes.
Principe :
On teste l’hypothèse H0 que les différences individuelles entre sujets appariés sont nulles.
Sous certaines conditions, la moyenne des différences ∆ suit une loi normale de moyenne 0
et le rapport de cette différence sur son écart type suit une loi normale centrée réduite.
H0 : a - b ≈ 0 H1 bilatérale : a - b ≠ 0
Exemple :
On pense que l'absence de différence de poids retrouvée dans les exemples précédents, est
due à un facteur de confusion. On décide donc d’apparier les deux genres sur l’âge, en
créant un échantillon de paires : (Hommes, Femmes) : (avec un âge équivalent) n = 50
Alors, existera-t-il une différence statistique dû au sexe cette fois-ci ?
1. Choix du seuil de signification α : α = 5 %
2. Formulation des hypothèses : H0 : a - b ≈ 0 H1 bilatérale : a - b ≠ 0
3. Choix du test statistique à utiliser : il s’agit de comparer deux pourcentages
observés dans deux échantillons dépendants, on choisit le test z pour séries appariées.
4. Vérification des conditions d’application :
nombre de paires (a + b) ≥ 10
5. Exécution du test et interprétation des
résultats : z= = 1,3
6
5. Comparaison d’un pourcentage observé à un pourcentage théorique
Situation dans laquelle on compare un pourcentage observé sur un échantillon à une
prévalence connue d’une population de référence, locale, régionale, nationale ou étrangère.
Principe :
Si H0 est vraie, p est l’une des valeurs possibles d’une variable normale centrée autour de P.
La différence │p - P│ suit une loi normale de moyenne 0.
H0 : p ≈ P H1 bilatérale : p ≠ P
Exemple :
Dans la continuité de l’exemple des sections précédentes, sur l'étude du surpoids d'un
échantillon, on veut comparer maintenant la prévalence du surpoids dans notre échantillon
issu d’une commune, à celui de la population nationale.
Pour cela, on fait des recherches bibliographiques afin de trouver des chiffres qui
pourraient aider à déterminer la prévalence de l'obésité au niveau national.
Echantillon : p = 25 % n = 100
Population : P = 20 %
La prévalence de l'obésité de l'échantillon est-elle différente de celle de la population de
référence ?
Existera-t-il une différence statistique de l’échantillon cette fois-ci ?
1. Choix du seuil de signification α : α = 5 %
z= = = 1,25
𝑷𝑸
𝒏