Vous êtes sur la page 1sur 99

Types de variables et présentation de

données
K.Bendahhou
C’est quoi une variable ?
On appelle variable tout caractère, sujet à prendre des états
différents selon :
Les individus,
Le temps
Ou le lieu d'observation
Ainsi par exemple, le sexe, l'âge, le groupe sanguin, la tension artérielle, le
nombre de lits par hôpital, et la durée d'hospitalisation sont des variables
C'est pour cela que nous parlons de variables
Comment obtenir des variables ?
• Information recueillie /questionnaire/mesure /
observation ….
– Niveaux de questionnement sont différents
– Relèvent directement une mesure
– Objective telle que l’âge ou le sexe……
– Subjective
• Satisfaction d’une action
• Évaluation de la qualité d’un produit
Types de la question
• Questions fermées /proposent réponses
possibles=modalités les différentes

• Questions ouvertes /laissant un espace pour que


répondant puisse informer de sa réponse

Cependant ce n’est pas tant la formulation de la question qui est primordiale


pour le statisticien que le type de réponse recueillie
Types de la question-suite
• A chaque question, une variable ou plus est définie
• Il s’agit de définir par un nom la fonction qui recueille les
réponses possibles
• Exemple pour la question « quel est votre âge? »
– la variable âge: une fonction dont la valeur obtenue varie d’un
sujet à l’autre et mesure l’âge de l’individu
Types de variables

• Les variables peuvent être regroupées suivant les trois


aspects qui permettent de caractériser la maladie:
• Les personnes atteintes (variables de personnes )

• Le lieu (variables de lieux)

• Le moment où elles ont été atteintes (variables de temps )


Variables liés aux personnes

• Réfèrent aux attributs anatomiques, physiologiques, sociaux ou culturels


• Les plus fréquemment utilisées en épidémiologie sont:
– l'âge
– le sexe
– l'état civil
– les habitudes de vie
– l'occupation et le niveau socio-économique
• +++ car :
– L'étude de la variation de la fréquence d'une maladie suivant ces variables  mieux
comprendre les facteurs responsables de cette maladie
– L' association entre certaines de ces variables et la maladie peut voiler le rôle d'autres facteurs ƒ
– L'effet d'autres facteurs peut être modifié par la présence de certaines caractéristiques de
personnes
ƒUne bonne description de la maladie suivant les caractéristiques de personnes permet
généralement de mieux identifier l'intervention préventive ou curative à entreprendre
Variables liés aux lieux
• La répartition géographique de la fréquence d'une
maladie suscite toujours l'intérêt de l'épidémiologiste
• La fréquence d'une maladie peut varier suivant :
– le pays ou la région
– le climat
– la population habitant une zone urbaine ou rurale
Variables liés au temps
• la fréquence de la maladie peut varier avec le temps
• Exemples:
– La fréquence du cancer du poumon a fortement augmenté au cours des trente
dernières années
– Le cancer du col de l’utérus a fortement régressé en Europe
– La grippe est un phénomène saisonnier
• La durée est aussi une caractéristique de la maladie qui permet de marquer
sa gravité et son évolution
• Le temps est un élément nécessaire à la définition des mesures
épidémiologiques et une composante de base du concept de cause
Différents types de variables en épidémiologie
Variable quantitative

• Si un calcul mathématique (somme, moyenne) peut être


réalisé à partir des réponses d’un groupe d’observations

• Toute information pouvant être recueillie par le biais


d’une question commençant par l’adverbe « combien »
Variable quantitative

Question Information recueillie Variable

Combien d’enfants avez-vous ? Nombre d’enfants par Nbenfant


sujet

Combien pesez-vous ? Poids du sujet Poids

souvent accompagnées d’une unité de mesure ex Kg


pas exactement de même nature, certaines sont continues et d’autres
discrètes.
Variable quantitative discrète

• Mesure des indicateurs ne prenant qu’un nombre fini de


valeurs entre deux bornes

• Exemple:
– Nombre d'enfants d'une famille est une variable quantitative
discrète qui peut prendre les valeurs : 0, 1, 2, 3, 4, 5, …

– Une famille ne peut pas avoir 1,4 enfant, ni 2,5 enfants


Variable quantitative continue

• Peut prendre une infinité de valeurs entre deux bornes


définies par la valeur minimale et la valeur maximale

• Souvent l’information exacte ne peut pas être retranscrite


car les instruments de mesure arrondissent l’information
à un certain niveau de précision
Variable quantitative continue
Exemple
• La mesure du poids / pèse-personne
• Information souvent arrondie aux centaines de grammes
• On regroupe les mesures d’individus par paquets de cent g
• Poids compris entre 65,050 kg et 65,150 kg
65,100 kg sur le pèse-personne (valeur retenue)
On dit alors que l’on discrétise la mesure
Variable quantitative continue

• Age souvent recueillie sous forme discrète/ unité l’année


(22, 23, 24 ans, …..etc)

• Donc toute variable recueillie s/f continue p ê recueillie


s/f discrète :

Perte d’information
Variable ordinale

• Variable quantitative recueillie en classes =Modalités

• Ne peut plus être définie comme variable quantitative


qualitative

• Modalités de réponses p ê ordonnées selon un ordre


logique (variable ordinale)
Variable ordinale
• Exemple
Quel est l’âge de votre enfant ? Cocher la bonne réponse
□ "0-3 mois" □ "4-11 mois"
□ "1-3 ans" □ "4-10 ans "

Impossible de calculer la moyenne de âge <> si variable recueillie


s/f continue
Variable catégorielle ou qualitative
Variable catégorielle ou qualitative

• Variable catégorielle = qualitative est une caractéristique


ne répondant pas aux critères de variables quantitatives

• ayant un certain nombre de catégories ou modalités


– Exhaustives/ modalités possibles citées

– Si l’exhaustivité est impossible : une modalité «autre»


Variable binaire
• = Dichotomique
• Nombre de catégories est 2
• Exemple :
– Sexe : homme, femme
– Fumeur actuel : oui/non
– Diabétique : oui/non
Variable nominale
• Plus de deux modalités sans être ordonnées logiquement,
naturellement
• Couleur des cheveux
– Blond
– Châtain
– Roux
– Brun
Description des variables qualitatives
Répartition par modalités ou par intervalles
• Information recueillie auprès d’un nombre important de sujets
• Vue d’ensemble de l’information :
« Répartition de ces valeurs »

• Effectif total: nombre de données utilisables et connues pour la variable d’intérêt


=
Nombre de sujets ayant répondu à la question

• Effectif de chaque modalité : variable qualitative , catégorielle


• Amplitude des intervalles = étendue entre valeur minimale et la valeur maximale
Fréquence et fréquence cumulée
• fréquence = proportion
Rapport entre l’effectif d’une modalité et l’effectif total
• Souvent indiquées en pourcentage %
• la somme des fréquences calculées en pourcentage pour
chaque modalité de la variable = 100%
Fréquence et fréquence cumulée
Exemple :
402 sujets inclus dans une étude, leur âge est donnée par tranche de 10 ans
comme suit :
– 66 sujets avaient entre 18 et 27 ans
– 79 sujets avaient entre 28 et 37 ans
– 89 sujets avaient entre 38 et 47 ans
– 58 sujets avaient entre 48 et 57 ans
– 54 sujets avaient entre 58 et 67 ans
– 41 sujets avaient entre 68 et 77 ans
– 14 sujets avaient entre 78 et 87 ans
– 1 sujet avait plus de 87 ans
Exemple
• Fréquence :
– 66 sujets avaient entre 18 et 27 ans (16,4%= 66/402*100)
– 79 sujets avaient entre 28 et 37 ans (19,7% =79 /402*100)
– 89 sujets avaient entre 38 et 47 ans (22,1% =89 /402*100)
– 58 sujets avaient entre 48 et 57 ans (14,4% = 58/402*100)
– 54 sujets avaient entre 58 et 67 ans (13,4% = 54/402*100)
– 41 sujets avaient entre 68 et 77 ans (10,2% = 41/402*100)
– 14 sujets avaient entre 78 et 87 ans (3,5% =14 /402*100)
– 1 sujet avait plus de 87 ans (0,2% = 1/402*100)
Fréquence et fréquence cumulée
• fréquences cumulées: les fréquences ne mesurant pas
uniquement la fréquence d’une modalité mais la
fréquence d’un cumul de modalités consécutives
• Exemple : fréquence cumulée des sujets ayant au plus 47
ans est de 58,2%
= 16,4% entre 18 et 27 ans
+ 19,7% entre 28 et 37 ans
+ 22,1% entre 38 et 47 ans
Description d’une variable quantitative
Variable quantitative
• Si un calcul mathématique (somme, moyenne) peut être
réalisé à partir des réponses d’un groupe d’observations
Paramètres de position
• Paramètres de tendance centrale
• Caractérisent le centre d’une distribution
• Notion de centre peut être définie de diverses façons
• Trois paramètres de position :
• Le mode
• La médiane
• La moyenne arithmétique
Mode
• La valeur prise le plus fréquemment par la variable
• Ayant donc le plus grand effectif
• Si plusieurs valeurs de la variable ont l’effectif maximal, la
distribution est plurimodale
• Si la variable est continue, on appelle classe modale la
classe ayant le plus grand effectif
Mode
Exemple

• Durant une enquête réalisée auprès de 200 familles, on


recueille l’information de la superficie de leur logement ainsi
que le nombre de voitures possédées par chaque famille
• La variable « nombre de voitures » est une variable
quantitative discrète
• la variable « superficie du logement » est
quantitative continue
Mode
Exemple

Le mode de la variable « nombre de voitures » est la valeur 1 car il s’agit


du nombre de voitures le plus fréquent parmi les 200 familles
Répartition des 402 sujets âgés de plus de 18 ans ayant participé à
l’enquête « hypertension artérielle » selon leur âge (en années)

la valeur modale est 40 ans


Répartition des 402 sujets âgés de plus de 18 ans ayant participé à l’enquête «
hypertension artérielle » selon des intervalles de 10 ans

la classe modale correspond à la classe [38 ; 48[


Médiane
Définition:
La médiane est la valeur de la variable telle que 50% des sujets de
l’étude ont une valeur de la variable étudiée inférieure à cette valeur et
50% supérieure

= la valeur centrale partageant la distribution en deux parts égales


Calcul de la médiane
• ordonner les N valeurs de la plus petite à la plus grande
la plus petite valeur aura le rang 1
la plus grande le rang N
• Si l’effectif total N est un nombre impair
N=2*k+1
Donc,
la valeur de l’observation ayant le rang (k+1) = la médiane
Calcul de la médiane
Exemple

1 rang 1 1
1
4 rang 2 2
2 N=10
5 rang 3 3
3
6 rang 4 3
N=2*5
3
4 rang 5 4
Donc médiane c’est
4
5 4 rang 6 4 la valeur qui se
2 5 rang 7 5 trouve entre celle
3 5 rang 8 5 prise par le rang k
6 6 rang 9 6 (5) et le rang k+1 (6)
3 6 rang 10 6

Médiane pour cette série est de 4


Médiane
cas de données par intervalles
• Si La médiane appartient à un intervalle [a, b[
• On estimer la médiane par la formule

(b  a )  N 
médiane  a     n x ; x  
n  2 xi1a  i  
i 1

N : l’effectif total
n : effectif de l’intervalle médian [a-b]
somme des effectifs des classes inférieures à [a-b]
Exemple
Répartition selon l’âge de 402 sujets

(b  a )  N 
La médiane comprise / la tranche d’âge [38-48[ans médiane  a     n x ; x  
58,2% des sujets ont moins de 48 ans n  2 xi1a  i  
i 1

Médiane = 38 + (48-38)/89*(402/2 – (66 + 79)) = 44,3


Moyenne arithmétique
• Soit X une variable aléatoire, on note X ou mx la moyenne
arithmétique obtenue par le calcul suivant:
Exemple
• Les notes (sur 20) à un devoir de français d’une classe de
20 élèves âgés de 10 ans sont les suivants:
5 – 6 – 6 – 8 – 9 – 9 – 9 – 10 – 11 – 12 – 12 – 12 – 12 – 13 – 13 –14 –
15 – 17 -18 – 19
La moyenne arithmétique est égale à:
Pour définir le nombre moyen de voitures des 200 familles enquêtées, il faut utiliser la
formule de moyenne pondérée

(20*0+100*1+67*2+10*3+3*4)/200 = 1,38
Paramètres de dispersion
• Deux séries peuvent avoir la même moyenne arithmétique
• et des dispersions très différentes
• compléter les informations des caractéristiques centrales par les
caractéristiques de dispersion
– Étendue ou intervalle de variation
– Les percentiles
– Variance et écart-type
Étendue ou intervalle de variation

• L'étendue est la différence entre la valeur la plus élevée et la


valeur la plus petite

• Au lieu de donner la mesure de l’étendue il est en réalité plus


pertinent de donner la valeur minimale et la valeur maximale

• Exemple : notes d’examen

• Min:5 et max:19
Les percentiles
Les valeurs pour lesquelles un certain pourcentage de données
a une valeur inférieure
• Le 50ème percentile= médiane
• 25ème percentile appelé 1er quartile:
– La valeur pour laquelle 25% des sujets ont une valeur inférieure à
celle-ci
• Le 75ème percentile = le 3ème quartile
• L’intervalle compris entre le premier quartile et le troisième
quartile est appelé
– Intervalle inter-quartile = l’intervalle à l’intérieur duquel sont
situées les 50% des données centrales
Exemple
45 50 55 58 60 63 64 64 65 66 67 67 68 68 70 73 77 77 79 82

1er Q:
20 sujets 25% entre R5 et R6==1er Q= (60+63)/2=61,5 20100
X25
2ème Q:
X=25*20/100
20 sujets 50% entre R10 et R11==1er Q= (66+67)/2=66,5
3ème Q:
20 sujets 75% entre R15 et R16==1er Q= (70+73)/2=71,5

5ème percentile :
20 sujets 5% entra R1 et R2 = percentile 5%= (45+50)/2=47,5
Variance et écart-type
• La valeur de la moyenne arithmétique permet de déterminer la tendance
centrale
• Deux séries peuvent avoir la même moyenne arithmétique et des
répartitions bien différentes

Les deux séries sont symétriques autour de la


valeur 5,5 =la moyenne arithmétique
Répartition autour valeur moyenne ???
Variance
• La variance mesure la somme des distances au carré entre les
valeurs et leur moyenne
• écart-type est la racine carrée de la variance
• La variance est définie comme la moyenne des écarts à la
moyenne élevés au carré
d=X-m  distance : écart à la moyenne

Somme (Xi-m)=0

Somme (Xi-m)2 # 0 somme des carrés des écarts à la moyenne

Somme (Xi-m)2 /n = variance = moyenne des carrés des écarts à la moyenne


Représentation graphique d’une variable quantitative:
Box plot /boite à moustache
Box plot /boite à moustache
• Centrale du graphique = médiane

• Bords = quartiles Q1 Q3 Q3+1,5*(Q3-Q1)

• Les extrémités des moustaches = 1.5 fois l'espace interquartile

• 50% des observations se trouvent à l'intérieur de la boîte

• Les valeurs à l'extérieur des moustaches sont représentées par


des points
• On ne peut pas dire que si une observation est à l'extérieur des Q1-1,5*(Q3-Q1)
moustaches est une valeur aberrante

• Par contre, cela indique qu'il faut étudier plus en détail cette
observation
Exemple
• Les notes (sur 20) à un devoir de français d’une classe de
20 élèves âgés de 10 ans sont les suivants :
5 – 6 – 6 – 8 – 9 – 9 – 9 – 10 – 11 – 12 – 12 – 12 – 12 – 13 – 13 –14 – 15 –
17 -18 – 19

((5-11,5)² + 2*(6-11,5)² + … + (19-11,5)²)/20 = 14,45


Exercice
Les chiffres tensionnels mesurées chez 50 patients, triés
dans l’ordre croissant, sont donné dans le tableau suivant
110 129 137 146 156
111 129 137 146 157
111 130 139 148 158 Calculer la moyenne, la médiane et l’écart-type.
120 132 139 148 158 Comment peut-on représenter graphiquement cette
122 132 139 150 160 série de donnée?
122 133 141 150 160
125 133 141 150 162
127 133 144 152 163
127 135 144 152 180
128 135 144 154 185
Solution
• Moyenne= (somme des valeurs /50)=141,28
• Mediane =140
• Variance =257,31
• Écart type =16,041
• Q1=129,5
• Q2=médiane
• Q 3=151
Exercice

45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68
70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73

La médiane
Le premier quartile
Le deuxième quartile
Le troisième quartile
Le percentile 5%
Le percentile 25%
Le percentile 95%
Le percentile 97,5%
Le mode
La moyenne
Solution

La médiane 69

Le premier quartile 66,5

Le deuxième quartile 69

Le troisième quartile 72,5

Le percentile 5% 52,5

Le percentile 25% 66,5

Le percentile 95% 73

Le percentile 97,5% 73

Le mode 73

La moyenne 67,7
Estimation et intervalle de confiance

K.BENDAHHOU
Introduction
• En pratique, observations faites sur un échantillon

• Vraie valeur du paramètres dans la population : inconnue

• L’estimation vise à « calculer », à partir des observations, la vraie valeur du


paramètre

• Tenir compte des fluctuations d’échantillonnage estimation par intervalle


Exemple
• Objectif : savoir quel est la fréquence du diabète au Maroc?

• étude

• Echantillon (comment?….)

• Calcul de fréquence sur l’échantillion

• Moyenne trouvée égale à la moyenne du poids de toutes les femmes


Marocaines??
Estimation d’une moyenne inconnue
• sur un échantillon, on pressent que :
• Valeur observée : peu de chances = la valeur inconnue

• valeur observée : néanmoins proche si échantillon est représentatif

• En répétant l’échantillonnage, on trouverait d’autre valeurs, toutes assez proches les


unes des autres.

•  But de l’estimation = calcul des bornes qui permettent de situer avec une
confiance suffisamment grande où se trouve la valeur inconnue du paramètre dans
la population
• Une estimation  un «intervalle de confiance »
Fluctuation d’échantillonnage

• Lorsqu’on a observé la moyenne d’une variable quantitative sur un échantillon, le


problème est d’estimer la véritable moyenne μ inconnue de la population d’où est
extrait l’échantillon

• Cette estimation nécessite de savoir comment fluctue une moyenne observée sur un
échantillon
Fluctuation d’échantillonnage

• Si l’échantillon est représentatif de la population, nous espérons que la valeur m1 observée est assez
proche de la valeur μ inconnue.

• Mais nous ne savons pas à quelle distance et quel coté de μ cette valeur m1 se trouve.

• Si deuxième échantillon de même taille : on obtient alors une deuxième valeur moyenne m2, sans
doute différente de m1, et on ignore de quel coté de μ cette valeur m2 se trouve.

m1 m3 m2

μ inconnue
Fluctuation d’échantillonnage

• Si on disposait de la totalité des échantillons possibles tirés dans la population : pour

chaque échantillon, nous obtiendrons une moyenne µ

m
mmm
mmmmm
mmmmmmmmmm
mmmmmmmmmmm
mmmmmmmmmmmmmmm
mmmmmmmmmmmmmmm
mmmmmmmmmmmmmmmmmmmm
m m m m m m m m m m m1 m3 m m2 m m m m m m m m m

µ
le théorème central limite

• la moyenne d’une variable quantitative calculée sur un échantillon est


elle-même une variable aléatoire.
• Elle varie selon les échantillons
• Cette variable suit une loi normale*
• Cette loi normale est centrée sur la moyenne μ de la population
Rappel : Loi normale (Variable quantitative continue)

• Les 3 mesures de tendance centrale sont égales. l'aire contenue entre -1,96 l'aire contenue entre les 2
points d'inflexion de la
écart type et +1,96 écart courbe mesure la
• l'aire contenue entre les 2 points d'inflexion de la probabilité que les valeurs
type autour de la
courbe mesure la probabilité que les valeurs de x moyenne cette probabilité de x soient comprises entre
-1 écart type et + 1 écart
est de 95% type autour de la moyenne
soient comprises entre -1 écart type et + 1 écart type
cette probabilité est de
autour de la moyenne cette probabilité est de 68% 68%

• l'aire contenue entre -1,96 écart type et +1,96 écart


type autour de la moyenne représente une
probabilité de 95%

• 5% des valeurs sont extérieures à l'intervalle de 2


écart types autour de la moyenne . 2,5% à gauche et
2,5% à droite
Loi normale centrée réduite

• Loi normale de moyenne=0 et écart-type=1


x' = x-µ => centrer la distribution
z =( x-µ)/s
• Variable centrée réduite Z:
• x : variable normale
• µ : moyenne de la variable x
• s : écart type de la variable x
• propriétés :
• 95% des valeurs de Z sont comprises entre -1,96  -2
et + 1,96  +2
Loi normale centrée réduite
Écart type de la moyenne

• Puisque la moyenne d’un échantillon est elle-même une variable aléatoire, on peut
en calculer son écart type

• On démontre que l’écart type de la moyenne m peut être estimé par la valeur

S : écart type des valeurs de l’échantillon S


n : taille de l’échantillon
Sm 
n
Intervalle de confiance d’une moyenne

• But = estimer la valeur de la moyenne inconnue de la population à partir d’une


observation sur un seul échantillon

• On doit donc estimer un intervalle qui a une grande probabilité de contenir la


moyenne inconnue µ

• On démontre (grâce au théorème central limite ) qu’il y a 95% de chances que la


moyenne µ de la population se trouve comprise dans l’intervalle compris entre

m – 1,96 x Sm et m + 1,96 x Sm
• On appelle cet intervalle ,intervalle de confiance à 95 % de la moyenne μ
• On peut exprimer l’intervalle de confiance à 95 % par ces deux formules de
signification équivalente :

m – 1,96 x Sm < µ < m + 1,96 x Sm


Ou bien
µ = m  1,96 x Sm

μ : la moyenne inconnue de la population


m : la moyenne calculée sur l’échantillon
Sm : l’écart type de la moyenne
Condition d’application

• le calcul de l’intervalle de confiance par ces formules nécessite que la


taille de l’échantillon soit supérieure ou égale à 30

• NB : si tel n’est pas le cas, le terme 1,96 devrait être remplacer par
une valeur choisie dans la table T de Student (n-1 ddl)
Table de Student
Signification de l’intervalle de confiance d’une moyenne

 l’intervalle de confiance à 95% d’une moyenne µ

  bornes entre lesquelles on estime sa position

 On ne connaît pas avec exactitude sa vraie valeur, mais on peut dire


qu’on a 95 chances sur 100 que cet intervalle comporte la vraie valeur
Exemple
• Lors d’une enquête sur la durée de sommeil des enfants de 2 à 3 ans
effectuée sur un échantillon de 540 enfants d’une préfecture on a
trouvé une moyenne du temps de sommeil par nuit de 11,7 heures

• L’écart type est 1,3 heures

• Quelle est la moyenne générale du temps de sommeil chez tous les


enfants de la préfecture ?
Solution
• L’écart type de la moyenne est : 1,3
Sm   0, 056
• L’intervalle de confiance à 95% est :
540

11,7  1,96 x 0,056 = 11,7  0,11


heures
La moyenne du temps de sommeil est
donc comprise entre 11,6 et 11,8
heures
Estimation d’un pourcentage inconnu

 Même raisonnement de fluctuation d’échantillonnage pour une moyenne


s’applique de la même manière pour un pourcentage

 On démontre que :
 Un pourcentage observé sur un échantillon est lui même une variable
aléatoire. Il varie selon les échantillons
 Cette variable suit une loi normale
 Cette loi normale est centrée sur le pourcentage P de la population
Écart type d’un pourcentage

 Puisqu’un pourcentage calculé sur un échantillon est lui-même une


variable aléatoire, on peut en calculer son écart type

 On démontre que l’écart type du pourcentage p peut être estimé par


la valeur suivante :

pe (1  pe )
Sp 
n
Intervalle de confiance d’un pourcentage
 But : tenter d ‘estimer la valeur du pourcentage inconnu de la population à partir d’une
observation sur un seul échantillon

 On doit donc estimer un intervalle dans lequel le pourcentage inconnu p a la plus grande
probabilité de se trouver

 On démontre (grâce au théorème central limite) qu’il y a 95% de chances que le


pourcentage p de la population se trouve compris dans l’intervalle compris entre :

pe – 1,96 x Sp et pe + 1,96 x Sp
Intervalle de confiance d’un pourcentage
• On appelle cet intervalle, intervalle de confiance à 95% du pourcentage P
• On peut exprimer l’intervalle de confiance à 95% par ces deux formules de signification
équivalente :

pe – 1,96 x Sp < P < pe + 1,96 x Sp


Ou bien
P = pe  1,96 x Sp

P : pourcentage inconnu de la population


pe : pourcentage calculé sur l’échantillon
Sp : l’écart type du pourcentage
Conditions d’application

 Taille de l’échantillon doit être suffisamment grande

 Si on appelle pi et ps les bornes inférieures et supérieures de l’intervalle de


confiance (calculées comme si les conditions étaient remplies)

 Il faut que les termes npi, nps, n(1-pi), n(1-ps) soient supérieurs ou égaux à
5,
si l’un de ces termes est inférieur à 5, l’intervalle de confiance ne serait pas
valide  recours aux tables de la loi binomiale
Exemple
• Lors d’une enquête sur la durée de sommeil des enfants de 2 à 3 ans
effectuée sur un échantillon de 540 enfants d’une préfecture on a trouvé 86
enfants présentant des troubles du sommeil

• Quelle est la proportion de troubles du sommeil chez tous les enfants de la


préfecture ?
Solution
• La proportion d’enfants présentant des troubles du sommeil dans
l’échantillon est de 86/540 = 15,9%

0,159  (1  0,159)
• L’écart type Sp est :
 0, 016
540
• l’intervalle de confiance à 95% est :
0,159  1,96 x 0,016 = 0,159  0,031
= 15,9%  3,1%
• la proportion d’enfants présentant des troubles dans cette
préfecture est donc comprise entre 12,8% et 19,0%
Signification de l’intervalle de confiance d’un pourcentage

 L’intervalle de confiance à 95% d’un pourcentage P nous indique les bornes


entre lesquelles on estime sa position

 On ne connaît pas avec exactitude sa vraie valeur, mais on peut dire que l’IC
a 95 chances sur 100 de comporter la vraie valeur

 On peut dire en complément qu’il y a quand même 5 chances sur 100 pour
que P soit à l’extérieur de cet intervalle.
Risque d’erreur consentie 

 Nous avons jusqu’à présent estimé une moyenne ou un pourcentage inconnu avec un
intervalle de confiance à 95%, c’est à dire avec un risque d’erreur de 5%

 On appelle ce risque d’erreur, risque 

 Il ne serait pas raisonnable de choisir un risque d’erreur plus élevé, mais rien ne nous
empêche de choisir un risque moindre

 Il faudrait alors remplacer le nombre 1,96 dans les formules par une autre valeur
Risque d’erreur consentie 

• La correspondance entre le risque  consenti et ces valeurs sont fournies par la table de la
loi normale centrée réduite
• Pour chaque valeur du risque , il existe une valeur Z.
 |Z|
20% 1,28
10% 1,65
5% 1,96
2% 2,33
1% 2,58

Les formules d’intervalle de confiance d’une moyenne et d’un pourcentage peuvent être généralisées ainsi

Moyenne : μ = m± Z Sm (n≥30)
Pourcentage : P= pe± Z Sp
Exemple
• Un enquêteur prudent serait tenté de choisir un risque  faible, 1% au lieu de 5%. Il voudrait
obtenir un intervalle de confiance à 99% d’une moyenne ou d’un pourcentage

• on a respectivement :

μ = m  2,58 Sm ou p = pe  2,58 Sp

• Cet intervalle de confiance à 99% est plus large que celui à 95%.

• Cet enquêteur prudent a donc moins de chance de se tromper, mais il fournit une
estimation moins précise
Exemple
 Ainsi, le choix d’un risque d’erreur plus faible se paye du prix d’un intervalle
de confiance plus large, donc d’une estimation moins précise

 Le consensus général adopté par l’ensemble de la communauté scientifique


est de présenter des intervalles de confiance d’au moins 95%
Exercice
• Une enquête réalisée au niveau du CHU pour estimer la prévalence de
l’infection nosocomiale (IN) a montré les résultats suivants :
• Nombre de patients Nombre de patients infectés
Réanimation 27 8
Chirurgie viscérale 85 10
Urologie 67 7
Gastro-entérologie 53 2

Quelle est la fréquence de l’IN au niveau du CHU et son intervalle de confiance ?


Quelle est la fréquence de l’IN selon le service avec IC?
Faites une représentation graphique des données du tableau
Solution

Nombre de patients
Nombre de patients infectés Frequence Bi Bs

Réanimation 27 8 0,30 0,12 0,47

Chirurgie viscérale 85 10 0,12 0,05 0,19

Urologie 67 7 0,10 0,03 0,18

Gastro-entérologie 53 2 0,04 -0,01 0,09

Total 232 27 0,12 0,08 0,16


Solution

Tableau n 1: estimation de la fréquence et IC 95 % de l’IN par service

Nombre de Nombre de
patients patients infectés % BI BS
Réanimation 27 8 0,30 0,12 0,47
Chirurgie viscérale 85 10 0,12 0,05 0,19
Urologie 67 7 0,10 0,03 0,18
Gastro-entérologie 53 2 0,04 -0,01 0,09
Total 232 27 0,12 0,08 0,16
Exercice
• La tuberculose est une maladie infectieuse contagieuse due à
Mycobactérium tuberculosis ou Bacille de koch(BK). Au Maroc, il existe 26 à
28 000 nouveaux cas chaque année.
• Dans un échantillon représentatif de 1000 sujets atteints, on a observé les
résultats suivants :

Formes de tuberculose Nombre de cas Nombre de décès


Tuberculose Pulmonaire 600 40
Primo infection 250 10
Tuberculose extra- 150 8
pulmonaire

Quel est la proportion de tuberculose pulmonaire et son intervalle de confiance?


Solution
Formes de tuberculose Nombre de cas Nombre de décès % BI BS

Tuberculose Pulmonaire 600 40 0,07 0,05 0,09


Primo infection 250 10 0,04 0,02 0,06
Tuberculose extra-pulmonaire 150 8 0,05 0,02 0,09

Quel est la proportion de tuberculose pulmonaire et son intervalle de confiance?


P=600/(600+250+150)*100=60%
IC 95%= [0,56;0,64]
Comment obtenir une meilleure précision donc un intervalle de confiance plus étroit ?

s
µ =m Z n
Précision

P = p Z p (1-p)
n

Soit :
• Diminuer Z , mais c’est augmenter le risque 

• Augmenter la taille de l’ échantillon n qui se trouve au dénominateur de la précision.


Calcul de la taille d’un échantillon
Variable quantitative Variable binaire

s p(1-p)
Précision : i Z i = Z
n
n

Z 2
n  p (1 - p)
2
Z 
n  s² i²

Exemple

On désire estimer avec une précision de 5%


la fréquence d’utilisation des méthodes contraceptives parmi le personnel de santé de Tétouan

IC 95% -----> Z = 1,96


Z 2
n  p ( 1 - p) p ??? littérature ou p = 50% = 0,5

i = 5% = 0,05

1,96²
n  0,5 ( 1 - 0,5)  384
0,05²
Exemple

Les commanditaires de l’enquête désireraient que vous estimiez la fréquence d ’utilisation des méthodes
contraceptives parmi le personnel de santé de Tétouan avec une précision de 3%

 = 5% -----> Z = 1,96

Z 2 p ??? littérature ou p=50% = 0,5


n  p ( 1 - p)
i² i = 3% = 0,03

1,96²
n  0,5 ( 1 - 0,5)  1064 !!
0,03²
Préférez-vous une précision à 3% ou à 5 % ?

Vous aimerez peut-être aussi