Académique Documents
Professionnel Documents
Culture Documents
données
K.Bendahhou
C’est quoi une variable ?
On appelle variable tout caractère, sujet à prendre des états
différents selon :
Les individus,
Le temps
Ou le lieu d'observation
Ainsi par exemple, le sexe, l'âge, le groupe sanguin, la tension artérielle, le
nombre de lits par hôpital, et la durée d'hospitalisation sont des variables
C'est pour cela que nous parlons de variables
Comment obtenir des variables ?
• Information recueillie /questionnaire/mesure /
observation ….
– Niveaux de questionnement sont différents
– Relèvent directement une mesure
– Objective telle que l’âge ou le sexe……
– Subjective
• Satisfaction d’une action
• Évaluation de la qualité d’un produit
Types de la question
• Questions fermées /proposent réponses
possibles=modalités les différentes
• Exemple:
– Nombre d'enfants d'une famille est une variable quantitative
discrète qui peut prendre les valeurs : 0, 1, 2, 3, 4, 5, …
Perte d’information
Variable ordinale
1 rang 1 1
1
4 rang 2 2
2 N=10
5 rang 3 3
3
6 rang 4 3
N=2*5
3
4 rang 5 4
Donc médiane c’est
4
5 4 rang 6 4 la valeur qui se
2 5 rang 7 5 trouve entre celle
3 5 rang 8 5 prise par le rang k
6 6 rang 9 6 (5) et le rang k+1 (6)
3 6 rang 10 6
(b a ) N
médiane a n x ; x
n 2 xi1a i
i 1
N : l’effectif total
n : effectif de l’intervalle médian [a-b]
somme des effectifs des classes inférieures à [a-b]
Exemple
Répartition selon l’âge de 402 sujets
(b a ) N
La médiane comprise / la tranche d’âge [38-48[ans médiane a n x ; x
58,2% des sujets ont moins de 48 ans n 2 xi1a i
i 1
(20*0+100*1+67*2+10*3+3*4)/200 = 1,38
Paramètres de dispersion
• Deux séries peuvent avoir la même moyenne arithmétique
• et des dispersions très différentes
• compléter les informations des caractéristiques centrales par les
caractéristiques de dispersion
– Étendue ou intervalle de variation
– Les percentiles
– Variance et écart-type
Étendue ou intervalle de variation
• Min:5 et max:19
Les percentiles
Les valeurs pour lesquelles un certain pourcentage de données
a une valeur inférieure
• Le 50ème percentile= médiane
• 25ème percentile appelé 1er quartile:
– La valeur pour laquelle 25% des sujets ont une valeur inférieure à
celle-ci
• Le 75ème percentile = le 3ème quartile
• L’intervalle compris entre le premier quartile et le troisième
quartile est appelé
– Intervalle inter-quartile = l’intervalle à l’intérieur duquel sont
situées les 50% des données centrales
Exemple
45 50 55 58 60 63 64 64 65 66 67 67 68 68 70 73 77 77 79 82
1er Q:
20 sujets 25% entre R5 et R6==1er Q= (60+63)/2=61,5 20100
X25
2ème Q:
X=25*20/100
20 sujets 50% entre R10 et R11==1er Q= (66+67)/2=66,5
3ème Q:
20 sujets 75% entre R15 et R16==1er Q= (70+73)/2=71,5
5ème percentile :
20 sujets 5% entra R1 et R2 = percentile 5%= (45+50)/2=47,5
Variance et écart-type
• La valeur de la moyenne arithmétique permet de déterminer la tendance
centrale
• Deux séries peuvent avoir la même moyenne arithmétique et des
répartitions bien différentes
Somme (Xi-m)=0
• Par contre, cela indique qu'il faut étudier plus en détail cette
observation
Exemple
• Les notes (sur 20) à un devoir de français d’une classe de
20 élèves âgés de 10 ans sont les suivants :
5 – 6 – 6 – 8 – 9 – 9 – 9 – 10 – 11 – 12 – 12 – 12 – 12 – 13 – 13 –14 – 15 –
17 -18 – 19
45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68
70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73
La médiane
Le premier quartile
Le deuxième quartile
Le troisième quartile
Le percentile 5%
Le percentile 25%
Le percentile 95%
Le percentile 97,5%
Le mode
La moyenne
Solution
La médiane 69
Le deuxième quartile 69
Le percentile 5% 52,5
Le percentile 95% 73
Le percentile 97,5% 73
Le mode 73
La moyenne 67,7
Estimation et intervalle de confiance
K.BENDAHHOU
Introduction
• En pratique, observations faites sur un échantillon
• étude
• Echantillon (comment?….)
• But de l’estimation = calcul des bornes qui permettent de situer avec une
confiance suffisamment grande où se trouve la valeur inconnue du paramètre dans
la population
• Une estimation un «intervalle de confiance »
Fluctuation d’échantillonnage
• Cette estimation nécessite de savoir comment fluctue une moyenne observée sur un
échantillon
Fluctuation d’échantillonnage
• Si l’échantillon est représentatif de la population, nous espérons que la valeur m1 observée est assez
proche de la valeur μ inconnue.
• Mais nous ne savons pas à quelle distance et quel coté de μ cette valeur m1 se trouve.
• Si deuxième échantillon de même taille : on obtient alors une deuxième valeur moyenne m2, sans
doute différente de m1, et on ignore de quel coté de μ cette valeur m2 se trouve.
m1 m3 m2
μ inconnue
Fluctuation d’échantillonnage
m
mmm
mmmmm
mmmmmmmmmm
mmmmmmmmmmm
mmmmmmmmmmmmmmm
mmmmmmmmmmmmmmm
mmmmmmmmmmmmmmmmmmmm
m m m m m m m m m m m1 m3 m m2 m m m m m m m m m
µ
le théorème central limite
• Les 3 mesures de tendance centrale sont égales. l'aire contenue entre -1,96 l'aire contenue entre les 2
points d'inflexion de la
écart type et +1,96 écart courbe mesure la
• l'aire contenue entre les 2 points d'inflexion de la probabilité que les valeurs
type autour de la
courbe mesure la probabilité que les valeurs de x moyenne cette probabilité de x soient comprises entre
-1 écart type et + 1 écart
est de 95% type autour de la moyenne
soient comprises entre -1 écart type et + 1 écart type
cette probabilité est de
autour de la moyenne cette probabilité est de 68% 68%
• Puisque la moyenne d’un échantillon est elle-même une variable aléatoire, on peut
en calculer son écart type
• On démontre que l’écart type de la moyenne m peut être estimé par la valeur
m – 1,96 x Sm et m + 1,96 x Sm
• On appelle cet intervalle ,intervalle de confiance à 95 % de la moyenne μ
• On peut exprimer l’intervalle de confiance à 95 % par ces deux formules de
signification équivalente :
• NB : si tel n’est pas le cas, le terme 1,96 devrait être remplacer par
une valeur choisie dans la table T de Student (n-1 ddl)
Table de Student
Signification de l’intervalle de confiance d’une moyenne
On démontre que :
Un pourcentage observé sur un échantillon est lui même une variable
aléatoire. Il varie selon les échantillons
Cette variable suit une loi normale
Cette loi normale est centrée sur le pourcentage P de la population
Écart type d’un pourcentage
pe (1 pe )
Sp
n
Intervalle de confiance d’un pourcentage
But : tenter d ‘estimer la valeur du pourcentage inconnu de la population à partir d’une
observation sur un seul échantillon
On doit donc estimer un intervalle dans lequel le pourcentage inconnu p a la plus grande
probabilité de se trouver
pe – 1,96 x Sp et pe + 1,96 x Sp
Intervalle de confiance d’un pourcentage
• On appelle cet intervalle, intervalle de confiance à 95% du pourcentage P
• On peut exprimer l’intervalle de confiance à 95% par ces deux formules de signification
équivalente :
Il faut que les termes npi, nps, n(1-pi), n(1-ps) soient supérieurs ou égaux à
5,
si l’un de ces termes est inférieur à 5, l’intervalle de confiance ne serait pas
valide recours aux tables de la loi binomiale
Exemple
• Lors d’une enquête sur la durée de sommeil des enfants de 2 à 3 ans
effectuée sur un échantillon de 540 enfants d’une préfecture on a trouvé 86
enfants présentant des troubles du sommeil
On ne connaît pas avec exactitude sa vraie valeur, mais on peut dire que l’IC
a 95 chances sur 100 de comporter la vraie valeur
On peut dire en complément qu’il y a quand même 5 chances sur 100 pour
que P soit à l’extérieur de cet intervalle.
Risque d’erreur consentie
Nous avons jusqu’à présent estimé une moyenne ou un pourcentage inconnu avec un
intervalle de confiance à 95%, c’est à dire avec un risque d’erreur de 5%
Il ne serait pas raisonnable de choisir un risque d’erreur plus élevé, mais rien ne nous
empêche de choisir un risque moindre
Il faudrait alors remplacer le nombre 1,96 dans les formules par une autre valeur
Risque d’erreur consentie
• La correspondance entre le risque consenti et ces valeurs sont fournies par la table de la
loi normale centrée réduite
• Pour chaque valeur du risque , il existe une valeur Z.
|Z|
20% 1,28
10% 1,65
5% 1,96
2% 2,33
1% 2,58
Les formules d’intervalle de confiance d’une moyenne et d’un pourcentage peuvent être généralisées ainsi
Moyenne : μ = m± Z Sm (n≥30)
Pourcentage : P= pe± Z Sp
Exemple
• Un enquêteur prudent serait tenté de choisir un risque faible, 1% au lieu de 5%. Il voudrait
obtenir un intervalle de confiance à 99% d’une moyenne ou d’un pourcentage
• on a respectivement :
μ = m 2,58 Sm ou p = pe 2,58 Sp
• Cet intervalle de confiance à 99% est plus large que celui à 95%.
• Cet enquêteur prudent a donc moins de chance de se tromper, mais il fournit une
estimation moins précise
Exemple
Ainsi, le choix d’un risque d’erreur plus faible se paye du prix d’un intervalle
de confiance plus large, donc d’une estimation moins précise
Nombre de patients
Nombre de patients infectés Frequence Bi Bs
Nombre de Nombre de
patients patients infectés % BI BS
Réanimation 27 8 0,30 0,12 0,47
Chirurgie viscérale 85 10 0,12 0,05 0,19
Urologie 67 7 0,10 0,03 0,18
Gastro-entérologie 53 2 0,04 -0,01 0,09
Total 232 27 0,12 0,08 0,16
Exercice
• La tuberculose est une maladie infectieuse contagieuse due à
Mycobactérium tuberculosis ou Bacille de koch(BK). Au Maroc, il existe 26 à
28 000 nouveaux cas chaque année.
• Dans un échantillon représentatif de 1000 sujets atteints, on a observé les
résultats suivants :
s
µ =m Z n
Précision
P = p Z p (1-p)
n
Soit :
• Diminuer Z , mais c’est augmenter le risque
s p(1-p)
Précision : i Z i = Z
n
n
Z 2
n p (1 - p)
2
Z
n s² i²
i²
Exemple
1,96²
n 0,5 ( 1 - 0,5) 384
0,05²
Exemple
Les commanditaires de l’enquête désireraient que vous estimiez la fréquence d ’utilisation des méthodes
contraceptives parmi le personnel de santé de Tétouan avec une précision de 3%
= 5% -----> Z = 1,96
1,96²
n 0,5 ( 1 - 0,5) 1064 !!
0,03²
Préférez-vous une précision à 3% ou à 5 % ?