P. 1
Statistiques

Statistiques

|Views: 374|Likes:
Publié paralibenhamida5725

More info:

Published by: alibenhamida5725 on Dec 02, 2010
Droits d'auteur :Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPT, PDF, TXT or read online from Scribd
See more
See less

08/08/2013

pdf

text

original

1

STATISTIQUE STATISTIQUE
DESCRIPTIVE DESCRIPTIVE
Samia Ben Abdallah Samia Ben Abdallah
Biostatistiques. PCEM 1 Biostatistiques. PCEM 1
Faculté de Médecine de Tunis Faculté de Médecine de Tunis
Novembre 2008 Novembre 2008
2
Statistiques : Généralités Statistiques : Généralités
Introduction Introduction
Statistiques Statistiques (latin « (latin « status status » état) » état)
Ensemble cohérent de données numériques relatives à Ensemble cohérent de données numériques relatives à
un groupe d'individus. un groupe d'individus.
Statistiques démographiques Statistiques démographiques
Statistiques annuelles des établissements de santé Statistiques annuelles des établissements de santé
Statistiques du chômage Statistiques du chômage
Statistiques de santé Statistiques de santé -- Etat de santé de la population Etat de santé de la population
Statistique Statistique
Ensemble des méthodes qui permettent de rassembler et Ensemble des méthodes qui permettent de rassembler et
d'analyser les données numériques d'analyser les données numériques
Paramètre tel que moyenne... calculé à partir d'un Paramètre tel que moyenne... calculé à partir d'un
ensemble de données ensemble de données
3
La statistique descriptive La statistique descriptive
But : décrire et présenter les données pour que l'on puisse But : décrire et présenter les données pour que l'on puisse
en prendre connaissance facilement. en prendre connaissance facilement.
Tient compte de la Tient compte de la variabilité variabilité des données. des données.
Peut concerner : Peut concerner :
une variable à la fois : statistique à une dimension une variable à la fois : statistique à une dimension
deux variables à la fois : statistique à deux dimensions deux variables à la fois : statistique à deux dimensions
plus de deux variables à la fois : statistique multidimensionnelle plus de deux variables à la fois : statistique multidimensionnelle
Comporte : Comporte :
les tableaux : distributions de fréquences les tableaux : distributions de fréquences
les diagrammes : graphiques les diagrammes : graphiques
les paramètres statistiques : réduction des données à quelques les paramètres statistiques : réduction des données à quelques
valeurs numériques caractéristiques valeurs numériques caractéristiques
4
Présentation des variables (1)
Les variables qualitatives
Se présentent sous plusieurs aspects ou suivant plusieurs
modalités.
Exprimées de façon littérale ou par un codage
Ne Ne permettent permettent pas pas les les calculs calculs arithmétiques arithmétiques (moyenne (moyenne ))
mais mais donnent donnent lieu lieu à à des des dénombrements dénombrements (fréquences (fréquences
absolues absolues et et des des pourcentages pourcentages (fréquences (fréquences relatives) relatives)
Exemples :
Le sexe, la couleur des yeux, l·efficacité ou la non efficacité d·un
traitement, la nature des cellules d·un tissu, le groupe sanguin, «
On définit des catégories ou classes exclusives
correspondant aux différentes modalités du caractère
observé, puis on détermine à quelle classe appartient
chaque individu. Un individu appartient à une classe et
une seule.
5
Présentation des variables (2)
Les variables qualitatives ordinales
Il est possible qu·il existe entre les diverses classes une relation
d·ordre, telle que par exemple : plus grave que , de meilleur
pronostic que
Le caractère observé est alors de type qualitatif ordinal.
Exemple :
Classification en stades 1, 2, 3, 4 des patients atteints de la maladie de
Hodgkin.
Les malades au stade 2 sont plus gravement atteints que ceux qui sont
classés au stade 1, «
Le mécanisme de base reste le même : on affecte chaque individu
à une classe et une seule. Toutefois, notons qu·il existe un ordre
sur les classes.
6
Présentation des variables (3)
Les variables quantitatives
Une variable quantitative prend pour valeur, notée xi, un
nombre résultant de la mesure, avec une unité, du caractère chez
chaque individu.
Un caractère quantitatif Permet les calculs arithmétiques Permet les calculs arithmétiques
(moyenne, écart type...). (moyenne, écart type...).
Un caractère quantitatif est discret ou continu suivant qu·il est
susceptible de prendre des valeurs isolées ou bien toutes les
valeurs de son intervalle de variation.
Exemples de caractères quantitatifs discontinus (ou discrets) : nombre
d·enfants dans une famille, nombre de cellules par mm3, «
Exemples de caractères quantitatifs continus : tension artérielle, glycémie«
7
Les distributions de fréquences Les distributions de fréquences
Fréquences absolues et tableau des effectifs
La fréquence absolue ou effectif noté ni est le nombre
d·individus par classe. Représentation des données
sous forme de tableau: tableau statistique
On peut définir :
Les fréquences relatives notées fi qui sont, pour chaque classe,
le rapport de son effectif au nombre total d·individus de la série
des mesures.
La somme des fréquences relatives fi est égale à 1.
Parfois, les résultats sont exprimés en pourcentage, chacune des
fréquences relatives fi étant multipliée par 100.
En cas de n cas de variable quantitative variable quantitative, on ordonne les x , on ordonne les x
i i
et les et les
fréquences absolues ou relatives peuvent être additionnées de fréquences absolues ou relatives peuvent être additionnées de
proche en proche de manière à obtenir proche en proche de manière à obtenir Les fréquences
cumulées notées Fi.
8
Variable quantitative continue: Tableau statistique Variable quantitative continue: Tableau statistique
Classe Ci ni fi Ni Fi
[0-5[ 2,5 2 0,02 2 0,02
[5-10[ 7,5 15 0,15 17 0,17
[10-15[ 12,5 21 0,21 38 0,38
[15-20[ 17,5 18 0,18 56 0,56
[20-25[ 22,5 14 0,14 70 0,70
[25-30[ 27,5 13 0,13 83 0,83
[30-35[ 32,5 9 0,09 92 0,92
[35-40[ 37,5 5 0,05 97 0,97
[40-45[ 42,5 2 0,02 99 0,99
[45-50[ 47,5 1 0,01 100 1,0
N=100 ™ fi =1
Soit X= « X= « poids en Kg poids en Kg de 100 enfants de 100 enfants » »
9
Variable quantitative continue: Graphique Variable quantitative continue: Graphique
Axe des abscisses : Extrémités de chaque classe et pour
chacune d·elles on construit un rectangle dont la base
est le segment limité aux extrémités de la classe et la
surface est proportionnelle à l·effectif de la classe.
La surface limitée par l·ensemble des rectangles
s·appelle l·histogramme.
Axe des ordonnées : Hauteurs des rectangles Hi= ni/L
Continuité de la variable : les intervalles de classes
doivent être adjacents.
Le contour polygonal joignant les milieux des bases
supérieures des rectangles s·appelle le polygone des
fréquences.
10
Variable continue: Exemple (1) Variable continue: Exemple (1)
Distributionde l'age dans un échantillon de 900
personnes
0
5
10
15
20
25
30
35
1
classes d'ages
H
i
[0 ± 10[ [10 ± 20[ [20 ± 30 [ [30 ± 40[ [40 ± 50[
[50 ± 60[ [60 ± 70[ [70 ± 80[
Polygone de fréquences Histogramme de fréquences
Age ni fi Li Hi
0-10[ 75 0,083 10 7,5
[10-20[ 150 0,167 10 15
[20-30[ 100 0,111 10 10
[30-40[ 125 0,139 10 12,5
[40-50[ 75 0,083 10 7,5
[50-60[ 300 0,333 10 30
[60-70[ 50 0,056 10 5
[70-80[ 25 0,278 10 2,5
Total 900 1,000
11
Variable discrète: Exemple(2) Variable discrète: Exemple(2)
X= « X= « nombre enfants par famille nombre enfants par famille »»
Graphique:diagramme en bâtons Graphique:diagramme en bâtons
Valeur X Valeur X ni ni fi fi Fi Fi
00 66 0,333 0,333 0,333 0,333
11 44 0,222 0,222 0,555 0,555
22 55 0,278 0,278 0,833 0,833
33 22 0,111 0,111 0,944 0,944
44 11 0,056 0,056 1,000 1,000
total total 18 18 1,000 1,000
12
Variable qualitative: Exemple (1)
X: Etat vaccinal X: Etat vaccinal
Graphiques: Graphiques:
Digramme en barres Digramme en barres DDiagramme en secteurs iagramme en secteurs
Etat vaccinal des enfants de 1à 4 ans dans
un échantillon de 200 enfants
0 50 100 150 200
Vacciné
Incorr.vac
Non
vacciné
m
o
d
a
l
i
t
é
s
effectifs
Effectifs (Ni)
tat acci al des e fa ts de a s
da s éc a tillo de e fa ts
Vacciné
75%
Incorr.vac
15%
Non vacciné
10%
Vacciné
Incorr.vac
Non vacciné
Modalité de X Modalité de X ni ni fi fi
Į Įii =360 =360°° x fi x fi
CV CV 150 150 0,75 0,75 270 270
IV IV 30 30 0,15 0,15 54 54
NV NV 20 20 0,10 0,10 36 36
Total Total 200 200 1,00 1,00 360 360
13
Variable qualitative ordinale : Exemple (2)
Sur un échantillon de 500 malades cancéreux, on a noté le stade
de la maladie X
Stade ni fi (%) Fi (%)
1 350 70 70
2 110 22 92
3 30 6 98
4 10 2 100
Cette présentation permet de dire, par exemple, que 92% des sujets
examinés ont un stade inférieur ou égal à 2.
Pour les données ordinales, on peut
également représenter les fréquences
absolues, relatives ou cumulées par
un diagramme en bâtons.
14
Paramètres statistiques
Permettent de présenter de façon simple et abrégée les
caractéristiques principales de l·ensemble des mesures qui ont été
effectuées sur un échantillon ou une population.
On distingue :
Les paramètres de position : moyenne, médiane, mode,
pourcentage ou proportion ;
Les paramètres de dispersion : étendue, variance, écart-type,
quantiles.
Ces paramètres font partie des grandeurs statistiques que l·on
nomme parfois « statistiques ».
15
Paramètres de tendance centrale ou de position(1)
Ce sont les valeurs autour desquelles se groupent les différentes
mesures effectuées sur l·échantillon.
La Moyenne Arithméthique
X: une caractéristique de la tendance centrale de la distribution X: une caractéristique de la tendance centrale de la distribution
observée de la variable étudiée au niveau observée de la variable étudiée au niveau d·un échantillon d·un échantillon..
a) a) Série brute: X = ™ xi/N Série brute: X = ™ xi/N
b) b) Série groupée: X = ( ™ nixi )/N Série groupée: X = ( ™ nixi )/N
c) c) Variable quantitative continue: X = ( ™niCi )/N, avec Variable quantitative continue: X = ( ™niCi )/N, avec
Ci = centre de classe i Ci = centre de classe i
d) d) Variable qualitative: on parle de proportion po Variable qualitative: on parle de proportion po
La moyenne s·exprime dans les mêmes unités que les valeurs
observées. xi
16
Moyenne arithméthique: exemples
a) Considérons la série brute de mesures constituée par les poids
de 5 individus (poids exprimés en kilogrammes) :
70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0. La moyenne est XX == ™™ xi/N xi/N == 72 kg.
b) Considérons la variable X= X= «« nombre nombre d·enfants d·enfants par par famille famille »»
X= X= ((00* *66)+( )+(11* *44)+( )+(22* *55)+( )+(33* *22)+( )+(44* *11)) == 11,,33 enfants/famille enfants/famille
18 18
c) Considérons la variable X=« poids en kg de 100 enfants »
X=(20*7,5)+(10*12,5)+«..+(35*35) =
100
d) d) Considérons Considérons à à la la suite suite de de l·application l·application d·un d·un traitement traitement à à 120 120
malades malades ,, un un nombre nombre de de sujets sujets guéris guéris égal égal à à 36 36;; alors alors po= po= 36 36//120 120==
00,,33==30 30%%
17
Paramètres de tendance centrale ou de position (2)
La Médiane
Me : Valeur divisant la série en deux, laissant de part et d·autre
un nombre égal d·observations.
Ordonner la série de mesures.
La médiane est moins influencée que la moyenne arithmétique
par les valeurs extrêmes.
Série statistique brute:
Deux cas peuvent se présenter :
‡ Si n est impair, la médiane est la valeur de la mesure qui se
situe au milieu de la série de mesures ordonnées :
Me= l·observation de rang n+1/2
‡ Si n est pair, Me= ½ (l·observation de rang n/2+
l·observation de rang n/2 +1)
18
La Médiane
Série statistique groupée:
Classe Classe médiane médiane :: classe classe correspondant correspondant à à une une fréquence fréquence
cumulée cumulée égale égale à à 00,,55
Graphiquement Graphiquement sur sur la la courbe courbe cumulative cumulative des des
fréquences fréquences cumulées cumulées Fi Fi,,
La La médiane médiane Me Me est est la la valeur valeur
de de l'abscisse l'abscisse correspondant correspondant
à à l'ordonnée l'ordonnée égale égale à à 00,,55..
19
La Médiane: exemple (1)
Dans un service de biochimie on a enregistré les
taux de glycémie suivants (en g/l):
2 - 0,85 - 1,2 - 0,9 - 1,4 - 1,5 - 1.
Il faut ordonner la série d·abord et
La médiane cherchée est égale à 1,2
Si dans la série précédente, le plus petit des
taux, c·est-à-dire 0,85 est remplacé par 0,55
kg, la moyenne est influencée alors que la
médiane reste identique.
20
La Médiane: exemple (2)
Soit la distribution de poids de 100 enfants Soit la distribution de poids de 100 enfants
[15,20[ [15,20[ : est la classe médiane : est la classe médiane
Poids X Poids X ni ni fi fi Fi Fi
[5 [5- -10[ 10[ 20 20 0,2 0,2 0,2 0,2
[10 [10- -15[ 15[ 10 10 0,1 0,1 0,3 0,3
[15 [15- -20[ 20[ 20 20 0,2 0,2 0,5 0,5
[20 [20- -30[ 30[ 15 15 0,15 0,15 0,65 0,65
[30 [30- -40[ 40[ 35 35 0,35 0,35 1,00 1,00
Total Total 100 100 1,00 1,00
21
Paramètres de tendance centrale ou de position (3)
Le Mode ou Le Mode ou valeur dominante
Valeur (ou modalité) de la variable dont la fréquence (ni ou fi) est
maximale.
Série groupée , on parle de classe modale dont la fréquence est
maximale.
Un seul maximum de fréquence: distribution unimodale.
Plusieurs maximums de fréquence: distribution plurimodale
( échantillon hétérogène).
Graphiquement c'est la classe correspondant au maximum de
l'histogramme.
Distribution symétrique
et unimodale :
Moyenne, Médiane et Mode
sont confondus.
22
Paramètres de dispersion (1)
La moyenne ne suffit pas pour caractériser un ensemble de
données.
Exemple :
La valeur moyenne de la série 1, 8, 9, 10, 11, 12, 19 est égale à 10.
La valeur moyenne de la série 8, 8, 9, 10, 11, 12, 12, est aussi égale à 10.
Dans le deuxième cas, la dispersion des mesures autour de la
moyenne 10 est beaucoup moins importante que dans le
premier cas.
On distingue:
ETENDUE
VARIANCEet ECART-TYPE
QUANTILES
23
Paramètres de dispersion (2)
Étendue : E d·une série de mesures est la différence entre la
plus grande et la plus petite valeur de la série : E = xmax - xmin
Variance: Le paramètre le plus efficace pour rendre compte de
la dispersion d·une série de mesures est la variance, ou sa racine
carrée : l·écart type.
Dans une population:
™ n i (x i - µ)²
Ƴ²(x) = --------------------- cas d·une série groupée
n
™ (x i - µ)²
Ƴ²(x) = --------------------- cas d·une série non groupée
n
24
Variance et Ecart-type (1)
Dans un échantillon Variance et écart Variance et écart--type estimés de la type estimés de la
population : population :
11
S S
22
= = ------ ------ (™ (x i (™ (x i - - X) X)
22
) ) pour une série non groupée pour une série non groupée
n n - - 11
ҏҏҏҏҏҏ11
S S
22
= = ------ ------ (™ (™ n i n i (x i (x i - -X ) X )
22
) ) pour une série groupée pour une série groupée
n n - - 1 1
L'Écart type L'Écart type S S, c'est la racine carrée de la variance estimée , c'est la racine carrée de la variance estimée S S
22
..
Plus Plus S S est faible ( est faible (proche de 0 proche de 0) plus la distribution ) plus la distribution sera ramassée sera ramassée
autour de la moyenne autour de la moyenne, avec des valeurs très peu différentes les , avec des valeurs très peu différentes les
unes des autres. unes des autres.
25
Variance et Ecart-type (2)
Pour une variable Pour une variable qualitative qualitative : :
S2 S2 = po. qo où po = pourcentage observée = po. qo où po = pourcentage observée
n = taille de l'échantillon n = taille de l'échantillon
qo = 1 qo = 1 -- po po
26
Paramètres de dispersion (3)
Les quantiles : Valeurs de la variable qui divisent
l·échantillon ordonné en groupes d·effectifs égaux.
On distingue:
Les quartiles : séparent les valeurs de la variable en quatre
groupes d·effectifs égaux : Q1, Q2 et Q3
Q1, Q2 et Q3 sont respectivement l'abscisse des points
d'ordonnées 0.25 ; 0.5 ; 0.75 sur la courbe cumulative
croissante.
[Q1- Q3 ] est l·Intervalle interquartile: Il contient 50 % des
observations.
[Q1- Q3 ] est représenté par un diagramme en boite de largeur
arbitraire
27
Les Quartiles: (exemple) Les Quartiles: (exemple)
Exemple :
Soit une série des âges de n = 20 individus : 3, 5, 6, 7, 8,
11, 15, 20, 21, 22, 23, 23, 23, 30, 31, 32, 35, 36,
40, 45.
L·effectif de chaque quartile est donc de 5.
Toute valeur comprise entre 8 et 11 peut être
retenue comme Q1, toute valeur entre 22 et 23
comme Q2 et toute valeur comprise entre 31 et
32 comme Q3.
28
Les Quantiles (2)
Les Centiles : C1 , C2 , ... , C99 divisent une série
statistique ordonnée en 100 parties d'effectifs égaux.
Ce sont les abscisses respectives des points
d'ordonnée 0.01 ; 0.02 ; ... ; 0.99 sur la courbe
cumulative croissante.
Les Déciles: D1 , D2 , ... , D9 divisent une série
statistique en 10 parties d'effectifs égaux.
Ce sont les abscisses respectives des points
d'ordonnée 0.1 ; 0.2 ; ... ; 0.9 sur la courbe cumulative
croissante.
29
Nature de distribution d'une variable Nature de distribution d'une variable
Multitude Multitude de de modes modes de de distribution distribution d'une d'une
variable variable XX (ou (ou lois) lois)..
En En biologie, biologie, c'est c'est la la distribution distribution Gaussienne Gaussienne
ou ou Normale Normale est est la la plus plus fréquente fréquente
Histogramme Histogramme représentant représentant la la distribution distribution des des
valeurs valeurs de de XX d·un d·un échantillon échantillon a a souvent souvent la la forme forme
d·une d·une cloche cloche..
30
Nature de distribution d'une variable Nature de distribution d'une variable
Si Si n n est est grand, grand, les les rectangles rectangles deviennent deviennent étroits, étroits, il il s·agit s·agit
plutôt plutôt d·une d·une distribution distribution de de probabilités probabilités..
Distribution Distribution Normale Normale est est caractérisée caractérisée par par ::
une une courbe courbe en en cloche, cloche, symétrique symétrique par par rapport rapport à à la la
moyenne moyenne µ, µ, appelée appelée " "fonction fonction de de densité densité de de
probabilité probabilité" "
la la moyenne, moyenne, le le mode mode et et la la médiane médiane sont sont confondus confondus..
la la surface surface sous sous la la courbe courbe représente représente l·entièreté l·entièreté de de la la
population population et et la la probabilité probabilité qu'une qu'une variable variable XX prenne prenne
une une valeur valeur plus plus petite petite ou ou plus plus
grande grande qu'une qu'une certaine certaine valeur valeur xi xi
s'obtient s'obtient en en calculant calculant l'aire l'aire
sous sous la la courbe courbe..
31
Distribution Normale Distribution Normale
u
u + l,7o o
u l,7o o
95 %
95% de la population ont des valeurs dans l·intervalle 95% de la population ont des valeurs dans l·intervalle
[[ƬƬ+1,96 +1,96ƳƳ]. ].
32
Distribution Normale Centrée Réduite Distribution Normale Centrée Réduite
Soit Soit une une variable variable XX distribuée distribuée selon selon une une loi loi normale normale de de
moyenne moyenne µ µ et et d'écart d'écart type type ƳƳ quelconque quelconque..
la la transformation transformation ZZ == (X (X - -µ µ ) ) / / ss est est appelée appelée variable variable
normale normale centrée centrée réduite réduite avec avec ( (µ= µ=00 et et Ƴ Ƴ==11))
Toutes Toutes les les probabilités probabilités sont sont calculées calculées et et reprises reprises dans dans
une une table table unique unique celle celle de de la la distribution distribution «« ZZ »»..
Cela Cela correspond correspond à à la la surface surface de de la la courbe courbe normale normale
centrée centrée réduite réduite située située à à
gauche gauche du du trait trait vertical vertical
marquant marquant la la position position de de
la la valeur valeur limite limite zi zi ::
33
Distribution Normale Centrée Réduite Distribution Normale Centrée Réduite
La table ne contient que les valeurs de La table ne contient que les valeurs de zi zi positives parce que: positives parce que:
P (z < zi) = P (z > -zi)
= 1 - P (z < zi)
34
Distribution Normale: exemple Distribution Normale: exemple
La La concentration concentration plasmatique plasmatique de de sodium sodium chez chez des des adultes adultes
en en bonne bonne santé santé suit suit une une distribution distribution normale normale de de moyenne moyenne
135 135 mmol/l mmol/l et et d·écart d·écart type type 33 mmol/l mmol/l..
quelle quelle proportion proportion des des adultes adultes a a une une concentration concentration
plasmatique plasmatique de de sodium sodium << 137 137mmol/l mmol/l ??
Quelle Quelle proportion proportion des des adultes adultes a a une une concentration concentration
plasmatique plasmatique comprise comprise entre entre 137 137 et et 140 140mmol/l mmol/l ??
Quelle Quelle proportion proportion des des adultes adultes a a une une concentration concentration
plasmatique plasmatique comprise comprise entre entre 132 132 et et 138 138mmol/l mmol/l ??
35
Distribution Normale: exemple Distribution Normale: exemple
X N(135, 3) X N(135, 3) Alors Alors
Z= (X Z= (X--135)/3 135)/3 N(0, 1) N(0, 1)
P[X<137]= P[Z< 0,66] = 0.7454 sur la table Z P[X<137]= P[Z< 0,66] = 0.7454 sur la table Z
P[137<X<140]= P[0,66<Z< 1,66] = 0,9615 P[137<X<140]= P[0,66<Z< 1,66] = 0,9615--
0,7454=0,2161 0,7454=0,2161
P[132<X<138]= P[ P[132<X<138]= P[--1<Z< +1]= 2* P[Z< +1] 1<Z< +1]= 2* P[Z< +1]--1= 1=
2*0,8413 2*0,8413--1=0,6826 1=0,6826
36
37
STATISTIQUE STATISTIQUE
INFERENTIELLE INFERENTIELLE
Estimation par Intervalle Estimation par Intervalle
38
Introduction à l·Estimation Introduction à l·Estimation
Estimation d·une moyenne Estimation d·une moyenne
Estimation d·une proportion Estimation d·une proportion
39
Estimation des paramètres d·une variable
But: Déterminer des paramètres inconnus d·une
variable aléatoire (exemple la moyenne et la
proportion) dans une population P à partir
d·échantillons représentatifs de taille n.
l·existence des fluctuations d'échantillonnage
amèneront à construire des échantillons à chaque fois
différents.
A partir d'un échantillon, on ne pourra pas avoir de
certitudes mais faire des estimations.
Pour que ces estimations présentent un degré de
confiance acceptable il faut construire un intervalle
d·estimation appelé intervalle de confiance.
40
Exemple de problème : Exemple de problème :
Population = étudiants de la FMT Population = étudiants de la FMT
Un besoin : Un besoin :
Je voudrais connaître la mesure moyenne
de la glycémie à jeun pour un étudiant en
médecine.
41
Estimation à partir d·un échantillon Estimation à partir d·un échantillon
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Population
Taille : N
(Etudiants de
la FMT)
x
x
x
x
x
x
x
une variable quantitative X =
mesure de la glycémie à jeun
On voudrait
connaître un
paramètre de la
population
Q = la
moyenne des
valeurs de X
dans la
population
Echantillon
taille : n=35
On peut
calculer une
statistique à
partir de
l·échantillon
Estimation Estimation
x
x
x
x
x
x
x
m= moyenne des
valeurs de X
dans l·échantillon
Supposons que l·on trouve m = 4,3 mmol/ L.
On peut estimer Q
par 4,3 (estimation ponctuelle)
ou par une « fourchette » autour de 4,3
(estimation par intervalle)
42
Estimation ponctuelle Estimation ponctuelle
de la moyenne et de la variance de la moyenne et de la variance
Estimation de la moyenne Estimation de la moyenne Q Q
Estimation de la variance Estimation de la variance W W²²
n
x
m
i §
!

2 2

1
1
m n x
n
i

=
¯


1
1
) (
1
1

2
2 2 2
¼
¼
½
»
¬
¬
­
«

=

=
¯
¯ ¯
n
x
x
n
m x
n
s
i
i i
43
Estimation par intervalle(1) Estimation par intervalle(1)
Intervalle de confiance de la moyenne Intervalle de confiance de la moyenne
Un Un intervalle intervalle de de confiance confiance d·un d·un paramètre paramètre inconnu inconnu
est est une une fourchette fourchette de de valeurs valeurs construite construite de de telle telle sorte sorte
qu·une qu·une proportion proportion ((11--EE)) des des intervalles intervalles ainsi ainsi
construits construits recouvrent recouvrent la la vraie vraie valeur valeur du du paramètre paramètre
estimé estimé..
En En pratique, pratique, on on dit dit que que le le paramètre paramètre inconnu inconnu a a une une
probabilité probabilité ((11--EE)) de de se se trouver trouver à à l·intérieur l·intérieur de de cet cet
intervalle intervalle..
( (11- -EE) ) est est le le niveau niveau de de confiance confiance..
44
IC pour la moyenne: illustration
45
Estimation d·une moyenne(2) Estimation d·une moyenne(2)
¯
=

=
n
1 i
2
i
1 n
m) (x
s est pour estimateur bon Un
IC
(1-ơ)
( Q =
C
n
t m - ±
s
t lu sur la table de Student pour n-1 degrés de liberté
et Ş/2 (si table unilatérale) et ơ (si table bilatérale).
Cas général : Ƴ est inconnu
n faible avec X suit une loi normale N(µ ; Ƴ )
46
Estimation d·une moyenne(3) Estimation d·une moyenne(3)
Cas général : Ƴ est inconnu et estimé par S
n > 30 avec distribution de X quelconque
X suit approximativement une loi normale N(µ ; Ƴ )
IC (1-ơ) ( Ƭ )=
ƥ
ơ
lu sur la table de la loi normale pour un
risque ơ.
47
Estimation d·une moyenne: Estimation d·une moyenne: exemple 1
Données de mortalité par Hépatocarcinome (HCC)
X: nombre de mois de survie après diagnostic
échantillon n = 40 patients
Valeurs observées :
5 7 7 8 8 8 9 9 11 11 11 11 12 12 12 12 12 12 14 14
15 16 16 17 17 18 19 19 19 20 20 22 23 25 27 29 32 41
43 45
™xi = 688; ™(xi - m)
2
= 3692,4; ƥ
ơ
= 1,96 , IC
95%
(µ) ?
48
Exemple : données de mortalité par HCC
‡ Que vaut la moyenne des durées de survie dans cet
échantillon ?
m = 688 / 40 = 17,2 mois
‡ Que vaut s
2
?
s2 = 3692,4 / 39 = 94,7 mois2
Estimer l'écart-type de la moyenne
S
m
= ¥ (94,7 / 40) = 1,5 mois
²Intervalle de confiance de la moyenne µ , ơ=5%
IC95% (Ƭ)= [ 17,2 - 1,96×1,5 ; 17,2 + 1,96×1,5 ]
= [ 14,2 ; 20,2 ] sachant que n > 30
Il y a 95 chances sur 100 pour que la survie moyenne µ soit
comprise entre 14,2 et 20,2 mois.
49
Estimation d·une moyenne: Estimation d·une moyenne: exemple (2)
On a dosé les corticoïdes urinaires dans un On a dosé les corticoïdes urinaires dans un
groupe de 253 femmes de poids normal groupe de 253 femmes de poids normal ; on a ; on a
trouvé une moyenne m = 4,5 mg/ 24 heures et trouvé une moyenne m = 4,5 mg/ 24 heures et
un écart un écart--type S= 1,5. ƥ(ơ) = 1.96 type S= 1,5. ƥ(ơ) = 1.96
11-- Calculer I.C (95%)( Ƭ) / Calculer I.C (95%)( Ƭ) / Conditions Conditions
d·application d·application
22-- Si n = 6, quel serait I.C 95%( Ƭ)/ Si n = 6, quel serait I.C 95%( Ƭ)/
Conditions d·application. Conditions d·application.
50
Estimation d·une moyenne: Estimation d·une moyenne: exemple (2)
11- - IC IC ( (95 95% %)( )(µ)? µ)?
N= 253> 30 , alors peu importe la distribution de X
XX:: corticoïdes corticoïdes urinaires urinaires N( N(44,,55 ;; 11,,55)) et et ƥ ƥ( (ơ ơ)= )=11, ,96 96
IC IC ( (95 95% %)( )(µ) µ) == [m [m++ ƥ ƥ( (ơ ơ)* )* S S / / ¥ ¥ NN]]
== [[44, ,55++ 11, ,96 96. . 11, ,55 / / ¥ ¥253 253]] == [[44, ,55 ++ 00. .094 094]]
== [[44, ,31 31 ; ; 44, ,65 65]]
Cet intervalle a 95% de chances de contenir la vraie valeur de la Cet intervalle a 95% de chances de contenir la vraie valeur de la
dose moyenne des corticoïdes urinaires dose moyenne des corticoïdes urinaires µ. µ.
22- - IC IC ( (95 95% %)( )(µ)? µ)?
N= N=66 faible faible C C. .A A : : distribution distribution de de XX est est normale normale
ơơ == 00..05 05 ddl= ddl=55 t( t(ơ ơ/ /22)= )=22. .571 571 (table (table unilatérale) unilatérale)
IC IC ( (95 95% %)( )(µ) µ) =[m =[m++ t( t(ơ ơ/ /22)* )* S S / / ¥N ¥N]] =[ =[44, ,55++ 22. .571 571. . 11, ,55 / / ¥ ¥66]]
==[[44, ,55 ++ 11. .0496 0496]]
=[ =[33, ,450 450 ; ; 55, ,549 549]]
Que Que remarquez remarquez--vous vous ??
51
52
Et pour une proportion, c·est pareil... Et pour une proportion, c·est pareil...
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
Population
Taille : N
Etudiants de la FMT)
x
x
x
x
x
x
x
une variable qualitative «FUMEUR»
On voudrait
connaître un
para ètre de la
population
Ȇ = la
proportion
des fumeurs
dans la
population
Echantillon
taille : n
On peut
calculer une
statistique p
à partir de
l¶échantillon
Esti ation Esti ation
x
x
x
x
x
x
x
p = proportion des
fumeurs
dans lµéchantillon
Supposons que l·on trouve p = 30%. On peut
estimer p par 30% (estimation ponctuelle)
ou par une « fourchette » autour de 30%
(estimation par intervalle )
53
Intervalle de confiance d·une proportion Intervalle de confiance d·une proportion
Intervalle de confiance au risque Intervalle de confiance au risque EE d·une proportion d·une proportion 4 4
inconnue à partir d·un échantillon de taille n présentant une inconnue à partir d·un échantillon de taille n présentant une
proportion proportion p p
Conditions de validité à vérifier à postériori au bornes de
l·IC
² IC
1-ơ
(4 4))= [p1 ; p2]
² vérifier que n p1, n(1- p1), np2, n(1- p2) > 5
Souvent ơ = 5 % , ƥ
ơ
= 1,96
54
Estimation d·une proportion:
exemple - survie à un an par HCC
² n = 40
² Estimer la mortalité à moins d· un an par HCC
p = 18 / 40 = 0,45 = 45 %
² intervalle de confiance à 95 % :
² IC95% = 0,45 ± 0,15 = [0,30 ; 0,60]
² conditions de validité :
‡ 40 × 0,30 = 12 ; 40 × 0,70 = 28> 5
‡ 40 × 0,60 = 24 ; 40 × 0,40 = 16 > 5
55
Estimation par intervalle(2) Estimation par intervalle(2)
Intervalle de pari
56
Fluctuations attendues d ·une moyenne m :
intervalle de pari
Connaissant Connaissant ƬƬ et et ƳƳ dans dans la la population population d·origine, d·origine, on on
peut peut déterminer déterminer l·intervalle l·intervalle de de pari pari IP IP ((11--ơ) ơ) (m) (m)..
Il Il définit définit l·intervalle l·intervalle dans dans lequel lequel une une moyenne moyenne observée observée
mm peut peut évoluer évoluer et et fluctuer fluctuer avec avec une une probabilité probabilité ((11--ơ) ơ)..
On On note note IP IP ((11--ơ) ơ) (m) (m)..
Condition d·application: N> 30
57
Fluctuations attendues d·une proportion:
Intervalle de pari
Connaissant Connaissant ǜǜ dans dans la la population population d·origine, d·origine, on on peut peut
déterminer déterminer l·intervalle l·intervalle de de pari pari IP IP ((11--ơ) ơ) (p) (p)..
Il Il définit définit l·intervalle l·intervalle dans dans lequel lequel une une proportion proportion
observée observée p p dans dans un un échantillon échantillon peut peut évoluer évoluer et et fluctuer fluctuer
avec avec une une probabilité probabilité ((11--ơ) ơ).. On On note note IP IP ((11--ơ) ơ) (p) (p)::
Condition d ·application : n ư et n(1-ư) > 5
58
Intervalle de pari : Exemple 1
On On pense pense que que la la fréquence fréquence d·une d·une maladie maladie dans dans la la
population population PP est est ǜ= ǜ=20 20% %
Calculer Calculer IP IP ((95 95%%)) de de la la proportion proportion observée observée p p sur sur un un
échantillon échantillon de de 64 64 individus individus..
Réponse: Réponse:
N= N= 64 64 ơơ == 00..05 05 ƥ ƥ((ơơ)= )=11,,96 96..
IP IP ( (95 95% %) ) (p)= (p)= [ǜ+ [ǜ+ ƥ ƥ((ơơ)) ¥ ¥ [ǜ( [ǜ( 11-- ǜǜ )/N]] )/N]]
=[ =[00..22++ 11..96 96 ¥ ¥ [ [00..22 (( 11-- 00..22)/ )/64 64]] ]]
=[ =[00. .22++ 00. .098 098]= ]= [[00. .102 102; ; 00. .298 298]]
C C. .A A : : 64 64. . 00, ,22== 12 12. .88>>55; ; 64 64. . 00, ,88 >>55
59
Intervalle de pari : Exemple 2
On s'intéresse à la température corporelle, mesurée en degrés
Celsius (°C) des patients atteints de grippe sévère, 3 jours après le
début de la maladie. On supposera par la suite que cette mesure de
la température est une variable gaussienne. On sait que chez les
malades qui s'aggravent la température fluctue autour de sa
moyenne µ = 39 avec un écart type = 1.
On constitue un échantillon de n malades grippés qui s'aggravent.
Parmi les propositions suivantes, laquelle est vraie ?
a. Il s·agit de déterminer un intervalle de pari à 95% de la
température moyenne de N sujets; si oui le calculer.
b. Il s·agit de déterminer un intervalle de confiance à 95% de la
température moyenne de N sujets; si oui le calculer.
C. Il faut préciser une condition sur N pour répondre; si oui la
préciser.
60
COMPARAISON
Intervalle de confiance/Intervalle de pari
Intervalle de pari
Construit autour de l·espérance
Ƭ de la variable aléatoire.
Utilise la variance théorique Ƴ
2
.
Définit l·intervalle dans lequel
une moyenne observée m peut
évoluer avec une probabilité 1-ơ
Fixe
Intervalle de confiance
Construit autour de la moyenne
observée m d·un échantillon.
Utilise la variance observée
S
2
.
Définit l·intervalle dans
lequel l·espérance théorique Ƭ
peut se situer avec une probabilité
1- ơ.
variable
61
Théorie des Théorie des
tests statistiques tests statistiques
62
Théorie des tests statistiques Théorie des tests statistiques
Définition Définition :: le le test test statistique statistique donne donne une une règle règle
permettant permettant de de décider décider si si l·on l·on peut peut rejeter rejeter une une
hypothèse, hypothèse, en en fonction fonction des des observations observations
relevées relevées sur sur des des échantillons échantillons..
Démarche Démarche scientifique scientifique
Poser Poser une une hypothèse hypothèse
Conduire Conduire une une expérience expérience
Analyser Analyser la la compatibilité compatibilité de de cette cette hypothèse hypothèse avec avec
les les observations observations issues issues de de l·expérience l·expérience
63
Hypothèses Hypothèses
Hypothèse nulle : l·hypothèse dont on cherche à savoir si elle
peut être rejetée, notée H
0
souvent définie comme une absence de différence ou liaison
Exemple :
La taille dépend elle du genre de l·individu ?
H
0
: Les tailles moyennes des mâles et des femelles sont égales
La structure en âge varie-t-elle entre deux populations ?
H
0
: La distribution en âge (fréquence) est indépendante de la
population (la même dans les deux populations).
Hypothèse alternative : hypothèse concurrente, notée H
1
Ho et H1 portent toujours sur les valeurs vraies des paramètres
étudiés.
64
Notion de risque (1) Notion de risque (1)
Erreur de première espèce (E) : :
probabilité de trouver une différence
statistiquement significative alors qu·il n·y en a pas.
Probabilité de Rejeter H
0
alors que H
0
est vraie.
Erreur de seconde espèce (F) :
probabilité de ne pas mettre en évidence une
différence statistiquement significative alors qu·elle
existe.
Probabilité de ne pas rejeter H
0
alors que H
0
n·est
pas vraie
(E) et (F) évoluent en sens inverse.
65
Notion de risque (2) Notion de risque (2)
66
Puissance statistique Puissance statistique
Puissance statistique : (1- F
c·est la capacité du test à mettre en évidence une
différence ou une liaison qui existe réellement.
C·est la capacité du test de rejeter Ho et elle est
fausse.
On On calcule calcule un un nombre nombre de de sujets sujets nécessaire nécessaire pour pour
obtenir obtenir une une puissance puissance donnée donnée..
67
Degrés de signification
Degrés de signification: p
Si p > ơ, alors on ne rejette pas Ho.
Si p< ơ, alors on rejette Ho et on conclut à l'existence d'une
liaison ou d·une différence.
plus le degré de signification est faible, plus on est convaincu plus le degré de signification est faible, plus on est convaincu
que les résultats observés ne sont pas en cohérence avec que les résultats observés ne sont pas en cohérence avec
l·hypothèse nulle. l·hypothèse nulle.
p= 0,001 Cela veut dire que si l'hypothèse nulle était vraie
(absence de différence selon le test), les fluctuations
d·échantillonnage donneraient moins de 1 chance pour 1000
d'observer une telle différence entre les deux paramètres à
comparer.
68
Application: Test de l·écart réduit Application: Test de l·écart réduit
Comparaison d'un pourcentage observé à Comparaison d'un pourcentage observé à
un pourcentage théorique: un pourcentage théorique:
Exemple: Exemple:
Dans Dans une une étude étude menée menée auprès auprès de de 1000 1000 ouvriers ouvriers
au au fond fond des des mines, mines, le le taux taux de de mortalité mortalité (Po) (Po)
était était de de 99 pour pour 1000 1000.. Le Le taux taux national national (( TT)) étant étant
de de 77 pour pour 1000 1000.. Est Est--ce ce que que le le taux taux observé observé chez chez
les les mineurs mineurs diffère diffère significativement significativement du du chiffre chiffre
national national ??
69
1- Ho: Absence de différence entre les proportions
théorique et observée
2- fixer le risque d·erreur ơ= 5%
3- Conditions de validité : N ư = 1000* 0,007= 7 > 5
N (1- ư) = 1000* 0,993 =993>5
4- Calculer la statistique du test ƥ o :
Po ư
ƥ o = ___________ = 0,75
____________
˜ ư (1 - ư )
N
Test de l·écart réduit : Étapes Test de l·écart réduit : Étapes
70
Test de l·écart réduit : Étapes Test de l·écart réduit : Étapes
5- Déterminer la valeur théorique de ƥ(ơ) lue sur la table
de l·Écart ² réduit ; ƥ(5%)= 1,96
6- Comparer ƥ o à la valeur théorique ƥ(ơ)
7- Décision: si ƥ o < ƥ(ơ) alors on ne rejette pas Ho
si ƥ o > ƥ(ơ) alors on rejette Ho et on
détermine p ( degrés de signification) sur table de
l·Écart -réduit.
ƥo = 0.75< ƥ(ơ= 5% )=1.96 alors : Au risque 5% on n'a
pas mis en évidence une différence statistiquement
significative entre les deux pourcentages.
71
Test de l·écart réduit Test de l·écart réduit
Comparaison de pourcentage dans deux Comparaison de pourcentage dans deux
groupes indépendants: groupes indépendants:
On dispose de deux échantillons (A et B) sur lesquels on On dispose de deux échantillons (A et B) sur lesquels on
a mesuré une variable qualitative binaire. a mesuré une variable qualitative binaire.
Ces deux échantillons peuvent Ces deux échantillons peuvent--ils être considérés comme ils être considérés comme
étant issus de la même population ? (Les deux étant issus de la même population ? (Les deux
pourcentages P pourcentages P
A, A,
PP
BB
sont ils deux estimateurs du même sont ils deux estimateurs du même
pourcentage P ?) pourcentage P ?)
72
Test de l·écart réduit Test de l·écart réduit
Comparaison de 2 pourcentages observés : Comparaison de 2 pourcentages observés :
Exemple: Exemple:
On On a a testé testé deux deux médicaments médicaments antalgiques antalgiques A A et et
BB dans dans le le traitement traitement des des céphalées céphalées auprès auprès de de
200 200 personnes personnes ((100 100 par par groupe) groupe)..
Les Les taux taux de de succès succès sont sont respectivement respectivement de de 80 80%%
pour pour le le médicament médicament A A et et 70 70%% pour pour le le
médicament médicament BB.. On On se se propose propose de de comparer comparer
l'efficacité l'efficacité de de ces ces deux deux médicaments médicaments..
73
Test de l·écart réduit: Étapes Test de l·écart réduit: Étapes
1- Ho: Absence de différence entre les proportions
Ho: ư
A
= ư
B
La La différence différence observée observée est est due due au au hasard hasard et et
non non aux aux traitements traitements
2- fixer le risque d·erreur ơ= 5%
3- Calculer la proportion commune aux deux échantillons p:
p p== n n
A A
p p
A A
++ n n
BB
p p
BB
== 100 100* * 00,,88 ++ 100 100* * 00,,77 == 00,,75 75
n n
A A
++ n n
BB
100 100++100 100
4- Vérifier les conditions de validité :
n
A
* * p p >> 55 n
B
* * p p >> 55
n
A
* * (( 11--p) p) >> 55 n
B
* * (( 11--p) p) >> 55
74
Test de l·écart réduit: Étapes Test de l·écart réduit: Étapes
55- - Calculer la statistique du test Calculer la statistique du test ƥ o:
p
A
p
B
0,8- 0,7
ƥ o = ___________ = ___________ = 1,64
˜ (pq/n
A
)+(pq/n
B
˜ (0,75*0,25/100)+(0,75*0,25/100)
6- Déterminer la valeur théorique de ƥ(ơ) lue sur la table de
l·Écart ² réduit ƥ
(5%)
= 1,96
7- Comparer ƥ o à la valeur théorique ƥ(ơ)
8- Décision: si ƥ o < ƥ(ơ) alors on ne rejette pas Ho
si ƥ o > ƥ(ơ) alors on rejette Ho et on détermine p
(degrés de signification) sur table de l·Écart -réduit.
ƥo = 1,64< ƥ(ơ= 5% )=1.96 alors au risque 5% on ne met pas en
évidence une différence statistiquement significative entre les
deux taux de succès et les deux traitement ont la même efficacité.
75
Test du Chi deux Test du Chi deux
Comparaison de 2 pourcentages observés Comparaison de 2 pourcentages observés
dans deux groupes indépendants: dans deux groupes indépendants:
On On dispose dispose de de deux deux échantillons échantillons (A (A et et B) B) sur sur lesquels lesquels on on
a a mesuré mesuré une une variable variable qualitative qualitative dichotomique dichotomique. .
Ces Ces deux deux échantillons échantillons peuvent peuvent--ils ils être être considérés considérés
comme comme étant étant issus issus de de la la même même population population ?? (Les (Les deux deux
pourcentages pourcentages PP
A, A,
PP
BB
sont sont ils ils deux deux estimateurs estimateurs du du même même
pourcentage pourcentage PP ?) ?)..
76
Test du Chi deux Test du Chi deux
Exemple: Exemple:
On On dispose dispose de de 100 100 souris souris qui qui sont sont réparties réparties par par
tirage tirage au au sort sort en en deux deux groupes groupes de de 50 50 souris souris.. Le Le
premier premier groupe groupe est est soumis soumis à à la la fumée fumée de de cigarettes cigarettes
et et le le second second à à celle celle de de cigares cigares.. On On observe observe un un
pourcentage pourcentage de de cancer cancer de de 20 20%% dans dans le le groupe groupe
cigarettes cigarettes et et de de 12 12%% des des cas cas dans dans le le groupe groupe cigare cigare..
Cette Cette différence différence est est--elle elle significative significative au au seuil seuil de de
risque risque 55%%??
77
Effectif souris Effectif souris
avec cancer avec cancer
Effectif souris Effectif souris
sans cancer sans cancer
Total Total
Groupe A Groupe A
Cigarettes Cigarettes
N N
A+ A+
= 50 * 0,2 = = 50 * 0,2 = 10 10
40 40
NN
A A
= 50 = 50
Groupe B Groupe B
Cigares Cigares
N N
B+ B+
= 50* 0,12= = 50* 0,12= 66
44 44
N N
B B
= 50 = 50
Total Total
16 16 84 84
N = 100 N = 100
Tableau des valeurs observées : Tableau des valeurs observées :
Test du Chi deux Test du Chi deux
78
Test du Chi deux: Étapes Test du Chi deux: Étapes
Formuler les hypothèses Formuler les hypothèses
HO : HO : ư ư
A A
= = ư ư
B B
La différence observée est due au hasard et non aux goudrons
H1 : H1 : ư ư
A A
# # ư ư
BB
test bilatéral test bilatéral
Fixer ơ à 5%
Vérifier les conditions de validité::
O On calcule les n calcule les effectifs théoriques d·indépendance ( sous Ho). d·indépendance ( sous Ho).
Total ligne (TL1) X Total colonne (TC1) Total ligne (TL1) X Total colonne (TC1)
C1 C1 = _____________________________________= = _____________________________________= (50*16)/100 (50*16)/100
Total général Total général
idem pour C2, C3, C4
On vérifie que tous les Ci > 5. On vérifie que tous les Ci > 5.
79
Test du Chi deux: Étapes Test du Chi deux: Étapes
Tableau des valeurs observées et théoriques. Tableau des valeurs observées et théoriques.
Nombre de
souris avec
cancer
Nombre de
souris sans
cancer
Cigarettes
10 40
50
Cigares
6 44
50
16 84 100
8
42
42
8
Nombre de
souris avec
cancer
Nombre de
souris sans
cancer
Cigarettes
10 40
50
Cigares
6 44
50
16 84 100
8
42
42
8
Tous les effectifs théoriques sont supérieurs à 5 Les conditions
d·application sont remplies.
80
Test du Chi deux: Étapes Test du Chi deux: Étapes
Calculer la statistique du test Khi2:
Khi2 = ™ (Oi Ci ) = ™ (Observés théoriques )
Ci théorique
= 1,19
Comparer Khi 2
observée
à Khi 2
ơ, d dl
avec ddl= (C-1)*(L-1)
lue sur la table du chi deux.
Décision:
Si Khi 2
observée
< Khi 2
ơ, d dl
Non rejet de Ho
Si Khi 2
observée
> Khi 2
ơ, ddl
Rejet de Ho et détermination p
Khi 2 =
(10- 8)
2
8
+
DDL = 1
(6- 8)
2
8
+
(40- 42)
2
42
+
(44- 42)
2
42
+
Khi 2 =
(10- 8)
2
8
+
(10- 8)
2
8
+
DDL = 1
(6- 8)
2
8
+
(6- 8)
2
8
+
(40- 42)
2
42
+
(40- 42)
2
42
+
(44- 42)
2
42
+
(44- 42)
2
42
+
81
Test du Chi deux: Étapes Test du Chi deux: Étapes
Khi 2
observée
= 1,19 <
Khi 2
5%, 1 ddl
=3,84
On ne met pas en
évidence une différence
statistiquement
significative entre les
pourcentages de cancer
dans les deux groupes
donc pas de liaison
entre le type du
goudron et la maladie
au seuil de risque 5%.
DDL
Seuil
Į 5,59
.10 .05 .02 .01 .001
1 2,71
3,84
5,41 6,64 10,83
2 4,60 5,99 7,82 9,21 13,82
3 6,25 7,82 9,84 11,34 16,27
4 7,78 9,49 11,67 13,28 18,46
82
Test du Chi deux: Étapes Test du Chi deux: Étapes
Si Khi 2
observée
= 5,59 > Khi 2
5%, 1 ddl
=3,84
alors alors rejet rejet de de Ho Ho et et on on détermine détermine p p
p p << 00, ,02 02:: si si les les pourcentages pourcentages de de cancer cancer sous sous
cigarettes cigarettes et et sous sous cigare cigare sont sont identiques identiques (Ho (Ho
vraie) vraie) alors alors la la probabilité probabilité d·observer d·observer une une telle telle
différence différence (i (i..ee.. 20 20%% vs vs 12 12%%)) ou ou une une différence différence
plus plus grande grande encore encore est est << 22%%..
83
Khi deux et Correction de Yates Khi deux et Correction de Yates
Le Le calcul calcul du du Khi Khi deux deux exige exige que que tous tous les les effectifs effectifs
théoriques théoriques Ci Ci soient soient supérieurs supérieurs ou ou égaux égaux à à 55..
Dans Dans le le cas cas où où::
Un Un ou ou plusieurs plusieurs effectifs effectifs théoriques théoriques 33 << Ci Ci << 55
ddl ddl == 11
On On peut peut utiliser utiliser la la correction correction de de Yates Yates::
Khi Khi deux deux corrigé corrigé == 77 (|Oi (|Oi - - Ci| Ci| - - 11/ /22) )
22
Ci Ci
Idem Idempour pour le le reste reste du du test test..
84
Comparaison de deux moyennes Comparaison de deux moyennes
observées observées
Une Une variable variable qualitative qualitative binaire binaire qui qui permet permet de de définir définir
deux deux groupes groupes (ex (ex:: adm adm°° de de deux deux somnifères) somnifères)..
Une Une variable variable quantitative quantitative (ex (ex:: durée durée du du sommeil) sommeil)
pour pour calculer calculer dans dans chaque chaque groupe groupe les les différents différents
paramètres paramètres de de la la distribution distribution :: moyenne, moyenne, estimateur estimateur
de de l·écart l·écart type type... ...
Les Les moyennes moyennes observées observées dans dans chacun chacun des des groupes groupes
peuvent peuvent elles elles être être considérées considérées comme comme des des
estimateurs estimateurs de de la la même même moyenne moyenne aux aux fluctuations fluctuations du du
hasard hasard près près..
85
Comparaison de deux moyennes Comparaison de deux moyennes
observées observées
Hypothèses : Hypothèses :
Ho : µ Ho : µ
A A
= µ = µ
B B
((La différence observée est due au hasard)
H1 : µ H1 : µ
A A
# µ # µ
BB
Test bilatéral Test bilatéral
En En pratiques pratiques deux deux cas cas de de figure figure ::
n n
A A
et et n n
B B
sont sont grands grands ((supérieurs à 30)) :: Les Les calculs calculs
sont sont simplifiés, simplifiés, on on peut peut utiliser utiliser une une approche approche par par la la loi loi
normale normale Test Test de de l·Ecart l·Ecart- -réduit réduit..
Un Un des des effectifs effectifs ou ou les les deux deux sont sont << 30 30 :: En En plus plus de de
l·égalité l·égalité des des variances, variances, la la distribution distribution du du paramètre paramètre doit doit suivre suivre
une une loi loi normale normale Test Test de de Student Student..
86
Comparaison Comparaison de moyennes : Exemple 1 de moyennes : Exemple 1
On On veut veut comparer comparer le le temps temps moyen moyen de de survie survie
après après injection injection d·un d·un poison poison A A a a celui celui d·un d·un
poison poison témoin témoin T, T, et et on on note note le le temps temps de de survie survie
en en jours jours de de chaque chaque souris souris..
11
er er
lot lot:: mm
A A
==17 17..55j j S S
A A
22
== 49 49..55 n n
A A
==100 100
22
ème ème
lot lot:: mm
TT
==22O O..05 05j j S S
TT
22
== 57 57..00 n n
TT
==100 100
Comparer Comparer les les temps temps moyens moyens de de survie survie après après
injection injection de de A A et et TT
87
Test de l·Ecart Test de l·Ecart- -réduit: Exemple1 réduit: Exemple1
11-- Ho : Ho : µµ
A A
=µ =µ
TT
((La différence observée est due au hasard et non aux poisons)
H1 : µ H1 : µ
A A
# µ # µ
TT
Test bilatéral Test bilatéral
22--fixer le risque d·erreur: fixer le risque d·erreur: ơơ= 5% = 5%
33--Conditions de validités Conditions de validités: :
n n
A A
et n et n
TT
>30 >30 on utilise le test de l·écart réduit on utilise le test de l·écart réduit
44--Calculer la statistique du test Calculer la statistique du test ƥ ƥo o::
 m
A
- m
T

ƥo = _________________________ = 2,47
____________________
S
2
A
S
2
T
˜ _______ + _______
n
A
n
T
88
Test de l·Ecart Test de l·Ecart- -réduit: Exemple1 réduit: Exemple1
55-- Déterminer la valeur critique Déterminer la valeur critique ƥ ƥ
ơơ= 5% = 5%
=1.96 =1.96
66-- Décision: Décision: ƥ ƥo=2.47 o=2.47> > ƥ
ơ= 5%
=1.96
On On rejette rejette Ho Ho pour pour le le risque risque ơơ== 55%% et et on on conclut conclut a a
l·existence l·existence d·une d·une différence différence statistiquement statistiquement significative significative
entre entre les les temps temps moyens moyens de de survie survie après après injection injection de de A A et et
TT
On On détermine détermine le le degrés degrés de de signification signification de de cette cette
différence différence p< p<00..02 02 sur sur la la table table de de l·écart l·écart réduit réduit::
89
Table de l·écart réduit Table de l·écart réduit
Degrés de signification<0.02
90
Comparaison Comparaison de moyennes : Exemple2 de moyennes : Exemple2
Un dosage biologique a donné les résultats suivants: Un dosage biologique a donné les résultats suivants:
11
er er
groupe de sujets: groupe de sujets:
22
ème ème
groupe de sujets: groupe de sujets:
La différence entre les deux moyennes est elle La différence entre les deux moyennes est elle
statistiquement significative au risque statistiquement significative au risque ơơ=5% ? =5% ?
0.8 0.8 0.9 0.9 0.1 0.1 1.9 1.9
0.5 0.5 0.6 0.6 0.6 0.6 0.7 0.7
91
Test de Student Test de Student
11-- Ho : Ho : µµ
11
=µ =µ
22
((La différence observée est due au hasard)
H1 : µ H1 : µ
11
# µ # µ
22
Test bilatéral Test bilatéral
22--fixer le risque d·erreur fixer le risque d·erreur ơơ= 5% = 5%
33--Vérifier les conditions de validité: Vérifier les conditions de validité:
n
1
=4 et n
2
=4 <30
Égalité des variances Ƴ
1
2
= Ƴ
2
2
test de Student
Distribution normale de la variable dose
44-- Calculer la variance commune Calculer la variance commune S S
22::
S S
22
= = [(n [(n
11
--1) S 1) S
11
22
+ (n + (n
22
--1) S 1) S
22
22
] = 0,011 ] = 0,011
(n (n
11
+n +n
22
--2) 2)
92
Test de Student : Exemple 2 Test de Student : Exemple 2
55-- Calculer la statistique du test To Calculer la statistique du test To::
To= To= mm
11
- -mm
22
= 4,71 = 4,71
¥ S ¥ S
22
(1/n (1/n
11
+ 1/n + 1/n
22
) )
m1=0.95 m2= 0.6 S1=0.016 S2= 0.06 S= 0,011 m1=0.95 m2= 0.6 S1=0.016 S2= 0.06 S= 0,011 ddl ddl=8 =8--2=6 2=6
66-- Lire Lire T
(ddl=6; ơ=0.05))
= 2.447 sur la table de = 2.447 sur la table de Student Student bilatérale bilatérale
77-- Comparer Comparer To To à à T T
(ddl=6;ơ=0.05) )
88-- Décision Décision : : To To > > T
(ddl=6;ơ=0.05) )
Rejet de Rejet de Ho pour le risque Ho pour le risque ơ ơ= 5% = 5%
et on conclut a l·existence d·une différence significative entre et on conclut a l·existence d·une différence significative entre les les
moyennes de dosage moyennes de dosage µ1et µ2 avec p µ1et µ2 avec p< O,O1. < O,O1.
93
94
Comparaison moyenne observée Comparaison moyenne observée - -
moyenne théorique moyenne théorique
Exemple Exemple
Dans Dans un un échantillon échantillon de de 114 114 sujets sujets extrait extrait d·une d·une
population population de de sexe sexe masculin masculin âgés âgés de de 50 50 à à 59 59 ,,
on on mesure mesure le le taux taux de de cholestérol cholestérol dans dans le le sang sang..
mo= mo= 195 195..44 mg/ml mg/ml S S == 45 45..66
On On se se demande demande si si la la moyenne moyenne mo mo est est
compatible compatible avec avec la la moyenne moyenne de de référence référence
µ= µ=185 185 mg/ml mg/ml (nationale) (nationale)..
95
Comparaison moyenne observée Comparaison moyenne observée - -
moyenne théorique moyenne théorique
11--Ho: Ho: µµ
A A
=µ =µ H1 H1 : : µµ
11
# µ # µ
22
22--fixer le risque d·erreur fixer le risque d·erreur ơơ= 5% = 5%
33--Vérifier conditions de validité Vérifier conditions de validité ::
n =114>30 n =114>30 Test de l·écart réduit. Test de l·écart réduit.
44-- Calculer la statistique du test Calculer la statistique du test ƥ ƥoo::
ƥ ƥoo = = mo mo- -µ µ = 2.43 = 2.43
¥( S ¥( S
22
/n) /n)
96
Comparaison moyenne observée Comparaison moyenne observée - -
moyenne théorique moyenne théorique
55-- Lire Lire ƥ
ơ= 5%
=1.96 sur la table de l·écart réduit. sur la table de l·écart réduit.
66-- Comparer Comparer ƥ ƥo= o= 2.43 2.43 à à ƥ
ơ= 5%
=1.96
77-- Décision: Décision: ƥ ƥo= o= 2.43 2.43 > > ƥ
ơ= 5%
=1.96 Rejet Ho Rejet Ho
pour le risque pour le risque ơơ= 5% = 5% et on conclut a l·existence et on conclut a l·existence
d·une différence significative entre d·une différence significative entre les deux taux les deux taux
moyens de cholestérol dans le sang moyens de cholestérol dans le sang
p <0.02 est lu sur la table de l·écart réduit p <0.02 est lu sur la table de l·écart réduit
97
Table de l·écart réduit Table de l·écart réduit
Degres de signification<0.02
98
Exercices Exercices
99
Exercices Exercices
100
Exercices Exercices
101
102
Fluctuations attendues d ·une moyenne m:
intervalle de pari
La moyenne m calculée sur un échantillon
de taille n (supérieure ou égale à 30)
fluctue suivant une distribution gaussienne
d ·espérance µ et de variance Ƴ
2
/ n dans un
intervalle de pari à (1-ơ)% défini par :
103
Fluctuations attendues d·une proportion:
Intervalle de pari
Une proportion p calculée sur un échantillon de taille n
fluctue suivant une distribution gaussienne d ·espérance
ư et de variance (ư(1îư))/ n ) dans un intervalle de pari
à (1-ơ)%défini par :
Condition d ·application : nư et n(1-ư) > 5
104
Test du Chi deux : Test du Chi deux :
Utilité Utilité : Le test du CHI : Le test du CHI--DEUX permet la DEUX permet la
comparaison de pourcentages observés. comparaison de pourcentages observés.
Exemple Exemple 11 : Soient 120 patients atteints d·1 : Soient 120 patients atteints d·1
même maladie qui ont été traités par 2 trait même maladie qui ont été traités par 2 trait
différents , parmi les 70 qui ont reçu le différents , parmi les 70 qui ont reçu le
traitement A 22 ont guéri ; Parmi les 50 qui ont traitement A 22 ont guéri ; Parmi les 50 qui ont
reçu un trait B 25 ont guéri. reçu un trait B 25 ont guéri.

You're Reading a Free Preview

Télécharger
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->