Académique Documents
Professionnel Documents
Culture Documents
Fi Chier 556
Fi Chier 556
statistique
LAOUENAN Cédric
20/11/2008
cedric.laouenan@free.fr
Utilité des statistiques
• Résumer des données : statistiques descriptives
(déductives)
• Tester des hypothèses : inférence statistique
(inductives)
• Quantitative
– Discrète :
– nombre d’enfants d’une famille
– âge en années
– Continue :
– poids
– dosage biologique
Caractérisation des données qualitatives et ordinales
• Fréquences relatives
= pour chaque classe, le rapport de son effectif au
nombre total d’individus
Cette présentation permet de dire, par exemple, que 92% des sujets examinés
ont un stade inférieur ou égal à 2.
Caractérisation des données qualitatives et ordinales
• Diagramme « camembert »
On peut représenter les effectifs absolus ou relatifs des classes par
des secteurs de cercle dont la surface est proportionnelle à
l’effectif
Caractérisation des données qualitatives et ordinales
– Moyenne arithmétique :
série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0)
Moyenne = 72 kg
La médiane est moins influencée que la moyenne par les valeurs extrêmes
Médiane
• Nombre impair d’observations (n=5)
– 1, 3, 7, 10, 15
– 2 obs. inférieures, 2 obs. supérieures
• Nombre pair d’observations (n=6)
– 1, 3, 7, 10, 15, 20
– Médiane = (7+10)/2 = 8,5
Quantiles
• Exemple des quartiles : on définie 3 valeurs appelées
quartiles : Q1, Q2 et Q3 qui partagent l’effectif total,
après l’avoir ordonné, en 4 classes de même effectif
(Q2 = médiane)
Caractérisation des données quantitatives
• Paramètres de dispersion
Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10
Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10
mais la dispersion des mesures autour de la moyenne est ≠
Caractérisation des données quantitatives
• Paramètres de dispersion
s2
i
( x x ) 2
n 1
Caractérisation des données quantitatives
• Paramètres de dispersion
• Histogramme
Les données quantitatives continues peuvent être représentées par
un histogramme
• Boîtes à moustache
max
Q75
Q50
Q25
min
Statistique inférentielle (1)
NB : les questions que l’on se pose, les hypothèses que l’on formule
concernent la population
Attention !
µ reste constant, c'est l'intervalle de confiance qui varie autour de µ
pour chaque échantillon
Problèmes des échantillons
1. Représentativité
2. Fluctuation d’échantillonnage :
– variation de l’estimation de la vraie valeur (en
population) d’un échantillon à l’autre du fait du
simple hasard
Fluctuations aléatoires
Échantillon 1
48%
Échantillon 2
52%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 3
50%
Échantillon 4
45%
Fluctuations aléatoires
Échantillon 1
9%
Échantillon 2
12%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 3
16%
Échantillon 4
26%
Fluctuations aléatoires d'échantillonnage
• Jamais nulles
Fluctuations aléatoires d'échantillonnage
Effet du traitement = 0
• Erreurs statistiques
– dues uniquement au hasard
• Principe
– conclure à une différence
– que si le risque de faire une erreur est faible
Erreur statistique alpha (petit p)
• Risque alpha (faux positif) :
– risque de conclure à une différence qui n’existe pas
– considérer comme efficace un traitement qui ne l’est pas
Échantillon 1
7.5%
Différence
Vrai valeur
non réelle
12%
Échantillon 2
15%
Erreur statistique bêta (puissance)
• Risque bêta (faux négatif) :
– risque de ne pas mettre en évidence une différence qui existe réellement
– ne pas conclure alors que le traitement est efficace
p1 = 7%
Quelle est la probabilité de commettre une erreur
si je conclus à partir de ces données
à l'existence d'une réelle différence
p0 = 13%
• Calcul de la probabilité p
• p : probabilité que "la différence observée soit
due uniquement au hasard"
• p représente le risque de faire une conclusion
erronée si l'on décidait de conclure
• p est une quantification du risque alpha
• On ne conclut que si ce risque d'erreur est
suffisamment petit
Seuil de risque
• Seuil de risque de conclusion erronée acceptable
– seuil de risque alpha = 5%
Différence significative
p<0.05
Il est peu probable que la
différence observée soit due
Différence au hasard
Test
observée
Différence non significative
p>0.05
La probabilité que la
différence observée soit due
au hasard est forte
Absence réelle
d'effet
Résultat
non significatif ?
Manque de
puissance
Exemple
OBJECTIF : Evaluer l’efficacité d’une injection unique de
tobramycine chez des patientes atteintes une pyélonéphrite aiguë
IC 95%
-8 -6 -4
Résultat
observé
Relation entre IC et test
-2% [-9%;+2%] NS
Différence
0