Télécharger au format ppt, pdf ou txt
Télécharger au format ppt, pdf ou txt
Vous êtes sur la page 1sur 53

Introduction à l’analyse

statistique

LAOUENAN Cédric
20/11/2008
cedric.laouenan@free.fr
Utilité des statistiques
• Résumer des données : statistiques descriptives
(déductives)
• Tester des hypothèses : inférence statistique
(inductives)

• Outils de la statistiques descriptive : tables de


distribution de fréquence, résumés numériques
(position, dispersion), graphiques

• Outils de la statistique inférentielle : estimation,


intervalle de confiance, tests statistiques
Statistiques descriptives
• Le but des statistiques descriptives est de
décrire un ensemble d’observations à l’aide
de quelques éléments caractéristiques

Exemple : la taille moyenne des français adultes


Types de variables
• Qualitative (on définie des classes)
– Nominal :

malade/non malade

groupe sanguin

sexe

catégorie socio-professionnelle
– Ordinal (si il existe un ordre sur les classes) :
– niveau d’étude
– stade de gravité d’une maladie

• Quantitative
– Discrète :
– nombre d’enfants d’une famille
– âge en années
– Continue :
– poids
– dosage biologique
Caractérisation des données qualitatives et ordinales

• Fréquence absolue et tableau des effectifs


= nombre d’individus par classe

Description de l’échantillon des groupes sanguins

• Fréquences relatives
= pour chaque classe, le rapport de son effectif au
nombre total d’individus

Fréquences relatives (exprimées en pourcentage)


Caractérisation des données qualitatives et ordinales

• Fréquences cumulées (relatives et absolues)


Les fréquences cumulées sont utilisées pour les données ordinales

Cette présentation permet de dire, par exemple, que 92% des sujets examinés
ont un stade inférieur ou égal à 2.
Caractérisation des données qualitatives et ordinales

• Diagramme « camembert »
On peut représenter les effectifs absolus ou relatifs des classes par
des secteurs de cercle dont la surface est proportionnelle à
l’effectif
Caractérisation des données qualitatives et ordinales

• Diagramme en bâtons, mode


Pour les données ordinales, on peut également représenter les
fréquences absolues, relatives ou cumulées par un diagramme en bâtons
Caractérisation des données quantitatives
• Les paramètres de position

– Moyenne arithmétique :
série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0)
Moyenne = 72 kg

– Médiane : nombre égal d’observations de part et d’autre


il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0)
Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5)

La médiane est moins influencée que la moyenne par les valeurs extrêmes

– Mode : modalité observée avec la plus haute fréquence

– Quantiles (percentiles, déciles, quartiles) :on partage la distribution en


un nombre quelconque de parties (100, 10, 4, etc.)
Caractérisation des données quantitatives

Médiane
• Nombre impair d’observations (n=5)
– 1, 3, 7, 10, 15
– 2 obs. inférieures, 2 obs. supérieures
• Nombre pair d’observations (n=6)
– 1, 3, 7, 10, 15, 20
– Médiane = (7+10)/2 = 8,5

Quantiles
• Exemple des quartiles : on définie 3 valeurs appelées
quartiles : Q1, Q2 et Q3 qui partagent l’effectif total,
après l’avoir ordonné, en 4 classes de même effectif
(Q2 = médiane)
Caractérisation des données quantitatives

Si la distribution de fréquences est symétrique et unimodale,


moyenne, médiane et mode sont confondus
Caractérisation des données quantitatives

• Paramètres de dispersion
Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10
Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10
mais la dispersion des mesures autour de la moyenne est ≠
Caractérisation des données quantitatives

• Paramètres de dispersion

– Variance : moyenne des carrés des écarts à la moyenne


de l’échantillon

Exemple : Calcul de la variance et de l’écart-type de la mesure des poids


de 5 individus dans un échantillon de moyenne 72 kg

s2 
 i
( x  x ) 2

n 1
Caractérisation des données quantitatives

• Paramètres de dispersion

– Ecart-type : racine carrée de la variance

– Étendue : différence entre la plus grande et la plus


petite valeur de la série

– Intervalle inter-quartile : représente 50 % des


observations centrées sur la médiane. La largeur de
cet intervalle = (Q3 - Q1)
Caractérisation des données quantitatives

• Histogramme
Les données quantitatives continues peuvent être représentées par
un histogramme

La surface de chacun des rectangles est proportionnelle au nombre


d’individus de la classe
Caractérisation des données quantitatives

• Boîtes à moustache

max
Q75
Q50
Q25
min
Statistique inférentielle (1)

Estimation et intervalle de confiance


Définitions
• Population : ensembles d’unités sur lesquelles une caractéristique
peut être relevée

NB : les questions que l’on se pose, les hypothèses que l’on formule
concernent la population

• Echantillon : partie de la population d’intérêt de taille suffisamment


petite pour que la caractéristique auquel on s’intéresse puisse être
effectivement mesurée sur tous les sujets qui le composent

NB : Les observations faites sur l’échantillon servent à répondre aux


questions que l’on se pose sur la population

Les caractéristiques observées sont des variables aléatoires


Population, échantillon
Le statisticien n’étudie pas le caractère sur l’ensemble de la
population mais sur un échantillon extrait de la population,
pour plusieurs raisons, entre autres :

• La taille de la population peut être très importante et


le coût de l’enquête serait trop important

• L’accès à tous les individus de la population est


matériellement impossible

Un bon échantillon doit constituer une image réduite de


l’ensemble de la population (= être représentatif) dont
on veut étudier un caractère bien défini. Dans le cas
contraire, on dit que l’échantillon est biaisé
Échantillonnage

Comment choisir un échantillon pour qu’il soit


représentatif ?

Techniques d’échantillonnage par Tirage au


sort (= sondage aléatoire)
Problème de l’estimation
• Comment les paramètres de la population peuvent-ils être estimés
à partir de l'échantillon ?

• Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir


estimer ce paramètre pour la population entière
Estimateur
• Un bon estimateur doit :
– Être sans biais
– Avoir une faible variance

Biais et variance pour 3 estimateurs d’un paramètre θ :


U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2)
U3 est un estimateur biaisé
Intervalle d’estimation = intervalle de confiance

= intervalle, déterminé à partir des données d’un


échantillon, dans lequel on peut parier que se situe la
vraie valeur de la population cible
(avec un risque de se tromper acceptable)

• L’intervalle de confiance d’une valeur estimée dépend


– De la variabilité des données
– De la taille de l’échantillon
– Du niveau de confiance (probabilité que la vraie valeur se trouve
dans un intervalle)
Construction de 100 estimations d’intervalle. La vraie valeur μ est
correctement encadrée dans 95 % des situations

Attention !
µ reste constant, c'est l'intervalle de confiance qui varie autour de µ
pour chaque échantillon
Problèmes des échantillons

1. Représentativité
2. Fluctuation d’échantillonnage :
– variation de l’estimation de la vraie valeur (en
population) d’un échantillon à l’autre du fait du
simple hasard
Fluctuations aléatoires

Échantillon 1
48%

Échantillon 2
52%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 3
50%

Échantillon 4
45%
Fluctuations aléatoires

Échantillon 1
9%

Échantillon 2
12%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 3
16%

Échantillon 4
26%
Fluctuations aléatoires d'échantillonnage

• Fortes pour des effectifs petits et moyens

• Faibles pour des grands effectifs

• Jamais nulles
Fluctuations aléatoires d'échantillonnage

• Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être


différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même

• Elles sont susceptibles de fausser les comparaisons


Conséquences des fluctuations

Effet du traitement = 0

Vrai risque = 10% Vrai risque = 10%


Groupe T+ Groupe T-

Risque observé = 6% Risque observé = 12%

Différence observée = -6%


Problématique des comparaisons
• La différence observée de -6% est-elle ?

– une manifestation des fluctuations aléatoires :


donc due uniquement au hasard

– la traduction d’une réelle différence entre les deux groupes :


donc d’un effet non nul du traitement
et donc décider d'utiliser le nouveau traitement

• Comment départager ces 2 possibilités ?

Solution = test statistique


• Le hasard peut faire apparaître une différence
qui n'existe pas en réalité

• Inversement, le hasard peut réduire une


différence qui existe réellement

donc 2 façons de fausser la conclusion


Statistique inférentielle (2)

Principes généraux des tests statistiques


Les tests statistiques

• Il s’agit de tirer des conclusions sur la population à


partir de l’étude d’un ou plusieurs caractères
observés sur les individus d’un ou de plusieurs
échantillons issus de cette population

• Tests d’hypothèses : ils permettent de faire des


inférences statistiques

• Outils d'aide à la décision


Risques d’erreur statistique
• Deux risques d'erreur
– Risque alpha
– Risque bêta

• Erreurs statistiques
– dues uniquement au hasard

• Principe
– conclure à une différence
– que si le risque de faire une erreur est faible
Erreur statistique alpha (petit p)
• Risque alpha (faux positif) :
– risque de conclure à une différence qui n’existe pas
– considérer comme efficace un traitement qui ne l’est pas

Échantillon 1
7.5%
Différence
Vrai valeur
non réelle
12%
Échantillon 2
15%
Erreur statistique bêta (puissance)
• Risque bêta (faux négatif) :
– risque de ne pas mettre en évidence une différence qui existe réellement
– ne pas conclure alors que le traitement est efficace

Vrai valeur Échantillon 1


12% 15%
Fausse absence
de différence

Vrai valeur Échantillon 2


19% 15%
Conclusion

Différence Pas de différence

Différence Pas d’erreur Erreur bêta


Réalité

Pas de différence Erreur alpha Pas d’erreur


Principe général du test statistique

p1 = 7%
Quelle est la probabilité de commettre une erreur
si je conclus à partir de ces données
à l'existence d'une réelle différence
p0 = 13%

Probabilité faible Probabilité forte

Conclusion Pas de conclusion

Conclure à l'existence d'une différence que si le


risque de faire une conclusion erronée est faible
Démarche du test statistique

• Calcul de la probabilité p
• p : probabilité que "la différence observée soit
due uniquement au hasard"
• p représente le risque de faire une conclusion
erronée si l'on décidait de conclure
• p est une quantification du risque alpha
• On ne conclut que si ce risque d'erreur est
suffisamment petit
Seuil de risque
• Seuil de risque de conclusion erronée acceptable
– seuil de risque alpha = 5%

si p<0,05  rejeter H0  conclusion = diff. significative


si p>0,05  ne pas rejeter H0  conclusion = diff. non significative

• On contrôle le risque alpha


– mais le risque d'erreurs alpha persiste
– 100 essais avec un traitement sans efficacité
conclusion à tort à l'efficacité dans 5 essais
Signification statistique

Différence significative
p<0.05
Il est peu probable que la
différence observée soit due
Différence au hasard
Test
observée
Différence non significative
p>0.05
La probabilité que la
différence observée soit due
au hasard est forte

Seuil de signification statistique = 5%


Réalisation du test

• Calcul à partir des données de la probabilité de


commettre une erreur alpha = p

p<5%  conclusion à l'existence


p1 = 7%
de la différence
p = 0.04
p0 = 13% parce que le risque de faire une
conclusion fausse est faible

p>5%  impossible de conclure à


p1 = 20%
l'existence d'une différence
p = 0.25
car si on concluait à une différence,
p0 = 17%
le risque d'erreur serait trop fort
Risque d'erreur bêta
• Le risque bêta est incalculable
• Impossible de quantifier le risque d'erreur quand on fait
une conclusion d'absence de différence
– il est donc impossible de faire ce type de conclusion
– les tests permettent seulement de conclure à l'existence d'une
différence

– en cas de différence non signification


• impossible de conclure
• et ne permet surtout pas de conclure à l'absence de différence vu
que le risque d'erreur est inconnu
• "l'absence de preuve n'est pas la preuve de l'absence"
Différence non significative (NS)

Absence réelle
d'effet
Résultat
non significatif ?
Manque de
puissance
Exemple
OBJECTIF : Evaluer l’efficacité d’une injection unique de
tobramycine chez des patientes atteintes une pyélonéphrite aiguë

RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe


tobramycine et 58 dans le groupe placebo.
- 2 échecs sont survenus dans le groupe tobramycine
- et 4 dans le groupe placebo (p non significatif).

CONCLUSION : L’administration d’une dose de tobramycine


n’améliore aucun paramètre clinique dans le traitement des
pyélonéphrites aiguës (ou manque de puissance…?)
Dualité entre test
et intervalle de confiance
Intervalle de confiance
• Intervalle qui a 95% de chance de contenir la vraie valeur
« IC 95% »

• il est raisonnable de parier que la vraie valeur est dans


l'intervalle (prob de 95%)

• il est peu probable (prob 5%)


– que la vraie valeur soit > à la borne sup
– ou que la vraie valeur soit < à la borne inf
– il est donc peu raisonnable de parier que la vraie valeur soit à
l'extérieur de l'IC
Intervalle de confiance
• Différence = -6%
• IC 95% = [-8%;-4%]
• L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
• Reflète l'incertitude de l'estimation
• Il n'est pas possible d'exclure que le vrai effet ne soit que
de -4%
p<0.05 NS

IC 95%
-8 -6 -4
Résultat
observé
Relation entre IC et test

• IC d’une différence n'incluant pas 0


– [-10% ; -4%]

– la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero


est <=5%
– donc il est possible de conclure à une différence non nulle car le
risque d’erreur alpha est <=5%
= différence significative (au seuil de 5%)

• IC de la différence des risques incluant 0


– [-20% ; 20%]
= différence non significative
-5% [-10%,-2%] P<0.05

-2% [-9%;+2%] NS

Différence
0

Vous aimerez peut-être aussi