Fi Chier 556

Introduction à l’analyse
statistique
LAOUENAN Cédric
20/11/2008
cedric.laouenan@free.fr
Utilité des statistiques
• Résumer des données : statistiques descriptives
(déductives)
• Tester des hypothèses : inférence statistique
(inductives)
• Outils de la statistiques descriptive : tables de

distribution de fréquence, résumés numériques
(position, dispersion), graphiques
• Outils de la statistique inférentielle : estimation,

intervalle de confiance, tests statistiques
Statistiques descriptives
• Le but des statistiques descriptives est de
décrire un ensemble d’observations à l’aide
de quelques éléments caractéristiques
Exemple : la taille moyenne des français adultes

Types de variables
• Qualitative (on définie des classes)
– Nominal :
–
malade/non malade
–
groupe sanguin
–
sexe
–
catégorie socio-professionnelle
– Ordinal (si il existe un ordre sur les classes) :
– niveau d’étude
– stade de gravité d’une maladie
• Quantitative
– Discrète :
– nombre d’enfants d’une famille
– âge en années
– Continue :
– poids
– dosage biologique
Caractérisation des données qualitatives et ordinales
• Fréquence absolue et tableau des effectifs

= nombre d’individus par classe
Description de l’échantillon des groupes sanguins
• Fréquences relatives
= pour chaque classe, le rapport de son effectif au
nombre total d’individus
Fréquences relatives (exprimées en pourcentage)

• Fréquences cumulées (relatives et absolues)

Les fréquences cumulées sont utilisées pour les données ordinales
Cette présentation permet de dire, par exemple, que 92% des sujets examinés
ont un stade inférieur ou égal à 2.
• Diagramme « camembert »
On peut représenter les effectifs absolus ou relatifs des classes par
des secteurs de cercle dont la surface est proportionnelle à
l’effectif
• Diagramme en bâtons, mode

Pour les données ordinales, on peut également représenter les
fréquences absolues, relatives ou cumulées par un diagramme en bâtons
Caractérisation des données quantitatives
• Les paramètres de position
– Moyenne arithmétique :
série de mesures : poids de 5 individus (70,0 ; 68,5 ; 72,5 ; 73,0 ; 76,0)
Moyenne = 72 kg
– Médiane : nombre égal d’observations de part et d’autre

il faut ordonner cette série de mesures (68,5 ; 70 ; 72,5 ; 73,0 ; 76,0)
Médiane = 72,5 Kg (autant de mesures < 72,5 que de mesures > 72,5)
La médiane est moins influencée que la moyenne par les valeurs extrêmes
– Mode : modalité observée avec la plus haute fréquence
– Quantiles (percentiles, déciles, quartiles) :on partage la distribution en

un nombre quelconque de parties (100, 10, 4, etc.)
Médiane
• Nombre impair d’observations (n=5)
– 1, 3, 7, 10, 15
– 2 obs. inférieures, 2 obs. supérieures
• Nombre pair d’observations (n=6)
– 1, 3, 7, 10, 15, 20
– Médiane = (7+10)/2 = 8,5
Quantiles
• Exemple des quartiles : on définie 3 valeurs appelées
quartiles : Q1, Q2 et Q3 qui partagent l’effectif total,
après l’avoir ordonné, en 4 classes de même effectif
(Q2 = médiane)
Si la distribution de fréquences est symétrique et unimodale,

moyenne, médiane et mode sont confondus
• Paramètres de dispersion
Moyenne de la série : 1, 8, 9, 10, 11, 12, 19 = 10
Moyenne de la série : 8, 8, 9, 10, 11, 12, 12 = 10
mais la dispersion des mesures autour de la moyenne est ≠
– Variance : moyenne des carrés des écarts à la moyenne

de l’échantillon
Exemple : Calcul de la variance et de l’écart-type de la mesure des poids

de 5 individus dans un échantillon de moyenne 72 kg
s2 
 i
( x  x ) 2
n 1
– Ecart-type : racine carrée de la variance
– Étendue : différence entre la plus grande et la plus

petite valeur de la série
– Intervalle inter-quartile : représente 50 % des

observations centrées sur la médiane. La largeur de
cet intervalle = (Q3 - Q1)
• Histogramme
Les données quantitatives continues peuvent être représentées par
un histogramme
La surface de chacun des rectangles est proportionnelle au nombre

d’individus de la classe
• Boîtes à moustache
max
Q75
Q50
Q25
min
Statistique inférentielle (1)
Estimation et intervalle de confiance

Définitions
• Population : ensembles d’unités sur lesquelles une caractéristique
peut être relevée
NB : les questions que l’on se pose, les hypothèses que l’on formule
concernent la population
• Echantillon : partie de la population d’intérêt de taille suffisamment

petite pour que la caractéristique auquel on s’intéresse puisse être
effectivement mesurée sur tous les sujets qui le composent
NB : Les observations faites sur l’échantillon servent à répondre aux

questions que l’on se pose sur la population
Les caractéristiques observées sont des variables aléatoires

Population, échantillon
Le statisticien n’étudie pas le caractère sur l’ensemble de la
population mais sur un échantillon extrait de la population,
pour plusieurs raisons, entre autres :
• La taille de la population peut être très importante et

le coût de l’enquête serait trop important
• L’accès à tous les individus de la population est

matériellement impossible
Un bon échantillon doit constituer une image réduite de

l’ensemble de la population (= être représentatif) dont
on veut étudier un caractère bien défini. Dans le cas
contraire, on dit que l’échantillon est biaisé
Échantillonnage
Comment choisir un échantillon pour qu’il soit

représentatif ?
Techniques d’échantillonnage par Tirage au

sort (= sondage aléatoire)
Problème de l’estimation
• Comment les paramètres de la population peuvent-ils être estimés
à partir de l'échantillon ?
• Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir

estimer ce paramètre pour la population entière
Estimateur
• Un bon estimateur doit :
– Être sans biais
– Avoir une faible variance
Biais et variance pour 3 estimateurs d’un paramètre θ :

U1 et U2 sont 2 estimateurs sans biais avec Var(U1) < Var(U2)
U3 est un estimateur biaisé
Intervalle d’estimation = intervalle de confiance
= intervalle, déterminé à partir des données d’un

échantillon, dans lequel on peut parier que se situe la
vraie valeur de la population cible
(avec un risque de se tromper acceptable)
• L’intervalle de confiance d’une valeur estimée dépend

– De la variabilité des données
– De la taille de l’échantillon
– Du niveau de confiance (probabilité que la vraie valeur se trouve
dans un intervalle)
Construction de 100 estimations d’intervalle. La vraie valeur μ est
correctement encadrée dans 95 % des situations
Attention !
µ reste constant, c'est l'intervalle de confiance qui varie autour de µ
pour chaque échantillon
Problèmes des échantillons
1. Représentativité
2. Fluctuation d’échantillonnage :
– variation de l’estimation de la vraie valeur (en
population) d’un échantillon à l’autre du fait du
simple hasard
Fluctuations aléatoires
Échantillon 1
48%
Échantillon 2
52%
Obtenir pile à pile ou face
(Probabilité = 50%)
Échantillon 3
50%
Échantillon 4
45%
Fluctuations aléatoires
Échantillon 1
9%
Échantillon 2
12%
Même type de patients
(Probabilité d'AVC = 12%)
Échantillon 3
16%
Échantillon 4
26%
Fluctuations aléatoires d'échantillonnage
• Fortes pour des effectifs petits et moyens
• Faibles pour des grands effectifs
• Jamais nulles
Fluctuations aléatoires d'échantillonnage
• Conséquences pour la comparaison de 2 échantillons
– les proportions observées dans 2 échantillons peuvent être

différentes
– uniquement du fait du hasard
– même si dans ces 2 échantillons la vraie probabilité était la même
• Elles sont susceptibles de fausser les comparaisons

Conséquences des fluctuations
Effet du traitement = 0
Vrai risque = 10% Vrai risque = 10%

Groupe T+ Groupe T-
Risque observé = 6% Risque observé = 12%
Différence observée = -6%

Problématique des comparaisons
• La différence observée de -6% est-elle ?
– une manifestation des fluctuations aléatoires :

donc due uniquement au hasard
– la traduction d’une réelle différence entre les deux groupes :

donc d’un effet non nul du traitement
et donc décider d'utiliser le nouveau traitement
• Comment départager ces 2 possibilités ?
Solution = test statistique

• Le hasard peut faire apparaître une différence
qui n'existe pas en réalité
• Inversement, le hasard peut réduire une

différence qui existe réellement
donc 2 façons de fausser la conclusion

Statistique inférentielle (2)
Principes généraux des tests statistiques

Les tests statistiques
• Il s’agit de tirer des conclusions sur la population à

partir de l’étude d’un ou plusieurs caractères
observés sur les individus d’un ou de plusieurs
échantillons issus de cette population
• Tests d’hypothèses : ils permettent de faire des

inférences statistiques
• Outils d'aide à la décision

Risques d’erreur statistique
• Deux risques d'erreur
– Risque alpha
– Risque bêta
• Erreurs statistiques
– dues uniquement au hasard
• Principe
– conclure à une différence
– que si le risque de faire une erreur est faible
Erreur statistique alpha (petit p)
• Risque alpha (faux positif) :
– risque de conclure à une différence qui n’existe pas
– considérer comme efficace un traitement qui ne l’est pas
Échantillon 1
7.5%
Différence
Vrai valeur
non réelle
12%
Échantillon 2
15%
Erreur statistique bêta (puissance)
• Risque bêta (faux négatif) :
– risque de ne pas mettre en évidence une différence qui existe réellement
– ne pas conclure alors que le traitement est efficace
Vrai valeur Échantillon 1

12% 15%
Fausse absence
de différence
Vrai valeur Échantillon 2

19% 15%
Conclusion
Différence Pas de différence
Différence Pas d’erreur Erreur bêta

Réalité
Pas de différence Erreur alpha Pas d’erreur

Principe général du test statistique
p1 = 7%
Quelle est la probabilité de commettre une erreur
si je conclus à partir de ces données
à l'existence d'une réelle différence
p0 = 13%
Probabilité faible Probabilité forte
Conclusion Pas de conclusion
Conclure à l'existence d'une différence que si le

risque de faire une conclusion erronée est faible
Démarche du test statistique
• Calcul de la probabilité p
• p : probabilité que "la différence observée soit
due uniquement au hasard"
• p représente le risque de faire une conclusion
erronée si l'on décidait de conclure
• p est une quantification du risque alpha
• On ne conclut que si ce risque d'erreur est
suffisamment petit
Seuil de risque
• Seuil de risque de conclusion erronée acceptable
– seuil de risque alpha = 5%
si p<0,05  rejeter H0  conclusion = diff. significative

si p>0,05  ne pas rejeter H0  conclusion = diff. non significative
• On contrôle le risque alpha

– mais le risque d'erreurs alpha persiste
– 100 essais avec un traitement sans efficacité
conclusion à tort à l'efficacité dans 5 essais
Signification statistique
Différence significative
p<0.05
Il est peu probable que la
différence observée soit due
Différence au hasard
Test
observée
Différence non significative
p>0.05
La probabilité que la
différence observée soit due
au hasard est forte
Seuil de signification statistique = 5%

Réalisation du test
• Calcul à partir des données de la probabilité de

commettre une erreur alpha = p
p<5%  conclusion à l'existence

p1 = 7%
de la différence
p = 0.04
p0 = 13% parce que le risque de faire une
conclusion fausse est faible
p>5%  impossible de conclure à

p1 = 20%
l'existence d'une différence
p = 0.25
car si on concluait à une différence,
p0 = 17%
le risque d'erreur serait trop fort
Risque d'erreur bêta
• Le risque bêta est incalculable
• Impossible de quantifier le risque d'erreur quand on fait
une conclusion d'absence de différence
– il est donc impossible de faire ce type de conclusion
– les tests permettent seulement de conclure à l'existence d'une
différence
– en cas de différence non signification

• impossible de conclure
• et ne permet surtout pas de conclure à l'absence de différence vu
que le risque d'erreur est inconnu
• "l'absence de preuve n'est pas la preuve de l'absence"
Différence non significative (NS)
Absence réelle
d'effet
Résultat
non significatif ?
Manque de
puissance
Exemple
OBJECTIF : Evaluer l’efficacité d’une injection unique de
tobramycine chez des patientes atteintes une pyélonéphrite aiguë
RÉSULTATS : 118 patientes ont été inclues, 60 dans le groupe

tobramycine et 58 dans le groupe placebo.
- 2 échecs sont survenus dans le groupe tobramycine
- et 4 dans le groupe placebo (p non significatif).
CONCLUSION : L’administration d’une dose de tobramycine

n’améliore aucun paramètre clinique dans le traitement des
pyélonéphrites aiguës (ou manque de puissance…?)
Dualité entre test
et intervalle de confiance
Intervalle de confiance
• Intervalle qui a 95% de chance de contenir la vraie valeur
« IC 95% »
• il est raisonnable de parier que la vraie valeur est dans

l'intervalle (prob de 95%)
• il est peu probable (prob 5%)

– que la vraie valeur soit > à la borne sup
– ou que la vraie valeur soit < à la borne inf
– il est donc peu raisonnable de parier que la vraie valeur soit à
l'extérieur de l'IC
Intervalle de confiance
• Différence = -6%
• IC 95% = [-8%;-4%]
• L’intervalle [-8%;-4%] à 95% de chance de contenir la vraie
valeur de la différence
• Reflète l'incertitude de l'estimation
• Il n'est pas possible d'exclure que le vrai effet ne soit que
de -4%
p<0.05 NS
IC 95%
-8 -6 -4
Résultat
observé
Relation entre IC et test
• IC d’une différence n'incluant pas 0

– [-10% ; -4%]
– la probabilité d’avoir ce type d’intervalle si la vraie valeur est zero

est <=5%
– donc il est possible de conclure à une différence non nulle car le
risque d’erreur alpha est <=5%
= différence significative (au seuil de 5%)
• IC de la différence des risques incluant 0

– [-20% ; 20%]
= différence non significative
-5% [-10%,-2%] P<0.05
-2% [-9%;+2%] NS
Différence
0

Fi Chier 556

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Fi Chier 556

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à l’analyse

• Outils de la statistiques descriptive : tables de

• Outils de la statistique inférentielle : estimation,

Exemple : la taille moyenne des français adultes

• Fréquence absolue et tableau des effectifs

Description de l’échantillon des groupes sanguins

Fréquences relatives (exprimées en pourcentage)

• Fréquences cumulées (relatives et absolues)

• Diagramme en bâtons, mode

– Médiane : nombre égal d’observations de part et d’autre

– Mode : modalité observée avec la plus haute fréquence

– Quantiles (percentiles, déciles, quartiles) :on partage la distribution en

Si la distribution de fréquences est symétrique et unimodale,

– Variance : moyenne des carrés des écarts à la moyenne

Exemple : Calcul de la variance et de l’écart-type de la mesure des poids

– Ecart-type : racine carrée de la variance

– Étendue : différence entre la plus grande et la plus

– Intervalle inter-quartile : représente 50 % des

La surface de chacun des rectangles est proportionnelle au nombre

Estimation et intervalle de confiance

• Echantillon : partie de la population d’intérêt de taille suffisamment

NB : Les observations faites sur l’échantillon servent à répondre aux

Les caractéristiques observées sont des variables aléatoires

• La taille de la population peut être très importante et

• L’accès à tous les individus de la population est

Un bon échantillon doit constituer une image réduite de

Comment choisir un échantillon pour qu’il soit

Techniques d’échantillonnage par Tirage au

• Il s’agit d’évaluer un paramètre sur un échantillon pour pouvoir

Biais et variance pour 3 estimateurs d’un paramètre θ :

= intervalle, déterminé à partir des données d’un

• L’intervalle de confiance d’une valeur estimée dépend

• Fortes pour des effectifs petits et moyens

• Faibles pour des grands effectifs

• Conséquences pour la comparaison de 2 échantillons

– les proportions observées dans 2 échantillons peuvent être

• Elles sont susceptibles de fausser les comparaisons

Vrai risque = 10% Vrai risque = 10%

Risque observé = 6% Risque observé = 12%

Différence observée = -6%

– une manifestation des fluctuations aléatoires :

– la traduction d’une réelle différence entre les deux groupes :

• Comment départager ces 2 possibilités ?

Solution = test statistique

• Inversement, le hasard peut réduire une

donc 2 façons de fausser la conclusion

Principes généraux des tests statistiques

• Il s’agit de tirer des conclusions sur la population à

• Tests d’hypothèses : ils permettent de faire des

• Outils d'aide à la décision

Vrai valeur Échantillon 1

Vrai valeur Échantillon 2

Différence Pas de différence

Différence Pas d’erreur Erreur bêta

Pas de différence Erreur alpha Pas d’erreur

Probabilité faible Probabilité forte

Conclusion Pas de conclusion

Conclure à l'existence d'une différence que si le

si p<0,05  rejeter H0  conclusion = diff. significative

• On contrôle le risque alpha

Seuil de signification statistique = 5%

• Calcul à partir des données de la probabilité de

p<5%  conclusion à l'existence

p>5%  impossible de conclure à