Vous êtes sur la page 1sur 4

Fiche statistique

Fiche statistique n° 2.
Les statistiques descriptives
de base suite :
variance, écart-type,
dispersion
Silvy Laporte
Unité de pharmacologie clinique, Groupe de recherche sur la thrombose (EA3065), CHU
Saint-Étienne Bellevue, Saint-Étienne, France

D ans la fiche n° 1 (Médecine Thé-


rapeutique ; Vol. 10, n° 3, mai-
juin 2004), nous avions abordé les
Compte tenu des fortes insistances
du rédacteur en chef, nous avons opté
pour la dernière solution.
notions de moyennes et médianes, Pour une lecture optimale de cette
connues sous le nom de paramètres fiche, il est judicieux de lire tout
de tendance centrale. Nous allons d’abord la fiche n° 1. Nous utiliserons
aborder dans cette deuxième fiche la d’ailleurs le même tableau de don-
notion de dispersion autour de la ten- nées : il s’agissait d’une cohorte pros-
dance centrale. Pour ce faire, plu- pective ayant inclus 1 000 patients
sieurs solutions étaient possibles : présentant un contrôle glycémique
perturbé (HbA1C supérieur à 6,5 %).
• Faire un lexique avec toutes les Tous les patients ont été traités pour
définitions scolaires essentielles pour une durée de 6 mois avec un nouvel
rentrer dans le vif du sujet, définitions antidiabétique oral. Les données
aussi précises que repoussantes, ne concernant cette cohorte et les résul-
permettant pas de séduire le clinicien tats à 1 an sont résumés tableau 1.
dans sa formation à l’interprétation
des statistiques.
• Donner les formules complètes La notion de dispersion
sans commentaire afin que chacun se
fasse son opinion sur l’utilité de Retour à l’école une fois de plus.
l’indice calculé compte tenu des élé- Deux élèves de la même classe de 3e
ments utilisés dans le calcul. On inté- comparent leur moyenne générale :
resserait ici une partie encore plus tous les deux ont 10/20 de moyenne
infime du public. (coefficient 1 pour toutes les matières).
Les deux élèves sont donc tout à fait
• Tenter, dans la mesure du possi- similaires. On peut même regarder
mt ble pour un statisticien, d’être plus
littéraire sur les définitions et formules
leur médiane : idem, elle est de 10
aussi. Les deux élèves ont le même
afin de vous convaincre de la simpli- espoir de passage en seconde. Pour
cité et de l’utilité de ces paramètres autant, si on regarde les notes de plus
Tirés à part : S. Laporte
dans l’interprétation des résultats des près, l’élève X a 1 note de 2/20, 9
études cliniques. notes de 8/20, 9 notes de 12/20 et 1

mt, vol. 11, n° 2, mars-avril 2005


117
Fiche statistique

Tableau 1. Description de la cohorte et résultat à 1 an cela signifie, c’est l’écart de toutes les valeurs à la
moyenne.
description
A l’inclusion
Imaginons cependant un cas simple à calculer avec 5
Sexe : nombre d’hommes (%) 626 (62.6%) valeurs : 30, 30, 40, 40 et 60. La moyenne est de 40 ans
Age, années (moyenne ± écart-type) 63,4 ± 12,2 (30 + 30 + 40 + 40 + 60 / 5). Pour savoir si la population
Ancienneté du diabète, mois (médiane) 12,4 étudiée est relativement homogène, il est nécessaire
Niveau d’HbA1c, % : d’évaluer l’écart des valeurs individuelles à la moyenne, et
– moyenne ± écart-type 7,1 ± 2,2 d’en faire la somme pour avoir un indice parlant, voire
– médiane (étendue) 6,8 (6,5 – 8,7) même d’évaluer la moyenne de ces écarts. Ici la somme
En fin de traitement des écarts vaut (30 – 40) + (30 – 40) + (40 – 40) + (40 – 40)
Niveau d’HbA1c, % : + (60 – 40) soit (– 10) + (– 10) + 0 + 0 + 20 = 0. Et oui, la
– moyenne ± écart-type 6,4 ± 2,0 somme fait 0 ! Cela ne signifie pas que la dispersion est
– médiane (étendue) 6,4 (6,1 – 8,8) nulle, c’est simplement une propriété mathématique de la
Événements cardiovasculaires (%) 22 (2,2%) moyenne : elle est exactement au centre des valeurs, et la
somme des écarts de toutes les valeurs à la moyenne est
toujours nulle, les écarts positifs compensant exactement
note de 18/20, l’élève Y a 10 notes de 2/20 et 10 notes de les écarts négatifs.
18/20 : ces élèves sont bien différents ! La moyenne et la Il faut donc trouver une astuce mathématique pour
médiane ne permettent pas de nous donner cette informa- construire un paramètre basé sur le même principe : on
tion pourtant non négligeable, ce n’est d’ailleurs pas leur pourrait prendre les valeurs absolues, mais ce n’est pas
fonction. Il nous faut alors d’autres paramètres : on pour- très commode à utiliser ; on a alors choisi d’utiliser le carré
rait regarder le minimum et le maximum, mais là aussi on de ces écarts afin de ne plus avoir les écarts positifs qui
reste sur notre faim, 2 et 18 chez les 2 élèves. Pourtant, les compensent les écarts négatifs. Ici on aurait donc (– 10)2 +
deux élèves sont foncièrement différents : l’élève X est (– 10)2 + 02 + 02+ 202. La moyenne de ces écarts est donc
plutôt stable, assez constant, peu « variable » d’une 100 + 100 + 0 + 0 + 400 / 5 = 600/5 = 120. Vous venez ici
matière à l’autre, avec des notes peu « dispersées » autour de calculer une variance (qui correspond en bon français
de la moyenne. À l’inverse, l’élève Y présente des notes à la moyenne des carrés des écarts à la moyenne). Atten-
très différentes, très « variables », très dispersées autour de tion à la confusion, la variance, ce n’est rien de plus
la moyenne. qu’une moyenne, non pas une moyenne des valeurs mais
Afin d’appréhender la notion de dispersion, ce cas une moyenne des écarts au carré.
simple est transposable à votre patient traité par AVK au Le problème de cette variance est qu’il s’agit d’un
long cours en prévention secondaire d’événements throm- paramètre correspondant à des ans_, d’où cette valeur très
boemboliques. Depuis un an, son INR moyen est de 2,6. forte de 120 ! Pour exprimer la dispersion en années, on
Est-il pour autant bien soigné, avec une cible bien en prend la racine carrée soit 公120 = 10,9 ans. La
atteinte ? La moyenne ne permet pas de répondre, et la moyenne est donc de 40 ans avec un écart-type de 10,9
question ici coule de source : « Est-il stable autour de ans.
2,6 ? » Par cette question de clinicien éclairé, vous abor- La première leçon est que la variance en elle-même est
dez la question statistique suivante : « Quelle est la valeur inutile, elle est juste un intermédiaire statistique au calcul
de l’écart-type ? » ou « Le patient est-il en général proche de l’écart-type (en anglais Standard deviation).
de 2,6 ou loin de 2,6 ? ». Seul le vocabulaire est différent.
Pour interpréter l’écart-type, on dit que grosso modo,
On entend ainsi par variabilité ou dispersion toutes
les valeurs d’âge s’écartent de plus ou moins 10,9 ans
ces notions d’écart par rapport à une valeur centrale. Il
(disons 11 ans) autour de la moyenne de 40 ans. Est-ce
s’agit de termes généraux, ne correspondant pas à un
beaucoup ? Tout est relatif, 11 est fort par rapport à 40 car
paramètre en particulier.
11/40 = 27 %. Si on avait une dispersion de 11 ans sur une
population d’âge moyen de 80 ans, ce serait tout à fait
différent, on aurait 11/80 soit 14 % de variabilité. Le fait de
Les paramètres usuels de dispersion : rendre relatif l’écart-type par rapport à la moyenne est le
l’écart-type, la variance, le coefficient coefficient de variation : il exprime, en pourcentage,
de variation l’importance de la variabilité par rapport à la valeur cen-
trale. Cet indice est très utile lorsque l’on a des populations
Dans le tableau 1, l’âge moyen est de 63,4 ans, com- à comparer dont la moyenne est différente. Sous une
plété par une valeur de 12,2 ans. Cette valeur, qui HBPM X, la moyenne des activités anti-Xa 4 h après
s’exprime dans la même unité que la moyenne, représente injection d’une dose curative vaut 0,8 ± 0,4 UI aXa. Sous
l’écart-type. Si on voulait transcrire grossièrement ce que dose préventive, 4 heures après, la moyenne est de 0,4 ±

mt, vol. 11, n° 2, mars-avril 2005


118
50 % – 50 %). Si Q1 vaut 35 ans et Q3 vaut 70, cela
Encadré. Exemple de calculs à partir de 5 patients
signifie que 25 % des patients a moins de 35 ans et 25 %
Sujet (i) Âge (xi) Xi-m (Xi-m)2 des patients a plus de 70 ans. Ou encore que 75 % des
1 30 –10 100 patients a moins de 70 ans, ou encore que 75 % des
2 30 –10 100 patients ont plus de 35 ans. On retient en général l’expres-
3 40 0 0 sion la plus parlante cliniquement.
4 40 0 0
L’écart inter-quartiles consiste à calculer l’écart entre
5 60 20 400
ces deux valeurs, relativement à la médiane. Si nous
Somme (R) 200 0 600
reprenons l’âge des 5 patients, 30, 30, 40, 40, 60, la
Moyenne (R/n) m = 40 ans Var = 120
médiane est de 40 ans, Q1 vaut 30 ans et Q3 vaut 50 ans
ET = 10,9
(valeur entre 40 et 60), soit un écart inter-quartiles de
ET = 公var
1 30-50 (en anglais Inter-quartile range). On dit que 50 %
兺 (xi − m)
1 2
Var =
n兺
m= xi des patients sont âgés entre 30 et 50 ans.
n
i
i On pourrait aussi calculer un coefficient de variation
par l’écart inter-quartiles rapporté à la médiane soit 20/40
ET = 50% mais en pratique, il est peu utilisé. Si vous le
CV = croisez, sachez néanmoins qu’il n’est point farfelu.
m

0,3 UI aXa. Peut-on penser que la dispersion des pics


d’activité anti-Xa est plus faible en cas de traitement Quel rapport avec l’intervalle
préventif par rapport à un traitement curatif uniquement de confiance ?
parce que l’écart-type est plus petit (0,3 UI aXa versus
0,4) ? En réalité, relativement à la valeur moyenne, le
Toutes les statistiques de dispersion que nous venons
coefficient de variation est de 50 % sous dose curative
d’évoquer sont des statistiques qui restent descriptives,
versus 75 % sous traitement préventif, soit finalement une
c’est-à-dire qui concernent l’échantillon et lui seul. Il n’y a
dispersion plus importante...
pas de notion de risque, c’est une observation. Ces statis-
En synthèse, les paramètres les plus utilisés et les plus
tiques vont être utilisées pour pouvoir réaliser des estima-
utiles sont l’écart-type et le coefficient de variation, la
tions pour l’ensemble de la population, avec cette fois-ci
variance n’étant qu’un intermédiaire mathématique.
un risque d’erreur à introduire compte tenu de l’extrapo-
Existe-t-il d’autres paramètres de dispersion ?
lation que l’on va réaliser pour généraliser les résultats de
l’échantillon à l’ensemble de la population.

Étendue, écart inter-quartiles Cette démarche va concerner bien sûr les caractéristi-
ques de base des patients mais aussi les résultats observés
L’étendue (en anglais Range) est probablement en fin de traitement. On peut par exemple calculer la
l’indice de dispersion le plus simple puisqu’il correspond moyenne et la variance du contrôle glycémique mesuré
au minimum et au maximum des valeurs observées. Elle par l’HbA1c chez des patients diabétiques de type II traité
est utile pour connaître les valeurs extrêmes, mais consti- pendant 6 mois (6,4 % ± 2,0 dans le tableau 1). Ces
tue un résumé trop grossier de la dispersion. Si on reprend données descriptives vont permettre de fournir un enca-
nos deux élèves de 3e, ils ont tous les deux la même drement de la vraie valeur que l’on cherche à estimer, et
étendue (2-18), et pourtant nous avons vu que nos deux cet encadrement est fourni par l’intervalle de confiance.
élèves étaient fort différents avec respectivement un écart- L’intervalle de confiance permet d’exprimer la précision
type de 3,2 et 8 (faites les calculs pour vous entraîner...). d’une estimation (par exemple ici une moyenne) sous
Enfin, il est difficile d’évaluer des écarts à la moyenne l’hypothèse de normalité (cf. Médecine Thérapeutique ;
si on considère que la moyenne est un résumé inadapté Vol. 10, n° 2, mars-avril 2004). Au niveau de l’interpréta-
(cf. fiche n° 1) et qu’il faut parfois préférer la médiane, qui tion, dans notre essai, l’HbA1c est de 6,4 % ± 2,0 après 6
partage la population en 50 % en dessous et 50 % en mois de traitement ; l’intervalle de confiance est [6,3 ; 6,5]
dessus. Pour avoir un paramètre de dispersion en accord et signifie qu’il y a 95 % de chances qu’après 6 mois de
avec la médiane, on évalue les quartiles Q1 et Q3 : le 1er traitement l’HbA1c soit compris entre 6,3 % et 6,5 %.
quartile Q1 partage la population en 25 % des valeurs les La borne inférieure (B–) et la borne supérieure (B+)
plus basses et 75 % les plus hautes, le 3e quartile Q3 d’un intervalle de confiance se calculent à partir de la
partage en 75 % et 25 % (le 2e quartile est la médiane moyenne (m) et de l’écart-type (ET) par :

mt, vol. 11, n° 2, mars-avril 2005


119
Fiche statistique

ET une dispersion/précision : ET⁄公n−1 : cette fraction est


B − = m − 1,96 ×
公n − 1 appelée l’écart-type de la moyenne (en anglais Standard
error ou Standard error of the mean) car elle permet un
et respectivement : calcul direct de la précision de la moyenne. L’écart-type
de la moyenne (ETM) est souvent utilisé notamment dans
ET les figures de part et d’autre du point moyen, car il mini-
B + = m + 1,96 ×
公n − 1 mise artificiellement ce que le lecteur pense être une
expression de l’intervalle de confiance à 95 % (c’est-à-
Ce calcul fait donc intervenir les statistiques descripti-
dire calculé par m ± 1,96 × ETM) alors qu’en réalité il s’agit
ves calculées ainsi que d’autres valeurs :
d’un intervalle à 70 % (m ± 1 × ETM). L’ETM n’est ici
• Tout d’abord, la valeur 1,96 permettant, compte tenu
qu’un intermédiaire mathématique permettant de déter-
de la loi normale, d’obtenir 95 % de chances pour que la
miner l’intervalle de confiance.
valeur vraie soit dans l’intervalle de confiance. Cette
valeur aurait été de 1,64 pour calculer un intervalle de En conclusion, un simple résultat central doit être
confiance à 90 %. assorti de sa dispersion pour permettre une description
• Le second, l’effectif n, donnant ainsi une précision précise des résultats. Cette dispersion permet aussi de
d’estimation : il est bien évident qu’une moyenne évaluée calculer la précision de l’estimation d’un effet, par exem-
sur un grand nombre de sujets est plus fiable et plus ple l’intervalle de confiance d’une différence de moyen-
précise qu’une moyenne évaluée sur seulement quelques nes de cholestérol entre deux thérapeutiques différentes
patients. Par l’introduction de l’effectif, on détermine ainsi étudiées au cours d’un essai randomisé.

mt, vol. 11, n° 2, mars-avril 2005


120