Vous êtes sur la page 1sur 9

Revue de Pneumologie clinique (2009) 65, 377—385

ENSEIGNEMENT PRATIQUE

Biostatistiques avec les feuilles de calcul Excel© ou


équivalent
Biostatistics with Excel© software or similar

S. Couraud a,∗,b

a
Service de pneumologie, centre hospitalier Lyon-Sud,
165, chemin du Grand-Revoyet, 69495 Pierre-Bénite cedex, France
b
Université Claude Bernard Lyon 1, France

Disponible sur Internet le 31 octobre 2009

MOTS CLÉS Résumé Pour de nombreux praticiens et notamment pour les plus jeunes, les analyses bio-
Biostatistiques ; statistiques sont difficiles et hermétiques. Il existe pourtant un logiciel familier permettant
Excel© ; de réaliser la plupart des calculs statistiques nécessaires en pratique courante : les feuilles de
Méthodologie ; calculs Excel© et équivalents. Cet article propose de guider le lecteur pas à pas dans le pro-
Épidémiologie ; gramme pour l’aider à réaliser ses calculs. Bien que ces conseils ne dispensent en aucun cas
Recherche clinique d’un avis spécialisé, ils permettront aux lecteurs de se familiariser avec des notions de bases
de statistiques.
© 2009 Elsevier Masson SAS. Tous droits réservés.

KEYWORDS Summary Many practitioners, especially young ones, find biostatistical analysis fastidious.
Statistics; However, there is a very usual tool for most basic calculations: Excel© and similar software.
Excel software© ; This article proposes to help the reader, step by step, carry out many statistical functions.
Methodology; Although this paper does not avoid the advice of a specialist, it lets the reader become familiar
Epidemiology; with the rules of basic statistics and calculus.
Clinical trials © 2009 Elsevier Masson SAS. All rights reserved.

Introduction
Que ce soit pour la rédaction d’une thèse, d’un article scientifique ou encore pour les
données d’activités, les statistiques sont inévitables en médecine. Pour beaucoup, cette
matière apparaît souvent hermétique et difficile. Il est donc fréquent de voir des praticiens

∗ Auteur correspondant.
Adresse e-mail : sebastien.couraud@chu-lyon.fr.

0761-8417/$ — see front matter © 2009 Elsevier Masson SAS. Tous droits réservés.
doi:10.1016/j.pneumo.2009.08.007
378 S. Couraud

ou des étudiants se décourager devant des calculs sta-


tistiques de base. Outre des lacunes en termes de
connaissances théoriques, les utilisateurs peuvent être
rebutés par la difficulté de réalisation des calculs statis-
tiques. Pourtant, en plus des nombreux logiciels spécifiques
disponibles (certains sont mêmes gratuits sur Internet) mais
parfois délicats d’utilisation pour les non-initiés, il existe
un outil familier : les feuilles de calculs Microsoft Excel© et
équivalent. Ce logiciel équipe, en effet, la plupart des ordi-
nateurs. Il en existe plusieurs versions (le présent article
utilise la version 2003, très largement répandue) mais les
modalités et le raisonnement pratique sont toujours iden-
tiques d’une mise à jour à l’autre. Par ailleurs, pour ceux
qui ne seraient pas équipés, le logiciel gratuit OpenOffice®
utilise des fonctions similaires et pratiquement les mêmes
procédures. Quoi qu’il en soit, le logiciel Excel© est fami-
lier, simple d’utilisation et recèle la plupart des grandes
fonctions utilisées en biostatistiques courantes. Dans cet
article, le lecteur pourra se familiariser avec les mesures Figure 1. Représentation schématique de la loi normale (variable
de variables, leurs représentations graphiques et leurs com- quantitative continue). Les valeurs comprises entre la moyenne plus
paraisons. Les concordances, mesures de risque et autres ou moins deux écarts-types englobent 95,44 % de la population.
concepts plus complexes ne sont pas développés ici.
Visite guidée d’un outil biostatistique que bon nombre de Les variables quantitatives
médecins utilisent quotidiennement sans le savoir. . . Les variables quantitatives (comme l’âge, le taux
d’hémoglobine ou encore la valeur de la PaO2 ) sont
distinguées selon deux classes :
Rappels élémentaires • les variables continues peuvent théoriquement prendre
Les variables comme valeur n’importe quel nombre d’un intervalle dont
les limites sont compatibles avec les lois de la nature. La
Pour étudier une population ou un échantillon de celle-ci, il valeur de la PaO2 est un exemple de variable quantitative
est nécessaire de prendre en compte des propriétés de ses continue. La distribution de ces variables suit habituelle-
éléments. Ces propriétés sont appelées des variables. Il est ment une distribution précise appelée loi normale ou loi
important de ne pas confondre variable et la « donnée » ou de « Laplace-Gauss » (Fig. 1) ;
« valeur observée » qui représentent la valeur de la variable • les variables discontinues ou discrètes sont définies par
observée pour un individu. À titre d’exemple, l’âge est un comptage et leur valeur est habituellement un nombre
une variable et « 87 ans » sera la donnée observée de cette entier (nombre de journées d’hospitalisation ou nombre
variable pour un individu. De manière didactique, il est pos- de cigarette fumée par jour, par exemple). Bien qu’elle
sible de considérer deux types de variables dont l’analyse puisse s’en approcher, la distribution de ces variables ne
et l’interprétation sont différentes : suit pas strictement la loi normale mais d’autres, telles
la loi binomiale ou celle de Poisson.
Les variables qualitatives Avant de débuter l’analyse statistique, voire même avant
Les variables qualitatives (par exemple, le sexe, le per- de débuter la saisie des données, il est important que
formans status ou encore le statut tabagique) sont des l’investigateur définisse avec précision le type de la variable
variables qui n’ont pas de sens arithmétique. Elles sont par- étudiée. Il évitera ainsi bien des erreurs d’interprétation.
fois appelées variables « catégorielles ». Les plus communes
et faciles d’interprétation sont les variables qualitatives « à L’hypothèse nulle et les tests statistiques
deux classes » ou dichotomiques qui ne peuvent prendre
que deux modalités (exemple : statut tabagique ; oui/non). Le principe de tous les tests statistiques (autrement
Il faut noter que dans certains cas, les variables quali- appelés tests d’hypothèse) est basé sur la formulation
tatives peuvent être ordonnées ou ordinales ; c’est-à-dire d’une hypothèse nulle (H0 ). Cette dernière sous-entend
avoir une importance croissante dans un ordre déterminé. qu’il n’existe pas de différence entre les valeurs observées
L’exemple est l’envahissement ganglionnaire dans un can- des éléments à comparer. C’est cette hypothèse que l’on
cer bronchique : la variable n peut prendre les valeurs n0, cherche à rejeter. En rejetant H0 , on accepte alors qu’il
n1, n2 ou n3 qui ne sont pas numériques mais bien ordon- existe une différence significative entre les populations (ou
nées (la gravité de l’atteinte est croissante). Par ailleurs, échantillons) observés.
il faut bien noter que certaines variables qualitatives ont Pour tester cette hypothèse, il faut utiliser des tests sta-
des valeurs numériques ! L’exemple typique est le perfor- tistiques dont le choix tient compte de plusieurs paramètres
mans status dont les valeurs vont de 0 à 5. Bien que les qui ne sont pas développés dans cet article. Le résultat de
données soient des chiffres, ils ne peuvent pas être interpré- ces tests est une valeur calculée. Cette valeur est ensuite
tés comme une variable quantitative (un performans status comparée à une table statistique standardisée propre à
moyen à 1,96 n’aurait que peu de sens). chaque test pour déterminer une valeur p (ou « petit p » ou
Biostatistiques avec les feuilles de calcul Excel© ou équivalent 379

Figure 3. Tableau après le tri des variables qualitatives.

tal et par un chiffre dans le sens vertical. Il est possible de


sélectionner une ou plusieurs cellules :
• sélectionner une seule cellule : clic gauche sur la cellule
souhaitée ;
• sélectionner plusieurs cellules contiguës : clic gauche puis
glisser sur l’ensemble des cellules souhaitées avec la sou-
ris ;
• sélectionner une colonne ou une ligne en entier : clic
gauche sur la lettre ou le chiffre symbolisant la ligne ou
la colonne ;
• sélectionner plusieurs cellules non contiguës : clic gauche
Figure 2. Copie d’écran de la série exemple sous Microsoft Excel©
sur la première cellule, puis maintenir la touche « ctrl »
2003.
enfoncé et sélectionner les autres cellules avec la souris
grâce à un clic gauche.
« p value » des anglais). C’est la valeur du p qui importe le
Ce qui est inscrit par l’utilisateur dans la cellule est
plus dans les publications. Par convention, on admet que
appelé « donnée ».
le p est significatif s’il est inférieur à 0,05. En d’autres
Pour plus de clarté, la série prise en exemple est repré-
termes, cela indique que la différence observée dans les
sentée en « copie d’écran » dans la Fig. 3.
deux groupes testés a moins de 5 % de chance d’être due
au hasard. Bien évidemment, plus le p est « petit », plus la
chance que la différence observée soit liée au hasard est
ténue. Analyse des variables qualitatives
Le calcul des proportions sous forme de pourcentage n’a
Exemple de série évidemment aucun sens pour l’âge (sauf si l’investigateur
souhaite « classer » les éléments de sa population en caté-
Pour illustrer cet article, il est nécessaire de disposer gorie : moins de 20 ans ; 20 — 40 ans ; 40 — 60 ans ; 60 ans et
d’un exemple de série à analyser (Fig. 2). Dans ce der- plus par exemple). Il a du sens pour la seconde variable : le
nier, l’investigateur a observé l’âge et le sexe des patients sexe. Le calcul du pourcentage répondra à la question sui-
fumeurs et non fumeurs consultant pour toux chronique. vante : dans cette série, quelle est la proportion d’homme
Dans cet exemple il existe : et de femme ?
• deux populations : les fumeurs et les non-fumeurs ;
• deux variables pour chacune d’entre elles : l’âge (variable
Trier les données
quantitative discrète) et le sexe (variable qualitative à
deux classes). Il est préalablement nécessaire de trier, pour chacune des
deux populations, la série de variables qualitatives dont il
existe ici deux valeurs : M et F. Pour cela, il faut suivre la
Quelques rappels sur les feuilles de calculs procédure suivante :
Excel© et équivalent • sélectionner la population souhaitée (dans ce cas précis :
il faut sélectionner d’abord la population non fumeurs,
Chaque « case » de la feuille de calcul est appelée « cellule ». soit A2 à B17 ; puis les fumeurs) ;
Chacune de ces cellules correspond à des coordonnées • cliquer ensuite sur « données » dans la barre de tâche puis
précises déterminées par une lettre dans le sens horizon- sur « trier » ;
380 S. Couraud

• le logiciel trie alors les données par ordre alphabétique.


Tableau 1 Intervalle de confiance d’une proportion.
Il ne reste plus qu’à comptabiliser le nombre de M et de
F dans chaque population : Non-fumeurs (%) Fumeurs (%)
◦ NB : ne pas sélectionner les titres des variables ou
F 50 (25,5—74,5) 61,5 (79,5%—42,5)
séries, H 50 (25,5—74,5) 38,4 (47,8—29)
◦ NB 2 : par défaut, le logiciel trie par ordre alpha-
bétique, la colonne située la plus à droite dans
la sélection. Au besoin, il est possible de déplacer
p = proportion observée (en chiffre décimal) ; q = 1-p ;
l’ensemble de la colonne grâce à un « copier-coller »
n = effectif de la population ou de l’échantillon ; z␣ est un
de l’intégralité de celle-ci,
coefficient permettant le calcul d’un intervalle de précision
◦ NB 3 : attention à bien laisser les données d’un même
autour de p. Pour un intervalle à 95 %, la valeur de z␣ est
individu (ligne) appariées.
1,96. Pour être valide, cette approximation de la loi nor-
Il faut ensuite recréer un tableau (de préférence sur une male nécessite que les produits « n × p » et « n × q » soient
autre page de calcul) pour reprendre les résultats (Fig. 3). supérieurs ou égaux à 5.
La procédure est la suivante : dans la cellule souhaitée,
Calculer les pourcentages taper la formule suivante « =1,96*RACINE(((R8*(1-R8))/n) »
dans laquelle :
Le pourcentage est une expression d’une proportion. La for- • « R8 » représente la coordonnée de la cellule dans laquelle
mule du calcul est la suivante : figure la proportion p pour laquelle l’investigateur sou-
haite calculer l’intervalle de confiance ;
n1 × 100 • et n représente l’effectif de la série.
p1 =
n À titre d’exemple et si l’on se réfère à la Fig. 3, pour
calculer l’IC à 95 % de la proportion des femmes fumeuses,
dans laquelle p1 est la proportion (en %) ; n1 est l’effectif
on tapera la formule suivante « =1,96*RACINE((E3*(1-
observé pour la première modalité (Femmes non fumeuses
R8))/26) ». On aura, bien évidemment, calculé la propor-
par exemple) ; n est l’effectif complet de la série (homme
tion souhaitée dans E3 comme expliqué ci-dessus avant
et femme non fumeurs).
d’effectuer cette opération.
Pour calculer les proportions en pourcentages sur les
Après un calcul, on obtient ainsi les valeurs présentées
feuilles de calculs, il est nécessaire de procéder comme suit :
• sélectionner la case B5 (total des non-fumeurs) et faire dans le Tableau 1.
glisser la souris pour sélectionner B3 et B4 ;
• cliquer ensuite sur « insertion » puis sur « insérer fonc- Représentation graphique
tion » ou cliquer sur le symbole « fx » dans la barre de
La représentation de la répartition d’une variable quan-
tâche ;
• sélectionner « math et trigo » dans le menu déroulant puis titative peut faire appel à divers types de graphiques :
diagramme en barre, histogramme ou encore en secteurs
sélectionner la fonction « SOMME ». Cliquer sur « OK » ;
• une fenêtre s’ouvre, indiquant les coordonnées des (Fig. 4). Toutes ces fonctions sont possibles sur les feuilles
de calculs.
valeurs à additionner. Cliquer sur « OK » ;
• le logiciel calcule automatiquement les sommes souhai- Pour cela, il suffit de sélectionner la ou les séries sou-
haitées (en y incluant les noms de catégorie) puis de cliquer
tées. En réalisant la même procédure pour les fumeurs
sur « insertion » dans la barre de tâche puis « graphiques ». Le
on obtient les résultats suivants : n1 = 16 non-fumeurs et
menu de création du graphique s’affiche alors. La première
n2 = 26 fumeurs ;
• dans la cellule C3, taper «=SOMME(B3/16) » où 16 corres- étape consiste à choisir le type de graphique désiré. Après
l’avoir sélectionné et cliqué sur « suivant » le programme
pond au nombre de patient non fumeurs, soit au 100 %.
propose de choisir les données sources (par défaut, il s’agit
Taper ensuite sur « entrée » sur le clavier. Faire de même
de celles sélectionnées ci-dessus) puis, après avoir cliqué sur
avec les autres cellules en tapant les coordonnées de la
« suivant », il est possible d’avoir accès à certains outils de
cellule à analyser et le 100 % adéquat ;
• pour voir les chiffres s’afficher en pourcentage, il suf- mise en page dans les onglets (titre, légendes. . .). Une fois le
graphique terminé, l’utilisateur pourra modifier la mise en
fit de sélectionner les cellules désirée puis de cliquer
page de n’importe quel élément par un clic droit sur celui-ci
sur « format » puis « cellules » (ou clic droit puis « format
puis en sélectionnant les options proposées.
de cellule ») puis de sélectionner « pourcentage » dans le
Pour une meilleure représentation graphique, il est pos-
menu déroulant de l’onglet « nombre ».
sible de représenter les IC, calculés ci-dessus. Celle-ci n’est
possible que sur les histogrammes en barres et en colonnes
Intervalle de confiance d’une proportion (Fig. 4). Au préalable, il est nécessaire d’avoir calculé la

valeur z␣ × (p × q)/n (ci-dessus) et de l’inscrire dans une
Il est possible de calculer un intervalle de confiance pour
des cellules contiguës des résultats des proportions. À partir
chaque proportion en approximant la loi normale. La for-
de l’histogramme, il faut ensuite :
mule est la suivante : • cliquer sur la série souhaitée dans l’histogramme en cli-
 quant sur l’une des colonnes la représentant (le logiciel
p×q sélectionnera les deux populations — fumeurs et non
IC˛ = p ± z˛
n fumeurs — par défaut). Après un clic droit, sélectionner
Biostatistiques avec les feuilles de calcul Excel© ou équivalent 381

Figure 5. Représentation des résultats en incluant les intervalles


de confiance.

• créer un tableau de contingence avec les valeurs obser-


vées et les totaux par lignes et colonnes (Tableau 2) ;
• il faut ensuite calculer les effectifs espérés pour cha-
cune des cellules. Pour cela, il est nécessaire de créer
un second tableau de contingence, sur la même feuille de
calcul. Le calcul des effectifs espérés, pour chaque caté-
gorie, se fait en multipliant le total de la ligne par le total
de la colonne correspondante puis en divisant le nombre
obtenu par le total général. Par exemple :
◦ effectif espéré des « femmes — non fumeurs » = (D × A)/
n = (24 × 16)/42 = 9,14,
◦ effectif espéré des « hommes — fumeurs » = (C × B)/
n = (18 × 26)/42 = 11,14,
◦ on profite de ces calculs peu fastidieux pour s’assurer
des conditions de validité du test : chaque effectif
« espéré » doit être supérieur à 5.
On obtient ainsi deux tableaux de contingence, l’un
Figure 4. Différentes représentations graphiques des résultats comprenant les effectifs observés et le second les effec-
obtenus précédemment : histogramme en barres (A), colonnes (B), tifs espérés (attention : dans les deux tableaux, les totaux
secteurs (C), variante de colonnes (D). de lignes et de colonnes doivent être identiques ; dans le
cas contraire, il existe une erreur de calcul). Les résultats
l’option « format de la série de données » puis l’onglet obtenus sont représentés en Fig. 6, Fig. 7.
« barre d’erreur Y » ; Le logiciel Excel© ne calcule pas la valeur du test ␹2 mais
• sélectionner ensuite l’option « personnalisée » ; directement la valeur du p correspondant. Pour mémoire,
• cliquer ensuite sur le bouton situé à droite du champ « + » ; la valeur du ␹2 se calcule avec la formule suivante :
• sélectionner par un clic gauche la cellule contenant la

valeur de z␣ × (p × q)/n pour la première série (non (p1 − p2 )2
fumeur) puis, en maintenant la touche « ctrl » du cla- X2 =
p̄(1 − p̄)(1/n1 + 1/n2 )
vier, enfoncée, la cellule de la seconde valeur (fumeurs).
Cliquer ensuite sur le bouton à droite du champ ;
p1 et p2 sont les pourcentages à calculer (p1 = k1 /n1 ; p2 =
• faire de même pour le champ « — » en utilisant les mêmes
k2 /n2 ) et p̄ le pourcentage moyen (p̄ = (k1 + k2 )/(n1 + n2 ))
valeurs ;
• cliquer sur « OK » : les barres de l’IC apparaissent sur le
graphique (Fig. 5).
Tableau 2 Tableau de contingence.

Comparer deux proportions Effectifs observés Non-fumeurs Fumeurs Total


F 8 16 24 (D)
Pour comparer deux proportions, on utilise le test du Khi2 M 8 10 18 (C)
(␹2 ). Le calcul de ce test d’indépendance sur les feuilles de Total 16 (A) 26 (B) 42 (n)
calculs Excel© et équivalent demande quelques préambules :
382 S. Couraud

d’appréhender la distribution de celle-ci. Il est parfaite-


ment aisé de calculer ces valeurs sur le logiciel Excel© , voire
même de réaliser une représentation graphique adaptée.
Pour ce faire, on reprendra l’exemple de la série de la Fig. 2
en utilisant les variables « âge ».

Moyenne et de la médiane
La moyenne correspond à la somme des valeurs de la
variable observée divisée par le nombre de valeur. Il ne
faut pas la confondre avec la médiane qui correspond à la
valeur pour laquelle la moitié des valeurs observées sont
plus grandes et la moitié plus petite.

1
n
Figure 6. Copie d’écran des tableaux de contingences obtenus :
Moyenne = x̄ = xi
effectifs observés en haut et effectifs espérés (calculés) en bas. n
(i=1)

Médiane si l’effectif de la série est pair :

x̃ = x((n+1)/2)

Médiane si l’effectif de la série est impair :


x(n/2) + x((n/2)+1)
x̃ =
2
Ces indicateurs correspondent toutes deux à des valeurs
dites « de centrage » d’une série mais n’ont pas la même
signification. En effet, la moyenne est très sensible aux
valeurs extrêmes et/ou aberrantes d’une série alors que la
médiane n’est pas influencée par ces dernières. La moyenne
dépend de tous les nombres composant une série tandis que
la médiane n’est influencée que par leur ordre. Par ailleurs,
pour calculer la moyenne, il est nécessaire d’attendre que
Figure 7. Diagramme en boîte de la distribution des âges chez les toutes les mesures soient réalisées. Bien que reflétant toutes
fumeurs et les non-fumeurs dans la série exemple. deux « le centre » d’une série, moyenne et médianes sont
donc deux paramètres bien distincts, avec une signification
précise.
Pour le calculer la valeur du p correspondant au ␹2 , il
NB : Il faut noter que dans la loi normale (Fig. 2), médiane
faut sélectionner la fonction « TEST.KHIDEUX » puis entrer
et moyenne sont égales.
les valeurs dans les champs demandées :
• dans le champ « Plage réelle », il faut entrer les coordon- Pour calculer une moyenne grâce aux feuilles de calculs
Excel© et équivalent, la procédure est la suivante :
nées des cellules correspondant aux effectifs observés soit • sélectionner une cellule dans laquelle apparaîtra la
les cellules « B3 : C4 » ;
• dans le champ « Plage-attendue », les coordonnées des moyenne ;
• dans la barre de tâche, cliquer sur « fx » (ou cliquer sur
cellules des effectifs espérés soit « B9 : C10 » ;
• la valeur du p calculée est 0,46 soit supérieure à 0,05. « Insertion » dans le menu haut puis « fonction » dans le
menu déroulant) ;
Dans cet exemple, on peut donc conclure que la diffé- • le menu « insérer une fonction » s’ouvre alors dans une
rence observée dans la proportion d’homme et de femme nouvelle fenêtre ;
dans les deux groupes (non-fumeurs versus fumeurs) n’est • sélectionner « statistiques » dans le menu déroulant de ce
pas statistiquement significative. dernier. L’ensemble des fonctions statistiques disponibles
Il est évident que si ces calculs sont aisés pour des apparaît ;
variables à deux classes, ils deviennent plus ardus lorsque le • dans la liste des fonctions, sélectionner « MOYENNE » ; cli-
nombre de catégorie des variables augmente. Il faudra alors quer sur « OK » ;
utiliser un logiciel spécifique. • un menu « arguments de la fonction » s’ouvre. À l’aide de
la souris, sélectionner la série sur laquelle sera calculé la
moyenne (sans sélectionner le titre de la colonne) ;
Analyse des variables quantitatives • les coordonnées Excel© de la série apparaissent dans le
menu « arguments de la fonction » dans la case « nombre
L’analyse des variables quantitatives fait appel à d’autres 1 » ; cliquer sur « OK » ;
concepts. En effet, une série de données quantitatives • la moyenne apparaît alors ; ici elle est calculée à 43 ans
peut être résumée par plusieurs variables permettant pour les non-fumeurs et 50,3 ans pour les fumeurs.
Biostatistiques avec les feuilles de calcul Excel© ou équivalent 383

Pour la médiane, la procédure est strictement identique. série. Il est comprend 25 % des valeurs de part et d’autres
Il est simplement nécessaire de sélectionner la fonction de la médiane. Il est bien mis en valeur dans le diagramme
« MEDIANE » dans la liste de choix du menu « insérer une « en boîte ».
fonction ». Attention, également à sélectionner uniquement
la série, sans y intégrer la moyenne précédemment calcu- Le diagramme en boîte
lée !
Il est possible d’obtenir une représentation graphique de
Paramètres de dispersion par rapport à la distribution de la série à l’aide des valeurs calculées ci-
dessus. Il s’agit du diagramme dit box-plot ou « en boîte ».
la médiane : valeur maximale, minimale
Malheureusement, le logiciel ne peut y intégrer la médiane
et quartiles qui y figure habituellement. Pour créer ce diagramme, la
procédure est la suivante :
Valeur maximale, valeur minimale et quartiles sont des • créer un tableau comme représenté ci-dessus (attention :
paramètres qui, associés à la médiane, peuvent aider à
les lignes doivent être exactement dans le même ordre) ;
rendre compte de la distribution d’une série. Si ces deux • cliquer sur « Insertion » puis sur « insérer un tableau » ;
premiers paramètres sont aisément compréhensibles, les • il faut alors choisir dans la catégorie des graphiques
quartiles sont en général moins connus. Le premier quar-
intitulés « stocks », le modèle « ouverture-max-min-
tile correspond à la valeur pour laquelle un quart (25 %)
fermeture » ; puis cliquer sur suivant ;
des valeurs observées sont plus petites et trois quarts (75 %) • sélectionner ensuite les valeurs à entrer en cliquant sur
plus grandes. Le troisième quartile correspond à l’inverse :
le bouton situé à droite du champ « sélectionner les
75 % des valeurs observées sont plus petites et 25 % plus
données » ; il faut alors choisir les valeurs du premier
grandes. Pour mémoire, le deuxième quartile correspond. . .
quartile, maximales, minimales et du troisième quartile,
à la médiane. . .
dans cet ordre, en une fois, grâce à la souris (cliquer-
Sur Excel© , il est donc possible de mettre en évidence les
glisser). Cliquer à nouveau sur le bouton à droite du champ
valeurs maximales et minimales d’une série. La procédure
pour intégrer les données. Sélectionner ensuite le bouton
est la même que précédemment pour la moyenne. Il suffit
« ligne » en dessous des données sélectionnées (le bouton
de choisir les fonctions « MAX » et « MIN »de la liste.
« colonne » est coché par défaut).
Il est également possible de calculer les quartiles de la
série. Il faut alors suivre la procédure ci-dessus en sélec- NB : dans l’onglet « séries », il est possible d’intégrer les
tionnant la fonction « QUARTILE ». Après avoir entré les noms des catégories : en bas du formulaire, il existe un
coordonnées de la série étudiée (la colonne des âges des champ « étiquettes de catégories X ». Cliquer sur le bouton
non-fumeurs, par exemple, en excluant les éventuelles situé à droite et sélectionner les noms des catégories dans
cellules à la suite dans lesquelles auraient été calculées les cellules correspondantes (non-fumeurs et fumeurs).
la moyenne, la médiane. . .), il est nécessaire de rentrer • cliquer sur « suivant » pour insérer le titre du tableau et
une information complémentaire dans le champ intitulé des axes ;
« quart ». Cette valeur est une commande pour le logiciel • cliquer sur « terminer ».
(elle ne correspond à rien de particulier) :
NB : La légende des séries apparaissant sur le côté droit
• « 0 » permet de calculer la valeur minimale de la série
du graphique n’a pas de réalité. Il est possible de la suppri-
(déjà calculée précédemment) ;
mer par un clic droit puis « supprimer ».
• « 1 » permet de calculer le premier quartile (Q25 ) ;
On obtient ainsi la Fig. 6. Pour ajouter les valeurs, cli-
• « 2 » permet de calculer la médiane ;
quer droit sur le graphique puis sur « options du graphique ».
• « 3 » permet de calculer le troisième quartile (Q75 ) ;
Dans l’onglet « étiquettes de données », cliquer sur le bouton
• « 4 » permet de calculer la valeur maximale.
« valeur » puis « OK ».
En entrant la commande « 2 » dans le champ « quart »
on obtient donc la valeur du premier quartile. En répé- Paramètre de dispersion par rapport à
tant la procédure ci-dessus (en entrant « 3 » dans le la moyenne : variance et écart-type
champ « quart ») on obtient la valeur du troisième quartile
(Tableau 3). L’écart-type (ou déviation standard issue de l’anglais stan-
Bien qu’habituellement peu utilisé, l’intervalle inter- dard deviation) est une variable de dispersion autour de la
quartile est un paramètre exprimant la dispersion d’une moyenne d’une série très utilisée en statistique. Ce para-
mètre correspond à la racine carrée de la variance d’une
série. La variance est un paramètre peu utilisé (mais néan-
Tableau 3 Résultats pour les quartiles. moins utile. . .) qui correspond à la moyenne de la « somme
du carré des écarts par rapport à la moyenne ». En d’autres
Non-fumeur Fumeur termes, pour chaque valeur observée, on calcule son écart
Moyenne 43,1 50,3 par rapport à la moyenne de la série. La somme de tous ces
Médiane 37,5 56,5 écarts, élevé au carré puis divisé par le nombre de valeurs
Troisième quartile 59,5 61,0 observées, correspond à la variance. La définition de ce
Valeur maximale 75,0 85,0 paramètre reflète bien qu’il s’agit d’un paramètre de dis-
Valeur minimale 18,0 18,0 persion par rapport à la moyenne. Néanmoins, la variance ne
Premier quartile 32,5 35,3 s’exprime pas dans l’unité de mesure de la valeur observée
mais dans son carré (âge2 dans notre série. . .). C’est l’une
384 S. Couraud

des raisons pour laquelle on lui préfère sa racine carrée


correspondant à l’écart-type.


n
2
Variation = SCE = (xi − x̄)
(i=1)

Variance = s2 = SCE/n
√ √
Écart- type = s = s2 = variance

Par approximation de la loi normale, la moyenne, plus ou


moins un écart-type englobe 68,26 % de la population étu-
diée. De même, la moyenne plus ou moins deux écarts-types
englobe 95,44 % de celle-ci et la moyenne plus ou moins
1,96 écart-type englobe 95 %. En statistique, on utilise par
convention la moyenne plus ou moins deux écarts-types pour
exprimer la distribution d’une série.
Pour calculer l’écart-type d’une série sur les feuilles de
calcul Excel, il suffit, comme précédemment, après avoir
sélectionné la cellule dans laquelle afficher l’écart-type, de
cliquer sur « fx » dans la barre de tâche, de sélectionner
la fonction « ÉCART-TYPE » dans les fonctions statistiques,
Figure 8. Moyenne (± deux écarts-types) de l’âge des patients
de sélectionner la population à étudier puis de cliquer sur
chez les fumeurs et les non-fumeurs.
« OK ».
Avant de formuler ce test, deux questions se posent.
Représentation graphique
La représentation graphique de la moyenne plus ou moins Le test doit-il être uni ou bilatéral ?
deux écarts-types suit la même procédure que décrit précé- La différence réside dans la façon de formuler son hypo-
demment pour les variables qualitatives (pour intégrer les thèse :
IC) à quelques particularités près :
• la valeur de référence doit être la moyenne ; H0 : m1 = m2
• usuellement, il est plus logique d’utiliser un graphique
« en point » ; Huni : m1 > m2 ; Hbi : m1 =
/ m2
• il faut préalablement calculer la valeur « deux écarts-
types ». Pour cela, sélectionner une cellule vide puis taper
À la vue de ces hypothèses, il est aisé de se rendre compte
la formule « =SOMME(« coordonnées de la cellule dans
que la valeur de p est doublée lorsque l’on choisit un test
laquelle figure l’écart-type » * 2) » puis taper sur entrer.
bilatéral par rapport au test unilatéral. En effet, l’hypothèse
NB : Sur Excel© , le signe « multiplication » est représenté unilatérale m1 est supérieure à m2 est strictement incluse
par la touche « étoile » et non par le « x ». dans l’hypothèse bilatérale m1 n’est pas égale à m2 ; p est
On obtient ainsi le schéma suivant (Fig. 8). alors divisé par deux. En règle générale, les tests bilaté-
raux sont donc préférés puisqu’ils sont moins susceptibles de
Comparer deux moyennes rejeter à tort l’hypothèse nulle. L’utilisation de tests bila-
téraux exige des effectifs plus grands que l’utilisation d’un
Pour comparer deux moyennes, on a en général recours au test unilatéral.
test t de Student. Celui-ci est valide si la variable suit une
loi normale et si l’effectif étudié est supérieur à 30. Les écarts-types (ou variances) sont-ils égaux ou
Pour mémoire, la formule du test t est la suivante : non ?
Pour répondre à cette seconde question, il est nécessaire
(m1 − m2 )
t=  d’utiliser un test de comparaison des écarts-types. On pro-
(n1 s12 + n2 s22 )/(n1 n2 ) pose d’utiliser le test F.
Pour cela, il faut sélectionner une cellule vide puis choisir
dans laquelle m1 et m2 sont les moyennes respectives des la fonction « TEST.F » dans la liste des fonctions statistiques.
échantillons, s1 et s2 , les écarts-types et n1 et n2 les effec- Le programme demande alors de sélectionner les valeurs de
tifs. la variable de l’échantillon « non fumeurs » puis celles des
La valeur de t est ensuite comparée à la table de la loi « fumeurs ». La valeur calculée par le logiciel est celle du p
normale pour obtenir la valeur du p. Si la valeur absolue de du test F. Son interprétation est la suivante :
t est supérieure à 1,96, le p correspondant est inférieur à • si p du test F est inférieure 0,05 : les variances sont
0,05. inégales ;
Biostatistiques avec les feuilles de calcul Excel© ou équivalent 385

• si p du test F est supérieure à 0,05 : les variances sont Conclusion


égales ;
• dans l’exemple : p(Test F) = 0,73824488 ; p est supérieure À travers cet article, le lecteur a pu se familiariser avec la
à 0,05 ; les variances sont donc inégales. biostatistique. Il est néanmoins évident que ces quelques
lignes ne suffiront pas à transformer ce dernier en sta-
Disposant des réponses à ces deux questions pré-
tisticien averti. Qui plus est, cet article ne donne qu’un
liminaires, il est alors possible de calculer le test t
aperçu simple et didactique de cette science exacte qui ne
de Student pour la série. Pour cela, il suffit de sélec-
supporte pas « l’à-peu-près ». Les conseils de spécialistes
tionner la fonction « TEST.STUDENT » ou « Test.T »
restent donc importants pour les auteurs désirant réaliser
dans la liste des fonctions statistiques proposées.
des calculs plus complexes ou souhaitant s’assurer que leur
Le programme demande alors de remplir quatre
raisonnement mathématique est exact. Par ailleurs, bien
champs :
• champs « matrice 1 » et « matrice 2 » : coordonnées des que certains logiciels de biostatistiques soient en téléchar-
gements gratuits (version d’essai avec période d’utilisation
séries « non fumeurs » puis « fumeurs » ;
• champs « uni/bilatéral » : l’investigateur souhaite-t-il limitée dans certains cas) ; les logiciels plus complets sont
souvent coûteux. Utiliser les feuilles de calculs Excel© ou
effectuer un test bilatéral (taper le chiffre « 2 » dans le
équivalent peut donc s’avérer une solution économique et
champ) ou unilatéral (taper « 1 ») ?
• champs « type » : les variances (avec le test F ci-dessus) pratique dans certains cas.
sont-elles égales (saisir « 2 ») ou inégales (saisir « 3 »).
Dans le cas où le nombre de données est identique dans
les deux séries (n1 = n2 = n/2), il faut alors choisir le test
Conflit d’intérêt
de Student par paires (taper « 1 »).
Aucun.
Le programme calcule alors la valeur du p par le
test t de Student. Dans l’exemple, on obtient les valeurs
suivantes : Pour en savoir plus
• avec un test unilatéral : p = 0,11870 ;
• avec un test bilatéral : p = 0,23739. Falissard B. Comprendre et utiliser les statistiques dans les sciences
de la vie. 2e édition. Paris: Éditions Masson, 1998. 332 p.
La valeur de p est donc supérieure à 0,05 témoignant Huguier M., Flahault A. Biostatistiques au quotidien. Paris: Éditions
du fait qu’il est impossible de rejeter l’hypothèse nulle ; Elsevier SAS; 2000. 204 p.
la différence d’âge moyen observée chez les fumeurs Taub P.J., Westheimer E. Biostatistics. Plast Reconstr Surg
et les non-fumeurs n’est pas statistiquement significa- 2009;124(2), 200—208Bouyer J. Méthodes statistiques Médecine —
tive. Biologie. ESTEM. Paris: éditions Inserm; 2008. 351 p.