Vous êtes sur la page 1sur 22

Mesures de tendance centrale

 Une analyse plus formelle des données nécessite souvent le calcul et


l’interprétation de mesures sommaires numériques. C’est-à-dire qu’à partir
des données, nous essayons d’extraire plusieurs nombres récapitulatifs –
des nombres qui pourraient servir à caractériser l’ensemble de données et
à transmettre certaines de ses caractéristiques saillantes.
 Supposons donc que notre ensemble de données soit de la forme x1, x2,...,
x n , où chaque x i est un nombre. Quelles caractéristiques d’un tel
ensemble de chiffres sont les plus intéressantes et méritent d’être
soulignées ? Une caractéristique importante d’un ensemble de nombres
est son emplacement, et en particulier son centre.
La moyenne
 Pour un ensemble donné de nombres x1, x2, …, xn, la mesure la plus familière et la plus utile du centre
est la moyenne, ou moyenne arithmétique de l’ensemble. Parce que nous penserons presque
toujours que les xi constituent un échantillon, nous nous référerons souvent à la moyenne
arithmétique comme la moyenne de l’échantillon et la noterons par �

La moyenne de l’échantillon des observations x1, x2, …, xn est donnée par �

Le numérateur peut être écrit de manière plus informelle sous la forme où la


somme porte sur toutes les observations de l’échantillon.
La moyenne
 La moyenne souffre d’une déficience qui en fait une mesure inappropriée du centre dans certaines
circonstances : sa valeur peut être grandement affectée par la présence d’une seule valeur
aberrante (observation exceptionnellement grande ou petite).

 La valeur x14 est évidemment une valeur aberrante. Sans cette observation, � = 399,8/20 = 19,99 ; la
valeur aberrante augmente la moyenne � plus de 1. Si l’observation 45,0 était remplacée par la
valeur 295,0 une valeur aberrante vraiment extrême, alors � = 5 694,8/21 = 5 33,09 qui est plus
grande que toutes les observations sauf une !
La médiane
 Le mot « médiane » est synonyme de « milieu », et la médiane de l’échantillon est en effet la valeur
médiane une fois que les observations sont ordonnées du plus petit au plus grand. Lorsque les
observations sont notées x 1 , ..., x n , nous utiliserons le symbole � pour représenter la médiane de
l’échantillon.

La médiane de l’échantillon est obtenue en ordonnant d’abord les n observations de la plus


petite à la plus grande (avec toutes les valeurs répétées incluses de sorte que chaque
observation de l’échantillon apparaisse dans la liste ordonnée).

Si n est impair:

Si n est pair:
La médiane
 Exemple

Puisque n = 12 est pair, la médiane de l’échantillon est la moyenne de n/2 = 6ième et


(n/2+1) = 7ième valeur de la liste ordonnée :

Il est à noter que si la plus grande observation 79,0 n’avait pas été incluse dans
l’échantillon, la médiane de l’échantillon résultante pour les n = 11 observations
restantes aurait été la valeur médiane unique 66,4 ([n+1/2 = 6ième valeur de la
liste ordonée. La moyenne de l’échantillon est
un peu plus grande que la médiane. La moyenne est un peu tirée par rapport
à la médiane parce que l’échantillon « s’étend » un peu plus à l’extrémité
supérieure qu’à l’extrémité inférieure.
Comparaison de la moyenne avec la médiane
 (a) : La moyenne et la médiane sont similaires ici
parce que la distribution des observations est
symétrique autour du centre.
(b) Si nous avons des données biaisées, la moyenne
et la médiane peuvent différer.
( c ) Si l e s d o n n é e s o n t p l u s d ’ u n c e n t r e , n i l a
médiane ni la moyenne n’ont d’interprétations
significatives.
(d) Si nous avons des valeurs aberrantes, il est sage
d’utiliser la médiane parce que la moyenne est
sensible aux valeurs aberrantes.

Ces exemples montrent qu’en fonction de la situation


d’intérêt, la moyenne, la médiane, les deux ou aucun
d’eux ou aucun d’eux peut être utile.
Quartiles et percentiles
q Les quartiles divisent l’ensemble de données en quatre parties égales, les observations au-dessus
du troisième quartile constituant le quart supérieur de l’ensemble de données, le deuxième
quartile étant identique à la médiane et le premier quartile séparant le quart inférieur des trois
quarts supérieurs.
q De même, un ensemble de données (échantillon ou population) peut être divisé encore plus
finement à l’aide de percentiles ; Le 99e centile sépare le 1 % le plus élevé des 99% inférieurs, et
ainsi de suite. À moins que le nombre d’observations ne soit un multiple de 100, il faut faire
preuve de prudence dans l’obtention des percentiles.

Exemple de la température à Bangkok en décembre. Les valeurs ordonnées x(i), i = 1, 2,..., 31 sont les
suivantes ::

P o u r d é t e r m i n e r le s q u a rt i le s , c ’e s t - à - d i r e l e s
quantiles de 25, 50 et 75%, nous calculons n� comme
31x 0,25 = 7,75, 31x 0,5 = 15,5 et 31x 0,75 = 23,25. Ainsi
�̃0,25 = x(8) = 25, �̃0,50 = x(16) = 26, �̃0,75 = x(24) = 29.
Le mode

q Le mode �M de n observations x1, x2,..., xn est la valeur qui se produit


le plus par rapport à toutes les autres valeurs, c’est-à-dire la valeur
qui a la fréquence absolue maximale.
q Il peut arriver que deux valeurs ou plus se produisent avec la même
fréquence, auquel cas le mode n’est pas défini de manière unique.
Moyenne géométrique

Considérons n observations x 1 , x 2 ,..., x n qui sont toutes positives et recueillies sur une
variable quantitative. La moyenne géométrique �G de ces données est définie comme
suit :

Pour les statisticiens, la moyenne géométrique est moins sensible que la moyenne
arithmétique aux valeurs les plus élevées d'une série de données.
TDexercice1
Les valeurs suivantes sont des montants de vente de maisons pour un
échantillon de maisons (1000 de $) : 590, 815, 575, 608, 350, 1285, 408,
540, 555, 679
a) Calculer et interpréter la moyenne et la médiane de l’échantillon.
b) Supposons que la 6ème observation ait été 985 plutôt que 1285.
Comment la moyenne et la médiane changeraient-elles ?

640.5, 582.5
610.5, 582.5
TDexercice2
L’exposition aux produits microbiens, en particulier aux endotoxines, peut avoir un
impact sur la vulnérabilité aux maladies allergiques. L’article « Dust Sampling Methods
for Endotoxin—An Essential, But Underestimated Issue » (Indoor Air, 2006 : 20–27)
examinait diverses questions associées à la détermination de la concentration
d’endotoxines. Les données suivantes sur la concentration (UE/mg) dans la poussière
décantée pour un échantillon de maisons urbaines et un autre de maisons agricoles
ont été aimablement fournies par les auteurs de l’article cité.

a) Déterminer la moyenne de l’échantillon pour chaque échantillon. Comment se


comparent-ils ?
b) Déterminez la médiane de l’échantillon pour chaque échantillon. Comment se
comparent-ils ? Pourquoi la médiane de l’échantillon urbain est-elle si différente de la
moyenne de cet échantillon ?
TDexercice3
Supposons que les valeurs réelles de pression artérielle pour neuf individus choisis au
hasard soient

a) Quelle est la médiane des valeurs de pression artérielle rapportées ?


b) Supposons que la pression artérielle du deuxième individu soit de 127,6 plutôt
que de 127,4 (un petit changement dans une seule valeur). Comment cela
affecte-t-il la médiane des valeurs déclarées ? Qu’est-ce que cela dit de la
sensibilité de la médiane à l’arrondissement ou au regroupement dans les
données ?
TDexercice4
L’article « Snow Cover and Temperature Relationships in North America and Eurasia »
(J. Climate and Applied Meteorology, 1983 : 460–469) a utilisé des techniques
statistiques pour relier la quantité de couverture de neige sur chaque continent à la
température continentale moyenne. Les données qui y sont présentées
comprenaient les dix observations suivantes sur la couverture neigeuse d’octobre
pour l’Eurasie au cours des années 1970-1979 (en millions de km2) :

6.5, 12.0, 14.9, 10.0, 10.7, 7.9, 21.9, 12.5, 14.5, 9.2

Qu’est-ce que vous déclareriez comme valeur représentative, ou typique, de la


couverture de neige d’octobre pour cette période, et qu’est-ce qui a motivé
votre choix ?
Mesures de dispersion
 Les mesures de tendance centrale, telles qu’elles ont été présentées
précédemment, nous donnent une idée de l’endroit où la plupart des données sont
concentrées.
Cependant, deux ensembles de données différents peuvent avoir la même valeur
pour la mesure de la tendance centrale, disons les mêmes moyennes arithmétiques,
mais ils peuvent avoir des concentrations différentes autour de la moyenne.
Dans ce cas, les mesures de localisation peuvent ne pas être suffisantes pour décrire
la distribution des données.
La concentration ou la dispersion des observations autour d’une valeur particulière
est une autre propriété qui caractérise les données et leur distribution.
Étendue
 La mesure la plus simple de la variabilité dans un échantillon est l’étendue, qui est
la différence entre les plus grandes et les plus petites valeurs d’échantillon.
 Exemple : la valeur de l’étendue pour l’échantillon 1 dans la figure suivante est
beaucoup plus grande que pour l’échantillon 3, reflétant une plus grande
variabilité dans le premier échantillon que dans le troisième. Un défaut de
l’étendue, cependant, est qu’elle ne dépend que des deux observations les plus
extrêmes et ne tient pas compte des positions des valeurs n – 2 restantes. Les
échantillons 1 et 2 de la figure suivante ont des fourchettes identiques, mais lorsque
nous considérons les observations entre les deux extrêmes, il y a beaucoup moins
de variabilité ou de dispersion dans le deuxième échantillon que dans le premier.
Variance et écart-type

La variance de l’échantillon, notée s2, est donnée par:

L’écart-type de l’échantillon, noté « s », est la racine carrée (positive)


de la variance:

 Une interprétation approximative de l’écart-type de l’échantillon est qu’il s’agit de la taille


d’un écart typique ou représentatif par rapport à la moyenne de l’échantillon dans
l’échantillon donné.
Si s = 2,0, alors certains xi de l’échantillon sont plus proches de 2,0 à x , tandis que d’autres
sont plus éloignés ; 2,0 est un écart représentatif (ou « type ») par rapport à la moyenne.
Si s = 3,0 pour un deuxième échantillon, un écart typique dans cet échantillon est d’environ
1,5 fois ce qu’il est dans le premier échantillon, ce qui indique une plus grande variabilité dans
le deuxième échantillon.
Variance et écart-type
 Exemple : Considérons l’échantillon
suivant d’efficacité (n = 11) pour la
Ford Focus 2009 équipée d’une
transmission automatique :
L’unité est (mpg), ce qui signifie miles
par gallon.

314,106
�2 = = 31,41; s = �2 = 5,60
11−1

La taille de l’écart représentatif par rapport à la


moyenne de l’échantillon 33,26 est d’environ 5,6
mpg.
Coefficient de variation
 Le coefficient de variation � est une mesure de dispersion qui utilise à la fois l’écart-
type et la moyenne et permet ainsi une comparaison équitable. Il n’e st
correctement défini que lorsque toutes les valeurs d’une variable sont mesurées sur
une échelle de rapport et sont positives telles que � > 0. Il est défini comme suit :

 Le coefficient de variation est une mesure de dispersion sans unité. Il est souvent
utilisé lorsque les mesures de deux variables sont dans des unités différentes.
TDexercice1
L’article « Oxygen Consumption During Fire Suppress : Error of Heart Rate Estimation »
(Ergonomics, 1991 : 1469–1474) rapportait les données suivantes sur la consommation
d’oxygène (mL/kg/min) pour un échantillon de dix pompiers effectuant une
simulation d’extinction d’incendie :

29.5, 49.3, 30.6, 28.2, 28.0, 26.3, 33.9, 29.4, 23.5, 31.6

Calculez les éléments suivants :

a) L’étendue de l’échantillon
b) La variance de l’échantillon s2 en calculant d’abord les écarts, puis les
quadratures, etc.)
c) L’écart type de l’échantillon
TDexercice2

Une étude de la relation entre l’âge et diverses fonctions visuelles (telles que l’acuité
et la perception de la profondeur) a rapporté les observations suivantes sur la zone
de la lame sclérale (mm2) des têtes de nerf optique humain (« Morphometry of
Nerve Fiber Bundle Pores in the Optic Nerve Head of the Human, » Experimental Eye
Research, 1988 : 559-568) :

2.75, 2.62, 2.74, 3.85, 2.34, 2.74, 3.93, 4.21, 3.88, 4.33, 3.46, 4.52, 2.43, 3.65, 2.78, 3.56, 3.01

a) Calculer et
b) Utilisez les valeurs calculées dans la partie (a) pour calculer la variance
de l’échantillon s2, puis l’écart type de l’échantillon s.
TDexercice3
Calculer et interpréter les valeurs de la moyenne et
l’écart-type pour les observations suivantes :
87, 93, 96, 98, 105, 114, 128, 131, 142, 168

116.2 ± 25.75
TDexercice4
Le s trouble s e t le s sym ptôm e s de l'a nxié té pe uve nt s o u v e n t ê t r e t r a i t é s
efficacement par des médicaments à base de benzodiazépines. On sait que les
animaux exposés au stress présentent une diminution de la fixation des récepteurs
des benzodiazépines dans le cortex frontal. L'article "Decreased Benzodiazepine
Receptor Binding in Prefrontal Cortex in Combat-Related Posttraumatic Stress
Disorder" (Amer. J. of Psychiatry, 2000 : 1120-1126) décrit la première étude sur la
fixation des récepteurs des benzodiazépines chez les personnes souffrant du
syndrome de stress post-traumatique. Les données relatives à la mesure de la
fixation des récepteurs (volume de distribution ajusté) ont été lues à partir d'un
graphique dans l'article.
SPT: 10, 20, 25, 28, 31, 35, 37, 38, 38, 39, 39, 42, 46
Sain: 23, 39, 40, 41, 43, 47, 51, 58, 63, 66, 67, 69, 72

Utilisez diverses méthodes parmi celles étudiées jusqu’à présent pour décrire et
résumer les données?

Vous aimerez peut-être aussi