Vous êtes sur la page 1sur 13

Statistiques Page 1 G. COSTANTINI http://bacamaths.

net/
STATISTIQUES
I) Mdiane et quartiles d'une srie statistique quantitative
a) Cas d'une srie statistique discrte
Dans ce cas, on dispose d'une famille de rels x
1
; x
2
; ... ; x
N
que l'on a rang dans l'ordre croissant :
x
1
x
2
... x
N
(Certains de ces rels peuvent tre confondus)
Vocabulaire : x
1
s'appelle le terme de rang 1 (ou d'indice 1), x
i
le terme de rang (ou d'indice) i (1 i N)
N reprsente l'effectif total.
On note (x
i
)
1iN
cette famille de rels qu'on appelle encore "srie statistique".
Exemples :
L'lve A a obtenu les 8 notes suivantes :
x
1
= 5 x
2
= 5 x
3
= 6 x
4
= 9 x
5
= 10 x
6
= 12 x
7
= 13 x
8
= 13
L'lve B a obtenu les 9 notes suivantes :
x
1
= 2 x
2
= 3 x
3
= 5 x
4
= 6 x
5
= 8 x
6
= 9 x
7
= 9 x
8
= 10 x
9
= 10
L'lve C a obtenu les 10 notes suivantes :
x
1
= 6 x
2
= 6 x
3
= 10 x
4
= 12 x
5
= 12 x
6
= 13 x
7
= 14 x
8
= 15 x
9
= 16 x
10
= 16
L'lve D a obtenu les 11 notes suivantes :
x
1
= 0 x
2
= 0 x
3
= 1 x
4
= 4 x
5
= 5 x
6
= 8 x
7
= 10 x
8
= 12 x
9
= 13 x
10
= 16 x
11
= 17
Dfinition 1 Mdiane
On appelle mdiane tout rel m
e
tel que :
au moins 50% des termes de la srie ont une valeur infrieure ou gale m
e
et
au moins 50% des termes de la srie ont une valeur suprieure ou gale m
e
On prouvera, ci-dessous (thorme 1), qu'un tel rel existe toujours !
Remarque : la mdiane partage l'ensemble des termes en deux sous ensembles de mme effectif. (Enfin presque !)
Exemples :
Pour l'lve A (N = 8) : m
e
= x
4
= 9 (x
5
= 10 conviendrait galement ou, plus gnralement, tout rel de [9 ; 10])
Pour l'lve B (N = 9) : m
e
= x
5
= 8 (et l, il n'y a pas d'autre choix possible)
Pour l'lve C (N = 10) : m
e
= 12,5 (ou tout rel de l'intervalle [x
5
; x
6
] = [12 ; 13])
Pour l'lve D (N = 11) : m
e
= 8 (et l, il n'y a pas d'autre choix possible)
On constate que la dtermination de la mdiane est diffrente suivant que l'effectif total N est pair ou impair :
Lorsque l'effectif total N est impair, il n'y a pas de difficult, la mdiane m
e
est le terme central, savoir le
terme de rang
N +1
2
. On a donc : m
e
= x
N+1
2
.
Statistiques Page 2 G. COSTANTINI http://bacamaths.net/
Lorsque l'effectif total N est pair, l'usage veut que l'on choisisse pour mdiane m
e
la moyenne des deux
termes centraux, savoir : les termes de rang
N
2
et
N
2
+ 1. On a donc : m
e
=
x x
N N
2 2
1
2
+
+
.
Mais tout rel de l'intervalle [ x
N
2
; x
N
2
1 +
] conviendrait galement. (En effet, dans certaines situations, la
moyenne des deux termes centraux, qui n'est pas une valeur de la srie, n'a pas de sens : par exemple, quel
est le jour mdian du mois de juin ? Le mois de juin comporte 30 jours. Les deux termes centraux sont 15 et
16 (15
me
jour et 16
me
jour). Dire que "le jour mdian est le 15,5
me
" n'a pas de sens. Mieux vaut dire (dans
ce type de situation) : "le jour mdian est le 15
me
jour" ou "le jour mdian est le 16
me
jour" (au choix !) ...)
Exemple : si N = 29 alors m
e
= x
15
; si N = 42 alors m
e
=
x x
21 22
2
+
.
Exercice : quelle est la mdiane de la srie suivante : x
1
= 1 x
2
= 1 x
3
= 1 x
4
= 1 x
5
= 1 ?
Dfinition 2 Quartiles
On appelle premier quartile tout rel Q
1
tel que :
au moins 25% des termes de la srie ont une valeur infrieure ou gale Q
1
et
au moins 75% des termes de la srie ont une valeur suprieure ou gale Q
1
On appelle troisime quartile tout rel Q
3
tel que :
au moins 75% des termes de la srie ont une valeur infrieure ou gale Q
3
et
au moins 25% des termes de la srie ont une valeur suprieure ou gale Q
3
On prouvera, ci-dessous (thorme 1), que de tels rels existent toujours !
Remarques :
Le deuxime quartile Q
2
ne se dfini pas puisqu'il s'agit de la mdiane m
e
.
Les trois quartiles partagent l'ensemble des valeurs en quatre sous ensembles de (presque) mme effectif.
On a toujours : Q
1
m
e
Q
3
.
Exemples :
Pour l'lve A, on peut choisir : Q
1
dans [x
2
; x
3
] = [5 ; 6] et Q
3
dans [x
6
; x
7
] = [12 ; 13]
Pour l'lve B, on a : Q
1
= x
3
= 5 et Q
3
= x
7
= 9 (pas d'autres choix possibles)
Pour l'lve C, on a : Q
1
= x
3
= 10 et Q
3
= x
8
= 15 (pas d'autres choix possible)
Pour l'lve D, on peut choisir : Q
1
= x
3
= 1 et Q
3
= x
9
= 13 (pas d'autre choix possible)
Statistiques Page 3 G. COSTANTINI http://bacamaths.net/
On constate que la dtermination des quartiles est diffrente suivant que l'effectif total N est un multiple de 4
ou non :
Lorsque l'effectif total N n'est pas un multiple de 4, il n'y a pas de difficult, les quartiles Q
1
et Q
3
sont les
termes de rang immdiatement suprieur
N
4
et
3
4
N
:
Q
1
= x
N
4
1

+
Q
3
= x
N 3
4
1

+
Lorsque l'effectif total est un multiple de 4, alors l'usage veut que l'on choisisse pour quartiles Q
1
et Q
3
les
termes de rang
N
4
et de rang
3
4
N
. On a donc Q
1
= x
N
4
et Q
3
= x
N 3
4
. Mais tout rel de l'intervalle
[ x
N
4
; x
N
4
1 +
] conviendrait galement pour Q
1
et tout rel de l'intervalle [ x
N 3
4
; x
N 3
4
1 +
] conviendrait
galement pour Q
3
.
Exemple : si N = 29 alors Q
1
= x
8
et Q
3
= x
22
; si N = 44 alors Q
1
= x
11
et Q
3
= x
33
.
Voici un thorme qui donne des formules qui marchent dans tous les cas !
Thorme 1
Soient N !
*
et (x
i
)
1iN
une famille de rels ordonns dans l'ordre croissant. Les rels :
Q
1
= x
N
4
1

+
m
e
= x
N
2
1

+
Q
3
= x
N 3
4
1

+
dfinissent toujours des valeurs convenables pour le premier quartile, la mdiane et le troisime quartile.
Pour dmontrer ce thorme, on aura besoin du petit lemme suivant :
Lemme
Soient A et B des lments de ! avec A B. L'ensemble A ; B! contient B - A + 1 entiers.
Preuve du lemme :
L'ensemble A ; B! contient autant d'entiers que l'ensemble A - A + 1 ; B - A + 1! = 1 ; B - A + 1! qui lui
mme en contient B - A + 1.
Dmonstration du thorme 1 :
Pour tout rel l, notons E(l) = {i 1 ; N! tels que x
i
l} et F(l) = {i 1 ; N! tels que x
i
" l}
E(l) est l'ensemble des indices des termes de la famille (x
i
)
1iN
qui sont infrieurs l et F(l) est l'ensemble
des indices des termes de la famille (x
i
)
1iN
qui sont suprieurs l.
Posons : Q
1
= x
N
4
1

+
m
e
= x
N
2
1

+
Q
3
= x
N 3
4
1

+
Montrons que m
e
est une valeur convenable pour la mdiane : soit i 1 ; N!
Statistiques Page 4 G. COSTANTINI http://bacamaths.net/
x
i
m
e
x
i
x
N
2
1

+
1 i
N
2

+ 1 i 1 ;
N
2

+ 1!
Or, dans 1 ;
N
2

+ 1! il y a
N
2

+ 1 entiers.
Donc Card(E(m
e
)) =
N
2

+ 1
Or,
N
2

N
2

N
2

+ 1, donc : Card(E(m
e
)) "
N
2
De mme :
x
i
" m
e
x
i
" x
N
2
1

+
N " i "
N
2

+ 1 i
N
2

+ 1 ; N!
Or, dans
N
2

+ 1 ; N! il y a N -
N
2

entiers.
Donc Card(F(m
e
)) = N -
N
2

Or,
N
2

N
2

N
2

+ 1 donc -
N
2

" -
N
2
et en ajoutant N : N -
N
2

"
N
2
donc Card(F(e
m
)) "
N
2
.
On a donc bien :
au moins 50% des termes de la srie ont une valeur infrieure ou gale m
e
et
au moins 50% des termes de la srie ont une valeur suprieure ou gale m
e
Donc m
e
est bien une valeur mdiane de la srie.
Montrons que Q
1
est une valeur convenable pour le premier quartile : soit i 1 ; N!
x
i
Q
1
x
i
x
N
4
1

+
i
N
4

+ 1 i 1 ;
N
4

+ 1!
Or, dans 1 ;
N
4

+ 1! il y a
N
4

+ 1 entiers.
Donc Card(E(Q
1
)) =
N
4

+ 1
Or,
N
4

N
4

N
4

+ 1, donc : Card(E(Q
1
)) "
N
4
De mme :
x
i
" Q
1
x
i
" x
N
4
1

+
i "
N
4

+ 1 i
N
4

+ 1 ; N!
Or, dans
N
4

+ 1 ; N! il y a N -
N
4

entiers.
Statistiques Page 5 G. COSTANTINI http://bacamaths.net/
Donc Card(F(Q
1
)) = N -
N
4

Or,
N
4

N
4

N
4

+ 1donc -
N
4

" -
N
4
et en ajoutant N : N -
N
4

"
3
4
N
donc Card(F(Q
1
)) "
3
4
N
.
On a donc bien :
au moins 25% des termes de la srie ont une valeur infrieure ou gale Q
1
et
au moins 75% des termes de la srie ont une valeur suprieure ou gale Q
1
Donc Q
1
est bien une valeur du premier quartile de la srie.
La dmonstration est analogue pour Q
3
.
b) Cas d'une srie statistique (discrte ou continue) avec regroupement en classes
Dans ce cas, mdiane et quartiles peuvent se dterminer l'aide du polygone des effectifs (ou frquences)
cumul(e)s croissant(e)s.
Exemple :
La rpartition des accidents corporels de la route selon les heures de la journe est dcrite par le tableau
suivant, pour l'anne 1999.
Tranche horaire [0 ; 3[ [3 ; 6[ [6 ; 9[ [9 ; 12[ [12 ; 15[ [15 ; 18[ [18 ; 21[ [21 ; 24[ Total
Nombre d'accidents 4550 3230 8220 9050 12040 16040 16820 10050 80000
Effectifs cumuls croissants
4550 7780 16000 25050 37090 53130 69950 80000
On trace ensuite le polygone des effectifs cumuls croissants :
Si N est l'effectif total et la fonction affine par morceaux correspondant au polygone des effectifs cumuls
croissants. Alors, on considre que les quartiles et la mdiane sont dfinis par :
Q
1
=

-1
4
N
m
e
=

-1
2
N
Q
3
=

-1
3
4
N
0
10000
20000
30000
40000
50000
60000
70000
80000
0 3 6 9 12 15 18 21 24
me
Q3 Q1
Statistiques Page 6 G. COSTANTINI http://bacamaths.net/
Dans notre cas N = 80000.
Calculons Q
1
=
-1
(20000) :
Posons A(9 ; 16000), B(12 ; 25050) et M
1
(Q
1
; 20000).
Comme les vecteurs AB

3
9050
et AM
1

Q
1
9
4000
-
sont colinaires, on a : 3 4000 - 9050(Q
1
- 9) = 0
D'o Q
1
=
1869
131
10,3 ( 10
-1
prs. Inutile de donner un rsultat plus prcis, cela n'aurait pas de sens car le
regroupement en classe gomme dj beaucoup de la prcision)
Interprtation : un quart des accidents corporels quotidiens ont lieu entre 0h00 et 10h20 du matin.
On calcule de mme m
e
=

-1
2
N
et Q
3
=

-1
3
4
N
l'aide des points C(15 ; 37090), M(m
e
; 40000),
D(18 ; 53130), M
3
(Q
3
; 60000) et E(21 ; 69950) :
Comme les vecteurs CD

3
16040
et CM

m
e
-15
2910
sont colinaires, on a : 3 2910 - 16040(m
e
- 15) = 0
D'o m
e
=
24933
1604
15,6 ( 10
-1
prs)
Interprtation : la moiti des accidents corporels quotidiens ont lieu entre 0h00 et 15h40.
Comme les vecteurs DE

3
16820
et DM
3

Q
3
18
6870
-
sont colinaires, on a : 3 6870 - 16820(Q
3
- 18) = 0
D'o Q
3
=
32337
1682
19,2 ( 10
-1
prs)
Remarques :
Une simple lecture graphique donne souvent une prcision satisfaisante.
Si on construit le polygone des frquences cumules croissantes alors Q
1
, m
e
et Q
3
sont les antcdents
respectifs de 0,25 ; 0,5 et 0,75.
Dans le cas d'un regroupement en classe, les statisticiens parlent rarement de valeur mdiane mais plutt de
classe mdiane.
c) Proprit de la mdiane et des quartiles
Proprit 1
Soient N " 5 et (x
i
)
1iN
une famille de rels ordonns dans l'ordre croissant.
Soient Q
1
, Q
3
et m
e
les quartiles et la mdiane de la srie (x
i
)
1iN
.
Soit m et M le minimum et le maximum de la srie (x
i
)
1iN
.
Si l'on remplace m par un rel de ]- ; Q
1
[ ou M par un rel de ]Q
3
; +[ alors les quartiles restent inchangs.
Si l'on remplace m par un rel de ]- ; m
e
[ ou M par un rel de ]m
e
; +[ alors la mdiane reste inchange.
Exemple :
Considrons la srie suivante :
x
1
= 1 x
2
= 5 x
3
= 8 x
4
= 15 x
5
= 29 x
6
= 35
Statistiques Page 7 G. COSTANTINI http://bacamaths.net/
On a : Q
1
= x
2
= 5 ; m
e
=
1
2
(x
3
+ x
4
) = 11,5 ; Q
3
= x
5
= 29.
Si l'on remplace m = x
1
= 1 par un rel de ]- ; 5[, cela ne changera pas les valeurs de Q
1
; m
e
et Q
3
. (Mme si
la srie est rordonner)
Par contre, si l'on remplace m par un rel suprieur Q
1
, par exemple par 9.
En rordonnant la srie, on obtient :
y
1
= 5 y
2
= 8 y
3
= 9 y
4
= 15 y
5
= 29 y
6
= 35
On constate que Q
1
devient gal y
2
= 8 et m
e
devient gal
1
2
(y
3
+ y
4
) = 12.
Remarque :
On dit parfois que la mdiane et les quartiles sont insensibles aux termes extrmes.
Dmonstration de la proprit :
En remplaant x
1
par un rel de ]- ; Q
1
[, on ne change pas le nombre de termes de la srie qui ont une valeur
infrieure ou gale Q
1
(il y en aura donc toujours au moins 25%) ni le nombre de termes de la srie qui ont
une valeur suprieure ou gale Q
1
(il y en aura donc toujours au moins 75%). Donc Q
1
reste une valeur
convenable du premier quartile de la srie.
Mme raisonnement pour le reste...
d) Diagrammes en botes (ou botes moustaches)
Dfinition 3
Soient N !
*
et (x
i
)
1iN
une famille de rels ordonns dans l'ordre croissant.
(Ainsi x
1
= min
i
i
x et x
N
= max
i
i
x )
Soient m
e
, Q
1
et Q
3
la mdiane et les quartiles de (x
i
)
1iN
.
On appelle tendue la diffrence x
N
- x
1
. (Diffrence entre les termes extrmes de la srie)
On appelle interquartile la diffrence Q
3
- Q
1
.
On appelle intervalle interquartile l'intervalle [Q
1
; Q
3
].
Lorsque m
e
0, on dfinit l'interquartile relatif par le quotient :
Q Q
m
e
3 1
-
. (Grandeur sans unit)
Remarque : l'interquartile est un indicateur de dispersion (au mme titre que l'tendue ou l'cart-type). Son
avantage est qu'il ne tient compte que de 50% de la population, ce qui a pour effet d'ignorer les valeurs
extrmes souvent marginales. Il est donc assez utilis car considr comme "standard".
Exemple :
Pour l'lve B, l'tendue est e = 8, l'intervalle interquartile est [5 ; 9].
Pour l'lve D, l'tendue est e = 17, l'intervalle interquartile est [1 ; 13].
Statistiques Page 8 G. COSTANTINI http://bacamaths.net/
Le diagramme en bote permet de visualiser les lments suivants :
minimum premier quartile mdiane troisime quartile maximum
La bote (de largeur arbitraire) reprsente 50% (au moins) de l'effectif total.
De cette bote s'tirent deux moustaches (reprsentes par des traits) jusqu'au minimum et au maximum.
Ces diagrammes permettent une interprtation visuelle et rapide de la dispersion des sries statistiques. Ils
permettent galement d'apprcier des diffrences entre des sries. (Lorsqu'elles ont des ordres de grandeurs
comparables ; sinon, on utilise l'interquartile relatif, voir II)b) exemple 2).
Dans notre exemple, nos deux lves B et D ont la mme note mdiane (8) mais les rsultats de D sont bien
plus disperss que ceux de B.
e) Effet d'un changement affine
Thorme 2
Soit N !
*
Soit (x
i
)
1iN
une famille de rels ordonns dans l'ordre croissant de mdiane m
e
et de quartiles Q
1
et Q
3
.
Soient a #
*
et b #. Soit (y
i
)
1iN
la famille de rels dfinis par : y
i
= ax
i
+ b pour tout i 1 ; N!.
Si a > 0 alors la famille (y
i
)
1iN
est ordonne dans l'ordre croissant. Les rels suivants :
m
e
' = am
e
+ b Q
1
' = aQ
1
+ b Q
3
' = aQ
3
+ b
sont des valeurs convenables de la mdiane et des quartiles de la famille (y
i
)
1iN
.
Si a < 0 alors la famille (y
i
)
1iN
est ordonne dans l'ordre dcroissant Les rels suivants :
m
e
' = am
e
+ b Q
1
' = aQ
3
+ b Q
3
' = aQ
1
+ b
sont des valeurs convenables de la mdiane et des quartiles de la famille (y
i
)
1iN
.
Dmonstration :
Lorsque a > 0, la fonction affine : t aat + b est croissante. On a alors :
x
i
Q
3
(x
i
) (Q
1
) ax
i
+ b aQ
1
+ b y
i
Q
1
'
Donc
{i 1 ; N! tels que x
i
Q
1
} = {i 1 ; N! tels que y
i
Q
1
'}
Et puisque ces ensembles d'indices sont identiques, ils ont a fortiori le mme nombre d'lments :
Card{i 1 ; N! tels que x
i
Q
1
} = Card{i 1 ; N! tels que y
i
Q
1
'}
lve D
lve B
Valeurs de la srie
17 13 10 9 8 5 2 1
20
0
Statistiques Page 9 G. COSTANTINI http://bacamaths.net/
Or, Card{i 1 ; N! tels que x
i
Q
1
} "
N
4
puisque Q
1
est le premier quartile de (x
i
)
1iN
.
Donc Card{i 1 ; N! tels que y
i
Q
1
'} "
N
4
.
On dmontre de mme que Card{i 1 ; N! tels que y
i
" Q
1
'} "
3
4
N
.
On en dduit, d'aprs la dfinition 2 que Q
1
' = aQ
1
+ b est le premier quartile de (y
i
)
1iN
.
Lorsque a < 0, la fonction affine : t aat + b est dcroissante. On a alors :
x
i
Q
3
(x
i
) " (Q
3
) ax
i
+ b " aQ
3
+ b y
i
" Q
1
'
Donc
{i 1 ; N! tels que x
i
Q
3
} = {i 1 ; N! tels que y
i
" Q
1
'}
Et puisque ces ensembles d'indices sont identiques, ils ont a fortiori le mme nombre d'lments :
Card{i 1 ; N! tels que x
i
Q
3
} = Card{i 1 ; N! tels que y
i
" Q
1
'}
Or, Card{i 1 ; N! tels que x
i
Q
3
} "
3
4
N
puisque Q
3
est le troisime quartile de (x
i
)
1iN
.
Donc Card{i 1 ; N! tels que y
i
" Q
1
'} "
N
4
.
On dmontre de mme que Card{i 1 ; N! tels que y
i
Q
1
'} "
3
4
N
.
On en dduit, d'aprs la dfinition 2 que Q
1
' = aQ
3
+ b est le premier quartile de (y
i
)
1iN
.
La dmonstration est analogue pour m
e
' et Q
3
'.
Exemple :
Dans une entreprise les salaires sont rsums par :
Minimum Premier quartile Mdiane Moyenne Troisime quartile Maximum
Salaires en m = 1020 Q
1
= 1200 m
e
= 1400 x = 1450 Q
3
= 1800 M = 3800
Le conseil d'administration dcide d'une augmentation des salaires de 2% auquel s'ajoute encore une indemnit
de 10 .
Cela se traduit par la transformation affine dfinie par : (x) = 1,02x + 10. (Ici a > 0)
Cela donne : (m) = 1050,4 ; (M) = 3886 pour le minimum et le maximum.
D'aprs le thorme 2, cela donne : (Q
1
) = 1234 ; (m
e
) = 1438 et (Q
3
) = 1846.
Enfin, la nouvelle moyenne est donne par ( x ). En effet :
Notons (x
i
)
1iN
la srie des salaires initiaux et posons y
i
= (x
i
), pour i 1 ; N!. La srie (y
i
)
1iN
correspond aux nouveaux salaires. La moyenne y des nouveaux salaires est :
Statistiques Page 10 G. COSTANTINI http://bacamaths.net/
y =
1
N
y
i
i
N
=

1
=
1
N
( ) ax b
i
i
N
+
=

1
=
1
N
a x b
i
i
N
i
N
= =

+

1 1
=
1
N
(aN x + Nb) = a x + b = ( x )
Dans notre cas, cela donne : y = 1489.
D'o le nouveau tableau :
Minimum Premier quartile Mdiane Moyenne Troisime quartile Maximum
Nouveaux Salaires en
m = 1050,4 Q
1
= 1234 m
e
= 1438 x = 1489 Q
3
= 1846 M = 3886
II) Moyenne, variance et cart-type
Dans ce paragraphe, nous utiliserons une nouvelle notation. Soit (z
i
)
1iN
une srie statistique. Certains de ces
rels peuvent tre confondus. Notons p le nombre de valeurs de la srie (1 p N) et, pour tout i 1 ; p!,
notons x
i
ces valeurs et n
i
l'effectif de x
i
. On notera (x
i
, n
i
)
1ip
la srie statistique ainsi obtenue o les x
i
sont
distincts deux deux.
a) Dfinitions
Dfinition 4
La moyenne d'une srie statistique (x
i
, n
i
)
1ip
est le nombre x dfini par :
x =
1
N
n x
i i
i
p
=

1
o N = n
i
i
p
=

1
(Effectif total)
La variance d'une srie statistique (x
i
, n
i
)
1ip
est le nombre not V et dfini par :
V =
1
N
( ) n x x
i i
i
p
-
=

2
1
la variance est la moyenne des carrs des carts la moyenne
L'cart-type d'une srie statistique (x
i
, n
i
)
1ip
est le nombre not s (ou s) et dfini par :
s = V
Remarques :
La variance est une somme de carrs. C'est donc une quantit positive. L'cart-type est donc bien dfini. Et
il s'exprime dans la mme unit que la caractre tudi.
Si on note
i
=
n
N
i
la frquence de x
i
, les formules deviennent : x =
=
i i
i
p
x
1
et V = ( ) -
=
i i
i
p
x x
2
1
.
Dans le cas d'un regroupement en classe, les calculs sont effectus en choisissant x
i
au centre de chaque
classe (c'est l'hypothse de rpartition uniforme de chaque classe)
Statistiques Page 11 G. COSTANTINI http://bacamaths.net/
Pour calculer la variance, on dispose d'une formule un peu plus pratique :
Thorme 3
La variance d'une srie statistique (x
i
, n
i
)
1ip
peut se calculer avec la relation suivante :
V =
1
N
n x x
i i
i
p
2
1
2
=

-
la variance est l'cart entre la moyenne des carrs et le carr de la moyenne
Dmonstration :
( ) -
=
i i
i
p
x x
2
1
=
( )
- +
=
i i i
i
p
x x x x
2 2
1
2 =
=
i i
i
p
x
2
1
- 2 x
=
i i
i
p
x
1
+ x
2
=
=
i i
i
p
x
2
1
- 2 x
2
+ x
2
=
=
i i
i
p
x
2
1
- x
2
b) Interprtation de l'cart-type
La variance est la moyenne des carrs des carts la moyenne. Elle mesure donc la dispersion des valeurs
autour de la moyenne. Elle n'est pas trs parlante car elle s'exprime dans le carr de l'unit du caractre.
L'cart-type a l'avantage de s'exprimer dans la mme unit que le caractre.
L'cart-type permet de comparer la dispersion de deux sries. Contrairement l'interquartile, il tient compte de
l'ensemble de la population.
Exemple 1 : cas de sries dont les ordres de grandeurs sont comparables (et de moyennes voisines)
L'lve A a obtenu les dix notes suivantes : 10 15 16 13 8 11 12 12 13 15
L'lve B a obtenu les dix notes suivantes : 11 9 9 10 15 7 12 12 14 13
Calculer les moyennes de A et B. Quel est l'lve qui a les rsultats les plus homognes ?
Moyenne de A : m
A
= 12,5 ; moyenne de B : m
B
= 11,2.
Variance de A (thorme 3) : V
A
=
1
10
(10
2
+ 2 15
2
+ 16
2
+ 2 13
2
+ 8
2
+ 11
2
+ 2 12
2
) - 12,5
2
= 5,45
D'o l'cart-type de A : s
A
= 2,33 ( 10
-2
prs)
De mme : V
B
=
1
10
(7
2
+ 2 9
2
+ 10
2
+ 11
2
+ 2 12
2
+ 13
2
+ 14
2
+ 15
2
) - 11,2
2
=5,56
D'o l'cart-type de B : s
B
= 2,36 ( 10
-2
prs)
Les lves A et B ont des rsultats d'homognit comparable.
(Remarque : l'interquartile de A est 15 - 11 = 4 ; celui de B est 13 - 9 = 4)
Exemple 2 : cas de sries dont les ordres de grandeurs sont diffrents.
Dans ce cas, l'cart-type du caractre prenant les plus grandes valeurs sera certainement suprieur au second.
Mais cela ne signifie pas, pour autant, que ses valeurs soient plus disperses. On introduit alors un nouvel
indicateur, appel coefficient de variation C
v
:
C
v
=
s
x
x
(dfini pour des sries dont la moyenne x est non nulle)
Le coefficient de variation a pour effet de relativiser l'cart-type par rapport la moyenne.
Attention, le coefficient de variation n'a pas d'unit !
Statistiques Page 12 G. COSTANTINI http://bacamaths.net/
tudions un cas concret : cinq sportifs ont couru un 1500m et un 5000m. Leurs temps sont donns dans le
tableau suivant :
Coureur 1 Coureur 2 Coureur 3 Coureur 4 Coureur 5
1500 m 3'58"17 4'05"48 4'12"97 4'08"29 4'00"12
5000 m 14'58"12 14'47"08 15'37"85 13'57"70 14'48"34
Laquelle des deux courses a les temps les plus homognes ?
Pour le 1500 m : (on convertit tous les temps en secondes pour un calcul plus ais)
moyenne : m =
1
5
(238,17 + 245,48 + 252,97 + 248,29 +240,12) = 245,006 secondes (soit environ 4'05"01)
variance : V =
1
5
(238,17
2
+ 245,48
2
+ 252,97
2
+ 248,29
2
+240,12
2
) - 245,006
2
29,0 d'o un cart-type
s 5,39 secondes
coefficient de variation : C
v
=
s
m
0,022.
Pour le 5000 m :
moyenne : m' =
1
5
(898,12 + 887,08 + 937,85 + 837,70 + 888,34) = 889,818 secondes (soit environ
14'49"82)
variance : V' =
1
5
(898,12
2
+ 887,08
2
+ 937,85
2
+ 837,70
2
+ 888,34
2
) - 889,818
2
1020,4 d'o un cart-
type s' 31,94 secondes
coefficient de variation : C
v
' =
s
m
'
'
0,036.
Conclusion : le 1500 m a t plus homogne car C
v
< C
v
'.
On peut galement, dans ce type de situation, utiliser l'interquartile relatif.
Pour le 1500 m, on a
Q Q
m
e
3 1
-
=
248 29 240 12
245 48
, ,
,
-
0,033.
Pour le 5000 m, on a :
Q Q
m
e
3 1
' '
'
-
=
898 12 887 08
888 34
, ,
,
-
0,012...
Conclusion : le 5000 m a t plus homogne que le 1500 m.
Moralit : surtout lorsque les effectifs sont petits, le coefficient de variation et l'interquartile relatif
n'aboutissent pas toujours aux mmes conclusions. (Rappel : l'interquartile ne tient compte que de 50%
de la population)
c) Effet d'un changement affine
Thorme 4
Soit (x
i
, n
i
)
1ip
une srie statistique de variance V
x
et d'cart-type s
x
.
Soient a #
*
et b #.
Soit (y
i
, n
i
)
1ip
la srie statistique dfinie par y
i
= ax
i
+ b, pour tout i 1 ; p!.
Notons V
y
sa variance et s
y
son cart-type.
Alors : V
y
= a
2
V
x
et s
y
= |a|s
x
Statistiques Page 13 G. COSTANTINI http://bacamaths.net/
Dmonstration :
On rappelle que y = a x + b. (En effet : y =
=
i i
i
p
y
1
= +
=
i i
i
p
ax b ( )
1
= a
=
i i
i
p
x
1
+ b
=
i
i
p
1
= a x + b)
V
y
= ( ) -
=
i i
i
p
y y
2
1
= ( ) + - -
=
i i
i
p
ax b ax b
2
1
= a
2
( ) -
=
i i
i
p
x x
2
1
= a
2
V
x
Et comme a
2
= |a| : s
y
= |a|s
x
Exemple :
Soit (x
i
, n
i
)
1ip
une srie statistique de moyenne x et d'cart-type s
x
.
On dfinit une nouvelle srie statistique (y
i
, n
i
)
1ip
par : y
i
=
x x
s
i
x
-
pour tout i 1 ; p!.
Calculer la moyenne y et l'cart-type s
y
de (y
i
, n
i
)
1ip
.
On a donc un changement affine (y = ax + b) avec a =
1
s
x
et b = -
x
s
x
.
On sait dj que y = a x + b =
1
s
x
x -
x
s
x
= 0.
D'aprs le thorme 4, s
y
= |a|s
x
=
1
s
x
s
x
= 1.
La srie statistique (y
i
, n
i
)
1ip
a donc une moyenne nulle et un cart-type gal 1.
(On dit que l'on a "centr et rduit" la srie statistique (y
i
, n
i
)
1ip
ou encore que l'on a standardis les
donnes).

Vous aimerez peut-être aussi