Académique Documents
Professionnel Documents
Culture Documents
Stats
Stats
x2 = 5
x3 = 6
x4 = 9
x5 = 10 x6 = 12 x7 = 13 x8 = 13
x2 = 3
x3 = 5
x4 = 6
x5 = 8
x6 = 9
x7 = 9
x8 = 10 x9 = 10
x2 = 6
x3 = 10 x4 = 12 x5 = 12 x6 = 13 x7 = 14 x8 = 15 x9 = 16 x10 = 16
x2 = 0
x3 = 1
x4 = 4
x5 = 5
x6 = 8
x7 = 10 x8 = 12 x9 = 13 x10 = 16 x11 = 17
Dfinition 1 Mdiane
On appelle mdiane tout rel me tel que :
au moins 50% des termes de la srie ont une valeur infrieure ou gale me
et
au moins 50% des termes de la srie ont une valeur suprieure ou gale me
On prouvera, ci-dessous (thorme 1), qu'un tel rel existe toujours !
Remarque : la mdiane partage l'ensemble des termes en deux sous ensembles de mme effectif. (Enfin presque !)
Exemples :
Pour l'lve A (N = 8) : me = x4 = 9 (x5 = 10 conviendrait galement ou, plus gnralement, tout rel de [9 ; 10])
Pour l'lve B (N = 9) : me = x5 = 8 (et l, il n'y a pas d'autre choix possible)
Pour l'lve C (N = 10) : me = 12,5 (ou tout rel de l'intervalle [x5 ; x6] = [12 ; 13])
Pour l'lve D (N = 11) : me = 8 (et l, il n'y a pas d'autre choix possible)
On constate que la dtermination de la mdiane est diffrente suivant que l'effectif total N est pair ou impair :
Lorsque l'effectif total N est impair, il n'y a pas de difficult, la mdiane me est le terme central, savoir le
terme de rang
Statistiques
N +1
. On a donc : me = x N +1 .
2
2
Page 1
G. COSTANTINI http://bacamaths.net/
Lorsque l'effectif total N est pair, l'usage veut que l'on choisisse pour mdiane me la moyenne des deux
N
termes centraux, savoir : les termes de rang
2
Mais tout rel de l'intervalle [ x N ; x N
2
+1
N
et
+ 1. On a donc : me =
2
xN + xN
2
+1
moyenne des deux termes centraux, qui n'est pas une valeur de la srie, n'a pas de sens : par exemple, quel
est le jour mdian du mois de juin ? Le mois de juin comporte 30 jours. Les deux termes centraux sont 15 et
16 (15me jour et 16me jour). Dire que "le jour mdian est le 15,5me" n'a pas de sens. Mieux vaut dire (dans
ce type de situation) : "le jour mdian est le 15me jour" ou "le jour mdian est le 16me jour" (au choix !) ...)
x 21 + x22
.
2
x2 = 1
x3 = 1
x4 = 1 x5 = 1 ?
Dfinition 2 Quartiles
On appelle premier quartile tout rel Q1 tel que :
au moins 25% des termes de la srie ont une valeur infrieure ou gale Q1
et
au moins 75% des termes de la srie ont une valeur suprieure ou gale Q1
On appelle troisime quartile tout rel Q3 tel que :
au moins 75% des termes de la srie ont une valeur infrieure ou gale Q3
et
au moins 25% des termes de la srie ont une valeur suprieure ou gale Q3
On prouvera, ci-dessous (thorme 1), que de tels rels existent toujours !
Remarques :
Le deuxime quartile Q2 ne se dfini pas puisqu'il s'agit de la mdiane me.
Les trois quartiles partagent l'ensemble des valeurs en quatre sous ensembles de (presque) mme effectif.
On a toujours : Q1 me Q3.
Exemples :
Pour l'lve A, on peut choisir : Q1 dans [x2 ; x3] = [5 ; 6] et Q3 dans [x6 ; x7] = [12 ; 13]
Pour l'lve B, on a : Q1 = x3 = 5 et Q3 = x7 = 9 (pas d'autres choix possibles)
Pour l'lve C, on a : Q1 = x3 = 10 et Q3 = x8 = 15 (pas d'autres choix possible)
Pour l'lve D, on peut choisir : Q1 = x3 = 1 et Q3 = x9 = 13 (pas d'autre choix possible)
Statistiques
Page 2
G. COSTANTINI http://bacamaths.net/
On constate que la dtermination des quartiles est diffrente suivant que l'effectif total N est un multiple de 4
ou non :
Lorsque l'effectif total N n'est pas un multiple de 4, il n'y a pas de difficult, les quartiles Q1 et Q3 sont les
termes de rang immdiatement suprieur
N
3N
et
:
4
4
Q1 = x N
Q3 = x 3 N
4 +1
4 +1
Lorsque l'effectif total est un multiple de 4, alors l'usage veut que l'on choisisse pour quartiles Q1 et Q3 les
termes de rang
[ xN ; xN
4
+1
N
3N
et de rang
. On a donc Q1 = x N et Q3 = x 3 N . Mais tout rel de l'intervalle
4
4
4
4
+1
] conviendrait
Voici un thorme qui donne des formules qui marchent dans tous les cas !
Thorme 1
Soient N * et (xi )1iN une famille de rels ordonns dans l'ordre croissant. Les rels :
me = x N
Q1 = x N
4 +1
2 +1
Q3 = x 3 N
4 +1
dfinissent toujours des valeurs convenables pour le premier quartile, la mdiane et le troisime quartile.
Pour dmontrer ce thorme, on aura besoin du petit lemme suivant :
Lemme
Soient A et B des lments de avec A B. L'ensemble A ; B contient B - A + 1 entiers.
Preuve du lemme :
L'ensemble A ; B contient autant d'entiers que l'ensemble A - A + 1 ; B - A + 1 = 1 ; B - A + 1 qui lui
mme en contient B - A + 1.
Dmonstration du thorme 1 :
Pour tout rel l, notons E(l) = {i 1 ; N tels que xi l} et F(l) = {i 1 ; N tels que xi l}
E(l) est l'ensemble des indices des termes de la famille (xi )1iN qui sont infrieurs l et F(l) est l'ensemble
des indices des termes de la famille (xi )1iN qui sont suprieurs l.
Posons :
Q1 = x N
4 +1
me = x N
2 +1
Q3 = x 3 N
4 +1
Statistiques
Page 3
G. COSTANTINI http://bacamaths.net/
N
N
1 i + 1 i 1 ; + 1
2
2
xi me xi x N
2 +1
N
N
Or, dans 1 ; + 1 il y a + 1 entiers.
2
2
N
Card(E(me)) = + 1
2
Donc
N N
N
Or, + 1, donc :
2 2
2
Card(E(me))
N
2
De mme :
xi me xi x N
2 +1
N
N
N i + 1 i + 1 ; N
2
2
N
N
Or, dans + 1 ; N il y a N - entiers.
2
2
N
Card(F(me)) = N -
2
Donc
N
N
N
N N
N
N
N
Or, + 1 donc - et en ajoutant N : N -
donc Card(F(em))
.
2
2
2
2 2
2
2
2
On a donc bien :
au moins 50% des termes de la srie ont une valeur infrieure ou gale me
et
au moins 50% des termes de la srie ont une valeur suprieure ou gale me
Donc me est bien une valeur mdiane de la srie.
Montrons que Q1 est une valeur convenable pour le premier quartile : soit i 1 ; N
xi Q1 xi x N
4 +1
N
N
i + 1 i 1 ; + 1
4
4
N
N
Or, dans 1 ; + 1 il y a + 1 entiers.
4
4
N
Card(E(Q1)) = + 1
4
Donc
N N
N
Or, + 1, donc :
4 4
4
Card(E(Q1))
N
4
De mme :
xi Q1 xi x N
4 +1
N
N
i + 1 i + 1 ; N
4
4
N
N
Or, dans + 1 ; N il y a N - entiers.
4
4
Statistiques
Page 4
G. COSTANTINI http://bacamaths.net/
N
Card(F(Q1)) = N -
4
Donc
N
3N
3N
N N
N
N
N
Or, + 1donc - et en ajoutant N : N -
donc Card(F(Q1))
.
4
4
4
4
4
4
4
4
On a donc bien :
au moins 25% des termes de la srie ont une valeur infrieure ou gale Q1
et
au moins 75% des termes de la srie ont une valeur suprieure ou gale Q1
Donc Q1 est bien une valeur du premier quartile de la srie.
La dmonstration est analogue pour Q3.
[0 ; 3[
[3 ; 6[
[6 ; 9[
[9 ; 12[
Nombre d'accidents
4550
3230
8220
9050
12040
16040
16820
10050
4550
7780
16000
25050
37090
53130
69950
80000
Total
80000
70000
60000
50000
40000
30000
20000
10000
0
0
Q1
12
15
me
18
Q3
21
24
Si N est l'effectif total et la fonction affine par morceaux correspondant au polygone des effectifs cumuls
croissants. Alors, on considre que les quartiles et la mdiane sont dfinis par :
N
Q1 = -1
4
Statistiques
N
me = -1
2
Page 5
3N
Q3 = -1
G. COSTANTINI http://bacamaths.net/
Q -9
3
et AM1 1
sont colinaires, on a : 3 4000 - 9050(Q1 - 9) = 0
9050
4000
1869
10,3 ( 10-1 prs. Inutile de donner un rsultat plus prcis, cela n'aurait pas de sens car le
131
me - 15
3
et CM
sont colinaires, on a : 3 2910 - 16040(me - 15) = 0
2910
16040
24933
15,6 ( 10-1 prs)
1604
Interprtation : la moiti des accidents corporels quotidiens ont lieu entre 0h00 et 15h40.
Q - 18
3
et DM 3 3
sont colinaires, on a : 3 6870 - 16820(Q3 - 18) = 0
16820
6870
32337
19,2 ( 10-1 prs)
1682
Remarques :
Une simple lecture graphique donne souvent une prcision satisfaisante.
Si on construit le polygone des frquences cumules croissantes alors Q1, me et Q3 sont les antcdents
respectifs de 0,25 ; 0,5 et 0,75.
Dans le cas d'un regroupement en classe, les statisticiens parlent rarement de valeur mdiane mais plutt de
classe mdiane.
Statistiques
x2 = 5
x3 = 8
x4 = 15
Page 6
x5 = 29
x6 = 35
G. COSTANTINI http://bacamaths.net/
On a : Q1 = x2 = 5 ; me =
1
(x3 + x4) = 11,5 ; Q3 = x5 = 29.
2
Si l'on remplace m = x1 = 1 par un rel de ]- ; 5[, cela ne changera pas les valeurs de Q1 ; me et Q3. (Mme si
la srie est rordonner)
Par contre, si l'on remplace m par un rel suprieur Q1, par exemple par 9.
En rordonnant la srie, on obtient :
y1 = 5
y2 = 8
y3 = 9
y4 = 15
y5 = 29
y6 = 35
1
(y3 + y4) = 12.
2
Remarque :
On dit parfois que la mdiane et les quartiles sont insensibles aux termes extrmes.
Dmonstration de la proprit :
En remplaant x1 par un rel de ]- ; Q1[, on ne change pas le nombre de termes de la srie qui ont une valeur
infrieure ou gale Q1 (il y en aura donc toujours au moins 25%) ni le nombre de termes de la srie qui ont
une valeur suprieure ou gale Q1 (il y en aura donc toujours au moins 75%). Donc Q1 reste une valeur
convenable du premier quartile de la srie.
Mme raisonnement pour le reste...
Q3 - Q1
. (Grandeur sans unit)
me
Remarque : l'interquartile est un indicateur de dispersion (au mme titre que l'tendue ou l'cart-type). Son
avantage est qu'il ne tient compte que de 50% de la population, ce qui a pour effet d'ignorer les valeurs
extrmes souvent marginales. Il est donc assez utilis car considr comme "standard".
Exemple :
Pour l'lve B, l'tendue est e = 8, l'intervalle interquartile est [5 ; 9].
Pour l'lve D, l'tendue est e = 17, l'intervalle interquartile est [1 ; 13].
Statistiques
Page 7
G. COSTANTINI http://bacamaths.net/
premier quartile
mdiane
troisime quartile
maximum
lve B
Valeurs de la srie
0 1 2
8 9 10
13
17
20
lve D
La bote (de largeur arbitraire) reprsente 50% (au moins) de l'effectif total.
De cette bote s'tirent deux moustaches (reprsentes par des traits) jusqu'au minimum et au maximum.
Ces diagrammes permettent une interprtation visuelle et rapide de la dispersion des sries statistiques. Ils
permettent galement d'apprcier des diffrences entre des sries. (Lorsqu'elles ont des ordres de grandeurs
comparables ; sinon, on utilise l'interquartile relatif, voir II)b) exemple 2).
Dans notre exemple, nos deux lves B et D ont la mme note mdiane (8) mais les rsultats de D sont bien
plus disperss que ceux de B.
e) Effet d'un changement affine
Thorme 2
Soit N *
Soit (xi )1iN une famille de rels ordonns dans l'ordre croissant de mdiane me et de quartiles Q1 et Q3.
Soient a * et b . Soit (yi )1iN la famille de rels dfinis par : yi = axi + b pour tout i 1 ; N.
Si a > 0 alors la famille (yi )1iN est ordonne dans l'ordre croissant. Les rels suivants :
me' = ame + b
Q1' = aQ1 + b
Q3' = aQ3 + b
sont des valeurs convenables de la mdiane et des quartiles de la famille (yi )1iN .
Si a < 0 alors la famille (yi )1iN est ordonne dans l'ordre dcroissant Les rels suivants :
me' = ame + b
Q1' = aQ3 + b
Q3' = aQ1 + b
sont des valeurs convenables de la mdiane et des quartiles de la famille (yi )1iN .
Dmonstration :
Lorsque a > 0, la fonction affine : t a at + b est croissante. On a alors :
xi Q3 (xi ) (Q1) axi + b aQ1 + b yi Q1'
Donc
{i 1 ; N tels que xi Q1} = {i 1 ; N tels que yi Q1'}
Et puisque ces ensembles d'indices sont identiques, ils ont a fortiori le mme nombre d'lments :
Card{i 1 ; N tels que xi Q1} = Card{i 1 ; N tels que yi Q1'}
Statistiques
Page 8
G. COSTANTINI http://bacamaths.net/
N
puisque Q1 est le premier quartile de (xi )1iN .
4
N
.
4
3N
.
4
On en dduit, d'aprs la dfinition 2 que Q1' = aQ1 + b est le premier quartile de (yi )1iN .
Lorsque a < 0, la fonction affine : t a at + b est dcroissante. On a alors :
xi Q3 (xi ) (Q3) axi + b aQ3 + b yi Q1'
Donc
{i 1 ; N tels que xi Q3} = {i 1 ; N tels que yi Q1'}
Et puisque ces ensembles d'indices sont identiques, ils ont a fortiori le mme nombre d'lments :
Card{i 1 ; N tels que xi Q3} = Card{i 1 ; N tels que yi Q1'}
Or, Card{i 1 ; N tels que xi Q3}
3N
puisque Q3 est le troisime quartile de (xi )1iN .
4
N
.
4
3N
.
4
On en dduit, d'aprs la dfinition 2 que Q1' = aQ3 + b est le premier quartile de (yi )1iN .
La dmonstration est analogue pour me' et Q3'.
Exemple :
Dans une entreprise les salaires sont rsums par :
Salaires en
Minimum
Premier quartile
Mdiane
Moyenne
Troisime quartile
Maximum
m = 1020
Q1 = 1200
me = 1400
x = 1450
Q3 = 1800
M = 3800
Le conseil d'administration dcide d'une augmentation des salaires de 2% auquel s'ajoute encore une indemnit
de 10 .
Cela se traduit par la transformation affine dfinie par : (x) = 1,02x + 10. (Ici a > 0)
Cela donne : (m) = 1050,4 ; (M) = 3886 pour le minimum et le maximum.
D'aprs le thorme 2, cela donne : (Q1) = 1234 ; (me) = 1438 et (Q3) = 1846.
Enfin, la nouvelle moyenne est donne par ( x ). En effet :
Notons (xi )1iN la srie des salaires initiaux et posons yi = (xi ), pour i 1 ; N. La srie (yi )1iN
correspond aux nouveaux salaires. La moyenne y des nouveaux salaires est :
Statistiques
Page 9
G. COSTANTINI http://bacamaths.net/
1
y=
N
i =1
1
yi =
N
(ax + b) =
i =1
1
N
N
a
xi +
i =1
1
b =
(aN x + Nb) = a x + b = ( x )
N
i =1
N
Nouveaux Salaires en
Minimum
Premier quartile
Mdiane
Moyenne
Troisime quartile
Maximum
m = 1050,4
Q1 = 1234
me = 1438
x = 1489
Q3 = 1846
M = 3886
1
N
i =1
ni xi o N =
(Effectif total)
i =1
La variance d'une srie statistique (xi , ni )1ip est le nombre not V et dfini par :
1
V=
N
n ( x - x)
i
i =1
L'cart-type d'une srie statistique (xi , ni )1ip est le nombre not s (ou s) et dfini par :
s= V
Remarques :
La variance est une somme de carrs. C'est donc une quantit positive. L'cart-type est donc bien dfini. Et
il s'exprime dans la mme unit que la caractre tudi.
Si on note i =
ni
la frquence de xi , les formules deviennent : x =
N
i =1
i xi et V =
( x - x)
i
i =1
Dans le cas d'un regroupement en classe, les calculs sont effectus en choisissant xi au centre de chaque
classe (c'est l'hypothse de rpartition uniforme de chaque classe)
Statistiques
Page 10
G. COSTANTINI http://bacamaths.net/
n x
- x2
2
i i
i =1
Dmonstration :
p
i ( xi - x ) =
2
i =1
i xi2 - 2 xi x + x 2 =
i =1
i xi2 - 2 x
i xi + x 2 =
i =1
i =1
i xi2 - 2 x 2 + x 2 =
i =1
2
i i
- x2
i =1
b) Interprtation de l'cart-type
La variance est la moyenne des carrs des carts la moyenne. Elle mesure donc la dispersion des valeurs
autour de la moyenne. Elle n'est pas trs parlante car elle s'exprime dans le carr de l'unit du caractre.
L'cart-type a l'avantage de s'exprimer dans la mme unit que le caractre.
L'cart-type permet de comparer la dispersion de deux sries. Contrairement l'interquartile, il tient compte de
l'ensemble de la population.
Exemple 1 : cas de sries dont les ordres de grandeurs sont comparables (et de moyennes voisines)
L'lve A a obtenu les dix notes suivantes : 10 15 16 13 8 11 12 12 13 15
L'lve B a obtenu les dix notes suivantes : 11 9 9 10 15 7 12 12 14 13
Calculer les moyennes de A et B. Quel est l'lve qui a les rsultats les plus homognes ?
Moyenne de A : mA = 12,5 ; moyenne de B : mB = 11,2.
Variance de A (thorme 3) : VA =
1
(102 + 2 152 + 162 + 2 132 + 82 + 112 + 2 122) - 12,52 = 5,45
10
1 2
(7 + 2 92 + 102 + 112 + 2 122 + 132 + 142 + 152) - 11,22 =5,56
10
sx
(dfini pour des sries dont la moyenne x est non nulle)
x
Statistiques
Page 11
G. COSTANTINI http://bacamaths.net/
tudions un cas concret : cinq sportifs ont couru un 1500m et un 5000m. Leurs temps sont donns dans le
tableau suivant :
Coureur 1
Coureur 2
Coureur 3
Coureur 4
Coureur 5
1500 m
3'58"17
4'05"48
4'12"97
4'08"29
4'00"12
5000 m
14'58"12
14'47"08
15'37"85
13'57"70
14'48"34
moyenne : m =
Pour le 5000 m :
moyenne : m' =
1
(898,12 + 887,08 + 937,85 + 837,70 + 888,34) = 889,818 secondes (soit environ
5
14'49"82)
1
(898,122 + 887,082 + 937,852 + 837,702 + 888,342) - 889,8182 1020,4 d'o un cart5
type s' 31,94 secondes
s'
coefficient de variation : Cv' =
0,036.
m'
variance : V' =
Pour le 5000 m, on a :
Q3 - Q1
248,29 - 240,12
=
0,033.
me
245,48
Q3 '- Q1 ' 898,12 - 887,08
=
0,012...
me '
888,34
Statistiques
Vy = a2Vx et sy = |a|sx
Page 12
G. COSTANTINI http://bacamaths.net/
Dmonstration :
p
i ( yi - y ) =
2
i =1
Et comme
y = (ax + b) = a x + b
i i
i =1
Vy =
i i
i =1
i =1
i ( axi + b - ax - b) = a2
2
i =1
a 2 = |a| :
= a x + b)
i =1
( x - x)
i
= a2Vx
i =1
sy = |a|sx
Exemple :
Soit (xi , ni )1ip une srie statistique de moyenne x et d'cart-type sx.
On dfinit une nouvelle srie statistique (yi , ni )1ip par : yi =
xi - x
pour tout i 1 ; p.
sx
1
x
et b = - .
sx
sx
1
x
x= 0.
sx
sx
1
sx = 1.
sx
La srie statistique (yi , ni )1ip a donc une moyenne nulle et un cart-type gal 1.
(On dit que l'on a "centr et rduit" la srie statistique (yi , ni )1ip ou encore que l'on a standardis les
donnes).
Statistiques
Page 13
G. COSTANTINI http://bacamaths.net/