Vous êtes sur la page 1sur 9

www.tifawt.

com
STATISTIQUES
I) UN PEU DE VOCABULAIRE

Toute tude statistique s'appuie sur des donnes. Dans le cas ou ces donnes sont numriques (99% des cas), on
distingue les donnes discrtes (qui prennent un nombre fini de valeurs : par ex, le nombre de voitures par
famille en France) des donnes continues (qui prennent des valeurs quelconques : par ex, la taille des animaux
d'un zoo).
Dans le cas d'une srie discrte, le nombre de fois ou l'on retrouve la mme valeur s'appelle l'effectif de cette
valeur. Si cet effectif est exprim en pourcentage, on parle alors de frquence de cette valeur. (cf 17 p82)
Dans le cas d'une srie continue, on rpartit souvent les donnes par classes. (cf 13 p82)

Dans les exercices, les donnes se prsenteront donc ainsi :

donnes "en vrac"


discrtes
tableau des effectifs ou des frquences
donnes numriques
donnes "en vrac"
continues
donnes rparties par classes

Le but des statistiques est d'analyser les donnes dont on dispose :


Pour cela, on peut s'aider d'un graphique : Nous verrons notamment cette anne les diagrammes btons, les
histogrammes et les diagrammes en botes (ou moustaches).
On peut aussi chercher dterminer la moyenne ou la mdiane de la srie. De tels nombres permettent
notamment de comparer plusieurs sries entre elles. On les appelle indicateurs statistiques ou paramtres
statistiques. On distingue les indicateurs de position (qui proposent une valeur "centrale" de la srie) et les
indicateurs de dispersion (qui indiquent si la srie est trs regroupe autour de son "centre" ou non).
Nous tudierons cette anne les indicateurs statistiques suivants :

Indicateurs de position : Indicateurs de dispersion :


mode, classe modale tendue
mdiane, classe mdiane quartiles, dciles cart interquartile
moyenne cart type
www.tifawt.com
II) DIAGRAMMES A BATONS OU HISTOGRAMMES

1) Quelles diffrences voyez-vous entre les deux graphiques ci-dessous ?


Diagramme btons Histogramme

1 1

1 2 3 4 5 6 0 1 2 3 4 5 6

Dans le diagramme btons, l'axe des abscisses n'est pas gradu et la largeur des btons ne signifie rien.
Dans l'histogramme, l'axe des abscisses est gradu et les btons sont donc "colls" les uns aux autres.
L'histogramme est donc surtout utilis pour reprsenter graphiquement des sries continues o les donnes ont
t rparties en classes.
Attention, Excel appelle histogramme les diagrammes btons et ne sais pas faire de vrais histogrammes !

2) Le cas des classes d'amplitudes diffrentes


Pour reprsenter la srie ci-contre, quel est le poids (Kg) [0 ; 50[ [50 ; 60[ [60 ; 70[ [70 ; 90]
graphique le plus quitable ? nbre de personnes 5 2 4 4

Histogramme 1 Histogramme 2

1 personne

0 10 20 30 40 50 60 70 80 90 0 10 20 30 40 50 60 70 80 90

L'histogramme 1 est inadapt car il laisse entendre que la majorit des gens psent moins de 50 kg !
L'histogramme 2 est quitable car on a pondr la hauteur de chaque bton en tenant compte de l'amplitude de
la classe. Pour construire ce deuxime histogramme, on ralise le tableau ci-dessous :
classe [0 ; 50[ [50 ; 60[ [60 ; 70[ [70 ; 90]
effectif 5 2 4 4
amplitude
effectif/amplitude

Remarques :
Dans l'histogramme 1, c'est la hauteur des btons qui permet de lire l'effectif.
Dans l'histogramme 2, c'est l'aire des btons qui permet de lire l'effectif.
Dans l'histogramme 2, nous n'avons pas trac l'axe des ordonnes, car il aurait fallu le graduer en nombre de
personnes par kilo ! Par contre, pour permettre la lecture du graphique, nous avons indiqu en lgende la
signification de l'unit d'aire.
Dans les exercices, quand les classes ont toutes la mme amplitude, on fait un histogramme de type 1,
quand les classes ont des amplitudes diffrentes, ont fait un histogramme de type 2.
www.tifawt.com
III) MODE, ETENDUE

1) Dfinitions
Si les donnes d'une srie sont discrtes, le mode est la ou les valeurs qui ont le plus grand effectif.
Si les donnes ont t rparties en classes, on parle alors plutt de classe modale.
L'tendue d'une srie est la diffrence entre la plus grande valeur et la plus petite.

2) Dans les exercices :


a) Donnes discrtes 9, 11, 8, 10, 13, 12, 10, 11, 10
Faisons le tableau des effectifs :
valeur 8 9 10 11 12 13
effectif

Le mode est la valeur qui a le plus gros effectif, c'est dire


13

Remarque :
Ici, vu le petit nombre de donnes, faire un tableau des effectifs est un peu artificiel. Par contre, ds que l'on
travaille sur un nombre important de donnes, il devient vite trs utile pour mettre en vidence le mode et
l'tendue de la srie.

b) Donnes rparties par classes


classe [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20]
effectif 0 5 14 2

La classe modale est la classe qui a le plus gros effectif, c'est dire la classe
20 5 = 15 donc l'tendue de cette srie est infrieure ou gale

Remarque :
Par simplification, on dira souvent que l'tendue est 15 mais c'est un abus de langage ! En effet, dans le
tableau des donnes ci dessus, rien ne permet d'affirmer que les valeurs extrmes sont 5 et 20 !
www.tifawt.com
IV) MEDIANE, QUARTILES, DECILES

1) Dfinitions
Soit une srie range par ordre croissant. Appelons n l'effectif total de la srie.

Dfinitions Pour dterminer le rang


La mdiane si n est impair :
la mdiane est la valeur de rang
C'est la valeur "centrale" de la srie. On dit qu'elle si n est pair :
partage la srie en deux moitis nous prendrons la moyenne des deux valeurs qui sont
au centre de la srie, c'est dire dont les rangs
entourent le nombre

Les quartiles (partagent la srie en 4 : il y en a donc )

Le 1er quartile Q1 est la plus petite valeur telle que Q1 est la valeur dont le rang est le premier entier
25% des donnes lui soit infrieures ou gales. suprieur ou gal

Le 3me quartile Q3 est la plus petite valeur telle que Q3 est la valeur dont le rang est le premier entier
75% des donnes lui soit infrieures ou gales. suprieur ou gal

Les dciles (partagent la srie en 10 : il y en a donc )

Le 1er dcile D1 est la plus petite valeur telle que D1 est la valeur dont le rang est le premier entier
10% des donnes lui soit infrieures ou gales. suprieur ou gal

Le 9me dcile D9 est la plus petite valeur telle que D9 est la valeur dont le rang est le premier entier
90% des donnes lui soit infrieures ou gales. suprieur ou gal

Remarques :
Les trois nombres Q1, md, Q3 partagent la srie en 4 parts gales ( une unit prs)
Q2 D
Si les donnes ont t rparties en classes, on ne peut dterminer la mdiane exacte. En revanche, on appellera
classe mdiane, la classe qui la contient (et permet donc d'en donner un encadrement).
L'intervalle [Q1 ; Q3] s'appelle l'intervalle interquartile.
Le nombre Q3 Q1 s'appelle l'cart interquartile.
www.tifawt.com
2) Dans les exercices :
a) Donnes discrtes "en vrac" 21, 25, 28, 30, 27, 24, 31, 21, 28, 30, 25, 28, 26, 25

Ordonnons la srie par ordre croissant :


21, 21, 24, 25, 25, 25, 26, 27, 28, 28, 28, 30, 30, 31

Il y a 14 termes :
14+1 +
2 = 7,5. La mdiane est donc la demi somme des me
et me
termes : md = =
2
14
4 = 3,5. Le 1er quartile est donc le me
terme : Q1 =
314
4 = 10,5. Le 3me quartile est donc le me
terme : Q3 =
8

b) Tableau d'effectifs
valeur 1 2 3 4 5 6
effectif 6 11 25 19 15 5
effectif cumul Bien interprter la dernire ligne !
La valeur 3 va du rang au rang
L'effectif total est de
81+1
2 = 41. La mdiane est donc le me
terme : md =
81
10 = 8,1. Le 1er dcile est donc le me
terme : D1 =
81
4 = 20,25. Le 1er quartile est donc le me
terme : Q1 =
381
4 = 60,75. Le 3me quartile est donc le me
terme : Q3 =
981
10 = 72,9. Le 9me dcile est donc le me
terme : D9 =

c) Donnes rparties par classes


Bien interprter ce tableau !
classe [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8]
45% des valeurs sont comprises
frquence 10% 38% 45% 7%
entre
frquence cumule
93% des valeurs sont
48% des valeurs sont
Et 93% des valeurs sont
La classe mdiane est donc la classe
On peut donc en dduire l'encadrement suivant md <
www.tifawt.com
3) Diagrammes en botes

Le diagramme en bote d'une srie l'allure suivante :


min Q1 md Q3 max

axe gradu

Remarques :
Lorsque la srie est trop importante, que l'on ne connat pas les valeurs extrmes ou qu'on les considre
comme non significatives, on raccourci souvent les moustaches au dciles D1 et D9.
La bote centrale reprsente l'intervalle interquartile et contient donc la moiti des donnes.
Vous devez lgender votre diagramme (min, max, nom de la srie) et graduer l'axe.
On emploie surtout ce type de diagramme pour comparer plusieurs sries entre elles.
Ces diagrammes ont reu beaucoup de noms diffrents : botes pattes, diagrammes moustaches,

Ex :
Deux classes de 1L comparent leurs rsultats du trimestre et dclarent : "nos classes ont le mme profil puisque
dans les deux cas la mdiane des rsultats est 10". Qu'en pensez-vous ?

notes 5 6 7 8 9 10 11 12 13 14 15 16
effectifs 1L1 0 3 4 4 5 7 3 4 2 1 0 0
effectifs 1L2 2 4 3 3 3 4 3 2 2 3 1 2

1) Vrifier que les deux mdianes valent 10 et dterminer les quartiles de chaque srie
2) Tracer cte cte les diagrammes en boites de ces deux sries.

Pour la 1L1 : L'effectif total est 3+4+4++1 = 33


33+1 me
2 = 17 donc la mdiane est le 17 terme de la srie : Md = 10
33
= 8,25 donc le 1er quartile est le 9me terme de la srie : Q1 = 8
4
333
= 24,75 donc le 3me quartile est le 25me terme de la srie : Q3 = 11
4

Pour la 1L2 : L'effectif total est 2+4+3++2 = 32


32+1 me me 10+10
2 = 16,5 donc la mdiane est la moyenne des 16 et 17 terme de la srie : Md = 2 = 10
32 er me
4 = 8 donc le 1 quartile est le 8 terme de la srie : Q1 = 7
332
= 24 donc le 3me quartile est le 24me terme de la srie : Q3 = 12
4

Diagrammes en botes : min max


1L1

1L2
notes
5 10 15
Bilan : Le graphique ci- dessus met bien
en vidence que l'cart interquartile et l'tendue sont plus resserrs en 1L1 qu'en 1L2 donc les lves de 1L1 ont
globalement un niveau plus homogne que ceux de 1L2.
www.tifawt.com
V) MOYENNE, ECART TYPE, DONNEES GAUSSIENNES

1) Dfinitions

Soit la srie statistique ci-contre :


valeurs x1 x2 xp
effectifs n1 n2 np

n1x1 + n2x2 + + npxp


La moyenne est : x =
n1 + n2 + + np

n1(x1 x) + n2(x2 x) + + np(xp x)


L'cart type est : =
n1 + n2 + + np

Remarques :
L'cart type mesure la dispersion de la srie autour de sa moyenne.
Vous entendrez aussi parler de variance de la srie. Il s'agit en fait de 2
n1(x1 x) + n2(x2 x) + + np(xp x)
V=
n1 + n2 + + np
L'avantage de l'cart type sur la variance est qu'il s'exprime, comme la moyenne, dans la mme unit que les
donnes.
Dans le cas de donnes regroupes en classes, on ne peut calculer la valeur exacte de la moyenne ou de l'cart
type. On peut toutefois en dterminer une bonne approximation en remplaant chaque classe par son milieu
dans les formules ci-dessus.

2) Dans les exercices :


a) Tableau des frquences
valeurs 12 13 14 15 16
frquences 0,05 0,17 0,43 0,30 0,05
x =

b) Donnes rparties en classes


classes [0 ; 5[ [5 ; 10[ [10 ; 15[ [15 ; 20[
effectifs 7 12 14 2

Remplaons chaque classe par son milieu :


x


www.tifawt.com
3) Proprits
a) Addition ou Multiplication de toutes les donnes par un mme nombre :
Ex Soit la srie : 10, 12, 14. x = et =
Ajoutons 2 : la nouvelle srie est : 12, 14, 16. x = et =
Divisons par 2 : la nouvelle srie est : 6, 7, 8. x = et =

Cas gnral : Soit un rel quelconque :


Si l'on ajoute toutes les donnes, la moyenne augmente d'
l'cart type ne change pas
Si on multiplie toutes les donnes par , la moyenne est multiplie par
l'cart type est multiplie par

b) Moyennes partielles
Ex : Sur les 5 premires interros, Paul a eu 12,5 de moyenne. Il vient d'avoir 15,5 la 6me interro.
Les notes ayant toutes le mme coefficient, quelle est sa nouvelle moyenne ?
La somme des notes des 5 premires interros est : 12,5 5
La somme des notes des 6 interros est donc : 12,5 5 + 15,5
12,5 5 + 15,5
La nouvelle moyenne est donc : x = = 13
6

Cas gnral : Si on runis deux groupes disjoints ayant respectivement pour moyennes et effectifs, x1 et n1
d'une part, x2 et n2 d'autre part, la moyenne de l'ensemble sera alors :
n1 x1 + n2 x2
x = n1 + n2

4) Moyenne et mdiane
Quand on modifie les valeurs extrmes d'une srie, la moyenne change contrairement la mdiane qui ne
change pas. On dit que la moyenne est "sensible aux valeurs extrmes".
Il arrive que certaines de ces valeurs extrmes soient douteuses ou influent de faon exagre sur la moyenne.
On peut alors, soit calculer une moyenne lague (c'est dire recalculer la moyenne sans ces valeurs
gnantes), soit utiliser la mdiane.
Comment interprter un cart entre la moyenne et la mdiane ?
Soit la srie suivante : 8 9 10 11 12
Ici la moyenne et la mdiane sont identiques : la srie est bien "centre".
Soit la nouvelle srie : 8 9 10 12 14
Ici la moyenne est plus importante que la mdiane : la srie est plus "tale vers la droite".
www.tifawt.com
5) Donnes Gaussiennes
Dans de trs nombreuses situations (issues de la biologie, gographie, sociologie, conomie) les donnes se
prsentent graphiquement sous la forme de courbes "en cloche" dites de Gauss.
Le comportement de ces sries est modlisable par une loi mathmatique
appel loi normale ou loi de Gauss qui donne une grande importance la
moyenne et l'cart type :
Ces sries sont peu prs symtriques autour de
Environ 68% des donnes sont dans l'intervalle [ ; + ]
2 + +2
Environ 95% des donnes sont dans l'intervalle [ ; + 2 ]
68%
Environ 99% des donnes sont dans l'intervalle [ 3 ; + 3 ] 95%

Les intervalles ci-dessus sont appels plages de normalit pour les niveaux de confiance 0,68 ; 0,95 ; 0,99

Remarque : les observations ci-dessus n'ont aucun sens pour :


Les sries qui traduisent des phnomnes non gaussiens
Les sries gaussiennes pour lesquelles l'chantillon est trop petit.

VI) QUELS INDICATEURS STATISTIQUES UTILISER ?


Dans la pratique :
On utilise trs peu le mode et l'tendue (faciles dterminer mais simplistes !)
On utilise la mdiane, quartiles, dciles et cart interquartile surtout pour les sries grands effectifs
(pas de calculs, il suffit d'ordonner la srie ; peu sensible aux valeurs douteuses)
On utilise souvent la moyenne et l'cart type pour des sries de tailles intermdiaires ou des sries gaussiennes
(la moyenne reste l'indicateur le plus intuitif ; intrt des plages de normalit)