Vous êtes sur la page 1sur 178

MODULE : ANALYSE COMBINATOIRE

Ce module est destin vous faire acqurir les premires notions en


dnombrement. Elles reposent sur la rgle de la somme, celle du produit
et celle des bergers. Les huit situations fondamentales, que l'on rencontre
en analyse combinatoire, se rsolvent l'aide du dnombrement de nlistes, avec ou sans rptition (les arrangements), ordonnes ou non (les
combinaisons).
Leon
Leon
Leon
Leon
Leon

1
2
3
4
5

Rgles du dnombrement
Les n-listes
Arrangements
Combinaisons
Synthse

Principe d'inclusion-exclusion
Un bibliophile hrite de la bibliothque de son pre.
Si X dsigne l'ensemble des titres des livres du bibliophile, et Y
l'ensemble des titres des livres de son pre, sa nouvelle collection est
l'ensemble : X U Y
Connaissant le nombre des lments de X, que l'on notera card(X) et le
nombre des lments de Y, que l'on notera card(Y) peut-on calculer :
card (X U Y) ?
le nombre des lments de X U Y ?
Pour cela il faudra dterminer les titres communs aux deux bibliothques,
c'est--dire les lments de : X Y
Si on connat card(X Y), on pourra calculer card(X U Y) en utilisant le principe
d'inclusion-exclusion : card(X U Y) = card(X) + card(Y) - card(X Y)
La rgle du produit
L'administration des postes, l'occasion d'un changement de tarif, doit
faire imprimer de nouveaux timbres.
Elle dispose de 10 couleurs d'impression, de 3 figurines, et de 12 prix de
vente. Combien de types de nouveaux timbres peut-elle faire imprimer ?
Si X dsigne l'ensemble des couleurs disponibles, Y l'ensemble des
figurines et Z l'ensemble des prix de vente, un type de timbre est
caractris par une 3-liste ( x , y , z ) o x est la couleur, y la figurine et z
le prix.
On note, X x Y x Z l'ensemble de ces 3-listes.
On peut dnombrer X x Y x Z grce la rgle du rgle du produit :
card(X Y Z) = card(X) card(Y) card(Z)
La rgle des bergers

Un promoteur a achet un vaste terrain lotir. Il le dcompose en 6


parcelles. Sur chaque parcelle il constitue 4 lots.
Combien aura-t-il de lots vendre ?
Il en aura : 6 x 4 = 24
en multipliant le nombre de parcelles par le nombre de lots sur chaque
parcelle.
On a appliqu l la rgle des bergers qui permet de dnombrer les
lments d'un ensemble, partitionn en un nombre fini de classes, chaque
classe ayant le mme nombre d'lments.
La rgle de la somme , et son corollaire le principe d'inclusionexclusion , la rgle du produit et la rgle des bergers sont les 3
rgles de base du dnombrement.
Nous les tudierons dans ce module.

I - La rgle de la somme
Dans une association d'amateurs de bel-canto, 125 personnes aiment les
opras de Mozart et 100 personnes prfrent les opras de Verdi.
Combien y-a-t-il de membres de l'association qui apprcient Mozart ou
Verdi ?
Pouvez-vous rpondre cette question ?

Si aucun membre de l'association n'apprcie la fois Mozart et Verdi, combien y-a-t-il


de membres de l'association qui apprcient Mozart ou Verdi ?

Si X et Y sont deux ensembles disjoints :


XY=
alors : card(X U Y) = card(X) + card(Y)

Cette proposition s'appelle la rgle de la somme.


Elle se gnralise n ensembles X1 , X2 , ... , Xn , deux deux disjoints.
Si Xi U Xj = pour i j
card(X1 U X2 U .... U Xn) = card(X1) + card(X2) + ... + card(Xn)
Exemple 1 : Les professeurs d'un collge
Dans un collge, il y a 3 professeurs de mathmatiques, 3 de franais, 2
d'anglais, 2 de biologie, 4 d'ducation physique, 2 d'espagnol, 2 de
physique, 3 d'histoire et gographie.
Combien y-a-t-il de professeurs dans ce collge ?

LEXIQUE :
Choisissez le terme expliquer...

Algbre des vnements :


Soit E une exprience alatoire n'ayant qu'un nombre fini d'issues.
Soit l'ensemble de ces issues. ( P ( ) , , , - ), c'est--dire l'ensemble
P ( ) des parties de , muni des oprations d'union, d'intersection, de
complmentation, s'appelle l'algbre des vnements l'exprience
alatoire E.
Arborescence : (ou diagramme en arbre)
A l'aide d'une arborescence on peut construire les lments de X3
o X = { a , b }

Arrangements de n objets :
Soit n un entier naturel, X un ensemble.
Une n-liste sans rptition d'lments de X s'appelle
arrangement de n lments pris parmi les lments de X.

aussi

un

Coefficients binomiaux :
Soit X un ensemble m lments
et n un entier naturel tel que 0 n m.
Xa

parties n lments, avec :

Une partie n lments d'un ensemble m lments s'appelle aussi une


combinaison de n lments de X.
Les nombres

s'appellent les coefficients binomiaux.

Exemple : Une entreprise compte 8 ingnieurs comptents pour diriger


certains travaux. Mais 3 ingnieurs suffisent pour mener bien la tche
en question. Il y a :
4

= 56 faons de dsigner les 3 ingnieurs.


On a :

=1

Un ensemble X m lments a une partie 0 lment et une seule, la


partie vide, et une seule partie m lments : lui-mme.
= Cm
Dans un ensemble m lments, il y a autant de parties n lments (0
n m) que de parties m-n lments.
Si y a n lments,

le complmentaire dans X de Y m-n lments. On a

la relation :
(Formule de Pascal)
qui permet de calculer de proche en proche les coefficients binomiaux.

Combinaison :
Une partie n lments d'un ensemble m lments s'appelle aussi une
combinaison de n lments de X.
Complmentaire d'une partie :
Soit A une partie d'un ensemble X,
on appelle complmentaire de A, la partie note
o X / A de X forme des x X tels que x A.
Si :
X = { 1, 2, 3, 4, 5, 6 } ,
A = { 1, 2 } ,
= { 3, 4, 5, 6 }
Conjonction de deux vnements :
Soit E une exprience alatoire, A et B deux vnements lis cette
exprience. On appelle conjonction de ces vnements, l'vnement A
et B .

A et B est ralis si A et B sont raliss. A et B n'est pas ralis si


l'un des vnements A ou B n'est pas ralis.
Exemple : Soit E l'exprience alatoire qui consiste lancer un d, et
dont les issues sont les nombres qui apparaissent sur la face suprieure
du d, aprs immobilisation.
Soit A l'vnement le numro est pair et B l'vnement le numro
est un multiple de 3 . A et B est l'vnement le numro est un 6 .
Couleur d'une carte :
Les couleurs d'une carte sont traditionnellement : trfle, carreau, cur,
pique.
Disjonction de deux vnements :
Soit E une exprience alatoire, A et B deux vnements lis cette
exprience. On appelle disjonction de ces vnements, l'vnement A
ou B .
A ou B est ralis si l'un des deux vnements A ou B est ralis. A
ou B n'est pas ralis si aucun des deux vnements A ou B n'est
ralis.
Exemple : Soit E l'exprience alatoire qui consiste lancer un d, et
dont les issues sont les nombres qui apparaissent sur la face suprieure
du d, aprs immobilisation.
Soit A l'vnement le numro est pair et B l'vnement le numro
est un multiple de 3 . A ou B est l'vnement le numro est l'un des
nombres : 2, 3, 4, 6 .
Echantillon ordonn avec remise :
Une urne contient m objets, numrots de 1 n.
On prlve un premier objet de l'urne, on note son numro et on le
replace dans l'urne. On prlve un deuxime objet de l'urne, on note son
numro et on le replace dans l'urne. On rpte cette opration n fois. On
dit qu'on a prlev un chantillon de n objets avec remise.
Il y a mn tels chantillons.

Echantillon ordonn sans remise :


Soit X un ensemble m lments. Un chantillon ordonn sans remise
d'lments de X est obtenu de la manire suivante :
-

on prlve un premier lment de X, et on ne le replace pas dans X.

on prlve un deuxime lment de X, et on ne le replace pas dans


X

On poursuit ainsi jusqu' l'obtention du nime lment. Il y a


= m (m-1) ... (m - n + 1) chantillons ordonns sans remise
d'lments de X, si X a m lments.
Exemple : Un juge d'instruction ne peut recevoir que quatre personnes
par jour. Il dispose de 20 tmoins dans une affaire. Il doit donc convoquer
4 de ces tmoins pour une de ses journes de travail. Il les recevra les
unes aprs les autres.
Il s'agit d'un chantillon ordonn et sans remise de 4 tmoins parmi les
20.
Il y a 20 19 18 17 = 116 280 manires d'organiser les rendez-vous
de cette journe.
Echantillon non ordonn avec remise :
Considrons une urne contenant quatre boules de couleurs diffrentes.
On tire une boule de l'urne, on note sa couleur et on la replace dans
l'urne. On rpte l'opration cinq fois.
Soit x1 ( resp. x2 , x3 , x4 , x5 ) le nombre de boules obtenues de la 1re
couleur (resp. 2e, 3e, 4e, 5e).
On ne s'intresse pas l'ordre dans lequel sont sorties les couleurs, mais
seulement au nombre de boules de chaque couleur.
On dit qu'on a extrait de l'urne un chantillon non ordonn avec remise
de 4 boules.
On a x1 + x2 + x3 + x4 + x5 = 5.
Il y a donc :

tels chantillons.

On prlve dans une urne contenant n boules de couleurs diffrentes une


boule. On note la couleur de la boule. On la replace dans l'urne et on
7

rpte cette opration m fois. On note le nombre de boules de chaque


couleur que l'on a obtenue. On dit que l'on a extrait de l'urne un
chantillon non ordonn avec remise de m boules.
D'une manire gnrale si l'urne contient n boules de couleurs
diffrentes, il y a :
combinaisons non ordonnes avec remises des n boules.
Echantillon ordonn sans remise :
Dfinition : Prlever simultanment n objets parmi m c'est prlever un
chantillon de n objets non ordonn sans remise parmi m.
Il y a

faons de prlever un chantillon non ordonn sans remise

parmi n objets.
Exemple : Pour connatre l'opinion de ses employs une entreprise dcide
d'interroger 40 d'entre eux. Sachant qu'il y a 1000 employs dans
l'entreprise, il y a donc

faons de dsigner les 40 employs qui

seront interrogs :
= 5 559 744 236 1071

Ensemble des parties :


Soit X un ensemble, on note P ( X ) l'ensemble dont les lments sont les
parties de X.
P ( X ) s'appelle l'ensemble des parties de X.
Exemple : Si X = { a, b, c } , P ( X ) a 8 lments.
- l'ensemble vide :
- la partie un lment : { a } , { b } , { c }
- la partie deux lments : { b, c } , { a, c } , { a, b }
- la partie trois lments : { a, b, c }
Epreuve :
On appelle preuve d'une exprience alatoire chaque rptition de cette
exprience.
Equiprobabilit :
Soit E une exprience alatoire ayant un nombre fini d'issues.
Soit = { w1 , w2 , ... , wn } l'ensemble de ces issues.
On dit que l'on fait l'hypothse d'quiprobabilit lorsque pour la
probabilit P dfinie sur P ( ), tous les vnements lmentaires { wi }
ont la mme probabilit. Alors
P( { wi }) =

o n = card()

Exemple : Soit E l'exprience alatoire consistant jeter un d. Cette


exprience 6 issues.
= { 1, 2, 3, 4, 5, 6 }.
Soit P : P () [0, 1] une probabilit dfinie sur P (). On a fait
l'hypothse d'quiprobabilit si P({ 1 }) = P({ 2 }) = P ({ 3 }) = P
({ 4 }) = P ({ 5 }) = P ({ 6 }) =
Chaque face du d a la mme probabilit d'apparition.
Espace probabilis :
Soit E une exprience alatoire ayant un nombre fini d'issues.
Soit l'ensemble des issues.
P : P () [0, 1] une probabilit.
Le triplet ( , P ( ) , P) s'appelle un espace probabilis.
9

EVNEMENT :
Etant donn une exprience alatoire, on appelle vnement li cette
exprience alatoire, toute assertion, qui peut tre vraie ou fausse
suivant l'issue de l'exprience.
Exemple : Si on considre l'exprience alatoire qui consiste jeter un
d, cette exprience a six issues : 1, 2, 3, 4, 5, 6 correspondant au
numro qui apparat sur la face suprieure du d lorsqu'il s'est
immobilis sur la table.
L'assertion le numro sur la face suprieure est pair est un
vnement li cette exprience alatoire.
1- Evnement certain :
Soit E une exprience alatoire et A un vnement li cette exprience
alatoire. On dit que A est un vnement certain, s'il est ralis quelle
que soit l'issue de l'exprience E.
Exemple : Soit E l'exprience alatoire qui consiste jeter un d et dont
les issues sont les numros qui apparaissent sur la face suprieure du d
aprs immobilisation.
L'vnement le numro sur la face suprieure du d est infrieur 7
est un vnement certain.
2- Evnements lmentaires :
Soit E une exprience alatoire, un vnement A li l'exprience E, est
dit un vnement lmentaire s'il n'est ralis que par une seule issue de
cette exprience.
Exemple : Soit l'exprience alatoire qui consiste jeter un d, et dont les
issues sont l'un des 6 numros figurant sur la face suprieure aprs
immobilisation du d.
L'vnement le numro sur la face suprieure du d est le 4 est un
vnement lmentaire. Il y a autant d'vnements lmentaires que
d'issues une exprience alatoire.
3- Evnement impossible :
Soit E une exprience alatoire et A un vnement li cette exprience
alatoire. On dit que A est un vnement impossible, s'il n'est pas ralis,
quelle que soit l'issue de l'exprience E.
Exemple : Soit E l'exprience alatoire qui consiste jeter un d et dont
les issues sont les numros qui apparaissent sur la face suprieure du d
aprs immobilisation.
L'vnement le numro sur la face suprieure du d est le numro 7
est un vnement impossible.
4- Evnements incompatibles :

10

Etant donn une exprience alatoire E et deux vnements lis cette


exprience alatoire, on dit qu'ils sont incompatibles s'ils ne peuvent pas
se raliser simultanment.
Exemple : Soit E l'exprience alatoire consistant lancer un d, et dont
les issues sont les numros qui apparaissent sur la face suprieure du d
aprs immobilisation.
Les vnements le numro sur la face suprieure est infrieur ou gal
2 et le numro sur la face suprieure est suprieur ou gal 5 sont
incompatibles.
5- Evnements indpendants :
Soit ( , P ( ) , P) un espace probabilis fini, A et B deux vnements lis
cet espace. On dit que A et B sont indpendants pour la probabilit P si
P (A B) = P( A ) P( B )
Proprits :
1) Si la paire d'vnements { A , B } est indpendante pour la probabilit
P, il en est de mme des paires d'vnements {A ,

}, {

, B} , {

}.

2) Si P(A) = 0 , A et B sont indpendants quel que soit B P ( )


3) Si P(A) = 1 , A et B sont indpendants quel que soit B P ()
Exemple : Pour une entreprise de spectacle dans le dpartement A, la
probabilit de l'vnement faire l'objet d'un contrle de scurit est
1
1
tandis que dans le dpartement B, la probabilit n'est que de , ces
4
5

deux vnements tant indpendants.


Un groupe financier possde deux entreprises de spectacle, l'une dans le
dpartement A, l'autre dans le dpartement B. La probabilit que les
deux entreprises subissent un contrle est :
1 1
1

4 5 20

6- Evnements mutuellement indpendants :


Soit ( , P ( ) , P) un espace probabilis et A1 , A2 , ... , An ,
n vnements lis cet espace.
On dit que ces vnements sont mutuellement indpendants pour la
probabilit P si tout sous-ensemble de deux ou plusieurs de ces
vnements satisfait la proprit suivante : la probabilit de la
conjonction des vnements du sous-ensemble est le produit de leurs
probabilits.
Exprience alatoire :

11

Une exprience alatoire est une exprience dont on ne peut pas prvoir
le rsultat.
Exemple : Si on lance une pice de monnaie, on ne peut pas prvoir sur
quelle face elle retombera.
Lancer une pice de monnaie est une exprience alatoire.
Factorielle :
Si n est un entier naturel 1, on appelle factorielle n, et on note n ! , le
produit des n premiers entiers naturels.
1!=1
2!=21=2
3!=321=6
4 ! = 4 3 2 1 = 24 , etc.
n ! est gal au nombre de permutations d'un ensemble X n lments.

Formule des probabilits totales :


Soit ( , P ( ) , P) un espace probabilis fini. B1 , B2 , ... , Bn un systme
complet d'vnements A P ( ). On a
P (A) = P (A | B1) P (B1) + P (A | B2) P (B2) + ... + P (A | Bn) P (Bn)
cette formule s'appelle la formule des probabilits totales.
Exemple : Une grande marque de produits laitiers a trois usines o sont
fabriqus les yaourts qu'elle commercialise Arras, Brest et Caen.
Arras fournit 25 % de la production, Brest 20 % et Caen 55 %. On
considre un yaourt de cette marque. Soit A (resp. B , C ) l'vnement
le yaourt est produit par Arras (resp. Brest, Caen) .
P( A ) = 0.25
P( B ) = 0.2
P( C ) = 0.55
A, B, C constitue un systme complet d'vnements.
20 % des yaourts produits Arras sont aux fruits ainsi que 30 % de ceux
produits Brest, 15 % de ceux produits Caen.
Soit Y l'vnement le yaourt est aux fruits
P(Y | A) = 0.2
1

En mathmatiques, un entier naturel (aussi appel nombre naturel) est un nombre


entier et positif, comme 0, 1, 2, 3, 4, 5... 12, 512, 2 10 9 ...
Il s'agit donc de nombres qui permettent de compter les objets quand ils sont en
quantit discrte ; par exemple, les doigts, les feuilles d'un arbre. Ils ne permettent pas
de mesurer des quantits continues comme une longueur, un volume ou une masse.
L'ide de considrer zro comme un entier naturel est relativement rcente.
Bien que cette notion paraisse intuitive, leur dfinition formelle en mathmatiques n'a
pas t simple concrtiser. Les axiomes de Peano dfinissent l'ensemble des entiers
naturels, not N ou
. On note
l'ensemble des entiers naturels priv de l'lment
zro

12

P(Y | B) = 0.3
P(Y | C) = 0.15
D'o P( Y ) = 0.25 0.2 + 0.2 0.3 + 0.55 0.15
= 0.05 + 0.06 + 0.0825
= 0.1925

Formule de Bayes :
Soit ( , P ( ) , P) un espace probabilis fini. A , B des vnements,
P( A ) 0 , P( B ) 0.
On a P(B | A) =

(Premire formule de Bayes)

Soit B1 , B2 , ... , Bn un systme complet d'vnements


A, un vnement ; pour i [[ 1, n ]]

P(Bi | A) =
Exemple : Une grande marque de produits laitiers fabrique les yaourts
qu'elle commercialise dans trois usines, implantes Arras, Brest et
Caen.
Arras fournit 25 % de la production, Brest 20 % et Caen 55 %. On achte
un yaourt de cette marque.
Soit A (resp. B , C ) l'vnement lyaourt est produit par Arras (resp. Brest, Caen)
P( A ) = 0.25
P( B ) = 0.2
P( C ) = 0.55
A, B, C constituent un systme complet d'vnements.
20 % des yaourts produits Arras sont aux fruits ainsi que 30 % des
yaourts produits Brest et 15 % de ceux produits Caen.
Soit Y l'vnement le yaourt est aux fruits
P(Y | A) = 0.2
P(Y | B) = 0.3
P(Y | C) = 0.15
D'o P( Y ) = 0.25 0.2 + 0.2 0.3 + 0.55 0.15
= 0.05 + 0.06 + 0.0825
= 0.1925
Sachant que le yaourt est aux fruits, quelle est la probabilit qu'il ait t
fabriqu Caen :

13

P(C | Y) =

= 0.42857

Formule du crible : (Formule du crible ou de Poincar)


Si X , Y , Z sont trois ensembles.
card(X Y Z) = card( X ) + card( Y ) + card( Z ) - card(Y Z) card(X Z) - card(X Y) + card(X Y Z)
On gnralise cette formule n ensembles X1 , X2 , ... , Xn
Si A =

Xi

card( A ) =

(- 1)p+1

card(

Aij )

Hauteur d'une carte :


Dans un jeu de 32 cartes, il y a 7 hauteurs : 7, 8, 9, 10, valet, dame, roi,
as.
Dans un jeu de 52 cartes, il y a 13 hauteurs : 1, 2, 3, 4, 5, 6, 7, 8, 9, 10,
valet, dame, roi.
Intersection de deux parties :
Soit X un ensemble. A et B deux parties de X.
On appelle intersection des deux parties A et B, la partie note
A B de X, constitue des x X, tels que x A ou x B.
Si X = { 1, 2, 3,
4, 5, 6 }
A = { 2, 3, 4 }
B = { 3, 4, 5 }
A B = { 3, 4 }
Issue :
On appelle issue d'une exprience alatoire l'un des rsultats possibles de
cette exprience.
Exemple : Si on lance une pice de monnaie, cette exprience alatoire a
deux issues :
- la pice retombe sur face
- la pice retombe sur pile.
n-liste :
Soit n N. On appelle n-liste ( x1 , x2 , ... , xn ) d'lments d'un ensemble X
toute liste d'lments de X, donne dans cet ordre.
Si X = { a, b, c, d } , ( a, d, c ) est une 3-liste d'lments de X. Elle diffre
de la 3-liste (c, d, a).
On note Xn l'ensemble des n-listes d'lments de X.

14

card( Xn ) = card( X )n
Si X a n lments, X a m lments.
n

n-liste sans rptition :


Soit n un entier naturel, X un ensemble.
Une n-liste ( x1 , x2 , ... , xn ) d'lments de X est dite sans-rptition, si
pour i [[ 1, n ]] et j [[1,n ]] xi xj c'est--dire si tous les lments xi
sont distincts.
Exemple : Parmi les 100 candidats un concours, les 20 laurats sont
classs par ordre de mrite, sans ex-quo.
Si X est l'ensemble des candidats, la 20-liste des laurats classs par
ordre de mrite est une n-liste sans rptition.
Si X a m lments, il y a :
= m (m-1) ... (m - n + 1)
n-listes sans rptition d'lments de X.

Ngation d'un vnement :


Soit E une exprience alatoire, A un vnement li cette exprience.
On appelle ngation de A, l'vnement non A, non A est ralis si A ne
l'est pas et non A n'est pas ralis si A l'est.
Exemple : Soit E l'exprience alatoire qui consiste lancer un d, et
dont les issues sont les numros qui apparaissent sur la face suprieure
du d, aprs immobilisation.
Soit A l'vnement le numro est pair , non A est l'vnement le
numro est impair .
Partie vide :
Soit X un ensemble, on appelle partie vide de X, le complmentaire de X
dans X. On la note .
X = X - X
On dmontre que x = y si X et Y sont deux ensembles distincts.
On note = x = y , s'appelle l'ensemble vide.
Partie d'un ensemble ou sous-ensemble :
Si X = { a , b , c , d }
Y = { a , b } est une partie de X , comme
Z={b,c,d}
L'ensemble des parties d'un ensemble X, se note P ( X ).
Si X a n lments, P ( X ) a zn lments.
Partie d'un ensemble :
Soit X un ensemble. Y un autre ensemble. On dit que Y est une partie de
X, si tout y de Y est aussi lment x de X. On note
YX

15

Exemple : Soit X l'ensemble des lettres de l'alphabet latin et Y l'ensemble


des voyelles de l'alphabet latin. Y est une partie de X.
On dit aussi que Y est un sous-ensemble de X.
Partition d'un ensemble :
Soit X un ensemble.
A1 , A2 , ... , An n parties de X non vides, deux deux disjointes, et dont la
runion est gale X.
On dit que les parties A1 , A2 , ... , An constituent une partition de X.
Les parties Ai s'appellent les classes de la partition.
Exemple : Soit X la liste des communes franaises. Soit A i l'ensemble des
communes appartenant au ime dpartement :
A34 l'ensemble des communes de l'Hrault.
A1 , A2 , ... , A9 constitue une partition de X.
Permutation :
Si X est un ensemble n lments, une n-liste sans rptition d'lments
de X s'appelle une permutation d'lments de X.
Si X a n lments, il y a
lments de X.

= n (n - 1) ... 3.2.1 permutations des n

On note
= n ! qui se lit factorielle n .
Exemple : 9 soldats doivent se ranger en lignes.
Il y a 9 ! Faons pour eux de le faire, soit 362 880 manires de le faire.
Principe d'inclusion-exclusion :
Si X et Y sont deux ensembles
card(X Y) = card( X ) + card( Y ) - card(X Y)
Exemple : Dans une cole :
120 tudiants tudient l'anglais
90 tudiants tudient l'espagnol
40 tudiants tudient la fois l'anglais et l'espagnol.
Il y a donc 120 + 90 - 40 = 170 tudiants qui tudient soit l'anglais, soit
l'espagnol.
Probabilit :
Soit E une exprience alatoire ayant un nombre fini d'issues. Soit
l'ensemble de ces issues. On appelle probabilit, toute application :
P : P ( ) [ 0 , 1 ]
vrifiant :
1) P ( ) = 1
2) Si A B =
P(A B) = P( A ) + P( B )
Probabilit conditionnelle :
Soit ( , P ( ) , P) un espace probabilis fini et A un vnement li cet
espace tel que
P( A) 0.

16

On considre l'application :

PA : P ( )

dfinie par : P(B | A) =

PA(B) qui se note aussi P(A | B) s'appelle la probabilit conditionnelle de B


sous la condition de ralisation de A.
On lit aussi P(A | B) = PA( B ) , probabilit de B sachant A.
On dmontre que PA dfinit une probabilit sur P ( ).
En particulier P( | A) = 1 - P(B | A). Si B et C sont incompatibles :
PA(B C) = P(B | A) + P(C | A)
On a P(A B) = P( A ) P(B | A) = P( B ) P(A | B)
Exemple : Une enqute montre que 4 % des franais sont atteints du
cancer du poumon, que 75 % des malades sont des fumeurs et galement
que 60 % des franais sont des fumeurs.
Soit A l'vnement tre atteint du cancer et B l'vnement tre
fumeur .
On a P(B | A) = 0.75 ,
P( A ) = 0.04 ,
P( B ) = 0.6.
D'o P(A B) = P( A ) P(B | A) = 0.04 0.75 = 0.03 (probabilit d'tre
atteint de la maladie et fumeur)
P(A | B) =
=
quand on est fumeur)

= 0.05 (probabilit d'tre atteint du cancer

P(A | ) =
P( ) = 1 - P( B ) = 1 - 0.6 = 0.4
P(A ) = P( A ) - P(A U B) = 0.04 - 0.03 = 0.01
D'o P(A |

)=

= 0.025

Ralisation d'un vnement :


Soit E une exprience alatoire et A un vnement li cette exprience
alatoire. A est une assertion qui peut tre vraie ou fausse la suite d'une
preuve de E . Si A est vraie la suite d'une preuve de E , on dit que A
s'est ralis ou qu'on a assist une ralisation de A.
Exemple : Si E est l'exprience alatoire consistant lancer un d, et
dont les issues sont les nombres qui apparaissent sur la face suprieure
du d aprs immobilisation.
Soit A l'vnement le numro est pair . On lance le d. Le numro
obtenu est 4 : l'vnement A s'est ralis. On dit aussi qu'on a assist
une ralisation de A.
Rgle de la somme :
Si X et Y sont deux ensembles disjoints : X Y =
card(X Y) = card( X ) + card( Y )
Exemple : Un enfant a 4 voitures miniatures rouges et 3 voitures
miniatures vertes.
17

Il a en tout 7 = 3 + 4 voitures miniatures.


Si X1 , X2 , ... , Xn sont n ensembles deux deux disjoints, c'est--dire si :
Xi Xj = pour i j

card(X1 X2 ... Xn) =

card( Xi )

Rgle des bergers :


Soit X un ensemble.
A1 , A2 , ... , An une partition de X.
Si chaque classe Ai a le mme nombre p d'lments :
card( X ) = np
Exemple : Un restaurant a command 1 200 bouteilles de vin, qui lui sont
expdies par carton de 12 bouteilles.
1 200 = 12 100
100 cartons sont ncessaires pour effectuer l'expdition. On les numrote
de 1 100.
Si Ai constitue l'ensemble des bouteilles contenues dans le ime carton,
A1 , A2 , ... , A100 est une partition de l'ensemble X des bouteilles expdies
; chaque classe Ai ayant le mme nombre d'lments, savoir 12.
Rgle du produit :
Soit X et Y deux ensembles non vides.
L'ensemble des couples ordonns ( x , y ) o x X , y Y, constituent
l'ensemble produit X Y
card(X Y) = card( X ) card( Y ) (Rgle du produit)
Les lments de X Y peuvent s'obtenir l'aide d'arborescences.
Exemple : Un marchand de rfrigrateurs propose un modle en quatre
coloris : blanc, marron, vert, bleu et en trois dimensions :
X = {blanc, marron, vert, bleu}
Y = {1.10, 1.20, 1.30}
X Y reprsente les choix possibles dans ce modle
card(X Y) = card( X ) card( Y ) = 3 4 = 12
On obtient tous les lments de X Y par une arborescence.

18

Runion de deux parties :


Soit X un ensemble. A et B deux parties de X. On appelle runion ou
union des deux parties A et B, la partie note A B de X, constitue des x
X , tels que x A ou x B.
Si X = { 1, 2, 3, 4,
5, 6 } ,
A = { 1, 2, 3 } ,
B = { 3, 4 }
A B = { 1, 2, 3,
4}
Systme complet d'vnements :
Soit l'ensemble des issues d'une exprience alatoire E ;
A1 , A2 , ... , An n vnements lis l'exprience E . On dit que les
vnements A1 , A2 , ... , An constituent un systme complet d'vnements
1) s'ils sont deux deux incompatibles
2) si leur runion est l'vnement certain
Ap Aq =
si p q
A1 A2 ... An =
Univers des possibles :
On appelle univers des possibles d'une exprience alatoire, l'ensemble
des issues de cette exprience.
Exemple : Si on lance une pice de monnaie, l'univers des possibles a
deux lments P ou F :
- P correspondant la pice retombe sur pile
- F correspondant la pice retombe sur face
= { F, P }

19

I - La rgle de la somme
Dans une association d'amateurs de bel-canto, 125 personnes aiment les
opras de Mozart et 100 personnes prfrent les opras de Verdi.
- Combien y-a-t-il de membres de l'association qui apprcient Mozart
ou Verdi ?
- Pouvez-vous rpondre cette question ?
- Si aucun membre de l'association n'apprcie la fois Mozart et
Verdi, combien y-a-t-il de membres de l'association qui apprcient
Mozart ou Verdi ?
Si X et Y sont deux ensembles disjoints : X Y =
alors : card(X Y) = card(X) + card(Y)
Cette proposition s'appelle la rgle de la somme.
Elle se gnralise n ensembles X1 , X2 , ... , Xn , deux deux disjoints.
Si Xi Xj = pour i j
card(X1 X2 .... Xn) = card(X1) + card(X2) + ... + card(Xn)
Exemple 1 : Les professeurs d'un collge
Dans un collge, il y a 3 professeurs de mathmatiques, 3 de franais, 2
d'anglais, 2 de biologie, 4 d'ducation physique, 2 d'espagnol, 2 de
physique, 3 d'histoire et gographie.
Combien y-a-t-il de professeurs dans ce collge ?

20

II - Principe d'inclusion-exclusion
Soient X et Y deux ensembles non disjoints : X Y
Soit U un ensemble contenant la fois X et Y.
Soit = U \ X , = U \ Y les complmentaires de X
et Y dans U.
Les parties X et X Y sont disjointes.
X=XU=X(Y )=(XY)(X )
D'aprs la rgle de la somme :
card(X) = card(X Y) + card(X )
De mme :
card(Y) = card(X Y) + card( Y)
D'o :
card(X) + card(Y) = 2 card(X Y) + card(X ) + card( Y)
Les parties X , Y et X Y sont deux deux disjointes
et leur union est gale X Y.
D'aprs la rgle de la somme :
card(X Y) = card(X Y) + card( Y) + card (X )
D'o :
card(X) + card(Y) = card(X Y) + card(X Y)
card(X Y) = card(X) + card(Y) - card(X Y)
Cette relation s'appelle le principe d'inclusion-exclusion.
Exemple 1 : Les entiers infrieurs 1000 divisibles par 2, 3 ou 5.
- Soit U l'ensemble des entiers naturels infrieurs ou gaux 1 000.
- Soit X l'ensemble des nombres de U qui sont divisibles par 2.
card(X) =
Soit Y l'ensemble des nombres de U qui sont divisibles par 3.
card(Y) =
card(X Y) =
Soit maintenant Z l'ensemble des lments de U qui sont divisibles par 5.
card(Z) =
Combien y-a-t-il d'lments de U qui soient divisibles par 2 ou par 3 ou
par 5 ?
On veut dnombrer X Y Z
On pose A = Y Z
card(X Y Z) = card(X A) = card(X) + card(A) - card(X A)
card(A) = card(Y Z) = card(Y) + card(Z) - card(Y Z)
XA =X (YZ)=(XY)(X Z)(XY)(X Z)=XYZ
card(X A) = card(X Y) + card(X Z) - card(X Y Z)
D'o :
card(X Y Z) = card(X) + card(Y) + card(Z) - card(Y Z) - card(X Z) card(Y Z) + card(X Y Z)
card(X Z) =

21

card(Y Z) =
card(X Y Z) =
et card(X Y Z)
=
Exemple 2 : Les tudiants en mathmatiques
Des tudiants en mathmatiques, en deuxime anne de matrise, doivent
choisir entre diffrents certificats. Ils se rpartissent ainsi :
Analyse numrique : 60
Probabilits : 30
Informatique : 14
Mcanique : 20
Certains tudiants ont choisi deux matires.
Analyse numrique et Probabilits : 28
Analyse numrique et Informatique : 12
Analyse numrique et Mcanique : 16
Probabilits et Informatique : 4
Il n'existe aucun autre choix de deux matires simultanment.
Chaque tudiant est inscrit au moins l'une des quatre matires.
Deux tudiants seulement en tudient trois, il s'agit de l'Analyse
Numrique, des Probabilits et de l'Informatique.
Soit X (resp, Y , Z , T ) l'ensemble des tudiants apprenant l'Analyse
Numrique (resp. les Probabilits, l'Informatique, la Mcanique).
Combien y-a-t-il d'tudiants en tout ?
D'aprs ce que l'on sait :
card(X Y Z T) = 0
De mme
card( Y Z T) = card(X
Or : card(X Y T) = 2
et : card(X Y Z T) = 0
calculer :
card(X Y Z
card(X Y) = 28

Z T) = card(X Y

T) = 0

)=

calculer : card(X Y
card(X Z) = 12

)=

calculer : card(X
card(X T) = 16

)=

calculer : card(X
card(Y Z) = 4

)=

calculer : card( Y Z ) =
Il n'existe pas d'autre choix de deux matires.

22

card( Y
card(X) = 60

T) = card(

calculer : card(X
card(Y) = 30

calculer : card(
card(Z) = 14

calculer : card(
card(T) = 20

Z T) =

)=

)=

)=

calculer : card( T) =
Enfin : card( ) = 0
On vient de dnombrer les 16 intersections possibles de quatre
ensembles, construites en prenant soit les ensembles X , Y , Z ou T, soit
leurs complmentaires.
Ces 16 parties sont deux deux disjointes et leur runion est gale E.
En additionnant le nombre des lments de chacune de ces
intersections de quatre parties ou de leurs complmentaires on obtient
le nombre total des tudiants :
4 + 10 + 26 + 16 + 2 + 2 + 6 = 66
On aurait pu l'obtenir aussi en gnralisant 4 ensembles la formule
donnant le nombre des lments d'une runion de 3 ensembles.
On a :
card(X Y Z T) = card(X) + card(Y) + card(Z) + card(T) - card(X Y) - card(X
Z) - card(X T) - card(Y Z) - card(Y T) - card(T Z) - card(Y Z T) + card(X
Z T) + card(X Y T) + card(X Y Z) - card(X Y Z T)
Formule de Poincar
D'o : card(E) = 60 + 30 + 4 + 20 - ( 28 + 12 + 16 + 4 ) + 2 = 66
III - La rgle du produit
Une socit de vente par correspondance a choisi un modle de
chemisier. Elle propose ce chemisier dans 6 tailles et en 2 coloris.
Combien de codes distincts doit-elle prvoir pour que les clientes
puissent remplir correctement leurs bons de commande ?
Soit X l'ensemble des tailles :
X = { 38, 40, 42, 44, 46, 48 }
et Y l'ensemble des coloris :
Y = { bleu, rouge }
Chaque cliente doit choisir une taille x et un colori y. Son choix consiste
donc en un couple ordonn (x , y ) dont le premier lment x est dans X,
le second y dans Y.
L'ensemble de ces choix est le produit cartsien X Y des ensembles X et
Y.
On peut dresser la liste des lments de X Y par une arborescence.
XYa

lments

23

On vend habituellement les boutons sur des plaques de carton o ils sont cousus.
Combien de boutons contient une plaque contenant cinq ranges de quatre boutons ?
Soit X l'ensemble des lignes de la plaque et Y l'ensemble des colonnes de la plaque.
En numrotant les lignes de 1 5, on tablit une bijection entre X et { 1 , 2 , 3 , 4 , 5 }.
En numrotant les colonnes de 1 4, on tablit une bijection entre Y et { 1 , 2 , 3 , 4 }.
A chaque bouton on peut associer un couple ( x , y ) constitu du numro x de sa ligne, et du
numro y de sa colonne, ce qui tablit une bijection entre l'ensemble des boutons et
l'ensemble produit { 1 , 2 , 3 , 4 } { 1 , 2 , 3 , 4 , 5 }.
Le nombre des boutons est donc :
4 + 4 + 4 + 4 + 4 = 4 5 = 20
On ajoute cinq fois 4 , ce qui revient multiplier 4 par 5, car il y a cinq lignes de 4 boutons.
Si X et Y sont des ensembles finis
card(X Y) = card(X) card (Y)
Ce rsultat s'appelle la rgle du produit
Exemple 1 : les immatriculations
Dans un dpartement donn la plaque d'immatriculation d'un vhicule est compose de quatre
chiffres au plus, suivis d'une ou deux lettres, qui toutefois doivent tre diffrentes de O et I , et
ces deux lettres ne devant pas tre ni TT, ni WW.
Combien de vhicules peut-on immatriculer de cette manire ?
Soit X l'ensemble des nombres que l'on peut utiliser :
card(X) =
Soit Y l'ensemble des couples de deux lettres utilisables :
card(Y) =
Combien y-a-t-il d'immatriculations possibles ?

24

Gnralisation :
Soit X1 , X2 , ... , Xn , n ensembles non vides.
Les n-listes ( x1 , x2 , ... , xn) o x1 X1 , x2 X2 , ... , xn Xn constituent l'ensemble
X1 X2 ... Xn
On dmontre par rcurrence sur le nombre d'ensembles que
card(X1 X2 ... Xn)
= card(X1) card(X2) ... card (Xn).
Exemple 2 : les quipes pdagogiques
Dans un collge, il y a 3 professeurs de mathmatiques, 3 professeurs de
franais, 2 professeurs d'anglais, 2 professeurs de biologie, 4 professeurs
d'ducation physique, 2 professeurs de musique, 2 professeurs de
physique, 3 professeurs d'histoire et gographie.
Un lve qui rentre en 6e doit avoir un professeur dans chacune de ces
matires.
De combien de manires peut tre compose l'quipe des professeurs de
sa classe ?

Exemple 3 : les menus de M. de la Reynire


Monsieur de la Reynire se rend dans un restaurant. On lui propose 6
entres (2 chaudes et 4 froides), 5 plats de rsistance (3 chauds et 2
froids) et 5 desserts (2 chauds et 3 froids).
De combien de manires Monsieur de la Reynire peut-il composer son
menu sachant qu'il doit comporter une entre, un plat de rsistance et un
dessert ?
On suppose maintenant que Monsieur de la Reynire s'impose la rgle
suivante : un repas doit comporter au plus un service froid.
Dans ces conditions combien de menus peut-il choisir ?
IV - La rgle des bergers
Dans une voiture de la SNCF de premire classe, il y a 10 compartiments
de 6 places chacun.
Combien y-a-t-il de places dans cette voiture ?
Soit X un ensemble
A1 , A2 , ... , An , n parties de X non vides, deux deux disjointes, et dont la
runion est gale X.
On dit que ( A1 , A2 , ... , An ) est une partition de X.
Si chacune des parties A1 , A2 , ... , An a le mme nombre p d'lments,
card(X) = n p
Ce rsultat s'appelle la rgle des bergers.
Pour l'tablir on raisonne, comme dans le cas des voitures de chemin de
fer, en numrotant les classes A1 , A2 , ... , An de la partition, puis les
lments l'intrieur de chaque classe.

25

Un lment de X apparat comme un lment ( x , y ) de [[ 1 , n ]] [[ 1 , p


]]
Exemple 1 : les pattes de moutons
Un berger compte le nombre des pattes de ces moutons. Il en trouve 396.
Sachant que chaque mouton a quatre pattes, combien a-t-il de moutons
garder ?

26

I - Rgle de la somme
Si X et Y sont deux ensembles disjoints, c'est--dire si :
XY=
card(X Y) = card(X) + card(Y)
( Rgle de la somme )
Une bibliothque contient 1253 livres crits en franais et 851 livres
crits en anglais.
Elle contient en tout : 1 253 + 851 = 2 104 livres
Si X1 , X2 , ... , Xn sont n ensembles deux deux disjoints,
c'est--dire tels que Xi Xj = si i j
card(X1 X2 ... Xn) =
card ( Xi )
Une bibliothque contient :
- 1253 livres crits en franais
- 851 livres crits en anglais
- 258 livres crits en russe
- 928 livres crits en allemand
- et 155 livres crits en italien
Elle comprend en tout : 1 253 + 851 + 258 + 928 + 155 = 3 445 livres
II - Principe d'inclusion-exclusion
Si X et Y sont des ensembles finis
card(X Y) = card(X) + card(Y) - card(X Y)
( Principe d'inclusion-exclusion )
Un marchand de voitures d'occasion propose la vente
- 12 voitures fonctionnant au gazole
- 8 voitures climatises
- 3 voitures fonctionnant au gazole et climatises.
Il propose donc : 12 + 8 - 3 = 17 voitures fonctionnant au gazole ou
climatises.
III - Formule du crible ou de Poincar
Pour 3 ensembles X , Y , Z on a :
card(X Y Z) = card(X) + card(Y) + card(Z) - card(Y Z) - card(X
Z) - card(X Y) + card(X Y Z)
Pour 4 ensembles X , Y , Z , T, on a :
card(X Y Z T) = card(X) + card(Y) + card(Z) + card(T) - card(X
Y) - card(X Z) - card(X T) - card(Y Z) - card(Y T) - card(Z
T) + card(Y Z T) + card(X Z + card(X Y Z) - card(X Y
Z T)T) + card(X Y T)
( Formule du crible ou de Poincar )

27

IV - Rgle du produit
Soit X , Y deux ensembles non vides. Les couples ordonns ( x , y ) avec x
X et y Y, constituent l'ensemble produit X Y.
card(X Y) = card(X) card(Y)
( Rgle du produit )
Une personne a le choix entre 3 destinations pour partir en week-end :
Barcelone, Nice et Paris. Elle a le choix entre quatre moyens de transport
: le train, la voiture, l'avion ou le bus.
- X = {Barcelone, Nice, Paris}
- Y = {Train, Voiture, Avion, Bus}
On peut construire X Y l'aide d'une arborescence.
card(X Y) = card(X) card(Y) = 3 4 = 12.
Cette personne a 12 manires de prparer son voyage.
V - Rgle des Bergers
Soit X un ensemble.
A1 , A2 , ... , An , n parties de X non vides, deux deux disjointes,
et dont l'union est gale X.
A1 , A2 , ... , An constituent une partition de X .
Si toutes les parties Ai ont le mme nombre d'lments p, alors
card(X) = n p
( Rgle des bergers )
Une mnagre a achet 12 botes de sucre en morceaux. Chaque bote contient 130
morceaux de sucre.
Elle dispose donc de : 12 130 = 1 560 morceaux de sucre.

28

MODULE : STATISTIQUE DESCRIPTIVE


Ce cours est destin vous faire acqurir les notions essentielles de la
statistique descriptive, c'est--dire vous apprendre comment dcrire de
faon claire et concise l'information apporte par des observations
nombreuses et varies sur un phnomne donn.
Il s'agit de trier ces donnes, les dcrire, les rsumer sous forme de
tableaux, de graphiques, et sous forme d'un petit nombre de paramtrescls (moyenne, mdiane par exemple).
Leon
Leon
Leon
Leon
Leon

1
2
3
4
5

Vocabulaire usuel
Tableaux et graphiques
Paramtres statistiques
Liaisons entre variables
Exemples de synthse

Prsentation du module : G. SAPORTA (CNAM-PARIS)

29

Qu'est-ce
que
la
Statistique
Descriptive ?
Nous avons l'habitude de rencontrer, dans des domaines trs divers, ce
que l'on appelle des statistiques :
Ainsi, afin de dcrire le climat en un endroit du globe, il est habituel de
construire des schmas et de calculer des moyennes annuelles ou des
totaux.
Ci-dessus, ce sont les mesures de prcipitations (en mm) et de
temprature Brest, sur une anne. Le total annuel des prcipitations est
de 1126 mm, la temprature moyenne annuelle de 10.8C.
Ce schma, ainsi que les moyennes, ont t tablis partir de
nombreuses mesures, des donnes statistiques provenant de relevs de
prcipitations et de tempratures sur un grand nombre d'annes.
De mme, les graphiques ci-dessous permettent de visualiser de faon
simple les traits principaux du budget de la rgion Languedoc-Roussillon
pour l'anne 1997.

30

Ils ont t tablis partir d'un grand nombre de donnes budgtaires


complexes.
Ce sont aussi des donnes statistiques.
Lorsqu'on note chaque semaine pour une entreprise le chiffre d'affaires,
le nombre de commandes, le nombre de nouveaux clients, etc., il s'agit ici
aussi de statistiques.
Enfin, un mdecin, pour tudier les risques cardio-vasculaires de ses
patients, peut remplir pour chacun d'eux une fiche notant un certain
nombre de caractristiques.
Il s'agit ici aussi de statistiques (ou de donnes statistiques), c'est-dire un ensemble de mesures ou d'observations concernant l'tat ou
l'volution d'un phnomne.

31

Les diffrents modules du cours

Ce que l'on appelle la Statistique Descriptive est l'ensemble des


mthodes et techniques mathmatiques permettant de prsenter,
dcrire, rsumer de telles donnes.
L'interprtation des rsums obtenus, leur extrapolation ventuelle un
ensemble plus vaste (utilisation de sondages par exemple), et leur
utilisation pour prendre des dcisions constituent un autre domaine de la
Statistique.
C'est la Statistique Infrentielle, prsente dans les modules
Echantillonnage Estimation et Tests , et qui s'appuie sur
l'utilisation des probabilits, prsentes dans les modules Calcul des
Probabilits et Analyse Combinatoire et Variables Alatoires .
L'tude des liens existant entre deux sries d'observations est traite
dans le module Ajustement linaire .
LEXIQUE
Choisissez le terme expliquer...

Amplitude d'une classe (ou d'un intervalle)

32

C'est la longueur de l'intervalle.


L'amplitude de la classe [ei
ei+1 [ est ei+1 - ei .
L'amplitude de la classe [ 55 68 [ est 68 - 55 = 13 (units de mesure)
Caractre qualitatif :
Une variable statistique est qualitative si ses valeurs, ou modalits,
s'expriment de faon littrale ou par un codage sur lequel les oprations
arithmtiques telles que moyenne, somme, etc., n'ont pas de sens.
Exemples : Sexe de la personne interroge, situation familiale,
numro de son dpartement de naissance, ...
Etat du temps constat un endroit donn chaque jour (pluvieux,
neigeux, beau, venteux, etc.)
Caractre quantitatif :
Une variable statistique est quantitative si ses valeurs sont des nombres
sur lesquels des oprations arithmtiques telles que somme, moyenne, ...
ont un sens.
Exemples : Taille, poids, salaire
Rendement
Note un examen
PNB / habitant, esprance de vie, nombre d'habitants d'un
ensemble de pays
Caractre statistique (ou variables statistiques) :
C'est ce qui est observ ou mesur sur les individus d'une population
statistique.
Il peut s'agir d'une variable qualitative ou quantitative.
Exemples :
Taille, poids, salaire, sexe, profession d'un groupe donn d'individus
Rendement d'un ensemble de parcelles cultives
Temprature maximale et minimale, pluviomtrie, ensoleillement,
mesurs un endroit donn tous les jours.
Centiles :
Les centiles C1 , C2 , ... , C99 divisent une srie statistique en 100 parties
d'effectifs gaux.
Ce sont les abscisses respectives des points d'ordonne 0.01 ; 0.02 ; ... ;
0.99 sur la courbe cumulative croissante.
Par exemple le centile C98 est une valeur dpasse par 2 % des
observations ; les centiles n'ont de sens que si on dispose d'un grand
nombre (plusieurs centaines) d'observations.
Centre de gravit :
Le centre de gravit d'un nuage de points Mi de coordonnes ( xi , yi ) est
le point G de coordonnes ( , ) ; c'est le point moyen du nuage.
est la moyenne des xi

et la moyenne des yi

33

Classe modale :
C'est la classe correspondant au maximum de l'histogramme, dans le cas
d'une distribution continue unimodale.

Classes :
Intervalles de valeurs d'une variable continue, l'ensemble des classes
formant une partition de l'ensemble des valeurs possibles de la variable.
Par exemple, si tous les salaires des employs d'une entreprise se situent
entre 750 et moins de 3 000, on peut construire (par exemple) les
classes :
[ 750 - 900 [ , [ 900 - 1 500 [ , [1 500 - 2 250 [ , [2 250 - 3 000 [
Chaque valeur observe de la variable doit appartenir une classe et une
seule.
Coefficient de corrlation (linaire) :
Le coefficient de corrlation entre deux variables statistiques X et Y sur
les mmes individus est le nombre :
o :
cov ( X , Y ) est la covariance entre X et Y,
et sX sY les carts-types de X et Y.
Ce coefficient est toujours compris entre -1 et + 1.
S'il est proche de + 1 ou - 1 , X et Y sont bien corrles, c'est--dire
qu'elles sont lies entre elles par une relation presque affine ; le nuage de
points est presque align le long d'une droite (croissante si r = + 1,
dcroissante si r = - 1). S'il n'y a aucun lien entre X et Y, ce coefficient est
nul, ou presque nul.
Exemples :

34

(Voir plus de dtails dans le module Ajustement Linaire )


Coefficient de Spearman (ou coefficient de corrlation des rangs) :
C'est, dans le cas de deux variables ordinales X et Y mesures sur les
mmes individus, le coefficient de corrlation entre le rang des individus
pour X et le rang des individus pour Y.
Courbe cumulative croissante (ou fonction de rpartition) :
C'est le trac de la fonction N qui tout x associe N ( x ) = nombre
d'observations x. Il s'obtient au moyen des effectifs cumuls croissants.
Dans le cas discret on a une fonction en escalier, dans le cas continu une
fonction continue, affine par morceaux.
Si on raisonne en frquences (au lieu d'effectifs), on a le trac de la
fonction de rpartition.
F ( x ) = proportion d'observations x.
Exemples :

Courbe cumulative dcroissante :


C'est le trac de la fonction N' qui tout x associe N' ( x ) = nombre
d'observations > x. Il s'obtient au moyen des effectifs cumuls
dcroissants.
Exemples :

35

Courbe de rgression :
Si X et Y sont 2 variables quantitatives, la courbe de rgression de Y en X
est la courbe reprsentant les moyennes conditionnelles de Y, X fix.
La courbe de rgression de X en Y reprsente les moyennes
conditionnelles de X, Y fix.
Exemples :

Covariance
On appelle covariance de deux variables statistiques X et Y sur les mmes
n individus le nombre :
=
Moyenne des produits moins le produit des moyennes
Ce nombre est positif si X et Y ont tendance varier dans le mme sens,
et ngatif si elles ont tendance varier en sens contraire.
Si les donnes sont groupes en ( xi , yi ) d'effectifs ni ,

Dciles :

36

Les dciles D1 , D2 , ... , D9 divisent une srie statistique en 10 parties


d'effectifs gaux.
Ce sont les abscisses respectives des points d'ordonne 0.1 ; 0.2 ; ... ; 0.9
sur la courbe cumulative croissante.
Diagramme circulaire (ou secteurs circulaires, ou en
camembert)
Diagramme permettant de reprsenter la distribution d'une variable
qualitative : les modalits sont reprsentes par des portions de disque
proportionnelles leur effectif, ou leur frquence.
Exemple :

Langle est proportionnel l'effectif, o la frquence par exemple pour


reprsenter 15 % :
= 0.15 360 = 54
Diagramme en barres (ou en tuyaux d'orgue)
Diagramme reprsentant la distribution d'une variable qualitative : les
modalits sont places en abscisse, formant des bases de rectangles
gales et quidistantes, et les effectifs (ou frquences) en ordonne,
suivant une chelle arithmtique.
Les surfaces des rectangles obtenus sont proportionnelles aux effectifs
(ou aux frquences).
Exemple :

Diagramme en btons
Diagramme reprsentant la distribution d'une variable quantitative
discrte : les valeurs sont places en abscisse, les effectifs (ou
frquences) en ordonne, au moyen de segments verticaux.
Exemple :

37

Diagramme en bote (ou bote moustaches)


Il s'agit d'un diagramme permettant de positionner les quartiles Q 1 , Q2 ,
Q3 , au moyen de rectangles de largeur arbitraire, prolongs par des
moustaches de part et d'autre, de longueur au plus gale une fois
et demie Q3 - Q1

Si la plus petite ou la plus grande valeur observe se trouvent


l'intrieur, on raccourcit les moustaches correspondantes ; si elles se
trouvent l'extrieur, on positionne part les valeurs aberrantes qui
dpassent des moustaches :

Ces diagrammes sont surtout utiles pour comparer rapidement l'allure


gnrale de plusieurs distributions.
Diagramme tige-feuilles :
Diagramme permettant simultanment de dpouiller les donnes d'une
srie statistique et de faire une reprsentation graphique.
Chaque observation individuelle est reprsente par sa tige (premiers
chiffres, communs plusieurs valeurs observes), et sa feuille (derniers
chiffres).

Dispersion :
Un paramtre statistique est dit de dispersion s'il s'agit d'un nombre cl
rsumant la plus ou moins grande disparit des observations, leur plus ou
moins grande variabilit de part et d'autre de la tendance centrale :
tendue, cart-type sont des paramtres de dispersion.
Distribution :

38

Ensemble des valeurs, modalits ou classes d'une variable statistique, et


des effectifs ou frquences associes :
Par exemple :
pour une variable qualitative :
Modalits
Effectifs
A
n1
B
n2
...
...
L
nK
pour une variable continue :
Classes
[ 10 [
[ 12 [
[ 14 [
[ 16 [

Effecti Frquenc
fs
es

12
14
16

n1
n2
n3
n4

f1
f2
f3
f4

20

Total
n
1
Distribution conditionnelle :
La distribution conditionnelle d'une variable Y, pour X fix, ( X gal x i ,
modalit ou valeur, ou X appartenant une classe donne) est la
distribution statistique des valeurs de Y, en se limitant aux individus pour
lesquels X est gal xi (ou appartient une classe donne).
Exemple : 1) Distributions conditionnelles de l'ge, pour la catgorie X
fixe :
Catgorie
Age (annes)
A

32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ; 50 ; 55 ; 58

22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ; 31 ; 33 ; 34 ;
36 ; 36 ; 38 ; 39 ; 39 ; 42 ; 44 ; 46 ; 51 ; 53

20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ; 24 ; 26 ; 27 ;
28 ; 28 ; 28 ; 29 ; 29 ; 30 ; 32 ; 33 ; 33 ; 35 ;
38 ; 41 ; 43 ; 45 ; 45

Exemple : 2) Distributions conditionnelles de la catgorie, par tranche


d'ge :

39

Distribution marginale :
Distribution d'une variable statistique, obtenue dans la marge d'un
tableau de contingence, en ajoutant les effectifs, ligne par ligne, ou
colonne par colonne.
Donnes brutes (Donnes statistiques brutes) :
Ensemble de mesures ou d'observations concernant l'tat ou l'volution
d'un phnomne. Ce sont les valeurs prises par une ou plusieurs variables
sur un certain nombre d'individus.
Donnes statistiques :
Sries de mesures, d'observations, d'une
statistiques sur un ensemble d'individus.

ou

plusieurs

variables

Ecart interquartile :
C'est la diffrence entre le 3me et le 1er quartile, amplitude de
l'intervalle interquartile :
Q3 - Q1
Ecart-type :
C'est la racine carre de la variance :
pour des donnes groupes.
Une distribution aura un cart-type d'autant plus faible (proche de 0)
qu'elle sera ramasse autour de la moyenne, avec des valeurs trs peu
diffrentes les unes des autres.
Effectif :
Nombre d'individus pour lesquels une variable statistique a pris une
valeur donne. Si, sur 150 familles, 50 ont 2 enfants, on dira que l'effectif
ni correspondant la valeur xi = 2 de la variable nombre d'enfants ,
est 50.
Effectifs cumuls :
Rsultat de l'addition, de proche en proche, des effectifs d'une
distribution observe,
soit en commenant par le 1er :
40

N1 = n1 , N2 = n1 + n2 , ... , Ni = n1 + n2 + ... + ni (Effectifs cumuls


croissants),
soit en commenant par le dernier :
N'K = nK , N'K-1 = nK + nK-1 , ... , Ni' = nK + nK-1 + ... + ni (effectifs cumuls
dcroissants).
Exemples :
Effectifs
Effectifs
Nombre
Nombre de
cumuls
cumuls
d'appels
jours
croissants
dcroissants
0
1
2
3
4
5
6

2
14
23
24
18
9
6

Total :

96

2
16
39
63
81
90
96

96
94
80
57
33
15
6

Effectif total :
C'est le nombre d'observations, d'une srie statistique brute, nombre
d'individus de la population tudie.
Il est gal la somme des effectifs associs aux diffrentes modalits,
valeurs ou classes :
K

n ni
i

Etendue :
Diffrence entre la plus grande et la plus petite des observations d'une
srie statistique. C'est un paramtre de dispersion.
Fonction de rpartition :
C'est le trac de la fonction N qui tout x associe N ( x ) = nombre
d'observations x. Il s'obtient au moyen des effectifs cumuls croissants.
Dans le cas discret on a une fonction en escalier, dans le cas continu une
fonction continue, affine par morceaux.
Si on raisonne en frquences (au lieu d'effectifs), on a le trac de la
fonction de rpartition.
F ( x ) = proportion d'observations x
Fractiles :
On appelle fractiles des valeurs F1 , F2 , ... , Fk-1 divisant une srie en k
parties d'effectifs gaux.
On a autant de valeurs F1 que de valeurs comprises entre F 1 et F2 , ou
entre F2 et F3 , etc.
Pour k = 4, ce sont les 3 quartiles Q1 , Q2 , Q3 (Q2 tant la mdiane).

41

Frquence (ou frquence relative) :


C'est la proportion (ou le pourcentage) d'individus pour lesquels une
variable statistique a pris une valeur donne. Si, sur 150 familles, 50 ont
2 enfants, on dira que la frquence fi correspondant la valeur xi = 2 de
la variable nombre d'enfants , est :
fi=

50
= 0.33 soit 1/3 ou 33.33 %
150

Frquences cumules :
Rsultat de l'addition, de proche en proche, des frquences d'une
distribution observe,
soit en commenant par le 1er :
F1 = f1 , F2 = f1 + f2 , ... , Fi = f1 + f2 + ... + fi (frquences cumules
croissantes),
soit en commenant par le dernier :
F'K = fK , F'K-1 = fK + fK-1 , ... , F'i = fK + fK-1 + ... + fi
cumules dcroissantes).

(frquences

Exemple :
Nombre
d'appels

Frquences en
%

Frquences
cumules
croissantes

Frquences
cumules
dcroissantes

0
1
2
3
4
5
6

2.08
14.58
23.96
25.00
18.75
9.38
6.25

2.08
16.66
40.62
65.62
84.37
93.75
100

100
97.92
83.34
59.38
34.38
15.63
6.25

Histogramme
Graphique permettant de reprsenter une distribution continue
regroupe en classes : rectangles juxtaposs dont les bases sont les
classes, et les surfaces sont proportionnelles aux effectifs (ou frquences)
associs.
Si les classes sont de mme amplitude a i , on place en ordonne les
effectifs ni (ou les frquences fi ). Si les amplitudes ai sont diffrentes, on
place

n
a

i
i

(ou

f
a

).

Exemples

42

Indpendance :
2 variables statistiques X et Y sont dites indpendantes si la distribution
conditionnelle de Y , pour tout x , est constante (c'est--dire ne dpend
pas de x). Cela signifie que les lignes du tableau de contingence sont
proportionnelles, ou de faon quivalente que les colonnes du tableau de
contingence sont proportionnelles, et donc que la distribution
conditionnelle de X, pour tout y, est constante.
Exemple :
Y
Clibatai Mari
Divorc
Veufs
Total
res
s
s
X

homme

20

10

36

femme

30

15

54

Total

50

25

10

90

sexe et situation
indpendantes.

matrimoniale

sont

ici

deux

variables

Individu (ou units statistiques) :


Les individus sont les lments de la population statistique tudie. Pour
chaque individu, on dispose d'une ou plusieurs observations.
Exemples : chacune des personnes interroges pour une enqute chaque
parcelle cultive en vue d'tudier le rendement chaque pays pour lequel
on tudie des donnes socio-conomiques, chaque jour de l'anne pour
lequel on dispose de donnes mtorologiques, etc.
Ingalit de (Bienaym)-Tchebychev
Pour toute population de moyenne
et d'cart-type s, la proportion de
valeurs de l'intervalle
_
1

[ [ X ks; X ks ] est d'au moins gale 1 - 2 , pour tout k 1.


k
Par exemple, 75 % des valeurs au moins appartiennent : [ - 2 s ; + 2 s
], c'est--dire s'cartent de moins de 2 cart-types de la moyenne.
Intervalle interquartile :

43

C'est l'intervalle entre le 1er et le 3me quartile : [Q1 Q3].


Il contient 50 % des observations ; 25 % sont infrieures et 25 % sont
suprieures.
Intervalle mdian :
C'est l'intervalle du milieu d'une srie statistique comprenant un nombre
pair d'observations :

Mdiane :
La mdiane M d'une srie statistique range par ordre croissant
x(1) < x(2) <.... <x(n) est la valeur "du milieu", soit x (p+1) si n est impair et
vaut 2 p + 1, ou
si n est pair et vaut 2 p
M est l'abscisse du point d'intersection des courbes cumulatives,
d'ordonne

n
en effectifs ou 0.5 en frquences.
2

Modalit :
Les modalits d'une variable qualitative sont les diffrentes valeurs que
peut prendre celle-ci.
Par exemple les modalits de la variable situation familiale sont :
clibataire, mari, veuf, divorc.
Les modalits de la variable sexe sont : fminin, masculin (pouvant
tre codes par exemple 0 et 1).
Moyenne arithmtique :
C'est le quotient de la somme d'une srie d'observations par leur
nombre.
Pour une srie brute x1 , x2 , .... , xn ,

Pour une srie groupe ( xi , ni ) , i = 1, ... , K ,


Moyenne conditionnelle :
Les moyennes conditionnelles sont les moyennes des distributions
conditionnelles : valeurs moyennes de Y , pour X fix ou valeurs
moyennes de X , pour Y fix.
Moyenne pondre :
La moyenne des nombres x 1 , x2 , ... , xn , pondre par les poids p1 , p2 , ...
, pn (nombres positifs de somme 1) est gale :

44

Dans le calcul de cette moyenne, les valeurs ayant un poids important


comptent davantage que celles ayant un poids faible.
Nuage de points :
Ensemble de points isols reprsents dans un graphique cartsien :
points M1 , M2 , ... , Mn de coordonnes ( x1 , y1 ) ; ( x2 , y2 ) ; ... ; ( xn , yn ).
Exemples : taille et poids de 60 enfants

Paramtres statistiques :
Ce sont quelques nombres permettant de rsumer numriquement les
traits principaux d'une distribution statistique.
Par exemple : la moyenne, l'cart-type, l'tendue sont des paramtres
statistiques.
Population statistique :
Une population statistique est l'ensemble sur lequel on effectue des
observations.
Exemples : ensemble de personnes interroges pour une enqute
ensemble de parcelles cultives sur lesquelles on mesure un
rendement
ensemble de pays pour lesquels on dispose de donnes
gographiques ou conomiques, etc.
Position :
Un paramtre statistique est dit de position s'il s'agit d'un nombre cl
permettant de prciser o se rpartit une certaine fraction des
observations ainsi les quartiles permettent de situer le 1/4 infrieur, la
moiti, le 1/4 suprieur des observations.
Profils :
Ce sont les distributions conditionnelles, crites en frquences et non en
effectifs.
On peut les reprsenter graphiquement par :

45

Quartiles :
Les quartiles Q1 , Q2 , Q3 divisent une srie statistique en 4 parties
d'effectifs gaux : 25 % des valeurs sont Q1 , 25 % comprises entre Q 1 et
Q2 ; 25 % entre Q2 et Q3 , et 25 % suprieures Q3 .
Q1 , Q2 , Q3 sont respectivement l'abscisse des points d'ordonnes 0.25 ;
0.5 ; 0.75 sur la courbe cumulative croissante. Q2 est gal la mdiane.
Rang :
Si X est une variable ordinale mesure sur n individus, le rang de
l'individu i pour X est le numro d'ordre de i, si on range toutes les
valeurs xi par ordre croissant.
Exemple : si les xi obtenus sont : O R D R E ; le rang de l'individu n 3,
pour l'ordre alphabtique, est 1 ; le rang de l'individu n 5 est 2, etc.
Rapport de corrlation :
C'est
coefficient compris entre 0 et 1 mesurant la part plus ou moins grande de
la variabilit d'une variable Y qui peut tre explique par les variations
d'une autre variable X, qualitative, discrte, ou continue dcoupe en
classes.
Srie statistique (ou distribution observe) :
Ensemble des modalits, valeurs, ou classes d'une variable, avec les
effectifs observs correspondants.
Exemples :
Modalits
Effectifs
Clibataire
Mari
Divorc
Veuf
Nombre
d'enfants xi

30
80
20
20
Effectif ni

46

0
1
2
3
4

6
4
5
2
1

Classes de tailles (en


cm)

Effectifs

moins de 160
[160 - 165 [
[165 - 170 [
[170 - 175 [
175 et plus

1
5
21
29
4

Statistique descriptive uni-varie :


La Statistique descriptive univarie consiste en la description de chacun
des caractres statistiques, un par un, et non des liens ventuels existant
entre eux.
Statistique descriptive bi-varie :
La Statistique descriptive bivarie consiste en la description de deux
variables mesures simultanment sur les mmes individus. Elle permet
de mettre en vidence le type de lien existant ventuellement entre ces
variables.
Statistique infrentielle :
Partie de la statistique qui, contrairement la statistique descriptive, ne
se contente pas de dcrire des observations, mais extrapole les
constatations faites un ensemble plus vaste, permet de tester des
hypothses sur cet ensemble, et de prendre des dcisions le concernant.
[Voir les modules Echantillonnage-Estimation et Tests ]
Tableau de contingence :
Tableau rsultant du tri crois de deux variables.
Y
Clibatai Maris
Veufs
res
X
30
20
3
Homme
40
25
5
Femme

Divorcs
7
10

Tendance centrale :
Un paramtre statistique est dit de tendance centrale s'il s'agit d'un
nombre cl autour duquel les observations sont rparties : mode,
mdiane, moyenne sont des paramtres de tendance centrale.
Tri plat d'une srie statistique brute :
C'est l'inventaire des modalits ou valeurs rencontres dans la srie, avec
les effectifs correspondants.
47

Situatio
Nombre
de
n
personnes dans
familial
cette situation
e
Clibatai
re
mari
Divorc
veuf

150
120
10
80

Nombr
Nombre de
e
personnes ayant
d'enfan
ce nombre
ts
d'enfants
0
1
2
3
4
5

103
115
95
35
10
2

Tri crois :
A partir de 2 variables X et Y mesures sur les mmes individus,
dcompte des effectifs correspondant chaque couple ( x i , yj ) : nombre
d'individus pour lesquels X = xi et Y = yj
Unimodale :
Une distribution est unimodale si elle prsente un maximum marqu,
correspondant une valeur appele mode.

48

S'il y a plusieurs maxima relatifs, la distribution est plurimodale


(bimodale dans le cas 2)

Unit statistique (ou individu(s) ) :


Les individus sont les lments de la population statistique tudie.
Pour chaque individu, on dispose d'une ou plusieurs observations.
Exemples :
chacune des personnes interroges pour une enqute
chaque parcelle cultive en vue d'tudier le rendement
chaque pays pour lequel on tudie des donnes socio-conomiques,
etc.
chaque jour de l'anne pour lequel on dispose de donnes
mtorologiques, etc.
Variable continue :
C'est une variable quantitative pouvant prendre par nature une infinit de
valeurs, gnralement tout un intervalle rel.
Exemples : tailles, poids, salaires, surfaces cultives, tempratures, ...
Variable dichotomique :
C'est une variable qualitative qui ne peut prendre que 2 modalits : OUI
ou NON ; masculin ou fminin ; bon ou mauvais, etc....
Variable discrte :
C'est une variable quantitative pouvant prendre par nature un nombre
fini (ou dnombrable) de valeurs.
Exemples :
nombre d'enfants par famille
nombre de pices d'un appartement
nombre de pices dfectueuses dans un lot de pices mcaniques ...
Variable qualitative (ou caractre qualitatif) :
Une variable statistique est qualitative si ses valeurs, ou modalits,
s'expriment de faon littrale ou par un codage sur lequel les oprations
arithmtiques telles que moyenne, somme, ... , n'ont pas de sens.
Exemples :
sexe de la personne interroge, situation familiale, numro de son
dpartement de naissance, ...

49

tat du temps constat un endroit donn chaque jour (pluvieux,


neigeux, beau, venteux, ...)

Variable qualitative nominale :


C'est une variable qualitative dont les modalits ne sont pas ordonnes.
Exemples :
la variable sexe peut tre note M F, 0 1 , ou 1 0
la variable CSP : on ne peut pas classer les catgories socioprofessionnelles selon un ordre prtabli.
Variable qualitative ordinale :
C'est une variable qualitative dont les modalits sont naturellement
ordonnes selon un ordre total : on peut dire que selon un certain sens la
modalit A est moins forte que la B, qui est moins forte que la C, etc...
Exemples :
tailles de vtement 0 1 2 3 ... mais la taille 2 ne signifie pas que le
vtement est 2 fois plus grand que celui de la taille 1 ! Il ne s'agit pas
d'une variable quantitative discrte
Variable quantitative (ou caractre quantitatif) :
Une variable statistique est quantitative si ses valeurs sont des nombres
sur lesquels des oprations arithmtiques telles que somme, moyenne, ...
ont un sens.
Exemples :
taille, poids, salaire
rendement
note un examen
PNB / habitant, esprance de vie, nombre d'habitants d'un
ensemble de pays
Variable statistique (ou caractre statistique) :
C'est ce qui est observ ou mesur sur les individus d'une population
statistique. Il peut s'agir d'une variable qualitative ou quantitative.
Exemples : taille, poids, salaire, sexe, profession d'un groupe donn
d'individus rendement d'un ensemble de parcelles cultives temprature
maximale et minimale, pluviomtrie, ensoleillement, mesurs un endroit
donn tous les jours.
Variance :
C'est la moyenne des carrs des carts la moyenne :
s =

( xi -

) pour des donnes isoles, et

( ni) ( xi - ) pour des donnes groupes.


( xi est le centre de classe dans le cas de donnes regroupes en classes).
On peut aussi calculer la variance par :
50

( xi) - ou
ni xi) -
Par exemple : la variance de la srie : 8 9 10 10 12 14 14 16, qui a pour
moyenne = 11.625 est :
s = [ (8 - 11.625) + (9 - 11.625) + 2 (10 - 11.625) + (12 - 11.625) +
2 (14 - 11.625) + (16 - 11.625) ]
=

(8 + 9 + 2 * 10 + 12 + 2 * 14 + 16) - (11.625) = 6.9844

La racine carre de la variance est l'cart-type, qui s'exprime dans la


mme unit que les xi et mesure la plus ou moins grande dispersion des
valeurs de part et d'autre de la moyenne.
Variance explique :
C'est la variance des moyennes des distributions conditionnelles : si Y est
quantitative, et si X subdivise l'ensemble des individus en K classes
d'effectifs n1 , n2 , ... , nK telles que la moyenne de Y sur chaque classe est
: 1 , ... , K , la variance de Y explique par X est :
( ni

i) -

Variance rsiduelle :
C'est la moyenne des variances des distributions conditionnelles,
pondres par les effectifs. Si Y est quantitative, et si X subdivise
l'ensemble des individus en K classes d'effectifs n 1 , n2 , ... , nK telles que
la moyenne de Y sur chaque classe est :
1

, ... ,

avec les variances s1 , s2 , ..., sK , la variance de Y se dcompose en :

Le premier terme de la somme est la variance de Y explique par X, le


second la variance rsiduelle.

51

I - Sous quelle forme se prsentent les donnes statistiques ?

Exemple 1 :
Pour tudier la rpartition des terres agricoles d'une rgion, on peut faire
l'inventaire des exploitations agricoles (soit n leur nombre), et noter pour
chacune d'elles sa taille (en hectares).
L'ensemble des n exploitations s'appelle la population statistique
tudie ; chacune des exploitations est un individu, ou une unit
statistique. La taille (en ha) est la variable statistique (ou caractre)
tudie.
Le but de l'tude est de voir comment cette variable varie sur la
population : les tailles des exploitations sont elles comparables ou trs
diffrentes, et dans quelle mesure ?
Le rsultat de la mesure de la variable taille sur les individus
exploitations est un ensemble de n nombres, appel srie statistique
brute.
Sur la mme population, on aurait pu s'intresser d'autres variables
telles l'ge du chef d'exploitation, la culture dominante, etc.. On
remarquera que le rsultat de l'observation peut tre exprim sous forme
littrale (bl, etc.) ou numrique.
On prsente alors souvent les rsultats sous forme d'un tableau
individus variables .
N
Exploitatio
n

Taille
(ha)

Age du chef
d'exploitation
(annes)

Culture
dominante

Nombre de
personnes
employes

50

50

bl

50.5

45

vigne

52

35

38

orge

62.1

25

bl

20

65

vigne

10

57

vigne

...

...

...

...

...

...

...

...

...

...

630

56

45

bl

Dans le tableau prsent ci-dessus, il y a :


combien d'individus ?
combien de variables ?

53

STATISTIQUE DESCRIPTIVE
La Statistique Descriptive est l'ensemble des mthodes et techniques
permettant de prsenter, de dcrire, de rsumer, des donnes
nombreuses et varies.
Il faut prciser d'abord quel est l'ensemble tudi, appel population
statistique, dont les lments sont des individus ou units statistiques.
Chaque individu est dcrit par une ou plusieurs variables, ou
caractres statistiques.
Chaque variable peut tre, selon le cas :
Quantitative : ses valeurs sont des nombres exprimant une quantit, sur
lesquels les oprations arithmtiques (somme, etc.) ont un sens.
La variable peut alors tre discrte ou continue selon la nature de
l'ensemble des valeurs qu'elle est susceptible de prendre (valeurs isoles
ou intervalle).
Qualitative : ses valeurs sont des modalits, ou catgories, exprimes
sous forme littrale ou par un codage numrique sur lequel des
oprations arithmtiques n'ont aucun sens.

On distingue des variables qualitatives ordinales ou nominales, selon


que les modalits peuvent tre naturellement ordonnes ou pas.
Une variable est dichotomique si elle n'a que 2 modalits.
Les variables seront ensuite analyses diffremment selon leur nature
(quantitative, qualitative, etc...), au moyen de tableaux, graphiques,
calcul de paramtres-cl.
Exercice 1 : VARITS

DE BL

54

Afin d'tudier un certain nombre de varits de bl tendre, on a not pour


chacune d'entre elles les caractristiques ci-contre.
1) Ces caractristiques sont-elles toutes des variables statistiques
quantitatives ?
2) Cocher ci-dessous les numros des variables continues
3) Les autres variables sont-elles toutes discrtes?

55

Exercice 2 : CHIFFRES

D'AFFAIRES DE SUPERMARCHS

On dispose pour tous les supermarchs d'une chane franaise C de leurs


chiffres d'affaires aux mois de dcembre 95 et dcembre 96.
1) Quelle est la population tudie ?
De quelle(s) variable(s) dispose-t-on ?
La variable "chiffre d'affaires en 95" est-elle quantitative ?
et?

2) On compare
d'affaires
aux
Dc. 95
disponibles,
et
variable
St Jean de
35 850
vaut
SUP", B.
INF
selon Prades / V. 25 650
augment,
est
60 000
ou a diminu Trifouilly
Vienna
55 000
dates.
Cette
variable St Mathieu 50 000
En
est-il
de
75 000
-1, 0, 1 selon Lyonny
.
.
chiffre ?
.
.

les
chiffres
Evolutio deux
dates
Dc. 96
n
on
dfinit
la
"volution" qui
60 000 SUP
STABLE ,
que le chiffre a
11 125 INF
rest identique
60 000 STABLE entre les deux
45 500 INF
est-elle ?
55 000 SUP
mme si on note
76 000 SUP
l'volution
du
.
.
.

56

Exercice 3 : L'EUROPE
Le
contient un certain nombre de donnes socio-conomiques
sur les 48 pays d'Europe fin 1996.
Quels sont les individus que l'on veut dcrire ?
De combien de variables dispose-t-on ?
Ces variables sont-elles toutes quantitatives ?
Les variables quantitatives sont-elles toutes continues ?
Exercice 4 : Enqute consommateurs
Un distributeur de boissons alcoolises effectue une enqute concernant
les prfrences des consommateurs en matire de whisky.
Voici le
propos :
Ces questions sont-elles des individus statistiques :

57

Leon 2 : QUELS TABLEAUX ET GRAPHIQUES PEUT-ON FAIRE ?


A partir d'un tableau individus variables, on fera dans un premier temps
une description unidimensionnelle de chacune des variables, prise
sparment.

Le nombre d'individus tant gnralement grand, voire trs grand, une


telle srie brute est difficilement lisible et interprtable. Il est
indispensable de la rsumer.
Pour cela, on commence par un tri plat, dcompte des modalits ou
valeurs obtenues, qui nous servira de base la construction de tableaux
et de graphiques.
Par exemple :
Situation
familiale

Nombre de personnes
dans cette situation

clibataire

150

mari

120

veuf

10

divorc

80

Nombre
d'enfants

Nombre de personnes
ayant ce nombre
d'enfants

103

58

115

95

35

10

Salaire ( )

Nombre de personnes
dont le salaire est
dans cet intervalle

[ 750 - 900 [

110

[900 - 1 500
[

90

[1 500 - 2
250 [

80

[2 250 - 3
000 [

60

plus de 3
000

20

Age (ans)

Nombre de
personnes dans
cette tranche
d'ge

20 30

100
59

30 40
40 50
50 65

150
90
20

Le but est d'obtenir des rsums clairs et concis, mais en conservant


l'essentiel de l'information contenue dans les donnes initiales, et en
utilisant des techniques objectives ne donnant pas une image dforme
de la ralit.
Voici quelques exemples des tableaux et graphiques obtenir :

Et voici quelques exemples de ce qu'il ne faut pas faire !

60

61

I - LES TABLEAUX
I.1 - TRI PLAT, EFFECTIFS
On a not la situation familiale des 150 employs d'une entreprise.
On ne s'intresse pas la situation personnelle de M. Martin ou de M.
Dupont, mais la rpartition du caractre "situation familiale" dans la
population des 150 employs.
Pour cela il faut, pour chacune des modalits de la variable, dterminer
l'effectif correspondant, c'est--dire le nombre de personnes ayant cette
modalit : il faut dnombrer le nombre de clibataires, le nombre de
maris, etc...
Situation de
famille
Mari
Veuf
Marie
Clibataire
Divorc
Mari
Divorc
Divorce
Clibataire
Mari
Veuf
Marie
...

Noms
M. Martin
M. Durand
Mme Dupont
Melle Fabre
M. Garcia
M. Petit
M. Bertrand
Mme Rmy
Melle Pons
M. Hubert
M. Clment
Mme Vidal
...
Cela peut se rsumer par :
Modalit

Effectifs

Clibataire

30

Mari

80

Divorc

20

Veuf
On notera x1 , x2 , ... , xk les diffrentes modalits, et n1 , n2 , ... , nk les
effectifs associs. Dans le tableau ci-dessus, x2 = "mari",
n2 =
K=
La somme des effectifs vaut :
La variable que nous venons de voir est :
On aurait pu tout aussi bien prsenter les rsultats sous la forme cicontre, par exemple.
Par contre, s'il s'agit d'une variable ordinale, les modalits sont toujours
prsentes dans l'ordre :

62

x1 x2 ... xk ,
Modali
ts
Divorc
Mari
Clibat
aire
Veuf

Effect
ifs
20
80
30
20

comme dans l'exemple ci-dessous.


Modalits =
tailles

Effectifs = Nombre de
personnes
de cette taille

XS

10

25

40

32

XL

23

XXL

20

A-t-on toujours : n1 < n2 ?


De mme, pour une variable discrte, on notera x1 , x2 , ... , xk les valeurs
ranges par ordre croissant, et n1 , n2 , ... , nk les effectifs correspondants.
Famille

Nombre d'enfants

Chardin

Esteller

Martin

Durand

Dupont

Garcia

Bastide

Jourdan

Lelivre

Fleury

Fournier

Averos

63

Bastien

Brunet

Delenne

Saumade

Bertrand

Blundo

Dcompte des effectifs


Nombre
d'enfants

Effectifs

0
1
2
34

******
****
*****
**
*

Ainsi, partir de la srie brute ci-dessus, construisez le tableau :


Nombre d'enfants xi
Effectifs ni
0

L'ensemble des couples { ( xi , ni ) , i = 1, ... , K } est une srie


statistique (ordonne), ou distribution observe de la variable.
La somme de tous les ni est-elle toujours gale n, nombre des
observations ?
On notera ceci :

ni = n , effectif total

Pour ce qui est des variables continues, on peut faire de mme. Voyons
l'exemple d'une srie brute de 60 tailles (en cm), et le tableau des
effectifs obtenus. L'inconvnient est que, comme on aura toujours un
grand nombre de valeurs diffrentes, on obtiendra un grand nombre de
petits effectifs, ne rsumant finalement pas grand-chose !

64

Taille
(cm)

Effectifs

Taille
(cm)

Effectifs

159

169

160

170

161

171

162

172

163

173

164

174

165

175

166

176

167

177

168

Total :

60

Rappelons d'autre part qu'ici on a en quelque sorte discrtis la


variable continue, c'est--dire que par exemple une personne d'1.70 m a
en fait une taille comprise entre 1.695m et 1.705 m.
Une variable continue ne prend pas des valeurs isoles, mais des valeurs
appartenant des intervalles. C'est pourquoi, au lieu de dfinir des
effectifs par valeurs, on dfinira des effectifs par intervalles, appels
classes.

65

Taille
(cm)

Effectifs

Taille
(cm)

Effectifs

159

169

160

170

161

171

162

172

163

173

164

174

165
1
7 1 166
5 167
1 168
72
6
1
71
7

175

176

177

Total :

60

I.2 - Classes, frquences


Afin de simplifier la prsentation
on peut, quitte perdre un peu
d'information, regrouper les
effectifs proches, par exemple :

peut tre remplac par [ 175 ; 178 [ | effectif 4.


De mme,
159 1
... ...
164 3

peut tre remplac par la classe [ 159 ; 165 [ , d'effectif :


On dcoupera ainsi l'intervalle des valeurs en classes contiges, de la
forme :
[ e 1 ; e2 [
[e2 ; e3 [
[ e3 ; e4 [ ........... [ ek ; ek+1 [
et on notera n1 , n2 , ... , nk les effectifs associs.
ni est le nombre d'individus appartenant la classe [ ei ; ei+1 [.
Classes de taille (en cm)
Classes de taille
Effectifs
Effectifs
(en cm)
[159 - 165 [

moins de 160

[165 - 168 [

[160 - 165 [

[168 - 171 [

20

[165 - 170 [

21

[171 - 174 [

20

[170 - 175 [

29

[174 - 177 [

[177 - 179 [

175 et plus

Exemple 1

Exemple 2

Dans l'exemple 1 : K =
Le choix des classes est parfois dlicat. A priori tout choix tel qu'on ait
des classes contiges recouvrant l'ensemble des valeurs est correct :
chaque individu appartient une classe et une seule ;

66

mais il faut dans la mesure du possible des classes d'amplitudes gales


(intervalles de mme longueur), en nombre suffisant pour ne pas
schmatiser trop grossirement les donnes (par exemple ne pas limiter
la srie prcdente : moins d'1.70 m et plus d'1.70 m ), mais pas
trop pour ne pas avoir un tableau interminable avec beaucoup de tout
petits effectifs.
Le graphique prsent en introduction a t ainsi tabli partir de 17
classes, dont 15 de mme amplitude, ce qui n'est pas un nombre excessif
compte tenu du fait que la population comprenait plus de 18 000
individus, et donc que tous les effectifs taient consquents !

Quel que soit le type de variable on a finalement, pour toute modalit,


valeur
xi,
ou
classe
[ ei , ei+1 [ , un effectif ni , tel que
K
i 1 ni n
Il est parfois utile, surtout pour faire des comparaisons entre plusieurs
sries, de raisonner plutt avec des effectifs relatifs.
On appellera frquence (relative) la valeur fi =

que l'on peut aussi

exprimer en pourcentage par fi 100, c'est le pourcentage d'individus


pour lesquels la variable a pris la valeur xi , ou une valeur de la classe
[ ei , ei+1 [.
Compltez le tableau :

67

Les accidents, rpartition par


ge en %
Classes
Modalits Effectif Frquence
xi
ni
fi

Clibatair
e

30

20

Mari

80

Divorc

20

Veuf

20

Effectif
total :

150

0.2

Plus de 75
ans
70 - 74 ans
65 - 69 ans
60 - 64 ans
55 - 59 ans
50 - 54 ans
45 - 49 ans
40 - 44 ans
35 - 39 ans
30 - 34 ans
25 - 29 ans
20 - 24 ans
15 - 19 ans
10 - 14 ans
5 - 9 ans
1 - 4 ans
moins de 4
ans

4.1
1.1
1.6
1.9
1.9
2
2.3
3.4
4.6
5.7
6.5
8.3
11.5
14.7
12.5
15.4
2.5

A quoi est gal ici le total de la colonne frquence ?


Et celui de la colonne pourcentage ?
Il y a, parmi les 150 employs,
Est-ce qu'on a toujours :

% qui sont maris.

fi = 1

( fi 100 ) = 100
Compltez le tableau ci-dessous :
Classes de taille Effecti
Frquence
(en cm)
f

Frquence en %

Moins de 160

1.67

[160 - 165 [

0.0833

[165 - 170 [

21

0.35

35

[170 - 175 [

29

175 et plus

0.0667

6.67

Total :

60

100

68

I.3 - Effectifs et frquences cumuls


Voyons un autre exemple : Pour tudier les appels tlphoniques arrivant
un central, on a not, sur 96 jours comparables, le nombre d'appels
reus entre 9 h et 9 h 10. Les rsultats sont consigns dans ce tableau :
Nombre d'appels
Nombre de
Frquences fi
% fi 100
xi
jours ni
0

0.0208

2.08

14

0.1458

14.58

23

0.2396

23.96

24

0.2500

25.00

18

0.1875

18.75

0.0938

9.38

0.0625

6.25

Total :
96
1
100
Quelle est la proportion de jours o le nombre d'appels a t de 2 ?

Combien y-a-t-il eu de jours o le nombre d'appels a t infrieur ou gal


2?

et infrieur ou gal 3 ?
Quelle est la proportion de jours o le nombre d'appels a t suprieur
3?
Quel est le pourcentage de jours o le nombre d'appels a t suprieur
2?
Plus gnralement, si { ( xi , ni ) , i = 1 , ... , K } est la distribution
observe d'une variable discrte, n1 + n2 + ... + ni = Ni est le nombre
d'individus pour lesquels la variable a t infrieure ou gale xi.
On peut calculer Ni de proche en proche : N1 = n1 , N2 = N1 + n2 , N3 = N2
+ n3 , etc.
Ainsi sur l'exemple ci-dessus :
N3 =
N4 =
N6 =
Les Ni sont les effectifs cumuls croissants.

69

Effectifs
cumuls
croissants

Effectifs
cumuls
dcroissants

96

14

16

94

23

39

80

24

63

57

18

81

33

90

15

96

Nombre Nombre
d'appels de jours
0
1
De mme
ni + ni+1 + ... + nk = N'i
2
est le nombre d'individus
3
pour lesquels la variable a
4
t suprieure ou gale
xi.
5
Il peut se calculer de
6
proche en proche :
Total :
N'k = nk , N'k-1 = nk + nk-1 ,
etc. Ici :
N'5 =

96

N'3 =
N'1 =
Les N'i sont les effectifs cumuls dcroissants.
On peut dfinir de mme :
Fi = f1 + f2 + ... + fi , frquences cumules croissantes obtenues de
proche en proche par
Fi+1 = fi+1 + Fi
et les : F'i = fi+1 + fi+2 + ... + fk , frquences cumules dcroissantes
obtenues de proche en proche par F'i = F'i+1 + fi
Fi et F'i peuvent s'exprimer aussi en pourcentage (en multipliant tout par
100).
Compltez le tableau :
Frquences
Nombre Frquenc
Frquences cumules
cumules
d'appels es en %
dcroissantes
croissantes

Dans

2.08

2.08

14.58

16.66

23.96

25.00

65.62

18.75

84.37

9.38

93.75

6.25

97.92
83.34
59.38
15.63
6.25

% des cas, il y a eu moins de 3 appels.

Dans
% des cas, il y a eu plus de 3 appels.
Les dfinitions d'effectifs et de frquences cumuls restent les mmes
dans le cas d'une variable continue.
Soit par exemple la rpartition des surfaces agricoles d'une petite
rgion :
Compltez le tableau :
Classes de Effectifs
Effectifs cumuls
Effectifs cumuls

70

surfaces
(ha)

croissants

Moins de 3

830

830

[3-5[

615

1445

[ 5 - 10 [

510

[10 - 20 [

92

[20 - 30 [

63

30 ou plus

15

Total :

2125

Il y a

dcroissants

1295
680

2047
78
2125

15

exploitations de moins de 10 ha.

Il y a
exploitations d'au moins 5 ha.
Classes de
Frquences
surfaces
Frquences
cumules
(ha)
croissantes
Moins de 3

0.3906

0.3906

[3-5[

0.2894

[ 5 - 10 [

0.2400

0.9200

[10 - 20 [

0.0433

0.9633

[20 - 30 [

0.0296

0.9929

30 ou plus

0.0071

Total :

Frquences
cumules
dcroissantes
1
0.6094

Il y a

% d'exploitations d'au moins 10 ha.

Il y a

% d'exploitations de moins de 5 ha.

0.080
0.0071

71

II - LES GRAPHIQUES
Pour visualiser une distribution statistique, il est gnralement plus
parlant d'utiliser un graphique, la place ou en complment du tableau.
II.1 - VARIABLE QUALITATIVE
Dans le cas d'une variable qualitative, les modalits ne peuvent pas tre
reprsentes sur un axe, selon une chelle donne, car elles ne sont pas
numriques.
On utilise surtout dans ce cas des diagrammes circulaires (ou
camemberts ) : chaque modalit est reprsente par un secteur
circulaire dont l'angle (et donc la surface) est proportionnel son effectif.
Le rayon du cercle est arbitraire.
Situation
familiale

Effectifs

Clibataire

30

Mari

80

Divorc

20

Veuf

20

Total :

150

360 d'angle au centre, soit la surface totale du camembert


reprsente n , l'effectif total. Un effectif de la moiti, soit n / 2 sera
reprsent par un angle au centre de 180, soit 360 / 2 et donc par une
moiti de camembert .

3
3
de l'effectif total, soit ni =
n, sera reprsent par
5
5
3
3
un angle au centre de
360 = 216 et donc par les
de la surface du
5
5

Un effectif gal aux

camembert , etc.
Ainsi, pour la modalit clibataires l'angle est de :

30
360 = 72
150

Pour maris , d'effectif 80, il est de :

Pour divorcs , d'effectif 20, il est


de :

Pour veufs , d'effectif 20, il est de :

On peut reprsenter de mme les frquences : 360 d'angle au centre,


soit le disque entier, reprsente la frquence totale de 100 %. Une
frquence de 20 %, soit 1/5 du total, sera reprsente par 1/5 du disque,
soit un angle au centre de 360/5 = 72.

72

Situation
familiale

Effectif Frquen
%
s
ces

Clibataire

30

0.2000

20.00

Mari

80

0.5333

53.33

Divorc

20

0.1333

13.33

Veuf

20

13.33

Total :

150

0.1333
1

Pour clibataires l'angle est de 72.


Pour "maris" il est de 360 (53.33 /
100) =
Pour "divorcs" il est de 360 (13.33 /
100) =
Pour "veufs" il est de :

100

On a ici exactement le mme graphique pour les effectifs et les


frquences.

En est-il toujours de mme ?


Une reprsentation quivalente consiste construire un diagrammes en
barres : chaque rectangle a une base constante et une hauteur
proportionnelle l'effectif ni ou la frquence fi.
Situation
Frquenc
Effectifs
%
familiale
es
Clibataire 30

0.2000

20.00

Mari

80

0.5333

53.33

Divorc

20

0.1333

13.33

Veuf

20

0.1333

13.33

Total :

150

100

Pour le graphique 1 ci-dessous, la hauteur de la 2me barre ( maris )


est de :

73

Pour le graphique 2 ci-dessous, la hauteur de la 1re barre


("clibataires") est de :
%

De mme que pour les diagrammes circulaires, les modalits sont ainsi
reprsentes par des surfaces proportionnelles aux effectifs
correspondants. Ici aussi, reprsenter les effectifs ou les frquences
conduit au mme graphique, la diffrence d'chelle prs.
Dans le cas particulier d'une variable ordinale, il faut toujours placer les
modalits dans l'ordre : modalit 1 < modalit 2 < ... < modalit K
Les graphiques ci-dessous vous semblent-ils corrects ?

Graphique 1 :
Graphique 2 :
Graphique 3 :
Graphique 4:
Il existe aussi des diagrammes figuratifs, o chaque modalit est
reprsente par une figure dont la taille est proportionnelle l'effectif.

74

Ce mode de reprsentation image est suggestif, mais peut tre trompeur


: il ne faut pas oublier que l'il est sensible aux surfaces, et que donc ce
sont les surfaces des figures qui doivent tre proportionnelles aux
effectifs. Pour que l'il puisse les comparer, il faut que leurs formes
soient analogues.
II2 VARIABLE QUALITATIVE
Dans le cas d'une variable quantitative, les valeurs observes,
numriques, seront toujours places selon un axe, en suivant une chelle
prcise.
II.2.1 - Le cas des sries chronologiques est particulier : l'ordre des
individus tant primordial, on n'effectue pas de tri plat, et on
reprsente directement les donnes brutes en ordonne, l'chelle du
temps tant place en abscisse. Le temps tant continu, on relie par des
segments de droite les points obtenus.

Si un phnomne saisonnier apparat (mme type de variations d'anne


en anne par exemple), il est possible de superposer plusieurs
graphiques, ou de les remplacer par des moyennes.

75

II.2.2 - Pour une variable discrte, aprs un tri plat conduisant la


distribution observe, on reprsente celle-ci par un diagramme en
btons les xi sont placs suivant une chelle sur l'axe des abscisses, et
les effectifs ni sont matrialiss par un bton de longueur ni(axe des
ordonnes).
Nombre
Effectif
Frquences fi
d'enfants xi s ni
0

0.33

0.22

0.28

0.11

0.06

Total :

18

Le fait d'avoir des btons spars les uns des autres permet de voir
l'aspect ponctuel et discontinu des valeurs de la variable sur lesquelles
l'effectif total est rparti.
Chaque individu est reprsent par un segment de longueur 1 unit.
Si on place en ordonne les frquences f i au lieu des ni, aura-t-on le mme
graphique ?
En fait, on verra leon 4 que la
Effectif
reprsentation des frquences est
Nombr
s
Effectifs
utile surtout pour comparer plusieurs
Effectif cumul cumuls
sries d'effectif total diffrent, ainsi e
d'enfan
s ni
s
dcroissa
que pour comparer une distribution
croissa nts N'i
observe

une
distribution ts xi
nts Ni
thorique
(voir
le
module
VARIABLES ALEATOIRES)
0
6
6
18
1

10

12

On
appelle
courbe
cumulative 2
croissante le trac de la fonction N 3
qui tout x rel associe
4
N ( x ) = nombre d'observations x.
Pour l'exemple ci-contre :
N(2)=
15
N(3)=
17
N ( 2.5 ) =
Si x est < 0,

15

17

18

76

N(x)=
N(0)=
N ( 0.3 ) =
N(1)=
N ( 1.5 ) =
Si 0 x 1 , N( x )
6
=
Si 1 x 2 , N ( x ) =
Si 2 x 3 , N ( x ) = 15
Si 3 x 4, N ( x ) = 17
Si x 4, N ( x ) =
Plus gnralement, pour toute variable discrte de distribution ( xi , ni ) i
= 1 , ... , K, la courbe cumulative croissante est une fonction "en escalier"
(constante par morceaux), croissante de 0 n telle que :
N ( x ) = 0 si x x1 , N ( x ) = Ni si xi x xi+1 ,
N ( x ) = n si xk x

De mme la courbe cumulative dcroissante est le trac de la fonction


N' qui a tout x associe N' ( x ) = nombre d'observations x .
Y a-t-il une relation entre N et N' ?
Effectif
Nombr
s
Effectifs
e
Effecti cumul cumuls
d'enfan fs ni
s
dcroissa
ts xi
croissa nts N'i
nts Ni
0

18

10

12

15

17

18

Pour l'exemple ci-dessus :

77

Si x est 0 , N' ( x ) =
Si 0 x 1, N' ( x ) =
Si 1 x 2, N' ( x ) = 8
Si 2 x 3, N' ( x ) =
Si 3 x 4, N' ( x ) = 1
Si 4 x , N' ( x ) = 0
Plus gnralement, c'est une fonction en escalier , dcroissante de n
0, telle que
N' ( x ) = n - N ( x )
Les ordonnes des marches d'escalier sont les effectifs cumuls
dcroissants.
Les 2 courbes cumulatives sont-elles symtriques ?
On peut de mme reprsenter les frquences cumules croissantes et
dcroissantes :
F(x) = proportion d'observations x =
de rpartition (empirique)

est appele aussi fonction

Frquences
Frquence
Nombre Frquen
cumules
s cumules
d'appels ces en %
dcroissante
croissantes
s
0

2.08

2.08

100

14.58

16.66

97.92

23.96

40.62

83.34

25.00

65.62

59.38

18.75

84.37

34.38

9.38

93.75

15.63

6.25

100

6.25

Soit le trac, en frquences,


courbes cumulatives associes au nombre d'appels tlphoniques.
Quel est le % de jours o le nombre d'appels a t infrieur 3 ?

des

78

%
Quel est le % de jours o le nombre a t suprieur 3 ?
%
F est-elle toujours croissante, de 0 1 ?
Les 2 courbes sont symtriques par rapport un axe d'ordonne
Ici aussi, il est quivalent de reprsenter les effectifs ou les frquences
cumuls ( un changement d'chelle prs),
mais le trac en frquences permet de comparer plusieurs distributions.
II.2.3 - Dans le cas d'une variable continue, on a vu que si l'on
compte les effectifs par valeur on risque souvent d'avoir un trop grand
nombre de valeurs diffrentes, avec de trop faibles effectifs, et qu'il
convient de regrouper les donnes en classes.
Il existe souvent un moyen simple d'effectuer simultanment un tri plat
des donnes et un graphique : c'est le diagramme tige-feuilles : les
tailles ci-dessous se situent entre 159 et 177. Les deux premiers chiffres
sont 15, 16, ou 17 (la tige) et les suivants diffrencient les valeurs (ce
sont les feuilles).

On place ainsi une par une les observations, en crivant le chiffre des
units en face de sa tige .
En groupant de 10 en 10 on n'aurait que 3 classes ici, on regroupera de 5
en 5 pour en avoir plus.

79

On peut ordonner ensuite les valeurs pour mieux voir la rpartition des
feuilles sur chaque tige.
L'avantage est que, tout en visualisant l'allure de la distribution, on
conserve toutes les donnes initiales. Mais cela n'est possible que si n
n'est pas trop important !
Compltez le tableau ci-dessous :
Classes de tailles (en cm)
Effectifs
[ 155 - 160 [

[ 160 - 165 [

[
[ 170 - 175 [
[ 175 - 180 [

A partir de la distribution prcdente, on peut construire un


histogramme des effectifs : les classes tant de mme amplitude, en
plaant en ordonne les effectifs on obtient des rectangles dont la surface
est proportionnelle l'effectif associ.
Mais supposons qu'on veuille dtailler davantage :
l'effectif 21 entre 1.65 m et 1.70 m se rpartit en 8 dans [1.65
1.675
[ et 13 dans [1.675
1.70 [ .

80

Quel graphique vous semble le plus appropri ?


De mme, l'effectif 29 entre 1.70 m et 1.75 m se rpartit en
16 dans [1.70
1.72 [ , 11 dans [1.72
1.74 [ et 2 dans [1.74

1.75 [

Quel est le graphique correct :


De manire gnrale, pour que chaque observation soit reprsente par
la mme unit de surface (c'est ce que l'il retient de l'histogramme),
lorsque les classes n'ont pas toutes la mme amplitude ai , on reporte en
ordonne, non les ni, mais les
.
On procde de mme pour reprsenter les frquences. Soit par exemple la rpartition des
surfaces ci-dessous : on place en ordonne les

pour que la surface de chaque rectangle soit

ai = fi

81

Surface Effecti
Amplitu
Frquen
s (ha)
fs ni
de ai
ces fi

fi/ai

[0-3[

830

0.3906

0.13

[3-5[

615

0.2894

0.14

[ 5 - 10 [

510

0.2400

0.048

[ 10 - 20
[

92

0.0433

10

0.004

[ 20 - 30
[

63

0.0296

10

0.003

[ 30 - 50
[

15

0.0071

20

0.000
4

Total :

2 125

La surface totale de l'histogramme est :


Si on avait fait sur les donnes ci-dessus un histogramme des effectifs,
aurait-on obtenu un graphique de mme forme ?
Ici aussi on remarquera que le choix des classes est dlicat et peut
conditionner la forme du graphique :
COURBES CUMULATIVES
Pour ce qui est des courbes cumulatives, la dfinition est la mme pour
une variable continue ou discrte, mais les fonctions sont continues, et
plus en escalier . Il n'y a pas par exemple un saut 1.74 m, mais une
augmentation de 2 entre 1.735 m et 1.745 m.
Si l'on ne dispose que des donnes regroupes en classes, on utilise de
mme les effectifs (ou les frquences) cumuls, mais seuls les points
d'abscisses limites de classes sont exacts, on les relie par des segments
de droite pour avoir une reprsentation approche.
Taille
(cm)

Effectifs

Taille
(cm)

Effectifs

159

169

160

170

161

171

162

172

163

173

164

174

165

175

166

176

167

177

168

Total :

60

82

On fait comme si, l'intrieur de chaque classe, la rpartition tait


uniforme, ce qui fait que l'effectif cumul augmente rgulirement.
Voici les courbes cumulatives (en frquences) correspondant au tableau
de classes de surface vu prcdemment.
Il y a peu prs :

% d'exploitations de moins de 15 ha et

% de plus de 12 ha
Quelle est l'ordonne du point d'intersection des deux courbes ?
Ce rsultat est-il toujours vrai ?

83

RESUM
I - CAS

D'UNE VARIABLE QUALITATIVE

Modalit
Frquenc
Effectifs
s
es
modalit
1

n1

f1 =

...

...

...

modalit
i

ni

...

...

modalit
K

nk

fk =

Total :

fi =

:
Modalit Effecti Frquen
s
fs
ces

Clibata
ire

30

0.200

20.0
0

Mari

80

0.533

53.3
3

Divorc

20

0.133

13.3
3

fk 100

Veuf

20

0.133

13.3
3

100

Total :

150

100

f1 100
...
fi 100

...

...

(Si la variable est ordinale, crire les modalits dans l'ordre : modalit 1
modalit 2 ... modalit k ).
Graphiques : diagrammes circulaires, diagrammes en barres, ou
imags.
(Les modalits d'une variable ordinale sont toujours places dans l'ordre).
On visualise ainsi le "poids" des diffrentes modalits dans la population
tudie.
II - CAS

D'UNE VARIABLE DISCRTE

Valeurs
Effecti Frquen
de la
fs
ces
variable

Nombr
Nombre
e
Frquenc % fi
de jours
d'appel
es fi
100
ni
s xi
0

0.0208

2.08

...

14

0.1458

14.58

fi 100

23

0.2396

23.96

24

0.2500

25.00

...

...

18

0.1875

18.75

nk

fk

fk 100

0.0938

9.38

100

0.0625

6.25

Total :

96

100

x1

n1

f1

f1 100

...

...

...

xi

ni

...

...

xk
Total :

fi =

x1 < x2 < ... < xk


Graphique :
(en effectifs,
l'allure de la

diagrammes en btons
frquences, ou %) pour visualiser
distribution statistique.

84

Le cumul de proche en proche des effectifs (ou frquences, ou %) dans


l'ordre croissant permet de connatre le nombre (ou frquence, ou %)
d'observations infrieures ou gales chaque xi.
Ce mme cumul dans l'ordre dcroissant donne le nombre (ou
frquence, ou %) d'observations suprieures ou gales xi.
Ces valeurs cumules servent au trac de la fonction de rpartition "en
escalier" (ou courbe cumulative croissante), et de la courbe
cumulative dcroissante.
III - CAS D'UNE VARIABLE CONTINUE
On dcoupe l'intervalle des valeurs de la variable en un certain nombre
de classes
[ ei
ei+1 [, et on dtermine les effectifs ni associs chaque classe (ainsi
que les frquences et les %).
Graphique : histogramme.

Le rectangle construit sur chaque classe doit avoir une surface


proportionnelle l'effectif de la classe. On visualise ainsi l'allure de la
distribution observe.
Les cumuls se calculent comme dans le cas discret.
Les courbes cumulatives croissante et dcroissante reprsentent le
nombre (ou frquence, ou %) d'observations , ou , une valeur donne.
Elles sont ici reprsentes de faon approche par des fonctions affines
par morceaux continues :
Dans certains cas, un diagramme tige-feuilles est aussi possible.

85

Exercice 1 : TENSION ARTRIELLE


Un mdecin a relev la tension artrielle de 25 de ses patients et a
obtenu les rsultats ci-dessous.

1) Vaut-il mieux reprsenter ces valeurs par


2) Compltez le tableau ci-dessous.
Valeurs

Effectifs

10

Effectifs cumuls
croissants

4
3

12
13

18
3

21

24

25

15

3) Quel est le pourcentage de patients ayant une tension infrieure ou


gale 11 ?
%
4) Parmi les 6 graphiques proposs lesquels vous semblent justes ?

86

Exercice 2 : LOYERS PARISIENS


L'histogramme ci-dessous rsulte de l'tude du montant du loyer mensuel
hors-charges de 1 000 grands appartements parisiens de mme
superficie.
1) En dduire les effectifs :
Montant des
loyers

Effectifs

[ 500 - 1 000 [ 30
[ 1 000 - 1 500
[
[ 1 500 - 2 000
[
[ 2 000 - 2 500
[
[ 2 500 - 3 000
[
[ 3 000 - 3 500
[
[ 3 500 - 4 000
[
[ 4 000 - 5 000
[
[ 5 000 - 6 000
[
[ 6 000 - 8 000
[

87

Total :

1 000

2) Quelle est la valeur de la fonction de rpartition


F ( x ) pour x = 3 500

Exercice 3 : ESPRANCE DE VIE EN EUROPE


A partir des donnes sur l'Europe vues en Exercice Leon 1, on a extrait
les valeurs de l'esprance de vie en Europe fin 96, pour les 47 pays pour
lesquels on dispose de cette donne.

1) Quel(s) graphique(s) serait(aient) appropri(s) pour ces donnes ?


2) Complter le tableau ci-dessous :
Esprance de vie
Effectifs
Frquences
[ 64 - 68 [
[ 68 - 70 [

0.17

[ 72 - 74 [

0.17

[ 74 - 76 [

0.04

[ 76 - 78 [

15

0.32

[ 70 - 72 [

[ 78 - 79 [
3) L'histogramme ci-contre est incomplet.
Quelle est la hauteur des rectangles manquants ?

88

graduati
ons

graduati
ons

4) Quelle serait sur la courbe cumulative croissante l'ordonne des points


d'abscisse :
70
?
75
?
On trace ci-contre exactement les deux courbes cumulatives.
5) Quelle est l'esprance de vie dpasse par 75 % des pays d'Europe ?
ans
Combien de pays ont une esprance de vie suprieure celle de la
France (77.8 ans)
?

89

Exercice 4 : AGE DES PRSIDENTS


On a relev ci-contre l'ge des Prsidents, depuis la IIIe Rpublique, au
moment de leur investiture.
1) Peut-on reprsenter ces nombres par un diagramme tige-feuille ?
2) Parmi les trois diagrammes proposs ci-dessous, lequel est correct ?

Diagramme 1

Diagramme 2

Diagramme 3

3) Complter :
Age

Frquences cumules
croissantes

[ 45 - 50 [
[ 50 - 55 [
[ 55 - 60 [
[ 60 - 65 [

90

[ 65 - 70 [
[ 70 - 75 [
[ 75 - 80 [
4) Quelle est l'abscisse du point d'ordonne 50 % sur la courbe
cumulative croissante ?
5) Rectifier le tableau prcdent en tenant compte des prsidents rlus :
Jules GREVY 78 ans, Albert LEBRUN 68 ans, Charles de GAULLE 75
ans, Franois MITTERRAND 72 ans.
Age
Frquences cumules croissantes
[ 45 - 50 [
[ 50 - 55 [
[ 55 - 60 [
[ 60 - 65 [
[ 65 - 70 [
[ 70 - 75 [
[ 75 - 80 [
Que devient dans ce cas la rponse la question 4 ) ?

91

LEON 3 PARAMTRE STATISTIQUE

QU'APPELLE-T-ON

PARAMTRES STATISTIQUES

Les paramtres statistiques ont pour but de rsumer, partir de


quelques nombres cls, l'essentiel de l'information relative l'observation
d'une variable quantitative.
En plus des tableaux et graphiques vus Leon 2, on pourra dire par
exemple que le nombre moyen d'enfants par famille est de 1.33.
Ces familles ont entre 0 et 4 enfants, 50 % des familles ont moins de 2
enfants, les 2/3 des familles ont au moins 1 enfant, etc.
On dfinira plusieurs sortes de paramtres :
Certains, comme la moyenne, seront dits de tendance centrale car ils
reprsentent une valeur numrique autour de laquelle les observations
sont rparties.
D'autres, par exemple, seront dits de dispersion car ils permettent de
rsumer le plus ou moins grand talement des observations de part et
d'autre de la tendance centrale.
Citons le cas de la surveillance de la pollution de l'air dans les grandes
villes de l'Union Europenne : on doit comparer rgulirement des
paramtres numriques calculs sur les observations des normes :
Par exemple, une norme indique la teneur moyenne en SO2 qui ne doit
pas tre dpasse au cours d'une anne : disposant de mesures
effectues au moyen d'un capteur de quart d'heure en quart d'heure, on
en fait la somme et on divise par le nombre de mesures pour avoir la
moyenne.

92

La norme indique aussi un seuil qu'au moins la moiti des mesures ne


doit pas dpasser dans l'anne. Nous verrons pour calculer ceci ce qu'on
appelle la mdiane.
Moyenne et mdiane sont des valeurs autour desquelles les
observations sont rparties ; ce sont deux faons complmentaires de
caractriser la tendance centrale.
La norme prcise aussi le seuil qui ne doit pas tre dpass dans plus de
2 % des cas. Nous verrons que cela fait appel un paramtre de
position, le centile 98, etc.
Il peut tre important aussi de noter le minimum et le maximum des
valeurs observes, la diffrence entre ces nombres tant l'tendue des
mesures.
Enfin, on peut calculer d'autres paramtres (nous verrons par exemple
l'cart-type), qui permettent de quantifier la plus ou moins grande
variabilit des mesures, leur dispersion plus ou moins importante de
part et d'autre de la tendance centrale, telle qu'on peut la mettre en
vidence sous forme
graphique.

93

I - PARAMTRES DE TENDANCE
CENTRALE
I. 1 - LA MOYENNE ARITHMTIQUE d'une
srie brute numrique x1 , x2 , ... , xn est le
quotient de la somme des observations
par leur nombre :

Ainsi, la moyenne du nombre d'enfants


par famille est :
=
On a aussi :

Soit :

Famille

Nombre
d'enfants

Chardin

Esteller

Martin

Durand

Dupont

Garcia

Bastide

Jourdan

Lelivre

Fleury

Fournier

Averos

Bastien

Brunet

Delenne

Saumade

Bertrand

Blundo

pour une srie groupe, o les xi sont les valeurs diffrentes de la srie,
et les ni les effectifs associs.

Nombre d'enfants Nombre de familles


xi
ni
0

Total :

n = 18

La moyenne est
donc
fonction
des
Nombre
Frquenc
valeurs
observes xi, et de
d'appels
% fi x 100
es fi
leurs frquences
fi.
xi
0

0.0208

2.08

0.1458

14.58

0.2396

23.96

0.2500

25.00

0.1875

18.75

0.0938

9.38

0.0625

6.25

Total :

100

94

Ainsi la moyenne arithmtique du nombre d'appels reus un standard


est :
=
appels
La moyenne s'exprime toujours dans la mme unit que les observations
xi.
Elles peuvent tre dcimales, mme si les xi sont entiers par nature.
Quand peut-on calculer une moyenne arithmtique ?
Il est ncessaire de se demander si la somme des valeurs a un sens
concret.
Quand un lve obtient 12 en math, 15 en philo, 11 en anglais, 18 en
histoire, il obtient un total de 56 points dont la signification est claire et
par consquent une moyenne de :
Cependant, si l'on note les taux d'inflation dans un pays pendant
plusieurs annes, le taux global n'est pas gal la somme des taux.
En effet le phnomne est multiplicatif : considrons sur trois ans un taux
de 10 % la premire anne, de 10 % la deuxime anne et de 70 % la
troisime anne.
Une valeur de rfrence x0 = 100 au dbut de la priode tudie vaut au
bout d'un an :
x1 = 100 + 0.1 100 = 1.1 100 = 1.1 x0
au bout de 2 ans : x2 = 1.1 1.1 100 = (1.1) x0
Au bout de 3 ans : x3 = 1.7 1.1 1.1 x0
x3 = 2.0570 x0
Le taux sur 3 ans atteint donc un total de :
%
La valeur moyenne G est celle qui permet d'obtenir : x3 = G3 x0
Soit :
95

Le taux moyen d'inflation est de 27.18 %, alors que la moyenne


arithmtique vaudrait 30 % (on a calcul ici ce que l'on appelle une
moyenne gomtrique)
Revenons au cas le plus courant de la moyenne arithmtique.
Dans une entreprise de 100 salaris, le salaire moyen est gal 1 260 .
Supposons qu'une erreur se soit glisse lors de la transcription des
salaires.
Monsieur Dubois est crdit d'un salaire de 11 200 au lieu de 1 200 .
De combien augmenterait la moyenne ?

de
Une seule valeur (sur 100) peut donc beaucoup modifier la moyenne.
La nouvelle moyenne est de :
La moyenne arithmtique est sensible aux
valeurs extrmes.
Voyons un autre type de calcul de la moyenne : Pensez-vous que la
densit moyenne au km des 15 pays de l'Union Europenne soit gale
la moyenne des 15 densits de ces pays, soit 149.2 hab/km ?
Superficie
Poids pi =
Densit xi
Pays
(milliers de superficie/tota
(hab / km)
km)
l
Allemagne

229.13

357

.1103

Autriche

95.238

84

.0259

Belgique

325.81

31

.0096

Danemark

120.93

43

.0133

Espagne

78.614

505

.1550

Finlande

15.134

337

.1041

France

106.01

549

.1695

Grce

79.545

132

.0408

Irlande

51.429

70

.0216

Italie

190.03

301

.0930

Luxembourg

200

.0006

Pays-Bas

380.49

41

.0127

Portugal

106.52

92

.0284

Royaume-

239.34

244

.0754
96

Uni
Sude

19.556

Total :
Quel est le nombre total d'habitants ?

450

.1390

3238

milliers d'habitants
La superficie totale est de 3 238 milliers de km.
La densit moyenne est donc :
hab/km
Cette densit peut s'crire sous la forme :
(ici n = 15)

on dira que

est la moyenne des xi pondre par les poids

les poids pi tant des nombres positifs de somme 1.


Comment faire une moyenne de moyennes ?
La moyenne arithmtique de deux sries de n 1 et n2 individus, de
moyennes 1 et 2 est :

Ainsi, le poids total des 15 pommes est de :


g
Leur poids moyen est de :

On peut de mme calculer le poids moyen des 18 pommes reprsentes


ci-dessous, partir des moyennes partielles 1 , 2 , 3 :

97

Mais supposons qu'on ne connaisse pas le poids des 18 pommes, ni les


moyennes partielles, seulement les effectifs associs chaque "tranche
de poids" :
Classes de
poids (en g)
[ 100 - 250 [
[ 250 - 350 [
[ 350 - 450 [
Total :

Effectifs
ni
10
5
3
18

Centre de
classe xi
175
300
400

On ne peut plus calculer prcisment .


Cependant, un calcul approch de est possible en remplaant chaque
moyenne partielle i par le centre de la classe associ :
Ainsi, pour la classe [ 100 - 250 [ , le centre est :
Classes Effectif
de valeur
s

= 175 g
On calcule dans ce cas

par :

Plus gnralement, lorsqu'on ne


dispose que de la distribution
regroupe en classes, on calculera la
moyenne par :

Centre de
classe

[ e 1 - e2 [

n1

x1

[ e 2 - e3 [

n2

x2

...

...

...

[ ei - ei+1 [

ni

xi = (ei + ei+1 ) /
2

...

...

...

[ eK - eK+1 [ nK

xK

Total :

xi tant le centre de classe.


98

Ici aussi le choix des classes est dlicat et peut conduire un manque de
prcision certain, aussi il vaut mieux dans la mesure du possible calculer
la moyenne arithmtique partir des donnes brutes initiales.

Comparons le salaire moyen dans 2 entreprises :


Dans l'entreprise A le salaire moyen est de :
Dans l'entreprise B, il est de :
On constate donc que le salaire moyen de B est infrieur celui de A.
Pourtant le salaire moyen des hommes est suprieur en B celui des
hommes en A. Il en est de mme pour les femmes.
D'o vient ce rsultat paradoxal ?
Il s'agit d'un effet de structure : cela vient du fait que les femmes (au
salaire plus bas) sont plus nombreuses en B qu'en A.
Cela montre aussi qu'une moyenne ne rsume pas bien une population
htrogne, comprenant des sous-populations diffrentes vis vis du
caractre tudi (ici le salaire).

99

I.2 - LA

MDIANE

:M

Si la srie brute des valeurs observes est trie par ordre croissant : x(1)
x(2) ... x(n) ,
la mdiane M est la valeur du milieu, telle qu'il y ait autant
d'observations "au-dessous" que "au-dessus".
c'est--dire que si n est impair, soit n = 2 p + 1 ,
M = x(p+1)
Si n est pair, soit n = 2 p, toute valeur de l'intervalle mdian
[ x(p) ; x(p+1) ] rpond la question.
Afin de dfinir M de faon unique, on choisit souvent ,
soit le centre de l'intervalle mdian.
Par exemple, la mdiane de la srie de tailles ci-contre est :
M=
(m)
Aurait-elle t diffrente si on avait not par erreur la plus petite taille
0.55 m au lieu de 1.55 ?
En est-il de mme pour la moyenne ?
La mdiane des salaires ci-contre est :
M=
Aurait-elle t diffrente si 1 500 avait t not par erreur 10 500 ?
En est-il de mme pour la moyenne ?

100

Famille

Nombre
d'enfants

Chardin

Esteller

Martin

Durand

Dupont

Garcia

Bastide

Jourdan

Lelivre

Fleury

Fournier

Averos

Bastien

Brunet

Delenne

Saumade

Bertrand

Blundo

La mdiane du nombre d'enfants par famille est :


L'intervalle mdian est :
[
;
]
Si on dispose de la distribution observe d'une variable discrte, M peut
s'obtenir l'aide des effectifs (ou des frquences) cumuls :
Nombre
Effectifs
Nombre
Effectifs
de
cumuls
d'enfants
cumuls
Fi
F'i
familles
dcroissants
xi
croissants Ni
ni
N'i
0

18

10

12

15

17

18

Total :

18

Il y a
il y en a

familles, soit
, soit

% sans enfant ;
% ayant au plus 1 enfant.

101

La mdiane est donc : M =


Il y a
il y en a

familles, soit
, soit

% ayant au moins 2 enfants;


% ayant au moins 1 enfant.

La mdiane est donc : M =

Sur les mmes donnes que prcdemment, on peut dterminer


graphiquement la mdiane partir des courbes cumulatives (en
escalier) :
M=
De manire gnrale, on peut dire que M est l'abscisse du point
d'ordonne n / 2 (ou 50 %) sur les courbes cumulatives.

102

C'est aussi l'abscisse du point d'intersection des courbes cumulatives


(que la variable soit discrte ou continue).
Dans le cas o n est pair, et si x(p) x(p+1)
on retrouve l'intervalle mdian, "marche d'escalier".
M se situe au centre de cet intervalle.
Dans le cas particulier o on ne dispose que de donnes regroupes en
classes, on peut dterminer, graphiquement ou par interpolation, une
valeur approche de la mdiane.
Ici aussi on cherche l'abscisse du point d'ordonne ( ) (ou 50 %) sur les
courbes cumulatives :
M se situe entre ei et ei+1, tels que :
F(ei)

(ou 50 %) et F(ei+1)

(ou 50 %)

M ei + , avec

/ ( ei+1 - ei ) =

M ei + ( ei+1 - ei )
partir des effectifs cumuls
M ei + ( ei+1 - ei )
partir des frquences cumules
Dterminons par exemple une valeur approche de la surface mdiane
(exemple de la Leon 2).
Frquences
Frquences
Classes de
Frquence
cumules
cumules
surfaces (ha)
s
croissantes
dcroissantes
moins de 3

0.3906

0.3906

[3 - 5 [

0.2894

0.68

0.6094

[5 - 10 [

0.2400

0.9200

0.32

[10 - 20[

0.0433

0.9633

0.080

[20 - 30[

0.0296

0.9929

0.0367

30 ou plus

0.0071

0.0071

Total :
1
Avec les notations prcdentes, M se situe entre :
ei =
ei+1 =

ha et
ha

103

Graphiquement, on peut estimer M environ :


ha
Un calcul par interpolation donne comme valeur approche de M :
ha
II - PARAMTRES DE POSITION
Les paramtres de tendance centrale ne suffisent gnralement pas pour
caractriser une distribution.

Ainsi, pour les 2 sries reprsentes ci-dessus,


la moyenne est de :
le mode est de :
la mdiane est de :
pourtant ces donnes sont bien diffrentes !
Nous allons dfinir de nouveaux paramtres pour prendre en compte ces
diffrences.
I.1 - LES FRACTILES
On appelle fractiles d'ordre k les valeurs
F1 , F2 , ... , Fk-1 qui divisent la srie en k parties d'effectifs gaux.
Par exemple les quartiles Q1, Q2 , Q3 divisent la srie statistique
ordonne en 4 parties d'effectifs gaux.

104

Les dciles D1, ... , D9 divisent la srie ordonne en


dix parties d'effectifs gaux.
Les centiles divisent la srie ordonne de faon croissante en 100 parties
de mmes effectifs.
Combien y en a-t-il ?
Ces fractiles se calculent exactement comme la mdiane.
Le quartile Q2 est d'ailleurs gal la mdiane.
Les dciles, et surtout les centiles, n'ont de sens que si n est
suffisamment grand (plusieurs centaines au moins pour des centiles).
Reprenons l'exemple vu en Prsentation de la Leon 2
L'ge mdian des accidents est d'environ :
ans
25 % des accidents ont moins de
ans
On dira que c'est la valeur du quartile
Q
Le 3e quartile vaut : Q3 =

ans environ

Le 1e dcile est : D1 =
ans environ
cela signifie que les 10 % plus jeunes accidents ont moins de D1.
De mme, D9 =
ans environ
les 10 % plus gs ont plus de D9 .

105

Il existe un moyen imag de positionner les quartiles pour bien juger de


l'allure de la distribution :
- c'est le diagramme en bote (ou bote moustaches ).
Il consiste positionner Q1, Q2 , Q3 selon un axe, tracer des rectangles
de hauteur arbitraire,
- puis (dans sa version la plus courante), de prolonger ces botes
par des moustaches de longueur 1.5 ( Q3 - Q1 ) .
Si la srie comporte des valeurs extrieures aux moustaches, il s'agit de
valeurs "aberrantes" au point de vue statistique, qu'on reprsente par
exemple par
Il convient de revoir ces valeurs qui peuvent rsulter d'une erreur de
mesure ou de transcription. Si aucune valeur n'arrive jusquau bout des
"moustaches", on les raccourcit jusqu'aux valeurs minimale et maximale.
L'intrt de ces diagrammes en botes est de pouvoir comparer plusieurs
distributions, par un moyen visuel plus parlant que la comparaison
des histogrammes.
L'exemple ci-dessous concerne la rpartition des moyennes des lves
d'une classe de 4me, matire par matire.

106

Une erreur s'est glisse dans un des diagrammes ; lequel ?


Il s'agit du diagramme n
II.2 - LE MODE
Une distribution est unimodale si elle prsente un maximum marqu, et
pas d'autres maxima relatifs (sur le diagramme en btons ou
l'histogramme)

Quelles sont les distributions ci-dessus qui sont unimodales ?


Dans ce cas, l'abscisse du maximum, correspondant la valeur la plus
frquente de la srie, est appele le mode.

107

Il n'est pas toujours bien dfini dans le cas d'une variable continue, le
dcoupage en classes peut tre trompeur ; la classe modale est la classe
pour laquelle l'histogramme passe par un maximum.
Quelle est la classe modale pour la distribution suivante ? (cliquer sur la
bonne case) :
Classes Effectifs
3
10
20
0
Si la distribution prsente 2 ou plus maxima relatifs, on dit qu'elle est
bimodale ou plurimodale. Cela signifie que la population est
htrogne du point de vue de la variable observe.
La population est compose de plusieurs sous-populations ayant des
caractristiques de tendance centrale diffrentes.
POSITIONS

RESPECTIVES DU MODE, DE LA MDIANE ET DE LA MOYENNE


POUR UNE DISTRIBUTION UNIODALE.

Lorsque la distribution est symtrique les trois paramtres sont


confondus.

108

Lorsque la distribution est asymtrique, la mdiane est gnralement


situe entre le mode et la moyenne et plus proche de cette dernire.
En vous connectant sur le site anglophone
http://www.ruf.rice.edu/~lane/stat_sim/descriptive/index.html
vous
pouvez voir une illustration interactive des rapports entre la moyenne et
la mdiane d'un chantillon. Vous pouvez avec la souris peindre
l'histogramme de votre choix et voir varier les paramtres.

109

III - PARAMTRES DE DISPERSION


Deux distributions peuvent, tout en ayant des caractristiques de
tendance centrale voisines, tre trs diffrentes.
Ainsi la moyenne annuelle des tempratures dans une zone ocanique
peut tre gale la moyenne annuelle des tempratures dans une zone
continentale, pourtant les distributions sont trs diffrentes.
Dans le premier cas les variations de temprature autour de la moyenne
sont assez faibles, dans le second cas elles sont beaucoup plus
importantes.
Il est donc ncessaire de mesurer la dispersion des valeurs autour des
tendances centrales.
III.1 - L'ETENDUE : R (RANGE)
L'tendue (ou amplitude) d'une srie statistique est la diffrence entre la
valeur maximum et la valeur minimum de la srie.
R = Maximum ( X ) - Minimum ( X )
Facile dterminer, l'tendue ne dpend que des 2 observations extrmes
qui sont parfois le fait de situations exceptionnelles.
Il est donc difficile de considrer l'tendue comme une mesure stable de
la dispersion ; ici
R=

III.2 - ECART INTERQUARTILE


Afin de diminuer l'influence des valeurs extrmes on peut tenir compte de
valeurs plus stables de la distribution.
intervalle interquartile [ Q1 , Q3 ]
ou cart interquartile = Q3 - Q1
Pour l'exemple ci-contre, l'intervalle interquartile vaut :
[
,
] (cm)
et l'cart interquartile :
(cm)

110

Pour mesurer la dispersion de part et d'autre de la moyenne, il faut


mesurer l'ordre de grandeur des xi A quoi est gal :
( xi - ) =
On calcule parfois l'cart absolu moyen :
| xi -

mais il est peu utilis car se prte mal aux calculs.

La variance est trs utilise, c'est ( xi - ) moyenne des carrs des


carts la moyenne.
Ce nombre est-il toujours 0 ?
C'est pourquoi on le note s, s tant l'cart-type.

s'exprime, contrairement la variance, dans la mme unit que les xi


Une variance (et donc un cart-type) est d'autant plus faible que les
donnes sont groupes autour de , car en moyenne les carts sont plus
faibles.
s (ou s ) peuvent -ils tre nuls ?
Si les donnes sont groupes, on a :
s =
ni ( xi - )
les xi tant les centres de classes dans le cas continu, et donnent donc
une valeur approche de s .
Ici aussi, il vaut mieux faire le calcul si possible sur les donnes brutes.

111

Nombre
d'enfants xi

Nombre de
familles ni

Total :

n = 18

On calcule gnralement l'cart-type en complment de la moyenne.


Pour les calculs, il est souvent plus commode, plutt que de calculer :
s =

( ni) ( xi -

s = [

( ni) xi ] -

de calculer :

Calculons par exemple l'cart-type de la srie "nombre d'enfants par


famille" :
s =
donc s =
Classes de
surfaces
(ha)

enfants
Effectifs

[0-3[

830

[3-5[

615

[ 5 - 10 [

510

[ 10 - 20 [

92

[ 20 - 30 [

63

[ 30 - 50 [

15

Total :

2125

De mme, un calcul approch (aprs regroupement en classes) donne,


pour les surfaces :

ha

ha
La connaissance de la moyenne et de l'cart-type peut nous permettre
d'appliquer l'ingalit de Bienaym-Tchbichev :
Pour toute population de moyenne et d'cart-type s , la proportion
d'individus appartenant des intervalles de la forme : [ - k s ; + k s ]
est suprieure ou gale 1 - 1/k , pour tout k 1.
Par exemple, avec k = 2, on en dduit qu'au moins

112

%
des observations appartiennent l'intervalle : [ - 2 s ; + 2 s ]
Ainsi, au moins 75 % des salaris de l'entreprise ALPHA ont un salaire
situ entre
et
Pour au moins les 8/9 d'entre eux, le salaire se situe entre
et
Ceci quelle que soit l'allure de la distribution, mme trs dissymtrique
ou plurimodale.

113

RSUM
En plus des tableaux et graphiques, on rsume l'observation d'une
variable quantitative par un petit nombre de paramtres.
I - Tendance centrale
- la moyenne (arithmtique), ventuellement pondre :
- la mdiane : M est insensible aux valeurs aberrantes, mais se prte
moins bien aux calculs que la moyenne si le nombre de donnes est
important.
- le mode dans le cas particulier d'une distribution unimodale.
La comparaison de ces trois paramtres donne des indications sur la
symtrie de la distribution.

II - POSITION
- les fractiles (quartiles, dciles, centiles) : ils subdivisent la srie
ordonne en un certain nombre d'intervalles (4 , 10 , 100) contenant
environ le mme nombre de valeurs observes chacun.
III - DISPERSION
- tendue
- variance et cart-type : calculs gnralement en complment de la
moyenne, pour mesurer la plus ou moins grande dispersion autour de
celle-ci.
- intervalle interquartile : sa longueur, l'cart-interquartile mesure la
dispersion des 50 % valeurs les plus centrales.

114

- le diagramme en bote (ou bote moustaches) reprsente les


quartiles, et les valeurs extrmes, en reprant les ventuelles valeurs
aberrantes.
Pour rsumer une srie unidimensionnelle, il faut
toujours la reprsenter par un ou deux graphiques
appropris, et plusieurs paramtres de tendance
centrale, de position et de dispersion.
L'tude et la comparaison de ces paramtres permet de bien caractriser
la distribution, et de reprer d'ventuelles donnes aberrantes.

Exercice 1 : TENSION ARTRIELLE


Reprenons les donnes concernant la tension artrielle de 25 patients,
vues en Exercice dans la Leon 2 (graphiques ci-contre)

115

Cette distribution est -elle unimodale :


Dterminer :
son mode :
sa mdiane :
sa moyenne :
Calculer :
la variance :
l'cart-type :
Le diagramme en bote ci-dessous est-il juste ?

Montant
loyers

Effectifs

[ 500 - 1 000 [

30

[ 1 000 - 1 500 [

60

Exercice 2 : LOYERS PARISIENS


[
Reprenons les donnes de l'Exercice 2 de
[
la Leon prcdente : loyers mensuels de 1
[
000 grands appartements parisiens.
1) Calculer par interpolation :
[
La
[
mdiane
[
Q2 =
Les
quartiles
Q1 =
et Q3 =
L'cart interquartile vaut :

des

1 500 - 2 000 [

80

2 000 - 2 500 [

90

2 500 - 3 000 [

150

3 000 - 3 500 [

180

3 500 - 4 000 [

150

4 000 - 5 000 [

140

[ 5 000 - 6 000 [

80

[ 6 000 - 8 000 [

40

Total :

1 000

Quel pourcentage des loyers se situe, environ, dans [ Q1 - Q3 ]


%
2) Calculer le montant moyen des loyers, exprims en milliers de

= (103 ) =
( )
De mme, l'cart-type des loyers vaut :
s = (103 ) =
( )
3) Quel pourcentage des loyers se situe, approximativement, dans
l'intervalle
[

-s;

+s]?

116

Exercice 3 : ESPRANCE DE VIE


Soit le
extrait des donnes sur l'Europe vues dans les leons
prcdentes, portant sur 47 pays.
Quelle est la valeur de la mdiane de l'esprance de vie ?
Q2 =

ans

Et des quartiles ?
Q1 =

ans

Q3 =

ans
Peut-on dire que 50 % des Europens ont une esprance de vie infrieure
Q2 ?
La moyenne des 47 valeurs d''Esprance de vie" est de 73.134 ans.
Peut-on dire que c'est l'esprance de vie moyenne des Europens :
Exercice 4 : PNB EN EUROPE
1) A partir des donnes sur le PNB par habitant de 44 pays d'Europe, on a
construit l'histogramme ci-contre :
La mdiane est :
Q2

2) La plus petite valeur est 370 (pour le Tadjikistan), la plus grande 43


480 (pour le Luxembourg) .Y-a-t-il des valeurs extrieures ?
3) A-t-on une distribution unimodale ?

117

4) Soit en bleu sur l'histogramme les


15 pays de l'Union Europenne.
Combien de pays de l'U.E. ont un
PNB infrieur

Pays

Populati
on
(millions
)

PNB / hab

Allemagne

81.8

27620

Autriche

26730

10.1

24820

5.2

30300

39.7

13740

5.1

20740

58.2

25060

10.5

8180

Irlande

3.6

15050

Italie

57.2

19200

Luxembour
g

0.4

43480

Pays-Bas

15.6

23700

Portugal

9.8

9780

RoyaumeUni

58.4

18950

Sude

8.8

23120

Total :

372.4

Belgique
Q2 ?
Danemark
et
Espagne
Q3 ?
5 ) A partir du tableau ci-contre, Finlande
calculez le PNB moyen par habitant
France
dans l'Union Europenne :
Grce

118

QU'EST-CE QUE LA STATISTIQUE DESCRIPTIVE BIVARIEE ?


Afin d'tudier la rpartition des terres agricoles d'une rgion, on a not
un certain nombre de renseignements sur chaque exploitation,
notamment :
- sa taille (surface, en hectares),
- l'ge du chef d'exploitation,
- le type de culture pratique,
- le nombre de personnes employes temps plein sur l'exploitation
Le rsultat est prsent sous la forme du tableau ci-dessous , individus
variables
N
Age du chef
Culture
Nombre de
Taille
Exploitati
d'exploitation
dominan
personnes
(ha)
on
(annes)
te
employes
1

50

50

bl

50.5

45

vigne

35

38

orge

62.1

25

bl

20

65

vigne

10

57

vigne

...

...

...

...

...

198
56
45
bl
2
Nous pouvons maintenant dcrire chacun des caractres, un par un :
TAILLE

AGE

119

CULTURE
Modalit

Frquence
Effectifs
s
120

0.61

Bl

68

0.34

Autres

10

0.05

Total

198

Vigne

EMPLOYS

Mais ceci ne nous permet pas de mettre en vidence les liens existant
peut tre entre la taille et l'ge : les jeunes exploitants ont-ils des
surfaces comparables, infrieures, suprieures celles de leurs ans ?
De mme, le type de culture pratiqu est-il le mme quelle que soit la
surface ? Le nombre d'employs est-il fonction du type de culture, etc.
Taille
Age du chef
(ha)
d'exploitation
(annes)
50
50
50.5
45
35
38
62.1
25
20
65
120

10
...
56

57
...
45

Les leons prcdentes traitaient de la statistique descriptive univarie,


c'est--dire de la description d'une srie statistique selon un seul
caractre (la taille par exemple).
En plus de l'tude spare de chaque caractre, on veut visualiser, et
mesurer le cas chant, les liens existant entre les variables prises deux
deux : c'est l'objet de la statistique descriptive bivarie.
Ceci se fera, comme prcdemment, au moyen de tableaux, graphiques,
et calcul de paramtres-cls.

Individus Variable X

Variable Y

---

---

---

---

...

...

...

...

...

...

---

---

On traitera donc ici du cas o l'on dispose de deux caractres, X et Y,


observs sur les mmes n individus.
Chacune des deux variables pouvant tre qualitative, quantitative
discrte, quantitative continue, on envisagera diffrents cas de figure.

I - CAS DE DEUX VARIABLES QUANTITATIVES


On a not la taille (en cm) et le poids (en kg) de 60 enfants d'une cole :
il s'agit de l'observation de deux variables
sur

individus.

La reprsentation simultane des deux variables consiste en un nuage de


points :
on place dans un repre cartsien les n points M i de coordonnes ( xi ,
yi ).

121

Ceci permet de visualiser le lien entre X et Y : ici on constate que le poids


a tendance augmenter avec la taille, mais pas de faon systmatique
(des enfants de mme taille ont des poids diffrents ; des enfants de
mme poids ont des tailles diffrentes).
Il y a des petits gros et des grands maigres
On appelle centre de gravit du nuage le point G de coordonnes :

122

, moyenne des tailles xi


et
Ici on a :

, moyenne des poids yi

cm

=
kg
Pour mesurer la dispersion du nuage autour de G on utilise les x i yi - :
xi - est l'cart entre l'abscisse de Mi et celle de G
yi - est l'cart entre l'ordonne de Mi et celle de G

et les

La dispersion des tailles se mesure par l'cart-type

cm
De mme la dispersion des poids se mesure par l'cart-type :

kg

Pour mesurer la variation conjointe de X et Y, on utilise les produits : ( x i ) ( yi - )


- Dans le quadrant I , ce produit est :
- Dans le quadrant II, ce produit est :
- Dans le quadrant III, ce produit est :
123

Dans le quadrant IV , ce produit est :

On appelle covariance de X et Y le nombre


il est aussi gal :

Si tous les points du nuage avaient la mme ordonne (y constant), cov


( X , Y ) vaudrait :
Si les xi taient, gaux, cov ( X , Y ) vaudrait :
Si tous
cov ( X
Si tous
cov ( X

les points taient en I et III


, Y ) serait :
les points taient en II et IV
, Y ) serait :.

La covariance est positive si X et Y ont tendance varier dans le mme


sens, et ngative si elles ont tendance varier en sens contraire.
Sur l'exemple,
cov ( X , Y ) =
car taille et poids augmentent plus ou moins de faon concomitante.
La covariance ne dpend pas de l'origine choisie pour X et Y, mais dpend
des units de mesure. C'est pourquoi, pour mesurer l'aspect plus ou

124

moins "allong" du nuage dans une direction, par un coefficient sans


unit, on mesure la covariance entre :
et
C'est le coefficient de corrlation linaire :

( si sX 0 et sY 0 )
Ce coefficient, symtrique en X et Y, indpendant des units choisies pour
X et Y, et de l'origine, est toujours compris entre - 1 et 1.
-1r1
Il vaut 1 si et seulement si le nuage est form de points aligns le long
d'une droite croissante, de la forme :
yi = a xi + b , avec a 0 .
Il vaut - 1 si et seulement sils sont le long d'une droite dcroissante :
yi = a xi + b , avec a 0
r sera donc proche de 1 si le nuage est trs allong selon une direction
croissante : si X augmente, Y augmente aussi de faon proportionnelle et
presque systmatique.
Si r est proche de - 1, lorsque X augmente, Y diminue de faon
proportionnelle, et presque systmatique.

125

COEFFICIENT DE CORRLATION (EXEMPLES)


Pour notre exemple :
r=
ce qui confirme bien que taille et poids ont tendance augmenter
conjointement, mais pas de faon systmatique.
Si r est proche de + 1 ou de - 1, on dit que X et Y sont bien corrls,
si r est proche de 0, on dit que X et Y ne sont pas corrles.

Ceci a lieu en particulier lorsque X et Y sont indpendants, c'est--dire si


les deux variables mesures n'ont aucun rapport. Mais ce n'est pas le seul
cas : Y peut mme tre fonction de X, mais pas fonction affine (droite).

Pour chaque valeur de r ci-dessous, donnez le numro du graphique


correspondant :

126

r = 0.04
r = - 0.9

Evolution des effectifs scolaires et


du nombre de chmeurs de 1966
r = -1980
0.20 (Statistique Canada, 1980)
Effectifs
Nombre de
r = Anne
0.94
scolaires
chmeurs
post
(Y)
secondaires (x 1000)
(X) (x 1000)

D'autre part, une bonne corrlation


signifie qu'il existe une relation
presque affine entre X et Y, mais
pas une relation de cause effet :
il a en effet t montr par exemple
que, dans les rgions o vivent des
cigognes, il y a une forte corrlation
entre le nombre de cigognes et le
nombre de naissances,
mais il ne faut pas en tirer de
conclusion htive !

1966

310.5

251

1967

352.9

296

1968

395.3

358

1969

436.8

362

1970

475.6

476

1971

496.8

535

1972

512.4

553

1973

533.6

515

1974

558.2

514

1975

592.0

690

1976

602.7

727

1977

615.9

850

1978

617.8

911

1979

623.5

838

1980

643.4

867

De mme, le schma 1 ci-dessus ( r = 0.94 ) reprsente en X = effectifs


de l'enseignement suprieur, Y = nombre de chmeurs au Canada :
si les deux ont augment conjointement, c'est surtout parce que la
population a beaucoup augment.
L'enseignement suprieur ne cre pas forcment des chmeurs !
D'autre part, il peut arriver, si n est trs grand ou si par exemple X est
discrte, que de nombreux points du nuage soient superposs, on les
127

reprsente alors par des points plus ou moins gros. Les donnes se
prsentent sous forme groupe par exemple :
Age xi

Taille yi

Effectifs ni

x1

y1

n1

x2

y2

n2

...

...

...

xK

yK

nK
Total n

Dans ce cas :

Age
(annes)
X
8
8
8
9
9
9
10
10
10
10
11
11
11

Taille
(m)
Y

Effectifs

1.25
1.26
1.27
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.38
1.40

3
2
1
4
2
2
4
3
3
1
2
2
1

Total :

30

Ainsi pour l'exemple ci-dessus :


sX =

128

sY =
r ( X ,Y )
=
Tout ce qui concerne le coefficient de corrlation sera vu de manire plus
approfondie dans le module "Ajustement Linaire"
En vous connectant sur le site anglophone de l'Universit de Leuven vous
pouvez voir une illustration interactive du calcul de coefficients de
corrlation pour des distributions normales. On peut afficher
simultanment plusieurs exemples avec new window et modifier les
paramtres
de
chacun
avec
settings
:
http://www.fltbw2.rug.ac.be/iloapp/Applets/Ap7.html

129

II - CAS D'UNE VARIABLE QUALITATIVE ET D'UNE


QUANTITATIVE
Le
donne l'ge des employs d'une petite entreprise,
comprenant trois catgories de personnel (notes A, B, C).
Pour chaque employ, on a donc la modalit de
X = catgorie, variable
et la valeur de
Y = ge, variable quantitative.
Le but est d'tudier le lien entre X et Y, c'est--dire :
a) La rpartition des ges est-elle
diffrente selon la catgorie, et Catgor
dans quelle mesure ?
ie
Age (annes)
b) La proportion d'employs dans
32 ; 35 ; 40 ; 42 ; 43 ; 43 ; 49 ;
A
les
trois
catgories
est-elle
50 ; 55 ; 58
diffrente selon l'ge, et dans
22 ; 26 ; 27 ; 27 ; 29 ; 30 ; 31 ;
quelle mesure ?
B
31 ; 33 ; 34 ; 36 ; 36 ; 38 ; 39 ;
Rpondre la question a)
39 ; 42 ; 44 ; 46 ; 51 ; 53
ncessite une tude spare de Y
(ge) pour chaque modalit de X
20 ; 20 ; 21 ; 22 ; 23 ; 24 ; 24 ;
(catgorie) : ici la catgorie
24 ; 26 ; 27 ; 28 ; 28 ; 28 ; 29 ;
C
29 ; 30 ; 32 ; 33 ; 33 ; 35 ; 38 ;
41 ; 43 ; 45 ; 45
individus
A comprend
:
On
doit
donc
comparer
trois
distributions
de l'ge, appeles
distributions conditionnelles de
l'ge selon la catgorie. On les tudie
C comprend
comme toute distribution de variable
:
quantitative :
il faut prsenter les graphiques analogues selon une mme chelle :
histogrammes et courbes cumulatives en frquences, ou diagrammes en
botes par exemple.
B comprend
:

Quelles sont les hauteurs des rectangles manquants des histogrammes ?

1:

130

2:

3:

L'ge mdian est-il le


soit la catgorie ?

mme,

quelle

que

131

Y a-t-il des valeurs aberrantes ?


Ces distributions conditionnelles peuvent tre compares la distribution
de Y, toutes catgories confondues ;
ici elle concerne :

individus

Graphiquement, peut-on dire qu'il y a des diffrences dans l'ge, selon les
catgories ?
On verra plus loin comment mesurer ces diffrences.
Rpondre la question b) (comparaison de la rpartition des catgories
selon l'ge) ncessite une tude spare de X (catgorie) pour chaque
tranche d'ge : ce sont les distributions conditionnelles de X selon Y :
on doit donc reprsenter de faon comparable plusieurs distributions de
variable qualitative : diagrammes en barres ou secteurs par exemple.

Ici les angles des secteurs manquants, dans la tranche 50-60 ans, sont (en
d)
A:
B:
C:
On peut faire des diagrammes de surface proportionnelle l'effectif :

132

On peut reprer les effectifs de A, B, C, au sein d'un histogramme global des ges : pour les
rectangles manquants, les hauteurs sont :
A:
B:
C:
Pour comparer les rpartitions en
frquences par tranche d'ge, appeles Catgo
profils des trois catgories, on peut aussi
rie
Age (annes)
faire des graphiques, en portant le centre
32 ; 35 ; 40 ; 42 ; 43
des classes d'ge en abscisse ( condition
A
43 ; 49 ; 50 ; 55 ; 58
d'avoir pour l'ge des classes assez fines)
22 ; 26 ; 27 ; 27 ; 29
et les frquences cumules en ordonne
30 ; 31 ; 31 ; 33 ; 34
B
36 ; 36 ; 38 ; 39 ; 39
42 ; 44 ; 46 ; 51 ; 53

;
;
;
;

133

Pour quantifier les diffrences dans la rpartition des ges, d'une


catgorie l'autre, on peut calculer :
La moyenne d'ge (toutes catgories confondues) est de :
ans
avec une variance de :
La moyenne d'ge de la catgorie A ,
, calcule sur nA = 10 individus,
est de 44.7 ans, avec une variance de sA = 62.01
Pour la catgorie B ,

, calcule sur

nB =

individus,

est de

ans,

avec sB =

De mme, nC = 25 ,
= 29.92 et sC = 55.67.
La moyenne des variances des 3 catgories est :
=
Si l'on remplace chaque catgorie par sa moyenne d'ge, et que l'on
calcule la variance de la srie :
134

Moyenne
d'ge

44.7

35.7

29.92

Effectif

10

20

25

On obtient la variance de l'ge, explique par la catgorie :


La somme de cette variance explique et de la moyenne des variances
vaut 89.88 soit sY
Ce rsultat est toujours vrai :
sY = moyenne des variances intra-groupes + variance des moyennes
variance totale = variance rsiduelle + variance explique
On mesure le lien entre Y et X par le rapport de corrlation de Y en X :
Ce rapport est toujours compris entre 0 et 1 : c'est la part (la proportion)
de la variance de Y explique en X.
Pour notre exemple :
eY/X =
Ce coefficient vaut 0 si la variance explique est nulle, soit si les
sont
gales ; ce serait le cas ici si l'ge moyen tait le mme pour toutes les
catgories. Il vaut 1 si la variance rsiduelle est nulle, soit les s i = 0 ; ce
serait le cas ici si, dans chaque catgorie, les employs avaient tous le
mme ge .
Supposons qu'au lieu de l'ge, on se soit intress au nombre de pices
du logement des 55 employs : Y est ici une variable discrte.
Catgori
e

Nombre de pices

4 4 5 5 5 6 6 6 6
7

2 3 3 3 3 3 4 4 4
4 4 4 4 4 5 5 5
5 6 6

1 1 1 2 2 2 2 2 2
3 3 3 3 3 3 3 3
3 4 4 4 4 5 5 5

135

Au lieu de comparer des histogrammes ou des diagrammes en botes, on


compare des diagrammes en btons :
Si ces diagrammes (en frquences) taient identiques, on aurait :
eY/X =
Inversement, on peut comparer les rpartitions par catgorie pour
chacune des valeurs de Y et en tracer les profils :
Dans cet exemple,
nA
sA
=
=
=
nB
sB
=
=
=
nC
sC
=
=
=
sY
n=
=
=
La variance explique par X vaut :
La variance rsiduelle vaut :
Le rapport de corrlation est : eY/X =
Ce rapport est suprieur au prcdent, ce qui indique que les diffrences
de logement d'une catgorie l'autre sont plus grandes que les
diffrences d'ge.

136

Mais cette comparaison (entre les eY/X ) n'est possible que parce qu'il
s'agit de la mme variable X, et des mmes individus.
Nous verrons ceci plus en dtail dans le module Tests .

137

III - CAS DE DEUX VARIABLES QUALITATIVES


III.1 - CAS PARTICULIER : VARIABLES ORDINALES
Chacun des 2 caractres, X et Y, prend des modalits ordonnes, ce qui
fait qu'on peut classer les n individus selon ces modalits.
Par exemple, voici les notes attribues par 2 juges 8 concurrents d'un
championnat de patinage artistique :
Numro
Juge Y
concurrent
Juge X
1

5.5

5.1

5.1

5.0

5.8

5.5

4.5

4.1

5.7

5.3

4.7

4.3

4.9

4.8

8
4.8
4.5
Ces notes sont diffrentes ; Y est globalement plus svre que X ,
mais tous les deux ont plac le n 3 en premier, le n 5 en deuxime, le n
1 en troisime, etc
le n

en dernier.

Il y a donc une concordance parfaite entre leurs jugements.


A l'inverse, un juge Z ayant attribu les notes ci-contre aurait eu un
jugement totalement oppos :
Numro
Juge Y
Juge Z
concurrent
Juge X

le n

5.5

5.1

5.1

5.1

5.0

5.3

5.8

5.5

4.3

4.5

4.1

5.9

5.7

5.3

4.6

4.7

4.3

5.8

4.9

4.8

5.5

4.8

4.5

5.7

est premier,

le n
est deuxime
le n 3 dernier.
Ce qui compte ici, ce n'est pas la note dans l'absolu, mais le rang du
concurrent, c'est--dire sa position dans le classement, par rapport aux
autres, soit pour notre exemple :

138

Numro
concurrent

RX

RY

RZ

8
6
6
3
Afin de mesurer la concordance plus ou moins grande entre jugements de
ce type, on calcule le coefficient de corrlation entre les rangs, appel
coefficient de corrlation des rangs de Spearman :
rS ( X , Y ) = r ( RX , RY )
Comme tout coefficient de corrlation, il est compris entre - 1 et 1. Pour
notre exemple :
rS ( X , Y ) =
ce qui correspond une concordance parfaite
rS ( X , Z ) =
ce qui correspond une totale discordance
Un coefficient nul signifie que les deux jugements sont indpendants.
Par exemple, pour le juge T, les rangs sont :
Numro
de
concurr
ent

rang rT

Numro
concurrent

Juge X

RX

Juge T

5.5

5.3

5.1

5.5

5.8

5.8

4.5

4.6

5.7

5.7

4.7

4.9

4.9

5.0

4.8

5.2

3
4

8
On a :
=
=
cart-type de RX =
cart-type de RT =
covariance (RX , RT ) =
coefficient de Spearman entre X et T : rS ( X , T
)=

139

Lorsqu'il n'y a pas d'ex-quo, c'est--dire si, ni X ni Y ne prennent la


mme modalit sur plusieurs individus, on peut montrer que :

o di est la diffrence, pour l'individu i , entre son rang pour X et son rang
pour Y.
Complter le tableau ci-dessous :
Numro
RT
di = RX - RT
concurrent
RX
1

-1

On a ici :
di =
et donc :
rS ( X , T ) =
ce qui est bien la valeur trouve prcdemment.
Par contre, s'il y a des ex-quo la formule prcdente n'est plus valable.
On calcule le coefficient de corrlation en assignant aux valeurs
identiques un rang gal la moyenne des rangs attribus si elles taient
lgrement diffrentes.
Ainsi pour le juge U, le concurrent n 1 et n 5 tant 2me ex-quo, soit
la place du 2e et du 3e, leur rang est 2.5.
Numro
Juge U
RU
concurrent
RX
1

5.7

2.5

5.5

5.8

5.5

5.7

2.5

5.0

5.5

4.9

Pour les concurrents n 2, n 4, n 7, leur rang est :


On a ici :

140

rS ( X , U ) =
En
vous
connectant
sur
http://www.nimitz.mcs.kent.edu/~blewis/stat/spearman.html vous pourrez
calculer interactivement le coefficient de Spearman pour des donnes
que vous introduisez vous-mme.
III.2 - CAS GNRAL : VARIABLES NOMINALES
X et Y prennent des modalits non numriques, et non ordonnes.
Par exemple, le sexe et la situation matrimoniale :
Individu
Sexe X Etat matrimonial Y
Clmence

Marie

Stphane

Veuf

Edwige

Veuve

Bndicte

Clibataire

Agathe

Clibataire

Pierre

Divorc

Jacques

Clibataire

Aurlie

Divorce

Julien

Mari

Thierry

Mari

Christophe

Clibataire

Marc

Mari

Il faut procder d'abord ce qu'on appelle un tri crois, c'est--dire


dcompter pour chaque couple (xi , yj ) de modalits obtenues le nombre
d'individus pour lesquels X vaut xi et Y vaut yj.
Ici on a :
Y
Clibataire

Mari

Veuf

Divorc

X Homme
Femme
C'est ce qu'on appelle un tableau de contingence.
Supposons que cette tude, portant sur un plus grand nombre
d'individus, ait conduit au tableau de contingence ci-dessous :
Y
Clibataire
X

Mari

Veuf

Divorc

Homme

30

20

Femme

40

25

10

141

On a au total 60 hommes et :

femmes

Soit
Cette distribution de la variable sexe , obtenue en ajoutant les effectifs
ligne par ligne, est appele distribution marginale de X : c'est la
distribution de X, toutes valeurs de Y confondues.
Modalit

Effectif

Homme

60

Femme

80

Distribution marginale de X
De mme, la distribution marginale de Y s'obtient en ajoutant les effectifs,
colonne par colonne :
Clibataire
Effectif

Mari

70

Veuf

45

Divorc

Total

17

140

On peut comparer les distributions conditionnelles de chaque variable


entre elles et avec la distribution marginale, en comparant les profils,
appels profils-lignes pour Y selon X profils-colonnes pour X selon Y :
Modalits
Frquen Femmes
ce (%)
(%)
Hommes

Total
(%)

Clibatai
re

50

50

50

Mari

33.33

31.25

32.14

Veuf

6.25

5.71

Divorc

11.67

12.5

12.14

Total

100

100

100
Veuf
(%)

Divorc
(%)

Total
(%)

Homm
42.86
e

37.5

41.18

42.86

Femm
57.14
e

62.5

58.82

57.14

Sexe

Clibataire
Mari (%)
(%)

142

Total : 100

100

100

100

100

On constate qu'au total 3 personnes sur 7


sont des hommes, et que cette proportion
est la mme chez les clibataires, alors
qu'elle est suprieure chez les maris, et
infrieure pour les 2 autres catgories.
Si cette rpartition homme-femme tait la mme pour chaque modalit de
Y, c'est--dire si les distributions conditionnelles de X sachant Y taient
gales, X et Y seraient dites indpendantes.
Pensez-vous que dans ce cas les profils lignes seraient aussi identiques,
c'est--dire que la distribution de l'tat matrimonial serait le mme pour
les hommes et pour les femmes ?
De manire gnrale, on notera x1 , x2 , ... , xk les modalits de X , y1 ,
y2 , ..., yL les modalits de Y.
Le tableau de contingence est constitu des nij = nombre d'individus pour
lesquels X = xi et Y = yj.
La distribution marginale de X s'obtient en ajoutant les effectifs nij, ligne
par ligne :

143

Celle de Y en ajoutant colonne par colonne :


Les profils-lignes correspondent aux distributions conditionnelles de Y
selon X :
Pour X = xi

Les profils-colonnes sont les distributions conditionnelles de X selon Y :


Pour Y = yj

X et Y sont indpendantes si les colonnes du tableau sont


proportionnelles, c'est--dire si les frquences
sont gales pour tout j , et donc gales aux frquences marginales :

soit

ou

nij =

Ceci entrane que les


=
sont gales pour tout i, et donc que les lignes sont aussi proportionnelles.
Voyons quels effectifs "thoriques"
on aurait eu pour l'exemple,
si les colonnes taient proportionnelles (ou les lignes) en gardant les
mmes marges :
Y

144

Clibataire Mari

Veuf

Divorc

Total

Homme

30

20

60

Femme

40

25

10

80

45

17

140

Total :
70
Effectifs observs
Y
Clibataire
X

Homme 30

Divorc
Total ni.

Mari

Veuf

19.286

3.429 7.286 60

Femme

4.571 9.714 80

Total n.j 70
45
8
17
140
Effectifs thoriques
Afin de mesurer de faon synthtique l'cart entre ces deux tableaux, et
donc l'cart entre le lien liant X et Y et l'absence totale de lien
(indpendance) on utilise un coefficient appel (se prononce kideux )
O obs effectif observ nij
tho = effectif thorique
Les marges du tableau effectifs thoriques sont-elles toujours gales
celles du tableau effectifs observs ?

soit ici : =
On peut montrer que ce nombre est aussi gal :
=n(

-1)=

Y
Clibatai
re
Mari
X

Veuf

Divorc

Homme

0.714

- 0.429

- 0.286

Femme

- 0.714

0.429

0.286

"Obs - tho"

145

Ce est toujours 0, il est nul en cas d'indpendance totale, et sa valeur


maximale est le minimum de n (K - 1) et n (L - 1), soit ici 140.
On ne peut pas comparer des portant sur des nombres de modalits
diffrents.
La signification de ce coefficient sera tudie de faon plus approfondie
dans le module Tests .
Voir aussi : http://www.stat.sc.edu/~west/applets/contable.html

146

IV - COMPLMENT
Si X est discrte, K valeurs distinctes, ou bien continue, avec un
intervalle de valeurs subdivis en K classes, elle peut tre traite, pour
les calculs, comme une variable qualitative K modalits.
Mme chose pour Y, avec L valeurs ou classes.
Il est alors possible de construire un tableau de contingence entre
variables quantitatives, partir duquel on pourra calculer la fois
r(X,Y)
eY/X , eX/Y ,

,
Les moyennes et variances :
distributions marginales.

, sX , sY se calculent partir des

Soit par exemple l'tude de 50 logements en fonction du nombre de


pices X et du nombre de personnes habitant ce logement Y :
Y
1

Total

10

14

20

15

Total

23

12

50

Le nombre moyen de pices est de :


=
avec un cart-type de :
sX =
De mme le nombre moyen d'habitants est de :

avec un cart-type de : sY =
La covariance se calcule ici par :

147

=
Ce qui donne comme coefficient de corrlation :
r(X,Y)=
=
Les distributions conditionnelles du nombre Y de personnes, pour
chaque valeur xi , s'obtiennent en lisant le tableau ligne par ligne. Elles
permettent de calculer les moyennes conditionnelles :
Ainsi pour xi = 1 ,
de mme
2
3
4

=
=
= 4.2

On appelle courbe de rgression de Y en X le trac des


en fonction de
xi
De mme, pour chaque valeur de yj de Y, on a la distribution
conditionnelle de X = logement des familles de y j personnes, les
moyennes conditionnelles :
2

=
= 1.87

= 2.67

= 3.29

148

et la courbe de rgression de X en Y
La variance de Y explique par X est la variance des moyennes
conditionnelles :
( ( 1.6 ) 10 + ... + ( 4.2 ) 5 ) - ( 2.6 )
Donc : eY/X =
Inversement , la variance de X explique par Y est la variance des

Soit
donc e X/Y =
Est-ce que eX/Y = eY/X ?

RAPPELS
j

ni.
sy =
1.08
= 2.6

1.6

10

2.2

20

3.267

15

4.2

Total : 50

sx = 0.81
= 2.3

n.j

1.2

1.87

23

2.667

12

3.29

3.667

Total

50

Le rapport de corrlation, contrairement au coefficient de


corrlation, n'est pas symtrique en X et Y.
D'autre part il est possible de montrer qu'on a toujours :
0 r eX/Y 1 , et
0 r eY/X 1
e mesure le lien plus ou moins fort entre X et Y (pas forcment linaire),
alors que r permet de voir s'il existe une relation plus ou moins affine
entre X et Y.

149

Si on dispose de l'observation de deux caractres, X et Y, sur les mmes n


individus, on peut, en plus de l'tude spare de chaque variable, dcrire
la liaison ventuelle entre X et Y.
I - TABLEAUX ET GRAPHIQUES
Les donnes brutes se prsentent sous la forme de n couples de valeurs
(ou modalits).
Si X et Y sont quantitatives, le graphique appropri est un nuage de
points.
Si X est qualitative, et Y quantitative : la distribution conditionnelle de
Y, pour chaque groupe d'individus associ une modalit de X, est
reprsente par des histogrammes, diagrammes en btons ou en botes.

Catgori
e

Age (annes)

32 ; 35 ; 40 ; 42 ;
43 ; 43 ; 49 ; 50 ;
55 ; 58

22
29
33
38
44

;
;
;
;
;

26
30
34
39
46

;
;
;
;
;

27
31
36
39
51

;
;
;
;
;

27
31
36
42
53

;
;
;
;

20
23
26
28
32
38
45

;
;
;
;
;
;

20
24
27
29
33
41

;
;
;
;
;
;

21
24
28
29
33
43

;
;
;
;
;
;

22
24
28
30
35
45

;
;
;
;
;
;

Inversement, les profils des modalits de X, reprsents par des


diagrammes circulaires ou en barres, peuvent tre compars pour les
diffrentes valeurs, ou classes de valeurs, de Y.

150

Si X et Y sont qualitatives, on construit un tableau de contingence, et


on reprsente par des diagrammes circulaires ou en barres les
distributions conditionnelles de Y pour chaque modalit de X, et de X
pour
chaque modalit de Y.

Les variables discrtes prenant un petit nombre de valeurs diffrentes, ou


les variables continues dont les valeurs sont dcoupes en un petit
nombre de classes, peuvent tre traites pour tous ces tableaux et
graphiques comme des variables qualitatives. Toutefois, les diagrammes
en barres ou circulaires doivent tre rservs aux vraies variables
qualitatives.
II - PARAMTRES CARACTRISTIQUES
- Coefficient de corrlation linaire : il mesure, dans le cas o X et Y
sont quantitatives, l'aspect plus ou moins "allong" du nuage de points.
Il peut se calculer partir des donnes brutes, ou regroupes en un
tableau de contingence. Les moyennes et carts-types s'obtiennent alors
partir des distributions marginales.

151

Si r est proche de 0, X et Y ne sont pas linairement corrles, mais cela


ne signifie pas toujours qu'il n'y a pas de lien entre elles.
Si X et Y sont ordinales, on calcule le coefficient de corrlation des
rangs de Spearman.
-

Rapport de corrlation entre Y quantitative et X qualitative (ou


assimile) : c'est la part de variance de Y explique par X. En effet,
la variance de Y se dcompose en :
variance explique
(variance des moyennes
par groupe)

variance rsiduelle
(moyenne des variances
intragroupes)

- Les courbes de rgression reprsentent les moyennes conditionnelles


d'une variable quantitative, lorsqu'une autre quantitative est fixe.
- Le coefficient : calcul sur un tableau de contingence, il est nul
dans le cas de l'indpendance entre X et Y, et d'autant plus important
que les profils sont diffrents.

152

Exercice 1 : ON NAT RICHE, ON EST GRAND


Taille
Poids moyen
moyenne
Milieu de la personne de rfrence
adulte (en
adulte (en
kg)
cm)
HOMMES
Cadre suprieur, profession
intellectuelle suprieure

175.6

73.5

Profession intermdiaire

174.4

74.2

Artisan, commerant, chef d'entreprise

173.9

75.3

Employ

173.2

73.4

Agriculteur

172.4

74.2

Ouvrier

171.9

72.8

Cadre suprieur, profession


intellectuelle suprieure

162.8

57.8

Artisan, commerant, chef d'entreprise

162.2

59.3

Profession intermdiaire

162.2

59.6

Agriculteur

161.9

60.5

Employ

161.5

61.3

FEMMES

Ouvrier
160.8
62.5
"La Gazette" n 510 - Janvier 1998
1) De quelle nature sont les variables statistiques releves pour
construire le tableau ci-dessus ?
Sexe :
Milieu :
Taille :
Poids :
2) Quels graphiques pourrait-on faire pour rendre compte de tout ou
partie de ces chiffres ?
3) Peut-on calculer partir de ces chiffres :
- une corrlation entre la taille et le poids ?
- un rapport de corrlation taille/sexe ?
- un rapport de corrlation taille/milieu ?
- un ?
- des coefficients de Spearman ?
4) Le titre vous parat-il justifi ?
Exercice 2 : IMPORT - EXPORT
1) Le tableau ci-dessous donne le montant des changes de la France
avec ses principaux partenaires commerciaux, en 1996 (en milliards de
Francs).
153

Fournisse
Clients
urs
Allemagne

245

251

BelgiqueLuxembourg

118

123

Espagne

97

115

Etats-Unis

111

88

Italie

142

135

Japon

45

27

Pays-Bas

73

66.5

Royaume-Uni

118

137

Suisse

35

56.5

Quelles sont les coordonnes du centre de gravit du nuage ?


En abscisse :

(milliard de francs)

En ordonne :
(milliard de francs)
Quel pays en est le plus proche ?
Calculer la covariance :
et le coefficient de corrlation :
Peut-on dire que le montant des importations est bien corrl, en ce qui
concerne ces 9 pays, avec le montant des exportations ?
2) Gnralement, plutt que le montant des changes, on considre le
rang des principaux partenaires commerciaux.
Compltez le tableau ci-dessous
Rangs

Fournisseurs

Clients

Allemagne

BelgiqueLuxembourg

Espagne

Etats-Unis

Italie

Japon

Pays-Bas

Royaume-Uni

Suisse
9
8
Comme il n'y a pas d' ex-quo , on peut calculer le coefficient de
Spearman au moyen de la formule :

154

Ici ce coefficient vaut :


Quel est le pays pour lequel la diffrence de rang est la plus importante ?
Exercice 3 : SEXE ET CHOLESTROL
Un mdecin a not, entre autres variables, le taux de cholestrol de 50 de
ses patients, et se demande si ce taux est le mme pour les hommes et les
femmes.
Pour cela, il construit l'histogramme ci-contre. Ce graphique vous parat-il
bien choisi pour rpondre la question ?
Au vu de ce graphique, pensez-vous que le rapport de corrlation
cholestrol/sexe est plus proche de :
Voici les donnes releves par le mdecin et
reprsentes dans le graphique prcdent.
Sexe Cholestr
ol
Masculi
n

2.15

Masculi
n

1.90

Fmini
n

1.75

Masculi
n

1.20

Sexe

Cholestr
ol

Fminin

1.97

Masculin

1.89

Fminin

1.89

Masculin

1.98

Masculin

1.51

Fminin

1.88

Masculin

1.55

Masculin

1.57

Fminin

1.94

Masculin

1.51

Masculi
n

2.10

Masculi
n

1.90

Masculi
n

1.68

Masculin

1.56

Fmini
n

Fminin

1.78

2.85

Fminin

2.27

Masculi
n

Masculin

1.37

2.28

Masculin

1.94

Fmini
n

1.62

Fminin

1.99

Fminin

1.90

Masculi
n

1.70

Masculin

2.16

Masculi
n

Masculin

2.32

1.75

Masculin

1.49

Masculi
n

Fminin

1.31

1.90

Masculin

1.39

Fmini
n

1.93

Masculin

2.12

Masculin

1.91

Masculi
n

2.09

Fminin

1.79

155

Masculi
n

2.12

Fmini
n

1.72

Masculi
n

1.57

Masculi
n

1.58

Masculi
n

1.79

Fmini
n

1.73

Fmini
n

2.11

Fmini
n

1.66

Masculi
n

2.11

Fmini
n

1.93

Le taux de cholestrol moyen est de :


avec une variance de :
Dans le tableau ci-dessous, un tri est effectu pour sparer les hommes
des femmes.

Sexe Masculin
Cholestrol

Sexe Fminin
Cholestrol

156

2.15
1.90
1.20
2.10
1.90
1.68
2.28
1.70
1.75
1.90
2.09
2.12
1.57
1.58
1.79
2.11
1.89
1.98
1.51

1.55
1.57
1.51
1.56
1.37
1.94
2.16
2.32
1.49
1.39
2.12
1.91

1.75
2.85
1.62
1.93
1.72
1.73
2.11
1.66
1.93
1.97
1.89
1.88
1.94
1.78
2.27
1.99
1.90
1.31
1.79

Pour les femmes, le taux moyen est de :


avec une variance de :
Pour les hommes, il est de :
avec une variance de :
La variance de Y (cholestrol) explique par X (sexe) est de :
Le rapport de corrlation est :
eY/X =
ce qui confirme l'impression donne par l'histogramme.
Exercice 4 : NOLOGIE
On a demand trois nologues d'valuer la qualit de 10 vins, en les
notant sur une chelle de 0 10. Les rsultats obtenus sont :
Afin de comparer ces notations, vaut-il mieux calculer :
Calculer ces coefficients :

157

nologues
Vin

Dupont Dupond Durand

10

10

10

10

10

entre Dupont et
Dupond :
entre Dupont et
Durand :
entre Dupond et
Durand :
Quel nologue se distingue le plus des deux autres ?
Est-ce parce qu'il n'a mis que de "bonnes" notes ?
Exercice 5 : TAUX DE RUSSITE AU CNAM
Le tableau ci-dessous donne le nombre d'inscrits, de prsents l'examen,
et de reus pour un module du CNAM, dans 5 centres d'examen, en 1997.
prsent
inscrits
reus
s
Bagnols/Cz
e

Bziers

13

Montpellier

30

12

Nmes

22

20

Perpignan
68
44
21
1) S'agit-il d'un tableau de contingence ?
2) On se propose de comparer les rsultats des diffrents centres l'aide
des graphiques ci-dessous.
reus recals absents
Bagnols/Cz
e

Bziers

Montpellier

18

Nmes

11

Perpignan

21

23

24

Quel serait l'angle, en d, pour Perpignan, des trois modalits :


absents :
reus :
recals :
158

3) Remplir le tableau des effectifs observs :


reus

recals

absents

Bagnols/Cze
Bziers
Montpellier
Nmes
Perpignan
Est-ce que le total de chaque ligne reprsente le nombre d'inscrits ?
4) Remplir le tableau des effectifs "thoriques " : (si les profils des
diffrents centres taient identiques)
reus

recals

absents

Bagnols/Cze
Bziers
Montpellier
Nmes
Perpignan
5) Calculer le
=
Quel centre se distingue le plus des
autres ?
absents Total
6) Pour comparer les diffrents
reus
+
des
centres du point de vue du nombre
recals inscrits
de reus par rapport aux inscrits, Bagnols/Cz
5
4
9
on se base sur le tableau :
e
ici =
Bziers
5
8
13
Peut-on comparer cette valeur
Montpellier
8
22
30
celle calcule en 5) ?
Nmes
9
13
22
Perpignan

21

47

68

Total :

48

94

142

159

reus

Total
absent
recals
des
s
inscrits

Bagnols/Cz
5
e

Bziers

13

Montpellier 8

18

30

Nmes

11

22

Perpignan

21

23

24

68

Total :

48

40

54

142

Exercice 6 : AGRICULTEURS
A partir des donnes sur la taille des exploitations agricoles et l'ge de
l'exploitant vues en prsentation, on a construit le tableau ci-dessous :
Taille (ha) / ge
18 - 25 25 - 35 35 - 45 45 - 55 55 - 65 Total
(ans)
15

18

37

32

96

5 10

12

20

10

52

10 20

14

20

35

20 30

30 150

33

80

65

198

Total :
2
18
En dduire des valeurs approches :
de la taille (en ha)
moyenne :
de l'ge moyen (en
annes) :
de l'cart-type de la taille
:
de l'cart-type de l'ge :
de la covariance :
du coefficient de
corrlation :

Peut-on dire que la

taille et l'ge sont corrls ?


Peut-on dire qu'ils sont indpendants ?
Calculer pour chaque tranche d'ge la taille moyenne conditionnelle :
Pour 18-25
ha
ans :
Pour 25-35
ha
ans :
Pour 35-45
ha
ans
Pour 45-55
ha
ans
Pour 55-65
ans

ha
160

En dduire le rapport de corrlation :


etaille/ge =
Inversement, pour chaque tranche de surface, on peut calculer la
moyenne d'ge conditionnelle :
Pour 1 5 ha :

ans

Pour 5 10 ha :

ans

Pour 10 20 ha :

ans

Pour 20 30 ha :

ans

Pour 30 150
ha :

ans

En dduire le rapport de corrlation :


ege/taille =
Les courbes de rgression ci-contre sont-elles exactes ?
Les valeurs des rapports de corrlation trouves prcdemment
confirment-elles l'impression donne par ces courbes ?
Afin de vrifier l'indpendance entre les 2 caractres considrs, on peut
calculer le
Ici

Donc :

=
Quelle serait la valeur minimale de (s'il y avait indpendance totale) ?
Quelle serait sa valeur maximale ?
On peut donc considrer qu'on est "proche" de l'indpendance.
(Ceci devrait en fait tre confirm par un test , voir module "Tests")
161

Jusqu' maintenant nous avons vu, tape par tape, comment procder en
statistique descriptive :
1 - A partir des donnes brutes, identification des individus, des
variables, de leur nature, de ce que l'on cherche dcrire.
2 - Rsums sous forme de tableaux et de graphiques, pour voir
l'allure de la distribution de chaque variable, et les liens pouvant exister
entre elles.
3 - Calcul des paramtres caractristiques, pour quantifier les traits
principaux de chaque caractre, et ventuellement les relations entre les
variables, prises deux deux.

162

Dans cette dernire leon, on ne dveloppera pas de nouvelles


procdures, mais on verra, au travers d'exemples pris dans diffrents
domaines, comment synthtiser tout ceci, au moyen d'exercices.
D'autre part, nous nous sommes limits dans ce module la Statistique
Descriptive, univarie et bivarie.
L'analyse simultane de plus de deux variables, appele "Analyse des
donnes" ne sera pas traite dans ce didacticiel.
Les autres modules du didacticiel concernent le calcul des probabilits et
la statistique infrentielle, afin d'tendre les proprits des donnes
dcrites sur un chantillon une population entire, et infirmer ou
confirmer des hypothses sur le phnomne dcrit.

163

Exercice 1 : L'AFRIQUE

Le tableau "Afrique" donne un certain nombre de renseignements sur 38


pays d'Afrique pour lesquels ces donnes sont disponibles.
1) Quels sont ici les individus statistiques ?
Combien de caractres a-t-on not sur ces individus ?

Combien y-a-t-il de variables :


qualitatives ?
discrtes ?
continues ?
ordinales ?

2) Remplir le tableau ci-dessous en ce qui concerne le PNB pour 1997


(trier d'abord). Chaque bouton vous permet d'obtenir ses valeurs tries
par ordre croissant ou alphabtique.
Frquences
Effectifs
Frquences
cumules
croissantes
moins de 200

164

de 200 moins
de 300
de 300 moins
de 400
de 400 moins
de 600
de 600 moins
de 1 000
de 1 000 4 000
Total :

38

Quel histogramme vous semble le plus juste pour reprsenter ces


valeurs ?
Frquenc
Effectifs
es

Frquences
cumules
croissantes

moins de 200

0.184

0.184

de 200 moins de
300

0.184

0.368

165

de 300 moins de
400

0.184

0.552

de 400 moins de
600

0.132

0.684

de 600 moins de
1 000

0.132

0.816

de 1 000 4 000

0.184

Total :

38

Quel est le pourcentage de pays dont le PNB est infrieur 1 000 ?

Quel est le pourcentage de pays dont le PNB est suprieur 600 ?


3) Toujours pour le PNB de 1997, dterminer la mdiane :
Q2 =
Et les quartiles :
Q1 =
Q3 =
Y-a-t-il des donnes statistiquement "aberrantes" ?
Faites les mmes calculs pour le PNB de 1996

Q2 =

166

Q1 =
Q3 =
Donner par ordre croissant les PNB les plus "aberrants " :

Parmi les prsentations ci-contre, laquelle vous parat juste pour


comparer le PNB en 96 et en 97 ?
Pourrait-on pour cela utiliser un nuage de points ?
4) Les nuages de points ci-contre reprsentent l'esprance de vie Y en
fonction du PNB 97, X, puis de la fcondit Z.
Le coefficient de corrlation r ( X , Y )
est-il proche de 1 ?
est-il positif ?
Le coefficient de corrlation r ( Y , Z )
est-il gal r ( Z , Y ) ?
est-il positif ?

A partir des calculs intermdiaires ci-dessous, dterminer ces coefficients


de corrlation :

167

r(X,Y)=
r(Y,Z)=
Peut-on en dduire qu'avoir beaucoup d'enfants fait mourir plus jeune ?
5) L'histogramme ci-contre vous parat-il correct ?
Pensez-vous que la rgion puisse expliquer une part non
ngligeable de la variance de esprance de vie ?
Pour la rgion (a), soit na = 8 pays, la moyenne de l'esprance de vie est
a

ans

avec un cart-type de sa =

ans

Pour la rgion (n), soit nb = 4 pays,


moyenne est de :

la

=
ans
avec un cart-type
n

de sn =

ans

168

On rappelle que l'esprance de vie moyenne, sur les 38 pays considrs,


est de 52.8132, avec un cart-type de 8.0381 (ans).
Calculer la variance de Y (esprance de vie) :
La variance explique par R (rgion) :
La variance rsiduelle :
Le rapport de corrlation :
eY/R =

Exercice 2 : LYCENS
Le tableau "Lycens" donne les moyennes de 36 lycens d'une classe de
1re dans toutes les matires, ainsi que leur sexe et leur ge.
1) La variable ge est-elle ici :

Complter le tableau :
Age

Effectifs

Frquences

Total :

36

Pour trier le tableau :


Le diagramme en btons ci-contre est-il correct ?
169

Les courbes cumulatives sont-elles correctes ?


Courbes 1 :
Courbes 2 :

2) Peut-on reprsenter la variable "maths" par un diagramme tige-feuilles


?
A l'aide du bouton Maths, trier les donnes selon "maths" :
Le diagramme tige-feuille ci-contre est-il correct ?
L'utiliser pour dterminer :
la mdiane :
les quartiles

170

Q1 =
Q3 =
la moyenne :
Quel pourcentage de notes est suprieur la moyenne, soit 11.25 ?
%
L'histogramme est-il juste ?
Les botes ci-contre permettent de reprsenter globalement toutes les
matires.
Quelle matire prsente la plus grande dispersion ?
Dans combien de matires l'lve Olivier fait-il partie du premier
quart de la classe ?
Dans combien de matires fait-il partie du dernier quart ?
Ces diagrammes permettent-ils de voir si les notes des diffrentes
matires sont bien corrles ?
4) On voudrait savoir si les notes d'EPS (Education Physique et Sportive)
sont comparables pour les garons et les filles, car ils ont deux
professeurs diffrents.
Aprs avoir tri les notes d'EPS par calculer les paramtres suivants :
Garons
Filles
Garons et filles
Mdiane
1er
quartile
3me
quartile
Moyenne
Effectif

20

16

36

Calculer le rapport de corrlation :


eeps/sexe =
Les notes des garons et des filles sont-elles comparables ?
5) Compltez le tableau de contingence Sexe Age :
171

16

17

18

19

Total

Masculin
Fminin
Total :
Quels effectifs "thoriques" aurait-on si les deux lignes taient proportionnelles, avec
les mmes marges ?
16

17

18

19

Masculi
n
Fminin
Calculer le entre l'ge et le sexe :
Peut-on dire que la rpartition des ges est trs diffrente pour les
garons et les filles ?
6) Peut-on considrer les notes comme des variables ordinales ?
Calculer, pour les garons, le coefficient de corrlation des rangs entre
Maths et Physique :

puis entre Maths et EPS :


7) Complter la case manquante du tableau de contingence ci-contre :
Dterminer, sur la courbe de rgression de Y en X ,
l'abscisse :
puis l'ordonne du point manquant :

172

Mme chose pour la courbe de rgression de X en Y :


abscisse :
ordonne :
Pensez-vous que le coefficient de corrlation entre ces variables soit
proche :
Lorsqu'on a, comme ici, plusieurs caractres mesurs sur les mmes
individus, on peut rsumer l'ensemble des corrlations entre toutes les
variables, prises deux deux, par un tableau appel matrice de
corrlation.
A titre indicatif, voici ces matrices pour les corrlations entre les 8 notes
des 36 lves, puis les corrlations des rangs.
Matrice de corrlation pour les variables
notes
Maths

Physiqu Biologi Franai Histoiree


e
s
Go.

LV1 LV2 EPS

Maths

Physique

.477

Biologie

.205

.315

Franais

.224

.45

.31

Histoire-Go. -.011 .084

.282

.168

LV1

.103

.491

.529

.48

.164

LV2

-.066 .128

.178

.27

.145

.46

EPS

.235

-.047

.03

-.371

-.151 -.135 1

.215

Matrice de corrlation pour les rangs des


notes
Maths

Physiqu Biologi Franai Histoiree


e
s
Go.

LV1 LV2 EPS

Maths

Physique

.487

Biologie

.178

.328

Franais

.184

.376

.307

Histoire-Go. -.006 .054

.25

.154

LV1

.135

.505

.547

.498

.127

LV2

-.065 .058

.142

.342

.135

.421 1

EPS
.217 .117
-.087
.058
-.399
-.173 -.167 1
Les valeurs au-dessus de la diagonale s'obtiennent par symtrie puisque :
r ( X , Y ) = r ( Y , X ).
A-t-on toujours des 1 sur la diagonale ?
Exercice 2 : LYCENS

173

Le tableau "Lycens" donne les moyennes de 36 lycens d'une classe de


1re dans toutes les matires, ainsi que leur sexe et leur ge.
1) La variable ge est-elle ici :
Complter le tableau :
Age

Effectifs

Total :
36
Pour trier le tableau :
Le diagramme en btons ci-contre est-il correct ?
Les courbes cumulatives sont-elles correctes ?
Courbes 1 :
Courbes 2 :

Frquences

174

2) Peut-on reprsenter la variable "maths" par un diagramme tige-feuilles


?
A l'aide du bouton Maths, trier les donnes selon "maths" :
Le diagramme tige-feuille ci-contre est-il correct ?
L'utiliser pour dterminer :
la mdiane :
les quartiles
Q1 =
Q3 =
la moyenne :
Quel pourcentage de notes est suprieur la moyenne, soit 11.25 ?
%
L'histogramme est-il juste ?
Les "botes " ci-contre permettent de reprsenter globalement toutes les
matires.
Quelle matire prsente la plus grande dispersion ?
Dans combien de matires l'lve "Olivier" fait-il partie du premier quart
de la classe ?
Dans combien de matires fait-il partie du dernier quart ?
Ces diagrammes permettent-ils de voir si les notes des diffrentes
matires sont bien corrles ?
4) On voudrait savoir si les notes d'EPS (Education Physique et Sportive)
sont comparables pour les garons et les filles, car ils ont deux
professeurs diffrents.
Aprs avoir tri les notes d'EPS par calculer les paramtres suivants :
Garons
Filles
Garons et filles
Mdiane
1er
quartile
3me
quartile
Moyenne
Effectif

20

16

36
175

Calculer le rapport de corrlation :


eeps/sexe =
Les notes des garons et des filles sont-elles comparables ?
5) Compltez le tableau de contingence Sexe Age :
16

17

18

19

Total

Masculin
Fminin
Total :
Quels effectifs "thoriques" aurait-on si
proportionnelles, avec les mmes marges ?
16
17

les
18

deux

lignes

taient
19

Masculi
n
Fminin
Calculer le entre l'ge et le sexe :
Peut-on dire que la rpartition des ges est trs diffrente pour les
garons et les filles ?
6) Peut-on considrer les notes comme des variables ordinales ?
Calculer, pour les garons, le coefficient de corrlation des rangs entre
Maths et Physique :
puis entre Maths et EPS :

176

7) Complter la case manquante du tableau de contingence ci-contre :


Dterminer, sur la courbe de rgression de Y en X ,
l'abscisse :
puis l'ordonne du point manquant :
Mme chose pour la courbe de rgression de X en Y :
abscisse :
ordonne :
Pensez-vous que le coefficient de corrlation entre ces variables soit
proche :
Lorsqu'on a, comme ici, plusieurs caractres mesurs sur les mmes
individus, on peut rsumer l'ensemble des corrlations entre toutes les
variables, prises deux deux, par un tableau appel matrice de
corrlation.
A titre indicatif, voici ces matrices pour les corrlations entre les 8 notes
des 36 lves, puis les corrlations des rangs.
Matrice de corrlation pour les variables
notes
Maths

Physiqu Biologi Franai


e
e
s

HistoireGo.

Maths

Physique

.477

Biologie

.205

.315

Franais

.224

.45

.31

.084

.282

.168

Histoire-Go. -.011

LV1 LV2 EPS

LV1

.103

.491

.529

.48

.164

LV2

-.066

.128

.178

.27

.145

.46

EPS

.235

.215

-.047

.03

-.371

-.151 -.135

Matrice de corrlation pour les rangs des


notes
Maths

Physiqu Biologi Franai


e
e
s

Maths

Physique

.487

Biologie

.178

.328

HistoireGo.

LV1 LV2 EPS

177

Franais

.184

.376

.307

Histoire-Go. -.006

.054

.25

.154

LV1

.135

.505

.547

.498

.127

LV2

-.065

.058

.142

.342

.135

.421

EPS
.217
.117
-.087
.058
-.399
-.173 -.167 1
Les valeurs au-dessus de la diagonale s'obtiennent par symtrie puisque :
r ( X , Y ) = r ( Y , X ).
A-t-on toujours des 1 sur la diagonale ?

178