Vous êtes sur la page 1sur 21

Thme 0 : Statistique descriptive Statistique pour ingnieur

Statistique pour ingnieur


Thme 0 : Statistique descriptive
F. Delacroix & M. Lecomte, 2 septembre 2016

Introduction gnrale
Ce cours porte sur les notions de statistique utiles pour lingnieur. Tout dabord,
quest-ce que la statistique ? Ce mot dsigne la fois un ensemble de donnes observes
et les mthodes de recueil, de traitement et danalyse de celles-ci. Par exemple, les relevs
des nombres de pannes observes dans une unit de production constituent une statistique.
Les concepts dvelopps en statistique sont utiles dans de nombreux domaines et
font partie des connaissances de base de lingnieur, de lconomiste et du scientifique en
gnral. Parmi les nombreuses applications dans lindustrie, on peut citer la fiabilit, le
contrle de qualit, la matrise statistique des procds, etc.
Ce cours comprend grosso modo quatre parties dclines en cinq thmes :
la statistique descriptive permet de dcrire les donnes laide de graphiques
et de paramtres dune faon comprhensible et utilisable. Cette partie sera prin-
cipalement dveloppe au sein du thme 0, objet du prsent poly.
Les concepts de base en probabilits sont essentiels pour modliser efficacement
les phnomnes tudis en statistique. Ils seront traits dans le thme 1.
La statistique infrentielle permet de faire des prvisions ou des gnralisations
tout une population partir dchantillons. Elle sera dveloppe dans les thmes
2 et 3, respectivement ddis lestimation et aux tests statistiques, et repose
essentiellement sur la thorie des probabilits.
La rgression linaire, dveloppe dans le thme 4, permet dtudier la relation
existant entre deux variables. Elle met en place des modles de prvision et des
outils pour valider ceux-ci.

La statistique ou les statistiques ?


Au pluriel, les statistiques dsignent des grandeurs (gnralement numriques) que
lon calcule, ou que lon est capable de calculer (selon une dfinition prcise qui sera
donne lors du thme 2), sur un ensemble de donnes observes. A contrario, au singulier,
la statistique est le nom de la science qui tudie ces grandeurs et propose des outils
pour les concevoir.
Ce cours de statistique pour ingnieur a donc pour finalit dinitier cette science
permettant la mise en place de techniques rigoureuses pour ltude de donnes en grands
volumes (statistique descriptive) ou seulement partiellement connues (statistique infren-
tielle et rgression linaire).

Institut Mines-Tlcom 1
Statistique pour ingnieur Thme 0 : Statistique descriptive

Statistique : gnralits
Dans ce premier thme, nous abordons les notions gnrales. Dans la dmarche statis-
tique, il sagit, dans un premier temps, de dcrire, prsenter et rsumer les donnes sous
la forme de tableaux et de graphiques, puis de calculer certains paramtres (moyenne,
cart-type, etc.) pour les caractriser. Nous entrons donc de plain-pied dans la statistique
descriptive.

Table des matires


Introduction gnrale 1

Statistique : gnralits 2

1 Vocabulaire de la statistique 2

2 Statistique et probabilits 4

3 Variables ou caractres 5

4 Loi dune variable quantitative, fonction de rpartition 8

5 Grandeurs statistiques usuelles 8


5.1 Paramtres de position . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5.2 Paramtres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

6 Distributions deux caractres 14

7 Cas de deux variables quantitatives 16


7.1 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
7.2 Covariance de deux variables quantitatives . . . . . . . . . . . . . . . . . . 17
7.3 Coefficient de corrlation linaire . . . . . . . . . . . . . . . . . . . . . . . 19

Exercices 20
Exercice 1 : Quelques calculs de statistique descriptive . . . . . . . . . . . 20
Exercice 2 : tude dune corrlation . . . . . . . . . . . . . . . . . . . . . . 20

1 Vocabulaire de la statistique
En statistique, on utilise les notions de la thorie des ensembles avec un vocabulaire
spcifique, comme rsum dans la table 1
Le terme population sapplique des ensembles de toute nature : habitants dune
ville ou dun pays, production dune usine, entreprises dun secteur donn, etc.
La collecte dinformations sur une population peut porter sur la totalit des individus :
on parle alors denqutes exhaustives. Dans le cas o leffectif de la population est lev,
de telles enqutes sont trop coteuses voire impossibles raliser. On a alors recours
aux enqutes par sondage, qui portent sur une partie de la population quon nomme
chantillon. Les observations faites sur lchantillon peuvent alors, grce aux outils de la

2 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

Vocabulaire ensembliste Vocabulaire statistique


Ensemble Population
Application Variable ou caractre
lment Individu ou unit statistique
Sous-ensemble Sous-population
Cardinal Effectif

Table 1 vocabulaire statistique courant

statistique infrentielle, stendre toute la population, comme on le verra dans le thme


2 ddi lestimation.
Leffectif dune population finie est souvent not Card , plus rarement || ou #.

Dfinition 1
La frquence dune sous-population E de est le rapport des effectifs de E et de
:
Card(E)
f (E) = [0,1].
Card()
Cette frquence est souvent exprime sous forme de pourcentage.

La synthse des donnes se fait trs souvent sous la forme de tableaux, graphiques et
de rsums numriques comme on va le voir dans les paragraphes suivants.

Exemple 1
Si lon considre la population en 2007 des entreprises en France (hors micro-entreprise
et hors secteur financier) et si lon rpartit celles-ci selon leur taille, on obtient la table 2.

Taille de lentreprise Effectif Frquence


PME
Petites et Moyennes 162 400 97,2%
Entreprises
ETI
Entreprises de Taille 4 510 2,7%
Intermdiaire
Grandes entreprises 219 0,1%
Total 167129 100%

Table 2 donnes de lexemple 1 (source : INSEE)

Les sous-populations issues du regroupement des donnes comme dans lexemple 1 sont
souvent nommes classes. Ce qui ressort de cet exemple est que 97,2% des entreprises en
France en 2007 taient des PME. Les frquences calcules dfinissent la loi empirique,
ou distribution empirique, de la variable tudie, comme on le verra la section 4.

Institut Mines-Tlcom 3
Statistique pour ingnieur Thme 0 : Statistique descriptive

2 Statistique et probabilits
La thorie des probabilits joue un rle important en statistique car elle permet de
modliser certains phnomnes alatoires, cest--dire des expriences dont le rsultat ne
peut pas tre prvu avec une totale certitude. Des dveloppements spcifiques seront
consacrs cette thorie lors du thme 1.
Prenons quelques exemples pour illustrer la relation entre probabilits et statistique.
Lintuition nous amne penser que certains phnomnes obissent certaines lois. Par
exemple, si on jette 6000 fois un d bien quilibr, on sattend ce que le nombre dappa-
ritions de la face 6 soit voisin de 1000.
Autre exemple : une unit de production fabrique des tiges mtalliques en grande
quantit. On mesure les longueurs de 100 tiges choisies au hasard. On peut penser que
les valeurs observes seront concentres autour dune certaine valeur moyenne. Dans ce
cas, on considre assez souvent que les valeurs observes se distribuent selon un certain
modle, une certaine loi, par exemple la loi normale (cf. figure 1). Cette hypothse peut
tre conforte par un test dajustement (voir le thme 3 portant sur les tests statistiques).

0,04

0,03

0,02

0,01

0,00
210 230 250 270 290 310

Figure 1 Distribution empirique de 100 mesures de longueur

La thorie des probabilits permet de formaliser ces considrations un peu vagues. La


statistique permet de confronter les modles probabilistes avec la ralit observe afin de
les valider ou de les invalider.
Les probabilits jouent aussi un rle important dans la thorie de lestimation qui a
pour objet dtendre les proprits observes sur lchantillon toute la population. En
effet, les chantillons dindividus sont la plupart du temps choisis au hasard au sein de
la population. Par consquent, les caractristiques observes sur lchantillon deviennent,
par le biais de ce hasard, des variables alatoires et la thorie des probabilits permet den
tudier les proprits.
Par exemple, le thorme central limite tudi au thme 1 permet dtablir que la
moyenne dune variable numrique mesure sur n individus suit approximativement une
loi normale pourvu que n soit suffisamment grand.

4 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

3 Variables ou caractres
En statistique, la population, gnralement note , est un ensemble dlments dfinis
sans ambigut, ces lments tant appels individus. La population constitue lunivers
de rfrence lors dune tude statistique.
Exemple 2
On se propose dtudier les pices produites en srie dans une usine. On dfinit la
population comme lensemble de toutes les pices produites pendant une certaine
priode.
Chaque individu dune population est dcrit par un ensemble de caractristiques ap-
peles variables ou caractres. Certaines variables sont qualitatives, sexprimant par
lappartenance une catgorie : par exemple, dans le cadre de lexemple 2, le caractre
dfectueux ou non dune pice.
Dautres variables sont quantitatives (ou : numriques). Par exemple la taille, le
poids, le volume, la dure de vie sont des variables quantitatives. Une variable quantitative
est qualifie de discrte dans le cas o lon observe un nombre fini ou infini dnombrable
de valeurs.
Exemple 3
Le nombre de dfauts observs sur une pice produite dans un atelier est une variable
discrte.
tant donne une variable discrte X, lensemble des valeurs (ou : modalits) prises
par X est lensemble

X() = {x1 ,x2 , . . . ,xn . . . } = {xi , i N }.

Si on note ni le nombre doccurrences de xi dans toute la population, et n = Card() la


taille de la population, alors la frquence correspondante est
ni
fi = .
n

Exemple 4
La table 3 donne la rpartition, selon les jours de la semaine, des 155 pannes observes
dans une unit de production pendant une anne.

Jour xi Nombre de pannes ni Frquence fi


lundi 45 29%
mardi 36 23%
mercredi 39 25%
jeudi 20 13%
vendredi 15 10%
Total 155 100%

Table 3 rpartition selon le jour de la semaine de 155 pannes observes dans lexemple 4

On reprsente les effectifs ou les frquences par des diagrammes adapts :

Institut Mines-Tlcom 5
Statistique pour ingnieur Thme 0 : Statistique descriptive

Diagrammes en btons (ou barres) : leffectif ou la frquence correspondant


chaque valeur du caractre est reprsent par la longueur dun segment ou dun
rectangle de largeur constante. La reprsentation de plusieurs sries de donnes sur
un mme graphique peut se faire en empilant les barres comme la figure 2.

Nombres de pannes selon les jours de la semaine

vendredi 11 4

jeudi 13 7 pannes lectriques

mercredi 34 5 autres pannes

mardi 28 8

lundi 35 10
0 10 20 30 40 50

Figure 2 Diagramme en btons (donnes de lexemple 4)

Diagramme circulaire : chaque valeur ou classe est reprsente par un secteur


angulaire dun disque dont langle (et donc la surface) est proportionnel sa fr-
quence : voir figure 3

Rpartition des pannes selon les jours de la semaine

lundi

mardi

29 %
23 %

10 %
25 % vendredi
13 %

mercredi
jeudi

Figure 3 Diagramme circulaire (donnes de lexemple 4)

Un caractre est dit continu lorsque les valeurs quil prend constituent un intervalle
de R. Dans ce cas, il est frquent de diviser la population en classes selon les intervalles
de valeurs prises par le caractre. Ce procd est parfois appel discrtisation de la
variable.

6 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

Exemple 5
Une entreprise fabrique des composants lectroniques. La dure de vie X dun compo-
sant est une variable continue.
Dans ce cas, on regroupe les valeurs observes en k classes dextrmits e0 ,e1 , . . . ,ek ; et
on note pour chaque classe [ei1 ,ei [ leffectif ni et la frquence fi , ainsi que les frquences
cumules
i
X
Fi = fj .
j=1

On peut alors remarquer que Fi est la proportion dindividus pour lesquels X < ei .

Exemple 6
Une entreprise fabrique des axes de roue dont le diamtre X est une variable continue.
La table 4 donne la rpartition en classes de 500 axes de roues selon leur diamtre
(unit : dixime de millimtre).

Classe Effectif Frquence (%) Frquence cumule (%)


[244 ;248] 72 14,4 14,4
]248 ;250] 146 29,2 43,6
]250 ;252] 206 41,2 84,8
]252 ;254] 69 13,8 98,6
]254 ;258] 7 1,4 100
Total 500 100

Table 4 Valeurs observes du diamtre de 500 axes de roues (exemple 6)

On peut reprsenter cette srie de donnes par un histogramme : chaque classe est
reprsente par un rectangle dont laire est proportionnelle leffectif, comme illustr
la figure 4.

Diamtres des axes de roues

244 248 250 252 254 258

Figure 4 Histogramme de distribution (donnes de lexemple 6)

Institut Mines-Tlcom 7
Statistique pour ingnieur Thme 0 : Statistique descriptive

4 Loi dune variable quantitative, fonction de rpar-


tition
La loi, ou distribution empirique, dune variable X sur une population est la
donne de la frquence de chaque classe dfinie par la variable X.
Si X est qualitative, ou quantitative discrte, sa loi est dfinie par la frquence de
chaque sous-population du type {X = xi } = { ,X() = xi } ;
si X est continue et si les valeurs possibles de X sont rparties en classes Ci ,
la loi empirique de X est la donne de chaque frquence des sous-populations
{X Ci } = { ,X() Ci }.
Les exemples 4 et 6 illustrent ce concept, respectivement dans le cas dune variable
qualitative et dune variable continue dont les valeurs sont regroupes en classes.
Dans le cas dune variable quantitative, la fonction de rpartition de X est un outil
essentiel qui trouvera son prolongement en probabilits.
Dfinition 2
La fonction de rpartition empirique de X est la fonction, note FX , qui x R
associe la frquence de la sous-population {X 6 x} :

FX : R R
Card{ ,X() 6 x}
x 7 FX (x) = .
Card

On observera que la dfinition 2 dfinit toujours FX sur R tout entier, mme en des
valeurs qui ne sont a priori pas des valeurs possibles de X (auquel cas la sous-population
{X 6 x} a tout de mme un sens, et est ventuellement vide).
Une fonction de rpartition empirique est toujours croissante sur R, de limites nulle en
et 1 en +. La population tant finie, il sagit en ralit toujours dune fonction en
escaliers. En pratique, pour une population assimilable une population infinie et un
caractre X continu, la fonction de rpartition FX est elle-mme assimile une fonction
continue croissante de 0 1.
La figure 5 illustre ceci sur les donnes de lexemple 6. Bien entendu, comme on na que
des donnes partielles, les points calculables de la fonction de rpartition empirique sont
relis entre eux (interpols) de faon plausible pour donner effectivement une fonction
continue.

5 Grandeurs statistiques usuelles


Intressons-nous une variable quantitative X dont on possde, dans le cas discret, n
valeurs notes x1 , . . . ,xn . Si X est continue, on dispose couramment dune discrtisation
des donnes en k classes qui sont, en gnral, des intervalles de R. On notera ces classes
[ei1 ,ei [.
Le calcul de grandeurs caractristiques lies la distribution empirique de X per-
met souvent den rsumer des informations essentielles. Prsentons quelques unes de ces
grandeurs, en distinguant les paramtres de position (galement parfois appels para-
mtres de tendance centrale) et les paramtres de dispersion.

8 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

100 %

80 %

60 %

40 %

20 %

0%
242 244 246 248 250 252 254 256 258 260

Figure 5 Allure du graphe de la fonction de rpartition de la variable de lexemple 6

5.1 Paramtres de position

Dfinition 3 (Moyenne)
n
1X
La moyenne du caractre X est la quantit x = xi .
n i=1

La moyenne est le paramtre le plus utilis. Facile calculer, elle a cependant lincon-
vnient dtre trs sensible au retrait ou lajout de valeurs extrmes ou aberrantes.
On dit que cest une statistique peu robuste.
Exemple 7
Le tableau ci-dessous prsente la srie statistique donnant les primes annuelles (en
ke) perues par 11 cadres dune PME.

Prime (ke) 5 4 3 6 7
Effectif 2 2 2 1 4

La prime moyenne touche par les cadres est alors :


1 58
x= (2 5 + 2 4 + 2 3 + 1 6 + 4 7) = ' 5,273.
11 11
La prime moyenne est donc de 5273e.
La proposition suivante, facile dmontrer, est une proprit trs importante de la
moyenne.
Proposition 1 (Transformation affine de la moyenne)
Si on effectue une transformation affine de la variable X, alors la moyenne x subit la
mme transformation affine.
Autrement dit, si Y = a X + b avec a,b R, alors

y = a x + b.

Institut Mines-Tlcom 9
Statistique pour ingnieur Thme 0 : Statistique descriptive

Dans le cas dune variable continue, on fait gnralement lhypothse que la rpartition
des observations est uniforme dans chaque classe. Alors la valeur moyenne des observations
dans la classe [ei1 ,ei [ est xi = 12 (ei1 + ei ).
Dans le cas o il y a k classes, on peut alors calculer la moyenne x sous la forme
k n
1X X
x= n i xi = f i xi
n i=1 i=1

o ni et fi dsignent respectivement leffectif et la frquence de la classe [ei1 ,ei [.


Dfinition 4
Le mode, ou la classe modale, dune distribution statistique est la valeur (ou la
classe) du caractre qui correspond la plus grande frquence.
Dans lexemple 7, le mode est 7, correspondant une prime annuelle de 7000e.
La moyenne est un paramtre peut robuste, cest--dire quelle est sensible aux valeurs
aberrantes (trop petites ou trop grandes). Pour liminer le rle des valeurs aberrantes, on
dfinit un autre paramtre de position : la mdiane. Intuitivement, il sagit dune valeur,
note Me , qui partage la distribution statistique en deux sous-populations deffectifs gaux.
Plus prcisment, on a la dfinition suivante.
Dfinition 5 (Mdiane)
On appelle mdiane du caractre X tout nombre Me tel que la frquence de la sous-
population {X 6 Me } est suprieure ou gale 12 et tel que la frquence de la sous-
population {X > Me } est elle aussi suprieure ou gale 12 : en notant f ( ) la
frquence,
1 1
f ({X 6 Me }) > et f ({X > Me }) > .
2 2
En pratique, aprs avoir class les observations dans le sens croissant, la mdiane
est la valeur de lobservation qui se trouve au rang n+1
2
si n est impair.
Si n est pair (n = 2p) on choisit, par convention, le milieu de lintervalle [xp ,xp+1 ].

Reprenons les donnes de lexemple 7, et classons-les par ordre croissant, chacune


rpte un nombre de fois gal son effectif :

3, 3, 4, 4, 5, 5, 6, 7, 7, 7, 7

Me

On obtient une mdiane Me gale 5, soit une prime mdiane de 5000e.


Remarque
La mdiane est plus robuste que la moyenne mais ses proprits la rendent plus difficile
utiliser.

Dfinition 6
Les quartiles Q1 , Q2 et Q3 sont, de manire analogue, des valeurs permettant de
diviser la population en quatre sous-populations deffectifs gaux, reprsentant chacune
25% de la population totale.

10 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

Il existe des mthodes diffrentes pour obtenir les quartiles. Dans le cas dune variable
discrte, la mthode la plus courante consiste dterminer les mdianes de chacune des
deux sous-populations dlimites par la mdiane Me pour obtenir les quartiles Q1 et Q3 .
Dans le cas des donnes de lexemple 7, on obtient les valeurs suivantes :

3, 3, 4, 4, 5, 5, 6, 7, 7, 7, 7

Q1 Me = Q2 Q3

Le premier quartile est Q1 = 4, ce qui signifie quau moins 25% des cadres de cette
entreprise ont une prime infrieure ou gale 4000e.
Remarque
La distance interquartile |Q3 Q1 | est un indicateur parfois utilis pour mesurer
la dispersion des donnes autour de la mdiane.
De la mme faon, tant donn un entier p > 2, on peut dfinir les quantiles, qui
sont les valeurs du caractre permettant de diviser la population en p sous-populations
deffectifs gaux. par exemple, les dciles dune srie statistique partagent la srie en dix
parties de mme effectif. En pratique, seuls les premier et dernier dciles, respectivement
nots D1 et D9 , sont utiliss.
Remarque
Dans le cas dune variable continue, on peut utiliser la fonction de rpartition empi-
rique FX pour dterminer les quantiles. Par exemple, si la fonction F est continue et
strictement croissante, alors elle ralise une bijection de R sur ]0,1[, et on a

Q1 = FX1 (0,25) Me = FX1 (0,5) Q3 = FX1 (0,75).

Dans la pratique, on obtient des valeurs approches de ces quantits en procdant


une interpolation linaire.
Une fois que les quartiles et dciles ont t calculs, nous pouvons reprsenter les
donnes de faon synthtique laide dune bote moustaches (en anglais : boxplot).
La partie centrale de la bote est constitue dun rectangle dont la longueur est la distance
interquartile |Q3 Q1 |. Les moustaches sont des segments qui stendent de part et
dautre de la bote jusquau premier dcile D1 pour la moustache infrieure, jusquau
dernier dcile D9 pour la moustache suprieure. On dit alors que les moustaches sont
coupes. Les moustaches non coupes, plus rares, consistent aller jusquau minimum et
au maximum de la distribution (qui peuvent tre des valeurs aberrantes).
Lintrt des botes moustaches rside dans le fait quelles permettent de comparer
aisment (visuellement) plusieurs sries de donnes comme dans lexemple 8 ci-dessous.

Exemple 8
La table 5 regroupe des donnes relatives aux salaires annuels nets moyens dans
lindustrie selon la catgorie socio-professionnelle en 2011. La figure 6 reprsente ces
donnes aux fins de comparaison des diffrentes catgories socioprofessionnelles de ce
secteur.

Institut Mines-Tlcom 11
Statistique pour ingnieur Thme 0 : Statistique descriptive

Cadres1 Professions intermdiaires Employs Ouvriers Ensemble


D1 28 900 19 370 13 380 14 650 15 290
Q1 35 560 22 810 15 400 16 710 18 110
Me 43 910 27 180 18 960 19 620 22 770
Q3 56 970 32 710 23 360 23 420 30 850
D9 76 870 39 210 28 540 27 920 43 790
D9/D1 2,7 2,0 2,1 1,9 2,9
Moy 50 600 28 670 20 310 20 780 27 450
Champ : France, salaris en EQTP du secteur priv et des entreprises publiques. Sont exclus les apprentis, les stagiaires,
les bnficiaires de contrats aids et les salaris des particuliers-employeurs.
1
Y compris chefs dentreprises salaris
Source : INSEE, DADS, fichier semi-dfinitif (exploitation au 1/12)

Table 5 Salaires nets annuels moyens dans lindustrie selon la CSP en 2011 (exemple 8)

80 ke

70 ke

60 ke

50 ke

40 ke

30 ke
20 ke

10 ke
Professions
Cadres Employs Ouvriers
intermdiaires

Figure 6 Salaires annuels nets dans lindustrie par catgorie socio-professionnelle (don-
nes de lexemple 8)

12 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

5.2 Paramtres de dispersion


Les caractristiques de position ne suffisent pas en gnral pour rsumer les donnes.
Pour les complter, on calcule des paramtres de dispersion qui rendent compte du plus
ou moins grand talement des valeurs observes.

Dfinition 7
Ltendue (en anglais : range) est la diffrence entre les valeurs extrmes du carac-
tre :
w = xmax xmin .

Ltendue est bien entendu un paramtre grossier, peu robuste dans la mesure o sa
sensibilit aux valeurs aberrantes est extrme.

Dfinition 8

(1) La variance de la variable X est la quantit


n
1X
2 = (xi x)2 ,
n i=1

qui reprsente donc la moyenne des carrs des carts entre les observations et leur
moyenne.
(2) Lcart-type de X est la racine carre de la variance.

La variance joue, de part ses proprits (que nont pas dautres paramtres de disper-
sion) un rle fondamental en statistique. En pratique, on la calcule souvent laide de la
relation suivante, qui se dmontre en dveloppant la formule de la dfinition 8.

Proposition 2 (Formule usuelle de calcul de la variance)


n
1X
2 = x2 x2
n i=1 i
(moyenne des carrs moins carr de la moyenne).

Lune des proprits importantes de la variance concerne leffet dune transformation


affine (leffet dune telle transformation affine sur la moyenne a t mentionn la propo-
sition 1).

Proposition 3 (Effet dune transformation affine sur la variance)


Si on effectue une transformation affine des donnes, alors la variance est multiplie
par le carr du coefficient directeur de la transformation.
Autrement dit, si on pose Y = a X + b avec a,b R, on a

Y2 = a2 X
2
.

Reprenons les donnes de lexemple 7. On a vu que x ' 5,273. On a donc, daprs la

Institut Mines-Tlcom 13
Statistique pour ingnieur Thme 0 : Statistique descriptive

proposition 2 :
1 h i
2 = 2 52 + 2 42 + 2 32 + 1 62 + 4 72 5,2732 ' 2,377
11
do un cart-type ' 1,54 ke= 1540e. Cet cart-type est une mesure de dispersion
autour de la valeur moyenne.
Dans le cas dune variable continue, on procde comme pour la moyenne, avec les centre
des classes xi = 21 (ei1 + ei ) comme reprsentants de celles-ci. On peut alors directement
appliquer la dfinition 8 ou la proposition 2.
En guise de dernier paramtre de dispersion usuel, citons enfin la distance inter-
quartile, dj rencontre la section 5.1 :
IQ = |Q3 Q1 |.

6 Distributions deux caractres


tudions maintenant une population de taille n selon deux variables X et Y , qui
peuvent tre qualitatives ou quantitatives, sans tre ncessairement de mme nature.
Exemple 9
On a relev la taille et le poids dune population constitue de 200 tudiants.

Exemple 10
Dans une ville moyenne, on a relev, pour chaque logement propos la location, le
type de logement (studio, F2,etc.) et le montant mensuel du loyer, en euros.

Si X() est fini, ses r modalits sont notes x1 , . . . ,xi , . . . ,xr . Si ses valeurs sont rpar-
ties en classes, celles-ci sont notes C1 , . . . ,Ci , . . . ,Cr .
De la mme faon, si Y () est fini, on note y1 , . . . ,yj , . . . ,ys ses lments. Si les valeurs
de Y sont rparties en classes, celles-ci sont notes D1 , . . . ,Dj , . . . ,Ds .
La rpartition des n observations de ces variables sur la population selon les moda-
lits ou classes de X et Y se prsente sous la forme dun tableau double entre, appel
tableau de contingence :
Y
D1 Dj Ds Total
X
C1n11 n1j n1s n1
.... .. .. ..
. . . . .
Ci ni1 nij nis ni
.. .. .. .. ..
. . . . .
Cr nr1 nrj nrs nr
Total n1 nj ns n
Dans ce tableau, nij dsigne le nombre dindividus dont le caractre X observ appartient
la classe Ci et dont le caractre Y observ appartient la classe Dj . On crit donc
nij
nij = Card(Ci Dj ) et fij = .
n
Alors fij est la frquence de Ci Dj .

14 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

Dfinition 9
La loi conjointe du couple (X,Y ) est la donne, pour chaque valeur de i et j, de la
frquence fij .

On dfinit aussi :
leffectif marginal en X et la frquence marginale en X de la classe Ci :
s s
X ni X
ni = nij fi = = fij
j=1 n j=1

leffectif marginal en Y et la frquence marginale en Y de la classe Dj :


r r
nj X
fj = =
X
nj = nij fij .
i=1 n i=1

Dfinition 10
La loi conditionnelle de Y sachant X Ci est la donne, pour tout j {1, . . . ,s},
des frquences relatives des classes Dj par rapport Ci :

nij fij
fj/i = = .
ni fi
Les deux variables X et Y sont dites indpendantes si la loi conditionnelle de Y
sachant X Ci ne dpend pas de i.
Dans le cas o X et Y sont indpendantes, on a alors
fij
fj/i = = fj ou encore fij = fi fj .
fi
On retrouvera toutes ces dfinitions dans la partie ddie aux probabilits et aux
variables alatoires.
Exemple 11
Dans un groupe de 100 malades souffrant darthrose, certains ont pris un mdicament
et les autres un placebo. Tous pensaient prendre un mdicament. Aprs un mois, on
a demand chaque patient si le traitement avait t efficace. le tableau ci-dessous
donne la rpartition des rponses.
Traitement efficace Traitement non efficace
Mdicament 36 6
Placebo 28 30

Les lois marginales des variables X, qui indique si un malade prend le mdicament
ou le placebo, et Y , qui indique si le traitement est peru comme efficace ou non, sont
donnes par les tableaux suivants :
xi Mdicament Placebo yj Efficace Non efficace
fi 42% 58% fj 64% 36%
La loi conditionnelle de Y sachant quune personne prend le mdicament est donne
par le tableau suivant.

Institut Mines-Tlcom 15
Statistique pour ingnieur Thme 0 : Statistique descriptive

Traitement efficace sa- Traitement inefficace sa-


yj sachant X = x1 chant que le mdicament chant que le mdicament
a t pris a t pris
36 6
fj/1 ' 86% ' 14%
42 42
De mme, la loi conditionnelle de Y sachant quune personne prend le placebo est
donne par :
Traitement efficace sa- Traitement inefficace sa-
yj sachant X = x2 chant que le placebo a t chant que le placebo a t
pris pris
28 30
fj/2 ' 48% ' 52%
58 58
En comparant les lois conditionnelles fj/1 et fj/2 , on est tent daffirmer que les va-
riables X et Y sont indpendantes et conclure lefficacit du mdicament. Il faut cepen-
dant tre prudent car la population tudie est un chantillon dune population plus
grande, celle de tous les malades. La preuve statistique de lefficacit du mdicament pas-
sera alors par un test statistique dindpendance de X et Y qui prendra en compte lala
statistique. Cest lobjet du thme 3.

7 Cas de deux variables quantitatives


tant donnes deux variables quantitatives X et Y , on souhaite tudier le lien ventuel
entre ces deux variables : linaire ou non, monotone ou non, etc.. On souhaite galement
valuer lintensit de cette liaison. Dans ce cadre, on considre que les deux variables
sont symtriques, cest--dire quon ne veut pas valuer linfluence dune variable sur
lautre. Ce dernier point est lobjet de la rgression linaire, qui sera tudie au thme 4.

7.1 Nuage de points


Si les n observations de X et de Y sont connues individuellement, on commence par
les visualiser en les reprsentant sous forme dun nuage de points. Chaque point (xi ,yi )
est reprsent dans un repre cartsien par un point Mi .
Exemple 12
On a relev pour 10 vhicules la masse, note X (en kg), et la consommation de
carburant, note Y (en litres/100 km), dans des conditions normalises. On a obtenu
le tableau suivant.
xi 1110 1140 1370 940 1400 1550 1330 1300 1670 1560
yi 8,6 7,7 10,8 6,6 11,7 11,9 10,8 7,6 11,3 10,8

En plaant la masse en abscisse et la consommation en ordonne, on obtient la figure 7.

Une analyse graphique du nuage de points est la premire tape de la dmarche statis-
tique. En effet, un nuage de points de forme allonge avec des variables qui voluent dans

16 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

le mme sens comme dans lexemple prcdent conduit penser quil sagit dune liaison
linaire positive (pour signifier une fonction croissante).
On peut aussi observer une liaison linaire ngative (fonction dcroissante) ou labsence
de liaison linaire comme sur les figures 8 et 9.

7.2 Covariance de deux variables quantitatives


Pour caractriser la liaison qui peut exister entre deux variables quantitatives, on peut
calculer leur covariance.
Dfinition 11
La covariance de deux variables quantitatives X et Y est
n
1X
Cov (X,Y ) = (xi x) (yi y)
n i=1

o les xi (resp. yi ) dsignent les valeurs prises par X (resp. y) sur les n individus de la
population observe.

Remarques
1. Comme pour la variance (cf. proposition 2), on a aussi
n
1X
Cov (X,Y ) = xi yi x y
n i=1

(moyenne des produits moins produit des moyennes).


2. Dans le cas o les donnes sont regroupes dans un tableau de contingence, on a
r X s
1X
Cov (X,Y ) = fij (xi x) (yj y) .
n i=1 j=1

La covariance permet de quantifier la liaison entre les deux variables X et Y : elle


mesure leur tendance varier ensemble.
Si la covariance est positive, cela signifie que la variation de X et Y se fait dans
le mme sens. Si elle est ngative, leurs variations se font en sens contraire. On parle
respectivement de liaison positive et de liaison ngative.
En guise dexemple de calcul, reprenons et compltons les donnes de lexemple 12 :

Total
xi 1110 1140 1370 940 1400 1550 1330 1300 1670 1560 13370
yi 8,6 7,7 10,8 6,6 11,7 11,9 10,8 7,6 11,3 10,8 97,8
xi yi 9546 8778 14796 6204 16380 18445 14364 9880 18871 16848 134112

Alors :
134112 13370 97,8
Cov (X,Y ) = = 335,3.
10 10 10
Institut Mines-Tlcom 17
Statistique pour ingnieur Thme 0 : Statistique descriptive

15

10

0
0 500 1000 1500 2000

Figure 7 Nuage de points de lexemple 12

1,2

0,8

0,6

0,4

0,2

0
9,5 10 10,5 11 11,5 12

Figure 8 Exemple de nuage de points

2,5

1,5

0,5

0
0 1 2 3 4 5 6

Figure 9 Exemple de nuage de points

18 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

On constate ici que la liaison entre masse et consommation est positive, ce qui nest pas
tonnant !
Proposition 4 (Proprits de la covariance)

(1) La covariance est symtrique : Cov (X,Y ) = Cov (Y,X).


(2) Covariance de X avec elle-mme : Cov (X,Y ) = V (X).
(3) Transformation affine : Cov (a X + b,c Y + d) = a c Cov (X,Y ).
(4) Variance dune somme : V (X + Y ) = V (X) + 2Cov (X,Y ) + V (Y ).
(5) Ingalit de Cauchy-Schwarz : |Cov (X,Y ) | 6 (X) (Y ) avec galit si et seule-
ment si il existe une relation affine entre X et Y : Y = a X + b ou X = c Y + d.
(6) Cas de variables indpendantes : si X et Y sont indpendantes, leur covariance est
nulle. La rciproque est fausse !

Lorsque deux variables ont une covariance nulle, on dit quelles sont dcorrles.
Lassertion (6) de la proposition 4 montre que des variables indpendantes sont dcorr-
les, mais attention : il est possible de trouver des variables dcorrles qui ne sont pas
indpendantes.

7.3 Coefficient de corrlation linaire


Le coefficient de corrlation de deux variables X et Y correspond une normalisation
de leur covariance par le produit des cart-types de X et Y . Il mesure le degr de dpen-
dance linaire de X et Y . Il suppose bien sr que X et Y ne soient pas des constantes
(donc que leurs cart-types ne soient pas nuls).
Dfinition 12 (Coefficient de corrlation linaire)
Le coefficient de corrlation linaire de X et Y est la quantit

Cov (X,Y )
r(X,Y ) = .
(X)(Y )

Ses proprits dcoulent directement de celles de la covariance explicites la propo-


sition 4.
Proposition 5 (Proprits de r(X,Y ))
(1) On a toujours 1 6 r(X,Y ) 6 1 ;
(2) corrlation linaire parfaite : r(X,Y ) = 1 si et seulement si il existe une relation
affine entre X et Y ;
(3) si X et Y sont indpendantes, alors r(X,Y ) = 0, la rciproque tant fausse.

Remarques
1. Si on a |r(X,Y )| > 0,8, on dit que les variables X et Y sont fortement corr-
les.

Institut Mines-Tlcom 19
Statistique pour ingnieur Thme 0 : Statistique descriptive

2. Lexistence dune corrlation, mme forte, entre deux variables statistiques ne


permet pas de mettre en vidence une relation de cause effet.

Avec les donnes de lexemple 12, on trouve


(
(X) ' 214,57 Cov (X,Y ) 335,34
donc r(X,Y ) = ' ' 0,845.
(Y ) ' 1,85 (X)(Y ) 214,57 1,85
On peut donc dire que la masse dun vhicule et sa consommation de carburant sont des
variables fortement corrles.

Exercices
Exercice 1 : Quelques calculs de statistique descriptive
Dans une entreprise, on a recens les salaris par tranche dge et par sexe. Les rsultats
sont donns dans le tableau ci-dessous.
Tranche dge Hommes Femmes
Moins de 20 ans 32 51
20 30 1309 2118
30 40 1902 3025
40 50 1730 2330
50 60 1468 1624
Plus de 60 ans 114 131
1. Quelles sont les caractristiques tudies ? Prciser sil sagit de caractres discrets ou
continus.
2. Quelle est la proportion de salaris dans les tranches dge infrieures ou gales 40
ans ? Mmes questions pour les hommes et femmes sparment. Que peut-on en conclure ?

3. Dterminer lge moyen, lge mdian, les quartiles et lcart-type pour les hommes.
Mmes questions pour les femmes.
4. Comparer les deux sous-populations (hommes et femmes) laide de botes mous-
taches.

Exercice 2 : tude dune corrlation


On a relev la taille (X, exprime en cm) et le poids (Y , exprim en kg) dune po-
pulation humaine donne. Les rsultats sont regroups en classes et les effectifs conjoints
nots dans le tableau de contingence suivant.
Y
]50,60] ]60,70] ]70,80] ]80,90]
X
]150,155] 24 11 2 0
]155,160] 22 27 10 1
]160,165] 13 30 14 3
]165,170] 3 6 15 7
]170,180] 0 2 3 7

20 Institut Mines-Tlcom
Thme 0 : Statistique descriptive Statistique pour ingnieur

1. Dterminer les lois marginales.


2. En choisissant les centres des classes comme reprsentants, calculer :
la taille moyenne de cette population,
son poids moyen,
les cart-types correspondants,
la covariance de X et de Y ,
le coefficient de corrlation linaire.
3. Dterminer la loi conditionnelle de Y sachant {150 < X 6 155}. Calculer la moyenne
conditionnelle de Y sachant sachant {150 < X 6 155}.
4. Mmes questions avec les autres classes de la variable X. 
5. Reprsenter graphiquement les points de coordonnes xi ,yi |X Ci o :
Ci dsigne lune des classes de taille,
xi est le centre de la classe Ci ,
yi |X Ci est la moyenne conditionnelle de Y sachant {X Ci }.
Construire une courbe de rgression de Y en X, cest--dire une courbe passant par
les points prcdemment reprsents. Conclure.

Institut Mines-Tlcom 21