Vous êtes sur la page 1sur 258

Sciences de gestion

Synthse
de cours
exercices
corrigs

&

Statistique
descriptive
avec Excel
et la calculatrice
Pour les tudiants en sciences de gestion,
en conomie et en sciences humaines
Prs de 40 problmes et exercices corrigs
avec Excel ou la calculatrice
Retrouvez les donnes Excel et
des exemples supplmentaires sur
www.pearson.fr

collection

Synthex

tienne BRESSOUD
Jean-Claude KAHAN

prelim.fm Page I Vendredi, 4. avril 2008 11:26 11

Sciences de gestion

Synthse
de cours

&

exercices
corrigs

Statistique
descriptive
Applications avec Excel
et la calculatrice
tienne Bressoud
Universit Paris 8 Vincennes-Saint-Denis

Jean-Claude Kahan
Universit Paris 8 Vincennes-Saint-Denis

Directeur de collection : Roland Gillet


Universit Paris 1 Panthon-Sorbonne

collection

Synthex

prelim.fm Page II Vendredi, 4. avril 2008 11:26 11

ISBN : 978-2-7440-4052-8
ISSN : 1768-7616
Copyright 2009 Pearson Education France
Tous droits rservs

Mise en page : edito.biz

Aucune reprsentation ou reproduction, mme partielle, autre que celles prvues larticle L. 122-5 2
et 3 a) du code de la proprit intellectuelle ne peut tre faite sans lautorisation expresse de Pearson
Education France ou, le cas chant, sans le respect des modalits prvues larticle L. 122-10 dudit code.

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Sommaire
Les auteurs................................................................ IV
Prface ...................................................................... V
Introduction ............................................................. VII
Chapitre 1 Introduction la statistique descriptive ...................... 1
Chapitre 2 Les caractristiques de tendance centrale ................. 35
Chapitre 3 Les caractristiques de dispersion ............................ 63
Chapitre 4 Les caractristiques de forme et de concentration .... 83
Chapitre 5 Les sries bivaries................................................. 107
Chapitre 6 La rgression ......................................................... 145
Chapitre 7 Les sries chronologiques ...................................... 185
Chapitre 8 Les indices.............................................................. 219
Index ..................................................................... 246

III

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les auteurs
tienne Bressoud, docteur s sciences de gestion et normalien agrg en sciences conomiques,
est matre de confrences luniversit Paris 8 Vincennes-Saint-Denis et professeur associ de
marketing lEuropean Business School (EBS) Paris. Il enseigne la statistique descriptive, les tudes
quantitatives appliques au marketing, et assure des formations professionnelles sur un logiciel
danalyse de donnes et de statistiques pour Microsoft Excel.
Contact : http://bressoud.blogspot.com
Jean-Claude Kahan est professeur agrg de mathmatiques luniversit Paris 8 VincennesSaint-Denis et professeur associ lcole nationale dassurance (ENASS, un institut du CNAM),
en formation initiale et continue. Membre du jury de CAPES externe de sciences conomiques et
sociales, il enseigne les statistiques, les probabilits et les mathmatiques.

IV

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Prface
Ne voici cinq millnaires pour dnombrer les richesses et les hommes en tat de porter
des armes, la statistique est de plus en plus une science de pleine actualit, quand elle ne
la fait pas. Il ne se passe pas une semaine, voire une journe, sans que nous en lisions ou
voquions des utilisations, que ce soit pour mesurer la sant de notre conomie, la cote
de popularit dun homme politique, lavis de lopinion sur tel ou tel sujet, le succs dun
mdia ou dune mission, ou autre.
Nous pouvons mme affirmer que la science statistique devrait faire partie du bagage
intellectuel minimal de lhonnte homme de notre poque, dont la caractristique
essentielle est la profusion dinformations de tout ordre, qui plus est accessibles pratiquement en temps rel grce Internet et la convergence numrique. Pour leur gestion, les
entreprises laborent des entrepts de donnes des datawarehouses qui se remplissent
automatiquement et systmatiquement, au point dailleurs de devenir difficilement
exploitables de faon directe, sans recours lanalyse. Le succs actuel du datamining
nest rien dautre que celui de la pense statistique, revue avec des notions de marketing.
Devant une telle accumulation dinformations, il est ncessaire, indispensable, pour chacun, de possder les cls pour structurer, hirarchiser, prsenter, illustrer, comprendre,
expliquer.
La statistique est la science de lapprentissage du doute, cette notion parfois si importante, y compris dans le pays de Descartes, de lapprhension de lincertain, du refus de la
pense unique. En un mot, la statistique est la science de la diversit. Et cette diversit
sexprime forcment par trois voies principales : diversit de domaines, diversit
dapproches, diversit dobjectifs.
Les domaines dabord : au fil des sicles, les champs dapplication de la statistique se sont
multiplis. Au comptage initial des ressources, pour la gestion de ltat, se sont ajouts
lastronomie (Tycho Brahe, Johannes Kepler, Galile), lagronomie, la dmographie, la
biomtrie (Galton), lconomie (cration en 1933 de la Socit dconomtrie), le marketing, la gestion dentreprise, la finance, la mesure daudience, etc. Chacun de ces
champs de recherche et dapplication a apport ou apporte encore ses innovations, tant il
est de sujets non ou mal rsolus ou nouveaux.
Les approches ensuite : lorigine science du dnombrement et de la description, la statistique sest lentement enrichie dlments plus conceptuels. Une illustration marquante
e
en est, au XVII sicle, la recherche de constantes de comportements des paramtres

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

comme le nombre moyen denfants par femme, ou le nombre moyen de personnes par
logement et la technique du multiplicateur pour permettre des estimations et des
extrapolations : cest le rgne de lcole anglaise dite de larithmtique politique de John
Graunt et de William Petty.
Le cadre thorique saffirme plus tard, soit avec une vision gomtrique, comme les
moindres carrs de Carl Friedrich Gauss, soit avec une optique probabiliste, merveilleusement utilise dans les annes 1920 par sir Ronald Fisher avec une prsentation innovante et gnrale de la thorie statistique.
Gomtrie et probabilits se trouvent galement derrire les techniques dites danalyse
des donnes projection de nuages complexes de points sur des plans adquats comme
lanalyse en composantes principales ou lanalyse des correspondances, dune part, et les
modles stochastiques de plus en plus sophistiqus tels les Arima et leurs divers petits
cousins Starima, Arch, Garch, etc., dautre part.
Les objectifs enfin : nous en distinguerons deux principaux.
Le premier consiste avancer sur le chemin de la thorie pure , de la recherche pilote
par les mathmatiques, de la conceptualisation. Axe fondamental sil en est, ne serait-ce
que pour fonder la statistique comme une thorie scientifique et la faire progresser
intrinsquement et en liaison avec les autres thories mathmatiques.
Le second repose sur la volont dapplication, quel quen soit le domaine, la confrontation aux donnes ; on est dans le domaine de la description, de la visualisation, de la
mesure de paramtres le principe de rduction de Fisher , permettant de caractriser
le phnomne tudi dans ses principales lignes. La statistique applique est aussi noble
que la statistique thorique, et trs proche des origines historiques mmes. Il est vrai que
linformatique est un appui majeur pour la manipulation des fichiers de donnes et la
mise en uvre des mthodes.
Le prsent ouvrage dtienne Bressoud et de Jean-Claude Kahan relve ouvertement de
la statistique applique et procde dune volont claire daborder loprationnalit des
mthodes.
Le livre joue ainsi sur deux tableaux complmentaires.
En premier lieu, les concepts de base sont dvelopps dans le corps des chapitres : caractristiques de tendance centrale ou de dispersion, de forme ou de concentration, indices,
tableaux croiss, modle linaire ou rgression, sries temporelles. Ensuite, aprs les
prsentations des outils de rfrence, chaque chapitre est suivi dexercices et de problmes sur de vraies donnes, avec traitement et correction, partir des possibilits doutils
comme la calculatrice graphique et le tableur Excel, qui possdent un grand nombre de
fonctionnalits pour passer lapplication concrte et, somme toute, simple.
Cest ce qui en fait loriginalit, et aidera vulgariser la pense statistique auprs de
nombreux tudiants de lenseignement suprieur. Que les auteurs en soient remercis.
Philippe Tassi
Directeur Gnral Adjoint de Mdiamtrie
Professeur Associ lUniversit Paris 2

VI

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Introduction
Ce livre est avant tout lhistoire dune rencontre entre deux enseignants et la mise en
commun de leur pratique et de leur coute auprs des tudiants.
Les statistiques sont aujourdhui incontournables et leur enseignement sest gnralis.
Il existe de nombreux ouvrages de statistiques, souvent de qualit, mais il nous a paru
intressant den concevoir un qui mette en avant le ct actuel et oprationnel de la
statistique.

De la statistique sa mise en uvre


par calculatrice graphique et tableur Excel
Cet ouvrage veut proposer aux tudiants dconomie, de gestion, de marketing, des secteurs de lassurance, un outil qui soit avant tout une aide pour leur pratique de la statistique .
La partie thorique des chapitres est assez synthtique et expose les concepts en prsentant succinctement les grands noms qui ont fait la statistique.
La partie pratique comporte de nombreux exercices qui sont corrigs avec deux outils
fondamentaux en statistique : la calculatrice et le tableur. Nous avons choisi la calculatrice graphique Texas Instrument TI-84 Plus Silver Edition et le tableur Excel, car il est
couramment utilis par les tudiants. En dpit de ces choix, les exercices peuvent tre
effectus laide dautres tableurs et calculatrices graphiques, notamment les calculatrices Casio. Pour chaque exercice, nous prcisons si la correction est propose avec la
calculatrice ou avec le tableur grce un pictogramme dans la marge.
Ces deux outils, comme de nombreux rappels de techniques mathmatiques, font lobjet
de dveloppements construits comme autant daides leur mise en uvre. Par ailleurs,
les exercices sont prsents partir de donnes relles et rcentes obtenues auprs des
grands organismes de statistique.
Les parties thoriques peuvent tre prolonges par des exemples complmentaires disponibles
sur le site Internet de lditeur, www.pearsoneducation.fr. Sur ce mme site se trouvent
galement les tableaux de donnes et les corrections de chaque exercice, au format Excel.

VII

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Un cours de statistique descriptive largi


En ce qui concerne le contenu, cet ouvrage est avant tout conu comme un ouvrage de
statistique descriptive ; oui, mais il nous a paru difficile de parler de statistique sans
faire quelques incursions en probabilit, sans apporter une initiation la statistique infrentielle qui donne son vrai sens la statistique.
Le lecteur trouvera dans les trois premiers chapitres les bases de la statistique descriptive :
le vocabulaire, les principaux graphiques, ainsi que les paramtres de position et de
dispersion des sries univaries.
Le quatrime chapitre, qui traite des caractristiques de forme et de concentration,
dbute par une introduction la loi normale (loi de Laplace-Gauss).
Les chapitres 5, 6 et 7 traitent respectivement des sries bivaries, de la rgression linaire
et des sries chronologiques. Les chapitres 5 et 6 sont loccasion dintroduire les tests
dhypothses, et notamment les tests du khi-deux, de Student et de Fisher.
Enfin, le chapitre 8 est consacr aux indices lmentaires et synthtiques.

Merci
Nous tenons remercier ici vivement Philippe Tassi, pour ses conseils et sa relecture
mticuleuse et claire. galement un grand merci Christine Dhers, enseignante de
mathmatiques, pour sa disponibilit et sa passion pour les statistiques.
Nous esprons que ce manuel transmettra aux tudiants notre engouement pour la
statistique et lenvie de dcouvrir les ouvrages cits dans la bibliographie propre chaque
chapitre, et quil sera pour eux un compagnon efficace de leur russite.

VIII

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Introduction
la statistique
descriptive
1. Terminologie..........................2
2. Prsentation des donnes........8
3. Reprsentations graphiques
des sries une variable .....10
Problmes et exercices
1. De la srie brute la
prsentation des statistiques ..18
2. Reprsentations graphiques
simples ................................22
3. Lhistogramme .....................25
4. Discrtisation des donnes ....26
5. Les polygones ......................29

Les mthodes de la statistique descriptive (statistique dductive) permettent de mener des tudes partir de donnes
exhaustives, cest--dire concernant tous les individus de la
population concerne par ltude. Comme le rappelle Andr
Vessereau (voir bibliographie), lide premire et toujours
fondamentale de la statistique descriptive est celle de dnombrement.
Quand les donnes ne concernent quun chantillon de la
population, comme dans le cas des sondages, on a recours
la statistique infrentielle (statistique inductive), qui utilise la
thorie des probabilits.
Globalement, la statistique reste trs lie la science du
hasard, puisque les recensements nous fournissent des frquences dapparition auxquelles on fait jouer le mme rle
qu la probabilit. Dj, les manuscrits de Gottfried Leibniz,
rdigs au dbut des annes 1680, se situaient, partir des
travaux de John Graunt, dans la perspective dune synthse
entre science de la population et calcul des probabilits .

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Ce premier chapitre prsente les principales clefs de lecture de la statistique. La terminologie


usuelle y est expose, ainsi que la forme et le contenu des tableaux de donnes.
Deux annexes, proposes en fin de chapitre, sont consacres la prise en main dExcel
(annexe 1.1), ou de tout autre tableur quivalent, et dune calculatrice graphique, Texas
Instrument (annexe 1.2), ou de toute autre calculatrice approchante. Lutilisation de ces
outils facilitera la comprhension et la rsolution de tous les exemples numriques des
parties thoriques et des problmes et exercices qui suivent.

Terminologie
Comme toute science, la statistique a son vocabulaire, quil est primordial de dfinir de
faon rigoureuse afin dindiquer le groupe sur lequel porte ltude, les caractres ou
variables relevs sur chacun des individus et les diffrents types de caractres.

1.1

LA POPULATION
Le terme de population statistique est antrieur la dmographie et sappliquait lorigine
des catgories dhumains. Les populations ntaient en effet pas penses en bloc, leurs
membres ntant pas considrs comme gaux. Par exemple, on comptait les hommes en
tat de porter des armes, les individus soumis limpt, etc. La dmographie est venue plus
tard, avec lide dgalit des individus, qui a men la notion de recensement.
En statistique, le terme de population est plus gnral et peut dsigner des humains, mais
aussi des objets, des villes, des pays, des entreprises, des logements, etc., lessentiel tant,
comme pour la dfinition dun ensemble en mathmatiques, que lon puisse dire clairement de tout lment quil appartient ou nappartient pas la population.
Les villes europennes de plus de 100 000 habitants, les voitures immatricules en France,
les dpartements franais doutre-mer sont autant dexemples de population.

Dfinition

La population statistique est lensemble des lments sur lesquels porte ltude. Les lments
de la population sont appels individus statistiques ou units statistiques. La population
constitue lunivers de rfrence de ltude. Si la population comporte N individus, on notera
= {1 ; 2 ; ; N} les N individus qui la composent. Un chantillon de taille n est un sousensemble form de n individus de la population (n N).

La notion dchantillon est fondamentale, car, en rgle gnrale, la population entire


nest pas disponible ou observable. Dans ce cas, seul un chantillon est tudi et les
rsultats obtenus sont extrapols la population (voir P. Roger, chapitre 5). Par exemple,
lorsquun magazine souhaite connatre la personnalit prfre des Franais, il interroge
seulement un chantillon de Franais, gnralement 1 000 individus, et non toute la
population rsidant en France mtropolitaine, soit plus de 60 millions dindividus.

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.2

NOTION DE CARACTRE OU VARIABLE STATISTIQUE


Chaque individu dune population peut tre dcrit relativement un ou plusieurs caractres ou variables statistiques.

Dfinition

Une variable statistique, ou caractre statistique, est une application dfinie sur une
population statistique et valeurs dans un ensemble M, appel ensemble des modalits. Les
modalits correspondent aux valeurs possibles de la variable statistique. Une variable
statistique dfinit une partition sur une population, chaque individu appartenant une et une
seule modalit.
Si le nombre de modalits est not r, lensemble des modalits de la variable X sera not :
M = {x1 ; x2 ; ; xr}.

Exemple 1.1

Une population statistique

Considrons les donnes suivantes concernant le nombre de femmes et dhommes dans


la population rsidant en France mtropolitaine en 2006 (en milliers) :
Femmes

Hommes

31 444

29 722

Source : Insee, recensement de la population, 2007 (champ : France mtropolitaine)

La population tudie est la population rsidant en France mtropolitaine recense en


2006 et la variable tudie est le sexe. Cette variable peut prendre deux valeurs possibles
appeles modalits : fminin ou masculin. Ces modalits sont en gnral numrotes : si
la variable tudie, ici le sexe, est note X, les deux modalits seront respectivement
notes x1 (pour fminin) et x2 (pour masculin).
Une des premires oprations de la statistique consiste recenser le nombre et/ou le
pourcentage dindividus qui prsentent une modalit dtermine dune variable. Cest
ainsi qu chaque modalit est associ un effectif et/ou une frquence.
Dfinitions

Leffectif (aussi appel frquence absolue) de la modalit xi est not ni et dsigne le nombre
dindividus de la population prsentant la modalit xi. Leffectif total de la population n est
r

alors : n = n1 + n2 + + nr, soit n = ni (la somme des ni pour i variant de 1 r, et la lettre


i =1

grecque sigma, , dsignant la somme).


La frquence (par dfaut frquence relative) de la modalit xi est note fi et est dfinie par :
fi = ni / N ; la frquence exprime la proportion dindividus prsentant une modalit donne.
Elle peut sexprimer sous la forme dun nombre dcimal (en gnral avec une prcision de
quatre chiffres aprs la virgule) ou sous la forme dun pourcentage.

Introduction la statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Proprit

Soit X une variable r modalits :


0 fi 1
r

f = 1 (ou, en pourcentage : f = 100 )


i =1

Exemple 1.2

i =1

Effectifs et frquences

Reprenons lexemple prcdent sur le sexe des individus de la population rsidant en


France mtropolitaine. Les effectifs respectifs de ces modalits sont nots n1 = 31 444 et
n2 = 29 722, avec n = n1 + n2 = 61 166 milliers, effectif total de la population.
Les frquences sont telles que : f1 = n1 / n = 31 444 / 61 166 = 0,5141 et f2 = n2 / N
= 29 722 / 61 166 = 0,4859, soit 51,41 % de femmes et 48,59 % dhommes.
Lexemple 1.1 a mis en vidence une des deux natures des variables statistiques : la variable qualitative. Le sexe est une variable qualitative, car ses modalits ne sont pas des
nombres. Une variable quantitative est une variable dont les modalits sont numriques.
Le poids dun individu, lge, le nombre denfants par mnage, le salaire constituent des
exemples de variables quantitatives.

1.3

LES VARIABLES QUALITATIVES

Dfinition

Une variable statistique est dite de nature qualitative si ses modalits ne sont pas mesurables.
Les modalits dune variable qualitative sont les diffrentes catgories dune nomenclature.
Ces catgories doivent tre exhaustives (chaque individu est affect une modalit) et
incompatibles (un individu ne peut tre affect plusieurs modalits) de faon crer une
partition.

Le sexe, la profession, ltat matrimonial sont quelques exemples de variables qualitatives. Pour ses enqutes auprs des mnages, lInsee utilise la nomenclature des Professions
et catgories socioprofessionnelles (PCS-2003).
Les modalits dune variable qualitative peuvent tre classes sur deux types dchelle :
nominale ou ordinale. ces deux types dchelle correspondent deux types de variables
qualitatives.

Variables qualitatives nominales


Les variables qualitatives nominales ne se mesurent pas. Cependant, leurs modalits
peuvent tre codes. Lordre et lorigine de la codification sont arbitraires, cette codification pouvant tre numrique, alphabtique ou alphanumrique. Les individus dune
mme catgorie sont rputs quivalents pour la variable tudie.
Dfinition

Une variable statistique qualitative est dite dfinie sur une chelle nominale si ses catgories
ne sont pas naturellement ordonnes.

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 1.3

Codage dune variable qualitative nominale

Le tableau suivant indique les diffrentes catgories de la variable nominale Professions et


catgories socioprofessionnelles (CSP) :
Code

Catgorie

Agriculteurs exploitants

Artisans, commerants et chefs dentreprise

Cadres et professions intellectuelles suprieures

Professions intermdiaires

Employs

Ouvriers

Retraits

Autres personnes sans activit professionnelle

Source : Insee, PCS-2003 (niveau 1 de la nomenclature)

Dans cet exemple, il ny a pas dordre naturel entre les huit catgories, ou modalits, qui
sont de simples tiquettes ; la variable qualitative CSP est dfinie sur une chelle
nominale.

Variables qualitatives ordinales


Une chelle ordinale suppose lexistence dune relation dordre total entre les catgories,
cest--dire que lon peut oprer un classement de lensemble des catgories, de la plus
petite la plus grande (ou, inversement, de la plus grande la plus petite).
Contrairement ce qui se passe avec une chelle nominale, les expressions telles que
plus grand que , prcde , se place aprs , etc. prennent un sens dans une chelle
ordinale.
La codification peut tre numrique, alphabtique ou alphanumrique, en association
avec un sens de lecture. En cas de codage numrique, les oprations mathmatiques sont
dnues de sens et lcart entre les valeurs ne revt aucune signification.
Dfinition

Une variable statistique qualitative est dite dfinie sur une chelle ordinale si lensemble de
ses catgories peut tre dot dune relation dordre.

Introduction la statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.4

LES VARIABLES QUANTITATIVES


Toute variable qui nest pas qualitative ne peut tre que quantitative. Les diffrentes
modalits dune variable quantitative constituent lensemble des valeurs numriques que
peut prendre la variable.

Dfinition

Une variable statistique est dite de nature quantitative si ses modalits sont mesurables. Les modalits
dune variable quantitative sont des nombres lis lunit choisie, qui doit toujours tre prcise.

Il existe deux types de variables quantitatives : les variables discrtes et les variables
continues.
Ces variables ont en commun des modalits clairement ordonnes, pour lesquelles lcart
entre les valeurs possde une signification, et sur lesquelles il est possible de raliser des
oprations mathmatiques telles que des calculs de moyennes, etc. Nanmoins, elles ont
des proprits et des traitements spcifiques qui ncessitent une tude spare.

Variables quantitatives discrtes


Lorsque les modalits sont des valeurs numriques isoles, comme le nombre denfants
1
par mnage, on parle de variable discrte .
Dfinition

Une variable statistique quantitative est dite discrte si lensemble de ses modalits est un
ensemble fini ou dnombrable. Ainsi, lensemble des modalits peut tre donn sous la forme
dune liste de nombres, M = {x1 ; x2 ; ; xi ; }, finie ou infinie.
Le plus souvent, les modalits appartiennent lensemble N des entiers naturels (N = {0 ; 1 ;
2 ; }). Cependant, une variable discrte peut prendre des valeurs non entires.

Variables quantitatives continues


Lorsque la variable, par exemple la taille dun individu, peut prendre toutes les valeurs
dun intervalle, ces valeurs peuvent alors tre regroupes en classes, et on parle dans ce
cas de variable continue.
Dfinitions

Une variable statistique quantitative est dite continue si lensemble de ses modalits nest pas
dnombrable. Ainsi, une variable continue peut prendre toutes les valeurs dun intervalle.
Pour tudier une variable statistique continue, on dfinit des classes ou intervalles de valeurs
possibles. On peut ainsi discrtiser une variable continue (voir section 2.1). Les classes
retenues constituent les modalits de la variable.
On appelle amplitude de la classe [ai ; bi[ le rel not Ai reprsentant la longueur de
lintervalle et dfini par : Ai = bi ai. ai et bi sont respectivement les bornes infrieure et
suprieure de la classe ni.
Le centre de classe de la classe [ai ; bi[ est le rel not xi reprsentant le milieu de lintervalle
et donn par : xi = (ai + bi) / 2 ; cest la moyenne arithmtique des bornes de la classe.

1. Du latin discretus, qui signifie spar ; dans un ensemble discret, on peut sparer les lments.

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Le centre de classe est appel jouer un grand rle dans les calculs, car le regroupement
en classes constitue une perte dinformation importante ; nous prendrons lhypothse de
rpartition uniforme lintrieur dune classe, cest--dire de concentration au centre des
classes (voir chapitre 2).
Exemple 1.4

Calculs damplitudes et centres de classes

Le tableau suivant indique la structure par ges de la population fminine en France


mtropolitaine :
ge

f i (%)

Moins de 15 ans

17,5

15-24 ans

12,3

25-34 ans

12,7

35-44 ans

14,0

45-54 ans

13,6

55-64 ans

11,1

65-74 ans

8,6

75 ans ou +

9,1

Source : Insee, bilan dmographique, 2006

Les modalits sont des intervalles qui, par convention, sont part pour la dernire
classe ferms gauche et ouverts droite. Ainsi, la premire classe se note aussi :
[0 ; 15[, la deuxime [15 ; 25[, etc.
Les classes ne sont pas de mme amplitude, la premire classe ayant une amplitude de
15 ans et les suivantes de 10 ans. Pour la dernire classe, dont lamplitude nest pas dfinie explicitement, la convention suivante est adopte : en labsence dinformation, il lui
est attribu lamplitude de la classe prcdente, [65 ; 75[, donc 10 ans, et elle est donc
crite : [75 ; 85[.
Le centre de la premire classe est : x1 = (a1 + b1) / 2 = (0 + 15) / 2 = 7,5 ans.
Cette distinction entre variable discrte et variable continue est parfois arbitraire, toute
mesure tant discrte du fait de la prcision limite des instruments de mesure ou des
arrondis. Cependant, la taille dun individu, par exemple, est une variable continue du
fait que, indpendamment de la mesure, toute valeur de lintervalle [140 ; 150[ peut
reprsenter en centimtres la taille dun individu. De mme, il arrive quune variable
discrte, comme le nombre dhabitants dun pays, qui peut prendre un grand nombre de
valeurs dans un intervalle soit considre comme une variable continue.
En conclusion, toute tude de variable statistique devra tre prcde dune identification
claire de la population, du caractre tudi et de sa nature, savoir qualitatif ou quantitatif et, dans le cas quantitatif, discret ou continu.

Introduction la statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Prsentation des donnes


Les donnes statistiques sont issues de donnes brutes prsentes sous forme de tableaux
statistiques dans lesquels sont indiqus les effectifs et/ou les frquences.

2.1

DISTRIBUTION DES EFFECTIFS OU DES FRQUENCES


Les tableaux statistiques contenant les effectifs et/ou les frquences sont une premire
exploitation des donnes brutes.

Des donnes brutes au tableau statistique


Il est primordial de dfinir la population et de prciser avec rigueur la ou les variables
releves sur chacun des individus de la population ou de lchantillon la reprsentant.
Ensuite, quand les observations ont t recueillies, le premier travail consiste les
prsenter, aussi clairement que possible, sous forme de tableau statistique. Ce tableau
rvle la distribution statistique en prsentant les couples de type (xi ; ni), o les xi sont les
modalits et les ni leurs effectifs respectifs, i entier variant de 1 r, si r dsigne le nombre
de modalits du caractre. Il est galement possible de prsenter la distribution des
frquences, cest--dire les couples de type (xi ; fi).
Dfinitions

On appelle donnes brutes ou tableau lmentaire le tableau relevant pour chaque unit
statistique la modalit de la variable tudie.
Le tri plat est la transformation qui permet de passer du tableau des donnes brutes au
tableau de la distribution statistique prsentant les modalits et les effectifs, les modalits tant
classes par ordre croissant.

Discrtisation
Dans le cas dune variable statistique quantitative continue, il est ncessaire de dfinir des
classes pour pouvoir proposer un tri plat.
Dfinition

On appelle discrtisation le dcoupage en classes dune srie statistique quantitative.

Ce dcoupage en classes pose de nombreuses questions : choix des amplitudes, amplitudes


constantes ou variables, nombre de classes, etc. Nous ne rentrerons pas ici dans le dtail de
ces oprations (voir lexercice 4 de ce chapitre).

2.2

VARIABLES QUANTITATIVES : DISTRIBUTION DES EFFECTIFS


ET DES FRQUENCES CUMULS
Cette section concerne les variables quantitatives pour lesquelles le tableau statistique est
ralis, les modalits tant ordonnes dans lordre croissant. Les notions que nous allons
dfinir sont lies la notion de fonction de rpartition, fondamentale en probabilit pour
les variables alatoires continues et sur laquelle nous reviendrons dans la section 3.3.

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Reprenons lexemple 1.4 et proposons de rpondre la question suivante : quelle


proportion de la population fminine en France mtropolitaine a moins de 35 ans ?
Nous pouvons affirmer que 42,5 % de la population fminine en France mtropolitaine a
moins de 35 ans, soit 17,5 % + 12,3 % + 12,7 %. Pour obtenir ce rsultat, nous avons
cumul les frquences des modalits infrieures ou gales 34 ans.
Dfinitions

Effectifs cumuls croissants sur variable discrte : Si X dsigne une variable quantitative
discrte, on appelle effectif cumul croissant, not nicc, le nombre dindividus statistiques pour
lesquels X est infrieur ou gal xi.
i

On a : n1cc = n1 et nicc = n1 + n2 + + ni = nk .
k =1

Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a :


r

nr cc = n1 + n2 + . + nr = nk = n, o n dsigne leffectif total de la srie.


k =1

Frquences cumules croissantes sur variable discrte : Avec les mmes hypothses, on
dfinit la frquence cumule croissante, note ficc, reprsentant la proportion dindividus
statistiques pour lesquels X est infrieur ou gal xi.
i

On a : f1cc = f1 et ficc = f1 + f2 + . + fi = fk , ou encore ficc =


k =1

nicc
.
n

Si la srie possde r modalits,


xr dsignant alors la plus grande valeur de X, on a :
r
fr cc = f 1 + f2 + . + fr = fk = 1 (ou 100 si les frquences sont exprimes en pourcentage).
k =1

Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[,
et on dfinit, de mme que pour une variable discrte, nicc le nombre dindividus statistiques
pour lesquels X est infrieur ou gal bi, et ficc la proportion dindividus statistiques pour
lesquels X est infrieur ou gal bi.

Il est galement possible de cumuler les effectifs et les frquences dans le sens dcroissant.
Dfinitions

Effectifs cumuls dcroissants sur variable discrte : Si X dsigne une variable quantitative
discrte, on appelle effectif cumul dcroissant, not nicd, le nombre dindividus statistiques
pour lesquels X est suprieur ou gal xi.
(Certains auteurs adoptent une convention diffrente : le nombre dindividus statistiques pour
lesquels X est strictement suprieur xi).
r

On a : n1cd = n ; nicd = ni + ni +1 + + nr = nk , r dsignant le nombre de modalits, et


k =i
nrcd = nr.
Frquences cumules dcroissantes sur variable discrte : Avec les mmes hypothses, on
dfinit la frquence cumule dcroissante, note ficd, reprsentant la proportion dindividus
statistiques pour lesquels X est suprieur ou gal xi.
r

On a : f1cd = 1 ; ficd = fi + fi+1 + . + fr = fk , et frcd = fr, ou encore ficd =


k =i

nicd
.
n

Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[,
et on dfinit, de mme que pour une variable discrte, nicd le nombre dindividus statistiques
pour lesquels X est suprieur ou gal ai, et ficc la proportion dindividus statistiques pour
lesquels X est suprieur ou gal ai.

Introduction la statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 1.5

Calculs deffectifs et frquences cumuls croissants et dcroissants

Le tableau suivant recense les enfants de moins de 6 ans en France mtropolitaine :


Anne

Moins de 3 ans

De 3 5 ans

2006

2 294 846

2 317 874

Source : Insee, bilan dmographique, 2006

Les effectifs cumuls croissants (nicc), dcroissants (nicd), et les frquences cumules
croissantes (ficc), dcroissantes (ficd), correspondants sont les suivants :

ge

ni

n icc

n icd

f icc

fi

f icd

[0 ; 3[

2 294 846

2 294 846

4 612 720

0,4975

0,4975

[3 ; 6[

2 317 874

4 612 720

2 317 874

0,5025

0,5025

Total

4 612 720

1,0000

Reprsentations graphiques des sries


une variable
Lapparition des graphiques statistiques, lie lutilisation des coordonnes, doit essentiellement son origine au philosophe et mathmaticien Ren Descartes (1596-1650). Ces
graphiques constituent une synthse visuelle indispensable de linformation contenue
dans le tableau statistique.
Les graphiques utiliss dpendent de la nature de la variable. Nous utiliserons, pour
reprsenter les distributions deffectifs (ou de frquences), les diagrammes circulaires (ou
secteurs), les diagrammes en tuyaux dorgue, les diagrammes en btons, les histogrammes et le polygone des effectifs. Pour les distributions cumules, nous utiliserons les
polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.

3.1

GRAPHIQUES POUR VARIABLES QUALITATIVES


Les variables qualitatives nominales ou ordinales peuvent tre reprsentes au choix
laide dun diagramme circulaire ou laide dun diagramme en tuyaux dorgue.

Diagramme circulaire
Le diagramme circulaire, galement appel camembert , permet une reprsentation de
la distribution dune variable dans un cercle qui reprsente 100 % des modalits (voir
figure 1.1).

10

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dfinition

Un diagramme circulaire est un graphique constitu dun cercle divis en secteurs dont les
angles au centre sont proportionnels aux effectifs (ou aux frquences). De fait, les aires des
secteurs sont proportionnelles aux effectifs. Langle i dune modalit deffectif ni est donn en
n
degrs par : i = i 360 = fi 360 .
n
Il est galement possible dutiliser un graphique semi-circulaire form dun demi-cercle
(180).

Diagramme en tuyaux dorgue (en barres)


Le diagramme en tuyaux dorgue est une reprsentation de la distribution dune variable
selon des rectangles horizontaux ou verticaux ayant tous une mme base, de largeur
arbitraire (voir figure 1.2).
Figure 1.1

Non
bachelier
11 %

Diagramme
circulaire :
proportion (en pourcentage) de
bacheliers et nonbacheliers dans une
gnration en
France
mtropolitaine et
DOM, 2005.

Bac gnral
34 %

135

131,32

Bac
professionnel
11 %

Bac
technologique
34 %

41,4
68,24

Dfinition

Un diagramme en tuyaux dorgue est un graphique qui chaque modalit dune variable
qualitative associe un rectangle de base constante dont la hauteur est proportionnelle
leffectif (ou la frquence). De fait, les aires des secteurs sont proportionnelles aux effectifs.
Les rectangles sont en gnral disjoints, verticaux ou horizontaux.

Figure 1.2
Diagramme en
tuyaux dorgue :
proportion (en
pourcentage) de
bacheliers et nonbacheliers dans une
gnration en France
mtropolitaine et
DOM, 2005.

Frquences en %
40,0
35,0
30,0
25,0
20,0
15,0
10,0
5,0
Bac gnral

Bac professionnel
Bac technologique

Non bacheliers

Introduction la statistique descriptive

11

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3.2

GRAPHIQUES POUR VARIABLES QUANTITATIVES


La reprsentation graphique dune variable quantitative dpend de sa nature : discrte
ou continue.

Variables discrtes : diagramme en btons


La distribution dune variable quantitative discrte peut tre reprsente par un
diagramme en btons (voir figure 1.3).
Dfinition

On appelle diagramme en btons un graphique qui chaque modalit dune variable


quantitative discrte associe un segment (bton) dont la hauteur est proportionnelle leffectif
(ou la frquence).
ni

Figure 1.3
8 000
7 000
6 000

Milliers

Diagramme en
btons et polygone
des effectifs : nombre
de personnes par
mnage, France,
1999.

5 000
4 000
3 000
2 000
1 000
xi

0
0

9 ou +

Variables continues : histogramme


En 2005 Monaco avait 32 543 habitants et le Japon 127 417 244 (source : Institut national
dtudes dmographiques). Bien sr, les dmographes diront que ces renseignements sont trs
largement insuffisants pour comparer la dmographie des deux pays : il faut au minimum
sintresser aux superficies de ces deux pays et calculer pour chacun dentre eux la densit de
population, cest--dire le nombre dhabitants au kilomtre carr. Avec une superficie de
2,02 km pour Monaco et de 378 000 km pour le Japon, les densits sont respectivement
d1 = 32 543 / 2,02 = 16 110,40 h/km pour Monaco et d2 = 127 417 244 / 378 000 = 337 h/km
pour le Japon. Autrement dit, alors que la population de Monaco est la moins importante en
taille, sa densit de population est plus importante que celle du Japon.
Cette notion de densit est essentielle pour les variables continues : il est absurde de comparer ou de reprsenter cte cte des classes qui nont pas la mme amplitude sans faire
intervenir la densit. Ce principe est omniprsent lors de la ralisation dun histogramme.
Dfinitions

Un histogramme est un diagramme compos de rectangles contigus dont les aires sont
proportionnelles aux effectifs (ou aux frquences) et dont les bases sont dtermines par les
intervalles de classes.
Dans le cas dune variable quantitative continue, on dfinit la densit deffectif di dune classe
deffectif ni et damplitude ai par : di = ni / ai (ou, dans le cas des frquences, fi / ai).

12

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Lors de la ralisation dun histogramme, il est indispensable de distinguer deux cas.


1. Si les amplitudes de classes sont gales, la hauteur des rectangles correspondra aux
effectifs (ou aux frquences) des classes.
2. Si les amplitudes sont diffrentes, afin de constituer lhistogramme, il est ncessaire de :
calculer, pour chaque classe, lamplitude ai ;
calculer la densit di = ni / ai pour un histogramme des effectifs, et di = fi / ai pour
un histogramme des frquences ;
affecter chaque rectangle une hauteur proportionnelle la densit di de la
classe correspondante.
Soit min(ai) lamplitude minimale de classe, la hauteur est alors appele effectif
corrig et note nic = di min(ai) ; cette convention revient adopter min(ai)
comme unit damplitude de classe. Les classes ayant pour amplitudes min(ai)
sont alors reprsentes par des rectangles dont la hauteur est leffectif. De mme,
il est possible de retenir comme hauteur la frquence corrige fic = di min(ai),
avec di = fi / ai dans le cas dun histogramme des frquences. Lutilisation de
min(ai) est une convention facultative ; un histogramme est correct ds lors que
les effectifs (ou les frquences) corrigs sont proportionnels aux densits.
Exemple 1.6

Ralisation dun histogramme et dun polygone des effectifs

Le responsable des ressources humaines dune entreprise a relev la distribution statistique suivante correspondant lanciennet du personnel cadre dans lentreprise, exprime
en annes :
Classes

Effectifs

[6,5 ; 8[

[8 ; 9,5[

[9,5 ; 11[

12

[11 ; 12,5[

19

[12,5 ; 14[

[14 ; 15,5[

[15,5 ; 17[

Total

60

Lhistogramme des effectifs est prsent avec, sur le mme graphique, le polygone des
effectifs trac en courbe pleine (voir figure 1.4). Ce polygone permet de reprsenter la
distribution sous la forme dune courbe ; quand les amplitudes de classes sont gales, on
lobtient en joignant les milieux des bases suprieures de chaque rectangle de
lhistogramme par des segments de droite. On adjoint gnralement une classe deffectif
nul, de part et dautre de lhistogramme, afin de respecter la rgle de compensation des
aires : laire totale du domaine situ entre laxe des x et le polygone est gale la somme
des aires des rectangles de lhistogramme. Elle reprsente leffectif total.

Introduction la statistique descriptive

13

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 1.4
Histogramme et
polygone des
effectifs, classes
de mme
amplitude :
anciennet du
personnel cadre
de lentreprise.

ni
20
18
16
14
12
10
8
6
4
2
xi

0
0

9 10 11 12 13 14 15 16 17 18 19 20

Modifions lgrement cet exemple en regroupant les deux dernires classes en une seule.
Ce regroupement permet de traiter le cas de classes damplitudes diffrentes, puisque
ainsi la dernire classe est damplitude 3 contre 1,5 pour toutes les autres classes.
Classes

Effectifs

[6,5 ; 8[

[8 ; 9,5[

[9,5 ; 11[

12

[11 ; 12,5[

19

[12,5 ; 14[

[14 ; 17[

Total

60

Les classes tant damplitudes ingales, il est ncessaire de calculer les amplitudes (ai), les
densits (di) puis les effectifs corrigs (nic) pour chaque classe. Les rsultats de ces calculs
sont prsents dans la figure 1.5.
Figure 1.5
Calcul des effectifs
corrigs dans le cas
de classes
damplitudes
ingales.

On peut alors tracer lhistogramme de la figure 1.6 partir des effectifs corrigs, ainsi que
le polygone des effectifs, en trait continu.
Pour tracer le polygone des effectifs, nous avons effectu un dcoupage artificiel en
pseudo-classes damplitude 1,5, dont nous avons pris les milieux des bases suprieures de
faon respecter la rgle de compensation des aires : les aires des triangles extrieurs au
domaine dlimit par le polygone sont gales celles des triangles qui sont situs sous le
polygone. Ainsi, laire totale du domaine situ sous le polygone des effectifs est gale
laire totale des rectangles de lhistogramme.

14

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Ce qui est fait dans cet exemple partir des effectifs peut galement tre ralis partir
des frquences, afin de tracer lhistogramme et le polygone des frquences.
Figure 1.6

nic
20

Histogramme et
polygone des
effectifs : classes
damplitudes
ingales.

18
16
14
12
10
8
6
4
2
Classes

0
0

1 2

4 5

6 7

8 9 10 11 12 13 14 15 16 17 18 19 20

Enfin, il serait inconcevable de ne pas voquer une varit dhistogramme, la pyramide,


dont lexemple le plus clbre est la pyramide des ges (voir figure 1.7). Cette varit
dhistogramme, o les axes ont t modifis (classes en ordonnes et effectifs en abscisses), est largement utilise en dmographie. Les classes sont annuelles. Les aires des
rectangles reprsentent le nombre dhommes ou de femmes vivants et ns lanne considre, en lecture sur laxe des abscisses.
Figure 1.7
Pyramide des ges.

3.3

DIAGRAMMES CUMULATIFS
Les notions deffectifs et de frquences cumuls nous ont donn loccasion dintroduire
la notion de fonction de rpartition, que nous dfinissons ci-aprs avant dvoquer sa
reprsentation graphique.

Dfinition

Si X est une variable quantitative, on introduit la fonction de rpartition, qui tout nombre
rel x associe la proportion des individus de la population pour lesquels X est infrieur ou
gal x.
Pour tout x rel, 0 F (x) 1 (les valeurs de F peuvent galement tre exprimes en pourcentage).

Introduction la statistique descriptive

15

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La premire tape de la construction dune fonction de rpartition consiste donc calculer les frquences cumules croissantes, en distinguant deux cas : le discret et le continu.

Fonction de rpartition dune variable discrte


La fonction de rpartition dune variable quantitative discrte est une fonction en escalier, cest--dire constante par intervalle. De plus, elle est croissante de 0 1 et dfinie
par :
Si x < x1, F(x) = 0
Si x = xi, F(x) = ficc
Si xi x < xi + 1, F(x) = ficc
Si x xr, F(x) = 1

Fonction de rpartition dune variable continue


A priori, la fonction de rpartition dune variable continue nest connue que pour les
extrmits de classes. Cependant, si lon admet lhypothse de rpartition uniforme des
observations au sein de chaque classe, on peut estimer les valeurs de F(x) par interpolation linaire. Cela revient approximer la reprsentation graphique par une fonction
affine par morceaux : concrtement, on trace la courbe en joignant deux points conscu1
tifs connus par un segment de droite (cette courbe est aussi appele ogive de Galton ).
Avec cette hypothse, F(x) reprsente laire situe sous lhistogramme des frquences,
gauche de la valeur x.

Polygones des effectifs cumuls croissants et dcroissants


Dans le cas dune variable continue, on dfinit les polygones des effectifs (ou des
frquences) cumuls croissants et dcroissants ; ils seront utiliss notamment pour
dterminer la mdiane de la srie (voir chapitre 2).
Le polygone des frquences cumules croissantes commence au point de coordonnes
(a1 ; 0), car la proportion de valeurs infrieures a1 est nulle. Il est obtenu en joignant les
points de coordonnes (bi ; ficc) il correspond la restriction de la fonction de rpartition aux valeurs de x infrieures ou gales la borne suprieure de la dernire classe.
Le polygone des frquences cumules dcroissantes sobtient de la mme faon, en adjoignant le point de coordonnes (br ; 0), car, br dsignant la borne suprieure de la dernire
classe, la proportion de valeurs suprieures br est nulle.
Exemple 1.7

Ralisation des polygones des frquences cumules croissantes et dcroissantes

Le tableau suivant donne la structure de la population chinoise suivant lge :


0-14 ans

15-24 ans

25-59 ans

60 ans et plus

21,4 %

16,6 %

51,1 %

10,9 %

Source : ONU, 2005

1. Francis Galton (1822-1911) fut lun des fondateurs de la biomtrie et collabora avec son ami Karl Pearson
(1857-1936).

16

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les frquences cumules croissantes et dcroissantes sont calcules puis organises pour
correspondre aux bornes des classes (voir figure 1.8).

Figure 1.8
Plages de donnes
des polygones des
frquences cumules
croissantes et
dcroissantes.

partir de ces donnes, il est possible de tracer les polygones des frquences cumules
croissantes et dcroissantes (voir figure 1.9).
Figure 1.9
Polygones des
frquences cumules
croissantes et
dcroissantes de
lge de la
population chinoise.

fi cumules
110
100
90
80
70
60
50
40
30
20
10
0

ficc
ficd

10

20

30

40

50

60

70

80

90

xi
100

Conclusion
On retiendra de ce premier chapitre limportance de la terminologie. On devra savoir
identifier, dans un exercice, la population, les variables tudies et leur nature : qualitative, quantitative discrte ou quantitative continue. On notera que le discret et le
continu, en statistique comme en probabilit, ncessitent des traitements diffrents ;
dans le cas continu, on retiendra limportance de la notion de densit. Par ailleurs, on
ninsistera jamais assez sur limportance des reprsentations graphiques en statistique ;
lissue de ce chapitre, on devra matriser notamment les histogrammes et les polygones
des effectifs (ou des frquences) cumuls croissants et dcroissants.

Introduction la statistique descriptive

17

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Les problmes et exercices suivants proposent la mise en application des notions exposes dans la premire partie de ce chapitre.
Lexercice 1 traite du passage dune srie brute un tableau statistique.
Les exercices 2, 3 et 5 sattachent aux graphiques associs aux diffrentes natures de
variables statistiques.
Lexercice 4 sintresse la discrtisation des donnes.

EXERCICE 1 DE LA SRIE BRUTE LA PRSENTATION DES STATISTIQUES


La liste suivante est compose de prnoms dun groupe dtudiants, suivis entre
parenthses du nombre de films que chacun dentre eux a vus au cours du mois
dernier :
Pierre (3), Paul (2), Jacques (2), Ralph (3), Abdel (1), Sidonie (2), Henri (0), Paulette
(1), Farida (2), Laure (2), Kevin (0), Carole (3), Marie-Claire (0), Jeanine (3), Julie (2),
Ernest (3), Cindy (3), Vanessa (2), Jos (1), Aurlien (1).
1. Dterminez :
a. la population tudie ;
b. la variable tudie.
2. Prcisez :
a. la nature de la variable ;
b. les modalits de la variable.
3. Construisez le tableau statistique associ la distribution des effectifs.
4. Reprsentez la distribution des effectifs par un diagramme en btons.
5. Calculez les effectifs :
a. cumuls croissants ;
b. cumuls dcroissants.
6. Calculez les frquences :
a. cumules croissantes ;
b. cumules dcroissantes.

18

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. a. La population tudie est le groupe dtudiants.


b. La variable tudie est X = nombre de films que chacun dentre eux a vus au cours
du mois dernier .
2. a. La variable tudie est quantitative discrte.
b. Lensemble M des modalits est M = {0 ; 1 ; 2 ; 3}.
3. Le tableau statistique associ est compos de deux colonnes :

la premire colonne comporte les modalits xi de X ;


la seconde colonne comporte les effectifs ni associs chacune de ces modalits.
Le tableau statistique associ X est le suivant.
xi

ni

6
4

Leffectif total est n = ni , soit n = 20.


i =1

4.
Figure 1.10
Diagramme en
btons des
effectifs.

ni

7
6
5
4
3
2
1
0

xi
4

Le mme diagramme en btons peut tre ralis sous Excel. Pour cela, cliquez sur Insertion/Graphique dans la barre de menus dExcel.
Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique
Histogramme et cliquez sur Suivant. Notez que le mot histogramme est employ par
Excel comme un terme gnrique dsignant des barres verticales et non un histogramme
au sens statistique.
Lassistant graphique propose de saisir les donnes du graphique. Cliquez sur longlet
Srie et indiquez dans les champs correspondants les plages o se trouvent les donnes.
Pour cela, slectionnez-les laide de la souris, comme indiqu sur la figure 1.11 :
la cellule B23 de la feuille Ex1 pour le nom ;

Introduction la statistique descriptive

19

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

la plage B24:B27 de la feuille Ex1 pour les valeurs ;


la plage A24:A27 de la feuille Ex1 pour les graduations de laxe des abscisses.
Cliquez sur le bouton Terminer.

Figure 1.11
Slection des
donnes
reprsenter dans
lassistant graphique.

Lassistant graphique se ferme et le graphique apparat (voir figure 1.12). Vous pouvez
modifier les options daffichage du graphique en appelant un menu par un clic droit sur
la zone de graphique.
5. a. Soit nicc leffectif cumul croissant de la modalit i : n1cc = n1 = 3, soit n1cc = 3 ;
n2cc = n1cc + n2 = 3 + 4, soit n2cc = 7 ; n3cc = n2cc + n3 = 7 + 7, soit n3cc = 14 ;
n4cc = n3cc + n4 = 14 + 6, soit n4cc = 20.
b. Soit nicd leffectif cumul dcroissant de la modalit i : n1cd = n, soit n1cd = 20 ;
n2cd = n1cd n1 = 20 3, soit n2cd = 17 ; n3cd = n2cd + n2 = 17 4, soit n3cd = 13 ;
n4cd = n3cd + n3 = 13 7, soit n4cd = 6.
Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau
obtenu en ajoutant deux colonnes au tableau statistique initial : les effectifs cumuls
croissants nicc et les effectifs cumuls dcroissants nicd.

20

Statistique descriptive

xi

ni

n icc

n icd

20

17

14

13

20

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

ni

Figure 1.12

Diagramme en
btons sous Excel.

7
6
5
4
3
2
1
x
0

6. Pour pouvoir calculer les frquences cumules croissantes ficc et dcroissantes ficd, il
convient de calculer les frquences fi.
n1 3
n
4
=
, soit f1 = 0,15 ; f2 = 2 = , soit f2 = 0,20 ;
n 20
n 20
n3 7
n4 6
f3 = = , soit f3 = 0,35 ; f4 = =
, soit f4 = 0,30.
n 20
n 20

Soit fi la frquence de la classe i : f1 =

a. Soit ficc la frquence cumule croissante de la classe i : f1cc = f1 = 0,15, soit f1cc = 0,15 ;
n2cc = f1cc + f2 = 0,15 + 0,20, soit f2cc = 0,35 ; f3cc = f2cc + f3 = 0,35 + 0,35, soit
f3cc = 0,70 ; f4cc = f3cc + f4 = 0,70 + 0,30, soit f4cc = 1.
b. Soit ficd la frquence cumule dcroissante de la classe i : f1cd = 1, soit f1cd = 1 ;
f2cd = f1cd f1 = 1 0,15, soit f2cd = 0,85 ; f3cd = f2cd + f2 = 0,85 0,20, soit f3cd = 0,65 ;
f4cd = f3cd + f3 = 0,65 0,35, soit f4cd = 0,30.
Les rsultats des frquences cumules croissantes et dcroissantes se prsentent dans un
tableau obtenu en ajoutant deux colonnes au tableau statistique : les frquences cumules croissantes ficc et les frquences cumules dcroissantes ficd.
xi

ni

n icc

n icd

fi

f icc

f icd

20

0,15

0,15

1,00

17

0,20

0,35

0,85

14

13

0,35

0,70

0,65

20

0,30

1,00

0,30

Introduction la statistique descriptive

21

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2 REPRSENTATIONS GRAPHIQUES SIMPLES


Le tableau suivant indique la rpartition des familles de lle de La Runion selon leur
nombre denfants :
Nombre denfants

Nombre de familles

31 038

54 812

51 252

26 613

4 ou +

16 162

Source : Insee, recensement, 1999

1. Dterminez :
a. la population tudie ;
b. la variable tudie.
2. Prcisez :
a. la nature de la variable ;
b. les modalits de la variable.
3. Reprsentez la distribution par diagramme circulaire.
4. la suite de la question prcdente :
a. Calculez les effectifs cumuls croissants et dcroissants.
b. Reprsentez la fonction de rpartition.
5. Combien de familles sont composes de :
a. au moins 1 enfant ?
b. au plus 2 enfants ?

1. a. La population tudie est compose des familles de La Runion.


b. La variable tudie est X = nombre denfants .
2. a. La variable tudie est quantitative discrte.
b. Lensemble des modalits de la variable tudie est M = {0 ; 1 ; 2 ; 3 ; 4 ou +}.
3. Pour raliser un diagramme circulaire, il convient de tracer un cercle et de retenir pour

chaque modalit i un secteur dangle au centre : i = 360 fi exprim en degrs.


Pour la modalit 1, f1 =

22

Statistique descriptive

n1 31038
=
= 0,1726 , donc 1 = 360 0,1726, soit 1 = 62,12.
n 179877

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pour la modalit 2, f2 =

n2 54812
=
= 0,3047 , donc 2 = 360 0,3047, soit 2 = 109,7.
n 179877

Pour la modalit 3, f3 =

n3 51252
=
= 0,2849 , donc 3 = 360 0,2849, soit 3 = 102,57.
n 179877

Pour la modalit 4, f4 =

n4 26613
=
= 0,1480 , donc 4 = 360 0,1480, soit 4 = 53,26.
n 179877

Pour la modalit 5, f5 =

n5 16162
=
= 0,0899 , donc 5 = 360 0,0899, soit 5 = 32,35.
n 179877

On vrifie que la somme des angles est bien de 360.


Ces calculs sont effectus sous Excel, dans le tableau prsent la figure 1.13, colonnes C
et D.
Figure 1.13
Rsultats sous
Excel.

Le diagramme circulaire de la figure 1.14 est ralis partir de ces rsultats.


Figure 1.14
Ralisation dun
diagramme
circulaire : rpartition
des familles de La
Runion selon leur
nombre denfants.

3
= 53,26

4 ou +
= 32,35

2
= 102,57

0
= 62,12

1
= 109,70

Pour raliser un diagramme circulaire sous Excel, cliquez sur Insertion/Graphique dans
la barre de menus.
Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique
Secteurs et cliquez sur Suivant.
Lassistant graphique propose de saisir les donnes du graphique. Indiquez dans le
champ Plage de donnes la plage o se trouvent les donnes en les slectionnant laide
de la souris (voir figure 1.15). Il sagit ici de la plage A2:B6 sur la feuille Ex2. Cliquez sur
le bouton Terminer.

Introduction la statistique descriptive

23

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 1.15
Slection des
donnes
reprsenter dans
lassistant graphique.

Lassistant graphique se ferme et le graphique apparat. Vous pouvez modifier les options
daffichage du diagramme en appelant un menu par un clic droit sur la zone de graphique.
4. a. Soit nicc leffectif cumul croissant de la classe i : n1cc = n1 = 31 038, soit n1cc = 31 038 ;
n2cc = n1cc + n2 = 31 038 + 54 812, soit n2cc = 85 850 ; n3cc = n2cc + n3 = 85 850 + 51 252,
n4cc = n3cc + n4 = 137 102 + 26 613,
soit
n4cc = 163 175 ;
soit
n3cc = 137 102 ;
n5cc = n4cc + n5 = 163 175 + 16 162, soit n5cc = 179 877.
Soit nicd leffectif cumul dcroissant de la classe i : n1cd = n, soit n1cd = 179 877 ;
n2cd = n1cd n1 = 179 877 31 038, soit n2cd = 148 839 ; n3cd = n2cd + n2 = 148 839
54 812, soit n3cd = 94 027 ; n4cd = n3cd + n3 = 94 027 51 252, soit n4cd = 42 775 ;
n5cd = n4cd + n4 = 42 775 26 613, soit n5cd = 16 162.
Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique prcdent : les effectifs cumuls croissants
nicc en colonne E et les effectifs cumuls dcroissants nicd en colonne F (voir figure 1.13).
b. La fonction de rpartition est ralise partir des frquences cumules croissantes
(ficc), calcules en colonne G du tableau statistique prcdent (voir figure 1.13), sur du
papier millimtr (voir figure 1.16).
Figure 1.16
Fonction de
rpartition du
nombre denfants des
familles de La
Runion.

F(x)
1,00
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
x

0
-1

24

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

5. a. Au moins 1 enfant correspond aux familles qui ont 1, 2, 3 ou 4 et + enfants, ou


encore toutes les familles sauf celles qui ont 0 enfant, cest--dire toutes les familles sauf
celles qui prsentent la modalit x1 de X. Le nombre de ces familles est leffectif cumul
dcroissant n2cd = 148 839, soit 179 877 31 038. Ainsi, 148 839 familles sont
composes dau moins 1 enfant.
b. Au plus 2 enfants correspond aux familles qui ont 0, 1 ou 2 enfants, cest--dire les
familles qui prsentent les modalits x1, x2 ou x3 de X. Le nombre de ces familles est
leffectif cumul croissant n3cc = 137 102, soit 31 038 + 54 812 + 51 252. Ainsi,
137 102 familles sont composes dau plus 2 enfants.

EXERCICE 3 LHISTOGRAMME
La Scurit routire tudie laccidentologie des passagers des vhicules de tourisme, gs
de 18 65 ans. Le tableau suivant indique le nombre de tus par tranches dge en 2005 :
ge

Effectif

[18 ; 25[

790

[25 ; 35[

545

[35 ; 45[

377

[45 ; 65[

606

Source : ONISR, 2006

1. Dterminez :
a. la population tudie,
b. la variable tudie.
2. Prcisez :
a. la nature de la variable ;
b. les modalits de la variable.
3. Dessinez lhistogramme de la distribution.

1. a. La population tudie est compose des passagers des vhicules de tourisme, gs de


18 65 ans.
b. La variable tudie est X = ge des tus .
2. a. La variable tudie est quantitative continue.
b. Les modalits de la variable tudie sont les quatre classes suivantes : [18 ; 25[ ;
[25 ; 35[ ; [35 ; 45[ ; [45 ; 65[.
3. Nous calculons les amplitudes de classes (Ai), soit :

A1 = 25 18 = 7 ; A2 = 35 25 = 10 ; A3 = 45 35 = 10 ; A4 = 65 45 = 20. Puisquelles
sont diffrentes, il est ncessaire dutiliser les densits pour raliser lhistogramme.

Introduction la statistique descriptive

25

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Conformment la figure 1.17, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2.
Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de
colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les densits (voir figure 1.17).
Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal,
soit 7. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur
len-tte de colonne L4. Indiquez L4=L37. Puis appuyez sur ENTER. La colonne L4 fait
alors apparatre les effectifs corrigs (voir figure 1.18).
Figure 1.17 (gauche)
Calcul des densits avec la
calculatrice.

Figure 1.18 (droite)


Calcul des effectifs corrigs
avec la calculatrice.

Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir
figure 1.19).
Figure 1.19

800

Histogramme des
tus par tranches
dge.

nic

700
600
500
400
300
200
100
xi

0
0

10

20

30

40

50

60

EXERCICE 4 DISCRTISATION DES DONNES


LAgence de lenvironnement et de la matrise de lnergie (ADEME) vous informe sur
les missions de CO2 par habitant dans le monde en 2002 :
Pays

26

missions de CO2 (tonnes de CO2 par habitant)

Asie du Sud

Afrique

1,39

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pays

missions de CO2 (tonnes de CO2 par habitant)

Amrique latine

2,79

Chine

3,05

Europe centrale

5,68

CEI

5,97

Moyen-Orient

6,04

Europe de lOuest

8,28

Japon

9,14

Asie (NPI)

10,46

Australasie

12,2

Amrique du Nord

20,02

Source : ADEME, 2002

LADEME souhaite distinguer trois classes de pays, selon leur niveau dmissions de CO2 :
ceux qui mettent moins de 6 tonnes par habitant ;
ceux qui mettent de 6 moins de 10 tonnes par habitant ;
ceux qui mettent de 10 moins de 22 tonnes par habitant.1.

Dterminez :

a. la population tudie ;
b. la variable tudie.
2. Prcisez :
a. la nature de la variable ;
b. les modalits de la variable.
3. Construisez le tableau statistique associ. Pour cela, discrtisez le caractre tudi
selon la classification souhaite par lADEME.
4. Dessinez lhistogramme de la distribution.

1. a. La population tudie est compose des rgions du monde numres.


b. La variable tudie est X = missions de CO2 .
2. a. La variable tudie est quantitative continue.
b. Lensemble des modalits de la variable tudie est M = {0,82 ; 1,39 ; 2,79 ; 3,05 ; 5,68 ;
5,97 ; 6,04 ; 8,28 ; 9,14 ; 10,46 ; 12,2 ; 20,02}.
3. Le tableau statistique associ est compos de deux colonnes :

la premire colonne comporte les classes dmission de CO2 ;


la seconde colonne comporte les effectifs ni affects chacune de ces classes.

Introduction la statistique descriptive

27

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Le tableau statistique associ X est le suivant.


missions de CO2

ni

[0 ; 6[

[6 ; 10[

[10 ; 22[

4. Nous calculons ensuite les amplitudes de classes (Ai), soit :


A1 = 6 0 = 6 ; A2 = 10 6 = 4 ; A3 = 22 10 = 12.
Conformment la figure 1.20, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2.
Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de
colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors
apparatre les densits (voir figure 1.20).
Figure 1.20 (gauche)
Calcul des densits avec
la calculatrice.

Figure 1.21 (droite)


Calcul des effectifs
corrigs avec la
calculatrice.

Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal,
soit 4. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur
len-tte de colonne L4. Indiquez L4=L34. Puis appuyez sur ENTER. La colonne L4 fait
alors apparatre les effectifs corrigs (voir figure 1.21).
Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir
figure 1.22).
Figure 1.22

nic

Histogramme des
pays selon leurs
missions de CO2.
0,5

Classes

0
0

28

Statistique descriptive

10 12 14 16 18 20 22

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 5 LES POLYGONES


LADEME vous transmet le tableau suivant, qui recense les individus dans le monde
selon le niveau de CO2 quils mettent :
mission moyenne de CO2 (tonnes CO2 par habitant)

Population (millions)

[0 ; 2[

2 205,79

[2 ; 4[

1 809,21

[4 ; 6[

401,26

[6 ; 8[

172,46

[8 ; 10[

590,05

[10 ; 16[

112,48

[16 ; 22[

319,84

Source : ADEME, 2002

1. Sur un mme graphique :


a. Dessinez lhistogramme des frquences de la distribution.
b. Dessinez le polygone des frquences de la distribution.
2. la suite de la question prcdente :
a. Calculez les frquences cumules croissantes et dcroissantes.
b. Reprsentez les polygones des frquences cumules croissantes et dcroissantes
sur un mme graphique.
1. a. Une simple lecture du tableau permet de voir que les amplitudes de classes ne sont
pas constantes, ce qui est confirm par leur calcul en colonne C (voir figure 1.23). Les
frquences sont calcules en colonne D, puis les densits (di) en colonne E, en
effectuant le rapport des frquences sur les amplitudes. Enfin, les frquences corriges
(fic) sont obtenues en colonne F en multipliant ces densits par leffectif minimal.

Figure 1.23
Rsultats sous Excel.

partir de ces frquences corriges, il est possible de tracer lhistogramme des frquences
sur une feuille de papier millimtr (voir figure 1.24).
b. Les classes sont damplitudes ingales. On procde un dcoupage artificiel en
prenant lamplitude minimale, soit 2, pour unit damplitude. Le polygone des frquen-

Introduction la statistique descriptive

29

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

ces est alors obtenu en joignant la rgle les milieux des bases suprieures des rectangles
du dcoupage prcdent (voir figure 1.24).
Figure 1.24

fic
0,40

Histogramme et
polygone des
frquences des pays
selon leurs missions
de CO2.

0,35
0,30
Polygone
0,25
0,20
0,15
0,10
0,05
Classes

0,00
-2

10 12 14 16 18 20 22 24

2. a. la suite du tableau Excel prcdent, les frquences cumules croissantes (ficc) sont
calcules dans la colonne G et les frquences cumules dcroissantes (ficd) dans la
colonne H (voir figure 1.23).
Ces calculs sont effectus selon le mme principe que pour les effectifs cumuls croissants et dcroissants, en remplaant les effectifs par les frquences.
b. La prsentation de ces rsultats est lgrement modifie pour faire apparatre dans un
mme tableau les frquences cumules croissantes et dcroissantes de chacune des
bornes des classes (voir figure 1.25).

Figure 1.25
Donnes pour les
polygones de
frquences cumules.

Les courbes des frquences cumules croissantes et dcroissantes de la figure 1.26 sont
ralises partir de ce dernier tableau.
Pour raliser ces courbes des effectifs cumuls sous Excel, cliquez sur Insertion/
Graphique dans la barre de menus dExcel.
Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique
Nuages de points, puis, dans Sous-type de graphique, slectionnez limage reprsentant
le Nuage de points relis par une courbe. Cliquez sur Suivant.
Lassistant graphique propose de saisir les donnes du graphique.

30

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 1.26

fi cumules
1,00

Polygones des
frquences cumules
croissantes et
dcroissantes des
pays selon leurs
missions de CO2.

0,90
0,80
0,70
0,60

ficc
ficd

0,50
0,40
0,30
0,20
0,10
0,00
0

xi
10 12 14 16 18 20 22

Dans longlet Plage de donnes, indiquez dans le champ correspondant la plage o se


trouvent les donnes permettant de tracer les courbes correspondant aux polygones des
effectifs cumuls croissants et dcroissants. Pour cela, slectionnez laide de la souris la
plage A34:C42 de la feuille Ex5 comme indiqu sur la figure 1.27, puis cliquez sur
Terminer.
Figure 1.27
Slection des
donnes
reprsenter dans
lassistant graphique.

Lassistant graphique se ferme et le graphique apparat (voir figure 1.26). Vous pouvez
modifier les options daffichage du graphique en appelant un menu par un clic droit sur
la zone de graphique.

Introduction la statistique descriptive

31

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Annexe 1.1
Prsentation du tableur (Excel)
Quand vous ouvrez Excel, la zone de travail situe au centre sappelle le CLASSEUR.
La BARRE DE TITRE de la fentre affiche le nom du classeur par exemple,
Classeur1 que vous devez renommer et enregistrer.
Un classeur comporte par dfaut trois feuilles, dont le nom figure sur un ONGLET par
exemple, Feuil2 . Il est possible de renommer, dinsrer ou de supprimer une feuille en
faisant un clic droit sur un des onglets et en choisissant Insrer, Supprimer ou Renommer dans le menu.
Lintersection dune ligne et dune colonne sappelle une CELLULE. Une cellule est
caractrise par sa RFRENCE, colonne-ligne par exemple, B4 .
La BARRE DE MENUS permet daccder aux diffrents menus droulants : Fichier,
Edition, Affichage, Insertion, Format, Outils, Tableau, Fentre, ?.
Sous la barre de menus se trouvent les BARRES DOUTILS, accessibles uniquement avec
la souris. Lorsquon pointe sans cliquer sur les diffrents boutons, une info-bulle affiche
le nom du bouton et sa fonction.
Sous les barres doutils se trouve la BARRE DE FORMULE. Dans sa partie gauche apparat la rfrence de la cellule active et dans la partie droite apparaissent les donnes, lors
de leur saisie. Entre les deux, le symbole fx (Insrer une fonction) dsigne lassistant
fonction. Il comprend toutes sortes de fonctions, notamment statistiques, et sera extrmement prcieux pour les problmes et exercices.
Pour saisir des donnes dans une cellule, placez la souris dessus, cliquez et entrez les
chiffres ou les lettres voulus. Passez dune cellule une autre grce la souris ou aux
touches , , et du clavier.
Pour effectuer une opration mathmatique, cliquez sur une cellule, tapez le signe =
pour indiquer quil sagit dune formule de calcul, puis faites lopration en utilisant les
signes mathmatiques du clavier : +, , * et /. Par exemple, pour additionner une cellule
une autre, cliquez sur la cellule qui doit accueillir le rsultat, tapez =, cliquez sur la
premire cellule, tapez + puis cliquez sur la seconde cellule additionner. Validez avec
ENTRE pour faire apparatre le rsultat. Llvation la puissance sobtient en
appuyant sur la touche accent grave, ^, suivie du nombre de la puissance dsire, ou en
utilisant la fonction Puissance de lassistant fonction.
Il existe trois types de rfrences de cellules : pour passer dun type lautre, utilisez la
touche F4, qui procde par permutation circulaire, comme le montre cet exemple :
saisissez =A1 dans la cellule A2, placez le curseur de la souris la suite de A1, contre le 1,
et appuyez sur F4. Vous voyez alors apparatre : $A$1 (rfrence absolue). Si vous
appuyez de nouveau sur F4, vous voyez apparatre successivement : A$1, $A1 (rfrences
mixtes) et enfin A1 (rfrence relative).
Rfrences relatives : par dfaut, sous Excel, les rfrences des cellules sont relatives .
Lorsquon recopie une formule dune cellule une autre, elle sadapte automatiquement
en fonction du dplacement en ligne ou en colonne.

32

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Si la formule =B2 + B3 est saisie en B4 puis recopie en C4, elle devient =C2 + C3.
Si la formule =B2 + C2 est saisie en D2 puis recopie en D3, elle devient =B3 + C3.
Si la formule =B2 + C2 est saisie en D2 puis recopie en E3, elle devient =C3 + D3.
Rfrences absolues : on peut figer la colonne et la ligne dune cellule, en mettant le
signe $ devant la lettre de la colonne et devant le nombre de la ligne, afin que la
cellule concerne reste identique en cas de recopie dune formule. Cette cellule est alors
dfinie par une rfrence absolue dans la formule.
Si la formule =B2 + $C$2 est saisie en D2 puis recopie en E3, elle devient
=C3 + $C$2.
Rfrences mixtes : on peut aussi dcider de ne figer que la colonne ou que la ligne dune
cellule, en positionnant le symbole $ uniquement devant la lettre ou le nombre de la
cellule. La cellule est alors dfinie par une rfrence mixte.
Si la formule =B2 + $C2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C3.
Si la formule =B2 + C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + D$2.
La notion de fonction : Excel comporte des fonctions intgres, identifies par des noms
de fonctions par exemple, SOMME, PRODUIT, MOYENNE, RACINE Les lments
sur lesquels porte la fonction sont appels ARGUMENTS, se placent entre parenthses et
sont spars par des points-virgules.
Pour utiliser une fonction : placez le curseur dans la cellule o vous souhaitez faire
apparatre le rsultat. Cliquez sur Insertion/Fonction (ou utilisez directement fx ),
slectionnez la catgorie de fonction souhaite (dans cet ouvrage, Statistique ou Math &
Trigo), puis la fonction dsire. Entrez les arguments en vous laissant guider par la bote
de dialogue Excel. Validez en cliquant sur OK.
Remarque : pour faire une somme, il est possible de se servir de licne propose par
dfaut dans la barre doutils. Cliquez sur la cellule o vous souhaitez faire apparatre la
somme, cliquez sur licne , puis slectionnez les cellules dont vous souhaitez faire la
somme, et validez avec ENTRE.
Les fonctions statistiques seront explores lors de la correction des exercices.

Annexe 1.2
Prsentation de la calculatrice
(Texas Instrument)
Notations : les colonnes sont notes L1, L2, L3, L4, L5, L6. Les cellules sont identifies
par leur colonne, suivie de leur ligne entre parenthses par exemple, L1(2) indique la
cellule figurant dans la premire colonne, la deuxime ligne.
Pour saisir un tableau : appuyez sur la touche STAT. ditez le tableau en appuyant sur
la touche 1. Saisissez les donnes (validez chacune par la touche ENTER) en vous dplaant avec le curseur.

Introduction la statistique descriptive

33

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pour quitter lditeur de tableau : appelez la fonction QUIT par lappui successif sur les
touches 2ND et MODE.
Pour effacer une colonne entire : placez le curseur sur len-tte de colonne Li que vous
souhaitez effacer. Appuyez sur les touches CLEAR et ENTER.
Pour effectuer la somme des termes dune colonne : placez le curseur dans la cellule (1)
o vous souhaitez faire apparatre la somme. Appuyez sur les touches 2ND et LIST, puis,
dans le menu MATH, appelez la fonction sum(. Indiquez la colonne Lj dont vous
souhaitez faire la somme (par exemple, L1 est obtenu par 2ND et 1) et validez avec
ENTER.
Pour effectuer la somme cumule dune colonne : placez le curseur sur len-tte de
colonne Li dans laquelle vous souhaitez obtenir les effectifs cumuls. Appuyez sur les
touches 2ND et LIST, puis, dans le menu OPS, appelez la fonction cumSum(. Indiquez la
colonne Lj dont vous souhaitez faire la somme cumule et validez avec ENTER.

Bibliographie
BOLL M., Lexploitation du hasard, Que sais-je ?, PUF, 1947.
CALOT G., Cours de statistique descriptive, Dunod, Paris, 1969.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DODGE Y., Premiers pas en statistiques, Springer, 2005.
DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001.
LE BRAS H., Naissance de la mortalit. Lorigine politique de la statistique et de la
dmographie, Gallimard/Le Seuil, Paris, 2000.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985.
PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962.
ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson
Education, 2004.
ROHRBASSER J.-M. et VERON J., Leibniz et les raisonnements sur la vie humaine, INED,
Paris, 2001.
VESSEREAU A., La statistique, Que sais-je ?, PUF, 1962.

34

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les caractristiques
de tendance centrale
1. Le mode ..............................36
2. Les moyennes.......................39
3. Les quantiles ........................44
Problmes et exercices
1. Lecture de tendances
centrales sur srie brute ........54
2. Tendances centrales sur
tableau statistique,
caractre discret...................55
3. Tendances centrales sur
tableau statistique,
caractre continu .................56
4. Visualisation graphique
des tendances centrales ........59
5. Moyenne gomtrique..........60
6. Moyenne harmonique ..........61

Lobjectif de ce chapitre est de prsenter les principaux


paramtres qui permettent de rsumer une srie statistique
dobservations et dclairer sur la position du noyau (centre)
de la srie. Ces paramtres sont appels caractristiques de
position ou de tendance centrale de la srie statistique une
variable. Nous prsenterons ici le mode, la moyenne, la
mdiane, les quartiles et, plus gnralement, les quantiles. Le
statisticien anglais George Yule (1871-1951) a dfini en
1911 les conditions idales souhaitables pour une valeur
centrale :
tre dfinie objectivement partir de la srie ;
dpendre de tous les termes de la srie ;
tre comprhensible par des non-spcialistes ;
tre simple calculer ;
tre peu sensible aux fluctuations dchantillonnage ;
se prter des calculs algbriques.
Aucune des valeurs centrales
parfaite au sens de Yule.

dfinies

ci-aprs

nest

35

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Le mode
Lors de lobservation de la reprsentation graphique dune distribution statistique (diagramme en btons ou histogramme), lil est souvent attir par le bton ou le rectangle
le plus haut. Une des valeurs typiques dune srie statistique est le mode (valeur
dominante).
Ce mot semble inspir de la mode , car il met en vidence la valeur la plus probable de
la srie.
La courbe en cloche de la distribution normale (voir chapitre 4, section 1) en donne
une bonne vision.

1.1

PRSENTATION

Dfinition

Le mode est la valeur de la variable qui a leffectif (ou la frquence) le plus grand. On le note Mo.

En conomie, dans les problmes dalimentation, de revenu, de logement, etc., le groupe


qui a le plus grand poids est celui du mode. Il situe bien la position des valeurs les plus
frquemment rencontres.
Le reprage du mode nest pas un problme complexe, mais il faut distinguer le cas dune
variable qualitative ou quantitative discrte du cas dune variable continue.
Il existe des sries unimodales (un mode) et des sries plurimodales (plusieurs modes).

1.2

VARIABLE QUALITATIVE OU QUANTITATIVE DISCRTE


Si la variable est qualitative ou quantitative discrte, on dtermine le mode directement
en identifiant la modalit de la variable qui correspond leffectif maximal (ou la
frquence maximale).
Le mode dune srie discrte est une valeur de la srie. Graphiquement, le mode correspond au bton le plus long (aux btons les plus longs dans le cas des sries plurimodales).

1.3

VARIABLE QUANTITATIVE CONTINUE


Si la variable est quantitative continue, il faut procder en deux tapes :
1. Dtermination de la classe modale (elle nest pas ncessairement unique), cest--dire
celle qui est reprsente dans lhistogramme par le rectangle le plus haut : cest la
classe de plus grande densit. On notera que, si les classes sont de mme amplitude, la
classe modale est celle qui a le plus grand effectif (ou la plus grande frquence).
Rappel (voir chapitre 1, section 3.2) : la densit deffectif de la classe i, note di, est le
n
rapport d i = i , avec ni leffectif et ai lamplitude de la classe. Cette densit reprsente
ai
le nombre dindividus par unit damplitude.

36

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. Dtermination du mode lintrieur de cette classe modale.


Pour une premire estimation, le mode peut tre approch par le centre de la classe
modale. En fait, le mode est labscisse du point o la courbe de densit de frquence
atteint son maximum.
Dans la pratique, nous disposons uniquement de lhistogramme. Le mode peut tre
estim par la mthode des diagonales : on utilise le trapze mis en vidence par les deux
rectangles encadrant le rectangle modal (voir figure 2.1).

Figure 2.1

900

di
h1

800

Histogramme des
effectifs et
dtermination du
mode : structure des
ges en 2020,
France, prvisions.

h
h2

700
600
500
400
300
200
100
0

Mo
Classes
10 20 30 40 50 60 70 80 90 100

Graphiquement, la classe modale est le pic de lhistogramme corrig (amplitudes gales)


et le mode correspond labscisse du point dintersection des deux diagonales. Il se
calcule donc sur les effectifs corrigs (cest le seul indicateur qui se calcule sur effectifs
corrigs).
Dans le cas o les amplitudes de classes sont gales, la classe modale est celle qui a le plus
grand effectif (ou la plus grande frquence). La suite de la dmarche est identique.
Soit [x1 ; x2[ la classe modale, h1 et h2 les hauteurs (effectifs corrigs ou densits) des
rectangles encadrant le rectangle modal, h la hauteur du rectangle modal et Mo le mode.
Afin de calculer le mode, lide est dabandonner lhypothse de rpartition uniforme
lintrieur de la classe modale, qui conduit retenir le centre de classe. Lhypothse
privilgie est celle dune rpartition influence par les valeurs h1 et h2, le mode tant
attir du ct du rectangle voisin de plus grande densit. Il est suppos que la densit
crot de la valeur h1 son maximum h et dcrot de h h2 avec la mme vitesse, ce qui
h h1
h h2
.
=
donne, avec les taux daccroissement :
Mo x1 x2 Mo
Soit

k1
k2
=
, avec k1 et k2 les diffrences : k1 = h h1 et k2 = h h2.
Mo x1 x2 Mo

En effectuant le produit en croix : Mo =

k2 x1 + k1 x2
.
k1 + k2

Le mode apparat comme la moyenne pondre de x1 et x2 respectivement affects des


coefficients h2 et k1.

Les caractristiques de tendance centrale

37

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

k1
(x2 x1 ) . Cette
k1 + k2
formule montre bien, par exemple, le dplacement du mode vers x1 dans la cas o k1 < k2,
k1
< 0,5 .
donc o
k1 + k2

Une formule quivalente du mode est donne par : Mo = x1 +

Exemple 2.1

Calcul du mode sur variable quantitative continue

Considrons les prvisions de la structure dmographique de la France en 2020 :


ge

ni

ai

di

0-19 ans

14 115

20

705,75

20-29 ans

7 403

10

740,3

30-39 ans

7 842

10

784,2

40-49 ans

7 967

10

796,7

50-59 ans

8 281

10

828,1

60-69 ans

7 716

10

771,6

70-79 ans

5 521

10

552,1

80-89 ans

3 074

10

307,4

90-99 ans

878

10

87,8

Source : Insee, projections des mnages lhorizon 2020 pour la France mtropolitaine, juillet 2006

Les amplitudes de classes tant diffrentes, nous utilisons les densits pour dterminer la
classe modale et reprsenter lhistogramme (voir figure 2.1). La classe modale est donc la
classe des 50-59 ans soit [50 ; 60 [ avec une densit de 828,1.
x1 = 50 ; x2 = 60 ; h = 828,1 ;
k2 = 828,1 771,6 = 56,5.

h1=

796,7 ;

h2 = 771,6 ;

k1 = 828,1 796,7 = 31,4 ;

En appliquant la formule du mode :


Mo =

k2 x1 + k1 x2
56,5 50 + 31,4 60
=
, soit Mo = 53,57 ans, soit environ 52 ans et
k1 + k2
31, 4 + 56,5

7 mois.
Le mode est trs peu conforme aux conditions de Yule. Il ne se prte pas aux calculs
algbriques, et ne dpend pas de tous les termes de la srie. Cependant, il reste une valeur
centrale importante pour les distributions ayant un effectif important, car il donne la
valeur la plus typique.

38

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les moyennes
Si un individu possdait une poque donne toutes les qualits de lhomme moyen, il
1
reprsenterait tout ce qui est grand, bon et beau , disait Adolphe Qutelet .
Sans nous attacher la notion conteste d homme moyen de Qutelet, gardons
lesprit que lide de moyenne est une notion abstraite. Quand le statisticien calcule une
moyenne, il fabrique en gnral une grandeur nouvelle, qui a la vocation dtre reprsentative de toutes les grandeurs considres, mais qui na en gnral aucune existence
relle. Nous imaginons mal un fabricant de chaussures qui fabriquerait des chaussures
correspondant la taille moyenne.
Quatre types de moyennes sont dfinies ici : les moyennes arithmtiques et celles, moins
utilises, que sont les moyennes gomtriques, harmoniques et quadratiques.
La moyenne arithmtique garde un rle primordial du fait de sa simplicit de calcul,
mais surtout du fait de sa place fondamentale dans la thorie des erreurs dobservation
2
(loi de Laplace-Gauss ) et dans la thorie de la rgression (voir chapitre 6).
Lide fondamentale de la notion de moyenne est que cette dernire vise reprsenter
des grandeurs ingales par une grandeur unique qui ne change pas la globalit de la
situation. Ainsi, dans une entreprise o les personnels ont des salaires diffrents, la masse
salariale resterait inchange si tous les personnels percevaient le mme salaire moyen.

2.1

LA MOYENNE ARITHMTIQUE
3

Cest en astronomie, avec Tycho Brahe , que la moyenne arithmtique simpose. Johann
4
Bernoulli la qualifie dans lEncyclopdie comme le milieu prendre entre les observations .
Cette moyenne, lie laddition, est la moyenne la plus couramment utilise. Elle reprsente bien lide de milieu, dquilibre, symbolise par la place du zro dans les nombres.
Dfinitions

La moyenne arithmtique est la somme des valeurs observes rapporte au nombre


dobservations. Elle se note x .
La moyenne arithmtique simple de n rels (donnes en tableau brut) correspond la division de leur somme par leur nombre. Soit x1, x2, , xn les n observations de la variable X
1 n
(non ncessairement distinctes) : la moyenne arithmtique se note x = x i . Cette formule
n i =1
implique que

x
i =1

= nx .

1. Adolphe Qutelet (1796-1874), astronome, statisticien belge.


2. Pierre Simon de Laplace (1749-1827), mathmaticien, astronome franais. Carl Friedrich Gauss (17771855), astronome, mathmaticien allemand.
3. Tycho Brahe (1546-1601), astronome danois.
4. Johann Bernoulli (1667-1748), mathmaticien suisse.

Les caractristiques de tendance centrale

39

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La moyenne arithmtique pondre de r rels (distincts) x1, x2, , xr (donnes en tableau


statistique), affects respectivement des coefficients ni, tels que

n
i =1

x=

= n , se note

r
1 r
ni x i . Ou encore x = fi x i .

n i =1
i =1

Les probabilistes parlent desprance dune variable alatoire et notent sa moyenne


r

E(X) =

px
i

, les probabilits pi se substituant aux frquences fi.

i =1

Calcul de la moyenne arithmtique


dans le cas dune variable discrte
Exemple 2.2

Calcul dune moyenne arithmtique pondre

La rpartition des effectifs du prlmentaire dans les tablissements publics par ges en
2005-2006 est la suivante :
ge

ni

f i (%)

2 ans

154 141

0,0702

3 ans

667 328

0,3038

4 ans

685 158

0,3119

5 ans

680 202

0,3097

9 683

0,0044

6 ans et plus

Source : ministre de lducation nationale, 2007

On notera qua priori lge est une variable continue ; cependant, lducation nationale
prsente ici cette variable comme une variable discrte et nous la traiterons ainsi. Par
ailleurs, nous prendrons 6 pour la dernire modalit.
Pour calculer la moyenne, il est ncessaire de calculer chacun des nixi, avant den calculer
la somme (voir figure 2.2).
La moyenne est obtenue en divisant la somme des nixi par leffectif total. Lge moyen
8 510 006
= 3,87 ans. On peut
dans les tablissements publics de maternelle est : x =
2 196 512
galement retrouver cette valeur en calculant chacun des fixi et en effectuant leur somme.
Figure 2.2
Calcul des nixi sous
Excel (tablissements
publics).

De mme, en calculant chacun des fixi et en effectuant leur somme, on trouve que lge
moyen dans les tablissements privs de maternelle est : x = 3,8 ans (voir figure 2.2).

40

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Calcul de la moyenne arithmtique


dans le cas dune variable continue
Les dfinitions et formules des moyennes arithmtiques simple et pondre sont les
mmes que celles utilises dans le cas dune variable discrte. La mthode reste identique
lexception de lutilisation de lhypothse de rpartition uniforme lintrieur des
classes et de concentration au centre des classes, ce qui autorise le calcul de la moyenne
partir des centres de classes.
Exemple 2.3

Calcul dune moyenne arithmtique pondre sur variable continue en classe

Reprenons les prvisions de lInsee lhorizon 2020 (voir exemple 2.1) et calculons lge
moyen prvisible. Pour calculer les nixi, il faut pralablement calculer les centres de
classes xi. Si ai et bi reprsentent respectivement les bornes infrieure et suprieure des
a +b
classes, alors le centre de classe xi = i i . Une fois les xi connus, il convient de calculer
2
chacun des fixi, avant den faire la somme (voir figure 2.3).
Figure 2.3
Calcul des fixi sous
Excel.

x = 42,61, lge moyen est de 42,61 ans.

Proprits de la moyenne arithmtique


La moyenne arithmtique possde la proprit de linarit : x + y = x + y et ax = ax ,
a tant une valeur constante.
Par exemple, soit une entreprise dans laquelle le revenu des personnels se compose dun
salaire x et dune prime y, le salaire moyen mensuel tant de 3 500 euros et la prime
moyenne mensuelle de 200 euros. Le revenu moyen mensuel sera de 3 700 euros. De
mme, si tous les salaires sont augments de 5 %, le salaire moyen deviendra :
3 500 1,05 = 3 675 euros.
Si toutes les valeurs des observations sont identiques, la moyenne de ces observations est
gale cette valeur commune. Autrement dit, la moyenne dune variable statistique
constante est gale elle-mme.
Do : ax + b = ax + b , a et b tant des valeurs constantes. Cela permet notamment de
changer dunit, ou dorigine, toute transformation linaire effectue sur la variable tant
rpercute sur la moyenne.
La moyenne des carts la moyenne est nulle.

Les caractristiques de tendance centrale

41

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

n (x
i =1

i =1

i =1

x ) = ni xi ni x = ni xi nx = 0 , car selon la formule de la moyenne


i =1

1 r
ni xi = x , soit
n i =1

n x
i =1

i i

= nx .

Cela explique pourquoi nous choisirons la moyenne des carts au carr pour mesurer la
dispersion, encore appele variance.
La moyenne arithmtique dpend de tous les termes de la srie, elle se prte bien aux
calculs, cest un bon indicateur de tendance centrale au sens de Yule. En revanche, elle
prsente linconvnient dtre trs sensible aux valeurs extrmes. Cest pourquoi elle est
qualifie dindicateur peu robuste.

2.2

LES AUTRES MOYENNES


La moyenne gomtrique : moyenne de la multiplication
Introduisons cette moyenne par un exemple : soit une pice rectangulaire de 16 mtres
sur 9 mtres. Quelle serait la dimension du ct dune pice carre de mme aire ?
Si g dsigne notre inconnue, g = 16 9 soit g tant un rel positif, g = 16 9 = 5 ; ce
nombre est appel la moyenne gomtrique de 16 et 9.

Dfinitions

La moyenne gomtrique simple, note g, de n rels positifs est la racine n


duit : G =

xi

ime

de leur pro-

1
n

. Ou encore G = n x 1 x 2 .... x n = ( x 1 x 2 .... x n ) .

i =1

La moyenne gomtrique pondre de r rels positifs, affects respectivement des coefficients


ni, tels que

n
i =1

= n , se note G, tel que G =

xi

ni

i =1

Ou encore G = n x 1n1 x 2n2 .... x r nr = ( x1n1 x 2n2 .... x r nr )n = x 1f1 x 2f2 .... x r fr .

La moyenne gomtrique sera utilise dans le chapitre 8 sur les indices (indice de Fisher).
Par ailleurs, elle est indispensable dans les calculs de taux de croissance ; elle donne le
coefficient multiplicateur moyen.
Exemple 2.4

Calcul dune moyenne gomtrique pondre

Supposons que la population dun pays ait augment trois annes de suite de 4 % et deux
annes de suite de 5 %, laugmentation moyenne sera donne par 1 + t = 5 1,043 1,052 ,
1

soit un taux de croissance annuel moyen t = (1,043 1,052 )5 1 , soit environ 4,40 % par an.

42

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La moyenne gomtrique est trs lie la moyenne arithmtique. En effet :


1 r
Ln(g ) = ni Ln(xi ) . Ainsi, la moyenne gomtrique est gale la moyenne arithmtin i =1
que pondre des logarithmes npriens.
Nous noterons galement que, sur la courbe de la fonction exponentielle, en prenant
a +b
est
deux points dabscisses respectives a et b, lordonne du point dabscisse
2
e

a +b
2

e a e b , soit une moyenne gomtrique.

La moyenne harmonique : moyenne de linverse


Si la moyenne arithmtique simpose dans de nombreuses situations, le recours
dautres moyennes est parfois indispensable.
Prenons un exemple classique : supposons quun aller-retour Paris-Deauville soit effectu avec une vitesse moyenne de 130 km/h laller et de 80 km/h au retour. Que penser
de la vitesse moyenne sur laller-retour ?
Soit d la distance Paris-Deauville, t le temps du trajet et v la vitesse. Alors v =
v=

2d
d
d
+
130 80

2
1
1
+
130 80

d
. Do
t

= 99,04 km/h, et non 105 km/h comme le donnerait la

moyenne arithmtique. Nous pouvons galement crire :

2
1
1
=
+ , v sappelant la
v 130 80

moyenne harmonique des vitesses.


Dfinitions

La moyenne harmonique simple de n nombres rels non nuls est le rel not H et dfini par :
n
1
n
1
=
soit H =
, linverse de la moyenne arithmtique des inverses. Ou encore
1 n 1
H i =1 x i

n i =1 x i
H=

n
n

x
i =1 i

La moyenne harmonique pondre de r nombres rels non nuls, affects respectivement des
r
r
n
n
coefficients ni, tels que ni = n , est le rel not h et dfini par :
= i soit
H i =1 x i
i =1
1
H=
, soit linverse de la moyenne arithmtique pondre de leurs inverses. Ou
1 r ni

n i =1 x i
encore H =

n
.
ni

i =1 x i
r

La moyenne harmonique sera galement utilise dans le chapitre 8 sur les indices (indice
de Paasche).

Les caractristiques de tendance centrale

43

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La moyenne quadratique
Le mot quadratique, qui vient du latin, voque le carr et est utilis pour dsigner la
puissance deux.
Partons dun exemple simple : supposons un appartement compos de deux pices
carres de cts respectifs a et b ( a b ) et cherchons la mesure du ct Q des pices dun
appartement de mme surface, mais compos de deux pices identiques carres. On
aura : 2Q 2 = a2 + b2 soit Q =

a2 + b2
.
2

La moyenne quadratique, ou moyenne dordre 2, est la moyenne qui sert dfinir lcarttype dune variable statistique, que nous utiliserons lors de ltude de la dispersion.
Dfinitions

La moyenne quadratique simple de n nombres rels, note Q, correspond la moyenne


arithmtique de leurs carrs : Q =

1 n
x i . Ou encore Q =
n i =1

x 12 + x 22 + ... + x n 2
.
n

La moyenne quadratique pondre, note Q, de r nombres rels, affects respectivement des


coefficients ni, tels que

n
i =1

carrs : Q =

Focus 2.1

= n , correspond la moyenne arithmtique pondre de leurs

1 r
n x 2 + n2 x 22 + ... + nr x r 2
ni x i . Ou encore Q = 1 1
.

n i =1
n

Remarques sur les moyennes


1. Une moyenne reprsente toujours un centre dune srie de donnes. Soit x Min et
x Max respectivement la plus petite et la plus grande valeur de la srie. Les moyennes de
la srie statistique appartiennent toujours lintervalle [ x Min ; x Max ].

2. Il est important de retenir lordre de ces moyennes : x Min H G x Q x Max . Cette


remarque, qui servira notamment pour comparer les indices synthtiques, est aisment
dmontrable pour deux rels a et b. Vrifions-le avec un exemple : a = 9 et b = 16
donne : H =

288
= 11, 52 . G = 12 ; x = 12, 5 et Q =
25

256 + 81
= 12,98 .
2

3. Les moyennes sont des indicateurs qualifis de peu robustes en ce sens quils sont
sensibles aux valeurs extrmes.

Les quantiles
Partons dun exemple : En 2005, 10 % des salaris temps complet du secteur priv et semipublic gagnent un salaire annuel net infrieur 12 506 (source : Insee, DADS, 2005).
On dit que 12 506 constitue le quantile dordre 0,10 de la srie des salaires considre.

44

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Si p est un rel de lintervalle]0 ; 1[, on lui associe la valeur de la srie, note Q(p),
appele quantile dordre p. La proportion des valeurs de la srie infrieures ou gales
Q(p) est suprieure ou gale p.
La mdiane est un quantile particulier qui spare la population en deux groupes
deffectifs gaux.

3.1

LA MDIANE
Il est clair que lide de partager la srie en deux groupes ayant exactement le mme effectif
nest pas toujours ralisable, aussi la dfinition de la mdiane doit-elle tre affine.

Dfinition

La mdiane, note Me, est la plus petite valeur de la srie* pour laquelle le nombre
dobservations infrieures ou gales cette valeur reprsente au moins 50 % de leffectif total
de la srie.
Cest le quantile dordre 0,5.
* Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, la
mdiane nest pas ncessairement une valeur observe (voir exemple 2.6).

Ainsi, il y a au moins 50 % des observations ayant une valeur infrieure ou gale la mdiane
et au moins 50 % des observations ayant une valeur suprieure ou gale la mdiane.
On dtermine la mdiane laide des effectifs cumuls croissants, partir de la srie des
valeurs ordonnes dans lordre croissant. Il convient de distinguer le cas dune variable
prsente sous forme de donnes brutes du cas dune variable prsente dans un tableau
statistique. Dans ce dernier cas, on distinguera le cas discret et le cas continu.

La mdiane dune srie de donnes brutes


Tout dabord la srie doit tre classe dans lordre croissant des valeurs.
La dtermination directe ou non de la mdiane dpend du nombre de donnes brutes.
1. Si ce nombre est impair, il est possible de dterminer directement la mdiane.
2. Si ce nombre est pair, la mdiane est dduite de lintervalle mdian.
Calcul 1 : si la srie brute comporte un nombre impair dobservations, not n = 2p + 1, la
ime
mdiane est la valeur centrale de la srie (ordonne en sens croissant), donc la (p + 1)
observation.
Exemple 2.5

Calcul de la mdiane, nombre impair de donnes brutes

Le tableau suivant donne le taux demploi (en pourcentage) des jeunes de 15 24 ans, en
2005, dans les sept pays de lUnion europenne ayant le plus fort taux.
Pays

Taux demploi

Allemagne

42

Pays-Bas

65,2

Autriche

53,1

Les caractristiques de tendance centrale

45

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pays

Taux demploi

Irlande

48,7

Royaume-Uni

54

Danemark

62,3

Finlande

40,5

Source : Insee, juillet 2006

Classons tout dabord les modalits par ordre croissant. Dans notre exemple, ces modalits sont au nombre de n = 7, cest--dire un nombre impair, et p = 3, donc la mdiane
e
est la valeur centrale de la srie ordonne, cest--dire la 4 observation : 40,5 42 48,7
53,1 54 62,3 65,2. La mdiane est Me = 53,1.
Calcul 2 : si la srie brute comporte un nombre pair dobservations, not n = 2p, il convient
de dterminer lintervalle mdian, constitu par les observations de rang p et p + 1 de la
srie ordonne. Par convention, la mdiane est le milieu de cet intervalle mdian.
Exemple 2.6

Calcul de la mdiane, nombre pair de donnes brutes

Reprenons lexemple prcdent (voir exemple 2.5) et rajoutons la France avec un taux de
30,1 %. Le nombre de modalits devient n = 8, donc p = 4. Lintervalle mdian est conse
e
titu de la 4 et de la 5 observation, cest donc lintervalle mdian [48,7 ; 53,1]. Par
48,7 + 53,1
= 50,9.
convention, Me =
2

La mdiane dans un tableau statistique


Pour calculer la mdiane partir dun tableau statistique, il convient de distinguer deux cas :
1. Soit la variable est prsente comme un caractre discret.
2. Soit la variable est prsente comme un caractre continu.
Calcul 1 : Dans le premier cas, les modalits de la variable sont des valeurs isoles. La
dtermination de la mdiane se fait directement laide des effectifs cumuls croissants
(voir figure 2.4).
Exemple 2.7

Calcul de la mdiane pour une variable prsente comme un caractre discret

Le tableau suivant donne le nombre denfants de moins de 25 ans par famille, en France
mtropolitaine en 2005 :
Nombre denfants
1

3 714

3 369

1 237

4 ou +
Source : Insee, enqutes de recensement, 2004-2006

46

n i (milliers)

Statistique descriptive

410

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 2.4
Effectifs cumuls
croissants.

Le nombre dobservations est pair, donc lintervalle mdian est constitu par les deux
n 8730000
observations centrales, cest--dire de rangs respectifs p = =
= 4365000 et
2
2
p + 1 = 4 365 001. Les effectifs cumuls croissants nous montrent que ces observations
sont dans la modalit 2, donc que la mdiane, leur moyenne arithmtique, est 2. Il y a au
moins 50 % des familles ayant un nombre denfants infrieur ou gal 2 et au moins
50 % des familles ayant un nombre denfants suprieur ou gal 2.
Calcul 2 : Dans le second cas, les modalits de la variable sont des classes. La dtermination de la mdiane repose sur lhypothse que les observations sont rparties uniformment au sein de chaque classe. La mdiane est alors dfinie par F(Me) = 0,50, o F
dsigne la fonction de rpartition. Son calcul se fait en deux temps :
1. Localisation de la classe mdiane laide des effectifs cumuls croissants ou des
frquences cumules croissantes.
2. Calcul de la mdiane par interpolation linaire (voir focus 2.2).

Focus 2.2

Interpolation linaire
Le mot inter signifie que nous oprons entre deux valeurs connues, appeles ples. Le
mot linaire voque la droite.
Supposons une fonction f dfinie sur un segment [a ; b], et dont nous connaissons les valeurs
f(a) et f(b), le problme tant destimer la valeur de f en un point x du segment [a ; b]. Le
principe de linterpolation linaire est donc de supposer lalignement des points A, B et M
dont les coordonnes sont A (xA ; yA) ; B (xB ; yB) ; M (xM ; yM).
Cet alignement des points A, B et M est reprsent sur la figure 2.5.
Lalignement des points A, B et M se traduit par lgalit des coefficients directeurs, ou
encore par lgalit des rapports des distances, en utilisant le thorme de Thals.
y yA yM yA
AB
AB '
AB "
=
=
, soit B
, ce qui donne, aprs un produit en croix :
=
xB x A x M x A
AM AM ' AM "
yM = yA +

yB y A
(x M x A ) .
xB x A

Par exemple, dterminons une valeur approche de

3 (= 1,732) par interpolation linaire

sur le segment [1 ; 4] (voir figure 2.5). Linterpolation linaire donne :


3 = 1+

2 1
3 1
soit :
=
4 1 3 1

2 5
= = 1, 667 .
3 3

Les caractristiques de tendance centrale

47

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 2.5

y
2,5
B

B''

yB -yA

1,5

M''

ym-

Alignement et
galit des
coefficients
directeurs.

1
A

B'

M'

xM -xA
xB -xA

0,5

0
0

Exemple 2.8

0,5

1,5

2,5

3,5

x
4,5

Calcul de la mdiane pour une variable prsente comme un caractre continu

Soit le nombre de personnes de plus de 15 ans ayant un niveau dtudes suprieures (voir
figure 2.6).
Figure 2.6
Calcul des nicc sous
Excel.

Source : Insee, recensement de la population, 1999

Le calcul de leffectif moiti, 4 345 579,5, et les effectifs cumuls croissants permettent de
localiser la mdiane dans lintervalle des 30-40 ans.
Le polygone des effectifs cumuls croissants permet une visualisation graphique de la
mdiane (voir figure 2.7). Soit les trois points A (30 ; 2 164 808), B (40 ; 4 653 220) et
M (Me ; 4 345 579,5).
Figure 2.7

8 000
7 000

Milliers

Mdiane et effectifs
cumuls par ges des
personnes de plus de
15 ans ayant un
niveau dtudes
suprieures.

ni cumuls
9 000

6 000
5 000

B
nicum croissants

4 000

nicum dcroissants

3 000

2 000
1 000
xi

0
0

48

Statistique descriptive

10

20

30

Me
40

50

60

70

80

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous pouvons crire lalignement de ces trois points par galit des coefficients directeurs
4 653 220 2164 808 4 345 579,5 2164 808
,
=
(interpolation linaire ; voir focus 2.2) :
Me 30
40 30
2 488 412 2 180 771,5
soit
=
, ce qui donne, en effectuant le produit en croix :
10
Me 30
2180 771,5
Me =
+ 30 = 38,76 ans.
248 841,2
La mdiane est relier la notion de fonction de rpartition, fonction dfinie de R dans
[0 ; 1], extrmement importante en probabilit. Pour une variable statistique continue, la
fonction de rpartition se dfinit par : F ( x ) = P ( X x ) , qui donne la proportion des
individus de la population pour lesquels la variable statistique prend une valeur infrieure ou gale x. Ainsi : F ( Me ) = 0,50 .
La mdiane ne satisfait pas bien aux conditions de Yule. Elle dpend du nombre de
termes, mais pas de leur grandeur, et est inadapte aux calculs. Elle prsente cependant le
grand avantage dtre insensible linfluence des termes extrmes, et donc dtre robuste.

3.2

LES QUANTILES : GNRALISATION DE LA MDIANE


Les quantiles

Dfinition

On suppose que les modalits de la srie statistique sont ranges dans lordre croissant.
Soit p un rel tel que 0 < p < 1, on lui associe la valeur de la srie*, note Q(p), appele
quantile dordre p. Q(p) est la plus petite valeur de la srie pour laquelle la proportion des
observations infrieures ou gales Q(p) est au moins gale p.
* Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, le
quantile dordre 0,50 sera pris gal la mdiane.

La proportion dobservations infrieures ou gales Q(p) est au moins gale p et la


proportion dobservations suprieures ou gales Q(p) est au moins gale (1 p).
En plus de la mdiane, frquemment utilise, nous prsentons ici les quantiles les plus
courants :

les trois quartiles partagent la srie en quatre groupes comprenant chacun 25 % des
observations ;
les neuf dciles partagent la srie en dix groupes comprenant chacun 10 % des
observations ;
les quatre-vingt-dix-neuf centiles partagent la srie en cent groupes comprenant
chacun 1 % des observations.

Les caractristiques de tendance centrale

49

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les quartiles
Dfinition

Les quartiles partagent la population ou lchantillon en quatre groupes comprenant chacun


25 % des observations.

Au nombre de trois, ils se notent Q1, Q2 et Q3.

Q1 est le quantile dordre 0,25 : au moins 25 % des observations sont infrieures ou


gales Q1 et au moins 75 % suprieures ou gales Q1.
Q2 est le quantile dordre 0,50 : au moins 50 % des observations sont infrieures ou
gales Q2 et au moins 50 % suprieures ou gales Q2 ; Q2 est gal la mdiane.
Q3 est le quantile dordre 0,75 : au moins 75 % des observations sont infrieures ou
gales Q3 et au moins 25 % suprieures ou gales Q3.
Dans le cas continu, on se rfre la fonction de rpartition : F(Q1) = 0,25 ;
F(Q2) = 0,5 et F(Q3) = 0,75.
La dtermination des quartiles se fait comme pour la mdiane, avec une interpolation
linaire dans le cas continu, les quartiles pouvant tre dtermins grce au polygone des
frquences ou des effectifs cumuls croissants.
Exemple 2.9

Calcul dun quartile dans un tableau statistique contenant une variable continue

Reprenons lexemple 2.8, trait pour la mdiane, concernant le niveau dtudes des pern
sonnes de plus de 15 ans, et dterminons Q1. Aprs avoir calcul = 2 172 789,75, nous
4
en dduisons que Q1 appartient la classe des 30-40 ans. Il reste effectuer linterpolation
linaire qui donne :
4 653 220 2 164 808 2172 789,75 2 164 808
, soit Q1 = 30,03 ans, ce qui signifie que
=
Q1 30
40 30
25 % de cette population a un ge infrieur ou gal 30,03 ans.

Les dciles
Dfinition

Les dciles partagent la population ou lchantillon en dix groupes comprenant chacun 10 %


des observations.

Au nombre de neuf, ils se notent : D1, D2, D3, D4, D5, D6, D7, D8 et D9.
D1 est le quantile dordre 0,10 : au moins 10 % des observations sont infrieures ou
gales D1 et au moins 90 % des observations sont suprieures ou gales D1.
D2 est le quantile dordre 0,20 : au moins 20 % des observations sont infrieures ou
gales D2 et au moins 80 % des observations sont suprieures ou gales D2.
D9 est le quantile dordre 0,90 : au moins 90 % des observations sont infrieures ou
gales D9 et au moins 10 % des observations sont suprieures ou gales D9.
Dans le cas continu, on se rfre la fonction de rpartition : F(D1) = 0,1 ; F(D2) = 0,2 ;
; F(D9) = 0,9.
La dtermination des dciles est faite selon le mme processus que celui utilis pour les
quartiles.

50

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les centiles
Dfinition

Les centiles partagent la population ou lchantillon en cent groupes comprenant chacun 1 %


des observations.

Au nombre de quatre-vingt-dix-neuf, ils se notent : C1, C2, , C99.


C1 est le quantile dordre 0,01 : au moins 1 % des observations sont infrieures ou
gales C1 et au moins 99 % des observations sont suprieures ou gales C1.
C99 est le quantile dordre 0,99 : au moins 99 % des observations sont infrieures ou
gales C99 et au moins 1 % des observations sont suprieures ou gales C99.
Dans le cas continu : F(C1) = 0,01 ; F(C2) = 0,02 ; ; F(C99) = 0,99.
La dtermination des centiles est faite selon le mme processus que celui utilis pour les
quartiles.

Focus 2.3

Positions relatives de la moyenne arithmtique,


du mode et de la mdiane
La moyenne arithmtique, le mode et la mdiane sont trois paramtres de position qui
permettent de prciser la forme de la distribution (voir figure 2.8) :
Lorsque le diagramme de la distribution est symtrique, ces trois paramtres de position
sont confondus, comme dans le cas dune distribution probabiliste normale ou gaussienne
(voir chapitre 4, section 1) o la valeur centrale simpose.
Lorsque la distribution est asymtrique, ou oblique, le mode est par dfinition au sommet
de la courbe des frquences. La moyenne, comme un centre dinertie, attire par les
termes extrmes, se dplace vers la zone o la courbe est le plus tire. La mdiane reste
situe entre ces deux valeurs. Ce type de graphique voque notamment la distribution
binomiale. Dans ce cas le choix dune valeur centrale est beaucoup moins vident et exige
de la circonspection.
Nous noublierons jamais en statistiques que linterprtation et la prsentation des calculs
exigent une grande honntet intellectuelle : Les chiffres sont des innocents, qui, sous la
sollicitation, sous la torture, avouent trs vite ce quon leur demande, quitte se rtracter
1
plus tard (Alfred Sauvy ).

Figure 2.8
Histogramme,
densit de
probabilit et valeurs
centrales.

fi

Distribution
symtrique

fi

xi
Mo = Me = x

Distribution
oblique gauche

Mo < Me < x

fi

xi

Distribution
oblique droite

xi
x< Me < Mo

1. Alfred Sauvy (1898-1990), conomiste et sociologue franais, fut directeur de lINED (Institut national
dtudes dmographiques).

Les caractristiques de tendance centrale

51

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Karl Pearson a introduit, la fin du XIX sicle, la relation empirique suivante :


Me Mo = 2 (x Me) . Elle est valable pour les distributions unimodales, pas trop
asymtriques, et permet une estimation rapide dun paramtre partir des deux autres.

Focus 2.4

Les fonctions Excel


Pour faire la moyenne arithmtique dune variable : appelez la fonction MOYENNE dans
la cellule o vous souhaitez faire apparatre le rsultat. Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette fonction permet deffectuer uniquement
une moyenne simple.
Pour faire la moyenne harmonique dune variable : appelez la fonction
MOYENNE.HARMONIQUE dans la cellule o vous souhaitez faire apparatre le rsultat.
Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette fonction permet deffectuer uniquement une moyenne simple.
Pour faire la moyenne gomtrique dune variable : appelez la fonction
MOYENNE.GEOMETRIQUE dans la cellule o vous souhaitez faire apparatre le rsultat.
Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette
fonction permet deffectuer uniquement une moyenne simple.

Focus 2.5

Les fonctions de la calculatrice


Avant tout calcul statistique, noubliez pas deffacer les listes : appuyez sur la touche STAT,
puis ClrList L1,L2,L3, et validez avec ENTER. La calculatrice indique alors done , pour
signifier quelle a effac ces trois listes.
Pour effectuer la moyenne arithmtique simple dune variable : saisissez les modalits dans
la colonne L1 du tableau. Appuyez sur la touche STAT, puis, dans le menu CALC, appelez la
fonction 1-Var Stats. Validez avec ENTER. La moyenne saffiche sur lcran, entre autres
rsultats.
Pour effectuer une moyenne pondre : saisissez les modalits dans la colonne L1, saisissez
les effectifs ou les frquences dans la colonne L2, puis, dans le menu CALC, appelez la
fonction 1-Var Stats, puis indiquez dans lordre L1, L2, et validez avec ENTER.
Pour effectuer le produit de deux colonnes de mme dimension, L1 et L2 : mettez par
exemple la colonne L3 en surbrillance et tapez L1L2. Le produit des deux colonnes saffiche
dans la colonne L3.
Pour effectuer le produit des lments dune colonne : placez le curseur dans la cellule Li (1)
(premire cellule de la liste i o vous souhaitez faire apparatre le produit). Appuyez sur les
touches 2ND et LIST, puis, dans le menu MATH, appelez la fonction Prod(. Indiquez la
colonne Lj dont vous souhaitez calculer le produit des lments, fermez la parenthse et
validez avec ENTER.

1. Karl Pearson (1857-1936), mathmaticien, statisticien anglais, fondateur avec Galton de la revue
Biometrika.

52

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

ime

Pour calculer la racine n dune cellule : placez le curseur dans la cellule Li (1) o vous
ime
souhaitez faire apparatre la racine n . Appuyez sur la touche MATH, appelez la fonction
x

. Indiquez la cellule dont vous souhaitez calculer la racine n

Vous pouvez galement utiliser la proprit


puissance, en tapant x^(1/n).

x =x

1
n

ime

et validez avec ENTER.

et vous ramener un calcul de

Conclusion
Nous voyons ainsi que nous serons amens faire de nombreux calculs de valeurs centrales pour analyser une srie statistique. Nous devrons choisir parmi ces valeurs celles
qui par leurs qualits correspondent au contexte de ltude.
La moyenne arithmtique est gnralement pertinente si la srie est suffisamment longue
et homogne. Elle varie peu dun chantillon lautre. La mdiane est trs simple
calculer, mais est plus sensible aux fluctuations dchantillonnage. Elle participe bien la
description de la srie et limine leffet des valeurs aberrantes. Le mode a un but pratique
vident : il indique la valeur la plus typique. Par ailleurs, il est incontournable pour les
sries asymtriques. Ces paramtres qui participent une description synthtique de la
srie doivent toujours tre visualiss sur les diffrentes reprsentations graphiques. Nous
reviendrons dans le chapitre suivant sur limportance des quartiles et leur rle dans la
reprsentation graphique des sries par des botes moustaches.

Les caractristiques de tendance centrale

53

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
La mise en uvre des caractristiques de tendance centrale diffre selon la nature des
donnes.
Les exercices 1, 2 et 3 proposent la dtermination de caractristiques de tendance
centrale pour des variables de diverse nature.
Lexercice 4 fait appel une approche graphique des caractristiques de tendance
centrale.
Les exercices 5 et 6 approfondissent la notion de moyenne, grce aux moyennes
gomtriques et harmoniques.

EXERCICE 1 LECTURE DE TENDANCES CENTRALES SUR SRIE BRUTE


La liste ci-aprs est compose des vingt-cinq pays de lUnion europenne. Les nombres
entre parenthses indiquent le nombre de mdecins pour 100 000 habitants :
Allemagne (350) ; Autriche (300) ; Belgique (400) ; Chypre (270) ; Danemark (340) ;
Espagne (440) ; Estonie (310) ; Finlande (310) ; France (300) ; Grce (390) ; Hongrie
(360) ; Irlande (230) ; Italie (570) ; Lettonie (310) ; Lituanie (390) ; Luxembourg (250) ;
Malte (260) ; Pays-Bas (250) ; Pologne (230) ; Portugal (310) ; Rpublique tchque
(310) ; Royaume-Uni (160) ; Slovaquie (320) ; Slovnie (220) ; Sude (310).
Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

1. Dterminez le mode de cette srie.


2. Dterminez la mdiane.

1. On classe le nombre de mdecins pour 100 000 habitants par ordre croissant :

160 ; 220 ; 230 ; 230 ; 250 ; 250 ; 260 ; 270 ; 300 ; 300 ; 310 ; 310 ; 310 ; 310 ; 310 ; 310 ;
320 ; 340 ; 350 ; 360 ; 390 ; 390 ; 400 ; 440 ; 570.
Mo = 310. Le mode est la valeur la plus reprsente, soit 310 mdecins pour
100 000 habitants, valeur observe dans 6 pays.
2. Leffectif total n est impair, avec ici n = 25. Or, n = 2p + 1, donc p = 12. La valeur
ime
centrale est la (p + 1) observation, soit la 13e. Il sagit de 310. Donc Me = 310. Le
nombre mdian de mdecins pour 100 000 habitants est 310. Douze pays, soit la moiti,
ont moins de 310 mdecins pour 100 000 habitants et 12 pays, soit lautre moiti, ont
plus de 310 mdecins pour 100 000 habitants.

54

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2

TENDANCES CENTRALES SUR TABLEAU STATISTIQUE,


CARACTRE DISCRET
Le tableau ci-aprs recense le nombre de rsidences principales en France, selon le
nombre de pices :
Nombre de pices

Nombre de rsidences
principales

1 526 573

3 028 244

5 299 675

6 418 808

4 432 943

3 103 918

Source : Insee, recensement de la population, 1999

1. Dterminez le mode.
2. Dterminez la mdiane.
3. Dterminez les quartiles.
4. Calculez la moyenne.

1. Mo = 4. Ce sont les rsidences principales de 4 pices qui sont le plus frquentes, avec
un effectif de 6 418 808.
2. Nous cherchons le nombre de pices en dessous duquel se trouvent 50 % des rsidences
principales. Nous calculons donc les effectifs cumuls croissants, selon les tapes
suivantes, sous Excel (voir figure 2.9) : leffectif total (n) en cellule B8, les frquences (fi)
en colonne C, puis les frquences cumules croissantes (ficc) en colonne D.

Leffectif total est impair, donc la mdiane est lobservation centrale, de rang (p + 1), avec
23 810 160
.
p=
2
Figure 2.9
Rsultats sous
Excel.

Ou encore : partir de la colonne des frquences cumules croissantes (ficc), nous lisons
que 41 % des rsidences principales ont 3 pices et moins ; 68 % des rsidences princi-

Les caractristiques de tendance centrale

55

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

pales ont 4 pices et moins. Donc, entre ces deux valeurs, 50 % des rsidences principales
ont moins de 4 pices. Soit Me = 4.
3. partir du tableau utilis pour la mdiane, il est possible de dterminer que :

Q1 = 3 : 19 % des rsidences principales ont 2 pices et moins ; 41 % des rsidences


principales ont 3 pices et moins. Donc, entre ces deux valeurs, 25 % des rsidences
principales ont moins de 3 pices.
Q2 = 4, car Q2 = Me.
Q3 = 5 : 68 % des rsidences principales ont 4 pices et moins ; 87 % des rsidences
principales ont 5 pices et moins. Donc, entre ces deux valeurs, 75 % des rsidences
principales ont moins de 5 pices.
4. la suite du tableau prcdent, nous calculons les nixi en colonne E puis leur somme
en cellule E8, sous Excel (voir figure 2.10).
1 6
89 945 541
ni xi = 23 810161 , soit x = 3,78 pices. La moyenne du
n i =1
nombre de pices dans les rsidences principales est de 3,78.

La moyenne est gale x =

EXERCICE 3

TENDANCES CENTRALES SUR TABLEAU STATISTIQUE,


CARACTRE CONTINU
Le tableau ci-aprs indique la structure des entres dans les salles de cinma en France,
selon les tranches dge des spectateurs de moins de 25 ans :
ge
[5 ; 10[

7,632

[10 ; 15[

12,316

[15 ; 20[

26,192

[20 ; 25[

24,631

Source : CNC, 2005

1. Calculez le mode.
2. Calculez la mdiane.
3. Calculez les quartiles.
4. Calculez les dciles :
a. Calculez D1.
b. Calculez D9.
5. Calculez les centiles :
a. Calculez C1.
b. Calculez C99.
6. Calculez la moyenne.

56

Statistique descriptive

Nombre dentres (millions)

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Nous vrifions en premier lieu que les amplitudes de classes sont gales, ici de valeur 5.
Il nest donc pas ncessaire de corriger les effectifs en passant par les densits. La classe
modale est celle de plus grand effectif, soit la classe [15 ; 20[.
k2 x1 + k1 x2
(26,192 12,316) 20 + (26,192 24,631) 15
=
,
k1 + k2
(26,192 12,316) + (26,192 24, 631)
soit Mo = 19,49. Lge modal de la population tudie est 19,49 ans, soit 19 ans et 6 mois.

Le mode est donc gal Mo =

2. La premire tape consiste calculer les centres de classes (xi).

x1 =

5 + 10
10 + 15
15 + 20
20 + 25
= 7,5 ; x2 =
= 12,5 ; x3 =
= 17,5 ; x4 =
= 22,5.
2
2
2
2

Saisissez les centres de classes (xi) dans la colonne L1 de la calculatrice et les effectifs (ni)
dans la colonne L2 (voir figure 2.10).

Figure 2.10
Saisie du tableau de
donnes avec la
calculatrice.

Pour calculer les frquences (fi) dans la colonne L3, placez le curseur sur len-tte de
colonne L3. Indiquez L3=L2sum(L2), en appelant la fonction SUM (voir chapitre 1,
annexe 1.2). Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les frquences.
Pour obtenir les frquences cumules croissantes (ficc) dans la colonne L4 (voir
figure 2.11a), placez le curseur sur len-tte de colonne L4, puis entrez la formule
L4=CumSum(L3), en appelant la fonction CUMSUM (voir chapitre 1, annexe 1.2), puis
appuyez sur ENTER.

Figure 2.11a
Calcul des frquences
et des frquences
cumules croissantes
avec la calculatrice

28,2 % des entres sont faites par les moins de 15 ans ; 65,2 % des entres sont faites par
les moins de 20 ans. Donc la mdiane appartient la classe [15 ; 20[.
0,5 0,28187
( 20 15 ) + 15 ; soit Me = 17,95. La
0,65196 0,28187
moiti de la population tudie a moins de 17,95 ans, soit environ 17 ans et 11 mois.

Par interpolation linaire, Me =

Les caractristiques de tendance centrale

57

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3. 10,8 % des entres sont faites par les moins de 10 ans ; 28,2 % des entres sont faites
par les moins de 15 ans. Donc Q1 appartient la classe [10 ; 15[.

0,25 0,10784
(15 10 ) + 10 ; soit Q1 = 14,08. Un
0,28187 0,10784
quart de la population tudie a moins de 14,08 ans, soit environ 14 ans et 1 mois.

Par interpolation linaire, Q1 =

Q2 = Me, donc Q2 = 17,95. La moiti de la population tudie a moins de 17,95 ans, soit
environ 17 ans et 11 mois.
65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par
les moins de 25 ans. Donc Q3 appartient la classe [20 ; 25[.
0,75 0, 65196
( 25 20 ) + 20 ; soit Q3 = 21,41. Trois
1 0,65196
quarts de la population tudie ont moins de 21,41 ans, soit environ 21 ans et 5 mois.

Par interpolation linaire, Q3 =

4. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par
les moins de 10 ans. Donc D1 appartient la classe [5 ; 10[.
0,1 0
(10 5) + 5 ; soit D1 = 9,64. 10 % de la
0,10784 0
population tudie a moins de 9,64 ans, soit environ 9 ans et 8 mois.

Par interpolation linaire, D1 =

b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites
par les moins de 25 ans. Donc D9 appartient la classe [20 ; 25[.
0,9 0,65196
( 25 20 ) + 20 ; soit D9 = 23,56. 90 % de
1 0,65196
la population tudie a moins de 23,56 ans, soit environ 23 ans et 7 mois.

Par interpolation linaire, D9 =

5. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par
les moins de 10 ans. Donc C1 appartient la classe [5 ; 10[.
0,01 0
(10 5) + 5 ; soit C1 = 5,46. 1 % de la
0,10784 0
population tudie a moins de 5,46 ans, soit environ 5 ans et 5 mois.

Par interpolation linaire, C1 =

b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites
par les moins de 25 ans. Donc C99 appartient la classe [20 ; 25[.
0,99 0,65196
( 25 20 ) + 20 ; soit C99 = 24,86. 99 % de
1 0,65196
la population tudie a moins de 24,86 ans, soit environ 24 ans et 10 mois.

Par interpolation linaire, C99 =

6. Pour calculer les nixi dans la colonne L5, placez le curseur sur len-tte de colonne L5.
Indiquez L5=L2L1. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre les nixi
(voir figure 2.11b).

Pour en faire la somme, placez le curseur sur la cellule L5(5), et indiquez


L5(5)=sum(L5), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur
ENTER. La cellule L5(5) fait alors apparatre la somme des nixi.

58

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pour connatre leffectif total, placez le curseur sur la cellule L2(5), et indiquez
L2(5)=sum(L2), en appelant la fonction SUM. Puis appuyez sur ENTER. La cellule L2(5)
fait alors apparatre la somme des ni.

Figure 2.11b
Calcul des nixi et de
la somme des
colonnes avec la
calculatrice.

1 4
1223,7
ni xi =
, soit x = 17,29. Lge moyen de la

n i =1
70,771
population tudie est 17,29 ans, soit environ 17 ans et 3 mois.

La moyenne est donc gale x =

EXERCICE 4 VISUALISATION GRAPHIQUE DES TENDANCES CENTRALES


partir des donnes de lexercice 3 :
1. Dessinez un histogramme. Positionnez sur cet histogramme le mode, la mdiane, les
quartiles et la moyenne.
2. Retrouvez la valeur de la mdiane laide des polygones des effectifs cumuls.

1. Les amplitudes de classes sont toutes identiques. Il est donc inutile de passer par les
densits des effectifs afin de respecter le rapport entre laire du rectangle et sa hauteur
(voir figure 2.12).

Figure 2.12
Histogramme des
entres
cinmatographiques
par ges et
tendances centrales.

ni
30

25

15

5
Q1

M
Mo Q 3

xi

0
0

10

15

20

25

Les caractristiques de tendance centrale

59

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. La mdiane se trouve lintersection des polygones des effectifs cumuls croissants et


dcroissants. Afin de pouvoir tracer graphiquement ces polygones, il convient de calculer
les effectifs cumuls croissants nicc en colonne D et les effectifs cumuls dcroissants nicd
en colonne E (voir figure 2.13).
Figure 2.13
Rsultats sous Excel.

Figure 2.14

ni cumuls

Effectifs cumuls par


ges des entres
cinmatographiques.

70
60
50
nicc
nicd

40
30
20
10
0
5

15

Me =17,95

xi
25

EXERCICE 5 MOYENNE GOMTRIQUE


Un jeune diplm est augment de 5 % la premire et la deuxime anne de sa vie
professionnelle. La troisime anne, son augmentation de salaire est de 3 %. Il change
dentreprise au dbut de la quatrime anne, et ngocie un salaire de 12 % plus lev que
celui quil avait.
Dterminez la moyenne de ses augmentations de salaire sur les quatre annes.

Pour une augmentation de xi = 5 % = 0,05, la croissance se traduit par un coefficient


multiplicateur de yi = 1 + 0,05 = 1,05. Ainsi, nous savons que le coefficient multiplicateur
moyen est la moyenne gomtrique pondre des coefficients multiplicateurs affects des
dures. Nous allons donc introduire la srie des yi = 1 + xi .
Saisissez les yi dans la colonne L1 de la calculatrice et les effectifs (ni) dans la colonne L2
(voir figure 2.15).
Pour calculer les yi^ni dans la colonne L3, placez le curseur sur len-tte de colonne L3.
Indiquez L3=L1^L2, puis appuyez sur ENTER. La colonne L3 fait alors apparatre les yi^ni.
Pour en faire le produit, placez le curseur sur la cellule L3(4) et indiquez L3(4)=prod(L3),
en appelant la fonction PROD. Puis appuyez sur ENTER. La cellule L3(4) fait alors
apparatre le produit des yi^ni, soit 1,2718.

60

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pour faire la racine 4 du rsultat, placez le curseur sur la cellule L3(5), et indiquez L3(5)=
L3(4)^(1 / 4). Puis appuyez sur ENTER. La cellule L3(5) donne 1,062.

Figure 2.15
Saisie du tableau de
donnes et calcul
avec la calculatrice.

La moyenne gomtrique est G =

yi

ni

= 1,062. Laugmentation moyenne du

i =1

salaire sur les quatre annes est 6,20 %.

EXERCICE 6 MOYENNE HARMONIQUE


e

Christophe Moreau est arriv premier Franais et 20 au classement du Tour de France 2005. Le
tableau ci-aprs indique sa vitesse moyenne (km/h) sur chaque tape, ainsi que la distance de
ltape (km).
Jour

tape

Vitesse moyenne
(km/h)

Distance de
ltape (km)

Mardi 19 juillet 2005

Mourenx > Pau

38,40

180,5

Mercredi 20 juillet 2005

Pau > Revel

39,48

239,5

Jeudi 21 juillet 2005

Albi > Mende

39,10

189

Vendredi 22 juillet 2005

Issoire > Le Puy-en-Velay

42,44

153,5

Samedi 23 juillet 2005

Saint-tienne > Saint-tienne

44,40

55

Dimanche 24 juillet 2005

Corbeil-Essonnes > Paris Champslyses

39,23

144

Source : http://www.letour.fr/2005

Calculez la vitesse moyenne de Christophe Moreau sur la dernire semaine du Tour de France
2005.

Si H dsigne la vitesse moyenne, alors : H =

d
=
t

i =1
r

ni

i =1 xi

Les caractristiques de tendance centrale

61

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous cherchons donc la moyenne harmonique des vitesses (xi), chaque vitesse ayant
pour poids la distance de ltape (ni). Nous calculons les ni / xi en colonne E puis leur
somme en cellule E8, sous Excel (voir figure 2.16).

Figure 2.16
Rsultats sous Excel.

962
=
, soit H = 39,85 km/h. La vitesse
ni
24,13

i =1 x i
moyenne de Christophe Moreau sur la dernire semaine du Tour de France 2005 est
39,85 km/h.

La moyenne harmonique est : H =

i =1
6

Bibliographie
ANTOINE C., Les moyennes, Que sais-je ?, PUF, 1998.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DELMAS B., Statistique descriptive, Armand Colin, 2005.
DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses,
2001.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985.
PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962.
ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson
Education, 2004.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
YULE G., An Introduction to the Theory of Statistics, Griffin, 1911.

62

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les caractristiques
de dispersion
1

1. Les caractristiques simples ...64


2. Variance et cart-type ..........66
Problmes et exercices
1. Caractristiques simples
de dispersion .......................73
2. Bote moustaches...............75
3. Variance et cart-type
sur caractre discret .............76
4. Comparaison de distributions
sur caractre continu ............77
5. Manipulations de formules....79

Dans son incontournable livre Le jeu de la science et du


1
hasard, Daniel Schwartz raconte cette anecdote : Les
mauvaises langues prtendent quun statisticien se noya dans
un cours deau dont la profondeur moyenne tait de 20 cm.
Cest qu lendroit o il souhaitait patauger, elle atteignait
2 m.
Dans le chapitre 2, nous avons vu comment une srie
statistique pouvait tre rsume par ses caractristiques de
position. Cependant, ces dernires ne renseignent pas sur la
structure interne de la distribution, sur la variabilit de la
srie autour de sa moyenne. Cest pourquoi il convient de
complter ce travail en introduisant les caractristiques de
dispersion.
Nous en tudierons cinq : ltendue, les intervalles interquantiles, lcart absolu moyen, lcart-type (li la variance)
et le coefficient de variation.

1. Daniel Schwartz, polytechnicien, est le fondateur du Centre denseignement de la statistique applique la


mdecine (CESAM). Il a t le pionnier de lintroduction de la statistique dans la mdecine en France.

63

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les caractristiques simples


Ltendue, les intervalles interquantiles et lcart absolu moyen sont qualifis de simples,
car ces caractristiques restent limites dans leur construction et leur utilisation, au
regard de la notion de variance (expose dans la seconde partie de ce chapitre).

1.1

LTENDUE
La premire mesure de la dispersion dune distribution est ltendue. Cette mesure est la
plus simple des caractristiques de dispersion ; dans le langage courant, on parle
dventail, ou de fourchette, ou dintervalle de variation de la srie.

Dfinition

Ltendue dune srie est la diffrence entre la plus grande et la plus petite valeur observe.
Elle est note : E = Max (xi) Min (xi).

Ltendue permet une approche aise de la dispersion dune variable, mais sa signification reste trs limite, car elle ne prend en compte que les deux valeurs extrmes de la
srie. Or, ces valeurs extrmes peuvent tre mal connues, voire aberrantes ou errones.
Par ailleurs, ltendue nest pas indpendante de leffectif observ et peut donner une
vision fausse de la dispersion.
Enfin, dans le cas de sries continues, ltendue nest pas connue avec exactitude, puisque
la perte dinformation due au regroupement en classes ne permet pas de connatre les
valeurs minimales et maximales rellement prises par la variable.

1.2

LES INTERVALLES ET CARTS INTERQUANTILES

Dfinitions

Il existe trois intervalles et carts interquantiles :


Lintervalle interquartile [Q1 ; Q3] reprsente la zone centrale de la population comprenant
50 % de la srie ; lamplitude de cet intervalle est appele cart interquartile et on note :
EIQ = Q3 Q1.
Lintervalle interdcile [D1 ; D9] reprsente la zone centrale de la population comprenant
80 % de la srie ; lamplitude de cet intervalle est appele cart interdcile et on note :
EID = D9 D1.
Lintervalle intercentile [C1 ; C99] reprsente la zone centrale de la population comprenant
98 % de la srie ; lamplitude de cet intervalle est appele cart intercentile et on note :
EIC = C99 C1.

Exemple 3.1

Calcul de lcart interquartile

Reprenons lexemple 2.8 du chapitre prcdent concernant le niveau dtudes suprieures


des personnes de plus de 15 ans. Dans cet exemple, Q1 = 30,03 ans. En procdant au
calcul de Q3, nous trouvons Q3 = 52,18 ans. Ainsi, EIQ = 52,18 30,03 = 22,15 ans, soit
environ 22 ans et 2 mois.

64

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Par rapport ltendue, lcart interquartile prsente lavantage dcarter les valeurs
extrmes, mais linconvnient de laisser de ct 50 % des donnes. Cest pourquoi on
prfre habituellement lintervalle interdcile, EID = D9 D1, qui comprend 80 % de la
population.

1.3

LA BOTE MOUSTACHES (BOX PLOT)


La bote moustaches est souvent appele box plot dans les logiciels statistiques.

Dfinition

Les quantiles permettent une reprsentation de la distribution statistique par le diagramme de


1
Tukey , ou bote moustaches. Il sagit dune bote dlimite par les quartiles Q1 et Q3,
coupe en deux parties par la mdiane et prolonge de chaque ct par des moustaches
(voir figure 3.1).

Figure 3.1
Schma de la bote
moustaches ou
diagramme de
Tukey.

Moustache
gauche

Q1

Q3

Moustache
droite

Il existe plusieurs conventions permettant de fixer la valeur des moustaches :


Termes extrmes : la mthode classique consiste dmarrer la moustache de gauche
la plus petite des valeurs, Min (xi), et finir celle de droite par Max (xi). Dans ce
premier cas, si la srie a des valeurs extrmes isoles, les moustaches de la srie seront
trs longues et fausseront linterprtation.
Moustaches limites 1,5 EIQ : pour viter le problme voqu ci-avant, un calcul
permet de limiter la taille des moustaches une fois et demie lcart interquartile. La
moustache de gauche est gale la plus grande des valeurs entre Min (xi) et Q1
1,5 (Q3 Q1). La moustache de droite est compose de la plus petite des valeurs
entre Max (xi) et Q1 + 1,5 (Q3 Q1).
Centiles : une mthode simple consiste utiliser les centiles pour fixer la valeur des
moustaches. Le centile C10 est utilis pour la moustache de gauche, et le centile C90
pour la moustache de droite.
La bote moustaches permet une bonne visualisation de la zone centrale de la srie et de
la dispersion. Ce diagramme est extrmement prcieux pour comparer diverses sries
statistiques.

1. John Wilder Tukey (1915-2000) : mathmaticien et statisticien, il fut le premier directeur du dpartement
statistique de luniversit de Princeton.

Les caractristiques de dispersion

65

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.4

LCART ABSOLU MOYEN


Lcart absolu moyen est le paramtre de dispersion le plus simple qui mesure les fluctuations de la srie par rapport la moyenne.

Dfinition

Lcart absolu moyen de n observations est la moyenne arithmtique des valeurs absolues des
1 n
carts la moyenne : e a = x i x .
n i =1
Lcart absolu moyen de n observations, ordonnes dans un tableau statistique (xi ; ni),
prsentant r modalits, est la moyenne arithmtique pondre des valeurs absolues des carts
r
1 r
la moyenne : e a = ni x i x , r dsignant le nombre de modalits, avec n = ni .
n i =1
i =1

La valeur absolue des carts la moyenne est utilise afin dempcher que les carts positifs ne se compensent avec les carts ngatifs. En effet, par cette compensation, la somme
r

des carts la moyenne est nulle :

n (x
i =1

x) = 0 .

Lcart absolu moyen prsente lavantage de prendre en compte toutes les valeurs de la
srie. Il a t introduit par Laplace avant la variance et est utilis notamment dans la
mthode destimation L1, mthode alternative la mthode des moindres carrs.

Variance et cart-type

2.1

PRSENTATION
Lcart-type ou cart quadratique moyen est de loin lindicateur de dispersion le plus
utilis. Lintroduction en 1893 de son nom anglais standard deviation est due Karl
Pearson, mathmaticien, statisticien et philosophe. La variance, qui est le carr de lcarttype, a t introduite en statistique par le statisticien et gnticien anglais Ronald Fisher.

Dfinitions

Lcart-type, not x, est la racine carre de la variance.


1

2
V ( x ) = x = n (x i x )
Dans le cas de n observations, la variance est donne par :
.
( x ) = 1 ( x x )
i

Dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni), prsentant
r modalits :

66

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1 i =r

2
V ( x ) = x = n ni ( x i x )
i =1

i =r
1
( x ) =
ni (xi x )

n i =1

La variance (ou fluctuation) est la moyenne arithmtique des carrs des carts la moyenne.
Elle se note V(x).

Lcart-type peut galement se dfinir comme la moyenne quadratique des carts la


moyenne.
Exemple 3.2

Calculs de variance et dcart-type

La srie suivante donne le salaire minimal de croissance pour 169 heures de travail dans
vingt pays dEurope en 2006. La valeur du SMIC est indique entre parenthses :
Belgique (1 234) ; Bulgarie (81,8) ; Rpublique tchque (261,3) ; Estonie (191,7) ; Irlande
(1 293) ; Grce (667,7) ; Espagne (631) ; France (1 218) ; Lettonie (129,2) ; Lituanie
(159,3) ; Luxembourg (1 503) ; Hongrie (247) ; Malte (580) ; Pays-Bas (1 273) ; Pologne
(233,5) ; Portugal (450) ; Roumanie (90,2) ; Slovnie (511,9) ; Slovaquie (183,2) ;
Royaume-Uni (1269).
Source : Eurostat, 2006

Calculons la variance et lcart-type laide dExcel (voir figure 3.2).


Figure 3.2
Calcul des (xi x )
sous Excel.

1 20
12 207,8
xi =
= 610,39 . De l, aprs calcul de

20 i =1
20
chacun des carts cette moyenne, et leur lvation au carr,
1 20
4 672 451, 34
V (x) = (xi x ) =
= 233 622,57 . La variance de la valeur du SMIC des
20 i =1
20
diffrents
pays
europens
est
de
233 622,57.
Do
lcart-type
x = V (x) = 233 622,57 = 483,35 .

Le calcul de la moyenne donne x =

Les caractristiques de dispersion

67

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Afin de faciliter les diffrentes tapes de calcul de la variance, il est possible dutiliser la
formule dveloppe de la variance. Cette formule est issue du thorme de Koenig.
Dfinitions

Formules dveloppes de la variance :


1 n

Cas de n observations : V ( x ) = x i x .
n
i =1

1 r

Cas dun tableau statistique avec r modalits : V ( x ) = ni x i x .


n i =1

Dmonstration (dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni),
comprenant r modalits) :
1 r
ni (xi x )
n i =1
1 r
V (x) = ni (xi 2 xi x + x )
n i =1
1 r
1 r
1 r
V (x) = ni xi 2 x ni xi + x ni
n i =1
n i =1
n i =1
r
1
V (x) = ni xi 2 xx + x
n i =1
1 r
V (x) = ni xi x
n i =1
V (x) =

Par cette formule, la variance est gale la moyenne des xi au carr moins le carr de la
moyenne des xi. Le procd mnmotechnique suivant est parfois utilis : V(x) = MC
CM, soit la variance est gale la Moyenne des Carrs moins le Carr de la Moyenne.
Exemple 3.3

Calcul de la variance par la formule dveloppe

Reprenons les donnes de lexemple 3.2 et calculons la variance avec la formule dveloppe, laide de la calculatrice : saisissez les valeurs du SMIC dans la colonne L1 du tableau
(voir figure 3.3) en appuyant sur la touche STAT puis en ditant le tableau par appui sur
la touche 1.
Figure 3.3
Extrait de la saisie du
tableau de donnes
avec la calculatrice.

68

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Lorsque les vingt valeurs sont saisies, appuyez sur la touche STAT, puis, dans le menu
CALC, appelez la fonction 1-Var Stats. Validez avec ENTER. Les rsultats prsents
figure 3.4 saffichent.
Figure 3.4
Rsultats de lanalyse
statistique effectue
avec la calculatrice.

Lecture des rsultats : on notera que la calculatrice dsigne par x et x les sommes
des valeurs ou de leurs carrs, que lon ait affaire n observations brutes ou
n observations ordonnes dans un tableau statistique. Par dfaut, comme dans cet exemple, les ni sont pris gaux 1. Enfin, lcart-type est x = 483,35. Il ne faut pas le confondre avec Sx = 495,9 appel cart-type dchantillon (suprieur x), qui permet destimer
lcart-type dune population partir dun chantillon de cette population (voir P. Roger,
chapitre 5).
partir de ces rsultats il est possible de calculer directement la variance :
1 20
1
V (x) = xi x = 12 123 970, 4 610,39 = 233 622,57 , soit la mme valeur que
20 i =1
20
par la formule classique de la variance, conformment la dmonstration du thorme
de Koenig. Ce rsultat peut galement tre obtenu en levant lcart-type au carr :
V (x) = x2 = 483,34 = 233 622,57 .

2.2

CAS DUN CARACTRE CONTINU


Dans le cas dun caractre continu, le calcul se fait en remplaant chaque classe par sa
valeur centrale, xi. Cette mthode, dite du centre de classe, tend augmenter lcart-type,
notamment dans le cas dune distribution unimodale o les effectifs diminuent rapidement quand on scarte de la moyenne (distribution proche de la distribution normale).
Une correction empirique, dite correction de Sheppard, est parfois utilise.

2.3

PROPRITS DE CALCUL DE LA VARIANCE ET DE LCART-TYPE


La variance et lcart-type ne sont pas linaires comme la moyenne, mais possdent des
proprits trs importantes.

Proprits

V ( x + a ) = V (x ) , donc ( x + a ) = ( x ) : ajouter une constante ne change pas la dispersion.


V (ax ) = a V ( x ) , donc ( ax ) = a ( x ) : multiplier la srie par un rel positif multiplie la

variance par le carr de ce nombre et lcart-type par la valeur absolue de ce nombre.

Les caractristiques de dispersion

69

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dmonstrations dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni) :
1 r
ni (xi + a) (x + a)
n i =1
1 r
V (x + a) = ni (xi + a x a), avec la proprit de la moyenne (x + a) = x + a
n i =1
1 r
V (x + a) = ni (xi x)
n i =1
V ( x + a) =

Soit V (x + a) = V (x )
1 r
ni (axi ) (ax)
n i =1
1 r
V (ax) = a ni xi a x , avec la proprit de la moyenne (ax) = ax
n i =1
V (ax) =

1 r

V (ax) = a ni xi x
n i =1

Soit V (ax) = aV (x)


Exemple 3.4

Applications des proprits de la variance

Supposons que, dans une entreprise, le salaire moyen soit de 2 500 avec un cart-type
de 500 .
Ajout dune constante : si tous les salaires augmentent de 200 , la moyenne augmente
galement de 200 , mais lcart-type reste constant. Autrement dit, la dispersion des
salaires sera toujours mesure par un cart-type de 500 autour du salaire moyen de
2 700 .
Multiplication par une constante : si tous les salaires augmentent de 5 %, le salaire
moyen sera de 2500 1, 05 = 2625 et lcart-type deviendra : 500 1,05 = 525 .

Focus 3.1

Lcart-type
Lcart-type est conforme trois des conditions de Yule : il est dfini de faon
rigoureuse, il dpend de toutes les valeurs de la srie et se prte bien aux calculs
algbriques. Il a le dfaut dtre sensible aux valeurs aberrantes, mais cette influence
est limite, les carts exceptionnels tant pondrs par des effectifs faibles.
On notera que lcart-type, qui reprsente lcart moyen dune unit statistique la
moyenne, sexprime dans les mmes units que la variable, ce qui nest pas le cas de la
variance (si la variable est une longueur exprime en centimtres, la variance est
exprime en centimtres carrs).
Population et chantillon : dans le cadre de la statistique infrentielle, on cherche
prciser les paramtres dune population partir dun chantillon ; on rappelle (voir

70

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

exemple 3.4) que la calculatrice donne deux paramtres nots respectivement X et


SX : X dsigne lcart-type calcul sur les donnes considres comme constituant la
population et SX une estimation ponctuelle de lcart-type de la population, obtenue
partir dun chantillon (SX X).

Additivit des variances : en gnral, la variance ne possde pas la proprit


dadditivit. Les variances ne sadditionnent que si les lments constituant la
somme ou la diffrence sont prlevs au hasard (voir A. Liorzou). On dit alors que
les variables sont indpendantes, et dans ce cas on a alors : x, y tant des variables
quantitatives indpendantes et z leur somme, V ( z ) = V ( x ) + V ( y ) , ce qui donne
pour

les

carts-types

une

relation

de

Pythagore :

z2 = x2 + y2

soit

z = x2 + y2 .
Lcart absolu moyen est toujours infrieur ou gal lcart-type.

2.4

LE COEFFICIENT DE VARIATION
La comparaison directe de deux carts-types peut donner une impression fausse concernant la dispersion des deux sries dont les valeurs des moyennes sont diffrentes. De
plus, lcart-type dpend de lunit choisie. Cest pourquoi le coefficient de variation, qui
mesure la dispersion relative la moyenne, est utilis pour comparer la dispersion de
plusieurs sries.

Dfinition

Le coefficient de variation est le rapport not CV(x) et dfini par : CV(x ) =

x
x

; ce coefficient

sexprime en pourcentage de la moyenne.


Exemple 3.5

cart-type et coefficient de variation

Considrons qu la suite dune tude statistique portant sur le poids x des voyageurs et
sur celui y des bagages, une compagnie arienne ait obtenu les rsultats suivants :
Paramtres

Moyenne

70 kg

15 kg

cart-type

8 kg

6 kg

Pour la srie des voyageurs CV ( x ) =


bagages : CV ( y ) =

8
= 0,1143 , soit 11,43 %, et pour la srie des
70

6
= 0, 40 , soit 40 %.
15

Alors que lcart-type de la srie des voyageurs est plus grand que celui des bagages
(X > Y), la srie des poids des bagages est plus disperse que celle des poids des voyageurs, car CV(y) > CV(x).

Les caractristiques de dispersion

71

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Le coefficient de variation est un nombre sans dimension, indpendant de lunit de


mesure ; il permet de mesurer la dispersion de sries exprimes en units ou ordres de
grandeur diffrents. Il mesure lhomognit des donnes.

Conclusion
Ce chapitre nous a enseign que les valeurs centrales ne suffisent jamais dcrire une
srie statistique et que les paramtres de dispersion sont incontournables pour apprhender la structure interne de la srie.
On notera le rle prpondrant de la variance et de lcart-type et on sattachera retenir
leurs proprits algbriques.
On retiendra que le coefficient de variation et la bote moustaches sont des outils
extrmement prcieux dans le cadre de la comparaison des sries.
Enfin, ces paramtres vont nous permettre daller plus loin et de nous intresser la
forme des distributions et notamment la plus clbre des lois de probabilit, la loi
normale.

72

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Aux cts des caractristiques de tendance centrale, les caractristiques de dispersion
fournissent une seconde srie dindicateurs permettant de caractriser une distribution
statistique.
Les exercices 1, 2 et 3 mettent en uvre le calcul des indicateurs de dispersion, ainsi
que leur reprsentation graphique sous forme de bote moustaches.
Lexercice 4 montre comment deux distributions peuvent tre compares au regard
des caractristiques de tendance centrale et de dispersion.
Lexercice 5 permet une familiarisation avec les proprits des caractristiques de
tendance centrale et de dispersion.

EXERCICE 1 CARACTRISTIQUES SIMPLES DE DISPERSION


Le tableau ci-aprs recense la population de la France mtropolitaine par tranches dge
en 2007 (donnes provisoires) :
ge

Population

0-14 ans

11 275 845

15-24 ans

7 806 706

25-34 ans

8 022 951

35-44 ans

8 733 224

45-54 ans

8 428 982

55-64 ans

7 166 591

65-74 ans

4 929 936

75-112 ans

5 173 765

Source : Insee, recensement de la population, bilan dmographique, 2007

1. Calculez ltendue.
2. Calculez les carts interquantiles.
3. Calculez lcart absolu moyen.

1. Ltendue est la diffrence entre lge maximal et lge minimal.

tendue = Max{xi} Min{xi} = 112 0.


tendue = 112. La distribution des ges en France mtropolitaine se rpartit sur 112 ans.

Les caractristiques de dispersion

73

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. Afin de pouvoir dterminer lensemble des quantiles, puis les intervalles correspondants, nous calculons les effectifs cumuls croissants, selon les tapes suivantes, sous Excel
(voir figure 3.5) : leffectif total n ( ni ) en cellule B10, les frquences (fi) en colonne C
puis les frquences cumules croissantes (ficc) en colonne D.

Figure 3.5
Rsultats sous Excel.

Avec les mmes mthodes de calcul que dans lexercice 3 (interpolation linaire) du
chapitre 2 et partir de la colonne des frquences cumules croissantes (ficc), nous
pouvons dterminer que :
Q1 = 19,74 : 25 % des Franais ont moins de 19,74 ans, soit environ 19 ans et 9 mois.
Q3 = 57,37 : 75 % des Franais ont moins de 57,37 ans, soit environ 57 ans et 4 mois.

Donc lcart interquartile EIQ est Q3 Q1 = 37,63 : 50 % des Franais ont des ges rpartis sur 37,63 ans, soit environ 37 ans et 8 mois.
D1 = 7,64 : 10 % des Franais ont moins de 7,64 ans, soit environ 7 ans et 8 mois.
D9 = 72,21 : 90 % des Franais ont moins de 72,21 ans, soit environ 72 ans et 3 mois.

Donc lcart interdcile EID est D9 D1 = 64,57 : 80 % des Franais ont des ges rpartis
sur 64,57 ans, soit environ 64 ans et 7 mois.
C1 = 0,76 : 1 % des Franais ont moins de 0,76 an, soit environ 9 mois.
C99 = 107,6 : 99 % des Franais ont moins de 107,6 ans, soit environ 107 ans et 7 mois.

Donc lcart intercentile EIC est C99 C1 = 106,84 : 98 % des Franais ont des ges rpartis sur 106,84 ans, soit environ 106 ans et 10 mois.
3. Pour calculer lcart absolu moyen, nous avons besoin de connatre la moyenne. Les

centres de classes (xi) sont calculs en colonne E, les (nixi) et leur somme en colonne F,
la suite du tableau prcdent (voir figure 3.5).
8
1
2 482 825 437, 5
ni xi =
, soit x = 40,35. Lge

61538 000 i =1
61 538 000
moyen de la population est denviron 40 ans et 4 mois. Une fois la moyenne connue, les
ni xi x et leur somme sont calculs en colonne G, la suite du tableau prcdent (voir

La moyenne est gale x =

figure 3.5).
8
1
1266 311788,57
ni xi x =
, soit

61538 000 i =1
61 538 000
ea = 20,58 ans. La moyenne des carts la moyenne est denviron 20 ans et 7 mois.

Lcart absolu moyen est gal e a =

74

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2 BOTE MOUSTACHES


partir des donnes et des rsultats de lexercice prcdent, et en effectuant les calculs
complmentaires ncessaires :
1. Recensez et donnez la valeur des indicateurs ncessaires au diagramme bote
moustaches .
2. Dessinez le diagramme bote moustaches .

1. Pour dessiner le diagramme bote moustaches , nous avons besoin des indicateurs
suivants : Q1 ; Me ; Q3 ; Q3 + 1,5 (Q3 Q1) et Q1 1,5 (Q3 Q1).

Daprs les rsultats de lexercice prcdent :


Q1 = 19,74.
Q3 = 57,37.
Q3 Q1 = 37,63.

Par interpolation linaire, en utilisant le tableau construit pour lexercice prcdent (voir
figure 3.5), notamment la colonne des frquences cumules croissantes (ficc), nous
0,5 0,4405
pouvons dterminer : Me =
( 44 35 ) + 35 ; soit Me = 38,78. La moiti
0,5824 0, 4405
de la population tudie a moins de 38,78 ans, soit environ 38 ans et 9 mois.
Q1 1,5 (Q3 Q1) = 19,74 + 1,5 37,63, soit Q1 1,5 (Q3 Q1) = -36,71. La moustache
infrieure commence donc 0, car un ge ne peut pas tre ngatif. Aucune valeur extrme
infrieure Q1 1,5 (Q3 Q1) nest recense.
Q3 + 1,5 (Q3 Q1) = 57,37 + 1,5 37,63, soit Q3 + 1,5 (Q3 Q1) =113,82. La moustache
suprieure finit donc 112 qui est lge maximal.
2.
Figure 3.6
Bote moustaches.

0
0

Q1 = 19,74

M = 38,78

Q3 = 57,37

112

xi
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115

Les caractristiques de dispersion

75

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 3 VARIANCE ET CART-TYPE SUR CARACTRE DISCRET


Un enseignant de statistique demande ses tudiants le nombre de films quils ont vus
au cinma au cours des deux derniers mois. Les rsultats sont reports dans le tableau
suivant :
Nombre de films vus

Nombre dtudiants

1. Calculez la moyenne du nombre de films vus au cinma.


2. Calculez :
a. la variance du nombre de films vus au cinma ;
b. lcart-type du nombre de films vus au cinma.
3. Calculez le coefficient de variation.

1. Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir
figure 3.7).

Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans
lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la
figure 3.8 saffichent.
Figure 3.7 (gauche)
Saisie du tableau de
donnes avec la
calculatrice.

Figure 3.8 (droite)


Rsultats de lanalyse
statistique effectue avec la
calculatrice.

1 6
65
ni xi = , soit x = 2,096. Le nombre moyen de films vus au

31 i =1
31
cinma par tudiant au cours des deux derniers mois est de 2,1 films.

La moyenne est x =

76

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. a. La variance est gale V (x) = x2 = 1,4447, soit V(x) = 2,087. Ou encore, par la
2
1 6
201
ni xi2 x =
2,1 = 2,087 (aux arrondis prs). La

31 i =1
31
variance du nombre de films vus au cinma par tudiant au cours des deux derniers mois
est de 2,1.

formule dveloppe, V (x) =

b. Lcart-type est gal x = V (x) = 1,44. Lcart-type du nombre de films vus au


cinma par tudiant au cours des deux derniers mois est de 1,44 film.

1,44
3. Le coefficient de variation est gal CV(x) = x =
, soit CV(x) = 0,69. Lcart2,1
x
type est infrieur la moyenne.

EXERCICE 4 COMPARAISON DE DISTRIBUTIONS SUR CARACTRE CONTINU


Le tableau ci-aprs recense la population fminine et masculine de la France mtropolitaine par tranches dge en 2007 (donnes provisoires) :
ge

Femmes

Hommes

0-14 ans

5 503 794

5 772 051

15-24 ans

3 858 982

3 947 724

25-34 ans

3 985 506

4 037 445

35-44 ans

4 396 709

4 336 515

45-54 ans

4 301 816

4 127 166

55-64 ans

3 637 565

3 529 026

65-74 ans

2 657 004

2 272 932

75-112 ans

3 289 624

1 884 141

Source : Insee, recensement de la population, bilan dmographique, 2007

1. Pour les femmes, calculez :


a. la moyenne ;
b. lcart-type ;
c. le coefficient de variation.
2. Pour les hommes, calculez :
a. la moyenne ;
b. lcart-type ;
c. le coefficient de variation.
3. Comparez les deux distributions.

Les caractristiques de dispersion

77

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Pour les femmes, les centres de classes (xi) sont calculs en colonne B, les (nixi) et leur
somme en colonne D, puis les (nixi) et leur somme en colonne E (voir figure 3.9).

Figure 3.9
Rsultats sous Excel.

8
1
1326 635 771
ni xi =
, soit x = 41,94. Lge

31631 000 i =1
31 631000
moyen des femmes est denviron 41 ans et 11 mois.

a. La moyenne est gale x =

b. Par la formule dveloppe, la variance est gale :


8
2
1
77 076 538 756
ni xi2 x =
41,94 , soit V(x) = 677,69. La variance

31631 000 i =1
31631000
de lge des femmes est de 677,69.

V (x) =

c. Lcart-type est gal x = V (x) = 677,69 , soit x = 26,03. Lcart-type de lge des
femmes est de 26,03 ans, soit environ 26 ans.

Le coefficient de variation pour les femmes est gal CV(x) =

x
x

26,03
, soit
41,94

CV(x) = 0,621. Lcart-type est infrieur la moyenne.


2. En procdant de la mme manire pour les hommes, on obtient sous Excel la
figure 3.10.

Figure 3.10
Rsultats sous Excel.

8
1
1156189667
ni xi =
, soit x = 38,66. Lge

29907 000 i =1
29 907 000
moyen des hommes est denviron 38 ans et 8 mois.

a. La moyenne est gale x =

b. Par la formule dveloppe, la variance est gale :

78

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

8
2
1
62120 270 828
ni xi2 x =
38,66 , soit V(x) = 582,56. La variance

29 907 000 i =1
29 907 000
de lge des hommes est de 582,56.

V (x) =

Lcart-type est gal x = V (x) = 582,56 , soit x = 24,14. Lcart-type de lge des
hommes est de 24,14 ans, soit environ 24 ans et 2 mois.
c. Le coefficient de variation pour les hommes est gal CV(x) =

x
x

24,14
, soit
38,66

CV(x) = 0,624. Lcart-type est infrieur la moyenne.


3. Les hommes sont en moyenne plus jeunes que les femmes (ge moyen : 38,66
contre 41,94).

Dans labsolu, lge des hommes est lgrement moins dispers que celui des femmes
(cart-type : 24,14 contre 26,03).
En rapportant cette dispersion lge moyen, nous pouvons cependant conclure que, par
rapport leur ge moyen, lge des hommes est lgrement plus dispers que celui des
femmes (coefficient de variation : 0,624 contre 0,621).

EXERCICE 5 MANIPULATIONS DE FORMULES


Afin de mieux servir ses clients, un magasin a mesur le temps dattente, not x, au
guichet de son service aprs-vente. Le temps dattente est mesur en minutes. La
personne en charge du traitement de ltude vous communique les donnes suivantes :
V (x) = 17,18
k

f x = 50,17
i =1

n x
i =1

= 425

1. Dterminez leffectif total partir duquel lenqute a t ralise. Indiquez les valeurs de :
a. la moyenne ;
b. lcart-type.
2. Lobjectif de la direction est de diminuer le temps dattente de 30 %. Calculez :
a. le temps dattente moyen correspondant ;
b. lcart-type correspondant.
3. En effectuant une vrification du chronomtre utilis, le directeur du magasin
saperoit que ce dernier accuse un retard de 5 % par rapport au temps rel. Calculez :
a. la vraie moyenne ;
b. le vrai cart-type.

Les caractristiques de dispersion

79

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.
1 k
ni xi x
n i =1
k
1 k
V (x) = f i xi ( ni xi )
n i =1
i =1
V (x) =

425
Soit, en remplaant par les valeurs connues : 17,18 = 50,17
, donc
n
425
, soit n = 74. Leffectif total est de 74, ce qui signifie que 74 temps
n=
50,17-17,18
dattente ont t observs.
1 k
425
ni xi = 74 , soit x = 5,74. Le temps dattente moyen est
n i =1
denviron 5 minutes et 44 secondes.
a. La moyenne est gale x =

b. Lcart-type est gal x = V (x) = 17,18 , soit x = 4,14. Lcart-type du temps


dattente est denviron 4 minutes et 8 secondes.
2. La base dapplication du pourcentage est le temps dattente mesur. Les objectifs de
temps dattente, nots yi, sont gaux aux temps dattente actuels, nots xi, auxquels sont
retirs 30 % des temps dattente actuels. Soit yi = xi 0,3 xi = 0,7 xi.
a. Grce aux proprits de la moyenne, nous pouvons en conclure que y = 0,7 x , soit
y = 4,02 . Lobjectif de rduction de 30 % du temps dattente ramne la moyenne de ce
dernier environ 4 minutes et 1 seconde.

b. Grce aux proprits de lcart-type, nous pouvons en conclure que y = 0,7 x ,

soit V(y) = 2,90. Lobjectif de rduction de 30 % du temps dattente ramne lcart-type


de ce dernier environ 2 minutes et 54 secondes.
3. La base dapplication du pourcentage est le temps rel. Les temps dattente rels,

nots zi, sont gaux aux faux temps dattente, nots xi, auxquels sont ajouts 5 % des
xi
.
temps dattente rels. Soit zi = xi + 0,05 zi ; cest--dire zi =
0,95
a. Grce aux proprits de la moyenne, nous pouvons en conclure que z =

x
, soit
0,95

z = 6,05 . Le temps dattente rel a une moyenne denviron 6 minutes et 3 secondes.

b. Grce aux proprits de lcart-type, nous pouvons en conclure que z =

, soit
0,95
z = 19,04. Le temps dattente rel a un cart-type denviron 4 minutes et 2 secondes.

80

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DELMAS B., Statistique descriptive, Armand Colin, 2005.
DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses,
2001.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985.
PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962.
ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson
Education, 2004.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999.
HAUCHECORNE B., Les mots et les maths, Ellipses, 2003.

Les caractristiques de dispersion

81

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les caractristiques
de forme
et de concentration
1. La courbe de la loi normale ..84
2. Les caractristiques de forme ..85
3. Les caractristiques
de concentration ..................89
Problmes et exercices
1. Caractristiques dasymtrie ..95
2. Caractristiques
daplatissement ....................98
3. Caractristiques de forme
et mdiale .........................100
4. Caractristique de
concentration :
lindice de Gini ..................104

Ce chapitre prolonge et complte la description dune srie


statistique amorce dans les chapitres 2 et 3, en prcisant les
notions de tendance centrale et de dispersion, autour de la
courbe de la loi normale. Cette courbe est rattacher aux
modles thoriques des distributions de probabilit. La loi
normale, dite loi de Laplace-Gauss, en est le modle phare,
et sa fameuse courbe en cloche sert de rfrence.
Dans un premier temps, nous donnerons un aperu rapide de
la loi normale.
Dans un deuxime temps, nous dfinirons diffrents
coefficients, introduits par Karl Pearson, le pre de la statistique moderne, George Yule et Ronald Fisher, permettant de
caractriser la forme dune distribution.
Enfin, nous terminerons ce chapitre par la notion de
concentration, introduite par le statisticien et dmographe
Corrado Gini, propos de distributions de salaires et de
revenus. Ce sera loccasion de prolonger lanalyse de la
dispersion relative et de rendre compte des ingalits
ventuelles de rpartition.

83

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La courbe de la loi normale


Nous avons vu que, selon son caractre discret ou continu, une srie statistique peut tre
reprsente par un diagramme en btons ou un histogramme des frquences que lon
complte en gnral par le trac du polygone des frquences. Il faut garder lesprit que
lhistogramme des frquences est un bon estimateur de la densit et quen lissant le polygone des frquences on peut reprsenter la srie statistique par une distribution continue. La loi normale, galement appele loi de Laplace-Gauss, est le modle fondamental
des distributions continues.
La loi normale reprsente la distribution des valeurs dune grandeur soumise
linfluence dun grand nombre de facteurs indpendants les uns des autres, chacun exerant des actions de faible intensit dont les effets tendent se compenser.

1.1

PRSENTATION DE LA LOI NORMALE


De nombreux caractres quantitatifs du monde rel suivent une loi normale : les tailles
des individus, les poids, la pression sanguine, les notes un examen, etc.
Quand on dsire mesurer une grandeur, par exemple une longueur, dont la vraie valeur
est L, on opre n mesures, x1, x2, , xn, et la variable X dont les modalits sont les (xi L),
reprsente lerreur commise dans la mesure de L. Cette variable suit une loi normale.
Aussi cette distribution est-elle souvent appele loi des erreurs , parce que les erreurs
alatoires dans les rsultats de mesures sont souvent normalement distribues.

Dfinitions

La loi normale est entirement dtermine par deux paramtres : sa moyenne (m) et son
cart-type ().
La loi normale centre rduite constitue le modle de rfrence ; sa moyenne est 0 (centre)
2

1 x2
e
et sa
2
reprsentation graphique est la clbre courbe en cloche (voir figure 4.1). On dit que X suit la
loi N(0 ; 1).

et son cart-type 1 (rduite). Sa densit est donne par : f ( x ) =

Si une variable X suit une loi normale de paramtres m et , note N(m ; ), alors
X m
Z=
suit la loi normale centre rduite de paramtres 0 et 1. On dit que lon a

standardis X.
La courbe reprsentant la distribution N(0 ; 1) est symtrique, avec : x = Mo = Me = 0.
Elle est normalement aplatie .
Avec x = 0 et = 1, lintervalle ] x ; x + [ qui correspond ]1 ; 1[ reprsente
68,26 % des observations et lintervalle ] x 2 ; x + 2[ qui correspond ]2 ; 2[
reprsente 95,44 % des observations.
Les deux quartiles Q1 et Q3 sont opposs et valent respectivement 0,67 et 0,67.

84

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.1

Frquence

La courbe en cloche
de la loi normale
centre rduite.

50 %
68,26%

x
Mo
Q1 Me Q3
xi
-4

1.2

-3

-2

-1

LOI NORMALE ET BOTE MOUSTACHES


La bote moustaches dune distribution statistique conforme une distribution
normale mettra en vidence la symtrie : Q1 et Q3 sont quidistants de la mdiane (Me)
qui est dans ce cas la moyenne arithmtique et le mode (voir figure 4.2).

Figure 4.2
Bote moustaches
de la loi normale
centre rduite.
-4

-3

-2

Q1=-0,67

M = 0

Q3=0,67

-1

Les caractristiques de forme

2.1

LASYMTRIE (SKEWNESS)

xi
2

Une distribution est dite symtrique, comme la loi normale, si les valeurs observes se
rpartissent de faon uniforme autour des trois valeurs centrales alors gales : la
moyenne, le mode et la mdiane.
Pour mesurer lasymtrie dune distribution, on dispose de diffrents coefficients. Le but
est de comparer les formes de plusieurs distributions, ces comparaisons nayant de sens
que si elles sont faites partir des mmes coefficients appliqus aux diffrentes distributions.
La figure 4.3 montre les trois formes de symtrie et asymtrie possibles.

Les caractristiques de forme et de concentration

85

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.3
Symtrie et
asymtrie.

Distribution
tale gauche

Distribution
symtrique

Distribution
tale droite

fi

fi

Mo = Me = x

xi

fi

Mo > Me > x

xi

Mo < Me < x

xi

Le coefficient de Yule et Kendall


Le coefficient de Yule et Kendall couramment appel coefficient de Yule compare
ltalement de la courbe droite et gauche de la mdiane.
Dfinition

Le coefficient de Yule sert mesurer lasymtrie de la distribution en tenant compte des


positions relatives des quartiles par rapport la mdiane. Il est dfini par :
Q + Q3 -2Me
Q Me + Q 3 Me
CY = 1
, ou de manire quivalente par CY = 1
.
Q 3 -Q1
Q 3 Q1

Ce coefficient permet de localiser la mdiane dans la bote moustaches, par rapport au


milieu du segment form par Q1 et Q3.
Dans le cas dune distribution symtrique, comme la loi normale, ce coefficient est nul,
les quartiles Q1 et Q3 tant quidistants de la mdiane.
Ce coefficient CY est indpendant de lunit de mesure. En outre, il est toujours compris
entre 1 et 1, car la mdiane est situe entre Q1 et Q3.
Si CY = 0, la distribution est symtrique.
Si CY > 0, la distribution est tale droite.
Si CY < 0, la distribution est tale gauche.

Les coefficients de Pearson


Les coefficients de Pearson tudient ltalement de la courbe partir des valeurs de la
moyenne, du mode et de lcart-type.
Dfinition

Le coefficient S de Pearson mesure lasymtrie dune distribution par une comparaison entre
x Mo
les valeurs de la moyenne et du mode. Il se note S =
. Il sagit dun coefficient sans

dimension.

Linterprtation de la valeur du S de Pearson se fait comme suit :


Si S = 0, la distribution est symtrique.
Si S > 0, la distribution est tale droite.
Si S < 0, la distribution est tale gauche.

86

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dfinition

Le coefficient dasymtrie 1 de Pearson est dfini par : 1 =


3 dsigne le moment centr dordre 3, soit 3 =

32
.
23

1 r
3
ni ( x i x ) .
n i =1

2 est le moment centr dordre 2, cest--dire la variance.

Linterprtation de la valeur du 1 de Pearson se fait comme suit :


Si 1 est proche de 0, la distribution est approximativement symtrique.
Si 1 > 0, elle est tale droite pour 3 > 0 et tale gauche pour 3 < 0.

Le coefficient de Fisher
Dfinition

Le coefficient dasymtrie 1 de Fisher est dfini par : 1 =


3 dsigne le moment centr dordre 3, soit 3 =

3
.
3

1 r
3
ni ( x i x ) .

n i =1

Ce coefficient, sans dimension, a le mme signe que 3.

Linterprtation de la valeur du 1 de Fisher se fait comme suit :


Si 1 est proche de 0, la distribution est approximativement symtrique.
Si 1 > 0, la distribution est tale droite.
si 1 < 0, la distribution est tale gauche.
Exemple 4.1

Calculs des coefficients dasymtrie

Le tableau suivant donne une estimation de la rpartition par ges des assurs obligatoires de plus de 20 ans et de moins de 60 ans, en France, en 1921 :
ge (annes)

Effectif (milliers)

[20 ; 25[

1 275

[25 ; 30[

1 080

[30 ; 35[

890

[35 ; 40[

805

[40 ; 45[

745

[45 ; 50[

675

[50 ; 55[

610

[55 ; 60[

505

Source : Bureau international du travail, 1921

Les caractristiques de forme et de concentration

87

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Calculons les diffrents coefficients dasymtrie laide dExcel (voir figure 4.4).
Figure 4.4
Calcul des
coefficients
dasymtrie sous
Excel.

Le calcul de la moyenne donne x =

1 8
242 287,5
ni xi =
= 36,79 .

6 585 i =1
6 585

La variance, ou moment centr dordre 2, est :


V (x) =

1 8
1
ni xi x = 6 585 9 753 906,25 36,79 = 127, 44 , et lcart-type :
6 585 i =1

x = V (x) = 127,44 = 11,29 .


Le moment centr dordre 3 est 3 =

1 8
3152 657,56
3
ni ( xi x ) = 6585 = 478,76.
6 585 i =1

partir de la colonne des ni cumuls croissants et par interpolation linaire, on obtient


Q1 = 26,72 ; Me = 35,30 et Q3 = 46,06.
Le mode est gale Mo =

k2 x1 + k1 x2
195 20 + 1275 25
=
, soit Mo = 24,33.
k1 + k2
1275 + 195

Suite ces calculs, nous pouvons dterminer lensemble des coefficients dasymtrie.
26,72 + 46,062 35,3
36,79 24,33
, soit CY = 0,11 ; S =
,
46,06 26,72
11,29
478,762
478,76
1 =
, soit 1 = 0,11 ; 1 =
, soit 1 = 0,33.
3
127,44
11,293

CY =

soit

S = 1,10 ;

Les coefficients mettent en vidence une distribution asymtrique tale droite, ce que
confirme la ralisation de lhistogramme.

2.2

LAPLATISSEMENT (KURTOSIS)
Laplatissement dune distribution est un indicateur de la dispersion autour des valeurs
centrales. Plus la dispersion est grande, plus la courbe sera plate . On dfinira deux
coefficients, celui de Pearson et celui de Fisher, ces coefficients tant des coefficients de
comparaison par rapport la distribution normale.
La figure 4.5 montre les trois formes daplatissement possibles.

88

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.5

fi

Distribution normale

fi

Distribution platicurtique

fi

Distribution leptocurtique

Aplatissement.

xi

xi

xi

Le coefficient de Pearson
Dfinition

Le coefficient 2 de Pearson sert mesurer laplatissement. Il est dfini par 2 =

4 4
=
.
22 4

Il sagit dun coefficient sans dimension. 2 1 et dans le cas dune distribution normale
2 = 3.

Interprtation :
Si 2 < 3, la courbe est dite platicurtique, cest--dire plus plate que la loi normale.
Si 2 = 3, la courbe est proche de la courbe normale.
Si 2 > 3, la courbe est leptocurtique, cest--dire plus pointue que la loi normale.

Le coefficient de Fisher
Dfinition

coefficient 2 de Fisher sert mesurer laplatissement. Il

2 = 42 3 = 44 3 . Ou encore, de manire quivalente, 2 = 2 3 .


2

Le

est

dfini

par

La constante 3 est choisie de faon obtenir un coefficient nul pour une distribution normale ;
par ailleurs, 2 2.

Interprtation :
Si 2 < 0, la courbe est dite platicurtique, cest--dire plus plate que la loi normale.
Si 2 = 0, la courbe est proche de la courbe normale.
Si 2 > 0, la courbe est leptocurtique, cest--dire plus pointue que la loi normale.
On notera que 2 mesure limportance des queues de distribution .

Les caractristiques de concentration


La mesure de la concentration concerne les caractres statistiques quantitatifs reprsentant
une grandeur positive cumulable. Il sagit de traduire la densit des donnes autour de la
valeur centrale. Sont principalement tudis la concentration des salaires, des revenus, de
lemploi, ou encore le degr de concentration dans une branche dun secteur conomique.

Les caractristiques de forme et de concentration

89

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Afin de mesurer la concentration, il convient de dfinir les valeurs globales, la mdiale,


lindice de Gini et la courbe de concentration, appele courbe de Lorentz.
Un exemple de courbe de concentration des salaires, propose par lInsee, est donn
figure 4.6.

Figure 4.6

100

Rpartition des salaires (en %)

Concentration des
salaires du secteur
priv en LanguedocRoussillon : une
rpartition
ingalitaire.

80

B
Languedoc-Roussillon

60

40
A

33
20

France mtropolitaine
0
0

20

40

60

80

100

Rpartition des salaris (en %)

Source : Insee DADS, novembre 2003


Note de lecture : si la rpartition des salaires tait totalement galitaire, la courbe de concentration se confondrait avec la bissectrice
en noir. Dans la rgion, les 50 % des salaris les moins rmunrs se partagent 33 % de la masse salariale (point A) ; les 10 % les
mieux rmunrs concentrent 25 % des salaires (point B). La courbe de concentration pour la France mtropolitaine est en dessous
de celle de la Rgion, la distribution des salaires y est donc plus ingalitaire.

3.1

LES VALEURS GLOBALES

Dfinitions

tant donne une srie statistique comportant n observations ordonnes dans un tableau
statistique (xi ; ni), prsentant r modalits, on appelle :
masse associe la modalit xi deffectif ni la quantit dfinie par nixi ;
masse relative associe la modalit xi, note qi, la quantit dfinie par qi =

ni x i
r

nk x k

k =1

Gnralement, les masses relatives qi sont exprimes en pourcentage de la masse totale


S=

n x
i =1

(appele masse salariale dans le cas des salaires).


i

Les masses relatives cumules croissantes sont notes qicc, et dfinies par qicc = qk .
k =1

90

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 4.2

Calculs des masses relatives

Le tableau suivant indique les rserves de ptrole, en milliards de barils, dont disposent
les pays producteurs :
Rserves de ptrole

Nombre de pays

[0 ; 10[

10

[10 ; 50[

[50 ; 100[

[100 ; 275[

Source : Energy Information Administration, Department of Energy, janvier 2004

partir de la srie ordonne par ordre croissant sont effectus les calculs des centres de
classes xi, des frquences fi et fi cumules croissantes, ainsi que ceux des masses relatives qi
et qi cumules croissantes (voir figure 4.7). Ces calculs permettent de tracer la courbe de
Lorentz et de calculer lindice de concentration de Gini que nous allons dfinir ci-aprs
(voir section 3.4).
Figure 4.7
Calcul des masses
relatives sous Excel.

3.2

LA MDIALE

Dfinition

La mdiale est la valeur du caractre qui partage en deux parties gales la masse totale du
caractre.
La mdiale est note Ml, elle sexprime dans la mme unit que le caractre, et correspond
une valeur de la masse relative cumule croissante qicc de 50 %.

La mdiale est, dune certaine faon, une mdiane et sa dtermination en est similaire :
Dans le cas discret, la mdiale est la plus petite valeur du caractre dont la masse
relative cumule croissante est infrieure ou gale 50 %.
Dans le cas continu, on peut oprer de deux faons : soit graphiquement laide du
polygone des masses relatives cumules croissantes, soit algbriquement par interpolation linaire.
Lcart entre la mdiale et la mdiane (Ml Me) donne une premire indication sur la
concentration de la srie. Plus cet cart est important par rapport ltendue de la srie,
plus la concentration est forte.

Les caractristiques de forme et de concentration

91

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 4.3

Calcul de la mdiale

Reprenons les donnes de lexemple 4.2.


Dans cet exemple, par interpolation linaire, la mdiane est 22,5. 50 % des pays ont une
rserve de ptrole infrieure ou gale 22,5 milliards de barils.
La mdiale se calcule comme la mdiane, en utilisant les qicc au lieu des ficc ; qicc = 50 %
pour lintervalle [100 ; 275[. La mdiale est 127,42 ; cest la plus petite valeur telle que les
pays ayant une rserve infrieure ou gale cette valeur se partagent au moins 50 % des
rserves totales.
Lcart Ml Me vaut 127,42 22,5 = 104,92, ltendue tant de 275 0 = 275, soit peine
trois fois plus grande, ce qui traduit une forte concentration.

3.3

LA COURBE DE CONCENTRATION
La courbe de concentration est ralise partir des calculs prcdents. On la dessine en
utilisant les frquences cumules croissantes (ficc) et les masses relatives cumules croissantes (qicc). Cette reprsentation permet de comparer la distribution observe la
distribution thorique dgale rpartition, celle o, pour chaque modalit, ficc = qicc).
Les frquences cumules croissantes sont portes en abscisses et les masses relatives
cumules croissantes en ordonnes.
La distribution thorique dgale rpartition correspond la bissectrice du repre.
Laire comprise entre la distribution thorique et la courbe de concentration sappelle
surface de concentration.

Exemple 4.4

Ralisation de la courbe de concentration

Reprenons les donnes de lexemple 4.2.


partir des calculs des frquences cumules croissantes (ficc) et des masses relatives
cumules croissantes (qicc) prsents figure 4.7, il est possible de dessiner la courbe de
concentration (voir figure 4.8).
La courbe de Lorentz est inscrite dans le carr de ct 100, quand les frquences sont
exprimes en pourcentage. Plus la courbe de Lorentz est loigne de la diagonale, qui
reprsente la distribution thorique dgale rpartition, plus la concentration est forte.
La surface de concentration est comprise entre la courbe de Lorentz et la diagonale. Plus
cette surface est grande, plus la concentration est forte.

92

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.8
Courbe de
concentration des
rserves de ptrole.

qicc (en %)
A

100
Courbe de
concentration
80

Distribution
thorique

60

40
Surface de
concentration
20

B
ficc (en %)

0
0

3.4

20

40

60

80

100

LINDICE DE GINI

Dfinition

La surface de concentration est le domaine compris entre la diagonale [OB] du carr de


concentration et la courbe de concentration.

Laire de la surface de concentration est gale laire du triangle rectangle OAB diminue
de laire du domaine situ sous la surface de concentration. Le triangle OAB est form
des points de coordonnes O(0 ; 0), A(100 ; 100) et B(100 ; 0) (voir figure 4.8). Avec les
ficc et les qicc exprimes en pourcentages, laire du triangle OAB est de 100 100 / 2.
Dans le cas o les ficc et les qicc sont exprimes en nombres dcimaux, cette aire de 0,5.
Dfinition

Lindice de Gini est le rapport de laire de la surface de concentration laire de la surface


aire de la surface de concentration
du triangle rectangle OAB. Il est not IG =
.
aire du triangle OAB

Lindice de Gini est un nombre sans dimension, compris entre 0 et 1, que lon exprime
parfois en pourcentage.
Si IG est proche de 0, la courbe de Lorentz est proche de la diagonale, la concentration
est faible ; la concentration nulle correspond la distribution galitaire.
Si IG est proche de 1, la courbe de Lorentz est proche des cts OA et AB, la
concentration est forte ; si la concentration est proche de 1, cela signifie quune trs
faible fraction de modalits se partage la quasi-totalit de la masse totale.

Les caractristiques de forme et de concentration

93

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 4.5

Calcul de lindice de Gini

Reprenons les donnes de lexemple 4.2.


Nous rappelons quon obtient laire dun trapze en appliquant la formule suivante :
aire = hauteur (grande base + petite base) / 2.
Les aires des trapzes sont calcules dans la dernire colonne du tableau de la figure 4.9.
Les valeurs fi(qi 1cc + qicc) / 2 correspondent aux aires des trapzes rectangles situs entre
laxe des abscisses et la courbe de Lorentz (le premier tant en fait un triangle rectangle).
Leur somme indique laire du domaine situ sous la courbe de Lorentz.
Figure 4.9
Calcul de laire sous
la courbe de Lorentz
sous Excel.

Ainsi, laire de la surface de concentration est gale laire de OAB diminue de la


somme des aires des trapzes.
Aire de la surface de concentration : 0,5 0,2017 = 0,2983.
Lindice de Gini est IG = 0,2983 / 0,5 = 2 0,2983, soit IG = 0,5967, ce qui traduit une
forte concentration.

Conclusion
Ce chapitre complte la premire dmarche qui a consist ordonner les observations et
les rsumer laide de graphiques et de paramtres mettant en vidence la tendance
centrale et la dispersion.
Nous nous sommes attachs caractriser la forme de la distribution et, ce faisant,
ouvrir la porte une interprtation plus approfondie, en introduisant la distribution
normale, dmarche que nous complterons avec dautres lois de probabilit.
La mesure de la concentration est extrmement importante pour faire ressortir des
disparits sociales et conomiques. Elle doit tre aussi pour le lecteur loccasion de
sassurer de la bonne matrise des fonctions cumules, et des notions de masses et de
mdiale.

94

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Au-del des caractristiques de tendance centrale et de dispersion, une distribution
statistique est galement qualifiable par sa forme et sa concentration.
Les exercices 1, 2 et 3 fournissent des exemples de calculs de caractristiques de forme.
Lexercice 4 sattache la notion de concentration, indissociable de lindice de Gini.

EXERCICE 1 CARACTRISTIQUES DASYMTRIE


Le tableau ci-aprs indique la rpartition du PIB par habitants (note PPA, en euros) des
pays de lEurope des 25, hors Luxembourg, en 2001 :
PPA

Nombre de pays

[0 ; 9 000[

[9 000 ; 18 000[

[18 000 ; 27 000[

11

[27 000 ; 36 000[

Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

1. Dessinez lhistogramme correspondant. partir de cet histogramme, concluez sur


lasymtrie de la distribution.
2. Concluez sur lasymtrie de la distribution partir du calcul des trois indicateurs
suivants :
a. le mode ;
b. la moyenne ;
c. la mdiane.
3. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs
suivants :
a. le coefficient dasymtrie de Yule ;
b. le S de Pearson.
4. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs
suivants :
a. le coefficient dasymtrie 1 de Pearson ;
b. le coefficient dasymtrie 1 de Fisher.
5. Concluez sur lasymtrie de la distribution partir de la bote moustaches.

Les caractristiques de forme et de concentration

95

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Les amplitudes de classes (ai) sont calcules dans la colonne C de la figure 4.10 :
ai = sup (xi) inf (xi).

Figure 4.10
Rsultats sous Excel.

Les amplitudes tant toutes gales, il nest pas ncessaire dutiliser les densits pour
dessiner lhistogramme (voir figure 4.11), ces densits tant proportionnelles aux effectifs.
Figure 4.11.

ni

Histogramme des
PPA des pays de
lEurope des 25 (hors
Luxembourg)

14
12
10
8
6
4
2
0

10

15

20

25

30

35

Classes
40
Milliers

La ralisation de cet histogramme permet dj de percevoir que la distribution est


asymtrique et tale vers la gauche.
2. a. Pour calculer le mode, nous vrifions en premier lieu que les amplitudes de classes
sont gales, ici de valeur 9 000 . La classe modale, celle qui a la plus grande densit, est
donc celle qui a le plus grand effectif. Il sagit de la classe [18 000 ; 27 000[, ce que montre
bien lhistogramme.

Le mode est donc gal Mo =

k2 x1 + k1 x2
(11 3) 18 000 + (11 7) 27 000
=
, soit
k1 + k2
(11 7) + (11 3)

Mo = 21 000 .
b. Pour calculer la moyenne, la suite du tableau prcdent, nous calculons les centres de
classes (xi) en colonne D et les masses (nixi) en colonne E puis leur somme en cellule E6,
sous Excel (voir figure 4.10).

La moyenne est gale x =

1 4
450000
ni xi =
, soit x = 18 750 .

24 i =1
24

c. La mdiane correspond un effectif cumul croissant de 24 / 2 = 12. Les effectifs


cumuls croissants (nicc) sont calculs en colonne F, la suite du tableau prcdent (voir
figure 4.10).

12 est compris entre 10 et 21, donc la mdiane appartient la classe [18 000 ; 27 000[.

96

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Par interpolation linaire, Me =

12 10
( 27 000 18 000 ) + 18 000 ; soit Me = 19 636,36 .
21 10

Finalement, Mo > Me > x , donc la distribution est asymtrique et tale vers la


gauche.
3. a. Le calcul du coefficient de Yule ncessite de dterminer au pralable les trois quartiles, Q1, Me et Q3. La mdiane a t calcule prcdemment.

Le quartile dordre 1, Q1 correspond un effectif cumul croissant de 24 / 4 = 6. Donc Q1


appartient la classe [9 000 ; 18 000[.
Par interpolation linaire, Q1 =

6,25 3
(18 000 9 000 ) + 9 000 ; soit Q1 = 12 857,14 .
10 3

Le quartile dordre 3, Q3 correspond un effectif cumul croissant de 24 3 / 4 = 18.


Donc Q3 appartient la classe [18 000 ; 27 000[.
Par interpolation linaire, Q3 =

18,75 10
( 27 000 18 000 ) + 18 000 ; soit Q3 = 24 545,45 .
21 10

Do le coefficient de Yule CY =
CY =

Q1 + Q3 2 Me
, soit
Q 3 Q1

12 857,14 + 24 545,45 2 19 636,36


.
24 545,45 12 857,14

Do CY = 0,160. La distribution est asymtrique et tale vers la gauche.


b. Le calcul du S de Pearson ncessite de dterminer au pralable le mode, la moyenne et
lcart-type. Les deux premiers indicateurs sont dj calculs.

Pour dterminer la valeur de lcart-type, les (nixi) sont calculs en colonne G, la suite
du tableau prcdent, puis leur somme en cellule G8 (voir figure 4.10).
Par la formule dveloppe, la variance est gale
V (x) =

2
1 4
9 882 000 000
ni xi2 x =
18 750 , soit V(x) = 60 187 500.

24 i =1
24

Lcart-type est gal x = V (x) = 60 187 500 , soit x = 7 758.


18 750 21 000
, soit S = 0,290. La distribution est asymtrique et
7758

tale vers la gauche.

Do S =

x Mo

4. a. Le calcul du 1 de Pearson et du 1 de Fisher ncessite de connatre la valeur de 3, le


k
1 k
3
moment centr dordre 3 dfini par 3 = ni (xi x )3 = fi (xi x )3 . Les fi(xi x )
n i =1
i =1
sont calculs en colonne H, la suite du tableau prcdent, puis leur somme en
cellule H6 (voir figure 4.10).

Les caractristiques de forme et de concentration

97

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

De l, 3 = fi (xi x )3 , soit 3 = 120 656 250 000.


i =1

32 ( 120 656 250 000)2


=
, soit 1 = 0,067. 1 positif
60 187 5003
23
permet de conclure que la distribution est asymtrique et 3 ngatif permet de conclure
quelle est tale vers la gauche.

b. Sachant que 2 = V(x), 1 =

3 120 656 250 000


=
soit 1 = 0,258. 1 permet de conclure que la
77583
3
distribution est asymtrique et tale vers la gauche.
De mme, 1 =

5.
Figure 4.12
Bote moustaches.
Max (xi) = 36 000

Min (xi) = 0
Q1 = 12 857,14 M = 19 636,36
0

5 000

10 000

15 000

20 000

Q3 = 24 545,45
25 000

30 000

35 000

xi

Ce diagramme permet de visualiser ltalement vers la gauche de la distribution, la


mdiane tant plus proche de Q3 que de Q1.

EXERCICE 2 CARACTRISTIQUES DAPLATISSEMENT


Le tableau ci-aprs indique la rpartition du PIB par habitants (PPA) des pays de
lEurope des 25, en 2001 :
% de la population ge de 65 ans ou plus

Nombre de pays

11

12

13

14

15

16

17

18

19

Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

98

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Dessinez le diagramme en btons correspondant.


2. Calculez le coefficient daplatissement de Pearson.
3. Calculez le coefficient daplatissement de Fisher.

1.
Figure 4.13
Diagramme en
btons du
pourcentage de la
population ge de
65 ans ou plus des
pays de lEurope
des 25.

ni

5
4
3
2
1
xi

0
11

12

13

14

15

16

17

18

19

2. Le calcul du 2 de Pearson ncessite de connatre la valeur de la variance et de 4, le


k
1 k
moment centr dordre 4 dfini par : 4 = ni (xi x )4 = fi (xi x )4 .
n i =1
i =1

Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir
figure 4.14).
Figure 4.14
Saisie du tableau de
donnes avec la
calculatrice.

Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre
L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 4.15
saffichent.

Les caractristiques de forme et de concentration

99

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.15
Rsultats de lanalyse
statistique effectue
avec la calculatrice.

La moyenne est x = 15,28.


La variance est gale V (x) = x2 = 1,4447, soit V(x) = 2,096.
4

Pour calculer les fi(xi x ) dans la colonne L3, placez le curseur sur len-tte de
colonne L3. Indiquez L3=L225*(L115,28)^4 puis appuyez sur ENTER.
Pour calculer leur somme, placez le curseur dans la cellule L3(10), et indiquez
L3(10)=SUM(L3) en appelant la fonction SUM (voir annexe 1.2). Validez avec ENTER.
9

De l, 4 = fi (xi x )4 , soit 4 = 40,5 (voir figure 4.16).


i =1

Figure 4.16
Calcul de 4 avec la
calculatrice.

Do le coefficient daplatissement de Pearson 2 =

4
40,50
=
, soit 2 = 2,384.
2
2
4,122

La distribution est platicurtique.


3. Le coefficient daplatissement de Fisher 2 = 2 3 = 2,384 3, soit 2 = 0,616.

La distribution est platicurtique, cest--dire plus plate que la distribution


normale.

EXERCICE 3 CARACTRISTIQUES DE FORME ET MDIALE


Le tableau ci-aprs indique la rpartition des salaires annuels bruts, par tranches, de
lentreprise Alpha :
Salaires (K)

100

Effectifs

[25 ; 35[

22

[35 ; 45[

28

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Effectifs

Salaires (K)
[45 ; 55[

37

[55 ; 65[

51

[65 ; 80[

32

[80 ; 100[

12

[100 ; 120[

1. Dessinez lhistogramme correspondant.


2. Calculez la mdiale. Interprtez.
3. Concluez sur la forme de la distribution partir du calcul des deux coefficients
suivants :
a. le coefficient dasymtrie 1 de Pearson ;
b. le coefficient daplatissement 2 de Pearson.

1. Saisissez les centres de classes (modalits) dans la colonne L1, les effectifs dans la
colonne L2 et les amplitudes de classes (ai) dans la colonne L3 (voir figure 4.17).

Comme les amplitudes de classes ne sont pas toutes gales, il est ncessaire de passer par
les densits di. Pour calculer les densits, placez le curseur sur len-tte de colonne L4.
Indiquez L4=L2/L3 puis appuyez sur ENTER (voir figure 4.18).
Figure 4.17 (gauche)
Saisie du tableau de
donnes avec la
calculatrice.

Figure 4.18 (droite)


Calcul des densits avec
la calculatrice.

Lhistogramme peut alors tre dessin daprs ces densits (voir figure 4.19).

Les caractristiques de forme et de concentration

101

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.19

Histogramme des salaires de l'entreprise Alpha

di
6

Histogramme des
salaires de
lentreprise Alpha.

5
4
3
2
1
0

xi
0

10

20

30

40

50

60

70

80

90

100

110 120
Milliers

2. La mdiale est lquivalent de la mdiane sur la masse salariale (ici, la masse salariale
7

est donne par

n x
i =1

), puisquelle partage la population en deux sous-populations de

masses salariales gales.


Pour calculer les (nixi) dans la colonne L5, placez le curseur sur len-tte de colonne L5.
Indiquez L5=L2*L1, puis appuyez sur ENTER.
Pour obtenir les nixi cumuls croissants (nixicc) dans la colonne L6, placez le curseur sur
len-tte de colonne L6, puis entrez la formule L6=CumSum(L5), en appelant la fonction
CUMSUM (voir annexe 1.2), puis appuyez sur ENTER (voir figure 4.20).
Figure 4.20
Calcul des nixi et des
nixi cumuls
croissants avec la
calculatrice.

La mdiale correspond une masse relative cumule croissante de : 10 860 / 2 = 5 430,


valeur comprise entre 3 630 et 6 690, donc la mdiale appartient la classe [55 ; 65[.
Par interpolation linaire, Ml =

5 430 3 630
( 65 55 ) + 55 ; soit Ml = 60,88 K. Les
6 690 3 630

salaris qui peroivent moins de 60 880 de salaire annuel brut se partagent la moiti de
la masse salariale.
3. a. Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans
lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la
figure 4.21 saffichent.

102

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 4.21
Rsultats de lanalyse
statistique effectue
avec la calculatrice.

La moyenne est x = 57,46.


La variance est gale V (x) = x2 = 18,7973, soit V(x) = 353,34.
3

Pour calculer les fi(xi x ) dans la colonne L7, placez le curseur sur len-tte de
colonne L7 et nommez-la LA. Indiquez LA=L2189*(L157,46)^3 puis appuyez sur
ENTER. Pour calculer leur somme, placez le curseur dans la cellule LA(8), et indiquez
LA(8)=SUM(LLA) en appelant la fonction SUM (voir annexe 1.2) puis la ligne LA par le
menu LIST, NAMES, 7:LA. Validez avec ENTER.
4

Pour calculer les fi(xi x ) dans la colonne L8, placez le curseur sur len-tte de
colonne L8 et nommez-la LB. Indiquez LB=L2189*(L157,46)^4 puis appuyez sur
ENTER. Pour calculer leur somme, placez le curseur dans la cellule LB(8), et indiquez
LB(8)=SUM(LLB) en appelant la fonction SUM puis la ligne LB par le menu LIST,
NAMES, 8:LB. Validez avec ENTER.
7

3 = fi (xi x )3 , soit 3 = 4 859,6.


i =1

32 4 859,62
=
, soit 1 = 0,535. 1 positif permet de conclure
23 3 53,343
que la distribution est asymtrique et 3 positif permet de conclure quelle est tale
vers la droite.

Sachant que 2 = V(x), 1 =

4 = fi (xi x )4 , soit 4 = 442 645 (voir figure 4.22).


i =1

Figure 4.22
Calcul de 3 et de 4
avec la calculatrice.

4
442 645
=
, soit 2 = 3,545.
22
353,342
La distribution est leptocurtique, cest--dire plus pointue que la distribution normale.
b. Do le coefficient daplatissement de Pearson 2 =

Les caractristiques de forme et de concentration

103

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 4 CARACTRISTIQUE DE CONCENTRATION : LINDICE DE GINI


Le tableau ci-aprs indique la rpartition des 22 rgions franaises selon le nombre de
er
lits dont elles disposent en maisons de retraite au 1 janvier 2005 :
Nombre de lits

Nombre de rgions

[0 ; 12 250[

[12 250 ; 24 500[

12

[24 500 ; 36 750[

[36 750 ; 49 000[

Source : ministre de la Sant et des Solidarits, enqutes EHPA, FINESS, SAE, 2005

1. Calculez la mdiale.
2. Reprsentez la courbe de concentration.
3. Calculez lindice de Gini. Interprtez.

1. Les centres de classes sont calculs en colonne C, les frquences (fi) en colonne D puis
les frquences cumules croissantes (ficc) en colonne E (voir figure 4.23).

Les (nixi) sont calculs en colonne F. Leur somme reprsente la masse totale des lits
disponibles en maisons de retraite dans les 22 rgions franaises. La mdiale partage la
population en deux sous-populations de masses gales.
La quote-part qi des masses dans la masse salariale (qi) est calcule en colonne G et leurs
pourcentages cumuls croissants (qicc) sont calculs en colonne H.

Figure 4.23
Rsultats sous Excel.

La mdiale se trouve dans lintervalle o qicc passe 50 %, cest--dire [12 250 ; 24 500[.
Par interpolation linaire (voir chapitre 2),
0,5 0,0541
( 24 500 12250 ) + 122 500 , soit Ml = 23 479,17 lits. 50 % des lits
0,5405 0,0541
disponibles en maisons de retraite franaises proviennent de rgions qui ont moins de
23 479 lits.

Ml =

2. La courbe de concentration est obtenue en portant en abscisses les frquences


cumules croissantes, notes ficc (colonne E) et les qicc (colonne H) en ordonnes. la
lecture de la ligne 4 du tableau Excel de la figure 4.23, il est possible de conclure que

104

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

72,73 % des rgions dtiennent 54,05 % des lits disponibles dans les maisons de retraite
franaises (voir figure 4.24).
Figure 4.24

Courbe de concentration lits/rgions


qicc (en %)

Courbe de
concentration des lits
selon les rgions.

100

80

60
S4

40
S3
20
S2
0
0

S1 20

40

60

80

B
f cc (en%)
100 i

3. Laire de la surface sous la courbe de concentration se calcule par la mthode des


trapzes. Laire de chaque trapze (Si) est calcule dans la colonne I, puis leur somme
dans la cellule I6 (voir figure 4.23).

premire surface, S1, est un triangle dont laire est gale


f q cc
0,1818 0,0541
S1 = 1 1 =
= 0,0049 . La deuxime, S2, est un trapze daire
2
2
f ( q1cc + q2 cc )
0,5455 ( 0,0541 + 0,5405)
= 0,1622 .
=
S2 = 2
2
2

La

De mme, S3 =
Et S4 =

f3 ( q2cc + q3 cc )
2

f 4 ( q3cc + q4 cc )
2

0,1818 ( 0,5405 + 0,8108 )


2

0,0909 ( 0,8108 + 1)
2

= 0,1229 .

= 0,0823 .

Laire de la surface situe entre la courbe de concentration et laxe des abscisses est la
4

somme des aires des trapzes. S = Si = 0,3722. La surface de concentration, note SC,
i =1

est le domaine situ entre la diagonale du carr et la courbe de Lorentz. Son aire est gale
1 1
, et la somme des aires des
la diffrence entre laire du triangle rectangle OAB, soit
2
trapzes calcule. Do SC = 0,5 0,3722 = 0,1278.
0,1278
, soit IG = 0,2555. La concentration est faible, car
0,5
lindice de Gini est plus proche de 0 que de 1. Autrement dit, les lits en maisons de
retraite ne sont pas concentrs au sein de quelques rgions franaises, mais sont relativement bien rpartis sur ces rgions.

Do lindice de Gini, I G =

Les caractristiques de forme et de concentration

105

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990.
CALOT G., Cours de statistique descriptive, Dunod, 1969.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DELMAS B., Statistique descriptive, Armand Colin, 2005.
DELECROIX M., Histogrammes et estimation de la densit, Que sais-je ?, PUF, 1983.
DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985.
SAPORTA G., Probabilits, analyse de donnes et statistique, Technip, 1990.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
TASSI Ph. et LEGAIT S., Thorie des probabilits en vue des applications statistiques,
Technip, 1990.

106

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les sries bivaries


1. Prsentation des donnes....108
2. Les caractristiques des
sries deux caractres ....113
3. tude des liaisons entre
deux variables ...................119
Problmes et exercices
1. Construction dun tableau
de contingence sur
caractres discret
et qualitatif ........................127
2. Construction dun tableau
de contingence
sur caractres continus .......131
3. Contenu dun tableau
de contingence...................132
4. Indicateurs sur tableau
de contingence...................135
5. Dpendance entre
deux variables ...................139

Dans de nombreuses sciences dmographie, mdecine,


conomie , le statisticien est amen tudier plusieurs
caractres sur une mme population. Lvolution dun caractre avec le temps est de la plus grande importance et donne
lieu ltude des sries chronologiques, qui constituent un
cas particulier des sries bivaries, cest--dire des sries
visant tudier conjointement deux variables mesures sur un
mme individu. Les modalits sont donc des couples et les
donnes sont prsentes dans des tableaux lmentaires ou
dans des tableaux double entre, encore appels tableaux
de contingence. Lanalyse de ces tableaux vise mettre en
vidence dventuelles relations ou corrlations entre les deux
variables. Le concept de corrlation ( co-relation ) est n
vers 1880, avec les travaux de Francis Galton. Karl Pearson
a ensuite utilis la notion de contingence dans le sens de
mesure de la dviation par rapport lindpendance. Ce
contexte sera loccasion de sinitier la thorie des tests statistiques, dont la paternit est attribue la collaboration
(1925-1930) entre Jerzy Neyman et Egon Pearson,
dnomm Pearson deux , le fils de Karl.

107

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous noublierons pas qu partir dun tableau concernant deux variables nous pourrons toujours extraire les sries concernant chacun des caractres, encore appeles sries marginales.
Comme nous le verrons dans les diffrents exemples, les caractres tudis peuvent tre
de mme type, qualitatifs ou quantitatifs (discrets ou continus), ou de natures diffrentes, lun qualitatif et lautre quantitatif.

Prsentation des donnes


Il existe deux faons de prsenter une srie bivarie :
les tableaux simples, composs des observations en ligne et des variables en colonne ;
les tableaux de contingence, qui croisent les modalits des deux variables.

1.1

DONNES EXHAUSTIVES : TABLEAUX SIMPLES


Les tableaux simples des sries bivaries sont constitus :
des observations en ligne ;
des deux variables en colonne.
Ainsi, chaque ligne comporte lidentifiant de lobservation dans la premire colonne et les
modalits observes pour chacune des deux variables dans les deux colonnes suivantes.

Exemple 5.1

Srie bivarie et tableau simple

Le tableau suivant indique, pour chacune des trois acadmies dle-de-France, le nombre
de licencis en 2005 et le nombre de licencis poursuivant leurs tudes luniversit, en
2006. Il recense ainsi la poursuite des tudes luniversit aprs la licence.
Acadmie
Paris

Nombre de licencis (2005)

Licencis luniversit (2006)

14 150

11 271

Crteil

7 759

5 150

Versailles

7 254

5 107

29 163

21 528

Total

Source : ministre de lducation nationale, 2006

Cette srie double, ou bivarie, comporte trois modalits. Si lon note X le nombre de
licencis en 2005 et Y le nombre de licencis poursuivant leurs tudes luniversit en 2006,
Crteil est reprsente par la modalit (x2 ; y2) = (7 759 ; 5 150). En exploitant chaque
variable une par une, il est possible de calculer tous les indicateurs des sries univaries,
29163
comme les moyennes. Ainsi, x =
= 9 721 ; le nombre moyen de licencis est de
3
21528
= 7 176 ; le nombre moyen de licencis
9 721 tudiants par acadmie. De mme, y =
3
poursuivant leurs tudes luniversit est de 7 176 tudiants par acadmie.

108

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

On reprsente cette srie en plaant dans un repre les trois points de coordonnes
(xi ; yi) pour i entier variant de 1 3 ; cette reprsentation sappelle un nuage de points. Le
point G de coordonnes respectives x et y est appel point moyen du nuage.
Dans une srie double de ce type, les effectifs de chaque modalit sont gaux 1 et ne
sont pas mentionns. Il est possible de calculer sur les sries marginales les moyennes et
tous les paramtres ncessaires ltude de la srie bivarie, comme les variances.
Un nouveau paramtre, la covariance, sera introduit la section 2.4.

1.2

LE TABLEAU CROIS OU TABLEAU DE CONTINGENCE


Les tableaux croiss ou tableaux de contingence sont les tableaux obtenus quand on
tudie une population sous langle de deux caractres que lon croise. Dans le cas particulier o ces caractres ont chacun deux modalits (cas binaire), on obtient le cas particulier des tableaux 2 2.
Ct technique , les tableaux double entre ne sont pas diffrents de ce que les
mathmaticiens appellent matrices, tableaux de nombres n lignes et p colonnes et dont
nous noterons nij le terme situ lintersection de la ligne i et de la colonne j.
Une des caractristiques des tableaux de contingence, qui sont trs prsents dans
lanalyse de donnes, est dattribuer un sens aux marges , cest--dire une colonne
supplmentaire droite et une ligne supplmentaire en bas, qui indiquent le nombre
dindividus possdant une des modalits de lun des deux caractres (ce que lon appelle
le tri plat de ce caractre).

Prsentation des effectifs du tableau de contingence


Soit respectivement p et q les nombres de modalits des caractres X et Y.
Les modalits du caractre X se notent xi avec i = {1, 2, , p}.
Les modalits du caractre Y se notent yj avec j = {1, 2, , q}.
Dfinitions

Leffectif partiel de la modalit (xi, yj) est le nombre dobservations prsentant simultanment
les deux modalits xi et yj. Il se note nij.
q

Leffectif marginal de la modalit xi se note ni+, ou encore ni, tel que : ni + = nij . Cet effectif
j =1

dsigne la somme des effectifs de la ligne i. La distribution des effectifs marginaux de X


sappelle distribution marginale de X.
p

De mme, n + j = nij , ou encore nj, est leffectif marginal de la modalit yj. Il dsigne la
i =1

somme des effectifs de la colonne j. La distribution des effectifs marginaux de Y sappelle


distribution marginale de Y.
Leffectif total de la srie double est la somme des effectifs marginaux de la srie X (ou Y).
q

j =1

i =1

Il est not n++, n ou simplement n, avec : n + + = n + j = ni + = nij = nij .


j =1 i =1

i =1 j =1

Les sries bivaries

109

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

En adoptant lensemble de ces notations, le tableau de contingence contenant les effectifs


se prsente de la manire suivante :
Les modalits xi de X apparaissent dans la premire colonne.
Les modalits yj de Y apparaissent sur la premire ligne.
Leffectif partiel nij de la modalit (xi, yj) est inscrit au croisement de la ligne i et de la
colonne j.
Leffectif marginal ni+ de X est report dans la dernire colonne du tableau. Leffectif
marginal n+j de Y est report sur la dernire ligne du tableau. La dernire ligne et la dernire colonne du tableau de contingence sappellent les marges et contiennent la distribution marginale de X et de Y. Elles reprsentent les effectifs des sries simples X et Y.
Leffectif total n++ est indiqu au croisement des deux distributions marginales de X et
de Y.
Do la prsentation suivante du tableau de contingence :

Exemple 5.2

X\Y

y1

y2

yj

yq

n i+

x1

n11

n12

n1j

n1q

n1+

x2

n21

n22

n2j

n2q

n2+

xi

ni1

ni2

nij

niq

ni+

xp

np1

np2

npj

npq

np+

n+j

n+1

n+2

n+j

n+q

n++

Un tableau de contingence 2 2

Certaines entreprises mettent en avant auprs des consommateurs des engagements de


citoyennet : par exemple, fabriquer sans gnrer de pollution, ne pas avoir recours au
travail des enfants, etc. Le tableau ci-aprs donne le rsultat sur un chantillon constitu
sur la base des rsultats dune enqute du Credoc de lanne 2006, en rponse la
question : Dune faon gnrale, tenez-vous compte de ces lments lorsque vous
achetez un produit ?
Sexe \ Rponse

Oui (O)

Non (N)

Total

Masculin (M)

290

410

700

Fminin (F)

141

159

300

Total

431

569

1 000

Source : Credoc, 2006

Ce tableau comporte deux caractres qualitatifs :


X, le sexe, avec les deux modalits x1 = M et x2 = F ;

110

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Y, la rponse la question de citoyennet, avec les deux modalits y1 = O et y2 = N.


Leffectif total est de 1 000 et il y a quatre modalits. Par exemple, le couple (x1 ; y2) = (M ;
N) a un effectif situ au croisement de la premire ligne et de la deuxime colonne et not
n12 = 410.
Les sommes des effectifs en ligne sont indiqus dans la dernire colonne et les sommes
des effectifs en colonne sur la deuxime ligne du tableau.
Par exemple, la somme des effectifs de la deuxime ligne, n2+ = 300 est indique dans la
dernire colonne, sur la dernire ligne. Il sagit du nombre total de femmes, galement
appel effectif marginal de la modalit Fminin de la variable Sexe.
De mme, la somme des effectifs de la premire colonne n+1 = 431 est donne sur la
dernire ligne. Il sagit de leffectif de la modalit Oui, sans distinction de sexe,
galement appel effectif marginal de la modalit Oui de la variable Rponse.
Le dtail des effectifs de cette srie est donn dans la prsentation gnrale suivante :
X\Y

y1 = O

y2 = N

n i+

x1 = M

n11 = 290

n12 = 410

n1+ = 700

x2 = F

n21 = 141

n22 = 159

n2+ = 300

n+j

n+1 = 431

n+2 = 569

n++ = 1000

Les frquences des tableaux de contingence


partir du tableau de contingence compos des effectifs, il est possible de calculer les
frquences (frquences relatives). Il existe trois types de frquences :
les frquences partielles ;
les frquences marginales ;
les frquences conditionnelles.
Dfinitions

La frquence partielle de la modalit (xi, yj) est note fij et est dfinie par fij =
q

clair que

nij
n+ +

. Il est

f
j =1 i =1

ij

= 1. On retrouve le concept dintersection, ces individus appartenant la

modalit xi de X et la modalit yj de Y.
La frquence marginale de la modalit xi est note fi+ et est dfinie par fi+ =

ni+
. Il est
n+ +

clair que fi+ = fij .


j =1

De mme, la frquence marginale de la modalit yj est note f+j et est dfinie par
p
n+ j
= fij .
f+ j =
n+ + i =1

Les sries bivaries

111

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 5.3

Calcul des frquences partielles et marginales sur tableau de contingence

Reprenons le tableau de contingence de lexemple 5.2 ci-avant.


Il est possible de dterminer
f12 = 410 / 1000 = 0,41, so

les

frquences

partielles

fij.

Par

exemple,

it 41 % des individus de notre enqute sont des hommes et ont rpondu non.
Il est galement possible de dterminer les frquences marginales fi+ ou f+j. Par exemple,
f+1 = 431 / 1000 = 0,431, soit 43,1 % des individus de lenqute ont rpondu oui.
Les sries marginales peuvent ventuellement tre extraites. Par exemple, lextraction de
la srie marginale du caractre X donne :
Sexe

n i+

Masculin (M)

700

Fminin (F)

300

Total

1 000

Cette prsentation pourra faciliter les calculs de frquence, moyenne, variance et carttype dans le cas des caractres quantitatifs. Par exemple, ici, les frquences marginales du
caractre Sexe sont aisment reprables : f1+ = 0,70 et f2+ = 0,30, soit 70 % dhommes et
30 % de femmes.
Les frquences conditionnelles nous permettent daborder la distribution conditionnelle.
Cette distribution est relier la notion de probabilit conditionnelle, qui consiste
effectuer un changement de lunivers ou de la population tudis (voir P. Roger,
page 17). Cela revient effectuer les calculs sur une sous-population prsentant une
modalit choisie au lieu de sintresser la population entire.
Dfinitions

Distributions conditionnelles : Si le caractre Y possde q modalits, on peut dfinir


q distributions conditionnelles de X sachant Y. Les effectifs de ces distributions sont reprsents
par chacune des colonnes du tableau de contingence. Leffectif total de la distribution
conditionnelle de X sachant Y = yj tant alors n+j.
De mme, si le caractre X possde p modalits, on peut dfinir p distributions conditionnelles
de Y sachant X. Les effectifs de ces distributions sont reprsents par chacune des lignes du
tableau de contingence. Leffectif total de la distribution conditionnelle de Y sachant X = xi
tant alors ni+.
Frquences conditionnelles de X sachant Y : La frquence conditionnelle de la modalit xi
p
nij
sachant yj est donne par f X = x i Y = y j =
. Ainsi, f X = xi Y = y j = 1. Elle est aussi note fi/+j.
n+ j
i =1
Frquences conditionnelles de Y sachant X : La frquence conditionnelle de la modalit yj
q
nij
sachant xi est donne par fY = y j X = xi =
. Ainsi, fY = y j X = xi = 1 . Elle est aussi note fj/i+.
ni +
j =1

112

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Il existe une relation entre les frquences conditionnelles et les frquences partielles
prcdemment dfinies : fij = fi / + j f + j . Cette relation est similaire au thorme des
probabilits composes qui indique que :
P (( X = xi ) (Y = y j )) = P(Y = y j ) ( X = xi ) P (Y = y j ) .
Exemple 5.4

Calcul des frquences conditionnelles sur tableau de contingence : sexe et citoyennet

Reprenons le tableau de contingence de lexemple 5.2 ci-avant.


Au lieu de sintresser la population entire, il est possible de sintresser lunivers des
femmes. Lunivers de travail est alors la sous-population note {X = x2}. Elle est constitue des individus prsentant la modalit F de la variable X.
Cherchons alors la proportion de rponses Oui, soit dindividus appartenant la modalit y1 de Y dans cette sous-population. Cette frquence conditionnelle est note indiffremment fY = y1 X = x2 , f j =1 i =2 ou f1 2 + (on lit f indice j = 1 sachant i = 2 si les indices i
et j ont t respectivement affects aux modalits de X et de Y) et dfinie par :
n
141
f j =1 i =2 = 21 =
= 0, 47 ; ainsi, 47 % des femmes ont rpondu oui.
n2+ 300
Il est ainsi possible de calculer toutes les frquences conditionnelles de X sachant Y.
X\Y

y1 = O

y2 = N

x1 = M

fi = 1 / j = 1 = 0,6729

fi = 1 / j = 2 = 0,7206

x2 = F

fi = 2 / j = 1 = 0,3271

fi = 2 / j = 2 = 0,2794

f+j

De mme, il est possible de calculer toutes les frquences conditionnelles de Y sachant X.

X\Y

y1 = O

y2 = N

fi+

x1 = M

fj = 1 / i = 1 = 0,4143

fj = 2 / i = 1 = 0,5857

x2 = F

fj = 1 / i = 2 = 0,47

fj = 2 / i = 2 = 0,53

Les caractristiques des sries


deux caractres
Les frquences, indicateurs qui se calculent dans le cadre des sries univaries, se calculent galement sur des sries bivaries. Il en va de mme pour les autres caractristiques
des sries statistiques que sont la moyenne, la variance et lcart-type.

Les sries bivaries

113

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Ces caractristiques peuvent tre calcules sur des variables quantitatives, partir :
des distributions marginales : il sagit de caractristiques marginales ;
des distributions conditionnelles : il sagit de caractristiques conditionnelles.

2.1

LES CARACTRISTIQUES MARGINALES


Les sries marginales sont des sries univaries. Les calculs des moyennes, variances et
carts-types marginaux se font donc de la faon habituelle, aprs extraction de la srie
marginale.

Dfinitions

y=

1
n+ +

x=

marginales :

Moyennes
q

n+ j y j =
j =1

1
n+ +

j =1

i =1

1
n+ +

n
i =1

xi =

i+

1
n+ +

x n
i =1

j =1

et

ij

de

mme

y j nij .

Remarque : certains auteurs notent ces moyennes marginales respectivement : x et y .

V (x ) =

1
n+ +

V (x ) =

marginales :

Variances
p

n
i =1

i+

1
n+ +

n (x
i =1

x i 2 x 2 . De mme, V ( y ) =

i+

1
n+ +

n
j

x) ,
2

+j

de

( y j y ) =

formule

1
n+ +

n
j

dveloppe
2

+j

yj y .

carts-types marginaux : Les carts-types marginaux sont dduits des variances marginales,
( x ) = V ( x ) et ( y ) = V ( y ) .
Exemple 5.5

Calcul des caractristiques marginales

Soit un chantillon dentreprises sur lequel sont observes les variables X, investissement
annuel en milliers deuros, et Y, chiffre daffaires annuel en millions deuros :
X\Y

[10 ; 30[

[30 ; 50[

[50 ; 70[

Somme

[10 ; 30[

300

80

380

[30 ; 40[

70

200

50

320

[40 ; 50[

20

30

250

300

Somme

390

310

300

1 000

On extrait les sries marginales en utilisant les centres de classes. Les moyennes, variances
et carts-types marginaux sont ensuite calculs sur ces sries, comme dans le cas dune
srie univarie ; la figure 5.1 donne la distribution marginale de X.

114

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 5.1
Calcul des
caractristiques
marginales de X.

Ce qui donne : x =

32300
1 151500
= 32,3 ; V (x) =
(32,3)2 = 108,21 et (x) = 10,4.
1000
1 000

En faisant de mme pour la distribution marginale de Y, on obtient y =


V (y) =

2.2

38 200
= 38,2 ;
1 000

1 732 000
(38,2)2 = 272,76 et (y) = 16,52.
1 000

LES CARACTRISTIQUES CONDITIONNELLES


Comme les caractristiques marginales, les calculs des moyennes, variances et cartstypes conditionnels se font donc de la faon habituelle, aprs extraction de la distribution
conditionnelle concerne.

Dfinitions

Moyennes conditionnelles : Les moyennes conditionnelles de X sont les moyennes des


p
1 p
distributions conditionnelles de X sachant Y. x j = fi / + j x i =
nij x i est la moyenne
n + j i =1
i =1

( )

conditionnelle de X sachant Y = yj.


De mme, les moyennes conditionnelles de Y sont les moyennes des distributions condiq
1 q
tionnelles de Y sachant X. y i = fj / i + x i =
nij y j est la moyenne conditionnelle de Y
ni + j =1
j =1

( )

sachant X = xi.
Variances conditionnelles : Les variances conditionnelles de X sont les variances des distributions conditionnelles de X sachant Y. La variance conditionnelle de X sachant Y = yj est
2
1 p
1 p
note V j ( x ) =
nij ( x i x j )2 =

nij x i 2 x j .
n + j i =1
n + j i =1
De mme, les variances conditionnelles de Y sont les variances des distributions conditionnelles de Y sachant X. La variance conditionnelle de Y sachant X = xi est note
2
1 q
1 q
Vi ( y ) =
nij ( y j y i )2 =

nij y j 2 y i .
ni + j =1
ni + j =1
carts-types conditionnels : Les carts-types conditionnels sont dduits des variances conditionnelles, ( x ) = V ( x ) et ( y ) = V ( y ) .

Les sries bivaries

115

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 5.6

Calcul des caractristiques conditionnelles

Reprenons les donnes de lexemple 5.5.


Extrayons la distribution conditionnelle de X sachant Y = 60. partir de cette srie
extraite, assimilable une srie univarie, nous effectuons les tapes ncessaires aux
calculs de la moyenne et de la variance (voir figure 5.2).
Figure 5.2
Distribution
conditionnelle de X
sachant Y = 60.

13 000
= 43,33 ;
300

Do les paramtres conditionnels : x3 =

567 500
43,332 = 14,18 et 3 ( X ) = 14,18 = 3,77 .
300

V3 ( X ) =

2.3

RELATIONS ENTRE LES MOYENNES MARGINALES ET CONDITIONNELLES


Les moyennes conditionnelles et marginales sont lies par la relation suivante : la
moyenne des moyennes conditionnelles de X est gale la moyenne marginale de X.
Cette proprit est relier la notion desprance conditionnelle en probabilit.
Soit x la moyenne des moyennes conditionnelles. La dmonstration suivante montre
que x est gale la moyenne marginale de X, cest--dire x :
x=
=

Exemple 5.7

1
n++

1
n++

n
j =1

+j

xj =

x n
i

i =1

ij

j =1

1
n++

n
j =1

1
=
n++

+j

n+ j

x n
i =1

i i+

++ j =1 i =1

n x = n n x
ij

i =1

ij

=x

Vrification de la relation entre moyennes marginales et conditionnelles

Reprenons les donnes de lexemple 5.5.


Extrayons les distributions conditionnelles de X sachant Y = y1 (voir figure 5.3).
Figure 5.3
Distribution
conditionnelle de X
sachant Y = y1.

116

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Do x1 =

1
n+ j

n x
ij

i =1

9 350
= 23,97 .
390

En faisant de mme pour les distributions conditionnelles de X sachant Y = y2 et de X


sachant Y = y3, on obtient :
x2 =

1
n+ j

n x
ij

i =1

9 950
1
= 32,10 ; x 3 =
n+ j
310

n x
ij

i =1

13 000
= 43,33 .
300

La distribution des moyennes conditionnelles de X est propose figure 5.4.


Figure 5.4
Distribution des
moyennes
conditionnelles de X.

Do la moyenne des moyennes conditionnelles de X : x =

1
n++

n
j =1

+j

xj =

32 300
= 32,3 .
1000

Or, x = 32,3 (voir exemple 5.5). Donc, la relation entre x et x est vrifie.

2.4

LA COVARIANCE
Nous avons vu que la variabilit des caractres quantitatifs une variable autour de leur
moyenne pouvait tre mesure par la variance. Dans le cas des sries doubles, nous
disposons dun indicateur comparable, appel covariance, qui permet de mesurer les
fluctuations simultanes de chaque variable par rapport sa moyenne. Il est important
de noter que, contrairement la variance (moyenne de carrs) qui est toujours positive
ou nulle, la covariance peut tre de signe quelconque.

Dfinition

La covariance : Soit X et Y deux caractres quantitatifs. La covariance du couple (X ; Y) est


q
p
1 q p
dfinie par : Cov (X ; Y ) =
nij ( x i x ) ( y j y ) = fij ( x i x ) ( y j y ) .

n + + j =1 i =1
j =1 i =1

Graphiquement, cette dfinition revient prendre un nouveau repre dorigine G


( x ; y ) , le point moyen, et diviser le plan en quatre quadrants, respectivement dfinis
x x
x x
x x
x x
par : Q1
, Q2
, Q3
et Q4
. On notera que les quadrants Q1 et
y y
y y
y y
y y
Q3 sont associs, car les points M (xi ; yj) du nuage situ dans le domaine Q1 Q3 sont

caractriss par ( xi x ) ( y j y ) 0 , les quantits ( xi x ) et ( y j y ) tant de mme

signe. De mme, Q2 Q4 est caractris par ( xi x ) ( y j y ) 0 . Ainsi, le signe de la

covariance nous indiquera si les points du nuage sont majoritairement dans Q1 Q3 ou

Les sries bivaries

117

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nuages de points
(xi ; yi).

12
11
10
9
8
7
6
5
4
Y 3
2
1
0

Milliers

Figure 5.5

Milliers

dans Q2 Q4 (voir figure 5.5) ; nous reviendrons sur cette remarque dans ltude de la
rgression (voir chapitre 6).
y
Covariance ngative
13
12
Q1
Q2
11
Y 10
9
Q2
Q1
8
7
6
5
Q4
Q3
4
3
2
Q3
Q4
1
x
0
x
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Milliers
x
Milliers
x

Covariance positive

Comme pour la variance, la covariance admet une formule dveloppe. Cette formule est
issue du thorme de Koenig.
Dfinition

Formule dveloppe de la covariance : Cov (X ; Y ) =

1
n+ +

n x y
j =1 i =1

ij

xy.

Par cette formule, la covariance est la moyenne des produits moins le produit des
moyennes .
De mme que la variance, la covariance possde des proprits trs importantes :
Proprits

Cov(X ; Y) = Cov(Y ; X) : la covariance est symtrique.


Cov(X ; X) = Var(X) : la covariance est obtenue en ddoublant la formule de la variance.
Cov(aX ; aY) = aaCov(X ; Y) : multiplier chacune des sries par un rel multiplie la
covariance par le produit de ces nombres.
Cov(X+b ; Y) = Cov(X ; Y) : ajouter une constante ne change pas la covariance.

Le signe de la covariance possde une signification (voir figure 5.5) :


Une covariance positive indique que les caractres X et Y varient globalement dans le
mme sens, une hausse de lun tant associe une hausse de lautre, ou encore une
baisse de lun tant associe une baisse de lautre.
Une covariance ngative indique que les caractres X et Y varient globalement en sens
contraires, une hausse de lun tant associe une baisse de lautre.
Exemple 5.8

Calcul de covariance dans le cas de donnes exhaustives

Reprenons les donnes de lexemple 5.1 et calculons la covariance avec la formule dveloppe. On rappelle que n = 3 ; x = 9 721 ; y = 7 176. On calcule chacun des xiyi et on
en fait la somme (voir figure 5.6).

118

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 5.6
Calcul des xiyi.

Source : ministre de lducation nationale, 2006


q

Do

n x y
ij

= 236 489 678 .

Do,

en

utilisant

la

formule

dveloppe :

j =1 i =1

1 3 3
1
nij xi y j x y = 3 236 489 678 9 721 7 176 ,
3 j =1 i =1
soit Cov(X ; Y) = 9 071 996,76. Le nombre de licencis en 2005 varie dans le mme sens
que le nombre de licencis poursuivant leurs tudes luniversit en 2006.
Cov( X ; Y ) =

Dans le chapitre suivant nous affinerons ltude de la relation entre deux caractres et
nous verrons le rle de la covariance dans le calcul du coefficient de corrlation linaire.

tude des liaisons entre deux variables


La notion de liaison entre deux variables est un premier stade incontournable vers une
ventuelle imputation causale quil est fondamental de mettre en vidence dans de
nombreux domaines, notamment en pidmiologie, justice, conomie, sociologie, etc.
Dans le cas particulier de deux caractres quantitatifs, le degr dassociation peut varier
entre deux extrmes : dun ct la liaison fonctionnelle et de lautre lindpendance.

3.1

LIAISON FONCTIONNELLE ET INDPENDANCE


Prenons lexemple du jeu de la roulette. La roulette comporte 37 numros (numrots
de 0 36), 18 rouges, 18 noirs, le zro tant vert. la suite de 100 parties, notons respectivement X et Y le nombre de numros rouges et de numros noirs sortis.
Si le zro nexistait pas, nous aurions entre X et Y la relation fonctionnelle X + Y = 100 ;
avec la prsence dune case verte, nous avons un degr de liaison trs fort entre X et Y, le
zro ayant une probabilit faible de sortie.

Dfinition

Un caractre X est li fonctionnellement au caractre Y si chaque modalit de Y correspond


une seule modalit de X.

La liaison fonctionnelle nest pas symtrique : si X est fonctionnellement li Y, cela


nimplique pas que Y le soit fonctionnellement X.
Exemple 5.9

Liaison fonctionnelle et absence de symtrie

Supposons que, suite lintroduction sur le march dun nouveau produit, une enqute
de satisfaction sur un chantillon de 200 consommateurs des deux sexes ait donn les
rsultats suivants, avec X le sexe et Y la satisfaction :

Les sries bivaries

119

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

X\Y
Masculin (M)

Insatisfait

Satisfait

Somme

20

70

90

110

110

20

70

110

200

Fminin (F)
Somme

Ni satisfait, ni insatisfait

X est fonctionnellement li Y, car pour chaque modalit de Y rsulte une seule modalit
de X ; ainsi, un consommateur satisfait est ncessairement un homme. Par contre, Y nest
pas fonctionnellement li X, car la modalit Masculin de X correspondent deux
modalits possibles de Y : Insatisfait ou Ni satisfait, ni insatisfait.
La liaison fonctionnelle nest pas symtrique.
Reprenons lexemple du jeu de la roulette et imaginons une roulette comportant un trs
grand nombre de cases vertes : les caractres X et Y seraient peu prs indpendants.
Dfinition

Deux variables statistiques X et Y sont indpendantes si les distributions conditionnelles de X


sachant Y sont identiques, ce qui quivaut : f X = x Y = y = fi + , quels que soient les indices i et j
( i
j)
(i entier compris entre 1 et p et j entre 1 et q). Dans le cas o X et Y sont indpendants, les
distributions conditionnelles de X selon Y sont identiques la distribution marginale de X.
Le concept dindpendance tant symtrique, lindpendance se traduit galement par la
relation f Y = y X = x = f + j .
( j
i)

Cette notion est similaire la notion dindpendance probabiliste :


PB(A) = P(AB) / P(B).
Exemple 5.10

tude de lindpendance

Reprenons les donnes de lexemple 5.2. Leur tude a men au calcul des frquences
conditionnelles de X sachant Y, rappeles dans le tableau suivant :
X\Y

y1 = O

y2 = N

x1 = M

fi = 1 / j = 1 = 0,6729

fi = 1 / j = 2 = 0,7206

x2 = F

fi = 2 / j = 1 = 0,3271

fi = 2 / j = 2 = 0,2794

f+j

De mme, les frquences marginales de X avaient t calcules : f1+ = 0,70 et f2+ = 0,30,
soit 70 % dhommes et 30 % de femmes.
Parmi les individus ayant rpondu oui, il y a 67,29 % dhommes et 32,71 % de femmes,
ce qui est diffrent des proportions dhommes et de femmes dans lchantillon tudi, qui
sont respectivement de 70 % et de 30 %. Ces rsultats montrent que les caractres X et Y
ne sont pas indpendants, car les distributions conditionnelles de X selon Y ne sont pas
gales la distribution marginale de X (voir dfinition de lindpendance, ci-avant) : la
rponse dun individu nest pas indpendante de son sexe.

120

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3.2

INTRODUCTION AU TEST DU KHI-DEUX ()


2

Le test dindpendance du khi-deux (khi ) permet de se prononcer sur lindpendance de


deux variables qualitatives, observes sur un chantillon. Il seffectue en deux tapes :
1. La premire consiste comparer le tableau des effectifs observs et le tableau des
effectifs thoriques calculs sous lhypothse dindpendance, ou plutt de mesurer
leur distance afin de disposer dun indicateur permettant daccepter ou de refuser
lhypothse dindpendance entre ces variables :
Si la distance entre les tableaux est petite , les effectifs observs sont proches

des effectifs thoriques. Les effectifs observs sassimilent aux effectifs thoriques
sous hypothse dindpendance : on ne peut rejeter lhypothse dindpendance.
Si la distance entre les tableaux est grande , les effectifs observs sont diffrents

des effectifs thoriques calculs sous lhypothse dindpendance. Les effectifs


observs ne sassimilent pas aux effectifs thoriques sous lhypothse
dindpendance : les deux variables ne sont pas indpendantes.
2. La deuxime tape, prsente dans tous les tests dhypothses (voir focus 5.1), consiste
dterminer la probabilit associe la dcision daccepter ou de refuser lhypothse
dindpendance. Ne pouvant prtendre une certitude, il apparat raisonnable de
minimiser le risque derreur.

Focus 5.1

Principe des tests dhypothses


Une hypothse statistique est une assertion concernant les caractristiques (valeurs des
paramtres, nature de la distribution, indpendance, etc.) dune ou de plusieurs
variables statistiques sur une population.
Lexamen de la validit dune hypothse se fait sur la base dobservations recueillies sur un
chantillon de la population tudie. Le test statistique est une dmarche qui vise fournir
une rgle de dcision permettant de faire un choix entre deux hypothses statistiques.
Les deux hypothses envisages sappellent lhypothse nulle (H0) et lhypothse alternative (H1). La terminologie hypothse nulle est une hypothse de diffrence nulle entre
les donnes observes sur un chantillon et lhypothse H0 que lon dsire tester (valeur
dun paramtre, adquation une loi de probabilit thorique, indpendance, etc.).
La dmarche du test seffectue en considrant H0 vraie ; cest cette hypothse que nous
allons soit accepter on parle alors de rgion de non-rejet de H0 , soit rejeter on
parle alors de rgion critique de H0. Le rejet ventuel de lhypothse nulle conduit
lacceptation de lhypothse alternative ( contre-hypothse ) H1.
La dcision de favoriser telle hypothse est base sur les rsultats dun chantillon et donc,
partir dune information trs partielle, il est impossible dtre sr de prendre la bonne
dcision : on devra se contenter de limiter la probabilit que notre dcision soit errone.
On distinguera deux types derreur :
Erreur de premire espce : rejeter tort H0. Ce risque, consenti lavance, de rejeter
tort lhypothse nulle alors quelle est vraie sappelle le seuil de signification et est

Les sries bivaries

121

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

not . Les seuils les plus utiliss sont = 0,05 et = 0,01, soit respectivement 5 %
et 1 %.
Erreur de seconde espce : accepter H0 alors que H1 est vraie. La probabilit de cette
erreur est note .
Le risque de premire espce est regrettable, mais invitable, comme le rappelle Daniel
Schwartz. La seule faon de ne pas se tromper, et de ne prendre aucun risque de rejeter
tort H0, est daccepter H0 dans tous les cas, ce qui augmente le risque daccepter H0 alors
quelle est fausse. Autrement dit, pour diminuer , il faut augmenter . Pour ne pas
prendre le moindre risque de condamner un innocent risque , on doit accepter le
risque de relaxer tous les coupables risque .

Effectifs observs et effectifs thoriques calculs


La premire tape passe par le calcul des effectifs thoriques nots cij.
Dfinition

Les effectifs calculs (ou thoriques) : Les effectifs calculs sous lhypothse dindpendance,
encore appels effectifs thoriques, sont nots cij et donns par : cij = ni+ n+j / n++.

Aprs dtermination des effectifs calculs cij, il est possible de dterminer un indicateur
de distance entre le tableau observ, compos des nij, et le tableau thorique, compos
des cij. Cette distance est appele distance du khi-deux.
Dfinition

Distance du khi-deux : La distance entre les tableaux observ et thorique est appele khiq

deux calcul, note c , et dfinie par C =


2

j =1 i =1

(n

ij

c ij
c ij

, les coefficients cij dsignant les

effectifs thoriques ou calculs et les nij les effectifs observs.

Pour appliquer un calcul de distance du khi-deux entre deux tableaux, les deux conditions suivantes doivent tre vrifies :
la taille de lchantillon doit tre suprieure ou gale 30 ;
tous les effectifs calculs doivent tre suprieurs ou gaux 5 (dans le cas contraire,
on regroupe les classes adjacentes).
Karl Pearson a dmontr que ce khi-deux calcul suit approximativement la distribution
du khi-deux (voir focus 5.2), loi de probabilit continue, caractrise par un paramtre
(nu), le degr de libert.
Dfinition

Degr de libert dun tableau de contingence : Soit un tableau de contingence form de


n lignes et de p colonnes. Son degr de libert, not ddl, est donn par : ddl = (n1)(p1), ou
encore ddl = (nombre de lignes 1) (nombre de colonnes 1).

Pour comprendre la signification de la notion de degr de libert, il convient dobserver


que lon peut remplir librement les (n 1) premires lignes et les (p 1) premires
colonnes et qualors les effectifs marginaux imposent les valeurs restantes.

122

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Focus 5.2

La loi du khi-deux
La loi du 2 finalise par Karl Pearson au dbut du XX sicle est une loi de probabilit
continue reprsentant la distribution de la somme des carrs de n variables alatoires
indpendantes, chacune tant normale centre rduite. Cette somme est appele variable
du 2 n degrs de libert ; on note le degr de libert (ddl). Les valeurs de 2 dpene

dent du degr de libert et du seuil de signification . Elles sont notes 2( ; ) et sont

tabules sur la table du 2 , avec P 2 2( ; ) = .


Prenons un exemple : pour un seuil de signification de 5 % et un ddl = 1, on trouve :
2( 0,05;1) = 3,84 ; pour un seuil de signification de 1 % et un ddl de 1, 2(0,01;1) = 6,63 .
Pour un ddl de 1, il y a une chance sur 100 pour que la variable alatoire du 2 1 degr
de libert dpasse 6,63 (voir figure 5.7).
Autre dmarche : on peut, partir du khi-deux calcul et du ddl, dterminer le degr de
signification correspondant. Par exemple, pour un khi-deux calcul de 2,8 et un ddl
de 1, le degr de signification est de 9,43 % (ce degr de signification peut tre dtermin
en utilisant Excel ; voir exercice 5) ; si le seuil de 5 % a t assign au test, alors on ne
pourra pas rejeter lhypothse nulle, car notre seuil de signification est suprieur 5 %
(voir lexercice 5 et la notion de p-valeur).
Figure 5.7

Distribution du khi-deux
1 degr de libert.

0,7
0,6
0,5
0,4
0,3
0,2
0,1
0

=0,05
x
3,84

Le test de lhypothse dindpendance


La deuxime tape consiste tester lhypothse dindpendance, en respectant les quatre
phases suivantes :
1. Formuler les hypothses :
H0 : les deux caractres sont indpendants.
H1 : les deux caractres ne sont pas indpendants.

2. Choisir le seuil de signification, not .

Les sries bivaries

123

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3. Dterminer le degr de libert.


4. Dfinir la rgle de dcision partir de c 2 le khi-deux calcul et 2( ; ) le khi-deux
critique, dpendant du seuil de signification et du degr de libert .
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables est

rejete et lhypothse H1 est accepte : les deux caractres seront considrs


comme statistiquement associs.
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas

rejete : il est impossible de conclure de faon significative lexistence dun lien


statistique entre les variables.
Exemple 5.11

Test du khi-deux

Reprenons lexemple 5.10. Le tableau des effectifs observs est le suivant :


X\Y

y1 = O

y2 = N

x1 = M

n11 = 290

n12 = 410

x2 = F

n21 = 141

n22 = 159

Les deux variables sont dpendantes (voir exemple 5.10). Il est possible de sinterroger
sur les conditions qui auraient permis de conclure lindpendance. Pour cela, calculons
les effectifs sous lhypothse dindpendance, nots cij.
Lindpendance se traduit par : f ( X = x1 Y = y1 ) = f1+ , soit par le fait que la proportion
dindividus de sexe masculin parmi les oui est gale la proportion dindividus de
c
700
sexe masculin dans la population tudie, soit 70 %, ce qui donne : 11 =
, soit
431 1000
n
700
431 = 302 . Remarquons que c11 = 1+ n +1 .
c11 =
n+ +
1000
Ce problme compte apparemment quatre inconnues, mais en vrit elles sont lies : la
donne dune de ces inconnues, par exemple c11, fixe les valeurs des autres. Le tableau a
un degr de libert gal 1.
Ainsi, partir de c11, il est possible de trouver toutes les autres valeurs du tableau :
c12 = 700 c11 = 398 ; c21 = 431 c11 = 129 et c22 = 300 c21 = 171.
Do le tableau suivant, qui indique les effectifs calculs, cij, en supposant lindpendance
des caractres X et Y.

124

Statistique descriptive

X\Y

y1 = O

y2 = N

Somme

x1 = M

302

398

700

x2 = F

129

171

300

Somme

431

569

1 000

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Calculons le c laide de la formule C =


2

de

calculer

(n11 c11 )

(n21 c 21 )

chacun

des

( 290 302 )

(n

ij

cij )
cij

302

(141 129 )

ij

cij )

c ij

avant

den

. Pour cela, il est ncessaire

faire

(n12 c12 )

la

= 0,48 ;

(n

j =1 i =1

c11

= 1,12 et

129
c 21
reportes dans le tableau suivant :

c12

(n22 c 22 )
c22

(159 171)

somme.

( 410 398 )

Ainsi,

398

= 0,36 ;

171

= 0,84 . Ces valeurs sont

X\Y

y1 = O

y2 = N

Somme

x1 = M

0,48

0,36

0,84

x2 = F

1,12

0,84

1,96

Somme

1,60

1,20

2,80

Ainsi, c 2 = 0,48 + 0,36 + 1,12 + 0,84 = 2,80, avec un ddl de 1 qui donne au seuil de 5 %

2( 0,05;1) = 3,84 .
c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas rejete : il
est impossible de conclure de faon significative lexistence dun lien statistique entre le
sexe et le type de rponse.

Focus 5.3

Test du khi-deux sous Excel


Excel propose de raliser un test du khi-deux uniquement partir des tableaux de
donnes observes et thoriques, sans avoir calculer les distances du khi-deux. Pour
cela, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis,
dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction TEST.KHIDEUX. Cliquez
sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.8), dans le
champ Plage_relle, indiquez la plage dans laquelle se trouve le tableau de donnes
observes, soit B2:D4, et dans le champ Plage_attendue, indiquez la plage dans laquelle
se trouve le tableau de donnes thoriques, soit B22:D24 pour notre exemple. Cliquez
sur OK pour faire apparatre le rsultat.

Les sries bivaries

125

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 5.8
Ralisation du test du
khi-deux sous Excel.

La probabilit affiche, gale 0,0000, est le degr de signification, cest--dire le plus


petit risque derreur pour lequel la diffrence entre le modle observ et le modle
dindpendance est significative. Si cette probabilit est suprieure au seuil de signification, alors H0 ne peut tre rejete. Dans notre exemple, avec un seuil de signification de
5 % et un degr de signification denviron 0, on doit rejeter H0.

Conclusion
Ce chapitre est un chapitre clef double titre : tout dabord il a introduit les outils de
base des sries bivaries, qui seront ncessaires pour aborder, au chapitre 6, la rgression ; ensuite il a introduit le concept fondamental dindpendance. Cette notion a t
loccasion de prsenter une initiation aux tests statistiques, qui constituent un aspect
fondamental de linfrence statistique.
Le lecteur doit matriser les concepts deffectifs (et de frquences) conditionnels et
marginaux, ainsi que les lments ayant trait aux tableaux de contingence : utilisation
rigoureuse des indices, notion de degr de libert. La covariance, son calcul sous les deux
formes et linterprtation de son signe doivent tre bien connus.
Enfin, le lecteur doit sattacher une rdaction rigoureuse et systmatique dans
llaboration dun test dhypothse. Les calculs intervenant dans le test du khi-deux
exigent une dmarche, des notations et une prsentation claires. Par ailleurs, indpendamment de lutilisation du tableur, il est fondamental dtre familiaris avec la table de
la distribution du khi-deux.

126

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Par lintermdiaire du tableau de contingence, ce chapitre prsente une premire approche des sries bivaries.
Les exercices 1 et 2 initient la construction du tableau de contingence selon la nature
des variables tudies.
Lexercice 3 dtaille les lments constitutifs du contenu dun tableau de contingence.
Lexercice 4 applique aux sries bivaries le calcul des indicateurs prcdemment mis
en uvre dans ltude des sries univaries.
Lexercice 5 introduit la notion de dpendance entre deux sries, laide de la covariance et du test du khi-deux.

EXERCICE 1

CONSTRUCTION DUN TABLEAU DE CONTINGENCE


SUR CARACTRES DISCRET ET QUALITATIF
loccasion dune enqute statistique, un enseignant demande ses 28 tudiants
dindiquer sur un papier leur genre, masculin ou fminin, et le nombre de films quils
ont vus au cinma au cours des deux derniers mois. Les rsultats de lenqute sont
reports dans le tableau suivant :
tudiant

Nombre de films

Genre

tudiant 1

Fminin

tudiant 2

Masculin

tudiant 3

Masculin

tudiant 4

Fminin

tudiant 5

Fminin

tudiant 6

Fminin

tudiant 7

Masculin

tudiant 8

Masculin

tudiant 9

Fminin

tudiant 10

Fminin

tudiant 11

Fminin

tudiant 12

Masculin

tudiant 13

Fminin

tudiant 14

Masculin

Les sries bivaries

127

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

tudiant

Nombre de films

Genre

tudiant 15

Fminin

tudiant 16

Masculin

tudiant 17

Fminin

tudiant 18

Fminin

tudiant 19

Masculin

tudiant 20

Masculin

tudiant 21

Masculin

tudiant 22

Masculin

tudiant 23

Fminin

tudiant 24

Fminin

tudiant 25

Masculin

tudiant 26

Masculin

tudiant 27

Masculin

tudiant 28

Fminin

1. Prcisez la nature des caractres tudis.


2. Dressez le tableau de contingence prsentant les deux distributions marginales.

1. La variable nombre de films est une variable quantitative discrte.

La variable genre est une variable qualitative nominale.


2. Afin dtablir le tableau de contingence dcrivant la srie bivarie, nous pouvons soit
faire un recensement manuel, soit utiliser le tableau crois dynamique dExcel.

Pour le recensement manuel, il convient de compter combien de femmes ont vu 0 film,


1 film, 2 films, etc., et de faire de mme pour les hommes. Ce comptage aboutit au
tableau de contingence de la figure 5.9, qui indique par exemple que 6 femmes ont vu
2 films ou encore que 5 hommes ont vu 3 films.
Figure 5.9
Ralisation manuelle
dun tableau de
contingence.

128

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La ralisation manuelle dun tel tableau est souvent longue et fastidieuse. Excel permet de
raliser ce type de tableau automatiquement, laide du tableau crois dynamique. Ce
tableau est dit dynamique, car une fois quil est ralis partir des donnes brutes, il est
possible de le modifier tout moment en faisant glisser les variables laide de la souris.
Pour raliser un tableau crois dynamique sous Excel, ouvrez Excel sur la feuille contenant les donnes traiter. Cliquez sur Donnes/Rapport de tableau crois dynamique
dans la barre de menus.
Lassistant tableau crois dynamique apparat (voir figure 5.10). Par dfaut les donnes
analyser sont supposes tre dans Excel. Il suffit donc de cliquer sur le bouton Suivant.
Figure 5.10
Cration dun
tableau crois
dynamique laide
de lassistant.

Lassistant tableau crois dynamique demande alors dindiquer la plage o se trouvent les
donnes. Il convient donc de slectionner laide de la souris le tableau Excel, cest--dire,
ici, la plage A1:C29, comme indiqu sur la figure 5.11. Puis cliquez sur le bouton Suivant.
Figure 5.11
Slection des
donnes croiser
dans lassistant
tableau crois
dynamique.

Dernire tape : il convient dindiquer lendroit o vous souhaitez que le tableau crois
dynamique soit ralis : soit sur une nouvelle feuille, soit sur la feuille existante. Nous
choisissons ici de faire apparatre le tableau crois dynamique sur une nouvelle feuille
(voir figure 5.12) avant de cliquer sur le bouton Terminer.
Figure 5.12
Slection du lieu
daffichage des
rsultats dans
lassistant tableau
crois dynamique.

Les sries bivaries

129

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Lassistant tableau crois dynamique se ferme et le tableau crois dynamique apparat,


vide, avec la liste de champs qui reprend les trois colonnes du tableau brut (voir
figure 5.13).
Figure 5.13
Tableau crois
dynamique
renseigner.

Pour remplir le tableau crois dynamique, il suffit de cliquer sur un des lments de la
liste de champs et de le faire glisser, laide de la souris, lendroit souhait du tableau
de contingence. Dans notre cas :
Llment Nombre de films est dplac lemplacement indiqu Dposer
champs de lignes Ici .
Llment Genre est dplac lemplacement indiqu Dposer champs de colonnes Ici .
Llment tudiant est dplac lemplacement indiqu Dposer donnes Ici .
Le tableau crois dynamique construit fait ainsi apparatre le nombre de films en ligne, le
sexe en colonne et compte le nombre dtudiants prsentant chaque modalit de lune et
de lautre de ces deux variables (voir figure 5.14).
Figure 5.14
Dnombrement par
tableau crois
dynamique.

Un simple clic sur les cellules dynamiques (A3, A4 et B3) permet de modifier les options
du tableau, notamment de faire disparatre la modalit indique (vide) pour chaque
variable.
Ce tableau de contingence correspond celui obtenu manuellement (voir figure 5.9).

130

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2

CONSTRUCTION DUN TABLEAU DE CONTINGENCE


SUR CARACTRES CONTINUS
Dans le cadre dune tude sur lamnagement touristique du territoire, des donnes relatives aux 22 rgions franaises vous sont fournies :
le nombre de chambres classes, qui reflte la capacit daccueil des htels de la
rgion ;
le nombre de nuites, qui correspond la frquentation de la rgion.
Rgion

Nombre de chambres
classes (milliers)

Alsace

18,874

5 783,190

Aquitaine

29,367

8 249,402

Auvergne

16,488

3 585,167

Basse-Normandie

13,916

4 717,249

Bourgogne

14,673

4 780,127

Bretagne

23,815

6 942,431

Centre

19,713

5 879,467

8,119

2 747,915

11,288

2 720,622

Franche-Comt

7,807

2 080,166

Haute-Normandie

9,119

3 048,212

146,247

61 479,881

25,981

7 834,973

Limousin

5,198

1 279,118

Lorraine

13,713

3 657,955

Midi-Pyrnes

40,124

9 602,892

Nord-Pas-de-Calais

16,901

5 819,472

Pays de la Loire

20,162

5 711,902

7,833

2 486,715

Poitou-Charentes

15,965

4 499,656

Provence-Alpes-Cte-dAzur

69,120

21 442,215

Rhne-Alpes

69,812

18 311,960

Champagne-Ardenne
Corse

le-de-France
Languedoc-Roussillon

Picardie

Nombre de nuites
(milliers)

Source : Insee, direction du Tourisme, partenaires rgionaux, 2007

Les sries bivaries

131

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Prcisez la nature des caractres tudis.


2. Dressez le tableau de contingence prsentant les deux distributions marginales.
Utilisez les classes [0 ; 15[ ; [15 ; 30[ et [30 ; 150[ pour X.
Utilisez les classes [0 ; 5 000[ ; [5 000 ; 10 000[ ; [10 000 ; 65 000[ pour Y.

1. Les deux variables X = nombre de chambres classes et Y = nombre de nuites


sont des variables quantitatives continues.
2. Afin de pouvoir raliser un tableau de contingence, il est indispensable de discrtiser
ces variables afin de les regrouper en classes (voir chapitre 1), sans quoi chacune dentre
elles aura 22 modalits et le tableau de contingence sera compos pour chaque ligne et
pour chaque colonne dune unique rgion dans les marges. En effet, aucune rgion na le
mme nombre de chambres ni le mme nombre de nuites quune autre.

Pour la variable X = nombre de chambres classes , nous choisissons les classes


suivantes : [0 ; 15[, [15 ; 30[ et [30 ; 150[ (en milliers).
Pour la variable Y = nombre de nuites , nous choisissons les classes suivantes :
[0 ; 5 000[, [5 000 ; 10 000[ et [10 000 ; 65 000[ (en milliers).
Le recensement manuel permet dobtenir le tableau suivant :
X\Y

[0 ; 5 000[

[5 000 ; 10 000[

[10 000 ; 65 000[

Somme

[0 ; 15[

[15 ; 30[

[30 ; 150[

11

22

Somme

EXERCICE 3 CONTENU DUN TABLEAU DE CONTINGENCE


Le tableau suivant recense les pays de lEurope des 25 selon :
la taille de leur population (en millions dhabitants), note X et indique en ligne ;
le nombre de voix dont ils disposent au conseil de lUnion europenne, not Y et indiqu
en colonne.
Pop (X) \ Voix (Y)

[0 ; 5[

[5 ; 10[

[10 ; 15[

[15 ; 30[

[0 ; 5[

[5 ; 10[

[10 ; 50[

[50 ; 100[

Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

132

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Dressez le tableau contenant les effectifs partiels et marginaux.


2. Dressez le tableau des frquences partielles et marginales.
3. Dressez le tableau des frquences conditionnelles de X selon Y.
4. Dressez le tableau des frquences conditionnelles de Y selon X.
5. partir des questions prcdentes, concluez sur la dpendance entre X et Y.

1. Les effectifs partiels des caractres X et Y sont nots nij et sont indiqus dans le corps du
tableau de contingence (voir figure 5.15). Ils correspondent aux effectifs donns dans
lnonc. Ainsi, par exemple, n23 = 2, soit 2 pays de lEurope des 25 ont une population
comprise entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion
europenne.

Les effectifs marginaux du caractre X se notent ni+ et sont indiqus dans la dernire
colonne du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
4

n2 + = n2 j = 5 , soit 5 pays de lEurope des 25 ont une population comprise entre 5 et


j =1

10 millions dhabitants.
Les effectifs marginaux du caractre Y se notent n+j et sont indiqus dans la dernire ligne
du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
4

n+3 = ni 3 = 8 , soit 8 pays de lEurope des 25 ont entre 10 et 15 voix au conseil de lUnion
i =1

europenne.

Figure 5.15
Les effectifs partiels
(nij) et marginaux
(ni+ ; n+j).

2. Les frquences partielles des caractres X et Y se notent fij et sont indiques dans le
corps du tableau de contingence (voir figure 5.16). Ainsi, par exemple,
n
2
f 23 = 23 = = 8% , soit 8 % des pays de lEurope des 25 ont une population comprise
n++ 25
entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion europenne.

Les frquences marginales du caractre X se notent fi+ et sont indiques dans la dernire
colonne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple,
n
5
f 2+ = 2+ = = 20% , soit 20 % des pays de lEurope des 25 ont une population
n++ 25
comprise entre 5 et 10 millions dhabitants.

Les sries bivaries

133

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les frquences marginales du caractre Y se notent f+j et sont indiques dans la dernire
ligne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple,
n
8
f +3 = +3 = = 32% , soit 32 % des pays de lEurope des 25 ont entre 10 et 15 voix au
n++ 25
conseil de lUnion europenne.

Figure 5.16
Les frquences
partielles (fij) et
marginales (fi+ ; f+j).

3. Les frquences conditionnelles de X selon Y se notent fi / +j et sont indiques dans le

corps du tableau de contingence (voir figure 5.17). Ainsi, par exemple,


n
2
fi =2 / j =3 = 23 = = 25% . Parmi les pays de lEurope des 25 qui disposent de 10 15 voix
n +3 8
au conseil de lUnion europenne, 25 % ont une population comprise entre 5 et
10 millions dhabitants.

La somme en colonne des frquences conditionnelles de X selon Y fait 100 %. Ces frquences correspondent donc aux pourcentages en colonne : la somme des pourcentages
de chacune des colonnes est gale 100 %.
Figure 5.17
Les frquences
conditionnelles de
X selon Y : fi / +j

4. Les frquences conditionnelles de Y selon X se notent fj / i+ et sont indiques dans le


corps du tableau de contingence (voir figure 5.18). Ainsi, par exemple,
n
2
f j =3 / i =2 = 23 = = 40% . Parmi les pays de lEurope des 25 qui ont une population
n2 + 5
comprise entre 5 et 10 millions dhabitants, 40 % disposent de 10 15 voix au conseil de
lUnion europenne.

La somme en ligne des frquences conditionnelles de Y selon X fait 100 %. Ces


frquences correspondent donc aux pourcentages en ligne : la somme des pourcentages
de chacune des lignes est gale 100 %.
Figure 5.18
Les frquences
conditionnelles de
Y selon X : fj / +i

134

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

5. X nest pas fonctionnellement li Y, car la modalit de y2 correspondent deux modalits possibles de X, x1 et x2 ; de mme, Y nest pas fonctionnellement li X, car la
modalit de x2 correspondent deux modalits possibles de Y, y2 et y3.

Ainsi, par exemple, les pays de lEurope des 25 dont la taille de la population est
comprise entre 10 et 50 millions dhabitants peuvent disposer de 10 15 voix ou de 15
30 voix au conseil de lUnion europenne. Inversement, les pays de lEurope des 25 qui
ont entre 10 et 15 voix au conseil de lUnion europenne peuvent avoir une population
comprise entre 5 et 10 millions ou entre 10 et 50 millions dhabitants.
X et Y ne sont pas indpendants, car les distributions conditionnelles ne sont pas gales
aux distributions marginales. En effet, par exemple, f j =3 / i =2 = 40 % est diffrent de

f +3 = 32 % .
Puisque X et Y ne sont ni dans une relation de liaison fonctionnelle, ni dans une relation
dindpendance, on se trouve entre ces deux cas extrmes et il est simplement possible de
conclure quil existe une liaison entre X et Y.

EXERCICE 4 INDICATEURS SUR TABLEAU DE CONTINGENCE


Le tableau suivant recense le nombre de personnes tues dans un accident de la route en
2005 (millions dindividus de la classe dge), en fonction de lge (X) et du sexe (Y) :
Age (X) \ Sexe (Y)

Homme

Femme

[0 ; 15[

15

10

[15 ; 20[

241

70

[20 ; 25[

362

77

[25 ; 45[

161

36

[45 ; 65[

102

35

[65 ; 95[

145

67

Source : ONISR, 2006

1. Pour la variable ge des tus par accidents de la route , calculez :


a. la moyenne marginale x ;
b. la variance marginale V(x).
2. Pour la variable ge des tus par accidents de la route conditionne par la modalit homme de la variable sexe , calculez :
a. la moyenne conditionnelle, soit x1 ;
b. la variance conditionnelle, soit V1(x).
3. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre lge et le sexe des personnes tues dans un accident de la route.

Les sries bivaries

135

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Saisissez les centres de classes de X dans la colonne L1, les effectifs partiels pour les
hommes dans la colonne L2 et les effectifs partiels pour les femmes dans la colonne L3,
comme indiqu figure 5.19.

Figure 5.19
Saisie du tableau de
contingence avec la
calculatrice.

Pour calculer les effectifs marginaux (ni+) de X dans la colonne L4, placez le curseur sur
len-tte de colonne L4. Indiquez L4=L2+L3. Puis appuyez sur ENTER.
Pour obtenir les (ni+xi) dans la colonne L5, placez le curseur sur len-tte de colonne L5,
puis indiquez L5=L4L1. Puis appuyez sur ENTER.
Pour obtenir les (ni+xi) dans la colonne L6, placez le curseur sur len-tte de colonne L6,
puis indiquez L6=L5L1. Puis appuyez sur ENTER.
Pour effectuer la somme des (ni+), placez le curseur sur la cellule L4(7), et indiquez
L4(7)=sum(L4), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur
ENTER.
Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L5(7), et indiquez
L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER.
Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L6(7), et indiquez
L6(7)=sum(L6), en appelant la fonction SUM. Puis appuyez sur ENTER (voir
figure 5.20).
Figure 5.20
Calcul des ni+xi et de
la somme des
colonnes avec la
calculatrice.

a. La moyenne marginale de X est donc gale x =

1 6
46 897,5
ni + xi =
, soit

1321 i =1
1 321

x = 35,5 . Lge moyen des personnes tues dans un accident de la route est de 35,5 ans.

136

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

b. La variance marginale de X est donc gale :


V (x) =

1 6
2331443, 8
ni + xi x =
35,5 , soit V(x) = 504,55.

1321 i =1
1321

La variance de lge des personnes tues dans un accident de la route est de 504,55.
2. Effacez le contenu des colonnes L4 et L5 en plaant le curseur sur chacun des en-ttes
de colonnes et en appuyant sur CLEAR et ENTER.

Pour calculer les ni1xi dans la colonne L4, placez le curseur sur len-tte de colonne L4.
Indiquez L4=L1L2. Puis appuyez sur ENTER.
Pour obtenir les ni1xi dans la colonne L5, placez le curseur sur len-tte de colonne L5,
puis indiquez L5=L4L1. Puis appuyez sur ENTER.
Pour faire la somme des ni1, placez le curseur sur la cellule L2(7), et indiquez
L2(7)=sum(L2), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur
ENTER.
Pour faire la somme des ni1xi, placez le curseur sur la cellule L4(7), et indiquez
L4(7)=sum(L4), en appelant la fonction SUM. Puis appuyez sur ENTER.
Pour faire la somme des ni1xi, placez le curseur sur la cellule L5(7), et indiquez
L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER (voir
figure 5.21).
Figure 5.21
Calcul des ni1xi et de
la somme des
colonnes avec la
calculatrice.

a. La moyenne conditionnelle cherche est donc : x1 =

1 6
35 320
ni1 xi =
, soit

1026 i =1
1026

x1 = 34, 42 . Lge moyen des hommes tus dans un accident de la route est de 34,42 ans.

b. La variance conditionnelle cherche est :


V1 (x) =

1 6
1691687,5
ni1 xi x1 =
34, 42 , soit V(x) = 463,74.

1026 i =1
1026

La variance de lge des hommes tus dans un accident de la route est de 463,74.
3. Pour effectuer un test du khi-deux, il convient de saisir le tableau de donnes observes

dans une matrice. Pour cela, appuyez sur la touche MATRIX, choisissez le menu EDIT.
Tapez 1 pour diter la matrice [A]. Saisissez le nombre de lignes, soit 6, et appuyez sur
ENTER. Saisissez le nombre de colonnes, soit 2, et appuyez sur ENTER. Enfin, saisissez
les valeurs en validant chacune dentre elles par appui sur ENTER.

Les sries bivaries

137

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La matrice [A] de la calculatrice contient ainsi les donnes observes (voir figure 5.22).
Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite
sous lhypothse dindpendance entre X et Y. Pour effectuer ce test laide de la calculatrice, appuyez sur la touche STAT, choisissez le menu TESTS et tapez C pour appeler le
test du khi-deux. Par dfaut, la matrice de donnes observes est la matrice [A]. Tapez
sur ENTER pour valider. Par dfaut, la matrice o seront stocks les rsultats de la
matrice thorique est la matrice [B]. Tapez sur ENTER pour valider. Puis tapez une
nouvelle fois sur ENTER pour lancer le test du khi-deux. Les rsultats saffichent
lcran (voir figure 5.23).
Figure 5.22 (gauche)
Saisie de la matrice [A]
des effectifs observs
avec la calculatrice.

Figure 5.23 (droite)


Rsultats du test du khideux avec la
calculatrice.

La probabilit 0,000269, soit environ 0,03 %, donne ici est celle que lon obtiendrait
sous Excel avec la fonction LOI.KHIDEUX. La valeur du khi-deux de 23,51, avec un
degr de libert de 5, a une probabilit denviron 0,03 % dtre dpasse ou correspond
un seuil de signification de 0,03 %. Ce seuil de signification est infrieur 5 %, et induit
donc le rejet de lhypothse nulle au seuil fix de 5 % et lacceptation de lhypothse
alternative. Si H0 est vraie, il y a 99,97 % de chances dobtenir un chantillon correspondant un khi-deux infrieur 23,51 ; en rejetant H0, on prend ici un risque ngligeable.
Il existe donc un grand cart entre les donnes observes et les donnes thoriques sous
hypothse dindpendance. Les donnes observes refltent un degr de dpendance
statistique entre X et Y. Autrement dit, il existe un lien entre lge et le genre des personnes tues dans un accident de la route.
Au seuil de 5 %, avec un ddl de 5, la table ou la fonction statistique Excel
KHIDEUX.INVERSE nous donne un khi-deux de 11,05, qui est largement dpass ici
par le khi-deux calcul.
La matrice [B] des donnes thoriques peut tre visualise en appuyant sur la touche
MATRIX. Dans le menu EDIT, tapez 2 pour diter la matrice [B] (voir figure 5.24).

Figure 5.24
Visualisation de la
matrice [B] des
effectifs calculs avec
la calculatrice.

138

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

(Obsi Thqi )
. Par exemple,
Thqi
e
re
pour llment situ lintersection de la 2 ligne et de la 1 colonne,
311
1026
1321
1321 1321 .
241,55 =
1026
1321

On vrifie que, pour chaque lment de la matrice,

2
i

EXERCICE 5 DPENDANCE ENTRE DEUX VARIABLES


318 tudiants ont t interrogs sur leurs achats de jeux vido neufs et doccasion au
cours de la dernire anne. Le tableau suivant croise le nombre de jeux achets neufs (X)
avec le nombre de jeux achets doccasion (Y).
Neuf (X) \
Occasion (Y)

[2 ; 4[

157

55

[2 ; 4[

49

19

1. Calculez la moyenne marginale x et la variance V(x).


2. Calculez la moyenne marginale y et la variance V(y).
3. Calculez la covariance entre X et Y. Concluez sur la dpendance entre X et Y.
4. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre X et Y.

1. Afin dobtenir la valeur de la moyenne marginale de X, il convient de calculer :

les effectifs marginaux (ni+) de X dans la colonne E, ainsi que leur somme dans la
cellule E5 ;
les centres de classes xi dans la colonne F ;
les (ni+xi) dans la colonne G, ainsi que leur somme dans la cellule G5.
Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs dans la colonne H, et
leur somme dans la cellule H5 (voir figure 5.25).

Figure 5.25
Rsultats sous Excel.

Les sries bivaries

139

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1 3
302
ni + xi = 318 , soit x = 0,95 .
318 i =1
Le nombre moyen de jeux vido achets neufs lors de la dernire anne est de 0,95.

La moyenne marginale de X est donc gale x =

1 3
764
ni + xi x 2 =
0,95 , soit

318 i =1
318
V(x) = 1,50. La variance des jeux vido achets neufs lors de la dernire anne est de 1,50.

La variance marginale de X est donc gale V (x) =

2. Afin dobtenir la valeur de la moyenne marginale de Y, il convient de calculer la suite


du tableau prcdent (voir figure 5.25) :

les effectifs marginaux (n+j) de Y sur la ligne 5, ainsi que leur somme dans la
cellule E5 ;
les centres de classes yj sur la ligne 6 ;
les (n+jyj) sur la ligne 7, ainsi que leur somme dans la cellule E7.
Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs sur la ligne 8, et leur
somme dans la cellule E8.
1 3
121
n+ j y j =
, soit y = 0,38 .

318 j =1
318
Le nombre moyen de jeux vido achets doccasion lors de la dernire anne est de 0,38.

La moyenne marginale de Y est donc gale y =

1 3
313
n+ j y j y 2 = 318 0,38 , soit
318 i =1
V(y) = 0,84. La variance des jeux vido achets doccasion lors de la dernire anne est
de 0,84.

La variance marginale de Y est donc gale V ( y ) =

3. Pour obtenir la valeur de la covariance entre X et Y, nous calculons la suite du


p

n x y

tableau prcdent (voir figure 5.25) les

ij

i =1

pour chaque colonne j, sur la ligne 9,

dans les cellules B9, C9 et D9. Puis nous en effectuons la somme en faisant varier j dans
q

la cellule E9, afin dobtenir la somme :

n x y
j =1 i =1

ij

La covariance de (X ; Y) est donc gale


COV (X ; Y ) =

1 3 3
230
nij xi y j x y =
0,95 0,38 , soit Cov(X ; Y) = 0,36.

318 j =1 i =1
318

X et Y sont positivement lis. Le nombre de jeux vido achets neufs est positivement li
au nombre de jeux vido achets doccasion.
4. Pour effectuer un test du khi-deux, il convient de calculer les effectifs thoriques (ou
calculs, nots cij) sous lhypothse dindpendance entre X et Y. Les calculs sont prsents
n n
la figure 5.26. Par exemple, pour leffectif thorique c21 : c 21 = 2 + +1 , donc
n++
71 261
77
25 = 6 .
c 21 =
= 58 . Autre exemple : c 32 =
318
318

140

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 5.26
Donnes thoriques
sous hypothse
dindpendance sous
Excel.

Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite
sous hypothse dindpendance entre X et Y. Pour cela, il convient de calculer chacune
(nij c ij )
2
des distances du khi-deux par case tel que =
(voir figure 5.27). Par exemij
c ij
ple,

2
21

(55 58,27)
= 0,18 . Autre exemple :
58,27

2
32

(9 6,05)
= 1,43 .
6,05

Figure 5.27
Distances du khideux sous Excel.

La somme des distances du khi-deux est de 35,21, soit

= 35,21 . Or, ce tableau a :

(3 1) (3 1) = 4 degrs de libert. Pour dfinir la rgle de dcision, nous devons


dterminer la valeur critique, cest--dire 2( 0,05;4) .
Pour effectuer une lecture de table du khi-deux sous Excel, slectionnez la cellule dans
laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez
sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques,
puis slectionnez la fonction KHIDEUX.INVERSE. Cliquez sur OK. Dans la bote de
dialogue Arguments de la fonction (voir figure 5.28), dans le champ Probabilit, indiquez le niveau de signification fix, ici 0,05, puis, dans le champ Degrs_libert, indiquez
la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau,
soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat, soit un khi-deux denviron 9,49.
Figure 5.28
Lecture du khi-deux
de la table sous
Excel.

Les sries bivaries

141

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Il reste prendre la dcision : le khi-deux calcul est denviron 35,21 ; il est suprieur au
khi-deux de la table, on doit rejeter lhypothse dindpendance et accepter lhypothse
alternative de dpendance entre le nombre de jeux vido achets neufs et le nombre de
jeux vido achets doccasion.
Une dmarche complmentaire consiste chiffrer le degr de signification, ou la valeur p
(p-value) en utilisant la fonction Excel LOI.KHIDEUX. Ce degr de signification est la
probabilit davoir un khi-deux suprieur ou gal 35,21 sous lhypothse nulle.
Pour dterminer le degr de signification, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis
slectionnez la fonction LOI.KHIDEUX. Cliquez sur OK. Dans la bote de dialogue
Arguments de la fonction (voir figure 5.29), dans le champ x , indiquez la cellule dans
laquelle se trouve la valeur du khi-deux, soit E33, et dans le champ Degrs_Libert, indiquez la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau,
soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat.
Figure 5.29
Dtermination du
degr de signification
pour un khi-deux
sous Excel.

Pour une valeur du khi-deux de 35,21 et avec un degr de libert de 4, la probabilit associe
est de 4,2138E-07, soit 0,0000. Cette valeur du khi-deux a une probabilit pratiquement
nulle dtre dpasse. Le degr de signification est infrieur au seuil de 5 % assign au test,
on doit donc rejeter lhypothse nulle dindpendance entre les variables, le risque de
prendre une mauvaise dcision tant ici quasiment nul. Il existe donc un grand cart entre
les donnes observes et les donnes thoriques sous hypothse dindpendance. Les
donnes observes refltent une dpendance entre X et Y. Autrement dit, il existe un lien
entre le nombre de jeux vido achets neufs et le nombre de jeux vido achets doccasion.

142

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990.
BOUROCHE J.-M. et SAPORTA G., Lanalyse des donnes, Que sais-je ?, PUF, 1990.
CALOT G., Cours de statistique descriptive, Dunod, 1969.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004.
DODGE Y., Premiers pas en statistique, Springer, 2006.
DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990.
GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999.
MARTIN O., Lanalyse de donnes quantitatives. Lenqute et ses mthodes, Armand Colin,
2005.
WONNACOTT T.H. et R.J., Statistique, Economica, 1984.

Les sries bivaries

143

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La rgression
1

1. Les fondements de la
rgression..........................146
2. Lajustement linaire...........150
3. Ajustements et absence
de linarit ........................162
Problmes et exercices
1. Rgression linaire
et indicateurs de qualit......164
2. Rgression linaire
et prvisions.......................170
3. Rgression sur tableau
de contingence...................174
4. Ajustement exponentiel et
papier semi-logarithmique ..175
5. Corrlation des rangs.........179

Dans le chapitre prcdent, nous avons vu que le degr


dassociation de deux caractres quantitatifs peut varier entre
deux extrmes, dun ct la liaison fonctionnelle et de lautre
lindpendance. La notion de corrlation consiste prciser
la dpendance mutuelle de deux variables statistiques.
Cette notion de corrlation a t esquisse pour la premire
fois par Francis Galton (1822-1911), dans ses travaux sur
1
lhrdit : il utilisait alors le terme co-relation . Galton a
montr que la taille moyenne des descendants tait lie par
une relation linaire la taille des parents. Les concepts
introduits par Galton ont ensuite t dvelopps par Karl
Pearson (1857-1936).
Dans ce chapitre, nous tudierons essentiellement la corrlation linaire, cest--dire les situations o les variations relatives de deux caractres quantitatifs sont approximativement
proportionnelles ; ce cas est fondamental, car il se produit
quand le couple (X, Y) suit une loi normale.
Ensuite, nous mesurerons lintensit de cette corrlation
laide du coefficient de corrlation linaire.

1. Form de cum, avec, et de relatio, le mot latin correlatio signifie relation mutuelle (voir B. Hauchecorne).

145

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Lanalyse linaire de la rgression a un double objectif : dune part expliciter le modle


dcrivant les relations entre une variable privilgie, appele variable explique (dpendante ou endogne), et une variable appele variable explicative (indpendante ou
exogne), et dautre part effectuer des prvisions de la variable explique en fonction de
la variable explicative.
Dans ce cas, lajustement analytique sera effectu laide de la mthode des moindres
carrs, que nous devons Carl Friedrich Gauss (1777-1855) et Adrien-Marie Legendre
(1752-1833), et qui nous permettra de dterminer les quations des droites de rgression.
Nous envisagerons galement des liaisons plus complexes (exponentielles), en utilisant
une reprsentation graphique (nuage de points) comme outil de conjecture.
Enfin, une fois les calculs mens sur un chantillon, il importera dutiliser un test statistique permettant de valider ou de rejeter lexistence dun lien linaire entre les variables
sur la population.

Les fondements de la rgression

1.1

TERMINOLOGIE
Il importe avant tout de prciser certains termes : rgression, corrlation, indpendance.
Nous avons vu, au chapitre 5, un exemple (voir exemple 5.9) de liaison fonctionnelle
non symtrique. De mme, les notions de rgression et de corrlation ne donnent pas un
rle symtrique aux deux variables. Quand deux variables ne sont pas lies par une relation fonctionnelle pure, on devra se contenter de regarder comment, en moyenne, se
font les variations respectives de ces variables. On associera ainsi chaque modalit xi
de X la moyenne conditionnelle y i .

Dfinitions

Liaison fonctionnelle : On dit que la variable Y est fonctionnellement lie X si chaque


modalit de X correspond une seule modalit de Y.
De mme X est lie fonctionnellement Y si chaque modalit de Y correspond une seule
modalit de X.
Si X est lie fonctionnellement Y et Y est lie fonctionnellement X, on parle de liaison
fonctionnelle rciproque.
Courbes de rgression : On appelle courbe de rgression de Y selon x la courbe reprsentative des moyennes conditionnelles y i en fonction des valeurs xi de X. On remarquera que si
X est une variable discrte on aura en fait une suite de points appele nuage de points.
On dfinit de mme la courbe de rgression de X selon y.
Point moyen : On appelle point moyen du nuage le point G de coordonnes respectives x et y .

Dans le cas particulier o les variables X et Y sont indpendantes, les distributions


conditionnelles sont identiques entre elles (et confondues avec la distribution marginale
correspondante). On a donc dans ce cas des moyennes conditionnelles constantes et
donc des droites de rgression parallles aux axes et dquations respectives x = x et
y = y . On notera que la rciproque est fausse : des droites de rgression parallles aux
axes nimpliquent pas lindpendance.

146

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

tudier la corrlation dune variable Y avec une variable X consiste tudier la


dpendance des moyennes conditionnelles de Y en fonction des valeurs de X. Ltude de
la corrlation de Y avec X se base sur la courbe de rgression de Y selon X et sur la
mesure de lintensit de cette corrlation.
Dfinition

Corrlation : Une variable Y est dite corrle avec X si la courbe de rgression de Y selon X
nest pas une droite parallle laxe des abscisses.

On notera que :
labsence de corrlation nest en gnral pas symtrique : X peut tre corrle avec Y
sans que Y soit corrle avec X ;
si X et Y sont des variables indpendantes, X nest pas corrle Y et Y nest pas corrle X, mais lindpendance nest quun cas particulier dabsence de corrlation.

1.2

LES DIFFRENTS AJUSTEMENTS STATISTIQUES


Nous supposons que nous disposons dun tableau simple donnant les modalits (xi ; yi),
pour i variant de 1 n, dun couple de variables quantitatives, pour un chantillon alatoire, de taille n, prlev dans la population. Avant toute tude, la srie sera reprsente
par un diagramme de corrlation (ou de dispersion) afin dapprcier le type dajustement
adapt. Ce diagramme, appel nuage de points, est obtenu en plaant dans un repre les
n points de coordonnes (xi ; yi). La forme de ce nuage permettra de mettre au jour une
ventuelle corrlation entre les variables. Raliser un ajustement consiste rechercher la
meilleure relation possible entre les variables, donc rechercher la courbe la plus
proche de lensemble des points du nuage.

Les liaisons fonctionnelles (rigides)


Ce type de liaison, que lon rencontre par exemple dans de nombreuses lois physiques, a
t dfini au chapitre 5 et constitue un modle dterministe. Une liaison fonctionnelle
peut tre linaire ou non, conformment aux cas dcrits dans les exemples 6.1 et 6.2.
Exemple 6.1

Liaison fonctionnelle linaire

Le tableau suivant donne, pour un chantillon de 10 garons de 18 ans prlev dans la population dun lyce, les tailles respectives (exprimes en centimtres), xi et yi, 2 ans et 20 ans :
X

82

164,1

82,4

164,9

83

166,1

84

168,1

86

172,1

87

174,1

88,6

177,3

La rgression

147

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

90

180,1

92,5

185,1

93

186,1

Figure 6.1

Taille adulte

Exemple de relation
fonctionnelle linaire.

185

190

180
175
170
165
160
80

85

90

95
Taille 2 ans

Sur la figure 6.1, lalignement des points met en vidence une relation fonctionnelle
linaire entre les deux variables. On peut vrifier que, sur cet chantillon, y est une fonc1
tion affine de x : yi = 2xi + 0,1.
On notera que, si le modle linaire est fondamental, on ne peut ngliger les autres ajustements : ajustement logarithmique, exponentiel, polynomial, puissance. Le lecteur
pourra se familiariser avec ces diffrents modles grce lexemple 6.2 ci-aprs. Il pourra
utiliser, dans lassistant graphique dExcel, le sous-menu Ajouter une courbe de
tendance , ou se reporter au corrig de lexercice 1, figures 6.6 et 6.7.
Exemple 6.2

Liaison fonctionnelle non linaire

Lexemple qui suit est une illustration de ltonnante loi de Benford qui modlise la frquence dapparition du premier chiffre significatif de donnes statistiques (voir J.-P. Delahaye).
On considre un chantillon de 300 pays. On note X le premier chiffre du nombre
reprsentant la population de chaque pays (les modalits tant notes xi) et Y la variable
dont les modalits notes yi sont les frquences des xi :
X

0,3010

0,1760

0,1249

0,09691

0,0792

1. Une fonction affine est une fonction dfinie de R dans R par f(x) = ax + b, dont la reprsentation graphique
est une droite non verticale.

148

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

0,0669

0,0580

0,0511

0,0458

Figure 6.2
Exemple de relation
fonctionnelle non
linaire.

y
0,35
0,3
0,25
0,2
0,15
0,1
0,05
x
10

0
0

Les points de la figure 6.2 ne sont pas aligns, mais le nuage montre lexistence dune
liaison non linaire. Y et X sont lies par la relation logarithme dcimal : Y = log(1 + 1 / x).

Labsence de liaison
Dans le cas dun nuage de points diffus et rpartis au hasard, il est possible de conclure
labsence de liaison entre les variables X et Y, comme le montre lexemple 6.3.
Exemple 6.3

Absence de liaison

Soit un chantillon de 31 tudiants ayant obtenu les notes X et Y dans deux matires.
Le diagramme de dispersion correspondant est propos figure 6.3.
Figure 6.3
Absence de
corrlation.

18

16
14
12
10
8
6
4
2
0
0

10

11

12

x
13

Ce nuage de points sans liens apparents permet de conjecturer une absence de liaison
entre les variables. Il ny a pas corrlation entre X et Y.

La rgression

149

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les liaisons statistiques


Dans de nombreuses sciences, nous cherchons mettre en vidence une liaison entre
deux variables X et Y. Le plus souvent, la liaison cherche nest pas purement fonctionnelle et lon parle de liaison stochastique pour exprimer qu une valeur de X correspond
un ensemble de valeurs possibles de Y, distribues suivant une loi de probabilit. Dans ce
cas, les points ne sont plus aligns, mais le nuage de points a une forme allonge qui
voque une droite.
Cette droite constitue une liaison statistique entre les deux variables ; il nous reste
prciser en quoi cette droite est la plus proche du nuage et exposer la mthode
permettant de dterminer une quation de cette droite : la mthode des moindres carrs
ordinaires (MCO).

Lajustement linaire
En cherchant mettre en vidence une fonction f qui reprsente la liaison statistique
entre deux variables X et Y, on se trouve face au problme gnral de linterpolation. La
dtermination analytique de f aurait a priori comme seule contrainte de vrifier yi = f(xi),
avec Y la variable explique et en faisant abstraction des erreurs dues lchantillon.
Dans le cas o le nuage de points a une forme allonge, on prsume un ajustement
linaire. La fonction cherche est une fonction affine. Le but est de trouver la meilleure
droite qui rsume le nuage de points, ce qui nous amne rsoudre un problme
dinterpolation linaire. Pour cela, nous utilisons une proprit importante de la
moyenne arithmtique : la moyenne arithmtique dune srie est le nombre le plus
proche de cette srie au sens des moindres carrs.

2.1

DROITES DE RGRESSION PAR LA MTHODE MCO


La loi normale ou de Laplace-Gauss est encore appele loi des erreurs ou des carts, car
cest ainsi quelle a t introduite. Le principe de la mthode des moindres carrs ordinaires (MCO) consiste sintresser la srie statistique des erreurs ou rsidus (ei).
On notera que lon peut mettre des hypothses sur le choix de la variable explique,
mais que le statisticien doit galement mener les calculs dans le cas o X est la variable
explique. Il appartiendra au spcialiste concern conomiste, mdecin, etc. de dcider ventuellement dcarter un des cas sur la base dune analyse propre sa spcialit.

Dfinitions

On appelle droite de rgression de Y selon x, note DY / x, dtermine par la mthode des


moindres carrs, la droite dquation y = ax + b, pour laquelle la somme des carrs des
rsidus est minimale.
On note y i = axi + b la valeur de yi estime par la droite de rgression de Y selon x.
De mme, la droite de rgression de X selon y, note DX / y est la droite dquation
x = ay + b avec x i = a ' yi + b ' .

150

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Notons que, graphiquement, la somme des carrs des rsidus reprsente la somme des
carrs des carts entre les points du nuage et la droite, carts calculs paralllement
laxe des ordonnes dans le cas de la droite de rgression de Y selon x.
partir du modle linaire construit, il est possible deffectuer des prvisions. Dans le cas
dune liaison linaire avre, une fois dtermine la droite de rgression de Y selon x, on
peut lutiliser pour estimer la valeur de y associe une valeur de x appartenant
ltendue des valeurs de x retenues dans lchantillon. Dans ce cas, il ny a pas de raison
statistique de supposer que le modle linaire puisse se prolonger au-del de lintervalle
tudi. Si lon effectue des prvisions en dehors de lintervalle dfini par les valeurs
extrmes de x, on peut obtenir des valeurs aberrantes.
On pourra sortir de cet intervalle, notamment dans les sries chronologiques, condition davoir des informations sur la stabilit de la liaison linaire.

Dtermination des droites de rgression


Remarque pralable : nous cherchons dterminer les paramtres a et b traduisant une
ventuelle liaison linaire du type Y = aX + b (dans le cas de la droite de rgression de
Y selon x) entre les variables X et Y ; pour cela, nous devons dterminer les paramtres a
et b de la droite qui sloigne le moins du nuage de points constitu par un chantillon de taille n de la population. En consquence, nous allons dterminer des estimateurs


de a et b, cest--dire des fonctions des n observations de lchantillon, notes a et b ,
qui permettent dobtenir les meilleures estimations possibles des paramtres a et b.
Dans les calculs, nous garderons les notations a et b de la statistique descriptive.
Posons : y = ax + b , a dsignant le coefficient directeur de la droite DY / x et b lordonne
lorigine (on notera que certains auteurs prennent la notation : y = a + bx ).
Nous devons dterminer les estimateurs de a et b qui minimisent
n

i =1

i =1

S = ( yi y i )2 = ( yi axi b)2 = S(a ; b).

S est une fonction de deux variables et les mathmatiques nous enseignent que les conditions ncessaires du premier ordre pour avoir un extremum (minimum ou maximum)
sont :
S
a = 0
, cest--dire la nullit des drives partielles premires.

S = 0
b
n
n
S
S
= 2 xi ( yi axi b) et
= 2 ( yi axi b) ; on doit rsoudre le systme :
a
b
i =1
i =1

n
xi ( yi axi b) = 0
i =1
. En utilisant les relations
n
( y ax b) = 0
i
i

i =1

xi = nx et
i =1

y
i =1

= ny , on obtient :

La rgression

151

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

n
2
(xi yi axi bxi ) = 0
. La deuxime quation du systme scrit b = y ax , ce qui
i =1
ny anx nb = 0

permet de remplacer b par sa valeur dans la premire quation du systme, ce qui


n

donne :

x y
i =1

a xi 2 ( y ax ) xi = 0 soit
i =1

i =1

x y
i =1

a xi 2 nx ( y ax ) = 0 soit
i =1

nCov( X ; Y ) Cov( X ; Y )

a xi 2 nx 2 = xi yi nxy , qui donne : a =


=
. Nous admetnV ( X )
V (X)
i =1
i =1
trons que ces valeurs correspondent bien un minimum.
n

Les calculs sont similaires pour la droite de rgression de X selon y ; on retiendra donc les

rsultats suivants pour les estimateurs de a et b, nots a et b :
DY / x

 Cov(X ; Y )
 Cov(X ; Y )
a ' = V (Y )
a = V (X )
: y = ax + b , avec
et D X / y : x = a ' y + b ', avec
.

b ' = x a ' y
b = y ax

Ces deux droites se coupent au point moyen G. La droite de rgression de X selon y peut
tre mise sous forme affine : y = (1 / a)x (b / a), de faon faire apparatre son coefficient directeur : 1 / a.
Exemple 6.4

Calculs de droites de rgression

Le tableau suivant donne les indices du pouvoir dachat (base 100 en 1951) du salaire
minimum net, not X, et du salaire moyen, not Y, pour les salaris franais des secteurs
priv et semi-public.
Anne

1994

293

329

1995

296

336

1996

296

334,35

1997

302,15

337,33

1998

311,45

340,34

1999

313,93

345,76

2000

315,47

347,46

2001

321,99

349,17

2002

326,41

352,25

2003

330,57

350,87

Source : Insee, 2006

Pour calculer les coefficients des droites de rgression, il est ncessaire de calculer les
moyennes, les carts-types et la covariance de X et Y. La figure 6.4 propose les calculs
intermdiaires ncessaires, raliss sous Excel.

152

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 6.4
Calculs pralables
sous Excel.

De l, x =

V (x) =
V (y) =

1 10
3106, 97
1 10
3 422,53
xi =
= 310,7 , y = yi =
= 342,25 ,

10 i =1
11
10 i =1
10

1 10
966 944,70
2
xi x =
( 310,7 ) = 162,09 et

10 i =1
10

1 10
1171938, 41
2
yi y =
( 342,25 ) = 56, 66 .

10 i =1
10

Cov(x ; y) =

1 10
1064 294,54
xi yi x y =
310,7 342,25 = 92,57 .

10 i =1
10

On dispose donc de tous les lments pour calculer des estimations des paramtres a, b,
a et b :



a = Cov(x ; y) / V(x) = 92,57 / 162,09 = 0,5711 et b = y ax = 342,25 0,5711 310,7
= 164,80.



a ' = Cov(x ; y) / V(y) = 92,57 / 56,66 = 1,6340 et b ' = x a ' y = 310,7 1,6340 342,25
= 248,54.
DY / x : y = 0,5711x + 164,80
.
On obtient les droites de rgression :
D X / y : x = 1,6340 y 248,54

On peut vrifier que ces deux droites sont scantes au point moyen G.
Si nous validons provisoirement lexistence dun lien linaire entre X et Y, les valeurs de x
varient dans lintervalle [293 ; 330,57] et cet intervalle est en toute rigueur lintervalle de
validit du modle. Si nous relevons une valeur de lindice du pouvoir dachat du salaire

minimum x = 305, on peut faire une prvision pour y : y = 0,5711x + 164,80 soit

y = 0,5711 305 + 164,80 = 338,99 .
De mme, sachant que lindice du pouvoir dachat du salaire minimum en 2005 est
x = 341,90, il est possible dutiliser DY / x pour faire une prvision de lindice du
pouvoir dachat du salaire moyen en 2005, soit y = 0,5711 341,9 + 164,8 = 360,06 .
Cependant, la valeur x = 341,90 est hors de lintervalle de construction du modle dfini
par [293 ; 330,57]. Cest pourquoi nous navons pas dinformation sur la fiabilit de cette
prvision (en ralit, la vraie valeur est 351,56).

La rgression

153

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les droites de rgression peuvent galement tre construites dans le cas de donnes
contenues dans un tableau de contingence. La dtermination de a, b, a et b, coefficients
des droites de Y selon x et de X selon y, ncessite les calculs de moyennes, de variances et
de la covariance, qui peuvent tre effectus partir des valeurs du tableau de contingence
(voir exercice 3).
Deux annexes, proposes en fin de chapitre, sont consacres la ralisation dune droite
de rgression sous Excel (annexe 6.1), ou tout autre tableur quivalent, et avec une
calculatrice graphique, Texas Instrument (annexe 6.2), ou toute autre calculatrice approchante.

2.2

LE COEFFICIENT DE CORRLATION LINAIRE


Lintensit de la corrlation est dautant plus grande que les points du nuage sont plus
concentrs au voisinage de la courbe de rgression. On voit ainsi limportance de
sintresser la dispersion et la composition de la variance de Y dans ltude de la
corrlation.

Dcomposition de la variance
La droite de rgression DY / x donne pour estimation de y : y = ax + b .
En remplaant b par sa valeur b = y ax , y = ax + y ax soit y y = a ( x x ) .
Calculons la variance des deux membres : V ( y y ) = V ( a ( x x ) ) , soit, en utilisant les
proprits de la variance : V ( y ) = aV ( x x ) = aV ( x ) . Or, a =

Cov(x ; y)
, donc
V (x)

Cov(x ; y)2
Cov(x ; y )
V ( y ) =
.
V (x) =
V (x)
V (x)

Reprenons la somme des carrs des erreurs et calculons sa valeur minimale Sm, en
remplaant a et b par leurs valeurs :
n

i =1

i =1

i =1

i =1

i =1

Sm = ( yi y i )2 = ( yi y a ( xi x ))2 = ( yi y )2 + a2 (xi x )2 2a ( y i y )( xi x )

soit, en divisant par n et en remplaant a par sa valeur :


1 n
Cov(x ; y )2
Cov( x; y )2
Cov(x ; y )2
2

(
)
2
y

y
=
V
y
+

=
V
y

= V ( y ) V ( y )
(
)
(
)
i i
n i =1
V (x )
V (x )
V ( x)

soit V ( y ) = V ( y ) +

1 n
( yi y i )2 .

n i =1

La variance totale de Y, V(y), est la somme de deux termes :


V ( y ) , appele variance explique par la droite de rgression. Elle mesure la dispersion de y quand on rsume le nuage la droite de rgression DY / x et reprsente la
dispersion le long de la droite de rgression ;

154

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1 n
(yi y i )2 , qui est la moyenne des carrs des carts (compts paralllement laxe
n i =1
des ordonnes) entre les points du nuage et la droite DY / x. Elle reprsente la variance
rsiduelle, note Vr(y).
+ Vr (y) .
Ainsi, Variance totale = Variance explique + Variance rsiduelle, soit V(y) = V(y)

Si la variance rsiduelle est nulle, cela signifie que tous les points du nuage sont sur la droite
de rgression, et la variance est entirement explique par la droite de rgression.
On pourra utiliser les notations suivantes :
n

somme des carrs totaux :

SCT = ( yi y )2 , somme des carrs expliqus :


i =1


SCE = ( yi y )2
n

et

somme

des

carrs

rsiduels :

i =1

n

SCR = ( yi yi )2

avec :

i =1

SCT = SCE + SCR.


Exemple 6.5

Lquation de lanalyse de la variance

Reprenons les donnes de lexemple 6.4 et calculons les variances explique et rsiduelle
laide dExcel (voir figure 6.5).
Figure 6.5
Calcul des variances
explique et
rsiduelle.

On a : SCE = 528,74, SCR = 37,81 et SCT = SCE + SCR = 566,55. La variance rsiduelle
1 n
37,81
est Vr ( y ) = ( yi y i )2 =
= 3,78 et la variance explique par la droite de rgres10
n i =1
sion est V ( y ) =

1 n 
528,74
( yi y )2 =
= 52,87 , note aussi Ve. La variance totale de y est

10
n i =1

V(y) = 56,65.
De l, lquation de lanalyse de variance
56,65 = 52,87 + 3,78.

+ Vr (y)
V(y) = V(y)

est vrifie :

On constate avec cet exemple que la variance explique reprsente 52,87 / 56,65, soit
environ 93,32 % de la variance totale. Autrement dit : 93,32 % de la variation de Y est
explique par la variation de X. Ce rsultat est un bon indicateur de la qualit de la liaison
linaire ; nous y reviendrons la section suivante.

La rgression

155

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les coefficients de corrlation linaire et de dtermination


Cov(x ; y)2
. Nous avons vu dans
V (x)
lexemple 6.5 quil est intressant dapprcier la part de la variance explique dans la
variance totale. Nous allons donc transformer cette relation pour exprimer la variance
explique en fonction de la variance totale. En multipliant numrateur et dnominateur
Cov(x ; y )2
de la relation prcdente par V(y), il vient V ( y ) =
V ( y ) , soit
V (x)V (y)

La variance explique est donne par la relation V ( y ) =

V ( y )

Cov(x ; y )2
. Ce rapport reprsente la part de variance explique sur la variance
V (y) V (x)V (y )
2
totale. Il est appel coefficient de dtermination (not R ) et amne les dfinitions ciaprs.
Dfinition

On appelle coefficient de corrlation linaire, not r, entre les variables quantitatives X et Y,


Cov ( x ; y )
le nombre sans dimension, dfini par : r =
.
(x ) ( y )

r est symtrique par rapport X et Y et est de mme signe que la covariance : un coefficient positif (respectivement ngatif) indique que X et Y varient dans le mme sens
(respectivement en sens contraire).
La relation entre les variances explique et totale scrit : V ( y ) = r 2V ( y ) , et lquation de
+ Vr (y) scrit alors : V(y) = r 2V ( y ) + Vr(y) soit
lanalyse de variance V(y) = V(y)
Vr(y) = (1 r) V(y). Les variances tant positives, cette relation prouve que la quantit
1 r reste positive ou nulle, cest--dire que : 1 r 1.
Les coefficients directeurs des droites de rgression sont respectivement a (DY / x) et 1 / a
Cov ( x ; y )
(y)
1 1 (y)
=r
et
=
. On vrifie que a,
(DX / y) et nous pouvons crire : a =
V (x)
a ' r (x)
(x)
a et r sont de mme signe. Par ailleurs, les droites de rgression sont confondues si et
seulement si : a = 1 / a soit r = 1 soit r = 1 ou r = 1.
Dfinition

On appelle coefficient de dtermination, not R, le quotient entre la variance explique et la


variance totale. On a : R = SCE / SCT.

Proprit

Le coefficient de dtermination est le carr du coefficient de corrlation.

Quelques considrations importantes :


Cet indice est compris entre 0 et 1 et mesure la qualit de lajustement de la droite de
rgression aux points du nuage.
R mesure la part de la variance explique par les droites de rgression, V ( y ) , rapporte la variance totale, V(y) ; ce coefficient de dtermination sexprime souvent en
pourcentage.

156

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Plus R est grand (proche de 1), plus la variance rsiduelle (inexplique par la droite
de rgression) est petite ; cela explique quil est souhaitable davoir un coefficient de
dtermination proche de 1 si lon dsire utiliser la rgression pour faire des prvisions.
On vrifie par un calcul immdiat : R 2 =

Cov 2 (x ; y ) V ( y ) V (x )
=
=
, ou encore
V (x )V ( y ) V ( y ) V ( x )

R = r = a a. Cette dernire expression permet de retrouver r, en tant vigilant sur


son signe : r est du signe commun aux deux nombres a et a et on aura donc :
r = a a ' si a et a sont positifs et r = a a ' si a et a sont ngatifs.

En valeur absolue, le coefficient de corrlation est suprieur ou gal au coefficient de


dtermination. En effet, 1 r 1, et 0 r 1 ; or, la racine carre dun nombre
compris entre 0 et 1 est suprieure ou gale ce nombre. On en dduit que r R 2 .
Exemple 6.6

Calculs des coefficients de corrlation linaire et de dtermination

Prolongeons lexemple 6.5 en conclusion duquel nous avions montr que la variance
explique reprsente 52,87 / 56,65 soit environ 93,32 % de la variance totale, autrement
dit que 93,32 % de la variation de Y est explique par la variation de X. Ce rsultat est
V ( y ) 52,87
retrouv en calculant R 2 =
=
= 93,32 % .
V ( y ) 56,65
Ou encore, partir des rsultats de lexemple 6.4 :
R2 =

Cov 2 (x ; y )
92,57
=
= 93,32 % , ou R = a a = 0,5711 1,6340 = 0,9332.
V (x) V ( y) 162,09 56,65

Puisque la corrlation est positive, a et a sont positifs et r =

a a ' = 0,9332 = 0,9660 .

Interprtation du coefficient de corrlation


Le coefficient de corrlation est toujours compris entre 1 et 1 et a priori :
si r est proche de 1 (droites de rgression trs voisines), la corrlation linaire entre X
et Y est positive et forte ;
si r est proche de 1 (droites de rgression trs voisines), la corrlation linaire entre X
et Y est ngative et forte ;
si r est voisin de 0 (droites de rgression proches de lorthogonalit), la corrlation
linaire entre X et Y est faible.
Quelques mises en garde dans linterprtation du coefficient de corrlation linaire
doivent tre effectues :
La corrlation nest pas une relation de causalit. On a pu mettre en vidence une
forte corrlation entre la vente de glaces et la vente de crmes bronzer, entre
laugmentation des salaires des enseignants et la consommation dalcool. Il appartient
au spcialiste du domaine dtude de sinterroger sur un ventuel lien de causalit,
partir de connaissances extrieures au domaine statistique.

La rgression

157

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Labsence de corrlation linaire ne signifie pas labsence de lien. Il peut exister une
liaison fonctionnelle autre que linaire (parabolique, exponentielle).
Le nombre dobservations utilises pour dterminer le coefficient de corrlation est
trs important. Le coefficient de corrlation est gnralement calcul partir dun
chantillon de taille n extrait de la population totale et ne donne quune estimation
ponctuelle du coefficient de corrlation inconnu, not , de la population totale.

2.3

TESTS SUR LES LMENTS DE LA RGRESSION


Corrlation significativement diffrente de zro
Le problme a t voqu la fin de la section prcdente : le coefficient de corrlation
calcul sur un chantillon nest jamais nul. Nous ne pouvons pourtant pas conclure
lexistence dun lien linaire dans tous les cas.
Nous allons donc vrifier lhypothse dun lien linaire entre les variables laide dun
test statistique aprs avoir formul le cadre thorique : supposons que les variables x et y
suivent une loi normale. En cas dabsence de corrlation linaire entre ces variables, la
r n 2
variable T =
est distribue suivant la loi de Student (voir focus 6.1), Tn 2,
1 r2
n 2 degrs de libert, n dsignant le nombre dobservations ; le nombre de degrs de
libert, not , est (n 2), car on a d estimer les paramtres a et b de la droite de
rgression, leur calcul utilisant deux degrs de libert.

Focus 6.1

La loi de Student
La loi de Student est due William Sealy Gosset (1876-1937), statisticien, employ de la
clbre brasserie Guinness. Student tait son pseudonyme. Si Z et X dsignent deux
variables alatoires indpendantes suivant respectivement la loi normale centre rduite
Z
, appele le t
et la loi du khi-deux n degrs de libert, la variable alatoire Tn =
X /n
de Student, suit la loi de Student n degrs de libert. La courbe reprsentative de sa
densit est symtrique par rapport laxe des y et en forme de cloche comme celle de la
loi normale. Cette loi est tabule en fonction du nombre de degrs de libert, not en
gnral , et de la probabilit ; on note t ; la valeur de t ayant la probabilit dtre
dpasse. On notera que, dans le cas dun test bilatral, pour un seuil de signification de
5 %, on devra prendre / 2 = 2,5 %, de faon avoir : P(t / 2 ; n 2 Tn t / 2 ; n 2) = 0,95.
La loi de Student est trs utile pour caractriser la loi de la moyenne empirique dune
distribution normale de variance inconnue. Quand le nombre de degrs de libert
augmente, T se rapproche de la loi normale centre rduite.
Posons t / 2 ; n 2 la valeur de T donne par la table de Student telle que
P(t / 2 ; n 2 T t / 2 ; n 2) = 1 et le coefficient de corrlation linaire de la
population totale.

158

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Tester lexistence ventuelle dune corrlation linaire entre X et Y au sein de la population ncessite de passer par les tapes suivantes :
1. Formuler les hypothses tester :
H0 : = 0 (absence de corrlation linaire) ;
H1 : 0 (prsence de corrlation linaire).

2. Dterminer le degr de libert : n 2.


3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de
signification et du degr de libert :
Si T t / 2 ; n 2 ou si T t / 2 ; n 2, lhypothse H0 est rejete et lhypothse H1 est

accepte : il y a une corrlation linaire significative entre les variables.


Si t / 2 ; n 2 T t / 2 ; n 2, lhypothse H0 nest pas rejete : il est impossible de

conclure de faon significative lexistence dune corrlation linaire entre les


variables.
Exemple 6.7

Test du coefficient de corrlation linaire

Reprenons les donnes de lexemple 6.4.


n = 10 et la droite de rgression ncessite destimer deux paramtres. Donc le degr de
libert est 10 2 = 8.
Par ailleurs, partir de ces mmes donnes, nous avons calcul r = 0,9660 (voir
exemple 6.6). Nous noterons tc la valeur de t calcule sur lchantillon. On a
r n2
0,9660 8
tc =
=
= 10,57 et la table de Student donne t0,025 ; 8 = 2,3060.
2
1r
1 0,96602
Puisque 10,57 2,3060, soit tc t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une
corrlation linaire significative entre x et y.

Test de Student sur la pente a de la droite de rgression


Quittons lapproche descriptive pour adopter le point de vue de la statistique infrentielle : le problme est similaire celui voqu pour le coefficient de corrlation linaire.
Nous supposons que nous avons dtermin lquation de la droite de rgression de
 
Y selon x et nous noterons cette quation : y = ax + b , pour ne pas oublier que les coefficients de cette droite sont des coefficients empiriques calculs sur notre chantillon et
quils constituent des estimations ponctuelles des coefficients a et b inconnus dans la
population.
On se place dans lhypothse o la distribution des y est normale et o la variance de Y


est constante pour toute valeur de X. On dmontre que lcart-type de a , not ( a ) , est

La rgression

159

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19


estim par : 2 ( a ) =

SCR
n

(n 2 ) ( xi x )

n

o SCR = ( yi yi )2 ; le nombre not
i =1

i =1

1 n

( yi yi )2 reprsente un estimateur de la variance rsiduelle.

n 2 i =1

Lintervalle de confiance de a est donn par : a t ( a ) .
S 2Y / x =

; n 2

Tester lhypothse H0 : a = 0 revient tester le paralllisme de la droite de rgression de


Y selon x avec laxe des x et donc tester la nullit du coefficient de corrlation.
1. Les hypothses tester :
H0 : a = 0 (absence de corrlation linaire) ;
H1 : a 0 (prsence de corrlation linaire).

2. Dterminer le degr de libert : n 2.


3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de
signification et du degr de libert.
Si t t / 2 ; n 2 ou si t t / 2 ; n 2, lhypothse H0 est rejete en faveur de lhypothse

alternative H1 : a 0.

Si t / 2 ; n 2 t t / 2 ; n 2, lhypothse H0 nest pas rejete.


Exemple 6.8

Test de student sur le paramtre a (pente de DY / x)

Si lon reprend lexemple 6.5, on a : S 2Y / x =


SY / x =

1 n
37,81

( yi yi )2 =
= 4,7263 et

n 2 i =1
8

37,81

= 2,174 , ce qui donne : 2 ( a ) =
8

S 2Y / x
n

(x
i =1

x)

4,7263
et
1620,9


4,7263
a
0,5711

(a ) =
= 0,0029 . On calcule alors t c =
= 196,93 et
 =
( a ) 0,0029
1620,9

t0,025 ; 8 = 2,3060, ce qui donne pour intervalle de confiance pour a, au seuil de signification
de 5 % : 0,5711 2,3060 0,0029, soit [0,5644 ; 0,5778].
tc > t0,025 ; 8, donc on doit rejeter lhypothse H0 et conclure lexistence dune relation
linaire entre X et Y. Si on utilise lintervalle de confiance, on aura la mme conclusion,
car il ne recouvre pas la valeur 0, ce qui signifie quau niveau de confiance 95 % a est
diffrent de 0.

160

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Test de Student sur lordonne lorigine b de la droite de rgression


On peut effectuer la mme dmarche pour le coefficient b et dterminer un intervalle de
confiance pour ce paramtre, et tester lhypothse dune droite de rgression passant par
lorigine (b = 0).
n

Avec les mmes notations que prcdemment, on obtient : 2


b =

()

i =1

n ( xi x )

SY / x 2 .

i =1

Test de Fisher sur la pente a de la droite de rgression


La seconde approche pour tester une rgression linaire passe par ltude de la part de la
1
variance explique dans la variance totale . On dmontre que la variable alatoire
SCE
1 suit la loi de Fisher avec 1 et (n 2) degrs de libert, note F(1 ; n 2).
F=
SCR
n2
Le nombre de degrs de libert de la variance explique est de 1 et celui de la variance
rsiduelle de (n 2), celui de la variance totale de (n 1).
Les hypothses tester sont :
H0 : SCE = SCR / (n 2);
H1 : SCE > SCR / (n 2).
On rejette H0 au seuil de signification si Fc > F( ; 1, n 2), Fc tant le F calcul et F( ; 1, n 2)
le F thorique (lu dans la table ; voir focus 6.2).
On notera que
F=

Focus 6.2

(n 2)SCE
SCE
SCE / SCT
r2
= (n 2)
= (n 2)
= (n 2)
= tc2 .
1 SCE / SCT
1 r2
SCR
SCT SCE

La loi de Fisher
La comparaison de deux populations normales peut porter sur leurs
variances. Pour tester lhypothse dgalit de deux variances, on
utilise la distribution du quotient de deux variances, appele
distribution de Fisher ou de Fisher-Snedecor.
Si 1 et 2 sont deux variables alatoires indpendantes, suivant
chacune la loi du Khi-deux avec respectivement 1 et 2 pour degrs
2
2
de libert, la variable alatoire F = (1 / 1) / (2 / 2) suit la loi de
Fisher 1 et 2 degrs de libert. Cette loi est dissymtrique et tend
vers la loi normale mesure que les degrs de libert augmentent.
Cette loi est tabule, ses valeurs dpendant du seuil de signification
et des degrs de libert, et on a : P(F > F( ; 1, 2)) = .
2

1. Voir P. Roger.

La rgression

161

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 6.9

Test de Fisher

Reprenons lexemple 6.5 et calculons Fc, le F calcul : Fc =

SCE
SCR

528,74
= 111,87 ;
37,81/8

n 2
par ailleurs, le F de la table est : F(0,05 ; 1, 8) = 5,32. Fc > F(0,05 ; 1, 8), donc H0 est rejete et on
conclut lexistence dune relation linaire (tester H0 revient tester a = 0).

Ajustements et absence de linarit

3.1

AJUSTEMENT LINAIRE PAR CHANGEMENT DE VARIABLE


Dans certains cas o, clairement, les points ne sont pas aligns, le graphique reprsentant
le nuage de points permet de rejeter directement lhypothse dune corrlation linaire. Il
est alors possible de revenir la thorie de la corrlation linaire en utilisant un changement de variable, afin de dterminer la relation fonctionnelle qui lie les deux variables.
Par exemple :
Soit la relation non linaire y = a lnx + b. En posant X = ln(x), cette relation non
linaire est quivalente la relation linaire y = a X + b.
Soit la relation non linaire y = a expx + b. En posant X = expx, cette relation non
linaire est quivalente la relation linaire y = a X + b.
Soit la relation non linaire y = b a . En prenant le logarithme de cette expression,
x
lny = ln(b a ) = lnb + x lna, soit avec B = lnb ; A = lna ; Y = lny, cette relation non
linaire est quivalente la relation linaire Y = Ax + B.
x

Soit la relation non linaire y = b x . En prenant le logarithme de cette expression,


a
lny = ln(b x ) = lnb + a lnx, soit avec B = lnb ; Y = lny ; X = lnx, cette relation non
linaire est quivalente la relation linaire Y = a X + B.
a

Modle logistique : ce modle est dfini par y = k/(1 + a exp(b x)) et peut tre
ramen un modle linaire. Ce modle a t introduit par Pierre Franois Verhulst
(1804-1849), lve de Quetelet, lors de ltude de lvolution dune population qui
crot exponentiellement au dbut puis se stabilise, freine par un phnomne de
surpopulation (saturation), pour tendre vers sa capacit maximale. Ce modle est
utilis notamment pour le traitement des sries chronologiques (voir chapitre 7).

162

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3.2

COEFFICIENT DE CORRLATION DES RANGS


Certaines grandeurs ne sont pas mesurables, ou nont pu tre mesures, mais peuvent
tre classes. Il sagit de variables ordinales. Dans ce cas, le calcul du coefficient de corrlation linaire, rserv aux variables quantitatives, est alors inapplicable. Pour autant, il
peut tre intressant de calculer la corrlation entre deux variables ordinales. Il convient
alors de trouver un coefficient de corrlation, non pas entre les valeurs prises par les deux
variables, mais entre les rangs de ces valeurs.
On doit Charles Spearman, psychologue anglais (1863-1945), le coefficient de corrlation des rangs, qui permet de comparer la concordance du classement de deux variables
et de mesurer leur degr de dpendance.

Dfinition

Soit deux caractres X et Y. Soit di la diffrence des rangs de lobservation i pour les deux
variables. On appelle coefficient de corrlation des rangs (coefficient de Spearman), not rs,
n

entre les variables X et Y, le nombre dfini par : rs = 1

6 d i 2
i =1

n(n 1)

Soit R(xi) le rang de la modalit xi et R(yi) le rang de la modalit yi. di = R(xi) R(yi). Le
coefficient de Spearman est le coefficient de corrlation linaire de la srie bivarie
(R(xi) ; R(yi)). La simplicit de la formule donne dans la dfinition vient du fait que
R(xi) et R(yi) prennent les valeurs entires de 1 n. Par dfinition, ce coefficient est
compris entre 1 et 1 et constitue un outil prcieux pour dtecter une liaison. Il a
lavantage de ne pas tre influenc par des valeurs aberrantes et de ne pas tre tributaire
de lallure de la liaison ventuelle (linaire, exponentielle, etc.).

Rsum
Lors de ltude du lien entre deux variables, la notion de corrlation est extrmement
importante. Il importe de dominer la technique de la mthode MCO, de connatre les
formules, de savoir utiliser efficacement une calculatrice statistique et de rester prudent
dans les interprtations.
Le lecteur doit, lissue de ce chapitre, pouvoir mener bien les calculs de lanalyse de la
variance.
Par ailleurs, il doit matriser les diffrents tests et la lecture des tables.
Dans le chapitre suivant nous aborderons les sries chronologiques, qui sont des sries
bivaries dont une des variables est le temps. Pour analyser la tendance de ces sries,
nous utiliserons les rsultats incontournables de ce chapitre.

La rgression

163

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Lanalyse de rgression fournit une seconde approche des sries bivaries, qui autorise
lapprofondissement des liaisons tudies au sein des tableaux de contingence.
Les exercices 1 et 2 proposent lapplication des calculs indispensables la dtermination dune quation de rgression linaire incluant ltude de la qualit de la
rgression et la ralisation de prvisions.
Lexercice 3 met en uvre ces mmes calculs partir de donnes prsentes sous la
forme dun tableau de contingence.
Les exercices 4 et 5 abordent respectivement les analyses de rgression et de corrlation dans le cas de sries lies par une relation non linaire.

EXERCICE 1 RGRESSION LINAIRE ET INDICATEURS DE QUALIT


Les donnes rgionales de laccidentologie 2005, transmises par la Scurit routire, sont
les suivantes (hors rgions PACA et le-de-France) :

164

Rgion

Nombre daccidents corporels Nombre de tus

Alsace

2 085

114

Aquitaine

4 523

333

Auvergne

1 817

141

Basse-Normandie

1 518

144

Bourgogne

2 065

208

Bretagne

2949

252

Centre

2 859

307

Champagne-Ardenne 1 512

168

Corse

845

35

Franche-Comt

1 224

147

Haute-Normandie

1 754

154

Languedoc-Roussillon 3 305

319

Limousin

1 124

82

Lorraine

2 672

213

Midi-Pyrnes

3 610

330

Nord-Pas-de-Calais

3 817

255

Pays de la Loire

3 778

314

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Rgion

Nombre daccidents corporels Nombre de tus

Picardie

1 919

194

Poitou-Charentes 1 984

221

Rhne-Alpes

469

6 957

Source : ONISR, 2006

On note respectivement X et Y les variables nombre daccidents corporels et


nombre de tus .
1. Dessinez le nuage de points reprsentant cette srie.
2. tablissez lquation de la droite de rgression de Y selon x, qui permet dexpliquer le
nombre de tus par le nombre daccidents corporels.
3. Donnez lquation de lanalyse de la variance.
4. Calculez :
a. le coefficient de corrlation linaire ;
b. le coefficient de dtermination.
5. Calculez :
a. lcart-type du coefficient a ;
b. lcart-type du coefficient b.
6. Effectuez les tests :
a. de signification du coefficient de corrlation linaire ;
b. de Student sur les coefficients a et b ;
c. de Fisher.

1. Pour reprsenter le nuage de points sous Excel, cliquez sur Insertion/Graphique dans la
barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de
points, puis, dans Sous-type de graphique, slectionnez limage Nuage de points.
Compare des paires de valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir chapitre 1, exercice 5).

La droite de rgression de Y selon X peut tre ajoute au nuage de points. Pour cela, une
fois le nuage de points effectu, slectionnez tous les points du graphique en cliquant sur
lun dentre eux, puis cliquez sur le bouton droit de la souris et slectionnez Ajouter une
courbe de tendance . La bote de dialogue de la figure 6.6 apparat :

La rgression

165

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 6.6
Ajout dune courbe
de tendance un
nuage de points.

Slectionnez Linaire, puis cliquez sur longlet Option (voir figure 6.7).
Figure 6.7
Affichage de
lquation de
rgression et du R
sur un nuage de
points.

Cochez les cases Afficher lquation sur le graphique et Afficher le coefficient de dtermination (R) sur le graphique, puis cliquez sur OK (voir figure 6.8).
Figure 6.8
Nuage de points
entre X et Y, avec
courbe de tendance
sous Excel.

y
600
y = 0,066x + 45,57
R = 0,856

500
400
300
200
100
0
0

166

Statistique descriptive

1 000

2 000

3 000

4 000

5 000

6 000

7 000

x
8 000

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Lquation de la droite de rgression de Y selon x est indique, ainsi que la valeur du R.


Nous allons retrouver ces rsultats en rpondant aux questions suivantes.
2. La droite de rgression qui permet dexpliquer le nombre de tus par le nombre
daccidents corporels correspond la droite de rgression de Y selon x. Pour tablir
lquation de cette droite de rgression, il convient de dterminer les valeurs de a et b
dans lquation y = ax + b.
n

Pour cela, il est ncessaire de calculer les valeurs de x , y , V(x) et

x y
i =1

Les moyennes de X et de Y ainsi que la variance de X peuvent tre calcules en utilisant


les fonctions dExcel correspondantes, puisque les donnes sont des donnes brutes, avec
ni = 1 quel que soit i. Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P
dExcel (voir annexe 1.1), ou bien deffectuer les calculs comme expos prcdemment
(voir chapitres 2 et 3). Les rsultats de ces calculs sont indiqus figure 6.9.
Figure 6.9
Rsultats sous Excel.

20


De l, a =

x y
i =1

ny . x

nV (x)

14 142 763 20 2 615,85 220


= 0,0667 et
20 1974 311,73



b = y ax = 220 0,0667 2 615,85 = 45,57 .

Lquation de la droite de rgression de Y selon x est donc : y = 0,0667 x + 45,57. Ce


rsultat est conforme lquation de la courbe de tendance linaire propose par
lassistant graphique dExcel (voir question 1).
3. Afin de donner lquation de lanalyse de la variance, il convient de calculer la somme
des carrs totaux (SCT), la somme des carrs expliqus (SCE) et la somme des carrs
rsiduels (SCR).

Le calcul de la somme des carrs expliqus (SCE) ncessite au pralable le calcul de la



valeur de Y estime par la droite de rgression, telle que yi = 0,0667 xi + 45,57 . Ces

La rgression

167

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

calculs sont effectus la suite du tableau prcdent (voir figure 6.9) et les rsultats de ces
calculs sont indiqus figure 6.10.
Figure 6.10
Rsultats sous Excel.

De l, SCT = 205 106 ; SCE = 175 575 et SCR = 29 531. Lquation de lanalyse de
variance SCT = SCE + SCR est vrifie, puisque 205 106 = 175 575 + 29 531.
4. a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance
entre X et Y et les carts-types de X et de Y.
COV (x ; y) =

14 142 763
2 615,85 220 , soit Cov(x ; y) = 131 651,15.
20

Lcart-type de X est la racine de


1 974 311,73 = 1 405,1 . Do x = 1 405,1.

V(x),

calcule

prcdemment,

soit

De mme, lcart-type de Y est la racine de V(Y). V(Y) est calcul en utilisant la fonction
VAR.P dExcel (voir annexe 1.1) ou la mthode expose prcdemment (voir chapitres 2
et 3). On trouve : V(Y) = 10 255,30, soit 10 255,30 = 101, 27 . Do y = 101,27.
On obtient alors : r =

Cov(x ; y)

131 651,15
, soit r = 0,925. Il existe a priori une
1 405,1 101,27

x y
forte corrlation linaire positive entre X et Y, la droite de rgression calcule est une
bonne reprsentation du nuage de points.

b. Le coefficient de dtermination est le carr du coefficient de corrlation linaire, donc


R = 0,925, soit R = 0,856.

R reprsente la part de variabilit explique sur la variabilit totale, on vrifie que :


SCE 175 575
=
= 0,856 = R .
SCT 205106

168

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19


5. a. Le calcul de lcart-type de a , , ncessite le calcul de

(x
i =1

x) . Ces calculs sont

effectus la suite du tableau prcdent (voir figure 6.10).


De l, 2 =

1
29 530,63

, soit = 0,0000415 ; do = 0,00645.


18 39 486 235,55

39 486 235,55

b. partir des calculs prcdents, b2 = 0,0000415


+ 2 615,85 , soit
20

b2 = 366,33 ; do b2 = 19,14.

6. a. la suite des calculs prcdents, T =

r n 2

0,925 20 2

= 7,593 et la table de
1 r
1 0,8562
Student donne t0,025 ; 18 = 2,445. Puisque 7,593 2,445, soit T t / 2 ; n 2, il faut rejeter
lhypothse H0. Il y a donc une corrlation linaire significative entre le nombre
daccidents corporels et le nombre de tus.
2

Le tthorique peut sobtenir laide dExcel en appelant la fonction statistique


LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et
Degrs_libert = 18. Cette fonction est similaire dans son utilisation celle rencontre
pour la lecture de la table de la loi du khi-deux dans lexercice 5 du chapitre 5.
La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.STUDENT et en saisissant les arguments suivants : X = 7,593 (le Student
calcul), Degrs_libert = 18 et Uni/bilatral = 1.

a
0,0667
b. la suite des calculs prcdents, t a =
=
, soit ta = 10,345 et
0,00645

b 45,57
=
, soit tb = 2,381.
tb =
b 19,14
ta et tb sont tous deux suprieurs au tthorique = t(0,025 ; 8) = 2,101 obtenu par lecture de la table
de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 18 degrs de libert. De
plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et
celle associe tb (p = 0,029) sont toutes deux infrieures 5 %. (Pour un rappel sur les
tests dhypothses, voir focus 5.1.)
Le test de Student pour le coefficient a de la rgression permet de conclure que la valeur de a
est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la
rgression permet de conclure que la valeur de b est significativement diffrente de 0.
La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.STUDENT et en saisissant les arguments suivants : X = 10,345 pour a et
X = 2,381 pour b (le Student calcul), Degrs_libert = 18 et Uni/bilatral = 2.
175 575,37
1
1 , soit F = 107,02 .
=
c. la suite des calculs prcdents, Fc =
c
29 230,63
SCR
18
18
SCE

La rgression

169

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Fc est suprieur au F(0,05 ; 1, 18) = 4,414 obtenu par lecture de la table de Fisher, avec une
probabilit de 0,05 ( = 5 %), ddl1 = 1 et ddl2 = n 2 = 18 degrs de libert. On trouve
donc Fc > F(0,05 ; 1, 18). On rejette donc H0 au seuil de signification 5 % et lon conclut
lexistence dune relation linaire entre X et Y.
Le F(1 ; 18)thorique est disponible sous Excel en appelant la fonction statistique
INVERSE.LOI.F et en saisissant les arguments suivants : Probabilit = 0,05,
Degrs_libert1 = 1 et Degrs_libert2 = 18.
La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.F et en saisissant les arguments suivants : X = 107,02 (le Fisher calcul),
Degrs_libert1 = 1 et Degrs_libert2 = 18.

EXERCICE 2 RGRESSION LINAIRE ET PRVISIONS


Au cours des annes 2000, le produit intrieur brut (PIB) et la consommation effective
des mnages ont t les suivants (en milliards deuros) :
Anne

Consommation

PIB

2000

1 009,6

1 441,4

2001

1 053,9

1 497,2

2002

1 098,2

1 548,6

2003

1 145,5

1 594,8

2004

1 194,9

1 660,2

2005

1 243,6

1 717,9

2006

1 292,5

1 792,0

Source : Comptes nationaux - Base 2000, Insee

1. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la


droite de rgression y = ax + b qui permet dexpliquer le PIB en fonction de la
consommation.
2. Calculez les indicateurs de qualit de la rgression :
a. le coefficient de dtermination et le test associ ;
b. les tests de Student ;
c. le test de Fisher.
3. En stimulant la consommation pour lui permettre datteindre 1 400 milliards
deuros, quel niveau de PIB peut sattendre le gouvernement ?
4. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la
droite de rgression x = ay + b qui permet dexpliquer la consommation en fonction
du PIB.
5. Estimez la consommation correspondant un PIB de 1 600 milliards deuros.

170

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1. Expliquer le PIB en fonction de la consommation des mnages selon la droite de


rgression y = ax + b ncessite de poser X = consommation et Y = PIB .

Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les


valeurs de a et b dans lquation. Pour cela, il est ncessaire de calculer les valeurs de x ,
n

y , V(x) et

x y
i =1

Saisissez les valeurs de X, la consommation, dans la colonne L1 et celles de Y, le PIB, dans


la colonne L2, comme indiqu figure 6.11.
Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis
choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur
ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de
statistiques sur les variables X et Y, respectivement contenues dans L1 et L2, sinscrivent
(voir figure 6.12).
Figure 6.11 (gauche)
Saisie du tableau de
donnes avec la calculatrice.

Figure 6.12 (droite)


Statistiques sur L2(Y).


De l, a =

x y
i

i =1

ny . x

nV (x)

12 996 965,9 7 1148,31 1607,44


= 1, 212 et
7 94,653



b = y ax = 1 607, 44 1,212 1148,31 = 215,52 .

Do lquation de rgression de Y selon x : y = 1,212 X + 215,52.


2. a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance
entre X et Y en plus des carts-types de x et de y, dj connus.
COV (x ; y) =

12 996 965,5
1148,31 1607, 44 , soit COV(x ; y) = 10 859,81.
7

10 859,81
, soit r = 0,999, soit R = 0,997. Il existe une forte corrlation
94,653 114,886
linaire positive entre X et Y.

De l, r =

t=

r n2

0,999 7 2

= 30,633 et la table de Student donne t0,025 ; 5 = 3,163. Puisque


1 r
1 0,9972
30,633 3,163, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation
linaire hautement significative entre X et Y.
2

La rgression

171

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

b. Afin de raliser les tests de Student, les variables suivantes sont calcules (voir
figure 6.13) :

En L4 sont calculs les y estims, nots y i . Pour cela, placez le curseur sur len-tte de
colonne L4, indiquez L4=1,212*L1+215,52, puis appuyez sur ENTER.

En L5 sont calculs les ( y yi ) . Pour cela, placez le curseur sur len-tte de
colonne L5, indiquez L5=(L4L2)^2, puis appuyez sur ENTER.
En L6 sont calculs les (xi x) . Pour cela, placez le curseur sur len-tte de
colonne L6, indiquez L6=(L11148,31)^2, puis appuyez sur ENTER.
Pour obtenir les calculs intermdiaires ncessaires partir des variables nouvellement
cres, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la
fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L5,L6 puis appuyez
nouveau sur ENTER. Les statistiques sur les variables ( y yi ) et (xi x) , respectivement contenues dans L5 et L6, sinscrivent (voir figure 6.14).
Figure 6.13 (gauche)
Calculs dans L4, L5 et L6
avec la calculatrice.

Figure 6.14 (droite)


Statistiques sur L6,

(xi x) .
1 246,006
De l, 2 =
, soit = 0,0007839 ; do = 0,028.
5 62 714,189
62 714,189

+ 1148,31 , soit b2 = 1040,71 ; do b = 32,26.


7



a 1,212
b 215,52
ta =
=
, soit ta = 43,293 et t b =
=
, soit tb = 6,681.
a 0,028
b 32,26

b2 = 0,0007839

ta et tb sont tous deux suprieurs au tthorique = 2,571 obtenu par lecture de la table de
Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 5 degrs de libert. De plus,
toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle
associe tb (p = 0,001) sont toutes deux infrieures 5 %. (Pour un rappel sur les tests
dhypothses, voir focus 5.1.)
Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la
valeur de a est significativement diffrente de 0. De mme, le test de Student pour le
coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0.

172

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

c. Afin de raliser le test de Fisher, les ( y i y) sont calcules en L7 (voir figure 6.15).
Pour cela, placez le curseur sur len-tte de la septime colonne, et, aprs lavoir
nomme L7, indiquez L7=(L41607,44)^2, puis appuyez sur ENTER.

Pour obtenir la somme des ( y i y) , appuyez sur la touche STAT, puis choisissez le
menu CALC et slectionnez la fonction 1:1-Var Stats. Puis appuyez sur ENTER. Tapez 1Var Stats LL7 (ne pas taper L7, mais lappeler dans la liste de noms des variables : 2ND
LIST, menu NAMES, slectionner 7:L7) puis appuyez nouveau sur ENTER. Les
statistiques sur la variable ( y i y) , contenues dans L7, sinscrivent (voir figure 6.16).
Figure 6.15 (gauche)
Calculs dans L7 avec la
calculatrice.

Figure 6.16 (droite)


Statistiques sur L7,

( yi* y) .

Fc =

92123,82
1 =
1 , soit F = 1 874,307.
c
246,006
SCR
5
5
SCE

Fc est suprieur au F(0,05 ;1, 5) = 6,608 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 5 degrs de libert. On rejette donc
H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X
et Y.
3. En appliquant lquation y = 1,212 x + 215,52 pour une consommation x = 1 400,
y = 1,212 1 400 + 215,52, soit y = 1 912,32. Pour une consommation de 1 400 milliards
deuros, le gouvernement peut sattendre un PIB de 1 912,32 milliards deuros.

4. La droite de rgression qui permet dexpliquer la consommation en fonction du PIB


est telle que x = ay + b.

partir de lensemble des calculs dj effectus :


7

x y

ny . x

12 996 965,9 7 1148,31 1607,44


= 0,823 et
nV ( y )
7 114, 89
b ' = y a ' x = 1148,31 0,823 1 607, 44 = 174,27 .
a' =

i =1

Do lquation de rgression de X selon y : x = 0,823 y 174,27.


5. En appliquant lquation x = 0,823 y 174,27 pour un PIB y = 1 600,
x = 0,823 1 600 174,27, soit x = 1 142,5. Pour un PIB de 1 600 milliards deuros, la
consommation correspondante est de 1 142,5 milliards deuros.

La rgression

173

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 3 RGRESSION SUR TABLEAU DE CONTINGENCE


Soit X lesprance de vie des hommes et Y lesprance de vie des femmes, releves en
2004 dans 21 pays :
X\Y

[75 ; 80[

[85 ; 85[

[65 ; 70[

[70 ; 75[

[75 ; 80[

12

Sources : Eurostat et instituts nationaux de statistique, 2004

En utilisant la mthode des moindres carrs ordinaires, tablissez la droite de rgression


y = ax + b.

Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les


valeurs de a et b dans cette quation. Pour cela, il est ncessaire de calculer les valeurs de
x , y , V(x) et Cov(x ; y).
Ces valeurs sont calcules selon les tapes dtailles au chapitre 5 (voir figure 6.17).
Figure 6.17
Rsultats sous Excel.

De l, x =
y=

1
n++

V (x) =

1
n++

n
i =1

1
n++

Cov(x ; y) =

+j

1 572,5
= 74,88 et, de mme,
21

xi =

yj =

1702,5
= 81,07 .
21

i =1

i+

ni + xi 2 x 2 =
i =1

1
n++

118 081,25 1572,5

= 15,76 et
21
21

n x y
j =1 i =1

ij

G 127 606,25
xy =
(81,07 74,88) = 5,78 .
21

 Cov(X ; Y )
a = V ( X )
, il vient :
partir des formules

b = y ax

Do DY / x : y = 0,3669 x + 53,60.

174

Statistique descriptive

 5,78
= 0,3669
a =
15,76
b = 81,07 0,3669 74,88 = 53,60

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 4 AJUSTEMENT EXPONENTIEL ET PAPIER SEMI-LOGARITHMIQUE


Les donnes suivantes sont extraites dune table de mortalit et de survie (1959-1963),
ajuste par une loi de Makeham, actuaire anglais (dcd en 1892) :
ge (X)

Taux instantan de mortalit (Y)

50

0,008541

51

0,009287

52

0,010103

53

0,010998

54

0,011978

55

0,013051

56

0,014228

57

0,015516

58

0,016928

59

0,018474

60

0,020169

61

0,022025

62

0,024059

63

0,026287

64

0,028728

65

0,031402

66

0,034332

1. Reprsentez le nuage de points entre X et Y.


2. Effectuez lajustement qui permet dexpliquer Y selon x, par la relation : Y = B A .
X

3. Calculez les indicateurs de qualit de la rgression :


a. le coefficient de dtermination et le test associ ;
b. les tests de Student ;
c. le test de Fisher.
4. Quel est le taux instantan de mortalit dun individu de 70 ans ?

1. Soit X : ge et Y : taux instantan de mortalit . Pour reprsenter le nuage de


points sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans
lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-

La rgression

175

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

type de graphique, slectionnez limage Nuage de points. Compare des paires de


valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se
trouvent les donnes (voir chapitre 1, exercice 5).
Figure 6.18

Y
0,040

Nuage de points
entre X et Y sous
Excel.

0,035
0,030
0,025
0,020
0,015
0,010
0,005
45

50

55

60

65

X
70

Le graphique de la figure 6.18 voque une croissance de type exponentiel. Une croissance
X
exponentielle se traduit par une quation du type Y = B A , soit, en passant aux logarithmes npriens : LnY = LnB + X LnA, en posant y = LnY, b = LnB et a = LnA :
y = ax + b, ce qui quivaut une liaison linaire entre x et y.
On peut tester graphiquement cette hypothse, en reprsentant le nuage dans un graphique semi-logarithmique (lchelle des ordonnes est logarithmique, lchelle des abscisses
reste identique). Lalignement des points valide lhypothse de liaison linaire entre x et y
(voir figure 6.19).
Figure 6.19

y
1,000

Graphique semilogarithmique.
0,100

0,010

0,001

X
45

50

55

60

65

70

2. Afin de rapporter la relation Y = B A une quation de droite, il est ncessaire de


procder au changement de variables en passant aux logarithmes npriens, comme
indiqu dans la question 1 : LnY = LnB + X LnA, en posant y = LnY, b = LnB et
a = LnA : y = aX + b. La relation est linaire, il est donc possible de procder
lestimation de la droite de rgression par la mthode des moindres carrs ordinaires.
X

Lapplication du changement de variables sur les valeurs de Y est ralise dans la


colonne D. Puis lensemble des calculs ncessaires lestimation de la droite de rgression est effectu partir des valeurs calcules de X et de y (voir figure 6.20).

176

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 6.20
Rsultats sous Excel.

17

De l, a =

X y
i =1

nXy

nV ( X )

3981,95 17 58 (4,075)
= 0,0871 et
9 24

b = y aX = 4,075 0,0871 58 = 9,12 .

Do lquation de rgression de y selon X : y = 0,0871 X 9,12.


En effectuant le changement de variables qui permet de revenir la relation initiale :
9,12
0,0871X
0,0871X
b = lnB B = e b et a = lnA A = e a , do Y = e e
, soit Y = 0,000109 e
.
3. Les indicateurs de qualit de la droite de rgression sont calculs pour lquation de la
droite de rgression y = 0,0871 X 9,12. La qualit de cette droite conditionne la qua0,0871X
lit de lestimation non linaire Y = 0,000109 e
.

a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre


x et y et les carts-types de x et de y.
COV (X ; y) =

3 981,95
58 (4,075) , soit COV(X ; y) = 2,089.
17

Lcart-type de X est la racine de V(X), calcule prcdemment, soit


x = 4,899.

24 = 4,899 . Do

De mme, lcart-type de y est la racine de V(y). V(y) est calcule en utilisant la fonction
VAR.P dExcel (voir annexe 1.1). Elle peut galement ltre selon la mthode expose
prcdemment (voir chapitres 2 et 3). V(y) = 0,182 ; soit
0,182 = 0,426 . Do
y = 0,426.
2,089
, soit r = 0,99996, soit R = 0,99992. Il existe une forte corrla4,899 0, 426
tion linaire positive entre X et y.

De l, r =

La rgression

177

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Do T =

r n 2

0, 99996 17 2

= 302,08 et la table de Student donne t0,025 ; 15 = 2,49.


1 r
1 0,999922
Puisque 302,08 2,49, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une
corrlation linaire significative entre X et y.
2

Le tthorique est disponible sous Excel en appelant la fonction statistique


LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et
Degrs_libert = 15.
La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.STUDENT et en saisissant les arguments suivants : X = 302,08 (le Student
calcul), Degrs_libert = 15 et Uni/bilatral = 1.
b. Afin de raliser les tests de Student, les calculs intermdiaires suivant sont raliss.
Figure 6.21
Rsultats sous Excel.

La dtermination de lcart-type de , , ncessite le calcul de SCR =

(y
i =1

SCT =

(x

i =1

yi ) et de

x) , effectu respectivement dans les cellules H19 et I19 (voir

figure 6.21).
De l, a2 =

1 0,0003

, soit = 4,15E-08 ; do = 0,00020.


15
408

408

+ 58 , soit b2 = 0,000141 ; do b = 0,01186.


17



a
0,0871
b
9,12
ta =
=
, soit ta = 427,195 et t b =
, soit tb = 769,205.
=

a 0,00020
0,01186
b

b2 = 4,15E-08

ta et tb sont tous deux suprieurs au tthorique = 2,131 obtenu par lecture de la table de
Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 15 degrs de libert. De plus,
toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle
associe tb (p = 0,000) sont toutes deux infrieures 5 %.

178

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la


valeur de a est significativement diffrente de 0. De mme, le test de Student pour le
coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0.
Le tthorique est disponible sous Excel en appelant la fonction statistique
LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,05 et
Degrs_libert = 15.
La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.STUDENT et en saisissant les arguments suivants : X = 427,195 pour a et
X = 769,205 pour b (le Student calcul), Degrs_libert = 15 et Uni/bilatral = 2.
n

c. La dtermination du Fisher ncessite le calcul de SCE =

(y

y) , effectu dans la

i =1

cellule G11 (voir figure 6.21).


Fc =

3,09
1 =
1 , soit F = 182 495,41.
c
0,0003
SCR
15
15
SCE

Fc est suprieur au F(0,05 ; 1, 15) = 4,543 obtenu par lecture de la table de Fisher, avec une
probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 15 degrs de libert. On rejette
donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire
entre X et Y.
Le F(0,05 ;1, 15) est disponible sous Excel en appelant la fonction statistique INVERSE.LOI.F
et en saisissant les arguments suivants : Probabilit = 0,05, Degrs_libert1 = 1 et
Degrs_libert2 = 15.
La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction
statistique LOI.F et en saisissant les arguments suivants : X = 182 495,41 (le Fisher
calcul), Degrs_libert1 = 1 et Degrs_libert2 = 15.
afin de raliser une prvision
4. Nous utilisons lquation initiale Y = 0,000109 e
0,0871 70
partir de la valeur X = 70. Ainsi, Y = 0,000109 e = 0,0483.
0,0871X

Le taux instantan de mortalit dun individu de 70 ans est de 0,0483.

EXERCICE 5 CORRLATION DES RANGS


Le tableau suivant indique pour les 15 tudiants dun TD de statistiques leur rang au
partiel et leur rang lexamen :
Observation

Partiel

Examen

tudiant 1

tudiant 2

tudiant 3

11

La rgression

179

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Observation

Partiel

Examen

tudiant 5

tudiant 6

tudiant 7

tudiant 8

tudiant 9

15

15

tudiant 10

13

tudiant 11

12

tudiant 12

10

13

tudiant 13

14

tudiant 14

12

10

tudiant 15

Calculez le coefficient de corrlation de rang de Spearman.

Posons X : rang au partiel et Y : rang lexamen . Calculons chacune des distances


entre le rang dun tudiant au partiel et son rang lexamen : di = xi yi.
Saisissez les valeurs de X, le rang au partiel, dans la colonne L1 et celles de Y, le rang
lexamen, dans la colonne L2. Pour obtenir les (xi yi) dans la colonne L3, placez le
curseur sur len-tte de colonne L3, puis indiquez L3=(L1L2)^2. Puis appuyez sur
ENTER. Le rsultat de ces oprations est propos figure 6.22.
Figure 6.22 (gauche)
Saisie des donnes et calcul
des distances avec la
calculatrice.

Figure 6.23 (droite)


Statistiques sur les di.

Appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 1:1Var Stats. Puis appuyez sur ENTER. Tapez 1-Var Stats L3 puis appuyez nouveau sur
ENTER. Les statistiques sur la variable di, contenue dans L3, sinscrivent (voir figure 6.23).
6 266
, soit rs = 0,525. Il existe un lien entre le rang dun
15 (15 1)
i =1
tudiant au partiel et son rang lexamen, mais ce lien nest pas trs fort.
15

180

2
i

Statistique descriptive

= 266, donc rs = 1

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990.
BLUMENTHAL S., Statistiques appliques, ditions dOrganisation, 1989.
BOWKER A.H. et LIEBERMAN G.J., Mthodes statistiques de lingnieur, Dunod, 1965.
BOREL E., DELTHEIL R. et HURON R., Probabilits. Erreurs, Armand Colin, 1960.
CALOT G., Cours de statistique descriptive, Dunod, 1969.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DARMOIS G., Statistiques et applications, Armand Colin, 1952.
DELAHAYE J.-P., Ltonnante loi de Benford , Pour la science, janvier 2007
DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004.
DODGE Y., Premiers pas en statistique, Springer, 2006.
DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990.
GELLER S., Abrg de statistique, ditions Masson, 1979.
GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999.
HAUCHECORNE B., Les mots et les maths, Ellipses, 2003.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979.
LEGRIS G., Statistiques pour conomistes, Economica, 1987.
ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson
Education, 2004.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
TINTNER G., Mathmatiques et statistiques pour les conomistes, Dunod, 1962.

La rgression

181

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Annexe 6.1
La fonction DROITEREG dExcel
La droite de rgression et plusieurs de ses indicateurs peuvent tre obtenus en utilisant la
fonction statistique DROITEREG dExcel.
Pour cela, slectionnez une plage de 2 lignes et 5 colonnes, soit 10 cellules, qui reprsentent la matrice dans laquelle les rsultats seront affichs. Appelez la fonction statistique
DROITEREG. Le masque de dialogue suivant saffiche (voir figure 6.24) :
Dans le champ Y_connus, slectionnez la colonne dans laquelle se trouvent les valeurs
de Y.
Dans le champ X_connus, slectionnez la colonne dans laquelle se trouvent les valeurs
de X.
Le champ Constante est laiss vide.
Dans le champ Statistiques, saisissez VRAI.
Figure 6.24
Masque de dialogue
de la fonction
DROITEREG sous
Excel.

Une fois le masque de dialogue rempli, ne cliquez pas sur OK : tenez enfonces en mme
temps les touches Ctrl et Shift tout en appuyant sur ENTRE. Cette procdure permet
laffichage matriciel des rsultats dans les 10 cellules slectionnes prcdemment (voir
figure 6.25).
Figure 6.25
Rsultat de la
fonction DROITEREG
sous Excel.

182

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Ces rsultats numriques correspondent aux indicateurs suivants, en respectant lordre


des lignes et des colonnes de la figure 6.25 :
a

ddl

SCT

SCR

Annexe 6.2
La fonction LinReg(ax + b)
de la calculatrice
La droite de rgression et le r peuvent tre obtenus en utilisant la fonction LinReg de la
calculatrice.
Pour cela, commencez par activer le DiagnosticOn en appuyant sur les touches 2ND et
CATALOG et en slectionnant la fonction DiagnosticOn.
Pour effectuer la rgression, saisissez les valeurs des X en L1 et les valeurs de Y en L2,
comme dans lexercice 2. Appuyez sur la touche STAT, puis choisissez le menu CALC et
slectionnez la fonction 4:LinReg(ax + b). Puis appuyez sur ENTER.
Les rsultats de la rgression saffichent (voir figure 6.26).
Figure 6.26
Rsultat de la
fonction
LinReg(ax + b) de la
calculatrice.

La rgression

183

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les sries
1
chronologiques

1. Prsentation de la srie
chronologique....................186
2. Agrgation des
composantes......................197
Problmes et exercices
1. Mthode empirique
et modle additif ................204
2. Mthode empirique
et modle multiplicatif.........207
3. Mthode analytique
et modle additif ................210
4. Mthode analytique
et modle multiplicatif.........214

Parmi les sries doubles, certaines mritent dtre traites


part : celles qui dcrivent lvolution dun phnomne par
rapport au temps, et que lon nomme sries temporelles,
chronologiques ou encore chroniques. Nous traiterons ici des
sries doubles dont le premier caractre est le temps et dont
le deuxime caractre est quantitatif. Lanalyse des sries
chronologiques est fonde sur lexistence dune corrlation
entre le caractre tudi et le temps. Ces sries interviennent
dans des domaines aussi varis que lastronomie, la dmographie, lconomie, lhistoire, etc.
Ainsi que lindique Jean-Marie Dufour dans son article
1
intitul Histoire de lanalyse des sries chronologiques ,
cest en astronomie que sont apparues les premires sries
chronologiques.

1. http://www.fas.umontreal.ca/SCECO/Dufour. Jean-Marie Dufour est titulaire de la chaire de recherche en


conomtrie luniversit de Montral au Canada.

185

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Daprs Kendall, le plus ancien graphique connu dune srie chronologique se trouve
e
e
dans un manuscrit du X ou du XI sicle et reprsente linclinaison des orbites de sept
plantes en fonction du temps ; il est reproduit figure 7.1.
Figure 7.1
Graphique
chronologique.
Source : Funkhauser
(1936)

Lobjectif de ltude dune srie chronologique est de mettre en vidence lvolution


passe dune variable statistique et sous certaines conditions dextrapoler cette volution
afin deffectuer des prvisions court terme.
Lanalyse des sries chronologiques consistera mettre en vidence leurs quatre composantes : une composante tendancielle, une composante cyclique, une composante
saisonnire et une composante accidentelle (bruit). Cette dcomposition a t propose
1
en 1919 par le statisticien Warren Persons .
Nous mettrons en vidence lexistence de deux modles de composition de ces
composantes : le modle additif et le modle multiplicatif.
Pour faire apparatre la composante tendancielle (appele le trend), nous utiliserons la
mthode MCO ou les moyennes mobiles.

Prsentation de la srie chronologique


La variable dont on suit lvolution au cours du temps peut tre un niveau (on parle
aussi de stock), comme la temprature, le nombre de chmeurs, etc., ou un flux, cest-dire un nombre dvnements observs au cours dune priode, comme le nombre
mensuel de naissances, la consommation des mnages, etc. Dans les deux cas, le temps
qui reprsente les dates ou les priodes dobservation sera repr par lindice t et numrot de 1 n.

Dfinition

On appelle srie chronologique, ou srie temporelle, une suite dobservations chiffres dun
caractre quantitatif Y, ordonnes dans le temps. La valeur prise par la variable Y la date t
est note yt.

1. Warren Persons (1878-1937) a dvelopp un indicateur de la conjoncture conomique, connu sous le nom
de baromtre de Harvard.

186

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Avant toute analyse, nous reprsenterons les donnes par une courbe exprimant la
continuit de lvolution de la variable tudie. Nous supposerons que les dates
dobservation sont quidistantes (mois, trimestres, annes) et nous les reprsenterons
par les entiers naturels non nuls : 1, 2, 3

1.1

LES REPRSENTATIONS GRAPHIQUES


Lanalyse des sries chronologiques se fonde sur la dcomposition de lvolution dun
caractre en plusieurs composantes et, comme nous lavons indiqu prcdemment, il est
ncessaire de raliser une reprsentation graphique afin de guider la rflexion. La reprsentation graphique classique est calque sur le nuage de points, mais les points seront
relis par des segments de droite pour traduire la chronologie. Le temps sera not t et on
lui donnera les valeurs 1, 2, , n si lon a n priodes, les modalits du caractre tudi
tant notes yt.

Exemple 7.1

La premire srie chronologique

Le tableau suivant donne les indices trimestriels de stocks de matires en valeur des
industries agricoles et alimentaires (IAA) :
1 er trimestre

2 e trimestre

3 e trimestre

4 e trimestre

2004

108,2

104,5

102,8

107,8

2005

107,9

106,2

104,5

112,3

2006

110,8

110,7

108

115,2

Source : Insee, 2007

On associera cette srie le tableau statistique de la figure 7.2.


Figure 7.2
Tableau statistique
dune srie
chronologique.

La srie sera ainsi reprsente par le graphique de la figure 7.3.


Pour mettre en vidence une ventuelle variation priodique, ou une saisonnalit de la
srie, on ralise une reprsentation superpose des donnes, qui permet, dans notre
exemple, de mettre en vidence le caractre propre de chaque trimestre (voir figure 7.4).

Les sries chronologiques

187

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 7.3
Reprsentation
graphique de la srie
chronologique des
indices trimestriels
IAA.

116

yt

114
112
110
108
106
104
102

Figure 7.4
Reprsentation
superpose des
donnes dindices
trimestriels IAA.

116

t
10 11 12 13

yt
2004
2005
2006

114
112
110
108
106
104
102

116

t
5

yt

114
112
110
108

yt = 0,6654 t+103,92

106
104
102
0

t
9 10 11 12 13

On reprsente souvent les sries chronologiques par un graphique polaire sinspirant de


certains thermomtres enregistreurs, qui utilisent une feuille enroule sur un cylindre
permettant de visualiser rapidement la temprature tous les jours dune semaine la
mme heure. Excel ne permet pas de raliser un graphique polaire, mais propose un
graphique approchant, nomm Radar , dont la figure 7.5 donne la reprsentation.

188

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 7.5

2e T
116

Graphique Radar
des indices
trimestriels IAA.

114
112
110
108
106
104
102
100
98
3e T

1er T

96

2004
2005
2006
4e T

1.2

LES COMPOSANTES
Les fluctuations dune srie chronologique sont le fruit de la composition de plusieurs
composantes. Nous avons repris ici lexemple 7.1 auquel nous avons ajout la droite de
tendance calcule par la mthode MCO sous Excel.

Figure 7.6
Srie chronologique
et trend.

116

yt

114
112
110
108
yt = 0,665+103,9

106
104
102
0

t
9 10 11 12 13

La droite de rgression de Y en t reprsente la composante tendancielle de cette srie


chronologique. Elle exprime son mouvement de longue dure. La srie est le rsultat de
la superposition de deux autres composantes cette composante fondamentale.
Dfinitions

On appelle tendance ou composante gnrale ou composante extra-saisonnire dune srie


chronologique sa tendance gnrale. Cette tendance gnrale (dite sculaire) exprime une
tendance durable la croissance (mouvement de longue dure ascendant) ou la
dcroissance (mouvement de longue dure descendant).
On dcompose parfois cette composante tendancielle en deux lments : la tendance long
terme et une composante priodique appele cycle. Le mouvement cyclique rsulte de la
succession de priodes dexpansion et de dpression. La reprise est le passage de la

Les sries chronologiques

189

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

dpression lexpansion et la crise le passage de lexpansion la dpression. Ces deux


composantes ne sont pas toujours distinguables et on ne cherchera pas les distinguer ; on
notera ft cette composante tendancielle, que lon identifiera la tendance durable et que lon
appellera trend.
La composante saisonnire de la srie est sa composante priodique dans le cadre de
lanne (elle peut tre due aux saisons, comme pour lIAA, ou rsulter des usages (ftes,
vacances, etc.) ; elle sera note St.
On appelle composante rsiduelle (bruit, ala) ou accidentelle les fluctuations irrgulires et
imprvisibles de la srie ; elle sera note t (erreur).

1.3

DTERMINATION DE LA TENDANCE
Nous aborderons trois mthodes pour dterminer le trend :
une mthode purement graphique : la mthode des points moyens (voir sur le site
wwww.pearsoned.fr) ;
une mthode analytique : la mthode MCO (nous nenvisagerons que le cas du trend
linaire) ;
des mthodes empiriques :
la mthode des moyennes chelonnes ;
la mthode des moyennes mobiles non centres ;
la mthode des moyennes mobiles centres.

La mthode analytique : MCO


Dans le cas dune srie chronologique, la variable explicative est le temps (T) et on ajustera une droite lensemble des observations, par la mthode des moindres carrs, en
cherchant la droite de rgression de Y selon t, pour obtenir une quation du type :
Cov(T ; Y ) Cov(T ; Y )
=
a =
V (T )
2 (T ) .
y = at + b, avec :
b = y at

On supposera que T prend les n valeurs : 1 ; 2 ; ; n.


Dans le cas de sries chronologiques, on peut allger les calculs en utilisant les formules
1 + 2 + .... + n n(n + 1) n + 1

=
=
t =
n
2n
2
.
suivantes : n
+
+
n
(
n
1)(2
n
1)
t 2 =
6
i =1
Le premier rsultat vient de la formule exprimant la somme des termes dune suite
arithmtique et le second peut facilement tre dmontr par rcurrence. Le second
2
1 n
(n + 1)(2n + 1) n + 1
rsultat donnera pour la variance : V (T ) = 2 ( T ) = t 2 t 2 =

.
n i =1
6
2

190

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Exemple 7.2

Le trend par la mthode MCO

Considrons la srie suivante donnant le taux mensuel de nuptialit (nombre de mariages pour 1 000 habitants) en France mtropolitaine :
Mois

2003

2004

2005

2006

Janvier

1,3

1,40

1,40

1,30

Fvrier

1,9

2,00

1,80

1,60

Mars

2,2

1,70

1,80

1,60

Avril

3,3

3,60

3,60

3,60

Mai

5,5

5,30

4,80

4,70

Juin

10,30

9,40

9,80

9,50

Juillet

8,40

10,10

10,70

10,10

Aot

8,50

6,80

7,10

6,60

Septembre

6,30

6,30

6,50

7,10

Octobre

3,10

3,20

3,10

2,40

Novembre

1,80

1,70

1,80

1,60

Dcembre

2,20

2,00

2,10

2,00

Source : Insee, dpartement de la Dmographie, 2006

partir du tableau statistique de cette srie, on obtient les rsultats suivants :

n + 1 49
= = 24,5
t =
2
2

214,9

= 4, 4771
y =
48

n 2 n(n + 1)(2n + 1) 48 49 97
=
= 38 024
t =
6
6
t =1

1 n
5 295,8

Cov(T ; Y ) = n tyt t y = 48 24,5 4,4771 = 0,6406


t =1

n
Do :
t2

38 024
2
2
t
=
1
V (T ) =
(t ) =
( 24,5 ) = 191,92
48
n

Cov(T ; Y ) 0,6406
=
= 0,0033
a =
Il reste calculer a et b :
V (T )
191,92
b = y at = 4, 4771 0,0033 24,5 = 4,3953

On obtient finalement la tendance donne par lquation : y = 0,0033 t + 4,3953.

Les sries chronologiques

191

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Il est important de signaler que si la droite occupe une place privilgie dans lajustement
1
analytique, dautres modles sont incontournables, notamment la courbe de Gompertz ,
utilise entre autres pour les tables de mortalit (voir chapitre 6, exercice 4), et la courbe
2
logistique , utilise pour modliser lvolution de certaines populations (voir chapitre 6,
section 3.1).
Si les fluctuations de la srie sont trop importantes, on pourra au pralable les attnuer
en utilisant des moyennes adaptes, que nous allons aborder maintenant.

La mthode des moyennes chelonnes


Afin de lisser les fluctuations, on peut remplacer les donnes priodiques par leurs
moyennes sur plusieurs priodes par exemple, des moyennes annuelles de donnes
mensuelles. Ces moyennes ne subissent pas linfluence des variations saisonnires et ont
lavantage de minimiser les extrema. La mthode des moyennes chelonnes consiste
remplacer un certain nombre de donnes conscutives par leur moyenne.
Exemple 7.3

Le trend par la mthode des moyennes chelonnes

Reprenons la srie de lexemple 7.2. La mthode des moyennes chelonnes consiste


remplacer les donnes mensuelles par leur moyenne annuelle :
Anne

Moyenne chelonne

2003

4,57

2004

4,46

2005

4,54

2006

4,34

Ces moyennes chelonnes ont t affectes aux dates correspondant au milieu de chaque
anne, et les quatre points obtenus sont joints la rgle sur la figure 7.7 et donnent un
ajustement de la tendance.
Figure 7.7
Moyennes
chelonnes
(nuptialit).

12

yt

10
8
6
4
2
0
0

10

15

20

25

30

35

40

45

t
50

La srie passe ainsi de 48 donnes mensuelles, qui varient selon les influences saisonnires, 4 donnes annuelles indpendantes de ces variations.

1. Benjamin Gompertz, mathmaticien anglais (1779-1865).


2. Dcouverte par le mathmaticien belge Pierre Franois Verhulst (1804-1849), lve de Qutelet.

192

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Cette mthode fait perdre trop de donnes, aussi utilisera-t-on plus gnralement les
moyennes mobiles, qui sont la mthode la plus utilise dans le lissage des sries chronologiques. Elles permettent de suivre progressivement le phnomne par un systme de
chevauchement. On distingue en gnral deux types de moyennes mobiles :
les moyennes mobiles non centres ;
les moyennes mobiles centres.

La mthode des moyennes mobiles non centres


Dans le cas des moyennes mobiles non centres dordre p, il convient de remplacer une
valeur observe, yt, par la moyenne arithmtique des p valeurs antrieures (t p), soit
1 p 1
1 p
1 p +1
y
.
On
remplace
donc
y
par
y
,
puis
y
par
t i
p
t
P+1
yt , etc.
p i =0
p i =1
p t =2
Dfinition

On appelle moyenne mobile non centre dordre p la date t le nombre not MMp(t) nc et
dfini par :
MMp (t ) nc =

1 p
yt .
p i =1

Les moyennes mobiles non centres permettent dexploiter les donnes rcentes.
On notera que les moyennes mobiles non centres raccourcissent la srie, car aucune
moyenne mobile nest affecte aux (p 1) premires dates.
Exemple 7.4

Moyennes mobiles non centres

Prenons comme exemple le cours dune action (en euros) en Bourse et la recherche dune
stratgie (simple) de dcision : acheter en phase de hausse, quand le cours traverse la
moyenne mobile de bas en haut, et vendre en phase de baisse, quand le cours traverse la
moyenne mobile de haut en bas.
Jour

Cours

Jour

Cours

812,5

13

825

812,25

14

868,75

810

15

881,25

806,25

16

868,75

793,75

17

862,5

787,5

18

875

793,75

19

875

812,5

20

887,5

831,25

21

900

10

837,5

22

910

11

843,75

23

912,5

12

843,75

24

912
Les sries chronologiques

193

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

La moyenne non centre dordre 4 est la moyenne des quatre valeurs qui prcdent la
priode de calcul. Par exemple, pour le quatrime jour, la moyenne non centre dordre 4
812,5 + 812,25 + 810 + 806,25
= 810,25 .
est MM 4(4) nc =
4
Le tableau de la figure 7.8 donne les moyennes mobiles non centres dordre 4.
Figure 7.8
Moyennes mobiles
non centres.

La figure 7.9 est la traduction graphique de ce tableau qui permet de visualiser


lapplication de la dcision dachat et de vente des actions.
Figure 7.9
Moyennes mobiles
non centres du
cours de Bourse.

920

yt

900
Achat
880

Achat

860
Vente
840
Achat

820

Vente
Cours
MM4nc

800

780
0

12

16

20

24

28

La mthode des moyennes mobiles centres


Dans le cas des moyennes mobiles centres dordre p, il sagit de remplacer une valeur
observe, yt, par la moyenne arithmtique de p valeurs centres autour de yt.

194

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dfinition

On appelle moyenne mobile centre dordre p la date t le nombre not MMp(t) et dfini
par :
si p est impair, soit p = 2k + 1 :
1
MMp(t ) = ( y t k + y t k +1 + .... + y t 1 + y t + y t +1 + ... + y t + k ) ,
p
soit MMp (t ) =

1 k
y t +i ;
p i = k

si p est pair, soit p = 2k :


1
MMp(t ) = ( 0,5 y t k + y t k +1 + .... + y t 1 + y t + y t +1 + ... + 0, 5 y t + k ) ,
p
soit MMp (t ) =

k 1

1
0, 5 y t k + y t + i + 0,5 y t +k .
p
i = k +1

Le cas des moyennes mobiles dordre impair : posons p = 2k + 1 ; dans ce cas tout
indice t (t (p + 1) / 2) est la mdiane dune srie de p dates et lon remplace yt par :
1 k
yt +i , en prenant la moyenne arithmtique des p observations obtenues en runisp i = k
sant les k observations immdiatement antrieures yt, yt et les k observations qui succdent yt.
On notera que les moyennes mobiles centres raccourcissent la srie, car aucune
moyenne mobile nest affecte ni aux (p 1) premires dates ni aux (p 1) dernires
dates.
Exemple 7.5

Moyennes mobiles centres dordre 3 (MM3)

Considrons le tableau suivant donnant le cours journalier du baril de ptrole sur une
priode de 14 jours et recherchons le trend par la mthode des moyennes mobiles
centres dordre 3 (MM3).
Date

Cours (en US dollars)

29/10/2007

86,05

30/10/2007

85,69

31/10/2007

84,84

01/11/2007

87,61

02/11/2007

87,57

05/11/2007

88,13

06/11/2007

89,13

08/11/2007

90,71

09/11/2007

89,71

12/11/2007

88,8

Les sries chronologiques

195

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Date

Cours (en US dollars)

14/11/2007

86,57

15/11/2007

87,01

Source : OPEC, novembre 2007

La moyenne centre dordre 3 est la moyenne des trois valeurs qui entourent la valeur de
la priode de calcul, y compris elle-mme. Par exemple, pour la deuxime date, la
86,05 + 85,69 + 84,84
moyenne centre dordre 3 est MM 3(2) =
= 85,53 .
3
Le tableau de la figure 7.10 donne les moyennes mobiles centres dordre 3.
Figure 7.10
Moyennes mobiles
centres dordre 3.

La figure 7.11 reprsente la srie brute et la srie lisse par les MM3.
Figure 7.11

92

Srie brute et MM3.

91

yt
Srie brute
MM 3

90
89
88
87
86
85
84
0

10

t
15

Moyennes mobiles dordre p pair : posons p = 2k. Dans ce cas une srie de p dates
nadmet pas de mdiane, mais un intervalle mdian. La rgle adopte consiste prendre
arbitrairement pour mdiane la moyenne arithmtique des bornes de lintervalle mdian.
Prenons par exemple p = 4. Si lon remplace y1, y2, y3 et y4 par leur moyenne arithmtique, on devra affecter cette valeur la date 2,5 (pour centrer), ce qui nest pas satisfaisant ; de mme, y2, y3, y4 et y5 seraient remplaces par leur moyenne arithmtique affecte
la date 3,5.
196

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Pour viter cela, la mthode de calcul consiste affecter la date 3 la moyenne arithmy + y + y3 + y4
et
tique des deux moyennes centres qui lencadrent : y 2,5 = 1 2
4
y + y3 + y4 + y5
. Ce qui donne :
y 3,5 = 2
4
y 2,5 + y 3,5
2

y 1 + y 2 + y 3 + y 4 + y 2 + y 3 + y 4 + y 5 0,5 y 1 + y 2 + y 3 + y 4 + 0,5y 5
.
=
8
4

Finalement, pour former la premire moyenne mobile centre dordre 4, on utilise les
5 premires observations et lon affecte la date 3 leur moyenne arithmtique pondre,
en affectant aux valeurs extrmes (la premire et la cinquime) le coefficient 0,5 et aux
trois valeurs centrales le coefficient 1.
On notera que les moyennes mobiles centres nautorisent pas destimation dune valeur
thorique, car elles sont subordonnes la connaissance dobservations postrieures.
La srie des moyennes mobiles comporte moins de termes que la srie brute.
La srie des moyennes mobiles est trs inerte du fait quune brusque variation nest
ime
retenue que pour 1 / p de sa valeur brute, les oscillations tant tales sur les dates
antrieures et postrieures.
En gnral, on choisira lordre des moyennes mobiles suivant la priodicit des donnes :
MM7 pour des donnes journalires (7 jours de la semaine), MM4 pour des donnes
trimestrielles (4 trimestres dans lanne), etc.

Agrgation des composantes


Nous avons dfini prcdemment les diffrentes composantes dune srie chronologique,
nous devons maintenant nous intresser leur mode de composition et prsenter les deux
hypothses que lon fait habituellement : le schma additif et le schma multiplicatif.

2.1

PRSENTATION DES MODLES


Deux types de situations coexistent dans le cadre des sries temporelles :
le modle additif ;
le modle multiplicatif.

Modle additif et modle multiplicatif


Nous avons soulign ds le dpart limportance dune reprsentation graphique dans
lanalyse des sries chronologiques. Ces graphiques permettent de visualiser les deux
types de situations.
Dans le cas du modle additif, les fluctuations sont damplitude constante autour du
trend, ce qui se traduit par un nuage de points limit par deux parallles la droite de
tendance (voir figure 7.12).
Dans le cas du modle multiplicatif, les fluctuations sont damplitudes lies la valeur
du trend, ce qui se traduit par un nuage de points situs entre deux droites
Les sries chronologiques

197

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

concourantes (entonnoir). Les rapports entre les valeurs observes et les valeurs du
trend sont pratiquement identiques dune priode lautre, ce qui reprsente des
carts gaux en pourcentage (voir figure 7.13).
Figure 7.12

1 080

yt
Srie brute
Trend (MCO)

1 070

Schma additif
(aspect dun tube).

1 060
1 050
1 040
1 030
1 020
1 010
1 000

Figure 7.13

1 080

t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

yt
Srie brute
Trend (MCO)

1 070

Schma multiplicatif
(aspect conique).

1 060
1 050
1 040
1 030
1 020
1 010
1 000

t
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Il arrive que les choix ne soient pas aussi clairs et que lon hsite entre les deux modles
qui pourront dans ce cas donner des valeurs proches.
1

Les deux modles supposent que la composante saisonnire est parfaitement priodique ,
qu lintrieur dune anne le phnomne saisonnier est neutre, les variations saisonnires se compensant :
dans le schma additif, la moyenne des coefficients saisonniers est nulle sur une anne ;
dans le schma multiplicatif, le produit des coefficients saisonniers est gal 1 sur une anne.
Cette convention est appele principe de conservation des aires, les aires reprsentant les
fluctuations saisonnires autour du mouvement gnral, qui se compensent.
Par ailleurs, le mouvement accidentel est suppos faible et de moyenne nulle sur quelques mois.
Pour mettre en vidence les composantes saisonnires et accidentelles, nous devrons
distinguer les deux modles.

Composante saisonnire
La composante saisonnire est une fonction priodique, de priode p, dtermine par la
donne de p coefficients saisonniers que nous noterons S1, S2, , Sp et qui vrifient

1. La dcomposition dune fonction en sommes de termes priodiques laide de fonctions sinusodales a t


tablie par le mathmaticien Jean-Baptiste Fourier (1768-1813) dans ses travaux sur la chaleur.

198

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Si = Si + p . Lentier p dtermine la priode et on aura p = 12 pour des donnes mensuelles,

p = 4 pour des donnes trimestrielles, etc.


Dfinition

Soit p la priode, les entiers i, pour i {1; 2 ; ... ; p} , dfinissent les saisons de la srie. Les
dates relatives la saison i sont alors les dates dfinies par t = i + np (n entier naturel).

Si par exemple les donnes sont trimestrielles, on a quatre saisons que lon nommera T1,
T2, T3 et T4. Les dates relatives T1 sont les dates du type t = 1 + 4n, soit 1 ; 5 ; 9 ; etc.
La srie CVS (corrige des variations saisonnires), encore appele srie dsaisonnalise,
est obtenue en liminant les influences saisonnires. Cette srie est fondamentale et
utilise constamment par lInsee, qui donne par exemple les chiffres du chmage en
donnes CVS en fin de mois . La srie corrige des variations saisonnires peut rvler
des rsultats paradoxaux, le chmage pouvant diminuer en donnes brutes un certain
mois, et en fait augmenter en donnes corriges des variations saisonnires.

2.2

SRIE CORRIGE DES VARIATIONS SAISONNIRES DU MODLE ADDITIF


Ce modle se traduit par : yt = ft + St + t. On va donc dfinir la srie CVS en ngligeant dans
un premier temps la composante accidentelle suppose faible et par dfinition non prvisible.
Le principe de la neutralit additive de la composante priodique sur une priode se
p

traduira par la proprit :

S
i =1

=0 .

Mise en vidence de la composante saisonnire


La prise en compte de la composante saisonnire passe par quatre tapes :
1. On calcule pour chaque date le coefficient st = yt ft, appel cart saisonnier , qui
reprsente la diffrence entre la donne brute yt et la tendance dtermine soit par la
mthode MCO soit par les moyennes mobiles.
2. On estime les coefficients saisonniers, St, par la moyenne arithmtique des carts
saisonniers st correspondant la mme saison ; si on dispose de donnes sur
n priodes, donc de np dates, le coefficient saisonnier Si correspondant la saison i
1 n 1
( i { 1;2;...; p} ) sera donn par : Si = si + kp .
n k =0
Si lon dispose, par exemple, de donnes mensuelles sur 3 annes, on obtiendra le
1 2
1
coefficient saisonnier de janvier par : S1 = s1+12k = ( s1 + s13 + s25 ) .
3 k =0
3
p

3. On contrle que

S
i =1

= 0 . Si cette somme est significativement diffrente de zro,

on introduit des coefficients saisonniers corrigs selon ltape 4.


4. On note m la moyenne arithmtique des Si, soit m =

1 p
Si , et on introduit les
p i =1
p

coefficients saisonniers corrigs dfinis par : Si = Si m ; on aura alors

S'
i =1

=0.

Les sries chronologiques

199

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Srie corrige des variations saisonnires


La srie CVS contient la composante tendancielle et la composante accidentelle.
Dfinitions

La srie corrige des variations saisonnires est la srie obtenue partir de la srie brute en
liminant la composante saisonnire. Dans le schma additif, on aura donc : Ycvs = Y S, soit
pour toute date t, i dsignant la saison relative la date t : ycvs(t) = yt Si, dans le cas o
p

=0.

i =1

ycvs(t) = yt Si en utilisant les coefficients saisonniers corrigs dans le cas o

0.

i =1

On peut alors isoler la composante accidentelle en calculant les termes t, en liminant


la tendance de la srie CVS : t = ycvs(t) ft.
Exemple 7.6

Srie corrige des variations saisonnires (schma additif)

Reprenons la srie trimestrielle de lexemple 7.1. Le graphique permet de conjecturer


lhypothse dun modle additif. Dterminons la srie CVS (voir figure 7.14) en utilisant
le trend dtermin par la mthode MCO, cest--dire ff = 0,6654t + 103,92 (voir
figure 7.6).
Aprs avoir dtermin les valeurs du trend par la formule ff = 0,6654t + 103,92 dans la
colonne C, on a calcul les coefficients st (colonne D), puis les coefficients saisonniers Si,
s +s +s
avec par exemple S1 = 1 5 9 = 1,72 .
3
S1

1,72

S2

0,78

S3

3,48

S4

2,52

Total

0,01

La somme des coefficients est trs proche de zro, il est donc inutile de les corriger. On a
fait figurer la srie CVS en colonne E. Enfin, on a calcul la composante accidentelle en
colonne F.
Figure 7.14
Dtermination de la
srie CVS et de la
composante
accidentelle.

200

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

On a reprsent figure 7.15 la srie des indices IAA, avec la srie CVS et le trend linaire.
Figure 7.15
Srie brute, srie CVS
et trend des indices
IAA.

116

yt
Srie brute
Srie CVS
Linaire (srie brute)

114
112
110
108
106

yt = 0,6654 t +103,92

104
102

2.3

t
10 11 12 13

SRIE CORRIGE DES VARIATIONS SAISONNIRES DU MODLE MULTIPLICATIF


Ce modle se traduit par : yt = ft St t. On dfinit la srie CVS selon la mme procdure que dans le cas additif. La composante saisonnire est une fonction priodique, de
priode p, dtermine par la donne de p coefficients saisonniers que nous noterons S1,
1 p
Si = 1
S2, ., Sp et qui vrifient p i =1
, la premire proprit traduisant le principe de la
S = S
i+ p
i
neutralit multiplicative (moyenne arithmtique des coefficients gale 1) de cette
composante sur une priode et la seconde le fait que ces coefficients sont priodiques.
On remarque que le modle multiplicatif peut se ramener au modle additif en passant
aux logarithmes dcimaux : log yt = log ft + log St + log t.

Mise en vidence de la composante saisonnire


La prise en compte de la composante saisonnire passe par quatre tapes :
1. On calcule pour chaque date le coefficient st = yt / ft, appel rapport saisonnier, qui
reprsente le rapport entre la donne brute yt et la tendance dtermine soit par la
mthode MCO soit par les moyennes mobiles. Ce rapport saisonnier est le coefficient
multiplicateur qui permet la date t de passer de la tendance la srie brute.
2. On estime les coefficients saisonniers, St, par la moyenne arithmtique des rapports
saisonniers st correspondant la mme saison ; si on dispose de donnes sur
n priodes, donc de np dates, le coefficient saisonnier Si correspondant la saison i
1 n 1
( i { 1;2;...; p } ) sera donn par : Si = si + kp .
n k =0
1 p
Si = 1 est vrifie. Si
p i =1
cette somme est significativement diffrente de 1, on introduit des coefficients
saisonniers corrigs selon ltape 4.

3. On contrle que la contrainte de neutralit multiplicative

Les sries chronologiques

201

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

4. Soit m la moyenne arithmtique des Si, m =


corrigs sont Si = Si / m ; on aura alors

1 p
Si , les coefficients saisonniers
p i =1

1 p
S 'i = 1 .
p i =1

Srie corrige des variations saisonnires


La srie CVS contient la composante tendancielle et la composante accidentelle.
Dfinitions

La srie corrige des variations saisonnires est la srie obtenue partir de la srie brute en
liminant la composante saisonnire. Dans le schma multiplicatif, on aura donc :
Ycvs = Y / S, soit pour toute date t, i dsignant la saison relative la date t :
ycvs(t) = yt / Si, dans le cas o

1 p
Si = 1 ;
p i =1

ycvs(t) = yt / Si en utilisant les coefficients saisonniers corrigs dans le cas o

1 p
S 'i 1.
p i =1

On peut alors isoler la composante accidentelle en calculant les termes t, en liminant


la tendance de la srie CVS : t = ycvs(t) / ft.

2.4

PRVISIONS
Modles de prvision
Ltude du pass sert anticiper le futur et la prvision conomique nest pas autre
chose, en grande partie du moins, que ce quon appelle en langage mathmatique
1
lextrapolation des vnements passs, des conjonctions passes .
partir des mthodes exposes prcdemment, lanalyste se situe la priode T et
souhaite effectuer une prvision lhorizon h. On envisagera uniquement le cas dune
prvision ponctuelle, cest--dire de la recherche dune valeur unique qui reprsente la
meilleure estimation possible de la valeur future inconnue yT + h partir de la donne (y1 ;
y2 ; ; yT). Cette estimation est note y T ( h ) , ou encore y t avec t = T + h, T reprsentant
lorigine de la prvision. On supposera que lon dispose dune tendance linaire, alors la
prvision ponctuelle pourra tre faite en utilisant les coefficients saisonniers en addition
dans le modle additif et en multiplication dans le modle multiplicatif, ce qui donnera,
partir du trend linaire not f(t) = at + b, Si dsignant le coefficient saisonnier corrig
relatif la date t = T + h :
schma additif : y T ( h ) = a(T + h) + b + S 'i , ou encore y t = at + b + S 'i ;
schma multiplicatif : y T ( h ) = (a(T + h) + b) S 'i , ou encore y t = (at + b) S 'i .

1. H. Guitton, Statistique et conomtrie, Dalloz, 1959.

202

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Srie ajuste
On dfinit la srie ajuste sur le modle de la srie prvisionnelle expose ci-avant. On
notera alors pour les dates t, pour lesquelles on connat la srie brute (Si dsignant le
coefficient saisonnier corrig relatif la date t) :
schma additif : y t = at + b + S 'i ;
schma multiplicatif : y t = (at + b) S 'i .
Exemple 7.7

Prvision (schma additif)

Reprenons les donnes de lexemple 7.1.


On a dtermin le trend par la mthode MCO, et on a trouv ff = 0,6654 t + 103,92 (voir
figure 7.6) ; la prvision ponctuelle sera donne par : y t = at + b + S 'i , Si dsignant le
coefficient
saisonnier
relatif

la
date t = T + h.
On
aura
donc :
1,72

0,78
y t = 0,6654 t + 103,92 +
, en choisissant le coefficient saisonnier relatif la
3,48

2,52
date t = T + h ; recherchons par exemple une prvision ponctuelle pour le deuxime
trimestre 2007, soit T = 12 et h = 2, do t = T + h = 12 + 2 = 14.
Dans ce cas, y12 ( 2 ) = y14 = 0,6654 14 + 103,920,78 = 112,46 .

Conclusion
On notera que lon devra rester trs prudent pour les extrapolations, car on peut se
retrouver face un retournement de tendance ou des changements dans les fluctuations priodiques. Si h > 1, on pourra tester la qualit du modle, en utilisant les premires observations de la priode T + 1 devenues disponibles et en les comparant aux prvisions quelles nont pas contribu dterminer. Cette confrontation de prvisions
fondes sur le pass et de valeurs actuelles est trs prcieuse pour valider lestimation.
Pour conclure cette introduction aux sries chronologiques, nous devons signaler que
nous navons abord que laspect dterministe et que nous avons laiss de ct laspect
alatoire, que nous avons simplement notifi loccasion de la composante accidentelle.
1
Nous navons pas abord les modles autorgressifs , qui traduisent une caractristique
particulire des sries chronologiques, la corrlation entre les termes, cest--dire la
dpendance statistique du prsent et du pass, et le lecteur pourra consulter de
nombreux ouvrages complmentaires (notamment louvrage dconomtrie dric Dor).
En rsum, lissue de ce chapitre, le lecteur doit connatre les deux modles de dcomposition dune srie chronologique, savoir utiliser la mthode MCO et les diffrentes
moyennes mobiles pour mettre en vidence le trend et les diffrentes composantes. Ces
techniques doivent permettre dexpliciter la srie corrige des variations saisonnires et
daborder laspect prvisionnel.
1. Larticle de rfrence en la matire est d au statisticien George Udny Yule (1871-1951).

Les sries chronologiques

203

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Lanalyse des sries temporelles est un prolongement de lanalyse de rgression puisquil
sagit dexpliquer un phnomne selon le temps. Pour cela, quatre modes dapplication
des sries temporelles coexistent selon les combinaisons effectues entre mthodes empirique et analytique et modles additif et multiplicatif :
lexercice 1 combine la mthode empirique avec le modle additif ;
lexercice 2 associe la mthode empirique et le modle multiplicatif ;
lexercice 3 allie mthode analytique et modle additif ;
lexercice 4 met en uvre la mthode analytique avec le modle multiplicatif.

EXERCICE 1 MTHODE EMPIRIQUE ET MODLE ADDITIF


Le tableau ci-aprs indique les entres par quadrimestres (dure de quatre mois), en millions, dans les salles de cinma en France :
Quadrimestre

2003

2004

2005

2006*

61,33

67,86

61,04

72,58

48,16

65,3

53,06

55,21

63,97

62,17

61,23

60,66

* Donnes provisoires - Source : www.cnc.fr, 2007

1. Reprsentez graphiquement cette srie chronologique et dterminez sa saisonnalit.


2. En utilisant le modle empirique additif :
a. Calculez les coefficients saisonniers.
b. Dterminez la srie ajuste.
c. Dterminez la srie CVS.
3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie CVS.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau
statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t
(voir figure 7.16).
Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la
courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes.

204

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 7.16
Rsultats sous Excel.

Pour reprsenter une courbe sous Excel, cliquez sur Insertion/Graphique dans la barre de
menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points,
puis, dans Sous-type de graphique, slectionnez limage reprsentant le nuage de points
relis par une courbe. Cliquez sur Suivant et indiquez dans le champ correspondant la
plage o se trouvent les donnes (voir figure 7.17).
Frquentation totale (millions)

Figure 7.17
Frquentation des
salles de cinma
France.

80
70
60
50
40
30
20
10
2003

0
0

2004
2

2005
5

2006*
8

10

11

12

13

Quadrimestre

La saisonnalit des entres cinmatographiques en France est annuelle. La structure des


entres subit un creux au deuxime quadrimestre, pour remonter au troisime quadrimestre, lexception de lanne 2004, pour laquelle les ventes continuent de chuter.
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance.
Dans le cadre de la mthode empirique, la tendance est dtermine par des moyennes
mobiles. Puisque la saisonnalit est annuelle, compose de trois quadrimestres, les
moyennes mobiles adaptes sont les moyennes mobiles dordre 3.
La premire moyenne mobile calculable est MM3(2). Explicitons les premiers calculs :
Y1 + Y2 + Y3 61,33 + 48,16 + 63,97
,
soit
MM3(2) = 57,82 ;
=
3
3
Y + Y + Y 48,16 + 63,97 + 67,86
, soit MM3(3) = 60,00.
MM3 ( 3) = 2 3 4 =
3
3

MM3 ( 2 ) =

La dernire moyenne mobile calculable est MM3(11). Les moyennes mobiles figurent
dans la colonne E du tableau de la figure 7.16.
la suite de ces calculs, les carts saisonniers peuvent tre calculs, selon le modle additif. s2 = Y2 MM3(2)2 = 48,16 57,82, soit s2 = 9,66. Les carts s1 et s12 ne sont pas calculables. On trouvera dans la colonne G du tableau de la figure 7.16 les carts saisonniers.

Les sries chronologiques

205

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les coefficients saisonniers sont ensuite calculs en effectuant pour chaque saison
(quadrimestre) la moyenne arithmtique des carts saisonniers disponibles :
s 4 + s7 + s10 2,15 + 2,28 + 9,57
, soit S1 = 4,67 ;
=
3
3
s +s +s +s
9,66 + 0,19 5, 38 7,61
, soit S2 = 5,62 ;
S2 = 2 5 8 11 =
4
4
s + s + s 3,97 0,67 1,06
, soit S3 = 0,75.
S3 = 3 6 9 =
3
3
S1 =

On rappelle que les coefficients saisonniers sont priodiques et que, dans cet exercice, la
priode est de 3 : on a donc calcul S1, S2 et S3.
On calcule ensuite la moyenne m des coefficients saisonniers pour effectuer, si leur
moyenne nest pas nulle, la correction ncessaire au respect de la compensation :
S + S + S 4,67 5,62 + 0,75
m= 1 2 3 =
, soit m = 0,07.
3
3
Do les coefficients saisonniers corrigs, S1 = S1 m = 4,67 + 0,07, soit S1 = 4,73. De
mme, S2 = 5,55 et S3 = 0,81.
Les calculs sont dtaills dans les colonnes H et I de la figure 7.16.
b. Pour le modle additif, la srie ajuste est
Yt = ft + St' , do
Y2 = MM 3 ( 2 ) + S2' = 57,82 5,55 , soit Y2 = 52,27 ; Y3 = T3 + S3' = 60,00 + 0,81 , soit
Y3 = 60,81 . De mme, Y4 = 70, 44 ; Y5 = 59,56 ; Y6 = 63,65 ; Y7 = 63,49 ; Y8 = 52,89 ;
Y = 63,10 ; Y = 67,74 ; Y = 57,27 . Y est indtermin, pour la mme raison que Y .
9

10

11

12

Ces calculs sont dtaills la suite des calculs prcdents, dans la figure 7.16.
c. La srie CVS est diffrente de la srie ajuste, car elle inclut les alas. Pour le modle
additif, la srie CVS est YCVS ( t ) = Yt St' , do YCVS (1) = Y1 S1' = 61,33 4,73 , soit
YCVS (1) = 56,60 . Ces calculs sont dtaills dans la figure 7.16.

3. Les trois courbes sont traces sur le mme graphique, partir des donnes de la figure 7.16,

Figure 7.18
Frquentation des
salles de cinma,
tendance et srie CVS
France.

Frquentation totale (millions)

avec le temps, t, en abscisses, et les diffrentes sries en ordonnes (voir figure 7.18).
80
70
60
50
40
Srie brute
MM3(t)
Ycvs(t)

30
20
10

2003

0
0

206

Statistique descriptive

2004
3

2005
6

2006*
9

10

11 12 13
Quadrimestre

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2 MTHODE EMPIRIQUE ET MODLE MULTIPLICATIF


Une entreprise de location et vente de matriel de montagne ralise lessentiel de son
chiffre daffaires sur deux saisons :
lhiver, avec le matriel de ski ;
lt, avec le matriel de randonne.
Son chiffre daffaires (en milliers deuros) des trois dernires annes est indiqu dans le
tableau suivant :
Saison

2005

2006

2007

Automne

4,86

4,33

3,11

Hiver

6,52

6,73

7,61

Printemps

5,16

4,41

2,83

6,75

7,01

7,51

1. Reprsentez graphiquement cette srie chronologique et justifiez lutilisation du


modle multiplicatif.
2. En estimant la tendance de cette srie par les moyennes mobiles dordre 4 et laide
du modle multiplicatif :
a. Calculez les coefficients saisonniers.
b. Dterminez la srie ajuste.
c. Dterminez la srie CVS.
3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie ajuste.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau
statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t :
Anne

Saison

Yt

2005

Automne

4,86

2005

Hiver

6,52

2005

Printemps

5,16

2005

6,75

2006

Automne

4,33

2006

Hiver

6,73

2006

Printemps

4,41

2006

7,01

Les sries chronologiques

207

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Anne

Saison

Yt

2007

Automne

3,11

2007

Hiver

10

7,61

2007

Printemps

11

2,83

2007

12

7,51

Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la


courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes (voir
figure 7.19).
Figure 7.19

8,00

Ventes par saisons.

7,00

Montant ( )

6,00
5,00
4,00
3,00
2,00
1,00

2005

2006

2007

0,00
0

10 11 12 13
Saison

Les variations des ventes sont damplitudes de plus en plus grandes, le schma ayant un
aspect conique , ce qui justifie de recourir au modle multiplicatif.
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance.
Dans le cadre de la mthode empirique, la tendance sera dtermine par des moyennes
mobiles centres dordre 4 (une saisonnalit annuelle). La premire moyenne mobile
calculable est MM4(3), que nous calculons selon la mthode vue dans la partie thorique
de ce chapitre sur 5 termes :
0,5 Y1 + Y2 + Y3 + Y4 + 0,5 Y5 0,5 4,86 + 6,52 + 5,16 + 6,75 + 0,5 4,33
MM4 ( 3) =
=
,
4
4
soit MM4(3) = 5,76. De mme,
0,5 Y2 + Y3 + Y4 + Y5 + 0,5 Y6 0,5 6,52 + 5,16 + 6,75 + 4,33 + 0,5 6,73
=
,
4
4
soit MM4(4) = 5,72. De mme, MM4(5) = 5,65 ; MM4(6) = 5,59 ; MM4(7) = 5,47 ;
MM4(8) = 5,43 ; MM4(9) = 5,34 ; MM4(10) = 5,20. La tendance est ainsi dtermine par
les valeurs des moyennes mobiles.
MM4 ( 4 ) =

la suite de ces calculs, les variations saisonnires par priode peuvent tre calcules
selon le modle multiplicatif. Les rapports saisonniers s1 et s2 sont indtermins ;
s3 = Y3 / MM4(3) 3 = 5,16 / 5,76, soit s3 = 0,90 ; s4 = 6,75 / 5,72, soit s4 = 1,18. De mme,
s5 = 0,77 ; s6 = 1,20 ; s7 = 0,81 ; s8 = 1,29 ; s9 = 0,58 et s10 = 1,46.

208

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les coefficients saisonniers sont ensuite calculs :


S1 =

s5 + s9
0,77 + 0,58
, car s1 est inconnu, donc S1 =
, soit S1 = 0,68 ;
2
2

S2 =

s6 + s10
1,20 + 1, 46
, donc S2 =
, soit S2 = 1,33 ;
2
2

S3 =

s3 + s7
s + s 0,90 + 0,81
, donc S3 = 3 7 =
, soit S3 = 0,86 ;
2
2
2

S4 =

s4 + s8
s + s 1,18 + 1,29
, donc S4 = 4 8 =
, soit S4 = 1,24.
2
2
2

Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do
S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12.
En appliquant la correction ncessaire au respect de la compensation entre coefficients
S + S + S + S 0,68 + 1,33 + 0,86 + 1,24
, soit m = 1,03.
saisonniers, m = 1 2 3 4 =
4
4
Do les coefficients saisonniers corrigs : S1 = S1 / m = 0,67 / 1,02, soit S1 = 0,66. De
mme, S2 = 1,29 ; S3 = 0,83 et S4 = 1,20.
Comme pour les coefficients saisonniers, S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et
S4 = S8 = S12.
b. Pour le modle multiplicatif, la srie ajuste est Yt = MM 4 ( t ) St' , pour t entier variant
de 3 10. On a : Y = MM ( 3 ) S ' , soit Y = 5,76 0,83 , soit Y = 4,78 ;
3

Y4 = MM 4 ( 4 ) S4' = 5,72 1,20 , soit Y4 = 6,86 . De mme, Y5 = 3,73 ; Y6 = 7,21 ;


Y7 = 4,54 ; Y8 = 6,52 ; Y9 = 3,52 ; Y10 = 6,71 . Pour effectuer ces calculs laide de la
calculatrice, saisissez MM4(t) dans la colonne L1, en saisissant la valeur 0 pour les dates 1,
2, 11, 12, et Sj dans la colonne L2 ; placez le curseur sur len-tte de colonne L3. Indiquez
L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre la srie ajuste
(voir figure 7.20).

c. La srie CVS est diffrente de la srie ajuste car elle inclut les alas. Pour le modle
multiplicatif, la srie CVS est YCVS ( t ) = Yt / St' , do YCVS (1) = Y1 / S1' = 4,86 /0,66 , soit
YCVS (1) = 7, 36 .

YCVS ( 2 ) = Y2 / S2' = 6,52 /1,29 ,

soit

YCVS ( 2 ) = 5,05 .

De

mme,

YCVS ( 3 ) = 6,22 ; YCVS ( 4 ) = 5,63 ; YCVS ( 5 ) = 6,56 ; YCVS ( 6 ) = 5,22 ; YCVS ( 7 ) = 5,31 ;
YCVS ( 8 ) = 5,84 ; YCVS ( 9 ) = 4,71 ; YCVS (10 ) = 6,56 ; YCVS (11) = 3, 41 ; YCVS (12 ) = 6,26 .

Pour effectuer ces calculs, laide de la calculatrice, la suite du tableau prcdent,


saisissez Yt dans la colonne L4, placez le curseur sur len-tte de colonne L5. Indiquez
L5=L4/L2. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre la srie CVS
(voir figure 7.21).

Les sries chronologiques

209

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 7.20 (gauche)


Calculs de la srie ajuste
avec la calculatrice.

Figure 7.21 (droite)


Calculs de la srie CVS avec
la calculatrice.

3. Les trois courbes sont traces sur le mme graphique, partir du graphique prcdemment prsent (voir figure 7.19), avec le temps, t, en abscisses, et les valeurs du chiffre daffaires, Yt, Tt et Yt , en ordonnes (voir figure 7.22).

Figure 7.22

8,00
7,00

Montant ( )

Chiffre daffaires,
tendance et srie
ajuste.

6,00
5,00
4,00
3,00

Srie brute
MM4(t)
Srie ajuste

2,00
1,00

2005

0,00
0

2006
3

2007
7

10

11

12

13
Saison

EXERCICE 3 MTHODE ANALYTIQUE ET MODLE ADDITIF


Le tableau ci-aprs indique les entres trimestrielles, en millions, dans les salles de
cinma en France :
Trimestre

2004

2005

2006*

50,46

45,34

51,63

51,46

41,86

51,06

41,07

35,14

35

52,34

52,99

50,76

* Donnes provisoires - Source : www.cnc.fr, 2007

1. Dterminez la droite de rgression de Yt selon le temps.


2. partir de la droite de rgression de Yt selon le temps et en utilisant le modle additif :
a. Calculez les coefficients saisonniers.
b. Dterminez la srie ajuste.

210

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

3. Reprsentez sur un mme graphique la srie brute, la tendance obtenue par la droite
de rgression et la srie ajuste.
4. la suite des calculs prcdents, calculez la srie CVS.
5. Proposez des prvisions de frquentations trimestrielles pour lanne 2007.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau
statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La
droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au
chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b.
n

Pour cela, il est ncessaire de calculer les valeurs de t , y , V(t) et

t y
i =1

Les moyennes de t et de Y ainsi que la variance de t peuvent tre calcules en utilisant les
fonctions dExcel correspondantes, puisque les donnes sont des donnes uniques (avec
ni = 1 quel que soit i). Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P
dExcel (voir annexe 1.1), ou bien de les calculer comme expos prcdemment (voir
chapitres 2 et 3). On peut aussi utiliser pour t les formules spcifiques (voir chapitre 7,
section 1.3, la mthode MCO). Ces calculs sont dtaills figure 7.23.

Figure 7.23
Rsultats sous Excel.

De l, a =

3 603,10 12 6,5 46,59


= 0,218 et b = 46, 59 + 0,218 6,5 = 48,007 ,
12 11,92

do : ft = 0,218 t + 48,007.
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance.
Dans le cadre de la mthode analytique, ces tendances sont calcules en utilisant
lquation de la droite de rgression. Pour t = 1, f1 = 0,218 1 + 48,007, soit f1 = 47,79 ;
f2 = 0,218 2 + 48,007, soit f2 = 47,57 ; de mme,
f3 = 47,35 ; f4 = 47,14 ; f5 = 46,92 ; f6 = 46,70 ; f7 = 46,48 ; f8 = 46,27 ; f9 = 46,05 ;
f10 = 45,83 ; f11 = 45,61 et f12 = 45,40.

Les sries chronologiques

211

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

la suite de ces calculs, les carts saisonniers par priode sont, selon le modle additif :
s1 = Y1 f1 = 50,46 47,79, soit s1 = 2,67 ; s2 = Y2 f2 = 51,46 47,57, soit s2 = 3,89. De
mme, s3 = 6,28 ; s4 = 5,20 ; s5 = 1,58 ; s6 = 4,84 ; s7 = 11,34 ; s8 = 6,72 ; s9 = 5,58 ;
s10 = 5,23 ; s11 = 10,61 ; s12 = 5,36.
Les coefficients saisonniers sont donc :
S1 =

s1 + s 5 + s9 2,67 1,58 + 5,58


=
, soit S1 = 2,22 ;
3
3

S2 =

s2 + s 6 + s10 3,89 4,84 + 5,23


=
, soit S2 = 1,43 ;
3
3

S3 =

s 3 + s 7 + s11 6,28 11,34 10,61


=
, soit S3 = 9,41 ;
3
3

S4 =

s4 + s8 + s12 5, 20 + 6,72 + 5,36


=
, soit S4 = 5,76.
3
3

Rappelons que les coefficients saisonniers sont priodiques (priode 4, ici), do


S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12.
La compensation entre coefficients saisonniers est respecte, puisque S1 + S2 + S3 + S4 = 0.
Il est donc inutile de corriger les coefficients saisonniers. Les calculs sont dtaills
figure 7.24.

Figure 7.24
Rsultats sous Excel.

b. Pour le modle additif, la srie ajuste est donne par : Yt = ft + St' , do


Y1 = f1 + S1' = 49,79 + 2,22 , soit Y1 = 50,01 ; Y2 = f 2 + S2' = 47,55 1, 43 , soit Y2 = 49,00 .
De mme, Y = 37,94 ; Y = 52,90 ; Y = 49,14 ; Y = 48,13 ; Y = 37,07 ; Y = 52,03 ;
3

Y9 = 48,27 ; Y10 = 47,26 ; Y11 = 36,20 ; Y12 = 51,16 . Ces calculs sont dtaills la suite du
tableau prcdent (voir figure 7.24).
3. Les trois courbes sont reprsentes sur le mme graphique, avec le temps, t, en abscis-

ses, et les valeurs des entres, Yt, ft et Yt , en ordonnes.

212

Statistique descriptive

Figure 7.25
Frquentation des
salles de cinma,
tendance et srie
ajuste France.

Frquentation totale (millions)

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

60
50
40
30
Trend linaire
Srie brute
Srie ajuste

20
10
0

2005

2004
0

2006
7

10

11

12

13

Trimestre

4. Pour le modle additif, la srie CVS est donne par : YCVS ( t ) = Yt St' , do
YCVS (1) = Y1 S1' = 50, 46 2, 22 , soit YCVS (1) = 48, 24 ; YCVS ( 2 ) = Y2 S2' = 51, 46 + 1, 43 ,

soit YCVS ( 2 ) = 50,03 . De mme, YCVS ( 3 ) = 50, 48 ; YCVS ( 4 ) = 46,58 ; YCVS ( 5 ) = 43,12 ;

YCVS ( 6 ) = 40, 43 ; YCVS (7) = 44,55 ; YCVS ( 8 ) = 47, 23 ; YCVS ( 9 ) = 49, 41 ; YCVS (10 ) = 49,63 ;

YCVS (11) = 44, 41 ; YCVS (12 ) = 45,00 . Ces calculs sont dtaills la suite des calculs
prcdents (voir figure 7.24).

5. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de


frquentations trimestrielles pour lanne 2007. En appliquant le coefficient saisonnier
Sj, nous obtenons la srie ajuste qui donne les prvisions de frquentations trimestrielles pour lanne 2007. Ces prvisions sont manier avec prcaution, puisque le modle
de rgression est estim sur la priode 2004-2006 (voir chapitre 6).

Ainsi, au premier trimestre 2007, t = T + h = 12 + 1 = 13, donc :


f13 = 0,218 13 + 48,007, soit f13 = 45,18 ; au deuxime trimestre 2007, t = 14, donc :
f14 = 0,218 14 + 48,007, soit f14 = 44,96. De mme, f15 = 44,74 et f16 = 44,53.
Do Y13 = f13 + S13' = 45,18 + 2,22 , soit Y13 = 47, 40 . La frquentation prvisionnelle pour
le premier trimestre de 2007 est de 47,40 millions dentres.
Y14 = f14 + S14' = 44,96 1, 43 , soit Y14 = 46,39 . La frquentation prvisionnelle pour le
deuxime trimestre de 2007 est de 46,39 millions dentres.

De mme, Y15 = 35, 33 ; Y16 = 50,29 . Les frquentations prvisionnelles pour les
troisime et quatrime trimestres de 2007 sont respectivement de 35,33 et 50,29 millions
dentres.
Ces calculs sont dtaills figure 7.26.
Figure 7.26
Rsultats sous Excel.

Les sries chronologiques

213

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Notons que ce modle permet destimer la frquentation totale de 2007 179,41 millions
dentres. En ralit, le nombre total dentres sur 2007 a t de 178,14 millions dentres
(en donnes provisoires au 4 janvier 2008, selon le CNC).

EXERCICE 4 MTHODE ANALYTIQUE ET MODLE MULTIPLICATIF


partir des donnes de lexercice 2 :
1. Dterminez la droite de rgression de Yt selon le temps.
2. partir de la droite de rgression de Yt selon le temps et en utilisant le modle multiplicatif :
a. Calculez les coefficients saisonniers.
b. Dterminez la srie ajuste.
c. Dterminez la srie CVS.
3. Proposez des prvisions de chiffre daffaires pour lanne 2008.
4. Reprsentez sur un mme graphique la tendance obtenue par la droite de rgression
entre 2005 et 2008 et la srie brute de 2005 2007, prolonge de la srie ajuste en
2008.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau
statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La
droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au
chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b.
n

Pour cela, il est ncessaire de calculer les valeurs de t , y , V(t) et

t y
i =1

Saisissez les valeurs de t dans la colonne L1 et celles de Y dans la colonne L2, comme
indiqu figure 7.27.

Figure 7.27
Saisie du tableau de
donnes avec la
calculatrice.

Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis
choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur
ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de

214

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

statistiques sur les variables t, note X par la calculatrice, et Y, respectivement contenues


dans L1 et L2, sinscrivent (voir figures 7.28a et b).
Figure 7.28a (gauche)
Statistiques sur L1 (t).

Figure 7.28b (droite)


Statistiques sur L2 (Y).

434,70 12 6,5 5,57


= 0,002
12 11,92
Yt = 0,002 t + 5,555.

De l,

a=

et

b = 5,57 0,002 6, 5 = 5,55 ,

do :

2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance.


Dans le cadre de la mthode analytique, la tendance est calcule en utilisant lquation de
la droite de rgression.

Pour t = 1, f1 = 0,002 1 + 5,555, soit f1 = 5,557 ; f2 = 0,002 2 + 5,555, soit f2 = 5,559.


De mme, f3 = 5,561 ; f4 = 5,563 ; f5 = 5,565 ; f6 = 5,567 ; f7 = 5,569 ; f8 = 5,571 ; f9 = 5,573 ;
f10 = 5,575 ; f11 = 5,577 et f12 = 5,579.
Pour calculer les valeurs de la tendance par priode laide de la calculatrice la suite du
tableau prcdent, placez le curseur sur len-tte de colonne L3. Indiquez
L3=0,002L1+5,555. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les
valeurs de la tendance par priode (voir figure 7.29).
Figure 7.29
Calculs des valeurs
de la tendance avec
la calculatrice.

la suite de ces calculs, les rapports saisonniers par priode peuvent tre calculs, selon
le modle multiplicatif. s1 = Y1 / f1 = 4,86 / 5,557, soit s1 = 0,875 ; s2 = Y2 / f2 = 6,52 / 5,559,
soit s2 = 1,173.
De mme, s3 = 0,928 ; s4 = 1,213 ; s5 = 0,778 ; s6 = 1,209 ; s7 = 0,792 ; s8 = 1,258 ;
s9 = 0,558 ; s10 = 1,365 ; s11 = 0,507 ; s12 = 1,346.
Pour calculer les variations saisonnires par priode laide de la calculatrice la suite du
tableau prcdent, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2/L3. Puis
appuyez sur ENTER. La colonne L4 fait alors apparatre les valeurs des rapports saisonniers (voir figure 7.30).

Les sries chronologiques

215

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Figure 7.30
Calculs des valeurs
des rapports
saisonniers avec la
calculatrice.

Les coefficients saisonniers sont ensuite calculs :


S1 =

s1 + s 5 + s 9 0,875 + 0,778 + 0,558


=
, soit S1 = 0,747 ;
3
3

S2 =

s2 + s 6 + s10 1,173 + 1,209 + 1,365


=
, soit S2 = 1,249 ;
3
3

S3 =

s 3 + s 7 + s11 0,928 + 0,792 + 0,507


=
, soit S3 = 0,742 ;
3
3

S4 =

s4 + s8 + s12 1,213 + 1,258 + 1,346


=
, soit S4 = 1,272.
3
3

Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do
S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12.
La compensation entre coefficients saisonniers est respecte, donc les coefficients saisonniers corrigs sont identiques aux coefficients saisonniers.
b. Pour le modle multiplicatif, la srie ajuste est Yt = ft St' , do
Y1 = f1 S1' = 5,557 0,737 , soit Y1 = 4,09 ; Y2 = T2 S2' = 5,559 1,249 , soit Y2 = 6,94 . De
mme, Y = 4,13 ; Y = 7,08 ; Y = 4,10 ; Y = 6,95 ; Y = 4,13 ; Y = 7,09 ; Y = 4,11 ;
3

Y10 = 6, 96 ; Y11 = 4,14 ; Y12 = 7,10 .

c. Pour

le

modle

multiplicatif,

la

srie

CVS

est

YCVS ( t ) = Yt / St' ,

do

YCVS (1) = Y1 / S = 4,86 /0,737 , soit YCVS (1) = 6,60 ; YCVS ( 2 ) = Y2 / S = 6, 52 /1,249 , soit
'
1

YCVS ( 2 ) = 5,22 .

'
2

De

mme,

YCVS ( 3 ) = 6,95 ;

YCVS ( 4 ) = 5,31 ;

YCVS ( 5 ) = 5,88 ;

YCVS ( 6 ) = 5,39 ; YCVS ( 7 ) = 5,94 ; YCVS ( 8 ) = 5,51 ; YCVS ( 9 ) = 4,22 ; YCVS (10 ) = 6,09 ;
YCVS (11) = 3,81 ; YCVS (12 ) = 5,90 .

3. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de


chiffre daffaires pour lanne 2008. En appliquant le coefficient saisonnier Sj, nous
obtenons la srie ajuste qui donne les prvisions de chiffres daffaires trimestriels pour
lanne 2008. Ces prvisions sont manier avec prcaution, puisque le modle de rgression est estim sur la priode 2005-2007 (voir chapitre 6).

Ainsi, au premier trimestre 2008, t = T + H = 12 + 1 = 13, donc f13 = 0,002 13 + 5,555,


soit f13 = 5,583. Au deuxime trimestre 2008, t = 14, donc f14 = 0,002 14 + 5,555, soit
f14 = 5,585. De mme, f15 = 5,587 et f16 = 5,589.

216

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Do Y13 = f13 S13' = 5,583 0,737 , soit Y13 = 4,11 . Le chiffre daffaires prvisionnel pour
le premier trimestre de 2007 est de 4,11 milliers deuros.
Y14 = f14 S14' = 5,585 1,249 , soit Y14 = 6,97 . Le chiffre daffaires prvisionnel pour le
deuxime trimestre de 2007 est de 6,97 milliers deuros.

De mme, Y15 = 4,15 ; Y16 = 7,11 . Les chiffres daffaires prvisionnels pour les troisime
et quatrime trimestres de 2007 sont respectivement de 4,15 et 7,11 milliers deuros.

Figure 7.31
Chiffre daffaires,
tendance et
prvisions.

Chiffre d'affaires trimestriel ( )

4. Les deux courbes sont reprsentes sur le mme graphique (voir figure 7.31), avec le
temps, t, en abscisses, et la tendance ft et les valeurs du chiffre daffaires Yt prolong
de Yt en ordonnes.
8,00
7,00
6,00
5,00
4,00
Srie brute
Trend linaire
Srie ajuste

3,00
2,00
1,00

2005

2006

2007

2008

0,00
0

9 10 11 12 13 14 15 16 17
Trimestre

Les sries chronologiques

217

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Bibliographie
CALOT G., Cours de statistique descriptive, Dunod, 1969.
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DARMOIS G., Statistiques et applications, Armand Colin, 1952.
DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004.
DOR E., conomtrie, Collection Synthex, Pearson Education, 2004.
DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979.
GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement
mathmatique A.P.M.E.P., 1967.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
WONNACOTT T. et R., Statistiques, Economica, 1984.

218

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Les indices
1

1. Les indices lmentaires......220


2. Les indices synthtiques ......226
Problmes et exercices
1. Indices lmentaires ...........236
2. Indices synthtiques............238
3. Coefficients budgtaires
et relation entre indices.......240

Dans de nombreux domaines, notamment dans le domaine


conomique, nous devons savoir dcrire et analyser lvolution
temporelle ou spatiale de diffrentes grandeurs. Les pourcentages ne disposent pas des qualits propres dcrire simplement ces variations1. Lindicateur fondamental de lvolution
des variables conomiques et sociales est lindice.
On distingue deux types dindices : les indices portant sur
une seule grandeur, appels indices lmentaires, et les indices portant sur des grandeurs complexes (agrgation de
plusieurs grandeurs), nomms indices synthtiques dans le
cas o les grandeurs sont de mme nature (indice des prix
regroupant un panier de biens) ou indices composites quand
il sagit de grandeurs de natures diffrentes (lindice boursier
de Shanghai, qui comprend la fois les actions A libelles en
yuans et les actions B libelles en devises, est un indice composite). Il est vivement conseill au lecteur daller explorer le
site de lInsee (www.insee.fr), qui offre une grande richesse
dinformation sur les diffrents indices.

1. Les pourcentages, par exemple, ne sajoutent pas : une hausse de 10 % suivie dune hausse de 20 % correspond une hausse globale de 32 % (coefficient multiplicateur).

219

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous verrons que les indices synthtiques apparaissent comme des moyennes pondres
(arithmtiques, gomtriques ou harmoniques) des indices lmentaires et nous
dfinirons les coefficients budgtaires qui constituent les pondrations.

Les indices lmentaires


Nous commencerons par un petit rappel sur les calculs de variations, avant dexposer les
indices lmentaires et leurs proprits.

1.1

VOCABULAIRE DES VARIATIONS, COEFFICIENT MULTIPLICATEUR


Avant de dfinir les indices, il est important de dire ici quun indice value une variation
et non un niveau et quil mesure cette variation en valeur relative et non absolue. Ainsi,
dire quen 2007 lindice base 100 en 2000 du prix du pain (baguette) est de 123,72 et
celui du caf moulu de 103,8 nindique videmment pas que le prix de la baguette est
suprieur celui du caf, mais que la baguette a augment de 23,72 % de 2000 2007 et
le caf de 3,8 % dans la mme priode.
Nous commencerons donc par clarifier le vocabulaire des outils permettant de mesurer
les variations dune grandeur (conomique, sociale, etc.) et par dfinir le coefficient
multiplicateur.

Dfinitions

La variation absolue dune grandeur G de la date 0 la date t est la diffrence entre la


valeur finale ( la date t) et la valeur initiale ( la date 0) de cette grandeur. Cette variation
absolue est note : G = Gt G0.
Une variation absolue positive traduit une augmentation et une variation ngative une baisse.
La variation relative dune grandeur G de la date 0 la date t est le rapport entre la
variation absolue et la valeur initiale de cette grandeur. Cette variation relative est note :
G / G = (Gt G0) / G0.
Une variation relative sexprime souvent en pourcentage de la valeur initiale, ce pourcentage
tant donn par : (Gt G0) 100 / G0.
Quand une grandeur passe de la valeur G0 la valeur Gt, on note a le coefficient
multiplicateur dfini par : a = Gt / G0.
Un coefficient plus grand que 1 traduit une hausse et un coefficient infrieur 1, une baisse.
On notera que le coefficient multiplicateur ne possde pas dunit.

Exemple 8.1

Coefficient multiplicateur

Le tableau suivant donne la population de la France (France mtropolitaine et DOM) :


Anne

Population (en milliers)

2003

62 042

2004

62 445

Source : Insee, Tableaux de lconomie franaise, 2007

220

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous pouvons calculer la variation absolue, la variation relative et le coefficient multiplicateur


de 2003 2004. Nous noterons respectivement P0 et P1 les populations en 2003 et 2004.
La variation absolue est : P = P1 P0 = 62 445 62 042 = 403 milliers dhabitants.
La variation relative est : P / P = (P1 P0) / P0 = 403 / 62 042 = 0,0065, soit une augmentation de 0,65 %.
Le coefficient multiplicateur est : a = P1 / P0 = 62 445 / 62 042 = 1,0065 ; il est suprieur
1 et traduit une hausse dont le taux est : t = a 1 = 0,0065.
On rappelle que, pour mesurer leffet global de plusieurs variations successives, on doit
employer les coefficients multiplicateurs, comme le montre lexemple 8.2.
Exemple 8.2

Coefficient multiplicateur et pourcentages

Supposons quune grandeur subisse une augmentation de 30 % suivie dune baisse de


10 % et mesurons leffet global de ces variations en pourcentage : nous utiliserons les
coefficients multiplicateurs successifs a1 = 1,30 et a2 = 0,90, ce qui donne un coefficient
multiplicateur global : a = a1 a2 = 1,30 0,90 = 1,17, soit une hausse de 17 %. On
constate que les pourcentages ne sajoutent pas.
Notons p0 le prix hors taxe et p1 le prix TTC, aprs application de la TVA 19,6 %. Dterminons la variation en pourcentage, permettant de revenir du prix TTC au prix HT. On
a : p1 = 1,196 p0, soit p0 = p1 / 1,196, ce qui donne un coefficient multiplicateur a = 1 / 1,196 = 0,8361 quand on passe de p1 p0, soit une baisse de taux :
t = 1 0,8361 = 0,1639, soit 16,39 %. La TVA reprsente 16,39 % du prix TTC affich en
magasin.
On constate que les pourcentages ne sont pas rversibles, cest--dire quune hausse de
19,6 % nest pas neutralise par une baisse de 19,6 %.
Lexemple 8.2 nous a montr les dfauts des pourcentages et la ncessit dutiliser un
outil plus adapt la mesure des variations : lindice.

1.2

INDICES LMENTAIRES BASE 1 ET BASE 100


Pour dcrire les variations de grandeurs simples telles que le prix du baril de ptrole, le
smic, le taux de fcondit, on compare leurs valeurs dans le temps ou dans lespace en
effectuant le rapport des valeurs de la grandeur considre deux dates diffrentes
(indice chronologique), ou en deux lieux distincts (indice spatial).

Dfinitions

Indice base 1 : on appelle indice lmentaire de la grandeur simple G, la date t, base 1


la date 0, le rapport not It / 0 (G) = Gt / G0. La date 0 est appele la date de rfrence, et la
date t la date courante.
On reconnat le coefficient multiplicateur. On notera que I0 / 0 (G) = 1.
Indice base 100 : on appelle indice lmentaire de la grandeur simple G, la date t,
base 100 la date 0, le rapport not It / 0 (G) et dfini par : It / 0 (G) = (Gt / G0) 100.
On notera que I0 / 0 (G) = 100.

Les indices

221

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Un indice ne possde pas dunit. Un indice suprieur 100 reprsente une hausse et un
indice infrieur 100 une baisse. On parlera souvent danne de base ou danne de rfrence pour dnommer la date 0.
Les indices base 100 sont les plus courants, car bien adapts aux pourcentages. On notera
que les bases 1 ou 100 napparaissent pas dans la notation, mais quon indique au dpart
le type dindice utilis.
Exemple 8.3

Indices base 1 et base 100

Reprenons lexemple 8.1. Nous pouvons crire, en notant P la population de la France :


I2004 / 2003 (P) = 1,0065 en utilisant un indice base 1, ce qui signifie que la population a
augment de 2003 2004 comme une grandeur qui valait 1 en 2003 et qui vaut 1,0065 en
2004.
Si lon utilise un indice base 100, on notera : I2004 / 2003 (P) = 100,65, ce qui donne la mme
variation quune grandeur qui valait 100 en 2003 et 100,65 en 2004.
Il est possible de calculer le pourcentage de variation entre deux priodes grce aux deux
indices relatifs ces priodes. partir de deux indices base 100 anne 0, dune mme
grandeur, aux dates respectives t1 et t2, la variation en pourcentage de la grandeur de
lanne t1 lanne t2 est donne par la variation relative de lindice :
It2 /0 (G) It1/0 (G)
100 . Au numrateur, la variation absolue It2/0 (G) It1/0 (G) se mesure
It1/0 (G)
en points dindice.
Exemple 8.4

Points dindice et variation en pourcentage

Le tableau suivant donne la population de la France (en milliers, source Insee 2007) et les
indices base 100 en 1990 :
Anne

Pt

It / 1990 (P)

1990

58 171

100,00

2000

60 751

104,44

2005

62 818

107,99

Utilisons les indices It / 1990 (P) pour dterminer la variation en pourcentage de la population de 2000 2005.
De 2000 2005 la variation absolue de lindice a t de : I2005 / 1990 (P) I2000 / 1990
(P) = 107,99 104,44 = 3,55 ; lindice a augment de 3,55 points dindice de 2000 2005 ;
on dit aussi que cet indice a pris 3,55 points dindice.
On peut valuer la variation en pourcentage de la population de 2000 2005 en valuant
la variation relative de lindice, cest--dire : (I2005 / 1990 (P) I2000 / 1990 (P)) / I2000 / 1990
(P) = 3,55 / 104,44 = 0,034, soit une hausse de 3,4 %.

222

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.3

PROPRITS DES INDICES LMENTAIRES


Les indices lmentaires possdent des proprits qui manquent aux pourcentages et que
nous allons exposer ici. Ces proprits sont dtailles dans le focus 8.1. On notera au
pralable que les formules sur les indices lmentaires sont donnes sous forme duale :
en base 1 pour la comprhension et en base 100 pour lusage.

La circularit, ou transfrabilit
Cest la proprit fondamentale des indices, qui permet de voyager dans le temps et qui se
1
traduit par une relation multiplicative, de type relation de Chasles . On rappelle que la relaJJJG JJG JJJG
tion de Chasles est la relation vectorielle MP + PS = MS , qui lie trois points quelconques de
lespace. Cest une relation base sur la correspondance (type SNCF) : pour aller de Marseille
Strasbourg, allez de Marseille Paris et prenez la correspondance Paris pour Strasbourg.
Dfinition

Un indice est transfrable si et seulement si il vrifie la relation :


pour les indices base 1 : It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G) ;
pour les indices base 100 : 100It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G).

On devra contrler dans les formules base 100 lhomognit. Dans la formule multiplicative prcdente il y a deux indices dans le membre de droite et un seul dans celui de
gauche, il y a donc un facteur 100 pour quilibrer la relation.
Proprit

Les indices lmentaires sont transfrables.

La rversibilit
La rversibilit consiste permuter lanne courante et lanne de rfrence.
Dfinition

Un indice est rversible si et seulement si il vrifie la relation :


pour les indices base 1 : It1 / 0 (G) = 1 / I0 / t1 (G) ;
pour les indices base 100 : It1 / 0 (G) = 10000 / I0 / t1 (G).

On notera que ces formules dcoulent de la circularit.


En base 1, It1 / 0 (G) I0 / t1 (G) = It1 / t1 (G) = 1 (base 1). On retrouve une relation de Chasles
avec un aller-retour .
It1 / 0 (G) I0 / t1 (G) = 100It1 / t1 (G) = 100 (base 100).
Proprit

Les indices lmentaires sont rversibles.

Lenchanement
Dans de nombreuses situations, on doit suivre lvolution dune grandeur dune anne
sur lautre et on utilise alors des indices chanes, en prenant pour anne de rfrence
lanne qui prcde lanne courante.
1. Michel Chasles, mathmaticien franais (1793-1830) dont le nom est li la relation du mme nom.

Les indices

223

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dfinition

Les indices chanes sont des indices pour lesquels lanne de rfrence est lanne qui
prcde lanne courante. Ils sont nots : It / t 1 (G).
La gnralisation de la transfrabilit donne :
pour les indices base 1 : It / t 1 (G) It

1/ t 2

(G) ) I1 / 0 (G) = It / 0(G) ;


t1

pour les indices base 100 : It / t 1 (G) It 1 / t 2 (G) ) I1 / 0 (G) = 100


il y a t indices dans le membre de gauche et un seul droite).
Proprit

Focus 8.1

It / 0(G) (car

Les indices lmentaires sont enchanables.

Proprits des indices lmentaires


Le tableau suivant donne le prix moyen TTC de leau la consommation en mtropole,
en janvier de chacune des annes. Ces prix sont suivis des indices du prix de leau
base 100 en 2002 et des indices enchans (I2002 / 2001 ntant pas calculable, puisque 2001
nest pas communiqu).
Anne

Prix

It / 2002 (P)

It / t 1 (P)

2002

165,65

100

2003

170,45

102,90

102,90

2004

172,19

103,95

101,02

2005

178,93

108,02

103,91

2006

187,19

113,00

104,62

Source : Insee, 2007

On vrifie lensemble des proprits des indices lmentaires :


Circularit : on a (base 100) : I2005 / 2003 (P) = (178,93 / 170,45) 100, I2003 / 2002 (P)
= (170,45 / 165,65) 100 et I2005 / 2002 (P) = (178,93 / 165,65) 100 ; on vrifie sans
effectuer les calculs la circularit : I2005 / 2003 (P) I2003 / 2002 (P) = 100 I2005 / 2002 (P), le facteur
170,45 (prix intermdiaire de 2003) sliminant.
Rversibilit : on a (base 100) I2005 / 2002 (P) = (178,93 / 165,65) 100 = 108,02 et I2002 / 2005 (P)
= (165,65 / 178,93) 100, et on tablit : I2005 / 2002 (P) I2002 / 2005 (P) = 10 000 soit la formule de rversibilit, ce qui donne : I2002 / 2005 (P) = 10 000 / 108,2 = 92,42.
Interprtation : de 2002 2005 le prix de leau a augment de 8,02 %. La rversibilit
permet de conclure quen 2002 le prix de leau tait 7,58 % (100 92,42) moins lev
quen 2005.
Indices enchans : on peut vrifier que I2006 / 2005 (P) I2005 / 2004 (P) I2004 / 2003 (P) I2003 / 2002
(P) = 113 003 320 soit environ (approximations) :
100 I2006 / 2002 (P) = 1 000 000 (187,19 / 165,5) 100.
3

224

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Oprations
Les indices lmentaires possdent des proprits prcieuses relatives au produit et au
quotient.
Proprits

Produit
En base 1, lindice lmentaire dun produit de deux grandeurs est le produit des indices.
En base 100, on a : It / 0(A B) = It / 0(A) It / 0(B) / 100.
Quotient
En base 1, lindice lmentaire dun quotient de deux grandeurs est le quotient des indices.
En base 100, on a : It / 0(A / B) = (It / 0(A) / It / 0(B)) 100.

On citera notamment lindice de pouvoir dachat, qui sobtient par la formule :


It / 0(Pouvoir achat) = (It / 0(S) / It / 0(P)) 100, S dsignant le salaire et P les prix. Il sagit
donc du quotient de lindice des salaires nominaux par lindice des prix.
Exemple 8.5

Indices lmentaires et oprations

Daprs une tude de lInsee, de 1986 1998, le nombre dentres au cinma est pass de
170 millions 160 millions alors que le prix de la place de cinma passait de 4 5,90 .
Dans le tableau suivant, on note P le prix dune place (en euros), Q la quantit de places
vendues (en millions) et V la valeur globale (qui correspond ici la recette : V = P Q).
Anne

1986

170

680

1998

5,9

160

944

Source : Insee, 2002

On peut calculer les indices lmentaires de quantit et de prix en 1998, base 100 en 1986.
On a : I1998 / 1986 (P) = (5,90 / 4) 100 = 147,5 ; I1998 / 1986(Q) = (160 / 170) 100 = 94,12 et
I1998 / 1986(V) = (944 / 680) 100 = 138,82.
On vrifie que I1998 / 1986(V) = I1998 / 1986(P) I1998 / 1986(Q) / 100 = 147,5 94,12 / 100.
Ainsi, la hausse de 38,82 % de la recette est due leffet conjugu dune baisse de la
quantit et dune augmentation du prix.

Les indices

225

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

1.4

LINDEXATION
La publication des grands indicateurs fait rgulirement la une des journaux, et lindice
des prix tient rgulirement la vedette, du fait quil joue un rle central dans
lapprciation de la situation conomique du pays, mais aussi de par les rpercussions
1
importantes quil entrane par le biais des indexations .
er

Le smic est revaloris au 1 juillet de chaque anne, notamment en fonction de


lvolution de lindice des prix la consommation (indice pour les mnages urbains
dont le chef est ouvrier ou employ, hors tabac ). Lindexation a pour but dassurer un
maintien du pouvoir dachat ; elle ncessite une dure ou priodicit (lanne, dans le cas
er
du smic), une date (1 juillet, pour le smic) et un indice de rfrence. Lexemple 8.6
donne un exemple pour un loyer index sur lindice du cot de la construction (ICC, indice trimestriel).
Exemple 8.6

Indexation

Supposons quun locataire ait sign le 15 janvier 2007 un bail avec un loyer mensuel de
750 euros, ce loyer tant rvalu chaque anne la date anniversaire du bail, lindice de
e
rfrence tant lindice du cot de la construction (ICC) du 2 trimestre 2006. Lindice du
e
e
cot de la construction du 2 trimestre 2006, base 100 au 4 trimestre 1953, vaut 1 366 et
e
celui du 2 trimestre 2007, 1 435. Calculons le loyer de ce locataire au 15 janvier 2008.
Ce loyer va suivre la progression de lindice sur un an, ce qui donne un coefficient multiplicateur a = 1435 / 1366 = 1,0505, ce qui donnera un nouveau loyer de :
750 1,0505 = 787,88 euros.

Les indices synthtiques


sa cration en 1946, lInsee a repris lindice des 34 articles tabli base 100 en 1914 et
base 100 en 1938, calcul par la Statistique gnrale de la France, et qui faisait suite un
indice de 13 articles publi depuis 1916. La liste des 34 articles comprenait 29 denres
alimentaires, 4 articles de chauffage et clairage, un seul article (le savon) pour lentretien
mnager ; la plupart des produits manufacturs, dont lhabillement, ntaient pas reprsents, les services tant compltement absents.
Lindice a beaucoup volu, et lIPC (indice des prix la consommation) base 1998 est la
septime gnration dindice. Il couvre lensemble de la population et du territoire
(mtropole et DOM) et se dcompose aujourdhui en 305 postes, chacun deux tant
reprsent par un indice ( ufs , pantalons pour enfants , coiffeurs pour femme ,
maisons de retraite ). Il exclut le tabac et les alcools.
On comprend que le problme pour composer un bon indice des prix vient de la
difficult prendre en compte limportance de chacun des postes dans la constitution
dun indice synthtique et tenir compte des volutions des modes de consommation.
1. Index dsignait, chez les Romains, celui qui montre .

226

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Focus 8.2

Comment construire un indice synthtique ?


Le tableau suivant donne pour les annes 2001 et 2007 les valeurs du smic horaire brut
en euros (heures lgales). On a suppos une majoration de 25 % pour les heures supplmentaires en 2001 et de 40 % en 2007 ; les dures lgales du travail mensuel sont celles
qui ont prvalu dans les entreprises dans la priode du passage aux 35 heures et on a
suppos que lemploy moyen assurait en 2001 en moyenne 2 heures supplmentaires
par mois et en 2007 4 heures supplmentaires par mois.
Comment dfinir un bon indice de salaire en 2007, base 100 en 2001 ?
Heures

Smic 2001

Lgales

6,67

Supplmentaires

8,3375

Quantit 2001
169
2

Smic 2007

Quantit 2007

8,44

151,67

11,816

On peut calculer pour chacune des annes un salaire global, not S, et en dduire ainsi
un indice : S2001 = 169 6,67 + 2 8,3375 = 1 143,90 et
S2007 = 151,67 8,44 + 4 11,816 = 1 327,36 , ce qui donnerait pour lindice de salaire
global : I2007 / 2001 (S) = (1 327,36 / 1 143,9) 100 = 116,03, soit une augmentation de
16,03 %. Cependant, cet indice est brouill , dans la mesure o sa signification traduit
simultanment une volution de la quantit dheures de travail et une volution du
salaire horaire, sans que lon puisse isoler limpact de ces volutions. Pour rsumer les
indices lmentaires de salaire, on va donc introduire un indice synthtique de salaire
horaire, de faon gommer linfluence due la variation des quantits, en les considrant comme constantes. On peut alors opter pour deux possibilits :
Fixer les quantits leur niveau pris lanne de base, cest--dire privilgier le mode de
travail du salari de 2001. On forme alors lindice de Laspeyres des salaires horaires,
not : L2007 / 2001(s) = (169 8,44 + 4 11,816) / (169 6,67 + 2 8,3375) 100
= (1 449,99 / 1 143,91) 100 = 126,76.
Fixer les quantits leur niveau pris lanne courante, cest--dire privilgier le mode
de travail du salari de 2007. On forme lindice de Paasche des salaires horaires, not :
P2007 / 2001(s) = (151,67 8,44 + 4 11,816) / (151,67 6,67 + 4 8,3375) 100
= (1 327,36 / 1 044,99) 100 = 127,02.
Le choix entre ces deux indices prsente un certain arbitraire, et nous verrons plus
1
loin que le statisticien amricain Fisher a propos dans les annes 1920 un indice
idal , qui est la moyenne gomtrique des deux indices prcdents.
2

Nous allons maintenant dfinir les indices synthtiques de Laspeyres et de Paasche ,


indices de prix et de quantits. Ces indices vont respecter le principe voqu dans le focus
prcdent : dans un indice de prix, seuls les prix varient, les quantits restant constantes,
1. Irving Fisher, conomiste, mathmaticien amricain (1867-1947).
2. tienne Laspeyres, conomiste, statisticien allemand (1834-1913).
3. Hermann Paasche, statisticien, conomiste allemand (1851-1925).

Les indices

227

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

et, dans un indice de quantit, seules les quantits varient, les prix restant fixes. Auparavant nous allons introduire les notations et dfinir les coefficients budgtaires.

2.1

LES COEFFICIENTS BUDGTAIRES


Soit un panier de consommation, compos de n produits, le produit i (i entier variant
de 1 n) ayant pour prix unitaires respectifs Pi0 et Pit aux annes de base (anne 0) et
courante (t), les quantits consommes tant respectivement notes Qi0 et Qit .
On notera respectivement Vi 0 et Vit les valeurs globales du bien i aux dates 0 et t et V 0 et
V t les valeurs globales de ce panier aux annes de base et courante, avec Vi0 = Pi0Qi0 ,
n

i =1

i =1

Vit = Pit Qit , V 0 = Pi0Qi0 et V t = Pit Qit .


Dfinition

tant donn un panier de consommation, on appelle coefficient budgtaire dun bien j de ce


panier, lanne 0 (respectivement lanne t), la part du budget total de lanne 0
(respectivement lanne t) affecte au bien j ; ce coefficient sera not C j0 (respectivement C jt )
et dfini par : C j0 =

Pj0Q j0
n

Pi 0Qi0

Pj0Q j0
V0

(respectivement C jt =

i =1

On a :

Ci0 =
i =1

Pjt Q jt
n

Pit Qit

Pjt Q jt
Vt

).

i =1

C
i =1

t
i

= 1 ou 100 % sils sont exprims en pourcentage (voir les masses

relatives, chapitre 4, section 3 sur la concentration).


Exemple 8.7

Coefficients budgtaires

Considrons le panier de consommation suivant compos de deux denres, la baguette


de pain et la viande de buf, lanne de rfrence tant lanne 1980 et lanne courante,
lanne 2003.
Les quantits de consommation Q sont donnes pour un mois, en nombre de baguettes
et en kilos de viande. Les prix sont nots P et les valeurs globales V.

Q i0 1980

P i0 1980

V i0 1980

Q it 2003

P it 2003

V it 2003

Baguette

21,00

0,15

3,20

18,00

0,75

13,50

Viande
de buf

1,23

6,74

8,30

2,10

16,50

34,58

Bien

V 0 = Pi0Qi0 = 3,20 + 8,30 , soit V = 11,50 et


i =1

V = 48,08.

228

Statistique descriptive

V t = Pit Qit = 13,50 + 34,58 , soit


i =1

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Calculons les coefficients budgtaires de chacun des biens lanne de base et lanne
V 0 3,20
courante. On a pour le bien 1 (pain) : C10 = 10 =
= 0,2783 , soit 27,83 % du budget
V
11,51
du consommateur de 1980 consacr au pain. On trouve de mme :
V 0 8,30
13,50
13,50
C20 = 20 =
= 0,7217 ; C1t =
= 0,2808 et C2t =
= 0,7192 .
V
11,51
48, 08
48, 08

2.2

LES INDICES DE LASPEYRES


Nous allons dfinir deux indices de Laspeyres, lun relatif au prix, lautre aux quantits.

Indice des prix de Laspeyres


Dfinition

On appelle indice des prix de Laspeyres, anne t, base 100 lanne 0, lindice not Lt / 0(P)
n

obtenu en fixant les quantits lanne de base. Il est dfini par : Lt / 0 (P ) =

Q P
i =1
n

0 t
i i

Qi0Pi 0

100 .

i =1

On a : Lt / 0 ( P ) =

Qi0 Pit
i =1
n

Q P

Q P

0 t
i i

100 =

0 0
i i

i =1

Qi0 Pi0 Pit


( 0 100) ; on reconnat dans
0
Pi
i =1 V
n

100 =

i =1

Qi0 Pi0
est Ci0 le coefficient
V0
budgtaire du bien i, lanne de base. On rappelle que les coefficients budgtaires de
lanne 0 ont pour somme 1. Do la proprit suivante.

la parenthse lindice lmentaire du bien i et le coefficient

Proprit

Lindice des prix de Laspeyres est la moyenne arithmtique pondre des indices lmentaires
de prix des biens composant le panier. Les coefficients de pondration sont les coefficients
budgtaires de lanne de base.

Exemple 8.8

Indice des prix de Laspeyres

Reprenons lexemple 8.7 et calculons lindice des prix de Laspeyres en 2003, base 100 en 1980.
2

L2003 /1980 ( P ) =

Q P

0 t
i i

i =1
2

Q P

0 0
i i

100 =

21 0,75 + 1,23 16,5


100 = 313,66 , soit une augmenta21 0,1525 + 1,23 6,74

i =1

tion de 213,66 %. Laspeyres sintresse au mode de consommation du consommateur de


1980 : si ce dernier consomme en 2003 de la mme faon quen 1980, cela lui cotera
213,66 % plus cher.

Les indices

229

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

En utilisant la proprit de lindice des prix de Laspeyres, on trouve effectivement que la


valeur de cet indice est la moyenne arithmtique des indices lmentaires de prix pondre par les coefficients budgtaires de lanne de base : pour la baguette,
0,75
I 2003 /1980 ( P1 ) =
100 = 491,80 et C10 = 0,2783 ; pour la viande de buf,
0,1525
16,5
I 2003 /1980 ( P2 ) =
100 = 244,96 et C20 = 0,7217 , ce qui donne pour lindice des prix de
6,74
Laspeyres : L2003 /1980 ( P ) = 0,2783 491,8 + 0,7217 244,96 = 313,66 .

Indice des quantits de Laspeyres


Dfinition

On appelle indice des quantits de Laspeyres, anne t, base 100 lanne 0, lindice not
Lt / 0(Q) obtenu en fixant les prix lanne de base. Il est dfini par :
n

L t / 0 (Q ) =

P Q
i =1
n

t
i

Pi 0Qi0

100

i =1

Proprit

Lindice des quantits de Laspeyres est la moyenne arithmtique pondre des indices
lmentaires de quantits des biens composant le panier. Les coefficients de pondration sont
les coefficients budgtaires de lanne de base.

Exemple 8.9

Indice des quantits de Laspeyres

Reprenons lexemple 8.7 et calculons lindice des quantits de Laspeyres en 2003, base
2

P Q
0

100 en 1980 : L2003 /1980 ( Q ) =

t
i

i =1
2

P Q
0

100 =

0
i

0,1525 18 + 6,74 2,1


100 = 146,54 , soit
0,1525 21 + 6,74 1,23

i =1

une augmentation de 46,54 % des quantits.

Indice de Laspeyres chan


En pratique, lIPC (indice des prix la consommation) est un indice de Laspeyres et pose
donc la question fondamentale : combien de temps garder le mme panier ?
En France, le panier est mis jour chaque anne et lindice est calcul sous la forme dun
indice de Laspeyres chan annuellement. Les pondrations utilises pour agrger les
21 000 indices lmentaires sont mises jour chaque anne.
On adopte en gnral pour les sries mensuelles le mois de dcembre prcdent comme
base intermdiaire.
Par exemple : I dc 2007 / 98 ( P ) =
formule de Laspeyres.

230

Statistique descriptive

I dc 2007 / dc 2006 I dc 2006 / 98


, les indices tant calculs avec la
100

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous rappelons ici que mathmatiquement lindice de Laspeyres nest pas transfrable, mme si, dans la pratique, sur des priodes courtes, on obtient des approximations
acceptables.

2.3

LES INDICES DE PAASCHE


Nous allons dfinir deux indices de Paasche, lun relatif au prix, lautre aux quantits.

Indice des prix de Paasche


Dfinition

On appelle indice des prix de Paasche, anne t, base 100 lanne 0, lindice not Pt / 0(P)
n

obtenu en fixant les quantits lanne courante. Il est dfini par : Pt / 0 (P ) =

Q P
i =1
n

t t
i i

Q P
i =1

100 .

t 0
i i

On a :
n

Pt / 0 {P} =

Q P

t t
i i

i =1
n

Q P
i =1

100 =

t 0
i i

Vt
n

Q P
i =1

t 0
i i

100 =

Vt
P0
Qit Pit i t

i =1
Pi
n

100 =

1
1
;
= n
0
Cit

QP
Pi

t
i =1 V
100Pi i =1 I t / 0 ( Pi )
n

t t
i i
t

on reconnat dans la parenthse linverse de lindice lmentaire du prix du bien i et le


Qt P t
coefficient i t i est Cit , le coefficient budgtaire du bien i, lanne courante. Do la
V
proprit suivante.
Proprit

Lindice des prix de Paasche est la moyenne harmonique pondre des indices lmentaires
de prix des biens composant le panier. Les coefficients de pondration sont les coefficients
budgtaires de lanne courante.

Exemple 8.10

Indice des prix de Paasche

Reprenons lexemple 8.7 et calculons lindice de Paasche des prix en 2003, base 100 en
1980, de deux faons : partir de la dfinition et comme moyenne harmonique des indices lmentaires de prix.
2

L2003 /1980 ( P ) =

Q P

t t
i i

100 =

i =1
2

Q P
t
i

18 0,75 + 2,10 16,5


100 = 285,14 , soit une augmenta18 0,1525 + 2,10 6,74

i =1

tion de 185,14 %. Paasche sintresse au mode de consommation du consommateur de


2003 : si ce dernier avait consomm en 1980 de la mme faon quen 2003, cela lui aurait
cot 185,14 % plus cher en 2003 quen 1980.
En utilisant la proprit de lindice des prix de Paasche, on vrifie que la valeur
de cet indice est la moyenne harmonique des indices lmentaires de prix pon-

Les indices

231

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

dre par les coefficients budgtaires de lanne courante : pour la baguette,


0,75
I 2003 /1980 ( P1 ) =
100 = 491,80 et C10 = 0,2808 ; pour la viande de buf,
0,1525
16,5
I 2003 /1980 ( P2 ) =
100 = 244,96 et C2t = 0,7192 , ce qui donne pour lindice des prix de
6,74
1
1
Laspeyres : Pt / 0 ( P ) = 2
=
= 285,14 .
t
0,2808
0,7192
Ci
+

491,8 244,96
i =1 It /0 ( Pi )
On note que lindice des prix de Paasche est infrieur lindice des prix de Laspeyres, ce
qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison entre ces indices
(voir section 2.4).

Indice des quantits de Paasche


Dfinition

On appelle indice des quantits de Paasche, anne t, base 100 lanne 0, lindice not
Pt / 0(Q) obtenu en fixant les prix lanne courante. Il est dfini par :
n

Pt / 0 (Q ) =

P Q
i =1
n

P Q
i =1

t
i

100 .

0
i

Proprit

Lindice des quantits de Paasche est la moyenne harmonique pondre des indices
lmentaires de quantits des biens composant le panier, les coefficients de pondration tant
les coefficients budgtaires de lanne courante.

Exemple 8.11

Indice des quantits de Paasche

Reprenons lexemple 8.7 et calculons lindice de Paasche des quantits en 2003, base 100
2

P Q
t

en

1980 :

P2003 /1980 ( Q ) =

i =1
2

t
i

Pit Qi0

0,75 18 + 16, 50 2,1


100 = 133,22 ,
0,75 21 + 16,50 1,23

soit

une

i =1

augmentation de 33,22 % des quantits.


On note que lindice des quantits de Paasche est infrieur lindice des quantits de
Laspeyres, ce qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison
entre ces indices (voir section 2.4).

232

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2.4

LIENS ET COMPARAISONS ENTRE LES INDICES DE LASPEYRES ET DE PAASCHE


Les indices de Paasche et de Laspeyres ne possdent pas les proprits de circularit et de
rversibilit des indices lmentaires. Ils ne vrifient pas non plus la proprit relative au
produit mais sont lis par une relation faisant intervenir lindice de valeur globale.

Indice de valeur globale


n

P Q
t

V
Lindice de valeur globale est donn par : I t /0 (V ) = 0 100 =
V

i =1
n

t
i

Pi0Qi0

100 . On

i =1

rappelle (voir section 2.1) que V et V sont les valeurs globales dun panier aux annes
n

i =1

i =1

de base et courante, telles que V 0 = Pi0Qi0 et V t = Pit Qit .


Proprit

Lindice de valeur globale est li aux indices de Laspeyres et de Paasche par la relation
suivante : 100It / 0 (V ) = Lt / 0 (P ) Pt / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (P ) .

La preuve est immdiate, elle sobtient en utilisant les dfinitions des indices de Laspeyres
et de Paasche.

Comparaison et utilisation des indices de Laspeyres et de Paasche


Lindice de Laspeyres est le plus couramment utilis, car il permet de conserver la mme
pondration pour toutes les annes : celle de lanne de base. Cet avantage du point de
vue des calculs devient vite un inconvnient, car le panier fig sloigne de plus en
plus de la ralit conomique.
Pour un indice de prix, par exemple, lindice de Laspeyres pondre les diffrents articles
proportionnellement aux habitudes de consommation du pass, alors que celui de
Paasche prend en compte les habitudes de consommation actuelles.
Lincorporation invitable dans les indices de prix darticles dont la quantit produite a
nettement augment et dont le prix relatif a de ce fait souvent diminu, introduit des
disparits dans les rsultats obtenus pour les indices de Paasche et de Laspeyres.
Mathmatiquement, on dmontre que la moyenne harmonique est infrieure ou gale
la moyenne arithmtique. Lindice de Laspeyres tant une moyenne arithmtique des
indices lmentaires et lindice de Paasche une moyenne harmonique, en gnral ,
lindice de Paasche sera infrieur ou gal lindice de Laspeyres. Cependant, il faut
prendre en compte que la situation est plus complexe. Les coefficients de pondration
tant diffrents, ils peuvent influer sur la tendance de lindice de Laspeyres surestimer
les variations et celle de lindice de Paasche la sous-estimer.
Dans le cas dun indice de prix, le jeu des substitutions renforce le phnomne : on
cesse en gnral dacheter un produit dont le prix augmente pour le remplacer par un
produit substituable, au prix plus avantageux, et lindice de Laspeyres, qui utilise les
quantits de la priode de dpart, donne un poids trop grand aux produits dont les

Les indices

233

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

prix augmentent beaucoup, alors que la part de ces produits va diminuer dans le
panier du consommateur.
Proprit

2.5

Pseudo-rversibilit : si lon inverse le temps dans un indice de Laspeyres, on obtient une


relation qui sapparente la rversibilit, mais avec un indice de Paasche,
104
L 0 / t (P ) Pt / 0 (P ) = 104 , soit L 0 / t (P ) =
.
Pt / 0 (P )

LINDICE IDAL DE FISHER


En 1922, lconomiste amricain Irving Fisher propose un indice synthtique quil qualifie didal, dans la mesure o il est rversible.

Dfinition

Lindice synthtique de Fisher est dfini comme tant la moyenne gomtrique des indices de
Laspeyres et de Paasche.
Pour les prix : Ft / 0 (P ) = Lt / 0 (P ) Pt / 0 (P ) .
Pour les quantits : Ft / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (Q ) .

Proprit

Rversibilit de lindice de Fisher :


F0 / t (P ) = L 0 / t (P ) P0 / t (P ) =

Exemple 8.12

104
104
10 4
104

=
=
.
Pt / 0 (P ) Lt / 0 (P )
Lt / 0 (P ) Pt / 0 (P ) Ft / 0 (P )

Indice des prix de Fisher

Reprenons lexemple 8.7 et calculons lindice des prix de Fisher, en 2003, base 100 en
1980 :
F2003 /1980 ( P ) = L2003 /19800 ( P ) P2003t /19800 ( P ) = 313,66 285,14 = 299, 06 , soit une aug-

mentation de 199,06 %.
On notera que lindice de Fisher est toujours compris entre lindice de Paasche et celui de
Laspeyres puisquil est dfini comme leur moyenne gomtrique.

234

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Conclusion
lissue de ce chapitre, le lecteur doit connatre les diffrents indices, lmentaires et
synthtiques, ainsi que leurs proprits qui sont rsumes dans le tableau ci-aprs. Mais
il est videmment extrmement important ce stade de se familiariser avec les grands
indices conomiques, boursiers, et de donner un sens ces formules.
Indice

Laspeyres (1864)

Paasche (1874)

Fisher (1922)

Notation

Rfrence

Anne de base

Anne courante

Moyenne

Arithmtique

Harmonique

Gomtrique

Pondrations Coefficients budgtaires anne de base Coefficients budgtaires anne courante


Rversibilit Non

Non

Oui

Circularit

Non

Non

Non

Agrgation

Oui

Oui

Non

Effet

Survalue la hausse

Sous-value la hausse

On note que :
La moyenne gomtrique de deux nombres est comprise entre ces deux nombres, on
a donc en gnral : Pt / 0 Ft / 0 Lt / 0 .
Les
trois
indices
synthtiques
sont
lis
par
la
relation :
Ft / 0 ( P ) Ft / 0 ( Q ) = Lt /0 ( P ) Pt /0 ( Q ) = Lt /0 ( Q ) Pt / 0 ( P ) = 100 I t /0 (V ) . Cette relation
se dmontre facilement partir de la dfinition de lindice de Fisher et de la relation
liant les indices de Laspeyres, Paasche et lindice de valeur globale (section 2.4).
Lindice de Fisher na pas une structure de moyenne comme les indices de Paasche et
de Laspeyres ; il ne satisfait pas la proprit dagrgation. En effet, les indices de
Laspeyres et de Paasche ont des structures de moyennes, ce qui permet dutiliser des
moyennes partielles, cest--dire de scinder lensemble considr en plusieurs sousensembles ; ces indices possdent la proprit dagrgation. Par exemple, pour
calculer lindice des prix la consommation, qui regroupe 305 postes de dpenses, on
utilise la formule de Laspeyres, mais, au pralable, on procde des regroupements
par grandes fonctions : alimentation, produits manufacturs, services, etc., on calcule
les indices partiels de Laspeyres de chacun de ces regroupements, puis on effectue la
moyenne arithmtique des indices partiels en prenant pour coefficients de
pondration les parts de chacun de ces regroupements dans la valeur de la
consommation totale. On a alors agrg les produits en groupes, et on peut publier
des indices partiels.

Les indices

235

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Problmes et exercices
Les indices autorisent les comparaisons de donnes longitudinales, en figeant un point de
comparaison selon la base annuelle retenue.
Lexercice 1 expose le calcul des indices lmentaires et leurs proprits.
Lexercice 2 sintresse aux indices particuliers que sont les indices synthtiques.
Lexercice 3 propose une lecture de ces indices par les coefficients budgtaires et
montre que ces indices sont lis entre eux.

EXERCICE 1 INDICES LMENTAIRES


Les sries suivantes indiquent lvolution du revenu moyen disponible par mnage et celle
du nombre de mnages (France). Par ailleurs, on dfinit le revenu disponible des Franais
par la multiplication du revenu moyen disponible par mnage avec le nombre de mnages.
Anne

Revenu moyen disponible par mnage ()

Nombre de mnages (milliers)

1975

23 016

17 745

1990

26 529

21 542

1999

26 612

23 808

Source : Insee, recensement de la population, 1999

1. Calculez les indices relatifs au revenu moyen disponible par mnage, nots IRM :
a. IRM1999 / 1990 ;

b. IRM1990 / 1975 ;

c. IRM1999 / 1975 laide de la proprit de circularit ;


d. IRM1975 / 1999 laide de la proprit de rversibilit.
2. Calculez les indices relatifs au nombre de mnages, nots INM :
a. INM1999 / 1990 ;

b. INM1990 / 1975 ;

c. INM1999 / 1975 laide de la proprit de circularit ;


d. INM1975 / 1999 laide de la proprit de rversibilit.
3. En utilisant la proprit lie la multiplication, calculez les indices relatifs au revenu
disponible des Franais, nots IRF :

236

a. IRF1999 / 1990 ;

b. IRF1990 / 1975 ;

c. IRF1999 / 1975 ;

d. IRF1975 / 1999.

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

V1999
26 612
100 =
100 , soit IRM1999 / 1990 = 100,31. Le revenu moyen
1990
V1990
26 529
disponible par mnage a augment de 0,31 % entre 1990 et 1999.
V
26 529
b. IRM1990
= 1990 100 =
100 , soit IRM1990 / 1975 = 115,26. Le revenu moyen
1975
V1975
23 016
disponible par mnage a augment de 15,26 % entre 1975 et 1990.
c. En sappuyant sur la proprit de circularit,
IRM1999
= IRM1999 IRM1990 /100 = 100,31 115,26 /100 , soit IRM1999 / 1975 = 115,62.

1. a. IRM1999

1975

1990

1975

Le revenu moyen disponible par mnage a augment de 15,62 % entre 1975 et 1999.
10 000
10 000
d. En sappuyant sur la proprit de rversibilit, IRM1975
=
=
, soit
1999
IRM1999
115,62
1975

IRM1975 / 1999 = 86,49. Le revenu moyen disponible par mnage en 1975 reprsente 86,49 % du
revenu disponible par mnage en 1999.
V
23 808
2. a. INM1999
= 1999 100 =
100 , soit INM1999 / 1990 = 110,52. Le nombre de
1990
V1990
21 542
mnages a augment de 10,52 % entre 1990 et 1999.
V
21542
b. INM1990
= 1990 100 =
100 , soit INM1990 / 1975 = 121,40. Le nombre de mna1975
V1975
17 745
ges a augment de 21,40 % entre 1975 et 1990.
c. En sappuyant sur la proprit de circularit,
INM1999
= INM1999 INM1990 /100 = 110,52 121, 40 /100 = INM1999 / 1975 = 134,17.
1975

1990

1975

Le nombre de mnages a augment de 34,17 % entre 1975 et 1999.


d. En sappuyant sur la proprit de rversibilit, INM1975

1999

10 000
INM1999

10 000
, soit
134,17

1975

INM1975 / 1999 = 74,53. Le nombre de mnages en 1975 reprsente 74,53 % du nombre de


mnages en 1999.
3. a. En sappuyant sur la proprit des indices relative la multiplication, on obtient :
IRF1999
= IRM1999 INM1999 /100 = 100,31 110,52 /100 , soit IRF1999 / 1990 = 110,86.
1990

1990

1990

Le revenu disponible des Franais a augment de 10,86 % entre 1990 et 1999.


b. En sappuyant sur la proprit des indices relative la multiplication, on obtient :
IRF1990
= IRM1990 INM1990 /100 = 115,26 121, 40 /100 , soit IRF1990 / 1975 = 139,93.
1975

1975

1975

Le revenu disponible des Franais a augment de 39,93 % entre 1975 et 1990.


c. De mme, on obtient : IRF1999
= IRM1999 INM1999 /100 = 115,62 134,17 /100 ,
1975

1975

1975

soit IRF1999 / 1975 = 155,13. Le revenu disponible des Franais a augment de 55,13 % entre
1975 et 1999.
d. De mme, on obtient : IRF1975
= IRM1975 INM1975 /100 = 86, 49 74,53 /100 , soit
1999

1999

1999

IRF1975 / 1999 = 64,46. Le revenu disponible des Franais en 1975 reprsente 64,46 % du revenu
disponible des Franais en 1999.

Les indices

237

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

EXERCICE 2 INDICES SYNTHTIQUES


Le tableau suivant recense les prix moyens des chambres dhtel en 2006 et 2007, selon leur
catgorie et le nombre de nuites annuelles.
Catgorie

Prix 2006
()

Prix 2007
()

Nuites 2006
(milliers)

Nuites 2007
(milliers)

0 & 1 toile

33

35

1 676

1 909

2 toiles

57

59

3 631

3 813

3 toiles

86

88

3 475

3 850

175

187

2 371

2 229

4 toiles & luxe

Sources : Insee, 2007, et KPMG, 2007

1. Calculez lindice des prix de Laspeyres en 2007 base 100 en 2006. Interprtez.
2. prix constants (base 2006), quelle est laugmentation des nuites entre 2006 et 2007 ?
Quel indice connu avez-vous calcul ?
3. Calculez lindice des quantits de Paasche en 2007 base 100 en 2007. Interprtez.
4. nuites constantes (base 2007), quelle est laugmentation du prix des chambres entre
2006 et 2007 ? Quel indice connu avez-vous calcul ?
5. Calculez les indices de Fisher en 2007, base 100 en 2006 :
a. des prix ;

b. des quantits.

1. Afin de pouvoir calculer lindice des prix de Laspeyres en 2007 (base 2006), il est
ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2006 et des
prix 2006 par les quantits 2006.

Les produits et leurs sommes sont calculs dans les colonnes F et G de la figure 8.1.

Figure 8.1
Rsultats sous Excel.

i
2007

Do :

2007

(P) = 100

2006

i =1
4

i
q2006

i
i
q2006
p2006

= 100

1 022 066
, soit
976 050

2007

(P ) = 104,71 .

2006

i =1

quantits constantes (base 2006), les prix des chambres dhtel, toutes catgories
confondues, ont augment de 4,71 % entre 2006 et 2007.

238

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. Afin de pouvoir calculer laugmentation des nuites entre 2006 et 2007 prix constant
(base 2006), il est ncessaire de connatre les sommes des produits des prix 2006 par les
quantits 2007 et des prix 2006 par les quantits 2006. Il sagit de calculer lindice des
quantits de Laspeyres entre 2006 et 2007 (base 2006).

Les produits des prix 2006 par les quantits 2007 et leur somme sont prsents la suite
des prcdents calculs, dans la colonne H de la figure 8.1.
4

i
q2007

i
2006

Do :

(Q) = 100

2007

2006

i =1
4

i
2006

= 100
i
2006

1 001513
, soit
976 050

2007

(Q) = 102,61 .

2006

i =1

prix constants (base 2006), le nombre de nuites, toutes catgories dhtel confondues,
a augment de 2,61 % entre 2006 et 2007.
3. Afin de pouvoir calculer lindice de Paasche des quantits entre 2006 et 2007 (base
2007), il est ncessaire de connatre les sommes des produits des prix 2007 par les
quantits 2007 et des prix 2007 par les quantits 2006.

Les produits des prix 2007 par les quantits 2007 et leur somme sont prsents la suite
des prcdents calculs, dans la colonne I de la figure 8.1.
4

i
2007

Do :

2007

(Q) = 100

2006

i
q2007

= 100

i =1
4

i
i
q2006
p2007

1 047 405
, soit
1022 066

2007

(Q) = 102,48 .

2006

i =1

prix constants (base 2007), le nombre de nuites, toutes catgories dhtel confondues,
a augment de 2,48 % entre 2006 et 2007.
4. Afin de pouvoir calculer laugmentation des prix des chambres entre 2006 et 2007
nuites constantes (base 2007), il est ncessaire de connatre les sommes des produits des
prix 2007 par les quantits 2007 et des prix 2006 par les quantits 2007. Il sagit de
calculer lindice de Paasche des prix entre 2006 et 2007 (base 2007).
4

i
2007

Do :

2007

(P ) = 100

2006

i
q2007

= 100

i =1
4

i
i
q2007
p2006

1 047 405
, soit
1001 513

2007

(P ) = 104,58 .

2006

i =1

quantits constantes (base 2007), les prix des chambres dhtel, toutes catgories
confondues, ont augment de 4,58 % entre 2006 et 2007.

F
soit F

5. a.

2007

2007

F
soit F

b.

2007

(P ) =

2007

(P) P 2007

2006

(P) = 104,71 104,58 ,

2006

(P ) = 104,65 .

2006

(Q) =

2006

2007

2006

2007

(Q) P 2007

2006

2006

(Q) = 102,61 102, 48 ,

(Q) = 102,54 .

2006

Les indices

239

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Ces indices de Fisher sont dans chaque cas compris entre les indices de Laspeyres et de
Paasche, ce qui est une obligation mathmatique due leur statut de moyenne. Pour
les prix, par exemple, lindice de Laspeyres a tendance surestimer les augmentations,
lindice de Paasche les sous-estimer, lindice idal de Fisher se voulant un juste
compromis entre ces deux tendances.

EXERCICE 3 COEFFICIENTS BUDGTAIRES ET RELATION ENTRE INDICES


Le tableau suivant indique le montant de la consommation effective, par fonctions, des
mnages (France entire) entre 2003 et 2006, en milliards deuros courants :
Dsignation du poste

2003

2004

2005

2006

Prod. alimentaires et boissons non alcoolises

128,305 130,626 132,517 136,163

Boissons alcoolises et tabac

29,378

29,877

29,684

30,266

Articles dhabillement et chaussures

45,472

46,182

46,521

46,923

Logement, eau, gaz, lectricit et autres combustibles 209,182 220,424 234,899 250,150
Meubles, articles de mnage et entretien courant
de lhabitation

53,331

55,753

57,379

58,870

Sant

29,154

30,995

32,583

33,936

Transport

127,489 134,619 142,175 146,247

Communications

24,380

25,447

26,868

27,970

Loisirs et culture

82,862

87,084

89,380

92,637

ducation

5,730

6,202

6,729

7,385

Htels, cafs et restaurants

56,086

57,971

59,682

61,970

Autres biens et services

98,530 102,350 105,460 110,851

Source : Insee, 2007

Les indices chans des prix la consommation entre ces deux mmes annes vous sont
galement communiqus (base 100 lanne prcdente) :
Dsignation du poste

2003

2004

2005

2006

Prod. alimentaires et boissons non alcoolises

103,666 101,809 101,448 102,751

Boissons alcoolises et tabac

99,660 101,699 99,354 101,961

Articles dhabillement et chaussures

102,888 101,563 100,734 100,863

Logement, eau, gaz, lectricit et autres combustibles 105,764 105,375 106,567 106,493

240

Meubles, articles de mnage et entretien courant


de lhabitation

103,505 104,543 102,916 102,598

Sant

104,392 106,316 105,123 104,152

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Dsignation du poste

2003

2004

2005

2006

Transport

101,151 105,593 105,612 102,865

Communications

107,375 104,377 105,584 104,102

Loisirs et culture

103,480 105,096 102,637 103,643

ducation

106,470 108,237 108,497 109,749

Htels, cafs et restaurants

103,958 103,361 102,951 103,834

Autres biens et services

103,554 103,877 103,039 105,112

Source : Insee, 2007

1. Calculez le coefficient budgtaire de chaque fonction de consommation pour


chacune des annes de 2003 2006.
2. Proposez le tableau des indices des prix la consommation, base 100 en 2003, pour
chacune des annes 2003, 2004, 2005 et 2006.
3. Calculez lindice des prix la consommation en 2006, base 100 en 2003, selon la
mthode de Laspeyres.
4. Calculez, selon la mthode de Paasche, lindice des prix en 2006, base 100 lanne 2003.
5. De combien a augment la consommation des mnages en volume entre lanne 2003
et lanne 2006 ?

1. Le coefficient budgtaire reprsente le poids de la fonction de consommation dans


lensemble des dpenses du mnage.

Il convient dans un premier temps de calculer la somme des dpenses totales des
mnages. Par exemple, la dpense des mnages en 2003 est de
128,305 + 29,378 + + 98,53 = 889,897 milliards deuros.
Ensuite, il suffit de calculer la part de chaque poste dans le montant de ces dpenses. Par
exemple, les produits alimentaires et boissons non alcoolises reprsentent
128,305 milliards deuros sur les 889,897 milliards deuros de dpense des mnages en
2003, soit 14,42 %.
Ces calculs sont dtaills dans la figure 8.2.

Figure 8.2
Rsultats sous Excel.

Les indices

241

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

2. Les indices en 2003 valent tous 100, puisquil sagit de lanne de rfrence.

Les indices en 2004 conservent leur valeur puisquil tait en base 100 lanne prcdente,
cest--dire 2003.
Pour calculer les indices lmentaires en 2005 et 2006, base 100 lanne 2003, on utilise la
proprit de circularit (transfrabilit) des indices lmentaires :
I2005
= I2005 I2004 /100 .
2003

2004

2003

Par exemple, pour les produits alimentaires et boissons non alcoolises :


I2005

= I2005

2003

2004

I2004

2003

/100 = 101,45 101,81 / 100 , soit I2005 / 2003 = 103,28.

Ces calculs sont dtaills dans la figure 8.3.

Figure 8.3
Rsultats sous Excel.

3. Lindice de Laspeyres est la moyenne arithmtique des indices lmentaires pondrs


par les coefficients budgtaires de lanne de base.

Ainsi,

2006

2006

(P ) = 104,24 0,1375 + 101,30 0,0308 + ... + 108,31 0,1094 ,

soit

2003

(P) = 108,25 .

2003

4. Lindice de Paasche est la moyenne harmonique des indices lmentaires pondrs par
les coefficients budgtaires de lanne de base.

Ainsi,
soit

2006

2006

(P ) =

2003

1
104,24

0,1357

+ 101,30

0,0302

+ ... + 108,31

,
0,1105

(P) = 108,18 .
2003

5. On sait quun indice de valeur globale est le produit dun indice de volume par un
indice de prix ; plus prcisment, selon lindice des prix que nous retenons, lindice de
volume de la consommation des mnages varie.

Si nous retenons lindice des prix de Laspeyres, lindice de volume est un indice de
Paasche, et symtriquement, en utilisant lindice des prix de Paasche, nous obtenons un
indice de volume de Laspeyres, selon la formule :

242

2006

Statistique descriptive

(Q) p 2006

2003

(P) = 100 I 2006

2003

(V ) .
2003

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Nous allons calculer les indices des quantits de Laspeyres et de Paasche. Commenons
par lindice de Laspeyres.
Lindice des prix de Paasche est :

2006

(P) = 108,18 . Calculons lindice de valeur


2003

globale de la consommation des mnages en 2006, base 100 lanne 2003 :


1003, 368
I 2006 2003 (V) = 889,897 100 , soit I 2006 2003(V ) = 112,75 . On obtient alors :

2006

(Q) =

2003

I
p

2006

(V )

100 =

2003

2006

(P)

112,75
100 , soit
108,18

2006

(Q) = 104,23 . Entre lanne

2003

2003

2003 et lanne 2006, la consommation des mnages a augment selon la mthode de


Laspeyres de 4,23 % en volume.
En utilisant lindice des prix de Laspeyres, on obtient :

2006

(Q) =

2003

I
L

2006

(V )

2003

2006

(P)

100 =

112,75
100 , soit
108,25

2006

(Q) = 104,16 . Entre lanne

2003

2003

2003 et lanne 2006, la consommation des mnages a augment selon la mthode de


Paasche de 4,16 % en volume.

Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris,
1996.
DAMON J.-P., La mthode statistique en conomie, ditions Paris-8 Vincennes, 1976.
DUPONT-KIEFFER A., Ragnar Frisch et lconomtrie : linvention de modles et
dinstruments des fins normatives, Thse pour le doctorat en science conomique
(arrt du 30 mars 1992), universit Paris-1 Sorbonne, 2003.
DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004.
DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990.
FERREOL G. et SCHLACTHER D., Dictionnaire des techniques quantitatives appliques aux
sciences conomiques et sociales, Armand Colin, 1995.
LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979.
GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement
mathmatique A.P.M.E.P., 1967.
INSEE METHODES, Pour comprendre lindice des prix, dition 1998.
SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.

Les indices

243

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Annexes

244

Statistique descriptive

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Annexes

245

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

Index
A
Ajustement
linaire Voir Droite de
rgression
non linaire, 162, 175
Amplitude de classe, 6, 13, 25,
28, 30
Analyse de variance, 154, 164
Aplatissement, 88
Asymtrie, 85, 95

B
Bote moustaches, 65, 75, 85,
95
Box plot Voir Bote
moustaches

C
Caractre, 18, 22, 25, 27, Voir
Variable
Centile, 51, 56
Centre de classe, 6
Classe, 6
Coefficient
budgtaire, 228, 240
daplatissement
de Fisher, 89, 98
de Pearson, 89, 98, 100
dasymtrie
de Fisher, 87, 95
de Pearson, 86, 95, 100
de corrlation

246

Statistique descriptive

de rang, 163, 179


linaire, 156, 164
de dtermination, 164, 170,
175
de Kendall, 86
de Spearman Voir Coefficient
de corrlation de rang
de variation, 71, 76, 77
de Yule, 86, 95
saisonnier, 199, 201, 204, 207,
210
Composante
extra-saisonnire, 190, 200,
202
gnrale, 190, 200, 202
rsiduelle, 190, 200, 202
saisonnire, 190, 198, 200,
202
Corrlation, 147
Courbe
de concentration, 104
de rgression, 146
Covariance, 117, 139
formule dveloppe, 118
proprits, 118
Cycle, 190, 200, 202

D
Dcile, 50
Degr de libert, 122
Densit, 12, 25, 28, 36
Diagramme
circulaire, 11, 22

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

cumulatif Voir Fonction de rpartition


de Tukey Voir Bote moustaches
en barres Voir Diagramme en tuyaux dorgue
en btons, 12, 18, 98
en tuyaux dorgue, 11
Discrtisation, 8, 27
Distribution, 8, 11, 12, 13, 22, 25, 26, 29, 51, 65, 77
Donne brute, 8
Droite de rgression, 150, 164, 170, 174, 210, 214

de valeur globale, 233


des prix, 229, 231, 238, 240
des quantits, 230, 232, 238
lmentaire, 220, 236
proprits, 223, 229, 231, 234, 236
synthtique, 226, 238
Individu, 2
Intervalle interquantile Voir cart interquantile

K-L
E
cart
absolu moyen, 66, 73
intercentile, 64, 74
interdcile, 64, 74
interquantile, 64, 73
interquartile, 64, 74
saisonnier, 199, 201
type, 66, 76, 77, 79
conditionnel, 115
marginal, 114
chantillon, 2
Effectif, 3, 8
corrig, 13, 25, 28
cumul, 8, 22
croissant, 9, 18
dcroissant, 9, 18
marginal, 109, 132
partiel, 109, 132
tendue, 64, 73

F
Fonction
affine, 150
de rpartition, 15, 22
Frquence, 8, 21
absolue, 3
conditionnelle, 112, 132
cumule, 8, 29
croissante, 9, 18
dcroissante, 9, 18
marginale, 111, 132
partielle, 111, 132
proprits, 4
relative, 3

G-I
Graphique semi-logarithmique, 175
Histogramme, 12, 25, 26, 29, 59, 100
Indpendance, 120
Indice
de Fisher, 234, 238
de Gini, 93, 104
de Laspeyres, 229, 238, 240
de Paasche, 231, 238, 240

Kurtosis, 88
Leptocurtique, 89
Loi
de Fisher, 161
de Student, 158
normale, 84

M
Mdiale, 91, 104
Mdiane, 45, 54, 55, 56, 59, 95
Mthode
analytique, 190, 210, 214
empirique, 193, 194, 204, 207
Modalit, 3, 18, 22, 25, 27
Mode, 36, 38, 54, 55, 56, 59, 95
Modle
additif, 197, 204, 207, 210
multiplicatif, 197, 214
Moindres carrs ordinaires, 150, 170, 174
Moyenne, 39, 55, 56, 59, 95
arithmtique, 39
conditionnelle, 115, 135
chelonne, 192
gomtrique, 42, 60
harmonique, 43, 61
marginale, 114, 135, 139
mobile, 207
centre, 194
non centre, 193
proprits, 41, 79
quadratique, 44

N-P
Nature, 4, 18, 22, 25, 27, 127, 131
Platicurtique, 89
Polygone
des effectifs, 16, 59
des frquences, 29
Population, 2, 18, 22, 25, 27
Pyramide Voir Diagramme en tuyaux dorgue

Q
Quantile, 44
Quartile, 50, 55, 56, 59

Index

247

Sansnom1.fm Page 1 Jeudi, 13. mars 2008 7:13 19

R
Rgression
courbe, 146
droite, 150, 164, 170, 174, 210, 214

S
Srie
ajuste, 203, 204, 207, 210, 214
brute, 204, 207, 210, 214
chronologique, 187
CVS, 202, 204, 207, 210, 214
temporelle, 187

T
Tableau
crois Voir Tableau de contingence
de contingence, 109, 127, 131
lmentaire, 8
simple, 108
statistique, 8, 18, 27
Tendance, 190, 200, 202, 204, 207, 210, 214
Test, 121
de corrlation, 159, 164, 170, 175

248

Statistique descriptive

de Fisher, 170, 175


de Student, 159, 164, 170, 175
du khi-deux, 121, 135, 139
Tri
plat, 8
crois Voir Tableau de contingence

V
Variable
qualitative, 4
nominale, 4
ordinale, 5
quantitative, 6, 8
continue, 6, 25, 27
discrte, 6, 19, 22
statistique, 3
variance
dcomposition, 164
Variance, 66, 76
conditionnelle, 115, 135
dcomposition, 154
formule dveloppe, 68, 77
marginale, 114, 135, 139
proprits, 69, 79

Sciences de gestion

Synthse
de cours
exercices
corrigs

&

Les auteurs :
tienne Bressoud est matre de
confrences luniversit Paris 8
Vincennes-Saint-Denis et
lEuropean Business School (EBS)
Paris. Il enseigne lastatistique
descriptive et les tudes
quantitatives appliques
au marketing.
Jean-Claude Kahan est enseignant
luniversit Paris 8 VincennesSaint-Denis et lcole nationale
dassurance (ENASS). Il enseigne
les statistiques, les probabilits et
les mathmatiques. Il est galement
membre du jury de CAPES externe
de sciences conomiques et
sociales.

Direction de collection :
Roland Gillet, professeur luniversit
Paris 1 Panthon-Sorbonne

Dans la mme collection :


Analyse de donnes avec SPSS,
M. Carricano et F. Poujol
Analyse financire et valuation
dentreprise, S. Parient
Performance de portefeuille,
P. Grandin et al.
Cration de valeur et capital-investissement, M. Cherif et S. Dubreuille
Contrle de gestion, 2e ed., Y. de Rong et
K. Cerrada
conomtrie, . Dor
Finance, A. Farber et al.
Les enqutes par questionnaire avec
Sphinx, S. Ganassali
Marketing, une approche quantitative,
une approche quantitative, A. Steyer et al.
Mathmatiques appliques la gestion,
A. Szafarz et al.
Probabilits, statistique et processus
stochastiques, P. Roger
Stratgie, A. Desreumaux et al.

Statistique
descriptive
avec Excel
et la calculatrice
Ce livre est une introduction complte la statistique descriptive. la fois
accessible tous et dune grande rigueur mathmatique et statistique, il prsente
dabord les notions fondamentales (variables statistiques et graphiques), pour
dtailler ensuite les caractristiques de tendance centrale (moyenne, mdiane,
etc.), de dispersion (cart-type, variance), de forme et de concentration, les
tableaux croiss, la rgression linaire et non linaire, les sries chronologiques
et les indices. Il aborde galement les tests statistiques (notamment le test du
Khi-deux) et permet dapprofondir vers la statistique infrentielle et lconomtrie.
Toutes les notions sont illustres partir de donnes relles issues des observatoires statistiques (INSEE, Mdiamtrie). Les exercices occupent une part
importante de louvrage et sont appliqus la gestion, lconomie et aux
sciences humaines. Les corrections dtaillent tous les calculs et sont prsentes
soit laide du tableur Excel soit de la calculatrice (graphique ou scientifique).
Ce double choix donne au livre une dimension pratique prcieuse et en fait un
vritable outil de travail.
Louvrage sadresse aux tudiants de licence en sciences de gestion, en
conomie, en AES et en sciences humaines, ainsi quaux tudiants en IUT et en
coles de management.
Toutes les donnes des exercices au format Excel, ainsi que des exemples supplmentaires, sont disponibles sur le site www.pearson.fr.

La collection Synthex propose aux gestionnaires et aux


conomistes de dcouvrir ou de rviser une discipline et
de se familiariser avec ses outils au travers dexercices
rsolus.
Chaque ouvrage prsente une synthse pdagogique et rigoureuse des techniques
et fondements thoriques, quune slection dexercices aux corrigs dtaills
permet dassimiler progressivement.
Le lecteur, tudiant ou professionnel, est ainsi conduit au cur de la discipline
considre, et, via la rsolution de nombreux problmes, acquiert une
comprhension rapide et un raisonnement solide.

Pearson Education France


47 bis, rue des Vinaigriers 75010 Paris
Tl. : 01 72 74 90 00
Fax : 01 42 05 22 17
www.pearson.fr

ISBN : 978-2-7440-4052-8