Vous êtes sur la page 1sur 258

Sciences de gestion

Synthse de cours exercices corrigs

&

Statistique descriptive
avec Excel et la calculatrice
Pour les tudiants en sciences de gestion, en conomie et en sciences humaines Prs de 40 problmes et exercices corrigs avec Excel ou la calculatrice Retrouvez les donnes Excel et des exemples supplmentaires sur www.pearson.fr

collection

Synthex

tienne BRESSOUD Jean-Claude KAHAN

Sciences de gestion

Synthse de cours

&

exercices corrigs

Statistique descriptive
Applications avec Excel et la calculatrice
tienne Bressoud
Universit Paris 8 Vincennes-Saint-Denis

Jean-Claude Kahan
Universit Paris 8 Vincennes-Saint-Denis

Directeur de collection : Roland Gillet


Universit Paris 1 Panthon-Sorbonne

Synthex

collection

ISBN : 978-2-7440-4052-8 ISSN : 1768-7616 Copyright 2009 Pearson Education France


Tous droits rservs

Mise en page : edito.biz

Aucune reprsentation ou reproduction, mme partielle, autre que celles prvues larticle L. 122-5 2 et 3 a) du code de la proprit intellectuelle ne peut tre faite sans lautorisation expresse de Pearson Education France ou, le cas chant, sans le respect des modalits prvues larticle L. 122-10 dudit code.

Sommaire
Les auteurs................................................................ IV Prface ...................................................................... V Introduction ............................................................. VII Chapitre 1 Introduction la statistique descriptive ...................... 1 Chapitre 2 Les caractristiques de tendance centrale ................. 35 Chapitre 3 Les caractristiques de dispersion ............................ 63 Chapitre 4 Les caractristiques de forme et de concentration .... 83 Chapitre 5 Les sries bivaries................................................. 107 Chapitre 6 La rgression ......................................................... 145 Chapitre 7 Les sries chronologiques ...................................... 185 Chapitre 8 Les indices.............................................................. 219 Index ..................................................................... 246

III

Les auteurs
tienne Bressoud, docteur s sciences de gestion et normalien agrg en sciences conomiques, est matre de confrences luniversit Paris 8 Vincennes-Saint-Denis et professeur associ de marketing lEuropean Business School (EBS) Paris. Il enseigne la statistique descriptive, les tudes quantitatives appliques au marketing, et assure des formations professionnelles sur un logiciel danalyse de donnes et de statistiques pour Microsoft Excel. Contact : http://bressoud.blogspot.com Jean-Claude Kahan est professeur agrg de mathmatiques luniversit Paris 8 VincennesSaint-Denis et professeur associ lcole nationale dassurance (ENASS, un institut du CNAM), en formation initiale et continue. Membre du jury de CAPES externe de sciences conomiques et sociales, il enseigne les statistiques, les probabilits et les mathmatiques.

IV

Prface
Ne voici cinq millnaires pour dnombrer les richesses et les hommes en tat de porter des armes, la statistique est de plus en plus une science de pleine actualit, quand elle ne la fait pas. Il ne se passe pas une semaine, voire une journe, sans que nous en lisions ou voquions des utilisations, que ce soit pour mesurer la sant de notre conomie, la cote de popularit dun homme politique, lavis de lopinion sur tel ou tel sujet, le succs dun mdia ou dune mission, ou autre. Nous pouvons mme affirmer que la science statistique devrait faire partie du bagage intellectuel minimal de lhonnte homme de notre poque, dont la caractristique essentielle est la profusion dinformations de tout ordre, qui plus est accessibles pratiquement en temps rel grce Internet et la convergence numrique. Pour leur gestion, les entreprises laborent des entrepts de donnes des datawarehouses qui se remplissent automatiquement et systmatiquement, au point dailleurs de devenir difficilement exploitables de faon directe, sans recours lanalyse. Le succs actuel du datamining nest rien dautre que celui de la pense statistique, revue avec des notions de marketing. Devant une telle accumulation dinformations, il est ncessaire, indispensable, pour chacun, de possder les cls pour structurer, hirarchiser, prsenter, illustrer, comprendre, expliquer. La statistique est la science de lapprentissage du doute, cette notion parfois si importante, y compris dans le pays de Descartes, de lapprhension de lincertain, du refus de la pense unique. En un mot, la statistique est la science de la diversit. Et cette diversit sexprime forcment par trois voies principales : diversit de domaines, diversit dapproches, diversit dobjectifs. Les domaines dabord : au fil des sicles, les champs dapplication de la statistique se sont multiplis. Au comptage initial des ressources, pour la gestion de ltat, se sont ajouts lastronomie (Tycho Brahe, Johannes Kepler, Galile), lagronomie, la dmographie, la biomtrie (Galton), lconomie (cration en 1933 de la Socit dconomtrie), le marketing, la gestion dentreprise, la finance, la mesure daudience, etc. Chacun de ces champs de recherche et dapplication a apport ou apporte encore ses innovations, tant il est de sujets non ou mal rsolus ou nouveaux. Les approches ensuite : lorigine science du dnombrement et de la description, la statistique sest lentement enrichie dlments plus conceptuels. Une illustration marquante e en est, au XVII sicle, la recherche de constantes de comportements des paramtres

comme le nombre moyen denfants par femme, ou le nombre moyen de personnes par logement et la technique du multiplicateur pour permettre des estimations et des extrapolations : cest le rgne de lcole anglaise dite de larithmtique politique de John Graunt et de William Petty. Le cadre thorique saffirme plus tard, soit avec une vision gomtrique, comme les moindres carrs de Carl Friedrich Gauss, soit avec une optique probabiliste, merveilleusement utilise dans les annes 1920 par sir Ronald Fisher avec une prsentation innovante et gnrale de la thorie statistique. Gomtrie et probabilits se trouvent galement derrire les techniques dites danalyse des donnes projection de nuages complexes de points sur des plans adquats comme lanalyse en composantes principales ou lanalyse des correspondances, dune part, et les modles stochastiques de plus en plus sophistiqus tels les Arima et leurs divers petits cousins Starima, Arch, Garch, etc., dautre part. Les objectifs enfin : nous en distinguerons deux principaux. Le premier consiste avancer sur le chemin de la thorie pure , de la recherche pilote par les mathmatiques, de la conceptualisation. Axe fondamental sil en est, ne serait-ce que pour fonder la statistique comme une thorie scientifique et la faire progresser intrinsquement et en liaison avec les autres thories mathmatiques. Le second repose sur la volont dapplication, quel quen soit le domaine, la confrontation aux donnes ; on est dans le domaine de la description, de la visualisation, de la mesure de paramtres le principe de rduction de Fisher , permettant de caractriser le phnomne tudi dans ses principales lignes. La statistique applique est aussi noble que la statistique thorique, et trs proche des origines historiques mmes. Il est vrai que linformatique est un appui majeur pour la manipulation des fichiers de donnes et la mise en uvre des mthodes. Le prsent ouvrage dtienne Bressoud et de Jean-Claude Kahan relve ouvertement de la statistique applique et procde dune volont claire daborder loprationnalit des mthodes. Le livre joue ainsi sur deux tableaux complmentaires. En premier lieu, les concepts de base sont dvelopps dans le corps des chapitres : caractristiques de tendance centrale ou de dispersion, de forme ou de concentration, indices, tableaux croiss, modle linaire ou rgression, sries temporelles. Ensuite, aprs les prsentations des outils de rfrence, chaque chapitre est suivi dexercices et de problmes sur de vraies donnes, avec traitement et correction, partir des possibilits doutils comme la calculatrice graphique et le tableur Excel, qui possdent un grand nombre de fonctionnalits pour passer lapplication concrte et, somme toute, simple. Cest ce qui en fait loriginalit, et aidera vulgariser la pense statistique auprs de nombreux tudiants de lenseignement suprieur. Que les auteurs en soient remercis. Philippe Tassi Directeur Gnral Adjoint de Mdiamtrie Professeur Associ lUniversit Paris 2

VI

Statistique descriptive

Introduction
Ce livre est avant tout lhistoire dune rencontre entre deux enseignants et la mise en commun de leur pratique et de leur coute auprs des tudiants. Les statistiques sont aujourdhui incontournables et leur enseignement sest gnralis. Il existe de nombreux ouvrages de statistiques, souvent de qualit, mais il nous a paru intressant den concevoir un qui mette en avant le ct actuel et oprationnel de la statistique.

De la statistique sa mise en uvre par calculatrice graphique et tableur Excel


Cet ouvrage veut proposer aux tudiants dconomie, de gestion, de marketing, des secteurs de lassurance, un outil qui soit avant tout une aide pour leur pratique de la statistique . La partie thorique des chapitres est assez synthtique et expose les concepts en prsentant succinctement les grands noms qui ont fait la statistique. La partie pratique comporte de nombreux exercices qui sont corrigs avec deux outils fondamentaux en statistique : la calculatrice et le tableur. Nous avons choisi la calculatrice graphique Texas Instrument TI-84 Plus Silver Edition et le tableur Excel, car il est couramment utilis par les tudiants. En dpit de ces choix, les exercices peuvent tre effectus laide dautres tableurs et calculatrices graphiques, notamment les calculatrices Casio. Pour chaque exercice, nous prcisons si la correction est propose avec la calculatrice ou avec le tableur grce un pictogramme dans la marge. Ces deux outils, comme de nombreux rappels de techniques mathmatiques, font lobjet de dveloppements construits comme autant daides leur mise en uvre. Par ailleurs, les exercices sont prsents partir de donnes relles et rcentes obtenues auprs des grands organismes de statistique.
Les parties thoriques peuvent tre prolonges par des exemples complmentaires disponibles sur le site Internet de lditeur, www.pearsoneducation.fr. Sur ce mme site se trouvent galement les tableaux de donnes et les corrections de chaque exercice, au format Excel.

VII

Un cours de statistique descriptive largi


En ce qui concerne le contenu, cet ouvrage est avant tout conu comme un ouvrage de statistique descriptive ; oui, mais il nous a paru difficile de parler de statistique sans faire quelques incursions en probabilit, sans apporter une initiation la statistique infrentielle qui donne son vrai sens la statistique. Le lecteur trouvera dans les trois premiers chapitres les bases de la statistique descriptive : le vocabulaire, les principaux graphiques, ainsi que les paramtres de position et de dispersion des sries univaries. Le quatrime chapitre, qui traite des caractristiques de forme et de concentration, dbute par une introduction la loi normale (loi de Laplace-Gauss). Les chapitres 5, 6 et 7 traitent respectivement des sries bivaries, de la rgression linaire et des sries chronologiques. Les chapitres 5 et 6 sont loccasion dintroduire les tests dhypothses, et notamment les tests du khi-deux, de Student et de Fisher. Enfin, le chapitre 8 est consacr aux indices lmentaires et synthtiques.

Merci
Nous tenons remercier ici vivement Philippe Tassi, pour ses conseils et sa relecture mticuleuse et claire. galement un grand merci Christine Dhers, enseignante de mathmatiques, pour sa disponibilit et sa passion pour les statistiques. Nous esprons que ce manuel transmettra aux tudiants notre engouement pour la statistique et lenvie de dcouvrir les ouvrages cits dans la bibliographie propre chaque chapitre, et quil sera pour eux un compagnon efficace de leur russite.

VIII

Statistique descriptive

Introduction la statistique descriptive


1. Terminologie..........................2 2. Prsentation des donnes........8 3. Reprsentations graphiques des sries une variable .....10 Problmes et exercices 1. De la srie brute la prsentation des statistiques ..18 2. Reprsentations graphiques simples ................................22 3. Lhistogramme .....................25 4. Discrtisation des donnes ....26 5. Les polygones ......................29

Les mthodes de la statistique descriptive (statistique dductive) permettent de mener des tudes partir de donnes exhaustives, cest--dire concernant tous les individus de la population concerne par ltude. Comme le rappelle Andr Vessereau (voir bibliographie), lide premire et toujours fondamentale de la statistique descriptive est celle de dnombrement. Quand les donnes ne concernent quun chantillon de la population, comme dans le cas des sondages, on a recours la statistique infrentielle (statistique inductive), qui utilise la thorie des probabilits. Globalement, la statistique reste trs lie la science du hasard, puisque les recensements nous fournissent des frquences dapparition auxquelles on fait jouer le mme rle qu la probabilit. Dj, les manuscrits de Gottfried Leibniz, rdigs au dbut des annes 1680, se situaient, partir des travaux de John Graunt, dans la perspective dune synthse entre science de la population et calcul des probabilits .

Ce premier chapitre prsente les principales clefs de lecture de la statistique. La terminologie usuelle y est expose, ainsi que la forme et le contenu des tableaux de donnes. Deux annexes, proposes en fin de chapitre, sont consacres la prise en main dExcel (annexe 1.1), ou de tout autre tableur quivalent, et dune calculatrice graphique, Texas Instrument (annexe 1.2), ou de toute autre calculatrice approchante. Lutilisation de ces outils facilitera la comprhension et la rsolution de tous les exemples numriques des parties thoriques et des problmes et exercices qui suivent.

Terminologie
Comme toute science, la statistique a son vocabulaire, quil est primordial de dfinir de faon rigoureuse afin dindiquer le groupe sur lequel porte ltude, les caractres ou variables relevs sur chacun des individus et les diffrents types de caractres.

1.1

LA POPULATION
Le terme de population statistique est antrieur la dmographie et sappliquait lorigine des catgories dhumains. Les populations ntaient en effet pas penses en bloc, leurs membres ntant pas considrs comme gaux. Par exemple, on comptait les hommes en tat de porter des armes, les individus soumis limpt, etc. La dmographie est venue plus tard, avec lide dgalit des individus, qui a men la notion de recensement. En statistique, le terme de population est plus gnral et peut dsigner des humains, mais aussi des objets, des villes, des pays, des entreprises, des logements, etc., lessentiel tant, comme pour la dfinition dun ensemble en mathmatiques, que lon puisse dire clairement de tout lment quil appartient ou nappartient pas la population. Les villes europennes de plus de 100 000 habitants, les voitures immatricules en France, les dpartements franais doutre-mer sont autant dexemples de population.

Dfinition

La population statistique est lensemble des lments sur lesquels porte ltude. Les lments de la population sont appels individus statistiques ou units statistiques. La population constitue lunivers de rfrence de ltude. Si la population comporte N individus, on notera = {1 ; 2 ; ; N} les N individus qui la composent. Un chantillon de taille n est un sousensemble form de n individus de la population (n N).

La notion dchantillon est fondamentale, car, en rgle gnrale, la population entire nest pas disponible ou observable. Dans ce cas, seul un chantillon est tudi et les rsultats obtenus sont extrapols la population (voir P. Roger, chapitre 5). Par exemple, lorsquun magazine souhaite connatre la personnalit prfre des Franais, il interroge seulement un chantillon de Franais, gnralement 1 000 individus, et non toute la population rsidant en France mtropolitaine, soit plus de 60 millions dindividus.

Statistique descriptive

1.2

NOTION DE CARACTRE OU VARIABLE STATISTIQUE


Chaque individu dune population peut tre dcrit relativement un ou plusieurs caractres ou variables statistiques.

Dfinition

Une variable statistique, ou caractre statistique, est une application dfinie sur une population statistique et valeurs dans un ensemble M, appel ensemble des modalits. Les modalits correspondent aux valeurs possibles de la variable statistique. Une variable statistique dfinit une partition sur une population, chaque individu appartenant une et une seule modalit. Si le nombre de modalits est not r, lensemble des modalits de la variable X sera not : M = {x1 ; x2 ; ; xr}.

Exemple 1.1

Une population statistique

Considrons les donnes suivantes concernant le nombre de femmes et dhommes dans la population rsidant en France mtropolitaine en 2006 (en milliers) :
Femmes 31 444 Hommes 29 722

Source : Insee, recensement de la population, 2007 (champ : France mtropolitaine)

La population tudie est la population rsidant en France mtropolitaine recense en 2006 et la variable tudie est le sexe. Cette variable peut prendre deux valeurs possibles appeles modalits : fminin ou masculin. Ces modalits sont en gnral numrotes : si la variable tudie, ici le sexe, est note X, les deux modalits seront respectivement notes x1 (pour fminin) et x2 (pour masculin). Une des premires oprations de la statistique consiste recenser le nombre et/ou le pourcentage dindividus qui prsentent une modalit dtermine dune variable. Cest ainsi qu chaque modalit est associ un effectif et/ou une frquence.
Dfinitions Leffectif (aussi appel frquence absolue) de la modalit xi est not ni et dsigne le nombre dindividus de la population prsentant la modalit xi. Leffectif total de la population n est alors : n = n1 + n2 + + nr, soit n = ni (la somme des ni pour i variant de 1 r, et la lettre grecque sigma, , dsignant la somme). La frquence (par dfaut frquence relative) de la modalit xi est note fi et est dfinie par : fi = ni / N ; la frquence exprime la proportion dindividus prsentant une modalit donne. Elle peut sexprimer sous la forme dun nombre dcimal (en gnral avec une prcision de quatre chiffres aprs la virgule) ou sous la forme dun pourcentage.
i =1 r

Introduction la statistique descriptive

Proprit

Soit X une variable r modalits : 0 fi 1


r r

f = 1 (ou, en pourcentage : f = 100 )


i =1 i i =1 i

Exemple 1.2

Effectifs et frquences

Reprenons lexemple prcdent sur le sexe des individus de la population rsidant en France mtropolitaine. Les effectifs respectifs de ces modalits sont nots n1 = 31 444 et n2 = 29 722, avec n = n1 + n2 = 61 166 milliers, effectif total de la population. Les frquences sont telles que : f1 = n1 / n = 31 444 / 61 166 = 0,5141 et f2 = n2 / N = 29 722 / 61 166 = 0,4859, soit 51,41 % de femmes et 48,59 % dhommes. Lexemple 1.1 a mis en vidence une des deux natures des variables statistiques : la variable qualitative. Le sexe est une variable qualitative, car ses modalits ne sont pas des nombres. Une variable quantitative est une variable dont les modalits sont numriques. Le poids dun individu, lge, le nombre denfants par mnage, le salaire constituent des exemples de variables quantitatives.

1.3

LES VARIABLES QUALITATIVES


Une variable statistique est dite de nature qualitative si ses modalits ne sont pas mesurables. Les modalits dune variable qualitative sont les diffrentes catgories dune nomenclature. Ces catgories doivent tre exhaustives (chaque individu est affect une modalit) et incompatibles (un individu ne peut tre affect plusieurs modalits) de faon crer une partition.

Dfinition

Le sexe, la profession, ltat matrimonial sont quelques exemples de variables qualitatives. Pour ses enqutes auprs des mnages, lInsee utilise la nomenclature des Professions et catgories socioprofessionnelles (PCS-2003). Les modalits dune variable qualitative peuvent tre classes sur deux types dchelle : nominale ou ordinale. ces deux types dchelle correspondent deux types de variables qualitatives.

Variables qualitatives nominales


Les variables qualitatives nominales ne se mesurent pas. Cependant, leurs modalits peuvent tre codes. Lordre et lorigine de la codification sont arbitraires, cette codification pouvant tre numrique, alphabtique ou alphanumrique. Les individus dune mme catgorie sont rputs quivalents pour la variable tudie.
Dfinition Une variable statistique qualitative est dite dfinie sur une chelle nominale si ses catgories ne sont pas naturellement ordonnes.

Statistique descriptive

Exemple 1.3

Codage dune variable qualitative nominale

Le tableau suivant indique les diffrentes catgories de la variable nominale Professions et catgories socioprofessionnelles (CSP) :
Code 1 2 3 4 5 6 7 8 Catgorie Agriculteurs exploitants Artisans, commerants et chefs dentreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres personnes sans activit professionnelle

Source : Insee, PCS-2003 (niveau 1 de la nomenclature)

Dans cet exemple, il ny a pas dordre naturel entre les huit catgories, ou modalits, qui sont de simples tiquettes ; la variable qualitative CSP est dfinie sur une chelle nominale.

Variables qualitatives ordinales


Une chelle ordinale suppose lexistence dune relation dordre total entre les catgories, cest--dire que lon peut oprer un classement de lensemble des catgories, de la plus petite la plus grande (ou, inversement, de la plus grande la plus petite). Contrairement ce qui se passe avec une chelle nominale, les expressions telles que plus grand que , prcde , se place aprs , etc. prennent un sens dans une chelle ordinale. La codification peut tre numrique, alphabtique ou alphanumrique, en association avec un sens de lecture. En cas de codage numrique, les oprations mathmatiques sont dnues de sens et lcart entre les valeurs ne revt aucune signification.
Dfinition Une variable statistique qualitative est dite dfinie sur une chelle ordinale si lensemble de ses catgories peut tre dot dune relation dordre.

Introduction la statistique descriptive

1.4

LES VARIABLES QUANTITATIVES


Toute variable qui nest pas qualitative ne peut tre que quantitative. Les diffrentes modalits dune variable quantitative constituent lensemble des valeurs numriques que peut prendre la variable.

Dfinition

Une variable statistique est dite de nature quantitative si ses modalits sont mesurables. Les modalits dune variable quantitative sont des nombres lis lunit choisie, qui doit toujours tre prcise.

Il existe deux types de variables quantitatives : les variables discrtes et les variables continues. Ces variables ont en commun des modalits clairement ordonnes, pour lesquelles lcart entre les valeurs possde une signification, et sur lesquelles il est possible de raliser des oprations mathmatiques telles que des calculs de moyennes, etc. Nanmoins, elles ont des proprits et des traitements spcifiques qui ncessitent une tude spare.

Variables quantitatives discrtes


Lorsque les modalits sont des valeurs numriques isoles, comme le nombre denfants 1 par mnage, on parle de variable discrte .
Dfinition Une variable statistique quantitative est dite discrte si lensemble de ses modalits est un ensemble fini ou dnombrable. Ainsi, lensemble des modalits peut tre donn sous la forme dune liste de nombres, M = {x1 ; x2 ; ; xi ; }, finie ou infinie. Le plus souvent, les modalits appartiennent lensemble N des entiers naturels (N = {0 ; 1 ; 2 ; }). Cependant, une variable discrte peut prendre des valeurs non entires.

Variables quantitatives continues


Lorsque la variable, par exemple la taille dun individu, peut prendre toutes les valeurs dun intervalle, ces valeurs peuvent alors tre regroupes en classes, et on parle dans ce cas de variable continue.
Dfinitions Une variable statistique quantitative est dite continue si lensemble de ses modalits nest pas dnombrable. Ainsi, une variable continue peut prendre toutes les valeurs dun intervalle. Pour tudier une variable statistique continue, on dfinit des classes ou intervalles de valeurs possibles. On peut ainsi discrtiser une variable continue (voir section 2.1). Les classes retenues constituent les modalits de la variable. On appelle amplitude de la classe [ai ; bi[ le rel not Ai reprsentant la longueur de lintervalle et dfini par : Ai = bi ai. ai et bi sont respectivement les bornes infrieure et suprieure de la classe ni. Le centre de classe de la classe [ai ; bi[ est le rel not xi reprsentant le milieu de lintervalle et donn par : xi = (ai + bi) / 2 ; cest la moyenne arithmtique des bornes de la classe.

1. Du latin discretus, qui signifie spar ; dans un ensemble discret, on peut sparer les lments.

Statistique descriptive

Le centre de classe est appel jouer un grand rle dans les calculs, car le regroupement en classes constitue une perte dinformation importante ; nous prendrons lhypothse de rpartition uniforme lintrieur dune classe, cest--dire de concentration au centre des classes (voir chapitre 2).
Exemple 1.4 Calculs damplitudes et centres de classes

Le tableau suivant indique la structure par ges de la population fminine en France mtropolitaine :
ge Moins de 15 ans 15-24 ans 25-34 ans 35-44 ans 45-54 ans 55-64 ans 65-74 ans 75 ans ou +
Source : Insee, bilan dmographique, 2006

f i (%) 17,5 12,3 12,7 14,0 13,6 11,1 8,6 9,1

Les modalits sont des intervalles qui, par convention, sont part pour la dernire classe ferms gauche et ouverts droite. Ainsi, la premire classe se note aussi : [0 ; 15[, la deuxime [15 ; 25[, etc. Les classes ne sont pas de mme amplitude, la premire classe ayant une amplitude de 15 ans et les suivantes de 10 ans. Pour la dernire classe, dont lamplitude nest pas dfinie explicitement, la convention suivante est adopte : en labsence dinformation, il lui est attribu lamplitude de la classe prcdente, [65 ; 75[, donc 10 ans, et elle est donc crite : [75 ; 85[. Le centre de la premire classe est : x1 = (a1 + b1) / 2 = (0 + 15) / 2 = 7,5 ans. Cette distinction entre variable discrte et variable continue est parfois arbitraire, toute mesure tant discrte du fait de la prcision limite des instruments de mesure ou des arrondis. Cependant, la taille dun individu, par exemple, est une variable continue du fait que, indpendamment de la mesure, toute valeur de lintervalle [140 ; 150[ peut reprsenter en centimtres la taille dun individu. De mme, il arrive quune variable discrte, comme le nombre dhabitants dun pays, qui peut prendre un grand nombre de valeurs dans un intervalle soit considre comme une variable continue. En conclusion, toute tude de variable statistique devra tre prcde dune identification claire de la population, du caractre tudi et de sa nature, savoir qualitatif ou quantitatif et, dans le cas quantitatif, discret ou continu.

Introduction la statistique descriptive

Prsentation des donnes


Les donnes statistiques sont issues de donnes brutes prsentes sous forme de tableaux statistiques dans lesquels sont indiqus les effectifs et/ou les frquences.

2.1

DISTRIBUTION DES EFFECTIFS OU DES FRQUENCES


Les tableaux statistiques contenant les effectifs et/ou les frquences sont une premire exploitation des donnes brutes.

Des donnes brutes au tableau statistique


Il est primordial de dfinir la population et de prciser avec rigueur la ou les variables releves sur chacun des individus de la population ou de lchantillon la reprsentant. Ensuite, quand les observations ont t recueillies, le premier travail consiste les prsenter, aussi clairement que possible, sous forme de tableau statistique. Ce tableau rvle la distribution statistique en prsentant les couples de type (xi ; ni), o les xi sont les modalits et les ni leurs effectifs respectifs, i entier variant de 1 r, si r dsigne le nombre de modalits du caractre. Il est galement possible de prsenter la distribution des frquences, cest--dire les couples de type (xi ; fi).
Dfinitions On appelle donnes brutes ou tableau lmentaire le tableau relevant pour chaque unit statistique la modalit de la variable tudie. Le tri plat est la transformation qui permet de passer du tableau des donnes brutes au tableau de la distribution statistique prsentant les modalits et les effectifs, les modalits tant classes par ordre croissant.

Discrtisation
Dans le cas dune variable statistique quantitative continue, il est ncessaire de dfinir des classes pour pouvoir proposer un tri plat.
Dfinition On appelle discrtisation le dcoupage en classes dune srie statistique quantitative.

Ce dcoupage en classes pose de nombreuses questions : choix des amplitudes, amplitudes constantes ou variables, nombre de classes, etc. Nous ne rentrerons pas ici dans le dtail de ces oprations (voir lexercice 4 de ce chapitre).

2.2

VARIABLES QUANTITATIVES : DISTRIBUTION DES EFFECTIFS


ET DES FRQUENCES CUMULS
Cette section concerne les variables quantitatives pour lesquelles le tableau statistique est ralis, les modalits tant ordonnes dans lordre croissant. Les notions que nous allons dfinir sont lies la notion de fonction de rpartition, fondamentale en probabilit pour les variables alatoires continues et sur laquelle nous reviendrons dans la section 3.3.

Statistique descriptive

Reprenons lexemple 1.4 et proposons de rpondre la question suivante : quelle proportion de la population fminine en France mtropolitaine a moins de 35 ans ? Nous pouvons affirmer que 42,5 % de la population fminine en France mtropolitaine a moins de 35 ans, soit 17,5 % + 12,3 % + 12,7 %. Pour obtenir ce rsultat, nous avons cumul les frquences des modalits infrieures ou gales 34 ans.
Dfinitions Effectifs cumuls croissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul croissant, not nicc, le nombre dindividus statistiques pour lesquels X est infrieur ou gal xi. On a : n1cc = n1 et nicc = n1 + n2 + + ni = nk .
k =1 i

Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a :


nr cc = n1 + n2 + . + nr = nk = n, o n dsigne leffectif total de la srie.
k =1 r

Frquences cumules croissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule croissante, note ficc, reprsentant la proportion dindividus statistiques pour lesquels X est infrieur ou gal xi. On a : f1cc = f1 et ficc = f1 + f2 + . + fi = fk , ou encore ficc =
k =1 i

nicc . n

Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a : r fr cc = f 1 + f2 + . + fr = fk = 1 (ou 100 si les frquences sont exprimes en pourcentage). Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicc le nombre dindividus statistiques pour lesquels X est infrieur ou gal bi, et ficc la proportion dindividus statistiques pour lesquels X est infrieur ou gal bi.
k =1

Il est galement possible de cumuler les effectifs et les frquences dans le sens dcroissant.
Dfinitions Effectifs cumuls dcroissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul dcroissant, not nicd, le nombre dindividus statistiques pour lesquels X est suprieur ou gal xi. (Certains auteurs adoptent une convention diffrente : le nombre dindividus statistiques pour lesquels X est strictement suprieur xi). On a : n1cd = n ; nicd = ni + ni +1 + + nr = nk , r dsignant le nombre de modalits, et k =i nrcd = nr. Frquences cumules dcroissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule dcroissante, note ficd, reprsentant la proportion dindividus statistiques pour lesquels X est suprieur ou gal xi. On a : f1cd = 1 ; ficd = fi + fi+1 + . + fr = fk , et frcd = fr, ou encore ficd =
k =i r r

nicd . n

Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicd le nombre dindividus statistiques pour lesquels X est suprieur ou gal ai, et ficc la proportion dindividus statistiques pour lesquels X est suprieur ou gal ai.

Introduction la statistique descriptive

Exemple 1.5

Calculs deffectifs et frquences cumuls croissants et dcroissants

Le tableau suivant recense les enfants de moins de 6 ans en France mtropolitaine :


Anne
2006
Source : Insee, bilan dmographique, 2006

Moins de 3 ans 2 294 846

De 3 5 ans
2 317 874

Les effectifs cumuls croissants (nicc), dcroissants (nicd), et les frquences cumules croissantes (ficc), dcroissantes (ficd), correspondants sont les suivants :
ge [0 ; 3[ [3 ; 6[ ni 2 294 846 2 317 874 n icc 2 294 846 4 612 720 n icd 4 612 720 2 317 874 f icc 0,4975 1 fi 0,4975 0,5025 f icd 1 0,5025

Total

4 612 720

1,0000

Reprsentations graphiques des sries une variable


Lapparition des graphiques statistiques, lie lutilisation des coordonnes, doit essentiellement son origine au philosophe et mathmaticien Ren Descartes (1596-1650). Ces graphiques constituent une synthse visuelle indispensable de linformation contenue dans le tableau statistique. Les graphiques utiliss dpendent de la nature de la variable. Nous utiliserons, pour reprsenter les distributions deffectifs (ou de frquences), les diagrammes circulaires (ou secteurs), les diagrammes en tuyaux dorgue, les diagrammes en btons, les histogrammes et le polygone des effectifs. Pour les distributions cumules, nous utiliserons les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.

3.1

GRAPHIQUES POUR VARIABLES QUALITATIVES


Les variables qualitatives nominales ou ordinales peuvent tre reprsentes au choix laide dun diagramme circulaire ou laide dun diagramme en tuyaux dorgue.

Diagramme circulaire
Le diagramme circulaire, galement appel camembert , permet une reprsentation de la distribution dune variable dans un cercle qui reprsente 100 % des modalits (voir figure 1.1).

10

Statistique descriptive

Dfinition

Un diagramme circulaire est un graphique constitu dun cercle divis en secteurs dont les angles au centre sont proportionnels aux effectifs (ou aux frquences). De fait, les aires des secteurs sont proportionnelles aux effectifs. Langle i dune modalit deffectif ni est donn en n degrs par : i = i 360 = fi 360 . n Il est galement possible dutiliser un graphique semi-circulaire form dun demi-cercle (180).

Diagramme en tuyaux dorgue (en barres)


Le diagramme en tuyaux dorgue est une reprsentation de la distribution dune variable selon des rectangles horizontaux ou verticaux ayant tous une mme base, de largeur arbitraire (voir figure 1.2). Figure 1.1
Diagramme circulaire : proportion (en pourcentage) de bacheliers et nonbacheliers dans une gnration en France mtropolitaine et DOM, 2005.
Non bachelier 11 % 135

Bac gnral 34 % 131,32

Bac professionnel 11 % 41,4

Bac technologique 34 % 68,24

Dfinition

Un diagramme en tuyaux dorgue est un graphique qui chaque modalit dune variable qualitative associe un rectangle de base constante dont la hauteur est proportionnelle leffectif (ou la frquence). De fait, les aires des secteurs sont proportionnelles aux effectifs. Les rectangles sont en gnral disjoints, verticaux ou horizontaux.

Figure 1.2
Diagramme en tuyaux dorgue : proportion (en pourcentage) de bacheliers et nonbacheliers dans une gnration en France mtropolitaine et DOM, 2005.

Frquences en % 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 Bac gnral Bac technologique Bac professionnel Non bacheliers

Introduction la statistique descriptive

11

3.2

GRAPHIQUES POUR VARIABLES QUANTITATIVES


La reprsentation graphique dune variable quantitative dpend de sa nature : discrte ou continue.

Variables discrtes : diagramme en btons


La distribution dune variable quantitative discrte peut tre reprsente par un diagramme en btons (voir figure 1.3).
Dfinition On appelle diagramme en btons un graphique qui chaque modalit dune variable quantitative discrte associe un segment (bton) dont la hauteur est proportionnelle leffectif (ou la frquence).
ni 8 000 7 000 6 000

Figure 1.3
Diagramme en btons et polygone des effectifs : nombre de personnes par mnage, France, 1999.

Milliers

5 000 4 000 3 000 2 000 1 000 0 0 1 2 3 4 5 6 7 8 xi 9 ou +

Variables continues : histogramme


En 2005 Monaco avait 32 543 habitants et le Japon 127 417 244 (source : Institut national dtudes dmographiques). Bien sr, les dmographes diront que ces renseignements sont trs largement insuffisants pour comparer la dmographie des deux pays : il faut au minimum sintresser aux superficies de ces deux pays et calculer pour chacun dentre eux la densit de population, cest--dire le nombre dhabitants au kilomtre carr. Avec une superficie de 2,02 km pour Monaco et de 378 000 km pour le Japon, les densits sont respectivement d1 = 32 543 / 2,02 = 16 110,40 h/km pour Monaco et d2 = 127 417 244 / 378 000 = 337 h/km pour le Japon. Autrement dit, alors que la population de Monaco est la moins importante en taille, sa densit de population est plus importante que celle du Japon. Cette notion de densit est essentielle pour les variables continues : il est absurde de comparer ou de reprsenter cte cte des classes qui nont pas la mme amplitude sans faire intervenir la densit. Ce principe est omniprsent lors de la ralisation dun histogramme.
Dfinitions Un histogramme est un diagramme compos de rectangles contigus dont les aires sont proportionnelles aux effectifs (ou aux frquences) et dont les bases sont dtermines par les intervalles de classes. Dans le cas dune variable quantitative continue, on dfinit la densit deffectif di dune classe deffectif ni et damplitude ai par : di = ni / ai (ou, dans le cas des frquences, fi / ai).

12

Statistique descriptive

Lors de la ralisation dun histogramme, il est indispensable de distinguer deux cas. 1. Si les amplitudes de classes sont gales, la hauteur des rectangles correspondra aux effectifs (ou aux frquences) des classes. 2. Si les amplitudes sont diffrentes, afin de constituer lhistogramme, il est ncessaire de : calculer, pour chaque classe, lamplitude ai ; calculer la densit di = ni / ai pour un histogramme des effectifs, et di = fi / ai pour un histogramme des frquences ; affecter chaque rectangle une hauteur proportionnelle la densit di de la classe correspondante. Soit min(ai) lamplitude minimale de classe, la hauteur est alors appele effectif corrig et note nic = di min(ai) ; cette convention revient adopter min(ai) comme unit damplitude de classe. Les classes ayant pour amplitudes min(ai) sont alors reprsentes par des rectangles dont la hauteur est leffectif. De mme, il est possible de retenir comme hauteur la frquence corrige fic = di min(ai), avec di = fi / ai dans le cas dun histogramme des frquences. Lutilisation de min(ai) est une convention facultative ; un histogramme est correct ds lors que les effectifs (ou les frquences) corrigs sont proportionnels aux densits.
Exemple 1.6 Ralisation dun histogramme et dun polygone des effectifs

Le responsable des ressources humaines dune entreprise a relev la distribution statistique suivante correspondant lanciennet du personnel cadre dans lentreprise, exprime en annes :
Classes [6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 15,5[ [15,5 ; 17[ Total Effectifs 3 8 12 19 9 5 4 60

Lhistogramme des effectifs est prsent avec, sur le mme graphique, le polygone des effectifs trac en courbe pleine (voir figure 1.4). Ce polygone permet de reprsenter la distribution sous la forme dune courbe ; quand les amplitudes de classes sont gales, on lobtient en joignant les milieux des bases suprieures de chaque rectangle de lhistogramme par des segments de droite. On adjoint gnralement une classe deffectif nul, de part et dautre de lhistogramme, afin de respecter la rgle de compensation des aires : laire totale du domaine situ entre laxe des x et le polygone est gale la somme des aires des rectangles de lhistogramme. Elle reprsente leffectif total.

Introduction la statistique descriptive

13

Figure 1.4
Histogramme et polygone des effectifs, classes de mme amplitude : anciennet du personnel cadre de lentreprise.

ni 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xi

Modifions lgrement cet exemple en regroupant les deux dernires classes en une seule. Ce regroupement permet de traiter le cas de classes damplitudes diffrentes, puisque ainsi la dernire classe est damplitude 3 contre 1,5 pour toutes les autres classes.
Classes [6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 17[ Total Effectifs 3 8 12 19 9 9 60

Les classes tant damplitudes ingales, il est ncessaire de calculer les amplitudes (ai), les densits (di) puis les effectifs corrigs (nic) pour chaque classe. Les rsultats de ces calculs sont prsents dans la figure 1.5. Figure 1.5
Calcul des effectifs corrigs dans le cas de classes damplitudes ingales.

On peut alors tracer lhistogramme de la figure 1.6 partir des effectifs corrigs, ainsi que le polygone des effectifs, en trait continu. Pour tracer le polygone des effectifs, nous avons effectu un dcoupage artificiel en pseudo-classes damplitude 1,5, dont nous avons pris les milieux des bases suprieures de faon respecter la rgle de compensation des aires : les aires des triangles extrieurs au domaine dlimit par le polygone sont gales celles des triangles qui sont situs sous le polygone. Ainsi, laire totale du domaine situ sous le polygone des effectifs est gale laire totale des rectangles de lhistogramme.

14

Statistique descriptive

Ce qui est fait dans cet exemple partir des effectifs peut galement tre ralis partir des frquences, afin de tracer lhistogramme et le polygone des frquences. Figure 1.6
Histogramme et polygone des effectifs : classes damplitudes ingales.
nic 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Classes

Enfin, il serait inconcevable de ne pas voquer une varit dhistogramme, la pyramide, dont lexemple le plus clbre est la pyramide des ges (voir figure 1.7). Cette varit dhistogramme, o les axes ont t modifis (classes en ordonnes et effectifs en abscisses), est largement utilise en dmographie. Les classes sont annuelles. Les aires des rectangles reprsentent le nombre dhommes ou de femmes vivants et ns lanne considre, en lecture sur laxe des abscisses. Figure 1.7
Pyramide des ges.

3.3

DIAGRAMMES CUMULATIFS
Les notions deffectifs et de frquences cumuls nous ont donn loccasion dintroduire la notion de fonction de rpartition, que nous dfinissons ci-aprs avant dvoquer sa reprsentation graphique.

Dfinition

Si X est une variable quantitative, on introduit la fonction de rpartition, qui tout nombre rel x associe la proportion des individus de la population pour lesquels X est infrieur ou gal x. Pour tout x rel, 0 F (x) 1 (les valeurs de F peuvent galement tre exprimes en pourcentage).

Introduction la statistique descriptive

15

La premire tape de la construction dune fonction de rpartition consiste donc calculer les frquences cumules croissantes, en distinguant deux cas : le discret et le continu.

Fonction de rpartition dune variable discrte


La fonction de rpartition dune variable quantitative discrte est une fonction en escalier, cest--dire constante par intervalle. De plus, elle est croissante de 0 1 et dfinie par : Si x < x1, F(x) = 0 Si x = xi, F(x) = ficc Si xi x < xi + 1, F(x) = ficc Si x xr, F(x) = 1

Fonction de rpartition dune variable continue


A priori, la fonction de rpartition dune variable continue nest connue que pour les extrmits de classes. Cependant, si lon admet lhypothse de rpartition uniforme des observations au sein de chaque classe, on peut estimer les valeurs de F(x) par interpolation linaire. Cela revient approximer la reprsentation graphique par une fonction affine par morceaux : concrtement, on trace la courbe en joignant deux points conscu1 tifs connus par un segment de droite (cette courbe est aussi appele ogive de Galton ). Avec cette hypothse, F(x) reprsente laire situe sous lhistogramme des frquences, gauche de la valeur x.

Polygones des effectifs cumuls croissants et dcroissants


Dans le cas dune variable continue, on dfinit les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants ; ils seront utiliss notamment pour dterminer la mdiane de la srie (voir chapitre 2). Le polygone des frquences cumules croissantes commence au point de coordonnes (a1 ; 0), car la proportion de valeurs infrieures a1 est nulle. Il est obtenu en joignant les points de coordonnes (bi ; ficc) il correspond la restriction de la fonction de rpartition aux valeurs de x infrieures ou gales la borne suprieure de la dernire classe. Le polygone des frquences cumules dcroissantes sobtient de la mme faon, en adjoignant le point de coordonnes (br ; 0), car, br dsignant la borne suprieure de la dernire classe, la proportion de valeurs suprieures br est nulle.
Exemple 1.7 Ralisation des polygones des frquences cumules croissantes et dcroissantes

Le tableau suivant donne la structure de la population chinoise suivant lge :


0-14 ans 21,4 %
Source : ONU, 2005

15-24 ans 16,6 %

25-59 ans 51,1 %

60 ans et plus 10,9 %

1. Francis Galton (1822-1911) fut lun des fondateurs de la biomtrie et collabora avec son ami Karl Pearson (1857-1936).

16

Statistique descriptive

Les frquences cumules croissantes et dcroissantes sont calcules puis organises pour correspondre aux bornes des classes (voir figure 1.8).

Figure 1.8
Plages de donnes des polygones des frquences cumules croissantes et dcroissantes.

partir de ces donnes, il est possible de tracer les polygones des frquences cumules croissantes et dcroissantes (voir figure 1.9). Figure 1.9
Polygones des frquences cumules croissantes et dcroissantes de lge de la population chinoise.
fi cumules 110 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70

ficc ficd

80

90

xi 100

Conclusion
On retiendra de ce premier chapitre limportance de la terminologie. On devra savoir identifier, dans un exercice, la population, les variables tudies et leur nature : qualitative, quantitative discrte ou quantitative continue. On notera que le discret et le continu, en statistique comme en probabilit, ncessitent des traitements diffrents ; dans le cas continu, on retiendra limportance de la notion de densit. Par ailleurs, on ninsistera jamais assez sur limportance des reprsentations graphiques en statistique ; lissue de ce chapitre, on devra matriser notamment les histogrammes et les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.

Introduction la statistique descriptive

17

Problmes et exercices
Les problmes et exercices suivants proposent la mise en application des notions exposes dans la premire partie de ce chapitre. Lexercice 1 traite du passage dune srie brute un tableau statistique. Les exercices 2, 3 et 5 sattachent aux graphiques associs aux diffrentes natures de variables statistiques. Lexercice 4 sintresse la discrtisation des donnes.

EXERCICE 1 DE LA SRIE BRUTE LA PRSENTATION DES STATISTIQUES


La liste suivante est compose de prnoms dun groupe dtudiants, suivis entre parenthses du nombre de films que chacun dentre eux a vus au cours du mois dernier : Pierre (3), Paul (2), Jacques (2), Ralph (3), Abdel (1), Sidonie (2), Henri (0), Paulette (1), Farida (2), Laure (2), Kevin (0), Carole (3), Marie-Claire (0), Jeanine (3), Julie (2), Ernest (3), Cindy (3), Vanessa (2), Jos (1), Aurlien (1). 1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Construisez le tableau statistique associ la distribution des effectifs. 4. Reprsentez la distribution des effectifs par un diagramme en btons. 5. Calculez les effectifs : a. cumuls croissants ; b. cumuls dcroissants. 6. Calculez les frquences : a. cumules croissantes ; b. cumules dcroissantes.

18

Statistique descriptive

1. a. La population tudie est le groupe dtudiants. b. La variable tudie est X = nombre de films que chacun dentre eux a vus au cours du mois dernier . 2. a. La variable tudie est quantitative discrte. b. Lensemble M des modalits est M = {0 ; 1 ; 2 ; 3}.
3. Le tableau statistique associ est compos de deux colonnes :

la premire colonne comporte les modalits xi de X ; la seconde colonne comporte les effectifs ni associs chacune de ces modalits. Le tableau statistique associ X est le suivant.
xi 0 1 2 3 ni 3 4 7 6
4

Leffectif total est n = ni , soit n = 20.


i =1

4. Figure 1.10
Diagramme en btons des effectifs.
8 7 6 5 4 3 2 1 0 0 1 2 3 xi 4 ni

Le mme diagramme en btons peut tre ralis sous Excel. Pour cela, cliquez sur Insertion/Graphique dans la barre de menus dExcel. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Histogramme et cliquez sur Suivant. Notez que le mot histogramme est employ par Excel comme un terme gnrique dsignant des barres verticales et non un histogramme au sens statistique. Lassistant graphique propose de saisir les donnes du graphique. Cliquez sur longlet Srie et indiquez dans les champs correspondants les plages o se trouvent les donnes. Pour cela, slectionnez-les laide de la souris, comme indiqu sur la figure 1.11 : la cellule B23 de la feuille Ex1 pour le nom ;

Introduction la statistique descriptive

19

la plage B24:B27 de la feuille Ex1 pour les valeurs ; la plage A24:A27 de la feuille Ex1 pour les graduations de laxe des abscisses. Cliquez sur le bouton Terminer.

Figure 1.11
Slection des donnes reprsenter dans lassistant graphique.

Lassistant graphique se ferme et le graphique apparat (voir figure 1.12). Vous pouvez modifier les options daffichage du graphique en appelant un menu par un clic droit sur la zone de graphique. 5. a. Soit nicc leffectif cumul croissant de la modalit i : n1cc = n1 = 3, soit n1cc = 3 ; n2cc = n1cc + n2 = 3 + 4, soit n2cc = 7 ; n3cc = n2cc + n3 = 7 + 7, soit n3cc = 14 ; n4cc = n3cc + n4 = 14 + 6, soit n4cc = 20. b. Soit nicd leffectif cumul dcroissant de la modalit i : n1cd = n, soit n1cd = 20 ; n2cd = n1cd n1 = 20 3, soit n2cd = 17 ; n3cd = n2cd + n2 = 17 4, soit n3cd = 13 ; n4cd = n3cd + n3 = 13 7, soit n4cd = 6. Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique initial : les effectifs cumuls croissants nicc et les effectifs cumuls dcroissants nicd.
xi 0 1 2 3 ni 3 4 7 6 n icc 3 7 14 20 n icd 20 17 13 6

20

Statistique descriptive

Figure 1.12
Diagramme en btons sous Excel.

ni 8 7 6 5 4 3 2 1 x 0 1 2 3

6. Pour pouvoir calculer les frquences cumules croissantes ficc et dcroissantes ficd, il convient de calculer les frquences fi. Soit fi la frquence de la classe i : f1 =
n1 3 n 4 = , soit f1 = 0,15 ; f2 = 2 = , soit f2 = 0,20 ; n 20 n 20 n3 7 n4 6 f3 = = , soit f3 = 0,35 ; f4 = = , soit f4 = 0,30. n 20 n 20

a. Soit ficc la frquence cumule croissante de la classe i : f1cc = f1 = 0,15, soit f1cc = 0,15 ; n2cc = f1cc + f2 = 0,15 + 0,20, soit f2cc = 0,35 ; f3cc = f2cc + f3 = 0,35 + 0,35, soit f3cc = 0,70 ; f4cc = f3cc + f4 = 0,70 + 0,30, soit f4cc = 1. b. Soit ficd la frquence cumule dcroissante de la classe i : f1cd = 1, soit f1cd = 1 ; f2cd = f1cd f1 = 1 0,15, soit f2cd = 0,85 ; f3cd = f2cd + f2 = 0,85 0,20, soit f3cd = 0,65 ; f4cd = f3cd + f3 = 0,65 0,35, soit f4cd = 0,30. Les rsultats des frquences cumules croissantes et dcroissantes se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique : les frquences cumules croissantes ficc et les frquences cumules dcroissantes ficd.
xi 0 1 2 3 ni 3 4 7 6 n icc 3 7 14 20 n icd 20 17 13 6 fi 0,15 0,20 0,35 0,30 f icc 0,15 0,35 0,70 1,00 f icd 1,00 0,85 0,65 0,30

Introduction la statistique descriptive

21

EXERCICE 2 REPRSENTATIONS GRAPHIQUES SIMPLES


Le tableau suivant indique la rpartition des familles de lle de La Runion selon leur nombre denfants :
Nombre denfants 0 1 2 3 4 ou +
Source : Insee, recensement, 1999

Nombre de familles 31 038 54 812 51 252 26 613 16 162

1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Reprsentez la distribution par diagramme circulaire. 4. la suite de la question prcdente : a. Calculez les effectifs cumuls croissants et dcroissants. b. Reprsentez la fonction de rpartition. 5. Combien de familles sont composes de : a. au moins 1 enfant ? b. au plus 2 enfants ?

1. a. La population tudie est compose des familles de La Runion. b. La variable tudie est X = nombre denfants . 2. a. La variable tudie est quantitative discrte. b. Lensemble des modalits de la variable tudie est M = {0 ; 1 ; 2 ; 3 ; 4 ou +}.
3. Pour raliser un diagramme circulaire, il convient de tracer un cercle et de retenir pour chaque modalit i un secteur dangle au centre : i = 360 fi exprim en degrs.

Pour la modalit 1, f1 =

n1 31038 = = 0,1726 , donc 1 = 360 0,1726, soit 1 = 62,12. n 179877

22

Statistique descriptive

Pour la modalit 2, f2 = Pour la modalit 3, f3 = Pour la modalit 4, f4 = Pour la modalit 5, f5 =

n2 54812 = = 0,3047 , donc 2 = 360 0,3047, soit 2 = 109,7. n 179877 n3 51252 = = 0,2849 , donc 3 = 360 0,2849, soit 3 = 102,57. n 179877 n4 26613 = = 0,1480 , donc 4 = 360 0,1480, soit 4 = 53,26. n 179877 n5 16162 = = 0,0899 , donc 5 = 360 0,0899, soit 5 = 32,35. n 179877

On vrifie que la somme des angles est bien de 360. Ces calculs sont effectus sous Excel, dans le tableau prsent la figure 1.13, colonnes C et D. Figure 1.13
Rsultats sous Excel.

Le diagramme circulaire de la figure 1.14 est ralis partir de ces rsultats. Figure 1.14
Ralisation dun diagramme circulaire : rpartition des familles de La Runion selon leur nombre denfants.
3 = 53,26 4 ou + = 32,35

0 = 62,12

2 = 102,57

1 = 109,70

Pour raliser un diagramme circulaire sous Excel, cliquez sur Insertion/Graphique dans la barre de menus. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Secteurs et cliquez sur Suivant. Lassistant graphique propose de saisir les donnes du graphique. Indiquez dans le champ Plage de donnes la plage o se trouvent les donnes en les slectionnant laide de la souris (voir figure 1.15). Il sagit ici de la plage A2:B6 sur la feuille Ex2. Cliquez sur le bouton Terminer.

Introduction la statistique descriptive

23

Figure 1.15
Slection des donnes reprsenter dans lassistant graphique.

Lassistant graphique se ferme et le graphique apparat. Vous pouvez modifier les options daffichage du diagramme en appelant un menu par un clic droit sur la zone de graphique. 4. a. Soit nicc leffectif cumul croissant de la classe i : n1cc = n1 = 31 038, soit n1cc = 31 038 ; n2cc = n1cc + n2 = 31 038 + 54 812, soit n2cc = 85 850 ; n3cc = n2cc + n3 = 85 850 + 51 252, n4cc = n3cc + n4 = 137 102 + 26 613, soit n4cc = 163 175 ; soit n3cc = 137 102 ; n5cc = n4cc + n5 = 163 175 + 16 162, soit n5cc = 179 877. Soit nicd leffectif cumul dcroissant de la classe i : n1cd = n, soit n1cd = 179 877 ; n2cd = n1cd n1 = 179 877 31 038, soit n2cd = 148 839 ; n3cd = n2cd + n2 = 148 839 54 812, soit n3cd = 94 027 ; n4cd = n3cd + n3 = 94 027 51 252, soit n4cd = 42 775 ; n5cd = n4cd + n4 = 42 775 26 613, soit n5cd = 16 162. Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique prcdent : les effectifs cumuls croissants nicc en colonne E et les effectifs cumuls dcroissants nicd en colonne F (voir figure 1.13). b. La fonction de rpartition est ralise partir des frquences cumules croissantes (ficc), calcules en colonne G du tableau statistique prcdent (voir figure 1.13), sur du papier millimtr (voir figure 1.16). Figure 1.16
Fonction de rpartition du nombre denfants des familles de La Runion.
F(x) 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0 -1 0 1 2 3 4 x

24

Statistique descriptive

5. a. Au moins 1 enfant correspond aux familles qui ont 1, 2, 3 ou 4 et + enfants, ou encore toutes les familles sauf celles qui ont 0 enfant, cest--dire toutes les familles sauf celles qui prsentent la modalit x1 de X. Le nombre de ces familles est leffectif cumul dcroissant n2cd = 148 839, soit 179 877 31 038. Ainsi, 148 839 familles sont composes dau moins 1 enfant. b. Au plus 2 enfants correspond aux familles qui ont 0, 1 ou 2 enfants, cest--dire les familles qui prsentent les modalits x1, x2 ou x3 de X. Le nombre de ces familles est leffectif cumul croissant n3cc = 137 102, soit 31 038 + 54 812 + 51 252. Ainsi, 137 102 familles sont composes dau plus 2 enfants.

EXERCICE 3 LHISTOGRAMME
La Scurit routire tudie laccidentologie des passagers des vhicules de tourisme, gs de 18 65 ans. Le tableau suivant indique le nombre de tus par tranches dge en 2005 :
ge [18 ; 25[ [25 ; 35[ [35 ; 45[ [45 ; 65[
Source : ONISR, 2006

Effectif 790 545 377 606

1. Dterminez : a. la population tudie, b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Dessinez lhistogramme de la distribution.

1. a. La population tudie est compose des passagers des vhicules de tourisme, gs de 18 65 ans. b. La variable tudie est X = ge des tus . 2. a. La variable tudie est quantitative continue. b. Les modalits de la variable tudie sont les quatre classes suivantes : [18 ; 25[ ; [25 ; 35[ ; [35 ; 45[ ; [45 ; 65[.
3. Nous calculons les amplitudes de classes (Ai), soit :

A1 = 25 18 = 7 ; A2 = 35 25 = 10 ; A3 = 45 35 = 10 ; A4 = 65 45 = 20. Puisquelles sont diffrentes, il est ncessaire dutiliser les densits pour raliser lhistogramme.

Introduction la statistique descriptive

25

Conformment la figure 1.17, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les densits (voir figure 1.17). Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 7. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L37. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les effectifs corrigs (voir figure 1.18). Figure 1.17 (gauche)
Calcul des densits avec la calculatrice.

Figure 1.18 (droite)


Calcul des effectifs corrigs avec la calculatrice.

Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.19). Figure 1.19
Histogramme des tus par tranches dge.
800 700 600 500 400 300 200 100 0 0 10 20 30 40 50 60 xi nic

EXERCICE 4 DISCRTISATION DES DONNES


LAgence de lenvironnement et de la matrise de lnergie (ADEME) vous informe sur les missions de CO2 par habitant dans le monde en 2002 :
Pays Asie du Sud Afrique missions de CO2 (tonnes de CO2 par habitant) 5 1,39

26

Statistique descriptive

Pays Amrique latine Chine Europe centrale CEI Moyen-Orient Europe de lOuest Japon Asie (NPI) Australasie Amrique du Nord
Source : ADEME, 2002

missions de CO2 (tonnes de CO2 par habitant) 2,79 3,05 5,68 5,97 6,04 8,28 9,14 10,46 12,2 20,02

LADEME souhaite distinguer trois classes de pays, selon leur niveau dmissions de CO2 : ceux qui mettent moins de 6 tonnes par habitant ; ceux qui mettent de 6 moins de 10 tonnes par habitant ; ceux qui mettent de 10 moins de 22 tonnes par habitant.1. a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Construisez le tableau statistique associ. Pour cela, discrtisez le caractre tudi selon la classification souhaite par lADEME. 4. Dessinez lhistogramme de la distribution. Dterminez :

1. a. La population tudie est compose des rgions du monde numres. b. La variable tudie est X = missions de CO2 . 2. a. La variable tudie est quantitative continue. b. Lensemble des modalits de la variable tudie est M = {0,82 ; 1,39 ; 2,79 ; 3,05 ; 5,68 ; 5,97 ; 6,04 ; 8,28 ; 9,14 ; 10,46 ; 12,2 ; 20,02}.
3. Le tableau statistique associ est compos de deux colonnes :

la premire colonne comporte les classes dmission de CO2 ; la seconde colonne comporte les effectifs ni affects chacune de ces classes.

Introduction la statistique descriptive

27

Le tableau statistique associ X est le suivant.


missions de CO2 [0 ; 6[ [6 ; 10[ ni 6 3

[10 ; 22[

4. Nous calculons ensuite les amplitudes de classes (Ai), soit : A1 = 6 0 = 6 ; A2 = 10 6 = 4 ; A3 = 22 10 = 12. Conformment la figure 1.20, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les densits (voir figure 1.20). Figure 1.20 (gauche)
Calcul des densits avec la calculatrice.

Figure 1.21 (droite)


Calcul des effectifs corrigs avec la calculatrice.

Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 4. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L34. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les effectifs corrigs (voir figure 1.21). Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.22). Figure 1.22
Histogramme des pays selon leurs missions de CO2.
0,5 1 nic

0 0 2 4 6 8 10 12 14 16 18 20 22

Classes

28

Statistique descriptive

EXERCICE 5 LES POLYGONES


LADEME vous transmet le tableau suivant, qui recense les individus dans le monde selon le niveau de CO2 quils mettent :
mission moyenne de CO2 (tonnes CO2 par habitant) [0 ; 2[ [2 ; 4[ [4 ; 6[ [6 ; 8[ [8 ; 10[ [10 ; 16[ [16 ; 22[
Source : ADEME, 2002

Population (millions) 2 205,79 1 809,21 401,26 172,46 590,05 112,48 319,84

1. Sur un mme graphique : a. Dessinez lhistogramme des frquences de la distribution. b. Dessinez le polygone des frquences de la distribution. 2. la suite de la question prcdente : a. Calculez les frquences cumules croissantes et dcroissantes. b. Reprsentez les polygones des frquences cumules croissantes et dcroissantes sur un mme graphique. 1. a. Une simple lecture du tableau permet de voir que les amplitudes de classes ne sont pas constantes, ce qui est confirm par leur calcul en colonne C (voir figure 1.23). Les frquences sont calcules en colonne D, puis les densits (di) en colonne E, en effectuant le rapport des frquences sur les amplitudes. Enfin, les frquences corriges (fic) sont obtenues en colonne F en multipliant ces densits par leffectif minimal.

Figure 1.23
Rsultats sous Excel.

partir de ces frquences corriges, il est possible de tracer lhistogramme des frquences sur une feuille de papier millimtr (voir figure 1.24). b. Les classes sont damplitudes ingales. On procde un dcoupage artificiel en prenant lamplitude minimale, soit 2, pour unit damplitude. Le polygone des frquen-

Introduction la statistique descriptive

29

ces est alors obtenu en joignant la rgle les milieux des bases suprieures des rectangles du dcoupage prcdent (voir figure 1.24). Figure 1.24
Histogramme et polygone des frquences des pays selon leurs missions de CO2.
fic 0,40 0,35 0,30 Polygone 0,25 0,20 0,15 0,10 0,05 0,00 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 Classes

2. a. la suite du tableau Excel prcdent, les frquences cumules croissantes (ficc) sont calcules dans la colonne G et les frquences cumules dcroissantes (ficd) dans la colonne H (voir figure 1.23). Ces calculs sont effectus selon le mme principe que pour les effectifs cumuls croissants et dcroissants, en remplaant les effectifs par les frquences. b. La prsentation de ces rsultats est lgrement modifie pour faire apparatre dans un mme tableau les frquences cumules croissantes et dcroissantes de chacune des bornes des classes (voir figure 1.25).

Figure 1.25
Donnes pour les polygones de frquences cumules.

Les courbes des frquences cumules croissantes et dcroissantes de la figure 1.26 sont ralises partir de ce dernier tableau. Pour raliser ces courbes des effectifs cumuls sous Excel, cliquez sur Insertion/ Graphique dans la barre de menus dExcel. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Nuages de points, puis, dans Sous-type de graphique, slectionnez limage reprsentant le Nuage de points relis par une courbe. Cliquez sur Suivant. Lassistant graphique propose de saisir les donnes du graphique.

30

Statistique descriptive

Figure 1.26
Polygones des frquences cumules croissantes et dcroissantes des pays selon leurs missions de CO2.

fi cumules 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0 2 4 6 8 xi 10 12 14 16 18 20 22 ficc ficd

Dans longlet Plage de donnes, indiquez dans le champ correspondant la plage o se trouvent les donnes permettant de tracer les courbes correspondant aux polygones des effectifs cumuls croissants et dcroissants. Pour cela, slectionnez laide de la souris la plage A34:C42 de la feuille Ex5 comme indiqu sur la figure 1.27, puis cliquez sur Terminer. Figure 1.27
Slection des donnes reprsenter dans lassistant graphique.

Lassistant graphique se ferme et le graphique apparat (voir figure 1.26). Vous pouvez modifier les options daffichage du graphique en appelant un menu par un clic droit sur la zone de graphique.

Introduction la statistique descriptive

31

Annexe 1.1 Prsentation du tableur (Excel)


Quand vous ouvrez Excel, la zone de travail situe au centre sappelle le CLASSEUR. La BARRE DE TITRE de la fentre affiche le nom du classeur par exemple, Classeur1 que vous devez renommer et enregistrer. Un classeur comporte par dfaut trois feuilles, dont le nom figure sur un ONGLET par exemple, Feuil2 . Il est possible de renommer, dinsrer ou de supprimer une feuille en faisant un clic droit sur un des onglets et en choisissant Insrer, Supprimer ou Renommer dans le menu. Lintersection dune ligne et dune colonne sappelle une CELLULE. Une cellule est caractrise par sa RFRENCE, colonne-ligne par exemple, B4 . La BARRE DE MENUS permet daccder aux diffrents menus droulants : Fichier, Edition, Affichage, Insertion, Format, Outils, Tableau, Fentre, ?. Sous la barre de menus se trouvent les BARRES DOUTILS, accessibles uniquement avec la souris. Lorsquon pointe sans cliquer sur les diffrents boutons, une info-bulle affiche le nom du bouton et sa fonction. Sous les barres doutils se trouve la BARRE DE FORMULE. Dans sa partie gauche apparat la rfrence de la cellule active et dans la partie droite apparaissent les donnes, lors de leur saisie. Entre les deux, le symbole fx (Insrer une fonction) dsigne lassistant fonction. Il comprend toutes sortes de fonctions, notamment statistiques, et sera extrmement prcieux pour les problmes et exercices. Pour saisir des donnes dans une cellule, placez la souris dessus, cliquez et entrez les chiffres ou les lettres voulus. Passez dune cellule une autre grce la souris ou aux touches , , et du clavier. Pour effectuer une opration mathmatique, cliquez sur une cellule, tapez le signe = pour indiquer quil sagit dune formule de calcul, puis faites lopration en utilisant les signes mathmatiques du clavier : +, , * et /. Par exemple, pour additionner une cellule une autre, cliquez sur la cellule qui doit accueillir le rsultat, tapez =, cliquez sur la premire cellule, tapez + puis cliquez sur la seconde cellule additionner. Validez avec ENTRE pour faire apparatre le rsultat. Llvation la puissance sobtient en appuyant sur la touche accent grave, ^, suivie du nombre de la puissance dsire, ou en utilisant la fonction Puissance de lassistant fonction. Il existe trois types de rfrences de cellules : pour passer dun type lautre, utilisez la touche F4, qui procde par permutation circulaire, comme le montre cet exemple : saisissez =A1 dans la cellule A2, placez le curseur de la souris la suite de A1, contre le 1, et appuyez sur F4. Vous voyez alors apparatre : $A$1 (rfrence absolue). Si vous appuyez de nouveau sur F4, vous voyez apparatre successivement : A$1, $A1 (rfrences mixtes) et enfin A1 (rfrence relative). Rfrences relatives : par dfaut, sous Excel, les rfrences des cellules sont relatives . Lorsquon recopie une formule dune cellule une autre, elle sadapte automatiquement en fonction du dplacement en ligne ou en colonne.

32

Statistique descriptive

Si la formule =B2 + B3 est saisie en B4 puis recopie en C4, elle devient =C2 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en D3, elle devient =B3 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en E3, elle devient =C3 + D3. Rfrences absolues : on peut figer la colonne et la ligne dune cellule, en mettant le signe $ devant la lettre de la colonne et devant le nombre de la ligne, afin que la cellule concerne reste identique en cas de recopie dune formule. Cette cellule est alors dfinie par une rfrence absolue dans la formule. Si la formule =B2 + $C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C$2. Rfrences mixtes : on peut aussi dcider de ne figer que la colonne ou que la ligne dune cellule, en positionnant le symbole $ uniquement devant la lettre ou le nombre de la cellule. La cellule est alors dfinie par une rfrence mixte. Si la formule =B2 + $C2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C3. Si la formule =B2 + C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + D$2. La notion de fonction : Excel comporte des fonctions intgres, identifies par des noms de fonctions par exemple, SOMME, PRODUIT, MOYENNE, RACINE Les lments sur lesquels porte la fonction sont appels ARGUMENTS, se placent entre parenthses et sont spars par des points-virgules. Pour utiliser une fonction : placez le curseur dans la cellule o vous souhaitez faire apparatre le rsultat. Cliquez sur Insertion/Fonction (ou utilisez directement fx ), slectionnez la catgorie de fonction souhaite (dans cet ouvrage, Statistique ou Math & Trigo), puis la fonction dsire. Entrez les arguments en vous laissant guider par la bote de dialogue Excel. Validez en cliquant sur OK. Remarque : pour faire une somme, il est possible de se servir de licne propose par dfaut dans la barre doutils. Cliquez sur la cellule o vous souhaitez faire apparatre la somme, cliquez sur licne , puis slectionnez les cellules dont vous souhaitez faire la somme, et validez avec ENTRE. Les fonctions statistiques seront explores lors de la correction des exercices.

Annexe 1.2 Prsentation de la calculatrice (Texas Instrument)


Notations : les colonnes sont notes L1, L2, L3, L4, L5, L6. Les cellules sont identifies par leur colonne, suivie de leur ligne entre parenthses par exemple, L1(2) indique la cellule figurant dans la premire colonne, la deuxime ligne. Pour saisir un tableau : appuyez sur la touche STAT. ditez le tableau en appuyant sur la touche 1. Saisissez les donnes (validez chacune par la touche ENTER) en vous dplaant avec le curseur.

Introduction la statistique descriptive

33

Pour quitter lditeur de tableau : appelez la fonction QUIT par lappui successif sur les touches 2ND et MODE. Pour effacer une colonne entire : placez le curseur sur len-tte de colonne Li que vous souhaitez effacer. Appuyez sur les touches CLEAR et ENTER. Pour effectuer la somme des termes dune colonne : placez le curseur dans la cellule (1) o vous souhaitez faire apparatre la somme. Appuyez sur les touches 2ND et LIST, puis, dans le menu MATH, appelez la fonction sum(. Indiquez la colonne Lj dont vous souhaitez faire la somme (par exemple, L1 est obtenu par 2ND et 1) et validez avec ENTER. Pour effectuer la somme cumule dune colonne : placez le curseur sur len-tte de colonne Li dans laquelle vous souhaitez obtenir les effectifs cumuls. Appuyez sur les touches 2ND et LIST, puis, dans le menu OPS, appelez la fonction cumSum(. Indiquez la colonne Lj dont vous souhaitez faire la somme cumule et validez avec ENTER.

Bibliographie
BOLL M., Lexploitation du hasard, Que sais-je ?, PUF, 1947. CALOT G., Cours de statistique descriptive, Dunod, Paris, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DODGE Y., Premiers pas en statistiques, Springer, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LE BRAS H., Naissance de la mortalit. Lorigine politique de la statistique et de la dmographie, Gallimard/Le Seuil, Paris, 2000. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. ROHRBASSER J.-M. et VERON J., Leibniz et les raisonnements sur la vie humaine, INED, Paris, 2001. VESSEREAU A., La statistique, Que sais-je ?, PUF, 1962.

34

Statistique descriptive

Les caractristiques de tendance centrale


1. Le mode ..............................36 2. Les moyennes.......................39 3. Les quantiles ........................44 Problmes et exercices 1. Lecture de tendances centrales sur srie brute ........54 2. Tendances centrales sur tableau statistique, caractre discret...................55 3. Tendances centrales sur tableau statistique, caractre continu .................56 4. Visualisation graphique des tendances centrales ........59 5. Moyenne gomtrique..........60 6. Moyenne harmonique ..........61

Lobjectif de ce chapitre est de prsenter les principaux paramtres qui permettent de rsumer une srie statistique dobservations et dclairer sur la position du noyau (centre) de la srie. Ces paramtres sont appels caractristiques de position ou de tendance centrale de la srie statistique une variable. Nous prsenterons ici le mode, la moyenne, la mdiane, les quartiles et, plus gnralement, les quantiles. Le statisticien anglais George Yule (1871-1951) a dfini en 1911 les conditions idales souhaitables pour une valeur centrale : tre dfinie objectivement partir de la srie ; dpendre de tous les termes de la srie ; tre comprhensible par des non-spcialistes ; tre simple calculer ; tre peu sensible aux fluctuations dchantillonnage ; se prter des calculs algbriques. Aucune des valeurs centrales parfaite au sens de Yule. dfinies ci-aprs nest

35

Le mode
Lors de lobservation de la reprsentation graphique dune distribution statistique (diagramme en btons ou histogramme), lil est souvent attir par le bton ou le rectangle le plus haut. Une des valeurs typiques dune srie statistique est le mode (valeur dominante). Ce mot semble inspir de la mode , car il met en vidence la valeur la plus probable de la srie. La courbe en cloche de la distribution normale (voir chapitre 4, section 1) en donne une bonne vision.

1.1

PRSENTATION
Le mode est la valeur de la variable qui a leffectif (ou la frquence) le plus grand. On le note Mo.

Dfinition

En conomie, dans les problmes dalimentation, de revenu, de logement, etc., le groupe qui a le plus grand poids est celui du mode. Il situe bien la position des valeurs les plus frquemment rencontres. Le reprage du mode nest pas un problme complexe, mais il faut distinguer le cas dune variable qualitative ou quantitative discrte du cas dune variable continue. Il existe des sries unimodales (un mode) et des sries plurimodales (plusieurs modes).

1.2

VARIABLE QUALITATIVE OU QUANTITATIVE DISCRTE


Si la variable est qualitative ou quantitative discrte, on dtermine le mode directement en identifiant la modalit de la variable qui correspond leffectif maximal (ou la frquence maximale). Le mode dune srie discrte est une valeur de la srie. Graphiquement, le mode correspond au bton le plus long (aux btons les plus longs dans le cas des sries plurimodales).

1.3

VARIABLE QUANTITATIVE CONTINUE


Si la variable est quantitative continue, il faut procder en deux tapes : 1. Dtermination de la classe modale (elle nest pas ncessairement unique), cest--dire celle qui est reprsente dans lhistogramme par le rectangle le plus haut : cest la classe de plus grande densit. On notera que, si les classes sont de mme amplitude, la classe modale est celle qui a le plus grand effectif (ou la plus grande frquence). Rappel (voir chapitre 1, section 3.2) : la densit deffectif de la classe i, note di, est le n rapport d i = i , avec ni leffectif et ai lamplitude de la classe. Cette densit reprsente ai le nombre dindividus par unit damplitude.

36

Statistique descriptive

2. Dtermination du mode lintrieur de cette classe modale. Pour une premire estimation, le mode peut tre approch par le centre de la classe modale. En fait, le mode est labscisse du point o la courbe de densit de frquence atteint son maximum. Dans la pratique, nous disposons uniquement de lhistogramme. Le mode peut tre estim par la mthode des diagonales : on utilise le trapze mis en vidence par les deux rectangles encadrant le rectangle modal (voir figure 2.1).

Figure 2.1
Histogramme des effectifs et dtermination du mode : structure des ges en 2020, France, prvisions.

900 800 700 600 500 400 300 200 100 0

di h1 h h2

Mo Classes 10 20 30 40 50 60 70 80 90 100

Graphiquement, la classe modale est le pic de lhistogramme corrig (amplitudes gales) et le mode correspond labscisse du point dintersection des deux diagonales. Il se calcule donc sur les effectifs corrigs (cest le seul indicateur qui se calcule sur effectifs corrigs). Dans le cas o les amplitudes de classes sont gales, la classe modale est celle qui a le plus grand effectif (ou la plus grande frquence). La suite de la dmarche est identique. Soit [x1 ; x2[ la classe modale, h1 et h2 les hauteurs (effectifs corrigs ou densits) des rectangles encadrant le rectangle modal, h la hauteur du rectangle modal et Mo le mode. Afin de calculer le mode, lide est dabandonner lhypothse de rpartition uniforme lintrieur de la classe modale, qui conduit retenir le centre de classe. Lhypothse privilgie est celle dune rpartition influence par les valeurs h1 et h2, le mode tant attir du ct du rectangle voisin de plus grande densit. Il est suppos que la densit crot de la valeur h1 son maximum h et dcrot de h h2 avec la mme vitesse, ce qui h h1 h h2 . = donne, avec les taux daccroissement : Mo x1 x2 Mo Soit
k1 k2 = , avec k1 et k2 les diffrences : k1 = h h1 et k2 = h h2. Mo x1 x2 Mo k2 x1 + k1 x2 . k1 + k2

En effectuant le produit en croix : Mo =

Le mode apparat comme la moyenne pondre de x1 et x2 respectivement affects des coefficients h2 et k1.

Les caractristiques de tendance centrale

37

k1 (x2 x1 ) . Cette k1 + k2 formule montre bien, par exemple, le dplacement du mode vers x1 dans la cas o k1 < k2, k1 < 0,5 . donc o k1 + k2

Une formule quivalente du mode est donne par : Mo = x1 +

Exemple 2.1

Calcul du mode sur variable quantitative continue

Considrons les prvisions de la structure dmographique de la France en 2020 :


ge 0-19 ans 20-29 ans 30-39 ans 40-49 ans 50-59 ans 60-69 ans 70-79 ans 80-89 ans 90-99 ans ni 14 115 7 403 7 842 7 967 8 281 7 716 5 521 3 074 878 20 10 10 10 10 10 10 10 10 ai di 705,75 740,3 784,2 796,7 828,1 771,6 552,1 307,4 87,8

Source : Insee, projections des mnages lhorizon 2020 pour la France mtropolitaine, juillet 2006

Les amplitudes de classes tant diffrentes, nous utilisons les densits pour dterminer la classe modale et reprsenter lhistogramme (voir figure 2.1). La classe modale est donc la classe des 50-59 ans soit [50 ; 60 [ avec une densit de 828,1. x1 = 50 ; x2 = 60 ; h = 828,1 ; k2 = 828,1 771,6 = 56,5. h1= 796,7 ; h2 = 771,6 ; k1 = 828,1 796,7 = 31,4 ;

En appliquant la formule du mode : Mo = 7 mois. Le mode est trs peu conforme aux conditions de Yule. Il ne se prte pas aux calculs algbriques, et ne dpend pas de tous les termes de la srie. Cependant, il reste une valeur centrale importante pour les distributions ayant un effectif important, car il donne la valeur la plus typique.
k2 x1 + k1 x2 56,5 50 + 31,4 60 = , soit Mo = 53,57 ans, soit environ 52 ans et k1 + k2 31, 4 + 56,5

38

Statistique descriptive

Les moyennes
Si un individu possdait une poque donne toutes les qualits de lhomme moyen, il 1 reprsenterait tout ce qui est grand, bon et beau , disait Adolphe Qutelet . Sans nous attacher la notion conteste d homme moyen de Qutelet, gardons lesprit que lide de moyenne est une notion abstraite. Quand le statisticien calcule une moyenne, il fabrique en gnral une grandeur nouvelle, qui a la vocation dtre reprsentative de toutes les grandeurs considres, mais qui na en gnral aucune existence relle. Nous imaginons mal un fabricant de chaussures qui fabriquerait des chaussures correspondant la taille moyenne. Quatre types de moyennes sont dfinies ici : les moyennes arithmtiques et celles, moins utilises, que sont les moyennes gomtriques, harmoniques et quadratiques. La moyenne arithmtique garde un rle primordial du fait de sa simplicit de calcul, mais surtout du fait de sa place fondamentale dans la thorie des erreurs dobservation 2 (loi de Laplace-Gauss ) et dans la thorie de la rgression (voir chapitre 6). Lide fondamentale de la notion de moyenne est que cette dernire vise reprsenter des grandeurs ingales par une grandeur unique qui ne change pas la globalit de la situation. Ainsi, dans une entreprise o les personnels ont des salaires diffrents, la masse salariale resterait inchange si tous les personnels percevaient le mme salaire moyen.

2.1

LA MOYENNE ARITHMTIQUE
Cest en astronomie, avec Tycho Brahe , que la moyenne arithmtique simpose. Johann 4 Bernoulli la qualifie dans lEncyclopdie comme le milieu prendre entre les observations . Cette moyenne, lie laddition, est la moyenne la plus couramment utilise. Elle reprsente bien lide de milieu, dquilibre, symbolise par la place du zro dans les nombres.
3

Dfinitions

La moyenne arithmtique est la somme des valeurs observes rapporte au nombre dobservations. Elle se note x . La moyenne arithmtique simple de n rels (donnes en tableau brut) correspond la division de leur somme par leur nombre. Soit x1, x2, , xn les n observations de la variable X 1 n (non ncessairement distinctes) : la moyenne arithmtique se note x = x i . Cette formule n i =1 implique que

x
i =1

= nx .

1. Adolphe Qutelet (1796-1874), astronome, statisticien belge. 2. Pierre Simon de Laplace (1749-1827), mathmaticien, astronome franais. Carl Friedrich Gauss (17771855), astronome, mathmaticien allemand. 3. Tycho Brahe (1546-1601), astronome danois. 4. Johann Bernoulli (1667-1748), mathmaticien suisse.

Les caractristiques de tendance centrale

39

La moyenne arithmtique pondre de r rels (distincts) x1, x2, , xr (donnes en tableau statistique), affects respectivement des coefficients ni, tels que
x=
r 1 r ni x i . Ou encore x = fi x i . n i =1 i =1

n
i =1

= n , se note

Les probabilistes parlent desprance dune variable alatoire et notent sa moyenne E(X) =

px
i i =1

, les probabilits pi se substituant aux frquences fi.

Calcul de la moyenne arithmtique dans le cas dune variable discrte


Exemple 2.2 Calcul dune moyenne arithmtique pondre

La rpartition des effectifs du prlmentaire dans les tablissements publics par ges en 2005-2006 est la suivante :
ge 2 ans 3 ans 4 ans 5 ans 6 ans et plus ni 154 141 667 328 685 158 680 202 9 683 f i (%) 0,0702 0,3038 0,3119 0,3097 0,0044

Source : ministre de lducation nationale, 2007

On notera qua priori lge est une variable continue ; cependant, lducation nationale prsente ici cette variable comme une variable discrte et nous la traiterons ainsi. Par ailleurs, nous prendrons 6 pour la dernire modalit. Pour calculer la moyenne, il est ncessaire de calculer chacun des nixi, avant den calculer la somme (voir figure 2.2). La moyenne est obtenue en divisant la somme des nixi par leffectif total. Lge moyen 8 510 006 = 3,87 ans. On peut dans les tablissements publics de maternelle est : x = 2 196 512 galement retrouver cette valeur en calculant chacun des fixi et en effectuant leur somme. Figure 2.2
Calcul des nixi sous Excel (tablissements publics).

De mme, en calculant chacun des fixi et en effectuant leur somme, on trouve que lge moyen dans les tablissements privs de maternelle est : x = 3,8 ans (voir figure 2.2).

40

Statistique descriptive

Calcul de la moyenne arithmtique dans le cas dune variable continue


Les dfinitions et formules des moyennes arithmtiques simple et pondre sont les mmes que celles utilises dans le cas dune variable discrte. La mthode reste identique lexception de lutilisation de lhypothse de rpartition uniforme lintrieur des classes et de concentration au centre des classes, ce qui autorise le calcul de la moyenne partir des centres de classes.
Exemple 2.3 Calcul dune moyenne arithmtique pondre sur variable continue en classe

Reprenons les prvisions de lInsee lhorizon 2020 (voir exemple 2.1) et calculons lge moyen prvisible. Pour calculer les nixi, il faut pralablement calculer les centres de classes xi. Si ai et bi reprsentent respectivement les bornes infrieure et suprieure des a +b classes, alors le centre de classe xi = i i . Une fois les xi connus, il convient de calculer 2 chacun des fixi, avant den faire la somme (voir figure 2.3). Figure 2.3
Calcul des fixi sous Excel.

x = 42,61, lge moyen est de 42,61 ans.

Proprits de la moyenne arithmtique


La moyenne arithmtique possde la proprit de linarit : x + y = x + y et ax = ax , a tant une valeur constante. Par exemple, soit une entreprise dans laquelle le revenu des personnels se compose dun salaire x et dune prime y, le salaire moyen mensuel tant de 3 500 euros et la prime moyenne mensuelle de 200 euros. Le revenu moyen mensuel sera de 3 700 euros. De mme, si tous les salaires sont augments de 5 %, le salaire moyen deviendra : 3 500 1,05 = 3 675 euros. Si toutes les valeurs des observations sont identiques, la moyenne de ces observations est gale cette valeur commune. Autrement dit, la moyenne dune variable statistique constante est gale elle-mme. Do : ax + b = ax + b , a et b tant des valeurs constantes. Cela permet notamment de changer dunit, ou dorigine, toute transformation linaire effectue sur la variable tant rpercute sur la moyenne. La moyenne des carts la moyenne est nulle.

Les caractristiques de tendance centrale

41

n (x
i =1 i r

x ) = ni xi ni x = ni xi nx = 0 , car selon la formule de la moyenne


i =1 i =1 i =1

1 ni xi = x , soit n i =1

n x
i =1

i i

= nx .

Cela explique pourquoi nous choisirons la moyenne des carts au carr pour mesurer la dispersion, encore appele variance. La moyenne arithmtique dpend de tous les termes de la srie, elle se prte bien aux calculs, cest un bon indicateur de tendance centrale au sens de Yule. En revanche, elle prsente linconvnient dtre trs sensible aux valeurs extrmes. Cest pourquoi elle est qualifie dindicateur peu robuste.

2.2

LES AUTRES MOYENNES


La moyenne gomtrique : moyenne de la multiplication
Introduisons cette moyenne par un exemple : soit une pice rectangulaire de 16 mtres sur 9 mtres. Quelle serait la dimension du ct dune pice carre de mme aire ? Si g dsigne notre inconnue, g = 16 9 soit g tant un rel positif, g = 16 9 = 5 ; ce nombre est appel la moyenne gomtrique de 16 et 9.

Dfinitions

La moyenne gomtrique simple, note g, de n rels positifs est la racine n duit : G =


n

ime

de leur pro-

xi
i =1

. Ou encore G = n x 1 x 2 .... x n = ( x 1 x 2 .... x n ) .

1 n

La moyenne gomtrique pondre de r rels positifs, affects respectivement des coefficients ni, tels que

n
i =1

= n , se note G, tel que G =

xi
i =1

ni

.
1

Ou encore G = n x 1n1 x 2n2 .... x r nr = ( x1n1 x 2n2 .... x r nr )n = x 1f1 x 2f2 .... x r fr .

La moyenne gomtrique sera utilise dans le chapitre 8 sur les indices (indice de Fisher). Par ailleurs, elle est indispensable dans les calculs de taux de croissance ; elle donne le coefficient multiplicateur moyen.
Exemple 2.4 Calcul dune moyenne gomtrique pondre

Supposons que la population dun pays ait augment trois annes de suite de 4 % et deux annes de suite de 5 %, laugmentation moyenne sera donne par 1 + t = 5 1,043 1,052 ,
1

soit un taux de croissance annuel moyen t = (1,043 1,052 )5 1 , soit environ 4,40 % par an.

42

Statistique descriptive

La moyenne gomtrique est trs lie la moyenne arithmtique. En effet : 1 r Ln(g ) = ni Ln(xi ) . Ainsi, la moyenne gomtrique est gale la moyenne arithmtin i =1 que pondre des logarithmes npriens. Nous noterons galement que, sur la courbe de la fonction exponentielle, en prenant a +b est deux points dabscisses respectives a et b, lordonne du point dabscisse 2
e
a +b 2

e a e b , soit une moyenne gomtrique.

La moyenne harmonique : moyenne de linverse


Si la moyenne arithmtique simpose dans de nombreuses situations, le recours dautres moyennes est parfois indispensable. Prenons un exemple classique : supposons quun aller-retour Paris-Deauville soit effectu avec une vitesse moyenne de 130 km/h laller et de 80 km/h au retour. Que penser de la vitesse moyenne sur laller-retour ? Soit d la distance Paris-Deauville, t le temps du trajet et v la vitesse. Alors v =
v=

d . Do t

2d 2 = = 99,04 km/h, et non 105 km/h comme le donnerait la d d 1 1 + + 130 80 130 80 2 1 1 moyenne arithmtique. Nous pouvons galement crire : = + , v sappelant la v 130 80 moyenne harmonique des vitesses.
Dfinitions La moyenne harmonique simple de n nombres rels non nuls est le rel not H et dfini par : n 1 n 1 = soit H = , linverse de la moyenne arithmtique des inverses. Ou encore 1 n 1 H i =1 x i n i =1 x i
H= n

x
i =1

1
i

La moyenne harmonique pondre de r nombres rels non nuls, affects respectivement des r r n n coefficients ni, tels que ni = n , est le rel not h et dfini par : = i soit H i =1 x i i =1 1 H= , soit linverse de la moyenne arithmtique pondre de leurs inverses. Ou r 1 ni n i =1 x i encore H =
n . ni i =1 x i
r

La moyenne harmonique sera galement utilise dans le chapitre 8 sur les indices (indice de Paasche).

Les caractristiques de tendance centrale

43

La moyenne quadratique
Le mot quadratique, qui vient du latin, voque le carr et est utilis pour dsigner la puissance deux. Partons dun exemple simple : supposons un appartement compos de deux pices carres de cts respectifs a et b ( a b ) et cherchons la mesure du ct Q des pices dun appartement de mme surface, mais compos de deux pices identiques carres. On aura : 2Q 2 = a2 + b2 soit Q =
a2 + b2 . 2

La moyenne quadratique, ou moyenne dordre 2, est la moyenne qui sert dfinir lcarttype dune variable statistique, que nous utiliserons lors de ltude de la dispersion.
Dfinitions La moyenne quadratique simple de n nombres rels, note Q, correspond la moyenne arithmtique de leurs carrs : Q =
1 n x i . Ou encore Q = n i =1

x 12 + x 22 + ... + x n 2 . n

La moyenne quadratique pondre, note Q, de r nombres rels, affects respectivement des coefficients ni, tels que carrs : Q =

n
i =1

= n , correspond la moyenne arithmtique pondre de leurs

1 r n x 2 + n2 x 22 + ... + nr x r 2 ni x i . Ou encore Q = 1 1 . n i =1 n

Focus 2.1

Remarques sur les moyennes


1. Une moyenne reprsente toujours un centre dune srie de donnes. Soit x Min et
x Max respectivement la plus petite et la plus grande valeur de la srie. Les moyennes de la srie statistique appartiennent toujours lintervalle [ x Min ; x Max ].

2. Il est important de retenir lordre de ces moyennes : x Min H G x Q x Max . Cette remarque, qui servira notamment pour comparer les indices synthtiques, est aisment dmontrable pour deux rels a et b. Vrifions-le avec un exemple : a = 9 et b = 16 donne : H =
288 = 11, 52 . G = 12 ; x = 12, 5 et Q = 25

256 + 81 = 12,98 . 2

3. Les moyennes sont des indicateurs qualifis de peu robustes en ce sens quils sont sensibles aux valeurs extrmes.

Les quantiles
Partons dun exemple : En 2005, 10 % des salaris temps complet du secteur priv et semipublic gagnent un salaire annuel net infrieur 12 506 (source : Insee, DADS, 2005). On dit que 12 506 constitue le quantile dordre 0,10 de la srie des salaires considre.

44

Statistique descriptive

Si p est un rel de lintervalle]0 ; 1[, on lui associe la valeur de la srie, note Q(p), appele quantile dordre p. La proportion des valeurs de la srie infrieures ou gales Q(p) est suprieure ou gale p. La mdiane est un quantile particulier qui spare la population en deux groupes deffectifs gaux.

3.1

LA MDIANE
Il est clair que lide de partager la srie en deux groupes ayant exactement le mme effectif nest pas toujours ralisable, aussi la dfinition de la mdiane doit-elle tre affine.

Dfinition

La mdiane, note Me, est la plus petite valeur de la srie* pour laquelle le nombre dobservations infrieures ou gales cette valeur reprsente au moins 50 % de leffectif total de la srie. Cest le quantile dordre 0,5. * Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, la mdiane nest pas ncessairement une valeur observe (voir exemple 2.6).

Ainsi, il y a au moins 50 % des observations ayant une valeur infrieure ou gale la mdiane et au moins 50 % des observations ayant une valeur suprieure ou gale la mdiane. On dtermine la mdiane laide des effectifs cumuls croissants, partir de la srie des valeurs ordonnes dans lordre croissant. Il convient de distinguer le cas dune variable prsente sous forme de donnes brutes du cas dune variable prsente dans un tableau statistique. Dans ce dernier cas, on distinguera le cas discret et le cas continu.

La mdiane dune srie de donnes brutes


Tout dabord la srie doit tre classe dans lordre croissant des valeurs. La dtermination directe ou non de la mdiane dpend du nombre de donnes brutes. 1. Si ce nombre est impair, il est possible de dterminer directement la mdiane. 2. Si ce nombre est pair, la mdiane est dduite de lintervalle mdian. Calcul 1 : si la srie brute comporte un nombre impair dobservations, not n = 2p + 1, la ime mdiane est la valeur centrale de la srie (ordonne en sens croissant), donc la (p + 1) observation.
Exemple 2.5 Calcul de la mdiane, nombre impair de donnes brutes

Le tableau suivant donne le taux demploi (en pourcentage) des jeunes de 15 24 ans, en 2005, dans les sept pays de lUnion europenne ayant le plus fort taux.
Pays Allemagne Pays-Bas Autriche Taux demploi 42 65,2 53,1

Les caractristiques de tendance centrale

45

Pays Irlande Royaume-Uni Danemark Finlande


Source : Insee, juillet 2006

Taux demploi 48,7 54 62,3 40,5

Classons tout dabord les modalits par ordre croissant. Dans notre exemple, ces modalits sont au nombre de n = 7, cest--dire un nombre impair, et p = 3, donc la mdiane e est la valeur centrale de la srie ordonne, cest--dire la 4 observation : 40,5 42 48,7 53,1 54 62,3 65,2. La mdiane est Me = 53,1. Calcul 2 : si la srie brute comporte un nombre pair dobservations, not n = 2p, il convient de dterminer lintervalle mdian, constitu par les observations de rang p et p + 1 de la srie ordonne. Par convention, la mdiane est le milieu de cet intervalle mdian.
Exemple 2.6 Calcul de la mdiane, nombre pair de donnes brutes

Reprenons lexemple prcdent (voir exemple 2.5) et rajoutons la France avec un taux de 30,1 %. Le nombre de modalits devient n = 8, donc p = 4. Lintervalle mdian est conse e titu de la 4 et de la 5 observation, cest donc lintervalle mdian [48,7 ; 53,1]. Par 48,7 + 53,1 = 50,9. convention, Me = 2

La mdiane dans un tableau statistique


Pour calculer la mdiane partir dun tableau statistique, il convient de distinguer deux cas : 1. Soit la variable est prsente comme un caractre discret. 2. Soit la variable est prsente comme un caractre continu. Calcul 1 : Dans le premier cas, les modalits de la variable sont des valeurs isoles. La dtermination de la mdiane se fait directement laide des effectifs cumuls croissants (voir figure 2.4).
Exemple 2.7 Calcul de la mdiane pour une variable prsente comme un caractre discret

Le tableau suivant donne le nombre denfants de moins de 25 ans par famille, en France mtropolitaine en 2005 :
Nombre denfants 1 2 3 4 ou +
Source : Insee, enqutes de recensement, 2004-2006

n i (milliers) 3 714 3 369 1 237 410

46

Statistique descriptive

Figure 2.4
Effectifs cumuls croissants.

Le nombre dobservations est pair, donc lintervalle mdian est constitu par les deux n 8730000 observations centrales, cest--dire de rangs respectifs p = = = 4365000 et 2 2 p + 1 = 4 365 001. Les effectifs cumuls croissants nous montrent que ces observations sont dans la modalit 2, donc que la mdiane, leur moyenne arithmtique, est 2. Il y a au moins 50 % des familles ayant un nombre denfants infrieur ou gal 2 et au moins 50 % des familles ayant un nombre denfants suprieur ou gal 2. Calcul 2 : Dans le second cas, les modalits de la variable sont des classes. La dtermination de la mdiane repose sur lhypothse que les observations sont rparties uniformment au sein de chaque classe. La mdiane est alors dfinie par F(Me) = 0,50, o F dsigne la fonction de rpartition. Son calcul se fait en deux temps : 1. Localisation de la classe mdiane laide des effectifs cumuls croissants ou des frquences cumules croissantes. 2. Calcul de la mdiane par interpolation linaire (voir focus 2.2).

Focus 2.2

Interpolation linaire
Le mot inter signifie que nous oprons entre deux valeurs connues, appeles ples. Le mot linaire voque la droite. Supposons une fonction f dfinie sur un segment [a ; b], et dont nous connaissons les valeurs f(a) et f(b), le problme tant destimer la valeur de f en un point x du segment [a ; b]. Le principe de linterpolation linaire est donc de supposer lalignement des points A, B et M dont les coordonnes sont A (xA ; yA) ; B (xB ; yB) ; M (xM ; yM). Cet alignement des points A, B et M est reprsent sur la figure 2.5. Lalignement des points A, B et M se traduit par lgalit des coefficients directeurs, ou encore par lgalit des rapports des distances, en utilisant le thorme de Thals.
y yA yM yA AB AB ' AB " = = , soit B , ce qui donne, aprs un produit en croix : = xB x A x M x A AM AM ' AM " yM = yA + yB y A (x M x A ) . xB x A

Par exemple, dterminons une valeur approche de

3 (= 1,732) par interpolation linaire 2 1 3 1 soit : = 4 1 3 1

sur le segment [1 ; 4] (voir figure 2.5). Linterpolation linaire donne :


3 = 1+ 2 5 = =1 , 667 . 3 3

Les caractristiques de tendance centrale

47

Figure 2.5
Alignement et galit des coefficients directeurs.

y 2,5 B'' B M

1 A 0,5 xM -xA xB -xA

ym-

1,5

yB -yA

M''

M'

B'

0 0 0,5 1 1,5 2 2,5 3 3,5 4

x 4,5

Exemple 2.8

Calcul de la mdiane pour une variable prsente comme un caractre continu

Soit le nombre de personnes de plus de 15 ans ayant un niveau dtudes suprieures (voir figure 2.6). Figure 2.6
Calcul des nicc sous Excel.

Source : Insee, recensement de la population, 1999

Le calcul de leffectif moiti, 4 345 579,5, et les effectifs cumuls croissants permettent de localiser la mdiane dans lintervalle des 30-40 ans. Le polygone des effectifs cumuls croissants permet une visualisation graphique de la mdiane (voir figure 2.7). Soit les trois points A (30 ; 2 164 808), B (40 ; 4 653 220) et M (Me ; 4 345 579,5). Figure 2.7
Mdiane et effectifs cumuls par ges des personnes de plus de 15 ans ayant un niveau dtudes suprieures.
ni cumuls 9 000 8 000 7 000

Milliers

6 000 5 000 4 000 3 000 2 000 1 000 0 0 10 20 30 Me 40 50 60 70 80 xi A M B nicum croissants nicum dcroissants

48

Statistique descriptive

Nous pouvons crire lalignement de ces trois points par galit des coefficients directeurs 4 653 220 2164 808 4 345 579,5 2164 808 , = (interpolation linaire ; voir focus 2.2) : Me 30 40 30 2 488 412 2 180 771,5 soit = , ce qui donne, en effectuant le produit en croix : 10 Me 30 2180 771,5 Me = + 30 = 38,76 ans. 248 841,2 La mdiane est relier la notion de fonction de rpartition, fonction dfinie de R dans [0 ; 1], extrmement importante en probabilit. Pour une variable statistique continue, la fonction de rpartition se dfinit par : F ( x ) = P ( X x ) , qui donne la proportion des individus de la population pour lesquels la variable statistique prend une valeur infrieure ou gale x. Ainsi : F ( Me ) = 0,50 . La mdiane ne satisfait pas bien aux conditions de Yule. Elle dpend du nombre de termes, mais pas de leur grandeur, et est inadapte aux calculs. Elle prsente cependant le grand avantage dtre insensible linfluence des termes extrmes, et donc dtre robuste.

3.2

LES QUANTILES : GNRALISATION DE LA MDIANE


Les quantiles

Dfinition

On suppose que les modalits de la srie statistique sont ranges dans lordre croissant. Soit p un rel tel que 0 < p < 1, on lui associe la valeur de la srie*, note Q(p), appele quantile dordre p. Q(p) est la plus petite valeur de la srie pour laquelle la proportion des observations infrieures ou gales Q(p) est au moins gale p. * Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, le quantile dordre 0,50 sera pris gal la mdiane.

La proportion dobservations infrieures ou gales Q(p) est au moins gale p et la proportion dobservations suprieures ou gales Q(p) est au moins gale (1 p). En plus de la mdiane, frquemment utilise, nous prsentons ici les quantiles les plus courants :

les trois quartiles partagent la srie en quatre groupes comprenant chacun 25 % des observations ; les neuf dciles partagent la srie en dix groupes comprenant chacun 10 % des observations ; les quatre-vingt-dix-neuf centiles partagent la srie en cent groupes comprenant chacun 1 % des observations.

Les caractristiques de tendance centrale

49

Les quartiles
Dfinition Les quartiles partagent la population ou lchantillon en quatre groupes comprenant chacun 25 % des observations.

Au nombre de trois, ils se notent Q1, Q2 et Q3.

Q1 est le quantile dordre 0,25 : au moins 25 % des observations sont infrieures ou gales Q1 et au moins 75 % suprieures ou gales Q1. Q2 est le quantile dordre 0,50 : au moins 50 % des observations sont infrieures ou gales Q2 et au moins 50 % suprieures ou gales Q2 ; Q2 est gal la mdiane. Q3 est le quantile dordre 0,75 : au moins 75 % des observations sont infrieures ou gales Q3 et au moins 25 % suprieures ou gales Q3. Dans le cas continu, on se rfre la fonction de rpartition : F(Q1) = 0,25 ; F(Q2) = 0,5 et F(Q3) = 0,75. La dtermination des quartiles se fait comme pour la mdiane, avec une interpolation linaire dans le cas continu, les quartiles pouvant tre dtermins grce au polygone des frquences ou des effectifs cumuls croissants.
Exemple 2.9 Calcul dun quartile dans un tableau statistique contenant une variable continue

Reprenons lexemple 2.8, trait pour la mdiane, concernant le niveau dtudes des pern sonnes de plus de 15 ans, et dterminons Q1. Aprs avoir calcul = 2 172 789,75, nous 4 en dduisons que Q1 appartient la classe des 30-40 ans. Il reste effectuer linterpolation linaire qui donne :
4 653 220 2 164 808 2172 789,75 2 164 808 , soit Q1 = 30,03 ans, ce qui signifie que = Q1 30 40 30 25 % de cette population a un ge infrieur ou gal 30,03 ans.

Les dciles
Dfinition Les dciles partagent la population ou lchantillon en dix groupes comprenant chacun 10 % des observations.

Au nombre de neuf, ils se notent : D1, D2, D3, D4, D5, D6, D7, D8 et D9. D1 est le quantile dordre 0,10 : au moins 10 % des observations sont infrieures ou gales D1 et au moins 90 % des observations sont suprieures ou gales D1. D2 est le quantile dordre 0,20 : au moins 20 % des observations sont infrieures ou gales D2 et au moins 80 % des observations sont suprieures ou gales D2. D9 est le quantile dordre 0,90 : au moins 90 % des observations sont infrieures ou gales D9 et au moins 10 % des observations sont suprieures ou gales D9. Dans le cas continu, on se rfre la fonction de rpartition : F(D1) = 0,1 ; F(D2) = 0,2 ; ; F(D9) = 0,9. La dtermination des dciles est faite selon le mme processus que celui utilis pour les quartiles.

50

Statistique descriptive

Les centiles
Dfinition Les centiles partagent la population ou lchantillon en cent groupes comprenant chacun 1 % des observations.

Au nombre de quatre-vingt-dix-neuf, ils se notent : C1, C2, , C99. C1 est le quantile dordre 0,01 : au moins 1 % des observations sont infrieures ou gales C1 et au moins 99 % des observations sont suprieures ou gales C1. C99 est le quantile dordre 0,99 : au moins 99 % des observations sont infrieures ou gales C99 et au moins 1 % des observations sont suprieures ou gales C99. Dans le cas continu : F(C1) = 0,01 ; F(C2) = 0,02 ; ; F(C99) = 0,99. La dtermination des centiles est faite selon le mme processus que celui utilis pour les quartiles.

Focus 2.3

Positions relatives de la moyenne arithmtique, du mode et de la mdiane


La moyenne arithmtique, le mode et la mdiane sont trois paramtres de position qui permettent de prciser la forme de la distribution (voir figure 2.8) : Lorsque le diagramme de la distribution est symtrique, ces trois paramtres de position sont confondus, comme dans le cas dune distribution probabiliste normale ou gaussienne (voir chapitre 4, section 1) o la valeur centrale simpose. Lorsque la distribution est asymtrique, ou oblique, le mode est par dfinition au sommet de la courbe des frquences. La moyenne, comme un centre dinertie, attire par les termes extrmes, se dplace vers la zone o la courbe est le plus tire. La mdiane reste situe entre ces deux valeurs. Ce type de graphique voque notamment la distribution binomiale. Dans ce cas le choix dune valeur centrale est beaucoup moins vident et exige de la circonspection. Nous noublierons jamais en statistiques que linterprtation et la prsentation des calculs exigent une grande honntet intellectuelle : Les chiffres sont des innocents, qui, sous la sollicitation, sous la torture, avouent trs vite ce quon leur demande, quitte se rtracter 1 plus tard (Alfred Sauvy ).

Figure 2.8
Histogramme, densit de probabilit et valeurs centrales.
fi

Distribution symtrique

fi

Distribution oblique gauche

fi

Distribution oblique droite

xi Mo = Me = x

Mo < Me < x

xi

xi x< Me < Mo

1. Alfred Sauvy (1898-1990), conomiste et sociologue franais, fut directeur de lINED (Institut national dtudes dmographiques).

Les caractristiques de tendance centrale

51

Karl Pearson a introduit, la fin du XIX sicle, la relation empirique suivante : Me Mo = 2 (x Me) . Elle est valable pour les distributions unimodales, pas trop asymtriques, et permet une estimation rapide dun paramtre partir des deux autres.

Focus 2.4

Les fonctions Excel


Pour faire la moyenne arithmtique dune variable : appelez la fonction MOYENNE dans la cellule o vous souhaitez faire apparatre le rsultat. Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette fonction permet deffectuer uniquement une moyenne simple. Pour faire la moyenne harmonique dune variable : appelez la fonction MOYENNE.HARMONIQUE dans la cellule o vous souhaitez faire apparatre le rsultat. Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette fonction permet deffectuer uniquement une moyenne simple. Pour faire la moyenne gomtrique dune variable : appelez la fonction MOYENNE.GEOMETRIQUE dans la cellule o vous souhaitez faire apparatre le rsultat. Puis, laide de votre curseur, slectionnez les valeurs dans la liste darguments. Cette fonction permet deffectuer uniquement une moyenne simple.

Focus 2.5

Les fonctions de la calculatrice


Avant tout calcul statistique, noubliez pas deffacer les listes : appuyez sur la touche STAT, puis ClrList L1,L2,L3, et validez avec ENTER. La calculatrice indique alors done , pour signifier quelle a effac ces trois listes. Pour effectuer la moyenne arithmtique simple dune variable : saisissez les modalits dans la colonne L1 du tableau. Appuyez sur la touche STAT, puis, dans le menu CALC, appelez la fonction 1-Var Stats. Validez avec ENTER. La moyenne saffiche sur lcran, entre autres rsultats. Pour effectuer une moyenne pondre : saisissez les modalits dans la colonne L1, saisissez les effectifs ou les frquences dans la colonne L2, puis, dans le menu CALC, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2, et validez avec ENTER. Pour effectuer le produit de deux colonnes de mme dimension, L1 et L2 : mettez par exemple la colonne L3 en surbrillance et tapez L1L2. Le produit des deux colonnes saffiche dans la colonne L3. Pour effectuer le produit des lments dune colonne : placez le curseur dans la cellule Li (1) (premire cellule de la liste i o vous souhaitez faire apparatre le produit). Appuyez sur les touches 2ND et LIST, puis, dans le menu MATH, appelez la fonction Prod(. Indiquez la colonne Lj dont vous souhaitez calculer le produit des lments, fermez la parenthse et validez avec ENTER.

1. Karl Pearson (1857-1936), mathmaticien, statisticien anglais, fondateur avec Galton de la revue Biometrika.

52

Statistique descriptive

Pour calculer la racine n dune cellule : placez le curseur dans la cellule Li (1) o vous ime souhaitez faire apparatre la racine n . Appuyez sur la touche MATH, appelez la fonction
x

ime

. Indiquez la cellule dont vous souhaitez calculer la racine n


n

ime

et validez avec ENTER.

Vous pouvez galement utiliser la proprit puissance, en tapant x^(1/n).

x =x

1 n

et vous ramener un calcul de

Conclusion
Nous voyons ainsi que nous serons amens faire de nombreux calculs de valeurs centrales pour analyser une srie statistique. Nous devrons choisir parmi ces valeurs celles qui par leurs qualits correspondent au contexte de ltude. La moyenne arithmtique est gnralement pertinente si la srie est suffisamment longue et homogne. Elle varie peu dun chantillon lautre. La mdiane est trs simple calculer, mais est plus sensible aux fluctuations dchantillonnage. Elle participe bien la description de la srie et limine leffet des valeurs aberrantes. Le mode a un but pratique vident : il indique la valeur la plus typique. Par ailleurs, il est incontournable pour les sries asymtriques. Ces paramtres qui participent une description synthtique de la srie doivent toujours tre visualiss sur les diffrentes reprsentations graphiques. Nous reviendrons dans le chapitre suivant sur limportance des quartiles et leur rle dans la reprsentation graphique des sries par des botes moustaches.

Les caractristiques de tendance centrale

53

Problmes et exercices
La mise en uvre des caractristiques de tendance centrale diffre selon la nature des donnes. Les exercices 1, 2 et 3 proposent la dtermination de caractristiques de tendance centrale pour des variables de diverse nature. Lexercice 4 fait appel une approche graphique des caractristiques de tendance centrale. Les exercices 5 et 6 approfondissent la notion de moyenne, grce aux moyennes gomtriques et harmoniques.

EXERCICE 1 LECTURE DE TENDANCES CENTRALES SUR SRIE BRUTE


La liste ci-aprs est compose des vingt-cinq pays de lUnion europenne. Les nombres entre parenthses indiquent le nombre de mdecins pour 100 000 habitants : Allemagne (350) ; Autriche (300) ; Belgique (400) ; Chypre (270) ; Danemark (340) ; Espagne (440) ; Estonie (310) ; Finlande (310) ; France (300) ; Grce (390) ; Hongrie (360) ; Irlande (230) ; Italie (570) ; Lettonie (310) ; Lituanie (390) ; Luxembourg (250) ; Malte (260) ; Pays-Bas (250) ; Pologne (230) ; Portugal (310) ; Rpublique tchque (310) ; Royaume-Uni (160) ; Slovaquie (320) ; Slovnie (220) ; Sude (310).
Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

1. Dterminez le mode de cette srie. 2. Dterminez la mdiane.

1. On classe le nombre de mdecins pour 100 000 habitants par ordre croissant :

160 ; 220 ; 230 ; 230 ; 250 ; 250 ; 260 ; 270 ; 300 ; 300 ; 310 ; 310 ; 310 ; 310 ; 310 ; 310 ; 320 ; 340 ; 350 ; 360 ; 390 ; 390 ; 400 ; 440 ; 570.
Mo = 310. Le mode est la valeur la plus reprsente, soit 310 mdecins pour 100 000 habitants, valeur observe dans 6 pays. 2. Leffectif total n est impair, avec ici n = 25. Or, n = 2p + 1, donc p = 12. La valeur ime centrale est la (p + 1) observation, soit la 13e. Il sagit de 310. Donc Me = 310. Le nombre mdian de mdecins pour 100 000 habitants est 310. Douze pays, soit la moiti, ont moins de 310 mdecins pour 100 000 habitants et 12 pays, soit lautre moiti, ont plus de 310 mdecins pour 100 000 habitants.

54

Statistique descriptive

EXERCICE 2

TENDANCES CENTRALES SUR TABLEAU STATISTIQUE,


CARACTRE DISCRET
Le tableau ci-aprs recense le nombre de rsidences principales en France, selon le nombre de pices :
Nombre de pices 1 2 3 4 5 6
Source : Insee, recensement de la population, 1999

Nombre de rsidences principales 1 526 573 3 028 244 5 299 675 6 418 808 4 432 943 3 103 918

1. Dterminez le mode. 2. Dterminez la mdiane. 3. Dterminez les quartiles. 4. Calculez la moyenne.

1. Mo = 4. Ce sont les rsidences principales de 4 pices qui sont le plus frquentes, avec un effectif de 6 418 808. 2. Nous cherchons le nombre de pices en dessous duquel se trouvent 50 % des rsidences principales. Nous calculons donc les effectifs cumuls croissants, selon les tapes suivantes, sous Excel (voir figure 2.9) : leffectif total (n) en cellule B8, les frquences (fi) en colonne C, puis les frquences cumules croissantes (ficc) en colonne D.

Leffectif total est impair, donc la mdiane est lobservation centrale, de rang (p + 1), avec 23 810 160 . p= 2
Figure 2.9
Rsultats sous Excel.

Ou encore : partir de la colonne des frquences cumules croissantes (ficc), nous lisons que 41 % des rsidences principales ont 3 pices et moins ; 68 % des rsidences princi-

Les caractristiques de tendance centrale

55

pales ont 4 pices et moins. Donc, entre ces deux valeurs, 50 % des rsidences principales ont moins de 4 pices. Soit Me = 4.
3. partir du tableau utilis pour la mdiane, il est possible de dterminer que :

Q1 = 3 : 19 % des rsidences principales ont 2 pices et moins ; 41 % des rsidences principales ont 3 pices et moins. Donc, entre ces deux valeurs, 25 % des rsidences principales ont moins de 3 pices. Q2 = 4, car Q2 = Me. Q3 = 5 : 68 % des rsidences principales ont 4 pices et moins ; 87 % des rsidences principales ont 5 pices et moins. Donc, entre ces deux valeurs, 75 % des rsidences principales ont moins de 5 pices. 4. la suite du tableau prcdent, nous calculons les nixi en colonne E puis leur somme en cellule E8, sous Excel (voir figure 2.10).
1 6 89 945 541 ni xi = , soit x = 3,78 pices. La moyenne du n i =1 23 810161 nombre de pices dans les rsidences principales est de 3,78.

La moyenne est gale x =

EXERCICE 3

TENDANCES CENTRALES SUR TABLEAU STATISTIQUE,


CARACTRE CONTINU
Le tableau ci-aprs indique la structure des entres dans les salles de cinma en France, selon les tranches dge des spectateurs de moins de 25 ans :
ge [5 ; 10[ [10 ; 15[ [15 ; 20[ [20 ; 25[
Source : CNC, 2005

Nombre dentres (millions) 7,632 12,316 26,192 24,631

1. Calculez le mode. 2. Calculez la mdiane. 3. Calculez les quartiles. 4. Calculez les dciles : a. Calculez D1. b. Calculez D9. 5. Calculez les centiles : a. Calculez C1. b. Calculez C99. 6. Calculez la moyenne.

56

Statistique descriptive

1. Nous vrifions en premier lieu que les amplitudes de classes sont gales, ici de valeur 5. Il nest donc pas ncessaire de corriger les effectifs en passant par les densits. La classe modale est celle de plus grand effectif, soit la classe [15 ; 20[.
k2 x1 + k1 x2 (26,192 12,316) 20 + (26,192 24,631) 15 = , k1 + k2 (26,192 12,316) + (26,192 24, 631) soit Mo = 19,49. Lge modal de la population tudie est 19,49 ans, soit 19 ans et 6 mois.

Le mode est donc gal Mo =

2. La premire tape consiste calculer les centres de classes (xi).

x1 =

5 + 10 10 + 15 15 + 20 20 + 25 = 7,5 ; x2 = = 12,5 ; x3 = = 17,5 ; x4 = = 22,5. 2 2 2 2

Saisissez les centres de classes (xi) dans la colonne L1 de la calculatrice et les effectifs (ni) dans la colonne L2 (voir figure 2.10).

Figure 2.10
Saisie du tableau de donnes avec la calculatrice.

Pour calculer les frquences (fi) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L2sum(L2), en appelant la fonction SUM (voir chapitre 1, annexe 1.2). Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les frquences. Pour obtenir les frquences cumules croissantes (ficc) dans la colonne L4 (voir figure 2.11a), placez le curseur sur len-tte de colonne L4, puis entrez la formule L4=CumSum(L3), en appelant la fonction CUMSUM (voir chapitre 1, annexe 1.2), puis appuyez sur ENTER.

Figure 2.11a
Calcul des frquences et des frquences cumules croissantes avec la calculatrice

28,2 % des entres sont faites par les moins de 15 ans ; 65,2 % des entres sont faites par les moins de 20 ans. Donc la mdiane appartient la classe [15 ; 20[.
0,5 0,28187 ( 20 15 ) + 15 ; soit Me = 17,95. La 0,65196 0,28187 moiti de la population tudie a moins de 17,95 ans, soit environ 17 ans et 11 mois.

Par interpolation linaire, Me =

Les caractristiques de tendance centrale

57

3. 10,8 % des entres sont faites par les moins de 10 ans ; 28,2 % des entres sont faites par les moins de 15 ans. Donc Q1 appartient la classe [10 ; 15[.

Par interpolation linaire, Q1 =

0,25 0,10784 (15 10 ) + 10 ; soit Q1 = 14,08. Un 0,28187 0,10784 quart de la population tudie a moins de 14,08 ans, soit environ 14 ans et 1 mois.

Q2 = Me, donc Q2 = 17,95. La moiti de la population tudie a moins de 17,95 ans, soit environ 17 ans et 11 mois. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc Q3 appartient la classe [20 ; 25[. Par interpolation linaire, Q3 =
0,75 0, 65196 ( 25 20 ) + 20 ; soit Q3 = 21,41. Trois 1 0,65196 quarts de la population tudie ont moins de 21,41 ans, soit environ 21 ans et 5 mois.

4. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par les moins de 10 ans. Donc D1 appartient la classe [5 ; 10[.

Par interpolation linaire, D1 =

0,1 0 (10 5) + 5 ; soit D1 = 9,64. 10 % de la 0,10784 0 population tudie a moins de 9,64 ans, soit environ 9 ans et 8 mois.

b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc D9 appartient la classe [20 ; 25[.

Par interpolation linaire, D9 =

0,9 0,65196 ( 25 20 ) + 20 ; soit D9 = 23,56. 90 % de 1 0,65196 la population tudie a moins de 23,56 ans, soit environ 23 ans et 7 mois.

5. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par les moins de 10 ans. Donc C1 appartient la classe [5 ; 10[.
0,01 0 (10 5) + 5 ; soit C1 = 5,46. 1 % de la 0,10784 0 population tudie a moins de 5,46 ans, soit environ 5 ans et 5 mois.

Par interpolation linaire, C1 =

b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc C99 appartient la classe [20 ; 25[.
0,99 0,65196 ( 25 20 ) + 20 ; soit C99 = 24,86. 99 % de 1 0,65196 la population tudie a moins de 24,86 ans, soit environ 24 ans et 10 mois.

Par interpolation linaire, C99 =

6. Pour calculer les nixi dans la colonne L5, placez le curseur sur len-tte de colonne L5. Indiquez L5=L2L1. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre les nixi (voir figure 2.11b).

Pour en faire la somme, placez le curseur sur la cellule L5(5), et indiquez L5(5)=sum(L5), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. La cellule L5(5) fait alors apparatre la somme des nixi.

58

Statistique descriptive

Pour connatre leffectif total, placez le curseur sur la cellule L2(5), et indiquez L2(5)=sum(L2), en appelant la fonction SUM. Puis appuyez sur ENTER. La cellule L2(5) fait alors apparatre la somme des ni.

Figure 2.11b
Calcul des nixi et de la somme des colonnes avec la calculatrice.

La moyenne est donc gale x =

1 4 1223,7 ni xi = , soit x = 17,29. Lge moyen de la n i =1 70,771 population tudie est 17,29 ans, soit environ 17 ans et 3 mois.

EXERCICE 4 VISUALISATION GRAPHIQUE DES TENDANCES CENTRALES


partir des donnes de lexercice 3 : 1. Dessinez un histogramme. Positionnez sur cet histogramme le mode, la mdiane, les quartiles et la moyenne. 2. Retrouvez la valeur de la mdiane laide des polygones des effectifs cumuls.

1. Les amplitudes de classes sont toutes identiques. Il est donc inutile de passer par les densits des effectifs afin de respecter le rapport entre laire du rectangle et sa hauteur (voir figure 2.12).

Figure 2.12
Histogramme des entres cinmatographiques par ges et tendances centrales.

ni 30

25

15

5 Q1 0 0 5 10 15 20 25

M Mo Q 3 xi

Les caractristiques de tendance centrale

59

2. La mdiane se trouve lintersection des polygones des effectifs cumuls croissants et dcroissants. Afin de pouvoir tracer graphiquement ces polygones, il convient de calculer les effectifs cumuls croissants nicc en colonne D et les effectifs cumuls dcroissants nicd en colonne E (voir figure 2.13). Figure 2.13
Rsultats sous Excel.

Figure 2.14
Effectifs cumuls par ges des entres cinmatographiques.

ni cumuls 70 60 50 40 30 20 10 0 5 15 Me = 17 ,95 xi 25 nicc nicd

EXERCICE 5 MOYENNE GOMTRIQUE


Un jeune diplm est augment de 5 % la premire et la deuxime anne de sa vie professionnelle. La troisime anne, son augmentation de salaire est de 3 %. Il change dentreprise au dbut de la quatrime anne, et ngocie un salaire de 12 % plus lev que celui quil avait. Dterminez la moyenne de ses augmentations de salaire sur les quatre annes.

Pour une augmentation de xi = 5 % = 0,05, la croissance se traduit par un coefficient multiplicateur de yi = 1 + 0,05 = 1,05. Ainsi, nous savons que le coefficient multiplicateur moyen est la moyenne gomtrique pondre des coefficients multiplicateurs affects des dures. Nous allons donc introduire la srie des yi = 1 + xi . Saisissez les yi dans la colonne L1 de la calculatrice et les effectifs (ni) dans la colonne L2 (voir figure 2.15). Pour calculer les yi^ni dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1^L2, puis appuyez sur ENTER. La colonne L3 fait alors apparatre les yi^ni. Pour en faire le produit, placez le curseur sur la cellule L3(4) et indiquez L3(4)=prod(L3), en appelant la fonction PROD. Puis appuyez sur ENTER. La cellule L3(4) fait alors apparatre le produit des yi^ni, soit 1,2718.

60

Statistique descriptive

Pour faire la racine 4 du rsultat, placez le curseur sur la cellule L3(5), et indiquez L3(5)= L3(4)^(1 / 4). Puis appuyez sur ENTER. La cellule L3(5) donne 1,062.

Figure 2.15
Saisie du tableau de donnes et calcul avec la calculatrice.

La moyenne gomtrique est G =

yi
i =1

ni

= 1,062. Laugmentation moyenne du

salaire sur les quatre annes est 6,20 %.

EXERCICE 6 MOYENNE HARMONIQUE


Christophe Moreau est arriv premier Franais et 20 au classement du Tour de France 2005. Le tableau ci-aprs indique sa vitesse moyenne (km/h) sur chaque tape, ainsi que la distance de ltape (km).
Jour Mardi 19 juillet 2005 Mercredi 20 juillet 2005 Jeudi 21 juillet 2005 Vendredi 22 juillet 2005 Samedi 23 juillet 2005 Dimanche 24 juillet 2005 tape Mourenx > Pau Pau > Revel Albi > Mende Issoire > Le Puy-en-Velay Saint-tienne > Saint-tienne Corbeil-Essonnes > Paris Champslyses Vitesse moyenne (km/h) 38,40 39,48 39,10 42,44 44,40 39,23 Distance de ltape (km) 180,5 239,5 189 153,5 55 144
e

Source : http://www.letour.fr/2005

Calculez la vitesse moyenne de Christophe Moreau sur la dernire semaine du Tour de France 2005.

d Si H dsigne la vitesse moyenne, alors : H = = t

n
i =1 r

ni i =1 xi

Les caractristiques de tendance centrale

61

Nous cherchons donc la moyenne harmonique des vitesses (xi), chaque vitesse ayant pour poids la distance de ltape (ni). Nous calculons les ni / xi en colonne E puis leur somme en cellule E8, sous Excel (voir figure 2.16).

Figure 2.16
Rsultats sous Excel.

La moyenne harmonique est : H =

n x
i =1 i =1 6

ni
i

962 , soit H = 39,85 km/h. La vitesse 24,13

moyenne de Christophe Moreau sur la dernire semaine du Tour de France 2005 est 39,85 km/h.

Bibliographie
ANTOINE C., Les moyennes, Que sais-je ?, PUF, 1998. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. YULE G., An Introduction to the Theory of Statistics, Griffin, 1911.

62

Statistique descriptive

Les caractristiques de dispersion


1

1. Les caractristiques simples ...64 2. Variance et cart-type ..........66 Problmes et exercices 1. Caractristiques simples de dispersion .......................73 2. Bote moustaches...............75 3. Variance et cart-type sur caractre discret .............76 4. Comparaison de distributions sur caractre continu ............77 5. Manipulations de formules....79

Dans son incontournable livre Le jeu de la science et du 1 hasard, Daniel Schwartz raconte cette anecdote : Les mauvaises langues prtendent quun statisticien se noya dans un cours deau dont la profondeur moyenne tait de 20 cm. Cest qu lendroit o il souhaitait patauger, elle atteignait 2 m. Dans le chapitre 2, nous avons vu comment une srie statistique pouvait tre rsume par ses caractristiques de position. Cependant, ces dernires ne renseignent pas sur la structure interne de la distribution, sur la variabilit de la srie autour de sa moyenne. Cest pourquoi il convient de complter ce travail en introduisant les caractristiques de dispersion. Nous en tudierons cinq : ltendue, les intervalles interquantiles, lcart absolu moyen, lcart-type (li la variance) et le coefficient de variation.

1. Daniel Schwartz, polytechnicien, est le fondateur du Centre denseignement de la statistique applique la mdecine (CESAM). Il a t le pionnier de lintroduction de la statistique dans la mdecine en France.

63

Les caractristiques simples


Ltendue, les intervalles interquantiles et lcart absolu moyen sont qualifis de simples, car ces caractristiques restent limites dans leur construction et leur utilisation, au regard de la notion de variance (expose dans la seconde partie de ce chapitre).

1.1

LTENDUE
La premire mesure de la dispersion dune distribution est ltendue. Cette mesure est la plus simple des caractristiques de dispersion ; dans le langage courant, on parle dventail, ou de fourchette, ou dintervalle de variation de la srie.

Dfinition

Ltendue dune srie est la diffrence entre la plus grande et la plus petite valeur observe. Elle est note : E = Max (xi) Min (xi).

Ltendue permet une approche aise de la dispersion dune variable, mais sa signification reste trs limite, car elle ne prend en compte que les deux valeurs extrmes de la srie. Or, ces valeurs extrmes peuvent tre mal connues, voire aberrantes ou errones. Par ailleurs, ltendue nest pas indpendante de leffectif observ et peut donner une vision fausse de la dispersion. Enfin, dans le cas de sries continues, ltendue nest pas connue avec exactitude, puisque la perte dinformation due au regroupement en classes ne permet pas de connatre les valeurs minimales et maximales rellement prises par la variable.

1.2

LES INTERVALLES ET CARTS INTERQUANTILES


Il existe trois intervalles et carts interquantiles : Lintervalle interquartile [Q1 ; Q3] reprsente la zone centrale de la population comprenant 50 % de la srie ; lamplitude de cet intervalle est appele cart interquartile et on note : EIQ = Q3 Q1. Lintervalle interdcile [D1 ; D9] reprsente la zone centrale de la population comprenant 80 % de la srie ; lamplitude de cet intervalle est appele cart interdcile et on note : EID = D9 D1. Lintervalle intercentile [C1 ; C99] reprsente la zone centrale de la population comprenant 98 % de la srie ; lamplitude de cet intervalle est appele cart intercentile et on note : EIC = C99 C1.

Dfinitions

Exemple 3.1

Calcul de lcart interquartile

Reprenons lexemple 2.8 du chapitre prcdent concernant le niveau dtudes suprieures des personnes de plus de 15 ans. Dans cet exemple, Q1 = 30,03 ans. En procdant au calcul de Q3, nous trouvons Q3 = 52,18 ans. Ainsi, EIQ = 52,18 30,03 = 22,15 ans, soit environ 22 ans et 2 mois.

64

Statistique descriptive

Par rapport ltendue, lcart interquartile prsente lavantage dcarter les valeurs extrmes, mais linconvnient de laisser de ct 50 % des donnes. Cest pourquoi on prfre habituellement lintervalle interdcile, EID = D9 D1, qui comprend 80 % de la population.

1.3

LA BOTE MOUSTACHES (BOX PLOT)


La bote moustaches est souvent appele box plot dans les logiciels statistiques.

Dfinition

Les quantiles permettent une reprsentation de la distribution statistique par le diagramme de 1 Tukey , ou bote moustaches. Il sagit dune bote dlimite par les quartiles Q1 et Q3, coupe en deux parties par la mdiane et prolonge de chaque ct par des moustaches (voir figure 3.1).

Figure 3.1
Schma de la bote moustaches ou diagramme de Tukey.
Moustache gauche Moustache droite

Q1

Q3

Il existe plusieurs conventions permettant de fixer la valeur des moustaches : Termes extrmes : la mthode classique consiste dmarrer la moustache de gauche la plus petite des valeurs, Min (xi), et finir celle de droite par Max (xi). Dans ce premier cas, si la srie a des valeurs extrmes isoles, les moustaches de la srie seront trs longues et fausseront linterprtation. Moustaches limites 1,5 EIQ : pour viter le problme voqu ci-avant, un calcul permet de limiter la taille des moustaches une fois et demie lcart interquartile. La moustache de gauche est gale la plus grande des valeurs entre Min (xi) et Q1 1,5 (Q3 Q1). La moustache de droite est compose de la plus petite des valeurs entre Max (xi) et Q1 + 1,5 (Q3 Q1). Centiles : une mthode simple consiste utiliser les centiles pour fixer la valeur des moustaches. Le centile C10 est utilis pour la moustache de gauche, et le centile C90 pour la moustache de droite. La bote moustaches permet une bonne visualisation de la zone centrale de la srie et de la dispersion. Ce diagramme est extrmement prcieux pour comparer diverses sries statistiques.

1. John Wilder Tukey (1915-2000) : mathmaticien et statisticien, il fut le premier directeur du dpartement statistique de luniversit de Princeton.

Les caractristiques de dispersion

65

1.4

LCART ABSOLU MOYEN


Lcart absolu moyen est le paramtre de dispersion le plus simple qui mesure les fluctuations de la srie par rapport la moyenne.

Dfinition

Lcart absolu moyen de n observations est la moyenne arithmtique des valeurs absolues des 1 n carts la moyenne : e a = x i x . n i =1 Lcart absolu moyen de n observations, ordonnes dans un tableau statistique (xi ; ni), prsentant r modalits, est la moyenne arithmtique pondre des valeurs absolues des carts r 1 r la moyenne : e a = ni x i x , r dsignant le nombre de modalits, avec n = ni . n i =1 i =1

La valeur absolue des carts la moyenne est utilise afin dempcher que les carts positifs ne se compensent avec les carts ngatifs. En effet, par cette compensation, la somme des carts la moyenne est nulle :

n (x
i =1 i

x) = 0 .

Lcart absolu moyen prsente lavantage de prendre en compte toutes les valeurs de la srie. Il a t introduit par Laplace avant la variance et est utilis notamment dans la mthode destimation L1, mthode alternative la mthode des moindres carrs.

2
2.1

Variance et cart-type
PRSENTATION
Lcart-type ou cart quadratique moyen est de loin lindicateur de dispersion le plus utilis. Lintroduction en 1893 de son nom anglais standard deviation est due Karl Pearson, mathmaticien, statisticien et philosophe. La variance, qui est le carr de lcarttype, a t introduite en statistique par le statisticien et gnticien anglais Ronald Fisher.

Dfinitions

Lcart-type, not x, est la racine carre de la variance.


1 2 = (x i x ) V (x ) = x n Dans le cas de n observations, la variance est donne par : . ( x ) = 1 ( x x ) i n

Dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni), prsentant r modalits :

66

Statistique descriptive

1 i =r 2 V ( x ) = x = n ni ( x i x ) i =1 . i =r 1 ( x ) = ni (xi x ) n i =1

La variance (ou fluctuation) est la moyenne arithmtique des carrs des carts la moyenne. Elle se note V(x).

Lcart-type peut galement se dfinir comme la moyenne quadratique des carts la moyenne.
Exemple 3.2 Calculs de variance et dcart-type

La srie suivante donne le salaire minimal de croissance pour 169 heures de travail dans vingt pays dEurope en 2006. La valeur du SMIC est indique entre parenthses : Belgique (1 234) ; Bulgarie (81,8) ; Rpublique tchque (261,3) ; Estonie (191,7) ; Irlande (1 293) ; Grce (667,7) ; Espagne (631) ; France (1 218) ; Lettonie (129,2) ; Lituanie (159,3) ; Luxembourg (1 503) ; Hongrie (247) ; Malte (580) ; Pays-Bas (1 273) ; Pologne (233,5) ; Portugal (450) ; Roumanie (90,2) ; Slovnie (511,9) ; Slovaquie (183,2) ; Royaume-Uni (1269).
Source : Eurostat, 2006

Calculons la variance et lcart-type laide dExcel (voir figure 3.2).


Figure 3.2 Calcul des (xi x )
sous Excel.

1 20 12 207,8 xi = 20 = 610,39 . De l, aprs calcul de 20 i =1 chacun des carts cette moyenne, et leur lvation au carr, 1 20 4 672 451, 34 V (x) = (xi x ) = = 233 622,57 . La variance de la valeur du SMIC des 20 i =1 20 diffrents pays europens est de 233 622,57. Do lcart-type x = V (x) = 233 622,57 = 483,35 .

Le calcul de la moyenne donne x =

Les caractristiques de dispersion

67

Afin de faciliter les diffrentes tapes de calcul de la variance, il est possible dutiliser la formule dveloppe de la variance. Cette formule est issue du thorme de Koenig.
Dfinitions Formules dveloppes de la variance :
1 n Cas de n observations : V ( x ) = x i x . n i =1 1 r Cas dun tableau statistique avec r modalits : V ( x ) = ni x i x . n i =1

Dmonstration (dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni), comprenant r modalits) :
1 r ni (xi x ) n i =1 1 r V (x) = ni (xi 2 xi x + x ) n i =1 1 r 1 r 1 r V (x) = ni xi 2 x ni xi + x ni n i =1 n i =1 n i =1 r 1 V (x) = ni xi 2 xx + x n i =1 1 r V (x) = ni xi x n i =1 V (x) =

Par cette formule, la variance est gale la moyenne des xi au carr moins le carr de la moyenne des xi. Le procd mnmotechnique suivant est parfois utilis : V(x) = MC CM, soit la variance est gale la Moyenne des Carrs moins le Carr de la Moyenne.
Exemple 3.3 Calcul de la variance par la formule dveloppe

Reprenons les donnes de lexemple 3.2 et calculons la variance avec la formule dveloppe, laide de la calculatrice : saisissez les valeurs du SMIC dans la colonne L1 du tableau (voir figure 3.3) en appuyant sur la touche STAT puis en ditant le tableau par appui sur la touche 1.
Figure 3.3
Extrait de la saisie du tableau de donnes avec la calculatrice.

68

Statistique descriptive

Lorsque les vingt valeurs sont saisies, appuyez sur la touche STAT, puis, dans le menu CALC, appelez la fonction 1-Var Stats. Validez avec ENTER. Les rsultats prsents figure 3.4 saffichent.
Figure 3.4
Rsultats de lanalyse statistique effectue avec la calculatrice.

Lecture des rsultats : on notera que la calculatrice dsigne par x et x les sommes des valeurs ou de leurs carrs, que lon ait affaire n observations brutes ou n observations ordonnes dans un tableau statistique. Par dfaut, comme dans cet exemple, les ni sont pris gaux 1. Enfin, lcart-type est x = 483,35. Il ne faut pas le confondre avec Sx = 495,9 appel cart-type dchantillon (suprieur x), qui permet destimer lcart-type dune population partir dun chantillon de cette population (voir P. Roger, chapitre 5). partir de ces rsultats il est possible de calculer directement la variance : 1 20 1 V (x) = xi x = 12 123 970, 4 610,39 = 233 622,57 , soit la mme valeur que 20 i =1 20 par la formule classique de la variance, conformment la dmonstration du thorme de Koenig. Ce rsultat peut galement tre obtenu en levant lcart-type au carr : 2 V (x) = x = 483,34 = 233 622,57 .

2.2

CAS DUN CARACTRE CONTINU


Dans le cas dun caractre continu, le calcul se fait en remplaant chaque classe par sa valeur centrale, xi. Cette mthode, dite du centre de classe, tend augmenter lcart-type, notamment dans le cas dune distribution unimodale o les effectifs diminuent rapidement quand on scarte de la moyenne (distribution proche de la distribution normale). Une correction empirique, dite correction de Sheppard, est parfois utilise.

2.3

PROPRITS DE CALCUL DE LA VARIANCE ET DE LCART-TYPE


La variance et lcart-type ne sont pas linaires comme la moyenne, mais possdent des proprits trs importantes.

Proprits

V ( x + a ) = V (x ) , donc ( x + a ) = ( x ) : ajouter une constante ne change pas la dispersion. V (ax ) = a V ( x ) , donc ( ax ) = a ( x ) : multiplier la srie par un rel positif multiplie la

variance par le carr de ce nombre et lcart-type par la valeur absolue de ce nombre.

Les caractristiques de dispersion

69

Dmonstrations dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni) :
1 r ni (xi + a) (x + a) n i =1 1 r V (x + a) = ni (xi + a x a), avec la proprit de la moyenne (x + a) = x + a n i =1 1 r V (x + a) = ni (xi x) n i =1 V ( x + a) =

Soit V (x + a) = V (x )
1 r ni (axi ) (ax) n i =1 1 r V (ax) = a ni xi a x , avec la proprit de la moyenne (ax) = ax n i =1 V (ax) = 1 r V (ax) = a ni xi x n i =1

Soit V (ax) = aV (x)


Exemple 3.4 Applications des proprits de la variance

Supposons que, dans une entreprise, le salaire moyen soit de 2 500 avec un cart-type de 500 . Ajout dune constante : si tous les salaires augmentent de 200 , la moyenne augmente galement de 200 , mais lcart-type reste constant. Autrement dit, la dispersion des salaires sera toujours mesure par un cart-type de 500 autour du salaire moyen de 2 700 . Multiplication par une constante : si tous les salaires augmentent de 5 %, le salaire moyen sera de 2500 1, 05 = 2625 et lcart-type deviendra : 500 1,05 = 525 .

Focus 3.1

Lcart-type
Lcart-type est conforme trois des conditions de Yule : il est dfini de faon rigoureuse, il dpend de toutes les valeurs de la srie et se prte bien aux calculs algbriques. Il a le dfaut dtre sensible aux valeurs aberrantes, mais cette influence est limite, les carts exceptionnels tant pondrs par des effectifs faibles. On notera que lcart-type, qui reprsente lcart moyen dune unit statistique la moyenne, sexprime dans les mmes units que la variable, ce qui nest pas le cas de la variance (si la variable est une longueur exprime en centimtres, la variance est exprime en centimtres carrs). Population et chantillon : dans le cadre de la statistique infrentielle, on cherche prciser les paramtres dune population partir dun chantillon ; on rappelle (voir

70

Statistique descriptive

exemple 3.4) que la calculatrice donne deux paramtres nots respectivement X et SX : X dsigne lcart-type calcul sur les donnes considres comme constituant la population et SX une estimation ponctuelle de lcart-type de la population, obtenue partir dun chantillon (SX X). Additivit des variances : en gnral, la variance ne possde pas la proprit dadditivit. Les variances ne sadditionnent que si les lments constituant la somme ou la diffrence sont prlevs au hasard (voir A. Liorzou). On dit alors que les variables sont indpendantes, et dans ce cas on a alors : x, y tant des variables quantitatives indpendantes et z leur somme, V ( z ) = V ( x ) + V ( y ) , ce qui donne pour les carts-types une relation de Pythagore :

z2 = x2 + y2

soit

z = x2 + y2 .
Lcart absolu moyen est toujours infrieur ou gal lcart-type.

2.4

LE COEFFICIENT DE VARIATION
La comparaison directe de deux carts-types peut donner une impression fausse concernant la dispersion des deux sries dont les valeurs des moyennes sont diffrentes. De plus, lcart-type dpend de lunit choisie. Cest pourquoi le coefficient de variation, qui mesure la dispersion relative la moyenne, est utilis pour comparer la dispersion de plusieurs sries.

Dfinition

Le coefficient de variation est le rapport not CV(x) et dfini par : CV(x ) = sexprime en pourcentage de la moyenne.

x
x

; ce coefficient

Exemple 3.5

cart-type et coefficient de variation

Considrons qu la suite dune tude statistique portant sur le poids x des voyageurs et sur celui y des bagages, une compagnie arienne ait obtenu les rsultats suivants :
Paramtres Moyenne cart-type x 70 kg 8 kg y 15 kg 6 kg

Pour la srie des voyageurs CV ( x ) = bagages : CV ( y ) =


6 = 0, 40 , soit 40 %. 15

8 = 0,1143 , soit 11,43 %, et pour la srie des 70

Alors que lcart-type de la srie des voyageurs est plus grand que celui des bagages (X > Y), la srie des poids des bagages est plus disperse que celle des poids des voyageurs, car CV(y) > CV(x).

Les caractristiques de dispersion

71

Le coefficient de variation est un nombre sans dimension, indpendant de lunit de mesure ; il permet de mesurer la dispersion de sries exprimes en units ou ordres de grandeur diffrents. Il mesure lhomognit des donnes.

Conclusion
Ce chapitre nous a enseign que les valeurs centrales ne suffisent jamais dcrire une srie statistique et que les paramtres de dispersion sont incontournables pour apprhender la structure interne de la srie. On notera le rle prpondrant de la variance et de lcart-type et on sattachera retenir leurs proprits algbriques. On retiendra que le coefficient de variation et la bote moustaches sont des outils extrmement prcieux dans le cadre de la comparaison des sries. Enfin, ces paramtres vont nous permettre daller plus loin et de nous intresser la forme des distributions et notamment la plus clbre des lois de probabilit, la loi normale.

72

Statistique descriptive

Problmes et exercices
Aux cts des caractristiques de tendance centrale, les caractristiques de dispersion fournissent une seconde srie dindicateurs permettant de caractriser une distribution statistique. Les exercices 1, 2 et 3 mettent en uvre le calcul des indicateurs de dispersion, ainsi que leur reprsentation graphique sous forme de bote moustaches. Lexercice 4 montre comment deux distributions peuvent tre compares au regard des caractristiques de tendance centrale et de dispersion. Lexercice 5 permet une familiarisation avec les proprits des caractristiques de tendance centrale et de dispersion.

EXERCICE 1 CARACTRISTIQUES SIMPLES DE DISPERSION


Le tableau ci-aprs recense la population de la France mtropolitaine par tranches dge en 2007 (donnes provisoires) :
ge 0-14 ans 15-24 ans 25-34 ans 35-44 ans 45-54 ans 55-64 ans 65-74 ans 75-112 ans Population 11 275 845 7 806 706 8 022 951 8 733 224 8 428 982 7 166 591 4 929 936 5 173 765

Source : Insee, recensement de la population, bilan dmographique, 2007

1. Calculez ltendue. 2. Calculez les carts interquantiles. 3. Calculez lcart absolu moyen.

1. Ltendue est la diffrence entre lge maximal et lge minimal.

tendue = Max{xi} Min{xi} = 112 0.


tendue = 112. La distribution des ges en France mtropolitaine se rpartit sur 112 ans.

Les caractristiques de dispersion

73

2. Afin de pouvoir dterminer lensemble des quantiles, puis les intervalles correspondants, nous calculons les effectifs cumuls croissants, selon les tapes suivantes, sous Excel (voir figure 3.5) : leffectif total n ( ni ) en cellule B10, les frquences (fi) en colonne C puis les frquences cumules croissantes (ficc) en colonne D.

Figure 3.5
Rsultats sous Excel.

Avec les mmes mthodes de calcul que dans lexercice 3 (interpolation linaire) du chapitre 2 et partir de la colonne des frquences cumules croissantes (ficc), nous pouvons dterminer que :
Q1 = 19,74 : 25 % des Franais ont moins de 19,74 ans, soit environ 19 ans et 9 mois. Q3 = 57,37 : 75 % des Franais ont moins de 57,37 ans, soit environ 57 ans et 4 mois.

Donc lcart interquartile EIQ est Q3 Q1 = 37,63 : 50 % des Franais ont des ges rpartis sur 37,63 ans, soit environ 37 ans et 8 mois.
D1 = 7,64 : 10 % des Franais ont moins de 7,64 ans, soit environ 7 ans et 8 mois. D9 = 72,21 : 90 % des Franais ont moins de 72,21 ans, soit environ 72 ans et 3 mois.

Donc lcart interdcile EID est D9 D1 = 64,57 : 80 % des Franais ont des ges rpartis sur 64,57 ans, soit environ 64 ans et 7 mois.
C1 = 0,76 : 1 % des Franais ont moins de 0,76 an, soit environ 9 mois. C99 = 107,6 : 99 % des Franais ont moins de 107,6 ans, soit environ 107 ans et 7 mois.

Donc lcart intercentile EIC est C99 C1 = 106,84 : 98 % des Franais ont des ges rpartis sur 106,84 ans, soit environ 106 ans et 10 mois.
3. Pour calculer lcart absolu moyen, nous avons besoin de connatre la moyenne. Les

centres de classes (xi) sont calculs en colonne E, les (nixi) et leur somme en colonne F, la suite du tableau prcdent (voir figure 3.5).
8 1 2 482 825 437, 5 ni xi = , soit x = 40,35. Lge 61538 000 i =1 61 538 000 moyen de la population est denviron 40 ans et 4 mois. Une fois la moyenne connue, les ni xi x et leur somme sont calculs en colonne G, la suite du tableau prcdent (voir

La moyenne est gale x =

figure 3.5).
8 1 1266 311788,57 ni xi x = , soit 61538 000 i =1 61 538 000 ea = 20,58 ans. La moyenne des carts la moyenne est denviron 20 ans et 7 mois.

Lcart absolu moyen est gal e a =

74

Statistique descriptive

EXERCICE 2 BOTE MOUSTACHES


partir des donnes et des rsultats de lexercice prcdent, et en effectuant les calculs complmentaires ncessaires : 1. Recensez et donnez la valeur des indicateurs ncessaires au diagramme bote moustaches . 2. Dessinez le diagramme bote moustaches .

1. Pour dessiner le diagramme bote moustaches , nous avons besoin des indicateurs suivants : Q1 ; Me ; Q3 ; Q3 + 1,5 (Q3 Q1) et Q1 1,5 (Q3 Q1).

Daprs les rsultats de lexercice prcdent :


Q1 = 19,74. Q3 = 57,37. Q3 Q1 = 37,63.

Par interpolation linaire, en utilisant le tableau construit pour lexercice prcdent (voir figure 3.5), notamment la colonne des frquences cumules croissantes (ficc), nous 0,5 0,4405 pouvons dterminer : Me = ( 44 35 ) + 35 ; soit Me = 38,78. La moiti 0,5824 0, 4405 de la population tudie a moins de 38,78 ans, soit environ 38 ans et 9 mois. Q1 1,5 (Q3 Q1) = 19,74 + 1,5 37,63, soit Q1 1,5 (Q3 Q1) = -36,71. La moustache infrieure commence donc 0, car un ge ne peut pas tre ngatif. Aucune valeur extrme infrieure Q1 1,5 (Q3 Q1) nest recense. Q3 + 1,5 (Q3 Q1) = 57,37 + 1,5 37,63, soit Q3 + 1,5 (Q3 Q1) =113,82. La moustache suprieure finit donc 112 qui est lge maximal.
2. Figure 3.6
Bote moustaches.

0 0

112 Q3 = 57,37 Q1 = 19,74 M = 38,78 xi 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115

Les caractristiques de dispersion

75

EXERCICE 3 VARIANCE ET CART-TYPE SUR CARACTRE DISCRET


Un enseignant de statistique demande ses tudiants le nombre de films quils ont vus au cinma au cours des deux derniers mois. Les rsultats sont reports dans le tableau suivant :
Nombre de films vus 0 1 2 3 4 5 Nombre dtudiants 6 4 9 7 3 2

1. Calculez la moyenne du nombre de films vus au cinma. 2. Calculez : a. la variance du nombre de films vus au cinma ; b. lcart-type du nombre de films vus au cinma. 3. Calculez le coefficient de variation.

1. Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir figure 3.7).

Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 3.8 saffichent.
Figure 3.7 (gauche)
Saisie du tableau de donnes avec la calculatrice.

Figure 3.8 (droite)


Rsultats de lanalyse statistique effectue avec la calculatrice.

1 6 65 ni xi = 31 , soit x = 2,096. Le nombre moyen de films vus au 31 i =1 cinma par tudiant au cours des deux derniers mois est de 2,1 films.

La moyenne est x =

76

Statistique descriptive

2 2. a. La variance est gale V (x) = x = 1,4447, soit V(x) = 2,087. Ou encore, par la

formule dveloppe, V (x) =

2 1 6 201 ni xi2 x = 2,1 = 2,087 (aux arrondis prs). La 31 i =1 31 variance du nombre de films vus au cinma par tudiant au cours des deux derniers mois est de 2,1.

b. Lcart-type est gal x = V (x) = 1,44. Lcart-type du nombre de films vus au cinma par tudiant au cours des deux derniers mois est de 1,44 film. 1,44 3. Le coefficient de variation est gal CV(x) = x = , soit CV(x) = 0,69. Lcart2,1 x type est infrieur la moyenne.

EXERCICE 4 COMPARAISON DE DISTRIBUTIONS SUR CARACTRE CONTINU


Le tableau ci-aprs recense la population fminine et masculine de la France mtropolitaine par tranches dge en 2007 (donnes provisoires) :
ge 0-14 ans 15-24 ans 25-34 ans 35-44 ans 45-54 ans 55-64 ans 65-74 ans 75-112 ans Femmes 5 503 794 3 858 982 3 985 506 4 396 709 4 301 816 3 637 565 2 657 004 3 289 624 Hommes 5 772 051 3 947 724 4 037 445 4 336 515 4 127 166 3 529 026 2 272 932 1 884 141

Source : Insee, recensement de la population, bilan dmographique, 2007

1. Pour les femmes, calculez : a. la moyenne ; b. lcart-type ; c. le coefficient de variation. 2. Pour les hommes, calculez : a. la moyenne ; b. lcart-type ; c. le coefficient de variation. 3. Comparez les deux distributions.

Les caractristiques de dispersion

77

1. Pour les femmes, les centres de classes (xi) sont calculs en colonne B, les (nixi) et leur somme en colonne D, puis les (nixi) et leur somme en colonne E (voir figure 3.9).

Figure 3.9
Rsultats sous Excel.

8 1 1326 635 771 ni xi = , soit x = 41,94. Lge 31631 000 i =1 31 631000 moyen des femmes est denviron 41 ans et 11 mois.

a. La moyenne est gale x =

b. Par la formule dveloppe, la variance est gale :


8 2 1 77 076 538 756 ni xi2 x = 41,94 , soit V(x) = 677,69. La variance 31631 000 i =1 31631000 de lge des femmes est de 677,69.

V (x) =

c. Lcart-type est gal x = V (x) = 677,69 , soit x = 26,03. Lcart-type de lge des femmes est de 26,03 ans, soit environ 26 ans.

Le coefficient de variation pour les femmes est gal CV(x) =


CV(x) = 0,621. Lcart-type est infrieur la moyenne.

x
x

26,03 , soit 41,94

2. En procdant de la mme manire pour les hommes, on obtient sous Excel la figure 3.10.

Figure 3.10
Rsultats sous Excel.

8 1 1156189667 ni xi = , soit x = 38,66. Lge 29907 000 i =1 29 907 000 moyen des hommes est denviron 38 ans et 8 mois.

a. La moyenne est gale x =

b. Par la formule dveloppe, la variance est gale :

78

Statistique descriptive

8 2 1 62120 270 828 ni xi2 x = 38,66 , soit V(x) = 582,56. La variance 29 907 000 i =1 29 907 000 de lge des hommes est de 582,56.

V (x) =

Lcart-type est gal x = V (x) = 582,56 , soit x = 24,14. Lcart-type de lge des hommes est de 24,14 ans, soit environ 24 ans et 2 mois.
c. Le coefficient de variation pour les hommes est gal CV(x) = CV(x) = 0,624. Lcart-type est infrieur la moyenne.
3. Les hommes sont en moyenne plus jeunes que les femmes (ge moyen : 38,66 contre 41,94).

x
x

24,14 , soit 38,66

Dans labsolu, lge des hommes est lgrement moins dispers que celui des femmes (cart-type : 24,14 contre 26,03). En rapportant cette dispersion lge moyen, nous pouvons cependant conclure que, par rapport leur ge moyen, lge des hommes est lgrement plus dispers que celui des femmes (coefficient de variation : 0,624 contre 0,621).

EXERCICE 5 MANIPULATIONS DE FORMULES


Afin de mieux servir ses clients, un magasin a mesur le temps dattente, not x, au guichet de son service aprs-vente. Le temps dattente est mesur en minutes. La personne en charge du traitement de ltude vous communique les donnes suivantes :
V (x) = 17,18

f x = 50,17
i =1 k i i

n x
i =1 i

= 425

1. Dterminez leffectif total partir duquel lenqute a t ralise. Indiquez les valeurs de : a. la moyenne ; b. lcart-type. 2. Lobjectif de la direction est de diminuer le temps dattente de 30 %. Calculez : a. le temps dattente moyen correspondant ; b. lcart-type correspondant. 3. En effectuant une vrification du chronomtre utilis, le directeur du magasin saperoit que ce dernier accuse un retard de 5 % par rapport au temps rel. Calculez : a. la vraie moyenne ; b. le vrai cart-type.

Les caractristiques de dispersion

79

1.
1 k ni xi x n i =1 k 1 k V (x) = f i xi ( ni xi ) n i =1 i =1 V (x) =

425 Soit, en remplaant par les valeurs connues : 17,18 = 50,17 , donc n 425 , soit n = 74. Leffectif total est de 74, ce qui signifie que 74 temps n= 50,17-17,18 dattente ont t observs.
1 k 425 ni xi = , soit x = 5,74. Le temps dattente moyen est n i =1 74 denviron 5 minutes et 44 secondes.
a. La moyenne est gale x =

b. Lcart-type est gal x = V (x) = 17,18 , soit x = 4,14. Lcart-type du temps dattente est denviron 4 minutes et 8 secondes. 2. La base dapplication du pourcentage est le temps dattente mesur. Les objectifs de temps dattente, nots yi, sont gaux aux temps dattente actuels, nots xi, auxquels sont retirs 30 % des temps dattente actuels. Soit yi = xi 0,3 xi = 0,7 xi. a. Grce aux proprits de la moyenne, nous pouvons en conclure que y = 0,7 x , soit
y = 4,02 . Lobjectif de rduction de 30 % du temps dattente ramne la moyenne de ce dernier environ 4 minutes et 1 seconde.

b. Grce aux proprits de lcart-type, nous pouvons en conclure que y = 0,7 x ,

soit V(y) = 2,90. Lobjectif de rduction de 30 % du temps dattente ramne lcart-type de ce dernier environ 2 minutes et 54 secondes.
3. La base dapplication du pourcentage est le temps rel. Les temps dattente rels, nots zi, sont gaux aux faux temps dattente, nots xi, auxquels sont ajouts 5 % des xi . temps dattente rels. Soit zi = xi + 0,05 zi ; cest--dire zi = 0,95

a. Grce aux proprits de la moyenne, nous pouvons en conclure que z =

x , soit 0,95

z = 6,05 . Le temps dattente rel a une moyenne denviron 6 minutes et 3 secondes.

b. Grce aux proprits de lcart-type, nous pouvons en conclure que z =

, soit 0,95 z = 19,04. Le temps dattente rel a un cart-type denviron 4 minutes et 2 secondes.

80

Statistique descriptive

Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. HAUCHECORNE B., Les mots et les maths, Ellipses, 2003.

Les caractristiques de dispersion

81

Les caractristiques de forme et de concentration


1. La courbe de la loi normale ..84 2. Les caractristiques de forme ..85 3. Les caractristiques de concentration ..................89 Problmes et exercices 1. Caractristiques dasymtrie ..95 2. Caractristiques daplatissement ....................98 3. Caractristiques de forme et mdiale .........................100 4. Caractristique de concentration : lindice de Gini ..................104

Ce chapitre prolonge et complte la description dune srie statistique amorce dans les chapitres 2 et 3, en prcisant les notions de tendance centrale et de dispersion, autour de la courbe de la loi normale. Cette courbe est rattacher aux modles thoriques des distributions de probabilit. La loi normale, dite loi de Laplace-Gauss, en est le modle phare, et sa fameuse courbe en cloche sert de rfrence. Dans un premier temps, nous donnerons un aperu rapide de la loi normale. Dans un deuxime temps, nous dfinirons diffrents coefficients, introduits par Karl Pearson, le pre de la statistique moderne, George Yule et Ronald Fisher, permettant de caractriser la forme dune distribution. Enfin, nous terminerons ce chapitre par la notion de concentration, introduite par le statisticien et dmographe Corrado Gini, propos de distributions de salaires et de revenus. Ce sera loccasion de prolonger lanalyse de la dispersion relative et de rendre compte des ingalits ventuelles de rpartition.

83

La courbe de la loi normale


Nous avons vu que, selon son caractre discret ou continu, une srie statistique peut tre reprsente par un diagramme en btons ou un histogramme des frquences que lon complte en gnral par le trac du polygone des frquences. Il faut garder lesprit que lhistogramme des frquences est un bon estimateur de la densit et quen lissant le polygone des frquences on peut reprsenter la srie statistique par une distribution continue. La loi normale, galement appele loi de Laplace-Gauss, est le modle fondamental des distributions continues. La loi normale reprsente la distribution des valeurs dune grandeur soumise linfluence dun grand nombre de facteurs indpendants les uns des autres, chacun exerant des actions de faible intensit dont les effets tendent se compenser.

1.1

PRSENTATION DE LA LOI NORMALE


De nombreux caractres quantitatifs du monde rel suivent une loi normale : les tailles des individus, les poids, la pression sanguine, les notes un examen, etc. Quand on dsire mesurer une grandeur, par exemple une longueur, dont la vraie valeur est L, on opre n mesures, x1, x2, , xn, et la variable X dont les modalits sont les (xi L), reprsente lerreur commise dans la mesure de L. Cette variable suit une loi normale. Aussi cette distribution est-elle souvent appele loi des erreurs , parce que les erreurs alatoires dans les rsultats de mesures sont souvent normalement distribues.

Dfinitions

La loi normale est entirement dtermine par deux paramtres : sa moyenne (m) et son cart-type (). La loi normale centre rduite constitue le modle de rfrence ; sa moyenne est 0 (centre)
1 x2 e et sa 2 reprsentation graphique est la clbre courbe en cloche (voir figure 4.1). On dit que X suit la loi N(0 ; 1).
2

et son cart-type 1 (rduite). Sa densit est donne par : f ( x ) =

Si une variable X suit une loi normale de paramtres m et , note N(m ; ), alors X m Z= suit la loi normale centre rduite de paramtres 0 et 1. On dit que lon a

standardis X. La courbe reprsentant la distribution N(0 ; 1) est symtrique, avec : x = Mo = Me = 0. Elle est normalement aplatie . Avec x = 0 et = 1, lintervalle ] x ; x + [ qui correspond ]1 ; 1[ reprsente 68,26 % des observations et lintervalle ] x 2 ; x + 2[ qui correspond ]2 ; 2[ reprsente 95,44 % des observations. Les deux quartiles Q1 et Q3 sont opposs et valent respectivement 0,67 et 0,67.

84

Statistique descriptive

Figure 4.1
La courbe en cloche de la loi normale centre rduite.

Frquence

50 % 68,26%

x Mo Q1 Me Q3 xi -4 -3 -2 -1 0 1 2 3 4

1.2

LOI NORMALE ET BOTE MOUSTACHES


La bote moustaches dune distribution statistique conforme une distribution normale mettra en vidence la symtrie : Q1 et Q3 sont quidistants de la mdiane (Me) qui est dans ce cas la moyenne arithmtique et le mode (voir figure 4.2).

Figure 4.2
Bote moustaches de la loi normale centre rduite.
Q1=-0,67 -4 -3 -2 -1 M = 0 0 Q3=0,67 1 2 3 4 xi

2
2.1

Les caractristiques de forme


LASYMTRIE (SKEWNESS)
Une distribution est dite symtrique, comme la loi normale, si les valeurs observes se rpartissent de faon uniforme autour des trois valeurs centrales alors gales : la moyenne, le mode et la mdiane. Pour mesurer lasymtrie dune distribution, on dispose de diffrents coefficients. Le but est de comparer les formes de plusieurs distributions, ces comparaisons nayant de sens que si elles sont faites partir des mmes coefficients appliqus aux diffrentes distributions. La figure 4.3 montre les trois formes de symtrie et asymtrie possibles.

Les caractristiques de forme et de concentration

85

Figure 4.3
Symtrie et asymtrie.
fi

Distribution symtrique fi

Distribution tale gauche fi

Distribution tale droite

Mo = Me = x

xi

Mo > Me > x

xi

Mo < Me < x

xi

Le coefficient de Yule et Kendall


Le coefficient de Yule et Kendall couramment appel coefficient de Yule compare ltalement de la courbe droite et gauche de la mdiane.
Dfinition Le coefficient de Yule sert mesurer lasymtrie de la distribution en tenant compte des positions relatives des quartiles par rapport la mdiane. Il est dfini par : Q + Q3 -2Me Q Me + Q 3 Me CY = 1 , ou de manire quivalente par CY = 1 . Q 3 -Q1 Q 3 Q1

Ce coefficient permet de localiser la mdiane dans la bote moustaches, par rapport au milieu du segment form par Q1 et Q3. Dans le cas dune distribution symtrique, comme la loi normale, ce coefficient est nul, les quartiles Q1 et Q3 tant quidistants de la mdiane. Ce coefficient CY est indpendant de lunit de mesure. En outre, il est toujours compris entre 1 et 1, car la mdiane est situe entre Q1 et Q3. Si CY = 0, la distribution est symtrique. Si CY > 0, la distribution est tale droite. Si CY < 0, la distribution est tale gauche.

Les coefficients de Pearson


Les coefficients de Pearson tudient ltalement de la courbe partir des valeurs de la moyenne, du mode et de lcart-type.
Dfinition Le coefficient S de Pearson mesure lasymtrie dune distribution par une comparaison entre x Mo les valeurs de la moyenne et du mode. Il se note S = . Il sagit dun coefficient sans dimension.

Linterprtation de la valeur du S de Pearson se fait comme suit : Si S = 0, la distribution est symtrique. Si S > 0, la distribution est tale droite. Si S < 0, la distribution est tale gauche.

86

Statistique descriptive

Dfinition

Le coefficient dasymtrie 1 de Pearson est dfini par : 1 = 3 dsigne le moment centr dordre 3, soit 3 =

2 3 . 3 2

1 r 3 ni ( x i x ) . n i =1

2 est le moment centr dordre 2, cest--dire la variance.

Linterprtation de la valeur du 1 de Pearson se fait comme suit : Si 1 est proche de 0, la distribution est approximativement symtrique. Si 1 > 0, elle est tale droite pour 3 > 0 et tale gauche pour 3 < 0.

Le coefficient de Fisher
Dfinition Le coefficient dasymtrie 1 de Fisher est dfini par : 1 = 3 dsigne le moment centr dordre 3, soit 3 =

3 . 3

1 r 3 ni ( x i x ) . n i =1

Ce coefficient, sans dimension, a le mme signe que 3.

Linterprtation de la valeur du 1 de Fisher se fait comme suit : Si 1 est proche de 0, la distribution est approximativement symtrique. Si 1 > 0, la distribution est tale droite. si 1 < 0, la distribution est tale gauche.
Exemple 4.1 Calculs des coefficients dasymtrie

Le tableau suivant donne une estimation de la rpartition par ges des assurs obligatoires de plus de 20 ans et de moins de 60 ans, en France, en 1921 :
ge (annes) [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[ [50 ; 55[ [55 ; 60[
Source : Bureau international du travail, 1921

Effectif (milliers) 1 275 1 080 890 805 745 675 610 505

Les caractristiques de forme et de concentration

87

Calculons les diffrents coefficients dasymtrie laide dExcel (voir figure 4.4).
Figure 4.4
Calcul des coefficients dasymtrie sous Excel.

Le calcul de la moyenne donne x =

1 8 242 287,5 ni xi = = 36,79 . 6 585 i =1 6 585

La variance, ou moment centr dordre 2, est :


V (x) = 1 8 1 ni xi x = 9 753 906,25 36,79 = 127, 44 , et lcart-type : 6 585 i =1 6 585

x = V (x) = 127,44 = 11,29 .


Le moment centr dordre 3 est 3 =
1 8 3152 657,56 3 ni ( xi x ) = = 478,76. 6 585 i =1 6585

partir de la colonne des ni cumuls croissants et par interpolation linaire, on obtient Q1 = 26,72 ; Me = 35,30 et Q3 = 46,06. Le mode est gale Mo =
k2 x1 + k1 x2 195 20 + 1275 25 = , soit Mo = 24,33. k1 + k2 1275 + 195

Suite ces calculs, nous pouvons dterminer lensemble des coefficients dasymtrie. CY =
26,72 + 46,062 35,3 36,79 24,33 , soit CY = 0,11 ; S = , 46,06 26,72 11,29 478,762 478,76 1 = , soit 1 = 0,11 ; 1 = , soit 1 = 0,33. 127,443 11,293

soit

S = 1,10 ;

Les coefficients mettent en vidence une distribution asymtrique tale droite, ce que confirme la ralisation de lhistogramme.

2.2

LAPLATISSEMENT (KURTOSIS)
Laplatissement dune distribution est un indicateur de la dispersion autour des valeurs centrales. Plus la dispersion est grande, plus la courbe sera plate . On dfinira deux coefficients, celui de Pearson et celui de Fisher, ces coefficients tant des coefficients de comparaison par rapport la distribution normale. La figure 4.5 montre les trois formes daplatissement possibles.

88

Statistique descriptive

Figure 4.5
Aplatissement.

fi

Distribution normale

fi

Distribution platicurtique

fi

Distribution leptocurtique

xi

xi

xi

Le coefficient de Pearson
Dfinition Le coefficient 2 de Pearson sert mesurer laplatissement. Il est dfini par 2 =

4 4 = 4 . 2 2

Il sagit dun coefficient sans dimension. 2 1 et dans le cas dune distribution normale 2 = 3.

Interprtation : Si 2 < 3, la courbe est dite platicurtique, cest--dire plus plate que la loi normale. Si 2 = 3, la courbe est proche de la courbe normale. Si 2 > 3, la courbe est leptocurtique, cest--dire plus pointue que la loi normale.

Le coefficient de Fisher
Dfinition Le coefficient 2 de Fisher sert mesurer laplatissement. Il 3 = 4 3 . Ou encore, de manire quivalente, 2 = 2 3 . 2 = 4 2 2 4 est dfini par

La constante 3 est choisie de faon obtenir un coefficient nul pour une distribution normale ; par ailleurs, 2 2.

Interprtation : Si 2 < 0, la courbe est dite platicurtique, cest--dire plus plate que la loi normale. Si 2 = 0, la courbe est proche de la courbe normale. Si 2 > 0, la courbe est leptocurtique, cest--dire plus pointue que la loi normale. On notera que 2 mesure limportance des queues de distribution .

Les caractristiques de concentration


La mesure de la concentration concerne les caractres statistiques quantitatifs reprsentant une grandeur positive cumulable. Il sagit de traduire la densit des donnes autour de la valeur centrale. Sont principalement tudis la concentration des salaires, des revenus, de lemploi, ou encore le degr de concentration dans une branche dun secteur conomique.

Les caractristiques de forme et de concentration

89

Afin de mesurer la concentration, il convient de dfinir les valeurs globales, la mdiale, lindice de Gini et la courbe de concentration, appele courbe de Lorentz. Un exemple de courbe de concentration des salaires, propose par lInsee, est donn figure 4.6.

Figure 4.6
Concentration des salaires du secteur priv en LanguedocRoussillon : une rpartition ingalitaire.

100

Rpartition des salaires (en %)

80 Languedoc-Roussillon 60

40 33 20 France mtropolitaine 0 0 20 40 60 80 100 Rpartition des salaris (en %) A

Source : Insee DADS, novembre 2003 Note de lecture : si la rpartition des salaires tait totalement galitaire, la courbe de concentration se confondrait avec la bissectrice en noir. Dans la rgion, les 50 % des salaris les moins rmunrs se partagent 33 % de la masse salariale (point A) ; les 10 % les mieux rmunrs concentrent 25 % des salaires (point B). La courbe de concentration pour la France mtropolitaine est en dessous de celle de la Rgion, la distribution des salaires y est donc plus ingalitaire.

3.1

LES VALEURS GLOBALES


tant donne une srie statistique comportant n observations ordonnes dans un tableau statistique (xi ; ni), prsentant r modalits, on appelle : masse associe la modalit xi deffectif ni la quantit dfinie par nixi ; masse relative associe la modalit xi, note qi, la quantit dfinie par qi =
ni x i

Dfinitions

nk x k
k =1

Gnralement, les masses relatives qi sont exprimes en pourcentage de la masse totale S=

n x
i =1 i

(appele masse salariale dans le cas des salaires).


i

Les masses relatives cumules croissantes sont notes qicc, et dfinies par qicc = qk .
k =1

90

Statistique descriptive

Exemple 4.2

Calculs des masses relatives

Le tableau suivant indique les rserves de ptrole, en milliards de barils, dont disposent les pays producteurs :
Rserves de ptrole [0 ; 10[ [10 ; 50[ [50 ; 100[ [100 ; 275[ Nombre de pays 10 8 3 4

Source : Energy Information Administration, Department of Energy, janvier 2004

partir de la srie ordonne par ordre croissant sont effectus les calculs des centres de classes xi, des frquences fi et fi cumules croissantes, ainsi que ceux des masses relatives qi et qi cumules croissantes (voir figure 4.7). Ces calculs permettent de tracer la courbe de Lorentz et de calculer lindice de concentration de Gini que nous allons dfinir ci-aprs (voir section 3.4).
Figure 4.7
Calcul des masses relatives sous Excel.

3.2

LA MDIALE
La mdiale est la valeur du caractre qui partage en deux parties gales la masse totale du caractre. La mdiale est note Ml, elle sexprime dans la mme unit que le caractre, et correspond une valeur de la masse relative cumule croissante qicc de 50 %.

Dfinition

La mdiale est, dune certaine faon, une mdiane et sa dtermination en est similaire : Dans le cas discret, la mdiale est la plus petite valeur du caractre dont la masse relative cumule croissante est infrieure ou gale 50 %. Dans le cas continu, on peut oprer de deux faons : soit graphiquement laide du polygone des masses relatives cumules croissantes, soit algbriquement par interpolation linaire. Lcart entre la mdiale et la mdiane (Ml Me) donne une premire indication sur la concentration de la srie. Plus cet cart est important par rapport ltendue de la srie, plus la concentration est forte.

Les caractristiques de forme et de concentration

91

Exemple 4.3

Calcul de la mdiale

Reprenons les donnes de lexemple 4.2. Dans cet exemple, par interpolation linaire, la mdiane est 22,5. 50 % des pays ont une rserve de ptrole infrieure ou gale 22,5 milliards de barils. La mdiale se calcule comme la mdiane, en utilisant les qicc au lieu des ficc ; qicc = 50 % pour lintervalle [100 ; 275[. La mdiale est 127,42 ; cest la plus petite valeur telle que les pays ayant une rserve infrieure ou gale cette valeur se partagent au moins 50 % des rserves totales. Lcart Ml Me vaut 127,42 22,5 = 104,92, ltendue tant de 275 0 = 275, soit peine trois fois plus grande, ce qui traduit une forte concentration.

3.3

LA COURBE DE CONCENTRATION
La courbe de concentration est ralise partir des calculs prcdents. On la dessine en utilisant les frquences cumules croissantes (ficc) et les masses relatives cumules croissantes (qicc). Cette reprsentation permet de comparer la distribution observe la distribution thorique dgale rpartition, celle o, pour chaque modalit, ficc = qicc). Les frquences cumules croissantes sont portes en abscisses et les masses relatives cumules croissantes en ordonnes. La distribution thorique dgale rpartition correspond la bissectrice du repre. Laire comprise entre la distribution thorique et la courbe de concentration sappelle surface de concentration.

Exemple 4.4

Ralisation de la courbe de concentration

Reprenons les donnes de lexemple 4.2. partir des calculs des frquences cumules croissantes (ficc) et des masses relatives cumules croissantes (qicc) prsents figure 4.7, il est possible de dessiner la courbe de concentration (voir figure 4.8). La courbe de Lorentz est inscrite dans le carr de ct 100, quand les frquences sont exprimes en pourcentage. Plus la courbe de Lorentz est loigne de la diagonale, qui reprsente la distribution thorique dgale rpartition, plus la concentration est forte. La surface de concentration est comprise entre la courbe de Lorentz et la diagonale. Plus cette surface est grande, plus la concentration est forte.

92

Statistique descriptive

Figure 4.8
Courbe de concentration des rserves de ptrole.

qicc (en %) 100 Courbe de concentration 80 A

60

Distribution thorique

40 Surface de concentration 20

B 0 0 20 40 60 80 100 ficc (en %)

3.4

LINDICE DE GINI
La surface de concentration est le domaine compris entre la diagonale [OB] du carr de concentration et la courbe de concentration.

Dfinition

Laire de la surface de concentration est gale laire du triangle rectangle OAB diminue de laire du domaine situ sous la surface de concentration. Le triangle OAB est form des points de coordonnes O(0 ; 0), A(100 ; 100) et B(100 ; 0) (voir figure 4.8). Avec les ficc et les qicc exprimes en pourcentages, laire du triangle OAB est de 100 100 / 2. Dans le cas o les ficc et les qicc sont exprimes en nombres dcimaux, cette aire de 0,5.
Dfinition Lindice de Gini est le rapport de laire de la surface de concentration laire de la surface aire de la surface de concentration du triangle rectangle OAB. Il est not IG = . aire du triangle OAB

Lindice de Gini est un nombre sans dimension, compris entre 0 et 1, que lon exprime parfois en pourcentage. Si IG est proche de 0, la courbe de Lorentz est proche de la diagonale, la concentration est faible ; la concentration nulle correspond la distribution galitaire. Si IG est proche de 1, la courbe de Lorentz est proche des cts OA et AB, la concentration est forte ; si la concentration est proche de 1, cela signifie quune trs faible fraction de modalits se partage la quasi-totalit de la masse totale.

Les caractristiques de forme et de concentration

93

Exemple 4.5

Calcul de lindice de Gini

Reprenons les donnes de lexemple 4.2. Nous rappelons quon obtient laire dun trapze en appliquant la formule suivante : aire = hauteur (grande base + petite base) / 2. Les aires des trapzes sont calcules dans la dernire colonne du tableau de la figure 4.9. Les valeurs fi(qi 1cc + qicc) / 2 correspondent aux aires des trapzes rectangles situs entre laxe des abscisses et la courbe de Lorentz (le premier tant en fait un triangle rectangle). Leur somme indique laire du domaine situ sous la courbe de Lorentz.
Figure 4.9
Calcul de laire sous la courbe de Lorentz sous Excel.

Ainsi, laire de la surface de concentration est gale laire de OAB diminue de la somme des aires des trapzes. Aire de la surface de concentration : 0,5 0,2017 = 0,2983. Lindice de Gini est IG = 0,2983 / 0,5 = 2 0,2983, soit IG = 0,5967, ce qui traduit une forte concentration.

Conclusion
Ce chapitre complte la premire dmarche qui a consist ordonner les observations et les rsumer laide de graphiques et de paramtres mettant en vidence la tendance centrale et la dispersion. Nous nous sommes attachs caractriser la forme de la distribution et, ce faisant, ouvrir la porte une interprtation plus approfondie, en introduisant la distribution normale, dmarche que nous complterons avec dautres lois de probabilit. La mesure de la concentration est extrmement importante pour faire ressortir des disparits sociales et conomiques. Elle doit tre aussi pour le lecteur loccasion de sassurer de la bonne matrise des fonctions cumules, et des notions de masses et de mdiale.

94

Statistique descriptive

Problmes et exercices
Au-del des caractristiques de tendance centrale et de dispersion, une distribution statistique est galement qualifiable par sa forme et sa concentration. Les exercices 1, 2 et 3 fournissent des exemples de calculs de caractristiques de forme. Lexercice 4 sattache la notion de concentration, indissociable de lindice de Gini.

EXERCICE 1 CARACTRISTIQUES DASYMTRIE


Le tableau ci-aprs indique la rpartition du PIB par habitants (note PPA, en euros) des pays de lEurope des 25, hors Luxembourg, en 2001 :
PPA [0 ; 9 000[ [9 000 ; 18 000[ [18 000 ; 27 000[ [27 000 ; 36 000[ Nombre de pays 3 7 11 3

Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

1. Dessinez lhistogramme correspondant. partir de cet histogramme, concluez sur lasymtrie de la distribution. 2. Concluez sur lasymtrie de la distribution partir du calcul des trois indicateurs suivants : a. le mode ; b. la moyenne ; c. la mdiane. 3. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs suivants : a. le coefficient dasymtrie de Yule ; b. le S de Pearson. 4. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs suivants : a. le coefficient dasymtrie 1 de Pearson ; b. le coefficient dasymtrie 1 de Fisher. 5. Concluez sur lasymtrie de la distribution partir de la bote moustaches.

Les caractristiques de forme et de concentration

95

1. Les amplitudes de classes (ai) sont calcules dans la colonne C de la figure 4.10 : ai = sup (xi) inf (xi).

Figure 4.10
Rsultats sous Excel.

Les amplitudes tant toutes gales, il nest pas ncessaire dutiliser les densits pour dessiner lhistogramme (voir figure 4.11), ces densits tant proportionnelles aux effectifs.
Figure 4.11.
Histogramme des PPA des pays de lEurope des 25 (hors Luxembourg)
14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 Classes 40 Milliers ni

La ralisation de cet histogramme permet dj de percevoir que la distribution est asymtrique et tale vers la gauche.
2. a. Pour calculer le mode, nous vrifions en premier lieu que les amplitudes de classes sont gales, ici de valeur 9 000 . La classe modale, celle qui a la plus grande densit, est donc celle qui a le plus grand effectif. Il sagit de la classe [18 000 ; 27 000[, ce que montre bien lhistogramme.

Le mode est donc gal Mo =


Mo = 21 000 .

k2 x1 + k1 x2 (11 3) 18 000 + (11 7) 27 000 = , soit k1 + k2 (11 7) + (11 3)

b. Pour calculer la moyenne, la suite du tableau prcdent, nous calculons les centres de classes (xi) en colonne D et les masses (nixi) en colonne E puis leur somme en cellule E6, sous Excel (voir figure 4.10).

La moyenne est gale x =

1 4 450000 ni xi = , soit x = 18 750 . 24 i =1 24

c. La mdiane correspond un effectif cumul croissant de 24 / 2 = 12. Les effectifs cumuls croissants (nicc) sont calculs en colonne F, la suite du tableau prcdent (voir figure 4.10).

12 est compris entre 10 et 21, donc la mdiane appartient la classe [18 000 ; 27 000[.

96

Statistique descriptive

Par interpolation linaire, Me =

12 10 ( 27 000 18 000 ) + 18 000 ; soit Me = 19 636,36 . 21 10

Finalement, Mo > Me > x , donc la distribution est asymtrique et tale vers la gauche.
3. a. Le calcul du coefficient de Yule ncessite de dterminer au pralable les trois quartiles, Q1, Me et Q3. La mdiane a t calcule prcdemment.

Le quartile dordre 1, Q1 correspond un effectif cumul croissant de 24 / 4 = 6. Donc Q1 appartient la classe [9 000 ; 18 000[. Par interpolation linaire, Q1 =
6,25 3 (18 000 9 000 ) + 9 000 ; soit Q1 = 12 857,14 . 10 3

Le quartile dordre 3, Q3 correspond un effectif cumul croissant de 24 3 / 4 = 18. Donc Q3 appartient la classe [18 000 ; 27 000[. Par interpolation linaire, Q3 =
18,75 10 ( 27 000 18 000 ) + 18 000 ; soit Q3 = 24 545,45 . 21 10

Do le coefficient de Yule CY =
CY =

Q1 + Q3 2 Me , soit Q 3 Q1

12 857,14 + 24 545,45 2 19 636,36 . 24 545,45 12 857,14

Do CY = 0,160. La distribution est asymtrique et tale vers la gauche.


b. Le calcul du S de Pearson ncessite de dterminer au pralable le mode, la moyenne et lcart-type. Les deux premiers indicateurs sont dj calculs.

Pour dterminer la valeur de lcart-type, les (nixi) sont calculs en colonne G, la suite du tableau prcdent, puis leur somme en cellule G8 (voir figure 4.10). Par la formule dveloppe, la variance est gale
V (x) =
2 1 4 9 882 000 000 ni xi2 x = 18 750 , soit V(x) = 60 187 500. 24 i =1 24

Lcart-type est gal x = V (x) = 60 187 500 , soit x = 7 758. Do S =


18 750 21 000 , soit S = 0,290. La distribution est asymtrique et 7758 tale vers la gauche.

x Mo

4. a. Le calcul du 1 de Pearson et du 1 de Fisher ncessite de connatre la valeur de 3, le k 1 k 3 moment centr dordre 3 dfini par 3 = ni (xi x )3 = fi (xi x )3 . Les fi(xi x ) n i =1 i =1 sont calculs en colonne H, la suite du tableau prcdent, puis leur somme en cellule H6 (voir figure 4.10).

Les caractristiques de forme et de concentration

97

De l, 3 = fi (xi x )3 , soit 3 = 120 656 250 000.


i =1

b. Sachant que 2 = V(x), 1 =

32 ( 120 656 250 000)2 = , soit 1 = 0,067. 1 positif 60 187 5003 23 permet de conclure que la distribution est asymtrique et 3 ngatif permet de conclure quelle est tale vers la gauche.

3 120 656 250 000 = soit 1 = 0,258. 1 permet de conclure que la 77583 3 distribution est asymtrique et tale vers la gauche.
De mme, 1 =
5. Figure 4.12
Bote moustaches.
Max (xi) = 36 000 Q1 = 12 857,14 M = 19 636,36 0 5 000 10 000 15 000 20 000 Q3 = 24 545,45 25 000 30 000 35 000 xi

Min (xi) = 0

Ce diagramme permet de visualiser ltalement vers la gauche de la distribution, la mdiane tant plus proche de Q3 que de Q1.

EXERCICE 2 CARACTRISTIQUES DAPLATISSEMENT


Le tableau ci-aprs indique la rpartition du PIB par habitants (PPA) des pays de lEurope des 25, en 2001 :
% de la population ge de 65 ans ou plus 11 12 13 14 15 16 17 18 19
Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

Nombre de pays 1 2 2 3 5 5 3 3 1

98

Statistique descriptive

1. Dessinez le diagramme en btons correspondant. 2. Calculez le coefficient daplatissement de Pearson. 3. Calculez le coefficient daplatissement de Fisher.

1. Figure 4.13
Diagramme en btons du pourcentage de la population ge de 65 ans ou plus des pays de lEurope des 25.
ni

6 5 4 3 2 1 0

xi 11 12 13 14 15 16 17 18 19

2. Le calcul du 2 de Pearson ncessite de connatre la valeur de la variance et de 4, le k 1 k moment centr dordre 4 dfini par : 4 = ni (xi x )4 = fi (xi x )4 . n i =1 i =1

Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir figure 4.14).
Figure 4.14
Saisie du tableau de donnes avec la calculatrice.

Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 4.15 saffichent.

Les caractristiques de forme et de concentration

99

Figure 4.15
Rsultats de lanalyse statistique effectue avec la calculatrice.

La moyenne est x = 15,28.


2 = 1,4447, soit V(x) = 2,096. La variance est gale V (x) = x

Pour calculer les fi(xi x ) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L225*(L115,28)^4 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule L3(10), et indiquez L3(10)=SUM(L3) en appelant la fonction SUM (voir annexe 1.2). Validez avec ENTER. De l, 4 = fi (xi x )4 , soit 4 = 40,5 (voir figure 4.16).
i =1
9

Figure 4.16
Calcul de 4 avec la calculatrice.

Do le coefficient daplatissement de Pearson 2 =


La distribution est platicurtique.

4 40,50 = , soit 2 = 2,384. 2 2 4,122

3. Le coefficient daplatissement de Fisher 2 = 2 3 = 2,384 3, soit 2 = 0,616.

La distribution est platicurtique, cest--dire plus plate que la distribution normale.

EXERCICE 3 CARACTRISTIQUES DE FORME ET MDIALE


Le tableau ci-aprs indique la rpartition des salaires annuels bruts, par tranches, de lentreprise Alpha :
Salaires (K) [25 ; 35[ [35 ; 45[ Effectifs 22 28

100

Statistique descriptive

Salaires (K) [45 ; 55[ [55 ; 65[ [65 ; 80[ [80 ; 100[ [100 ; 120[

Effectifs 37 51 32 12 7

1. Dessinez lhistogramme correspondant. 2. Calculez la mdiale. Interprtez. 3. Concluez sur la forme de la distribution partir du calcul des deux coefficients suivants : a. le coefficient dasymtrie 1 de Pearson ; b. le coefficient daplatissement 2 de Pearson.

1. Saisissez les centres de classes (modalits) dans la colonne L1, les effectifs dans la colonne L2 et les amplitudes de classes (ai) dans la colonne L3 (voir figure 4.17).

Comme les amplitudes de classes ne sont pas toutes gales, il est ncessaire de passer par les densits di. Pour calculer les densits, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2/L3 puis appuyez sur ENTER (voir figure 4.18).
Figure 4.17 (gauche)
Saisie du tableau de donnes avec la calculatrice.

Figure 4.18 (droite)


Calcul des densits avec la calculatrice.

Lhistogramme peut alors tre dessin daprs ces densits (voir figure 4.19).

Les caractristiques de forme et de concentration

101

Figure 4.19
Histogramme des salaires de lentreprise Alpha.

di 6 5 4 3 2 1 0 0 10 20

Histogramme des salaires de l'entreprise Alpha

xi 30 40 50 60 70 80 90 100 110 120 Milliers

2. La mdiale est lquivalent de la mdiane sur la masse salariale (ici, la masse salariale

est donne par

n x
i =1
i

), puisquelle partage la population en deux sous-populations de

masses salariales gales. Pour calculer les (nixi) dans la colonne L5, placez le curseur sur len-tte de colonne L5. Indiquez L5=L2*L1, puis appuyez sur ENTER. Pour obtenir les nixi cumuls croissants (nixicc) dans la colonne L6, placez le curseur sur len-tte de colonne L6, puis entrez la formule L6=CumSum(L5), en appelant la fonction CUMSUM (voir annexe 1.2), puis appuyez sur ENTER (voir figure 4.20).
Figure 4.20
Calcul des nixi et des nixi cumuls croissants avec la calculatrice.

La mdiale correspond une masse relative cumule croissante de : 10 860 / 2 = 5 430, valeur comprise entre 3 630 et 6 690, donc la mdiale appartient la classe [55 ; 65[. Par interpolation linaire, Ml =
5 430 3 630 ( 65 55 ) + 55 ; soit Ml = 60,88 K. Les 6 690 3 630

salaris qui peroivent moins de 60 880 de salaire annuel brut se partagent la moiti de la masse salariale.
3. a. Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 4.21 saffichent.

102

Statistique descriptive

Figure 4.21
Rsultats de lanalyse statistique effectue avec la calculatrice.

La moyenne est x = 57,46.


2 La variance est gale V (x) = x = 18,7973, soit V(x) = 353,34.

Pour calculer les fi(xi x ) dans la colonne L7, placez le curseur sur len-tte de colonne L7 et nommez-la LA. Indiquez LA=L2189*(L157,46)^3 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule LA(8), et indiquez LA(8)=SUM(LLA) en appelant la fonction SUM (voir annexe 1.2) puis la ligne LA par le menu LIST, NAMES, 7:LA. Validez avec ENTER. Pour calculer les fi(xi x ) dans la colonne L8, placez le curseur sur len-tte de colonne L8 et nommez-la LB. Indiquez LB=L2189*(L157,46)^4 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule LB(8), et indiquez LB(8)=SUM(LLB) en appelant la fonction SUM puis la ligne LB par le menu LIST, NAMES, 8:LB. Validez avec ENTER.
4

3 = fi (xi x )3 , soit 3 = 4 859,6.


i =1

Sachant que 2 = V(x), 1 =

32 4 859,62 = , soit 1 = 0,535. 1 positif permet de conclure 23 3 53,343 que la distribution est asymtrique et 3 positif permet de conclure quelle est tale vers la droite. 4 = fi (xi x )4 , soit 4 = 442 645 (voir figure 4.22).
i =1
7

Figure 4.22
Calcul de 3 et de 4 avec la calculatrice.

4 442 645 = , soit 2 = 3,545. 22 353,342 La distribution est leptocurtique, cest--dire plus pointue que la distribution normale.
b. Do le coefficient daplatissement de Pearson 2 =

Les caractristiques de forme et de concentration

103

EXERCICE 4 CARACTRISTIQUE DE CONCENTRATION : LINDICE DE GINI


Le tableau ci-aprs indique la rpartition des 22 rgions franaises selon le nombre de er lits dont elles disposent en maisons de retraite au 1 janvier 2005 :
Nombre de lits [0 ; 12 250[ [12 250 ; 24 500[ [24 500 ; 36 750[ [36 750 ; 49 000[ Nombre de rgions 4 12 4 2

Source : ministre de la Sant et des Solidarits, enqutes EHPA, FINESS, SAE, 2005

1. Calculez la mdiale. 2. Reprsentez la courbe de concentration. 3. Calculez lindice de Gini. Interprtez.

1. Les centres de classes sont calculs en colonne C, les frquences (fi) en colonne D puis les frquences cumules croissantes (ficc) en colonne E (voir figure 4.23).

Les (nixi) sont calculs en colonne F. Leur somme reprsente la masse totale des lits disponibles en maisons de retraite dans les 22 rgions franaises. La mdiale partage la population en deux sous-populations de masses gales. La quote-part qi des masses dans la masse salariale (qi) est calcule en colonne G et leurs pourcentages cumuls croissants (qicc) sont calculs en colonne H.

Figure 4.23
Rsultats sous Excel.

La mdiale se trouve dans lintervalle o qicc passe 50 %, cest--dire [12 250 ; 24 500[. Par interpolation linaire (voir chapitre 2),
0,5 0,0541 ( 24 500 12250 ) + 122 500 , soit Ml = 23 479,17 lits. 50 % des lits 0,5405 0,0541 disponibles en maisons de retraite franaises proviennent de rgions qui ont moins de 23 479 lits.

Ml =

2. La courbe de concentration est obtenue en portant en abscisses les frquences cumules croissantes, notes ficc (colonne E) et les qicc (colonne H) en ordonnes. la lecture de la ligne 4 du tableau Excel de la figure 4.23, il est possible de conclure que

104

Statistique descriptive

72,73 % des rgions dtiennent 54,05 % des lits disponibles dans les maisons de retraite franaises (voir figure 4.24).
Figure 4.24
Courbe de concentration des lits selon les rgions.
Courbe de concentration lits/rgions qicc (en %) 100 A

80

60 S4 S3 20 S2 0 0 S1 20 40 60 80 100 B ficc (en%)

40

3. Laire de la surface sous la courbe de concentration se calcule par la mthode des trapzes. Laire de chaque trapze (Si) est calcule dans la colonne I, puis leur somme dans la cellule I6 (voir figure 4.23).

La

premire surface, S1, est un triangle dont laire est gale f1 q1cc 0,1818 0,0541 S1 = = = 0,0049 . La deuxime, S2, est un trapze daire 2 2 f ( q1cc + q2 cc ) 0,5455 ( 0,0541 + 0,5405) = 0,1622 . = S2 = 2 2 2
f3 ( q2cc + q3 cc )
2

De mme, S3 = Et S4 =

0,1818 ( 0,5405 + 0,8108 ) 2 2


4

= 0,1229 .

f 4 ( q3cc + q4 cc )
2

0,0909 ( 0,8108 + 1)

= 0,0823 .

Laire de la surface situe entre la courbe de concentration et laxe des abscisses est la somme des aires des trapzes. S = Si = 0,3722. La surface de concentration, note SC,
i =1

est le domaine situ entre la diagonale du carr et la courbe de Lorentz. Son aire est gale 1 1 , et la somme des aires des la diffrence entre laire du triangle rectangle OAB, soit 2 trapzes calcule. Do SC = 0,5 0,3722 = 0,1278. Do lindice de Gini, I G =
0,1278 , soit IG = 0,2555. La concentration est faible, car 0,5 lindice de Gini est plus proche de 0 que de 1. Autrement dit, les lits en maisons de retraite ne sont pas concentrs au sein de quelques rgions franaises, mais sont relativement bien rpartis sur ces rgions.

Les caractristiques de forme et de concentration

105

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DELECROIX M., Histogrammes et estimation de la densit, Que sais-je ?, PUF, 1983. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. SAPORTA G., Probabilits, analyse de donnes et statistique, Technip, 1990. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. TASSI Ph. et LEGAIT S., Thorie des probabilits en vue des applications statistiques, Technip, 1990.

106

Statistique descriptive

Les sries bivaries


1. Prsentation des donnes....108 2. Les caractristiques des sries deux caractres ....113 3. tude des liaisons entre deux variables ...................119 Problmes et exercices 1. Construction dun tableau de contingence sur caractres discret et qualitatif ........................127 2. Construction dun tableau de contingence sur caractres continus .......131 3. Contenu dun tableau de contingence...................132 4. Indicateurs sur tableau de contingence...................135 5. Dpendance entre deux variables ...................139

Dans de nombreuses sciences dmographie, mdecine, conomie , le statisticien est amen tudier plusieurs caractres sur une mme population. Lvolution dun caractre avec le temps est de la plus grande importance et donne lieu ltude des sries chronologiques, qui constituent un cas particulier des sries bivaries, cest--dire des sries visant tudier conjointement deux variables mesures sur un mme individu. Les modalits sont donc des couples et les donnes sont prsentes dans des tableaux lmentaires ou dans des tableaux double entre, encore appels tableaux de contingence. Lanalyse de ces tableaux vise mettre en vidence dventuelles relations ou corrlations entre les deux variables. Le concept de corrlation ( co-relation ) est n vers 1880, avec les travaux de Francis Galton. Karl Pearson a ensuite utilis la notion de contingence dans le sens de mesure de la dviation par rapport lindpendance. Ce contexte sera loccasion de sinitier la thorie des tests statistiques, dont la paternit est attribue la collaboration (1925-1930) entre Jerzy Neyman et Egon Pearson, dnomm Pearson deux , le fils de Karl.

107

Nous noublierons pas qu partir dun tableau concernant deux variables nous pourrons toujours extraire les sries concernant chacun des caractres, encore appeles sries marginales. Comme nous le verrons dans les diffrents exemples, les caractres tudis peuvent tre de mme type, qualitatifs ou quantitatifs (discrets ou continus), ou de natures diffrentes, lun qualitatif et lautre quantitatif.

Prsentation des donnes


Il existe deux faons de prsenter une srie bivarie : les tableaux simples, composs des observations en ligne et des variables en colonne ; les tableaux de contingence, qui croisent les modalits des deux variables.

1.1

DONNES EXHAUSTIVES : TABLEAUX SIMPLES


Les tableaux simples des sries bivaries sont constitus : des observations en ligne ; des deux variables en colonne. Ainsi, chaque ligne comporte lidentifiant de lobservation dans la premire colonne et les modalits observes pour chacune des deux variables dans les deux colonnes suivantes.

Exemple 5.1

Srie bivarie et tableau simple

Le tableau suivant indique, pour chacune des trois acadmies dle-de-France, le nombre de licencis en 2005 et le nombre de licencis poursuivant leurs tudes luniversit, en 2006. Il recense ainsi la poursuite des tudes luniversit aprs la licence.
Acadmie Paris Crteil Versailles Total Nombre de licencis (2005) 14 150 7 759 7 254 29 163 Licencis luniversit (2006) 11 271 5 150 5 107 21 528

Source : ministre de lducation nationale, 2006

Cette srie double, ou bivarie, comporte trois modalits. Si lon note X le nombre de licencis en 2005 et Y le nombre de licencis poursuivant leurs tudes luniversit en 2006, Crteil est reprsente par la modalit (x2 ; y2) = (7 759 ; 5 150). En exploitant chaque variable une par une, il est possible de calculer tous les indicateurs des sries univaries, 29163 comme les moyennes. Ainsi, x = = 9 721 ; le nombre moyen de licencis est de 3 21528 = 7 176 ; le nombre moyen de licencis 9 721 tudiants par acadmie. De mme, y = 3 poursuivant leurs tudes luniversit est de 7 176 tudiants par acadmie.

108

Statistique descriptive

On reprsente cette srie en plaant dans un repre les trois points de coordonnes (xi ; yi) pour i entier variant de 1 3 ; cette reprsentation sappelle un nuage de points. Le point G de coordonnes respectives x et y est appel point moyen du nuage. Dans une srie double de ce type, les effectifs de chaque modalit sont gaux 1 et ne sont pas mentionns. Il est possible de calculer sur les sries marginales les moyennes et tous les paramtres ncessaires ltude de la srie bivarie, comme les variances. Un nouveau paramtre, la covariance, sera introduit la section 2.4.

1.2

LE TABLEAU CROIS OU TABLEAU DE CONTINGENCE


Les tableaux croiss ou tableaux de contingence sont les tableaux obtenus quand on tudie une population sous langle de deux caractres que lon croise. Dans le cas particulier o ces caractres ont chacun deux modalits (cas binaire), on obtient le cas particulier des tableaux 2 2. Ct technique , les tableaux double entre ne sont pas diffrents de ce que les mathmaticiens appellent matrices, tableaux de nombres n lignes et p colonnes et dont nous noterons nij le terme situ lintersection de la ligne i et de la colonne j. Une des caractristiques des tableaux de contingence, qui sont trs prsents dans lanalyse de donnes, est dattribuer un sens aux marges , cest--dire une colonne supplmentaire droite et une ligne supplmentaire en bas, qui indiquent le nombre dindividus possdant une des modalits de lun des deux caractres (ce que lon appelle le tri plat de ce caractre).

Prsentation des effectifs du tableau de contingence


Soit respectivement p et q les nombres de modalits des caractres X et Y. Les modalits du caractre X se notent xi avec i = {1, 2, , p}. Les modalits du caractre Y se notent yj avec j = {1, 2, , q}.
Dfinitions Leffectif partiel de la modalit (xi, yj) est le nombre dobservations prsentant simultanment les deux modalits xi et yj. Il se note nij. Leffectif marginal de la modalit xi se note ni+, ou encore ni, tel que : ni + = nij . Cet effectif
j =1 q

dsigne la somme des effectifs de la ligne i. La distribution des effectifs marginaux de X sappelle distribution marginale de X. De mme, n + j = nij , ou encore nj, est leffectif marginal de la modalit yj. Il dsigne la
i =1 p

somme des effectifs de la colonne j. La distribution des effectifs marginaux de Y sappelle distribution marginale de Y. Leffectif total de la srie double est la somme des effectifs marginaux de la srie X (ou Y). Il est not n++, n ou simplement n, avec : n + + = n + j = ni + = nij = nij .
j =1 i =1 j =1 i =1 i =1 j =1 q p q p p q

Les sries bivaries

109

En adoptant lensemble de ces notations, le tableau de contingence contenant les effectifs se prsente de la manire suivante : Les modalits xi de X apparaissent dans la premire colonne. Les modalits yj de Y apparaissent sur la premire ligne. Leffectif partiel nij de la modalit (xi, yj) est inscrit au croisement de la ligne i et de la colonne j. Leffectif marginal ni+ de X est report dans la dernire colonne du tableau. Leffectif marginal n+j de Y est report sur la dernire ligne du tableau. La dernire ligne et la dernire colonne du tableau de contingence sappellent les marges et contiennent la distribution marginale de X et de Y. Elles reprsentent les effectifs des sries simples X et Y. Leffectif total n++ est indiqu au croisement des deux distributions marginales de X et de Y. Do la prsentation suivante du tableau de contingence :
X\Y x1 x2 xi xp n+j
Exemple 5.2

y1 n11 n21 ni1 np1 n+1

y2 n12 n22 ni2 np2 n+2

yj n1j n2j nij npj n+j

yq n1q n2q niq npq n+q

n i+ n1+ n2+ ni+ np+ n++

Un tableau de contingence 2 2

Certaines entreprises mettent en avant auprs des consommateurs des engagements de citoyennet : par exemple, fabriquer sans gnrer de pollution, ne pas avoir recours au travail des enfants, etc. Le tableau ci-aprs donne le rsultat sur un chantillon constitu sur la base des rsultats dune enqute du Credoc de lanne 2006, en rponse la question : Dune faon gnrale, tenez-vous compte de ces lments lorsque vous achetez un produit ?
Sexe \ Rponse Masculin (M) Fminin (F) Total
Source : Credoc, 2006

Oui (O) 290 141 431

Non (N) 410 159 569

Total 700 300 1 000

Ce tableau comporte deux caractres qualitatifs : X, le sexe, avec les deux modalits x1 = M et x2 = F ;

110

Statistique descriptive

Y, la rponse la question de citoyennet, avec les deux modalits y1 = O et y2 = N. Leffectif total est de 1 000 et il y a quatre modalits. Par exemple, le couple (x1 ; y2) = (M ; N) a un effectif situ au croisement de la premire ligne et de la deuxime colonne et not n12 = 410. Les sommes des effectifs en ligne sont indiqus dans la dernire colonne et les sommes des effectifs en colonne sur la deuxime ligne du tableau. Par exemple, la somme des effectifs de la deuxime ligne, n2+ = 300 est indique dans la dernire colonne, sur la dernire ligne. Il sagit du nombre total de femmes, galement appel effectif marginal de la modalit Fminin de la variable Sexe. De mme, la somme des effectifs de la premire colonne n+1 = 431 est donne sur la dernire ligne. Il sagit de leffectif de la modalit Oui, sans distinction de sexe, galement appel effectif marginal de la modalit Oui de la variable Rponse. Le dtail des effectifs de cette srie est donn dans la prsentation gnrale suivante :
X\Y x1 = M x2 = F n+j y1 = O n11 = 290 n21 = 141 n+1 = 431 y2 = N n12 = 410 n22 = 159 n+2 = 569 n i+ n1+ = 700 n2+ = 300 n++ = 1000

Les frquences des tableaux de contingence


partir du tableau de contingence compos des effectifs, il est possible de calculer les frquences (frquences relatives). Il existe trois types de frquences : les frquences partielles ; les frquences marginales ; les frquences conditionnelles.
Dfinitions La frquence partielle de la modalit (xi, yj) est note fij et est dfinie par fij = clair que
nij n+ +

. Il est

f
j =1 i =1

ij

= 1. On retrouve le concept dintersection, ces individus appartenant la

modalit xi de X et la modalit yj de Y. La frquence marginale de la modalit xi est note fi+ et est dfinie par fi+ = clair que fi+ = fij .
j =1 q

ni+ . Il est n+ +

De mme, la frquence marginale de la modalit yj est note f+j et est dfinie par p n+ j = fij . f+ j = n+ + i =1

Les sries bivaries

111

Exemple 5.3

Calcul des frquences partielles et marginales sur tableau de contingence

Reprenons le tableau de contingence de lexemple 5.2 ci-avant. Il est possible de dterminer f12 = 410 / 1000 = 0,41, so les frquences partielles fij. Par exemple,

it 41 % des individus de notre enqute sont des hommes et ont rpondu non. Il est galement possible de dterminer les frquences marginales fi+ ou f+j. Par exemple, f+1 = 431 / 1000 = 0,431, soit 43,1 % des individus de lenqute ont rpondu oui. Les sries marginales peuvent ventuellement tre extraites. Par exemple, lextraction de la srie marginale du caractre X donne :
Sexe Masculin (M) Fminin (F) Total n i+ 700 300 1 000

Cette prsentation pourra faciliter les calculs de frquence, moyenne, variance et carttype dans le cas des caractres quantitatifs. Par exemple, ici, les frquences marginales du caractre Sexe sont aisment reprables : f1+ = 0,70 et f2+ = 0,30, soit 70 % dhommes et 30 % de femmes. Les frquences conditionnelles nous permettent daborder la distribution conditionnelle. Cette distribution est relier la notion de probabilit conditionnelle, qui consiste effectuer un changement de lunivers ou de la population tudis (voir P. Roger, page 17). Cela revient effectuer les calculs sur une sous-population prsentant une modalit choisie au lieu de sintresser la population entire.
Dfinitions Distributions conditionnelles : Si le caractre Y possde q modalits, on peut dfinir q distributions conditionnelles de X sachant Y. Les effectifs de ces distributions sont reprsents par chacune des colonnes du tableau de contingence. Leffectif total de la distribution conditionnelle de X sachant Y = yj tant alors n+j. De mme, si le caractre X possde p modalits, on peut dfinir p distributions conditionnelles de Y sachant X. Les effectifs de ces distributions sont reprsents par chacune des lignes du tableau de contingence. Leffectif total de la distribution conditionnelle de Y sachant X = xi tant alors ni+. Frquences conditionnelles de X sachant Y : La frquence conditionnelle de la modalit xi p nij sachant yj est donne par f X = x i Y = y j = . Ainsi, f X = xi Y = y j = 1. Elle est aussi note fi/+j. n+ j i =1 Frquences conditionnelles de Y sachant X : La frquence conditionnelle de la modalit yj q nij sachant xi est donne par fY = y j X = xi = . Ainsi, fY = y j X = xi = 1 . Elle est aussi note fj/i+. ni + j =1

112

Statistique descriptive

Il existe une relation entre les frquences conditionnelles et les frquences partielles prcdemment dfinies : fij = fi / + j f + j . Cette relation est similaire au thorme des probabilits composes qui indique que :
P (( X = xi ) (Y = y j )) = P(Y = y j ) ( X = xi ) P (Y = y j ) .
Exemple 5.4 Calcul des frquences conditionnelles sur tableau de contingence : sexe et citoyennet

Reprenons le tableau de contingence de lexemple 5.2 ci-avant. Au lieu de sintresser la population entire, il est possible de sintresser lunivers des femmes. Lunivers de travail est alors la sous-population note {X = x2}. Elle est constitue des individus prsentant la modalit F de la variable X. Cherchons alors la proportion de rponses Oui, soit dindividus appartenant la modalit y1 de Y dans cette sous-population. Cette frquence conditionnelle est note indiffremment fY = y1 X = x2 , f j =1 i =2 ou f1 2 + (on lit f indice j = 1 sachant i = 2 si les indices i et j ont t respectivement affects aux modalits de X et de Y) et dfinie par : n 141 f j =1 i =2 = 21 = = 0, 47 ; ainsi, 47 % des femmes ont rpondu oui. n2+ 300 Il est ainsi possible de calculer toutes les frquences conditionnelles de X sachant Y.
X\Y x1 = M x2 = F f+j y1 = O fi = 1 / j = 1 = 0,6729 fi = 2 / j = 1 = 0,3271 1 y2 = N fi = 1 / j = 2 = 0,7206 fi = 2 / j = 2 = 0,2794 1

De mme, il est possible de calculer toutes les frquences conditionnelles de Y sachant X.


X\Y x1 = M x2 = F y1 = O fj = 1 / i = 1 = 0,4143 fj = 1 / i = 2 = 0,47 y2 = N fj = 2 / i = 1 = 0,5857 fj = 2 / i = 2 = 0,53 fi+ 1 1

Les caractristiques des sries deux caractres


Les frquences, indicateurs qui se calculent dans le cadre des sries univaries, se calculent galement sur des sries bivaries. Il en va de mme pour les autres caractristiques des sries statistiques que sont la moyenne, la variance et lcart-type.

Les sries bivaries

113

Ces caractristiques peuvent tre calcules sur des variables quantitatives, partir : des distributions marginales : il sagit de caractristiques marginales ; des distributions conditionnelles : il sagit de caractristiques conditionnelles.

2.1

LES CARACTRISTIQUES MARGINALES


Les sries marginales sont des sries univaries. Les calculs des moyennes, variances et carts-types marginaux se font donc de la faon habituelle, aprs extraction de la srie marginale.

Dfinitions

Moyennes
y=

marginales :
yj =

x=
p

1 n+ +

n
i =1

i+

xi =

1 n+ +

x n
i =1 i j =1

ij

et

de

mme

1 n+ +

n
j =1

+j

1 n+ +

y n
j =1 j i =1

ij

Remarque : certains auteurs notent ces moyennes marginales respectivement : x et y . Variances


V (x ) =
1 n+ +
p

marginales :

V (x ) =

1 n+ +

n (x
i =1 i+

x) ,
2
+j

de
1 n+ +

formule

dveloppe
2

n
i =1

i+

x i 2 x 2 . De mme, V ( y ) =

1 n+ +

n
j

( y j y ) =

n
j

+j

yj y .

carts-types marginaux : Les carts-types marginaux sont dduits des variances marginales, ( x ) = V ( x ) et ( y ) = V ( y ) . Exemple 5.5 Calcul des caractristiques marginales

Soit un chantillon dentreprises sur lequel sont observes les variables X, investissement annuel en milliers deuros, et Y, chiffre daffaires annuel en millions deuros :
X\Y [10 ; 30[ [30 ; 40[ [40 ; 50[ Somme [10 ; 30[ 300 70 20 390 [30 ; 50[ 80 200 30 310 [50 ; 70[ 0 50 250 300 Somme 380 320 300 1 000

On extrait les sries marginales en utilisant les centres de classes. Les moyennes, variances et carts-types marginaux sont ensuite calculs sur ces sries, comme dans le cas dune srie univarie ; la figure 5.1 donne la distribution marginale de X.

114

Statistique descriptive

Figure 5.1
Calcul des caractristiques marginales de X.

Ce qui donne : x =

32300 1 151500 = 32,3 ; V (x) = (32,3)2 = 108,21 et (x) = 10,4. 1000 1 000 38 200 = 38,2 ; 1 000

En faisant de mme pour la distribution marginale de Y, on obtient y =


V (y) =

1 732 000 (38,2)2 = 272,76 et (y) = 16,52. 1 000

2.2

LES CARACTRISTIQUES CONDITIONNELLES


Comme les caractristiques marginales, les calculs des moyennes, variances et cartstypes conditionnels se font donc de la faon habituelle, aprs extraction de la distribution conditionnelle concerne.

Dfinitions

Moyennes conditionnelles : Les moyennes conditionnelles de X sont les moyennes des p 1 p distributions conditionnelles de X sachant Y. x j = fi / + j x i = nij x i est la moyenne n + j i =1 i =1

( )

conditionnelle de X sachant Y = yj. De mme, les moyennes conditionnelles de Y sont les moyennes des distributions condiq 1 q tionnelles de Y sachant X. y i = fj / i + x i = nij y j est la moyenne conditionnelle de Y ni + j =1 j =1

( )

sachant X = xi. Variances conditionnelles : Les variances conditionnelles de X sont les variances des distributions conditionnelles de X sachant Y. La variance conditionnelle de X sachant Y = yj est 2 1 p 1 p note V j ( x ) = nij ( x i x j )2 = nij x i 2 x j . n + j i =1 n + j i =1 De mme, les variances conditionnelles de Y sont les variances des distributions conditionnelles de Y sachant X. La variance conditionnelle de Y sachant X = xi est note 2 1 q 1 q Vi ( y ) = nij ( y j y i )2 = nij y j 2 y i . ni + j =1 ni + j =1 carts-types conditionnels : Les carts-types conditionnels sont dduits des variances conditionnelles, ( x ) = V ( x ) et ( y ) = V ( y ) .

Les sries bivaries

115

Exemple 5.6

Calcul des caractristiques conditionnelles

Reprenons les donnes de lexemple 5.5. Extrayons la distribution conditionnelle de X sachant Y = 60. partir de cette srie extraite, assimilable une srie univarie, nous effectuons les tapes ncessaires aux calculs de la moyenne et de la variance (voir figure 5.2).
Figure 5.2
Distribution conditionnelle de X sachant Y = 60.

Do les paramtres conditionnels : x3 =


V3 ( X ) =

13 000 = 43,33 ; 300

567 500 43,332 = 14,18 et 3 ( X ) = 14,18 = 3,77 . 300

2.3

RELATIONS ENTRE LES MOYENNES MARGINALES ET CONDITIONNELLES


Les moyennes conditionnelles et marginales sont lies par la relation suivante : la moyenne des moyennes conditionnelles de X est gale la moyenne marginale de X. Cette proprit est relier la notion desprance conditionnelle en probabilit. Soit x la moyenne des moyennes conditionnelles. La dmonstration suivante montre que x est gale la moyenne marginale de X, cest--dire x :
x= = 1 n++
p

n+ j x j =
j =1

1 n++

1 n+ j n+ j j =1
q

1 nij xi = n++ i =1
p

n x
ij j =1 i =1

1 n++

q 1 x i nij = i =1 j =1 n++

x n
i =1

i i+

=x

Exemple 5.7

Vrification de la relation entre moyennes marginales et conditionnelles

Reprenons les donnes de lexemple 5.5. Extrayons les distributions conditionnelles de X sachant Y = y1 (voir figure 5.3).
Figure 5.3
Distribution conditionnelle de X sachant Y = y1.

116

Statistique descriptive

Do x1 =

1 n+ j

n x
ij i =1

9 350 = 23,97 . 390

En faisant de mme pour les distributions conditionnelles de X sachant Y = y2 et de X sachant Y = y3, on obtient :
x2 = 1 n+ j

n x
ij i =1

9 950 1 = 32,10 ; x 3 = n+ j 310

n x
ij i =1

13 000 = 43,33 . 300

La distribution des moyennes conditionnelles de X est propose figure 5.4.


Figure 5.4
Distribution des moyennes conditionnelles de X.

Do la moyenne des moyennes conditionnelles de X : x =

1 n++

n
j =1

+j

xj =

32 300 = 32,3 . 1000

Or, x = 32,3 (voir exemple 5.5). Donc, la relation entre x et x est vrifie.

2.4

LA COVARIANCE
Nous avons vu que la variabilit des caractres quantitatifs une variable autour de leur moyenne pouvait tre mesure par la variance. Dans le cas des sries doubles, nous disposons dun indicateur comparable, appel covariance, qui permet de mesurer les fluctuations simultanes de chaque variable par rapport sa moyenne. Il est important de noter que, contrairement la variance (moyenne de carrs) qui est toujours positive ou nulle, la covariance peut tre de signe quelconque.

Dfinition

La covariance : Soit X et Y deux caractres quantitatifs. La covariance du couple (X ; Y) est q p 1 q p dfinie par : Cov (X ; Y ) = nij ( x i x ) ( y j y ) = fij ( x i x ) ( y j y ) . n + + j =1 i =1 j =1 i =1

Graphiquement, cette dfinition revient prendre un nouveau repre dorigine G ( x ; y ) , le point moyen, et diviser le plan en quatre quadrants, respectivement dfinis
x x x x x x x x par : Q1 , Q2 , Q3 et Q4 . On notera que les quadrants Q1 et y y y y y y y y Q3 sont associs, car les points M (xi ; yj) du nuage situ dans le domaine Q1 Q3 sont

signe. De mme, Q2 Q4 est caractris par ( xi x ) ( y j y ) 0 . Ainsi, le signe de la

caractriss par ( xi x ) ( y j y ) 0 , les quantits ( xi x ) et ( y j y ) tant de mme

covariance nous indiquera si les points du nuage sont majoritairement dans Q1 Q3 ou

Les sries bivaries

117

dans Q2 Q4 (voir figure 5.5) ; nous reviendrons sur cette remarque dans ltude de la rgression (voir chapitre 6).
Milliers

Figure 5.5
Nuages de points (xi ; yi).

12 11 10 9 8 7 6 5 4 Y 3 2 1 0

y Covariance ngative 13 12 Q1 Q2 11 Y 10 9 Q2 Q1 8 7 6 5 Q4 Q3 4 3 2 Q3 Q4 1 x 0 x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Milliers x Milliers x Covariance positive

Comme pour la variance, la covariance admet une formule dveloppe. Cette formule est issue du thorme de Koenig.
Dfinition Formule dveloppe de la covariance : Cov (X ; Y ) =
1 n+ +

Milliers

n x y
j =1 i =1 ij i

xy.

Par cette formule, la covariance est la moyenne des produits moins le produit des moyennes . De mme que la variance, la covariance possde des proprits trs importantes :
Proprits Cov(X ; Y) = Cov(Y ; X) : la covariance est symtrique. Cov(X ; X) = Var(X) : la covariance est obtenue en ddoublant la formule de la variance. Cov(aX ; aY) = aaCov(X ; Y) : multiplier chacune des sries par un rel multiplie la covariance par le produit de ces nombres. Cov(X+b ; Y) = Cov(X ; Y) : ajouter une constante ne change pas la covariance.

Le signe de la covariance possde une signification (voir figure 5.5) : Une covariance positive indique que les caractres X et Y varient globalement dans le mme sens, une hausse de lun tant associe une hausse de lautre, ou encore une baisse de lun tant associe une baisse de lautre. Une covariance ngative indique que les caractres X et Y varient globalement en sens contraires, une hausse de lun tant associe une baisse de lautre.
Exemple 5.8 Calcul de covariance dans le cas de donnes exhaustives

Reprenons les donnes de lexemple 5.1 et calculons la covariance avec la formule dveloppe. On rappelle que n = 3 ; x = 9 721 ; y = 7 176. On calcule chacun des xiyi et on en fait la somme (voir figure 5.6).

118

Statistique descriptive

Figure 5.6
Calcul des xiyi.

Source : ministre de lducation nationale, 2006

Do

n x y
ij i j =1 i =1

= 236 489 678 .

Do,

en

utilisant

la

formule

dveloppe :

1 3 3 1 nij xi y j x y = 236 489 678 9 721 7 176 , 3 j =1 i =1 3 soit Cov(X ; Y) = 9 071 996,76. Le nombre de licencis en 2005 varie dans le mme sens que le nombre de licencis poursuivant leurs tudes luniversit en 2006. Cov( X ; Y ) =

Dans le chapitre suivant nous affinerons ltude de la relation entre deux caractres et nous verrons le rle de la covariance dans le calcul du coefficient de corrlation linaire.

tude des liaisons entre deux variables


La notion de liaison entre deux variables est un premier stade incontournable vers une ventuelle imputation causale quil est fondamental de mettre en vidence dans de nombreux domaines, notamment en pidmiologie, justice, conomie, sociologie, etc. Dans le cas particulier de deux caractres quantitatifs, le degr dassociation peut varier entre deux extrmes : dun ct la liaison fonctionnelle et de lautre lindpendance.

3.1

LIAISON FONCTIONNELLE ET INDPENDANCE


Prenons lexemple du jeu de la roulette. La roulette comporte 37 numros (numrots de 0 36), 18 rouges, 18 noirs, le zro tant vert. la suite de 100 parties, notons respectivement X et Y le nombre de numros rouges et de numros noirs sortis. Si le zro nexistait pas, nous aurions entre X et Y la relation fonctionnelle X + Y = 100 ; avec la prsence dune case verte, nous avons un degr de liaison trs fort entre X et Y, le zro ayant une probabilit faible de sortie.

Dfinition

Un caractre X est li fonctionnellement au caractre Y si chaque modalit de Y correspond une seule modalit de X.

La liaison fonctionnelle nest pas symtrique : si X est fonctionnellement li Y, cela nimplique pas que Y le soit fonctionnellement X.
Exemple 5.9 Liaison fonctionnelle et absence de symtrie

Supposons que, suite lintroduction sur le march dun nouveau produit, une enqute de satisfaction sur un chantillon de 200 consommateurs des deux sexes ait donn les rsultats suivants, avec X le sexe et Y la satisfaction :

Les sries bivaries

119

X\Y Masculin (M) Fminin (F) Somme

Insatisfait 20 0 20

Ni satisfait, ni insatisfait 70 0 70

Satisfait 0 110 110

Somme 90 110 200

X est fonctionnellement li Y, car pour chaque modalit de Y rsulte une seule modalit de X ; ainsi, un consommateur satisfait est ncessairement un homme. Par contre, Y nest pas fonctionnellement li X, car la modalit Masculin de X correspondent deux modalits possibles de Y : Insatisfait ou Ni satisfait, ni insatisfait. La liaison fonctionnelle nest pas symtrique. Reprenons lexemple du jeu de la roulette et imaginons une roulette comportant un trs grand nombre de cases vertes : les caractres X et Y seraient peu prs indpendants.
Dfinition Deux variables statistiques X et Y sont indpendantes si les distributions conditionnelles de X sachant Y sont identiques, ce qui quivaut : f X = x Y = y = fi + , quels que soient les indices i et j ( i j) (i entier compris entre 1 et p et j entre 1 et q). Dans le cas o X et Y sont indpendants, les distributions conditionnelles de X selon Y sont identiques la distribution marginale de X. Le concept dindpendance tant symtrique, lindpendance se traduit galement par la relation f Y = y X = x = f + j . ( j i)

Cette notion est similaire la notion dindpendance probabiliste : PB(A) = P(AB) / P(B).
Exemple 5.10 tude de lindpendance

Reprenons les donnes de lexemple 5.2. Leur tude a men au calcul des frquences conditionnelles de X sachant Y, rappeles dans le tableau suivant :
X\Y x1 = M x2 = F f+j y1 = O fi = 1 / j = 1 = 0,6729 fi = 2 / j = 1 = 0,3271 1 y2 = N fi = 1 / j = 2 = 0,7206 fi = 2 / j = 2 = 0,2794 1

De mme, les frquences marginales de X avaient t calcules : f1+ = 0,70 et f2+ = 0,30, soit 70 % dhommes et 30 % de femmes. Parmi les individus ayant rpondu oui, il y a 67,29 % dhommes et 32,71 % de femmes, ce qui est diffrent des proportions dhommes et de femmes dans lchantillon tudi, qui sont respectivement de 70 % et de 30 %. Ces rsultats montrent que les caractres X et Y ne sont pas indpendants, car les distributions conditionnelles de X selon Y ne sont pas gales la distribution marginale de X (voir dfinition de lindpendance, ci-avant) : la rponse dun individu nest pas indpendante de son sexe.

120

Statistique descriptive

3.2

INTRODUCTION AU TEST DU KHI-DEUX ()


Le test dindpendance du khi-deux (khi ) permet de se prononcer sur lindpendance de deux variables qualitatives, observes sur un chantillon. Il seffectue en deux tapes : 1. La premire consiste comparer le tableau des effectifs observs et le tableau des effectifs thoriques calculs sous lhypothse dindpendance, ou plutt de mesurer leur distance afin de disposer dun indicateur permettant daccepter ou de refuser lhypothse dindpendance entre ces variables :
Si la distance entre les tableaux est petite , les effectifs observs sont proches
2

des effectifs thoriques. Les effectifs observs sassimilent aux effectifs thoriques sous hypothse dindpendance : on ne peut rejeter lhypothse dindpendance.
Si la distance entre les tableaux est grande , les effectifs observs sont diffrents

des effectifs thoriques calculs sous lhypothse dindpendance. Les effectifs observs ne sassimilent pas aux effectifs thoriques sous lhypothse dindpendance : les deux variables ne sont pas indpendantes. 2. La deuxime tape, prsente dans tous les tests dhypothses (voir focus 5.1), consiste dterminer la probabilit associe la dcision daccepter ou de refuser lhypothse dindpendance. Ne pouvant prtendre une certitude, il apparat raisonnable de minimiser le risque derreur.

Focus 5.1

Principe des tests dhypothses


Une hypothse statistique est une assertion concernant les caractristiques (valeurs des paramtres, nature de la distribution, indpendance, etc.) dune ou de plusieurs variables statistiques sur une population. Lexamen de la validit dune hypothse se fait sur la base dobservations recueillies sur un chantillon de la population tudie. Le test statistique est une dmarche qui vise fournir une rgle de dcision permettant de faire un choix entre deux hypothses statistiques. Les deux hypothses envisages sappellent lhypothse nulle (H0) et lhypothse alternative (H1). La terminologie hypothse nulle est une hypothse de diffrence nulle entre les donnes observes sur un chantillon et lhypothse H0 que lon dsire tester (valeur dun paramtre, adquation une loi de probabilit thorique, indpendance, etc.). La dmarche du test seffectue en considrant H0 vraie ; cest cette hypothse que nous allons soit accepter on parle alors de rgion de non-rejet de H0 , soit rejeter on parle alors de rgion critique de H0. Le rejet ventuel de lhypothse nulle conduit lacceptation de lhypothse alternative ( contre-hypothse ) H1. La dcision de favoriser telle hypothse est base sur les rsultats dun chantillon et donc, partir dune information trs partielle, il est impossible dtre sr de prendre la bonne dcision : on devra se contenter de limiter la probabilit que notre dcision soit errone. On distinguera deux types derreur : Erreur de premire espce : rejeter tort H0. Ce risque, consenti lavance, de rejeter tort lhypothse nulle alors quelle est vraie sappelle le seuil de signification et est

Les sries bivaries

121

not . Les seuils les plus utiliss sont = 0,05 et = 0,01, soit respectivement 5 % et 1 %. Erreur de seconde espce : accepter H0 alors que H1 est vraie. La probabilit de cette erreur est note . Le risque de premire espce est regrettable, mais invitable, comme le rappelle Daniel Schwartz. La seule faon de ne pas se tromper, et de ne prendre aucun risque de rejeter tort H0, est daccepter H0 dans tous les cas, ce qui augmente le risque daccepter H0 alors quelle est fausse. Autrement dit, pour diminuer , il faut augmenter . Pour ne pas prendre le moindre risque de condamner un innocent risque , on doit accepter le risque de relaxer tous les coupables risque .

Effectifs observs et effectifs thoriques calculs


La premire tape passe par le calcul des effectifs thoriques nots cij.
Dfinition Les effectifs calculs (ou thoriques) : Les effectifs calculs sous lhypothse dindpendance, encore appels effectifs thoriques, sont nots cij et donns par : cij = ni+ n+j / n++.

Aprs dtermination des effectifs calculs cij, il est possible de dterminer un indicateur de distance entre le tableau observ, compos des nij, et le tableau thorique, compos des cij. Cette distance est appele distance du khi-deux.
Dfinition Distance du khi-deux : La distance entre les tableaux observ et thorique est appele khideux calcul, note c 2 , et dfinie par C 2 =
j =1 i =1 q p

(n

ij

c ij c ij

, les coefficients cij dsignant les

effectifs thoriques ou calculs et les nij les effectifs observs.

Pour appliquer un calcul de distance du khi-deux entre deux tableaux, les deux conditions suivantes doivent tre vrifies : la taille de lchantillon doit tre suprieure ou gale 30 ; tous les effectifs calculs doivent tre suprieurs ou gaux 5 (dans le cas contraire, on regroupe les classes adjacentes). Karl Pearson a dmontr que ce khi-deux calcul suit approximativement la distribution du khi-deux (voir focus 5.2), loi de probabilit continue, caractrise par un paramtre (nu), le degr de libert.
Dfinition Degr de libert dun tableau de contingence : Soit un tableau de contingence form de n lignes et de p colonnes. Son degr de libert, not ddl, est donn par : ddl = (n1)(p1), ou encore ddl = (nombre de lignes 1) (nombre de colonnes 1).

Pour comprendre la signification de la notion de degr de libert, il convient dobserver que lon peut remplir librement les (n 1) premires lignes et les (p 1) premires colonnes et qualors les effectifs marginaux imposent les valeurs restantes.

122

Statistique descriptive

Focus 5.2

La loi du khi-deux
La loi du 2 finalise par Karl Pearson au dbut du XX sicle est une loi de probabilit continue reprsentant la distribution de la somme des carrs de n variables alatoires indpendantes, chacune tant normale centre rduite. Cette somme est appele variable du 2 n degrs de libert ; on note le degr de libert (ddl). Les valeurs de 2 dpene

dent du degr de libert et du seuil de signification . Elles sont notes 2( ; ) et sont tabules sur la table du 2 , avec P 2 2( ; ) = . Prenons un exemple : pour un seuil de signification de 5 % et un ddl = 1, on trouve : 2( 0,05;1) = 3,84 ; pour un seuil de signification de 1 % et un ddl de 1, 2(0,01;1) = 6,63 . Pour un ddl de 1, il y a une chance sur 100 pour que la variable alatoire du 2 1 degr de libert dpasse 6,63 (voir figure 5.7). Autre dmarche : on peut, partir du khi-deux calcul et du ddl, dterminer le degr de signification correspondant. Par exemple, pour un khi-deux calcul de 2,8 et un ddl de 1, le degr de signification est de 9,43 % (ce degr de signification peut tre dtermin en utilisant Excel ; voir exercice 5) ; si le seuil de 5 % a t assign au test, alors on ne pourra pas rejeter lhypothse nulle, car notre seuil de signification est suprieur 5 % (voir lexercice 5 et la notion de p-valeur).
Figure 5.7
Distribution du khi-deux 1 degr de libert.
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 3,84 =0,05 x y

Le test de lhypothse dindpendance


La deuxime tape consiste tester lhypothse dindpendance, en respectant les quatre phases suivantes : 1. Formuler les hypothses :
H0 : les deux caractres sont indpendants. H1 : les deux caractres ne sont pas indpendants.

2. Choisir le seuil de signification, not .

Les sries bivaries

123

3. Dterminer le degr de libert. 4. Dfinir la rgle de dcision partir de c 2 le khi-deux calcul et 2( ; ) le khi-deux critique, dpendant du seuil de signification et du degr de libert .
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables est

rejete et lhypothse H1 est accepte : les deux caractres seront considrs comme statistiquement associs.
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas

rejete : il est impossible de conclure de faon significative lexistence dun lien statistique entre les variables.
Exemple 5.11 Test du khi-deux

Reprenons lexemple 5.10. Le tableau des effectifs observs est le suivant :


X\Y x1 = M x2 = F y1 = O n11 = 290 n21 = 141 y2 = N n12 = 410 n22 = 159

Les deux variables sont dpendantes (voir exemple 5.10). Il est possible de sinterroger sur les conditions qui auraient permis de conclure lindpendance. Pour cela, calculons les effectifs sous lhypothse dindpendance, nots cij. Lindpendance se traduit par : f ( X = x1 Y = y1 ) = f1+ , soit par le fait que la proportion dindividus de sexe masculin parmi les oui est gale la proportion dindividus de c 700 sexe masculin dans la population tudie, soit 70 %, ce qui donne : 11 = , soit 431 1000 n 700 431 = 302 . Remarquons que c11 = 1+ n +1 . c11 = n+ + 1000 Ce problme compte apparemment quatre inconnues, mais en vrit elles sont lies : la donne dune de ces inconnues, par exemple c11, fixe les valeurs des autres. Le tableau a un degr de libert gal 1. Ainsi, partir de c11, il est possible de trouver toutes les autres valeurs du tableau : c12 = 700 c11 = 398 ; c21 = 431 c11 = 129 et c22 = 300 c21 = 171. Do le tableau suivant, qui indique les effectifs calculs, cij, en supposant lindpendance des caractres X et Y.
X\Y x1 = M x2 = F Somme y1 = O 302 129 431 y2 = N 398 171 569 Somme 700 300 1 000

124

Statistique descriptive

Calculons le c laide de la formule C =


2

(n

ij

cij ) c ij

. Pour cela, il est ncessaire

j =1 i =1

de

calculer
2

chacun

des
2

(n

ij

cij ) cij

avant

den

faire
2

la
=

somme.
2

Ainsi,
= 0,36 ;

(n11 c11 )
c11

=
2

( 290 302 )
302

= 0,48 ; = 1,12 et

(n12 c12 )
c12

( 410 398 )
398

(n21 c 21 )

129 c 21 reportes dans le tableau suivant :


X\Y x1 = M x2 = F Somme

(141 129 )

(n22 c 22 )
c22

(159 171)
171
y2 = N 0,36 0,84 1,20

= 0,84 . Ces valeurs sont

y1 = O 0,48 1,12 1,60

Somme 0,84 1,96 2,80

Ainsi, c 2 = 0,48 + 0,36 + 1,12 + 0,84 = 2,80, avec un ddl de 1 qui donne au seuil de 5 %

2( 0,05;1) = 3,84 . c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas rejete : il
est impossible de conclure de faon significative lexistence dun lien statistique entre le sexe et le type de rponse.

Focus 5.3

Test du khi-deux sous Excel


Excel propose de raliser un test du khi-deux uniquement partir des tableaux de donnes observes et thoriques, sans avoir calculer les distances du khi-deux. Pour cela, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction TEST.KHIDEUX. Cliquez sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.8), dans le champ Plage_relle, indiquez la plage dans laquelle se trouve le tableau de donnes observes, soit B2:D4, et dans le champ Plage_attendue, indiquez la plage dans laquelle se trouve le tableau de donnes thoriques, soit B22:D24 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat.

Les sries bivaries

125

Figure 5.8
Ralisation du test du khi-deux sous Excel.

La probabilit affiche, gale 0,0000, est le degr de signification, cest--dire le plus petit risque derreur pour lequel la diffrence entre le modle observ et le modle dindpendance est significative. Si cette probabilit est suprieure au seuil de signification, alors H0 ne peut tre rejete. Dans notre exemple, avec un seuil de signification de 5 % et un degr de signification denviron 0, on doit rejeter H0.

Conclusion
Ce chapitre est un chapitre clef double titre : tout dabord il a introduit les outils de base des sries bivaries, qui seront ncessaires pour aborder, au chapitre 6, la rgression ; ensuite il a introduit le concept fondamental dindpendance. Cette notion a t loccasion de prsenter une initiation aux tests statistiques, qui constituent un aspect fondamental de linfrence statistique. Le lecteur doit matriser les concepts deffectifs (et de frquences) conditionnels et marginaux, ainsi que les lments ayant trait aux tableaux de contingence : utilisation rigoureuse des indices, notion de degr de libert. La covariance, son calcul sous les deux formes et linterprtation de son signe doivent tre bien connus. Enfin, le lecteur doit sattacher une rdaction rigoureuse et systmatique dans llaboration dun test dhypothse. Les calculs intervenant dans le test du khi-deux exigent une dmarche, des notations et une prsentation claires. Par ailleurs, indpendamment de lutilisation du tableur, il est fondamental dtre familiaris avec la table de la distribution du khi-deux.

126

Statistique descriptive

Problmes et exercices
Par lintermdiaire du tableau de contingence, ce chapitre prsente une premire approche des sries bivaries. Les exercices 1 et 2 initient la construction du tableau de contingence selon la nature des variables tudies. Lexercice 3 dtaille les lments constitutifs du contenu dun tableau de contingence. Lexercice 4 applique aux sries bivaries le calcul des indicateurs prcdemment mis en uvre dans ltude des sries univaries. Lexercice 5 introduit la notion de dpendance entre deux sries, laide de la covariance et du test du khi-deux.

EXERCICE 1

CONSTRUCTION DUN TABLEAU DE CONTINGENCE


SUR CARACTRES DISCRET ET QUALITATIF
loccasion dune enqute statistique, un enseignant demande ses 28 tudiants dindiquer sur un papier leur genre, masculin ou fminin, et le nombre de films quils ont vus au cinma au cours des deux derniers mois. Les rsultats de lenqute sont reports dans le tableau suivant :
tudiant tudiant 1 tudiant 2 tudiant 3 tudiant 4 tudiant 5 tudiant 6 tudiant 7 tudiant 8 tudiant 9 tudiant 10 tudiant 11 tudiant 12 tudiant 13 tudiant 14 Nombre de films 1 3 4 2 1 4 0 2 2 0 4 5 2 1 Genre Fminin Masculin Masculin Fminin Fminin Fminin Masculin Masculin Fminin Fminin Fminin Masculin Fminin Masculin

Les sries bivaries

127

tudiant tudiant 15 tudiant 16 tudiant 17 tudiant 18 tudiant 19 tudiant 20 tudiant 21 tudiant 22 tudiant 23 tudiant 24 tudiant 25 tudiant 26 tudiant 27 tudiant 28

Nombre de films 2 2 2 3 3 3 6 3 0 0 0 2 3 2

Genre Fminin Masculin Fminin Fminin Masculin Masculin Masculin Masculin Fminin Fminin Masculin Masculin Masculin Fminin

1. Prcisez la nature des caractres tudis. 2. Dressez le tableau de contingence prsentant les deux distributions marginales.

1. La variable nombre de films est une variable quantitative discrte.

La variable genre est une variable qualitative nominale.


2. Afin dtablir le tableau de contingence dcrivant la srie bivarie, nous pouvons soit faire un recensement manuel, soit utiliser le tableau crois dynamique dExcel.

Pour le recensement manuel, il convient de compter combien de femmes ont vu 0 film, 1 film, 2 films, etc., et de faire de mme pour les hommes. Ce comptage aboutit au tableau de contingence de la figure 5.9, qui indique par exemple que 6 femmes ont vu 2 films ou encore que 5 hommes ont vu 3 films.
Figure 5.9
Ralisation manuelle dun tableau de contingence.

128

Statistique descriptive

La ralisation manuelle dun tel tableau est souvent longue et fastidieuse. Excel permet de raliser ce type de tableau automatiquement, laide du tableau crois dynamique. Ce tableau est dit dynamique, car une fois quil est ralis partir des donnes brutes, il est possible de le modifier tout moment en faisant glisser les variables laide de la souris. Pour raliser un tableau crois dynamique sous Excel, ouvrez Excel sur la feuille contenant les donnes traiter. Cliquez sur Donnes/Rapport de tableau crois dynamique dans la barre de menus. Lassistant tableau crois dynamique apparat (voir figure 5.10). Par dfaut les donnes analyser sont supposes tre dans Excel. Il suffit donc de cliquer sur le bouton Suivant.
Figure 5.10
Cration dun tableau crois dynamique laide de lassistant.

Lassistant tableau crois dynamique demande alors dindiquer la plage o se trouvent les donnes. Il convient donc de slectionner laide de la souris le tableau Excel, cest--dire, ici, la plage A1:C29, comme indiqu sur la figure 5.11. Puis cliquez sur le bouton Suivant.
Figure 5.11
Slection des donnes croiser dans lassistant tableau crois dynamique.

Dernire tape : il convient dindiquer lendroit o vous souhaitez que le tableau crois dynamique soit ralis : soit sur une nouvelle feuille, soit sur la feuille existante. Nous choisissons ici de faire apparatre le tableau crois dynamique sur une nouvelle feuille (voir figure 5.12) avant de cliquer sur le bouton Terminer.
Figure 5.12
Slection du lieu daffichage des rsultats dans lassistant tableau crois dynamique.

Les sries bivaries

129

Lassistant tableau crois dynamique se ferme et le tableau crois dynamique apparat, vide, avec la liste de champs qui reprend les trois colonnes du tableau brut (voir figure 5.13).
Figure 5.13
Tableau crois dynamique renseigner.

Pour remplir le tableau crois dynamique, il suffit de cliquer sur un des lments de la liste de champs et de le faire glisser, laide de la souris, lendroit souhait du tableau de contingence. Dans notre cas : Llment Nombre de films est dplac lemplacement indiqu Dposer champs de lignes Ici . Llment Genre est dplac lemplacement indiqu Dposer champs de colonnes Ici . Llment tudiant est dplac lemplacement indiqu Dposer donnes Ici . Le tableau crois dynamique construit fait ainsi apparatre le nombre de films en ligne, le sexe en colonne et compte le nombre dtudiants prsentant chaque modalit de lune et de lautre de ces deux variables (voir figure 5.14).
Figure 5.14
Dnombrement par tableau crois dynamique.

Un simple clic sur les cellules dynamiques (A3, A4 et B3) permet de modifier les options du tableau, notamment de faire disparatre la modalit indique (vide) pour chaque variable. Ce tableau de contingence correspond celui obtenu manuellement (voir figure 5.9).

130

Statistique descriptive

EXERCICE 2

CONSTRUCTION DUN TABLEAU DE CONTINGENCE


SUR CARACTRES CONTINUS
Dans le cadre dune tude sur lamnagement touristique du territoire, des donnes relatives aux 22 rgions franaises vous sont fournies : le nombre de chambres classes, qui reflte la capacit daccueil des htels de la rgion ; le nombre de nuites, qui correspond la frquentation de la rgion.
Rgion Alsace Aquitaine Auvergne Basse-Normandie Bourgogne Bretagne Centre Champagne-Ardenne Corse Franche-Comt Haute-Normandie le-de-France Languedoc-Roussillon Limousin Lorraine Midi-Pyrnes Nord-Pas-de-Calais Pays de la Loire Picardie Poitou-Charentes Provence-Alpes-Cte-dAzur Rhne-Alpes Nombre de chambres classes (milliers) 18,874 29,367 16,488 13,916 14,673 23,815 19,713 8,119 11,288 7,807 9,119 146,247 25,981 5,198 13,713 40,124 16,901 20,162 7,833 15,965 69,120 69,812 Nombre de nuites (milliers) 5 783,190 8 249,402 3 585,167 4 717,249 4 780,127 6 942,431 5 879,467 2 747,915 2 720,622 2 080,166 3 048,212 61 479,881 7 834,973 1 279,118 3 657,955 9 602,892 5 819,472 5 711,902 2 486,715 4 499,656 21 442,215 18 311,960

Source : Insee, direction du Tourisme, partenaires rgionaux, 2007

Les sries bivaries

131

1. Prcisez la nature des caractres tudis. 2. Dressez le tableau de contingence prsentant les deux distributions marginales. Utilisez les classes [0 ; 15[ ; [15 ; 30[ et [30 ; 150[ pour X. Utilisez les classes [0 ; 5 000[ ; [5 000 ; 10 000[ ; [10 000 ; 65 000[ pour Y.

1. Les deux variables X = nombre de chambres classes et Y = nombre de nuites sont des variables quantitatives continues. 2. Afin de pouvoir raliser un tableau de contingence, il est indispensable de discrtiser ces variables afin de les regrouper en classes (voir chapitre 1), sans quoi chacune dentre elles aura 22 modalits et le tableau de contingence sera compos pour chaque ligne et pour chaque colonne dune unique rgion dans les marges. En effet, aucune rgion na le mme nombre de chambres ni le mme nombre de nuites quune autre.

Pour la variable X = nombre de chambres classes , nous choisissons les classes suivantes : [0 ; 15[, [15 ; 30[ et [30 ; 150[ (en milliers). Pour la variable Y = nombre de nuites , nous choisissons les classes suivantes : [0 ; 5 000[, [5 000 ; 10 000[ et [10 000 ; 65 000[ (en milliers). Le recensement manuel permet dobtenir le tableau suivant :
X\Y [0 ; 15[ [15 ; 30[ [30 ; 150[ Somme [0 ; 5 000[ 9 2 0 11 [5 000 ; 10 000[ 0 7 1 8 [10 000 ; 65 000[ 0 0 3 3 Somme 9 9 4 22

EXERCICE 3 CONTENU DUN TABLEAU DE CONTINGENCE


Le tableau suivant recense les pays de lEurope des 25 selon : la taille de leur population (en millions dhabitants), note X et indique en ligne ; le nombre de voix dont ils disposent au conseil de lUnion europenne, not Y et indiqu en colonne.
Pop (X) \ Voix (Y) [0 ; 5[ [5 ; 10[ [10 ; 50[ [50 ; 100[ [0 ; 5[ 6 0 0 0 [5 ; 10[ 2 3 0 0 [10 ; 15[ 0 2 6 0 [15 ; 30[ 0 0 2 4

Source : PNUD, Rapport mondial sur le dveloppement humain, 2003

132

Statistique descriptive

1. Dressez le tableau contenant les effectifs partiels et marginaux. 2. Dressez le tableau des frquences partielles et marginales. 3. Dressez le tableau des frquences conditionnelles de X selon Y. 4. Dressez le tableau des frquences conditionnelles de Y selon X. 5. partir des questions prcdentes, concluez sur la dpendance entre X et Y.

1. Les effectifs partiels des caractres X et Y sont nots nij et sont indiqus dans le corps du tableau de contingence (voir figure 5.15). Ils correspondent aux effectifs donns dans lnonc. Ainsi, par exemple, n23 = 2, soit 2 pays de lEurope des 25 ont une population comprise entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion europenne.

Les effectifs marginaux du caractre X se notent ni+ et sont indiqus dans la dernire colonne du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
n2 + = n2 j = 5 , soit 5 pays de lEurope des 25 ont une population comprise entre 5 et
j =1 4

10 millions dhabitants. Les effectifs marginaux du caractre Y se notent n+j et sont indiqus dans la dernire ligne du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
n+3 = ni 3 = 8 , soit 8 pays de lEurope des 25 ont entre 10 et 15 voix au conseil de lUnion
i =1 4

europenne.

Figure 5.15
Les effectifs partiels (nij) et marginaux (ni+ ; n+j).

2. Les frquences partielles des caractres X et Y se notent fij et sont indiques dans le corps du tableau de contingence (voir figure 5.16). Ainsi, par exemple, n 2 f 23 = 23 = = 8% , soit 8 % des pays de lEurope des 25 ont une population comprise n++ 25 entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion europenne.

Les frquences marginales du caractre X se notent fi+ et sont indiques dans la dernire colonne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple, n 5 f 2+ = 2+ = = 20% , soit 20 % des pays de lEurope des 25 ont une population n++ 25 comprise entre 5 et 10 millions dhabitants.

Les sries bivaries

133

Les frquences marginales du caractre Y se notent f+j et sont indiques dans la dernire ligne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple, n 8 f +3 = +3 = = 32% , soit 32 % des pays de lEurope des 25 ont entre 10 et 15 voix au n++ 25 conseil de lUnion europenne.

Figure 5.16
Les frquences partielles (fij) et marginales (fi+ ; f+j).

3. Les frquences conditionnelles de X selon Y se notent fi / +j et sont indiques dans le

corps du tableau de contingence (voir figure 5.17). Ainsi, par exemple, n 2 fi =2 / j =3 = 23 = = 25% . Parmi les pays de lEurope des 25 qui disposent de 10 15 voix n +3 8 au conseil de lUnion europenne, 25 % ont une population comprise entre 5 et 10 millions dhabitants.

La somme en colonne des frquences conditionnelles de X selon Y fait 100 %. Ces frquences correspondent donc aux pourcentages en colonne : la somme des pourcentages de chacune des colonnes est gale 100 %.
Figure 5.17
Les frquences conditionnelles de X selon Y : fi / +j

4. Les frquences conditionnelles de Y selon X se notent fj / i+ et sont indiques dans le corps du tableau de contingence (voir figure 5.18). Ainsi, par exemple, n 2 f j =3 / i =2 = 23 = = 40% . Parmi les pays de lEurope des 25 qui ont une population n2 + 5 comprise entre 5 et 10 millions dhabitants, 40 % disposent de 10 15 voix au conseil de lUnion europenne.

La somme en ligne des frquences conditionnelles de Y selon X fait 100 %. Ces frquences correspondent donc aux pourcentages en ligne : la somme des pourcentages de chacune des lignes est gale 100 %.
Figure 5.18
Les frquences conditionnelles de Y selon X : fj / +i

134

Statistique descriptive

5. X nest pas fonctionnellement li Y, car la modalit de y2 correspondent deux modalits possibles de X, x1 et x2 ; de mme, Y nest pas fonctionnellement li X, car la modalit de x2 correspondent deux modalits possibles de Y, y2 et y3.

Ainsi, par exemple, les pays de lEurope des 25 dont la taille de la population est comprise entre 10 et 50 millions dhabitants peuvent disposer de 10 15 voix ou de 15 30 voix au conseil de lUnion europenne. Inversement, les pays de lEurope des 25 qui ont entre 10 et 15 voix au conseil de lUnion europenne peuvent avoir une population comprise entre 5 et 10 millions ou entre 10 et 50 millions dhabitants.
X et Y ne sont pas indpendants, car les distributions conditionnelles ne sont pas gales aux distributions marginales. En effet, par exemple, f j =3 / i =2 = 40 % est diffrent de

f +3 = 32 % . Puisque X et Y ne sont ni dans une relation de liaison fonctionnelle, ni dans une relation dindpendance, on se trouve entre ces deux cas extrmes et il est simplement possible de conclure quil existe une liaison entre X et Y.

EXERCICE 4 INDICATEURS SUR TABLEAU DE CONTINGENCE


Le tableau suivant recense le nombre de personnes tues dans un accident de la route en 2005 (millions dindividus de la classe dge), en fonction de lge (X) et du sexe (Y) :
Age (X) \ Sexe (Y) [0 ; 15[ [15 ; 20[ [20 ; 25[ [25 ; 45[ [45 ; 65[ [65 ; 95[
Source : ONISR, 2006

Homme 15 241 362 161 102 145

Femme 10 70 77 36 35 67

1. Pour la variable ge des tus par accidents de la route , calculez : a. la moyenne marginale x ; b. la variance marginale V(x). 2. Pour la variable ge des tus par accidents de la route conditionne par la modalit homme de la variable sexe , calculez : a. la moyenne conditionnelle, soit x1 ; b. la variance conditionnelle, soit V1(x). 3. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre lge et le sexe des personnes tues dans un accident de la route.

Les sries bivaries

135

1. Saisissez les centres de classes de X dans la colonne L1, les effectifs partiels pour les hommes dans la colonne L2 et les effectifs partiels pour les femmes dans la colonne L3, comme indiqu figure 5.19.

Figure 5.19
Saisie du tableau de contingence avec la calculatrice.

Pour calculer les effectifs marginaux (ni+) de X dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2+L3. Puis appuyez sur ENTER. Pour obtenir les (ni+xi) dans la colonne L5, placez le curseur sur len-tte de colonne L5, puis indiquez L5=L4L1. Puis appuyez sur ENTER. Pour obtenir les (ni+xi) dans la colonne L6, placez le curseur sur len-tte de colonne L6, puis indiquez L6=L5L1. Puis appuyez sur ENTER. Pour effectuer la somme des (ni+), placez le curseur sur la cellule L4(7), et indiquez L4(7)=sum(L4), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L5(7), et indiquez L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER. Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L6(7), et indiquez L6(7)=sum(L6), en appelant la fonction SUM. Puis appuyez sur ENTER (voir figure 5.20).
Figure 5.20
Calcul des ni+xi et de la somme des colonnes avec la calculatrice.

a. La moyenne marginale de X est donc gale x =

1 6 46 897,5 ni + xi = 1 321 , soit 1321 i =1

x = 35,5 . Lge moyen des personnes tues dans un accident de la route est de 35,5 ans.

136

Statistique descriptive

b. La variance marginale de X est donc gale :


V (x) =
1 6 2331443, 8 ni + xi x = 35,5 , soit V(x) = 504,55. 1321 i =1 1321

La variance de lge des personnes tues dans un accident de la route est de 504,55.
2. Effacez le contenu des colonnes L4 et L5 en plaant le curseur sur chacun des en-ttes de colonnes et en appuyant sur CLEAR et ENTER.

Pour calculer les ni1xi dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L1L2. Puis appuyez sur ENTER. Pour obtenir les ni1xi dans la colonne L5, placez le curseur sur len-tte de colonne L5, puis indiquez L5=L4L1. Puis appuyez sur ENTER. Pour faire la somme des ni1, placez le curseur sur la cellule L2(7), et indiquez L2(7)=sum(L2), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. Pour faire la somme des ni1xi, placez le curseur sur la cellule L4(7), et indiquez L4(7)=sum(L4), en appelant la fonction SUM. Puis appuyez sur ENTER. Pour faire la somme des ni1xi, placez le curseur sur la cellule L5(7), et indiquez L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER (voir figure 5.21).
Figure 5.21
Calcul des ni1xi et de la somme des colonnes avec la calculatrice.

a. La moyenne conditionnelle cherche est donc : x1 =

1 6 35 320 ni1 xi = , soit 1026 i =1 1026

x1 = 34, 42 . Lge moyen des hommes tus dans un accident de la route est de 34,42 ans.

b. La variance conditionnelle cherche est :


V1 (x) =
1 6 1691687,5 ni1 xi x1 = 1026 34, 42 , soit V(x) = 463,74. 1026 i =1

La variance de lge des hommes tus dans un accident de la route est de 463,74.
3. Pour effectuer un test du khi-deux, il convient de saisir le tableau de donnes observes

dans une matrice. Pour cela, appuyez sur la touche MATRIX, choisissez le menu EDIT. Tapez 1 pour diter la matrice [A]. Saisissez le nombre de lignes, soit 6, et appuyez sur ENTER. Saisissez le nombre de colonnes, soit 2, et appuyez sur ENTER. Enfin, saisissez les valeurs en validant chacune dentre elles par appui sur ENTER.

Les sries bivaries

137

La matrice [A] de la calculatrice contient ainsi les donnes observes (voir figure 5.22). Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite sous lhypothse dindpendance entre X et Y. Pour effectuer ce test laide de la calculatrice, appuyez sur la touche STAT, choisissez le menu TESTS et tapez C pour appeler le test du khi-deux. Par dfaut, la matrice de donnes observes est la matrice [A]. Tapez sur ENTER pour valider. Par dfaut, la matrice o seront stocks les rsultats de la matrice thorique est la matrice [B]. Tapez sur ENTER pour valider. Puis tapez une nouvelle fois sur ENTER pour lancer le test du khi-deux. Les rsultats saffichent lcran (voir figure 5.23).
Figure 5.22 (gauche)
Saisie de la matrice [A] des effectifs observs avec la calculatrice.

Figure 5.23 (droite)


Rsultats du test du khideux avec la calculatrice.

La probabilit 0,000269, soit environ 0,03 %, donne ici est celle que lon obtiendrait sous Excel avec la fonction LOI.KHIDEUX. La valeur du khi-deux de 23,51, avec un degr de libert de 5, a une probabilit denviron 0,03 % dtre dpasse ou correspond un seuil de signification de 0,03 %. Ce seuil de signification est infrieur 5 %, et induit donc le rejet de lhypothse nulle au seuil fix de 5 % et lacceptation de lhypothse alternative. Si H0 est vraie, il y a 99,97 % de chances dobtenir un chantillon correspondant un khi-deux infrieur 23,51 ; en rejetant H0, on prend ici un risque ngligeable. Il existe donc un grand cart entre les donnes observes et les donnes thoriques sous hypothse dindpendance. Les donnes observes refltent un degr de dpendance statistique entre X et Y. Autrement dit, il existe un lien entre lge et le genre des personnes tues dans un accident de la route. Au seuil de 5 %, avec un ddl de 5, la table ou la fonction statistique Excel KHIDEUX.INVERSE nous donne un khi-deux de 11,05, qui est largement dpass ici par le khi-deux calcul. La matrice [B] des donnes thoriques peut tre visualise en appuyant sur la touche MATRIX. Dans le menu EDIT, tapez 2 pour diter la matrice [B] (voir figure 5.24).

Figure 5.24
Visualisation de la matrice [B] des effectifs calculs avec la calculatrice.

138

Statistique descriptive

(Obsi Thqi ) . Par exemple, Thqi e re pour llment situ lintersection de la 2 ligne et de la 1 colonne, 311 1026 1321 1321 1321 . 241,55 = 1026 1321

On vrifie que, pour chaque lment de la matrice,

2 i

EXERCICE 5 DPENDANCE ENTRE DEUX VARIABLES


318 tudiants ont t interrogs sur leurs achats de jeux vido neufs et doccasion au cours de la dernire anne. Le tableau suivant croise le nombre de jeux achets neufs (X) avec le nombre de jeux achets doccasion (Y).
Neuf (X) \ Occasion (Y) 0 1 [2 ; 4[ 0 157 55 49 1 8 8 9 [2 ; 4[ 5 8 19

1. Calculez la moyenne marginale x et la variance V(x). 2. Calculez la moyenne marginale y et la variance V(y). 3. Calculez la covariance entre X et Y. Concluez sur la dpendance entre X et Y. 4. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre X et Y.

1. Afin dobtenir la valeur de la moyenne marginale de X, il convient de calculer :

les effectifs marginaux (ni+) de X dans la colonne E, ainsi que leur somme dans la cellule E5 ; les centres de classes xi dans la colonne F ; les (ni+xi) dans la colonne G, ainsi que leur somme dans la cellule G5. Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs dans la colonne H, et leur somme dans la cellule H5 (voir figure 5.25).

Figure 5.25
Rsultats sous Excel.

Les sries bivaries

139

1 3 302 ni + xi = , soit x = 0,95 . 318 i =1 318 Le nombre moyen de jeux vido achets neufs lors de la dernire anne est de 0,95.

La moyenne marginale de X est donc gale x =

La variance marginale de X est donc gale V (x) =

1 3 764 ni + xi x 2 = 0,95 , soit 318 i =1 318 V(x) = 1,50. La variance des jeux vido achets neufs lors de la dernire anne est de 1,50.

2. Afin dobtenir la valeur de la moyenne marginale de Y, il convient de calculer la suite du tableau prcdent (voir figure 5.25) :

les effectifs marginaux (n+j) de Y sur la ligne 5, ainsi que leur somme dans la cellule E5 ; les centres de classes yj sur la ligne 6 ; les (n+jyj) sur la ligne 7, ainsi que leur somme dans la cellule E7. Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs sur la ligne 8, et leur somme dans la cellule E8.
1 3 121 n+ j y j = , soit y = 0,38 . 318 j =1 318 Le nombre moyen de jeux vido achets doccasion lors de la dernire anne est de 0,38.

La moyenne marginale de Y est donc gale y =

La variance marginale de Y est donc gale V ( y ) =

1 3 313 n+ j y j y 2 = 0,38 , soit 318 i =1 318 V(y) = 0,84. La variance des jeux vido achets doccasion lors de la dernire anne est de 0,84.
3. Pour obtenir la valeur de la covariance entre X et Y, nous calculons la suite du

tableau prcdent (voir figure 5.25) les

n x y
i =1 ij i q p ij i

pour chaque colonne j, sur la ligne 9,

dans les cellules B9, C9 et D9. Puis nous en effectuons la somme en faisant varier j dans la cellule E9, afin dobtenir la somme :

n x y
j =1 i =1

La covariance de (X ; Y) est donc gale


COV (X ; Y ) =
1 3 3 230 nij xi y j x y = 318 0,95 0,38 , soit Cov(X ; Y) = 0,36. 318 j =1 i =1

X et Y sont positivement lis. Le nombre de jeux vido achets neufs est positivement li au nombre de jeux vido achets doccasion.
4. Pour effectuer un test du khi-deux, il convient de calculer les effectifs thoriques (ou calculs, nots cij) sous lhypothse dindpendance entre X et Y. Les calculs sont prsents n n la figure 5.26. Par exemple, pour leffectif thorique c21 : c 21 = 2 + +1 , donc n++ 71 261 77 25 = 6 . c 21 = = 58 . Autre exemple : c 32 = 318 318

140

Statistique descriptive

Figure 5.26
Donnes thoriques sous hypothse dindpendance sous Excel.

Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite sous hypothse dindpendance entre X et Y. Pour cela, il convient de calculer chacune (nij c ij ) 2 des distances du khi-deux par case tel que = (voir figure 5.27). Par exemij c ij ple,

2 21

(55 58,27) = 0,18 . Autre exemple : 58,27

2 32

(9 6,05) = 1,43 . 6,05

Figure 5.27
Distances du khideux sous Excel.

La somme des distances du khi-deux est de 35,21, soit

= 35,21 . Or, ce tableau a :

(3 1) (3 1) = 4 degrs de libert. Pour dfinir la rgle de dcision, nous devons dterminer la valeur critique, cest--dire 2( 0,05;4) . Pour effectuer une lecture de table du khi-deux sous Excel, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction KHIDEUX.INVERSE. Cliquez sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.28), dans le champ Probabilit, indiquez le niveau de signification fix, ici 0,05, puis, dans le champ Degrs_libert, indiquez la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau, soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat, soit un khi-deux denviron 9,49.
Figure 5.28
Lecture du khi-deux de la table sous Excel.

Les sries bivaries

141

Il reste prendre la dcision : le khi-deux calcul est denviron 35,21 ; il est suprieur au khi-deux de la table, on doit rejeter lhypothse dindpendance et accepter lhypothse alternative de dpendance entre le nombre de jeux vido achets neufs et le nombre de jeux vido achets doccasion. Une dmarche complmentaire consiste chiffrer le degr de signification, ou la valeur p (p-value) en utilisant la fonction Excel LOI.KHIDEUX. Ce degr de signification est la probabilit davoir un khi-deux suprieur ou gal 35,21 sous lhypothse nulle. Pour dterminer le degr de signification, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction LOI.KHIDEUX. Cliquez sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.29), dans le champ x , indiquez la cellule dans laquelle se trouve la valeur du khi-deux, soit E33, et dans le champ Degrs_Libert, indiquez la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau, soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat.
Figure 5.29
Dtermination du degr de signification pour un khi-deux sous Excel.

Pour une valeur du khi-deux de 35,21 et avec un degr de libert de 4, la probabilit associe est de 4,2138E-07, soit 0,0000. Cette valeur du khi-deux a une probabilit pratiquement nulle dtre dpasse. Le degr de signification est infrieur au seuil de 5 % assign au test, on doit donc rejeter lhypothse nulle dindpendance entre les variables, le risque de prendre une mauvaise dcision tant ici quasiment nul. Il existe donc un grand cart entre les donnes observes et les donnes thoriques sous hypothse dindpendance. Les donnes observes refltent une dpendance entre X et Y. Autrement dit, il existe un lien entre le nombre de jeux vido achets neufs et le nombre de jeux vido achets doccasion.

142

Statistique descriptive

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. BOUROCHE J.-M. et SAPORTA G., Lanalyse des donnes, Que sais-je ?, PUF, 1990. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DODGE Y., Premiers pas en statistique, Springer, 2006. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. MARTIN O., Lanalyse de donnes quantitatives. Lenqute et ses mthodes, Armand Colin, 2005. WONNACOTT T.H. et R.J., Statistique, Economica, 1984.

Les sries bivaries

143

La rgression
1

1. Les fondements de la rgression..........................146 2. Lajustement linaire...........150 3. Ajustements et absence de linarit ........................162 Problmes et exercices 1. Rgression linaire et indicateurs de qualit......164 2. Rgression linaire et prvisions.......................170 3. Rgression sur tableau de contingence...................174 4. Ajustement exponentiel et papier semi-logarithmique ..175 5. Corrlation des rangs.........179

Dans le chapitre prcdent, nous avons vu que le degr dassociation de deux caractres quantitatifs peut varier entre deux extrmes, dun ct la liaison fonctionnelle et de lautre lindpendance. La notion de corrlation consiste prciser la dpendance mutuelle de deux variables statistiques. Cette notion de corrlation a t esquisse pour la premire fois par Francis Galton (1822-1911), dans ses travaux sur 1 lhrdit : il utilisait alors le terme co-relation . Galton a montr que la taille moyenne des descendants tait lie par une relation linaire la taille des parents. Les concepts introduits par Galton ont ensuite t dvelopps par Karl Pearson (1857-1936). Dans ce chapitre, nous tudierons essentiellement la corrlation linaire, cest--dire les situations o les variations relatives de deux caractres quantitatifs sont approximativement proportionnelles ; ce cas est fondamental, car il se produit quand le couple (X, Y) suit une loi normale. Ensuite, nous mesurerons lintensit de cette corrlation laide du coefficient de corrlation linaire.

1. Form de cum, avec, et de relatio, le mot latin correlatio signifie relation mutuelle (voir B. Hauchecorne).

145

Lanalyse linaire de la rgression a un double objectif : dune part expliciter le modle dcrivant les relations entre une variable privilgie, appele variable explique (dpendante ou endogne), et une variable appele variable explicative (indpendante ou exogne), et dautre part effectuer des prvisions de la variable explique en fonction de la variable explicative. Dans ce cas, lajustement analytique sera effectu laide de la mthode des moindres carrs, que nous devons Carl Friedrich Gauss (1777-1855) et Adrien-Marie Legendre (1752-1833), et qui nous permettra de dterminer les quations des droites de rgression. Nous envisagerons galement des liaisons plus complexes (exponentielles), en utilisant une reprsentation graphique (nuage de points) comme outil de conjecture. Enfin, une fois les calculs mens sur un chantillon, il importera dutiliser un test statistique permettant de valider ou de rejeter lexistence dun lien linaire entre les variables sur la population.

1
1.1

Les fondements de la rgression


TERMINOLOGIE
Il importe avant tout de prciser certains termes : rgression, corrlation, indpendance. Nous avons vu, au chapitre 5, un exemple (voir exemple 5.9) de liaison fonctionnelle non symtrique. De mme, les notions de rgression et de corrlation ne donnent pas un rle symtrique aux deux variables. Quand deux variables ne sont pas lies par une relation fonctionnelle pure, on devra se contenter de regarder comment, en moyenne, se font les variations respectives de ces variables. On associera ainsi chaque modalit xi de X la moyenne conditionnelle y i .

Dfinitions

Liaison fonctionnelle : On dit que la variable Y est fonctionnellement lie X si chaque modalit de X correspond une seule modalit de Y. De mme X est lie fonctionnellement Y si chaque modalit de Y correspond une seule modalit de X. Si X est lie fonctionnellement Y et Y est lie fonctionnellement X, on parle de liaison fonctionnelle rciproque. Courbes de rgression : On appelle courbe de rgression de Y selon x la courbe reprsentative des moyennes conditionnelles y i en fonction des valeurs xi de X. On remarquera que si X est une variable discrte on aura en fait une suite de points appele nuage de points. On dfinit de mme la courbe de rgression de X selon y. Point moyen : On appelle point moyen du nuage le point G de coordonnes respectives x et y .

Dans le cas particulier o les variables X et Y sont indpendantes, les distributions conditionnelles sont identiques entre elles (et confondues avec la distribution marginale correspondante). On a donc dans ce cas des moyennes conditionnelles constantes et donc des droites de rgression parallles aux axes et dquations respectives x = x et y = y . On notera que la rciproque est fausse : des droites de rgression parallles aux axes nimpliquent pas lindpendance.

146

Statistique descriptive

tudier la corrlation dune variable Y avec une variable X consiste tudier la dpendance des moyennes conditionnelles de Y en fonction des valeurs de X. Ltude de la corrlation de Y avec X se base sur la courbe de rgression de Y selon X et sur la mesure de lintensit de cette corrlation.
Dfinition Corrlation : Une variable Y est dite corrle avec X si la courbe de rgression de Y selon X nest pas une droite parallle laxe des abscisses.

On notera que : labsence de corrlation nest en gnral pas symtrique : X peut tre corrle avec Y sans que Y soit corrle avec X ; si X et Y sont des variables indpendantes, X nest pas corrle Y et Y nest pas corrle X, mais lindpendance nest quun cas particulier dabsence de corrlation.

1.2

LES DIFFRENTS AJUSTEMENTS STATISTIQUES


Nous supposons que nous disposons dun tableau simple donnant les modalits (xi ; yi), pour i variant de 1 n, dun couple de variables quantitatives, pour un chantillon alatoire, de taille n, prlev dans la population. Avant toute tude, la srie sera reprsente par un diagramme de corrlation (ou de dispersion) afin dapprcier le type dajustement adapt. Ce diagramme, appel nuage de points, est obtenu en plaant dans un repre les n points de coordonnes (xi ; yi). La forme de ce nuage permettra de mettre au jour une ventuelle corrlation entre les variables. Raliser un ajustement consiste rechercher la meilleure relation possible entre les variables, donc rechercher la courbe la plus proche de lensemble des points du nuage.

Les liaisons fonctionnelles (rigides)


Ce type de liaison, que lon rencontre par exemple dans de nombreuses lois physiques, a t dfini au chapitre 5 et constitue un modle dterministe. Une liaison fonctionnelle peut tre linaire ou non, conformment aux cas dcrits dans les exemples 6.1 et 6.2.
Exemple 6.1 Liaison fonctionnelle linaire

Le tableau suivant donne, pour un chantillon de 10 garons de 18 ans prlev dans la population dun lyce, les tailles respectives (exprimes en centimtres), xi et yi, 2 ans et 20 ans :
X 82 82,4 83 84 86 87 88,6 Y 164,1 164,9 166,1 168,1 172,1 174,1 177,3

La rgression

147

X 90 92,5 93

Y 180,1 185,1 186,1

Figure 6.1
Exemple de relation fonctionnelle linaire.

Taille adulte 190 185 180 175 170 165 160 80 85 90 95 Taille 2 ans

Sur la figure 6.1, lalignement des points met en vidence une relation fonctionnelle linaire entre les deux variables. On peut vrifier que, sur cet chantillon, y est une fonc1 tion affine de x : yi = 2xi + 0,1. On notera que, si le modle linaire est fondamental, on ne peut ngliger les autres ajustements : ajustement logarithmique, exponentiel, polynomial, puissance. Le lecteur pourra se familiariser avec ces diffrents modles grce lexemple 6.2 ci-aprs. Il pourra utiliser, dans lassistant graphique dExcel, le sous-menu Ajouter une courbe de tendance , ou se reporter au corrig de lexercice 1, figures 6.6 et 6.7.
Exemple 6.2 Liaison fonctionnelle non linaire

Lexemple qui suit est une illustration de ltonnante loi de Benford qui modlise la frquence dapparition du premier chiffre significatif de donnes statistiques (voir J.-P. Delahaye). On considre un chantillon de 300 pays. On note X le premier chiffre du nombre reprsentant la population de chaque pays (les modalits tant notes xi) et Y la variable dont les modalits notes yi sont les frquences des xi :
X 1 2 3 4 5 Y 0,3010 0,1760 0,1249 0,09691 0,0792

1. Une fonction affine est une fonction dfinie de R dans R par f(x) = ax + b, dont la reprsentation graphique est une droite non verticale.

148

Statistique descriptive

X 6 7 8 9

Y 0,0669 0,0580 0,0511 0,0458


y 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 x 10

Figure 6.2
Exemple de relation fonctionnelle non linaire.

Les points de la figure 6.2 ne sont pas aligns, mais le nuage montre lexistence dune liaison non linaire. Y et X sont lies par la relation logarithme dcimal : Y = log(1 + 1 / x).

Labsence de liaison
Dans le cas dun nuage de points diffus et rpartis au hasard, il est possible de conclure labsence de liaison entre les variables X et Y, comme le montre lexemple 6.3.
Exemple 6.3 Absence de liaison

Soit un chantillon de 31 tudiants ayant obtenu les notes X et Y dans deux matires. Le diagramme de dispersion correspondant est propos figure 6.3.
Figure 6.3
Absence de corrlation.
18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 x 13 y

Ce nuage de points sans liens apparents permet de conjecturer une absence de liaison entre les variables. Il ny a pas corrlation entre X et Y.

La rgression

149

Les liaisons statistiques


Dans de nombreuses sciences, nous cherchons mettre en vidence une liaison entre deux variables X et Y. Le plus souvent, la liaison cherche nest pas purement fonctionnelle et lon parle de liaison stochastique pour exprimer qu une valeur de X correspond un ensemble de valeurs possibles de Y, distribues suivant une loi de probabilit. Dans ce cas, les points ne sont plus aligns, mais le nuage de points a une forme allonge qui voque une droite. Cette droite constitue une liaison statistique entre les deux variables ; il nous reste prciser en quoi cette droite est la plus proche du nuage et exposer la mthode permettant de dterminer une quation de cette droite : la mthode des moindres carrs ordinaires (MCO).

Lajustement linaire
En cherchant mettre en vidence une fonction f qui reprsente la liaison statistique entre deux variables X et Y, on se trouve face au problme gnral de linterpolation. La dtermination analytique de f aurait a priori comme seule contrainte de vrifier yi = f(xi), avec Y la variable explique et en faisant abstraction des erreurs dues lchantillon. Dans le cas o le nuage de points a une forme allonge, on prsume un ajustement linaire. La fonction cherche est une fonction affine. Le but est de trouver la meilleure droite qui rsume le nuage de points, ce qui nous amne rsoudre un problme dinterpolation linaire. Pour cela, nous utilisons une proprit importante de la moyenne arithmtique : la moyenne arithmtique dune srie est le nombre le plus proche de cette srie au sens des moindres carrs.

2.1

DROITES DE RGRESSION PAR LA MTHODE MCO


La loi normale ou de Laplace-Gauss est encore appele loi des erreurs ou des carts, car cest ainsi quelle a t introduite. Le principe de la mthode des moindres carrs ordinaires (MCO) consiste sintresser la srie statistique des erreurs ou rsidus (ei). On notera que lon peut mettre des hypothses sur le choix de la variable explique, mais que le statisticien doit galement mener les calculs dans le cas o X est la variable explique. Il appartiendra au spcialiste concern conomiste, mdecin, etc. de dcider ventuellement dcarter un des cas sur la base dune analyse propre sa spcialit.

Dfinitions

On appelle droite de rgression de Y selon x, note DY / x, dtermine par la mthode des moindres carrs, la droite dquation y = ax + b, pour laquelle la somme des carrs des rsidus est minimale.

i = axi + b la valeur de yi estime par la droite de rgression de Y selon x. On note y


De mme, la droite de rgression de X selon y, note DX / y est la droite dquation i = a ' yi + b ' . x = ay + b avec x

150

Statistique descriptive

Notons que, graphiquement, la somme des carrs des rsidus reprsente la somme des carrs des carts entre les points du nuage et la droite, carts calculs paralllement laxe des ordonnes dans le cas de la droite de rgression de Y selon x. partir du modle linaire construit, il est possible deffectuer des prvisions. Dans le cas dune liaison linaire avre, une fois dtermine la droite de rgression de Y selon x, on peut lutiliser pour estimer la valeur de y associe une valeur de x appartenant ltendue des valeurs de x retenues dans lchantillon. Dans ce cas, il ny a pas de raison statistique de supposer que le modle linaire puisse se prolonger au-del de lintervalle tudi. Si lon effectue des prvisions en dehors de lintervalle dfini par les valeurs extrmes de x, on peut obtenir des valeurs aberrantes. On pourra sortir de cet intervalle, notamment dans les sries chronologiques, condition davoir des informations sur la stabilit de la liaison linaire.

Dtermination des droites de rgression


Remarque pralable : nous cherchons dterminer les paramtres a et b traduisant une ventuelle liaison linaire du type Y = aX + b (dans le cas de la droite de rgression de Y selon x) entre les variables X et Y ; pour cela, nous devons dterminer les paramtres a et b de la droite qui sloigne le moins du nuage de points constitu par un chantillon de taille n de la population. En consquence, nous allons dterminer des estimateurs   de a et b, cest--dire des fonctions des n observations de lchantillon, notes a et b , qui permettent dobtenir les meilleures estimations possibles des paramtres a et b. Dans les calculs, nous garderons les notations a et b de la statistique descriptive.
= ax + b , a dsignant le coefficient directeur de la droite DY / x et b lordonne Posons : y = a + bx ). lorigine (on notera que certains auteurs prennent la notation : y Nous devons dterminer les estimateurs de a et b qui minimisent i )2 = ( yi axi b)2 = S(a ; b). S = ( yi y
i =1 i =1 n n

S est une fonction de deux variables et les mathmatiques nous enseignent que les conditions ncessaires du premier ordre pour avoir un extremum (minimum ou maximum) sont :
S =0 a , cest--dire la nullit des drives partielles premires. S = 0 b
n n S S = 2 xi ( yi axi b) et = 2 ( yi axi b) ; on doit rsoudre le systme : a b i =1 i =1

n xi ( yi axi b) = 0 i =1 . En utilisant les relations n ( y ax b) = 0 i i i =1

x
i =1

= nx et

y
i =1

= ny , on obtient :

La rgression

151

n 2 (xi yi axi bxi ) = 0 . La deuxime quation du systme scrit b = y ax , ce qui i =1 ny anx nb = 0 permet de remplacer b par sa valeur dans la premire quation du systme, ce qui

donne :
n

x y
i =1 i

a xi 2 ( y ax ) xi = 0 soit
i =1 i =1 n

x y
i =1 i

a xi 2 nx ( y ax ) = 0 soit
i =1

nCov( X ; Y ) Cov( X ; Y ) a xi 2 nx 2 = xi yi nxy , qui donne : a = = . Nous admetnV ( X ) V (X) i =1 i =1 trons que ces valeurs correspondent bien un minimum.

Les calculs sont similaires pour la droite de rgression de X selon y ; on retiendra donc les  : rsultats suivants pour les estimateurs de a et b, nots a et b
DY / x  Cov(X ; Y )  Cov(X ; Y ) a ' = V (Y ) a = V (X ) : y = ax + b , avec et D X / y : x = a ' y + b ', avec .    b b = y ax '= x a'y

Ces deux droites se coupent au point moyen G. La droite de rgression de X selon y peut tre mise sous forme affine : y = (1 / a)x (b / a), de faon faire apparatre son coefficient directeur : 1 / a.
Exemple 6.4 Calculs de droites de rgression

Le tableau suivant donne les indices du pouvoir dachat (base 100 en 1951) du salaire minimum net, not X, et du salaire moyen, not Y, pour les salaris franais des secteurs priv et semi-public.
Anne 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Source : Insee, 2006

X 293 296 296 302,15 311,45 313,93 315,47 321,99 326,41 330,57

Y 329 336 334,35 337,33 340,34 345,76 347,46 349,17 352,25 350,87

Pour calculer les coefficients des droites de rgression, il est ncessaire de calculer les moyennes, les carts-types et la covariance de X et Y. La figure 6.4 propose les calculs intermdiaires ncessaires, raliss sous Excel.

152

Statistique descriptive

Figure 6.4
Calculs pralables sous Excel.

De l, x =

1 10 3106, 97 1 10 3 422,53 xi = = 310,7 , y = yi = = 342,25 , 10 i =1 11 10 i =1 10

V (x) = V (y) =

1 10 966 944,70 2 xi x = 10 (310,7 ) = 162,09 et 10 i =1

1 10 1171938, 41 2 yi y = ( 342,25 ) = 56, 66 . 10 i =1 10 1 10 1064 294,54 xi yi x y = 310,7 342,25 = 92,57 . 10 i =1 10

Cov(x ; y) =

On dispose donc de tous les lments pour calculer des estimations des paramtres a, b, a et b :    a = Cov(x ; y) / V(x) = 92,57 / 162,09 = 0,5711 et b = y ax = 342,25 0,5711 310,7 = 164,80.    a ' = Cov(x ; y) / V(y) = 92,57 / 56,66 = 1,6340 et b ' = x a ' y = 310,7 1,6340 342,25 = 248,54.
DY / x : y = 0,5711x + 164,80 . On obtient les droites de rgression : D X / y : x = 1,6340 y 248,54

On peut vrifier que ces deux droites sont scantes au point moyen G. Si nous validons provisoirement lexistence dun lien linaire entre X et Y, les valeurs de x varient dans lintervalle [293 ; 330,57] et cet intervalle est en toute rigueur lintervalle de validit du modle. Si nous relevons une valeur de lindice du pouvoir dachat du salaire  minimum x = 305, on peut faire une prvision pour y : y = 0,5711x + 164,80 soit  y = 0,5711 305 + 164,80 = 338,99 . De mme, sachant que lindice du pouvoir dachat du salaire minimum en 2005 est x = 341,90, il est possible dutiliser DY / x pour faire une prvision de lindice du = 0,5711 341,9 + 164,8 = 360,06 . pouvoir dachat du salaire moyen en 2005, soit y Cependant, la valeur x = 341,90 est hors de lintervalle de construction du modle dfini par [293 ; 330,57]. Cest pourquoi nous navons pas dinformation sur la fiabilit de cette prvision (en ralit, la vraie valeur est 351,56).

La rgression

153

Les droites de rgression peuvent galement tre construites dans le cas de donnes contenues dans un tableau de contingence. La dtermination de a, b, a et b, coefficients des droites de Y selon x et de X selon y, ncessite les calculs de moyennes, de variances et de la covariance, qui peuvent tre effectus partir des valeurs du tableau de contingence (voir exercice 3). Deux annexes, proposes en fin de chapitre, sont consacres la ralisation dune droite de rgression sous Excel (annexe 6.1), ou tout autre tableur quivalent, et avec une calculatrice graphique, Texas Instrument (annexe 6.2), ou toute autre calculatrice approchante.

2.2

LE COEFFICIENT DE CORRLATION LINAIRE


Lintensit de la corrlation est dautant plus grande que les points du nuage sont plus concentrs au voisinage de la courbe de rgression. On voit ainsi limportance de sintresser la dispersion et la composition de la variance de Y dans ltude de la corrlation.

Dcomposition de la variance
= ax + b . La droite de rgression DY / x donne pour estimation de y : y = ax + y ax soit y y = a( x x ) . En remplaant b par sa valeur b = y ax , y y ) = V ( a ( x x ) ) , soit, en utilisant les Calculons la variance des deux membres : V ( y ) = aV ( x x ) = aV ( x ) . Or, a = proprits de la variance : V ( y Cov(x ; y)2 Cov(x ; y ) )= = V (y V x . ( ) V (x) V (x)
2

Cov(x ; y) , donc V (x)

Reprenons la somme des carrs des erreurs et calculons sa valeur minimale Sm, en remplaant a et b par leurs valeurs :
i )2 = ( yi y a ( xi x ))2 = ( yi y )2 + a2 (xi x )2 2a ( y i y )( xi x ) Sm = ( y i y
i =1 i =1 i =1 i =1 i =1 n n n n n

soit, en divisant par n et en remplaant a par sa valeur :


1 n Cov(x ; y )2 Cov( x; y )2 Cov(x ; y )2 2 ) ( ) 2 y y = V y + = V y = V ( y) V ( y ( ) ( ) i i n i =1 V (x ) V (x ) V ( x)

)+ soit V ( y ) = V ( y

1 n i )2 . ( yi y n i =1

La variance totale de Y, V(y), est la somme de deux termes :


) , appele variance explique par la droite de rgression. Elle mesure la disper V (y sion de y quand on rsume le nuage la droite de rgression DY / x et reprsente la dispersion le long de la droite de rgression ;

154

Statistique descriptive

1 n i )2 , qui est la moyenne des carrs des carts (compts paralllement laxe ( yi y n i =1 des ordonnes) entre les points du nuage et la droite DY / x. Elle reprsente la variance rsiduelle, note Vr(y). + Vr (y) . Ainsi, Variance totale = Variance explique + Variance rsiduelle, soit V(y) = V(y)

Si la variance rsiduelle est nulle, cela signifie que tous les points du nuage sont sur la droite de rgression, et la variance est entirement explique par la droite de rgression. On pourra utiliser les notations suivantes : somme des carrs totaux :
 SCE = ( yi y )2
n i =1 n

SCT = ( yi y )2 , somme des carrs expliqus :


i =1

et

somme

des

carrs

rsiduels :

n  SCR = ( yi yi )2 i =1

avec :

SCT = SCE + SCR.


Exemple 6.5 Lquation de lanalyse de la variance

Reprenons les donnes de lexemple 6.4 et calculons les variances explique et rsiduelle laide dExcel (voir figure 6.5).
Figure 6.5
Calcul des variances explique et rsiduelle.

On a : SCE = 528,74, SCR = 37,81 et SCT = SCE + SCR = 566,55. La variance rsiduelle 1 n 37,81 i )2 = est Vr ( y ) = ( yi y = 3,78 et la variance explique par la droite de rgres10 n i =1
)= sion est V ( y 1 n  528,74 ( yi y )2 = = 52,87 , note aussi Ve. La variance totale de y est 10 n i =1

V(y) = 56,65. De l, lquation de lanalyse de variance 56,65 = 52,87 + 3,78. + Vr (y) V(y) = V(y) est vrifie :

On constate avec cet exemple que la variance explique reprsente 52,87 / 56,65, soit environ 93,32 % de la variance totale. Autrement dit : 93,32 % de la variation de Y est explique par la variation de X. Ce rsultat est un bon indicateur de la qualit de la liaison linaire ; nous y reviendrons la section suivante.

La rgression

155

Les coefficients de corrlation linaire et de dtermination


Cov(x ; y)2 . Nous avons vu dans V (x) lexemple 6.5 quil est intressant dapprcier la part de la variance explique dans la variance totale. Nous allons donc transformer cette relation pour exprimer la variance explique en fonction de la variance totale. En multipliant numrateur et dnominateur Cov(x ; y )2 )= de la relation prcdente par V(y), il vient V ( y V ( y ) , soit V (x)V (y) )= La variance explique est donne par la relation V ( y Cov(x ; y )2 . Ce rapport reprsente la part de variance explique sur la variance V (y) V (x)V (y ) 2 totale. Il est appel coefficient de dtermination (not R ) et amne les dfinitions ciaprs. =
Dfinition On appelle coefficient de corrlation linaire, not r, entre les variables quantitatives X et Y, Cov ( x ; y ) le nombre sans dimension, dfini par : r = . (x ) ( y )

) V (y

r est symtrique par rapport X et Y et est de mme signe que la covariance : un coefficient positif (respectivement ngatif) indique que X et Y varient dans le mme sens (respectivement en sens contraire).
) = r 2V ( y ) , et lquation de La relation entre les variances explique et totale scrit : V ( y

+ Vr (y) scrit alors : V(y) = r 2V ( y ) + Vr(y) soit lanalyse de variance V(y) = V(y) Vr(y) = (1 r) V(y). Les variances tant positives, cette relation prouve que la quantit 1 r reste positive ou nulle, cest--dire que : 1 r 1. Les coefficients directeurs des droites de rgression sont respectivement a (DY / x) et 1 / a Cov ( x ; y ) (y) 1 1 (y) =r et = . On vrifie que a, (DX / y) et nous pouvons crire : a = V (x) a ' r (x) (x) a et r sont de mme signe. Par ailleurs, les droites de rgression sont confondues si et seulement si : a = 1 / a soit r = 1 soit r = 1 ou r = 1.
Dfinition On appelle coefficient de dtermination, not R, le quotient entre la variance explique et la variance totale. On a : R = SCE / SCT.

Proprit

Le coefficient de dtermination est le carr du coefficient de corrlation.

Quelques considrations importantes : Cet indice est compris entre 0 et 1 et mesure la qualit de lajustement de la droite de rgression aux points du nuage. ) , rappor R mesure la part de la variance explique par les droites de rgression, V ( y te la variance totale, V(y) ; ce coefficient de dtermination sexprime souvent en pourcentage.

156

Statistique descriptive

Plus R est grand (proche de 1), plus la variance rsiduelle (inexplique par la droite de rgression) est petite ; cela explique quil est souhaitable davoir un coefficient de dtermination proche de 1 si lon dsire utiliser la rgression pour faire des prvisions. On vrifie par un calcul immdiat : R 2 =
) V (x ) Cov 2 (x ; y ) V ( y = = , ou encore V (x )V ( y ) V ( y ) V ( x )

R = r = a a. Cette dernire expression permet de retrouver r, en tant vigilant sur son signe : r est du signe commun aux deux nombres a et a et on aura donc : r = a a ' si a et a sont positifs et r = a a ' si a et a sont ngatifs.

En valeur absolue, le coefficient de corrlation est suprieur ou gal au coefficient de dtermination. En effet, 1 r 1, et 0 r 1 ; or, la racine carre dun nombre compris entre 0 et 1 est suprieure ou gale ce nombre. On en dduit que r R 2 .
Exemple 6.6 Calculs des coefficients de corrlation linaire et de dtermination

Prolongeons lexemple 6.5 en conclusion duquel nous avions montr que la variance explique reprsente 52,87 / 56,65 soit environ 93,32 % de la variance totale, autrement dit que 93,32 % de la variation de Y est explique par la variation de X. Ce rsultat est ) 52,87 V (y retrouv en calculant R 2 = = = 93,32 % . V ( y ) 56,65 Ou encore, partir des rsultats de lexemple 6.4 :
R2 = Cov 2 (x ; y ) 92,57 = = 93,32 % , ou R = a a = 0,5711 1,6340 = 0,9332. V (x) V ( y) 162,09 56,65 a a ' = 0,9332 = 0,9660 .

Puisque la corrlation est positive, a et a sont positifs et r =

Interprtation du coefficient de corrlation


Le coefficient de corrlation est toujours compris entre 1 et 1 et a priori : si r est proche de 1 (droites de rgression trs voisines), la corrlation linaire entre X et Y est positive et forte ; si r est proche de 1 (droites de rgression trs voisines), la corrlation linaire entre X et Y est ngative et forte ; si r est voisin de 0 (droites de rgression proches de lorthogonalit), la corrlation linaire entre X et Y est faible. Quelques mises en garde dans linterprtation du coefficient de corrlation linaire doivent tre effectues : La corrlation nest pas une relation de causalit. On a pu mettre en vidence une forte corrlation entre la vente de glaces et la vente de crmes bronzer, entre laugmentation des salaires des enseignants et la consommation dalcool. Il appartient au spcialiste du domaine dtude de sinterroger sur un ventuel lien de causalit, partir de connaissances extrieures au domaine statistique.

La rgression

157

Labsence de corrlation linaire ne signifie pas labsence de lien. Il peut exister une liaison fonctionnelle autre que linaire (parabolique, exponentielle). Le nombre dobservations utilises pour dterminer le coefficient de corrlation est trs important. Le coefficient de corrlation est gnralement calcul partir dun chantillon de taille n extrait de la population totale et ne donne quune estimation ponctuelle du coefficient de corrlation inconnu, not , de la population totale.

2.3

TESTS SUR LES LMENTS DE LA RGRESSION


Corrlation significativement diffrente de zro
Le problme a t voqu la fin de la section prcdente : le coefficient de corrlation calcul sur un chantillon nest jamais nul. Nous ne pouvons pourtant pas conclure lexistence dun lien linaire dans tous les cas. Nous allons donc vrifier lhypothse dun lien linaire entre les variables laide dun test statistique aprs avoir formul le cadre thorique : supposons que les variables x et y suivent une loi normale. En cas dabsence de corrlation linaire entre ces variables, la r n 2 variable T = est distribue suivant la loi de Student (voir focus 6.1), Tn 2, 1 r2 n 2 degrs de libert, n dsignant le nombre dobservations ; le nombre de degrs de libert, not , est (n 2), car on a d estimer les paramtres a et b de la droite de rgression, leur calcul utilisant deux degrs de libert.

Focus 6.1

La loi de Student
La loi de Student est due William Sealy Gosset (1876-1937), statisticien, employ de la clbre brasserie Guinness. Student tait son pseudonyme. Si Z et X dsignent deux variables alatoires indpendantes suivant respectivement la loi normale centre rduite Z , appele le t et la loi du khi-deux n degrs de libert, la variable alatoire Tn = X /n de Student, suit la loi de Student n degrs de libert. La courbe reprsentative de sa densit est symtrique par rapport laxe des y et en forme de cloche comme celle de la loi normale. Cette loi est tabule en fonction du nombre de degrs de libert, not en gnral , et de la probabilit ; on note t ; la valeur de t ayant la probabilit dtre dpasse. On notera que, dans le cas dun test bilatral, pour un seuil de signification de 5 %, on devra prendre / 2 = 2,5 %, de faon avoir : P(t / 2 ; n 2 Tn t / 2 ; n 2) = 0,95. La loi de Student est trs utile pour caractriser la loi de la moyenne empirique dune distribution normale de variance inconnue. Quand le nombre de degrs de libert augmente, T se rapproche de la loi normale centre rduite. Posons t / 2 ; n 2 la valeur de T donne par la table de Student telle que P(t / 2 ; n 2 T t / 2 ; n 2) = 1 et le coefficient de corrlation linaire de la population totale.

158

Statistique descriptive

Tester lexistence ventuelle dune corrlation linaire entre X et Y au sein de la population ncessite de passer par les tapes suivantes : 1. Formuler les hypothses tester :
H0 : = 0 (absence de corrlation linaire) ; H1 : 0 (prsence de corrlation linaire).

2. Dterminer le degr de libert : n 2. 3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de signification et du degr de libert :
Si T t / 2 ; n 2 ou si T t / 2 ; n 2, lhypothse H0 est rejete et lhypothse H1 est

accepte : il y a une corrlation linaire significative entre les variables.


Si t / 2 ; n 2 T t / 2 ; n 2, lhypothse H0 nest pas rejete : il est impossible de

conclure de faon significative lexistence dune corrlation linaire entre les variables.
Exemple 6.7 Test du coefficient de corrlation linaire

Reprenons les donnes de lexemple 6.4. n = 10 et la droite de rgression ncessite destimer deux paramtres. Donc le degr de libert est 10 2 = 8. Par ailleurs, partir de ces mmes donnes, nous avons calcul r = 0,9660 (voir exemple 6.6). Nous noterons tc la valeur de t calcule sur lchantillon. On a r n2 0,9660 8 tc = = = 10,57 et la table de Student donne t0,025 ; 8 = 2,3060. 2 1r 1 0,96602 Puisque 10,57 2,3060, soit tc t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre x et y.

Test de Student sur la pente a de la droite de rgression


Quittons lapproche descriptive pour adopter le point de vue de la statistique infrentielle : le problme est similaire celui voqu pour le coefficient de corrlation linaire. Nous supposons que nous avons dtermin lquation de la droite de rgression de   = ax Y selon x et nous noterons cette quation : y + b , pour ne pas oublier que les coefficients de cette droite sont des coefficients empiriques calculs sur notre chantillon et quils constituent des estimations ponctuelles des coefficients a et b inconnus dans la population. On se place dans lhypothse o la distribution des y est normale et o la variance de Y   est constante pour toute valeur de X. On dmontre que lcart-type de a , not ( a ) , est

La rgression

159

 estim par : 2 ( a ) =

SCR

(n 2 ) ( xi x )
i =1

n  o SCR = ( yi yi )2 ; le nombre not i =1

1 n  ( yi yi )2 reprsente un estimateur de la variance rsiduelle. S 2Y / x = n 2 i =1  Lintervalle de confiance de a est donn par : a t ( a ) .


2 ; n 2

Tester lhypothse H0 : a = 0 revient tester le paralllisme de la droite de rgression de Y selon x avec laxe des x et donc tester la nullit du coefficient de corrlation. 1. Les hypothses tester :
H0 : a = 0 (absence de corrlation linaire) ; H1 : a 0 (prsence de corrlation linaire).

2. Dterminer le degr de libert : n 2. 3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de signification et du degr de libert.
Si t t / 2 ; n 2 ou si t t / 2 ; n 2, lhypothse H0 est rejete en faveur de lhypothse

alternative H1 : a 0.

Si t / 2 ; n 2 t t / 2 ; n 2, lhypothse H0 nest pas rejete. Exemple 6.8 Test de student sur le paramtre a (pente de DY / x)

Si lon reprend lexemple 6.5, on a : S 2Y / x =


SY / x =

1 n 37,81  ( yi yi )2 = = 4,7263 et n 2 i =1 8

37,81  = 2,174 , ce qui donne : 2 ( a ) = 8

S 2Y / x

(x
i =1

x)

4,7263 et 1620,9

(a ) =

 4,7263 a 0,5711 = 0,0029 . On calcule alors t c = = 196,93 et  = ( a ) 0,0029 1620,9

t0,025 ; 8 = 2,3060, ce qui donne pour intervalle de confiance pour a, au seuil de signification de 5 % : 0,5711 2,3060 0,0029, soit [0,5644 ; 0,5778]. tc > t0,025 ; 8, donc on doit rejeter lhypothse H0 et conclure lexistence dune relation linaire entre X et Y. Si on utilise lintervalle de confiance, on aura la mme conclusion, car il ne recouvre pas la valeur 0, ce qui signifie quau niveau de confiance 95 % a est diffrent de 0.

160

Statistique descriptive

Test de Student sur lordonne lorigine b de la droite de rgression


On peut effectuer la mme dmarche pour le coefficient b et dterminer un intervalle de confiance pour ce paramtre, et tester lhypothse dune droite de rgression passant par lorigine (b = 0).

Avec les mmes notations que prcdemment, on obtient : 2

()

 b =

x
i =1 n i =1

i
2

n ( xi x )

SY / x 2 .

Test de Fisher sur la pente a de la droite de rgression


La seconde approche pour tester une rgression linaire passe par ltude de la part de la 1 variance explique dans la variance totale . On dmontre que la variable alatoire SCE 1 suit la loi de Fisher avec 1 et (n 2) degrs de libert, note F(1 ; n 2). F= SCR n2 Le nombre de degrs de libert de la variance explique est de 1 et celui de la variance rsiduelle de (n 2), celui de la variance totale de (n 1). Les hypothses tester sont : H0 : SCE = SCR / (n 2); H1 : SCE > SCR / (n 2). On rejette H0 au seuil de signification si Fc > F( ; 1, n 2), Fc tant le F calcul et F( ; 1, n 2) le F thorique (lu dans la table ; voir focus 6.2). On notera que
F=
(n 2)SCE SCE SCE / SCT r2 = (n 2) = (n 2) = (n 2) = tc2 . 1 SCE / SCT 1 r2 SCR SCT SCE

Focus 6.2

La loi de Fisher
La comparaison de deux populations normales peut porter sur leurs variances. Pour tester lhypothse dgalit de deux variances, on utilise la distribution du quotient de deux variances, appele distribution de Fisher ou de Fisher-Snedecor. Si 1 et 2 sont deux variables alatoires indpendantes, suivant chacune la loi du Khi-deux avec respectivement 1 et 2 pour degrs 2 2 de libert, la variable alatoire F = (1 / 1) / (2 / 2) suit la loi de Fisher 1 et 2 degrs de libert. Cette loi est dissymtrique et tend vers la loi normale mesure que les degrs de libert augmentent. Cette loi est tabule, ses valeurs dpendant du seuil de signification et des degrs de libert, et on a : P(F > F( ; 1, 2)) = .
2 2

1. Voir P. Roger.

La rgression

161

Exemple 6.9

Test de Fisher

Reprenons lexemple 6.5 et calculons Fc, le F calcul : Fc =

SCE SCR

n 2 par ailleurs, le F de la table est : F(0,05 ; 1, 8) = 5,32. Fc > F(0,05 ; 1, 8), donc H0 est rejete et on conclut lexistence dune relation linaire (tester H0 revient tester a = 0).

528,74 = 111,87 ; 37,81/8

3
3.1

Ajustements et absence de linarit


AJUSTEMENT LINAIRE PAR CHANGEMENT DE VARIABLE
Dans certains cas o, clairement, les points ne sont pas aligns, le graphique reprsentant le nuage de points permet de rejeter directement lhypothse dune corrlation linaire. Il est alors possible de revenir la thorie de la corrlation linaire en utilisant un changement de variable, afin de dterminer la relation fonctionnelle qui lie les deux variables. Par exemple : Soit la relation non linaire y = a lnx + b. En posant X = ln(x), cette relation non linaire est quivalente la relation linaire y = a X + b. Soit la relation non linaire y = a expx + b. En posant X = expx, cette relation non linaire est quivalente la relation linaire y = a X + b. Soit la relation non linaire y = b a . En prenant le logarithme de cette expression, x lny = ln(b a ) = lnb + x lna, soit avec B = lnb ; A = lna ; Y = lny, cette relation non linaire est quivalente la relation linaire Y = Ax + B.
x

Soit la relation non linaire y = b x . En prenant le logarithme de cette expression, a lny = ln(b x ) = lnb + a lnx, soit avec B = lnb ; Y = lny ; X = lnx, cette relation non linaire est quivalente la relation linaire Y = a X + B.
a

Modle logistique : ce modle est dfini par y = k/(1 + a exp(b x)) et peut tre ramen un modle linaire. Ce modle a t introduit par Pierre Franois Verhulst (1804-1849), lve de Quetelet, lors de ltude de lvolution dune population qui crot exponentiellement au dbut puis se stabilise, freine par un phnomne de surpopulation (saturation), pour tendre vers sa capacit maximale. Ce modle est utilis notamment pour le traitement des sries chronologiques (voir chapitre 7).

162

Statistique descriptive

3.2

COEFFICIENT DE CORRLATION DES RANGS


Certaines grandeurs ne sont pas mesurables, ou nont pu tre mesures, mais peuvent tre classes. Il sagit de variables ordinales. Dans ce cas, le calcul du coefficient de corrlation linaire, rserv aux variables quantitatives, est alors inapplicable. Pour autant, il peut tre intressant de calculer la corrlation entre deux variables ordinales. Il convient alors de trouver un coefficient de corrlation, non pas entre les valeurs prises par les deux variables, mais entre les rangs de ces valeurs. On doit Charles Spearman, psychologue anglais (1863-1945), le coefficient de corrlation des rangs, qui permet de comparer la concordance du classement de deux variables et de mesurer leur degr de dpendance.

Dfinition

Soit deux caractres X et Y. Soit di la diffrence des rangs de lobservation i pour les deux variables. On appelle coefficient de corrlation des rangs (coefficient de Spearman), not rs, entre les variables X et Y, le nombre dfini par : rs = 1
6 d i 2
i =1 n

) n(n 1

Soit R(xi) le rang de la modalit xi et R(yi) le rang de la modalit yi. di = R(xi) R(yi). Le coefficient de Spearman est le coefficient de corrlation linaire de la srie bivarie (R(xi) ; R(yi)). La simplicit de la formule donne dans la dfinition vient du fait que R(xi) et R(yi) prennent les valeurs entires de 1 n. Par dfinition, ce coefficient est compris entre 1 et 1 et constitue un outil prcieux pour dtecter une liaison. Il a lavantage de ne pas tre influenc par des valeurs aberrantes et de ne pas tre tributaire de lallure de la liaison ventuelle (linaire, exponentielle, etc.).

Rsum
Lors de ltude du lien entre deux variables, la notion de corrlation est extrmement importante. Il importe de dominer la technique de la mthode MCO, de connatre les formules, de savoir utiliser efficacement une calculatrice statistique et de rester prudent dans les interprtations. Le lecteur doit, lissue de ce chapitre, pouvoir mener bien les calculs de lanalyse de la variance. Par ailleurs, il doit matriser les diffrents tests et la lecture des tables. Dans le chapitre suivant nous aborderons les sries chronologiques, qui sont des sries bivaries dont une des variables est le temps. Pour analyser la tendance de ces sries, nous utiliserons les rsultats incontournables de ce chapitre.

La rgression

163

Problmes et exercices
Lanalyse de rgression fournit une seconde approche des sries bivaries, qui autorise lapprofondissement des liaisons tudies au sein des tableaux de contingence. Les exercices 1 et 2 proposent lapplication des calculs indispensables la dtermination dune quation de rgression linaire incluant ltude de la qualit de la rgression et la ralisation de prvisions. Lexercice 3 met en uvre ces mmes calculs partir de donnes prsentes sous la forme dun tableau de contingence. Les exercices 4 et 5 abordent respectivement les analyses de rgression et de corrlation dans le cas de sries lies par une relation non linaire.

EXERCICE 1 RGRESSION LINAIRE ET INDICATEURS DE QUALIT


Les donnes rgionales de laccidentologie 2005, transmises par la Scurit routire, sont les suivantes (hors rgions PACA et le-de-France) :
Rgion Alsace Aquitaine Auvergne Basse-Normandie Bourgogne Bretagne Centre Nombre daccidents corporels Nombre de tus 2 085 4 523 1 817 1 518 2 065 2949 2 859 114 333 141 144 208 252 307 168 35 147 154 319 82 213 330 255 314

Champagne-Ardenne 1 512 Corse Franche-Comt Haute-Normandie 845 1 224 1 754

Languedoc-Roussillon 3 305 Limousin Lorraine Midi-Pyrnes Nord-Pas-de-Calais Pays de la Loire 1 124 2 672 3 610 3 817 3 778

164

Statistique descriptive

Rgion Picardie

Nombre daccidents corporels Nombre de tus 1 919 194 221 469

Poitou-Charentes 1 984 Rhne-Alpes


Source : ONISR, 2006

6 957

On note respectivement X et Y les variables nombre daccidents corporels et nombre de tus . 1. Dessinez le nuage de points reprsentant cette srie. 2. tablissez lquation de la droite de rgression de Y selon x, qui permet dexpliquer le nombre de tus par le nombre daccidents corporels. 3. Donnez lquation de lanalyse de la variance. 4. Calculez : a. le coefficient de corrlation linaire ; b. le coefficient de dtermination. 5. Calculez : a. lcart-type du coefficient a ; b. lcart-type du coefficient b. 6. Effectuez les tests : a. de signification du coefficient de corrlation linaire ; b. de Student sur les coefficients a et b ; c. de Fisher.

1. Pour reprsenter le nuage de points sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-type de graphique, slectionnez limage Nuage de points. Compare des paires de valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir chapitre 1, exercice 5).

La droite de rgression de Y selon X peut tre ajoute au nuage de points. Pour cela, une fois le nuage de points effectu, slectionnez tous les points du graphique en cliquant sur lun dentre eux, puis cliquez sur le bouton droit de la souris et slectionnez Ajouter une courbe de tendance . La bote de dialogue de la figure 6.6 apparat :

La rgression

165

Figure 6.6
Ajout dune courbe de tendance un nuage de points.

Slectionnez Linaire, puis cliquez sur longlet Option (voir figure 6.7).
Figure 6.7
Affichage de lquation de rgression et du R sur un nuage de points.

Cochez les cases Afficher lquation sur le graphique et Afficher le coefficient de dtermination (R) sur le graphique, puis cliquez sur OK (voir figure 6.8).
Figure 6.8
Nuage de points entre X et Y, avec courbe de tendance sous Excel.
y 600 500 400 300 200 100 0 0 1 000 2 000 3 000 4 000 5 000 6 000 7 000 x 8 000 y = 0,066x + 45,57 R = 0,856

166

Statistique descriptive

Lquation de la droite de rgression de Y selon x est indique, ainsi que la valeur du R. Nous allons retrouver ces rsultats en rpondant aux questions suivantes.
2. La droite de rgression qui permet dexpliquer le nombre de tus par le nombre daccidents corporels correspond la droite de rgression de Y selon x. Pour tablir lquation de cette droite de rgression, il convient de dterminer les valeurs de a et b dans lquation y = ax + b.

Pour cela, il est ncessaire de calculer les valeurs de x , y , V(x) et

x y
i =1 i

Les moyennes de X et de Y ainsi que la variance de X peuvent tre calcules en utilisant les fonctions dExcel correspondantes, puisque les donnes sont des donnes brutes, avec ni = 1 quel que soit i. Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P dExcel (voir annexe 1.1), ou bien deffectuer les calculs comme expos prcdemment (voir chapitres 2 et 3). Les rsultats de ces calculs sont indiqus figure 6.9.
Figure 6.9
Rsultats sous Excel.

 De l, a =

x y
i =1 i

20

ny . x =

nV (x)

14 142 763 20 2 615,85 220 = 0,0667 et 20 1974 311,73

  b = y ax = 220 0,0667 2 615,85 = 45,57 .

Lquation de la droite de rgression de Y selon x est donc : y = 0,0667 x + 45,57. Ce rsultat est conforme lquation de la courbe de tendance linaire propose par lassistant graphique dExcel (voir question 1).
3. Afin de donner lquation de lanalyse de la variance, il convient de calculer la somme des carrs totaux (SCT), la somme des carrs expliqus (SCE) et la somme des carrs rsiduels (SCR).

Le calcul de la somme des carrs expliqus (SCE) ncessite au pralable le calcul de la  valeur de Y estime par la droite de rgression, telle que yi = 0,0667 xi + 45,57 . Ces

La rgression

167

calculs sont effectus la suite du tableau prcdent (voir figure 6.9) et les rsultats de ces calculs sont indiqus figure 6.10.
Figure 6.10
Rsultats sous Excel.

De l, SCT = 205 106 ; SCE = 175 575 et SCR = 29 531. Lquation de lanalyse de variance SCT = SCE + SCR est vrifie, puisque 205 106 = 175 575 + 29 531.
4. a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre X et Y et les carts-types de X et de Y.
COV (x ; y) = 14 142 763 2 615,85 220 , soit Cov(x ; y) = 131 651,15. 20

Lcart-type de X est la racine de 1 974 311,73 = 1 405,1 . Do x = 1 405,1.

V(x),

calcule

prcdemment,

soit

De mme, lcart-type de Y est la racine de V(Y). V(Y) est calcul en utilisant la fonction VAR.P dExcel (voir annexe 1.1) ou la mthode expose prcdemment (voir chapitres 2 et 3). On trouve : V(Y) = 10 255,30, soit 10 255,30 = 101, 27 . Do y = 101,27. On obtient alors : r = , soit r = 0,925. Il existe a priori une = 1 405,1 101,27 x y forte corrlation linaire positive entre X et Y, la droite de rgression calcule est une bonne reprsentation du nuage de points.
Cov(x ; y) 131 651,15

b. Le coefficient de dtermination est le carr du coefficient de corrlation linaire, donc R = 0,925, soit R = 0,856.

R reprsente la part de variabilit explique sur la variabilit totale, on vrifie que : SCE 175 575 = = 0,856 = R . SCT 205106

168

Statistique descriptive

 5. a. Le calcul de lcart-type de a , , ncessite le calcul de

(x
i =1

x) . Ces calculs sont

effectus la suite du tableau prcdent (voir figure 6.10).


2 = De l,

1 29 530,63 , soit = 0,0000415 ; do = 0,00645. 18 39 486 235,55

39 486 235,55 2  = 0,0000415 b. partir des calculs prcdents, b + 2 615,85 , soit 20 2 2   b = 366,33 ; do b = 19,14.

= 7,593 et la table de 1 r 1 0,8562 Student donne t0,025 ; 18 = 2,445. Puisque 7,593 2,445, soit T t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre le nombre daccidents corporels et le nombre de tus.
2

6. a. la suite des calculs prcdents, T =

r n 2

0,925 20 2

Le tthorique peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et Degrs_libert = 18. Cette fonction est similaire dans son utilisation celle rencontre pour la lecture de la table de la loi du khi-deux dans lexercice 5 du chapitre 5. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 7,593 (le Student calcul), Degrs_libert = 18 et Uni/bilatral = 1.  a 0,0667 b. la suite des calculs prcdents, t a = = , soit ta = 10,345 et 0,00645  b 45,57 = , soit tb = 2,381. tb = b 19,14 ta et tb sont tous deux suprieurs au tthorique = t(0,025 ; 8) = 2,101 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 18 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,029) sont toutes deux infrieures 5 %. (Pour un rappel sur les tests dhypothses, voir focus 5.1.) Le test de Student pour le coefficient a de la rgression permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression permet de conclure que la valeur de b est significativement diffrente de 0. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 10,345 pour a et X = 2,381 pour b (le Student calcul), Degrs_libert = 18 et Uni/bilatral = 2.
c. la suite des calculs prcdents, Fc =
175 575,37 1 = 1 , soit F = 107,02 . c 29 230,63 SCR 18 18 SCE

La rgression

169

Fc est suprieur au F(0,05 ; 1, 18) = 4,414 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1 et ddl2 = n 2 = 18 degrs de libert. On trouve donc Fc > F(0,05 ; 1, 18). On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y. Le F(1 ; 18)thorique est disponible sous Excel en appelant la fonction statistique INVERSE.LOI.F et en saisissant les arguments suivants : Probabilit = 0,05, Degrs_libert1 = 1 et Degrs_libert2 = 18. La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.F et en saisissant les arguments suivants : X = 107,02 (le Fisher calcul), Degrs_libert1 = 1 et Degrs_libert2 = 18.

EXERCICE 2 RGRESSION LINAIRE ET PRVISIONS


Au cours des annes 2000, le produit intrieur brut (PIB) et la consommation effective des mnages ont t les suivants (en milliards deuros) :
Anne 2000 2001 2002 2003 2004 2005 2006
Source : Comptes nationaux - Base 2000, Insee

Consommation 1 009,6 1 053,9 1 098,2 1 145,5 1 194,9 1 243,6 1 292,5

PIB 1 441,4 1 497,2 1 548,6 1 594,8 1 660,2 1 717,9 1 792,0

1. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la droite de rgression y = ax + b qui permet dexpliquer le PIB en fonction de la consommation. 2. Calculez les indicateurs de qualit de la rgression : a. le coefficient de dtermination et le test associ ; b. les tests de Student ; c. le test de Fisher. 3. En stimulant la consommation pour lui permettre datteindre 1 400 milliards deuros, quel niveau de PIB peut sattendre le gouvernement ? 4. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la droite de rgression x = ay + b qui permet dexpliquer la consommation en fonction du PIB. 5. Estimez la consommation correspondant un PIB de 1 600 milliards deuros.

170

Statistique descriptive

1. Expliquer le PIB en fonction de la consommation des mnages selon la droite de rgression y = ax + b ncessite de poser X = consommation et Y = PIB .

Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les valeurs de a et b dans lquation. Pour cela, il est ncessaire de calculer les valeurs de x ,
y , V(x) et

x y
i =1 i

Saisissez les valeurs de X, la consommation, dans la colonne L1 et celles de Y, le PIB, dans la colonne L2, comme indiqu figure 6.11. Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de statistiques sur les variables X et Y, respectivement contenues dans L1 et L2, sinscrivent (voir figure 6.12).
Figure 6.11 (gauche)
Saisie du tableau de donnes avec la calculatrice.

Figure 6.12 (droite)


Statistiques sur L2(Y).

 De l, a =

x y
i =1 i

ny . x =

nV (x)   b = y ax = 1 607, 44 1,212 1148,31 = 215,52 .

12 996 965,9 7 1148,31 1607,44 = 1, 212 et 7 94,653

Do lquation de rgression de Y selon x : y = 1,212 X + 215,52.


2. a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre X et Y en plus des carts-types de x et de y, dj connus.
COV (x ; y) = 12 996 965,5 1148,31 1607, 44 , soit COV(x ; y) = 10 859,81. 7

10 859,81 , soit r = 0,999, soit R = 0,997. Il existe une forte corrlation 94,653 114,886 linaire positive entre X et Y.

De l, r =

= 30,633 et la table de Student donne t0,025 ; 5 = 3,163. Puisque 1 r 1 0,9972 30,633 3,163, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire hautement significative entre X et Y.
2

t=

r n2

0,999 7 2

La rgression

171

b. Afin de raliser les tests de Student, les variables suivantes sont calcules (voir figure 6.13) :
i . Pour cela, placez le curseur sur len-tte de En L4 sont calculs les y estims, nots y colonne L4, indiquez L4=1,212*L1+215,52, puis appuyez sur ENTER.  En L5 sont calculs les ( y yi ) . Pour cela, placez le curseur sur len-tte de colonne L5, indiquez L5=(L4L2)^2, puis appuyez sur ENTER.

En L6 sont calculs les (xi x) . Pour cela, placez le curseur sur len-tte de colonne L6, indiquez L6=(L11148,31)^2, puis appuyez sur ENTER. Pour obtenir les calculs intermdiaires ncessaires partir des variables nouvellement cres, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L5,L6 puis appuyez nouveau sur ENTER. Les statistiques sur les variables ( y yi ) et (xi x) , respectivement contenues dans L5 et L6, sinscrivent (voir figure 6.14).
Figure 6.13 (gauche)
Calculs dans L4, L5 et L6 avec la calculatrice.

Figure 6.14 (droite)


Statistiques sur L6,

(xi x) . 1 246,006 2 De l, = , soit = 0,0007839 ; do = 0,028. 5 62 714,189


2  = 0,0007839 b

62 714,189 2  = 1040,71 ; do  = 32,26. + 1148,31 , soit b b 7   a 1,212 b 215,52 ta = = , soit ta = 43,293 et t b = = , soit tb = 6,681.   0,028 a 32,26 b

ta et tb sont tous deux suprieurs au tthorique = 2,571 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 5 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,001) sont toutes deux infrieures 5 %. (Pour un rappel sur les tests dhypothses, voir focus 5.1.) Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0.

172

Statistique descriptive

i y) sont calcules en L7 (voir figure 6.15). c. Afin de raliser le test de Fisher, les ( y Pour cela, placez le curseur sur len-tte de la septime colonne, et, aprs lavoir nomme L7, indiquez L7=(L41607,44)^2, puis appuyez sur ENTER. i y) , appuyez sur la touche STAT, puis choisissez le Pour obtenir la somme des ( y menu CALC et slectionnez la fonction 1:1-Var Stats. Puis appuyez sur ENTER. Tapez 1Var Stats LL7 (ne pas taper L7, mais lappeler dans la liste de noms des variables : 2ND LIST, menu NAMES, slectionner 7:L7) puis appuyez nouveau sur ENTER. Les i y) , contenues dans L7, sinscrivent (voir figure 6.16). statistiques sur la variable ( y

Figure 6.15 (gauche)


Calculs dans L7 avec la calculatrice.

Figure 6.16 (droite)


Statistiques sur L7,

( yi* y) . 92123,82 1 1 , soit F = 1 874,307. = Fc = c 246,006 SCR 5 5 SCE

Fc est suprieur au F(0,05 ;1, 5) = 6,608 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 5 degrs de libert. On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y.
3. En appliquant lquation y = 1,212 x + 215,52 pour une consommation x = 1 400, y = 1,212 1 400 + 215,52, soit y = 1 912,32. Pour une consommation de 1 400 milliards deuros, le gouvernement peut sattendre un PIB de 1 912,32 milliards deuros.

4. La droite de rgression qui permet dexpliquer la consommation en fonction du PIB est telle que x = ay + b.

partir de lensemble des calculs dj effectus :


12 996 965,9 7 1148,31 1607,44 = = 0,823 et nV ( y ) 7 114, 89 b ' = y a ' x = 1148,31 0,823 1 607, 44 = 174,27 . a' =
i =1 i i

x y

ny . x

Do lquation de rgression de X selon y : x = 0,823 y 174,27.


5. En appliquant lquation x = 0,823 y 174,27 pour un PIB y = 1 600, x = 0,823 1 600 174,27, soit x = 1 142,5. Pour un PIB de 1 600 milliards deuros, la consommation correspondante est de 1 142,5 milliards deuros.

La rgression

173

EXERCICE 3 RGRESSION SUR TABLEAU DE CONTINGENCE


Soit X lesprance de vie des hommes et Y lesprance de vie des femmes, releves en 2004 dans 21 pays :
X\Y [65 ; 70[ [70 ; 75[ [75 ; 80[ [75 ; 80[ 4 0 2 [85 ; 85[ 0 3 12

Sources : Eurostat et instituts nationaux de statistique, 2004

En utilisant la mthode des moindres carrs ordinaires, tablissez la droite de rgression y = ax + b.

Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les valeurs de a et b dans cette quation. Pour cela, il est ncessaire de calculer les valeurs de x , y , V(x) et Cov(x ; y). Ces valeurs sont calcules selon les tapes dtailles au chapitre 5 (voir figure 6.17).
Figure 6.17
Rsultats sous Excel.

De l, x =
y= 1 n++
2

1 n++
+j

n
i =1

i+

xi =

1 572,5 = 74,88 et, de mme, 21

n
i =1

yj =

1702,5 = 81,07 . 21 118 081,25 1572,5 = 15,76 et 21 21


j 2

V (x) =

1 n++

ni + xi 2 x 2 =
i =1

Cov(x ; y) =

1 n++

n x y
j =1 i =1 ij i

G 127 606,25 xy = (81,07 74,88) = 5,78 . 21


 5,78 = 0,3669 a = 15,76  b = 81,07 0,3669 74,88 = 53,60

 Cov(X ; Y ) a = V ( X ) , il vient : partir des formules   b = y ax

Do DY / x : y = 0,3669 x + 53,60.

174

Statistique descriptive

EXERCICE 4 AJUSTEMENT EXPONENTIEL ET PAPIER SEMI-LOGARITHMIQUE


Les donnes suivantes sont extraites dune table de mortalit et de survie (1959-1963), ajuste par une loi de Makeham, actuaire anglais (dcd en 1892) :
ge (X) 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 Taux instantan de mortalit (Y) 0,008541 0,009287 0,010103 0,010998 0,011978 0,013051 0,014228 0,015516 0,016928 0,018474 0,020169 0,022025 0,024059 0,026287 0,028728 0,031402 0,034332

1. Reprsentez le nuage de points entre X et Y. 2. Effectuez lajustement qui permet dexpliquer Y selon x, par la relation : Y = B A .
X

3. Calculez les indicateurs de qualit de la rgression : a. le coefficient de dtermination et le test associ ; b. les tests de Student ; c. le test de Fisher. 4. Quel est le taux instantan de mortalit dun individu de 70 ans ?

1. Soit X : ge et Y : taux instantan de mortalit . Pour reprsenter le nuage de points sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-

La rgression

175

type de graphique, slectionnez limage Nuage de points. Compare des paires de valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir chapitre 1, exercice 5).
Figure 6.18
Nuage de points entre X et Y sous Excel.
Y 0,040 0,035 0,030 0,025 0,020 0,015 0,010 0,005 45 50 55 60 65 X 70

Le graphique de la figure 6.18 voque une croissance de type exponentiel. Une croissance X exponentielle se traduit par une quation du type Y = B A , soit, en passant aux logarithmes npriens : LnY = LnB + X LnA, en posant y = LnY, b = LnB et a = LnA : y = ax + b, ce qui quivaut une liaison linaire entre x et y. On peut tester graphiquement cette hypothse, en reprsentant le nuage dans un graphique semi-logarithmique (lchelle des ordonnes est logarithmique, lchelle des abscisses reste identique). Lalignement des points valide lhypothse de liaison linaire entre x et y (voir figure 6.19).
Figure 6.19
Graphique semilogarithmique.
0,100 y 1,000

0,010

0,001 45 50
X

X 55 60 65 70

2. Afin de rapporter la relation Y = B A une quation de droite, il est ncessaire de procder au changement de variables en passant aux logarithmes npriens, comme indiqu dans la question 1 : LnY = LnB + X LnA, en posant y = LnY, b = LnB et a = LnA : y = aX + b. La relation est linaire, il est donc possible de procder lestimation de la droite de rgression par la mthode des moindres carrs ordinaires.

Lapplication du changement de variables sur les valeurs de Y est ralise dans la colonne D. Puis lensemble des calculs ncessaires lestimation de la droite de rgression est effectu partir des valeurs calcules de X et de y (voir figure 6.20).

176

Statistique descriptive

Figure 6.20
Rsultats sous Excel.

De l, a =

X y
i =1 i

17

nXy =

nV ( X )

3981,95 17 58 (4,075) = 0,0871 et 9 24

b = y aX = 4,075 0,0871 58 = 9,12 .

Do lquation de rgression de y selon X : y = 0,0871 X 9,12. En effectuant le changement de variables qui permet de revenir la relation initiale : 9,12 0,0871X 0,0871X b = lnB B = e b et a = lnA A = e a , do Y = e e , soit Y = 0,000109 e .
3. Les indicateurs de qualit de la droite de rgression sont calculs pour lquation de la droite de rgression y = 0,0871 X 9,12. La qualit de cette droite conditionne la qua0,0871X lit de lestimation non linaire Y = 0,000109 e .

a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre x et y et les carts-types de x et de y.
COV (X ; y) = 3 981,95 58 (4,075) , soit COV(X ; y) = 2,089. 17 24 = 4,899 . Do

Lcart-type de X est la racine de V(X), calcule prcdemment, soit x = 4,899.

De mme, lcart-type de y est la racine de V(y). V(y) est calcule en utilisant la fonction VAR.P dExcel (voir annexe 1.1). Elle peut galement ltre selon la mthode expose prcdemment (voir chapitres 2 et 3). V(y) = 0,182 ; soit 0,182 = 0,426 . Do y = 0,426.
2,089 , soit r = 0,99996, soit R = 0,99992. Il existe une forte corrla4,899 0, 426 tion linaire positive entre X et y.

De l, r =

La rgression

177

Do T =

= 302,08 et la table de Student donne t0,025 ; 15 = 2,49. 1 r 1 0,999922 Puisque 302,08 2,49, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre X et y.
2

r n 2

0, 99996 17 2

Le tthorique est disponible sous Excel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et Degrs_libert = 15. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 302,08 (le Student calcul), Degrs_libert = 15 et Uni/bilatral = 1.
b. Afin de raliser les tests de Student, les calculs intermdiaires suivant sont raliss. Figure 6.21
Rsultats sous Excel.

La dtermination de lcart-type de , , ncessite le calcul de SCR = SCT =

(y
i =1

yi ) et de

(x
i =1

x) , effectu respectivement dans les cellules H19 et I19 (voir

figure 6.21).
2  = De l, a

1 0,0003 , soit = 4,15E-08 ; do = 0,00020. 15 408

2  = 4,15E-08 b

408 2  = 0,000141 ; do  = 0,01186. + 58 , soit b b 17   a 0,0871 b 9,12  ta = = , soit ta = 427,195 et t b = , soit tb = 769,205. =   0,00020 a b 0,01186

ta et tb sont tous deux suprieurs au tthorique = 2,131 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 15 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,000) sont toutes deux infrieures 5 %.

178

Statistique descriptive

Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0. Le tthorique est disponible sous Excel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,05 et Degrs_libert = 15. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 427,195 pour a et X = 769,205 pour b (le Student calcul), Degrs_libert = 15 et Uni/bilatral = 2. c. La dtermination du Fisher ncessite le calcul de SCE = cellule G11 (voir figure 6.21).
Fc = 3,09 1 = 1 , soit F = 182 495,41. c 0,0003 SCR 15 15 SCE
(y
i =1 n i

y) , effectu dans la

Fc est suprieur au F(0,05 ; 1, 15) = 4,543 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 15 degrs de libert. On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y. Le F(0,05 ;1, 15) est disponible sous Excel en appelant la fonction statistique INVERSE.LOI.F et en saisissant les arguments suivants : Probabilit = 0,05, Degrs_libert1 = 1 et Degrs_libert2 = 15. La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.F et en saisissant les arguments suivants : X = 182 495,41 (le Fisher calcul), Degrs_libert1 = 1 et Degrs_libert2 = 15. afin de raliser une prvision 4. Nous utilisons lquation initiale Y = 0,000109 e 0,0871 70 = 0,0483. partir de la valeur X = 70. Ainsi, Y = 0,000109 e
0,0871X

Le taux instantan de mortalit dun individu de 70 ans est de 0,0483.

EXERCICE 5 CORRLATION DES RANGS


Le tableau suivant indique pour les 15 tudiants dun TD de statistiques leur rang au partiel et leur rang lexamen :
Observation tudiant 1 tudiant 2 tudiant 3 Partiel 4 6 7 Examen 5 7 11

La rgression

179

Observation tudiant 5 tudiant 6 tudiant 7 tudiant 8 tudiant 9 tudiant 10 tudiant 11 tudiant 12 tudiant 13 tudiant 14 tudiant 15

Partiel 2 8 9 3 15 13 1 10 14 12 5

Examen 1 8 4 2 15 6 12 13 9 10 3

Calculez le coefficient de corrlation de rang de Spearman.

Posons X : rang au partiel et Y : rang lexamen . Calculons chacune des distances entre le rang dun tudiant au partiel et son rang lexamen : di = xi yi. Saisissez les valeurs de X, le rang au partiel, dans la colonne L1 et celles de Y, le rang lexamen, dans la colonne L2. Pour obtenir les (xi yi) dans la colonne L3, placez le curseur sur len-tte de colonne L3, puis indiquez L3=(L1L2)^2. Puis appuyez sur ENTER. Le rsultat de ces oprations est propos figure 6.22.
Figure 6.22 (gauche)
Saisie des donnes et calcul des distances avec la calculatrice.

Figure 6.23 (droite)


Statistiques sur les di.

Appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 1:1Var Stats. Puis appuyez sur ENTER. Tapez 1-Var Stats L3 puis appuyez nouveau sur ENTER. Les statistiques sur la variable di, contenue dans L3, sinscrivent (voir figure 6.23).
6 266 , soit rs = 0,525. Il existe un lien entre le rang dun 15 (15 1) i =1 tudiant au partiel et son rang lexamen, mais ce lien nest pas trs fort.

15

2 i

= 266, donc rs = 1

180

Statistique descriptive

Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. BLUMENTHAL S., Statistiques appliques, ditions dOrganisation, 1989. BOWKER A.H. et LIEBERMAN G.J., Mthodes statistiques de lingnieur, Dunod, 1965. BOREL E., DELTHEIL R. et HURON R., Probabilits. Erreurs, Armand Colin, 1960. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DARMOIS G., Statistiques et applications, Armand Colin, 1952. DELAHAYE J.-P., Ltonnante loi de Benford , Pour la science, janvier 2007 DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DODGE Y., Premiers pas en statistique, Springer, 2006. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. GELLER S., Abrg de statistique, ditions Masson, 1979. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. HAUCHECORNE B., Les mots et les maths, Ellipses, 2003. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. LEGRIS G., Statistiques pour conomistes, Economica, 1987. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. TINTNER G., Mathmatiques et statistiques pour les conomistes, Dunod, 1962.

La rgression

181

Annexe 6.1 La fonction DROITEREG dExcel


La droite de rgression et plusieurs de ses indicateurs peuvent tre obtenus en utilisant la fonction statistique DROITEREG dExcel. Pour cela, slectionnez une plage de 2 lignes et 5 colonnes, soit 10 cellules, qui reprsentent la matrice dans laquelle les rsultats seront affichs. Appelez la fonction statistique DROITEREG. Le masque de dialogue suivant saffiche (voir figure 6.24) : Dans le champ Y_connus, slectionnez la colonne dans laquelle se trouvent les valeurs de Y. Dans le champ X_connus, slectionnez la colonne dans laquelle se trouvent les valeurs de X. Le champ Constante est laiss vide. Dans le champ Statistiques, saisissez VRAI.
Figure 6.24
Masque de dialogue de la fonction DROITEREG sous Excel.

Une fois le masque de dialogue rempli, ne cliquez pas sur OK : tenez enfonces en mme temps les touches Ctrl et Shift tout en appuyant sur ENTRE. Cette procdure permet laffichage matriciel des rsultats dans les 10 cellules slectionnes prcdemment (voir figure 6.25).
Figure 6.25
Rsultat de la fonction DROITEREG sous Excel.

182

Statistique descriptive

Ces rsultats numriques correspondent aux indicateurs suivants, en respectant lordre des lignes et des colonnes de la figure 6.25 :
a a r F SCT b b

y
ddl SCR

Annexe 6.2 La fonction LinReg(ax + b) de la calculatrice


La droite de rgression et le r peuvent tre obtenus en utilisant la fonction LinReg de la calculatrice. Pour cela, commencez par activer le DiagnosticOn en appuyant sur les touches 2ND et CATALOG et en slectionnant la fonction DiagnosticOn. Pour effectuer la rgression, saisissez les valeurs des X en L1 et les valeurs de Y en L2, comme dans lexercice 2. Appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 4:LinReg(ax + b). Puis appuyez sur ENTER. Les rsultats de la rgression saffichent (voir figure 6.26).
Figure 6.26
Rsultat de la fonction LinReg(ax + b) de la calculatrice.

La rgression

183

Les sries 1 chronologiques

1. Prsentation de la srie chronologique....................186 2. Agrgation des composantes......................197 Problmes et exercices 1. Mthode empirique et modle additif ................204 2. Mthode empirique et modle multiplicatif.........207 3. Mthode analytique et modle additif ................210 4. Mthode analytique et modle multiplicatif.........214

Parmi les sries doubles, certaines mritent dtre traites part : celles qui dcrivent lvolution dun phnomne par rapport au temps, et que lon nomme sries temporelles, chronologiques ou encore chroniques. Nous traiterons ici des sries doubles dont le premier caractre est le temps et dont le deuxime caractre est quantitatif. Lanalyse des sries chronologiques est fonde sur lexistence dune corrlation entre le caractre tudi et le temps. Ces sries interviennent dans des domaines aussi varis que lastronomie, la dmographie, lconomie, lhistoire, etc. Ainsi que lindique Jean-Marie Dufour dans son article 1 intitul Histoire de lanalyse des sries chronologiques , cest en astronomie que sont apparues les premires sries chronologiques.

1. http://www.fas.umontreal.ca/SCECO/Dufour. Jean-Marie Dufour est titulaire de la chaire de recherche en conomtrie luniversit de Montral au Canada.

185

Daprs Kendall, le plus ancien graphique connu dune srie chronologique se trouve e e dans un manuscrit du X ou du XI sicle et reprsente linclinaison des orbites de sept plantes en fonction du temps ; il est reproduit figure 7.1. Figure 7.1
Graphique chronologique.
Source : Funkhauser (1936)

Lobjectif de ltude dune srie chronologique est de mettre en vidence lvolution passe dune variable statistique et sous certaines conditions dextrapoler cette volution afin deffectuer des prvisions court terme. Lanalyse des sries chronologiques consistera mettre en vidence leurs quatre composantes : une composante tendancielle, une composante cyclique, une composante saisonnire et une composante accidentelle (bruit). Cette dcomposition a t propose 1 en 1919 par le statisticien Warren Persons . Nous mettrons en vidence lexistence de deux modles de composition de ces composantes : le modle additif et le modle multiplicatif. Pour faire apparatre la composante tendancielle (appele le trend), nous utiliserons la mthode MCO ou les moyennes mobiles.

Prsentation de la srie chronologique


La variable dont on suit lvolution au cours du temps peut tre un niveau (on parle aussi de stock), comme la temprature, le nombre de chmeurs, etc., ou un flux, cest-dire un nombre dvnements observs au cours dune priode, comme le nombre mensuel de naissances, la consommation des mnages, etc. Dans les deux cas, le temps qui reprsente les dates ou les priodes dobservation sera repr par lindice t et numrot de 1 n.

Dfinition

On appelle srie chronologique, ou srie temporelle, une suite dobservations chiffres dun caractre quantitatif Y, ordonnes dans le temps. La valeur prise par la variable Y la date t est note yt.

1. Warren Persons (1878-1937) a dvelopp un indicateur de la conjoncture conomique, connu sous le nom de baromtre de Harvard.

186

Statistique descriptive

Avant toute analyse, nous reprsenterons les donnes par une courbe exprimant la continuit de lvolution de la variable tudie. Nous supposerons que les dates dobservation sont quidistantes (mois, trimestres, annes) et nous les reprsenterons par les entiers naturels non nuls : 1, 2, 3

1.1

LES REPRSENTATIONS GRAPHIQUES


Lanalyse des sries chronologiques se fonde sur la dcomposition de lvolution dun caractre en plusieurs composantes et, comme nous lavons indiqu prcdemment, il est ncessaire de raliser une reprsentation graphique afin de guider la rflexion. La reprsentation graphique classique est calque sur le nuage de points, mais les points seront relis par des segments de droite pour traduire la chronologie. Le temps sera not t et on lui donnera les valeurs 1, 2, , n si lon a n priodes, les modalits du caractre tudi tant notes yt.

Exemple 7.1

La premire srie chronologique

Le tableau suivant donne les indices trimestriels de stocks de matires en valeur des industries agricoles et alimentaires (IAA) :
1 er trimestre 2004 2005 2006
Source : Insee, 2007

2 e trimestre 104,5 106,2 110,7

3 e trimestre 102,8 104,5 108

4 e trimestre 107,8 112,3 115,2

108,2 107,9 110,8

On associera cette srie le tableau statistique de la figure 7.2. Figure 7.2


Tableau statistique dune srie chronologique.

La srie sera ainsi reprsente par le graphique de la figure 7.3. Pour mettre en vidence une ventuelle variation priodique, ou une saisonnalit de la srie, on ralise une reprsentation superpose des donnes, qui permet, dans notre exemple, de mettre en vidence le caractre propre de chaque trimestre (voir figure 7.4).

Les sries chronologiques

187

Figure 7.3
Reprsentation graphique de la srie chronologique des indices trimestriels IAA.

116 114 112 110 108 106 104 102

yt

t 10 11 12 13

Figure 7.4
Reprsentation superpose des donnes dindices trimestriels IAA.

116 114 112 110 108 106 104 102

yt 2004 2005 2006

t 5

116 114 112 110 108 106 104 102

yt

yt = 0,6654 t+103,92

t 9 10 11 12 13

On reprsente souvent les sries chronologiques par un graphique polaire sinspirant de certains thermomtres enregistreurs, qui utilisent une feuille enroule sur un cylindre permettant de visualiser rapidement la temprature tous les jours dune semaine la mme heure. Excel ne permet pas de raliser un graphique polaire, mais propose un graphique approchant, nomm Radar , dont la figure 7.5 donne la reprsentation.

188

Statistique descriptive

Figure 7.5
Graphique Radar des indices trimestriels IAA.

2e T 116 114 112 110 108 106 104 102 100 98 3e T 96 1er T

2004 2005 2006 4e T

1.2

LES COMPOSANTES
Les fluctuations dune srie chronologique sont le fruit de la composition de plusieurs composantes. Nous avons repris ici lexemple 7.1 auquel nous avons ajout la droite de tendance calcule par la mthode MCO sous Excel.

Figure 7.6
Srie chronologique et trend.

116 114 112 110 108 106 104 102

yt

yt = 0,665+103,9

t 9 10 11 12 13

La droite de rgression de Y en t reprsente la composante tendancielle de cette srie chronologique. Elle exprime son mouvement de longue dure. La srie est le rsultat de la superposition de deux autres composantes cette composante fondamentale.
Dfinitions On appelle tendance ou composante gnrale ou composante extra-saisonnire dune srie chronologique sa tendance gnrale. Cette tendance gnrale (dite sculaire) exprime une tendance durable la croissance (mouvement de longue dure ascendant) ou la dcroissance (mouvement de longue dure descendant). On dcompose parfois cette composante tendancielle en deux lments : la tendance long terme et une composante priodique appele cycle. Le mouvement cyclique rsulte de la succession de priodes dexpansion et de dpression. La reprise est le passage de la

Les sries chronologiques

189

dpression lexpansion et la crise le passage de lexpansion la dpression. Ces deux composantes ne sont pas toujours distinguables et on ne cherchera pas les distinguer ; on notera ft cette composante tendancielle, que lon identifiera la tendance durable et que lon appellera trend. La composante saisonnire de la srie est sa composante priodique dans le cadre de lanne (elle peut tre due aux saisons, comme pour lIAA, ou rsulter des usages (ftes, vacances, etc.) ; elle sera note St. On appelle composante rsiduelle (bruit, ala) ou accidentelle les fluctuations irrgulires et imprvisibles de la srie ; elle sera note t (erreur).

1.3

DTERMINATION DE LA TENDANCE
Nous aborderons trois mthodes pour dterminer le trend : une mthode purement graphique : la mthode des points moyens (voir sur le site wwww.pearsoned.fr) ; une mthode analytique : la mthode MCO (nous nenvisagerons que le cas du trend linaire) ; des mthodes empiriques : la mthode des moyennes chelonnes ; la mthode des moyennes mobiles non centres ; la mthode des moyennes mobiles centres.

La mthode analytique : MCO


Dans le cas dune srie chronologique, la variable explicative est le temps (T) et on ajustera une droite lensemble des observations, par la mthode des moindres carrs, en cherchant la droite de rgression de Y selon t, pour obtenir une quation du type : Cov(T ; Y ) Cov(T ; Y ) = a = V (T ) 2 (T ) . y = at + b, avec : b = y at On supposera que T prend les n valeurs : 1 ; 2 ; ; n. Dans le cas de sries chronologiques, on peut allger les calculs en utilisant les formules 1 + 2 + .... + n n(n + 1) n + 1 t = = = n 2n 2 . suivantes : n t 2 = n(n + 1)(2n + 1) 6 i =1 Le premier rsultat vient de la formule exprimant la somme des termes dune suite arithmtique et le second peut facilement tre dmontr par rcurrence. Le second 2 1 n (n + 1)(2n + 1) n + 1 rsultat donnera pour la variance : V (T ) = 2 ( T ) = t 2 t 2 = . n i =1 6 2

190

Statistique descriptive

Exemple 7.2

Le trend par la mthode MCO

Considrons la srie suivante donnant le taux mensuel de nuptialit (nombre de mariages pour 1 000 habitants) en France mtropolitaine :
Mois Janvier Fvrier Mars Avril Mai Juin Juillet Aot Septembre Octobre Novembre Dcembre 2003 1,3 1,9 2,2 3,3 5,5 10,30 8,40 8,50 6,30 3,10 1,80 2,20 2004 1,40 2,00 1,70 3,60 5,30 9,40 10,10 6,80 6,30 3,20 1,70 2,00 2005 1,40 1,80 1,80 3,60 4,80 9,80 10,70 7,10 6,50 3,10 1,80 2,10 2006 1,30 1,60 1,60 3,60 4,70 9,50 10,10 6,60 7,10 2,40 1,60 2,00

Source : Insee, dpartement de la Dmographie, 2006

partir du tableau statistique de cette srie, on obtient les rsultats suivants :


n + 1 49 = = 24,5 t = 2 2 214,9 = 4, 4771 y = 48 n 2 n(n + 1)(2n + 1) 48 49 97 = = 38 024 t = 6 6 t =1

1 n 5 295,8 Cov(T ; Y ) = n tyt t y = 48 24,5 4,4771 = 0,6406 t =1 n Do : t2 38 024 2 V (T ) = t =1 ( t )2 = ( 24,5 ) = 191,92 48 n Cov(T ; Y ) 0,6406 = = 0,0033 a = Il reste calculer a et b : V (T ) 191,92 b = y at = 4, 4771 0,0033 24,5 = 4,3953

On obtient finalement la tendance donne par lquation : y = 0,0033 t + 4,3953.

Les sries chronologiques

191

Il est important de signaler que si la droite occupe une place privilgie dans lajustement 1 analytique, dautres modles sont incontournables, notamment la courbe de Gompertz , utilise entre autres pour les tables de mortalit (voir chapitre 6, exercice 4), et la courbe 2 logistique , utilise pour modliser lvolution de certaines populations (voir chapitre 6, section 3.1). Si les fluctuations de la srie sont trop importantes, on pourra au pralable les attnuer en utilisant des moyennes adaptes, que nous allons aborder maintenant.

La mthode des moyennes chelonnes


Afin de lisser les fluctuations, on peut remplacer les donnes priodiques par leurs moyennes sur plusieurs priodes par exemple, des moyennes annuelles de donnes mensuelles. Ces moyennes ne subissent pas linfluence des variations saisonnires et ont lavantage de minimiser les extrema. La mthode des moyennes chelonnes consiste remplacer un certain nombre de donnes conscutives par leur moyenne.
Exemple 7.3 Le trend par la mthode des moyennes chelonnes

Reprenons la srie de lexemple 7.2. La mthode des moyennes chelonnes consiste remplacer les donnes mensuelles par leur moyenne annuelle :
Anne 2003 2004 2005 2006 Moyenne chelonne 4,57 4,46 4,54 4,34

Ces moyennes chelonnes ont t affectes aux dates correspondant au milieu de chaque anne, et les quatre points obtenus sont joints la rgle sur la figure 7.7 et donnent un ajustement de la tendance. Figure 7.7
Moyennes chelonnes (nuptialit).
12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 45 t 50 yt

La srie passe ainsi de 48 donnes mensuelles, qui varient selon les influences saisonnires, 4 donnes annuelles indpendantes de ces variations.

1. Benjamin Gompertz, mathmaticien anglais (1779-1865). 2. Dcouverte par le mathmaticien belge Pierre Franois Verhulst (1804-1849), lve de Qutelet.

192

Statistique descriptive

Cette mthode fait perdre trop de donnes, aussi utilisera-t-on plus gnralement les moyennes mobiles, qui sont la mthode la plus utilise dans le lissage des sries chronologiques. Elles permettent de suivre progressivement le phnomne par un systme de chevauchement. On distingue en gnral deux types de moyennes mobiles : les moyennes mobiles non centres ; les moyennes mobiles centres.

La mthode des moyennes mobiles non centres


Dans le cas des moyennes mobiles non centres dordre p, il convient de remplacer une valeur observe, yt, par la moyenne arithmtique des p valeurs antrieures (t p), soit 1 p 1 1 p 1 p +1 y . On remplace donc y par y , puis y par t i p t P+1 yt , etc. p i =0 p i =1 p t =2
Dfinition On appelle moyenne mobile non centre dordre p la date t le nombre not MMp(t) nc et dfini par :
MMp (t ) nc = 1 p yt . p i =1

Les moyennes mobiles non centres permettent dexploiter les donnes rcentes. On notera que les moyennes mobiles non centres raccourcissent la srie, car aucune moyenne mobile nest affecte aux (p 1) premires dates.
Exemple 7.4 Moyennes mobiles non centres

Prenons comme exemple le cours dune action (en euros) en Bourse et la recherche dune stratgie (simple) de dcision : acheter en phase de hausse, quand le cours traverse la moyenne mobile de bas en haut, et vendre en phase de baisse, quand le cours traverse la moyenne mobile de haut en bas.
Jour 1 2 3 4 5 6 7 8 9 10 11 12 Cours 812,5 812,25 810 806,25 793,75 787,5 793,75 812,5 831,25 837,5 843,75 843,75 Jour 13 14 15 16 17 18 19 20 21 22 23 24 Cours 825 868,75 881,25 868,75 862,5 875 875 887,5 900 910 912,5 912 Les sries chronologiques

193

La moyenne non centre dordre 4 est la moyenne des quatre valeurs qui prcdent la priode de calcul. Par exemple, pour le quatrime jour, la moyenne non centre dordre 4 812,5 + 812,25 + 810 + 806,25 = 810,25 . est MM 4(4) nc = 4 Le tableau de la figure 7.8 donne les moyennes mobiles non centres dordre 4. Figure 7.8
Moyennes mobiles non centres.

La figure 7.9 est la traduction graphique de ce tableau qui permet de visualiser lapplication de la dcision dachat et de vente des actions. Figure 7.9
Moyennes mobiles non centres du cours de Bourse.
920 900 Achat 880 860 Vente 840 820 800 780 0 4 8 12 16 20 24 28 Achat Vente Cours MM4nc t Achat yt

La mthode des moyennes mobiles centres


Dans le cas des moyennes mobiles centres dordre p, il sagit de remplacer une valeur observe, yt, par la moyenne arithmtique de p valeurs centres autour de yt.

194

Statistique descriptive

Dfinition

On appelle moyenne mobile centre dordre p la date t le nombre not MMp(t) et dfini par : si p est impair, soit p = 2k + 1 : 1 MMp(t ) = ( y t k + y t k +1 + .... + y t 1 + y t + y t +1 + ... + y t + k ) , p soit MMp (t ) =
1 k y t +i ; p i = k

si p est pair, soit p = 2k : 1 MMp(t ) = ( 0,5 y t k + y t k +1 + .... + y t 1 + y t + y t +1 + ... + 0, 5 y t + k ) , p soit MMp (t ) =


k 1 1 0, 5 y t k + y t + i + 0,5 y t +k . p i = k +1

Le cas des moyennes mobiles dordre impair : posons p = 2k + 1 ; dans ce cas tout indice t (t (p + 1) / 2) est la mdiane dune srie de p dates et lon remplace yt par : 1 k yt +i , en prenant la moyenne arithmtique des p observations obtenues en runisp i = k sant les k observations immdiatement antrieures yt, yt et les k observations qui succdent yt. On notera que les moyennes mobiles centres raccourcissent la srie, car aucune moyenne mobile nest affecte ni aux (p 1) premires dates ni aux (p 1) dernires dates.
Exemple 7.5 Moyennes mobiles centres dordre 3 (MM3)

Considrons le tableau suivant donnant le cours journalier du baril de ptrole sur une priode de 14 jours et recherchons le trend par la mthode des moyennes mobiles centres dordre 3 (MM3).
Date 29/10/2007 30/10/2007 31/10/2007 01/11/2007 02/11/2007 05/11/2007 06/11/2007 08/11/2007 09/11/2007 12/11/2007 Cours (en US dollars) 86,05 85,69 84,84 87,61 87,57 88,13 89,13 90,71 89,71 88,8

Les sries chronologiques

195

Date 14/11/2007 15/11/2007


Source : OPEC, novembre 2007

Cours (en US dollars) 86,57 87,01

La moyenne centre dordre 3 est la moyenne des trois valeurs qui entourent la valeur de la priode de calcul, y compris elle-mme. Par exemple, pour la deuxime date, la 86,05 + 85,69 + 84,84 moyenne centre dordre 3 est MM 3(2) = = 85,53 . 3 Le tableau de la figure 7.10 donne les moyennes mobiles centres dordre 3. Figure 7.10
Moyennes mobiles centres dordre 3.

La figure 7.11 reprsente la srie brute et la srie lisse par les MM3. Figure 7.11
Srie brute et MM3.
92 91 90 89 88 87 86 85 84 0 5 10 t 15 yt Srie brute MM 3

Moyennes mobiles dordre p pair : posons p = 2k. Dans ce cas une srie de p dates nadmet pas de mdiane, mais un intervalle mdian. La rgle adopte consiste prendre arbitrairement pour mdiane la moyenne arithmtique des bornes de lintervalle mdian. Prenons par exemple p = 4. Si lon remplace y1, y2, y3 et y4 par leur moyenne arithmtique, on devra affecter cette valeur la date 2,5 (pour centrer), ce qui nest pas satisfaisant ; de mme, y2, y3, y4 et y5 seraient remplaces par leur moyenne arithmtique affecte la date 3,5. 196
Statistique descriptive

Pour viter cela, la mthode de calcul consiste affecter la date 3 la moyenne arithmy + y + y3 + y4 et tique des deux moyennes centres qui lencadrent : y 2,5 = 1 2 4 y + y3 + y4 + y5 . Ce qui donne : y 3,5 = 2 4
y 2,5 + y 3,5 2 = y 1 + y 2 + y 3 + y 4 + y 2 + y 3 + y 4 + y 5 0,5 y 1 + y 2 + y 3 + y 4 + 0,5y 5 . = 8 4

Finalement, pour former la premire moyenne mobile centre dordre 4, on utilise les 5 premires observations et lon affecte la date 3 leur moyenne arithmtique pondre, en affectant aux valeurs extrmes (la premire et la cinquime) le coefficient 0,5 et aux trois valeurs centrales le coefficient 1. On notera que les moyennes mobiles centres nautorisent pas destimation dune valeur thorique, car elles sont subordonnes la connaissance dobservations postrieures. La srie des moyennes mobiles comporte moins de termes que la srie brute. La srie des moyennes mobiles est trs inerte du fait quune brusque variation nest ime retenue que pour 1 / p de sa valeur brute, les oscillations tant tales sur les dates antrieures et postrieures. En gnral, on choisira lordre des moyennes mobiles suivant la priodicit des donnes : MM7 pour des donnes journalires (7 jours de la semaine), MM4 pour des donnes trimestrielles (4 trimestres dans lanne), etc.

Agrgation des composantes


Nous avons dfini prcdemment les diffrentes composantes dune srie chronologique, nous devons maintenant nous intresser leur mode de composition et prsenter les deux hypothses que lon fait habituellement : le schma additif et le schma multiplicatif.

2.1

PRSENTATION DES MODLES


Deux types de situations coexistent dans le cadre des sries temporelles : le modle additif ; le modle multiplicatif.

Modle additif et modle multiplicatif


Nous avons soulign ds le dpart limportance dune reprsentation graphique dans lanalyse des sries chronologiques. Ces graphiques permettent de visualiser les deux types de situations. Dans le cas du modle additif, les fluctuations sont damplitude constante autour du trend, ce qui se traduit par un nuage de points limit par deux parallles la droite de tendance (voir figure 7.12). Dans le cas du modle multiplicatif, les fluctuations sont damplitudes lies la valeur du trend, ce qui se traduit par un nuage de points situs entre deux droites
Les sries chronologiques

197

concourantes (entonnoir). Les rapports entre les valeurs observes et les valeurs du trend sont pratiquement identiques dune priode lautre, ce qui reprsente des carts gaux en pourcentage (voir figure 7.13). Figure 7.12
Schma additif (aspect dun tube).
1 080 1 070 1 060 1 050 1 040 1 030 1 020 1 010 1 000 t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 yt Srie brute Trend (MCO)

Figure 7.13
Schma multiplicatif (aspect conique).

1 080 1 070 1 060 1 050 1 040 1 030 1 020 1 010 1 000

yt Srie brute Trend (MCO)

t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Il arrive que les choix ne soient pas aussi clairs et que lon hsite entre les deux modles qui pourront dans ce cas donner des valeurs proches. Les deux modles supposent que la composante saisonnire est parfaitement priodique , qu lintrieur dune anne le phnomne saisonnier est neutre, les variations saisonnires se compensant : dans le schma additif, la moyenne des coefficients saisonniers est nulle sur une anne ; dans le schma multiplicatif, le produit des coefficients saisonniers est gal 1 sur une anne. Cette convention est appele principe de conservation des aires, les aires reprsentant les fluctuations saisonnires autour du mouvement gnral, qui se compensent. Par ailleurs, le mouvement accidentel est suppos faible et de moyenne nulle sur quelques mois. Pour mettre en vidence les composantes saisonnires et accidentelles, nous devrons distinguer les deux modles.
1

Composante saisonnire
La composante saisonnire est une fonction priodique, de priode p, dtermine par la donne de p coefficients saisonniers que nous noterons S1, S2, , Sp et qui vrifient

1. La dcomposition dune fonction en sommes de termes priodiques laide de fonctions sinusodales a t tablie par le mathmaticien Jean-Baptiste Fourier (1768-1813) dans ses travaux sur la chaleur.

198

Statistique descriptive

Si = Si + p . Lentier p dtermine la priode et on aura p = 12 pour des donnes mensuelles,

p = 4 pour des donnes trimestrielles, etc.


Dfinition Soit p la priode, les entiers i, pour i {1; 2 ; ... ; p} , dfinissent les saisons de la srie. Les dates relatives la saison i sont alors les dates dfinies par t = i + np (n entier naturel).

Si par exemple les donnes sont trimestrielles, on a quatre saisons que lon nommera T1, T2, T3 et T4. Les dates relatives T1 sont les dates du type t = 1 + 4n, soit 1 ; 5 ; 9 ; etc. La srie CVS (corrige des variations saisonnires), encore appele srie dsaisonnalise, est obtenue en liminant les influences saisonnires. Cette srie est fondamentale et utilise constamment par lInsee, qui donne par exemple les chiffres du chmage en donnes CVS en fin de mois . La srie corrige des variations saisonnires peut rvler des rsultats paradoxaux, le chmage pouvant diminuer en donnes brutes un certain mois, et en fait augmenter en donnes corriges des variations saisonnires.

2.2

SRIE CORRIGE DES VARIATIONS SAISONNIRES DU MODLE ADDITIF


Ce modle se traduit par : yt = ft + St + t. On va donc dfinir la srie CVS en ngligeant dans un premier temps la composante accidentelle suppose faible et par dfinition non prvisible. Le principe de la neutralit additive de la composante priodique sur une priode se traduira par la proprit :

S
i =1

=0 .

Mise en vidence de la composante saisonnire


La prise en compte de la composante saisonnire passe par quatre tapes : 1. On calcule pour chaque date le coefficient st = yt ft, appel cart saisonnier , qui reprsente la diffrence entre la donne brute yt et la tendance dtermine soit par la mthode MCO soit par les moyennes mobiles. 2. On estime les coefficients saisonniers, St, par la moyenne arithmtique des carts saisonniers st correspondant la mme saison ; si on dispose de donnes sur n priodes, donc de np dates, le coefficient saisonnier Si correspondant la saison i 1 n 1 ( i { 1;2;...; p} ) sera donn par : Si = si + kp . n k =0 Si lon dispose, par exemple, de donnes mensuelles sur 3 annes, on obtiendra le 1 2 1 coefficient saisonnier de janvier par : S1 = s1+12k = ( s1 + s13 + s25 ) . 3 k =0 3 3. On contrle que

S
i =1

= 0 . Si cette somme est significativement diffrente de zro,

on introduit des coefficients saisonniers corrigs selon ltape 4. 4. On note m la moyenne arithmtique des Si, soit m =
1 p Si , et on introduit les p i =1

coefficients saisonniers corrigs dfinis par : Si = Si m ; on aura alors

S'
i =1

=0.

Les sries chronologiques

199

Srie corrige des variations saisonnires


La srie CVS contient la composante tendancielle et la composante accidentelle.
Dfinitions La srie corrige des variations saisonnires est la srie obtenue partir de la srie brute en liminant la composante saisonnire. Dans le schma additif, on aura donc : Ycvs = Y S, soit pour toute date t, i dsignant la saison relative la date t : ycvs(t) = yt Si, dans le cas o

S
i =1

=0.

ycvs(t) = yt Si en utilisant les coefficients saisonniers corrigs dans le cas o

S
i =1

0.

On peut alors isoler la composante accidentelle en calculant les termes t, en liminant la tendance de la srie CVS : t = ycvs(t) ft.
Exemple 7.6 Srie corrige des variations saisonnires (schma additif)

Reprenons la srie trimestrielle de lexemple 7.1. Le graphique permet de conjecturer lhypothse dun modle additif. Dterminons la srie CVS (voir figure 7.14) en utilisant le trend dtermin par la mthode MCO, cest--dire ff = 0,6654t + 103,92 (voir figure 7.6). Aprs avoir dtermin les valeurs du trend par la formule ff = 0,6654t + 103,92 dans la colonne C, on a calcul les coefficients st (colonne D), puis les coefficients saisonniers Si, s +s +s avec par exemple S1 = 1 5 9 = 1,72 . 3
S1 S2 S3 S4 Total 1,72 0,78 3,48 2,52 0,01

La somme des coefficients est trs proche de zro, il est donc inutile de les corriger. On a fait figurer la srie CVS en colonne E. Enfin, on a calcul la composante accidentelle en colonne F. Figure 7.14
Dtermination de la srie CVS et de la composante accidentelle.

200

Statistique descriptive

On a reprsent figure 7.15 la srie des indices IAA, avec la srie CVS et le trend linaire. Figure 7.15
Srie brute, srie CVS et trend des indices IAA.
116 114 112 110 108 106 104 102 0 1 2 3 4 5 6 7 8 9 t 10 11 12 13 yt = 0,6654 t +103,92 yt Srie brute Srie CVS Linaire (srie brute)

2.3

SRIE CORRIGE DES VARIATIONS SAISONNIRES DU MODLE MULTIPLICATIF


Ce modle se traduit par : yt = ft St t. On dfinit la srie CVS selon la mme procdure que dans le cas additif. La composante saisonnire est une fonction priodique, de priode p, dtermine par la donne de p coefficients saisonniers que nous noterons S1, 1 p Si = 1 S2, ., Sp et qui vrifient p i =1 , la premire proprit traduisant le principe de la S = S i+ p i neutralit multiplicative (moyenne arithmtique des coefficients gale 1) de cette composante sur une priode et la seconde le fait que ces coefficients sont priodiques. On remarque que le modle multiplicatif peut se ramener au modle additif en passant aux logarithmes dcimaux : log yt = log ft + log St + log t.

Mise en vidence de la composante saisonnire


La prise en compte de la composante saisonnire passe par quatre tapes : 1. On calcule pour chaque date le coefficient st = yt / ft, appel rapport saisonnier, qui reprsente le rapport entre la donne brute yt et la tendance dtermine soit par la mthode MCO soit par les moyennes mobiles. Ce rapport saisonnier est le coefficient multiplicateur qui permet la date t de passer de la tendance la srie brute. 2. On estime les coefficients saisonniers, St, par la moyenne arithmtique des rapports saisonniers st correspondant la mme saison ; si on dispose de donnes sur n priodes, donc de np dates, le coefficient saisonnier Si correspondant la saison i 1 n 1 ( i { 1;2;...; p } ) sera donn par : Si = si + kp . n k =0 3. On contrle que la contrainte de neutralit multiplicative
1 p Si = 1 est vrifie. Si p i =1 cette somme est significativement diffrente de 1, on introduit des coefficients saisonniers corrigs selon ltape 4.

Les sries chronologiques

201

4. Soit m la moyenne arithmtique des Si, m = corrigs sont Si = Si / m ; on aura alors

1 p Si , les coefficients saisonniers p i =1

1 p S 'i = 1 . p i =1

Srie corrige des variations saisonnires


La srie CVS contient la composante tendancielle et la composante accidentelle.
Dfinitions La srie corrige des variations saisonnires est la srie obtenue partir de la srie brute en liminant la composante saisonnire. Dans le schma multiplicatif, on aura donc : Ycvs = Y / S, soit pour toute date t, i dsignant la saison relative la date t : ycvs(t) = yt / Si, dans le cas o
1 p Si = 1 ; p i =1 1 p S 'i 1. p i =1

ycvs(t) = yt / Si en utilisant les coefficients saisonniers corrigs dans le cas o

On peut alors isoler la composante accidentelle en calculant les termes t, en liminant la tendance de la srie CVS : t = ycvs(t) / ft.

2.4

PRVISIONS
Modles de prvision
Ltude du pass sert anticiper le futur et la prvision conomique nest pas autre chose, en grande partie du moins, que ce quon appelle en langage mathmatique 1 lextrapolation des vnements passs, des conjonctions passes . partir des mthodes exposes prcdemment, lanalyste se situe la priode T et souhaite effectuer une prvision lhorizon h. On envisagera uniquement le cas dune prvision ponctuelle, cest--dire de la recherche dune valeur unique qui reprsente la meilleure estimation possible de la valeur future inconnue yT + h partir de la donne (y1 ; T ( h ) , ou encore y t avec t = T + h, T reprsentant y2 ; ; yT). Cette estimation est note y lorigine de la prvision. On supposera que lon dispose dune tendance linaire, alors la prvision ponctuelle pourra tre faite en utilisant les coefficients saisonniers en addition dans le modle additif et en multiplication dans le modle multiplicatif, ce qui donnera, partir du trend linaire not f(t) = at + b, Si dsignant le coefficient saisonnier corrig relatif la date t = T + h :
T ( h ) = a(T + h) + b + S 'i , ou encore y t = at + b + S 'i ; schma additif : y T ( h ) = (a(T + h) + b) S 'i , ou encore y t = (at + b) S 'i . schma multiplicatif : y

1. H. Guitton, Statistique et conomtrie, Dalloz, 1959.

202

Statistique descriptive

Srie ajuste
On dfinit la srie ajuste sur le modle de la srie prvisionnelle expose ci-avant. On notera alors pour les dates t, pour lesquelles on connat la srie brute (Si dsignant le coefficient saisonnier corrig relatif la date t) :
t = at + b + S 'i ; schma additif : y t = (at + b) S 'i . schma multiplicatif : y
Exemple 7.7 Prvision (schma additif)

Reprenons les donnes de lexemple 7.1. On a dtermin le trend par la mthode MCO, et on a trouv ff = 0,6654 t + 103,92 (voir t = at + b + S 'i , Si dsignant le figure 7.6) ; la prvision ponctuelle sera donne par : y coefficient saisonnier relatif la date t = T + h. On aura donc : 1,72 0,78 , en choisissant le coefficient saisonnier relatif la t = 0,6654 t + 103,92 + y 3,48 2,52 date t = T + h ; recherchons par exemple une prvision ponctuelle pour le deuxime trimestre 2007, soit T = 12 et h = 2, do t = T + h = 12 + 2 = 14.
12 ( 2 ) = y 14 = 0,6654 14 + 103,920,78 = 112,46 . Dans ce cas, y

Conclusion
On notera que lon devra rester trs prudent pour les extrapolations, car on peut se retrouver face un retournement de tendance ou des changements dans les fluctuations priodiques. Si h > 1, on pourra tester la qualit du modle, en utilisant les premires observations de la priode T + 1 devenues disponibles et en les comparant aux prvisions quelles nont pas contribu dterminer. Cette confrontation de prvisions fondes sur le pass et de valeurs actuelles est trs prcieuse pour valider lestimation. Pour conclure cette introduction aux sries chronologiques, nous devons signaler que nous navons abord que laspect dterministe et que nous avons laiss de ct laspect alatoire, que nous avons simplement notifi loccasion de la composante accidentelle. 1 Nous navons pas abord les modles autorgressifs , qui traduisent une caractristique particulire des sries chronologiques, la corrlation entre les termes, cest--dire la dpendance statistique du prsent et du pass, et le lecteur pourra consulter de nombreux ouvrages complmentaires (notamment louvrage dconomtrie dric Dor). En rsum, lissue de ce chapitre, le lecteur doit connatre les deux modles de dcomposition dune srie chronologique, savoir utiliser la mthode MCO et les diffrentes moyennes mobiles pour mettre en vidence le trend et les diffrentes composantes. Ces techniques doivent permettre dexpliciter la srie corrige des variations saisonnires et daborder laspect prvisionnel.
1. Larticle de rfrence en la matire est d au statisticien George Udny Yule (1871-1951).

Les sries chronologiques

203

Problmes et exercices
Lanalyse des sries temporelles est un prolongement de lanalyse de rgression puisquil sagit dexpliquer un phnomne selon le temps. Pour cela, quatre modes dapplication des sries temporelles coexistent selon les combinaisons effectues entre mthodes empirique et analytique et modles additif et multiplicatif : lexercice 1 combine la mthode empirique avec le modle additif ; lexercice 2 associe la mthode empirique et le modle multiplicatif ; lexercice 3 allie mthode analytique et modle additif ; lexercice 4 met en uvre la mthode analytique avec le modle multiplicatif.

EXERCICE 1 MTHODE EMPIRIQUE ET MODLE ADDITIF


Le tableau ci-aprs indique les entres par quadrimestres (dure de quatre mois), en millions, dans les salles de cinma en France :
Quadrimestre 1 2 3 2003 61,33 48,16 63,97 2004 67,86 65,3 62,17 2005 61,04 53,06 61,23 2006* 72,58 55,21 60,66

* Donnes provisoires - Source : www.cnc.fr, 2007

1. Reprsentez graphiquement cette srie chronologique et dterminez sa saisonnalit. 2. En utilisant le modle empirique additif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste. c. Dterminez la srie CVS. 3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie CVS.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t (voir figure 7.16). Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes.

204

Statistique descriptive

Figure 7.16
Rsultats sous Excel.

Pour reprsenter une courbe sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-type de graphique, slectionnez limage reprsentant le nuage de points relis par une courbe. Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir figure 7.17).
Frquentation totale (millions)

Figure 7.17
Frquentation des salles de cinma France.

80 70 60 50 40 30 20 10 0 0 2003 1 2 3 2004 4 5 6 2005 7 8 9 10 2006* 11 12 13 Quadrimestre

La saisonnalit des entres cinmatographiques en France est annuelle. La structure des entres subit un creux au deuxime quadrimestre, pour remonter au troisime quadrimestre, lexception de lanne 2004, pour laquelle les ventes continuent de chuter. 2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode empirique, la tendance est dtermine par des moyennes mobiles. Puisque la saisonnalit est annuelle, compose de trois quadrimestres, les moyennes mobiles adaptes sont les moyennes mobiles dordre 3. La premire moyenne mobile calculable est MM3(2). Explicitons les premiers calculs :
MM3 ( 2 ) = Y1 + Y2 + Y3 61,33 + 48,16 + 63,97 , soit MM3(2) = 57,82 ; = 3 3 Y + Y + Y 48,16 + 63,97 + 67,86 , soit MM3(3) = 60,00. MM3 ( 3) = 2 3 4 = 3 3

La dernire moyenne mobile calculable est MM3(11). Les moyennes mobiles figurent dans la colonne E du tableau de la figure 7.16. la suite de ces calculs, les carts saisonniers peuvent tre calculs, selon le modle additif. s2 = Y2 MM3(2)2 = 48,16 57,82, soit s2 = 9,66. Les carts s1 et s12 ne sont pas calculables. On trouvera dans la colonne G du tableau de la figure 7.16 les carts saisonniers.

Les sries chronologiques

205

Les coefficients saisonniers sont ensuite calculs en effectuant pour chaque saison (quadrimestre) la moyenne arithmtique des carts saisonniers disponibles :
s 4 + s7 + s10 2,15 + 2,28 + 9,57 , soit S1 = 4,67 ; = 3 3 s +s +s +s 9,66 + 0,19 5, 38 7,61 , soit S2 = 5,62 ; S2 = 2 5 8 11 = 4 4 s + s + s 3,97 0,67 1,06 , soit S3 = 0,75. S3 = 3 6 9 = 3 3 S1 =

On rappelle que les coefficients saisonniers sont priodiques et que, dans cet exercice, la priode est de 3 : on a donc calcul S1, S2 et S3. On calcule ensuite la moyenne m des coefficients saisonniers pour effectuer, si leur moyenne nest pas nulle, la correction ncessaire au respect de la compensation : S + S + S 4,67 5,62 + 0,75 m= 1 2 3 = , soit m = 0,07. 3 3 Do les coefficients saisonniers corrigs, S1 = S1 m = 4,67 + 0,07, soit S1 = 4,73. De mme, S2 = 5,55 et S3 = 0,81. Les calculs sont dtaills dans les colonnes H et I de la figure 7.16.
= f + S' , do b. Pour le modle additif, la srie ajuste est Y t t t = MM ( 2 ) + S' = 57,82 5,55 , soit Y = 52,27 ; Y = T + S' = 60,00 + 0,81 , soit Y 3 3 3 2 2 3 2 = 52,89 ; Y3 = 60,81 . De mme, Y4 = 70, 44 ; Y5 = 59,56 ; Y6 = 63,65 ; Y7 = 63,49 ; Y 8 . Y = 63,10 ; Y = 67,74 ; Y = 57,27 . Y est indtermin, pour la mme raison que Y
9 10 11 12 1

Ces calculs sont dtaills la suite des calculs prcdents, dans la figure 7.16. c. La srie CVS est diffrente de la srie ajuste, car elle inclut les alas. Pour le modle additif, la srie CVS est YCVS ( t ) = Yt St' , do YCVS (1) = Y1 S1' = 61,33 4,73 , soit
YCVS (1) = 56,60 . Ces calculs sont dtaills dans la figure 7.16.
3. Les trois courbes sont traces sur le mme graphique, partir des donnes de la figure 7.16,

avec le temps, t, en abscisses, et les diffrentes sries en ordonnes (voir figure 7.18). Figure 7.18
Frquentation des salles de cinma, tendance et srie CVS France.
Frquentation totale (millions)
80 70 60 50 40 30 20 10 0 0 2003 1 2 3 2004 4 5 6 2005 7 8 9 10 2006* 11 12 13 Quadrimestre Srie brute MM3(t) Ycvs(t)

206

Statistique descriptive

EXERCICE 2 MTHODE EMPIRIQUE ET MODLE MULTIPLICATIF


Une entreprise de location et vente de matriel de montagne ralise lessentiel de son chiffre daffaires sur deux saisons : lhiver, avec le matriel de ski ; lt, avec le matriel de randonne. Son chiffre daffaires (en milliers deuros) des trois dernires annes est indiqu dans le tableau suivant :
Saison Automne Hiver Printemps t 2005 4,86 6,52 5,16 6,75 2006 4,33 6,73 4,41 7,01 2007 3,11 7,61 2,83 7,51

1. Reprsentez graphiquement cette srie chronologique et justifiez lutilisation du modle multiplicatif. 2. En estimant la tendance de cette srie par les moyennes mobiles dordre 4 et laide du modle multiplicatif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste. c. Dterminez la srie CVS. 3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie ajuste.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t :
Anne 2005 2005 2005 2005 2006 2006 2006 2006 Saison Automne Hiver Printemps t Automne Hiver Printemps t t 1 2 3 4 5 6 7 8 Yt 4,86 6,52 5,16 6,75 4,33 6,73 4,41 7,01

Les sries chronologiques

207

Anne 2007 2007 2007 2007

Saison Automne Hiver Printemps t

t 9 10 11 12

Yt 3,11 7,61 2,83 7,51

Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes (voir figure 7.19). Figure 7.19
Ventes par saisons.
Montant ( )
8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Saison 2005 2006 2007

Les variations des ventes sont damplitudes de plus en plus grandes, le schma ayant un aspect conique , ce qui justifie de recourir au modle multiplicatif. 2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode empirique, la tendance sera dtermine par des moyennes mobiles centres dordre 4 (une saisonnalit annuelle). La premire moyenne mobile calculable est MM4(3), que nous calculons selon la mthode vue dans la partie thorique de ce chapitre sur 5 termes : 0,5 Y1 + Y2 + Y3 + Y4 + 0,5 Y5 0,5 4,86 + 6,52 + 5,16 + 6,75 + 0,5 4,33 MM4 ( 3) = = , 4 4 soit MM4(3) = 5,76. De mme,
0,5 Y2 + Y3 + Y4 + Y5 + 0,5 Y6 0,5 6,52 + 5,16 + 6,75 + 4,33 + 0,5 6,73 = , 4 4 soit MM4(4) = 5,72. De mme, MM4(5) = 5,65 ; MM4(6) = 5,59 ; MM4(7) = 5,47 ; MM4(8) = 5,43 ; MM4(9) = 5,34 ; MM4(10) = 5,20. La tendance est ainsi dtermine par les valeurs des moyennes mobiles. MM4 ( 4 ) =

la suite de ces calculs, les variations saisonnires par priode peuvent tre calcules selon le modle multiplicatif. Les rapports saisonniers s1 et s2 sont indtermins ; s3 = Y3 / MM4(3) 3 = 5,16 / 5,76, soit s3 = 0,90 ; s4 = 6,75 / 5,72, soit s4 = 1,18. De mme, s5 = 0,77 ; s6 = 1,20 ; s7 = 0,81 ; s8 = 1,29 ; s9 = 0,58 et s10 = 1,46.

208

Statistique descriptive

Les coefficients saisonniers sont ensuite calculs :


S1 = S2 = S3 = S4 = s5 + s9 0,77 + 0,58 , car s1 est inconnu, donc S1 = , soit S1 = 0,68 ; 2 2 s6 + s10 1,20 + 1, 46 , donc S2 = , soit S2 = 1,33 ; 2 2 s3 + s7 s + s 0,90 + 0,81 , donc S3 = 3 7 = , soit S3 = 0,86 ; 2 2 2 s4 + s8 s + s 1,18 + 1,29 , donc S4 = 4 8 = , soit S4 = 1,24. 2 2 2

Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. En appliquant la correction ncessaire au respect de la compensation entre coefficients S + S + S + S 0,68 + 1,33 + 0,86 + 1,24 , soit m = 1,03. saisonniers, m = 1 2 3 4 = 4 4 Do les coefficients saisonniers corrigs : S1 = S1 / m = 0,67 / 1,02, soit S1 = 0,66. De mme, S2 = 1,29 ; S3 = 0,83 et S4 = 1,20. Comme pour les coefficients saisonniers, S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12.
= MM ( t ) S ' , pour t entier variant b. Pour le modle multiplicatif, la srie ajuste est Y t t 4 ' = MM ( 3 ) S , soit Y = 5,76 0,83 , soit Y = 4,78 ; de 3 10. On a : Y
3 4 3 3 3

= MM ( 4 ) S ' = 5,72 1,20 , soit Y = 6,86 . De mme, Y = 3,73 ; Y = 7,21 ; Y 4 5 6 4 4 4 = 4,54 ; Y = 6,52 ; Y = 3,52 ; Y = 6,71 . Pour effectuer ces calculs laide de la Y 7 8 9 10 calculatrice, saisissez MM4(t) dans la colonne L1, en saisissant la valeur 0 pour les dates 1, 2, 11, 12, et Sj dans la colonne L2 ; placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre la srie ajuste (voir figure 7.20).

c. La srie CVS est diffrente de la srie ajuste car elle inclut les alas. Pour le modle multiplicatif, la srie CVS est YCVS ( t ) = Yt / St' , do YCVS (1) = Y1 / S1' = 4,86 /0,66 , soit
YCVS (1) = 7, 36 . YCVS ( 3 ) = 6,22 ; YCVS ( 4 ) = 5,63 ; YCVS ( 5 ) = 6,56 ; YCVS ( 6 ) = 5,22 ; YCVS ( 7 ) = 5,31 ; YCVS ( 8 ) = 5,84 ; YCVS ( 9 ) = 4,71 ; YCVS (10 ) = 6,56 ; YCVS (11) = 3, 41 ; YCVS (12 ) = 6,26 .
' YCVS ( 2 ) = Y2 / S2 = 6,52 /1,29 ,

soit

YCVS ( 2 ) = 5,05 .

De

mme,

Pour effectuer ces calculs, laide de la calculatrice, la suite du tableau prcdent, saisissez Yt dans la colonne L4, placez le curseur sur len-tte de colonne L5. Indiquez L5=L4/L2. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre la srie CVS (voir figure 7.21).

Les sries chronologiques

209

Figure 7.20 (gauche)


Calculs de la srie ajuste avec la calculatrice.

Figure 7.21 (droite)


Calculs de la srie CVS avec la calculatrice.

3. Les trois courbes sont traces sur le mme graphique, partir du graphique prcdemment prsent (voir figure 7.19), avec le temps, t, en abscisses, et les valeurs du chif , en ordonnes (voir figure 7.22). fre daffaires, Yt, Tt et Y t

Figure 7.22
Montant ( )

8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 0 1 2005 2 3 4 5 2006 6 7 8 9 10 2007 11 12 13 Saison Srie brute MM4(t) Srie ajuste

Chiffre daffaires, tendance et srie ajuste.

EXERCICE 3 MTHODE ANALYTIQUE ET MODLE ADDITIF


Le tableau ci-aprs indique les entres trimestrielles, en millions, dans les salles de cinma en France :
Trimestre 1 2 3 4 2004 50,46 51,46 41,07 52,34 2005 45,34 41,86 35,14 52,99 2006* 51,63 51,06 35 50,76

* Donnes provisoires - Source : www.cnc.fr, 2007

1. Dterminez la droite de rgression de Yt selon le temps. 2. partir de la droite de rgression de Yt selon le temps et en utilisant le modle additif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste.

210

Statistique descriptive

3. Reprsentez sur un mme graphique la srie brute, la tendance obtenue par la droite de rgression et la srie ajuste. 4. la suite des calculs prcdents, calculez la srie CVS. 5. Proposez des prvisions de frquentations trimestrielles pour lanne 2007.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b. Pour cela, il est ncessaire de calculer les valeurs de t , y , V(t) et

t y
i =1 i

Les moyennes de t et de Y ainsi que la variance de t peuvent tre calcules en utilisant les fonctions dExcel correspondantes, puisque les donnes sont des donnes uniques (avec ni = 1 quel que soit i). Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P dExcel (voir annexe 1.1), ou bien de les calculer comme expos prcdemment (voir chapitres 2 et 3). On peut aussi utiliser pour t les formules spcifiques (voir chapitre 7, section 1.3, la mthode MCO). Ces calculs sont dtaills figure 7.23.

Figure 7.23
Rsultats sous Excel.

De l, a =

3 603,10 12 6,5 46,59 = 0,218 et b = 46, 59 + 0,218 6,5 = 48,007 , 12 11,92

do : ft = 0,218 t + 48,007.
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode analytique, ces tendances sont calcules en utilisant lquation de la droite de rgression. Pour t = 1, f1 = 0,218 1 + 48,007, soit f1 = 47,79 ; f2 = 0,218 2 + 48,007, soit f2 = 47,57 ; de mme, f3 = 47,35 ; f4 = 47,14 ; f5 = 46,92 ; f6 = 46,70 ; f7 = 46,48 ; f8 = 46,27 ; f9 = 46,05 ; f10 = 45,83 ; f11 = 45,61 et f12 = 45,40.

Les sries chronologiques

211

la suite de ces calculs, les carts saisonniers par priode sont, selon le modle additif : s1 = Y1 f1 = 50,46 47,79, soit s1 = 2,67 ; s2 = Y2 f2 = 51,46 47,57, soit s2 = 3,89. De mme, s3 = 6,28 ; s4 = 5,20 ; s5 = 1,58 ; s6 = 4,84 ; s7 = 11,34 ; s8 = 6,72 ; s9 = 5,58 ; s10 = 5,23 ; s11 = 10,61 ; s12 = 5,36. Les coefficients saisonniers sont donc :
S1 = S2 = S3 = S4 = s1 + s 5 + s9 2,67 1,58 + 5,58 = , soit S1 = 2,22 ; 3 3 s2 + s 6 + s10 3,89 4,84 + 5,23 = , soit S2 = 1,43 ; 3 3 s 3 + s 7 + s11 6,28 11,34 10,61 = , soit S3 = 9,41 ; 3 3 s4 + s8 + s12 5, 20 + 6,72 + 5,36 = , soit S4 = 5,76. 3 3

Rappelons que les coefficients saisonniers sont priodiques (priode 4, ici), do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. La compensation entre coefficients saisonniers est respecte, puisque S1 + S2 + S3 + S4 = 0. Il est donc inutile de corriger les coefficients saisonniers. Les calculs sont dtaills figure 7.24.

Figure 7.24
Rsultats sous Excel.

= f + S' , do b. Pour le modle additif, la srie ajuste est donne par : Y t t t ' ' Y1 = f1 + S1 = 49,79 + 2,22 , soit Y1 = 50,01 ; Y2 = f 2 + S2 = 47,55 1, 43 , soit Y2 = 49,00 . = 37,94 ; Y = 52,90 ; Y = 49,14 ; Y = 48,13 ; Y = 37,07 ; Y = 52,03 ; De mme, Y
3 4 5 6 7 8

= 48,27 ; Y = 47,26 ; Y = 36,20 ; Y = 51,16 . Ces calculs sont dtaills la suite du Y 9 10 11 12 tableau prcdent (voir figure 7.24).
3. Les trois courbes sont reprsentes sur le mme graphique, avec le temps, t, en abscis-

, en ordonnes. ses, et les valeurs des entres, Yt, ft et Y t

212

Statistique descriptive

Figure 7.25
Frquentation des salles de cinma, tendance et srie ajuste France.

Frquentation totale (millions)

60 50 40 30 20 10 0 2004 0 1 2 3 4 5 2005 6 7 8 9 10 2006 11 12 13 Trend linaire Srie brute Srie ajuste

Trimestre

4. Pour le modle additif, la srie CVS est donne par : YCVS ( t ) = Yt St' , do

soit YCVS ( 2 ) = 50,03 . De mme, YCVS ( 3 ) = 50, 48 ; YCVS ( 4 ) = 46,58 ; YCVS ( 5 ) = 43,12 ;

' ' YCVS (1) = Y1 S1 = 50, 46 2, 22 , soit YCVS (1) = 48, 24 ; YCVS ( 2 ) = Y2 S2 = 51, 46 + 1, 43 ,

YCVS (11) = 44, 41 ; YCVS (12 ) = 45,00 . Ces calculs sont dtaills la suite des calculs prcdents (voir figure 7.24).

YCVS ( 6 ) = 40, 43 ; YCVS (7) = 44,55 ; YCVS ( 8 ) = 47, 23 ; YCVS ( 9 ) = 49, 41 ; YCVS (10 ) = 49,63 ;

5. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de frquentations trimestrielles pour lanne 2007. En appliquant le coefficient saisonnier Sj, nous obtenons la srie ajuste qui donne les prvisions de frquentations trimestrielles pour lanne 2007. Ces prvisions sont manier avec prcaution, puisque le modle de rgression est estim sur la priode 2004-2006 (voir chapitre 6).

Ainsi, au premier trimestre 2007, t = T + h = 12 + 1 = 13, donc : f13 = 0,218 13 + 48,007, soit f13 = 45,18 ; au deuxime trimestre 2007, t = 14, donc : f14 = 0,218 14 + 48,007, soit f14 = 44,96. De mme, f15 = 44,74 et f16 = 44,53.
= f + S' = 45,18 + 2,22 , soit Y = 47, 40 . La frquentation prvisionnelle pour Do Y 13 13 13 13 le premier trimestre de 2007 est de 47,40 millions dentres. = f + S ' = 44,96 1, 43 , soit Y = 46,39 . La frquentation prvisionnelle pour le Y 14 14 14 14 deuxime trimestre de 2007 est de 46,39 millions dentres. = 35, 33 ; Y = 50,29 . Les frquentations prvisionnelles pour les De mme, Y 15 16 troisime et quatrime trimestres de 2007 sont respectivement de 35,33 et 50,29 millions dentres.

Ces calculs sont dtaills figure 7.26.


Figure 7.26
Rsultats sous Excel.

Les sries chronologiques

213

Notons que ce modle permet destimer la frquentation totale de 2007 179,41 millions dentres. En ralit, le nombre total dentres sur 2007 a t de 178,14 millions dentres (en donnes provisoires au 4 janvier 2008, selon le CNC).

EXERCICE 4 MTHODE ANALYTIQUE ET MODLE MULTIPLICATIF


partir des donnes de lexercice 2 : 1. Dterminez la droite de rgression de Yt selon le temps. 2. partir de la droite de rgression de Yt selon le temps et en utilisant le modle multiplicatif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste. c. Dterminez la srie CVS. 3. Proposez des prvisions de chiffre daffaires pour lanne 2008. 4. Reprsentez sur un mme graphique la tendance obtenue par la droite de rgression entre 2005 et 2008 et la srie brute de 2005 2007, prolonge de la srie ajuste en 2008.

1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b.

Pour cela, il est ncessaire de calculer les valeurs de t , y , V(t) et

t y
i =1 i

Saisissez les valeurs de t dans la colonne L1 et celles de Y dans la colonne L2, comme indiqu figure 7.27.

Figure 7.27
Saisie du tableau de donnes avec la calculatrice.

Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de

214

Statistique descriptive

statistiques sur les variables t, note X par la calculatrice, et Y, respectivement contenues dans L1 et L2, sinscrivent (voir figures 7.28a et b).
Figure 7.28a (gauche)
Statistiques sur L1 (t).

Figure 7.28b (droite)


Statistiques sur L2 (Y).

434,70 12 6,5 5,57 = 0,002 12 11,92 Yt = 0,002 t + 5,555.

De l,

a=

et

b = 5,57 0,002 6, 5 = 5,55 ,

do :

2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode analytique, la tendance est calcule en utilisant lquation de la droite de rgression.

Pour t = 1, f1 = 0,002 1 + 5,555, soit f1 = 5,557 ; f2 = 0,002 2 + 5,555, soit f2 = 5,559. De mme, f3 = 5,561 ; f4 = 5,563 ; f5 = 5,565 ; f6 = 5,567 ; f7 = 5,569 ; f8 = 5,571 ; f9 = 5,573 ; f10 = 5,575 ; f11 = 5,577 et f12 = 5,579. Pour calculer les valeurs de la tendance par priode laide de la calculatrice la suite du tableau prcdent, placez le curseur sur len-tte de colonne L3. Indiquez L3=0,002L1+5,555. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les valeurs de la tendance par priode (voir figure 7.29).
Figure 7.29
Calculs des valeurs de la tendance avec la calculatrice.

la suite de ces calculs, les rapports saisonniers par priode peuvent tre calculs, selon le modle multiplicatif. s1 = Y1 / f1 = 4,86 / 5,557, soit s1 = 0,875 ; s2 = Y2 / f2 = 6,52 / 5,559, soit s2 = 1,173. De mme, s3 = 0,928 ; s4 = 1,213 ; s5 = 0,778 ; s6 = 1,209 ; s7 = 0,792 ; s8 = 1,258 ; s9 = 0,558 ; s10 = 1,365 ; s11 = 0,507 ; s12 = 1,346. Pour calculer les variations saisonnires par priode laide de la calculatrice la suite du tableau prcdent, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2/L3. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les valeurs des rapports saisonniers (voir figure 7.30).

Les sries chronologiques

215

Figure 7.30
Calculs des valeurs des rapports saisonniers avec la calculatrice.

Les coefficients saisonniers sont ensuite calculs :


S1 = S2 = S3 = S4 = s1 + s 5 + s 9 0,875 + 0,778 + 0,558 = , soit S1 = 0,747 ; 3 3 s2 + s 6 + s10 1,173 + 1,209 + 1,365 = , soit S2 = 1,249 ; 3 3 s 3 + s 7 + s11 0,928 + 0,792 + 0,507 = , soit S3 = 0,742 ; 3 3 s4 + s8 + s12 1,213 + 1,258 + 1,346 = , soit S4 = 1,272. 3 3

Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. La compensation entre coefficients saisonniers est respecte, donc les coefficients saisonniers corrigs sont identiques aux coefficients saisonniers.
= f S ' , do b. Pour le modle multiplicatif, la srie ajuste est Y t t t ' ' Y1 = f1 S1 = 5,557 0,737 , soit Y1 = 4,09 ; Y2 = T2 S2 = 5,559 1,249 , soit Y2 = 6,94 . De = 4,13 ; Y = 7,08 ; Y = 4,10 ; Y = 6,95 ; Y = 4,13 ; Y = 7,09 ; Y = 4,11 ; mme, Y
3 4 5 6 7 8 9

= 6, 96 ; Y = 4,14 ; Y = 7,10 . Y 10 11 12

c. Pour

le

modle
' 1

multiplicatif, mme,

la

srie

CVS

est

YCVS ( t ) = Yt / St' ,
' 2

do

YCVS (1) = Y1 / S = 4,86 /0,737 , soit YCVS (1) = 6,60 ; YCVS ( 2 ) = Y2 / S = 6, 52 /1,249 , soit YCVS ( 2 ) = 5,22 .

De

YCVS ( 6 ) = 5,39 ; YCVS ( 7 ) = 5,94 ; YCVS ( 8 ) = 5,51 ; YCVS ( 9 ) = 4,22 ; YCVS (10 ) = 6,09 ; YCVS (11) = 3,81 ; YCVS (12 ) = 5,90 .
3. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de chiffre daffaires pour lanne 2008. En appliquant le coefficient saisonnier Sj, nous obtenons la srie ajuste qui donne les prvisions de chiffres daffaires trimestriels pour lanne 2008. Ces prvisions sont manier avec prcaution, puisque le modle de rgression est estim sur la priode 2005-2007 (voir chapitre 6).

YCVS ( 3 ) = 6,95 ;

YCVS ( 4 ) = 5,31 ;

YCVS ( 5 ) = 5,88 ;

Ainsi, au premier trimestre 2008, t = T + H = 12 + 1 = 13, donc f13 = 0,002 13 + 5,555, soit f13 = 5,583. Au deuxime trimestre 2008, t = 14, donc f14 = 0,002 14 + 5,555, soit f14 = 5,585. De mme, f15 = 5,587 et f16 = 5,589.

216

Statistique descriptive

= f S' = 5,583 0,737 , soit Y = 4,11 . Le chiffre daffaires prvisionnel pour Do Y 13 13 13 13 le premier trimestre de 2007 est de 4,11 milliers deuros. = f S' = 5,585 1,249 , soit Y = 6,97 . Le chiffre daffaires prvisionnel pour le Y 14 14 14 14 deuxime trimestre de 2007 est de 6,97 milliers deuros. = 4,15 ; Y = 7,11 . Les chiffres daffaires prvisionnels pour les troisime De mme, Y 15 16 et quatrime trimestres de 2007 sont respectivement de 4,15 et 7,11 milliers deuros.

4. Les deux courbes sont reprsentes sur le mme graphique (voir figure 7.31), avec le temps, t, en abscisses, et la tendance ft et les valeurs du chiffre daffaires Yt prolong en ordonnes. de Y t
Chiffre d'affaires trimestriel ( )

Figure 7.31
Chiffre daffaires, tendance et prvisions.

8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 2005 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Trimestre 2006 2007 2008 Srie brute Trend linaire Srie ajuste

Les sries chronologiques

217

Bibliographie
CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DARMOIS G., Statistiques et applications, Armand Colin, 1952. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DOR E., conomtrie, Collection Synthex, Pearson Education, 2004. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement mathmatique A.P.M.E.P., 1967. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. WONNACOTT T. et R., Statistiques, Economica, 1984.

218

Statistique descriptive

Les indices
1

1. Les indices lmentaires......220 2. Les indices synthtiques ......226 Problmes et exercices 1. Indices lmentaires ...........236 2. Indices synthtiques............238 3. Coefficients budgtaires et relation entre indices.......240

Dans de nombreux domaines, notamment dans le domaine conomique, nous devons savoir dcrire et analyser lvolution temporelle ou spatiale de diffrentes grandeurs. Les pourcentages ne disposent pas des qualits propres dcrire simplement ces variations1. Lindicateur fondamental de lvolution des variables conomiques et sociales est lindice. On distingue deux types dindices : les indices portant sur une seule grandeur, appels indices lmentaires, et les indices portant sur des grandeurs complexes (agrgation de plusieurs grandeurs), nomms indices synthtiques dans le cas o les grandeurs sont de mme nature (indice des prix regroupant un panier de biens) ou indices composites quand il sagit de grandeurs de natures diffrentes (lindice boursier de Shanghai, qui comprend la fois les actions A libelles en yuans et les actions B libelles en devises, est un indice composite). Il est vivement conseill au lecteur daller explorer le site de lInsee (www.insee.fr), qui offre une grande richesse dinformation sur les diffrents indices.

1. Les pourcentages, par exemple, ne sajoutent pas : une hausse de 10 % suivie dune hausse de 20 % correspond une hausse globale de 32 % (coefficient multiplicateur).

219

Nous verrons que les indices synthtiques apparaissent comme des moyennes pondres (arithmtiques, gomtriques ou harmoniques) des indices lmentaires et nous dfinirons les coefficients budgtaires qui constituent les pondrations.

Les indices lmentaires


Nous commencerons par un petit rappel sur les calculs de variations, avant dexposer les indices lmentaires et leurs proprits.

1.1

VOCABULAIRE DES VARIATIONS, COEFFICIENT MULTIPLICATEUR


Avant de dfinir les indices, il est important de dire ici quun indice value une variation et non un niveau et quil mesure cette variation en valeur relative et non absolue. Ainsi, dire quen 2007 lindice base 100 en 2000 du prix du pain (baguette) est de 123,72 et celui du caf moulu de 103,8 nindique videmment pas que le prix de la baguette est suprieur celui du caf, mais que la baguette a augment de 23,72 % de 2000 2007 et le caf de 3,8 % dans la mme priode. Nous commencerons donc par clarifier le vocabulaire des outils permettant de mesurer les variations dune grandeur (conomique, sociale, etc.) et par dfinir le coefficient multiplicateur.

Dfinitions

La variation absolue dune grandeur G de la date 0 la date t est la diffrence entre la valeur finale ( la date t) et la valeur initiale ( la date 0) de cette grandeur. Cette variation absolue est note : G = Gt G0. Une variation absolue positive traduit une augmentation et une variation ngative une baisse. La variation relative dune grandeur G de la date 0 la date t est le rapport entre la variation absolue et la valeur initiale de cette grandeur. Cette variation relative est note : G / G = (Gt G0) / G0. Une variation relative sexprime souvent en pourcentage de la valeur initiale, ce pourcentage tant donn par : (Gt G0) 100 / G0. Quand une grandeur passe de la valeur G0 la valeur Gt, on note a le coefficient multiplicateur dfini par : a = Gt / G0. Un coefficient plus grand que 1 traduit une hausse et un coefficient infrieur 1, une baisse. On notera que le coefficient multiplicateur ne possde pas dunit.

Exemple 8.1

Coefficient multiplicateur

Le tableau suivant donne la population de la France (France mtropolitaine et DOM) :


Anne 2003 2004 Population (en milliers) 62 042 62 445

Source : Insee, Tableaux de lconomie franaise, 2007

220

Statistique descriptive

Nous pouvons calculer la variation absolue, la variation relative et le coefficient multiplicateur de 2003 2004. Nous noterons respectivement P0 et P1 les populations en 2003 et 2004. La variation absolue est : P = P1 P0 = 62 445 62 042 = 403 milliers dhabitants. La variation relative est : P / P = (P1 P0) / P0 = 403 / 62 042 = 0,0065, soit une augmentation de 0,65 %. Le coefficient multiplicateur est : a = P1 / P0 = 62 445 / 62 042 = 1,0065 ; il est suprieur 1 et traduit une hausse dont le taux est : t = a 1 = 0,0065. On rappelle que, pour mesurer leffet global de plusieurs variations successives, on doit employer les coefficients multiplicateurs, comme le montre lexemple 8.2.
Exemple 8.2 Coefficient multiplicateur et pourcentages

Supposons quune grandeur subisse une augmentation de 30 % suivie dune baisse de 10 % et mesurons leffet global de ces variations en pourcentage : nous utiliserons les coefficients multiplicateurs successifs a1 = 1,30 et a2 = 0,90, ce qui donne un coefficient multiplicateur global : a = a1 a2 = 1,30 0,90 = 1,17, soit une hausse de 17 %. On constate que les pourcentages ne sajoutent pas. Notons p0 le prix hors taxe et p1 le prix TTC, aprs application de la TVA 19,6 %. Dterminons la variation en pourcentage, permettant de revenir du prix TTC au prix HT. On a : p1 = 1,196 p0, soit p0 = p1 / 1,196, ce qui donne un coefficient multiplicateur a = 1 / 1,196 = 0,8361 quand on passe de p1 p0, soit une baisse de taux : t = 1 0,8361 = 0,1639, soit 16,39 %. La TVA reprsente 16,39 % du prix TTC affich en magasin. On constate que les pourcentages ne sont pas rversibles, cest--dire quune hausse de 19,6 % nest pas neutralise par une baisse de 19,6 %. Lexemple 8.2 nous a montr les dfauts des pourcentages et la ncessit dutiliser un outil plus adapt la mesure des variations : lindice.

1.2

INDICES LMENTAIRES BASE 1 ET BASE 100


Pour dcrire les variations de grandeurs simples telles que le prix du baril de ptrole, le smic, le taux de fcondit, on compare leurs valeurs dans le temps ou dans lespace en effectuant le rapport des valeurs de la grandeur considre deux dates diffrentes (indice chronologique), ou en deux lieux distincts (indice spatial).

Dfinitions

Indice base 1 : on appelle indice lmentaire de la grandeur simple G, la date t, base 1 la date 0, le rapport not It / 0 (G) = Gt / G0. La date 0 est appele la date de rfrence, et la date t la date courante. On reconnat le coefficient multiplicateur. On notera que I0 / 0 (G) = 1. Indice base 100 : on appelle indice lmentaire de la grandeur simple G, la date t, base 100 la date 0, le rapport not It / 0 (G) et dfini par : It / 0 (G) = (Gt / G0) 100. On notera que I0 / 0 (G) = 100.

Les indices

221

Un indice ne possde pas dunit. Un indice suprieur 100 reprsente une hausse et un indice infrieur 100 une baisse. On parlera souvent danne de base ou danne de rfrence pour dnommer la date 0. Les indices base 100 sont les plus courants, car bien adapts aux pourcentages. On notera que les bases 1 ou 100 napparaissent pas dans la notation, mais quon indique au dpart le type dindice utilis.
Exemple 8.3 Indices base 1 et base 100

Reprenons lexemple 8.1. Nous pouvons crire, en notant P la population de la France : I2004 / 2003 (P) = 1,0065 en utilisant un indice base 1, ce qui signifie que la population a augment de 2003 2004 comme une grandeur qui valait 1 en 2003 et qui vaut 1,0065 en 2004. Si lon utilise un indice base 100, on notera : I2004 / 2003 (P) = 100,65, ce qui donne la mme variation quune grandeur qui valait 100 en 2003 et 100,65 en 2004. Il est possible de calculer le pourcentage de variation entre deux priodes grce aux deux indices relatifs ces priodes. partir de deux indices base 100 anne 0, dune mme grandeur, aux dates respectives t1 et t2, la variation en pourcentage de la grandeur de lanne t1 lanne t2 est donne par la variation relative de lindice : It2 /0 (G) It1/0 (G) 100 . Au numrateur, la variation absolue It2/0 (G) It1/0 (G) se mesure It1/0 (G) en points dindice.
Exemple 8.4 Points dindice et variation en pourcentage

Le tableau suivant donne la population de la France (en milliers, source Insee 2007) et les indices base 100 en 1990 :
Anne 1990 2000 2005 Pt 58 171 60 751 62 818 It / 1990 (P) 100,00 104,44 107,99

Utilisons les indices It / 1990 (P) pour dterminer la variation en pourcentage de la population de 2000 2005. De 2000 2005 la variation absolue de lindice a t de : I2005 / 1990 (P) I2000 / 1990 (P) = 107,99 104,44 = 3,55 ; lindice a augment de 3,55 points dindice de 2000 2005 ; on dit aussi que cet indice a pris 3,55 points dindice. On peut valuer la variation en pourcentage de la population de 2000 2005 en valuant la variation relative de lindice, cest--dire : (I2005 / 1990 (P) I2000 / 1990 (P)) / I2000 / 1990 (P) = 3,55 / 104,44 = 0,034, soit une hausse de 3,4 %.

222

Statistique descriptive

1.3

PROPRITS DES INDICES LMENTAIRES


Les indices lmentaires possdent des proprits qui manquent aux pourcentages et que nous allons exposer ici. Ces proprits sont dtailles dans le focus 8.1. On notera au pralable que les formules sur les indices lmentaires sont donnes sous forme duale : en base 1 pour la comprhension et en base 100 pour lusage.

La circularit, ou transfrabilit
Cest la proprit fondamentale des indices, qui permet de voyager dans le temps et qui se 1 traduit par une relation multiplicative, de type relation de Chasles . On rappelle que la relaJJJ G JJ G JJJ G tion de Chasles est la relation vectorielle MP + PS = MS , qui lie trois points quelconques de lespace. Cest une relation base sur la correspondance (type SNCF) : pour aller de Marseille Strasbourg, allez de Marseille Paris et prenez la correspondance Paris pour Strasbourg.
Dfinition Un indice est transfrable si et seulement si il vrifie la relation : pour les indices base 1 : It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G) ; pour les indices base 100 : 100It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G).

On devra contrler dans les formules base 100 lhomognit. Dans la formule multiplicative prcdente il y a deux indices dans le membre de droite et un seul dans celui de gauche, il y a donc un facteur 100 pour quilibrer la relation.
Proprit Les indices lmentaires sont transfrables.

La rversibilit
La rversibilit consiste permuter lanne courante et lanne de rfrence.
Dfinition Un indice est rversible si et seulement si il vrifie la relation : pour les indices base 1 : It1 / 0 (G) = 1 / I0 / t1 (G) ; pour les indices base 100 : It1 / 0 (G) = 10000 / I0 / t1 (G).

On notera que ces formules dcoulent de la circularit. En base 1, It1 / 0 (G) I0 / t1 (G) = It1 / t1 (G) = 1 (base 1). On retrouve une relation de Chasles avec un aller-retour . It1 / 0 (G) I0 / t1 (G) = 100It1 / t1 (G) = 100 (base 100).
Proprit Les indices lmentaires sont rversibles.

Lenchanement
Dans de nombreuses situations, on doit suivre lvolution dune grandeur dune anne sur lautre et on utilise alors des indices chanes, en prenant pour anne de rfrence lanne qui prcde lanne courante.
1. Michel Chasles, mathmaticien franais (1793-1830) dont le nom est li la relation du mme nom.

Les indices

223

Dfinition

Les indices chanes sont des indices pour lesquels lanne de rfrence est lanne qui prcde lanne courante. Ils sont nots : It / t 1 (G). La gnralisation de la transfrabilit donne : pour les indices base 1 : It / t 1 (G) It
1/ t 2

(G) ) I1 / 0 (G) = It / 0(G) ;


t1

pour les indices base 100 : It / t 1 (G) It 1 / t 2 (G) ) I1 / 0 (G) = 100 il y a t indices dans le membre de gauche et un seul droite). Proprit Les indices lmentaires sont enchanables.

It / 0(G) (car

Focus 8.1

Proprits des indices lmentaires


Le tableau suivant donne le prix moyen TTC de leau la consommation en mtropole, en janvier de chacune des annes. Ces prix sont suivis des indices du prix de leau base 100 en 2002 et des indices enchans (I2002 / 2001 ntant pas calculable, puisque 2001 nest pas communiqu).
Anne 2002 2003 2004 2005 2006
Source : Insee, 2007

Prix 165,65 170,45 172,19 178,93 187,19

It / 2002 (P) 100 102,90 103,95 108,02 113,00

It / t 1 (P) _ 102,90 101,02 103,91 104,62

On vrifie lensemble des proprits des indices lmentaires : Circularit : on a (base 100) : I2005 / 2003 (P) = (178,93 / 170,45) 100, I2003 / 2002 (P) = (170,45 / 165,65) 100 et I2005 / 2002 (P) = (178,93 / 165,65) 100 ; on vrifie sans effectuer les calculs la circularit : I2005 / 2003 (P) I2003 / 2002 (P) = 100 I2005 / 2002 (P), le facteur 170,45 (prix intermdiaire de 2003) sliminant. Rversibilit : on a (base 100) I2005 / 2002 (P) = (178,93 / 165,65) 100 = 108,02 et I2002 / 2005 (P) = (165,65 / 178,93) 100, et on tablit : I2005 / 2002 (P) I2002 / 2005 (P) = 10 000 soit la formule de rversibilit, ce qui donne : I2002 / 2005 (P) = 10 000 / 108,2 = 92,42. Interprtation : de 2002 2005 le prix de leau a augment de 8,02 %. La rversibilit permet de conclure quen 2002 le prix de leau tait 7,58 % (100 92,42) moins lev quen 2005. Indices enchans : on peut vrifier que I2006 / 2005 (P) I2005 / 2004 (P) I2004 / 2003 (P) I2003 / 2002 (P) = 113 003 320 soit environ (approximations) : 100 I2006 / 2002 (P) = 1 000 000 (187,19 / 165,5) 100.
3

224

Statistique descriptive

Oprations
Les indices lmentaires possdent des proprits prcieuses relatives au produit et au quotient.
Proprits Produit En base 1, lindice lmentaire dun produit de deux grandeurs est le produit des indices. En base 100, on a : It / 0(A B) = It / 0(A) It / 0(B) / 100. Quotient En base 1, lindice lmentaire dun quotient de deux grandeurs est le quotient des indices. En base 100, on a : It / 0(A / B) = (It / 0(A) / It / 0(B)) 100.

On citera notamment lindice de pouvoir dachat, qui sobtient par la formule : It / 0(Pouvoir achat) = (It / 0(S) / It / 0(P)) 100, S dsignant le salaire et P les prix. Il sagit donc du quotient de lindice des salaires nominaux par lindice des prix.
Exemple 8.5 Indices lmentaires et oprations

Daprs une tude de lInsee, de 1986 1998, le nombre dentres au cinma est pass de 170 millions 160 millions alors que le prix de la place de cinma passait de 4 5,90 . Dans le tableau suivant, on note P le prix dune place (en euros), Q la quantit de places vendues (en millions) et V la valeur globale (qui correspond ici la recette : V = P Q).
Anne 1986 1998
Source : Insee, 2002

P 4 5,9

Q 170 160

V 680 944

On peut calculer les indices lmentaires de quantit et de prix en 1998, base 100 en 1986. On a : I1998 / 1986 (P) = (5,90 / 4) 100 = 147,5 ; I1998 / 1986(Q) = (160 / 170) 100 = 94,12 et I1998 / 1986(V) = (944 / 680) 100 = 138,82. On vrifie que I1998 / 1986(V) = I1998 / 1986(P) I1998 / 1986(Q) / 100 = 147,5 94,12 / 100. Ainsi, la hausse de 38,82 % de la recette est due leffet conjugu dune baisse de la quantit et dune augmentation du prix.

Les indices

225

1.4

LINDEXATION
La publication des grands indicateurs fait rgulirement la une des journaux, et lindice des prix tient rgulirement la vedette, du fait quil joue un rle central dans lapprciation de la situation conomique du pays, mais aussi de par les rpercussions 1 importantes quil entrane par le biais des indexations . Le smic est revaloris au 1 juillet de chaque anne, notamment en fonction de lvolution de lindice des prix la consommation (indice pour les mnages urbains dont le chef est ouvrier ou employ, hors tabac ). Lindexation a pour but dassurer un maintien du pouvoir dachat ; elle ncessite une dure ou priodicit (lanne, dans le cas er du smic), une date (1 juillet, pour le smic) et un indice de rfrence. Lexemple 8.6 donne un exemple pour un loyer index sur lindice du cot de la construction (ICC, indice trimestriel).
er

Exemple 8.6

Indexation

Supposons quun locataire ait sign le 15 janvier 2007 un bail avec un loyer mensuel de 750 euros, ce loyer tant rvalu chaque anne la date anniversaire du bail, lindice de e rfrence tant lindice du cot de la construction (ICC) du 2 trimestre 2006. Lindice du e e cot de la construction du 2 trimestre 2006, base 100 au 4 trimestre 1953, vaut 1 366 et e celui du 2 trimestre 2007, 1 435. Calculons le loyer de ce locataire au 15 janvier 2008. Ce loyer va suivre la progression de lindice sur un an, ce qui donne un coefficient multiplicateur a = 1435 / 1366 = 1,0505, ce qui donnera un nouveau loyer de : 750 1,0505 = 787,88 euros.

Les indices synthtiques


sa cration en 1946, lInsee a repris lindice des 34 articles tabli base 100 en 1914 et base 100 en 1938, calcul par la Statistique gnrale de la France, et qui faisait suite un indice de 13 articles publi depuis 1916. La liste des 34 articles comprenait 29 denres alimentaires, 4 articles de chauffage et clairage, un seul article (le savon) pour lentretien mnager ; la plupart des produits manufacturs, dont lhabillement, ntaient pas reprsents, les services tant compltement absents. Lindice a beaucoup volu, et lIPC (indice des prix la consommation) base 1998 est la septime gnration dindice. Il couvre lensemble de la population et du territoire (mtropole et DOM) et se dcompose aujourdhui en 305 postes, chacun deux tant reprsent par un indice ( ufs , pantalons pour enfants , coiffeurs pour femme , maisons de retraite ). Il exclut le tabac et les alcools. On comprend que le problme pour composer un bon indice des prix vient de la difficult prendre en compte limportance de chacun des postes dans la constitution dun indice synthtique et tenir compte des volutions des modes de consommation.
1. Index dsignait, chez les Romains, celui qui montre .

226

Statistique descriptive

Focus 8.2

Comment construire un indice synthtique ?


Le tableau suivant donne pour les annes 2001 et 2007 les valeurs du smic horaire brut en euros (heures lgales). On a suppos une majoration de 25 % pour les heures supplmentaires en 2001 et de 40 % en 2007 ; les dures lgales du travail mensuel sont celles qui ont prvalu dans les entreprises dans la priode du passage aux 35 heures et on a suppos que lemploy moyen assurait en 2001 en moyenne 2 heures supplmentaires par mois et en 2007 4 heures supplmentaires par mois. Comment dfinir un bon indice de salaire en 2007, base 100 en 2001 ?
Heures Lgales Supplmentaires Smic 2001 6,67 8,3375 Quantit 2001 169 2 Smic 2007 8,44 11,816 Quantit 2007 151,67 4

On peut calculer pour chacune des annes un salaire global, not S, et en dduire ainsi un indice : S2001 = 169 6,67 + 2 8,3375 = 1 143,90 et S2007 = 151,67 8,44 + 4 11,816 = 1 327,36 , ce qui donnerait pour lindice de salaire global : I2007 / 2001 (S) = (1 327,36 / 1 143,9) 100 = 116,03, soit une augmentation de 16,03 %. Cependant, cet indice est brouill , dans la mesure o sa signification traduit simultanment une volution de la quantit dheures de travail et une volution du salaire horaire, sans que lon puisse isoler limpact de ces volutions. Pour rsumer les indices lmentaires de salaire, on va donc introduire un indice synthtique de salaire horaire, de faon gommer linfluence due la variation des quantits, en les considrant comme constantes. On peut alors opter pour deux possibilits : Fixer les quantits leur niveau pris lanne de base, cest--dire privilgier le mode de travail du salari de 2001. On forme alors lindice de Laspeyres des salaires horaires, not : L2007 / 2001(s) = (169 8,44 + 4 11,816) / (169 6,67 + 2 8,3375) 100 = (1 449,99 / 1 143,91) 100 = 126,76. Fixer les quantits leur niveau pris lanne courante, cest--dire privilgier le mode de travail du salari de 2007. On forme lindice de Paasche des salaires horaires, not : P2007 / 2001(s) = (151,67 8,44 + 4 11,816) / (151,67 6,67 + 4 8,3375) 100 = (1 327,36 / 1 044,99) 100 = 127,02. Le choix entre ces deux indices prsente un certain arbitraire, et nous verrons plus 1 loin que le statisticien amricain Fisher a propos dans les annes 1920 un indice idal , qui est la moyenne gomtrique des deux indices prcdents. Nous allons maintenant dfinir les indices synthtiques de Laspeyres et de Paasche , indices de prix et de quantits. Ces indices vont respecter le principe voqu dans le focus prcdent : dans un indice de prix, seuls les prix varient, les quantits restant constantes,
1. Irving Fisher, conomiste, mathmaticien amricain (1867-1947). 2. tienne Laspeyres, conomiste, statisticien allemand (1834-1913). 3. Hermann Paasche, statisticien, conomiste allemand (1851-1925).
2 3

Les indices

227

et, dans un indice de quantit, seules les quantits varient, les prix restant fixes. Auparavant nous allons introduire les notations et dfinir les coefficients budgtaires.

2.1

LES COEFFICIENTS BUDGTAIRES


Soit un panier de consommation, compos de n produits, le produit i (i entier variant de 1 n) ayant pour prix unitaires respectifs Pi0 et Pit aux annes de base (anne 0) et courante (t), les quantits consommes tant respectivement notes Qi0 et Qit . On notera respectivement Vi 0 et Vit les valeurs globales du bien i aux dates 0 et t et V 0 et V t les valeurs globales de ce panier aux annes de base et courante, avec Vi0 = Pi0Qi0 ,
Vit = Pit Qit , V 0 = Pi0Qi0 et V t = Pit Qit .
i =1 i =1 n n

Dfinition

tant donn un panier de consommation, on appelle coefficient budgtaire dun bien j de ce panier, lanne 0 (respectivement lanne t), la part du budget total de lanne 0 (respectivement lanne t) affecte au bien j ; ce coefficient sera not C j0 (respectivement C jt ) et dfini par : C j0 =
Pj0Q j0

P
i =1

Pj0Q j0 V
0

Qi0

(respectivement C jt =

Pjt Q jt

P Q
t i =1 i

=
t i

Pjt Q jt Vt

).

On a :

C
i =1

0 i

C
i =1

t i

= 1 ou 100 % sils sont exprims en pourcentage (voir les masses

relatives, chapitre 4, section 3 sur la concentration).


Exemple 8.7 Coefficients budgtaires

Considrons le panier de consommation suivant compos de deux denres, la baguette de pain et la viande de buf, lanne de rfrence tant lanne 1980 et lanne courante, lanne 2003. Les quantits de consommation Q sont donnes pour un mois, en nombre de baguettes et en kilos de viande. Les prix sont nots P et les valeurs globales V.

Bien Baguette Viande de buf


2

Q i0 1980 21,00 1,23

P i0 1980 0,15 6,74

V i0 1980 3,20 8,30

Q it 2003 18,00 2,10


2

P it 2003 0,75 16,50

V it 2003 13,50 34,58

V 0 = Pi0Qi0 = 3,20 + 8,30 , soit V = 11,50 et


0

i =1

V t = Pit Qit = 13,50 + 34,58 , soit


i =1

V = 48,08.

228

Statistique descriptive

Calculons les coefficients budgtaires de chacun des biens lanne de base et lanne V 0 3,20 0 courante. On a pour le bien 1 (pain) : C1 = 10 = = 0,2783 , soit 27,83 % du budget V 11,51 du consommateur de 1980 consacr au pain. On trouve de mme : V 0 8,30 13,50 13,50 0 t t C2 = 20 = = 0,7217 ; C1 = = 0,2808 et C2 = = 0,7192 . V 11,51 48, 08 48, 08

2.2

LES INDICES DE LASPEYRES


Nous allons dfinir deux indices de Laspeyres, lun relatif au prix, lautre aux quantits.

Indice des prix de Laspeyres


Dfinition On appelle indice des prix de Laspeyres, anne t, base 100 lanne 0, lindice not Lt / 0(P) obtenu en fixant les quantits lanne de base. Il est dfini par : Lt / 0 (P ) =

Q P Q P
i =1 i =1 n

0 t i i

100 .

0 0 i i

On a : Lt / 0 ( P ) =

Q P Q P
i =1 i =1 n

0 t i i

100 =

Q P
i =1

0 t i i

0 0 i i

V0

100 =

Qi0 Pi0 Pit ( 0 100) ; on reconnat dans 0 Pi i =1 V


n

Qi0 Pi0 est Ci0 le coefficient V0 budgtaire du bien i, lanne de base. On rappelle que les coefficients budgtaires de lanne 0 ont pour somme 1. Do la proprit suivante.

la parenthse lindice lmentaire du bien i et le coefficient

Proprit

Lindice des prix de Laspeyres est la moyenne arithmtique pondre des indices lmentaires de prix des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne de base. Indice des prix de Laspeyres

Exemple 8.8

Reprenons lexemple 8.7 et calculons lindice des prix de Laspeyres en 2003, base 100 en 1980.
L2003 /1980 ( P ) =

Q P Q P
i =1 i =1 2

0 t i i

100 =

0 0 i i

21 0,75 + 1,23 16,5 100 = 313,66 , soit une augmenta21 0,1525 + 1,23 6,74

tion de 213,66 %. Laspeyres sintresse au mode de consommation du consommateur de 1980 : si ce dernier consomme en 2003 de la mme faon quen 1980, cela lui cotera 213,66 % plus cher.

Les indices

229

En utilisant la proprit de lindice des prix de Laspeyres, on trouve effectivement que la valeur de cet indice est la moyenne arithmtique des indices lmentaires de prix pondre par les coefficients budgtaires de lanne de base : pour la baguette, 0,75 I 2003 /1980 ( P1 ) = 100 = 491,80 et C10 = 0,2783 ; pour la viande de buf, 0,1525 16,5 0 I 2003 /1980 ( P2 ) = 100 = 244,96 et C2 = 0,7217 , ce qui donne pour lindice des prix de 6,74 Laspeyres : L2003 /1980 ( P ) = 0,2783 491,8 + 0,7217 244,96 = 313,66 .

Indice des quantits de Laspeyres


Dfinition On appelle indice des quantits de Laspeyres, anne t, base 100 lanne 0, lindice not Lt / 0(Q) obtenu en fixant les prix lanne de base. Il est dfini par :
L t / 0 (Q ) =

P Q
0

P Q
0 i =1 i

i =1 n

t i

100

0 i

Proprit

Lindice des quantits de Laspeyres est la moyenne arithmtique pondre des indices lmentaires de quantits des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne de base. Indice des quantits de Laspeyres

Exemple 8.9

Reprenons lexemple 8.7 et calculons lindice des quantits de Laspeyres en 2003, base 100 en 1980 : L2003 /1980 ( Q ) =

P Q
0 i

t i

P Q
0 i i =1

i =1 2

100 =

0 i

0,1525 18 + 6,74 2,1 100 = 146,54 , soit 0,1525 21 + 6,74 1,23

une augmentation de 46,54 % des quantits.

Indice de Laspeyres chan


En pratique, lIPC (indice des prix la consommation) est un indice de Laspeyres et pose donc la question fondamentale : combien de temps garder le mme panier ? En France, le panier est mis jour chaque anne et lindice est calcul sous la forme dun indice de Laspeyres chan annuellement. Les pondrations utilises pour agrger les 21 000 indices lmentaires sont mises jour chaque anne. On adopte en gnral pour les sries mensuelles le mois de dcembre prcdent comme base intermdiaire. Par exemple : I dc 2007 / 98 ( P ) = formule de Laspeyres.
I dc 2007 / dc 2006 I dc 2006 / 98 , les indices tant calculs avec la 100

230

Statistique descriptive

Nous rappelons ici que mathmatiquement lindice de Laspeyres nest pas transfrable, mme si, dans la pratique, sur des priodes courtes, on obtient des approximations acceptables.

2.3

LES INDICES DE PAASCHE


Nous allons dfinir deux indices de Paasche, lun relatif au prix, lautre aux quantits.

Indice des prix de Paasche


Dfinition On appelle indice des prix de Paasche, anne t, base 100 lanne 0, lindice not Pt / 0(P) obtenu en fixant les quantits lanne courante. Il est dfini par : Pt / 0 (P ) =

Q P Q P
i =1 i =1 n

t t i i

100 .

t 0 i i

On a :
Pt / 0 {P} =

Q P Q P
i =1 i =1 n

t t i i

100 =

Vt

t 0 i i

Q P
i =1

100 =

Vt

t 0 i i

Q P
i =1

t t i i

Pi t Pi
0

100 =

1 1 ; = n 0 Cit Q P Pi t i =1 V 100Pi i =1 I t / 0 ( Pi )
n t t i i t

on reconnat dans la parenthse linverse de lindice lmentaire du prix du bien i et le Qt P t coefficient i t i est Cit , le coefficient budgtaire du bien i, lanne courante. Do la V proprit suivante.
Proprit Lindice des prix de Paasche est la moyenne harmonique pondre des indices lmentaires de prix des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne courante. Indice des prix de Paasche

Exemple 8.10

Reprenons lexemple 8.7 et calculons lindice de Paasche des prix en 2003, base 100 en 1980, de deux faons : partir de la dfinition et comme moyenne harmonique des indices lmentaires de prix.
L2003 /1980 ( P ) =

Q P Q P
t i i =1 i =1 2

t t i i

100 =
0

18 0,75 + 2,10 16,5 100 = 285,14 , soit une augmenta18 0,1525 + 2,10 6,74

tion de 185,14 %. Paasche sintresse au mode de consommation du consommateur de 2003 : si ce dernier avait consomm en 1980 de la mme faon quen 2003, cela lui aurait cot 185,14 % plus cher en 2003 quen 1980. En utilisant la proprit de lindice des prix de Paasche, on vrifie que la valeur de cet indice est la moyenne harmonique des indices lmentaires de prix pon-

Les indices

231

dre par les coefficients budgtaires de lanne courante : pour la baguette, 0,75 I 2003 /1980 ( P1 ) = 100 = 491,80 et C10 = 0,2808 ; pour la viande de buf, 0,1525 16,5 t I 2003 /1980 ( P2 ) = 100 = 244,96 et C2 = 0,7192 , ce qui donne pour lindice des prix de 6,74 1 1 Laspeyres : Pt / 0 ( P ) = 2 = = 285,14 . t 0,2808 0,7192 Ci + 491,8 244,96 i =1 It /0 ( P i) On note que lindice des prix de Paasche est infrieur lindice des prix de Laspeyres, ce qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison entre ces indices (voir section 2.4).

Indice des quantits de Paasche


Dfinition On appelle indice des quantits de Paasche, anne t, base 100 lanne 0, lindice not Pt / 0(Q) obtenu en fixant les prix lanne courante. Il est dfini par :
Pt / 0 (Q ) =

P Q
t i =1 n i i =1

t i

PitQi0

100 .

Proprit

Lindice des quantits de Paasche est la moyenne harmonique pondre des indices lmentaires de quantits des biens composant le panier, les coefficients de pondration tant les coefficients budgtaires de lanne courante. Indice des quantits de Paasche

Exemple 8.11

Reprenons lexemple 8.7 et calculons lindice de Paasche des quantits en 2003, base 100 en 1980 :
P2003 /1980 ( Q ) =

P Q
t i

t i

P Q
t i i =1

i =1 2

0 i

0,75 18 + 16, 50 2,1 100 = 133,22 , 0,75 21 + 16,50 1,23

soit

une

augmentation de 33,22 % des quantits. On note que lindice des quantits de Paasche est infrieur lindice des quantits de Laspeyres, ce qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison entre ces indices (voir section 2.4).

232

Statistique descriptive

2.4

LIENS ET COMPARAISONS ENTRE LES INDICES DE LASPEYRES ET DE PAASCHE


Les indices de Paasche et de Laspeyres ne possdent pas les proprits de circularit et de rversibilit des indices lmentaires. Ils ne vrifient pas non plus la proprit relative au produit mais sont lis par une relation faisant intervenir lindice de valeur globale.

Indice de valeur globale


V Lindice de valeur globale est donn par : I t /0 (V ) = 0 100 = V
t

P Q
t i

t i

P Q
0 i i =1

i =1 n

100 . On

0 i

rappelle (voir section 2.1) que V 0 et V t sont les valeurs globales dun panier aux annes de base et courante, telles que V 0 = Pi0Qi0 et V t = Pit Qit .
i =1 i =1 n n

Proprit

Lindice de valeur globale est li aux indices de Laspeyres et de Paasche par la relation suivante : 100It / 0 (V ) = Lt / 0 (P ) Pt / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (P ) .

La preuve est immdiate, elle sobtient en utilisant les dfinitions des indices de Laspeyres et de Paasche.

Comparaison et utilisation des indices de Laspeyres et de Paasche


Lindice de Laspeyres est le plus couramment utilis, car il permet de conserver la mme pondration pour toutes les annes : celle de lanne de base. Cet avantage du point de vue des calculs devient vite un inconvnient, car le panier fig sloigne de plus en plus de la ralit conomique. Pour un indice de prix, par exemple, lindice de Laspeyres pondre les diffrents articles proportionnellement aux habitudes de consommation du pass, alors que celui de Paasche prend en compte les habitudes de consommation actuelles. Lincorporation invitable dans les indices de prix darticles dont la quantit produite a nettement augment et dont le prix relatif a de ce fait souvent diminu, introduit des disparits dans les rsultats obtenus pour les indices de Paasche et de Laspeyres. Mathmatiquement, on dmontre que la moyenne harmonique est infrieure ou gale la moyenne arithmtique. Lindice de Laspeyres tant une moyenne arithmtique des indices lmentaires et lindice de Paasche une moyenne harmonique, en gnral , lindice de Paasche sera infrieur ou gal lindice de Laspeyres. Cependant, il faut prendre en compte que la situation est plus complexe. Les coefficients de pondration tant diffrents, ils peuvent influer sur la tendance de lindice de Laspeyres surestimer les variations et celle de lindice de Paasche la sous-estimer. Dans le cas dun indice de prix, le jeu des substitutions renforce le phnomne : on cesse en gnral dacheter un produit dont le prix augmente pour le remplacer par un produit substituable, au prix plus avantageux, et lindice de Laspeyres, qui utilise les quantits de la priode de dpart, donne un poids trop grand aux produits dont les

Les indices

233

prix augmentent beaucoup, alors que la part de ces produits va diminuer dans le panier du consommateur.
Proprit Pseudo-rversibilit : si lon inverse le temps dans un indice de Laspeyres, on obtient une relation qui sapparente la rversibilit, mais avec un indice de Paasche, 104 L 0 / t (P ) Pt / 0 (P ) = 104 , soit L 0 / t (P ) = . Pt / 0 (P )

2.5

LINDICE IDAL DE FISHER


En 1922, lconomiste amricain Irving Fisher propose un indice synthtique quil qualifie didal, dans la mesure o il est rversible.

Dfinition

Lindice synthtique de Fisher est dfini comme tant la moyenne gomtrique des indices de Laspeyres et de Paasche. Pour les prix : Ft / 0 (P ) = Lt / 0 (P ) Pt / 0 (P ) . Pour les quantits : Ft / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (Q ) .

Proprit

Rversibilit de lindice de Fisher :


F0 / t (P ) = L 0 / t (P ) P0 / t (P ) = 104 104 10 4 104 = = . Pt / 0 (P ) Lt / 0 (P ) Lt / 0 (P ) Pt / 0 (P ) Ft / 0 (P )

Exemple 8.12

Indice des prix de Fisher

Reprenons lexemple 8.7 et calculons lindice des prix de Fisher, en 2003, base 100 en 1980 :
F2003 /1980 ( P ) = L2003 /19800 ( P ) P2003t /19800 ( P ) = 313,66 285,14 = 299, 06 , soit une aug-

mentation de 199,06 %. On notera que lindice de Fisher est toujours compris entre lindice de Paasche et celui de Laspeyres puisquil est dfini comme leur moyenne gomtrique.

234

Statistique descriptive

Conclusion
lissue de ce chapitre, le lecteur doit connatre les diffrents indices, lmentaires et synthtiques, ainsi que leurs proprits qui sont rsumes dans le tableau ci-aprs. Mais il est videmment extrmement important ce stade de se familiariser avec les grands indices conomiques, boursiers, et de donner un sens ces formules.
Indice Notation Rfrence Moyenne Laspeyres (1864) L Anne de base Arithmtique Paasche (1874) P Anne courante Harmonique Gomtrique Fisher (1922) F

Pondrations Coefficients budgtaires anne de base Coefficients budgtaires anne courante Rversibilit Non Circularit Agrgation Effet Non Oui Survalue la hausse Non Non Oui Sous-value la hausse Oui Non Non

On note que : La moyenne gomtrique de deux nombres est comprise entre ces deux nombres, on a donc en gnral : Pt / 0 Ft / 0 Lt / 0 . Les trois indices synthtiques sont lis par la relation : Ft / 0 ( P ) Ft / 0 ( Q ) = Lt /0 ( P ) Pt /0 ( Q ) = Lt /0 ( Q ) Pt / 0 ( P ) = 100 I t /0 (V ) . Cette relation se dmontre facilement partir de la dfinition de lindice de Fisher et de la relation liant les indices de Laspeyres, Paasche et lindice de valeur globale (section 2.4). Lindice de Fisher na pas une structure de moyenne comme les indices de Paasche et de Laspeyres ; il ne satisfait pas la proprit dagrgation. En effet, les indices de Laspeyres et de Paasche ont des structures de moyennes, ce qui permet dutiliser des moyennes partielles, cest--dire de scinder lensemble considr en plusieurs sousensembles ; ces indices possdent la proprit dagrgation. Par exemple, pour calculer lindice des prix la consommation, qui regroupe 305 postes de dpenses, on utilise la formule de Laspeyres, mais, au pralable, on procde des regroupements par grandes fonctions : alimentation, produits manufacturs, services, etc., on calcule les indices partiels de Laspeyres de chacun de ces regroupements, puis on effectue la moyenne arithmtique des indices partiels en prenant pour coefficients de pondration les parts de chacun de ces regroupements dans la valeur de la consommation totale. On a alors agrg les produits en groupes, et on peut publier des indices partiels.

Les indices

235

Problmes et exercices
Les indices autorisent les comparaisons de donnes longitudinales, en figeant un point de comparaison selon la base annuelle retenue. Lexercice 1 expose le calcul des indices lmentaires et leurs proprits. Lexercice 2 sintresse aux indices particuliers que sont les indices synthtiques. Lexercice 3 propose une lecture de ces indices par les coefficients budgtaires et montre que ces indices sont lis entre eux.

EXERCICE 1 INDICES LMENTAIRES


Les sries suivantes indiquent lvolution du revenu moyen disponible par mnage et celle du nombre de mnages (France). Par ailleurs, on dfinit le revenu disponible des Franais par la multiplication du revenu moyen disponible par mnage avec le nombre de mnages.
Anne 1975 1990 1999 Revenu moyen disponible par mnage ( ) 23 016 26 529 26 612 Nombre de mnages (milliers) 17 745 21 542 23 808

Source : Insee, recensement de la population, 1999

1. Calculez les indices relatifs au revenu moyen disponible par mnage, nots IRM : a. IRM1999 / 1990 ; b. IRM1990 / 1975 ; c. IRM1999 / 1975 laide de la proprit de circularit ; d. IRM1975 / 1999 laide de la proprit de rversibilit. 2. Calculez les indices relatifs au nombre de mnages, nots INM : a. INM1999 / 1990 ; b. INM1990 / 1975 ; c. INM1999 / 1975 laide de la proprit de circularit ; d. INM1975 / 1999 laide de la proprit de rversibilit. 3. En utilisant la proprit lie la multiplication, calculez les indices relatifs au revenu disponible des Franais, nots IRF : a. IRF1999 / 1990 ; c. IRF1999 / 1975 ; b. IRF1990 / 1975 ; d. IRF1975 / 1999.

236

Statistique descriptive

V1999 26 612 100 = 100 , soit IRM1999 / 1990 = 100,31. Le revenu moyen 1990 V1990 26 529 disponible par mnage a augment de 0,31 % entre 1990 et 1999. V 26 529 b. IRM1990 = 1990 100 = 100 , soit IRM1990 / 1975 = 115,26. Le revenu moyen 1975 V1975 23 016 disponible par mnage a augment de 15,26 % entre 1975 et 1990. c. En sappuyant sur la proprit de circularit, IRM1999 = IRM1999 IRM1990 /100 = 100,31 115,26 /100 , soit IRM1999 / 1975 = 115,62.

1. a. IRM1999

1975

1990

1975

Le revenu moyen disponible par mnage a augment de 15,62 % entre 1975 et 1999. 10 000 10 000 d. En sappuyant sur la proprit de rversibilit, IRM1975 = = , soit 1999 IRM1999 115,62
1975

IRM1975 / 1999 = 86,49. Le revenu moyen disponible par mnage en 1975 reprsente 86,49 % du revenu disponible par mnage en 1999. V 23 808 2. a. INM1999 = 1999 100 = 100 , soit INM1999 / 1990 = 110,52. Le nombre de 1990 V1990 21 542 mnages a augment de 10,52 % entre 1990 et 1999. V 21542 b. INM1990 = 1990 100 = 100 , soit INM1990 / 1975 = 121,40. Le nombre de mna1975 V1975 17 745 ges a augment de 21,40 % entre 1975 et 1990. c. En sappuyant sur la proprit de circularit, INM1999 = INM1999 INM1990 /100 = 110,52 121, 40 /100 = INM1999 / 1975 = 134,17.
1975 1990 1975

Le nombre de mnages a augment de 34,17 % entre 1975 et 1999.


d. En sappuyant sur la proprit de rversibilit, INM1975
1999

10 000 INM1999

10 000 , soit 134,17

1975

INM1975 / 1999 = 74,53. Le nombre de mnages en 1975 reprsente 74,53 % du nombre de mnages en 1999. 3. a. En sappuyant sur la proprit des indices relative la multiplication, on obtient : IRF1999 = IRM1999 INM1999 /100 = 100,31 110,52 /100 , soit IRF1999 / 1990 = 110,86.
1990 1990 1990

Le revenu disponible des Franais a augment de 10,86 % entre 1990 et 1999. b. En sappuyant sur la proprit des indices relative la multiplication, on obtient : IRF1990 = IRM1990 INM1990 /100 = 115,26 121, 40 /100 , soit IRF1990 / 1975 = 139,93.
1975 1975 1975

Le revenu disponible des Franais a augment de 39,93 % entre 1975 et 1990. c. De mme, on obtient : IRF1999 = IRM1999 INM1999 /100 = 115,62 134,17 /100 ,
1975 1975 1975

soit IRF1999 / 1975 = 155,13. Le revenu disponible des Franais a augment de 55,13 % entre 1975 et 1999. d. De mme, on obtient : IRF1975 = IRM1975 INM1975 /100 = 86, 49 74,53 /100 , soit
1999 1999 1999

IRF1975 / 1999 = 64,46. Le revenu disponible des Franais en 1975 reprsente 64,46 % du revenu disponible des Franais en 1999.

Les indices

237

EXERCICE 2 INDICES SYNTHTIQUES


Le tableau suivant recense les prix moyens des chambres dhtel en 2006 et 2007, selon leur catgorie et le nombre de nuites annuelles.
Catgorie
0 & 1 toile 2 toiles 3 toiles 4 toiles & luxe

Prix 2006 ( ) 33 57 86 175

Prix 2007 ( ) 35 59 88 187

Nuites 2006 (milliers) 1 676 3 631 3 475 2 371

Nuites 2007 (milliers) 1 909 3 813 3 850 2 229

Sources : Insee, 2007, et KPMG, 2007

1. Calculez lindice des prix de Laspeyres en 2007 base 100 en 2006. Interprtez. 2. prix constants (base 2006), quelle est laugmentation des nuites entre 2006 et 2007 ? Quel indice connu avez-vous calcul ? 3. Calculez lindice des quantits de Paasche en 2007 base 100 en 2007. Interprtez. 4. nuites constantes (base 2007), quelle est laugmentation du prix des chambres entre 2006 et 2007 ? Quel indice connu avez-vous calcul ? 5. Calculez les indices de Fisher en 2007, base 100 en 2006 : a. des prix ; b. des quantits.

1. Afin de pouvoir calculer lindice des prix de Laspeyres en 2007 (base 2006), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2006 et des prix 2006 par les quantits 2006.

Les produits et leurs sommes sont calculs dans les colonnes F et G de la figure 8.1.

Figure 8.1
Rsultats sous Excel.

Do :

2007

2006

(P) = 100

p
i =1 4 i =1

i 2007

i q2006

i i q2006 p2006

= 100

1 022 066 , soit 976 050

2007

2006

(P ) = 104,71 .

quantits constantes (base 2006), les prix des chambres dhtel, toutes catgories confondues, ont augment de 4,71 % entre 2006 et 2007.

238

Statistique descriptive

2. Afin de pouvoir calculer laugmentation des nuites entre 2006 et 2007 prix constant (base 2006), il est ncessaire de connatre les sommes des produits des prix 2006 par les quantits 2007 et des prix 2006 par les quantits 2006. Il sagit de calculer lindice des quantits de Laspeyres entre 2006 et 2007 (base 2006).

Les produits des prix 2006 par les quantits 2007 et leur somme sont prsents la suite des prcdents calculs, dans la colonne H de la figure 8.1.

Do :

2007

2006

(Q) = 100

p p
i =1 i =1 4

i 2006

i q2007

= 100 q
i 2006

i 2006

1 001513 , soit 976 050

2007

2006

(Q) = 102,61 .

prix constants (base 2006), le nombre de nuites, toutes catgories dhtel confondues, a augment de 2,61 % entre 2006 et 2007.
3. Afin de pouvoir calculer lindice de Paasche des quantits entre 2006 et 2007 (base 2007), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2007 et des prix 2007 par les quantits 2006.

Les produits des prix 2007 par les quantits 2007 et leur somme sont prsents la suite des prcdents calculs, dans la colonne I de la figure 8.1.

Do :

2007

2006

(Q) = 100

p
i =1 4 i =1

i 2007

i q2007

i i q2006 p2007

= 100

1 047 405 , soit 1022 066

2007

2006

(Q) = 102,48 .

prix constants (base 2007), le nombre de nuites, toutes catgories dhtel confondues, a augment de 2,48 % entre 2006 et 2007.
4. Afin de pouvoir calculer laugmentation des prix des chambres entre 2006 et 2007 nuites constantes (base 2007), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2007 et des prix 2006 par les quantits 2007. Il sagit de calculer lindice de Paasche des prix entre 2006 et 2007 (base 2007).

Do :

2007

2006

(P ) = 100

p
i =1 4 i =1

i 2007

i q2007

i i q2007 p2006

= 100

1 047 405 , soit 1001 513

2007

2006

(P ) = 104,58 .

quantits constantes (base 2007), les prix des chambres dhtel, toutes catgories confondues, ont augment de 4,58 % entre 2006 et 2007.
5. a.

F soit F

2007

2006

(P ) =

L L

2007

2006

(P) P 2007

2006

(P) = 104,71 104,58 ,

2007

2006

(P ) = 104,65 .
2007 2006

b.

F soit F

2007

2006

(Q) =

(Q) P 2007

2006

(Q) = 102,61 102, 48 ,

2007

2006

(Q) = 102,54 .

Les indices

239

Ces indices de Fisher sont dans chaque cas compris entre les indices de Laspeyres et de Paasche, ce qui est une obligation mathmatique due leur statut de moyenne. Pour les prix, par exemple, lindice de Laspeyres a tendance surestimer les augmentations, lindice de Paasche les sous-estimer, lindice idal de Fisher se voulant un juste compromis entre ces deux tendances.

EXERCICE 3 COEFFICIENTS BUDGTAIRES ET RELATION ENTRE INDICES


Le tableau suivant indique le montant de la consommation effective, par fonctions, des mnages (France entire) entre 2003 et 2006, en milliards deuros courants :
Dsignation du poste Prod. alimentaires et boissons non alcoolises Boissons alcoolises et tabac Articles dhabillement et chaussures 2003 2004 2005 2006

128,305 130,626 132,517 136,163 29,378 45,472 29,877 46,182 29,684 46,521 30,266 46,923

Logement, eau, gaz, lectricit et autres combustibles 209,182 220,424 234,899 250,150 Meubles, articles de mnage et entretien courant de lhabitation Sant Transport Communications Loisirs et culture ducation Htels, cafs et restaurants Autres biens et services
Source : Insee, 2007

53,331 29,154

55,753 30,995

57,379 32,583

58,870 33,936

127,489 134,619 142,175 146,247 24,380 82,862 5,730 56,086 25,447 87,084 6,202 57,971 26,868 89,380 6,729 59,682 27,970 92,637 7,385 61,970

98,530 102,350 105,460 110,851

Les indices chans des prix la consommation entre ces deux mmes annes vous sont galement communiqus (base 100 lanne prcdente) :
Dsignation du poste Prod. alimentaires et boissons non alcoolises Boissons alcoolises et tabac Articles dhabillement et chaussures 2003 2004 2005 2006

103,666 101,809 101,448 102,751 99,660 101,699 99,354 101,961 102,888 101,563 100,734 100,863

Logement, eau, gaz, lectricit et autres combustibles 105,764 105,375 106,567 106,493 Meubles, articles de mnage et entretien courant de lhabitation Sant 103,505 104,543 102,916 102,598 104,392 106,316 105,123 104,152

240

Statistique descriptive

Dsignation du poste Transport Communications Loisirs et culture ducation Htels, cafs et restaurants Autres biens et services
Source : Insee, 2007

2003

2004

2005

2006

101,151 105,593 105,612 102,865 107,375 104,377 105,584 104,102 103,480 105,096 102,637 103,643 106,470 108,237 108,497 109,749 103,958 103,361 102,951 103,834 103,554 103,877 103,039 105,112

1. Calculez le coefficient budgtaire de chaque fonction de consommation pour chacune des annes de 2003 2006. 2. Proposez le tableau des indices des prix la consommation, base 100 en 2003, pour chacune des annes 2003, 2004, 2005 et 2006. 3. Calculez lindice des prix la consommation en 2006, base 100 en 2003, selon la mthode de Laspeyres. 4. Calculez, selon la mthode de Paasche, lindice des prix en 2006, base 100 lanne 2003. 5. De combien a augment la consommation des mnages en volume entre lanne 2003 et lanne 2006 ?

1. Le coefficient budgtaire reprsente le poids de la fonction de consommation dans lensemble des dpenses du mnage.

Il convient dans un premier temps de calculer la somme des dpenses totales des mnages. Par exemple, la dpense des mnages en 2003 est de 128,305 + 29,378 + + 98,53 = 889,897 milliards deuros. Ensuite, il suffit de calculer la part de chaque poste dans le montant de ces dpenses. Par exemple, les produits alimentaires et boissons non alcoolises reprsentent 128,305 milliards deuros sur les 889,897 milliards deuros de dpense des mnages en 2003, soit 14,42 %. Ces calculs sont dtaills dans la figure 8.2.

Figure 8.2
Rsultats sous Excel.

Les indices

241

2. Les indices en 2003 valent tous 100, puisquil sagit de lanne de rfrence.

Les indices en 2004 conservent leur valeur puisquil tait en base 100 lanne prcdente, cest--dire 2003. Pour calculer les indices lmentaires en 2005 et 2006, base 100 lanne 2003, on utilise la proprit de circularit (transfrabilit) des indices lmentaires : I2005 = I2005 I2004 /100 .
2003 2004 2003

Par exemple, pour les produits alimentaires et boissons non alcoolises :


I2005
2003

= I2005

2004

I2004

2003

/100 = 101,45 101,81 / 100 , soit I2005 / 2003 = 103,28.

Ces calculs sont dtaills dans la figure 8.3.

Figure 8.3
Rsultats sous Excel.

3. Lindice de Laspeyres est la moyenne arithmtique des indices lmentaires pondrs par les coefficients budgtaires de lanne de base.

Ainsi,

2006

2003

(P ) = 104,24 0,1375 + 101,30 0,0308 + ... + 108,31 0,1094 ,

soit

2006

2003

(P) = 108,25 .

4. Lindice de Paasche est la moyenne harmonique des indices lmentaires pondrs par les coefficients budgtaires de lanne de base.

Ainsi, soit

2006

2003

(P ) =

1 104,24 0,1357 + 101,30 0,0302 + ... + 108,31 0,1105

2006

(P) = 108,18 .
2003

5. On sait quun indice de valeur globale est le produit dun indice de volume par un indice de prix ; plus prcisment, selon lindice des prix que nous retenons, lindice de volume de la consommation des mnages varie.

Si nous retenons lindice des prix de Laspeyres, lindice de volume est un indice de Paasche, et symtriquement, en utilisant lindice des prix de Paasche, nous obtenons un indice de volume de Laspeyres, selon la formule :

2006

2003

(Q) p 2006

2003

(P) = 100 I 2006

(V ) .
2003

242

Statistique descriptive

Nous allons calculer les indices des quantits de Laspeyres et de Paasche. Commenons par lindice de Laspeyres. Lindice des prix de Paasche est :

2006

(P) = 108,18 . Calculons lindice de valeur


2003

globale de la consommation des mnages en 2006, base 100 lanne 2003 : 1003, 368 I 2006 2003 (V) = 889,897 100 , soit I 2006 2003(V ) = 112,75 . On obtient alors :

2006

2003

(Q) =

I p

2006

(V )
2003

100 =

2006

(P)
2003

112,75 100 , soit 108,18

2006

2003

(Q) = 104,23 . Entre lanne

2003 et lanne 2006, la consommation des mnages a augment selon la mthode de Laspeyres de 4,23 % en volume. En utilisant lindice des prix de Laspeyres, on obtient :

2006

2003

(Q) =

I L

2006

2003

(V ) (P)

100 =

2006

112,75 100 , soit 108,25

2006

2003

(Q) = 104,16 . Entre lanne

2003

2003 et lanne 2006, la consommation des mnages a augment selon la mthode de Paasche de 4,16 % en volume.

Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DAMON J.-P., La mthode statistique en conomie, ditions Paris-8 Vincennes, 1976. DUPONT-KIEFFER A., Ragnar Frisch et lconomtrie : linvention de modles et dinstruments des fins normatives, Thse pour le doctorat en science conomique (arrt du 30 mars 1992), universit Paris-1 Sorbonne, 2003. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. FERREOL G. et SCHLACTHER D., Dictionnaire des techniques quantitatives appliques aux sciences conomiques et sociales, Armand Colin, 1995. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement mathmatique A.P.M.E.P., 1967. INSEE METHODES, Pour comprendre lindice des prix, dition 1998. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.

Les indices

243

Annexes

244

Statistique descriptive

Annexes

245

Index
A
Ajustement linaire Voir Droite de rgression non linaire, 162, 175 Amplitude de classe, 6, 13, 25, 28, 30 Analyse de variance, 154, 164 Aplatissement, 88 Asymtrie, 85, 95 de rang, 163, 179 linaire, 156, 164 de dtermination, 164, 170, 175 de Kendall, 86 de Spearman Voir Coefficient de corrlation de rang de variation, 71, 76, 77 de Yule, 86, 95 saisonnier, 199, 201, 204, 207, 210 Composante extra-saisonnire, 190, 200, 202 gnrale, 190, 200, 202 rsiduelle, 190, 200, 202 saisonnire, 190, 198, 200, 202 Corrlation, 147 Courbe de concentration, 104 de rgression, 146 Covariance, 117, 139 formule dveloppe, 118 proprits, 118 Cycle, 190, 200, 202

B
Bote moustaches, 65, 75, 85, 95 Box plot Voir Bote moustaches

C
Caractre, 18, 22, 25, 27, Voir Variable Centile, 51, 56 Centre de classe, 6 Classe, 6 Coefficient budgtaire, 228, 240 daplatissement de Fisher, 89, 98 de Pearson, 89, 98, 100 dasymtrie de Fisher, 87, 95 de Pearson, 86, 95, 100 de corrlation

D
Dcile, 50 Degr de libert, 122 Densit, 12, 25, 28, 36 Diagramme circulaire, 11, 22

246

Statistique descriptive

cumulatif Voir Fonction de rpartition de Tukey Voir Bote moustaches en barres Voir Diagramme en tuyaux dorgue en btons, 12, 18, 98 en tuyaux dorgue, 11 Discrtisation, 8, 27 Distribution, 8, 11, 12, 13, 22, 25, 26, 29, 51, 65, 77 Donne brute, 8 Droite de rgression, 150, 164, 170, 174, 210, 214

de valeur globale, 233 des prix, 229, 231, 238, 240 des quantits, 230, 232, 238 lmentaire, 220, 236 proprits, 223, 229, 231, 234, 236 synthtique, 226, 238 Individu, 2 Intervalle interquantile Voir cart interquantile

K-L E
cart absolu moyen, 66, 73 intercentile, 64, 74 interdcile, 64, 74 interquantile, 64, 73 interquartile, 64, 74 saisonnier, 199, 201 type, 66, 76, 77, 79 conditionnel, 115 marginal, 114 chantillon, 2 Effectif, 3, 8 corrig, 13, 25, 28 cumul, 8, 22 croissant, 9, 18 dcroissant, 9, 18 marginal, 109, 132 partiel, 109, 132 tendue, 64, 73 Kurtosis, 88 Leptocurtique, 89 Loi de Fisher, 161 de Student, 158 normale, 84

M
Mdiale, 91, 104 Mdiane, 45, 54, 55, 56, 59, 95 Mthode analytique, 190, 210, 214 empirique, 193, 194, 204, 207 Modalit, 3, 18, 22, 25, 27 Mode, 36, 38, 54, 55, 56, 59, 95 Modle additif, 197, 204, 207, 210 multiplicatif, 197, 214 Moindres carrs ordinaires, 150, 170, 174 Moyenne, 39, 55, 56, 59, 95 arithmtique, 39 conditionnelle, 115, 135 chelonne, 192 gomtrique, 42, 60 harmonique, 43, 61 marginale, 114, 135, 139 mobile, 207 centre, 194 non centre, 193 proprits, 41, 79 quadratique, 44

F
Fonction affine, 150 de rpartition, 15, 22 Frquence, 8, 21 absolue, 3 conditionnelle, 112, 132 cumule, 8, 29 croissante, 9, 18 dcroissante, 9, 18 marginale, 111, 132 partielle, 111, 132 proprits, 4 relative, 3

N-P
Nature, 4, 18, 22, 25, 27, 127, 131 Platicurtique, 89 Polygone des effectifs, 16, 59 des frquences, 29 Population, 2, 18, 22, 25, 27 Pyramide Voir Diagramme en tuyaux dorgue

G-I
Graphique semi-logarithmique, 175 Histogramme, 12, 25, 26, 29, 59, 100 Indpendance, 120 Indice de Fisher, 234, 238 de Gini, 93, 104 de Laspeyres, 229, 238, 240 de Paasche, 231, 238, 240

Q
Quantile, 44 Quartile, 50, 55, 56, 59

Index

247

R
Rgression courbe, 146 droite, 150, 164, 170, 174, 210, 214

S
Srie ajuste, 203, 204, 207, 210, 214 brute, 204, 207, 210, 214 chronologique, 187 CVS, 202, 204, 207, 210, 214 temporelle, 187

de Fisher, 170, 175 de Student, 159, 164, 170, 175 du khi-deux, 121, 135, 139 Tri plat, 8 crois Voir Tableau de contingence

V
Variable qualitative, 4 nominale, 4 ordinale, 5 quantitative, 6, 8 continue, 6, 25, 27 discrte, 6, 19, 22 statistique, 3 variance dcomposition, 164 Variance, 66, 76 conditionnelle, 115, 135 dcomposition, 154 formule dveloppe, 68, 77 marginale, 114, 135, 139 proprits, 69, 79

T
Tableau crois Voir Tableau de contingence de contingence, 109, 127, 131 lmentaire, 8 simple, 108 statistique, 8, 18, 27 Tendance, 190, 200, 202, 204, 207, 210, 214 Test, 121 de corrlation, 159, 164, 170, 175

248

Statistique descriptive

Sciences de gestion

Synthse de cours exercices corrigs


Les auteurs :
tienne Bressoud est matre de confrences luniversit Paris 8 Vincennes-Saint-Denis et lEuropean Business School (EBS) Paris. Il enseigne lastatistique descriptive et les tudes quantitatives appliques au marketing.

&

Statistique descriptive
avec Excel et la calculatrice
Ce livre est une introduction complte la statistique descriptive. la fois accessible tous et dune grande rigueur mathmatique et statistique, il prsente dabord les notions fondamentales (variables statistiques et graphiques), pour dtailler ensuite les caractristiques de tendance centrale (moyenne, mdiane, etc.), de dispersion (cart-type, variance), de forme et de concentration, les tableaux croiss, la rgression linaire et non linaire, les sries chronologiques et les indices. Il aborde galement les tests statistiques (notamment le test du Khi-deux) et permet dapprofondir vers la statistique infrentielle et lconomtrie. Toutes les notions sont illustres partir de donnes relles issues des observatoires statistiques (INSEE, Mdiamtrie). Les exercices occupent une part importante de louvrage et sont appliqus la gestion, lconomie et aux sciences humaines. Les corrections dtaillent tous les calculs et sont prsentes soit laide du tableur Excel soit de la calculatrice (graphique ou scientifique). Ce double choix donne au livre une dimension pratique prcieuse et en fait un vritable outil de travail. Louvrage sadresse aux tudiants de licence en sciences de gestion, en conomie, en AES et en sciences humaines, ainsi quaux tudiants en IUT et en coles de management. Toutes les donnes des exercices au format Excel, ainsi que des exemples supplmentaires, sont disponibles sur le site www.pearson.fr.

Jean-Claude Kahan est enseignant luniversit Paris 8 VincennesSaint-Denis et lcole nationale dassurance (ENASS). Il enseigne les statistiques, les probabilits et les mathmatiques. Il est galement membre du jury de CAPES externe de sciences conomiques et sociales.

Direction de collection :
Roland Gillet, professeur luniversit Paris 1 Panthon-Sorbonne

Dans la mme collection :


Analyse de donnes avec SPSS, M. Carricano et F. Poujol Analyse financire et valuation dentreprise, S. Parient Performance de portefeuille, P. Grandin et al. Cration de valeur et capital-investissement, M. Cherif et S. Dubreuille Contrle de gestion, 2e ed., Y. de Rong et K. Cerrada conomtrie, . Dor Finance, A. Farber et al. Les enqutes par questionnaire avec Sphinx, S. Ganassali Marketing, une approche quantitative, une approche quantitative, A. Steyer et al. Mathmatiques appliques la gestion, A. Szafarz et al. Probabilits, statistique et processus stochastiques, P. Roger Stratgie, A. Desreumaux et al.

La collection Synthex propose aux gestionnaires et aux conomistes de dcouvrir ou de rviser une discipline et de se familiariser avec ses outils au travers dexercices rsolus.
Chaque ouvrage prsente une synthse pdagogique et rigoureuse des techniques et fondements thoriques, quune slection dexercices aux corrigs dtaills permet dassimiler progressivement. Le lecteur, tudiant ou professionnel, est ainsi conduit au cur de la discipline considre, et, via la rsolution de nombreux problmes, acquiert une comprhension rapide et un raisonnement solide. ISBN : 978-2-7440-4052-8

Pearson Education France 47 bis, rue des Vinaigriers 75010 Paris Tl. : 01 72 74 90 00 Fax : 01 42 05 22 17 www.pearson.fr