&
Statistique descriptive
avec Excel et la calculatrice
Pour les tudiants en sciences de gestion, en conomie et en sciences humaines Prs de 40 problmes et exercices corrigs avec Excel ou la calculatrice Retrouvez les donnes Excel et des exemples supplmentaires sur www.pearson.fr
collection
Synthex
Sciences de gestion
Synthse de cours
&
exercices corrigs
Statistique descriptive
Applications avec Excel et la calculatrice
tienne Bressoud
Universit Paris 8 Vincennes-Saint-Denis
Jean-Claude Kahan
Universit Paris 8 Vincennes-Saint-Denis
Synthex
collection
Aucune reprsentation ou reproduction, mme partielle, autre que celles prvues larticle L. 122-5 2 et 3 a) du code de la proprit intellectuelle ne peut tre faite sans lautorisation expresse de Pearson Education France ou, le cas chant, sans le respect des modalits prvues larticle L. 122-10 dudit code.
Sommaire
Les auteurs................................................................ IV Prface ...................................................................... V Introduction ............................................................. VII Chapitre 1 Introduction la statistique descriptive ...................... 1 Chapitre 2 Les caractristiques de tendance centrale ................. 35 Chapitre 3 Les caractristiques de dispersion ............................ 63 Chapitre 4 Les caractristiques de forme et de concentration .... 83 Chapitre 5 Les sries bivaries................................................. 107 Chapitre 6 La rgression ......................................................... 145 Chapitre 7 Les sries chronologiques ...................................... 185 Chapitre 8 Les indices.............................................................. 219 Index ..................................................................... 246
III
Les auteurs
tienne Bressoud, docteur s sciences de gestion et normalien agrg en sciences conomiques, est matre de confrences luniversit Paris 8 Vincennes-Saint-Denis et professeur associ de marketing lEuropean Business School (EBS) Paris. Il enseigne la statistique descriptive, les tudes quantitatives appliques au marketing, et assure des formations professionnelles sur un logiciel danalyse de donnes et de statistiques pour Microsoft Excel. Contact : http://bressoud.blogspot.com Jean-Claude Kahan est professeur agrg de mathmatiques luniversit Paris 8 VincennesSaint-Denis et professeur associ lcole nationale dassurance (ENASS, un institut du CNAM), en formation initiale et continue. Membre du jury de CAPES externe de sciences conomiques et sociales, il enseigne les statistiques, les probabilits et les mathmatiques.
IV
Prface
Ne voici cinq millnaires pour dnombrer les richesses et les hommes en tat de porter des armes, la statistique est de plus en plus une science de pleine actualit, quand elle ne la fait pas. Il ne se passe pas une semaine, voire une journe, sans que nous en lisions ou voquions des utilisations, que ce soit pour mesurer la sant de notre conomie, la cote de popularit dun homme politique, lavis de lopinion sur tel ou tel sujet, le succs dun mdia ou dune mission, ou autre. Nous pouvons mme affirmer que la science statistique devrait faire partie du bagage intellectuel minimal de lhonnte homme de notre poque, dont la caractristique essentielle est la profusion dinformations de tout ordre, qui plus est accessibles pratiquement en temps rel grce Internet et la convergence numrique. Pour leur gestion, les entreprises laborent des entrepts de donnes des datawarehouses qui se remplissent automatiquement et systmatiquement, au point dailleurs de devenir difficilement exploitables de faon directe, sans recours lanalyse. Le succs actuel du datamining nest rien dautre que celui de la pense statistique, revue avec des notions de marketing. Devant une telle accumulation dinformations, il est ncessaire, indispensable, pour chacun, de possder les cls pour structurer, hirarchiser, prsenter, illustrer, comprendre, expliquer. La statistique est la science de lapprentissage du doute, cette notion parfois si importante, y compris dans le pays de Descartes, de lapprhension de lincertain, du refus de la pense unique. En un mot, la statistique est la science de la diversit. Et cette diversit sexprime forcment par trois voies principales : diversit de domaines, diversit dapproches, diversit dobjectifs. Les domaines dabord : au fil des sicles, les champs dapplication de la statistique se sont multiplis. Au comptage initial des ressources, pour la gestion de ltat, se sont ajouts lastronomie (Tycho Brahe, Johannes Kepler, Galile), lagronomie, la dmographie, la biomtrie (Galton), lconomie (cration en 1933 de la Socit dconomtrie), le marketing, la gestion dentreprise, la finance, la mesure daudience, etc. Chacun de ces champs de recherche et dapplication a apport ou apporte encore ses innovations, tant il est de sujets non ou mal rsolus ou nouveaux. Les approches ensuite : lorigine science du dnombrement et de la description, la statistique sest lentement enrichie dlments plus conceptuels. Une illustration marquante e en est, au XVII sicle, la recherche de constantes de comportements des paramtres
comme le nombre moyen denfants par femme, ou le nombre moyen de personnes par logement et la technique du multiplicateur pour permettre des estimations et des extrapolations : cest le rgne de lcole anglaise dite de larithmtique politique de John Graunt et de William Petty. Le cadre thorique saffirme plus tard, soit avec une vision gomtrique, comme les moindres carrs de Carl Friedrich Gauss, soit avec une optique probabiliste, merveilleusement utilise dans les annes 1920 par sir Ronald Fisher avec une prsentation innovante et gnrale de la thorie statistique. Gomtrie et probabilits se trouvent galement derrire les techniques dites danalyse des donnes projection de nuages complexes de points sur des plans adquats comme lanalyse en composantes principales ou lanalyse des correspondances, dune part, et les modles stochastiques de plus en plus sophistiqus tels les Arima et leurs divers petits cousins Starima, Arch, Garch, etc., dautre part. Les objectifs enfin : nous en distinguerons deux principaux. Le premier consiste avancer sur le chemin de la thorie pure , de la recherche pilote par les mathmatiques, de la conceptualisation. Axe fondamental sil en est, ne serait-ce que pour fonder la statistique comme une thorie scientifique et la faire progresser intrinsquement et en liaison avec les autres thories mathmatiques. Le second repose sur la volont dapplication, quel quen soit le domaine, la confrontation aux donnes ; on est dans le domaine de la description, de la visualisation, de la mesure de paramtres le principe de rduction de Fisher , permettant de caractriser le phnomne tudi dans ses principales lignes. La statistique applique est aussi noble que la statistique thorique, et trs proche des origines historiques mmes. Il est vrai que linformatique est un appui majeur pour la manipulation des fichiers de donnes et la mise en uvre des mthodes. Le prsent ouvrage dtienne Bressoud et de Jean-Claude Kahan relve ouvertement de la statistique applique et procde dune volont claire daborder loprationnalit des mthodes. Le livre joue ainsi sur deux tableaux complmentaires. En premier lieu, les concepts de base sont dvelopps dans le corps des chapitres : caractristiques de tendance centrale ou de dispersion, de forme ou de concentration, indices, tableaux croiss, modle linaire ou rgression, sries temporelles. Ensuite, aprs les prsentations des outils de rfrence, chaque chapitre est suivi dexercices et de problmes sur de vraies donnes, avec traitement et correction, partir des possibilits doutils comme la calculatrice graphique et le tableur Excel, qui possdent un grand nombre de fonctionnalits pour passer lapplication concrte et, somme toute, simple. Cest ce qui en fait loriginalit, et aidera vulgariser la pense statistique auprs de nombreux tudiants de lenseignement suprieur. Que les auteurs en soient remercis. Philippe Tassi Directeur Gnral Adjoint de Mdiamtrie Professeur Associ lUniversit Paris 2
VI
Statistique descriptive
Introduction
Ce livre est avant tout lhistoire dune rencontre entre deux enseignants et la mise en commun de leur pratique et de leur coute auprs des tudiants. Les statistiques sont aujourdhui incontournables et leur enseignement sest gnralis. Il existe de nombreux ouvrages de statistiques, souvent de qualit, mais il nous a paru intressant den concevoir un qui mette en avant le ct actuel et oprationnel de la statistique.
VII
Merci
Nous tenons remercier ici vivement Philippe Tassi, pour ses conseils et sa relecture mticuleuse et claire. galement un grand merci Christine Dhers, enseignante de mathmatiques, pour sa disponibilit et sa passion pour les statistiques. Nous esprons que ce manuel transmettra aux tudiants notre engouement pour la statistique et lenvie de dcouvrir les ouvrages cits dans la bibliographie propre chaque chapitre, et quil sera pour eux un compagnon efficace de leur russite.
VIII
Statistique descriptive
Les mthodes de la statistique descriptive (statistique dductive) permettent de mener des tudes partir de donnes exhaustives, cest--dire concernant tous les individus de la population concerne par ltude. Comme le rappelle Andr Vessereau (voir bibliographie), lide premire et toujours fondamentale de la statistique descriptive est celle de dnombrement. Quand les donnes ne concernent quun chantillon de la population, comme dans le cas des sondages, on a recours la statistique infrentielle (statistique inductive), qui utilise la thorie des probabilits. Globalement, la statistique reste trs lie la science du hasard, puisque les recensements nous fournissent des frquences dapparition auxquelles on fait jouer le mme rle qu la probabilit. Dj, les manuscrits de Gottfried Leibniz, rdigs au dbut des annes 1680, se situaient, partir des travaux de John Graunt, dans la perspective dune synthse entre science de la population et calcul des probabilits .
Ce premier chapitre prsente les principales clefs de lecture de la statistique. La terminologie usuelle y est expose, ainsi que la forme et le contenu des tableaux de donnes. Deux annexes, proposes en fin de chapitre, sont consacres la prise en main dExcel (annexe 1.1), ou de tout autre tableur quivalent, et dune calculatrice graphique, Texas Instrument (annexe 1.2), ou de toute autre calculatrice approchante. Lutilisation de ces outils facilitera la comprhension et la rsolution de tous les exemples numriques des parties thoriques et des problmes et exercices qui suivent.
Terminologie
Comme toute science, la statistique a son vocabulaire, quil est primordial de dfinir de faon rigoureuse afin dindiquer le groupe sur lequel porte ltude, les caractres ou variables relevs sur chacun des individus et les diffrents types de caractres.
1.1
LA POPULATION
Le terme de population statistique est antrieur la dmographie et sappliquait lorigine des catgories dhumains. Les populations ntaient en effet pas penses en bloc, leurs membres ntant pas considrs comme gaux. Par exemple, on comptait les hommes en tat de porter des armes, les individus soumis limpt, etc. La dmographie est venue plus tard, avec lide dgalit des individus, qui a men la notion de recensement. En statistique, le terme de population est plus gnral et peut dsigner des humains, mais aussi des objets, des villes, des pays, des entreprises, des logements, etc., lessentiel tant, comme pour la dfinition dun ensemble en mathmatiques, que lon puisse dire clairement de tout lment quil appartient ou nappartient pas la population. Les villes europennes de plus de 100 000 habitants, les voitures immatricules en France, les dpartements franais doutre-mer sont autant dexemples de population.
Dfinition
La population statistique est lensemble des lments sur lesquels porte ltude. Les lments de la population sont appels individus statistiques ou units statistiques. La population constitue lunivers de rfrence de ltude. Si la population comporte N individus, on notera = {1 ; 2 ; ; N} les N individus qui la composent. Un chantillon de taille n est un sousensemble form de n individus de la population (n N).
La notion dchantillon est fondamentale, car, en rgle gnrale, la population entire nest pas disponible ou observable. Dans ce cas, seul un chantillon est tudi et les rsultats obtenus sont extrapols la population (voir P. Roger, chapitre 5). Par exemple, lorsquun magazine souhaite connatre la personnalit prfre des Franais, il interroge seulement un chantillon de Franais, gnralement 1 000 individus, et non toute la population rsidant en France mtropolitaine, soit plus de 60 millions dindividus.
Statistique descriptive
1.2
Dfinition
Une variable statistique, ou caractre statistique, est une application dfinie sur une population statistique et valeurs dans un ensemble M, appel ensemble des modalits. Les modalits correspondent aux valeurs possibles de la variable statistique. Une variable statistique dfinit une partition sur une population, chaque individu appartenant une et une seule modalit. Si le nombre de modalits est not r, lensemble des modalits de la variable X sera not : M = {x1 ; x2 ; ; xr}.
Exemple 1.1
Considrons les donnes suivantes concernant le nombre de femmes et dhommes dans la population rsidant en France mtropolitaine en 2006 (en milliers) :
Femmes 31 444 Hommes 29 722
La population tudie est la population rsidant en France mtropolitaine recense en 2006 et la variable tudie est le sexe. Cette variable peut prendre deux valeurs possibles appeles modalits : fminin ou masculin. Ces modalits sont en gnral numrotes : si la variable tudie, ici le sexe, est note X, les deux modalits seront respectivement notes x1 (pour fminin) et x2 (pour masculin). Une des premires oprations de la statistique consiste recenser le nombre et/ou le pourcentage dindividus qui prsentent une modalit dtermine dune variable. Cest ainsi qu chaque modalit est associ un effectif et/ou une frquence.
Dfinitions Leffectif (aussi appel frquence absolue) de la modalit xi est not ni et dsigne le nombre dindividus de la population prsentant la modalit xi. Leffectif total de la population n est alors : n = n1 + n2 + + nr, soit n = ni (la somme des ni pour i variant de 1 r, et la lettre grecque sigma, , dsignant la somme). La frquence (par dfaut frquence relative) de la modalit xi est note fi et est dfinie par : fi = ni / N ; la frquence exprime la proportion dindividus prsentant une modalit donne. Elle peut sexprimer sous la forme dun nombre dcimal (en gnral avec une prcision de quatre chiffres aprs la virgule) ou sous la forme dun pourcentage.
i =1 r
Proprit
Exemple 1.2
Effectifs et frquences
Reprenons lexemple prcdent sur le sexe des individus de la population rsidant en France mtropolitaine. Les effectifs respectifs de ces modalits sont nots n1 = 31 444 et n2 = 29 722, avec n = n1 + n2 = 61 166 milliers, effectif total de la population. Les frquences sont telles que : f1 = n1 / n = 31 444 / 61 166 = 0,5141 et f2 = n2 / N = 29 722 / 61 166 = 0,4859, soit 51,41 % de femmes et 48,59 % dhommes. Lexemple 1.1 a mis en vidence une des deux natures des variables statistiques : la variable qualitative. Le sexe est une variable qualitative, car ses modalits ne sont pas des nombres. Une variable quantitative est une variable dont les modalits sont numriques. Le poids dun individu, lge, le nombre denfants par mnage, le salaire constituent des exemples de variables quantitatives.
1.3
Dfinition
Le sexe, la profession, ltat matrimonial sont quelques exemples de variables qualitatives. Pour ses enqutes auprs des mnages, lInsee utilise la nomenclature des Professions et catgories socioprofessionnelles (PCS-2003). Les modalits dune variable qualitative peuvent tre classes sur deux types dchelle : nominale ou ordinale. ces deux types dchelle correspondent deux types de variables qualitatives.
Statistique descriptive
Exemple 1.3
Le tableau suivant indique les diffrentes catgories de la variable nominale Professions et catgories socioprofessionnelles (CSP) :
Code 1 2 3 4 5 6 7 8 Catgorie Agriculteurs exploitants Artisans, commerants et chefs dentreprise Cadres et professions intellectuelles suprieures Professions intermdiaires Employs Ouvriers Retraits Autres personnes sans activit professionnelle
Dans cet exemple, il ny a pas dordre naturel entre les huit catgories, ou modalits, qui sont de simples tiquettes ; la variable qualitative CSP est dfinie sur une chelle nominale.
1.4
Dfinition
Une variable statistique est dite de nature quantitative si ses modalits sont mesurables. Les modalits dune variable quantitative sont des nombres lis lunit choisie, qui doit toujours tre prcise.
Il existe deux types de variables quantitatives : les variables discrtes et les variables continues. Ces variables ont en commun des modalits clairement ordonnes, pour lesquelles lcart entre les valeurs possde une signification, et sur lesquelles il est possible de raliser des oprations mathmatiques telles que des calculs de moyennes, etc. Nanmoins, elles ont des proprits et des traitements spcifiques qui ncessitent une tude spare.
1. Du latin discretus, qui signifie spar ; dans un ensemble discret, on peut sparer les lments.
Statistique descriptive
Le centre de classe est appel jouer un grand rle dans les calculs, car le regroupement en classes constitue une perte dinformation importante ; nous prendrons lhypothse de rpartition uniforme lintrieur dune classe, cest--dire de concentration au centre des classes (voir chapitre 2).
Exemple 1.4 Calculs damplitudes et centres de classes
Le tableau suivant indique la structure par ges de la population fminine en France mtropolitaine :
ge Moins de 15 ans 15-24 ans 25-34 ans 35-44 ans 45-54 ans 55-64 ans 65-74 ans 75 ans ou +
Source : Insee, bilan dmographique, 2006
Les modalits sont des intervalles qui, par convention, sont part pour la dernire classe ferms gauche et ouverts droite. Ainsi, la premire classe se note aussi : [0 ; 15[, la deuxime [15 ; 25[, etc. Les classes ne sont pas de mme amplitude, la premire classe ayant une amplitude de 15 ans et les suivantes de 10 ans. Pour la dernire classe, dont lamplitude nest pas dfinie explicitement, la convention suivante est adopte : en labsence dinformation, il lui est attribu lamplitude de la classe prcdente, [65 ; 75[, donc 10 ans, et elle est donc crite : [75 ; 85[. Le centre de la premire classe est : x1 = (a1 + b1) / 2 = (0 + 15) / 2 = 7,5 ans. Cette distinction entre variable discrte et variable continue est parfois arbitraire, toute mesure tant discrte du fait de la prcision limite des instruments de mesure ou des arrondis. Cependant, la taille dun individu, par exemple, est une variable continue du fait que, indpendamment de la mesure, toute valeur de lintervalle [140 ; 150[ peut reprsenter en centimtres la taille dun individu. De mme, il arrive quune variable discrte, comme le nombre dhabitants dun pays, qui peut prendre un grand nombre de valeurs dans un intervalle soit considre comme une variable continue. En conclusion, toute tude de variable statistique devra tre prcde dune identification claire de la population, du caractre tudi et de sa nature, savoir qualitatif ou quantitatif et, dans le cas quantitatif, discret ou continu.
2.1
Discrtisation
Dans le cas dune variable statistique quantitative continue, il est ncessaire de dfinir des classes pour pouvoir proposer un tri plat.
Dfinition On appelle discrtisation le dcoupage en classes dune srie statistique quantitative.
Ce dcoupage en classes pose de nombreuses questions : choix des amplitudes, amplitudes constantes ou variables, nombre de classes, etc. Nous ne rentrerons pas ici dans le dtail de ces oprations (voir lexercice 4 de ce chapitre).
2.2
Statistique descriptive
Reprenons lexemple 1.4 et proposons de rpondre la question suivante : quelle proportion de la population fminine en France mtropolitaine a moins de 35 ans ? Nous pouvons affirmer que 42,5 % de la population fminine en France mtropolitaine a moins de 35 ans, soit 17,5 % + 12,3 % + 12,7 %. Pour obtenir ce rsultat, nous avons cumul les frquences des modalits infrieures ou gales 34 ans.
Dfinitions Effectifs cumuls croissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul croissant, not nicc, le nombre dindividus statistiques pour lesquels X est infrieur ou gal xi. On a : n1cc = n1 et nicc = n1 + n2 + + ni = nk .
k =1 i
Frquences cumules croissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule croissante, note ficc, reprsentant la proportion dindividus statistiques pour lesquels X est infrieur ou gal xi. On a : f1cc = f1 et ficc = f1 + f2 + . + fi = fk , ou encore ficc =
k =1 i
nicc . n
Si la srie possde r modalits, xr dsignant alors la plus grande valeur de X, on a : r fr cc = f 1 + f2 + . + fr = fk = 1 (ou 100 si les frquences sont exprimes en pourcentage). Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicc le nombre dindividus statistiques pour lesquels X est infrieur ou gal bi, et ficc la proportion dindividus statistiques pour lesquels X est infrieur ou gal bi.
k =1
Il est galement possible de cumuler les effectifs et les frquences dans le sens dcroissant.
Dfinitions Effectifs cumuls dcroissants sur variable discrte : Si X dsigne une variable quantitative discrte, on appelle effectif cumul dcroissant, not nicd, le nombre dindividus statistiques pour lesquels X est suprieur ou gal xi. (Certains auteurs adoptent une convention diffrente : le nombre dindividus statistiques pour lesquels X est strictement suprieur xi). On a : n1cd = n ; nicd = ni + ni +1 + + nr = nk , r dsignant le nombre de modalits, et k =i nrcd = nr. Frquences cumules dcroissantes sur variable discrte : Avec les mmes hypothses, on dfinit la frquence cumule dcroissante, note ficd, reprsentant la proportion dindividus statistiques pour lesquels X est suprieur ou gal xi. On a : f1cd = 1 ; ficd = fi + fi+1 + . + fr = fk , et frcd = fr, ou encore ficd =
k =i r r
nicd . n
Dans le cas dune variable quantitative continue, les donnes sont groupes en classes [ai ; bi[, et on dfinit, de mme que pour une variable discrte, nicd le nombre dindividus statistiques pour lesquels X est suprieur ou gal ai, et ficc la proportion dindividus statistiques pour lesquels X est suprieur ou gal ai.
Exemple 1.5
De 3 5 ans
2 317 874
Les effectifs cumuls croissants (nicc), dcroissants (nicd), et les frquences cumules croissantes (ficc), dcroissantes (ficd), correspondants sont les suivants :
ge [0 ; 3[ [3 ; 6[ ni 2 294 846 2 317 874 n icc 2 294 846 4 612 720 n icd 4 612 720 2 317 874 f icc 0,4975 1 fi 0,4975 0,5025 f icd 1 0,5025
Total
4 612 720
1,0000
3.1
Diagramme circulaire
Le diagramme circulaire, galement appel camembert , permet une reprsentation de la distribution dune variable dans un cercle qui reprsente 100 % des modalits (voir figure 1.1).
10
Statistique descriptive
Dfinition
Un diagramme circulaire est un graphique constitu dun cercle divis en secteurs dont les angles au centre sont proportionnels aux effectifs (ou aux frquences). De fait, les aires des secteurs sont proportionnelles aux effectifs. Langle i dune modalit deffectif ni est donn en n degrs par : i = i 360 = fi 360 . n Il est galement possible dutiliser un graphique semi-circulaire form dun demi-cercle (180).
Dfinition
Un diagramme en tuyaux dorgue est un graphique qui chaque modalit dune variable qualitative associe un rectangle de base constante dont la hauteur est proportionnelle leffectif (ou la frquence). De fait, les aires des secteurs sont proportionnelles aux effectifs. Les rectangles sont en gnral disjoints, verticaux ou horizontaux.
Figure 1.2
Diagramme en tuyaux dorgue : proportion (en pourcentage) de bacheliers et nonbacheliers dans une gnration en France mtropolitaine et DOM, 2005.
Frquences en % 40,0 35,0 30,0 25,0 20,0 15,0 10,0 5,0 Bac gnral Bac technologique Bac professionnel Non bacheliers
11
3.2
Figure 1.3
Diagramme en btons et polygone des effectifs : nombre de personnes par mnage, France, 1999.
Milliers
12
Statistique descriptive
Lors de la ralisation dun histogramme, il est indispensable de distinguer deux cas. 1. Si les amplitudes de classes sont gales, la hauteur des rectangles correspondra aux effectifs (ou aux frquences) des classes. 2. Si les amplitudes sont diffrentes, afin de constituer lhistogramme, il est ncessaire de : calculer, pour chaque classe, lamplitude ai ; calculer la densit di = ni / ai pour un histogramme des effectifs, et di = fi / ai pour un histogramme des frquences ; affecter chaque rectangle une hauteur proportionnelle la densit di de la classe correspondante. Soit min(ai) lamplitude minimale de classe, la hauteur est alors appele effectif corrig et note nic = di min(ai) ; cette convention revient adopter min(ai) comme unit damplitude de classe. Les classes ayant pour amplitudes min(ai) sont alors reprsentes par des rectangles dont la hauteur est leffectif. De mme, il est possible de retenir comme hauteur la frquence corrige fic = di min(ai), avec di = fi / ai dans le cas dun histogramme des frquences. Lutilisation de min(ai) est une convention facultative ; un histogramme est correct ds lors que les effectifs (ou les frquences) corrigs sont proportionnels aux densits.
Exemple 1.6 Ralisation dun histogramme et dun polygone des effectifs
Le responsable des ressources humaines dune entreprise a relev la distribution statistique suivante correspondant lanciennet du personnel cadre dans lentreprise, exprime en annes :
Classes [6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 15,5[ [15,5 ; 17[ Total Effectifs 3 8 12 19 9 5 4 60
Lhistogramme des effectifs est prsent avec, sur le mme graphique, le polygone des effectifs trac en courbe pleine (voir figure 1.4). Ce polygone permet de reprsenter la distribution sous la forme dune courbe ; quand les amplitudes de classes sont gales, on lobtient en joignant les milieux des bases suprieures de chaque rectangle de lhistogramme par des segments de droite. On adjoint gnralement une classe deffectif nul, de part et dautre de lhistogramme, afin de respecter la rgle de compensation des aires : laire totale du domaine situ entre laxe des x et le polygone est gale la somme des aires des rectangles de lhistogramme. Elle reprsente leffectif total.
13
Figure 1.4
Histogramme et polygone des effectifs, classes de mme amplitude : anciennet du personnel cadre de lentreprise.
ni 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 xi
Modifions lgrement cet exemple en regroupant les deux dernires classes en une seule. Ce regroupement permet de traiter le cas de classes damplitudes diffrentes, puisque ainsi la dernire classe est damplitude 3 contre 1,5 pour toutes les autres classes.
Classes [6,5 ; 8[ [8 ; 9,5[ [9,5 ; 11[ [11 ; 12,5[ [12,5 ; 14[ [14 ; 17[ Total Effectifs 3 8 12 19 9 9 60
Les classes tant damplitudes ingales, il est ncessaire de calculer les amplitudes (ai), les densits (di) puis les effectifs corrigs (nic) pour chaque classe. Les rsultats de ces calculs sont prsents dans la figure 1.5. Figure 1.5
Calcul des effectifs corrigs dans le cas de classes damplitudes ingales.
On peut alors tracer lhistogramme de la figure 1.6 partir des effectifs corrigs, ainsi que le polygone des effectifs, en trait continu. Pour tracer le polygone des effectifs, nous avons effectu un dcoupage artificiel en pseudo-classes damplitude 1,5, dont nous avons pris les milieux des bases suprieures de faon respecter la rgle de compensation des aires : les aires des triangles extrieurs au domaine dlimit par le polygone sont gales celles des triangles qui sont situs sous le polygone. Ainsi, laire totale du domaine situ sous le polygone des effectifs est gale laire totale des rectangles de lhistogramme.
14
Statistique descriptive
Ce qui est fait dans cet exemple partir des effectifs peut galement tre ralis partir des frquences, afin de tracer lhistogramme et le polygone des frquences. Figure 1.6
Histogramme et polygone des effectifs : classes damplitudes ingales.
nic 20 18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Classes
Enfin, il serait inconcevable de ne pas voquer une varit dhistogramme, la pyramide, dont lexemple le plus clbre est la pyramide des ges (voir figure 1.7). Cette varit dhistogramme, o les axes ont t modifis (classes en ordonnes et effectifs en abscisses), est largement utilise en dmographie. Les classes sont annuelles. Les aires des rectangles reprsentent le nombre dhommes ou de femmes vivants et ns lanne considre, en lecture sur laxe des abscisses. Figure 1.7
Pyramide des ges.
3.3
DIAGRAMMES CUMULATIFS
Les notions deffectifs et de frquences cumuls nous ont donn loccasion dintroduire la notion de fonction de rpartition, que nous dfinissons ci-aprs avant dvoquer sa reprsentation graphique.
Dfinition
Si X est une variable quantitative, on introduit la fonction de rpartition, qui tout nombre rel x associe la proportion des individus de la population pour lesquels X est infrieur ou gal x. Pour tout x rel, 0 F (x) 1 (les valeurs de F peuvent galement tre exprimes en pourcentage).
15
La premire tape de la construction dune fonction de rpartition consiste donc calculer les frquences cumules croissantes, en distinguant deux cas : le discret et le continu.
1. Francis Galton (1822-1911) fut lun des fondateurs de la biomtrie et collabora avec son ami Karl Pearson (1857-1936).
16
Statistique descriptive
Les frquences cumules croissantes et dcroissantes sont calcules puis organises pour correspondre aux bornes des classes (voir figure 1.8).
Figure 1.8
Plages de donnes des polygones des frquences cumules croissantes et dcroissantes.
partir de ces donnes, il est possible de tracer les polygones des frquences cumules croissantes et dcroissantes (voir figure 1.9). Figure 1.9
Polygones des frquences cumules croissantes et dcroissantes de lge de la population chinoise.
fi cumules 110 100 90 80 70 60 50 40 30 20 10 0 0 10 20 30 40 50 60 70
ficc ficd
80
90
xi 100
Conclusion
On retiendra de ce premier chapitre limportance de la terminologie. On devra savoir identifier, dans un exercice, la population, les variables tudies et leur nature : qualitative, quantitative discrte ou quantitative continue. On notera que le discret et le continu, en statistique comme en probabilit, ncessitent des traitements diffrents ; dans le cas continu, on retiendra limportance de la notion de densit. Par ailleurs, on ninsistera jamais assez sur limportance des reprsentations graphiques en statistique ; lissue de ce chapitre, on devra matriser notamment les histogrammes et les polygones des effectifs (ou des frquences) cumuls croissants et dcroissants.
17
Problmes et exercices
Les problmes et exercices suivants proposent la mise en application des notions exposes dans la premire partie de ce chapitre. Lexercice 1 traite du passage dune srie brute un tableau statistique. Les exercices 2, 3 et 5 sattachent aux graphiques associs aux diffrentes natures de variables statistiques. Lexercice 4 sintresse la discrtisation des donnes.
18
Statistique descriptive
1. a. La population tudie est le groupe dtudiants. b. La variable tudie est X = nombre de films que chacun dentre eux a vus au cours du mois dernier . 2. a. La variable tudie est quantitative discrte. b. Lensemble M des modalits est M = {0 ; 1 ; 2 ; 3}.
3. Le tableau statistique associ est compos de deux colonnes :
la premire colonne comporte les modalits xi de X ; la seconde colonne comporte les effectifs ni associs chacune de ces modalits. Le tableau statistique associ X est le suivant.
xi 0 1 2 3 ni 3 4 7 6
4
4. Figure 1.10
Diagramme en btons des effectifs.
8 7 6 5 4 3 2 1 0 0 1 2 3 xi 4 ni
Le mme diagramme en btons peut tre ralis sous Excel. Pour cela, cliquez sur Insertion/Graphique dans la barre de menus dExcel. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Histogramme et cliquez sur Suivant. Notez que le mot histogramme est employ par Excel comme un terme gnrique dsignant des barres verticales et non un histogramme au sens statistique. Lassistant graphique propose de saisir les donnes du graphique. Cliquez sur longlet Srie et indiquez dans les champs correspondants les plages o se trouvent les donnes. Pour cela, slectionnez-les laide de la souris, comme indiqu sur la figure 1.11 : la cellule B23 de la feuille Ex1 pour le nom ;
19
la plage B24:B27 de la feuille Ex1 pour les valeurs ; la plage A24:A27 de la feuille Ex1 pour les graduations de laxe des abscisses. Cliquez sur le bouton Terminer.
Figure 1.11
Slection des donnes reprsenter dans lassistant graphique.
Lassistant graphique se ferme et le graphique apparat (voir figure 1.12). Vous pouvez modifier les options daffichage du graphique en appelant un menu par un clic droit sur la zone de graphique. 5. a. Soit nicc leffectif cumul croissant de la modalit i : n1cc = n1 = 3, soit n1cc = 3 ; n2cc = n1cc + n2 = 3 + 4, soit n2cc = 7 ; n3cc = n2cc + n3 = 7 + 7, soit n3cc = 14 ; n4cc = n3cc + n4 = 14 + 6, soit n4cc = 20. b. Soit nicd leffectif cumul dcroissant de la modalit i : n1cd = n, soit n1cd = 20 ; n2cd = n1cd n1 = 20 3, soit n2cd = 17 ; n3cd = n2cd + n2 = 17 4, soit n3cd = 13 ; n4cd = n3cd + n3 = 13 7, soit n4cd = 6. Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique initial : les effectifs cumuls croissants nicc et les effectifs cumuls dcroissants nicd.
xi 0 1 2 3 ni 3 4 7 6 n icc 3 7 14 20 n icd 20 17 13 6
20
Statistique descriptive
Figure 1.12
Diagramme en btons sous Excel.
ni 8 7 6 5 4 3 2 1 x 0 1 2 3
6. Pour pouvoir calculer les frquences cumules croissantes ficc et dcroissantes ficd, il convient de calculer les frquences fi. Soit fi la frquence de la classe i : f1 =
n1 3 n 4 = , soit f1 = 0,15 ; f2 = 2 = , soit f2 = 0,20 ; n 20 n 20 n3 7 n4 6 f3 = = , soit f3 = 0,35 ; f4 = = , soit f4 = 0,30. n 20 n 20
a. Soit ficc la frquence cumule croissante de la classe i : f1cc = f1 = 0,15, soit f1cc = 0,15 ; n2cc = f1cc + f2 = 0,15 + 0,20, soit f2cc = 0,35 ; f3cc = f2cc + f3 = 0,35 + 0,35, soit f3cc = 0,70 ; f4cc = f3cc + f4 = 0,70 + 0,30, soit f4cc = 1. b. Soit ficd la frquence cumule dcroissante de la classe i : f1cd = 1, soit f1cd = 1 ; f2cd = f1cd f1 = 1 0,15, soit f2cd = 0,85 ; f3cd = f2cd + f2 = 0,85 0,20, soit f3cd = 0,65 ; f4cd = f3cd + f3 = 0,65 0,35, soit f4cd = 0,30. Les rsultats des frquences cumules croissantes et dcroissantes se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique : les frquences cumules croissantes ficc et les frquences cumules dcroissantes ficd.
xi 0 1 2 3 ni 3 4 7 6 n icc 3 7 14 20 n icd 20 17 13 6 fi 0,15 0,20 0,35 0,30 f icc 0,15 0,35 0,70 1,00 f icd 1,00 0,85 0,65 0,30
21
1. Dterminez : a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Reprsentez la distribution par diagramme circulaire. 4. la suite de la question prcdente : a. Calculez les effectifs cumuls croissants et dcroissants. b. Reprsentez la fonction de rpartition. 5. Combien de familles sont composes de : a. au moins 1 enfant ? b. au plus 2 enfants ?
1. a. La population tudie est compose des familles de La Runion. b. La variable tudie est X = nombre denfants . 2. a. La variable tudie est quantitative discrte. b. Lensemble des modalits de la variable tudie est M = {0 ; 1 ; 2 ; 3 ; 4 ou +}.
3. Pour raliser un diagramme circulaire, il convient de tracer un cercle et de retenir pour chaque modalit i un secteur dangle au centre : i = 360 fi exprim en degrs.
Pour la modalit 1, f1 =
22
Statistique descriptive
n2 54812 = = 0,3047 , donc 2 = 360 0,3047, soit 2 = 109,7. n 179877 n3 51252 = = 0,2849 , donc 3 = 360 0,2849, soit 3 = 102,57. n 179877 n4 26613 = = 0,1480 , donc 4 = 360 0,1480, soit 4 = 53,26. n 179877 n5 16162 = = 0,0899 , donc 5 = 360 0,0899, soit 5 = 32,35. n 179877
On vrifie que la somme des angles est bien de 360. Ces calculs sont effectus sous Excel, dans le tableau prsent la figure 1.13, colonnes C et D. Figure 1.13
Rsultats sous Excel.
Le diagramme circulaire de la figure 1.14 est ralis partir de ces rsultats. Figure 1.14
Ralisation dun diagramme circulaire : rpartition des familles de La Runion selon leur nombre denfants.
3 = 53,26 4 ou + = 32,35
0 = 62,12
2 = 102,57
1 = 109,70
Pour raliser un diagramme circulaire sous Excel, cliquez sur Insertion/Graphique dans la barre de menus. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Secteurs et cliquez sur Suivant. Lassistant graphique propose de saisir les donnes du graphique. Indiquez dans le champ Plage de donnes la plage o se trouvent les donnes en les slectionnant laide de la souris (voir figure 1.15). Il sagit ici de la plage A2:B6 sur la feuille Ex2. Cliquez sur le bouton Terminer.
23
Figure 1.15
Slection des donnes reprsenter dans lassistant graphique.
Lassistant graphique se ferme et le graphique apparat. Vous pouvez modifier les options daffichage du diagramme en appelant un menu par un clic droit sur la zone de graphique. 4. a. Soit nicc leffectif cumul croissant de la classe i : n1cc = n1 = 31 038, soit n1cc = 31 038 ; n2cc = n1cc + n2 = 31 038 + 54 812, soit n2cc = 85 850 ; n3cc = n2cc + n3 = 85 850 + 51 252, n4cc = n3cc + n4 = 137 102 + 26 613, soit n4cc = 163 175 ; soit n3cc = 137 102 ; n5cc = n4cc + n5 = 163 175 + 16 162, soit n5cc = 179 877. Soit nicd leffectif cumul dcroissant de la classe i : n1cd = n, soit n1cd = 179 877 ; n2cd = n1cd n1 = 179 877 31 038, soit n2cd = 148 839 ; n3cd = n2cd + n2 = 148 839 54 812, soit n3cd = 94 027 ; n4cd = n3cd + n3 = 94 027 51 252, soit n4cd = 42 775 ; n5cd = n4cd + n4 = 42 775 26 613, soit n5cd = 16 162. Les rsultats des effectifs cumuls croissants et dcroissants se prsentent dans un tableau obtenu en ajoutant deux colonnes au tableau statistique prcdent : les effectifs cumuls croissants nicc en colonne E et les effectifs cumuls dcroissants nicd en colonne F (voir figure 1.13). b. La fonction de rpartition est ralise partir des frquences cumules croissantes (ficc), calcules en colonne G du tableau statistique prcdent (voir figure 1.13), sur du papier millimtr (voir figure 1.16). Figure 1.16
Fonction de rpartition du nombre denfants des familles de La Runion.
F(x) 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0 -1 0 1 2 3 4 x
24
Statistique descriptive
5. a. Au moins 1 enfant correspond aux familles qui ont 1, 2, 3 ou 4 et + enfants, ou encore toutes les familles sauf celles qui ont 0 enfant, cest--dire toutes les familles sauf celles qui prsentent la modalit x1 de X. Le nombre de ces familles est leffectif cumul dcroissant n2cd = 148 839, soit 179 877 31 038. Ainsi, 148 839 familles sont composes dau moins 1 enfant. b. Au plus 2 enfants correspond aux familles qui ont 0, 1 ou 2 enfants, cest--dire les familles qui prsentent les modalits x1, x2 ou x3 de X. Le nombre de ces familles est leffectif cumul croissant n3cc = 137 102, soit 31 038 + 54 812 + 51 252. Ainsi, 137 102 familles sont composes dau plus 2 enfants.
EXERCICE 3 LHISTOGRAMME
La Scurit routire tudie laccidentologie des passagers des vhicules de tourisme, gs de 18 65 ans. Le tableau suivant indique le nombre de tus par tranches dge en 2005 :
ge [18 ; 25[ [25 ; 35[ [35 ; 45[ [45 ; 65[
Source : ONISR, 2006
1. Dterminez : a. la population tudie, b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Dessinez lhistogramme de la distribution.
1. a. La population tudie est compose des passagers des vhicules de tourisme, gs de 18 65 ans. b. La variable tudie est X = ge des tus . 2. a. La variable tudie est quantitative continue. b. Les modalits de la variable tudie sont les quatre classes suivantes : [18 ; 25[ ; [25 ; 35[ ; [35 ; 45[ ; [45 ; 65[.
3. Nous calculons les amplitudes de classes (Ai), soit :
A1 = 25 18 = 7 ; A2 = 35 25 = 10 ; A3 = 45 35 = 10 ; A4 = 65 45 = 20. Puisquelles sont diffrentes, il est ncessaire dutiliser les densits pour raliser lhistogramme.
25
Conformment la figure 1.17, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les densits (voir figure 1.17). Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 7. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L37. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les effectifs corrigs (voir figure 1.18). Figure 1.17 (gauche)
Calcul des densits avec la calculatrice.
Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.19). Figure 1.19
Histogramme des tus par tranches dge.
800 700 600 500 400 300 200 100 0 0 10 20 30 40 50 60 xi nic
26
Statistique descriptive
Pays Amrique latine Chine Europe centrale CEI Moyen-Orient Europe de lOuest Japon Asie (NPI) Australasie Amrique du Nord
Source : ADEME, 2002
missions de CO2 (tonnes de CO2 par habitant) 2,79 3,05 5,68 5,97 6,04 8,28 9,14 10,46 12,2 20,02
LADEME souhaite distinguer trois classes de pays, selon leur niveau dmissions de CO2 : ceux qui mettent moins de 6 tonnes par habitant ; ceux qui mettent de 6 moins de 10 tonnes par habitant ; ceux qui mettent de 10 moins de 22 tonnes par habitant.1. a. la population tudie ; b. la variable tudie. 2. Prcisez : a. la nature de la variable ; b. les modalits de la variable. 3. Construisez le tableau statistique associ. Pour cela, discrtisez le caractre tudi selon la classification souhaite par lADEME. 4. Dessinez lhistogramme de la distribution. Dterminez :
1. a. La population tudie est compose des rgions du monde numres. b. La variable tudie est X = missions de CO2 . 2. a. La variable tudie est quantitative continue. b. Lensemble des modalits de la variable tudie est M = {0,82 ; 1,39 ; 2,79 ; 3,05 ; 5,68 ; 5,97 ; 6,04 ; 8,28 ; 9,14 ; 10,46 ; 12,2 ; 20,02}.
3. Le tableau statistique associ est compos de deux colonnes :
la premire colonne comporte les classes dmission de CO2 ; la seconde colonne comporte les effectifs ni affects chacune de ces classes.
27
[10 ; 22[
4. Nous calculons ensuite les amplitudes de classes (Ai), soit : A1 = 6 0 = 6 ; A2 = 10 6 = 4 ; A3 = 22 10 = 12. Conformment la figure 1.20, saisissez les effectifs (ni) dans la colonne L1 et les amplitudes (Ai) dans la colonne L2. Pour calculer les densits (di) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les densits (voir figure 1.20). Figure 1.20 (gauche)
Calcul des densits avec la calculatrice.
Les effectifs corrigs (nic) sont obtenus en multipliant ces densits par leffectif minimal, soit 4. Pour calculer les effectifs corrigs (nic) dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L34. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les effectifs corrigs (voir figure 1.21). Lhistogramme des effectifs est ensuite trac sur une feuille de papier millimtr (voir figure 1.22). Figure 1.22
Histogramme des pays selon leurs missions de CO2.
0,5 1 nic
0 0 2 4 6 8 10 12 14 16 18 20 22
Classes
28
Statistique descriptive
1. Sur un mme graphique : a. Dessinez lhistogramme des frquences de la distribution. b. Dessinez le polygone des frquences de la distribution. 2. la suite de la question prcdente : a. Calculez les frquences cumules croissantes et dcroissantes. b. Reprsentez les polygones des frquences cumules croissantes et dcroissantes sur un mme graphique. 1. a. Une simple lecture du tableau permet de voir que les amplitudes de classes ne sont pas constantes, ce qui est confirm par leur calcul en colonne C (voir figure 1.23). Les frquences sont calcules en colonne D, puis les densits (di) en colonne E, en effectuant le rapport des frquences sur les amplitudes. Enfin, les frquences corriges (fic) sont obtenues en colonne F en multipliant ces densits par leffectif minimal.
Figure 1.23
Rsultats sous Excel.
partir de ces frquences corriges, il est possible de tracer lhistogramme des frquences sur une feuille de papier millimtr (voir figure 1.24). b. Les classes sont damplitudes ingales. On procde un dcoupage artificiel en prenant lamplitude minimale, soit 2, pour unit damplitude. Le polygone des frquen-
29
ces est alors obtenu en joignant la rgle les milieux des bases suprieures des rectangles du dcoupage prcdent (voir figure 1.24). Figure 1.24
Histogramme et polygone des frquences des pays selon leurs missions de CO2.
fic 0,40 0,35 0,30 Polygone 0,25 0,20 0,15 0,10 0,05 0,00 -2 0 2 4 6 8 10 12 14 16 18 20 22 24 Classes
2. a. la suite du tableau Excel prcdent, les frquences cumules croissantes (ficc) sont calcules dans la colonne G et les frquences cumules dcroissantes (ficd) dans la colonne H (voir figure 1.23). Ces calculs sont effectus selon le mme principe que pour les effectifs cumuls croissants et dcroissants, en remplaant les effectifs par les frquences. b. La prsentation de ces rsultats est lgrement modifie pour faire apparatre dans un mme tableau les frquences cumules croissantes et dcroissantes de chacune des bornes des classes (voir figure 1.25).
Figure 1.25
Donnes pour les polygones de frquences cumules.
Les courbes des frquences cumules croissantes et dcroissantes de la figure 1.26 sont ralises partir de ce dernier tableau. Pour raliser ces courbes des effectifs cumuls sous Excel, cliquez sur Insertion/ Graphique dans la barre de menus dExcel. Lassistant graphique apparat. Dans lassistant graphique, choisissez le type de graphique Nuages de points, puis, dans Sous-type de graphique, slectionnez limage reprsentant le Nuage de points relis par une courbe. Cliquez sur Suivant. Lassistant graphique propose de saisir les donnes du graphique.
30
Statistique descriptive
Figure 1.26
Polygones des frquences cumules croissantes et dcroissantes des pays selon leurs missions de CO2.
fi cumules 1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00 0 2 4 6 8 xi 10 12 14 16 18 20 22 ficc ficd
Dans longlet Plage de donnes, indiquez dans le champ correspondant la plage o se trouvent les donnes permettant de tracer les courbes correspondant aux polygones des effectifs cumuls croissants et dcroissants. Pour cela, slectionnez laide de la souris la plage A34:C42 de la feuille Ex5 comme indiqu sur la figure 1.27, puis cliquez sur Terminer. Figure 1.27
Slection des donnes reprsenter dans lassistant graphique.
Lassistant graphique se ferme et le graphique apparat (voir figure 1.26). Vous pouvez modifier les options daffichage du graphique en appelant un menu par un clic droit sur la zone de graphique.
31
32
Statistique descriptive
Si la formule =B2 + B3 est saisie en B4 puis recopie en C4, elle devient =C2 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en D3, elle devient =B3 + C3. Si la formule =B2 + C2 est saisie en D2 puis recopie en E3, elle devient =C3 + D3. Rfrences absolues : on peut figer la colonne et la ligne dune cellule, en mettant le signe $ devant la lettre de la colonne et devant le nombre de la ligne, afin que la cellule concerne reste identique en cas de recopie dune formule. Cette cellule est alors dfinie par une rfrence absolue dans la formule. Si la formule =B2 + $C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C$2. Rfrences mixtes : on peut aussi dcider de ne figer que la colonne ou que la ligne dune cellule, en positionnant le symbole $ uniquement devant la lettre ou le nombre de la cellule. La cellule est alors dfinie par une rfrence mixte. Si la formule =B2 + $C2 est saisie en D2 puis recopie en E3, elle devient =C3 + $C3. Si la formule =B2 + C$2 est saisie en D2 puis recopie en E3, elle devient =C3 + D$2. La notion de fonction : Excel comporte des fonctions intgres, identifies par des noms de fonctions par exemple, SOMME, PRODUIT, MOYENNE, RACINE Les lments sur lesquels porte la fonction sont appels ARGUMENTS, se placent entre parenthses et sont spars par des points-virgules. Pour utiliser une fonction : placez le curseur dans la cellule o vous souhaitez faire apparatre le rsultat. Cliquez sur Insertion/Fonction (ou utilisez directement fx ), slectionnez la catgorie de fonction souhaite (dans cet ouvrage, Statistique ou Math & Trigo), puis la fonction dsire. Entrez les arguments en vous laissant guider par la bote de dialogue Excel. Validez en cliquant sur OK. Remarque : pour faire une somme, il est possible de se servir de licne propose par dfaut dans la barre doutils. Cliquez sur la cellule o vous souhaitez faire apparatre la somme, cliquez sur licne , puis slectionnez les cellules dont vous souhaitez faire la somme, et validez avec ENTRE. Les fonctions statistiques seront explores lors de la correction des exercices.
33
Pour quitter lditeur de tableau : appelez la fonction QUIT par lappui successif sur les touches 2ND et MODE. Pour effacer une colonne entire : placez le curseur sur len-tte de colonne Li que vous souhaitez effacer. Appuyez sur les touches CLEAR et ENTER. Pour effectuer la somme des termes dune colonne : placez le curseur dans la cellule (1) o vous souhaitez faire apparatre la somme. Appuyez sur les touches 2ND et LIST, puis, dans le menu MATH, appelez la fonction sum(. Indiquez la colonne Lj dont vous souhaitez faire la somme (par exemple, L1 est obtenu par 2ND et 1) et validez avec ENTER. Pour effectuer la somme cumule dune colonne : placez le curseur sur len-tte de colonne Li dans laquelle vous souhaitez obtenir les effectifs cumuls. Appuyez sur les touches 2ND et LIST, puis, dans le menu OPS, appelez la fonction cumSum(. Indiquez la colonne Lj dont vous souhaitez faire la somme cumule et validez avec ENTER.
Bibliographie
BOLL M., Lexploitation du hasard, Que sais-je ?, PUF, 1947. CALOT G., Cours de statistique descriptive, Dunod, Paris, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DODGE Y., Premiers pas en statistiques, Springer, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LE BRAS H., Naissance de la mortalit. Lorigine politique de la statistique et de la dmographie, Gallimard/Le Seuil, Paris, 2000. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. ROHRBASSER J.-M. et VERON J., Leibniz et les raisonnements sur la vie humaine, INED, Paris, 2001. VESSEREAU A., La statistique, Que sais-je ?, PUF, 1962.
34
Statistique descriptive
Lobjectif de ce chapitre est de prsenter les principaux paramtres qui permettent de rsumer une srie statistique dobservations et dclairer sur la position du noyau (centre) de la srie. Ces paramtres sont appels caractristiques de position ou de tendance centrale de la srie statistique une variable. Nous prsenterons ici le mode, la moyenne, la mdiane, les quartiles et, plus gnralement, les quantiles. Le statisticien anglais George Yule (1871-1951) a dfini en 1911 les conditions idales souhaitables pour une valeur centrale : tre dfinie objectivement partir de la srie ; dpendre de tous les termes de la srie ; tre comprhensible par des non-spcialistes ; tre simple calculer ; tre peu sensible aux fluctuations dchantillonnage ; se prter des calculs algbriques. Aucune des valeurs centrales parfaite au sens de Yule. dfinies ci-aprs nest
35
Le mode
Lors de lobservation de la reprsentation graphique dune distribution statistique (diagramme en btons ou histogramme), lil est souvent attir par le bton ou le rectangle le plus haut. Une des valeurs typiques dune srie statistique est le mode (valeur dominante). Ce mot semble inspir de la mode , car il met en vidence la valeur la plus probable de la srie. La courbe en cloche de la distribution normale (voir chapitre 4, section 1) en donne une bonne vision.
1.1
PRSENTATION
Le mode est la valeur de la variable qui a leffectif (ou la frquence) le plus grand. On le note Mo.
Dfinition
En conomie, dans les problmes dalimentation, de revenu, de logement, etc., le groupe qui a le plus grand poids est celui du mode. Il situe bien la position des valeurs les plus frquemment rencontres. Le reprage du mode nest pas un problme complexe, mais il faut distinguer le cas dune variable qualitative ou quantitative discrte du cas dune variable continue. Il existe des sries unimodales (un mode) et des sries plurimodales (plusieurs modes).
1.2
1.3
36
Statistique descriptive
2. Dtermination du mode lintrieur de cette classe modale. Pour une premire estimation, le mode peut tre approch par le centre de la classe modale. En fait, le mode est labscisse du point o la courbe de densit de frquence atteint son maximum. Dans la pratique, nous disposons uniquement de lhistogramme. Le mode peut tre estim par la mthode des diagonales : on utilise le trapze mis en vidence par les deux rectangles encadrant le rectangle modal (voir figure 2.1).
Figure 2.1
Histogramme des effectifs et dtermination du mode : structure des ges en 2020, France, prvisions.
di h1 h h2
Mo Classes 10 20 30 40 50 60 70 80 90 100
Graphiquement, la classe modale est le pic de lhistogramme corrig (amplitudes gales) et le mode correspond labscisse du point dintersection des deux diagonales. Il se calcule donc sur les effectifs corrigs (cest le seul indicateur qui se calcule sur effectifs corrigs). Dans le cas o les amplitudes de classes sont gales, la classe modale est celle qui a le plus grand effectif (ou la plus grande frquence). La suite de la dmarche est identique. Soit [x1 ; x2[ la classe modale, h1 et h2 les hauteurs (effectifs corrigs ou densits) des rectangles encadrant le rectangle modal, h la hauteur du rectangle modal et Mo le mode. Afin de calculer le mode, lide est dabandonner lhypothse de rpartition uniforme lintrieur de la classe modale, qui conduit retenir le centre de classe. Lhypothse privilgie est celle dune rpartition influence par les valeurs h1 et h2, le mode tant attir du ct du rectangle voisin de plus grande densit. Il est suppos que la densit crot de la valeur h1 son maximum h et dcrot de h h2 avec la mme vitesse, ce qui h h1 h h2 . = donne, avec les taux daccroissement : Mo x1 x2 Mo Soit
k1 k2 = , avec k1 et k2 les diffrences : k1 = h h1 et k2 = h h2. Mo x1 x2 Mo k2 x1 + k1 x2 . k1 + k2
Le mode apparat comme la moyenne pondre de x1 et x2 respectivement affects des coefficients h2 et k1.
37
k1 (x2 x1 ) . Cette k1 + k2 formule montre bien, par exemple, le dplacement du mode vers x1 dans la cas o k1 < k2, k1 < 0,5 . donc o k1 + k2
Exemple 2.1
Source : Insee, projections des mnages lhorizon 2020 pour la France mtropolitaine, juillet 2006
Les amplitudes de classes tant diffrentes, nous utilisons les densits pour dterminer la classe modale et reprsenter lhistogramme (voir figure 2.1). La classe modale est donc la classe des 50-59 ans soit [50 ; 60 [ avec une densit de 828,1. x1 = 50 ; x2 = 60 ; h = 828,1 ; k2 = 828,1 771,6 = 56,5. h1= 796,7 ; h2 = 771,6 ; k1 = 828,1 796,7 = 31,4 ;
En appliquant la formule du mode : Mo = 7 mois. Le mode est trs peu conforme aux conditions de Yule. Il ne se prte pas aux calculs algbriques, et ne dpend pas de tous les termes de la srie. Cependant, il reste une valeur centrale importante pour les distributions ayant un effectif important, car il donne la valeur la plus typique.
k2 x1 + k1 x2 56,5 50 + 31,4 60 = , soit Mo = 53,57 ans, soit environ 52 ans et k1 + k2 31, 4 + 56,5
38
Statistique descriptive
Les moyennes
Si un individu possdait une poque donne toutes les qualits de lhomme moyen, il 1 reprsenterait tout ce qui est grand, bon et beau , disait Adolphe Qutelet . Sans nous attacher la notion conteste d homme moyen de Qutelet, gardons lesprit que lide de moyenne est une notion abstraite. Quand le statisticien calcule une moyenne, il fabrique en gnral une grandeur nouvelle, qui a la vocation dtre reprsentative de toutes les grandeurs considres, mais qui na en gnral aucune existence relle. Nous imaginons mal un fabricant de chaussures qui fabriquerait des chaussures correspondant la taille moyenne. Quatre types de moyennes sont dfinies ici : les moyennes arithmtiques et celles, moins utilises, que sont les moyennes gomtriques, harmoniques et quadratiques. La moyenne arithmtique garde un rle primordial du fait de sa simplicit de calcul, mais surtout du fait de sa place fondamentale dans la thorie des erreurs dobservation 2 (loi de Laplace-Gauss ) et dans la thorie de la rgression (voir chapitre 6). Lide fondamentale de la notion de moyenne est que cette dernire vise reprsenter des grandeurs ingales par une grandeur unique qui ne change pas la globalit de la situation. Ainsi, dans une entreprise o les personnels ont des salaires diffrents, la masse salariale resterait inchange si tous les personnels percevaient le mme salaire moyen.
2.1
LA MOYENNE ARITHMTIQUE
Cest en astronomie, avec Tycho Brahe , que la moyenne arithmtique simpose. Johann 4 Bernoulli la qualifie dans lEncyclopdie comme le milieu prendre entre les observations . Cette moyenne, lie laddition, est la moyenne la plus couramment utilise. Elle reprsente bien lide de milieu, dquilibre, symbolise par la place du zro dans les nombres.
3
Dfinitions
La moyenne arithmtique est la somme des valeurs observes rapporte au nombre dobservations. Elle se note x . La moyenne arithmtique simple de n rels (donnes en tableau brut) correspond la division de leur somme par leur nombre. Soit x1, x2, , xn les n observations de la variable X 1 n (non ncessairement distinctes) : la moyenne arithmtique se note x = x i . Cette formule n i =1 implique que
x
i =1
= nx .
1. Adolphe Qutelet (1796-1874), astronome, statisticien belge. 2. Pierre Simon de Laplace (1749-1827), mathmaticien, astronome franais. Carl Friedrich Gauss (17771855), astronome, mathmaticien allemand. 3. Tycho Brahe (1546-1601), astronome danois. 4. Johann Bernoulli (1667-1748), mathmaticien suisse.
39
La moyenne arithmtique pondre de r rels (distincts) x1, x2, , xr (donnes en tableau statistique), affects respectivement des coefficients ni, tels que
x=
r 1 r ni x i . Ou encore x = fi x i . n i =1 i =1
n
i =1
= n , se note
Les probabilistes parlent desprance dune variable alatoire et notent sa moyenne E(X) =
px
i i =1
La rpartition des effectifs du prlmentaire dans les tablissements publics par ges en 2005-2006 est la suivante :
ge 2 ans 3 ans 4 ans 5 ans 6 ans et plus ni 154 141 667 328 685 158 680 202 9 683 f i (%) 0,0702 0,3038 0,3119 0,3097 0,0044
On notera qua priori lge est une variable continue ; cependant, lducation nationale prsente ici cette variable comme une variable discrte et nous la traiterons ainsi. Par ailleurs, nous prendrons 6 pour la dernire modalit. Pour calculer la moyenne, il est ncessaire de calculer chacun des nixi, avant den calculer la somme (voir figure 2.2). La moyenne est obtenue en divisant la somme des nixi par leffectif total. Lge moyen 8 510 006 = 3,87 ans. On peut dans les tablissements publics de maternelle est : x = 2 196 512 galement retrouver cette valeur en calculant chacun des fixi et en effectuant leur somme. Figure 2.2
Calcul des nixi sous Excel (tablissements publics).
De mme, en calculant chacun des fixi et en effectuant leur somme, on trouve que lge moyen dans les tablissements privs de maternelle est : x = 3,8 ans (voir figure 2.2).
40
Statistique descriptive
Reprenons les prvisions de lInsee lhorizon 2020 (voir exemple 2.1) et calculons lge moyen prvisible. Pour calculer les nixi, il faut pralablement calculer les centres de classes xi. Si ai et bi reprsentent respectivement les bornes infrieure et suprieure des a +b classes, alors le centre de classe xi = i i . Une fois les xi connus, il convient de calculer 2 chacun des fixi, avant den faire la somme (voir figure 2.3). Figure 2.3
Calcul des fixi sous Excel.
41
n (x
i =1 i r
1 ni xi = x , soit n i =1
n x
i =1
i i
= nx .
Cela explique pourquoi nous choisirons la moyenne des carts au carr pour mesurer la dispersion, encore appele variance. La moyenne arithmtique dpend de tous les termes de la srie, elle se prte bien aux calculs, cest un bon indicateur de tendance centrale au sens de Yule. En revanche, elle prsente linconvnient dtre trs sensible aux valeurs extrmes. Cest pourquoi elle est qualifie dindicateur peu robuste.
2.2
Dfinitions
ime
de leur pro-
xi
i =1
1 n
La moyenne gomtrique pondre de r rels positifs, affects respectivement des coefficients ni, tels que
n
i =1
xi
i =1
ni
.
1
Ou encore G = n x 1n1 x 2n2 .... x r nr = ( x1n1 x 2n2 .... x r nr )n = x 1f1 x 2f2 .... x r fr .
La moyenne gomtrique sera utilise dans le chapitre 8 sur les indices (indice de Fisher). Par ailleurs, elle est indispensable dans les calculs de taux de croissance ; elle donne le coefficient multiplicateur moyen.
Exemple 2.4 Calcul dune moyenne gomtrique pondre
Supposons que la population dun pays ait augment trois annes de suite de 4 % et deux annes de suite de 5 %, laugmentation moyenne sera donne par 1 + t = 5 1,043 1,052 ,
1
soit un taux de croissance annuel moyen t = (1,043 1,052 )5 1 , soit environ 4,40 % par an.
42
Statistique descriptive
La moyenne gomtrique est trs lie la moyenne arithmtique. En effet : 1 r Ln(g ) = ni Ln(xi ) . Ainsi, la moyenne gomtrique est gale la moyenne arithmtin i =1 que pondre des logarithmes npriens. Nous noterons galement que, sur la courbe de la fonction exponentielle, en prenant a +b est deux points dabscisses respectives a et b, lordonne du point dabscisse 2
e
a +b 2
d . Do t
2d 2 = = 99,04 km/h, et non 105 km/h comme le donnerait la d d 1 1 + + 130 80 130 80 2 1 1 moyenne arithmtique. Nous pouvons galement crire : = + , v sappelant la v 130 80 moyenne harmonique des vitesses.
Dfinitions La moyenne harmonique simple de n nombres rels non nuls est le rel not H et dfini par : n 1 n 1 = soit H = , linverse de la moyenne arithmtique des inverses. Ou encore 1 n 1 H i =1 x i n i =1 x i
H= n
x
i =1
1
i
La moyenne harmonique pondre de r nombres rels non nuls, affects respectivement des r r n n coefficients ni, tels que ni = n , est le rel not h et dfini par : = i soit H i =1 x i i =1 1 H= , soit linverse de la moyenne arithmtique pondre de leurs inverses. Ou r 1 ni n i =1 x i encore H =
n . ni i =1 x i
r
La moyenne harmonique sera galement utilise dans le chapitre 8 sur les indices (indice de Paasche).
43
La moyenne quadratique
Le mot quadratique, qui vient du latin, voque le carr et est utilis pour dsigner la puissance deux. Partons dun exemple simple : supposons un appartement compos de deux pices carres de cts respectifs a et b ( a b ) et cherchons la mesure du ct Q des pices dun appartement de mme surface, mais compos de deux pices identiques carres. On aura : 2Q 2 = a2 + b2 soit Q =
a2 + b2 . 2
La moyenne quadratique, ou moyenne dordre 2, est la moyenne qui sert dfinir lcarttype dune variable statistique, que nous utiliserons lors de ltude de la dispersion.
Dfinitions La moyenne quadratique simple de n nombres rels, note Q, correspond la moyenne arithmtique de leurs carrs : Q =
1 n x i . Ou encore Q = n i =1
x 12 + x 22 + ... + x n 2 . n
La moyenne quadratique pondre, note Q, de r nombres rels, affects respectivement des coefficients ni, tels que carrs : Q =
n
i =1
1 r n x 2 + n2 x 22 + ... + nr x r 2 ni x i . Ou encore Q = 1 1 . n i =1 n
Focus 2.1
2. Il est important de retenir lordre de ces moyennes : x Min H G x Q x Max . Cette remarque, qui servira notamment pour comparer les indices synthtiques, est aisment dmontrable pour deux rels a et b. Vrifions-le avec un exemple : a = 9 et b = 16 donne : H =
288 = 11, 52 . G = 12 ; x = 12, 5 et Q = 25
256 + 81 = 12,98 . 2
3. Les moyennes sont des indicateurs qualifis de peu robustes en ce sens quils sont sensibles aux valeurs extrmes.
Les quantiles
Partons dun exemple : En 2005, 10 % des salaris temps complet du secteur priv et semipublic gagnent un salaire annuel net infrieur 12 506 (source : Insee, DADS, 2005). On dit que 12 506 constitue le quantile dordre 0,10 de la srie des salaires considre.
44
Statistique descriptive
Si p est un rel de lintervalle]0 ; 1[, on lui associe la valeur de la srie, note Q(p), appele quantile dordre p. La proportion des valeurs de la srie infrieures ou gales Q(p) est suprieure ou gale p. La mdiane est un quantile particulier qui spare la population en deux groupes deffectifs gaux.
3.1
LA MDIANE
Il est clair que lide de partager la srie en deux groupes ayant exactement le mme effectif nest pas toujours ralisable, aussi la dfinition de la mdiane doit-elle tre affine.
Dfinition
La mdiane, note Me, est la plus petite valeur de la srie* pour laquelle le nombre dobservations infrieures ou gales cette valeur reprsente au moins 50 % de leffectif total de la srie. Cest le quantile dordre 0,5. * Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, la mdiane nest pas ncessairement une valeur observe (voir exemple 2.6).
Ainsi, il y a au moins 50 % des observations ayant une valeur infrieure ou gale la mdiane et au moins 50 % des observations ayant une valeur suprieure ou gale la mdiane. On dtermine la mdiane laide des effectifs cumuls croissants, partir de la srie des valeurs ordonnes dans lordre croissant. Il convient de distinguer le cas dune variable prsente sous forme de donnes brutes du cas dune variable prsente dans un tableau statistique. Dans ce dernier cas, on distinguera le cas discret et le cas continu.
Le tableau suivant donne le taux demploi (en pourcentage) des jeunes de 15 24 ans, en 2005, dans les sept pays de lUnion europenne ayant le plus fort taux.
Pays Allemagne Pays-Bas Autriche Taux demploi 42 65,2 53,1
45
Classons tout dabord les modalits par ordre croissant. Dans notre exemple, ces modalits sont au nombre de n = 7, cest--dire un nombre impair, et p = 3, donc la mdiane e est la valeur centrale de la srie ordonne, cest--dire la 4 observation : 40,5 42 48,7 53,1 54 62,3 65,2. La mdiane est Me = 53,1. Calcul 2 : si la srie brute comporte un nombre pair dobservations, not n = 2p, il convient de dterminer lintervalle mdian, constitu par les observations de rang p et p + 1 de la srie ordonne. Par convention, la mdiane est le milieu de cet intervalle mdian.
Exemple 2.6 Calcul de la mdiane, nombre pair de donnes brutes
Reprenons lexemple prcdent (voir exemple 2.5) et rajoutons la France avec un taux de 30,1 %. Le nombre de modalits devient n = 8, donc p = 4. Lintervalle mdian est conse e titu de la 4 et de la 5 observation, cest donc lintervalle mdian [48,7 ; 53,1]. Par 48,7 + 53,1 = 50,9. convention, Me = 2
Le tableau suivant donne le nombre denfants de moins de 25 ans par famille, en France mtropolitaine en 2005 :
Nombre denfants 1 2 3 4 ou +
Source : Insee, enqutes de recensement, 2004-2006
46
Statistique descriptive
Figure 2.4
Effectifs cumuls croissants.
Le nombre dobservations est pair, donc lintervalle mdian est constitu par les deux n 8730000 observations centrales, cest--dire de rangs respectifs p = = = 4365000 et 2 2 p + 1 = 4 365 001. Les effectifs cumuls croissants nous montrent que ces observations sont dans la modalit 2, donc que la mdiane, leur moyenne arithmtique, est 2. Il y a au moins 50 % des familles ayant un nombre denfants infrieur ou gal 2 et au moins 50 % des familles ayant un nombre denfants suprieur ou gal 2. Calcul 2 : Dans le second cas, les modalits de la variable sont des classes. La dtermination de la mdiane repose sur lhypothse que les observations sont rparties uniformment au sein de chaque classe. La mdiane est alors dfinie par F(Me) = 0,50, o F dsigne la fonction de rpartition. Son calcul se fait en deux temps : 1. Localisation de la classe mdiane laide des effectifs cumuls croissants ou des frquences cumules croissantes. 2. Calcul de la mdiane par interpolation linaire (voir focus 2.2).
Focus 2.2
Interpolation linaire
Le mot inter signifie que nous oprons entre deux valeurs connues, appeles ples. Le mot linaire voque la droite. Supposons une fonction f dfinie sur un segment [a ; b], et dont nous connaissons les valeurs f(a) et f(b), le problme tant destimer la valeur de f en un point x du segment [a ; b]. Le principe de linterpolation linaire est donc de supposer lalignement des points A, B et M dont les coordonnes sont A (xA ; yA) ; B (xB ; yB) ; M (xM ; yM). Cet alignement des points A, B et M est reprsent sur la figure 2.5. Lalignement des points A, B et M se traduit par lgalit des coefficients directeurs, ou encore par lgalit des rapports des distances, en utilisant le thorme de Thals.
y yA yM yA AB AB ' AB " = = , soit B , ce qui donne, aprs un produit en croix : = xB x A x M x A AM AM ' AM " yM = yA + yB y A (x M x A ) . xB x A
47
Figure 2.5
Alignement et galit des coefficients directeurs.
y 2,5 B'' B M
ym-
1,5
yB -yA
M''
M'
B'
x 4,5
Exemple 2.8
Soit le nombre de personnes de plus de 15 ans ayant un niveau dtudes suprieures (voir figure 2.6). Figure 2.6
Calcul des nicc sous Excel.
Le calcul de leffectif moiti, 4 345 579,5, et les effectifs cumuls croissants permettent de localiser la mdiane dans lintervalle des 30-40 ans. Le polygone des effectifs cumuls croissants permet une visualisation graphique de la mdiane (voir figure 2.7). Soit les trois points A (30 ; 2 164 808), B (40 ; 4 653 220) et M (Me ; 4 345 579,5). Figure 2.7
Mdiane et effectifs cumuls par ges des personnes de plus de 15 ans ayant un niveau dtudes suprieures.
ni cumuls 9 000 8 000 7 000
Milliers
6 000 5 000 4 000 3 000 2 000 1 000 0 0 10 20 30 Me 40 50 60 70 80 xi A M B nicum croissants nicum dcroissants
48
Statistique descriptive
Nous pouvons crire lalignement de ces trois points par galit des coefficients directeurs 4 653 220 2164 808 4 345 579,5 2164 808 , = (interpolation linaire ; voir focus 2.2) : Me 30 40 30 2 488 412 2 180 771,5 soit = , ce qui donne, en effectuant le produit en croix : 10 Me 30 2180 771,5 Me = + 30 = 38,76 ans. 248 841,2 La mdiane est relier la notion de fonction de rpartition, fonction dfinie de R dans [0 ; 1], extrmement importante en probabilit. Pour une variable statistique continue, la fonction de rpartition se dfinit par : F ( x ) = P ( X x ) , qui donne la proportion des individus de la population pour lesquels la variable statistique prend une valeur infrieure ou gale x. Ainsi : F ( Me ) = 0,50 . La mdiane ne satisfait pas bien aux conditions de Yule. Elle dpend du nombre de termes, mais pas de leur grandeur, et est inadapte aux calculs. Elle prsente cependant le grand avantage dtre insensible linfluence des termes extrmes, et donc dtre robuste.
3.2
Dfinition
On suppose que les modalits de la srie statistique sont ranges dans lordre croissant. Soit p un rel tel que 0 < p < 1, on lui associe la valeur de la srie*, note Q(p), appele quantile dordre p. Q(p) est la plus petite valeur de la srie pour laquelle la proportion des observations infrieures ou gales Q(p) est au moins gale p. * Convention : dans le cas dune srie discrte comportant un nombre pair dobservations, le quantile dordre 0,50 sera pris gal la mdiane.
La proportion dobservations infrieures ou gales Q(p) est au moins gale p et la proportion dobservations suprieures ou gales Q(p) est au moins gale (1 p). En plus de la mdiane, frquemment utilise, nous prsentons ici les quantiles les plus courants :
les trois quartiles partagent la srie en quatre groupes comprenant chacun 25 % des observations ; les neuf dciles partagent la srie en dix groupes comprenant chacun 10 % des observations ; les quatre-vingt-dix-neuf centiles partagent la srie en cent groupes comprenant chacun 1 % des observations.
49
Les quartiles
Dfinition Les quartiles partagent la population ou lchantillon en quatre groupes comprenant chacun 25 % des observations.
Q1 est le quantile dordre 0,25 : au moins 25 % des observations sont infrieures ou gales Q1 et au moins 75 % suprieures ou gales Q1. Q2 est le quantile dordre 0,50 : au moins 50 % des observations sont infrieures ou gales Q2 et au moins 50 % suprieures ou gales Q2 ; Q2 est gal la mdiane. Q3 est le quantile dordre 0,75 : au moins 75 % des observations sont infrieures ou gales Q3 et au moins 25 % suprieures ou gales Q3. Dans le cas continu, on se rfre la fonction de rpartition : F(Q1) = 0,25 ; F(Q2) = 0,5 et F(Q3) = 0,75. La dtermination des quartiles se fait comme pour la mdiane, avec une interpolation linaire dans le cas continu, les quartiles pouvant tre dtermins grce au polygone des frquences ou des effectifs cumuls croissants.
Exemple 2.9 Calcul dun quartile dans un tableau statistique contenant une variable continue
Reprenons lexemple 2.8, trait pour la mdiane, concernant le niveau dtudes des pern sonnes de plus de 15 ans, et dterminons Q1. Aprs avoir calcul = 2 172 789,75, nous 4 en dduisons que Q1 appartient la classe des 30-40 ans. Il reste effectuer linterpolation linaire qui donne :
4 653 220 2 164 808 2172 789,75 2 164 808 , soit Q1 = 30,03 ans, ce qui signifie que = Q1 30 40 30 25 % de cette population a un ge infrieur ou gal 30,03 ans.
Les dciles
Dfinition Les dciles partagent la population ou lchantillon en dix groupes comprenant chacun 10 % des observations.
Au nombre de neuf, ils se notent : D1, D2, D3, D4, D5, D6, D7, D8 et D9. D1 est le quantile dordre 0,10 : au moins 10 % des observations sont infrieures ou gales D1 et au moins 90 % des observations sont suprieures ou gales D1. D2 est le quantile dordre 0,20 : au moins 20 % des observations sont infrieures ou gales D2 et au moins 80 % des observations sont suprieures ou gales D2. D9 est le quantile dordre 0,90 : au moins 90 % des observations sont infrieures ou gales D9 et au moins 10 % des observations sont suprieures ou gales D9. Dans le cas continu, on se rfre la fonction de rpartition : F(D1) = 0,1 ; F(D2) = 0,2 ; ; F(D9) = 0,9. La dtermination des dciles est faite selon le mme processus que celui utilis pour les quartiles.
50
Statistique descriptive
Les centiles
Dfinition Les centiles partagent la population ou lchantillon en cent groupes comprenant chacun 1 % des observations.
Au nombre de quatre-vingt-dix-neuf, ils se notent : C1, C2, , C99. C1 est le quantile dordre 0,01 : au moins 1 % des observations sont infrieures ou gales C1 et au moins 99 % des observations sont suprieures ou gales C1. C99 est le quantile dordre 0,99 : au moins 99 % des observations sont infrieures ou gales C99 et au moins 1 % des observations sont suprieures ou gales C99. Dans le cas continu : F(C1) = 0,01 ; F(C2) = 0,02 ; ; F(C99) = 0,99. La dtermination des centiles est faite selon le mme processus que celui utilis pour les quartiles.
Focus 2.3
Figure 2.8
Histogramme, densit de probabilit et valeurs centrales.
fi
Distribution symtrique
fi
fi
xi Mo = Me = x
Mo < Me < x
xi
xi x< Me < Mo
1. Alfred Sauvy (1898-1990), conomiste et sociologue franais, fut directeur de lINED (Institut national dtudes dmographiques).
51
Karl Pearson a introduit, la fin du XIX sicle, la relation empirique suivante : Me Mo = 2 (x Me) . Elle est valable pour les distributions unimodales, pas trop asymtriques, et permet une estimation rapide dun paramtre partir des deux autres.
Focus 2.4
Focus 2.5
1. Karl Pearson (1857-1936), mathmaticien, statisticien anglais, fondateur avec Galton de la revue Biometrika.
52
Statistique descriptive
Pour calculer la racine n dune cellule : placez le curseur dans la cellule Li (1) o vous ime souhaitez faire apparatre la racine n . Appuyez sur la touche MATH, appelez la fonction
x
ime
ime
x =x
1 n
Conclusion
Nous voyons ainsi que nous serons amens faire de nombreux calculs de valeurs centrales pour analyser une srie statistique. Nous devrons choisir parmi ces valeurs celles qui par leurs qualits correspondent au contexte de ltude. La moyenne arithmtique est gnralement pertinente si la srie est suffisamment longue et homogne. Elle varie peu dun chantillon lautre. La mdiane est trs simple calculer, mais est plus sensible aux fluctuations dchantillonnage. Elle participe bien la description de la srie et limine leffet des valeurs aberrantes. Le mode a un but pratique vident : il indique la valeur la plus typique. Par ailleurs, il est incontournable pour les sries asymtriques. Ces paramtres qui participent une description synthtique de la srie doivent toujours tre visualiss sur les diffrentes reprsentations graphiques. Nous reviendrons dans le chapitre suivant sur limportance des quartiles et leur rle dans la reprsentation graphique des sries par des botes moustaches.
53
Problmes et exercices
La mise en uvre des caractristiques de tendance centrale diffre selon la nature des donnes. Les exercices 1, 2 et 3 proposent la dtermination de caractristiques de tendance centrale pour des variables de diverse nature. Lexercice 4 fait appel une approche graphique des caractristiques de tendance centrale. Les exercices 5 et 6 approfondissent la notion de moyenne, grce aux moyennes gomtriques et harmoniques.
1. On classe le nombre de mdecins pour 100 000 habitants par ordre croissant :
160 ; 220 ; 230 ; 230 ; 250 ; 250 ; 260 ; 270 ; 300 ; 300 ; 310 ; 310 ; 310 ; 310 ; 310 ; 310 ; 320 ; 340 ; 350 ; 360 ; 390 ; 390 ; 400 ; 440 ; 570.
Mo = 310. Le mode est la valeur la plus reprsente, soit 310 mdecins pour 100 000 habitants, valeur observe dans 6 pays. 2. Leffectif total n est impair, avec ici n = 25. Or, n = 2p + 1, donc p = 12. La valeur ime centrale est la (p + 1) observation, soit la 13e. Il sagit de 310. Donc Me = 310. Le nombre mdian de mdecins pour 100 000 habitants est 310. Douze pays, soit la moiti, ont moins de 310 mdecins pour 100 000 habitants et 12 pays, soit lautre moiti, ont plus de 310 mdecins pour 100 000 habitants.
54
Statistique descriptive
EXERCICE 2
Nombre de rsidences principales 1 526 573 3 028 244 5 299 675 6 418 808 4 432 943 3 103 918
1. Mo = 4. Ce sont les rsidences principales de 4 pices qui sont le plus frquentes, avec un effectif de 6 418 808. 2. Nous cherchons le nombre de pices en dessous duquel se trouvent 50 % des rsidences principales. Nous calculons donc les effectifs cumuls croissants, selon les tapes suivantes, sous Excel (voir figure 2.9) : leffectif total (n) en cellule B8, les frquences (fi) en colonne C, puis les frquences cumules croissantes (ficc) en colonne D.
Leffectif total est impair, donc la mdiane est lobservation centrale, de rang (p + 1), avec 23 810 160 . p= 2
Figure 2.9
Rsultats sous Excel.
Ou encore : partir de la colonne des frquences cumules croissantes (ficc), nous lisons que 41 % des rsidences principales ont 3 pices et moins ; 68 % des rsidences princi-
55
pales ont 4 pices et moins. Donc, entre ces deux valeurs, 50 % des rsidences principales ont moins de 4 pices. Soit Me = 4.
3. partir du tableau utilis pour la mdiane, il est possible de dterminer que :
Q1 = 3 : 19 % des rsidences principales ont 2 pices et moins ; 41 % des rsidences principales ont 3 pices et moins. Donc, entre ces deux valeurs, 25 % des rsidences principales ont moins de 3 pices. Q2 = 4, car Q2 = Me. Q3 = 5 : 68 % des rsidences principales ont 4 pices et moins ; 87 % des rsidences principales ont 5 pices et moins. Donc, entre ces deux valeurs, 75 % des rsidences principales ont moins de 5 pices. 4. la suite du tableau prcdent, nous calculons les nixi en colonne E puis leur somme en cellule E8, sous Excel (voir figure 2.10).
1 6 89 945 541 ni xi = , soit x = 3,78 pices. La moyenne du n i =1 23 810161 nombre de pices dans les rsidences principales est de 3,78.
EXERCICE 3
1. Calculez le mode. 2. Calculez la mdiane. 3. Calculez les quartiles. 4. Calculez les dciles : a. Calculez D1. b. Calculez D9. 5. Calculez les centiles : a. Calculez C1. b. Calculez C99. 6. Calculez la moyenne.
56
Statistique descriptive
1. Nous vrifions en premier lieu que les amplitudes de classes sont gales, ici de valeur 5. Il nest donc pas ncessaire de corriger les effectifs en passant par les densits. La classe modale est celle de plus grand effectif, soit la classe [15 ; 20[.
k2 x1 + k1 x2 (26,192 12,316) 20 + (26,192 24,631) 15 = , k1 + k2 (26,192 12,316) + (26,192 24, 631) soit Mo = 19,49. Lge modal de la population tudie est 19,49 ans, soit 19 ans et 6 mois.
x1 =
Saisissez les centres de classes (xi) dans la colonne L1 de la calculatrice et les effectifs (ni) dans la colonne L2 (voir figure 2.10).
Figure 2.10
Saisie du tableau de donnes avec la calculatrice.
Pour calculer les frquences (fi) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L2sum(L2), en appelant la fonction SUM (voir chapitre 1, annexe 1.2). Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les frquences. Pour obtenir les frquences cumules croissantes (ficc) dans la colonne L4 (voir figure 2.11a), placez le curseur sur len-tte de colonne L4, puis entrez la formule L4=CumSum(L3), en appelant la fonction CUMSUM (voir chapitre 1, annexe 1.2), puis appuyez sur ENTER.
Figure 2.11a
Calcul des frquences et des frquences cumules croissantes avec la calculatrice
28,2 % des entres sont faites par les moins de 15 ans ; 65,2 % des entres sont faites par les moins de 20 ans. Donc la mdiane appartient la classe [15 ; 20[.
0,5 0,28187 ( 20 15 ) + 15 ; soit Me = 17,95. La 0,65196 0,28187 moiti de la population tudie a moins de 17,95 ans, soit environ 17 ans et 11 mois.
57
3. 10,8 % des entres sont faites par les moins de 10 ans ; 28,2 % des entres sont faites par les moins de 15 ans. Donc Q1 appartient la classe [10 ; 15[.
0,25 0,10784 (15 10 ) + 10 ; soit Q1 = 14,08. Un 0,28187 0,10784 quart de la population tudie a moins de 14,08 ans, soit environ 14 ans et 1 mois.
Q2 = Me, donc Q2 = 17,95. La moiti de la population tudie a moins de 17,95 ans, soit environ 17 ans et 11 mois. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc Q3 appartient la classe [20 ; 25[. Par interpolation linaire, Q3 =
0,75 0, 65196 ( 25 20 ) + 20 ; soit Q3 = 21,41. Trois 1 0,65196 quarts de la population tudie ont moins de 21,41 ans, soit environ 21 ans et 5 mois.
4. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par les moins de 10 ans. Donc D1 appartient la classe [5 ; 10[.
0,1 0 (10 5) + 5 ; soit D1 = 9,64. 10 % de la 0,10784 0 population tudie a moins de 9,64 ans, soit environ 9 ans et 8 mois.
b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc D9 appartient la classe [20 ; 25[.
0,9 0,65196 ( 25 20 ) + 20 ; soit D9 = 23,56. 90 % de 1 0,65196 la population tudie a moins de 23,56 ans, soit environ 23 ans et 7 mois.
5. a. 0 % des entres sont faites par les moins de 5 ans ; 10,8 % des entres sont faites par les moins de 10 ans. Donc C1 appartient la classe [5 ; 10[.
0,01 0 (10 5) + 5 ; soit C1 = 5,46. 1 % de la 0,10784 0 population tudie a moins de 5,46 ans, soit environ 5 ans et 5 mois.
b. 65,2 % des entres sont faites par les moins de 20 ans ; 100 % des entres sont faites par les moins de 25 ans. Donc C99 appartient la classe [20 ; 25[.
0,99 0,65196 ( 25 20 ) + 20 ; soit C99 = 24,86. 99 % de 1 0,65196 la population tudie a moins de 24,86 ans, soit environ 24 ans et 10 mois.
6. Pour calculer les nixi dans la colonne L5, placez le curseur sur len-tte de colonne L5. Indiquez L5=L2L1. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre les nixi (voir figure 2.11b).
Pour en faire la somme, placez le curseur sur la cellule L5(5), et indiquez L5(5)=sum(L5), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. La cellule L5(5) fait alors apparatre la somme des nixi.
58
Statistique descriptive
Pour connatre leffectif total, placez le curseur sur la cellule L2(5), et indiquez L2(5)=sum(L2), en appelant la fonction SUM. Puis appuyez sur ENTER. La cellule L2(5) fait alors apparatre la somme des ni.
Figure 2.11b
Calcul des nixi et de la somme des colonnes avec la calculatrice.
1 4 1223,7 ni xi = , soit x = 17,29. Lge moyen de la n i =1 70,771 population tudie est 17,29 ans, soit environ 17 ans et 3 mois.
1. Les amplitudes de classes sont toutes identiques. Il est donc inutile de passer par les densits des effectifs afin de respecter le rapport entre laire du rectangle et sa hauteur (voir figure 2.12).
Figure 2.12
Histogramme des entres cinmatographiques par ges et tendances centrales.
ni 30
25
15
5 Q1 0 0 5 10 15 20 25
M Mo Q 3 xi
59
2. La mdiane se trouve lintersection des polygones des effectifs cumuls croissants et dcroissants. Afin de pouvoir tracer graphiquement ces polygones, il convient de calculer les effectifs cumuls croissants nicc en colonne D et les effectifs cumuls dcroissants nicd en colonne E (voir figure 2.13). Figure 2.13
Rsultats sous Excel.
Figure 2.14
Effectifs cumuls par ges des entres cinmatographiques.
Pour une augmentation de xi = 5 % = 0,05, la croissance se traduit par un coefficient multiplicateur de yi = 1 + 0,05 = 1,05. Ainsi, nous savons que le coefficient multiplicateur moyen est la moyenne gomtrique pondre des coefficients multiplicateurs affects des dures. Nous allons donc introduire la srie des yi = 1 + xi . Saisissez les yi dans la colonne L1 de la calculatrice et les effectifs (ni) dans la colonne L2 (voir figure 2.15). Pour calculer les yi^ni dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L1^L2, puis appuyez sur ENTER. La colonne L3 fait alors apparatre les yi^ni. Pour en faire le produit, placez le curseur sur la cellule L3(4) et indiquez L3(4)=prod(L3), en appelant la fonction PROD. Puis appuyez sur ENTER. La cellule L3(4) fait alors apparatre le produit des yi^ni, soit 1,2718.
60
Statistique descriptive
Pour faire la racine 4 du rsultat, placez le curseur sur la cellule L3(5), et indiquez L3(5)= L3(4)^(1 / 4). Puis appuyez sur ENTER. La cellule L3(5) donne 1,062.
Figure 2.15
Saisie du tableau de donnes et calcul avec la calculatrice.
yi
i =1
ni
Source : http://www.letour.fr/2005
Calculez la vitesse moyenne de Christophe Moreau sur la dernire semaine du Tour de France 2005.
n
i =1 r
ni i =1 xi
61
Nous cherchons donc la moyenne harmonique des vitesses (xi), chaque vitesse ayant pour poids la distance de ltape (ni). Nous calculons les ni / xi en colonne E puis leur somme en cellule E8, sous Excel (voir figure 2.16).
Figure 2.16
Rsultats sous Excel.
n x
i =1 i =1 6
ni
i
moyenne de Christophe Moreau sur la dernire semaine du Tour de France 2005 est 39,85 km/h.
Bibliographie
ANTOINE C., Les moyennes, Que sais-je ?, PUF, 1998. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. YULE G., An Introduction to the Theory of Statistics, Griffin, 1911.
62
Statistique descriptive
1. Les caractristiques simples ...64 2. Variance et cart-type ..........66 Problmes et exercices 1. Caractristiques simples de dispersion .......................73 2. Bote moustaches...............75 3. Variance et cart-type sur caractre discret .............76 4. Comparaison de distributions sur caractre continu ............77 5. Manipulations de formules....79
Dans son incontournable livre Le jeu de la science et du 1 hasard, Daniel Schwartz raconte cette anecdote : Les mauvaises langues prtendent quun statisticien se noya dans un cours deau dont la profondeur moyenne tait de 20 cm. Cest qu lendroit o il souhaitait patauger, elle atteignait 2 m. Dans le chapitre 2, nous avons vu comment une srie statistique pouvait tre rsume par ses caractristiques de position. Cependant, ces dernires ne renseignent pas sur la structure interne de la distribution, sur la variabilit de la srie autour de sa moyenne. Cest pourquoi il convient de complter ce travail en introduisant les caractristiques de dispersion. Nous en tudierons cinq : ltendue, les intervalles interquantiles, lcart absolu moyen, lcart-type (li la variance) et le coefficient de variation.
1. Daniel Schwartz, polytechnicien, est le fondateur du Centre denseignement de la statistique applique la mdecine (CESAM). Il a t le pionnier de lintroduction de la statistique dans la mdecine en France.
63
1.1
LTENDUE
La premire mesure de la dispersion dune distribution est ltendue. Cette mesure est la plus simple des caractristiques de dispersion ; dans le langage courant, on parle dventail, ou de fourchette, ou dintervalle de variation de la srie.
Dfinition
Ltendue dune srie est la diffrence entre la plus grande et la plus petite valeur observe. Elle est note : E = Max (xi) Min (xi).
Ltendue permet une approche aise de la dispersion dune variable, mais sa signification reste trs limite, car elle ne prend en compte que les deux valeurs extrmes de la srie. Or, ces valeurs extrmes peuvent tre mal connues, voire aberrantes ou errones. Par ailleurs, ltendue nest pas indpendante de leffectif observ et peut donner une vision fausse de la dispersion. Enfin, dans le cas de sries continues, ltendue nest pas connue avec exactitude, puisque la perte dinformation due au regroupement en classes ne permet pas de connatre les valeurs minimales et maximales rellement prises par la variable.
1.2
Dfinitions
Exemple 3.1
Reprenons lexemple 2.8 du chapitre prcdent concernant le niveau dtudes suprieures des personnes de plus de 15 ans. Dans cet exemple, Q1 = 30,03 ans. En procdant au calcul de Q3, nous trouvons Q3 = 52,18 ans. Ainsi, EIQ = 52,18 30,03 = 22,15 ans, soit environ 22 ans et 2 mois.
64
Statistique descriptive
Par rapport ltendue, lcart interquartile prsente lavantage dcarter les valeurs extrmes, mais linconvnient de laisser de ct 50 % des donnes. Cest pourquoi on prfre habituellement lintervalle interdcile, EID = D9 D1, qui comprend 80 % de la population.
1.3
Dfinition
Les quantiles permettent une reprsentation de la distribution statistique par le diagramme de 1 Tukey , ou bote moustaches. Il sagit dune bote dlimite par les quartiles Q1 et Q3, coupe en deux parties par la mdiane et prolonge de chaque ct par des moustaches (voir figure 3.1).
Figure 3.1
Schma de la bote moustaches ou diagramme de Tukey.
Moustache gauche Moustache droite
Q1
Q3
Il existe plusieurs conventions permettant de fixer la valeur des moustaches : Termes extrmes : la mthode classique consiste dmarrer la moustache de gauche la plus petite des valeurs, Min (xi), et finir celle de droite par Max (xi). Dans ce premier cas, si la srie a des valeurs extrmes isoles, les moustaches de la srie seront trs longues et fausseront linterprtation. Moustaches limites 1,5 EIQ : pour viter le problme voqu ci-avant, un calcul permet de limiter la taille des moustaches une fois et demie lcart interquartile. La moustache de gauche est gale la plus grande des valeurs entre Min (xi) et Q1 1,5 (Q3 Q1). La moustache de droite est compose de la plus petite des valeurs entre Max (xi) et Q1 + 1,5 (Q3 Q1). Centiles : une mthode simple consiste utiliser les centiles pour fixer la valeur des moustaches. Le centile C10 est utilis pour la moustache de gauche, et le centile C90 pour la moustache de droite. La bote moustaches permet une bonne visualisation de la zone centrale de la srie et de la dispersion. Ce diagramme est extrmement prcieux pour comparer diverses sries statistiques.
1. John Wilder Tukey (1915-2000) : mathmaticien et statisticien, il fut le premier directeur du dpartement statistique de luniversit de Princeton.
65
1.4
Dfinition
Lcart absolu moyen de n observations est la moyenne arithmtique des valeurs absolues des 1 n carts la moyenne : e a = x i x . n i =1 Lcart absolu moyen de n observations, ordonnes dans un tableau statistique (xi ; ni), prsentant r modalits, est la moyenne arithmtique pondre des valeurs absolues des carts r 1 r la moyenne : e a = ni x i x , r dsignant le nombre de modalits, avec n = ni . n i =1 i =1
La valeur absolue des carts la moyenne est utilise afin dempcher que les carts positifs ne se compensent avec les carts ngatifs. En effet, par cette compensation, la somme des carts la moyenne est nulle :
n (x
i =1 i
x) = 0 .
Lcart absolu moyen prsente lavantage de prendre en compte toutes les valeurs de la srie. Il a t introduit par Laplace avant la variance et est utilis notamment dans la mthode destimation L1, mthode alternative la mthode des moindres carrs.
2
2.1
Variance et cart-type
PRSENTATION
Lcart-type ou cart quadratique moyen est de loin lindicateur de dispersion le plus utilis. Lintroduction en 1893 de son nom anglais standard deviation est due Karl Pearson, mathmaticien, statisticien et philosophe. La variance, qui est le carr de lcarttype, a t introduite en statistique par le statisticien et gnticien anglais Ronald Fisher.
Dfinitions
Dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni), prsentant r modalits :
66
Statistique descriptive
1 i =r 2 V ( x ) = x = n ni ( x i x ) i =1 . i =r 1 ( x ) = ni (xi x ) n i =1
La variance (ou fluctuation) est la moyenne arithmtique des carrs des carts la moyenne. Elle se note V(x).
Lcart-type peut galement se dfinir comme la moyenne quadratique des carts la moyenne.
Exemple 3.2 Calculs de variance et dcart-type
La srie suivante donne le salaire minimal de croissance pour 169 heures de travail dans vingt pays dEurope en 2006. La valeur du SMIC est indique entre parenthses : Belgique (1 234) ; Bulgarie (81,8) ; Rpublique tchque (261,3) ; Estonie (191,7) ; Irlande (1 293) ; Grce (667,7) ; Espagne (631) ; France (1 218) ; Lettonie (129,2) ; Lituanie (159,3) ; Luxembourg (1 503) ; Hongrie (247) ; Malte (580) ; Pays-Bas (1 273) ; Pologne (233,5) ; Portugal (450) ; Roumanie (90,2) ; Slovnie (511,9) ; Slovaquie (183,2) ; Royaume-Uni (1269).
Source : Eurostat, 2006
1 20 12 207,8 xi = 20 = 610,39 . De l, aprs calcul de 20 i =1 chacun des carts cette moyenne, et leur lvation au carr, 1 20 4 672 451, 34 V (x) = (xi x ) = = 233 622,57 . La variance de la valeur du SMIC des 20 i =1 20 diffrents pays europens est de 233 622,57. Do lcart-type x = V (x) = 233 622,57 = 483,35 .
67
Afin de faciliter les diffrentes tapes de calcul de la variance, il est possible dutiliser la formule dveloppe de la variance. Cette formule est issue du thorme de Koenig.
Dfinitions Formules dveloppes de la variance :
1 n Cas de n observations : V ( x ) = x i x . n i =1 1 r Cas dun tableau statistique avec r modalits : V ( x ) = ni x i x . n i =1
Dmonstration (dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni), comprenant r modalits) :
1 r ni (xi x ) n i =1 1 r V (x) = ni (xi 2 xi x + x ) n i =1 1 r 1 r 1 r V (x) = ni xi 2 x ni xi + x ni n i =1 n i =1 n i =1 r 1 V (x) = ni xi 2 xx + x n i =1 1 r V (x) = ni xi x n i =1 V (x) =
Par cette formule, la variance est gale la moyenne des xi au carr moins le carr de la moyenne des xi. Le procd mnmotechnique suivant est parfois utilis : V(x) = MC CM, soit la variance est gale la Moyenne des Carrs moins le Carr de la Moyenne.
Exemple 3.3 Calcul de la variance par la formule dveloppe
Reprenons les donnes de lexemple 3.2 et calculons la variance avec la formule dveloppe, laide de la calculatrice : saisissez les valeurs du SMIC dans la colonne L1 du tableau (voir figure 3.3) en appuyant sur la touche STAT puis en ditant le tableau par appui sur la touche 1.
Figure 3.3
Extrait de la saisie du tableau de donnes avec la calculatrice.
68
Statistique descriptive
Lorsque les vingt valeurs sont saisies, appuyez sur la touche STAT, puis, dans le menu CALC, appelez la fonction 1-Var Stats. Validez avec ENTER. Les rsultats prsents figure 3.4 saffichent.
Figure 3.4
Rsultats de lanalyse statistique effectue avec la calculatrice.
Lecture des rsultats : on notera que la calculatrice dsigne par x et x les sommes des valeurs ou de leurs carrs, que lon ait affaire n observations brutes ou n observations ordonnes dans un tableau statistique. Par dfaut, comme dans cet exemple, les ni sont pris gaux 1. Enfin, lcart-type est x = 483,35. Il ne faut pas le confondre avec Sx = 495,9 appel cart-type dchantillon (suprieur x), qui permet destimer lcart-type dune population partir dun chantillon de cette population (voir P. Roger, chapitre 5). partir de ces rsultats il est possible de calculer directement la variance : 1 20 1 V (x) = xi x = 12 123 970, 4 610,39 = 233 622,57 , soit la mme valeur que 20 i =1 20 par la formule classique de la variance, conformment la dmonstration du thorme de Koenig. Ce rsultat peut galement tre obtenu en levant lcart-type au carr : 2 V (x) = x = 483,34 = 233 622,57 .
2.2
2.3
Proprits
V ( x + a ) = V (x ) , donc ( x + a ) = ( x ) : ajouter une constante ne change pas la dispersion. V (ax ) = a V ( x ) , donc ( ax ) = a ( x ) : multiplier la srie par un rel positif multiplie la
69
Dmonstrations dans le cas de n observations, ordonnes dans un tableau statistique (xi ; ni) :
1 r ni (xi + a) (x + a) n i =1 1 r V (x + a) = ni (xi + a x a), avec la proprit de la moyenne (x + a) = x + a n i =1 1 r V (x + a) = ni (xi x) n i =1 V ( x + a) =
Soit V (x + a) = V (x )
1 r ni (axi ) (ax) n i =1 1 r V (ax) = a ni xi a x , avec la proprit de la moyenne (ax) = ax n i =1 V (ax) = 1 r V (ax) = a ni xi x n i =1
Supposons que, dans une entreprise, le salaire moyen soit de 2 500 avec un cart-type de 500 . Ajout dune constante : si tous les salaires augmentent de 200 , la moyenne augmente galement de 200 , mais lcart-type reste constant. Autrement dit, la dispersion des salaires sera toujours mesure par un cart-type de 500 autour du salaire moyen de 2 700 . Multiplication par une constante : si tous les salaires augmentent de 5 %, le salaire moyen sera de 2500 1, 05 = 2625 et lcart-type deviendra : 500 1,05 = 525 .
Focus 3.1
Lcart-type
Lcart-type est conforme trois des conditions de Yule : il est dfini de faon rigoureuse, il dpend de toutes les valeurs de la srie et se prte bien aux calculs algbriques. Il a le dfaut dtre sensible aux valeurs aberrantes, mais cette influence est limite, les carts exceptionnels tant pondrs par des effectifs faibles. On notera que lcart-type, qui reprsente lcart moyen dune unit statistique la moyenne, sexprime dans les mmes units que la variable, ce qui nest pas le cas de la variance (si la variable est une longueur exprime en centimtres, la variance est exprime en centimtres carrs). Population et chantillon : dans le cadre de la statistique infrentielle, on cherche prciser les paramtres dune population partir dun chantillon ; on rappelle (voir
70
Statistique descriptive
exemple 3.4) que la calculatrice donne deux paramtres nots respectivement X et SX : X dsigne lcart-type calcul sur les donnes considres comme constituant la population et SX une estimation ponctuelle de lcart-type de la population, obtenue partir dun chantillon (SX X). Additivit des variances : en gnral, la variance ne possde pas la proprit dadditivit. Les variances ne sadditionnent que si les lments constituant la somme ou la diffrence sont prlevs au hasard (voir A. Liorzou). On dit alors que les variables sont indpendantes, et dans ce cas on a alors : x, y tant des variables quantitatives indpendantes et z leur somme, V ( z ) = V ( x ) + V ( y ) , ce qui donne pour les carts-types une relation de Pythagore :
z2 = x2 + y2
soit
z = x2 + y2 .
Lcart absolu moyen est toujours infrieur ou gal lcart-type.
2.4
LE COEFFICIENT DE VARIATION
La comparaison directe de deux carts-types peut donner une impression fausse concernant la dispersion des deux sries dont les valeurs des moyennes sont diffrentes. De plus, lcart-type dpend de lunit choisie. Cest pourquoi le coefficient de variation, qui mesure la dispersion relative la moyenne, est utilis pour comparer la dispersion de plusieurs sries.
Dfinition
Le coefficient de variation est le rapport not CV(x) et dfini par : CV(x ) = sexprime en pourcentage de la moyenne.
x
x
; ce coefficient
Exemple 3.5
Considrons qu la suite dune tude statistique portant sur le poids x des voyageurs et sur celui y des bagages, une compagnie arienne ait obtenu les rsultats suivants :
Paramtres Moyenne cart-type x 70 kg 8 kg y 15 kg 6 kg
Alors que lcart-type de la srie des voyageurs est plus grand que celui des bagages (X > Y), la srie des poids des bagages est plus disperse que celle des poids des voyageurs, car CV(y) > CV(x).
71
Le coefficient de variation est un nombre sans dimension, indpendant de lunit de mesure ; il permet de mesurer la dispersion de sries exprimes en units ou ordres de grandeur diffrents. Il mesure lhomognit des donnes.
Conclusion
Ce chapitre nous a enseign que les valeurs centrales ne suffisent jamais dcrire une srie statistique et que les paramtres de dispersion sont incontournables pour apprhender la structure interne de la srie. On notera le rle prpondrant de la variance et de lcart-type et on sattachera retenir leurs proprits algbriques. On retiendra que le coefficient de variation et la bote moustaches sont des outils extrmement prcieux dans le cadre de la comparaison des sries. Enfin, ces paramtres vont nous permettre daller plus loin et de nous intresser la forme des distributions et notamment la plus clbre des lois de probabilit, la loi normale.
72
Statistique descriptive
Problmes et exercices
Aux cts des caractristiques de tendance centrale, les caractristiques de dispersion fournissent une seconde srie dindicateurs permettant de caractriser une distribution statistique. Les exercices 1, 2 et 3 mettent en uvre le calcul des indicateurs de dispersion, ainsi que leur reprsentation graphique sous forme de bote moustaches. Lexercice 4 montre comment deux distributions peuvent tre compares au regard des caractristiques de tendance centrale et de dispersion. Lexercice 5 permet une familiarisation avec les proprits des caractristiques de tendance centrale et de dispersion.
1. Calculez ltendue. 2. Calculez les carts interquantiles. 3. Calculez lcart absolu moyen.
73
2. Afin de pouvoir dterminer lensemble des quantiles, puis les intervalles correspondants, nous calculons les effectifs cumuls croissants, selon les tapes suivantes, sous Excel (voir figure 3.5) : leffectif total n ( ni ) en cellule B10, les frquences (fi) en colonne C puis les frquences cumules croissantes (ficc) en colonne D.
Figure 3.5
Rsultats sous Excel.
Avec les mmes mthodes de calcul que dans lexercice 3 (interpolation linaire) du chapitre 2 et partir de la colonne des frquences cumules croissantes (ficc), nous pouvons dterminer que :
Q1 = 19,74 : 25 % des Franais ont moins de 19,74 ans, soit environ 19 ans et 9 mois. Q3 = 57,37 : 75 % des Franais ont moins de 57,37 ans, soit environ 57 ans et 4 mois.
Donc lcart interquartile EIQ est Q3 Q1 = 37,63 : 50 % des Franais ont des ges rpartis sur 37,63 ans, soit environ 37 ans et 8 mois.
D1 = 7,64 : 10 % des Franais ont moins de 7,64 ans, soit environ 7 ans et 8 mois. D9 = 72,21 : 90 % des Franais ont moins de 72,21 ans, soit environ 72 ans et 3 mois.
Donc lcart interdcile EID est D9 D1 = 64,57 : 80 % des Franais ont des ges rpartis sur 64,57 ans, soit environ 64 ans et 7 mois.
C1 = 0,76 : 1 % des Franais ont moins de 0,76 an, soit environ 9 mois. C99 = 107,6 : 99 % des Franais ont moins de 107,6 ans, soit environ 107 ans et 7 mois.
Donc lcart intercentile EIC est C99 C1 = 106,84 : 98 % des Franais ont des ges rpartis sur 106,84 ans, soit environ 106 ans et 10 mois.
3. Pour calculer lcart absolu moyen, nous avons besoin de connatre la moyenne. Les
centres de classes (xi) sont calculs en colonne E, les (nixi) et leur somme en colonne F, la suite du tableau prcdent (voir figure 3.5).
8 1 2 482 825 437, 5 ni xi = , soit x = 40,35. Lge 61538 000 i =1 61 538 000 moyen de la population est denviron 40 ans et 4 mois. Une fois la moyenne connue, les ni xi x et leur somme sont calculs en colonne G, la suite du tableau prcdent (voir
figure 3.5).
8 1 1266 311788,57 ni xi x = , soit 61538 000 i =1 61 538 000 ea = 20,58 ans. La moyenne des carts la moyenne est denviron 20 ans et 7 mois.
74
Statistique descriptive
1. Pour dessiner le diagramme bote moustaches , nous avons besoin des indicateurs suivants : Q1 ; Me ; Q3 ; Q3 + 1,5 (Q3 Q1) et Q1 1,5 (Q3 Q1).
Par interpolation linaire, en utilisant le tableau construit pour lexercice prcdent (voir figure 3.5), notamment la colonne des frquences cumules croissantes (ficc), nous 0,5 0,4405 pouvons dterminer : Me = ( 44 35 ) + 35 ; soit Me = 38,78. La moiti 0,5824 0, 4405 de la population tudie a moins de 38,78 ans, soit environ 38 ans et 9 mois. Q1 1,5 (Q3 Q1) = 19,74 + 1,5 37,63, soit Q1 1,5 (Q3 Q1) = -36,71. La moustache infrieure commence donc 0, car un ge ne peut pas tre ngatif. Aucune valeur extrme infrieure Q1 1,5 (Q3 Q1) nest recense. Q3 + 1,5 (Q3 Q1) = 57,37 + 1,5 37,63, soit Q3 + 1,5 (Q3 Q1) =113,82. La moustache suprieure finit donc 112 qui est lge maximal.
2. Figure 3.6
Bote moustaches.
0 0
75
1. Calculez la moyenne du nombre de films vus au cinma. 2. Calculez : a. la variance du nombre de films vus au cinma ; b. lcart-type du nombre de films vus au cinma. 3. Calculez le coefficient de variation.
1. Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir figure 3.7).
Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 3.8 saffichent.
Figure 3.7 (gauche)
Saisie du tableau de donnes avec la calculatrice.
1 6 65 ni xi = 31 , soit x = 2,096. Le nombre moyen de films vus au 31 i =1 cinma par tudiant au cours des deux derniers mois est de 2,1 films.
La moyenne est x =
76
Statistique descriptive
2 2. a. La variance est gale V (x) = x = 1,4447, soit V(x) = 2,087. Ou encore, par la
2 1 6 201 ni xi2 x = 2,1 = 2,087 (aux arrondis prs). La 31 i =1 31 variance du nombre de films vus au cinma par tudiant au cours des deux derniers mois est de 2,1.
b. Lcart-type est gal x = V (x) = 1,44. Lcart-type du nombre de films vus au cinma par tudiant au cours des deux derniers mois est de 1,44 film. 1,44 3. Le coefficient de variation est gal CV(x) = x = , soit CV(x) = 0,69. Lcart2,1 x type est infrieur la moyenne.
1. Pour les femmes, calculez : a. la moyenne ; b. lcart-type ; c. le coefficient de variation. 2. Pour les hommes, calculez : a. la moyenne ; b. lcart-type ; c. le coefficient de variation. 3. Comparez les deux distributions.
77
1. Pour les femmes, les centres de classes (xi) sont calculs en colonne B, les (nixi) et leur somme en colonne D, puis les (nixi) et leur somme en colonne E (voir figure 3.9).
Figure 3.9
Rsultats sous Excel.
8 1 1326 635 771 ni xi = , soit x = 41,94. Lge 31631 000 i =1 31 631000 moyen des femmes est denviron 41 ans et 11 mois.
V (x) =
c. Lcart-type est gal x = V (x) = 677,69 , soit x = 26,03. Lcart-type de lge des femmes est de 26,03 ans, soit environ 26 ans.
x
x
2. En procdant de la mme manire pour les hommes, on obtient sous Excel la figure 3.10.
Figure 3.10
Rsultats sous Excel.
8 1 1156189667 ni xi = , soit x = 38,66. Lge 29907 000 i =1 29 907 000 moyen des hommes est denviron 38 ans et 8 mois.
78
Statistique descriptive
8 2 1 62120 270 828 ni xi2 x = 38,66 , soit V(x) = 582,56. La variance 29 907 000 i =1 29 907 000 de lge des hommes est de 582,56.
V (x) =
Lcart-type est gal x = V (x) = 582,56 , soit x = 24,14. Lcart-type de lge des hommes est de 24,14 ans, soit environ 24 ans et 2 mois.
c. Le coefficient de variation pour les hommes est gal CV(x) = CV(x) = 0,624. Lcart-type est infrieur la moyenne.
3. Les hommes sont en moyenne plus jeunes que les femmes (ge moyen : 38,66 contre 41,94).
x
x
Dans labsolu, lge des hommes est lgrement moins dispers que celui des femmes (cart-type : 24,14 contre 26,03). En rapportant cette dispersion lge moyen, nous pouvons cependant conclure que, par rapport leur ge moyen, lge des hommes est lgrement plus dispers que celui des femmes (coefficient de variation : 0,624 contre 0,621).
f x = 50,17
i =1 k i i
n x
i =1 i
= 425
1. Dterminez leffectif total partir duquel lenqute a t ralise. Indiquez les valeurs de : a. la moyenne ; b. lcart-type. 2. Lobjectif de la direction est de diminuer le temps dattente de 30 %. Calculez : a. le temps dattente moyen correspondant ; b. lcart-type correspondant. 3. En effectuant une vrification du chronomtre utilis, le directeur du magasin saperoit que ce dernier accuse un retard de 5 % par rapport au temps rel. Calculez : a. la vraie moyenne ; b. le vrai cart-type.
79
1.
1 k ni xi x n i =1 k 1 k V (x) = f i xi ( ni xi ) n i =1 i =1 V (x) =
425 Soit, en remplaant par les valeurs connues : 17,18 = 50,17 , donc n 425 , soit n = 74. Leffectif total est de 74, ce qui signifie que 74 temps n= 50,17-17,18 dattente ont t observs.
1 k 425 ni xi = , soit x = 5,74. Le temps dattente moyen est n i =1 74 denviron 5 minutes et 44 secondes.
a. La moyenne est gale x =
b. Lcart-type est gal x = V (x) = 17,18 , soit x = 4,14. Lcart-type du temps dattente est denviron 4 minutes et 8 secondes. 2. La base dapplication du pourcentage est le temps dattente mesur. Les objectifs de temps dattente, nots yi, sont gaux aux temps dattente actuels, nots xi, auxquels sont retirs 30 % des temps dattente actuels. Soit yi = xi 0,3 xi = 0,7 xi. a. Grce aux proprits de la moyenne, nous pouvons en conclure que y = 0,7 x , soit
y = 4,02 . Lobjectif de rduction de 30 % du temps dattente ramne la moyenne de ce dernier environ 4 minutes et 1 seconde.
soit V(y) = 2,90. Lobjectif de rduction de 30 % du temps dattente ramne lcart-type de ce dernier environ 2 minutes et 54 secondes.
3. La base dapplication du pourcentage est le temps rel. Les temps dattente rels, nots zi, sont gaux aux faux temps dattente, nots xi, auxquels sont ajouts 5 % des xi . temps dattente rels. Soit zi = xi + 0,05 zi ; cest--dire zi = 0,95
x , soit 0,95
, soit 0,95 z = 19,04. Le temps dattente rel a un cart-type denviron 4 minutes et 2 secondes.
80
Statistique descriptive
Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DROESBEKE J.-J., lments de statistiques, ditions de luniversit de Bruxelles, Ellipses, 2001. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. PIATIER A., Statistique descriptive et initiation lanalyse, Thmis, PUF, 1962. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. HAUCHECORNE B., Les mots et les maths, Ellipses, 2003.
81
Ce chapitre prolonge et complte la description dune srie statistique amorce dans les chapitres 2 et 3, en prcisant les notions de tendance centrale et de dispersion, autour de la courbe de la loi normale. Cette courbe est rattacher aux modles thoriques des distributions de probabilit. La loi normale, dite loi de Laplace-Gauss, en est le modle phare, et sa fameuse courbe en cloche sert de rfrence. Dans un premier temps, nous donnerons un aperu rapide de la loi normale. Dans un deuxime temps, nous dfinirons diffrents coefficients, introduits par Karl Pearson, le pre de la statistique moderne, George Yule et Ronald Fisher, permettant de caractriser la forme dune distribution. Enfin, nous terminerons ce chapitre par la notion de concentration, introduite par le statisticien et dmographe Corrado Gini, propos de distributions de salaires et de revenus. Ce sera loccasion de prolonger lanalyse de la dispersion relative et de rendre compte des ingalits ventuelles de rpartition.
83
1.1
Dfinitions
La loi normale est entirement dtermine par deux paramtres : sa moyenne (m) et son cart-type (). La loi normale centre rduite constitue le modle de rfrence ; sa moyenne est 0 (centre)
1 x2 e et sa 2 reprsentation graphique est la clbre courbe en cloche (voir figure 4.1). On dit que X suit la loi N(0 ; 1).
2
Si une variable X suit une loi normale de paramtres m et , note N(m ; ), alors X m Z= suit la loi normale centre rduite de paramtres 0 et 1. On dit que lon a
standardis X. La courbe reprsentant la distribution N(0 ; 1) est symtrique, avec : x = Mo = Me = 0. Elle est normalement aplatie . Avec x = 0 et = 1, lintervalle ] x ; x + [ qui correspond ]1 ; 1[ reprsente 68,26 % des observations et lintervalle ] x 2 ; x + 2[ qui correspond ]2 ; 2[ reprsente 95,44 % des observations. Les deux quartiles Q1 et Q3 sont opposs et valent respectivement 0,67 et 0,67.
84
Statistique descriptive
Figure 4.1
La courbe en cloche de la loi normale centre rduite.
Frquence
50 % 68,26%
x Mo Q1 Me Q3 xi -4 -3 -2 -1 0 1 2 3 4
1.2
Figure 4.2
Bote moustaches de la loi normale centre rduite.
Q1=-0,67 -4 -3 -2 -1 M = 0 0 Q3=0,67 1 2 3 4 xi
2
2.1
85
Figure 4.3
Symtrie et asymtrie.
fi
Distribution symtrique fi
Mo = Me = x
xi
Mo > Me > x
xi
Mo < Me < x
xi
Ce coefficient permet de localiser la mdiane dans la bote moustaches, par rapport au milieu du segment form par Q1 et Q3. Dans le cas dune distribution symtrique, comme la loi normale, ce coefficient est nul, les quartiles Q1 et Q3 tant quidistants de la mdiane. Ce coefficient CY est indpendant de lunit de mesure. En outre, il est toujours compris entre 1 et 1, car la mdiane est situe entre Q1 et Q3. Si CY = 0, la distribution est symtrique. Si CY > 0, la distribution est tale droite. Si CY < 0, la distribution est tale gauche.
Linterprtation de la valeur du S de Pearson se fait comme suit : Si S = 0, la distribution est symtrique. Si S > 0, la distribution est tale droite. Si S < 0, la distribution est tale gauche.
86
Statistique descriptive
Dfinition
Le coefficient dasymtrie 1 de Pearson est dfini par : 1 = 3 dsigne le moment centr dordre 3, soit 3 =
2 3 . 3 2
1 r 3 ni ( x i x ) . n i =1
Linterprtation de la valeur du 1 de Pearson se fait comme suit : Si 1 est proche de 0, la distribution est approximativement symtrique. Si 1 > 0, elle est tale droite pour 3 > 0 et tale gauche pour 3 < 0.
Le coefficient de Fisher
Dfinition Le coefficient dasymtrie 1 de Fisher est dfini par : 1 = 3 dsigne le moment centr dordre 3, soit 3 =
3 . 3
1 r 3 ni ( x i x ) . n i =1
Linterprtation de la valeur du 1 de Fisher se fait comme suit : Si 1 est proche de 0, la distribution est approximativement symtrique. Si 1 > 0, la distribution est tale droite. si 1 < 0, la distribution est tale gauche.
Exemple 4.1 Calculs des coefficients dasymtrie
Le tableau suivant donne une estimation de la rpartition par ges des assurs obligatoires de plus de 20 ans et de moins de 60 ans, en France, en 1921 :
ge (annes) [20 ; 25[ [25 ; 30[ [30 ; 35[ [35 ; 40[ [40 ; 45[ [45 ; 50[ [50 ; 55[ [55 ; 60[
Source : Bureau international du travail, 1921
Effectif (milliers) 1 275 1 080 890 805 745 675 610 505
87
Calculons les diffrents coefficients dasymtrie laide dExcel (voir figure 4.4).
Figure 4.4
Calcul des coefficients dasymtrie sous Excel.
partir de la colonne des ni cumuls croissants et par interpolation linaire, on obtient Q1 = 26,72 ; Me = 35,30 et Q3 = 46,06. Le mode est gale Mo =
k2 x1 + k1 x2 195 20 + 1275 25 = , soit Mo = 24,33. k1 + k2 1275 + 195
Suite ces calculs, nous pouvons dterminer lensemble des coefficients dasymtrie. CY =
26,72 + 46,062 35,3 36,79 24,33 , soit CY = 0,11 ; S = , 46,06 26,72 11,29 478,762 478,76 1 = , soit 1 = 0,11 ; 1 = , soit 1 = 0,33. 127,443 11,293
soit
S = 1,10 ;
Les coefficients mettent en vidence une distribution asymtrique tale droite, ce que confirme la ralisation de lhistogramme.
2.2
LAPLATISSEMENT (KURTOSIS)
Laplatissement dune distribution est un indicateur de la dispersion autour des valeurs centrales. Plus la dispersion est grande, plus la courbe sera plate . On dfinira deux coefficients, celui de Pearson et celui de Fisher, ces coefficients tant des coefficients de comparaison par rapport la distribution normale. La figure 4.5 montre les trois formes daplatissement possibles.
88
Statistique descriptive
Figure 4.5
Aplatissement.
fi
Distribution normale
fi
Distribution platicurtique
fi
Distribution leptocurtique
xi
xi
xi
Le coefficient de Pearson
Dfinition Le coefficient 2 de Pearson sert mesurer laplatissement. Il est dfini par 2 =
4 4 = 4 . 2 2
Il sagit dun coefficient sans dimension. 2 1 et dans le cas dune distribution normale 2 = 3.
Interprtation : Si 2 < 3, la courbe est dite platicurtique, cest--dire plus plate que la loi normale. Si 2 = 3, la courbe est proche de la courbe normale. Si 2 > 3, la courbe est leptocurtique, cest--dire plus pointue que la loi normale.
Le coefficient de Fisher
Dfinition Le coefficient 2 de Fisher sert mesurer laplatissement. Il 3 = 4 3 . Ou encore, de manire quivalente, 2 = 2 3 . 2 = 4 2 2 4 est dfini par
La constante 3 est choisie de faon obtenir un coefficient nul pour une distribution normale ; par ailleurs, 2 2.
Interprtation : Si 2 < 0, la courbe est dite platicurtique, cest--dire plus plate que la loi normale. Si 2 = 0, la courbe est proche de la courbe normale. Si 2 > 0, la courbe est leptocurtique, cest--dire plus pointue que la loi normale. On notera que 2 mesure limportance des queues de distribution .
89
Afin de mesurer la concentration, il convient de dfinir les valeurs globales, la mdiale, lindice de Gini et la courbe de concentration, appele courbe de Lorentz. Un exemple de courbe de concentration des salaires, propose par lInsee, est donn figure 4.6.
Figure 4.6
Concentration des salaires du secteur priv en LanguedocRoussillon : une rpartition ingalitaire.
100
80 Languedoc-Roussillon 60
Source : Insee DADS, novembre 2003 Note de lecture : si la rpartition des salaires tait totalement galitaire, la courbe de concentration se confondrait avec la bissectrice en noir. Dans la rgion, les 50 % des salaris les moins rmunrs se partagent 33 % de la masse salariale (point A) ; les 10 % les mieux rmunrs concentrent 25 % des salaires (point B). La courbe de concentration pour la France mtropolitaine est en dessous de celle de la Rgion, la distribution des salaires y est donc plus ingalitaire.
3.1
Dfinitions
nk x k
k =1
n x
i =1 i
Les masses relatives cumules croissantes sont notes qicc, et dfinies par qicc = qk .
k =1
90
Statistique descriptive
Exemple 4.2
Le tableau suivant indique les rserves de ptrole, en milliards de barils, dont disposent les pays producteurs :
Rserves de ptrole [0 ; 10[ [10 ; 50[ [50 ; 100[ [100 ; 275[ Nombre de pays 10 8 3 4
partir de la srie ordonne par ordre croissant sont effectus les calculs des centres de classes xi, des frquences fi et fi cumules croissantes, ainsi que ceux des masses relatives qi et qi cumules croissantes (voir figure 4.7). Ces calculs permettent de tracer la courbe de Lorentz et de calculer lindice de concentration de Gini que nous allons dfinir ci-aprs (voir section 3.4).
Figure 4.7
Calcul des masses relatives sous Excel.
3.2
LA MDIALE
La mdiale est la valeur du caractre qui partage en deux parties gales la masse totale du caractre. La mdiale est note Ml, elle sexprime dans la mme unit que le caractre, et correspond une valeur de la masse relative cumule croissante qicc de 50 %.
Dfinition
La mdiale est, dune certaine faon, une mdiane et sa dtermination en est similaire : Dans le cas discret, la mdiale est la plus petite valeur du caractre dont la masse relative cumule croissante est infrieure ou gale 50 %. Dans le cas continu, on peut oprer de deux faons : soit graphiquement laide du polygone des masses relatives cumules croissantes, soit algbriquement par interpolation linaire. Lcart entre la mdiale et la mdiane (Ml Me) donne une premire indication sur la concentration de la srie. Plus cet cart est important par rapport ltendue de la srie, plus la concentration est forte.
91
Exemple 4.3
Calcul de la mdiale
Reprenons les donnes de lexemple 4.2. Dans cet exemple, par interpolation linaire, la mdiane est 22,5. 50 % des pays ont une rserve de ptrole infrieure ou gale 22,5 milliards de barils. La mdiale se calcule comme la mdiane, en utilisant les qicc au lieu des ficc ; qicc = 50 % pour lintervalle [100 ; 275[. La mdiale est 127,42 ; cest la plus petite valeur telle que les pays ayant une rserve infrieure ou gale cette valeur se partagent au moins 50 % des rserves totales. Lcart Ml Me vaut 127,42 22,5 = 104,92, ltendue tant de 275 0 = 275, soit peine trois fois plus grande, ce qui traduit une forte concentration.
3.3
LA COURBE DE CONCENTRATION
La courbe de concentration est ralise partir des calculs prcdents. On la dessine en utilisant les frquences cumules croissantes (ficc) et les masses relatives cumules croissantes (qicc). Cette reprsentation permet de comparer la distribution observe la distribution thorique dgale rpartition, celle o, pour chaque modalit, ficc = qicc). Les frquences cumules croissantes sont portes en abscisses et les masses relatives cumules croissantes en ordonnes. La distribution thorique dgale rpartition correspond la bissectrice du repre. Laire comprise entre la distribution thorique et la courbe de concentration sappelle surface de concentration.
Exemple 4.4
Reprenons les donnes de lexemple 4.2. partir des calculs des frquences cumules croissantes (ficc) et des masses relatives cumules croissantes (qicc) prsents figure 4.7, il est possible de dessiner la courbe de concentration (voir figure 4.8). La courbe de Lorentz est inscrite dans le carr de ct 100, quand les frquences sont exprimes en pourcentage. Plus la courbe de Lorentz est loigne de la diagonale, qui reprsente la distribution thorique dgale rpartition, plus la concentration est forte. La surface de concentration est comprise entre la courbe de Lorentz et la diagonale. Plus cette surface est grande, plus la concentration est forte.
92
Statistique descriptive
Figure 4.8
Courbe de concentration des rserves de ptrole.
60
Distribution thorique
40 Surface de concentration 20
3.4
LINDICE DE GINI
La surface de concentration est le domaine compris entre la diagonale [OB] du carr de concentration et la courbe de concentration.
Dfinition
Laire de la surface de concentration est gale laire du triangle rectangle OAB diminue de laire du domaine situ sous la surface de concentration. Le triangle OAB est form des points de coordonnes O(0 ; 0), A(100 ; 100) et B(100 ; 0) (voir figure 4.8). Avec les ficc et les qicc exprimes en pourcentages, laire du triangle OAB est de 100 100 / 2. Dans le cas o les ficc et les qicc sont exprimes en nombres dcimaux, cette aire de 0,5.
Dfinition Lindice de Gini est le rapport de laire de la surface de concentration laire de la surface aire de la surface de concentration du triangle rectangle OAB. Il est not IG = . aire du triangle OAB
Lindice de Gini est un nombre sans dimension, compris entre 0 et 1, que lon exprime parfois en pourcentage. Si IG est proche de 0, la courbe de Lorentz est proche de la diagonale, la concentration est faible ; la concentration nulle correspond la distribution galitaire. Si IG est proche de 1, la courbe de Lorentz est proche des cts OA et AB, la concentration est forte ; si la concentration est proche de 1, cela signifie quune trs faible fraction de modalits se partage la quasi-totalit de la masse totale.
93
Exemple 4.5
Reprenons les donnes de lexemple 4.2. Nous rappelons quon obtient laire dun trapze en appliquant la formule suivante : aire = hauteur (grande base + petite base) / 2. Les aires des trapzes sont calcules dans la dernire colonne du tableau de la figure 4.9. Les valeurs fi(qi 1cc + qicc) / 2 correspondent aux aires des trapzes rectangles situs entre laxe des abscisses et la courbe de Lorentz (le premier tant en fait un triangle rectangle). Leur somme indique laire du domaine situ sous la courbe de Lorentz.
Figure 4.9
Calcul de laire sous la courbe de Lorentz sous Excel.
Ainsi, laire de la surface de concentration est gale laire de OAB diminue de la somme des aires des trapzes. Aire de la surface de concentration : 0,5 0,2017 = 0,2983. Lindice de Gini est IG = 0,2983 / 0,5 = 2 0,2983, soit IG = 0,5967, ce qui traduit une forte concentration.
Conclusion
Ce chapitre complte la premire dmarche qui a consist ordonner les observations et les rsumer laide de graphiques et de paramtres mettant en vidence la tendance centrale et la dispersion. Nous nous sommes attachs caractriser la forme de la distribution et, ce faisant, ouvrir la porte une interprtation plus approfondie, en introduisant la distribution normale, dmarche que nous complterons avec dautres lois de probabilit. La mesure de la concentration est extrmement importante pour faire ressortir des disparits sociales et conomiques. Elle doit tre aussi pour le lecteur loccasion de sassurer de la bonne matrise des fonctions cumules, et des notions de masses et de mdiale.
94
Statistique descriptive
Problmes et exercices
Au-del des caractristiques de tendance centrale et de dispersion, une distribution statistique est galement qualifiable par sa forme et sa concentration. Les exercices 1, 2 et 3 fournissent des exemples de calculs de caractristiques de forme. Lexercice 4 sattache la notion de concentration, indissociable de lindice de Gini.
1. Dessinez lhistogramme correspondant. partir de cet histogramme, concluez sur lasymtrie de la distribution. 2. Concluez sur lasymtrie de la distribution partir du calcul des trois indicateurs suivants : a. le mode ; b. la moyenne ; c. la mdiane. 3. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs suivants : a. le coefficient dasymtrie de Yule ; b. le S de Pearson. 4. Concluez sur lasymtrie de la distribution partir du calcul des deux indicateurs suivants : a. le coefficient dasymtrie 1 de Pearson ; b. le coefficient dasymtrie 1 de Fisher. 5. Concluez sur lasymtrie de la distribution partir de la bote moustaches.
95
1. Les amplitudes de classes (ai) sont calcules dans la colonne C de la figure 4.10 : ai = sup (xi) inf (xi).
Figure 4.10
Rsultats sous Excel.
Les amplitudes tant toutes gales, il nest pas ncessaire dutiliser les densits pour dessiner lhistogramme (voir figure 4.11), ces densits tant proportionnelles aux effectifs.
Figure 4.11.
Histogramme des PPA des pays de lEurope des 25 (hors Luxembourg)
14 12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 Classes 40 Milliers ni
La ralisation de cet histogramme permet dj de percevoir que la distribution est asymtrique et tale vers la gauche.
2. a. Pour calculer le mode, nous vrifions en premier lieu que les amplitudes de classes sont gales, ici de valeur 9 000 . La classe modale, celle qui a la plus grande densit, est donc celle qui a le plus grand effectif. Il sagit de la classe [18 000 ; 27 000[, ce que montre bien lhistogramme.
b. Pour calculer la moyenne, la suite du tableau prcdent, nous calculons les centres de classes (xi) en colonne D et les masses (nixi) en colonne E puis leur somme en cellule E6, sous Excel (voir figure 4.10).
c. La mdiane correspond un effectif cumul croissant de 24 / 2 = 12. Les effectifs cumuls croissants (nicc) sont calculs en colonne F, la suite du tableau prcdent (voir figure 4.10).
12 est compris entre 10 et 21, donc la mdiane appartient la classe [18 000 ; 27 000[.
96
Statistique descriptive
Finalement, Mo > Me > x , donc la distribution est asymtrique et tale vers la gauche.
3. a. Le calcul du coefficient de Yule ncessite de dterminer au pralable les trois quartiles, Q1, Me et Q3. La mdiane a t calcule prcdemment.
Le quartile dordre 1, Q1 correspond un effectif cumul croissant de 24 / 4 = 6. Donc Q1 appartient la classe [9 000 ; 18 000[. Par interpolation linaire, Q1 =
6,25 3 (18 000 9 000 ) + 9 000 ; soit Q1 = 12 857,14 . 10 3
Le quartile dordre 3, Q3 correspond un effectif cumul croissant de 24 3 / 4 = 18. Donc Q3 appartient la classe [18 000 ; 27 000[. Par interpolation linaire, Q3 =
18,75 10 ( 27 000 18 000 ) + 18 000 ; soit Q3 = 24 545,45 . 21 10
Do le coefficient de Yule CY =
CY =
Q1 + Q3 2 Me , soit Q 3 Q1
Pour dterminer la valeur de lcart-type, les (nixi) sont calculs en colonne G, la suite du tableau prcdent, puis leur somme en cellule G8 (voir figure 4.10). Par la formule dveloppe, la variance est gale
V (x) =
2 1 4 9 882 000 000 ni xi2 x = 18 750 , soit V(x) = 60 187 500. 24 i =1 24
x Mo
4. a. Le calcul du 1 de Pearson et du 1 de Fisher ncessite de connatre la valeur de 3, le k 1 k 3 moment centr dordre 3 dfini par 3 = ni (xi x )3 = fi (xi x )3 . Les fi(xi x ) n i =1 i =1 sont calculs en colonne H, la suite du tableau prcdent, puis leur somme en cellule H6 (voir figure 4.10).
97
32 ( 120 656 250 000)2 = , soit 1 = 0,067. 1 positif 60 187 5003 23 permet de conclure que la distribution est asymtrique et 3 ngatif permet de conclure quelle est tale vers la gauche.
3 120 656 250 000 = soit 1 = 0,258. 1 permet de conclure que la 77583 3 distribution est asymtrique et tale vers la gauche.
De mme, 1 =
5. Figure 4.12
Bote moustaches.
Max (xi) = 36 000 Q1 = 12 857,14 M = 19 636,36 0 5 000 10 000 15 000 20 000 Q3 = 24 545,45 25 000 30 000 35 000 xi
Min (xi) = 0
Ce diagramme permet de visualiser ltalement vers la gauche de la distribution, la mdiane tant plus proche de Q3 que de Q1.
Nombre de pays 1 2 2 3 5 5 3 3 1
98
Statistique descriptive
1. Dessinez le diagramme en btons correspondant. 2. Calculez le coefficient daplatissement de Pearson. 3. Calculez le coefficient daplatissement de Fisher.
1. Figure 4.13
Diagramme en btons du pourcentage de la population ge de 65 ans ou plus des pays de lEurope des 25.
ni
6 5 4 3 2 1 0
xi 11 12 13 14 15 16 17 18 19
2. Le calcul du 2 de Pearson ncessite de connatre la valeur de la variance et de 4, le k 1 k moment centr dordre 4 dfini par : 4 = ni (xi x )4 = fi (xi x )4 . n i =1 i =1
Saisissez les modalits dans la colonne L1 et les effectifs dans la colonne L2 (voir figure 4.14).
Figure 4.14
Saisie du tableau de donnes avec la calculatrice.
Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 4.15 saffichent.
99
Figure 4.15
Rsultats de lanalyse statistique effectue avec la calculatrice.
Pour calculer les fi(xi x ) dans la colonne L3, placez le curseur sur len-tte de colonne L3. Indiquez L3=L225*(L115,28)^4 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule L3(10), et indiquez L3(10)=SUM(L3) en appelant la fonction SUM (voir annexe 1.2). Validez avec ENTER. De l, 4 = fi (xi x )4 , soit 4 = 40,5 (voir figure 4.16).
i =1
9
Figure 4.16
Calcul de 4 avec la calculatrice.
100
Statistique descriptive
Salaires (K) [45 ; 55[ [55 ; 65[ [65 ; 80[ [80 ; 100[ [100 ; 120[
Effectifs 37 51 32 12 7
1. Dessinez lhistogramme correspondant. 2. Calculez la mdiale. Interprtez. 3. Concluez sur la forme de la distribution partir du calcul des deux coefficients suivants : a. le coefficient dasymtrie 1 de Pearson ; b. le coefficient daplatissement 2 de Pearson.
1. Saisissez les centres de classes (modalits) dans la colonne L1, les effectifs dans la colonne L2 et les amplitudes de classes (ai) dans la colonne L3 (voir figure 4.17).
Comme les amplitudes de classes ne sont pas toutes gales, il est ncessaire de passer par les densits di. Pour calculer les densits, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2/L3 puis appuyez sur ENTER (voir figure 4.18).
Figure 4.17 (gauche)
Saisie du tableau de donnes avec la calculatrice.
Lhistogramme peut alors tre dessin daprs ces densits (voir figure 4.19).
101
Figure 4.19
Histogramme des salaires de lentreprise Alpha.
di 6 5 4 3 2 1 0 0 10 20
2. La mdiale est lquivalent de la mdiane sur la masse salariale (ici, la masse salariale
n x
i =1
i
masses salariales gales. Pour calculer les (nixi) dans la colonne L5, placez le curseur sur len-tte de colonne L5. Indiquez L5=L2*L1, puis appuyez sur ENTER. Pour obtenir les nixi cumuls croissants (nixicc) dans la colonne L6, placez le curseur sur len-tte de colonne L6, puis entrez la formule L6=CumSum(L5), en appelant la fonction CUMSUM (voir annexe 1.2), puis appuyez sur ENTER (voir figure 4.20).
Figure 4.20
Calcul des nixi et des nixi cumuls croissants avec la calculatrice.
La mdiale correspond une masse relative cumule croissante de : 10 860 / 2 = 5 430, valeur comprise entre 3 630 et 6 690, donc la mdiale appartient la classe [55 ; 65[. Par interpolation linaire, Ml =
5 430 3 630 ( 65 55 ) + 55 ; soit Ml = 60,88 K. Les 6 690 3 630
salaris qui peroivent moins de 60 880 de salaire annuel brut se partagent la moiti de la masse salariale.
3. a. Dans le menu CALC de STAT, appelez la fonction 1-Var Stats, puis indiquez dans lordre L1, L2 comme suit : 1-Var Stats L1,L2. Validez avec ENTER. Les rsultats de la figure 4.21 saffichent.
102
Statistique descriptive
Figure 4.21
Rsultats de lanalyse statistique effectue avec la calculatrice.
Pour calculer les fi(xi x ) dans la colonne L7, placez le curseur sur len-tte de colonne L7 et nommez-la LA. Indiquez LA=L2189*(L157,46)^3 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule LA(8), et indiquez LA(8)=SUM(LLA) en appelant la fonction SUM (voir annexe 1.2) puis la ligne LA par le menu LIST, NAMES, 7:LA. Validez avec ENTER. Pour calculer les fi(xi x ) dans la colonne L8, placez le curseur sur len-tte de colonne L8 et nommez-la LB. Indiquez LB=L2189*(L157,46)^4 puis appuyez sur ENTER. Pour calculer leur somme, placez le curseur dans la cellule LB(8), et indiquez LB(8)=SUM(LLB) en appelant la fonction SUM puis la ligne LB par le menu LIST, NAMES, 8:LB. Validez avec ENTER.
4
32 4 859,62 = , soit 1 = 0,535. 1 positif permet de conclure 23 3 53,343 que la distribution est asymtrique et 3 positif permet de conclure quelle est tale vers la droite. 4 = fi (xi x )4 , soit 4 = 442 645 (voir figure 4.22).
i =1
7
Figure 4.22
Calcul de 3 et de 4 avec la calculatrice.
4 442 645 = , soit 2 = 3,545. 22 353,342 La distribution est leptocurtique, cest--dire plus pointue que la distribution normale.
b. Do le coefficient daplatissement de Pearson 2 =
103
Source : ministre de la Sant et des Solidarits, enqutes EHPA, FINESS, SAE, 2005
1. Les centres de classes sont calculs en colonne C, les frquences (fi) en colonne D puis les frquences cumules croissantes (ficc) en colonne E (voir figure 4.23).
Les (nixi) sont calculs en colonne F. Leur somme reprsente la masse totale des lits disponibles en maisons de retraite dans les 22 rgions franaises. La mdiale partage la population en deux sous-populations de masses gales. La quote-part qi des masses dans la masse salariale (qi) est calcule en colonne G et leurs pourcentages cumuls croissants (qicc) sont calculs en colonne H.
Figure 4.23
Rsultats sous Excel.
La mdiale se trouve dans lintervalle o qicc passe 50 %, cest--dire [12 250 ; 24 500[. Par interpolation linaire (voir chapitre 2),
0,5 0,0541 ( 24 500 12250 ) + 122 500 , soit Ml = 23 479,17 lits. 50 % des lits 0,5405 0,0541 disponibles en maisons de retraite franaises proviennent de rgions qui ont moins de 23 479 lits.
Ml =
2. La courbe de concentration est obtenue en portant en abscisses les frquences cumules croissantes, notes ficc (colonne E) et les qicc (colonne H) en ordonnes. la lecture de la ligne 4 du tableau Excel de la figure 4.23, il est possible de conclure que
104
Statistique descriptive
72,73 % des rgions dtiennent 54,05 % des lits disponibles dans les maisons de retraite franaises (voir figure 4.24).
Figure 4.24
Courbe de concentration des lits selon les rgions.
Courbe de concentration lits/rgions qicc (en %) 100 A
80
40
3. Laire de la surface sous la courbe de concentration se calcule par la mthode des trapzes. Laire de chaque trapze (Si) est calcule dans la colonne I, puis leur somme dans la cellule I6 (voir figure 4.23).
La
premire surface, S1, est un triangle dont laire est gale f1 q1cc 0,1818 0,0541 S1 = = = 0,0049 . La deuxime, S2, est un trapze daire 2 2 f ( q1cc + q2 cc ) 0,5455 ( 0,0541 + 0,5405) = 0,1622 . = S2 = 2 2 2
f3 ( q2cc + q3 cc )
2
De mme, S3 = Et S4 =
= 0,1229 .
f 4 ( q3cc + q4 cc )
2
0,0909 ( 0,8108 + 1)
= 0,0823 .
Laire de la surface situe entre la courbe de concentration et laxe des abscisses est la somme des aires des trapzes. S = Si = 0,3722. La surface de concentration, note SC,
i =1
est le domaine situ entre la diagonale du carr et la courbe de Lorentz. Son aire est gale 1 1 , et la somme des aires des la diffrence entre laire du triangle rectangle OAB, soit 2 trapzes calcule. Do SC = 0,5 0,3722 = 0,1278. Do lindice de Gini, I G =
0,1278 , soit IG = 0,2555. La concentration est faible, car 0,5 lindice de Gini est plus proche de 0 que de 1. Autrement dit, les lits en maisons de retraite ne sont pas concentrs au sein de quelques rgions franaises, mais sont relativement bien rpartis sur ces rgions.
105
Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DELMAS B., Statistique descriptive, Armand Colin, 2005. DELECROIX M., Histogrammes et estimation de la densit, Que sais-je ?, PUF, 1983. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1985. SAPORTA G., Probabilits, analyse de donnes et statistique, Technip, 1990. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. TASSI Ph. et LEGAIT S., Thorie des probabilits en vue des applications statistiques, Technip, 1990.
106
Statistique descriptive
Dans de nombreuses sciences dmographie, mdecine, conomie , le statisticien est amen tudier plusieurs caractres sur une mme population. Lvolution dun caractre avec le temps est de la plus grande importance et donne lieu ltude des sries chronologiques, qui constituent un cas particulier des sries bivaries, cest--dire des sries visant tudier conjointement deux variables mesures sur un mme individu. Les modalits sont donc des couples et les donnes sont prsentes dans des tableaux lmentaires ou dans des tableaux double entre, encore appels tableaux de contingence. Lanalyse de ces tableaux vise mettre en vidence dventuelles relations ou corrlations entre les deux variables. Le concept de corrlation ( co-relation ) est n vers 1880, avec les travaux de Francis Galton. Karl Pearson a ensuite utilis la notion de contingence dans le sens de mesure de la dviation par rapport lindpendance. Ce contexte sera loccasion de sinitier la thorie des tests statistiques, dont la paternit est attribue la collaboration (1925-1930) entre Jerzy Neyman et Egon Pearson, dnomm Pearson deux , le fils de Karl.
107
Nous noublierons pas qu partir dun tableau concernant deux variables nous pourrons toujours extraire les sries concernant chacun des caractres, encore appeles sries marginales. Comme nous le verrons dans les diffrents exemples, les caractres tudis peuvent tre de mme type, qualitatifs ou quantitatifs (discrets ou continus), ou de natures diffrentes, lun qualitatif et lautre quantitatif.
1.1
Exemple 5.1
Le tableau suivant indique, pour chacune des trois acadmies dle-de-France, le nombre de licencis en 2005 et le nombre de licencis poursuivant leurs tudes luniversit, en 2006. Il recense ainsi la poursuite des tudes luniversit aprs la licence.
Acadmie Paris Crteil Versailles Total Nombre de licencis (2005) 14 150 7 759 7 254 29 163 Licencis luniversit (2006) 11 271 5 150 5 107 21 528
Cette srie double, ou bivarie, comporte trois modalits. Si lon note X le nombre de licencis en 2005 et Y le nombre de licencis poursuivant leurs tudes luniversit en 2006, Crteil est reprsente par la modalit (x2 ; y2) = (7 759 ; 5 150). En exploitant chaque variable une par une, il est possible de calculer tous les indicateurs des sries univaries, 29163 comme les moyennes. Ainsi, x = = 9 721 ; le nombre moyen de licencis est de 3 21528 = 7 176 ; le nombre moyen de licencis 9 721 tudiants par acadmie. De mme, y = 3 poursuivant leurs tudes luniversit est de 7 176 tudiants par acadmie.
108
Statistique descriptive
On reprsente cette srie en plaant dans un repre les trois points de coordonnes (xi ; yi) pour i entier variant de 1 3 ; cette reprsentation sappelle un nuage de points. Le point G de coordonnes respectives x et y est appel point moyen du nuage. Dans une srie double de ce type, les effectifs de chaque modalit sont gaux 1 et ne sont pas mentionns. Il est possible de calculer sur les sries marginales les moyennes et tous les paramtres ncessaires ltude de la srie bivarie, comme les variances. Un nouveau paramtre, la covariance, sera introduit la section 2.4.
1.2
dsigne la somme des effectifs de la ligne i. La distribution des effectifs marginaux de X sappelle distribution marginale de X. De mme, n + j = nij , ou encore nj, est leffectif marginal de la modalit yj. Il dsigne la
i =1 p
somme des effectifs de la colonne j. La distribution des effectifs marginaux de Y sappelle distribution marginale de Y. Leffectif total de la srie double est la somme des effectifs marginaux de la srie X (ou Y). Il est not n++, n ou simplement n, avec : n + + = n + j = ni + = nij = nij .
j =1 i =1 j =1 i =1 i =1 j =1 q p q p p q
109
En adoptant lensemble de ces notations, le tableau de contingence contenant les effectifs se prsente de la manire suivante : Les modalits xi de X apparaissent dans la premire colonne. Les modalits yj de Y apparaissent sur la premire ligne. Leffectif partiel nij de la modalit (xi, yj) est inscrit au croisement de la ligne i et de la colonne j. Leffectif marginal ni+ de X est report dans la dernire colonne du tableau. Leffectif marginal n+j de Y est report sur la dernire ligne du tableau. La dernire ligne et la dernire colonne du tableau de contingence sappellent les marges et contiennent la distribution marginale de X et de Y. Elles reprsentent les effectifs des sries simples X et Y. Leffectif total n++ est indiqu au croisement des deux distributions marginales de X et de Y. Do la prsentation suivante du tableau de contingence :
X\Y x1 x2 xi xp n+j
Exemple 5.2
Un tableau de contingence 2 2
Certaines entreprises mettent en avant auprs des consommateurs des engagements de citoyennet : par exemple, fabriquer sans gnrer de pollution, ne pas avoir recours au travail des enfants, etc. Le tableau ci-aprs donne le rsultat sur un chantillon constitu sur la base des rsultats dune enqute du Credoc de lanne 2006, en rponse la question : Dune faon gnrale, tenez-vous compte de ces lments lorsque vous achetez un produit ?
Sexe \ Rponse Masculin (M) Fminin (F) Total
Source : Credoc, 2006
Ce tableau comporte deux caractres qualitatifs : X, le sexe, avec les deux modalits x1 = M et x2 = F ;
110
Statistique descriptive
Y, la rponse la question de citoyennet, avec les deux modalits y1 = O et y2 = N. Leffectif total est de 1 000 et il y a quatre modalits. Par exemple, le couple (x1 ; y2) = (M ; N) a un effectif situ au croisement de la premire ligne et de la deuxime colonne et not n12 = 410. Les sommes des effectifs en ligne sont indiqus dans la dernire colonne et les sommes des effectifs en colonne sur la deuxime ligne du tableau. Par exemple, la somme des effectifs de la deuxime ligne, n2+ = 300 est indique dans la dernire colonne, sur la dernire ligne. Il sagit du nombre total de femmes, galement appel effectif marginal de la modalit Fminin de la variable Sexe. De mme, la somme des effectifs de la premire colonne n+1 = 431 est donne sur la dernire ligne. Il sagit de leffectif de la modalit Oui, sans distinction de sexe, galement appel effectif marginal de la modalit Oui de la variable Rponse. Le dtail des effectifs de cette srie est donn dans la prsentation gnrale suivante :
X\Y x1 = M x2 = F n+j y1 = O n11 = 290 n21 = 141 n+1 = 431 y2 = N n12 = 410 n22 = 159 n+2 = 569 n i+ n1+ = 700 n2+ = 300 n++ = 1000
. Il est
f
j =1 i =1
ij
modalit xi de X et la modalit yj de Y. La frquence marginale de la modalit xi est note fi+ et est dfinie par fi+ = clair que fi+ = fij .
j =1 q
ni+ . Il est n+ +
De mme, la frquence marginale de la modalit yj est note f+j et est dfinie par p n+ j = fij . f+ j = n+ + i =1
111
Exemple 5.3
Reprenons le tableau de contingence de lexemple 5.2 ci-avant. Il est possible de dterminer f12 = 410 / 1000 = 0,41, so les frquences partielles fij. Par exemple,
it 41 % des individus de notre enqute sont des hommes et ont rpondu non. Il est galement possible de dterminer les frquences marginales fi+ ou f+j. Par exemple, f+1 = 431 / 1000 = 0,431, soit 43,1 % des individus de lenqute ont rpondu oui. Les sries marginales peuvent ventuellement tre extraites. Par exemple, lextraction de la srie marginale du caractre X donne :
Sexe Masculin (M) Fminin (F) Total n i+ 700 300 1 000
Cette prsentation pourra faciliter les calculs de frquence, moyenne, variance et carttype dans le cas des caractres quantitatifs. Par exemple, ici, les frquences marginales du caractre Sexe sont aisment reprables : f1+ = 0,70 et f2+ = 0,30, soit 70 % dhommes et 30 % de femmes. Les frquences conditionnelles nous permettent daborder la distribution conditionnelle. Cette distribution est relier la notion de probabilit conditionnelle, qui consiste effectuer un changement de lunivers ou de la population tudis (voir P. Roger, page 17). Cela revient effectuer les calculs sur une sous-population prsentant une modalit choisie au lieu de sintresser la population entire.
Dfinitions Distributions conditionnelles : Si le caractre Y possde q modalits, on peut dfinir q distributions conditionnelles de X sachant Y. Les effectifs de ces distributions sont reprsents par chacune des colonnes du tableau de contingence. Leffectif total de la distribution conditionnelle de X sachant Y = yj tant alors n+j. De mme, si le caractre X possde p modalits, on peut dfinir p distributions conditionnelles de Y sachant X. Les effectifs de ces distributions sont reprsents par chacune des lignes du tableau de contingence. Leffectif total de la distribution conditionnelle de Y sachant X = xi tant alors ni+. Frquences conditionnelles de X sachant Y : La frquence conditionnelle de la modalit xi p nij sachant yj est donne par f X = x i Y = y j = . Ainsi, f X = xi Y = y j = 1. Elle est aussi note fi/+j. n+ j i =1 Frquences conditionnelles de Y sachant X : La frquence conditionnelle de la modalit yj q nij sachant xi est donne par fY = y j X = xi = . Ainsi, fY = y j X = xi = 1 . Elle est aussi note fj/i+. ni + j =1
112
Statistique descriptive
Il existe une relation entre les frquences conditionnelles et les frquences partielles prcdemment dfinies : fij = fi / + j f + j . Cette relation est similaire au thorme des probabilits composes qui indique que :
P (( X = xi ) (Y = y j )) = P(Y = y j ) ( X = xi ) P (Y = y j ) .
Exemple 5.4 Calcul des frquences conditionnelles sur tableau de contingence : sexe et citoyennet
Reprenons le tableau de contingence de lexemple 5.2 ci-avant. Au lieu de sintresser la population entire, il est possible de sintresser lunivers des femmes. Lunivers de travail est alors la sous-population note {X = x2}. Elle est constitue des individus prsentant la modalit F de la variable X. Cherchons alors la proportion de rponses Oui, soit dindividus appartenant la modalit y1 de Y dans cette sous-population. Cette frquence conditionnelle est note indiffremment fY = y1 X = x2 , f j =1 i =2 ou f1 2 + (on lit f indice j = 1 sachant i = 2 si les indices i et j ont t respectivement affects aux modalits de X et de Y) et dfinie par : n 141 f j =1 i =2 = 21 = = 0, 47 ; ainsi, 47 % des femmes ont rpondu oui. n2+ 300 Il est ainsi possible de calculer toutes les frquences conditionnelles de X sachant Y.
X\Y x1 = M x2 = F f+j y1 = O fi = 1 / j = 1 = 0,6729 fi = 2 / j = 1 = 0,3271 1 y2 = N fi = 1 / j = 2 = 0,7206 fi = 2 / j = 2 = 0,2794 1
113
Ces caractristiques peuvent tre calcules sur des variables quantitatives, partir : des distributions marginales : il sagit de caractristiques marginales ; des distributions conditionnelles : il sagit de caractristiques conditionnelles.
2.1
Dfinitions
Moyennes
y=
marginales :
yj =
x=
p
1 n+ +
n
i =1
i+
xi =
1 n+ +
x n
i =1 i j =1
ij
et
de
mme
1 n+ +
n
j =1
+j
1 n+ +
y n
j =1 j i =1
ij
marginales :
V (x ) =
1 n+ +
n (x
i =1 i+
x) ,
2
+j
de
1 n+ +
formule
dveloppe
2
n
i =1
i+
x i 2 x 2 . De mme, V ( y ) =
1 n+ +
n
j
( y j y ) =
n
j
+j
yj y .
carts-types marginaux : Les carts-types marginaux sont dduits des variances marginales, ( x ) = V ( x ) et ( y ) = V ( y ) . Exemple 5.5 Calcul des caractristiques marginales
Soit un chantillon dentreprises sur lequel sont observes les variables X, investissement annuel en milliers deuros, et Y, chiffre daffaires annuel en millions deuros :
X\Y [10 ; 30[ [30 ; 40[ [40 ; 50[ Somme [10 ; 30[ 300 70 20 390 [30 ; 50[ 80 200 30 310 [50 ; 70[ 0 50 250 300 Somme 380 320 300 1 000
On extrait les sries marginales en utilisant les centres de classes. Les moyennes, variances et carts-types marginaux sont ensuite calculs sur ces sries, comme dans le cas dune srie univarie ; la figure 5.1 donne la distribution marginale de X.
114
Statistique descriptive
Figure 5.1
Calcul des caractristiques marginales de X.
Ce qui donne : x =
32300 1 151500 = 32,3 ; V (x) = (32,3)2 = 108,21 et (x) = 10,4. 1000 1 000 38 200 = 38,2 ; 1 000
2.2
Dfinitions
Moyennes conditionnelles : Les moyennes conditionnelles de X sont les moyennes des p 1 p distributions conditionnelles de X sachant Y. x j = fi / + j x i = nij x i est la moyenne n + j i =1 i =1
( )
conditionnelle de X sachant Y = yj. De mme, les moyennes conditionnelles de Y sont les moyennes des distributions condiq 1 q tionnelles de Y sachant X. y i = fj / i + x i = nij y j est la moyenne conditionnelle de Y ni + j =1 j =1
( )
sachant X = xi. Variances conditionnelles : Les variances conditionnelles de X sont les variances des distributions conditionnelles de X sachant Y. La variance conditionnelle de X sachant Y = yj est 2 1 p 1 p note V j ( x ) = nij ( x i x j )2 = nij x i 2 x j . n + j i =1 n + j i =1 De mme, les variances conditionnelles de Y sont les variances des distributions conditionnelles de Y sachant X. La variance conditionnelle de Y sachant X = xi est note 2 1 q 1 q Vi ( y ) = nij ( y j y i )2 = nij y j 2 y i . ni + j =1 ni + j =1 carts-types conditionnels : Les carts-types conditionnels sont dduits des variances conditionnelles, ( x ) = V ( x ) et ( y ) = V ( y ) .
115
Exemple 5.6
Reprenons les donnes de lexemple 5.5. Extrayons la distribution conditionnelle de X sachant Y = 60. partir de cette srie extraite, assimilable une srie univarie, nous effectuons les tapes ncessaires aux calculs de la moyenne et de la variance (voir figure 5.2).
Figure 5.2
Distribution conditionnelle de X sachant Y = 60.
2.3
n+ j x j =
j =1
1 n++
1 n+ j n+ j j =1
q
1 nij xi = n++ i =1
p
n x
ij j =1 i =1
1 n++
q 1 x i nij = i =1 j =1 n++
x n
i =1
i i+
=x
Exemple 5.7
Reprenons les donnes de lexemple 5.5. Extrayons les distributions conditionnelles de X sachant Y = y1 (voir figure 5.3).
Figure 5.3
Distribution conditionnelle de X sachant Y = y1.
116
Statistique descriptive
Do x1 =
1 n+ j
n x
ij i =1
En faisant de mme pour les distributions conditionnelles de X sachant Y = y2 et de X sachant Y = y3, on obtient :
x2 = 1 n+ j
n x
ij i =1
n x
ij i =1
1 n++
n
j =1
+j
xj =
Or, x = 32,3 (voir exemple 5.5). Donc, la relation entre x et x est vrifie.
2.4
LA COVARIANCE
Nous avons vu que la variabilit des caractres quantitatifs une variable autour de leur moyenne pouvait tre mesure par la variance. Dans le cas des sries doubles, nous disposons dun indicateur comparable, appel covariance, qui permet de mesurer les fluctuations simultanes de chaque variable par rapport sa moyenne. Il est important de noter que, contrairement la variance (moyenne de carrs) qui est toujours positive ou nulle, la covariance peut tre de signe quelconque.
Dfinition
La covariance : Soit X et Y deux caractres quantitatifs. La covariance du couple (X ; Y) est q p 1 q p dfinie par : Cov (X ; Y ) = nij ( x i x ) ( y j y ) = fij ( x i x ) ( y j y ) . n + + j =1 i =1 j =1 i =1
Graphiquement, cette dfinition revient prendre un nouveau repre dorigine G ( x ; y ) , le point moyen, et diviser le plan en quatre quadrants, respectivement dfinis
x x x x x x x x par : Q1 , Q2 , Q3 et Q4 . On notera que les quadrants Q1 et y y y y y y y y Q3 sont associs, car les points M (xi ; yj) du nuage situ dans le domaine Q1 Q3 sont
117
dans Q2 Q4 (voir figure 5.5) ; nous reviendrons sur cette remarque dans ltude de la rgression (voir chapitre 6).
Milliers
Figure 5.5
Nuages de points (xi ; yi).
12 11 10 9 8 7 6 5 4 Y 3 2 1 0
Comme pour la variance, la covariance admet une formule dveloppe. Cette formule est issue du thorme de Koenig.
Dfinition Formule dveloppe de la covariance : Cov (X ; Y ) =
1 n+ +
Milliers
n x y
j =1 i =1 ij i
xy.
Par cette formule, la covariance est la moyenne des produits moins le produit des moyennes . De mme que la variance, la covariance possde des proprits trs importantes :
Proprits Cov(X ; Y) = Cov(Y ; X) : la covariance est symtrique. Cov(X ; X) = Var(X) : la covariance est obtenue en ddoublant la formule de la variance. Cov(aX ; aY) = aaCov(X ; Y) : multiplier chacune des sries par un rel multiplie la covariance par le produit de ces nombres. Cov(X+b ; Y) = Cov(X ; Y) : ajouter une constante ne change pas la covariance.
Le signe de la covariance possde une signification (voir figure 5.5) : Une covariance positive indique que les caractres X et Y varient globalement dans le mme sens, une hausse de lun tant associe une hausse de lautre, ou encore une baisse de lun tant associe une baisse de lautre. Une covariance ngative indique que les caractres X et Y varient globalement en sens contraires, une hausse de lun tant associe une baisse de lautre.
Exemple 5.8 Calcul de covariance dans le cas de donnes exhaustives
Reprenons les donnes de lexemple 5.1 et calculons la covariance avec la formule dveloppe. On rappelle que n = 3 ; x = 9 721 ; y = 7 176. On calcule chacun des xiyi et on en fait la somme (voir figure 5.6).
118
Statistique descriptive
Figure 5.6
Calcul des xiyi.
Do
n x y
ij i j =1 i =1
Do,
en
utilisant
la
formule
dveloppe :
1 3 3 1 nij xi y j x y = 236 489 678 9 721 7 176 , 3 j =1 i =1 3 soit Cov(X ; Y) = 9 071 996,76. Le nombre de licencis en 2005 varie dans le mme sens que le nombre de licencis poursuivant leurs tudes luniversit en 2006. Cov( X ; Y ) =
Dans le chapitre suivant nous affinerons ltude de la relation entre deux caractres et nous verrons le rle de la covariance dans le calcul du coefficient de corrlation linaire.
3.1
Dfinition
Un caractre X est li fonctionnellement au caractre Y si chaque modalit de Y correspond une seule modalit de X.
La liaison fonctionnelle nest pas symtrique : si X est fonctionnellement li Y, cela nimplique pas que Y le soit fonctionnellement X.
Exemple 5.9 Liaison fonctionnelle et absence de symtrie
Supposons que, suite lintroduction sur le march dun nouveau produit, une enqute de satisfaction sur un chantillon de 200 consommateurs des deux sexes ait donn les rsultats suivants, avec X le sexe et Y la satisfaction :
119
Insatisfait 20 0 20
Ni satisfait, ni insatisfait 70 0 70
X est fonctionnellement li Y, car pour chaque modalit de Y rsulte une seule modalit de X ; ainsi, un consommateur satisfait est ncessairement un homme. Par contre, Y nest pas fonctionnellement li X, car la modalit Masculin de X correspondent deux modalits possibles de Y : Insatisfait ou Ni satisfait, ni insatisfait. La liaison fonctionnelle nest pas symtrique. Reprenons lexemple du jeu de la roulette et imaginons une roulette comportant un trs grand nombre de cases vertes : les caractres X et Y seraient peu prs indpendants.
Dfinition Deux variables statistiques X et Y sont indpendantes si les distributions conditionnelles de X sachant Y sont identiques, ce qui quivaut : f X = x Y = y = fi + , quels que soient les indices i et j ( i j) (i entier compris entre 1 et p et j entre 1 et q). Dans le cas o X et Y sont indpendants, les distributions conditionnelles de X selon Y sont identiques la distribution marginale de X. Le concept dindpendance tant symtrique, lindpendance se traduit galement par la relation f Y = y X = x = f + j . ( j i)
Cette notion est similaire la notion dindpendance probabiliste : PB(A) = P(AB) / P(B).
Exemple 5.10 tude de lindpendance
Reprenons les donnes de lexemple 5.2. Leur tude a men au calcul des frquences conditionnelles de X sachant Y, rappeles dans le tableau suivant :
X\Y x1 = M x2 = F f+j y1 = O fi = 1 / j = 1 = 0,6729 fi = 2 / j = 1 = 0,3271 1 y2 = N fi = 1 / j = 2 = 0,7206 fi = 2 / j = 2 = 0,2794 1
De mme, les frquences marginales de X avaient t calcules : f1+ = 0,70 et f2+ = 0,30, soit 70 % dhommes et 30 % de femmes. Parmi les individus ayant rpondu oui, il y a 67,29 % dhommes et 32,71 % de femmes, ce qui est diffrent des proportions dhommes et de femmes dans lchantillon tudi, qui sont respectivement de 70 % et de 30 %. Ces rsultats montrent que les caractres X et Y ne sont pas indpendants, car les distributions conditionnelles de X selon Y ne sont pas gales la distribution marginale de X (voir dfinition de lindpendance, ci-avant) : la rponse dun individu nest pas indpendante de son sexe.
120
Statistique descriptive
3.2
des effectifs thoriques. Les effectifs observs sassimilent aux effectifs thoriques sous hypothse dindpendance : on ne peut rejeter lhypothse dindpendance.
Si la distance entre les tableaux est grande , les effectifs observs sont diffrents
des effectifs thoriques calculs sous lhypothse dindpendance. Les effectifs observs ne sassimilent pas aux effectifs thoriques sous lhypothse dindpendance : les deux variables ne sont pas indpendantes. 2. La deuxime tape, prsente dans tous les tests dhypothses (voir focus 5.1), consiste dterminer la probabilit associe la dcision daccepter ou de refuser lhypothse dindpendance. Ne pouvant prtendre une certitude, il apparat raisonnable de minimiser le risque derreur.
Focus 5.1
121
not . Les seuils les plus utiliss sont = 0,05 et = 0,01, soit respectivement 5 % et 1 %. Erreur de seconde espce : accepter H0 alors que H1 est vraie. La probabilit de cette erreur est note . Le risque de premire espce est regrettable, mais invitable, comme le rappelle Daniel Schwartz. La seule faon de ne pas se tromper, et de ne prendre aucun risque de rejeter tort H0, est daccepter H0 dans tous les cas, ce qui augmente le risque daccepter H0 alors quelle est fausse. Autrement dit, pour diminuer , il faut augmenter . Pour ne pas prendre le moindre risque de condamner un innocent risque , on doit accepter le risque de relaxer tous les coupables risque .
Aprs dtermination des effectifs calculs cij, il est possible de dterminer un indicateur de distance entre le tableau observ, compos des nij, et le tableau thorique, compos des cij. Cette distance est appele distance du khi-deux.
Dfinition Distance du khi-deux : La distance entre les tableaux observ et thorique est appele khideux calcul, note c 2 , et dfinie par C 2 =
j =1 i =1 q p
(n
ij
c ij c ij
Pour appliquer un calcul de distance du khi-deux entre deux tableaux, les deux conditions suivantes doivent tre vrifies : la taille de lchantillon doit tre suprieure ou gale 30 ; tous les effectifs calculs doivent tre suprieurs ou gaux 5 (dans le cas contraire, on regroupe les classes adjacentes). Karl Pearson a dmontr que ce khi-deux calcul suit approximativement la distribution du khi-deux (voir focus 5.2), loi de probabilit continue, caractrise par un paramtre (nu), le degr de libert.
Dfinition Degr de libert dun tableau de contingence : Soit un tableau de contingence form de n lignes et de p colonnes. Son degr de libert, not ddl, est donn par : ddl = (n1)(p1), ou encore ddl = (nombre de lignes 1) (nombre de colonnes 1).
Pour comprendre la signification de la notion de degr de libert, il convient dobserver que lon peut remplir librement les (n 1) premires lignes et les (p 1) premires colonnes et qualors les effectifs marginaux imposent les valeurs restantes.
122
Statistique descriptive
Focus 5.2
La loi du khi-deux
La loi du 2 finalise par Karl Pearson au dbut du XX sicle est une loi de probabilit continue reprsentant la distribution de la somme des carrs de n variables alatoires indpendantes, chacune tant normale centre rduite. Cette somme est appele variable du 2 n degrs de libert ; on note le degr de libert (ddl). Les valeurs de 2 dpene
dent du degr de libert et du seuil de signification . Elles sont notes 2( ; ) et sont tabules sur la table du 2 , avec P 2 2( ; ) = . Prenons un exemple : pour un seuil de signification de 5 % et un ddl = 1, on trouve : 2( 0,05;1) = 3,84 ; pour un seuil de signification de 1 % et un ddl de 1, 2(0,01;1) = 6,63 . Pour un ddl de 1, il y a une chance sur 100 pour que la variable alatoire du 2 1 degr de libert dpasse 6,63 (voir figure 5.7). Autre dmarche : on peut, partir du khi-deux calcul et du ddl, dterminer le degr de signification correspondant. Par exemple, pour un khi-deux calcul de 2,8 et un ddl de 1, le degr de signification est de 9,43 % (ce degr de signification peut tre dtermin en utilisant Excel ; voir exercice 5) ; si le seuil de 5 % a t assign au test, alors on ne pourra pas rejeter lhypothse nulle, car notre seuil de signification est suprieur 5 % (voir lexercice 5 et la notion de p-valeur).
Figure 5.7
Distribution du khi-deux 1 degr de libert.
0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 3,84 =0,05 x y
123
3. Dterminer le degr de libert. 4. Dfinir la rgle de dcision partir de c 2 le khi-deux calcul et 2( ; ) le khi-deux critique, dpendant du seuil de signification et du degr de libert .
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables est
rejete et lhypothse H1 est accepte : les deux caractres seront considrs comme statistiquement associs.
Si c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas
rejete : il est impossible de conclure de faon significative lexistence dun lien statistique entre les variables.
Exemple 5.11 Test du khi-deux
Les deux variables sont dpendantes (voir exemple 5.10). Il est possible de sinterroger sur les conditions qui auraient permis de conclure lindpendance. Pour cela, calculons les effectifs sous lhypothse dindpendance, nots cij. Lindpendance se traduit par : f ( X = x1 Y = y1 ) = f1+ , soit par le fait que la proportion dindividus de sexe masculin parmi les oui est gale la proportion dindividus de c 700 sexe masculin dans la population tudie, soit 70 %, ce qui donne : 11 = , soit 431 1000 n 700 431 = 302 . Remarquons que c11 = 1+ n +1 . c11 = n+ + 1000 Ce problme compte apparemment quatre inconnues, mais en vrit elles sont lies : la donne dune de ces inconnues, par exemple c11, fixe les valeurs des autres. Le tableau a un degr de libert gal 1. Ainsi, partir de c11, il est possible de trouver toutes les autres valeurs du tableau : c12 = 700 c11 = 398 ; c21 = 431 c11 = 129 et c22 = 300 c21 = 171. Do le tableau suivant, qui indique les effectifs calculs, cij, en supposant lindpendance des caractres X et Y.
X\Y x1 = M x2 = F Somme y1 = O 302 129 431 y2 = N 398 171 569 Somme 700 300 1 000
124
Statistique descriptive
(n
ij
cij ) c ij
j =1 i =1
de
calculer
2
chacun
des
2
(n
ij
cij ) cij
avant
den
faire
2
la
=
somme.
2
Ainsi,
= 0,36 ;
(n11 c11 )
c11
=
2
( 290 302 )
302
= 0,48 ; = 1,12 et
(n12 c12 )
c12
( 410 398 )
398
(n21 c 21 )
(141 129 )
(n22 c 22 )
c22
(159 171)
171
y2 = N 0,36 0,84 1,20
Ainsi, c 2 = 0,48 + 0,36 + 1,12 + 0,84 = 2,80, avec un ddl de 1 qui donne au seuil de 5 %
2( 0,05;1) = 3,84 . c 2 2( ; ) , lhypothse H0 dindpendance entre les deux variables nest pas rejete : il
est impossible de conclure de faon significative lexistence dun lien statistique entre le sexe et le type de rponse.
Focus 5.3
125
Figure 5.8
Ralisation du test du khi-deux sous Excel.
La probabilit affiche, gale 0,0000, est le degr de signification, cest--dire le plus petit risque derreur pour lequel la diffrence entre le modle observ et le modle dindpendance est significative. Si cette probabilit est suprieure au seuil de signification, alors H0 ne peut tre rejete. Dans notre exemple, avec un seuil de signification de 5 % et un degr de signification denviron 0, on doit rejeter H0.
Conclusion
Ce chapitre est un chapitre clef double titre : tout dabord il a introduit les outils de base des sries bivaries, qui seront ncessaires pour aborder, au chapitre 6, la rgression ; ensuite il a introduit le concept fondamental dindpendance. Cette notion a t loccasion de prsenter une initiation aux tests statistiques, qui constituent un aspect fondamental de linfrence statistique. Le lecteur doit matriser les concepts deffectifs (et de frquences) conditionnels et marginaux, ainsi que les lments ayant trait aux tableaux de contingence : utilisation rigoureuse des indices, notion de degr de libert. La covariance, son calcul sous les deux formes et linterprtation de son signe doivent tre bien connus. Enfin, le lecteur doit sattacher une rdaction rigoureuse et systmatique dans llaboration dun test dhypothse. Les calculs intervenant dans le test du khi-deux exigent une dmarche, des notations et une prsentation claires. Par ailleurs, indpendamment de lutilisation du tableur, il est fondamental dtre familiaris avec la table de la distribution du khi-deux.
126
Statistique descriptive
Problmes et exercices
Par lintermdiaire du tableau de contingence, ce chapitre prsente une premire approche des sries bivaries. Les exercices 1 et 2 initient la construction du tableau de contingence selon la nature des variables tudies. Lexercice 3 dtaille les lments constitutifs du contenu dun tableau de contingence. Lexercice 4 applique aux sries bivaries le calcul des indicateurs prcdemment mis en uvre dans ltude des sries univaries. Lexercice 5 introduit la notion de dpendance entre deux sries, laide de la covariance et du test du khi-deux.
EXERCICE 1
127
tudiant tudiant 15 tudiant 16 tudiant 17 tudiant 18 tudiant 19 tudiant 20 tudiant 21 tudiant 22 tudiant 23 tudiant 24 tudiant 25 tudiant 26 tudiant 27 tudiant 28
Nombre de films 2 2 2 3 3 3 6 3 0 0 0 2 3 2
Genre Fminin Masculin Fminin Fminin Masculin Masculin Masculin Masculin Fminin Fminin Masculin Masculin Masculin Fminin
1. Prcisez la nature des caractres tudis. 2. Dressez le tableau de contingence prsentant les deux distributions marginales.
Pour le recensement manuel, il convient de compter combien de femmes ont vu 0 film, 1 film, 2 films, etc., et de faire de mme pour les hommes. Ce comptage aboutit au tableau de contingence de la figure 5.9, qui indique par exemple que 6 femmes ont vu 2 films ou encore que 5 hommes ont vu 3 films.
Figure 5.9
Ralisation manuelle dun tableau de contingence.
128
Statistique descriptive
La ralisation manuelle dun tel tableau est souvent longue et fastidieuse. Excel permet de raliser ce type de tableau automatiquement, laide du tableau crois dynamique. Ce tableau est dit dynamique, car une fois quil est ralis partir des donnes brutes, il est possible de le modifier tout moment en faisant glisser les variables laide de la souris. Pour raliser un tableau crois dynamique sous Excel, ouvrez Excel sur la feuille contenant les donnes traiter. Cliquez sur Donnes/Rapport de tableau crois dynamique dans la barre de menus. Lassistant tableau crois dynamique apparat (voir figure 5.10). Par dfaut les donnes analyser sont supposes tre dans Excel. Il suffit donc de cliquer sur le bouton Suivant.
Figure 5.10
Cration dun tableau crois dynamique laide de lassistant.
Lassistant tableau crois dynamique demande alors dindiquer la plage o se trouvent les donnes. Il convient donc de slectionner laide de la souris le tableau Excel, cest--dire, ici, la plage A1:C29, comme indiqu sur la figure 5.11. Puis cliquez sur le bouton Suivant.
Figure 5.11
Slection des donnes croiser dans lassistant tableau crois dynamique.
Dernire tape : il convient dindiquer lendroit o vous souhaitez que le tableau crois dynamique soit ralis : soit sur une nouvelle feuille, soit sur la feuille existante. Nous choisissons ici de faire apparatre le tableau crois dynamique sur une nouvelle feuille (voir figure 5.12) avant de cliquer sur le bouton Terminer.
Figure 5.12
Slection du lieu daffichage des rsultats dans lassistant tableau crois dynamique.
129
Lassistant tableau crois dynamique se ferme et le tableau crois dynamique apparat, vide, avec la liste de champs qui reprend les trois colonnes du tableau brut (voir figure 5.13).
Figure 5.13
Tableau crois dynamique renseigner.
Pour remplir le tableau crois dynamique, il suffit de cliquer sur un des lments de la liste de champs et de le faire glisser, laide de la souris, lendroit souhait du tableau de contingence. Dans notre cas : Llment Nombre de films est dplac lemplacement indiqu Dposer champs de lignes Ici . Llment Genre est dplac lemplacement indiqu Dposer champs de colonnes Ici . Llment tudiant est dplac lemplacement indiqu Dposer donnes Ici . Le tableau crois dynamique construit fait ainsi apparatre le nombre de films en ligne, le sexe en colonne et compte le nombre dtudiants prsentant chaque modalit de lune et de lautre de ces deux variables (voir figure 5.14).
Figure 5.14
Dnombrement par tableau crois dynamique.
Un simple clic sur les cellules dynamiques (A3, A4 et B3) permet de modifier les options du tableau, notamment de faire disparatre la modalit indique (vide) pour chaque variable. Ce tableau de contingence correspond celui obtenu manuellement (voir figure 5.9).
130
Statistique descriptive
EXERCICE 2
131
1. Prcisez la nature des caractres tudis. 2. Dressez le tableau de contingence prsentant les deux distributions marginales. Utilisez les classes [0 ; 15[ ; [15 ; 30[ et [30 ; 150[ pour X. Utilisez les classes [0 ; 5 000[ ; [5 000 ; 10 000[ ; [10 000 ; 65 000[ pour Y.
1. Les deux variables X = nombre de chambres classes et Y = nombre de nuites sont des variables quantitatives continues. 2. Afin de pouvoir raliser un tableau de contingence, il est indispensable de discrtiser ces variables afin de les regrouper en classes (voir chapitre 1), sans quoi chacune dentre elles aura 22 modalits et le tableau de contingence sera compos pour chaque ligne et pour chaque colonne dune unique rgion dans les marges. En effet, aucune rgion na le mme nombre de chambres ni le mme nombre de nuites quune autre.
Pour la variable X = nombre de chambres classes , nous choisissons les classes suivantes : [0 ; 15[, [15 ; 30[ et [30 ; 150[ (en milliers). Pour la variable Y = nombre de nuites , nous choisissons les classes suivantes : [0 ; 5 000[, [5 000 ; 10 000[ et [10 000 ; 65 000[ (en milliers). Le recensement manuel permet dobtenir le tableau suivant :
X\Y [0 ; 15[ [15 ; 30[ [30 ; 150[ Somme [0 ; 5 000[ 9 2 0 11 [5 000 ; 10 000[ 0 7 1 8 [10 000 ; 65 000[ 0 0 3 3 Somme 9 9 4 22
132
Statistique descriptive
1. Dressez le tableau contenant les effectifs partiels et marginaux. 2. Dressez le tableau des frquences partielles et marginales. 3. Dressez le tableau des frquences conditionnelles de X selon Y. 4. Dressez le tableau des frquences conditionnelles de Y selon X. 5. partir des questions prcdentes, concluez sur la dpendance entre X et Y.
1. Les effectifs partiels des caractres X et Y sont nots nij et sont indiqus dans le corps du tableau de contingence (voir figure 5.15). Ils correspondent aux effectifs donns dans lnonc. Ainsi, par exemple, n23 = 2, soit 2 pays de lEurope des 25 ont une population comprise entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion europenne.
Les effectifs marginaux du caractre X se notent ni+ et sont indiqus dans la dernire colonne du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
n2 + = n2 j = 5 , soit 5 pays de lEurope des 25 ont une population comprise entre 5 et
j =1 4
10 millions dhabitants. Les effectifs marginaux du caractre Y se notent n+j et sont indiqus dans la dernire ligne du tableau de contingence, appele marge (voir figure 5.15). Ainsi, par exemple,
n+3 = ni 3 = 8 , soit 8 pays de lEurope des 25 ont entre 10 et 15 voix au conseil de lUnion
i =1 4
europenne.
Figure 5.15
Les effectifs partiels (nij) et marginaux (ni+ ; n+j).
2. Les frquences partielles des caractres X et Y se notent fij et sont indiques dans le corps du tableau de contingence (voir figure 5.16). Ainsi, par exemple, n 2 f 23 = 23 = = 8% , soit 8 % des pays de lEurope des 25 ont une population comprise n++ 25 entre 5 et 10 millions dhabitants et ont entre 10 et 15 voix au conseil de lUnion europenne.
Les frquences marginales du caractre X se notent fi+ et sont indiques dans la dernire colonne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple, n 5 f 2+ = 2+ = = 20% , soit 20 % des pays de lEurope des 25 ont une population n++ 25 comprise entre 5 et 10 millions dhabitants.
133
Les frquences marginales du caractre Y se notent f+j et sont indiques dans la dernire ligne du tableau de contingence, appele marge (voir figure 5.16). Ainsi, par exemple, n 8 f +3 = +3 = = 32% , soit 32 % des pays de lEurope des 25 ont entre 10 et 15 voix au n++ 25 conseil de lUnion europenne.
Figure 5.16
Les frquences partielles (fij) et marginales (fi+ ; f+j).
corps du tableau de contingence (voir figure 5.17). Ainsi, par exemple, n 2 fi =2 / j =3 = 23 = = 25% . Parmi les pays de lEurope des 25 qui disposent de 10 15 voix n +3 8 au conseil de lUnion europenne, 25 % ont une population comprise entre 5 et 10 millions dhabitants.
La somme en colonne des frquences conditionnelles de X selon Y fait 100 %. Ces frquences correspondent donc aux pourcentages en colonne : la somme des pourcentages de chacune des colonnes est gale 100 %.
Figure 5.17
Les frquences conditionnelles de X selon Y : fi / +j
4. Les frquences conditionnelles de Y selon X se notent fj / i+ et sont indiques dans le corps du tableau de contingence (voir figure 5.18). Ainsi, par exemple, n 2 f j =3 / i =2 = 23 = = 40% . Parmi les pays de lEurope des 25 qui ont une population n2 + 5 comprise entre 5 et 10 millions dhabitants, 40 % disposent de 10 15 voix au conseil de lUnion europenne.
La somme en ligne des frquences conditionnelles de Y selon X fait 100 %. Ces frquences correspondent donc aux pourcentages en ligne : la somme des pourcentages de chacune des lignes est gale 100 %.
Figure 5.18
Les frquences conditionnelles de Y selon X : fj / +i
134
Statistique descriptive
5. X nest pas fonctionnellement li Y, car la modalit de y2 correspondent deux modalits possibles de X, x1 et x2 ; de mme, Y nest pas fonctionnellement li X, car la modalit de x2 correspondent deux modalits possibles de Y, y2 et y3.
Ainsi, par exemple, les pays de lEurope des 25 dont la taille de la population est comprise entre 10 et 50 millions dhabitants peuvent disposer de 10 15 voix ou de 15 30 voix au conseil de lUnion europenne. Inversement, les pays de lEurope des 25 qui ont entre 10 et 15 voix au conseil de lUnion europenne peuvent avoir une population comprise entre 5 et 10 millions ou entre 10 et 50 millions dhabitants.
X et Y ne sont pas indpendants, car les distributions conditionnelles ne sont pas gales aux distributions marginales. En effet, par exemple, f j =3 / i =2 = 40 % est diffrent de
f +3 = 32 % . Puisque X et Y ne sont ni dans une relation de liaison fonctionnelle, ni dans une relation dindpendance, on se trouve entre ces deux cas extrmes et il est simplement possible de conclure quil existe une liaison entre X et Y.
Femme 10 70 77 36 35 67
1. Pour la variable ge des tus par accidents de la route , calculez : a. la moyenne marginale x ; b. la variance marginale V(x). 2. Pour la variable ge des tus par accidents de la route conditionne par la modalit homme de la variable sexe , calculez : a. la moyenne conditionnelle, soit x1 ; b. la variance conditionnelle, soit V1(x). 3. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre lge et le sexe des personnes tues dans un accident de la route.
135
1. Saisissez les centres de classes de X dans la colonne L1, les effectifs partiels pour les hommes dans la colonne L2 et les effectifs partiels pour les femmes dans la colonne L3, comme indiqu figure 5.19.
Figure 5.19
Saisie du tableau de contingence avec la calculatrice.
Pour calculer les effectifs marginaux (ni+) de X dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2+L3. Puis appuyez sur ENTER. Pour obtenir les (ni+xi) dans la colonne L5, placez le curseur sur len-tte de colonne L5, puis indiquez L5=L4L1. Puis appuyez sur ENTER. Pour obtenir les (ni+xi) dans la colonne L6, placez le curseur sur len-tte de colonne L6, puis indiquez L6=L5L1. Puis appuyez sur ENTER. Pour effectuer la somme des (ni+), placez le curseur sur la cellule L4(7), et indiquez L4(7)=sum(L4), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L5(7), et indiquez L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER. Pour effectuer la somme des (ni+xi), placez le curseur sur la cellule L6(7), et indiquez L6(7)=sum(L6), en appelant la fonction SUM. Puis appuyez sur ENTER (voir figure 5.20).
Figure 5.20
Calcul des ni+xi et de la somme des colonnes avec la calculatrice.
x = 35,5 . Lge moyen des personnes tues dans un accident de la route est de 35,5 ans.
136
Statistique descriptive
La variance de lge des personnes tues dans un accident de la route est de 504,55.
2. Effacez le contenu des colonnes L4 et L5 en plaant le curseur sur chacun des en-ttes de colonnes et en appuyant sur CLEAR et ENTER.
Pour calculer les ni1xi dans la colonne L4, placez le curseur sur len-tte de colonne L4. Indiquez L4=L1L2. Puis appuyez sur ENTER. Pour obtenir les ni1xi dans la colonne L5, placez le curseur sur len-tte de colonne L5, puis indiquez L5=L4L1. Puis appuyez sur ENTER. Pour faire la somme des ni1, placez le curseur sur la cellule L2(7), et indiquez L2(7)=sum(L2), en appelant la fonction SUM (voir annexe 1.2). Puis appuyez sur ENTER. Pour faire la somme des ni1xi, placez le curseur sur la cellule L4(7), et indiquez L4(7)=sum(L4), en appelant la fonction SUM. Puis appuyez sur ENTER. Pour faire la somme des ni1xi, placez le curseur sur la cellule L5(7), et indiquez L5(7)=sum(L5), en appelant la fonction SUM. Puis appuyez sur ENTER (voir figure 5.21).
Figure 5.21
Calcul des ni1xi et de la somme des colonnes avec la calculatrice.
x1 = 34, 42 . Lge moyen des hommes tus dans un accident de la route est de 34,42 ans.
La variance de lge des hommes tus dans un accident de la route est de 463,74.
3. Pour effectuer un test du khi-deux, il convient de saisir le tableau de donnes observes
dans une matrice. Pour cela, appuyez sur la touche MATRIX, choisissez le menu EDIT. Tapez 1 pour diter la matrice [A]. Saisissez le nombre de lignes, soit 6, et appuyez sur ENTER. Saisissez le nombre de colonnes, soit 2, et appuyez sur ENTER. Enfin, saisissez les valeurs en validant chacune dentre elles par appui sur ENTER.
137
La matrice [A] de la calculatrice contient ainsi les donnes observes (voir figure 5.22). Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite sous lhypothse dindpendance entre X et Y. Pour effectuer ce test laide de la calculatrice, appuyez sur la touche STAT, choisissez le menu TESTS et tapez C pour appeler le test du khi-deux. Par dfaut, la matrice de donnes observes est la matrice [A]. Tapez sur ENTER pour valider. Par dfaut, la matrice o seront stocks les rsultats de la matrice thorique est la matrice [B]. Tapez sur ENTER pour valider. Puis tapez une nouvelle fois sur ENTER pour lancer le test du khi-deux. Les rsultats saffichent lcran (voir figure 5.23).
Figure 5.22 (gauche)
Saisie de la matrice [A] des effectifs observs avec la calculatrice.
La probabilit 0,000269, soit environ 0,03 %, donne ici est celle que lon obtiendrait sous Excel avec la fonction LOI.KHIDEUX. La valeur du khi-deux de 23,51, avec un degr de libert de 5, a une probabilit denviron 0,03 % dtre dpasse ou correspond un seuil de signification de 0,03 %. Ce seuil de signification est infrieur 5 %, et induit donc le rejet de lhypothse nulle au seuil fix de 5 % et lacceptation de lhypothse alternative. Si H0 est vraie, il y a 99,97 % de chances dobtenir un chantillon correspondant un khi-deux infrieur 23,51 ; en rejetant H0, on prend ici un risque ngligeable. Il existe donc un grand cart entre les donnes observes et les donnes thoriques sous hypothse dindpendance. Les donnes observes refltent un degr de dpendance statistique entre X et Y. Autrement dit, il existe un lien entre lge et le genre des personnes tues dans un accident de la route. Au seuil de 5 %, avec un ddl de 5, la table ou la fonction statistique Excel KHIDEUX.INVERSE nous donne un khi-deux de 11,05, qui est largement dpass ici par le khi-deux calcul. La matrice [B] des donnes thoriques peut tre visualise en appuyant sur la touche MATRIX. Dans le menu EDIT, tapez 2 pour diter la matrice [B] (voir figure 5.24).
Figure 5.24
Visualisation de la matrice [B] des effectifs calculs avec la calculatrice.
138
Statistique descriptive
(Obsi Thqi ) . Par exemple, Thqi e re pour llment situ lintersection de la 2 ligne et de la 1 colonne, 311 1026 1321 1321 1321 . 241,55 = 1026 1321
2 i
1. Calculez la moyenne marginale x et la variance V(x). 2. Calculez la moyenne marginale y et la variance V(y). 3. Calculez la covariance entre X et Y. Concluez sur la dpendance entre X et Y. 4. Effectuez un test du khi-deux au seuil de signification de 5 %. Concluez sur la dpendance entre X et Y.
les effectifs marginaux (ni+) de X dans la colonne E, ainsi que leur somme dans la cellule E5 ; les centres de classes xi dans la colonne F ; les (ni+xi) dans la colonne G, ainsi que leur somme dans la cellule G5. Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs dans la colonne H, et leur somme dans la cellule H5 (voir figure 5.25).
Figure 5.25
Rsultats sous Excel.
139
1 3 302 ni + xi = , soit x = 0,95 . 318 i =1 318 Le nombre moyen de jeux vido achets neufs lors de la dernire anne est de 0,95.
1 3 764 ni + xi x 2 = 0,95 , soit 318 i =1 318 V(x) = 1,50. La variance des jeux vido achets neufs lors de la dernire anne est de 1,50.
2. Afin dobtenir la valeur de la moyenne marginale de Y, il convient de calculer la suite du tableau prcdent (voir figure 5.25) :
les effectifs marginaux (n+j) de Y sur la ligne 5, ainsi que leur somme dans la cellule E5 ; les centres de classes yj sur la ligne 6 ; les (n+jyj) sur la ligne 7, ainsi que leur somme dans la cellule E7. Pour le calcul de la variance marginale de X, les (ni+xi) sont calculs sur la ligne 8, et leur somme dans la cellule E8.
1 3 121 n+ j y j = , soit y = 0,38 . 318 j =1 318 Le nombre moyen de jeux vido achets doccasion lors de la dernire anne est de 0,38.
1 3 313 n+ j y j y 2 = 0,38 , soit 318 i =1 318 V(y) = 0,84. La variance des jeux vido achets doccasion lors de la dernire anne est de 0,84.
3. Pour obtenir la valeur de la covariance entre X et Y, nous calculons la suite du
n x y
i =1 ij i q p ij i
dans les cellules B9, C9 et D9. Puis nous en effectuons la somme en faisant varier j dans la cellule E9, afin dobtenir la somme :
n x y
j =1 i =1
X et Y sont positivement lis. Le nombre de jeux vido achets neufs est positivement li au nombre de jeux vido achets doccasion.
4. Pour effectuer un test du khi-deux, il convient de calculer les effectifs thoriques (ou calculs, nots cij) sous lhypothse dindpendance entre X et Y. Les calculs sont prsents n n la figure 5.26. Par exemple, pour leffectif thorique c21 : c 21 = 2 + +1 , donc n++ 71 261 77 25 = 6 . c 21 = = 58 . Autre exemple : c 32 = 318 318
140
Statistique descriptive
Figure 5.26
Donnes thoriques sous hypothse dindpendance sous Excel.
Le test du khi-deux compare cette matrice observe avec la matrice thorique, construite sous hypothse dindpendance entre X et Y. Pour cela, il convient de calculer chacune (nij c ij ) 2 des distances du khi-deux par case tel que = (voir figure 5.27). Par exemij c ij ple,
2 21
2 32
Figure 5.27
Distances du khideux sous Excel.
(3 1) (3 1) = 4 degrs de libert. Pour dfinir la rgle de dcision, nous devons dterminer la valeur critique, cest--dire 2( 0,05;4) . Pour effectuer une lecture de table du khi-deux sous Excel, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction KHIDEUX.INVERSE. Cliquez sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.28), dans le champ Probabilit, indiquez le niveau de signification fix, ici 0,05, puis, dans le champ Degrs_libert, indiquez la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau, soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat, soit un khi-deux denviron 9,49.
Figure 5.28
Lecture du khi-deux de la table sous Excel.
141
Il reste prendre la dcision : le khi-deux calcul est denviron 35,21 ; il est suprieur au khi-deux de la table, on doit rejeter lhypothse dindpendance et accepter lhypothse alternative de dpendance entre le nombre de jeux vido achets neufs et le nombre de jeux vido achets doccasion. Une dmarche complmentaire consiste chiffrer le degr de signification, ou la valeur p (p-value) en utilisant la fonction Excel LOI.KHIDEUX. Ce degr de signification est la probabilit davoir un khi-deux suprieur ou gal 35,21 sous lhypothse nulle. Pour dterminer le degr de signification, slectionnez la cellule dans laquelle vous souhaitez faire apparatre le rsultat, puis, dans la barre de menus, cliquez sur Insertion/Fonction. Dans la bote de dialogue, slectionnez la catgorie Statistiques, puis slectionnez la fonction LOI.KHIDEUX. Cliquez sur OK. Dans la bote de dialogue Arguments de la fonction (voir figure 5.29), dans le champ x , indiquez la cellule dans laquelle se trouve la valeur du khi-deux, soit E33, et dans le champ Degrs_Libert, indiquez la cellule dans laquelle vous aurez pralablement saisi le degr de libert du tableau, soit 4, en cellule B28 pour notre exemple. Cliquez sur OK pour faire apparatre le rsultat.
Figure 5.29
Dtermination du degr de signification pour un khi-deux sous Excel.
Pour une valeur du khi-deux de 35,21 et avec un degr de libert de 4, la probabilit associe est de 4,2138E-07, soit 0,0000. Cette valeur du khi-deux a une probabilit pratiquement nulle dtre dpasse. Le degr de signification est infrieur au seuil de 5 % assign au test, on doit donc rejeter lhypothse nulle dindpendance entre les variables, le risque de prendre une mauvaise dcision tant ici quasiment nul. Il existe donc un grand cart entre les donnes observes et les donnes thoriques sous hypothse dindpendance. Les donnes observes refltent une dpendance entre X et Y. Autrement dit, il existe un lien entre le nombre de jeux vido achets neufs et le nombre de jeux vido achets doccasion.
142
Statistique descriptive
Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. BOUROCHE J.-M. et SAPORTA G., Lanalyse des donnes, Que sais-je ?, PUF, 1990. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DODGE Y., Premiers pas en statistique, Springer, 2006. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. MARTIN O., Lanalyse de donnes quantitatives. Lenqute et ses mthodes, Armand Colin, 2005. WONNACOTT T.H. et R.J., Statistique, Economica, 1984.
143
La rgression
1
1. Les fondements de la rgression..........................146 2. Lajustement linaire...........150 3. Ajustements et absence de linarit ........................162 Problmes et exercices 1. Rgression linaire et indicateurs de qualit......164 2. Rgression linaire et prvisions.......................170 3. Rgression sur tableau de contingence...................174 4. Ajustement exponentiel et papier semi-logarithmique ..175 5. Corrlation des rangs.........179
Dans le chapitre prcdent, nous avons vu que le degr dassociation de deux caractres quantitatifs peut varier entre deux extrmes, dun ct la liaison fonctionnelle et de lautre lindpendance. La notion de corrlation consiste prciser la dpendance mutuelle de deux variables statistiques. Cette notion de corrlation a t esquisse pour la premire fois par Francis Galton (1822-1911), dans ses travaux sur 1 lhrdit : il utilisait alors le terme co-relation . Galton a montr que la taille moyenne des descendants tait lie par une relation linaire la taille des parents. Les concepts introduits par Galton ont ensuite t dvelopps par Karl Pearson (1857-1936). Dans ce chapitre, nous tudierons essentiellement la corrlation linaire, cest--dire les situations o les variations relatives de deux caractres quantitatifs sont approximativement proportionnelles ; ce cas est fondamental, car il se produit quand le couple (X, Y) suit une loi normale. Ensuite, nous mesurerons lintensit de cette corrlation laide du coefficient de corrlation linaire.
1. Form de cum, avec, et de relatio, le mot latin correlatio signifie relation mutuelle (voir B. Hauchecorne).
145
Lanalyse linaire de la rgression a un double objectif : dune part expliciter le modle dcrivant les relations entre une variable privilgie, appele variable explique (dpendante ou endogne), et une variable appele variable explicative (indpendante ou exogne), et dautre part effectuer des prvisions de la variable explique en fonction de la variable explicative. Dans ce cas, lajustement analytique sera effectu laide de la mthode des moindres carrs, que nous devons Carl Friedrich Gauss (1777-1855) et Adrien-Marie Legendre (1752-1833), et qui nous permettra de dterminer les quations des droites de rgression. Nous envisagerons galement des liaisons plus complexes (exponentielles), en utilisant une reprsentation graphique (nuage de points) comme outil de conjecture. Enfin, une fois les calculs mens sur un chantillon, il importera dutiliser un test statistique permettant de valider ou de rejeter lexistence dun lien linaire entre les variables sur la population.
1
1.1
Dfinitions
Liaison fonctionnelle : On dit que la variable Y est fonctionnellement lie X si chaque modalit de X correspond une seule modalit de Y. De mme X est lie fonctionnellement Y si chaque modalit de Y correspond une seule modalit de X. Si X est lie fonctionnellement Y et Y est lie fonctionnellement X, on parle de liaison fonctionnelle rciproque. Courbes de rgression : On appelle courbe de rgression de Y selon x la courbe reprsentative des moyennes conditionnelles y i en fonction des valeurs xi de X. On remarquera que si X est une variable discrte on aura en fait une suite de points appele nuage de points. On dfinit de mme la courbe de rgression de X selon y. Point moyen : On appelle point moyen du nuage le point G de coordonnes respectives x et y .
Dans le cas particulier o les variables X et Y sont indpendantes, les distributions conditionnelles sont identiques entre elles (et confondues avec la distribution marginale correspondante). On a donc dans ce cas des moyennes conditionnelles constantes et donc des droites de rgression parallles aux axes et dquations respectives x = x et y = y . On notera que la rciproque est fausse : des droites de rgression parallles aux axes nimpliquent pas lindpendance.
146
Statistique descriptive
tudier la corrlation dune variable Y avec une variable X consiste tudier la dpendance des moyennes conditionnelles de Y en fonction des valeurs de X. Ltude de la corrlation de Y avec X se base sur la courbe de rgression de Y selon X et sur la mesure de lintensit de cette corrlation.
Dfinition Corrlation : Une variable Y est dite corrle avec X si la courbe de rgression de Y selon X nest pas une droite parallle laxe des abscisses.
On notera que : labsence de corrlation nest en gnral pas symtrique : X peut tre corrle avec Y sans que Y soit corrle avec X ; si X et Y sont des variables indpendantes, X nest pas corrle Y et Y nest pas corrle X, mais lindpendance nest quun cas particulier dabsence de corrlation.
1.2
Le tableau suivant donne, pour un chantillon de 10 garons de 18 ans prlev dans la population dun lyce, les tailles respectives (exprimes en centimtres), xi et yi, 2 ans et 20 ans :
X 82 82,4 83 84 86 87 88,6 Y 164,1 164,9 166,1 168,1 172,1 174,1 177,3
La rgression
147
X 90 92,5 93
Figure 6.1
Exemple de relation fonctionnelle linaire.
Taille adulte 190 185 180 175 170 165 160 80 85 90 95 Taille 2 ans
Sur la figure 6.1, lalignement des points met en vidence une relation fonctionnelle linaire entre les deux variables. On peut vrifier que, sur cet chantillon, y est une fonc1 tion affine de x : yi = 2xi + 0,1. On notera que, si le modle linaire est fondamental, on ne peut ngliger les autres ajustements : ajustement logarithmique, exponentiel, polynomial, puissance. Le lecteur pourra se familiariser avec ces diffrents modles grce lexemple 6.2 ci-aprs. Il pourra utiliser, dans lassistant graphique dExcel, le sous-menu Ajouter une courbe de tendance , ou se reporter au corrig de lexercice 1, figures 6.6 et 6.7.
Exemple 6.2 Liaison fonctionnelle non linaire
Lexemple qui suit est une illustration de ltonnante loi de Benford qui modlise la frquence dapparition du premier chiffre significatif de donnes statistiques (voir J.-P. Delahaye). On considre un chantillon de 300 pays. On note X le premier chiffre du nombre reprsentant la population de chaque pays (les modalits tant notes xi) et Y la variable dont les modalits notes yi sont les frquences des xi :
X 1 2 3 4 5 Y 0,3010 0,1760 0,1249 0,09691 0,0792
1. Une fonction affine est une fonction dfinie de R dans R par f(x) = ax + b, dont la reprsentation graphique est une droite non verticale.
148
Statistique descriptive
X 6 7 8 9
Figure 6.2
Exemple de relation fonctionnelle non linaire.
Les points de la figure 6.2 ne sont pas aligns, mais le nuage montre lexistence dune liaison non linaire. Y et X sont lies par la relation logarithme dcimal : Y = log(1 + 1 / x).
Labsence de liaison
Dans le cas dun nuage de points diffus et rpartis au hasard, il est possible de conclure labsence de liaison entre les variables X et Y, comme le montre lexemple 6.3.
Exemple 6.3 Absence de liaison
Soit un chantillon de 31 tudiants ayant obtenu les notes X et Y dans deux matires. Le diagramme de dispersion correspondant est propos figure 6.3.
Figure 6.3
Absence de corrlation.
18 16 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 10 11 12 x 13 y
Ce nuage de points sans liens apparents permet de conjecturer une absence de liaison entre les variables. Il ny a pas corrlation entre X et Y.
La rgression
149
Lajustement linaire
En cherchant mettre en vidence une fonction f qui reprsente la liaison statistique entre deux variables X et Y, on se trouve face au problme gnral de linterpolation. La dtermination analytique de f aurait a priori comme seule contrainte de vrifier yi = f(xi), avec Y la variable explique et en faisant abstraction des erreurs dues lchantillon. Dans le cas o le nuage de points a une forme allonge, on prsume un ajustement linaire. La fonction cherche est une fonction affine. Le but est de trouver la meilleure droite qui rsume le nuage de points, ce qui nous amne rsoudre un problme dinterpolation linaire. Pour cela, nous utilisons une proprit importante de la moyenne arithmtique : la moyenne arithmtique dune srie est le nombre le plus proche de cette srie au sens des moindres carrs.
2.1
Dfinitions
On appelle droite de rgression de Y selon x, note DY / x, dtermine par la mthode des moindres carrs, la droite dquation y = ax + b, pour laquelle la somme des carrs des rsidus est minimale.
150
Statistique descriptive
Notons que, graphiquement, la somme des carrs des rsidus reprsente la somme des carrs des carts entre les points du nuage et la droite, carts calculs paralllement laxe des ordonnes dans le cas de la droite de rgression de Y selon x. partir du modle linaire construit, il est possible deffectuer des prvisions. Dans le cas dune liaison linaire avre, une fois dtermine la droite de rgression de Y selon x, on peut lutiliser pour estimer la valeur de y associe une valeur de x appartenant ltendue des valeurs de x retenues dans lchantillon. Dans ce cas, il ny a pas de raison statistique de supposer que le modle linaire puisse se prolonger au-del de lintervalle tudi. Si lon effectue des prvisions en dehors de lintervalle dfini par les valeurs extrmes de x, on peut obtenir des valeurs aberrantes. On pourra sortir de cet intervalle, notamment dans les sries chronologiques, condition davoir des informations sur la stabilit de la liaison linaire.
S est une fonction de deux variables et les mathmatiques nous enseignent que les conditions ncessaires du premier ordre pour avoir un extremum (minimum ou maximum) sont :
S =0 a , cest--dire la nullit des drives partielles premires. S = 0 b
n n S S = 2 xi ( yi axi b) et = 2 ( yi axi b) ; on doit rsoudre le systme : a b i =1 i =1
x
i =1
= nx et
y
i =1
= ny , on obtient :
La rgression
151
n 2 (xi yi axi bxi ) = 0 . La deuxime quation du systme scrit b = y ax , ce qui i =1 ny anx nb = 0 permet de remplacer b par sa valeur dans la premire quation du systme, ce qui
donne :
n
x y
i =1 i
a xi 2 ( y ax ) xi = 0 soit
i =1 i =1 n
x y
i =1 i
a xi 2 nx ( y ax ) = 0 soit
i =1
nCov( X ; Y ) Cov( X ; Y ) a xi 2 nx 2 = xi yi nxy , qui donne : a = = . Nous admetnV ( X ) V (X) i =1 i =1 trons que ces valeurs correspondent bien un minimum.
Les calculs sont similaires pour la droite de rgression de X selon y ; on retiendra donc les : rsultats suivants pour les estimateurs de a et b, nots a et b
DY / x Cov(X ; Y ) Cov(X ; Y ) a ' = V (Y ) a = V (X ) : y = ax + b , avec et D X / y : x = a ' y + b ', avec . b b = y ax '= x a'y
Ces deux droites se coupent au point moyen G. La droite de rgression de X selon y peut tre mise sous forme affine : y = (1 / a)x (b / a), de faon faire apparatre son coefficient directeur : 1 / a.
Exemple 6.4 Calculs de droites de rgression
Le tableau suivant donne les indices du pouvoir dachat (base 100 en 1951) du salaire minimum net, not X, et du salaire moyen, not Y, pour les salaris franais des secteurs priv et semi-public.
Anne 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003
Source : Insee, 2006
X 293 296 296 302,15 311,45 313,93 315,47 321,99 326,41 330,57
Y 329 336 334,35 337,33 340,34 345,76 347,46 349,17 352,25 350,87
Pour calculer les coefficients des droites de rgression, il est ncessaire de calculer les moyennes, les carts-types et la covariance de X et Y. La figure 6.4 propose les calculs intermdiaires ncessaires, raliss sous Excel.
152
Statistique descriptive
Figure 6.4
Calculs pralables sous Excel.
De l, x =
V (x) = V (y) =
Cov(x ; y) =
On dispose donc de tous les lments pour calculer des estimations des paramtres a, b, a et b : a = Cov(x ; y) / V(x) = 92,57 / 162,09 = 0,5711 et b = y ax = 342,25 0,5711 310,7 = 164,80. a ' = Cov(x ; y) / V(y) = 92,57 / 56,66 = 1,6340 et b ' = x a ' y = 310,7 1,6340 342,25 = 248,54.
DY / x : y = 0,5711x + 164,80 . On obtient les droites de rgression : D X / y : x = 1,6340 y 248,54
On peut vrifier que ces deux droites sont scantes au point moyen G. Si nous validons provisoirement lexistence dun lien linaire entre X et Y, les valeurs de x varient dans lintervalle [293 ; 330,57] et cet intervalle est en toute rigueur lintervalle de validit du modle. Si nous relevons une valeur de lindice du pouvoir dachat du salaire minimum x = 305, on peut faire une prvision pour y : y = 0,5711x + 164,80 soit y = 0,5711 305 + 164,80 = 338,99 . De mme, sachant que lindice du pouvoir dachat du salaire minimum en 2005 est x = 341,90, il est possible dutiliser DY / x pour faire une prvision de lindice du = 0,5711 341,9 + 164,8 = 360,06 . pouvoir dachat du salaire moyen en 2005, soit y Cependant, la valeur x = 341,90 est hors de lintervalle de construction du modle dfini par [293 ; 330,57]. Cest pourquoi nous navons pas dinformation sur la fiabilit de cette prvision (en ralit, la vraie valeur est 351,56).
La rgression
153
Les droites de rgression peuvent galement tre construites dans le cas de donnes contenues dans un tableau de contingence. La dtermination de a, b, a et b, coefficients des droites de Y selon x et de X selon y, ncessite les calculs de moyennes, de variances et de la covariance, qui peuvent tre effectus partir des valeurs du tableau de contingence (voir exercice 3). Deux annexes, proposes en fin de chapitre, sont consacres la ralisation dune droite de rgression sous Excel (annexe 6.1), ou tout autre tableur quivalent, et avec une calculatrice graphique, Texas Instrument (annexe 6.2), ou toute autre calculatrice approchante.
2.2
Dcomposition de la variance
= ax + b . La droite de rgression DY / x donne pour estimation de y : y = ax + y ax soit y y = a( x x ) . En remplaant b par sa valeur b = y ax , y y ) = V ( a ( x x ) ) , soit, en utilisant les Calculons la variance des deux membres : V ( y ) = aV ( x x ) = aV ( x ) . Or, a = proprits de la variance : V ( y Cov(x ; y)2 Cov(x ; y ) )= = V (y V x . ( ) V (x) V (x)
2
Reprenons la somme des carrs des erreurs et calculons sa valeur minimale Sm, en remplaant a et b par leurs valeurs :
i )2 = ( yi y a ( xi x ))2 = ( yi y )2 + a2 (xi x )2 2a ( y i y )( xi x ) Sm = ( y i y
i =1 i =1 i =1 i =1 i =1 n n n n n
)+ soit V ( y ) = V ( y
1 n i )2 . ( yi y n i =1
154
Statistique descriptive
1 n i )2 , qui est la moyenne des carrs des carts (compts paralllement laxe ( yi y n i =1 des ordonnes) entre les points du nuage et la droite DY / x. Elle reprsente la variance rsiduelle, note Vr(y). + Vr (y) . Ainsi, Variance totale = Variance explique + Variance rsiduelle, soit V(y) = V(y)
Si la variance rsiduelle est nulle, cela signifie que tous les points du nuage sont sur la droite de rgression, et la variance est entirement explique par la droite de rgression. On pourra utiliser les notations suivantes : somme des carrs totaux :
SCE = ( yi y )2
n i =1 n
et
somme
des
carrs
rsiduels :
n SCR = ( yi yi )2 i =1
avec :
Reprenons les donnes de lexemple 6.4 et calculons les variances explique et rsiduelle laide dExcel (voir figure 6.5).
Figure 6.5
Calcul des variances explique et rsiduelle.
On a : SCE = 528,74, SCR = 37,81 et SCT = SCE + SCR = 566,55. La variance rsiduelle 1 n 37,81 i )2 = est Vr ( y ) = ( yi y = 3,78 et la variance explique par la droite de rgres10 n i =1
)= sion est V ( y 1 n 528,74 ( yi y )2 = = 52,87 , note aussi Ve. La variance totale de y est 10 n i =1
V(y) = 56,65. De l, lquation de lanalyse de variance 56,65 = 52,87 + 3,78. + Vr (y) V(y) = V(y) est vrifie :
On constate avec cet exemple que la variance explique reprsente 52,87 / 56,65, soit environ 93,32 % de la variance totale. Autrement dit : 93,32 % de la variation de Y est explique par la variation de X. Ce rsultat est un bon indicateur de la qualit de la liaison linaire ; nous y reviendrons la section suivante.
La rgression
155
) V (y
r est symtrique par rapport X et Y et est de mme signe que la covariance : un coefficient positif (respectivement ngatif) indique que X et Y varient dans le mme sens (respectivement en sens contraire).
) = r 2V ( y ) , et lquation de La relation entre les variances explique et totale scrit : V ( y
+ Vr (y) scrit alors : V(y) = r 2V ( y ) + Vr(y) soit lanalyse de variance V(y) = V(y) Vr(y) = (1 r) V(y). Les variances tant positives, cette relation prouve que la quantit 1 r reste positive ou nulle, cest--dire que : 1 r 1. Les coefficients directeurs des droites de rgression sont respectivement a (DY / x) et 1 / a Cov ( x ; y ) (y) 1 1 (y) =r et = . On vrifie que a, (DX / y) et nous pouvons crire : a = V (x) a ' r (x) (x) a et r sont de mme signe. Par ailleurs, les droites de rgression sont confondues si et seulement si : a = 1 / a soit r = 1 soit r = 1 ou r = 1.
Dfinition On appelle coefficient de dtermination, not R, le quotient entre la variance explique et la variance totale. On a : R = SCE / SCT.
Proprit
Quelques considrations importantes : Cet indice est compris entre 0 et 1 et mesure la qualit de lajustement de la droite de rgression aux points du nuage. ) , rappor R mesure la part de la variance explique par les droites de rgression, V ( y te la variance totale, V(y) ; ce coefficient de dtermination sexprime souvent en pourcentage.
156
Statistique descriptive
Plus R est grand (proche de 1), plus la variance rsiduelle (inexplique par la droite de rgression) est petite ; cela explique quil est souhaitable davoir un coefficient de dtermination proche de 1 si lon dsire utiliser la rgression pour faire des prvisions. On vrifie par un calcul immdiat : R 2 =
) V (x ) Cov 2 (x ; y ) V ( y = = , ou encore V (x )V ( y ) V ( y ) V ( x )
R = r = a a. Cette dernire expression permet de retrouver r, en tant vigilant sur son signe : r est du signe commun aux deux nombres a et a et on aura donc : r = a a ' si a et a sont positifs et r = a a ' si a et a sont ngatifs.
En valeur absolue, le coefficient de corrlation est suprieur ou gal au coefficient de dtermination. En effet, 1 r 1, et 0 r 1 ; or, la racine carre dun nombre compris entre 0 et 1 est suprieure ou gale ce nombre. On en dduit que r R 2 .
Exemple 6.6 Calculs des coefficients de corrlation linaire et de dtermination
Prolongeons lexemple 6.5 en conclusion duquel nous avions montr que la variance explique reprsente 52,87 / 56,65 soit environ 93,32 % de la variance totale, autrement dit que 93,32 % de la variation de Y est explique par la variation de X. Ce rsultat est ) 52,87 V (y retrouv en calculant R 2 = = = 93,32 % . V ( y ) 56,65 Ou encore, partir des rsultats de lexemple 6.4 :
R2 = Cov 2 (x ; y ) 92,57 = = 93,32 % , ou R = a a = 0,5711 1,6340 = 0,9332. V (x) V ( y) 162,09 56,65 a a ' = 0,9332 = 0,9660 .
La rgression
157
Labsence de corrlation linaire ne signifie pas labsence de lien. Il peut exister une liaison fonctionnelle autre que linaire (parabolique, exponentielle). Le nombre dobservations utilises pour dterminer le coefficient de corrlation est trs important. Le coefficient de corrlation est gnralement calcul partir dun chantillon de taille n extrait de la population totale et ne donne quune estimation ponctuelle du coefficient de corrlation inconnu, not , de la population totale.
2.3
Focus 6.1
La loi de Student
La loi de Student est due William Sealy Gosset (1876-1937), statisticien, employ de la clbre brasserie Guinness. Student tait son pseudonyme. Si Z et X dsignent deux variables alatoires indpendantes suivant respectivement la loi normale centre rduite Z , appele le t et la loi du khi-deux n degrs de libert, la variable alatoire Tn = X /n de Student, suit la loi de Student n degrs de libert. La courbe reprsentative de sa densit est symtrique par rapport laxe des y et en forme de cloche comme celle de la loi normale. Cette loi est tabule en fonction du nombre de degrs de libert, not en gnral , et de la probabilit ; on note t ; la valeur de t ayant la probabilit dtre dpasse. On notera que, dans le cas dun test bilatral, pour un seuil de signification de 5 %, on devra prendre / 2 = 2,5 %, de faon avoir : P(t / 2 ; n 2 Tn t / 2 ; n 2) = 0,95. La loi de Student est trs utile pour caractriser la loi de la moyenne empirique dune distribution normale de variance inconnue. Quand le nombre de degrs de libert augmente, T se rapproche de la loi normale centre rduite. Posons t / 2 ; n 2 la valeur de T donne par la table de Student telle que P(t / 2 ; n 2 T t / 2 ; n 2) = 1 et le coefficient de corrlation linaire de la population totale.
158
Statistique descriptive
Tester lexistence ventuelle dune corrlation linaire entre X et Y au sein de la population ncessite de passer par les tapes suivantes : 1. Formuler les hypothses tester :
H0 : = 0 (absence de corrlation linaire) ; H1 : 0 (prsence de corrlation linaire).
2. Dterminer le degr de libert : n 2. 3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de signification et du degr de libert :
Si T t / 2 ; n 2 ou si T t / 2 ; n 2, lhypothse H0 est rejete et lhypothse H1 est
conclure de faon significative lexistence dune corrlation linaire entre les variables.
Exemple 6.7 Test du coefficient de corrlation linaire
Reprenons les donnes de lexemple 6.4. n = 10 et la droite de rgression ncessite destimer deux paramtres. Donc le degr de libert est 10 2 = 8. Par ailleurs, partir de ces mmes donnes, nous avons calcul r = 0,9660 (voir exemple 6.6). Nous noterons tc la valeur de t calcule sur lchantillon. On a r n2 0,9660 8 tc = = = 10,57 et la table de Student donne t0,025 ; 8 = 2,3060. 2 1r 1 0,96602 Puisque 10,57 2,3060, soit tc t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre x et y.
La rgression
159
estim par : 2 ( a ) =
SCR
(n 2 ) ( xi x )
i =1
Tester lhypothse H0 : a = 0 revient tester le paralllisme de la droite de rgression de Y selon x avec laxe des x et donc tester la nullit du coefficient de corrlation. 1. Les hypothses tester :
H0 : a = 0 (absence de corrlation linaire) ; H1 : a 0 (prsence de corrlation linaire).
2. Dterminer le degr de libert : n 2. 3. Dfinir la rgle de dcision du test partir de la valeur t / 2 ; n 2 dpendant du seuil de signification et du degr de libert.
Si t t / 2 ; n 2 ou si t t / 2 ; n 2, lhypothse H0 est rejete en faveur de lhypothse
alternative H1 : a 0.
Si t / 2 ; n 2 t t / 2 ; n 2, lhypothse H0 nest pas rejete. Exemple 6.8 Test de student sur le paramtre a (pente de DY / x)
1 n 37,81 ( yi yi )2 = = 4,7263 et n 2 i =1 8
S 2Y / x
(x
i =1
x)
4,7263 et 1620,9
(a ) =
t0,025 ; 8 = 2,3060, ce qui donne pour intervalle de confiance pour a, au seuil de signification de 5 % : 0,5711 2,3060 0,0029, soit [0,5644 ; 0,5778]. tc > t0,025 ; 8, donc on doit rejeter lhypothse H0 et conclure lexistence dune relation linaire entre X et Y. Si on utilise lintervalle de confiance, on aura la mme conclusion, car il ne recouvre pas la valeur 0, ce qui signifie quau niveau de confiance 95 % a est diffrent de 0.
160
Statistique descriptive
()
b =
x
i =1 n i =1
i
2
n ( xi x )
SY / x 2 .
Focus 6.2
La loi de Fisher
La comparaison de deux populations normales peut porter sur leurs variances. Pour tester lhypothse dgalit de deux variances, on utilise la distribution du quotient de deux variances, appele distribution de Fisher ou de Fisher-Snedecor. Si 1 et 2 sont deux variables alatoires indpendantes, suivant chacune la loi du Khi-deux avec respectivement 1 et 2 pour degrs 2 2 de libert, la variable alatoire F = (1 / 1) / (2 / 2) suit la loi de Fisher 1 et 2 degrs de libert. Cette loi est dissymtrique et tend vers la loi normale mesure que les degrs de libert augmentent. Cette loi est tabule, ses valeurs dpendant du seuil de signification et des degrs de libert, et on a : P(F > F( ; 1, 2)) = .
2 2
1. Voir P. Roger.
La rgression
161
Exemple 6.9
Test de Fisher
SCE SCR
n 2 par ailleurs, le F de la table est : F(0,05 ; 1, 8) = 5,32. Fc > F(0,05 ; 1, 8), donc H0 est rejete et on conclut lexistence dune relation linaire (tester H0 revient tester a = 0).
3
3.1
Soit la relation non linaire y = b x . En prenant le logarithme de cette expression, a lny = ln(b x ) = lnb + a lnx, soit avec B = lnb ; Y = lny ; X = lnx, cette relation non linaire est quivalente la relation linaire Y = a X + B.
a
Modle logistique : ce modle est dfini par y = k/(1 + a exp(b x)) et peut tre ramen un modle linaire. Ce modle a t introduit par Pierre Franois Verhulst (1804-1849), lve de Quetelet, lors de ltude de lvolution dune population qui crot exponentiellement au dbut puis se stabilise, freine par un phnomne de surpopulation (saturation), pour tendre vers sa capacit maximale. Ce modle est utilis notamment pour le traitement des sries chronologiques (voir chapitre 7).
162
Statistique descriptive
3.2
Dfinition
Soit deux caractres X et Y. Soit di la diffrence des rangs de lobservation i pour les deux variables. On appelle coefficient de corrlation des rangs (coefficient de Spearman), not rs, entre les variables X et Y, le nombre dfini par : rs = 1
6 d i 2
i =1 n
) n(n 1
Soit R(xi) le rang de la modalit xi et R(yi) le rang de la modalit yi. di = R(xi) R(yi). Le coefficient de Spearman est le coefficient de corrlation linaire de la srie bivarie (R(xi) ; R(yi)). La simplicit de la formule donne dans la dfinition vient du fait que R(xi) et R(yi) prennent les valeurs entires de 1 n. Par dfinition, ce coefficient est compris entre 1 et 1 et constitue un outil prcieux pour dtecter une liaison. Il a lavantage de ne pas tre influenc par des valeurs aberrantes et de ne pas tre tributaire de lallure de la liaison ventuelle (linaire, exponentielle, etc.).
Rsum
Lors de ltude du lien entre deux variables, la notion de corrlation est extrmement importante. Il importe de dominer la technique de la mthode MCO, de connatre les formules, de savoir utiliser efficacement une calculatrice statistique et de rester prudent dans les interprtations. Le lecteur doit, lissue de ce chapitre, pouvoir mener bien les calculs de lanalyse de la variance. Par ailleurs, il doit matriser les diffrents tests et la lecture des tables. Dans le chapitre suivant nous aborderons les sries chronologiques, qui sont des sries bivaries dont une des variables est le temps. Pour analyser la tendance de ces sries, nous utiliserons les rsultats incontournables de ce chapitre.
La rgression
163
Problmes et exercices
Lanalyse de rgression fournit une seconde approche des sries bivaries, qui autorise lapprofondissement des liaisons tudies au sein des tableaux de contingence. Les exercices 1 et 2 proposent lapplication des calculs indispensables la dtermination dune quation de rgression linaire incluant ltude de la qualit de la rgression et la ralisation de prvisions. Lexercice 3 met en uvre ces mmes calculs partir de donnes prsentes sous la forme dun tableau de contingence. Les exercices 4 et 5 abordent respectivement les analyses de rgression et de corrlation dans le cas de sries lies par une relation non linaire.
Languedoc-Roussillon 3 305 Limousin Lorraine Midi-Pyrnes Nord-Pas-de-Calais Pays de la Loire 1 124 2 672 3 610 3 817 3 778
164
Statistique descriptive
Rgion Picardie
6 957
On note respectivement X et Y les variables nombre daccidents corporels et nombre de tus . 1. Dessinez le nuage de points reprsentant cette srie. 2. tablissez lquation de la droite de rgression de Y selon x, qui permet dexpliquer le nombre de tus par le nombre daccidents corporels. 3. Donnez lquation de lanalyse de la variance. 4. Calculez : a. le coefficient de corrlation linaire ; b. le coefficient de dtermination. 5. Calculez : a. lcart-type du coefficient a ; b. lcart-type du coefficient b. 6. Effectuez les tests : a. de signification du coefficient de corrlation linaire ; b. de Student sur les coefficients a et b ; c. de Fisher.
1. Pour reprsenter le nuage de points sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-type de graphique, slectionnez limage Nuage de points. Compare des paires de valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir chapitre 1, exercice 5).
La droite de rgression de Y selon X peut tre ajoute au nuage de points. Pour cela, une fois le nuage de points effectu, slectionnez tous les points du graphique en cliquant sur lun dentre eux, puis cliquez sur le bouton droit de la souris et slectionnez Ajouter une courbe de tendance . La bote de dialogue de la figure 6.6 apparat :
La rgression
165
Figure 6.6
Ajout dune courbe de tendance un nuage de points.
Slectionnez Linaire, puis cliquez sur longlet Option (voir figure 6.7).
Figure 6.7
Affichage de lquation de rgression et du R sur un nuage de points.
Cochez les cases Afficher lquation sur le graphique et Afficher le coefficient de dtermination (R) sur le graphique, puis cliquez sur OK (voir figure 6.8).
Figure 6.8
Nuage de points entre X et Y, avec courbe de tendance sous Excel.
y 600 500 400 300 200 100 0 0 1 000 2 000 3 000 4 000 5 000 6 000 7 000 x 8 000 y = 0,066x + 45,57 R = 0,856
166
Statistique descriptive
Lquation de la droite de rgression de Y selon x est indique, ainsi que la valeur du R. Nous allons retrouver ces rsultats en rpondant aux questions suivantes.
2. La droite de rgression qui permet dexpliquer le nombre de tus par le nombre daccidents corporels correspond la droite de rgression de Y selon x. Pour tablir lquation de cette droite de rgression, il convient de dterminer les valeurs de a et b dans lquation y = ax + b.
x y
i =1 i
Les moyennes de X et de Y ainsi que la variance de X peuvent tre calcules en utilisant les fonctions dExcel correspondantes, puisque les donnes sont des donnes brutes, avec ni = 1 quel que soit i. Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P dExcel (voir annexe 1.1), ou bien deffectuer les calculs comme expos prcdemment (voir chapitres 2 et 3). Les rsultats de ces calculs sont indiqus figure 6.9.
Figure 6.9
Rsultats sous Excel.
De l, a =
x y
i =1 i
20
ny . x =
nV (x)
Lquation de la droite de rgression de Y selon x est donc : y = 0,0667 x + 45,57. Ce rsultat est conforme lquation de la courbe de tendance linaire propose par lassistant graphique dExcel (voir question 1).
3. Afin de donner lquation de lanalyse de la variance, il convient de calculer la somme des carrs totaux (SCT), la somme des carrs expliqus (SCE) et la somme des carrs rsiduels (SCR).
Le calcul de la somme des carrs expliqus (SCE) ncessite au pralable le calcul de la valeur de Y estime par la droite de rgression, telle que yi = 0,0667 xi + 45,57 . Ces
La rgression
167
calculs sont effectus la suite du tableau prcdent (voir figure 6.9) et les rsultats de ces calculs sont indiqus figure 6.10.
Figure 6.10
Rsultats sous Excel.
De l, SCT = 205 106 ; SCE = 175 575 et SCR = 29 531. Lquation de lanalyse de variance SCT = SCE + SCR est vrifie, puisque 205 106 = 175 575 + 29 531.
4. a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre X et Y et les carts-types de X et de Y.
COV (x ; y) = 14 142 763 2 615,85 220 , soit Cov(x ; y) = 131 651,15. 20
V(x),
calcule
prcdemment,
soit
De mme, lcart-type de Y est la racine de V(Y). V(Y) est calcul en utilisant la fonction VAR.P dExcel (voir annexe 1.1) ou la mthode expose prcdemment (voir chapitres 2 et 3). On trouve : V(Y) = 10 255,30, soit 10 255,30 = 101, 27 . Do y = 101,27. On obtient alors : r = , soit r = 0,925. Il existe a priori une = 1 405,1 101,27 x y forte corrlation linaire positive entre X et Y, la droite de rgression calcule est une bonne reprsentation du nuage de points.
Cov(x ; y) 131 651,15
b. Le coefficient de dtermination est le carr du coefficient de corrlation linaire, donc R = 0,925, soit R = 0,856.
R reprsente la part de variabilit explique sur la variabilit totale, on vrifie que : SCE 175 575 = = 0,856 = R . SCT 205106
168
Statistique descriptive
(x
i =1
39 486 235,55 2 = 0,0000415 b. partir des calculs prcdents, b + 2 615,85 , soit 20 2 2 b = 366,33 ; do b = 19,14.
= 7,593 et la table de 1 r 1 0,8562 Student donne t0,025 ; 18 = 2,445. Puisque 7,593 2,445, soit T t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre le nombre daccidents corporels et le nombre de tus.
2
r n 2
0,925 20 2
Le tthorique peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et Degrs_libert = 18. Cette fonction est similaire dans son utilisation celle rencontre pour la lecture de la table de la loi du khi-deux dans lexercice 5 du chapitre 5. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 7,593 (le Student calcul), Degrs_libert = 18 et Uni/bilatral = 1. a 0,0667 b. la suite des calculs prcdents, t a = = , soit ta = 10,345 et 0,00645 b 45,57 = , soit tb = 2,381. tb = b 19,14 ta et tb sont tous deux suprieurs au tthorique = t(0,025 ; 8) = 2,101 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 18 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,029) sont toutes deux infrieures 5 %. (Pour un rappel sur les tests dhypothses, voir focus 5.1.) Le test de Student pour le coefficient a de la rgression permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression permet de conclure que la valeur de b est significativement diffrente de 0. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 10,345 pour a et X = 2,381 pour b (le Student calcul), Degrs_libert = 18 et Uni/bilatral = 2.
c. la suite des calculs prcdents, Fc =
175 575,37 1 = 1 , soit F = 107,02 . c 29 230,63 SCR 18 18 SCE
La rgression
169
Fc est suprieur au F(0,05 ; 1, 18) = 4,414 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1 et ddl2 = n 2 = 18 degrs de libert. On trouve donc Fc > F(0,05 ; 1, 18). On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y. Le F(1 ; 18)thorique est disponible sous Excel en appelant la fonction statistique INVERSE.LOI.F et en saisissant les arguments suivants : Probabilit = 0,05, Degrs_libert1 = 1 et Degrs_libert2 = 18. La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.F et en saisissant les arguments suivants : X = 107,02 (le Fisher calcul), Degrs_libert1 = 1 et Degrs_libert2 = 18.
1. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la droite de rgression y = ax + b qui permet dexpliquer le PIB en fonction de la consommation. 2. Calculez les indicateurs de qualit de la rgression : a. le coefficient de dtermination et le test associ ; b. les tests de Student ; c. le test de Fisher. 3. En stimulant la consommation pour lui permettre datteindre 1 400 milliards deuros, quel niveau de PIB peut sattendre le gouvernement ? 4. En utilisant la mthode des moindres carrs ordinaires, tablissez lquation de la droite de rgression x = ay + b qui permet dexpliquer la consommation en fonction du PIB. 5. Estimez la consommation correspondant un PIB de 1 600 milliards deuros.
170
Statistique descriptive
1. Expliquer le PIB en fonction de la consommation des mnages selon la droite de rgression y = ax + b ncessite de poser X = consommation et Y = PIB .
Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les valeurs de a et b dans lquation. Pour cela, il est ncessaire de calculer les valeurs de x ,
y , V(x) et
x y
i =1 i
Saisissez les valeurs de X, la consommation, dans la colonne L1 et celles de Y, le PIB, dans la colonne L2, comme indiqu figure 6.11. Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de statistiques sur les variables X et Y, respectivement contenues dans L1 et L2, sinscrivent (voir figure 6.12).
Figure 6.11 (gauche)
Saisie du tableau de donnes avec la calculatrice.
De l, a =
x y
i =1 i
ny . x =
10 859,81 , soit r = 0,999, soit R = 0,997. Il existe une forte corrlation 94,653 114,886 linaire positive entre X et Y.
De l, r =
= 30,633 et la table de Student donne t0,025 ; 5 = 3,163. Puisque 1 r 1 0,9972 30,633 3,163, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire hautement significative entre X et Y.
2
t=
r n2
0,999 7 2
La rgression
171
b. Afin de raliser les tests de Student, les variables suivantes sont calcules (voir figure 6.13) :
i . Pour cela, placez le curseur sur len-tte de En L4 sont calculs les y estims, nots y colonne L4, indiquez L4=1,212*L1+215,52, puis appuyez sur ENTER. En L5 sont calculs les ( y yi ) . Pour cela, placez le curseur sur len-tte de colonne L5, indiquez L5=(L4L2)^2, puis appuyez sur ENTER.
En L6 sont calculs les (xi x) . Pour cela, placez le curseur sur len-tte de colonne L6, indiquez L6=(L11148,31)^2, puis appuyez sur ENTER. Pour obtenir les calculs intermdiaires ncessaires partir des variables nouvellement cres, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L5,L6 puis appuyez nouveau sur ENTER. Les statistiques sur les variables ( y yi ) et (xi x) , respectivement contenues dans L5 et L6, sinscrivent (voir figure 6.14).
Figure 6.13 (gauche)
Calculs dans L4, L5 et L6 avec la calculatrice.
62 714,189 2 = 1040,71 ; do = 32,26. + 1148,31 , soit b b 7 a 1,212 b 215,52 ta = = , soit ta = 43,293 et t b = = , soit tb = 6,681. 0,028 a 32,26 b
ta et tb sont tous deux suprieurs au tthorique = 2,571 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 5 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,001) sont toutes deux infrieures 5 %. (Pour un rappel sur les tests dhypothses, voir focus 5.1.) Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0.
172
Statistique descriptive
i y) sont calcules en L7 (voir figure 6.15). c. Afin de raliser le test de Fisher, les ( y Pour cela, placez le curseur sur len-tte de la septime colonne, et, aprs lavoir nomme L7, indiquez L7=(L41607,44)^2, puis appuyez sur ENTER. i y) , appuyez sur la touche STAT, puis choisissez le Pour obtenir la somme des ( y menu CALC et slectionnez la fonction 1:1-Var Stats. Puis appuyez sur ENTER. Tapez 1Var Stats LL7 (ne pas taper L7, mais lappeler dans la liste de noms des variables : 2ND LIST, menu NAMES, slectionner 7:L7) puis appuyez nouveau sur ENTER. Les i y) , contenues dans L7, sinscrivent (voir figure 6.16). statistiques sur la variable ( y
Fc est suprieur au F(0,05 ;1, 5) = 6,608 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 5 degrs de libert. On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y.
3. En appliquant lquation y = 1,212 x + 215,52 pour une consommation x = 1 400, y = 1,212 1 400 + 215,52, soit y = 1 912,32. Pour une consommation de 1 400 milliards deuros, le gouvernement peut sattendre un PIB de 1 912,32 milliards deuros.
4. La droite de rgression qui permet dexpliquer la consommation en fonction du PIB est telle que x = ay + b.
x y
ny . x
La rgression
173
Pour tablir lquation de la droite de rgression y = ax + b, il convient de dterminer les valeurs de a et b dans cette quation. Pour cela, il est ncessaire de calculer les valeurs de x , y , V(x) et Cov(x ; y). Ces valeurs sont calcules selon les tapes dtailles au chapitre 5 (voir figure 6.17).
Figure 6.17
Rsultats sous Excel.
De l, x =
y= 1 n++
2
1 n++
+j
n
i =1
i+
xi =
n
i =1
yj =
V (x) =
1 n++
ni + xi 2 x 2 =
i =1
Cov(x ; y) =
1 n++
n x y
j =1 i =1 ij i
Do DY / x : y = 0,3669 x + 53,60.
174
Statistique descriptive
1. Reprsentez le nuage de points entre X et Y. 2. Effectuez lajustement qui permet dexpliquer Y selon x, par la relation : Y = B A .
X
3. Calculez les indicateurs de qualit de la rgression : a. le coefficient de dtermination et le test associ ; b. les tests de Student ; c. le test de Fisher. 4. Quel est le taux instantan de mortalit dun individu de 70 ans ?
1. Soit X : ge et Y : taux instantan de mortalit . Pour reprsenter le nuage de points sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-
La rgression
175
type de graphique, slectionnez limage Nuage de points. Compare des paires de valeurs . Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir chapitre 1, exercice 5).
Figure 6.18
Nuage de points entre X et Y sous Excel.
Y 0,040 0,035 0,030 0,025 0,020 0,015 0,010 0,005 45 50 55 60 65 X 70
Le graphique de la figure 6.18 voque une croissance de type exponentiel. Une croissance X exponentielle se traduit par une quation du type Y = B A , soit, en passant aux logarithmes npriens : LnY = LnB + X LnA, en posant y = LnY, b = LnB et a = LnA : y = ax + b, ce qui quivaut une liaison linaire entre x et y. On peut tester graphiquement cette hypothse, en reprsentant le nuage dans un graphique semi-logarithmique (lchelle des ordonnes est logarithmique, lchelle des abscisses reste identique). Lalignement des points valide lhypothse de liaison linaire entre x et y (voir figure 6.19).
Figure 6.19
Graphique semilogarithmique.
0,100 y 1,000
0,010
0,001 45 50
X
X 55 60 65 70
2. Afin de rapporter la relation Y = B A une quation de droite, il est ncessaire de procder au changement de variables en passant aux logarithmes npriens, comme indiqu dans la question 1 : LnY = LnB + X LnA, en posant y = LnY, b = LnB et a = LnA : y = aX + b. La relation est linaire, il est donc possible de procder lestimation de la droite de rgression par la mthode des moindres carrs ordinaires.
Lapplication du changement de variables sur les valeurs de Y est ralise dans la colonne D. Puis lensemble des calculs ncessaires lestimation de la droite de rgression est effectu partir des valeurs calcules de X et de y (voir figure 6.20).
176
Statistique descriptive
Figure 6.20
Rsultats sous Excel.
De l, a =
X y
i =1 i
17
nXy =
nV ( X )
Do lquation de rgression de y selon X : y = 0,0871 X 9,12. En effectuant le changement de variables qui permet de revenir la relation initiale : 9,12 0,0871X 0,0871X b = lnB B = e b et a = lnA A = e a , do Y = e e , soit Y = 0,000109 e .
3. Les indicateurs de qualit de la droite de rgression sont calculs pour lquation de la droite de rgression y = 0,0871 X 9,12. La qualit de cette droite conditionne la qua0,0871X lit de lestimation non linaire Y = 0,000109 e .
a. Le calcul du coefficient de corrlation linaire ncessite de calculer la covariance entre x et y et les carts-types de x et de y.
COV (X ; y) = 3 981,95 58 (4,075) , soit COV(X ; y) = 2,089. 17 24 = 4,899 . Do
De mme, lcart-type de y est la racine de V(y). V(y) est calcule en utilisant la fonction VAR.P dExcel (voir annexe 1.1). Elle peut galement ltre selon la mthode expose prcdemment (voir chapitres 2 et 3). V(y) = 0,182 ; soit 0,182 = 0,426 . Do y = 0,426.
2,089 , soit r = 0,99996, soit R = 0,99992. Il existe une forte corrla4,899 0, 426 tion linaire positive entre X et y.
De l, r =
La rgression
177
Do T =
= 302,08 et la table de Student donne t0,025 ; 15 = 2,49. 1 r 1 0,999922 Puisque 302,08 2,49, soit t t / 2 ; n 2, il faut rejeter lhypothse H0. Il y a donc une corrlation linaire significative entre X et y.
2
r n 2
0, 99996 17 2
Le tthorique est disponible sous Excel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,025 et Degrs_libert = 15. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 302,08 (le Student calcul), Degrs_libert = 15 et Uni/bilatral = 1.
b. Afin de raliser les tests de Student, les calculs intermdiaires suivant sont raliss. Figure 6.21
Rsultats sous Excel.
(y
i =1
yi ) et de
(x
i =1
figure 6.21).
2 = De l, a
2 = 4,15E-08 b
408 2 = 0,000141 ; do = 0,01186. + 58 , soit b b 17 a 0,0871 b 9,12 ta = = , soit ta = 427,195 et t b = , soit tb = 769,205. = 0,00020 a b 0,01186
ta et tb sont tous deux suprieurs au tthorique = 2,131 obtenu par lecture de la table de Student, avec une probabilit de 0,05 ( = 5 %) et n 2 = 15 degrs de libert. De plus, toujours par lecture de la table statistique, la probabilit associe ta (p = 0,000) et celle associe tb (p = 0,000) sont toutes deux infrieures 5 %.
178
Statistique descriptive
Le test de Student pour le coefficient a de la rgression linaire permet de conclure que la valeur de a est significativement diffrente de 0. De mme, le test de Student pour le coefficient b de la rgression linaire permet de conclure que la valeur de b est significativement diffrente de 0. Le tthorique est disponible sous Excel en appelant la fonction statistique LOI.STUDENT.INVERSE et en saisissant les arguments suivants : Probabilit = 0,05 et Degrs_libert = 15. La probabilit de Student associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.STUDENT et en saisissant les arguments suivants : X = 427,195 pour a et X = 769,205 pour b (le Student calcul), Degrs_libert = 15 et Uni/bilatral = 2. c. La dtermination du Fisher ncessite le calcul de SCE = cellule G11 (voir figure 6.21).
Fc = 3,09 1 = 1 , soit F = 182 495,41. c 0,0003 SCR 15 15 SCE
(y
i =1 n i
y) , effectu dans la
Fc est suprieur au F(0,05 ; 1, 15) = 4,543 obtenu par lecture de la table de Fisher, avec une probabilit de 0,05 ( = 5 %), ddl1 = 1et ddl2 = n 2 = 15 degrs de libert. On rejette donc H0 au seuil de signification 5 % et lon conclut lexistence dune relation linaire entre X et Y. Le F(0,05 ;1, 15) est disponible sous Excel en appelant la fonction statistique INVERSE.LOI.F et en saisissant les arguments suivants : Probabilit = 0,05, Degrs_libert1 = 1 et Degrs_libert2 = 15. La probabilit de Fisher associe peut sobtenir laide dExcel en appelant la fonction statistique LOI.F et en saisissant les arguments suivants : X = 182 495,41 (le Fisher calcul), Degrs_libert1 = 1 et Degrs_libert2 = 15. afin de raliser une prvision 4. Nous utilisons lquation initiale Y = 0,000109 e 0,0871 70 = 0,0483. partir de la valeur X = 70. Ainsi, Y = 0,000109 e
0,0871X
La rgression
179
Observation tudiant 5 tudiant 6 tudiant 7 tudiant 8 tudiant 9 tudiant 10 tudiant 11 tudiant 12 tudiant 13 tudiant 14 tudiant 15
Partiel 2 8 9 3 15 13 1 10 14 12 5
Examen 1 8 4 2 15 6 12 13 9 10 3
Posons X : rang au partiel et Y : rang lexamen . Calculons chacune des distances entre le rang dun tudiant au partiel et son rang lexamen : di = xi yi. Saisissez les valeurs de X, le rang au partiel, dans la colonne L1 et celles de Y, le rang lexamen, dans la colonne L2. Pour obtenir les (xi yi) dans la colonne L3, placez le curseur sur len-tte de colonne L3, puis indiquez L3=(L1L2)^2. Puis appuyez sur ENTER. Le rsultat de ces oprations est propos figure 6.22.
Figure 6.22 (gauche)
Saisie des donnes et calcul des distances avec la calculatrice.
Appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 1:1Var Stats. Puis appuyez sur ENTER. Tapez 1-Var Stats L3 puis appuyez nouveau sur ENTER. Les statistiques sur la variable di, contenue dans L3, sinscrivent (voir figure 6.23).
6 266 , soit rs = 0,525. Il existe un lien entre le rang dun 15 (15 1) i =1 tudiant au partiel et son rang lexamen, mais ce lien nest pas trs fort.
15
2 i
= 266, donc rs = 1
180
Statistique descriptive
Bibliographie
BAILLARGEON G., Mthodes statistiques de lingnieur, SMG, 1990. BLUMENTHAL S., Statistiques appliques, ditions dOrganisation, 1989. BOWKER A.H. et LIEBERMAN G.J., Mthodes statistiques de lingnieur, Dunod, 1965. BOREL E., DELTHEIL R. et HURON R., Probabilits. Erreurs, Armand Colin, 1960. CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DARMOIS G., Statistiques et applications, Armand Colin, 1952. DELAHAYE J.-P., Ltonnante loi de Benford , Pour la science, janvier 2007 DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DODGE Y., Premiers pas en statistique, Springer, 2006. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. GELLER S., Abrg de statistique, ditions Masson, 1979. GRENON G. et VIAU S., Mthodes quantitatives en sciences humaines, Gatan Morin, 1999. HAUCHECORNE B., Les mots et les maths, Ellipses, 2003. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. LEGRIS G., Statistiques pour conomistes, Economica, 1987. ROGER P., Probabilits, statistique et processus stochastiques, Collection Synthex, Pearson Education, 2004. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. TINTNER G., Mathmatiques et statistiques pour les conomistes, Dunod, 1962.
La rgression
181
Une fois le masque de dialogue rempli, ne cliquez pas sur OK : tenez enfonces en mme temps les touches Ctrl et Shift tout en appuyant sur ENTRE. Cette procdure permet laffichage matriciel des rsultats dans les 10 cellules slectionnes prcdemment (voir figure 6.25).
Figure 6.25
Rsultat de la fonction DROITEREG sous Excel.
182
Statistique descriptive
Ces rsultats numriques correspondent aux indicateurs suivants, en respectant lordre des lignes et des colonnes de la figure 6.25 :
a a r F SCT b b
y
ddl SCR
La rgression
183
1. Prsentation de la srie chronologique....................186 2. Agrgation des composantes......................197 Problmes et exercices 1. Mthode empirique et modle additif ................204 2. Mthode empirique et modle multiplicatif.........207 3. Mthode analytique et modle additif ................210 4. Mthode analytique et modle multiplicatif.........214
Parmi les sries doubles, certaines mritent dtre traites part : celles qui dcrivent lvolution dun phnomne par rapport au temps, et que lon nomme sries temporelles, chronologiques ou encore chroniques. Nous traiterons ici des sries doubles dont le premier caractre est le temps et dont le deuxime caractre est quantitatif. Lanalyse des sries chronologiques est fonde sur lexistence dune corrlation entre le caractre tudi et le temps. Ces sries interviennent dans des domaines aussi varis que lastronomie, la dmographie, lconomie, lhistoire, etc. Ainsi que lindique Jean-Marie Dufour dans son article 1 intitul Histoire de lanalyse des sries chronologiques , cest en astronomie que sont apparues les premires sries chronologiques.
1. http://www.fas.umontreal.ca/SCECO/Dufour. Jean-Marie Dufour est titulaire de la chaire de recherche en conomtrie luniversit de Montral au Canada.
185
Daprs Kendall, le plus ancien graphique connu dune srie chronologique se trouve e e dans un manuscrit du X ou du XI sicle et reprsente linclinaison des orbites de sept plantes en fonction du temps ; il est reproduit figure 7.1. Figure 7.1
Graphique chronologique.
Source : Funkhauser (1936)
Lobjectif de ltude dune srie chronologique est de mettre en vidence lvolution passe dune variable statistique et sous certaines conditions dextrapoler cette volution afin deffectuer des prvisions court terme. Lanalyse des sries chronologiques consistera mettre en vidence leurs quatre composantes : une composante tendancielle, une composante cyclique, une composante saisonnire et une composante accidentelle (bruit). Cette dcomposition a t propose 1 en 1919 par le statisticien Warren Persons . Nous mettrons en vidence lexistence de deux modles de composition de ces composantes : le modle additif et le modle multiplicatif. Pour faire apparatre la composante tendancielle (appele le trend), nous utiliserons la mthode MCO ou les moyennes mobiles.
Dfinition
On appelle srie chronologique, ou srie temporelle, une suite dobservations chiffres dun caractre quantitatif Y, ordonnes dans le temps. La valeur prise par la variable Y la date t est note yt.
1. Warren Persons (1878-1937) a dvelopp un indicateur de la conjoncture conomique, connu sous le nom de baromtre de Harvard.
186
Statistique descriptive
Avant toute analyse, nous reprsenterons les donnes par une courbe exprimant la continuit de lvolution de la variable tudie. Nous supposerons que les dates dobservation sont quidistantes (mois, trimestres, annes) et nous les reprsenterons par les entiers naturels non nuls : 1, 2, 3
1.1
Exemple 7.1
Le tableau suivant donne les indices trimestriels de stocks de matires en valeur des industries agricoles et alimentaires (IAA) :
1 er trimestre 2004 2005 2006
Source : Insee, 2007
La srie sera ainsi reprsente par le graphique de la figure 7.3. Pour mettre en vidence une ventuelle variation priodique, ou une saisonnalit de la srie, on ralise une reprsentation superpose des donnes, qui permet, dans notre exemple, de mettre en vidence le caractre propre de chaque trimestre (voir figure 7.4).
187
Figure 7.3
Reprsentation graphique de la srie chronologique des indices trimestriels IAA.
yt
t 10 11 12 13
Figure 7.4
Reprsentation superpose des donnes dindices trimestriels IAA.
t 5
yt
yt = 0,6654 t+103,92
t 9 10 11 12 13
On reprsente souvent les sries chronologiques par un graphique polaire sinspirant de certains thermomtres enregistreurs, qui utilisent une feuille enroule sur un cylindre permettant de visualiser rapidement la temprature tous les jours dune semaine la mme heure. Excel ne permet pas de raliser un graphique polaire, mais propose un graphique approchant, nomm Radar , dont la figure 7.5 donne la reprsentation.
188
Statistique descriptive
Figure 7.5
Graphique Radar des indices trimestriels IAA.
2e T 116 114 112 110 108 106 104 102 100 98 3e T 96 1er T
1.2
LES COMPOSANTES
Les fluctuations dune srie chronologique sont le fruit de la composition de plusieurs composantes. Nous avons repris ici lexemple 7.1 auquel nous avons ajout la droite de tendance calcule par la mthode MCO sous Excel.
Figure 7.6
Srie chronologique et trend.
yt
yt = 0,665+103,9
t 9 10 11 12 13
La droite de rgression de Y en t reprsente la composante tendancielle de cette srie chronologique. Elle exprime son mouvement de longue dure. La srie est le rsultat de la superposition de deux autres composantes cette composante fondamentale.
Dfinitions On appelle tendance ou composante gnrale ou composante extra-saisonnire dune srie chronologique sa tendance gnrale. Cette tendance gnrale (dite sculaire) exprime une tendance durable la croissance (mouvement de longue dure ascendant) ou la dcroissance (mouvement de longue dure descendant). On dcompose parfois cette composante tendancielle en deux lments : la tendance long terme et une composante priodique appele cycle. Le mouvement cyclique rsulte de la succession de priodes dexpansion et de dpression. La reprise est le passage de la
189
dpression lexpansion et la crise le passage de lexpansion la dpression. Ces deux composantes ne sont pas toujours distinguables et on ne cherchera pas les distinguer ; on notera ft cette composante tendancielle, que lon identifiera la tendance durable et que lon appellera trend. La composante saisonnire de la srie est sa composante priodique dans le cadre de lanne (elle peut tre due aux saisons, comme pour lIAA, ou rsulter des usages (ftes, vacances, etc.) ; elle sera note St. On appelle composante rsiduelle (bruit, ala) ou accidentelle les fluctuations irrgulires et imprvisibles de la srie ; elle sera note t (erreur).
1.3
DTERMINATION DE LA TENDANCE
Nous aborderons trois mthodes pour dterminer le trend : une mthode purement graphique : la mthode des points moyens (voir sur le site wwww.pearsoned.fr) ; une mthode analytique : la mthode MCO (nous nenvisagerons que le cas du trend linaire) ; des mthodes empiriques : la mthode des moyennes chelonnes ; la mthode des moyennes mobiles non centres ; la mthode des moyennes mobiles centres.
190
Statistique descriptive
Exemple 7.2
Considrons la srie suivante donnant le taux mensuel de nuptialit (nombre de mariages pour 1 000 habitants) en France mtropolitaine :
Mois Janvier Fvrier Mars Avril Mai Juin Juillet Aot Septembre Octobre Novembre Dcembre 2003 1,3 1,9 2,2 3,3 5,5 10,30 8,40 8,50 6,30 3,10 1,80 2,20 2004 1,40 2,00 1,70 3,60 5,30 9,40 10,10 6,80 6,30 3,20 1,70 2,00 2005 1,40 1,80 1,80 3,60 4,80 9,80 10,70 7,10 6,50 3,10 1,80 2,10 2006 1,30 1,60 1,60 3,60 4,70 9,50 10,10 6,60 7,10 2,40 1,60 2,00
1 n 5 295,8 Cov(T ; Y ) = n tyt t y = 48 24,5 4,4771 = 0,6406 t =1 n Do : t2 38 024 2 V (T ) = t =1 ( t )2 = ( 24,5 ) = 191,92 48 n Cov(T ; Y ) 0,6406 = = 0,0033 a = Il reste calculer a et b : V (T ) 191,92 b = y at = 4, 4771 0,0033 24,5 = 4,3953
191
Il est important de signaler que si la droite occupe une place privilgie dans lajustement 1 analytique, dautres modles sont incontournables, notamment la courbe de Gompertz , utilise entre autres pour les tables de mortalit (voir chapitre 6, exercice 4), et la courbe 2 logistique , utilise pour modliser lvolution de certaines populations (voir chapitre 6, section 3.1). Si les fluctuations de la srie sont trop importantes, on pourra au pralable les attnuer en utilisant des moyennes adaptes, que nous allons aborder maintenant.
Reprenons la srie de lexemple 7.2. La mthode des moyennes chelonnes consiste remplacer les donnes mensuelles par leur moyenne annuelle :
Anne 2003 2004 2005 2006 Moyenne chelonne 4,57 4,46 4,54 4,34
Ces moyennes chelonnes ont t affectes aux dates correspondant au milieu de chaque anne, et les quatre points obtenus sont joints la rgle sur la figure 7.7 et donnent un ajustement de la tendance. Figure 7.7
Moyennes chelonnes (nuptialit).
12 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 45 t 50 yt
La srie passe ainsi de 48 donnes mensuelles, qui varient selon les influences saisonnires, 4 donnes annuelles indpendantes de ces variations.
1. Benjamin Gompertz, mathmaticien anglais (1779-1865). 2. Dcouverte par le mathmaticien belge Pierre Franois Verhulst (1804-1849), lve de Qutelet.
192
Statistique descriptive
Cette mthode fait perdre trop de donnes, aussi utilisera-t-on plus gnralement les moyennes mobiles, qui sont la mthode la plus utilise dans le lissage des sries chronologiques. Elles permettent de suivre progressivement le phnomne par un systme de chevauchement. On distingue en gnral deux types de moyennes mobiles : les moyennes mobiles non centres ; les moyennes mobiles centres.
Les moyennes mobiles non centres permettent dexploiter les donnes rcentes. On notera que les moyennes mobiles non centres raccourcissent la srie, car aucune moyenne mobile nest affecte aux (p 1) premires dates.
Exemple 7.4 Moyennes mobiles non centres
Prenons comme exemple le cours dune action (en euros) en Bourse et la recherche dune stratgie (simple) de dcision : acheter en phase de hausse, quand le cours traverse la moyenne mobile de bas en haut, et vendre en phase de baisse, quand le cours traverse la moyenne mobile de haut en bas.
Jour 1 2 3 4 5 6 7 8 9 10 11 12 Cours 812,5 812,25 810 806,25 793,75 787,5 793,75 812,5 831,25 837,5 843,75 843,75 Jour 13 14 15 16 17 18 19 20 21 22 23 24 Cours 825 868,75 881,25 868,75 862,5 875 875 887,5 900 910 912,5 912 Les sries chronologiques
193
La moyenne non centre dordre 4 est la moyenne des quatre valeurs qui prcdent la priode de calcul. Par exemple, pour le quatrime jour, la moyenne non centre dordre 4 812,5 + 812,25 + 810 + 806,25 = 810,25 . est MM 4(4) nc = 4 Le tableau de la figure 7.8 donne les moyennes mobiles non centres dordre 4. Figure 7.8
Moyennes mobiles non centres.
La figure 7.9 est la traduction graphique de ce tableau qui permet de visualiser lapplication de la dcision dachat et de vente des actions. Figure 7.9
Moyennes mobiles non centres du cours de Bourse.
920 900 Achat 880 860 Vente 840 820 800 780 0 4 8 12 16 20 24 28 Achat Vente Cours MM4nc t Achat yt
194
Statistique descriptive
Dfinition
On appelle moyenne mobile centre dordre p la date t le nombre not MMp(t) et dfini par : si p est impair, soit p = 2k + 1 : 1 MMp(t ) = ( y t k + y t k +1 + .... + y t 1 + y t + y t +1 + ... + y t + k ) , p soit MMp (t ) =
1 k y t +i ; p i = k
Le cas des moyennes mobiles dordre impair : posons p = 2k + 1 ; dans ce cas tout indice t (t (p + 1) / 2) est la mdiane dune srie de p dates et lon remplace yt par : 1 k yt +i , en prenant la moyenne arithmtique des p observations obtenues en runisp i = k sant les k observations immdiatement antrieures yt, yt et les k observations qui succdent yt. On notera que les moyennes mobiles centres raccourcissent la srie, car aucune moyenne mobile nest affecte ni aux (p 1) premires dates ni aux (p 1) dernires dates.
Exemple 7.5 Moyennes mobiles centres dordre 3 (MM3)
Considrons le tableau suivant donnant le cours journalier du baril de ptrole sur une priode de 14 jours et recherchons le trend par la mthode des moyennes mobiles centres dordre 3 (MM3).
Date 29/10/2007 30/10/2007 31/10/2007 01/11/2007 02/11/2007 05/11/2007 06/11/2007 08/11/2007 09/11/2007 12/11/2007 Cours (en US dollars) 86,05 85,69 84,84 87,61 87,57 88,13 89,13 90,71 89,71 88,8
195
La moyenne centre dordre 3 est la moyenne des trois valeurs qui entourent la valeur de la priode de calcul, y compris elle-mme. Par exemple, pour la deuxime date, la 86,05 + 85,69 + 84,84 moyenne centre dordre 3 est MM 3(2) = = 85,53 . 3 Le tableau de la figure 7.10 donne les moyennes mobiles centres dordre 3. Figure 7.10
Moyennes mobiles centres dordre 3.
La figure 7.11 reprsente la srie brute et la srie lisse par les MM3. Figure 7.11
Srie brute et MM3.
92 91 90 89 88 87 86 85 84 0 5 10 t 15 yt Srie brute MM 3
Moyennes mobiles dordre p pair : posons p = 2k. Dans ce cas une srie de p dates nadmet pas de mdiane, mais un intervalle mdian. La rgle adopte consiste prendre arbitrairement pour mdiane la moyenne arithmtique des bornes de lintervalle mdian. Prenons par exemple p = 4. Si lon remplace y1, y2, y3 et y4 par leur moyenne arithmtique, on devra affecter cette valeur la date 2,5 (pour centrer), ce qui nest pas satisfaisant ; de mme, y2, y3, y4 et y5 seraient remplaces par leur moyenne arithmtique affecte la date 3,5. 196
Statistique descriptive
Pour viter cela, la mthode de calcul consiste affecter la date 3 la moyenne arithmy + y + y3 + y4 et tique des deux moyennes centres qui lencadrent : y 2,5 = 1 2 4 y + y3 + y4 + y5 . Ce qui donne : y 3,5 = 2 4
y 2,5 + y 3,5 2 = y 1 + y 2 + y 3 + y 4 + y 2 + y 3 + y 4 + y 5 0,5 y 1 + y 2 + y 3 + y 4 + 0,5y 5 . = 8 4
Finalement, pour former la premire moyenne mobile centre dordre 4, on utilise les 5 premires observations et lon affecte la date 3 leur moyenne arithmtique pondre, en affectant aux valeurs extrmes (la premire et la cinquime) le coefficient 0,5 et aux trois valeurs centrales le coefficient 1. On notera que les moyennes mobiles centres nautorisent pas destimation dune valeur thorique, car elles sont subordonnes la connaissance dobservations postrieures. La srie des moyennes mobiles comporte moins de termes que la srie brute. La srie des moyennes mobiles est trs inerte du fait quune brusque variation nest ime retenue que pour 1 / p de sa valeur brute, les oscillations tant tales sur les dates antrieures et postrieures. En gnral, on choisira lordre des moyennes mobiles suivant la priodicit des donnes : MM7 pour des donnes journalires (7 jours de la semaine), MM4 pour des donnes trimestrielles (4 trimestres dans lanne), etc.
2.1
197
concourantes (entonnoir). Les rapports entre les valeurs observes et les valeurs du trend sont pratiquement identiques dune priode lautre, ce qui reprsente des carts gaux en pourcentage (voir figure 7.13). Figure 7.12
Schma additif (aspect dun tube).
1 080 1 070 1 060 1 050 1 040 1 030 1 020 1 010 1 000 t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 yt Srie brute Trend (MCO)
Figure 7.13
Schma multiplicatif (aspect conique).
t 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Il arrive que les choix ne soient pas aussi clairs et que lon hsite entre les deux modles qui pourront dans ce cas donner des valeurs proches. Les deux modles supposent que la composante saisonnire est parfaitement priodique , qu lintrieur dune anne le phnomne saisonnier est neutre, les variations saisonnires se compensant : dans le schma additif, la moyenne des coefficients saisonniers est nulle sur une anne ; dans le schma multiplicatif, le produit des coefficients saisonniers est gal 1 sur une anne. Cette convention est appele principe de conservation des aires, les aires reprsentant les fluctuations saisonnires autour du mouvement gnral, qui se compensent. Par ailleurs, le mouvement accidentel est suppos faible et de moyenne nulle sur quelques mois. Pour mettre en vidence les composantes saisonnires et accidentelles, nous devrons distinguer les deux modles.
1
Composante saisonnire
La composante saisonnire est une fonction priodique, de priode p, dtermine par la donne de p coefficients saisonniers que nous noterons S1, S2, , Sp et qui vrifient
1. La dcomposition dune fonction en sommes de termes priodiques laide de fonctions sinusodales a t tablie par le mathmaticien Jean-Baptiste Fourier (1768-1813) dans ses travaux sur la chaleur.
198
Statistique descriptive
Si par exemple les donnes sont trimestrielles, on a quatre saisons que lon nommera T1, T2, T3 et T4. Les dates relatives T1 sont les dates du type t = 1 + 4n, soit 1 ; 5 ; 9 ; etc. La srie CVS (corrige des variations saisonnires), encore appele srie dsaisonnalise, est obtenue en liminant les influences saisonnires. Cette srie est fondamentale et utilise constamment par lInsee, qui donne par exemple les chiffres du chmage en donnes CVS en fin de mois . La srie corrige des variations saisonnires peut rvler des rsultats paradoxaux, le chmage pouvant diminuer en donnes brutes un certain mois, et en fait augmenter en donnes corriges des variations saisonnires.
2.2
S
i =1
=0 .
S
i =1
on introduit des coefficients saisonniers corrigs selon ltape 4. 4. On note m la moyenne arithmtique des Si, soit m =
1 p Si , et on introduit les p i =1
S'
i =1
=0.
199
S
i =1
=0.
S
i =1
0.
On peut alors isoler la composante accidentelle en calculant les termes t, en liminant la tendance de la srie CVS : t = ycvs(t) ft.
Exemple 7.6 Srie corrige des variations saisonnires (schma additif)
Reprenons la srie trimestrielle de lexemple 7.1. Le graphique permet de conjecturer lhypothse dun modle additif. Dterminons la srie CVS (voir figure 7.14) en utilisant le trend dtermin par la mthode MCO, cest--dire ff = 0,6654t + 103,92 (voir figure 7.6). Aprs avoir dtermin les valeurs du trend par la formule ff = 0,6654t + 103,92 dans la colonne C, on a calcul les coefficients st (colonne D), puis les coefficients saisonniers Si, s +s +s avec par exemple S1 = 1 5 9 = 1,72 . 3
S1 S2 S3 S4 Total 1,72 0,78 3,48 2,52 0,01
La somme des coefficients est trs proche de zro, il est donc inutile de les corriger. On a fait figurer la srie CVS en colonne E. Enfin, on a calcul la composante accidentelle en colonne F. Figure 7.14
Dtermination de la srie CVS et de la composante accidentelle.
200
Statistique descriptive
On a reprsent figure 7.15 la srie des indices IAA, avec la srie CVS et le trend linaire. Figure 7.15
Srie brute, srie CVS et trend des indices IAA.
116 114 112 110 108 106 104 102 0 1 2 3 4 5 6 7 8 9 t 10 11 12 13 yt = 0,6654 t +103,92 yt Srie brute Srie CVS Linaire (srie brute)
2.3
201
1 p S 'i = 1 . p i =1
On peut alors isoler la composante accidentelle en calculant les termes t, en liminant la tendance de la srie CVS : t = ycvs(t) / ft.
2.4
PRVISIONS
Modles de prvision
Ltude du pass sert anticiper le futur et la prvision conomique nest pas autre chose, en grande partie du moins, que ce quon appelle en langage mathmatique 1 lextrapolation des vnements passs, des conjonctions passes . partir des mthodes exposes prcdemment, lanalyste se situe la priode T et souhaite effectuer une prvision lhorizon h. On envisagera uniquement le cas dune prvision ponctuelle, cest--dire de la recherche dune valeur unique qui reprsente la meilleure estimation possible de la valeur future inconnue yT + h partir de la donne (y1 ; T ( h ) , ou encore y t avec t = T + h, T reprsentant y2 ; ; yT). Cette estimation est note y lorigine de la prvision. On supposera que lon dispose dune tendance linaire, alors la prvision ponctuelle pourra tre faite en utilisant les coefficients saisonniers en addition dans le modle additif et en multiplication dans le modle multiplicatif, ce qui donnera, partir du trend linaire not f(t) = at + b, Si dsignant le coefficient saisonnier corrig relatif la date t = T + h :
T ( h ) = a(T + h) + b + S 'i , ou encore y t = at + b + S 'i ; schma additif : y T ( h ) = (a(T + h) + b) S 'i , ou encore y t = (at + b) S 'i . schma multiplicatif : y
202
Statistique descriptive
Srie ajuste
On dfinit la srie ajuste sur le modle de la srie prvisionnelle expose ci-avant. On notera alors pour les dates t, pour lesquelles on connat la srie brute (Si dsignant le coefficient saisonnier corrig relatif la date t) :
t = at + b + S 'i ; schma additif : y t = (at + b) S 'i . schma multiplicatif : y
Exemple 7.7 Prvision (schma additif)
Reprenons les donnes de lexemple 7.1. On a dtermin le trend par la mthode MCO, et on a trouv ff = 0,6654 t + 103,92 (voir t = at + b + S 'i , Si dsignant le figure 7.6) ; la prvision ponctuelle sera donne par : y coefficient saisonnier relatif la date t = T + h. On aura donc : 1,72 0,78 , en choisissant le coefficient saisonnier relatif la t = 0,6654 t + 103,92 + y 3,48 2,52 date t = T + h ; recherchons par exemple une prvision ponctuelle pour le deuxime trimestre 2007, soit T = 12 et h = 2, do t = T + h = 12 + 2 = 14.
12 ( 2 ) = y 14 = 0,6654 14 + 103,920,78 = 112,46 . Dans ce cas, y
Conclusion
On notera que lon devra rester trs prudent pour les extrapolations, car on peut se retrouver face un retournement de tendance ou des changements dans les fluctuations priodiques. Si h > 1, on pourra tester la qualit du modle, en utilisant les premires observations de la priode T + 1 devenues disponibles et en les comparant aux prvisions quelles nont pas contribu dterminer. Cette confrontation de prvisions fondes sur le pass et de valeurs actuelles est trs prcieuse pour valider lestimation. Pour conclure cette introduction aux sries chronologiques, nous devons signaler que nous navons abord que laspect dterministe et que nous avons laiss de ct laspect alatoire, que nous avons simplement notifi loccasion de la composante accidentelle. 1 Nous navons pas abord les modles autorgressifs , qui traduisent une caractristique particulire des sries chronologiques, la corrlation entre les termes, cest--dire la dpendance statistique du prsent et du pass, et le lecteur pourra consulter de nombreux ouvrages complmentaires (notamment louvrage dconomtrie dric Dor). En rsum, lissue de ce chapitre, le lecteur doit connatre les deux modles de dcomposition dune srie chronologique, savoir utiliser la mthode MCO et les diffrentes moyennes mobiles pour mettre en vidence le trend et les diffrentes composantes. Ces techniques doivent permettre dexpliciter la srie corrige des variations saisonnires et daborder laspect prvisionnel.
1. Larticle de rfrence en la matire est d au statisticien George Udny Yule (1871-1951).
203
Problmes et exercices
Lanalyse des sries temporelles est un prolongement de lanalyse de rgression puisquil sagit dexpliquer un phnomne selon le temps. Pour cela, quatre modes dapplication des sries temporelles coexistent selon les combinaisons effectues entre mthodes empirique et analytique et modles additif et multiplicatif : lexercice 1 combine la mthode empirique avec le modle additif ; lexercice 2 associe la mthode empirique et le modle multiplicatif ; lexercice 3 allie mthode analytique et modle additif ; lexercice 4 met en uvre la mthode analytique avec le modle multiplicatif.
1. Reprsentez graphiquement cette srie chronologique et dterminez sa saisonnalit. 2. En utilisant le modle empirique additif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste. c. Dterminez la srie CVS. 3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie CVS.
1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t (voir figure 7.16). Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes.
204
Statistique descriptive
Figure 7.16
Rsultats sous Excel.
Pour reprsenter une courbe sous Excel, cliquez sur Insertion/Graphique dans la barre de menus, puis, dans lassistant graphique, choisissez le type de graphique Nuage de points, puis, dans Sous-type de graphique, slectionnez limage reprsentant le nuage de points relis par une courbe. Cliquez sur Suivant et indiquez dans le champ correspondant la plage o se trouvent les donnes (voir figure 7.17).
Frquentation totale (millions)
Figure 7.17
Frquentation des salles de cinma France.
La saisonnalit des entres cinmatographiques en France est annuelle. La structure des entres subit un creux au deuxime quadrimestre, pour remonter au troisime quadrimestre, lexception de lanne 2004, pour laquelle les ventes continuent de chuter. 2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode empirique, la tendance est dtermine par des moyennes mobiles. Puisque la saisonnalit est annuelle, compose de trois quadrimestres, les moyennes mobiles adaptes sont les moyennes mobiles dordre 3. La premire moyenne mobile calculable est MM3(2). Explicitons les premiers calculs :
MM3 ( 2 ) = Y1 + Y2 + Y3 61,33 + 48,16 + 63,97 , soit MM3(2) = 57,82 ; = 3 3 Y + Y + Y 48,16 + 63,97 + 67,86 , soit MM3(3) = 60,00. MM3 ( 3) = 2 3 4 = 3 3
La dernire moyenne mobile calculable est MM3(11). Les moyennes mobiles figurent dans la colonne E du tableau de la figure 7.16. la suite de ces calculs, les carts saisonniers peuvent tre calculs, selon le modle additif. s2 = Y2 MM3(2)2 = 48,16 57,82, soit s2 = 9,66. Les carts s1 et s12 ne sont pas calculables. On trouvera dans la colonne G du tableau de la figure 7.16 les carts saisonniers.
205
Les coefficients saisonniers sont ensuite calculs en effectuant pour chaque saison (quadrimestre) la moyenne arithmtique des carts saisonniers disponibles :
s 4 + s7 + s10 2,15 + 2,28 + 9,57 , soit S1 = 4,67 ; = 3 3 s +s +s +s 9,66 + 0,19 5, 38 7,61 , soit S2 = 5,62 ; S2 = 2 5 8 11 = 4 4 s + s + s 3,97 0,67 1,06 , soit S3 = 0,75. S3 = 3 6 9 = 3 3 S1 =
On rappelle que les coefficients saisonniers sont priodiques et que, dans cet exercice, la priode est de 3 : on a donc calcul S1, S2 et S3. On calcule ensuite la moyenne m des coefficients saisonniers pour effectuer, si leur moyenne nest pas nulle, la correction ncessaire au respect de la compensation : S + S + S 4,67 5,62 + 0,75 m= 1 2 3 = , soit m = 0,07. 3 3 Do les coefficients saisonniers corrigs, S1 = S1 m = 4,67 + 0,07, soit S1 = 4,73. De mme, S2 = 5,55 et S3 = 0,81. Les calculs sont dtaills dans les colonnes H et I de la figure 7.16.
= f + S' , do b. Pour le modle additif, la srie ajuste est Y t t t = MM ( 2 ) + S' = 57,82 5,55 , soit Y = 52,27 ; Y = T + S' = 60,00 + 0,81 , soit Y 3 3 3 2 2 3 2 = 52,89 ; Y3 = 60,81 . De mme, Y4 = 70, 44 ; Y5 = 59,56 ; Y6 = 63,65 ; Y7 = 63,49 ; Y 8 . Y = 63,10 ; Y = 67,74 ; Y = 57,27 . Y est indtermin, pour la mme raison que Y
9 10 11 12 1
Ces calculs sont dtaills la suite des calculs prcdents, dans la figure 7.16. c. La srie CVS est diffrente de la srie ajuste, car elle inclut les alas. Pour le modle additif, la srie CVS est YCVS ( t ) = Yt St' , do YCVS (1) = Y1 S1' = 61,33 4,73 , soit
YCVS (1) = 56,60 . Ces calculs sont dtaills dans la figure 7.16.
3. Les trois courbes sont traces sur le mme graphique, partir des donnes de la figure 7.16,
avec le temps, t, en abscisses, et les diffrentes sries en ordonnes (voir figure 7.18). Figure 7.18
Frquentation des salles de cinma, tendance et srie CVS France.
Frquentation totale (millions)
80 70 60 50 40 30 20 10 0 0 2003 1 2 3 2004 4 5 6 2005 7 8 9 10 2006* 11 12 13 Quadrimestre Srie brute MM3(t) Ycvs(t)
206
Statistique descriptive
1. Reprsentez graphiquement cette srie chronologique et justifiez lutilisation du modle multiplicatif. 2. En estimant la tendance de cette srie par les moyennes mobiles dordre 4 et laide du modle multiplicatif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste. c. Dterminez la srie CVS. 3. Reprsentez sur un mme graphique la srie brute, la tendance et la srie ajuste.
1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t :
Anne 2005 2005 2005 2005 2006 2006 2006 2006 Saison Automne Hiver Printemps t Automne Hiver Printemps t t 1 2 3 4 5 6 7 8 Yt 4,86 6,52 5,16 6,75 4,33 6,73 4,41 7,01
207
t 9 10 11 12
Afin de reprsenter graphiquement cette srie chronologique, il convient de tracer la courbe avec le temps, t, en abscisses, et la valeur des entres, Yt, en ordonnes (voir figure 7.19). Figure 7.19
Ventes par saisons.
Montant ( )
8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Saison 2005 2006 2007
Les variations des ventes sont damplitudes de plus en plus grandes, le schma ayant un aspect conique , ce qui justifie de recourir au modle multiplicatif. 2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode empirique, la tendance sera dtermine par des moyennes mobiles centres dordre 4 (une saisonnalit annuelle). La premire moyenne mobile calculable est MM4(3), que nous calculons selon la mthode vue dans la partie thorique de ce chapitre sur 5 termes : 0,5 Y1 + Y2 + Y3 + Y4 + 0,5 Y5 0,5 4,86 + 6,52 + 5,16 + 6,75 + 0,5 4,33 MM4 ( 3) = = , 4 4 soit MM4(3) = 5,76. De mme,
0,5 Y2 + Y3 + Y4 + Y5 + 0,5 Y6 0,5 6,52 + 5,16 + 6,75 + 4,33 + 0,5 6,73 = , 4 4 soit MM4(4) = 5,72. De mme, MM4(5) = 5,65 ; MM4(6) = 5,59 ; MM4(7) = 5,47 ; MM4(8) = 5,43 ; MM4(9) = 5,34 ; MM4(10) = 5,20. La tendance est ainsi dtermine par les valeurs des moyennes mobiles. MM4 ( 4 ) =
la suite de ces calculs, les variations saisonnires par priode peuvent tre calcules selon le modle multiplicatif. Les rapports saisonniers s1 et s2 sont indtermins ; s3 = Y3 / MM4(3) 3 = 5,16 / 5,76, soit s3 = 0,90 ; s4 = 6,75 / 5,72, soit s4 = 1,18. De mme, s5 = 0,77 ; s6 = 1,20 ; s7 = 0,81 ; s8 = 1,29 ; s9 = 0,58 et s10 = 1,46.
208
Statistique descriptive
Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. En appliquant la correction ncessaire au respect de la compensation entre coefficients S + S + S + S 0,68 + 1,33 + 0,86 + 1,24 , soit m = 1,03. saisonniers, m = 1 2 3 4 = 4 4 Do les coefficients saisonniers corrigs : S1 = S1 / m = 0,67 / 1,02, soit S1 = 0,66. De mme, S2 = 1,29 ; S3 = 0,83 et S4 = 1,20. Comme pour les coefficients saisonniers, S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12.
= MM ( t ) S ' , pour t entier variant b. Pour le modle multiplicatif, la srie ajuste est Y t t 4 ' = MM ( 3 ) S , soit Y = 5,76 0,83 , soit Y = 4,78 ; de 3 10. On a : Y
3 4 3 3 3
= MM ( 4 ) S ' = 5,72 1,20 , soit Y = 6,86 . De mme, Y = 3,73 ; Y = 7,21 ; Y 4 5 6 4 4 4 = 4,54 ; Y = 6,52 ; Y = 3,52 ; Y = 6,71 . Pour effectuer ces calculs laide de la Y 7 8 9 10 calculatrice, saisissez MM4(t) dans la colonne L1, en saisissant la valeur 0 pour les dates 1, 2, 11, 12, et Sj dans la colonne L2 ; placez le curseur sur len-tte de colonne L3. Indiquez L3=L1L2. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre la srie ajuste (voir figure 7.20).
c. La srie CVS est diffrente de la srie ajuste car elle inclut les alas. Pour le modle multiplicatif, la srie CVS est YCVS ( t ) = Yt / St' , do YCVS (1) = Y1 / S1' = 4,86 /0,66 , soit
YCVS (1) = 7, 36 . YCVS ( 3 ) = 6,22 ; YCVS ( 4 ) = 5,63 ; YCVS ( 5 ) = 6,56 ; YCVS ( 6 ) = 5,22 ; YCVS ( 7 ) = 5,31 ; YCVS ( 8 ) = 5,84 ; YCVS ( 9 ) = 4,71 ; YCVS (10 ) = 6,56 ; YCVS (11) = 3, 41 ; YCVS (12 ) = 6,26 .
' YCVS ( 2 ) = Y2 / S2 = 6,52 /1,29 ,
soit
YCVS ( 2 ) = 5,05 .
De
mme,
Pour effectuer ces calculs, laide de la calculatrice, la suite du tableau prcdent, saisissez Yt dans la colonne L4, placez le curseur sur len-tte de colonne L5. Indiquez L5=L4/L2. Puis appuyez sur ENTER. La colonne L5 fait alors apparatre la srie CVS (voir figure 7.21).
209
3. Les trois courbes sont traces sur le mme graphique, partir du graphique prcdemment prsent (voir figure 7.19), avec le temps, t, en abscisses, et les valeurs du chif , en ordonnes (voir figure 7.22). fre daffaires, Yt, Tt et Y t
Figure 7.22
Montant ( )
8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 0 1 2005 2 3 4 5 2006 6 7 8 9 10 2007 11 12 13 Saison Srie brute MM4(t) Srie ajuste
1. Dterminez la droite de rgression de Yt selon le temps. 2. partir de la droite de rgression de Yt selon le temps et en utilisant le modle additif : a. Calculez les coefficients saisonniers. b. Dterminez la srie ajuste.
210
Statistique descriptive
3. Reprsentez sur un mme graphique la srie brute, la tendance obtenue par la droite de rgression et la srie ajuste. 4. la suite des calculs prcdents, calculez la srie CVS. 5. Proposez des prvisions de frquentations trimestrielles pour lanne 2007.
1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b. Pour cela, il est ncessaire de calculer les valeurs de t , y , V(t) et
t y
i =1 i
Les moyennes de t et de Y ainsi que la variance de t peuvent tre calcules en utilisant les fonctions dExcel correspondantes, puisque les donnes sont des donnes uniques (avec ni = 1 quel que soit i). Pour cela, il convient dappeler les fonctions MOYENNE et VAR.P dExcel (voir annexe 1.1), ou bien de les calculer comme expos prcdemment (voir chapitres 2 et 3). On peut aussi utiliser pour t les formules spcifiques (voir chapitre 7, section 1.3, la mthode MCO). Ces calculs sont dtaills figure 7.23.
Figure 7.23
Rsultats sous Excel.
De l, a =
do : ft = 0,218 t + 48,007.
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode analytique, ces tendances sont calcules en utilisant lquation de la droite de rgression. Pour t = 1, f1 = 0,218 1 + 48,007, soit f1 = 47,79 ; f2 = 0,218 2 + 48,007, soit f2 = 47,57 ; de mme, f3 = 47,35 ; f4 = 47,14 ; f5 = 46,92 ; f6 = 46,70 ; f7 = 46,48 ; f8 = 46,27 ; f9 = 46,05 ; f10 = 45,83 ; f11 = 45,61 et f12 = 45,40.
211
la suite de ces calculs, les carts saisonniers par priode sont, selon le modle additif : s1 = Y1 f1 = 50,46 47,79, soit s1 = 2,67 ; s2 = Y2 f2 = 51,46 47,57, soit s2 = 3,89. De mme, s3 = 6,28 ; s4 = 5,20 ; s5 = 1,58 ; s6 = 4,84 ; s7 = 11,34 ; s8 = 6,72 ; s9 = 5,58 ; s10 = 5,23 ; s11 = 10,61 ; s12 = 5,36. Les coefficients saisonniers sont donc :
S1 = S2 = S3 = S4 = s1 + s 5 + s9 2,67 1,58 + 5,58 = , soit S1 = 2,22 ; 3 3 s2 + s 6 + s10 3,89 4,84 + 5,23 = , soit S2 = 1,43 ; 3 3 s 3 + s 7 + s11 6,28 11,34 10,61 = , soit S3 = 9,41 ; 3 3 s4 + s8 + s12 5, 20 + 6,72 + 5,36 = , soit S4 = 5,76. 3 3
Rappelons que les coefficients saisonniers sont priodiques (priode 4, ici), do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. La compensation entre coefficients saisonniers est respecte, puisque S1 + S2 + S3 + S4 = 0. Il est donc inutile de corriger les coefficients saisonniers. Les calculs sont dtaills figure 7.24.
Figure 7.24
Rsultats sous Excel.
= f + S' , do b. Pour le modle additif, la srie ajuste est donne par : Y t t t ' ' Y1 = f1 + S1 = 49,79 + 2,22 , soit Y1 = 50,01 ; Y2 = f 2 + S2 = 47,55 1, 43 , soit Y2 = 49,00 . = 37,94 ; Y = 52,90 ; Y = 49,14 ; Y = 48,13 ; Y = 37,07 ; Y = 52,03 ; De mme, Y
3 4 5 6 7 8
= 48,27 ; Y = 47,26 ; Y = 36,20 ; Y = 51,16 . Ces calculs sont dtaills la suite du Y 9 10 11 12 tableau prcdent (voir figure 7.24).
3. Les trois courbes sont reprsentes sur le mme graphique, avec le temps, t, en abscis-
212
Statistique descriptive
Figure 7.25
Frquentation des salles de cinma, tendance et srie ajuste France.
Trimestre
4. Pour le modle additif, la srie CVS est donne par : YCVS ( t ) = Yt St' , do
soit YCVS ( 2 ) = 50,03 . De mme, YCVS ( 3 ) = 50, 48 ; YCVS ( 4 ) = 46,58 ; YCVS ( 5 ) = 43,12 ;
' ' YCVS (1) = Y1 S1 = 50, 46 2, 22 , soit YCVS (1) = 48, 24 ; YCVS ( 2 ) = Y2 S2 = 51, 46 + 1, 43 ,
YCVS (11) = 44, 41 ; YCVS (12 ) = 45,00 . Ces calculs sont dtaills la suite des calculs prcdents (voir figure 7.24).
YCVS ( 6 ) = 40, 43 ; YCVS (7) = 44,55 ; YCVS ( 8 ) = 47, 23 ; YCVS ( 9 ) = 49, 41 ; YCVS (10 ) = 49,63 ;
5. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de frquentations trimestrielles pour lanne 2007. En appliquant le coefficient saisonnier Sj, nous obtenons la srie ajuste qui donne les prvisions de frquentations trimestrielles pour lanne 2007. Ces prvisions sont manier avec prcaution, puisque le modle de rgression est estim sur la priode 2004-2006 (voir chapitre 6).
Ainsi, au premier trimestre 2007, t = T + h = 12 + 1 = 13, donc : f13 = 0,218 13 + 48,007, soit f13 = 45,18 ; au deuxime trimestre 2007, t = 14, donc : f14 = 0,218 14 + 48,007, soit f14 = 44,96. De mme, f15 = 44,74 et f16 = 44,53.
= f + S' = 45,18 + 2,22 , soit Y = 47, 40 . La frquentation prvisionnelle pour Do Y 13 13 13 13 le premier trimestre de 2007 est de 47,40 millions dentres. = f + S ' = 44,96 1, 43 , soit Y = 46,39 . La frquentation prvisionnelle pour le Y 14 14 14 14 deuxime trimestre de 2007 est de 46,39 millions dentres. = 35, 33 ; Y = 50,29 . Les frquentations prvisionnelles pour les De mme, Y 15 16 troisime et quatrime trimestres de 2007 sont respectivement de 35,33 et 50,29 millions dentres.
213
Notons que ce modle permet destimer la frquentation totale de 2007 179,41 millions dentres. En ralit, le nombre total dentres sur 2007 a t de 178,14 millions dentres (en donnes provisoires au 4 janvier 2008, selon le CNC).
1. La premire tape consiste prsenter le tableau de donnes sous la forme dun tableau statistique indiquant les valeurs de t, le temps, et de Yt, valeur des entres en priode t. La droite de rgression ft = a t + b est dtermine par la mthode des MCO vue au chapitre 6. Il convient de dterminer les valeurs de a et b dans lquation ft = a t + b.
t y
i =1 i
Saisissez les valeurs de t dans la colonne L1 et celles de Y dans la colonne L2, comme indiqu figure 7.27.
Figure 7.27
Saisie du tableau de donnes avec la calculatrice.
Pour obtenir les calculs intermdiaires ncessaires, appuyez sur la touche STAT, puis choisissez le menu CALC et slectionnez la fonction 2:2-Var Stats. Puis appuyez sur ENTER. Tapez 2-Var Stats L1,L2 puis appuyez nouveau sur ENTER. Les rsultats de
214
Statistique descriptive
statistiques sur les variables t, note X par la calculatrice, et Y, respectivement contenues dans L1 et L2, sinscrivent (voir figures 7.28a et b).
Figure 7.28a (gauche)
Statistiques sur L1 (t).
De l,
a=
et
do :
2. a. Pour dterminer les coefficients saisonniers, il est ncessaire de calculer la tendance. Dans le cadre de la mthode analytique, la tendance est calcule en utilisant lquation de la droite de rgression.
Pour t = 1, f1 = 0,002 1 + 5,555, soit f1 = 5,557 ; f2 = 0,002 2 + 5,555, soit f2 = 5,559. De mme, f3 = 5,561 ; f4 = 5,563 ; f5 = 5,565 ; f6 = 5,567 ; f7 = 5,569 ; f8 = 5,571 ; f9 = 5,573 ; f10 = 5,575 ; f11 = 5,577 et f12 = 5,579. Pour calculer les valeurs de la tendance par priode laide de la calculatrice la suite du tableau prcdent, placez le curseur sur len-tte de colonne L3. Indiquez L3=0,002L1+5,555. Puis appuyez sur ENTER. La colonne L3 fait alors apparatre les valeurs de la tendance par priode (voir figure 7.29).
Figure 7.29
Calculs des valeurs de la tendance avec la calculatrice.
la suite de ces calculs, les rapports saisonniers par priode peuvent tre calculs, selon le modle multiplicatif. s1 = Y1 / f1 = 4,86 / 5,557, soit s1 = 0,875 ; s2 = Y2 / f2 = 6,52 / 5,559, soit s2 = 1,173. De mme, s3 = 0,928 ; s4 = 1,213 ; s5 = 0,778 ; s6 = 1,209 ; s7 = 0,792 ; s8 = 1,258 ; s9 = 0,558 ; s10 = 1,365 ; s11 = 0,507 ; s12 = 1,346. Pour calculer les variations saisonnires par priode laide de la calculatrice la suite du tableau prcdent, placez le curseur sur len-tte de colonne L4. Indiquez L4=L2/L3. Puis appuyez sur ENTER. La colonne L4 fait alors apparatre les valeurs des rapports saisonniers (voir figure 7.30).
215
Figure 7.30
Calculs des valeurs des rapports saisonniers avec la calculatrice.
Notons que le coefficient saisonnier dun trimestre est le mme pour chaque anne, do S1 = S5 = S9 ; S2 = S6 = S10 ; S3 = S7 = S11 et S4 = S8 = S12. La compensation entre coefficients saisonniers est respecte, donc les coefficients saisonniers corrigs sont identiques aux coefficients saisonniers.
= f S ' , do b. Pour le modle multiplicatif, la srie ajuste est Y t t t ' ' Y1 = f1 S1 = 5,557 0,737 , soit Y1 = 4,09 ; Y2 = T2 S2 = 5,559 1,249 , soit Y2 = 6,94 . De = 4,13 ; Y = 7,08 ; Y = 4,10 ; Y = 6,95 ; Y = 4,13 ; Y = 7,09 ; Y = 4,11 ; mme, Y
3 4 5 6 7 8 9
= 6, 96 ; Y = 4,14 ; Y = 7,10 . Y 10 11 12
c. Pour
le
modle
' 1
multiplicatif, mme,
la
srie
CVS
est
YCVS ( t ) = Yt / St' ,
' 2
do
YCVS (1) = Y1 / S = 4,86 /0,737 , soit YCVS (1) = 6,60 ; YCVS ( 2 ) = Y2 / S = 6, 52 /1,249 , soit YCVS ( 2 ) = 5,22 .
De
YCVS ( 6 ) = 5,39 ; YCVS ( 7 ) = 5,94 ; YCVS ( 8 ) = 5,51 ; YCVS ( 9 ) = 4,22 ; YCVS (10 ) = 6,09 ; YCVS (11) = 3,81 ; YCVS (12 ) = 5,90 .
3. Lutilisation de lquation de la droite de rgression permet dobtenir des prvisions de chiffre daffaires pour lanne 2008. En appliquant le coefficient saisonnier Sj, nous obtenons la srie ajuste qui donne les prvisions de chiffres daffaires trimestriels pour lanne 2008. Ces prvisions sont manier avec prcaution, puisque le modle de rgression est estim sur la priode 2005-2007 (voir chapitre 6).
YCVS ( 3 ) = 6,95 ;
YCVS ( 4 ) = 5,31 ;
YCVS ( 5 ) = 5,88 ;
Ainsi, au premier trimestre 2008, t = T + H = 12 + 1 = 13, donc f13 = 0,002 13 + 5,555, soit f13 = 5,583. Au deuxime trimestre 2008, t = 14, donc f14 = 0,002 14 + 5,555, soit f14 = 5,585. De mme, f15 = 5,587 et f16 = 5,589.
216
Statistique descriptive
= f S' = 5,583 0,737 , soit Y = 4,11 . Le chiffre daffaires prvisionnel pour Do Y 13 13 13 13 le premier trimestre de 2007 est de 4,11 milliers deuros. = f S' = 5,585 1,249 , soit Y = 6,97 . Le chiffre daffaires prvisionnel pour le Y 14 14 14 14 deuxime trimestre de 2007 est de 6,97 milliers deuros. = 4,15 ; Y = 7,11 . Les chiffres daffaires prvisionnels pour les troisime De mme, Y 15 16 et quatrime trimestres de 2007 sont respectivement de 4,15 et 7,11 milliers deuros.
4. Les deux courbes sont reprsentes sur le mme graphique (voir figure 7.31), avec le temps, t, en abscisses, et la tendance ft et les valeurs du chiffre daffaires Yt prolong en ordonnes. de Y t
Chiffre d'affaires trimestriel ( )
Figure 7.31
Chiffre daffaires, tendance et prvisions.
8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 2005 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Trimestre 2006 2007 2008 Srie brute Trend linaire Srie ajuste
217
Bibliographie
CALOT G., Cours de statistique descriptive, Dunod, 1969. CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DARMOIS G., Statistiques et applications, Armand Colin, 1952. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DOR E., conomtrie, Collection Synthex, Pearson Education, 2004. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement mathmatique A.P.M.E.P., 1967. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986. WONNACOTT T. et R., Statistiques, Economica, 1984.
218
Statistique descriptive
Les indices
1
1. Les indices lmentaires......220 2. Les indices synthtiques ......226 Problmes et exercices 1. Indices lmentaires ...........236 2. Indices synthtiques............238 3. Coefficients budgtaires et relation entre indices.......240
Dans de nombreux domaines, notamment dans le domaine conomique, nous devons savoir dcrire et analyser lvolution temporelle ou spatiale de diffrentes grandeurs. Les pourcentages ne disposent pas des qualits propres dcrire simplement ces variations1. Lindicateur fondamental de lvolution des variables conomiques et sociales est lindice. On distingue deux types dindices : les indices portant sur une seule grandeur, appels indices lmentaires, et les indices portant sur des grandeurs complexes (agrgation de plusieurs grandeurs), nomms indices synthtiques dans le cas o les grandeurs sont de mme nature (indice des prix regroupant un panier de biens) ou indices composites quand il sagit de grandeurs de natures diffrentes (lindice boursier de Shanghai, qui comprend la fois les actions A libelles en yuans et les actions B libelles en devises, est un indice composite). Il est vivement conseill au lecteur daller explorer le site de lInsee (www.insee.fr), qui offre une grande richesse dinformation sur les diffrents indices.
1. Les pourcentages, par exemple, ne sajoutent pas : une hausse de 10 % suivie dune hausse de 20 % correspond une hausse globale de 32 % (coefficient multiplicateur).
219
Nous verrons que les indices synthtiques apparaissent comme des moyennes pondres (arithmtiques, gomtriques ou harmoniques) des indices lmentaires et nous dfinirons les coefficients budgtaires qui constituent les pondrations.
1.1
Dfinitions
La variation absolue dune grandeur G de la date 0 la date t est la diffrence entre la valeur finale ( la date t) et la valeur initiale ( la date 0) de cette grandeur. Cette variation absolue est note : G = Gt G0. Une variation absolue positive traduit une augmentation et une variation ngative une baisse. La variation relative dune grandeur G de la date 0 la date t est le rapport entre la variation absolue et la valeur initiale de cette grandeur. Cette variation relative est note : G / G = (Gt G0) / G0. Une variation relative sexprime souvent en pourcentage de la valeur initiale, ce pourcentage tant donn par : (Gt G0) 100 / G0. Quand une grandeur passe de la valeur G0 la valeur Gt, on note a le coefficient multiplicateur dfini par : a = Gt / G0. Un coefficient plus grand que 1 traduit une hausse et un coefficient infrieur 1, une baisse. On notera que le coefficient multiplicateur ne possde pas dunit.
Exemple 8.1
Coefficient multiplicateur
220
Statistique descriptive
Nous pouvons calculer la variation absolue, la variation relative et le coefficient multiplicateur de 2003 2004. Nous noterons respectivement P0 et P1 les populations en 2003 et 2004. La variation absolue est : P = P1 P0 = 62 445 62 042 = 403 milliers dhabitants. La variation relative est : P / P = (P1 P0) / P0 = 403 / 62 042 = 0,0065, soit une augmentation de 0,65 %. Le coefficient multiplicateur est : a = P1 / P0 = 62 445 / 62 042 = 1,0065 ; il est suprieur 1 et traduit une hausse dont le taux est : t = a 1 = 0,0065. On rappelle que, pour mesurer leffet global de plusieurs variations successives, on doit employer les coefficients multiplicateurs, comme le montre lexemple 8.2.
Exemple 8.2 Coefficient multiplicateur et pourcentages
Supposons quune grandeur subisse une augmentation de 30 % suivie dune baisse de 10 % et mesurons leffet global de ces variations en pourcentage : nous utiliserons les coefficients multiplicateurs successifs a1 = 1,30 et a2 = 0,90, ce qui donne un coefficient multiplicateur global : a = a1 a2 = 1,30 0,90 = 1,17, soit une hausse de 17 %. On constate que les pourcentages ne sajoutent pas. Notons p0 le prix hors taxe et p1 le prix TTC, aprs application de la TVA 19,6 %. Dterminons la variation en pourcentage, permettant de revenir du prix TTC au prix HT. On a : p1 = 1,196 p0, soit p0 = p1 / 1,196, ce qui donne un coefficient multiplicateur a = 1 / 1,196 = 0,8361 quand on passe de p1 p0, soit une baisse de taux : t = 1 0,8361 = 0,1639, soit 16,39 %. La TVA reprsente 16,39 % du prix TTC affich en magasin. On constate que les pourcentages ne sont pas rversibles, cest--dire quune hausse de 19,6 % nest pas neutralise par une baisse de 19,6 %. Lexemple 8.2 nous a montr les dfauts des pourcentages et la ncessit dutiliser un outil plus adapt la mesure des variations : lindice.
1.2
Dfinitions
Indice base 1 : on appelle indice lmentaire de la grandeur simple G, la date t, base 1 la date 0, le rapport not It / 0 (G) = Gt / G0. La date 0 est appele la date de rfrence, et la date t la date courante. On reconnat le coefficient multiplicateur. On notera que I0 / 0 (G) = 1. Indice base 100 : on appelle indice lmentaire de la grandeur simple G, la date t, base 100 la date 0, le rapport not It / 0 (G) et dfini par : It / 0 (G) = (Gt / G0) 100. On notera que I0 / 0 (G) = 100.
Les indices
221
Un indice ne possde pas dunit. Un indice suprieur 100 reprsente une hausse et un indice infrieur 100 une baisse. On parlera souvent danne de base ou danne de rfrence pour dnommer la date 0. Les indices base 100 sont les plus courants, car bien adapts aux pourcentages. On notera que les bases 1 ou 100 napparaissent pas dans la notation, mais quon indique au dpart le type dindice utilis.
Exemple 8.3 Indices base 1 et base 100
Reprenons lexemple 8.1. Nous pouvons crire, en notant P la population de la France : I2004 / 2003 (P) = 1,0065 en utilisant un indice base 1, ce qui signifie que la population a augment de 2003 2004 comme une grandeur qui valait 1 en 2003 et qui vaut 1,0065 en 2004. Si lon utilise un indice base 100, on notera : I2004 / 2003 (P) = 100,65, ce qui donne la mme variation quune grandeur qui valait 100 en 2003 et 100,65 en 2004. Il est possible de calculer le pourcentage de variation entre deux priodes grce aux deux indices relatifs ces priodes. partir de deux indices base 100 anne 0, dune mme grandeur, aux dates respectives t1 et t2, la variation en pourcentage de la grandeur de lanne t1 lanne t2 est donne par la variation relative de lindice : It2 /0 (G) It1/0 (G) 100 . Au numrateur, la variation absolue It2/0 (G) It1/0 (G) se mesure It1/0 (G) en points dindice.
Exemple 8.4 Points dindice et variation en pourcentage
Le tableau suivant donne la population de la France (en milliers, source Insee 2007) et les indices base 100 en 1990 :
Anne 1990 2000 2005 Pt 58 171 60 751 62 818 It / 1990 (P) 100,00 104,44 107,99
Utilisons les indices It / 1990 (P) pour dterminer la variation en pourcentage de la population de 2000 2005. De 2000 2005 la variation absolue de lindice a t de : I2005 / 1990 (P) I2000 / 1990 (P) = 107,99 104,44 = 3,55 ; lindice a augment de 3,55 points dindice de 2000 2005 ; on dit aussi que cet indice a pris 3,55 points dindice. On peut valuer la variation en pourcentage de la population de 2000 2005 en valuant la variation relative de lindice, cest--dire : (I2005 / 1990 (P) I2000 / 1990 (P)) / I2000 / 1990 (P) = 3,55 / 104,44 = 0,034, soit une hausse de 3,4 %.
222
Statistique descriptive
1.3
La circularit, ou transfrabilit
Cest la proprit fondamentale des indices, qui permet de voyager dans le temps et qui se 1 traduit par une relation multiplicative, de type relation de Chasles . On rappelle que la relaJJJ G JJ G JJJ G tion de Chasles est la relation vectorielle MP + PS = MS , qui lie trois points quelconques de lespace. Cest une relation base sur la correspondance (type SNCF) : pour aller de Marseille Strasbourg, allez de Marseille Paris et prenez la correspondance Paris pour Strasbourg.
Dfinition Un indice est transfrable si et seulement si il vrifie la relation : pour les indices base 1 : It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G) ; pour les indices base 100 : 100It2 / 0 (G) = It2 / t1 (G) It1 / 0 (G).
On devra contrler dans les formules base 100 lhomognit. Dans la formule multiplicative prcdente il y a deux indices dans le membre de droite et un seul dans celui de gauche, il y a donc un facteur 100 pour quilibrer la relation.
Proprit Les indices lmentaires sont transfrables.
La rversibilit
La rversibilit consiste permuter lanne courante et lanne de rfrence.
Dfinition Un indice est rversible si et seulement si il vrifie la relation : pour les indices base 1 : It1 / 0 (G) = 1 / I0 / t1 (G) ; pour les indices base 100 : It1 / 0 (G) = 10000 / I0 / t1 (G).
On notera que ces formules dcoulent de la circularit. En base 1, It1 / 0 (G) I0 / t1 (G) = It1 / t1 (G) = 1 (base 1). On retrouve une relation de Chasles avec un aller-retour . It1 / 0 (G) I0 / t1 (G) = 100It1 / t1 (G) = 100 (base 100).
Proprit Les indices lmentaires sont rversibles.
Lenchanement
Dans de nombreuses situations, on doit suivre lvolution dune grandeur dune anne sur lautre et on utilise alors des indices chanes, en prenant pour anne de rfrence lanne qui prcde lanne courante.
1. Michel Chasles, mathmaticien franais (1793-1830) dont le nom est li la relation du mme nom.
Les indices
223
Dfinition
Les indices chanes sont des indices pour lesquels lanne de rfrence est lanne qui prcde lanne courante. Ils sont nots : It / t 1 (G). La gnralisation de la transfrabilit donne : pour les indices base 1 : It / t 1 (G) It
1/ t 2
pour les indices base 100 : It / t 1 (G) It 1 / t 2 (G) ) I1 / 0 (G) = 100 il y a t indices dans le membre de gauche et un seul droite). Proprit Les indices lmentaires sont enchanables.
It / 0(G) (car
Focus 8.1
On vrifie lensemble des proprits des indices lmentaires : Circularit : on a (base 100) : I2005 / 2003 (P) = (178,93 / 170,45) 100, I2003 / 2002 (P) = (170,45 / 165,65) 100 et I2005 / 2002 (P) = (178,93 / 165,65) 100 ; on vrifie sans effectuer les calculs la circularit : I2005 / 2003 (P) I2003 / 2002 (P) = 100 I2005 / 2002 (P), le facteur 170,45 (prix intermdiaire de 2003) sliminant. Rversibilit : on a (base 100) I2005 / 2002 (P) = (178,93 / 165,65) 100 = 108,02 et I2002 / 2005 (P) = (165,65 / 178,93) 100, et on tablit : I2005 / 2002 (P) I2002 / 2005 (P) = 10 000 soit la formule de rversibilit, ce qui donne : I2002 / 2005 (P) = 10 000 / 108,2 = 92,42. Interprtation : de 2002 2005 le prix de leau a augment de 8,02 %. La rversibilit permet de conclure quen 2002 le prix de leau tait 7,58 % (100 92,42) moins lev quen 2005. Indices enchans : on peut vrifier que I2006 / 2005 (P) I2005 / 2004 (P) I2004 / 2003 (P) I2003 / 2002 (P) = 113 003 320 soit environ (approximations) : 100 I2006 / 2002 (P) = 1 000 000 (187,19 / 165,5) 100.
3
224
Statistique descriptive
Oprations
Les indices lmentaires possdent des proprits prcieuses relatives au produit et au quotient.
Proprits Produit En base 1, lindice lmentaire dun produit de deux grandeurs est le produit des indices. En base 100, on a : It / 0(A B) = It / 0(A) It / 0(B) / 100. Quotient En base 1, lindice lmentaire dun quotient de deux grandeurs est le quotient des indices. En base 100, on a : It / 0(A / B) = (It / 0(A) / It / 0(B)) 100.
On citera notamment lindice de pouvoir dachat, qui sobtient par la formule : It / 0(Pouvoir achat) = (It / 0(S) / It / 0(P)) 100, S dsignant le salaire et P les prix. Il sagit donc du quotient de lindice des salaires nominaux par lindice des prix.
Exemple 8.5 Indices lmentaires et oprations
Daprs une tude de lInsee, de 1986 1998, le nombre dentres au cinma est pass de 170 millions 160 millions alors que le prix de la place de cinma passait de 4 5,90 . Dans le tableau suivant, on note P le prix dune place (en euros), Q la quantit de places vendues (en millions) et V la valeur globale (qui correspond ici la recette : V = P Q).
Anne 1986 1998
Source : Insee, 2002
P 4 5,9
Q 170 160
V 680 944
On peut calculer les indices lmentaires de quantit et de prix en 1998, base 100 en 1986. On a : I1998 / 1986 (P) = (5,90 / 4) 100 = 147,5 ; I1998 / 1986(Q) = (160 / 170) 100 = 94,12 et I1998 / 1986(V) = (944 / 680) 100 = 138,82. On vrifie que I1998 / 1986(V) = I1998 / 1986(P) I1998 / 1986(Q) / 100 = 147,5 94,12 / 100. Ainsi, la hausse de 38,82 % de la recette est due leffet conjugu dune baisse de la quantit et dune augmentation du prix.
Les indices
225
1.4
LINDEXATION
La publication des grands indicateurs fait rgulirement la une des journaux, et lindice des prix tient rgulirement la vedette, du fait quil joue un rle central dans lapprciation de la situation conomique du pays, mais aussi de par les rpercussions 1 importantes quil entrane par le biais des indexations . Le smic est revaloris au 1 juillet de chaque anne, notamment en fonction de lvolution de lindice des prix la consommation (indice pour les mnages urbains dont le chef est ouvrier ou employ, hors tabac ). Lindexation a pour but dassurer un maintien du pouvoir dachat ; elle ncessite une dure ou priodicit (lanne, dans le cas er du smic), une date (1 juillet, pour le smic) et un indice de rfrence. Lexemple 8.6 donne un exemple pour un loyer index sur lindice du cot de la construction (ICC, indice trimestriel).
er
Exemple 8.6
Indexation
Supposons quun locataire ait sign le 15 janvier 2007 un bail avec un loyer mensuel de 750 euros, ce loyer tant rvalu chaque anne la date anniversaire du bail, lindice de e rfrence tant lindice du cot de la construction (ICC) du 2 trimestre 2006. Lindice du e e cot de la construction du 2 trimestre 2006, base 100 au 4 trimestre 1953, vaut 1 366 et e celui du 2 trimestre 2007, 1 435. Calculons le loyer de ce locataire au 15 janvier 2008. Ce loyer va suivre la progression de lindice sur un an, ce qui donne un coefficient multiplicateur a = 1435 / 1366 = 1,0505, ce qui donnera un nouveau loyer de : 750 1,0505 = 787,88 euros.
226
Statistique descriptive
Focus 8.2
On peut calculer pour chacune des annes un salaire global, not S, et en dduire ainsi un indice : S2001 = 169 6,67 + 2 8,3375 = 1 143,90 et S2007 = 151,67 8,44 + 4 11,816 = 1 327,36 , ce qui donnerait pour lindice de salaire global : I2007 / 2001 (S) = (1 327,36 / 1 143,9) 100 = 116,03, soit une augmentation de 16,03 %. Cependant, cet indice est brouill , dans la mesure o sa signification traduit simultanment une volution de la quantit dheures de travail et une volution du salaire horaire, sans que lon puisse isoler limpact de ces volutions. Pour rsumer les indices lmentaires de salaire, on va donc introduire un indice synthtique de salaire horaire, de faon gommer linfluence due la variation des quantits, en les considrant comme constantes. On peut alors opter pour deux possibilits : Fixer les quantits leur niveau pris lanne de base, cest--dire privilgier le mode de travail du salari de 2001. On forme alors lindice de Laspeyres des salaires horaires, not : L2007 / 2001(s) = (169 8,44 + 4 11,816) / (169 6,67 + 2 8,3375) 100 = (1 449,99 / 1 143,91) 100 = 126,76. Fixer les quantits leur niveau pris lanne courante, cest--dire privilgier le mode de travail du salari de 2007. On forme lindice de Paasche des salaires horaires, not : P2007 / 2001(s) = (151,67 8,44 + 4 11,816) / (151,67 6,67 + 4 8,3375) 100 = (1 327,36 / 1 044,99) 100 = 127,02. Le choix entre ces deux indices prsente un certain arbitraire, et nous verrons plus 1 loin que le statisticien amricain Fisher a propos dans les annes 1920 un indice idal , qui est la moyenne gomtrique des deux indices prcdents. Nous allons maintenant dfinir les indices synthtiques de Laspeyres et de Paasche , indices de prix et de quantits. Ces indices vont respecter le principe voqu dans le focus prcdent : dans un indice de prix, seuls les prix varient, les quantits restant constantes,
1. Irving Fisher, conomiste, mathmaticien amricain (1867-1947). 2. tienne Laspeyres, conomiste, statisticien allemand (1834-1913). 3. Hermann Paasche, statisticien, conomiste allemand (1851-1925).
2 3
Les indices
227
et, dans un indice de quantit, seules les quantits varient, les prix restant fixes. Auparavant nous allons introduire les notations et dfinir les coefficients budgtaires.
2.1
Dfinition
tant donn un panier de consommation, on appelle coefficient budgtaire dun bien j de ce panier, lanne 0 (respectivement lanne t), la part du budget total de lanne 0 (respectivement lanne t) affecte au bien j ; ce coefficient sera not C j0 (respectivement C jt ) et dfini par : C j0 =
Pj0Q j0
P
i =1
Pj0Q j0 V
0
Qi0
(respectivement C jt =
Pjt Q jt
P Q
t i =1 i
=
t i
Pjt Q jt Vt
).
On a :
C
i =1
0 i
C
i =1
t i
Considrons le panier de consommation suivant compos de deux denres, la baguette de pain et la viande de buf, lanne de rfrence tant lanne 1980 et lanne courante, lanne 2003. Les quantits de consommation Q sont donnes pour un mois, en nombre de baguettes et en kilos de viande. Les prix sont nots P et les valeurs globales V.
i =1
V = 48,08.
228
Statistique descriptive
Calculons les coefficients budgtaires de chacun des biens lanne de base et lanne V 0 3,20 0 courante. On a pour le bien 1 (pain) : C1 = 10 = = 0,2783 , soit 27,83 % du budget V 11,51 du consommateur de 1980 consacr au pain. On trouve de mme : V 0 8,30 13,50 13,50 0 t t C2 = 20 = = 0,7217 ; C1 = = 0,2808 et C2 = = 0,7192 . V 11,51 48, 08 48, 08
2.2
Q P Q P
i =1 i =1 n
0 t i i
100 .
0 0 i i
On a : Lt / 0 ( P ) =
Q P Q P
i =1 i =1 n
0 t i i
100 =
Q P
i =1
0 t i i
0 0 i i
V0
100 =
Qi0 Pi0 est Ci0 le coefficient V0 budgtaire du bien i, lanne de base. On rappelle que les coefficients budgtaires de lanne 0 ont pour somme 1. Do la proprit suivante.
Proprit
Lindice des prix de Laspeyres est la moyenne arithmtique pondre des indices lmentaires de prix des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne de base. Indice des prix de Laspeyres
Exemple 8.8
Reprenons lexemple 8.7 et calculons lindice des prix de Laspeyres en 2003, base 100 en 1980.
L2003 /1980 ( P ) =
Q P Q P
i =1 i =1 2
0 t i i
100 =
0 0 i i
21 0,75 + 1,23 16,5 100 = 313,66 , soit une augmenta21 0,1525 + 1,23 6,74
tion de 213,66 %. Laspeyres sintresse au mode de consommation du consommateur de 1980 : si ce dernier consomme en 2003 de la mme faon quen 1980, cela lui cotera 213,66 % plus cher.
Les indices
229
En utilisant la proprit de lindice des prix de Laspeyres, on trouve effectivement que la valeur de cet indice est la moyenne arithmtique des indices lmentaires de prix pondre par les coefficients budgtaires de lanne de base : pour la baguette, 0,75 I 2003 /1980 ( P1 ) = 100 = 491,80 et C10 = 0,2783 ; pour la viande de buf, 0,1525 16,5 0 I 2003 /1980 ( P2 ) = 100 = 244,96 et C2 = 0,7217 , ce qui donne pour lindice des prix de 6,74 Laspeyres : L2003 /1980 ( P ) = 0,2783 491,8 + 0,7217 244,96 = 313,66 .
P Q
0
P Q
0 i =1 i
i =1 n
t i
100
0 i
Proprit
Lindice des quantits de Laspeyres est la moyenne arithmtique pondre des indices lmentaires de quantits des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne de base. Indice des quantits de Laspeyres
Exemple 8.9
Reprenons lexemple 8.7 et calculons lindice des quantits de Laspeyres en 2003, base 100 en 1980 : L2003 /1980 ( Q ) =
P Q
0 i
t i
P Q
0 i i =1
i =1 2
100 =
0 i
230
Statistique descriptive
Nous rappelons ici que mathmatiquement lindice de Laspeyres nest pas transfrable, mme si, dans la pratique, sur des priodes courtes, on obtient des approximations acceptables.
2.3
Q P Q P
i =1 i =1 n
t t i i
100 .
t 0 i i
On a :
Pt / 0 {P} =
Q P Q P
i =1 i =1 n
t t i i
100 =
Vt
t 0 i i
Q P
i =1
100 =
Vt
t 0 i i
Q P
i =1
t t i i
Pi t Pi
0
100 =
1 1 ; = n 0 Cit Q P Pi t i =1 V 100Pi i =1 I t / 0 ( Pi )
n t t i i t
on reconnat dans la parenthse linverse de lindice lmentaire du prix du bien i et le Qt P t coefficient i t i est Cit , le coefficient budgtaire du bien i, lanne courante. Do la V proprit suivante.
Proprit Lindice des prix de Paasche est la moyenne harmonique pondre des indices lmentaires de prix des biens composant le panier. Les coefficients de pondration sont les coefficients budgtaires de lanne courante. Indice des prix de Paasche
Exemple 8.10
Reprenons lexemple 8.7 et calculons lindice de Paasche des prix en 2003, base 100 en 1980, de deux faons : partir de la dfinition et comme moyenne harmonique des indices lmentaires de prix.
L2003 /1980 ( P ) =
Q P Q P
t i i =1 i =1 2
t t i i
100 =
0
18 0,75 + 2,10 16,5 100 = 285,14 , soit une augmenta18 0,1525 + 2,10 6,74
tion de 185,14 %. Paasche sintresse au mode de consommation du consommateur de 2003 : si ce dernier avait consomm en 1980 de la mme faon quen 2003, cela lui aurait cot 185,14 % plus cher en 2003 quen 1980. En utilisant la proprit de lindice des prix de Paasche, on vrifie que la valeur de cet indice est la moyenne harmonique des indices lmentaires de prix pon-
Les indices
231
dre par les coefficients budgtaires de lanne courante : pour la baguette, 0,75 I 2003 /1980 ( P1 ) = 100 = 491,80 et C10 = 0,2808 ; pour la viande de buf, 0,1525 16,5 t I 2003 /1980 ( P2 ) = 100 = 244,96 et C2 = 0,7192 , ce qui donne pour lindice des prix de 6,74 1 1 Laspeyres : Pt / 0 ( P ) = 2 = = 285,14 . t 0,2808 0,7192 Ci + 491,8 244,96 i =1 It /0 ( P i) On note que lindice des prix de Paasche est infrieur lindice des prix de Laspeyres, ce qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison entre ces indices (voir section 2.4).
P Q
t i =1 n i i =1
t i
PitQi0
100 .
Proprit
Lindice des quantits de Paasche est la moyenne harmonique pondre des indices lmentaires de quantits des biens composant le panier, les coefficients de pondration tant les coefficients budgtaires de lanne courante. Indice des quantits de Paasche
Exemple 8.11
Reprenons lexemple 8.7 et calculons lindice de Paasche des quantits en 2003, base 100 en 1980 :
P2003 /1980 ( Q ) =
P Q
t i
t i
P Q
t i i =1
i =1 2
0 i
soit
une
augmentation de 33,22 % des quantits. On note que lindice des quantits de Paasche est infrieur lindice des quantits de Laspeyres, ce qui nest pas un hasard ; nous reviendrons plus loin sur la comparaison entre ces indices (voir section 2.4).
232
Statistique descriptive
2.4
P Q
t i
t i
P Q
0 i i =1
i =1 n
100 . On
0 i
rappelle (voir section 2.1) que V 0 et V t sont les valeurs globales dun panier aux annes de base et courante, telles que V 0 = Pi0Qi0 et V t = Pit Qit .
i =1 i =1 n n
Proprit
Lindice de valeur globale est li aux indices de Laspeyres et de Paasche par la relation suivante : 100It / 0 (V ) = Lt / 0 (P ) Pt / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (P ) .
La preuve est immdiate, elle sobtient en utilisant les dfinitions des indices de Laspeyres et de Paasche.
Les indices
233
prix augmentent beaucoup, alors que la part de ces produits va diminuer dans le panier du consommateur.
Proprit Pseudo-rversibilit : si lon inverse le temps dans un indice de Laspeyres, on obtient une relation qui sapparente la rversibilit, mais avec un indice de Paasche, 104 L 0 / t (P ) Pt / 0 (P ) = 104 , soit L 0 / t (P ) = . Pt / 0 (P )
2.5
Dfinition
Lindice synthtique de Fisher est dfini comme tant la moyenne gomtrique des indices de Laspeyres et de Paasche. Pour les prix : Ft / 0 (P ) = Lt / 0 (P ) Pt / 0 (P ) . Pour les quantits : Ft / 0 (Q ) = Lt / 0 (Q ) Pt / 0 (Q ) .
Proprit
Exemple 8.12
Reprenons lexemple 8.7 et calculons lindice des prix de Fisher, en 2003, base 100 en 1980 :
F2003 /1980 ( P ) = L2003 /19800 ( P ) P2003t /19800 ( P ) = 313,66 285,14 = 299, 06 , soit une aug-
mentation de 199,06 %. On notera que lindice de Fisher est toujours compris entre lindice de Paasche et celui de Laspeyres puisquil est dfini comme leur moyenne gomtrique.
234
Statistique descriptive
Conclusion
lissue de ce chapitre, le lecteur doit connatre les diffrents indices, lmentaires et synthtiques, ainsi que leurs proprits qui sont rsumes dans le tableau ci-aprs. Mais il est videmment extrmement important ce stade de se familiariser avec les grands indices conomiques, boursiers, et de donner un sens ces formules.
Indice Notation Rfrence Moyenne Laspeyres (1864) L Anne de base Arithmtique Paasche (1874) P Anne courante Harmonique Gomtrique Fisher (1922) F
Pondrations Coefficients budgtaires anne de base Coefficients budgtaires anne courante Rversibilit Non Circularit Agrgation Effet Non Oui Survalue la hausse Non Non Oui Sous-value la hausse Oui Non Non
On note que : La moyenne gomtrique de deux nombres est comprise entre ces deux nombres, on a donc en gnral : Pt / 0 Ft / 0 Lt / 0 . Les trois indices synthtiques sont lis par la relation : Ft / 0 ( P ) Ft / 0 ( Q ) = Lt /0 ( P ) Pt /0 ( Q ) = Lt /0 ( Q ) Pt / 0 ( P ) = 100 I t /0 (V ) . Cette relation se dmontre facilement partir de la dfinition de lindice de Fisher et de la relation liant les indices de Laspeyres, Paasche et lindice de valeur globale (section 2.4). Lindice de Fisher na pas une structure de moyenne comme les indices de Paasche et de Laspeyres ; il ne satisfait pas la proprit dagrgation. En effet, les indices de Laspeyres et de Paasche ont des structures de moyennes, ce qui permet dutiliser des moyennes partielles, cest--dire de scinder lensemble considr en plusieurs sousensembles ; ces indices possdent la proprit dagrgation. Par exemple, pour calculer lindice des prix la consommation, qui regroupe 305 postes de dpenses, on utilise la formule de Laspeyres, mais, au pralable, on procde des regroupements par grandes fonctions : alimentation, produits manufacturs, services, etc., on calcule les indices partiels de Laspeyres de chacun de ces regroupements, puis on effectue la moyenne arithmtique des indices partiels en prenant pour coefficients de pondration les parts de chacun de ces regroupements dans la valeur de la consommation totale. On a alors agrg les produits en groupes, et on peut publier des indices partiels.
Les indices
235
Problmes et exercices
Les indices autorisent les comparaisons de donnes longitudinales, en figeant un point de comparaison selon la base annuelle retenue. Lexercice 1 expose le calcul des indices lmentaires et leurs proprits. Lexercice 2 sintresse aux indices particuliers que sont les indices synthtiques. Lexercice 3 propose une lecture de ces indices par les coefficients budgtaires et montre que ces indices sont lis entre eux.
1. Calculez les indices relatifs au revenu moyen disponible par mnage, nots IRM : a. IRM1999 / 1990 ; b. IRM1990 / 1975 ; c. IRM1999 / 1975 laide de la proprit de circularit ; d. IRM1975 / 1999 laide de la proprit de rversibilit. 2. Calculez les indices relatifs au nombre de mnages, nots INM : a. INM1999 / 1990 ; b. INM1990 / 1975 ; c. INM1999 / 1975 laide de la proprit de circularit ; d. INM1975 / 1999 laide de la proprit de rversibilit. 3. En utilisant la proprit lie la multiplication, calculez les indices relatifs au revenu disponible des Franais, nots IRF : a. IRF1999 / 1990 ; c. IRF1999 / 1975 ; b. IRF1990 / 1975 ; d. IRF1975 / 1999.
236
Statistique descriptive
V1999 26 612 100 = 100 , soit IRM1999 / 1990 = 100,31. Le revenu moyen 1990 V1990 26 529 disponible par mnage a augment de 0,31 % entre 1990 et 1999. V 26 529 b. IRM1990 = 1990 100 = 100 , soit IRM1990 / 1975 = 115,26. Le revenu moyen 1975 V1975 23 016 disponible par mnage a augment de 15,26 % entre 1975 et 1990. c. En sappuyant sur la proprit de circularit, IRM1999 = IRM1999 IRM1990 /100 = 100,31 115,26 /100 , soit IRM1999 / 1975 = 115,62.
1. a. IRM1999
1975
1990
1975
Le revenu moyen disponible par mnage a augment de 15,62 % entre 1975 et 1999. 10 000 10 000 d. En sappuyant sur la proprit de rversibilit, IRM1975 = = , soit 1999 IRM1999 115,62
1975
IRM1975 / 1999 = 86,49. Le revenu moyen disponible par mnage en 1975 reprsente 86,49 % du revenu disponible par mnage en 1999. V 23 808 2. a. INM1999 = 1999 100 = 100 , soit INM1999 / 1990 = 110,52. Le nombre de 1990 V1990 21 542 mnages a augment de 10,52 % entre 1990 et 1999. V 21542 b. INM1990 = 1990 100 = 100 , soit INM1990 / 1975 = 121,40. Le nombre de mna1975 V1975 17 745 ges a augment de 21,40 % entre 1975 et 1990. c. En sappuyant sur la proprit de circularit, INM1999 = INM1999 INM1990 /100 = 110,52 121, 40 /100 = INM1999 / 1975 = 134,17.
1975 1990 1975
10 000 INM1999
1975
INM1975 / 1999 = 74,53. Le nombre de mnages en 1975 reprsente 74,53 % du nombre de mnages en 1999. 3. a. En sappuyant sur la proprit des indices relative la multiplication, on obtient : IRF1999 = IRM1999 INM1999 /100 = 100,31 110,52 /100 , soit IRF1999 / 1990 = 110,86.
1990 1990 1990
Le revenu disponible des Franais a augment de 10,86 % entre 1990 et 1999. b. En sappuyant sur la proprit des indices relative la multiplication, on obtient : IRF1990 = IRM1990 INM1990 /100 = 115,26 121, 40 /100 , soit IRF1990 / 1975 = 139,93.
1975 1975 1975
Le revenu disponible des Franais a augment de 39,93 % entre 1975 et 1990. c. De mme, on obtient : IRF1999 = IRM1999 INM1999 /100 = 115,62 134,17 /100 ,
1975 1975 1975
soit IRF1999 / 1975 = 155,13. Le revenu disponible des Franais a augment de 55,13 % entre 1975 et 1999. d. De mme, on obtient : IRF1975 = IRM1975 INM1975 /100 = 86, 49 74,53 /100 , soit
1999 1999 1999
IRF1975 / 1999 = 64,46. Le revenu disponible des Franais en 1975 reprsente 64,46 % du revenu disponible des Franais en 1999.
Les indices
237
1. Calculez lindice des prix de Laspeyres en 2007 base 100 en 2006. Interprtez. 2. prix constants (base 2006), quelle est laugmentation des nuites entre 2006 et 2007 ? Quel indice connu avez-vous calcul ? 3. Calculez lindice des quantits de Paasche en 2007 base 100 en 2007. Interprtez. 4. nuites constantes (base 2007), quelle est laugmentation du prix des chambres entre 2006 et 2007 ? Quel indice connu avez-vous calcul ? 5. Calculez les indices de Fisher en 2007, base 100 en 2006 : a. des prix ; b. des quantits.
1. Afin de pouvoir calculer lindice des prix de Laspeyres en 2007 (base 2006), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2006 et des prix 2006 par les quantits 2006.
Les produits et leurs sommes sont calculs dans les colonnes F et G de la figure 8.1.
Figure 8.1
Rsultats sous Excel.
Do :
2007
2006
(P) = 100
p
i =1 4 i =1
i 2007
i q2006
i i q2006 p2006
= 100
2007
2006
(P ) = 104,71 .
quantits constantes (base 2006), les prix des chambres dhtel, toutes catgories confondues, ont augment de 4,71 % entre 2006 et 2007.
238
Statistique descriptive
2. Afin de pouvoir calculer laugmentation des nuites entre 2006 et 2007 prix constant (base 2006), il est ncessaire de connatre les sommes des produits des prix 2006 par les quantits 2007 et des prix 2006 par les quantits 2006. Il sagit de calculer lindice des quantits de Laspeyres entre 2006 et 2007 (base 2006).
Les produits des prix 2006 par les quantits 2007 et leur somme sont prsents la suite des prcdents calculs, dans la colonne H de la figure 8.1.
Do :
2007
2006
(Q) = 100
p p
i =1 i =1 4
i 2006
i q2007
= 100 q
i 2006
i 2006
2007
2006
(Q) = 102,61 .
prix constants (base 2006), le nombre de nuites, toutes catgories dhtel confondues, a augment de 2,61 % entre 2006 et 2007.
3. Afin de pouvoir calculer lindice de Paasche des quantits entre 2006 et 2007 (base 2007), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2007 et des prix 2007 par les quantits 2006.
Les produits des prix 2007 par les quantits 2007 et leur somme sont prsents la suite des prcdents calculs, dans la colonne I de la figure 8.1.
Do :
2007
2006
(Q) = 100
p
i =1 4 i =1
i 2007
i q2007
i i q2006 p2007
= 100
2007
2006
(Q) = 102,48 .
prix constants (base 2007), le nombre de nuites, toutes catgories dhtel confondues, a augment de 2,48 % entre 2006 et 2007.
4. Afin de pouvoir calculer laugmentation des prix des chambres entre 2006 et 2007 nuites constantes (base 2007), il est ncessaire de connatre les sommes des produits des prix 2007 par les quantits 2007 et des prix 2006 par les quantits 2007. Il sagit de calculer lindice de Paasche des prix entre 2006 et 2007 (base 2007).
Do :
2007
2006
(P ) = 100
p
i =1 4 i =1
i 2007
i q2007
i i q2007 p2006
= 100
2007
2006
(P ) = 104,58 .
quantits constantes (base 2007), les prix des chambres dhtel, toutes catgories confondues, ont augment de 4,58 % entre 2006 et 2007.
5. a.
F soit F
2007
2006
(P ) =
L L
2007
2006
(P) P 2007
2006
2007
2006
(P ) = 104,65 .
2007 2006
b.
F soit F
2007
2006
(Q) =
(Q) P 2007
2006
2007
2006
(Q) = 102,54 .
Les indices
239
Ces indices de Fisher sont dans chaque cas compris entre les indices de Laspeyres et de Paasche, ce qui est une obligation mathmatique due leur statut de moyenne. Pour les prix, par exemple, lindice de Laspeyres a tendance surestimer les augmentations, lindice de Paasche les sous-estimer, lindice idal de Fisher se voulant un juste compromis entre ces deux tendances.
128,305 130,626 132,517 136,163 29,378 45,472 29,877 46,182 29,684 46,521 30,266 46,923
Logement, eau, gaz, lectricit et autres combustibles 209,182 220,424 234,899 250,150 Meubles, articles de mnage et entretien courant de lhabitation Sant Transport Communications Loisirs et culture ducation Htels, cafs et restaurants Autres biens et services
Source : Insee, 2007
53,331 29,154
55,753 30,995
57,379 32,583
58,870 33,936
127,489 134,619 142,175 146,247 24,380 82,862 5,730 56,086 25,447 87,084 6,202 57,971 26,868 89,380 6,729 59,682 27,970 92,637 7,385 61,970
Les indices chans des prix la consommation entre ces deux mmes annes vous sont galement communiqus (base 100 lanne prcdente) :
Dsignation du poste Prod. alimentaires et boissons non alcoolises Boissons alcoolises et tabac Articles dhabillement et chaussures 2003 2004 2005 2006
103,666 101,809 101,448 102,751 99,660 101,699 99,354 101,961 102,888 101,563 100,734 100,863
Logement, eau, gaz, lectricit et autres combustibles 105,764 105,375 106,567 106,493 Meubles, articles de mnage et entretien courant de lhabitation Sant 103,505 104,543 102,916 102,598 104,392 106,316 105,123 104,152
240
Statistique descriptive
Dsignation du poste Transport Communications Loisirs et culture ducation Htels, cafs et restaurants Autres biens et services
Source : Insee, 2007
2003
2004
2005
2006
101,151 105,593 105,612 102,865 107,375 104,377 105,584 104,102 103,480 105,096 102,637 103,643 106,470 108,237 108,497 109,749 103,958 103,361 102,951 103,834 103,554 103,877 103,039 105,112
1. Calculez le coefficient budgtaire de chaque fonction de consommation pour chacune des annes de 2003 2006. 2. Proposez le tableau des indices des prix la consommation, base 100 en 2003, pour chacune des annes 2003, 2004, 2005 et 2006. 3. Calculez lindice des prix la consommation en 2006, base 100 en 2003, selon la mthode de Laspeyres. 4. Calculez, selon la mthode de Paasche, lindice des prix en 2006, base 100 lanne 2003. 5. De combien a augment la consommation des mnages en volume entre lanne 2003 et lanne 2006 ?
1. Le coefficient budgtaire reprsente le poids de la fonction de consommation dans lensemble des dpenses du mnage.
Il convient dans un premier temps de calculer la somme des dpenses totales des mnages. Par exemple, la dpense des mnages en 2003 est de 128,305 + 29,378 + + 98,53 = 889,897 milliards deuros. Ensuite, il suffit de calculer la part de chaque poste dans le montant de ces dpenses. Par exemple, les produits alimentaires et boissons non alcoolises reprsentent 128,305 milliards deuros sur les 889,897 milliards deuros de dpense des mnages en 2003, soit 14,42 %. Ces calculs sont dtaills dans la figure 8.2.
Figure 8.2
Rsultats sous Excel.
Les indices
241
2. Les indices en 2003 valent tous 100, puisquil sagit de lanne de rfrence.
Les indices en 2004 conservent leur valeur puisquil tait en base 100 lanne prcdente, cest--dire 2003. Pour calculer les indices lmentaires en 2005 et 2006, base 100 lanne 2003, on utilise la proprit de circularit (transfrabilit) des indices lmentaires : I2005 = I2005 I2004 /100 .
2003 2004 2003
= I2005
2004
I2004
2003
Figure 8.3
Rsultats sous Excel.
3. Lindice de Laspeyres est la moyenne arithmtique des indices lmentaires pondrs par les coefficients budgtaires de lanne de base.
Ainsi,
2006
2003
soit
2006
2003
(P) = 108,25 .
4. Lindice de Paasche est la moyenne harmonique des indices lmentaires pondrs par les coefficients budgtaires de lanne de base.
Ainsi, soit
2006
2003
(P ) =
2006
(P) = 108,18 .
2003
5. On sait quun indice de valeur globale est le produit dun indice de volume par un indice de prix ; plus prcisment, selon lindice des prix que nous retenons, lindice de volume de la consommation des mnages varie.
Si nous retenons lindice des prix de Laspeyres, lindice de volume est un indice de Paasche, et symtriquement, en utilisant lindice des prix de Paasche, nous obtenons un indice de volume de Laspeyres, selon la formule :
2006
2003
(Q) p 2006
2003
(V ) .
2003
242
Statistique descriptive
Nous allons calculer les indices des quantits de Laspeyres et de Paasche. Commenons par lindice de Laspeyres. Lindice des prix de Paasche est :
2006
globale de la consommation des mnages en 2006, base 100 lanne 2003 : 1003, 368 I 2006 2003 (V) = 889,897 100 , soit I 2006 2003(V ) = 112,75 . On obtient alors :
2006
2003
(Q) =
I p
2006
(V )
2003
100 =
2006
(P)
2003
2006
2003
2003 et lanne 2006, la consommation des mnages a augment selon la mthode de Laspeyres de 4,23 % en volume. En utilisant lindice des prix de Laspeyres, on obtient :
2006
2003
(Q) =
I L
2006
2003
(V ) (P)
100 =
2006
2006
2003
2003
2003 et lanne 2006, la consommation des mnages a augment selon la mthode de Paasche de 4,16 % en volume.
Bibliographie
CHAREILLE P. et PINAULT Y., Statistique descriptive, Collection AES, Montchrestien, Paris, 1996. DAMON J.-P., La mthode statistique en conomie, ditions Paris-8 Vincennes, 1976. DUPONT-KIEFFER A., Ragnar Frisch et lconomtrie : linvention de modles et dinstruments des fins normatives, Thse pour le doctorat en science conomique (arrt du 30 mars 1992), universit Paris-1 Sorbonne, 2003. DODGE Y., Statistique. Dictionnaire encyclopdique, Springer, 2004. DROESBEKE J.-J. et TASSI Ph., Histoire de la statistique, Que sais-je ?, PUF, 1990. FERREOL G. et SCHLACTHER D., Dictionnaire des techniques quantitatives appliques aux sciences conomiques et sociales, Armand Colin, 1995. LIORZOU A., Initiation la pratique statistique, Eyrolles, 1979. GUERBER L et HENNEQUIN P.-L., Initiation la statistique, Bibliothque denseignement mathmatique A.P.M.E.P., 1967. INSEE METHODES, Pour comprendre lindice des prix, dition 1998. SCHLACTHER D., De lanalyse la prvision, Ellipses, 1986.
Les indices
243
Annexes
244
Statistique descriptive
Annexes
245
Index
A
Ajustement linaire Voir Droite de rgression non linaire, 162, 175 Amplitude de classe, 6, 13, 25, 28, 30 Analyse de variance, 154, 164 Aplatissement, 88 Asymtrie, 85, 95 de rang, 163, 179 linaire, 156, 164 de dtermination, 164, 170, 175 de Kendall, 86 de Spearman Voir Coefficient de corrlation de rang de variation, 71, 76, 77 de Yule, 86, 95 saisonnier, 199, 201, 204, 207, 210 Composante extra-saisonnire, 190, 200, 202 gnrale, 190, 200, 202 rsiduelle, 190, 200, 202 saisonnire, 190, 198, 200, 202 Corrlation, 147 Courbe de concentration, 104 de rgression, 146 Covariance, 117, 139 formule dveloppe, 118 proprits, 118 Cycle, 190, 200, 202
B
Bote moustaches, 65, 75, 85, 95 Box plot Voir Bote moustaches
C
Caractre, 18, 22, 25, 27, Voir Variable Centile, 51, 56 Centre de classe, 6 Classe, 6 Coefficient budgtaire, 228, 240 daplatissement de Fisher, 89, 98 de Pearson, 89, 98, 100 dasymtrie de Fisher, 87, 95 de Pearson, 86, 95, 100 de corrlation
D
Dcile, 50 Degr de libert, 122 Densit, 12, 25, 28, 36 Diagramme circulaire, 11, 22
246
Statistique descriptive
cumulatif Voir Fonction de rpartition de Tukey Voir Bote moustaches en barres Voir Diagramme en tuyaux dorgue en btons, 12, 18, 98 en tuyaux dorgue, 11 Discrtisation, 8, 27 Distribution, 8, 11, 12, 13, 22, 25, 26, 29, 51, 65, 77 Donne brute, 8 Droite de rgression, 150, 164, 170, 174, 210, 214
de valeur globale, 233 des prix, 229, 231, 238, 240 des quantits, 230, 232, 238 lmentaire, 220, 236 proprits, 223, 229, 231, 234, 236 synthtique, 226, 238 Individu, 2 Intervalle interquantile Voir cart interquantile
K-L E
cart absolu moyen, 66, 73 intercentile, 64, 74 interdcile, 64, 74 interquantile, 64, 73 interquartile, 64, 74 saisonnier, 199, 201 type, 66, 76, 77, 79 conditionnel, 115 marginal, 114 chantillon, 2 Effectif, 3, 8 corrig, 13, 25, 28 cumul, 8, 22 croissant, 9, 18 dcroissant, 9, 18 marginal, 109, 132 partiel, 109, 132 tendue, 64, 73 Kurtosis, 88 Leptocurtique, 89 Loi de Fisher, 161 de Student, 158 normale, 84
M
Mdiale, 91, 104 Mdiane, 45, 54, 55, 56, 59, 95 Mthode analytique, 190, 210, 214 empirique, 193, 194, 204, 207 Modalit, 3, 18, 22, 25, 27 Mode, 36, 38, 54, 55, 56, 59, 95 Modle additif, 197, 204, 207, 210 multiplicatif, 197, 214 Moindres carrs ordinaires, 150, 170, 174 Moyenne, 39, 55, 56, 59, 95 arithmtique, 39 conditionnelle, 115, 135 chelonne, 192 gomtrique, 42, 60 harmonique, 43, 61 marginale, 114, 135, 139 mobile, 207 centre, 194 non centre, 193 proprits, 41, 79 quadratique, 44
F
Fonction affine, 150 de rpartition, 15, 22 Frquence, 8, 21 absolue, 3 conditionnelle, 112, 132 cumule, 8, 29 croissante, 9, 18 dcroissante, 9, 18 marginale, 111, 132 partielle, 111, 132 proprits, 4 relative, 3
N-P
Nature, 4, 18, 22, 25, 27, 127, 131 Platicurtique, 89 Polygone des effectifs, 16, 59 des frquences, 29 Population, 2, 18, 22, 25, 27 Pyramide Voir Diagramme en tuyaux dorgue
G-I
Graphique semi-logarithmique, 175 Histogramme, 12, 25, 26, 29, 59, 100 Indpendance, 120 Indice de Fisher, 234, 238 de Gini, 93, 104 de Laspeyres, 229, 238, 240 de Paasche, 231, 238, 240
Q
Quantile, 44 Quartile, 50, 55, 56, 59
Index
247
R
Rgression courbe, 146 droite, 150, 164, 170, 174, 210, 214
S
Srie ajuste, 203, 204, 207, 210, 214 brute, 204, 207, 210, 214 chronologique, 187 CVS, 202, 204, 207, 210, 214 temporelle, 187
de Fisher, 170, 175 de Student, 159, 164, 170, 175 du khi-deux, 121, 135, 139 Tri plat, 8 crois Voir Tableau de contingence
V
Variable qualitative, 4 nominale, 4 ordinale, 5 quantitative, 6, 8 continue, 6, 25, 27 discrte, 6, 19, 22 statistique, 3 variance dcomposition, 164 Variance, 66, 76 conditionnelle, 115, 135 dcomposition, 154 formule dveloppe, 68, 77 marginale, 114, 135, 139 proprits, 69, 79
T
Tableau crois Voir Tableau de contingence de contingence, 109, 127, 131 lmentaire, 8 simple, 108 statistique, 8, 18, 27 Tendance, 190, 200, 202, 204, 207, 210, 214 Test, 121 de corrlation, 159, 164, 170, 175
248
Statistique descriptive
Sciences de gestion
&
Statistique descriptive
avec Excel et la calculatrice
Ce livre est une introduction complte la statistique descriptive. la fois accessible tous et dune grande rigueur mathmatique et statistique, il prsente dabord les notions fondamentales (variables statistiques et graphiques), pour dtailler ensuite les caractristiques de tendance centrale (moyenne, mdiane, etc.), de dispersion (cart-type, variance), de forme et de concentration, les tableaux croiss, la rgression linaire et non linaire, les sries chronologiques et les indices. Il aborde galement les tests statistiques (notamment le test du Khi-deux) et permet dapprofondir vers la statistique infrentielle et lconomtrie. Toutes les notions sont illustres partir de donnes relles issues des observatoires statistiques (INSEE, Mdiamtrie). Les exercices occupent une part importante de louvrage et sont appliqus la gestion, lconomie et aux sciences humaines. Les corrections dtaillent tous les calculs et sont prsentes soit laide du tableur Excel soit de la calculatrice (graphique ou scientifique). Ce double choix donne au livre une dimension pratique prcieuse et en fait un vritable outil de travail. Louvrage sadresse aux tudiants de licence en sciences de gestion, en conomie, en AES et en sciences humaines, ainsi quaux tudiants en IUT et en coles de management. Toutes les donnes des exercices au format Excel, ainsi que des exemples supplmentaires, sont disponibles sur le site www.pearson.fr.
Jean-Claude Kahan est enseignant luniversit Paris 8 VincennesSaint-Denis et lcole nationale dassurance (ENASS). Il enseigne les statistiques, les probabilits et les mathmatiques. Il est galement membre du jury de CAPES externe de sciences conomiques et sociales.
Direction de collection :
Roland Gillet, professeur luniversit Paris 1 Panthon-Sorbonne
La collection Synthex propose aux gestionnaires et aux conomistes de dcouvrir ou de rviser une discipline et de se familiariser avec ses outils au travers dexercices rsolus.
Chaque ouvrage prsente une synthse pdagogique et rigoureuse des techniques et fondements thoriques, quune slection dexercices aux corrigs dtaills permet dassimiler progressivement. Le lecteur, tudiant ou professionnel, est ainsi conduit au cur de la discipline considre, et, via la rsolution de nombreux problmes, acquiert une comprhension rapide et un raisonnement solide. ISBN : 978-2-7440-4052-8
Pearson Education France 47 bis, rue des Vinaigriers 75010 Paris Tl. : 01 72 74 90 00 Fax : 01 42 05 22 17 www.pearson.fr