Vous êtes sur la page 1sur 196

Statistique Descriptive

Fabrice MAZEROLLE

Notes de cours

Dernire mise jour le jeudi 12 fvrier 2009


(Les liens vers les fichiers EXCEL ont t restaurs sil reste des liens casss, merci de me le signaler fabrice.mazerolle@univ-cezanne.fr )

1re anne de Licence AES Marseille & Aix

Rsum du cours

Ce cours dintroduction la statistique descriptive de niveau L1 a pour objet de donner les outils de bases permettant de dcrire une population statistique. Une premire section est consacre la dfinition des termes habituellement utiliss en statistique descriptive. Le chapitre 2 introduit loutil de base danalyse des chiffres : le tableau. Le chapitre 3 est consacr la prsentation des principales statistiques permettant de rsumer une masse de chiffres. Le chapitre 4 traite des formules de base utilises dans lanalyse des volutions temporelles impliquant des grandeurs quantitatives. Le chapitre 5 complte les quatre chapitres prcdents en dcrivant lventail des graphiques statistiques. Le chapitre 6 peut tre conu comme une premire tape vers la statistique mathmatique, bien que restant rattach la statistique descriptive : il prsente les outils de base de lanalyse des tendances et des corrlations. Enfin le chapitre 7 est essentiellement utile ltudiant en conomie : il traite de la courbe de LORENZ et du coefficient de GINI, deux outils complmentaires dont les principales applications sont lanalyse de la plus ou moins grande galit de la rpartition dune masse (de revenu, de richesse, de ressources, etc.) au sein dune population.

Pour toute question ou suggestion relative ce cours, merci de madresser un mail fabrice.mazerolle@univ-cezanne.fr

Note sur les calculs et les arrondis : Dans le cours qui suit, pour limiter les erreurs dj trop nombreuses, les calculs sont toujours effectus la machine ou avec un logiciel (EXCEL le plus souvent). Les rsultats finaux imprims sont presque toujours arrondis pour faciliter la lecture. Cependant lorsquun rsultat ncessite plusieurs calculs intermdiaires, les calculs intermdiaires sont videmment effectus par la machine ou par le logiciel en conservant toutes les dcimales (dans la limite des capacits de la machine ou du niveau de prcision choisi ou fix par dfaut), seul le dernier rsultat tant arrondi au plus proche (mthode de larrondi arithmtique). La mthode de larrondi arithmtique consiste choisir, la droite de la virgule, le dernier chiffre conserver, puis augmenter ce chiffre d'une unit si le chiffre suivant vaut au moins 5 ( arrondissage par excs ) et conserver ce chiffre si le suivant est strictement infrieur 5 ( arrondissage par dfaut ) Par exemple, 3,046 arrondis aux centimes valent 3,05 (le chiffre suivant (6) est suprieur 5). Voici d'autres exemples en ne gardant qu'un seul chiffre significatif aprs la virgule : 1,349 devient 1,3 (car le chiffre suivant 3 est strictement infrieur 5) 1,350 devient 1,4 (car le chiffre suivant 3 vaut au moins 5)

Cette mthode est celle applique par dfaut dans le logiciel EXCEL quand on choisit le nombre de dcimales partir des icnes ci-aprs :

Voir larticle Wikipdia sur la notion darrondi pour un aperu des autres mthodes darrondi : http://fr.wikipedia.org/wiki/Arrondi

Les machines calculer tant autorises lexamen, les tudiants sont invits appliquer aussi cette mthode.

Sommaire

Chapitre 1 : Vocabulaire de la statistique descriptive Chapitre 2 : Les tableaux statistiques Chapitre 3 : Statistiques permettant de rsumer une srie Chapitre 4 : Indices et progressions Chapitre 5 : Diagrammes et graphiques Chapitre 6 : Tendances et corrlations Chapitre 7 : Courbe de LORENZ et coefficient de GINI Bibliographie

Chapitre 1 Vocabulaire de la statistique descriptive 0 Introduction 1 Dfinition du champ de la statistique descriptive 2 Terminologie A Population et units statistiques B Echantillons et sous-ensembles dune population 1) Echantillon et population 2) Rpartition des units statistiques selon diffrents critres C - Critres de classification 1) Critres quantitatifs 2) Critres qualitatifs 3 Modes de regroupement des units statistiques A - Srie simple B - Distribution par valeurs ou par modalits 1) Distribution par valeurs 2) Distribution par modalits C - Regroupement par catgories 1) Catgories de valeurs 2) Catgories de modalits 4 Rsum 0 Introduction Ce chapitre prsente le champ de la statistique descriptive et son vocabulaire de base. 1 Dfinition du champ de la statistique descriptive On divise gnralement l'tude de la statistique gnrale en deux parties : La statistique descriptive, qui est un ensemble de mthodes permettant de dcrire les units statistiques (voir la section 2 pour une dfinition plus prcise du terme "unit statistique") qui composent une population (voir la section 2 pour une dfinition plus prcise du terme "population"). La statistique mathmatique dont l'objet est de formuler des lois partir de l'observation d'chantillons, c'est--dire de tirages limits effectus au sein dune population. La statistique mathmatique intervient dans les enqutes et les sondages. Elle s'appuie sur la statistique descriptive, mais aussi sur le calcul des probabilits.

La statistique, quelle soit descriptive ou mathmatique, est employe dans toutes les sciences, ainsi que dans la vie quotidienne. Son utilisation trs intensive dans le champ de lconomie a fait natre une nouvelle expression : Lconomtrie. Lconomtrie est lapplication de la statistique (descriptive et mathmatique) la mesure et ltude chiffre des grandeurs conomiques. De la mme faon, on emploie parfois lexpression (un peu vieillie) de sociomtrie , pour parler de lapplication de la statistique (descriptive et mathmatique) la mesure et ltude chiffre des grandeurs sociologiques 2 - Terminologie A Population et units statistiques En statistique, la population dsigne un ensemble d'units statistiques. Les units statistiques sont les entits abstraites qui reprsentent des personnes, des populations d'animaux ou des objets. Les premires populations ayant fait l'objet dun recensement ayant t des populations humaines (d'o le lien troit entre statistique et dmographie) le terme "individu" est parfois employ comme synonyme du terme "unit statistique".

La statistique sert dcrire l'ensemble des units statistiques qui composent la population. On commence par compter ces units. La premire information statistique que l'on tire d'une population est en effet le nombre de ses units. Exemple : Le tableau 1 ci-aprs qui contient des statistiques macroconomiques relatives aux 27 pays de lUE, plus huit de ses principaux partenaires commerciaux. Lunit statistique tant le pays, le tableau contient une population de 35 units statistiques. Tableau 1 : Quelques statistiques macroconomiques des pays de lUE 27 et de huit de ses partenaires commerciaux

B Echantillons et sous-ensembles dune population 1) Echantillon et population Il est frquent que lon prlve un chantillon dans une population statistique. Le diagramme dEULER ci-aprs dcrit le lien entre lchantillon et la population. Le lien entre lchantillon et la population

En gnral, on parle dchantillon dune population statistique quand les units statistiques sont tires au sort ou alors choisies par une mthode qui permet dassurer la reprsentativit de lchantillon par rapport la population totale. Cependant, ces dfinitions ne concernent plus directement la statistique descriptive mais plutt la statistique mathmatique. 2) Rpartition des units statistiques selon diffrents critres Par ailleurs, il est frquent aussi que lon divise une population en sous-ensembles au moyen de certains critres (ou dimensions ou encore caractristiques). Prenons pour exemple la population des 35 pays du tableau 1. Ces 35 pays sont les units statistiques du tableau. Nous souhaitons par exemple dcouper cette population entre trois sous ensembles, suivant les critres de la monnaie utilise et lappartenance lUE 27.

On aura donc, comme lillustre le schma ci-aprs : 16 pays membres de lUE 27 qui font partie de la zone Euro au 1er janvier 2009, 11 pays membres de lUE 27 qui ne font pas (encore) partie de la zone Euro au 1er janvier 2009 8 pays partenaires de lUE 27 et qui utilisent dautres monnaies. Les 35 pays du tableau 1 rpartis selon deux critres

C - Critres de classification Nous avons vu dans lexemple prcdent que les units statistiques dune population pouvaient tre regroupes suivant des dimensions ou critres. Ces critres sont choisis en fonction de ce qui intresse le statisticien.

10

On distingue deux sortes de critres : Les critres quantitatifs Les critres qualitatifs

1) Critres quantitatifs Les critres quantitatifs sont les critres qui sont reprsents par des nombres et sur lesquels les oprations arithmtiques de base ont un sens. Les critres quantitatifs sont souvent appels variables. Par exemple, dans le tableau 1 , on peut voir que la superficie est un critre de classification quantitatif. Cest une variable dont les diffrentes occurrences sont des valeurs. Chacune des 35 units statistiques de notre population est caractrise par une valeur diffrente. La superficie est donc, dans notre cas particulier, une variable qui prend 35 valeurs diffrentes. Cest un cas particulier dans lequel le nombre de valeurs de la variable est gal au nombre des units statistiques de la population. Nous verrons que dans des cas de ce type (ou bien lorsque le nombre de valeurs possibles, bien quinfrieur au nombre dunits statistiques de la population, est grand) un regroupement par classes de valeurs est gnralement effectu. Les critres quantitatifs ou variables permettent de faire des calculs. On peut par exemple additionner les superficies, fa ire le rapport de la plus grande superficie la plus petite, calculer des moyennes, etc. 2) Critres qualitatifs Les critres qualitatifs sont tous les critres qui ne sont pas reprsents par des nombres 1. Pour les distinguer des variables, on les appelle des caractres . Les caractres prennent des modalits. Par exemple, dans le tableau 1, on peut voir que la monnaie utilise dans chaque pays est un critre qualitatif qui possde 20 modalits. Ces modalits sont les diffrentes monnaies. Il y a en effet 16 pays qui ont la modalit euro et les 19 autres qui ont chacun pour modalit une monnaie diffrente. On voit donc dans cet exemple que le nombre de modalits (20) est infrieur celui de la population (35).

Ou qui sont parfois cods par des nombres sur lesquels les oprations arithmtiques de base nont pas de sens (ou un sens trs limit). Il est frquent par exemple de coder des opinions.

11

3 - Modes de regroupement des units statistiques A - Srie simple Le tableau 1 est un tableau dans lequel les donnes nont pas t regroupes. Cest un tableau de donnes brutes. Nous pouvons lire pour chaque ligne les diffrentes valeurs ou modalits des variables ou des caractres associs chacune des 35 units statistiques de la population. Chaque colonne correspond une srie simple de valeurs ou de modalits. Par exemple, dans le cas de la variable superficie , il y a 35 valeurs diffrentes. Dans le cas du caractre monnaie , il y a 20 modalits. Dans le cas de la variable nombre de frontires terrestres avec dautres pays de lUE 27 , les 35 pays se rpartissent seulement sur 8 valeurs (si lon exclut la valeur 7 ) ou 9 valeurs (si lon inclut la valeur 7 ) 2. Mais une prsentation exhaustive, dans laquelle aucun regroupement nest effectu, nest pas toujours pratique. Le plus souvent les donnes sont collectes et entres dans lordinateur sous forme dun tableau brut), puis elles sont regroupes. B - Distribution par valeurs ou par modalits Suivant que le critre est une variable ou un caractre, on peut effectuer un regroupement par valeurs ou un regroupement par modalits. Dans ce cas, on parle de distribution. En effet, la srie initiale des 35 donnes va tre distribue sur un nombre gnralement infrieur (ou au maximum gal), de valeurs ou de modalits.

La valeur 7 tant associe un effectif nul, on peut dcider de linclure (et dans ce cas il y a 9 valeurs) ou de ne pas linclure (et dans ce cas il y a 8 valeurs). Si la nomenclature des valeurs de la variable est amene servir pour plusieurs populations successives (ou une mme population diffrents temps), il vaut sans doute mieux, pour faire dventuelles comparaisons entre les populations ou les temps, inclure toutes les valeurs, y compris celles associes un effectif nul, car leffectif associ une valeur peut changer selon la population et/ou le temps. Mais ceci ne vaut que si le nombre de valeurs possibles de la variable nest pas trop important (sinon il faut procder un regroupement par classes de valeurs), dnombrable et fini. Cest le cas pour la variable nombre de frontires . Cependant, certaines variables peuvent avoir un nombre infini (dnombrable ou indnombrable) de valeurs. Elles sont alors dites continues (par opposition aux variables non continues qui sont dites discrtes du fait dune traduction abusive de langlais). Cependant, les populations (population = base de donnes) tudies concrtement (populations pour lesquelles des donnes quantitatives ont t runies) sont toujours finies. Par consquent, au sein dune base de donnes, le nombre effectif de valeurs (cest -dire le nombre de valeurs au sein de la population associes un effectif non nul) quune variable peut prendre est toujours dnombrable et fini et au maximum gal au nombre dunits statistiques contenues dans la base de donnes (ou population). En effet, chaque unit statistique ne peut tre caractrise que par une seule valeur de la variable et donc le maximum que lon puisse avoir est une distribution o chaque valeur a pour effectif 1, ce qui correspond au cas o chaque unit statistique est caractrise par une valeur diffrente de la variable. La distinction entre variable discrte et variable continue sappuie aussi sur une autre justification, que nous mentionnons bien quelle nous paraisse source de confusion : une variable est dite valeurs discrtes lorsque les valeurs peuvent tre comptes et est dite valeurs continues lorsque les valeurs peuvent tre mesures. En se rfrant cette distinction, on dira alors que le nombre de pices dun appartement est une variable discrte car on peut compter le nombre de pices. En revanche, si on veut savoir combien mesure chaque personne dun chantillon ou dune population, on procdera une mesure de la taille (idem pour le poids), mesure qui dailleurs sera toujours imprcise, car relative linstrument de mesure utilis.

12

1) Distribution par valeurs Prenons lexemple de la variable nombre de frontires terrestres avec dautres pays de lUE 27 dans le tableau 1. Un regroupement des 35 units statistiques pour chacune des valeurs possibles de la variable donnera alors le tableau suivant : Distribution des pays des pays du tableau 1 selon leur nombre de frontires terrestres avec les pays de lUE 27

2) Distribution par modalits Dans le tableau 1, nous allons choisir la monnaie officielle utilise dans chaque pays comme critre qualitatif pour effectuer un regroupement par modalits. Au 1er janvier 2009, 16 sur les 35 pays sont dans la zone euro et les 19 autres utilisent leur monnaie nationale. Dans ces conditions, un regroupement par modalits, quoique peu utile, donnerait le rsultat suivant :

13

C - Regroupement par catgories Lorsquil y a beaucoup de valeurs ou de modalits, on peut procder regroupement par catgories de valeurs ou par catgories de modalits. 1) Catgories de valeurs Prenons lexemple de la variable superficie dans le tableau 1. Un regroupement des 35 units statistiques pour chacune des valeurs possibles de la variable donnerait un tableau avec 35 valeurs, ce qui naurait aucun intrt. En revanche, on peut crer des classes de valeurs pour les superficies et rpartir les 35 pays lintrieur de ces classes. Comment procder sachant que le plus petit pays (Malte) na quune superficie de 316 km2 et le plus grand pays (La Russie) est caractris par une superficie de 17 075 200 km2 ? Si lon regarde les superficies des diffrents pays, on voit quun trs grand nombre de pays ont des superficies infrieures 600 000 km2. Pour le faire apparatre, classons les pays par ordre croissant de superficies (voir le tableau ci-aprs) un

14

Regroupement des pays par catgories de superficies

Dcoupage du monde en zones selon les catgories de lOMC

Source : OMC, http://www.wto.org/english/res_e/statis_e/its2007_e/its07_world_maps_e.pdf

2) Catgories de modalits Prenons lexemple du caractre pays dans le tableau 1. Un regroupement des 35 units statistiques pour chacune des modalits possibles du caractre donnerait un tableau avec 35 modalits, ce qui naurait aucun intrt. En revanche, on peut crer des classes de modalits pour les pays. On peut par exemple rpartir les 35 pays selon catgories propose par lOrganisation Mondiale du Commerce (voir carte prcdente). Si lon regroupe nos 35 pays selon ces 6 catgories on obtient le tableau suivant : Regroupement des pays selon des catgories gographiques

A noter quil sagit bien dun regroupement par catgories de modalits car chaque pays est en lui-mme une modalit. 4 Rsum La statistique descriptive est un ensemble de mthodes permettant de dcrire les units statistiques qui composent une population La statistique mathmatique s'appuie sur la statistique descriptive, ainsi que sur les probabilits pour formuler des lois partir de l'observation d'chantillons. Lconomtrie est lapplication de la statistique (descriptive et mathmatique) la mesure et ltude chiffre des grandeurs conomiques. En statistique, la population dsigne un ensemble d'units statistiques. Les units statistiques sont les entits abstraites qui reprsentent des personnes, des populations d'animaux ou des objets. On parle dchantillon dune population statistique pour dsigner le prlvement, au hasard ou selon une mthode qui permet dassurer la reprsentativit par rapport la population totale, dun petit nombre dunits statistiques au sein de la population. Par ailleurs, il est frquent aussi que lon divise une population en sous-ensembles au moyen de certains critres (ou dimensions ou encore caractristiques). On distingue deux sortes de critres : les critres quantitatifs et les critres qualitatifs. Les critres quantitatifs sont les critres qui sont reprsents par des nombres et condition que les oprations arithmtiques effectues sur ces nombres aient un sens. Cest la raison pour laquelle on les appelle aussi parfois des variables.

Les critres qualitatifs sont tous les critres qui ne sont pas reprsents de faon numrique. Pour les distinguer des variables, on les appelle des caractres . Les caractres prennent des modalits. Les units statistiques dune population peuvent tre reprsentes sous forme dune srie simple ou regroupes. Lorsquelles sont regroupes on les appelle des distributions. Les units dune population peuvent tre distribues par valeurs (lorsque le critre de regroupement est numrique) ou distribues par modalits (lorsque le critre de regroupement nest pas numrique). On peut aussi effectuer des regroupements par catgories (ou classes) de valeurs ou par catgories (ou classes) de modalits. Lorsquon effectue une distribution par catgories ou classes de valeurs, on peut choisir des classes dgales amplitudes ou des classes dingales amplitudes. Lamplitude de classe est la diffrence entre la valeur suprieure et la valeur infrieure de la classe. Le centre de classe est gal la somme de la valeur infrieure et de la valeur suprieure, divise par deux.

18

Chapitre 2 Les tableaux statistiques

0 Introduction 1 Sries brutes ou vecteurs A Sries classes et non classes B Sries identifies et non identifies 2 Tableaux unidimensionnels A Tableaux avec chiffres bruts B Tableaux avec pourcentages C Tableaux avec cumuls 1) Cumuls des donnes brutes 2) Cumuls des pourcentages 3 Tableaux avec statistiques rsumes 4 Tableaux croiss deux dimensions A Dfinition et exemple 1) Dfinition 2) Exemple a) Effectifs b) Pourcentages B Distributions marginales 1) Dfinition 2) Exemple a) Effectifs b) Pourcentages C Distributions conditionnelles 1) Colonnes a) Effectifs b) Pourcentages 2) Lignes a) Effectifs b) Pourcentages 5 Tableaux croiss ayant plus de 2 dimensions A Un exemple de tableau 3 dimensions B Un exemple de tableau 4 dimensions 6 Rsum

19

0 Introduction Les tableaux sont un moyen souvent indispensable, en tous cas trs utile, classification et de prsentation des units dune population statistique. de

Ce chapitre voque les diffrents modes de prsentation dun tableau statistique, de la srie brute jusquau tableau crois multidimensionnel. 1 Sries brutes ou vecteurs Avant mme dtre prsentes sous forme de tableau, les donnes sont parfois prsentes sous forme de sries brutes ou de vecteurs. Prenons lexemple de la variable nombre de frontires terrestres avec dautres pays de lUE 27 dans le tableau 1. On peut la reprsenter sous la forme dun vecteur de donnes, galement appel srie. Srie nombre de frontires terrestres avec dautres pays de lUE 27 : S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 5, 0,0} A - sries classes et non classes S1 est une srie non classe. Considrons maintenant la srie S2, qui elle, est une srie classe par ordre croissant S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4, 5, 5, 6, 8} B - Sries identifies et non identifies En revanche, ni S1, ni S2 ne sont des sries identifies. Pour quelles soient identifies, il faudrait crer des couples de valeurs. Ainsi, la srie S3 ci-dessous est une srie identifie, non classe : S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {PaysBas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grce, 1}, {Espagne, 2}, {Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Sude, 1}, {Chypre, 0}, {Estonie, 1}, {Hongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {Rpublique tchque, 4}, {Slovaquie, 4}, {Slovnie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4}, {Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {Hong Kong, 0}}

20

Enfin, la srie S4 ci-dessous est une srie identifie et classe par ordre croissant du nombre de frontires terrestres avec dautres pays de lUE 27 : S4 = {{Chypre, 0}, {Malte,0}, {Etats-Unis ,0}, {Chine,0},{Inde,0}, {Japon,0}, {Taiwan,0}, {Hong Kong, 0}, {Danemark,1}, {Irlande,1}, {Royaume-Uni,1}, {Grce,1}, {Portugal, 1}, {Finlande, 1}, {Sude,1}, {Estonie,1}, {Pays-Bas, 2}, {Espagne, 2}, {Lettonie, 2}, {Lituanie, 2}, {Bulgarie, 2}, {Roumanie,2}, {Italie ,3}, {Luxembourg, 3}, {Slovnie, 3}, {Belgique,4}, {Hongrie, 4}, {Pologne,4}, {Rpublique tchque,4}, {Slovaquie, 4}, {Suisse,4}, {France, 5 }, {Russie, 5}, {Autriche,6}, {Allemagne, 8}} 2 Tableaux unidimensionnels La prsentation sous forme de srie est utile pour certains calculs, mais on utilise bien plus frquemment les tableaux pour prsenter les caractristiques des units dune population statistique. Le tableau est un outil statistique plus rbarbatif que le graphique. Nanmoins, pour des tudes prcises, le tableau est souvent ncessaire et mme parfois plus utile que le graphique. En outre, une remarque simple simpose ici : si lon dispose dun tableau, on peut faire un graphique. Inversement, si lon dispose seulement dun graphique, on ne peut pas revenir au tableau initial (ou trs rarement). Le graphique est ainsi trs utilis par ceux qui veulent conserver le monopole dune base de donnes tout en rvlant publiquement son contenu (gnralement pour en tirer un profit commercial ou de notorit). A - Tableaux avec chiffres bruts Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs sries de chiffres caractrisant une population de 35 units statistiques. Cest un tableau exhaustif (il rvle intgralement la base de donnes). Le tableau ci-aprs, en revanche, est un tableau qui prsente les 35 units statistiques du tableau 1 sous forme dun regroupement par classes. Les chiffres sont cependant bruts car aucun calcul de pourcentages et/ou de cumuls na t effectu sur les 35 units statistiques. Distribution des 35 pays par classes de superficie Chiffres bruts

Cette dernire prsentation savre souvent peu commode (ou trop commode, cest selon) et lon prfre de ce fait la prsentation sous forme de pourcentages et/ou de cumuls. 21

B - Tableaux avec pourcentages Partant du tableau des superficies regroupes, ajoutons une colonne dans laquelle les chiffres bruts sont prsentes en pourcentages comme ci-dessous : Distribution des 35 pays par classes de superficie Pourcentages

C - Tableaux avec cumuls On peut aussi ajouter des colonnes avec les cumuls. Une colonne o les chiffres bruts sont cumuls et une autre o ce sont les pourcentages qui sont cumuls. 1) Cumuls des donnes brutes Distribution des 35 pays par classes de superficie Chiffres bruts et cumuls

22

2) Cumuls des pourcentages Distribution des 35 pays par classes de superficie Chiffres bruts et cumuls, pourcentages et pourcentages cumuls

3 - Tableaux avec statistiques rsumes Parfois, on prfre rsumer une srie de chiffres par son total, par sa moyenne, par ses valeurs extrmes, ou par diffrentes autres statistiques que nous tudierons dans le chapitre 3. Le tableau ci-aprs indique les moyennes simples (voir le chapitre 5 pour une dfinition plus prcise de la moyenne simple) de certaines des variables du tableau 1, ainsi que les valeurs minimales et maximales pour les sries correspondantes.

Tableau de statistiques rsumes pour certaines des variables du tableau 1

Note : La moyenne simple des superficies nest pas reporte car la dispersion est trop grande pour que la moyenne ait un sens.

23

4 -Tableaux croiss deux dimensions A Dfinition et exemple 1) Dfinition Les tableaux croiss sont appels ainsi car ils croisent deux distributions au sein dun mme tableau. Les possibilits de croisement sont multiples. En fait, comme lillustre le tableau synoptique ci-aprs, il y a 16 possibilits. Diffrentes possibilits de croisement de 2 distributions

2) Exemple a) Effectifs Dans le tableau crois ci-aprs nous allons illustrer le cas numro 6 (croisement de deux variables regroupes par catgories de valeurs). Les variables Age mdian et Indice de fcondit du tableau 1 ont en effet t regroupes par catgories de valeurs puis croises dans le tableau. On a choisi de mettre les catgories dges mdians en lignes et les catgories dindices de fcondit en colonne, mais linverse aurait galement t possible sans que cela ne change la signification du tableau. Tableau crois indice de fcondit/ge mdian - Effectifs

24

Pour construire ce tableau partir des donnes du tableau 1, on procde ainsi : 1) Identification des valeurs minimales et maximales des deux sries. On voit ainsi que lge mdian varie de 24,8 ans (Inde) 43,5 ans (Japon) et que lindice de fcondit varie de 0,98 enfants par femme (Hong Kong) 2,81 enfants par femme (Inde). 2) Classement des valeurs dune des deux sries. Choisissons par exemple la srie des indices de fcondit et classons-l par ordre croissant.

3) Formation des catgories (ou classes) de valeurs. Il sagit dun choix arbitraire. Pour simplifier, nous allons former les catgories suivantes, dgales amplitudes : Age mdian (3 catgories) : [20-30 ans [ ; [30-40 ans [ ;[40-50] Indice de fcondit (3 catgories) : enfants/femme [ ; [2-3 enfants/femme]. [0-1,4 enfants/femme [; [1,4-2

25

On forme les 3 groupes de fcondit, en utilisant par exemple des couleurs diffrentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe, combien de pays ont un ge mdian compris dans les trois catgories dge mdian que nous avons dfini : [20-30 ans [ ; [30-40 ans [ ; [40-50] On obtient alors le tableau crois indice de fcondit/ge mdian . Notons bien que ce tableau crois contient leffectif des 35 pays (si on fait la somme des 9 chiffres contenus dans le tableau, on trouve leffectif total de la population, soit 35). Il sagit donc dun tableau de donnes brutes puisque les units statistiques ne sont pas prsentes sous forme de cumuls et/ou de pourcentages. b) Pourcentages Ce tableau peut tre mis sous forme de pourcentages en divisant chacun des 9 chiffres par 35 et en multipliant par 100. On obtient alors une distribution croise des 35 pays en fonction de lge mdian et de lindice de fcondit, mais contrairement au cas prcdent, cette distribution croise est exprime en pourcentages Tableau crois indice de fcondit/ge mdian - Pourcentages

On peut facilement vrifier quil sagit dun tableau en pourcentages en additionnant les 9 chiffres pour obtenir 100 (en tenant compte des arrondis).

B Distributions marginales 1) Dfinition Lorsquon ajoute au tableau crois une colonne pour la somme des valeurs en ligne et une ligne pour la somme des valeurs en colonnes, on appelle cette colonne et cette ligne les distributions marginales.

26

2) Exemple a) Effectifs Reprenons le tableau crois indice de fcondit/ge mdian , mais ajoutons une ligne et une colonne. Chaque chiffre de la dernire ligne ajoute (en caractre gras) reprsente le total des effectifs de la colonne correspondante. Cest la distribution marginale en lignes ou distribution de la population des 35 pays sur 3 catgories dge mdian. En effet 1+20+14 = 35. Chaque chiffre de la dernire colonne ajoute reprsente le total des effectifs de la ligne correspondante. Cest la distribution marginale en colonnes ou distribution de la population des 35 pays sur 3 catgories dindices de fcondit. En effet 17 +16 +2 = 35. Les deux distributions marginales des effectifs

27

b) Pourcentages La dernire ligne et la dernire colonne du tableau prcdent peuvent sexprimer en pourcentage de la faon suivante :

C Distributions conditionnelles 1) Colonnes a) Effectifs Reprenons le tableau crois indice de fcondit/ge mdian , mais concentronsnous sur les diffrentes colonnes. Considrons par exemple la colonne des ges mdians compris dans lintervalle [30-40[ : Exemple de distribution conditionnelle en colonne (effectifs)

28

La distribution par catgories dge de fcondit des 20 pays dont lge mdian est dans lintervalle [30-40 ans [est appele distribution conditionnelle en colonne. Lexpression conditionnelle provient du fait que les 20 pays concerns sont une sous-population de la population totale et que cette sous-population correspond tous les pays qui rpondent la condition tre dans lintervalle [30-40[ des ges mdians . On voit quil y a 3 distributions conditionnelles possibles puisquil y a 3 catgories dges mdians. b) Pourcentages Leffectif de la distribution conditionnelle prcdente est de 20. Il est distribu selon les 3 catgories dindices de fcondit. Si lon fait abstraction du reste du tableau, on peut diviser chacun des chiffres de cette colonne par 20 et le multiplier par 100 de faon exprimer la distribution conditionnelle en pourcentages. On aura alors :

Si maintenant on effectue la mme opration pour les trois colonnes on obtient le tableau des tableaux des distributions conditionnelles en colonnes en pourcentages. Les 3 distributions conditionnelles en colonnes (pourcentages)

Dans chaque colonne, leffectif initial a t divis par le chiffre correspondant de la sous population de pays associs la catgorie dge mdian correspondante. 2) Lignes a) Effectifs De la mme faon quil y a des distributions conditionnelles en colonnes, il y a aussi des distributions conditionnelles en ligne. Cette fois, on isole 3 sous populations qui correspondent aux catgories dindices de fcondit. A titre dexemple, dans le tableau ci-aprs, la catgorie dindice de fcondit [1,4 2 enfants/femme [a t isole, ce qui correspond une sous population de pays gale 16. La distribution

29

de ces pays par catgories dges de fcondit est ensuite donne par la ligne encadre. Naturellement, puisquil y a 3 catgories dindices de fcondit, il y a 3 sous populations et trois distributions conditionnelles. Exemple de distribution conditionnelle en ligne (effectifs)

b) Pourcentages Suivant le mme principe que pour les distributions conditionnelles en colonne, on peut transformer les distributions deffectifs en distribution de pourcentages en divisant les chiffres de chaque ligne par le total de la ligne. On obtient alors le tableau suivant des distributions conditionnelles en colonnes en pourcentages. Les 3 distributions conditionnelles en ligne (pourcentages)

30

5 Tableaux croiss ayant plus de 2 dimensions Pour construire des tableaux plus de deux dimensions, il est ncessaire dimbriquer les dimensions supplmentaires les unes dans les autres. Plus on ajoute de dimensions, et plus la lecture du tableau devient difficile. Les deux exemples ci-aprs illustrent ce point. A - Un exemple de tableau 3 dimensions : les mdailles distribues Pkin Le tableau ci-aprs prsente des statistiques sur le nombre de mdailles distribues aux JO de Pkin suivant trois dimensions : Pays Genre de la comptition (hommes, femmes, mixte) Type de mdaille (or, argent, bronze).

La troisime dimension, type de mdaille (or, argent, bronze) a t imbrique dans la deuxime dimension, genre de la comptition (hommes, femmes, mixte).

31

(Tableau des mdailles JO de Pkin - Suite)

http://results.beijing2008.cn/WRM/FRE/INF/GL/95A/GL0000000.shtml

32

B - Un exemple de tableau 4 dimensions : le naufrage du TITANIC Le tableau ci-aprs prsente la rpartition de 2201 personnes recenses bord du Titanic lors de son naufrage dans la nuit du 14 au 15 avril 1912, suivant 4 dimensions : sexe, ge (adulte/enfant), classe (1, 2 ou 3 ou quipage), tat vital aprs le naufrage (survivant/mort). Statistiques sur les 2201 naufrags du TITANIC (*)

(*) Le nombre total de personnes prsentes bord du TITANIC au moment du naufrage, pas plus que le nombre exact de personnes dcdes, ne sont connus avec certitude. En outre, le sexe des personnes a parfois t tabli uniquement partir du prnom. Source du tableau: Michael FRIENDLY, Visualizing Categorical Data: Data, Stories, and Pictures, http://www.math.yorku.ca/SCS/vcd/vcdstory.pdf. Des chiffres lgrement diffrents sont prsents dans larticle que Wikipedia consacre au naufrage : http://fr.wikipedia.org/wiki/Naufrage_du_Titanic

6 Rsum Avant mme dtre prsentes sous forme dun tableau, les donnes sont traites et parfois prsentes sous forme de sries brutes ou de vecteurs. Les sries brutes peuvent tre classs (par ordre croissant ou dcroissant) ou non classes, identifies ou non identifies. Les tableaux peuvent tre unidimensionnels, bidimensionnels et mme multidimensionnels. Plus le nombre de dimensions augmente et plus la lecture est difficile. Les tableaux peuvent tre prsents sous forme de donnes brutes non groupes ou groupes, ou sous forme de pourcentages et/ou de cumuls. Il existe aussi des tableaux qui proposent des statistiques rsumes plutt que de recenser les units statistiques elles-mmes. Les tableaux deux dimensions, appels tableaux croiss, permettent dtudier les distributions marginales et les distributions conditionnelles.

33

Les distributions marginales dun tableau crois deux dimensions sont au nombre de deux et sobtiennent en ajoutant au tableau crois une colonne pour la somme des valeurs en ligne et une ligne pour la somme des valeurs en colonnes. Les distributions conditionnelles dun tableau crois deux dimensions sont au nombre de deux et sobtiennent en isolant une valeur (modalit) ou une classe de valeurs (modalits) de lune des deux dimensions. Le nombre de distributions conditionnelles dun tableau crois deux dimensions est donc gal la somme des valeurs (modalits) ou des classes de valeurs (modalits) des deux dimensions. Pour construire des tableaux plus de deux dimensions, il est ncessaire dimbriquer les dimensions supplmentaires dans les deux dimensions du plan, ce qui rend rapidement la lecture difficile.

34

Chapitre 3 : Statistiques permettant de rsumer une srie

0 Introduction 1 - Les statistiques de tendance centrale A- Le mode 1) Dfinition 2) Remarques propos du mode a) Une srie peut avoir plusieurs modes b) Le mode n'existe pas forcment c) Le mode n'est pas forcment la valeur la plus leve d) Variables et caractres peuvent avoir un mode e) Mettre la srie sous forme de distribution pour reprer le mode B - La moyenne arithmtique 1) La moyenne arithmtique simple 2) La moyenne arithmtique pondre 3) Calcul de la moyenne sur des donnes catgorielles C - La mdiane 1) Origine du mot, sens gomtrique 2) Sens du mot en statistique descriptive 3) Mthode de calcul a) n est pair b) n est impair 2 - Les statistiques de dispersion A - Minimum, maximum, intervalle de variation et rapport de variation 1) Minimum et maximum dune srie 2) Intervalle de variation ou tendue 3) Rapport de variation B - Intervalle interquartile C - Variance, cart-type et coefficient de variation 1) La variance a) Dfinition b) Exemple c) Utilit de la variance 2) L'cart-type a) Dfinition b) Mthode de calcul c) Utilit de lcart-type 3) Le coefficient de variation 3 - Rsum Annexe : Mthode alternative pour le calcul des quartiles

35

0 Introduction Nous avons dj vu dans le chapitre prcdent, un exemple de tableau contenant des statistiques rsumes, tableau qui est reproduit ci-dessous pour mmoire: Tableau de statistiques rsumes pour certaines des variables du tableau 1

Ce tableau ne contient que trois statistiques rsumant les diffrentes sries du tableau 1 : Il sagit de la moyenne simple, ainsi que des valeurs minimales et maximales de chaque srie. Nous allons maintenant tudier systmatiquement les principales autres statistiques permettant de rsumer une srie. A chaque fois, on insistera sur la mthode de calcul (plutt que sur la formule) et on sappuiera sur des exemples extraits du tableau 1. Il est habituel de distinguer deux types de statistiques rsumes, quitte ensuite les runir dans des statistiques rsumes plus labores : Les statistiques qui rsument la tendance centrale dune srie ou dune distribution : o mode, o moyenne o mdiane. Les statistiques qui rsument la dispersion dune srie : o intervalle de variation (aussi appele tendue ) o intervalle interquartile. Certaines de ces statistiques, tout en rsumant la dispersion de la srie, tiennent aussi compte de sa valeur centrale. Cest le cas de : o lcart-type, o de la variance o du coefficient de variation3.
3

Il existe aussi des statistiques qui rsument la forme dune distribution, mais celles-ci ne sont plus gure utilises aujourdhui dans la mesure o il est plus facile dobserver directement le graphique dune distribution pour en apprcier la forme que de calculer des coefficients dont linterprtation est fastidieuse.

36

Une dernire remarque : bien quil soit possible deffectuer des calculs de statistiques rsumes sur les donnes groupes en catgories, cest dconseill de le faire quand on dispose des donnes brutes ou regroupes par valeurs ou modalits. Cest une question de bon sens. Si lon effectue les calculs sur des donnes regroupes par catgories, on obtient des rsultats approximatifs et mme carrment faux quand on les compare aux calculs effectus sur les donnes brutes (sans parler des formules abstruses et abscondes quil faut employer pour effectuer les calculs de moyennes, mdianes, quartiles ou variance sur des donnes catgorielles). 1 Les statistiques de tendance centrale A Le mode 1) dfinition Le mode d'une srie est la valeur ou la modalit qui revient le plus frquemment dans la srie ou la distribution. Exemple : Soit la srie {8,4,4,3,4,3,8,2,5} La valeur la plus frquente de cette srie est 4. Le mode est donc gal 4. L'effectif associ ce mode est 3. 2) Remarques propos du mode a) Une srie peut avoir plusieurs modes Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, les "2" sont mis en gras et les "3" sont souligns, car ce sont les valeurs qui reviennent le plus souvent : 5 fois chacune. Cette srie a 2 modes, elle est bimodale. Ses deux modes sont : 2 et 3. L'effectif associ chacun de ces modes est : 5. Bien entendu, on peut avoir des sries avec 3, 4, 5, etc. modes. Ce sont alors des sries multimodales. b) Le mode nexiste pas forcment C'est le cas lorsque toutes les valeurs ont le mme effectif comme dans l'exemple suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont modales. c) Le mode nest pas la valeur la plus leve Il ne faut pas confondre le mode, qui est la valeur la plus frquente, avec la valeur la plus leve de la srie. Dans la srie {8,6,5,7,3,1}, il n'y a pas de mode, mais la valeur la plus leve est 8. Il peut arriver que le mode soit aussi la valeur la plus leve, mais ce nest alors quune concidence.

37

d) Variables et caractres peuvent avoir un mode La notion de mode existe aussi bien dans le cas dune srie qui se rapporte une variable que dans le cas dune srie qui se rapporte un caractre. e) Mettre la srie sous forme dune distribution pour reprer le mode Pour dtecter le mode, il est souvent plus facile de distribuer les lments de la srie par valeurs (ou par modalits). Soit la srie nombre de frontires terrestres avec dautres pays de lUE 27 extraite du tableau 1 : S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0, 5, 0,0} Nous avons vu dans le chapitre 1 que cette srie peut tre mise sous forme dune distribution par valeurs de la faon suivante : Distribution des pays du tableau 1 selon leur nombre de frontires terrestres avec les pays de lUE 27

Nous voyons alors plus facilement quels sont les deux modes de la srie. B - La moyenne arithmtique Le mot moyenne a pour origine le latin "mdius, mot signifiant "qui est au milieu". "Mdius" est aussi l'origine du mot "mdiane". Pourtant, en statistique, les deux mots conduisent des dfinitions diffrentes. Ceci nous laisse supposer que la notion de milieu n'est pas toujours facile dfinir.

38

1) La moyenne arithmtique simple La moyenne arithmtique d'une srie ou moyenne arithmtique simple se calcule par une formule qui est donne par l'expression :

(1)

Le "x" surmont d'un trait dsigne classiquement la moyenne. On remarque que la somme va de 1 n o n dsigne le nombre d'units statistiques de la population. Appliquons cette dfinition au calcul de la moyenne de la srie suivante = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a donc :

2) La moyenne arithmtique pondre La moyenne arithmtique d'une distribution ou moyenne arithmtique pondre se calcule par une formule qui est donne par l'expression : (2) La somme varie cette fois de 1 k, avec k qui reprsente le nombre de valeurs de la srie. Dans le cas o aucune valeur n'est rpte k=n. Sinon k<n. Remarquons que la somme va de 1 k, mais que cette somme est divise par n et non par k. La notation nj reprsente les effectifs ou frquences absolues des valeurs. Appliquons cette dfinition au calcul de la moyenne de la distribution :

Les diffrences entre la formule de la moyenne donne en (1) et celle donne en (2) sont importantes noter, quoique les deux formules donnent ncessairement le mme rsultat.

39

La premire diffrence tient au fait que dans la formule (1) la somme se fait sur les n units statistiques, alors que dans la formule (2) la somme se fait sur les k valeurs. La seconde diffrence tient au fait que dans la formule (1), chaque lment additionn compte pour un, c'est--dire que la pondration est de 1. Dans la formule 2, les pondrations sont diffrentes. La formule (1) est en fait un cas particulier de la formule (2). En effet si n = k et que nj = 1 pour j = 1 k alors les deux formules sont identiques.

En pratique, si le calcul de la moyenne doit tre fait sans machine calculer ni tableur et que les donnes sont peu nombreuses (infrieures 10), mieux vaut utiliser la formule (1). Sinon, la formule (2) peut tre prfre. La moyenne arithmtique ne peut pas tre calcule pour un caractre (dimension quantitative). Soit par exemple le caractre sexe, avec les deux modalits "F" et "H", dans une population de 10 personnes. On a la srie suivante : {F,H,F,F,H,H, F,F,F,H}. La modalit "Femme" est plus frquente (6 contre 4 pour la modalit "Homme") : c'est le mode. En revanche, on ne peut pas calculer de moyenne arithmtique. La mme chose est vraie si l'on met cette srie sous forme d'une distribution : Sexe H F Effectifs 4 6

On peut calculer les frquences associes chaque modalit. On voit alors que la modalit la plus frquente est "F" (0,6 contre 0,4 pour la modalit "H"). Mais la notion de moyenne arithmtique n'a pas de sens pour un caractre. 3) Calcul de la moyenne sur des donnes catgorielles Ainsi que prcis dans lintroduction cette section consacre la moyenne, il faut tout prix viter de procder ce type de calcul. Nous ne le donnons ici qu titre dinformation. Lorsque l'on a une distribution par classes de valeurs, la moyenne se calcule en prenant la formule de la moyenne pondre et en remplaant dans cette formule "xj" par "cj", o cj reprsente le centre de la classe j, cest--dire la moyenne arithmtique des extrmits de classe. A dfaut d'avoir une valeur xj on prend "cj". Ceci explique que le calcul de la moyenne donne un rsultat imprcis. On va le voir dans les deux exemples suivants : Soit la srie dj utilise prcdemment : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. Nous savons que la moyenne arithmtique simple applique cette srie est :

40

Exemple 1 : Supposons maintenant que seule la distribution par classe de valeurs d'amplitudes gales nous soit donne : Classes [0-2[ [2- 4[ [4- 6] nj 4 10 6

Pour calculer la moyenne, nous devons dterminer les centres de classe, puis faire la somme des "nj x c j" et diviser par n. Autrement dit, nous devons appliquer la formule :

La notation ci indique le centre de classe et o k reprsente le nombre de classes. Comme indiqu prcdemment, le centre de classe est gal la moyenne des extrmits de classe. On a donc le tableau de calcul suivant : cj (moyenne des extrmits de classe) 1 3 5

Classes [0-2[ [2- 4[ [4- 6]

nj 4 10 6

nj x cj 4 30 30 64

Et finalement :

Nous avons donc une marge d'erreur non ngligeable par rapport la vraie moyenne, savoir 2,7. La marge d'erreur en pourcentage est donne par :

La marge d'erreur dpend de la dfinition des classes.

41

Exemple 2 : Supposons que l'on ait maintenant deux classes d'amplitudes ingales. Le calcul se fait de la mme faon, mais on obtient un rsultat diffrent : Classes [0-4[ [4- 6] nj 14 6 cj 2 5 nj x cj 28 30 58

La moyenne est donc :

On voit donc que chaque fois que l'on change les classes ou que l'on modifie leur amplitude, on exerce un effet sur la moyenne par le jeu de la modification des centres de classe. Il est donc facile de manipuler la moyenne en choisissant les amplitudes de classe. C'est pourquoi il est recommand de ne calculer la moyenne partir des centres de classe que lorsqu'on ne peut pas faire autrement, c'est--dire lorsque l'on ne dispose pas des donnes brutes. C - La mdiane 1) Origine du mot, sens gomtrique Le mot mdiane a pour origine le latin mdius, mot signifiant qui est au milieu . Mdius est aussi l'origine du mot "moyenne". Pourtant, en statistique, les deux mots conduisent des dfinitions diffrentes. Ceci nous laisse supposer que la notion de milieu n'est pas toujours facile dfinir. Avant d'avoir une dfinition statistique, la mdiane a d'abord une dfinition gomtrique. On dfinit ainsi, par exemple, les mdianes d'un triangle. Une mdiane d'un triangle est une droite qui joint un sommet au milieu du ct oppos. Il y a donc 3 mdianes par triangle.

42

2) Sens du mot en statistique descriptive La mdiane est la valeur de la variable (et dans certains cas, la modalit du caractre) qui partage la population, dont les units statistiques ont pralablement t classes par ordre croissant des valeurs (de la variable considre), en deux sous populations gales. 3) Mthode de calcul Toujours se ramener une srie : Si les donnes se prsentent sous forme d'une distribution, convertir la distribution en srie. Classer la srie : Une fois la srie constitue, l'ordonner en classant les chiffres par ordre croissant. On dsignera par k le rang dune valeur dans la srie (voir tableau ci-aprs). Dterminer si la srie comprend un nombre pair ou impair dunits statistiques : Soit n le nombre dunits statistiques. Deux cas peuvent alors se prsenter : celui ou n est pair et celui ou n est impair.

a) n est pair Dans ce cas la mdiane est gale la moyenne arithmtique de a(k) et de a (k+1) o k est tel que n = 2k [k=n/2] et o a(k) et a (k+1) sont les valeurs associes k et k+1 Exemple : si l'on prend la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a donc le tableau suivant (o les valeurs sont classes par ordre croissant):

Puisque n=20, n est pair. Donc n= 2k [soit k=n/2] donne ici k = 20/2 =10 et k+1 = 11. Les valeurs associes sont a(k) = 3 et a (k+1) = 3. Par consquent : Me = [a(k) +a (k+1)]/2= (3+3)/2=3 43

On peut aussi appliquer la formule propose par le tableur EXCEL (cf. la notice technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr 4). Dans ce cas, on doit calculer Me de la faon suivante : Me = a (k) + [f x [a (k+1) - a (k)] ]

Pour comprendre cette formule, il faut dabord dfinir g : g = [(1/2) (n-1)] +1.

Une fois que lon a dfinit g, on peut en dduire k et f : k reprsente le rang de la valeur dans le classement du tableau ci-dessus et est gal la partie entire de g. f est la partie dcimale de g. a(k) est la valeur associe au rang k a(k+1) est la valeur associe au rang k+1.

Si lon applique cette formule, on voit que :

g = [(1/2)(20-1)]+1=10,5

Par consquent k= 10 et f = 0,5. On a donc a(k) = 3 et a (k+1)=3. Ds lors :

Me = 3 + [0,5(3-3)] = 3

La notice technique sur le site Internet de Microsoft ( http://support.microsoft.com/kb/103493/fr ) prsente la formule diffremment mais aboutit au mme rsultat.

44

b) n est impair Dans ce cas la mdiane est gale a (k+1) o k est dfini par (n-1)/2, soit n= 2k+1 et o a(k+1) est la valeur associe k+1 Exemple : si l'on prend la srie prcdente mais que l'on enlve le 20me lment, on alors la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} ou n = 19 et le tableau suivant (o les valeurs sont classes par ordre croissant) :

Ici k= (n-1)/2= 9 [2k+1 = n donne donc 2k+1 = 19, puisque k=9]. Donc k+1 = 10. Par consquent la mdiane est gale a (k+1) soit 3. On peut, comme dans le cas o n est pair, appliquer la formule propose par le tableur EXCEL et on obtiendra le mme rsultat.

45

2 - Les statistiques de dispersion A - Minimum, maximum, intervalle de variation et rapport de variation 1) Minimum et maximum dune srie Revenons au tableau de statistiques rsumes dans lequel figure, pour certaines des variables du tableau 1, les valeurs minimale et maximale de la srie. Tableau de statistiques rsumes pour certaines des variables du tableau 1

Ces deux valeurs donnent une certaine ide de la dispersion. On voit par exemple que les carts entre les superficies des pays, de mme que lcart entre les populations sont trs importants. 2) Intervalle de variation (ou tendue ) Lintervalle de variation (IV) ou ltendue de la srie est simplement une faon de rsumer le minimum et le maximum de la srie en un seul chiffre. On lobtient ainsi : Intervalle de variation de la srie = valeur maximale Valeur minimale Dans le tableau ci-aprs, lintervalle de variation a t ajout sur la dernire ligne pour les 8 sries : Tableau de statistiques rsumes pour certaines des variables du tableau 1

La dernire ligne donne lintervalle de variation (arrondi au nombre entier le plus proche), cest--dire la diffrence entre la valeur maximale et la valeur minimale.

46

3) Rapport de variation Le rapport de variation est simplement le rapport de la valeur maximale la valeur minimale. Par exemple, si on calcule le rapport de variation des superficies des pays du tableau 1, on obtient :

B - Intervalle interquartile Lintervalle de variation ne donne quune ide imprcise et parfois fausse de la dispersion de la srie, car les valeurs extrmes peuvent tre exceptionnelles et le reste de la population statistique tre concentr sur un intervalle beaucoup plus retreint. On peut parfaitement sen rendre compte dans le tableau ci-dessus, o les intervalles de variation sont normes pour les superficies et pour les populations, car de toutes petites les (comme Malte) sont compares avec des pays ayant presque la taille dun continent (Russie, Chine, Inde). Do lide de calculer lintervalle interquartile qui donne une ide plus prcise de la dispersion des valeurs dune srie (ou dune distribution). Avant de dfinir lintervalle interquartile, il convient cependant de dfinir les quartiles. 1) Quartiles Les quartiles sont les trois valeurs qui partagent la population, dont les units statistiques ont pralablement t classes par ordre croissant de valeurs (de la variable considre), en quatre sous populations de mme taille. On les dsigne respectivement par Q1, Q 2 et Q3.

47

2) Calcul des quartiles On notera que Q2 = Me. Autrement dit, le deuxime quartile nest autre que la mdiane que nous avons dj tudie. Il est important de noter quil nexiste pas dalgorithme universellement accept pour dterminer les quartiles Q1 et Q3. Dans ce qui suit, nous utiliserons la formule employe par le logiciel EXCEL de Microsoft5. Prenons lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, on a n=20 Le calcul de Qi (i=1,2 ou 3) seffectuera ds lors au moyen la formule suivante : Qi = a(k) + [ f x [ a(k+1) - a(k)] ]

Sagissant du premier quartile on aura donc : Q1 = a(k) + [ f x [ a(k+1) - a(k)] ]

Pour comprendre cette formule, il faut dabord dfinir g : g = [(1/4) (n-1)] +1.

Voir la notice technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr . La notice prsente la formule diffremment mais aboutit au mme rsultat. Les principales autres mthodes de calcul des quartiles sont rsumes sur le site Mathworld. Lavantage de la mthode Microsoft est quil nest pas ncessaire dappliquer une formule diffrente suivant que n est pair ou impair. Le logiciel Mathematica (version 6), dtermine quant lui les quartiles de la faon suivante :

Sagissant de la srie prcdente, on trouve ainsi Q3 = 11,175 avec Mathematica :

Un autre algorithme de calcul est propos dans lannexe ce chapitre.

48

Une fois que lon a dfinit g, on peut en dduire k et f : k reprsente le rang de la valeur dans le classement du tableau ci-dessous et est gal la partie entire de g f est la partie dcimale de g. a(k) est la valeur associe au rang k et a(k+1) est la valeur associe au rang k+1 Si lon applique cette formule, on voit que : g = [(1/4)(20-1)]+1=5,75 Par consquent k= 5 et f = 0,75. On a donc a(k) = 2 et a(k+1)=2. Ds lors : Q1 = 2 + [0,75 x (2-2)] = 2 On peut suivre la formule sur le tableau ci-aprs :

Le calcul de Q3 seffectue au moyen de la mme formule que pour Q1, soit : Q3 = a(k) + [f x [a (k+1) - a(k)]]

Mais avec un changement dans la dfinition de g. Dsormais on a : g = [(3/4) (n-1)] +1

Prenons toujours lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, on a n=20. Ds lors : g = [(3/4) (n-1)] +1 = [(3/4) (20-1)]+1=15,25

Par consquent k= 15 et f = 0,25. On a donc a(k) = 4 et a (k+1)=4. Ds lors : Q3 = 4 + [0,25 x (4-4)] = 4

49

On peut suivre la formule sur le tableau ci-aprs :

3) Intervalle interquartile L'intervalle interquartile (IIQ) est la diffrence entre le troisime quartile et le premier quartile. Il s'crit : IIQ = Q 3 - Q 1 L'intervalle interquartile sert apprcier la dispersion de la srie, de faon absolue, ou bien par comparaison avec une autre srie ( condition que les valeurs de lautre srie soient exprimes dans la mme unit). En effet, les valeurs Q1 et Q3 dlimitent une plage au sein de laquelle environ6 50% des valeurs de la srie sont concentres. Plus cet intervalle est large, plus la srie est disperse. Dans lexemple que nous avons utilis, lIIQ est gal 4-2 = 2.

Le tableau ci-aprs donne la mdiane, Q1 et Q3, ainsi que lintervalle interquartile pour certaines des variables du tableau 1 . Les calculs ont t effectus avec Microsoft EXCEL en utilisant la mme formule que celle propose ci-dessus et donnent par consquent, sauf erreur, les mmes rsultats que si les calculs sont effectus avec une machine calculer ou la main (certains problmes darrondis peuvent crer de lgres divergences non significatives).

Cest pour cette raison que les algorithmes de calcul diffrent.

50

Tableau de statistiques rsumes pour certaines des variables du tableau 1

C - Variance, cart-type et coefficient de variation Ces trois statistiques sont lies entre elles. Elles sont toutes les trois des indicateurs de la dispersion dune srie par rapport sa valeur moyenne. Le plus simple est de commencer par ltude de la variance. 1) La variance La variance est un indicateur de la dispersion dune srie par rapport sa moyenne. De mme que la moyenne, elle se rsume un seul chiffre qui sobtient par un calcul que nous allons dcomposer ci-aprs. a) Dfinition La dfinition de la variance dune srie de chiffres est donne par la formule7 :

O : V dsigne la variance des n valeurs associes aux n units statistiques de la population. Chacune de ces valeurs est dsigne par xi , le i tant un indice qui varie de 1 n (i = 1 .,n). est la moyenne arithmtique simple des n valeurs associes aux units statistiques xi (i = 1, , n).

Nous donnons ici la formule de la variance des valeurs associes aux units statistiques dune population et non la variance dun chantillon de cette population, dont la dfinition est lgrement diffrente. En effet, pour calculer la variance dun chantillon, on divise par n-1 au lieu de diviser par n. Mais dans ce cas le n de lchantillon est videmment beaucoup plus petit que le n de la population et lon diffrencie alors les deux en dsignant par N le nombre dunits statistiques de la population et par n le nombre dunits statistiques de lchantillon. De plus, si lon veut extraire plusieurs chantillons de la population, on est amen rajouter un indice aux n pour les distinguer (on prendra alors lindice j puisque lindice i est dj utilis pour dsigner les units statistiques ellesmmes).

51

b) Exemple Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20. Pour calculer la variance de cette srie, on procde ainsi : Toujours se ramener une srie : par exemple, si au lieu davoir une srie on avait la distribution suivante :

Il faudrait dabord la transformer en srie. Calculer la moyenne arithmtique simple :

Retrancher ensuite cette moyenne de chacune des 20 valeurs de la srie (colonne 3 du tableau ci-aprs). On obtient ainsi une srie qui comprend des valeurs ngatives (car certaines valeurs de la variable sont infrieures la moyenne et donc si on retranche la moyenne elles deviennent ngatives) et des valeurs positives (car certaines valeurs de la variable sont suprieures la moyenne et donc si on retranche la moyenne elles restent positives). Afin de tenir compte la fois des distances positives et ngatives, on ne peut pas additionner immdiatement les valeurs de la colonne 3. Il faut dabord lever au carr chacune de ces valeurs, de faon obtenir une srie de valeurs positives (colonne 4). Cette srie de valeurs positives reflte dj en elle-mme la dispersion par rapport la moyenne. Mais il faut encore additionner ces valeurs pour avoir un chiffre unique (dernire valeur en caractre gras dans la colonne 4) Diviser ensuite ce total par n, pour avoir en fait une sorte de moyenne. Cest pour cela que lon dit que la variance nest finalement que la moyenne du carr des carts la moyenne . Et lon obtient la variance de notre srie de chiffres, soit ici :

52

Tableau pour la disposition du calcul de la variance

c) Utilit de la variance La variance nest pas dune grande utilit en soi. On peut seulement dire que plus elle est leve, plus la dispersion autour de la moyenne est leve. Mais comme les carts la moyenne ont t levs au carr, le chiffre obtenu, quoiquexprim dans lunit de la variable, est gnralement assez lev et encombrant . Cest pourquoi, on utilise surtout la variance comme calcul intermdiaire pour obtenir lcart-type et le coefficient de variation.

53

2) Lcart-type a) Dfinition La dfinition de lcart-type dune srie de chiffres est donne par la formule :

En dautres termes, lcart-type est gal la racine carre de la variance. b) Exemple Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20. Nous voulons calculer lcart-type. Nous avons dj calcul la variance : V(x)=1,81 Il suffit donc de prendre la racine carre de la variance et lon obtient :

c) Utilit de lcart-type De faon gnrale : si lcart-type est faible, cela signifie que les valeurs sont assez concentres autour de la moyenne. si lcart-type est lev, cela veut dire au contraire que les valeurs sont plus disperses autour de la moyenne.

Exemple : Dans une usine, le fait davoir un cart-type aussi bas que possible peut constituer un objectif de contrle de qualit. Soit une entreprise qui fabrique un certain composant et quun des lments du contrle de la qualit consiste mesurer le diamtre du composant. Chaque composant aura donc son diamtre mesur. On calculera ensuite le diamtre moyen, puis lcart-type. Si lcart-type est faible, cela signifie que les pices ont dans lensemble un diamtre proche de la moyenne, donc que leur diamtre se ressemble. la limite, un cart-type nul signifie que toutes les pices ont le mme diamtre. Inversement, plus lcart-type est lev, plus il y a de pices dont le diamtre scarte de la moyenne et qui risque de ne pas cadrer avec le systme auxquelles elles sont destines.

54

Une autre utilit de lcart-type est de servir de bornes. On regardera par exemple combien de valeurs de la srie sont comprises dans lintervalle dfini par :

Dans lexemple de S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, dont nous avons dj calcul la moyenne simple (2,7), nous obtenons lintervalle suivant : [2,7 1,345 ; 2,7 + 1,345] = [1,355 ; 4,045] Pour savoir combien dunits ont des valeurs comprises dans cet intervalle, il faut classer la srie par ordre croissant des valeurs de la variable et ensuite encadrer les valeurs comprises dans lintervalle. On voit ainsi que 14 units sur 20 ont des valeurs comprises dans lintervalle, ce qui reprsente 70% de la population. Si ces valeurs se rapportaient aux caractristiques des pices dun processus industriel on pourrait juger que la qualit est acceptable ou bien au contraire se fixer comme objectif daugmenter le nombre de valeurs qui sont dans cet intervalle. On voit que cet intervalle est avec lintervalle interquartile une autre faon de mesurer la dispersion dune srie. Nombres dunits statistiques dont la valeur est comprise dans lintervalle

55

3) Le coefficient de variation Lcart-type est un outil intressant pour mesurer la dispersion dune srie, ainsi que nous venons de le voir. Mais il possde une limite : Il est exprim dans lunit de la variable dont il mesure la dispersion des valeurs. Ainsi, par exemple, si on veut comparer les dispersions de deux sries qui sont exprimes dans des units diffrentes, on ne peut pas. Le tableau de statistiques rsumes ci-aprs donne lcart-type de certaines des variables du tableau 1. On peut regarder chaque cart-type et constater quil est lev ou pas, mais on ne pourrait comparer chaque cart-type qu un autre carttype exprim dans la mme unit.

Do lide de calculer le coefficient de variation qui est gal lcart-type divis par la moyenne, cest--dire :

Le tableau ci-dessus donne le coefficient de variation de certaines des variables du tableau 1. Tableau de statistiques rsumes pour certaines des variables du tableau 1

3 Rsum On distingue deux types de statistiques rsumes : Les statistiques de tendance centrale (mode, moyenne, mdiane) et les statistiques de dispersion (intervalle de variation, intervalle interquartile). Ces deux types peuvent tre combins pour donner des statistiques rsumes plus labores telles que lcarttype, la variance et le coefficient de variation.

56

Le mode d'une srie est la valeur (de lunit statistique) qui revient le plus frquemment dans la srie. La moyenne arithmtique simple dune srie est gale la somme des valeurs (des units statistiques) de la srie, divise par le nombre total dunits statistiques (la population). La mdiane est la valeur de la variable (et dans certains cas, la modalit du caractre) qui partage la population, dont les units statistiques ont pralablement t classes par ordre croissant des valeurs (de la variable considre), en deux sous populations gales. Lintervalle de variation dune srie est gal la valeur maximale de la srie moins la valeur minimale de la srie. Le rapport de variation est simplement le rapport de la valeur maximale la valeur minimale. Les quartiles sont les trois valeurs qui partagent la population, dont les units statistiques ont pralablement t classes par ordre croissant de valeurs, en quatre sous populations de mme taille. On les dsigne respectivement par Q 1, Q 2 et Q3. L'intervalle interquartile (IIQ) est la diffrence entre le troisime quartile et le premier quartile. La variance est gale la moyenne des carrs des carts la moyenne arithmtique de la srie. Lcart-type est gal la racine carre de la variance. Le coefficient de variation est gal lcart-type divis par la moyenne

57

Annexe : Mthode alternative pour le calcul des quartiles Cette mthode ne correspond pas celle employe par EXCEL, ni par les autres logiciels de calcul. Elle nest donne ici qu titre dinformation parce quelle est la plus logique. Cest aussi la mthode qui est propose dans Wikipedia :

i) Toujours se ramener une srie : Si les donnes se prsentent sous forme d'une distribution par valeurs, convertir la distribution en srie. ii) Classer la srie : Une fois la srie constitue, l'ordonner en classant les chiffres par ordre croissant. iii) Dterminer le quotient et le reste de la division de n par 4 : Soit n le nombre d'lments de la srie et p le quotient de la division de n par 4. Quatre cas peuvent se prsenter, suivant les quatre valeurs possibles du reste de la division de n par 4. On peut en effet avoir n=4p (pas de reste) ; n=4p+1 (reste 1); n=4p+2 (reste 2); n=4p+3 (reste 3). Envisageons successivement ces quatre cas. a) Cas o n = 4p C'est le cas o, quand on divise n par 4, on trouve p et que le reste est nul. Dans ce cas, on a : Q1 = moyenne entre la pe et (p+1)e valeur. Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur. Q3 = moyenne entre la (3p) e valeur et la (3p+1) e valeur Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, on a n = 4 p = 20 p=5.

58

En classant cette srie on obtient le tableau suivant :

Fichier EXCEL Par consquent, on a : Q1 = moyenne entre la pe et la (p+1)e valeur =(2+2)/2=2 Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur = (3+3)/2=3 Q3 = moyenne entre la (3p) e valeur et la (3p+1) e valeur = (4+4)/2=4 Les 4 groupes de valeurs sont : {{0, 1, 1, 1, 2}, {2, 2, 2, 2, 3}, {3, 3, 3, 3, 4}, {4, 4, 4, 5, 5}} b) Cas o n = 4p + 1 Dans ce cas, le reste de la division par 4 est 1 et l'on a : Q1 = moyenne entre la pe et la (p+1)e valeur. Q2 = (2p+1)e valeur. Q3 = moyenne entre la (3p+1) e valeur et la (3p+2) e valeur. Exemple : si l'on prend la srie n =17 et n = 4p + 1, avec p = 4. {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3} on a

59

En classant cette srie on obtient le tableau suivant :

Fichier EXCEL Par consquent, on a : Q1 = moyenne entre la pe et la (p+1)e valeur = (1+2)/2=1,5 Q2 = (2p+1)e valeur = 2 Q3 = moyenne entre la (3p+1) e valeur et la (3p+2) e valeur=(3+4)/2=3,5 Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, {2, 2, 2, 2}, 2, {3, 3, 3, 3}, {4, 4, 4, 5}} On a exclu Q2=Me pour obtenir 4 groupes gaux. c) Cas o n = 4p + 2 Dans ce cas, le reste de la division par 4 est 2 et l'on a : Q1 =(p+1)e valeur. Q2 = moyenne entre la (2p+1) e valeur et la (2p+2) e valeur. Q3 = (3p+2)e valeur Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3}, on a n=18 et n = 4p+2, avec p= 4.

60

En classant cette srie on obtient le tableau suivant :

Fichier EXCEL Par consquent, on a : Q1 =(p+1)e valeur = 2 Q2 = moyenne entre la (2p+1) e valeur et la (2p+2) e valeur = (2+3)/2=2,5 Q3 = (3p+2)e valeur =3 Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, {3, 3, 3, 3}, 3, {4, 4, 4, 5}} On a exclu Q1 et Q3 pour obtenir 4 groupes gaux. d) Cas o n = 4p + 3 Dans ce cas, le reste de la division par 4 est 3 et l'on a : Q1 =(p+1)e valeur. Q2 = (2p+2)e valeur. Q3 = (3p+3)e valeur. Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} on a n=19 et n = 4p+3, avec p= 4.

61

En classant cette srie on obtient le tableau suivant :

Fichier EXCEL Par consquent, on a : Q1 =(p+1)e valeur = 2 Q2 = (2p+2)e valeur = 3 Q3 = (3p+3)e valeur = 4 Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, 3, {3, 3, 3, 3}, 4, {4, 4, 4, 5}} On a exclu Q1, Q 2 et Q3 pour obtenir 4 groupes gaux.

62

Tableau rcapitulatif Fichier EXCEL

63

Chapitre 4 Indices et progressions

0 Introduction 1 Indices A Dfinitions 1) Nombre indice 2) Srie indice B Indice temporel et indice de situation 1) Indice temporel 2) Indice de situation C Indice lmentaire et indice synthtique 1) Indice lmentaire 2) Indice synthtique D Indice dvolution de la valeur dun panier de biens 1) Dfinition de la valeur dun panier de biens 2) Indice de LASPEYRES a) Indice dvolution des prix b) Indice dvolution des quantits 2 Progressions A Variation absolue B Taux de croissance sur une priode C Taux de croissance sur plusieurs priodes 1) Formule directe (en passant par laccroissement global) 2) Formule indirecte (en passant par les accroissements successifs) 3) Exemple numrique 4) Lien avec la moyenne gomtrique D Taux de croissance du produit de 2 valeurs E Taux de croissance du rapport de 2 valeurs F Complments 1) Augmentations et/ou diminutions successives 2) Augmentation en % suivie dune diminution identique en pourcentage 3) Temps de doublement dune grandeur 3 Rsum

64

0 Introduction Nous avons vu au chapitre 2 que les chiffres dune srie pouvaient tre prsents sous forme deffectifs, de pourcentages et de pourcentages cumuls. Mais ce nest pas tout : les chiffres dune srie peuvent aussi tre mis sous forme dindices. De plus, il est frquent que lon souhaite tudier une srie dont les valeurs changent au cours du temps ou bien, plus simplement, que les valeurs dune seule srie correspondent diffrentes valeurs dans le temps (il sagit alors dune srie chronologique). Dans ces deux cas, le calcul dun indicateur de progression (taux de variation ou taux de croissance) va permettre de rsumer lvolution avec un seul chiffre. Les indices et les progressions sont aussi utiliss pour comparer des situations (gnralement deux sries dont les valeurs changent selon le lieu). 1- Indices A - Dfinition 1) Nombre indice Un nombre indice est une mesure de la variation dune grandeur compare une valeur de rfrence gale 100 et appele base . Exemple : En dcembre 2008, l'Indice des prix la consommation de l'INSEE (IPC), base 100 en 1998, s'tablissait ainsi :

Source : http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 .

La valeur de rfrence est ici la valeur 100 en 1998. A partir de ce tableau, on peut voir que : les prix ont augment de 17,70% entre 1998 et 2007 (en 10 ans) les prix ont augment de 19,17% entre 1998 et 2008 (en 11 ans) les prix ont augment de 119,17-117,7 =1,47% entre dcembre 2008 et novembre 2008 (en 1 an) Les prix ont volu de 118,88-119,17= - 0,29% (diminution) entre novembre 2008 et dcembre 2009 (en un mois)

Certains indices ne sont pas exprims par rapport une base 100, mais par rapport une base 1. C'est le cas de l' indice S.I.E.R Exemple : Lindice de trafic routier en le de France, dit indice S.I.E.R . (Service Interdpartemental d'Exploitation Routire) est gal 1 quand le trafic est fluide, cest--dire quand il faut en moyenne 1 minute pour faire un km. Si lindice est gal 2, cela signifie que les temps de parcours sur le rseau sont deux fois plus longs que

65

si le trafic est fluide. Sil est gal 3, ils sont 3 fois plus longs et ainsi de suite. (Source : www.sytadin.equipement.gouv.fr ). 2) Srie indice Une srie indice est une srie divise par une de ses valeurs et ventuellement multiplie par 100. Exemple : Soit la srie S1 = {1, 3, 7, 4, 8, 6, 11, 9} Pour transformer cette srie en sri indice, nous allons diviser chaque lment de la srie par l'un des lments, par exemple 7 (troisime lment) et ensuite multiplier chaque lment par 100. On obtient alors : I1 = {14,3 ; 42,9 ; 100 ; 57,1 ; 114,3 ; 85,7 ; 157,1 ; 128,6} I1 est une srie indice. Sa base "100" est le troisime lment de la srie. On voit ainsi que le choix de la "base" est arbitraire. On aurait pu aussi diviser par le premier lment de la srie. Mais plutt que de partir de la srie initiale S1, on peut aussi partir de I1 et diviser chaque lment par 14,3 et multiplier par 100. On a alors effectu un changement de base, la nouvelle base tant le premier lment de la srie. I2 = [I1/I1(1)]*100 = {100, 300, 700, 400, 800, 600, 1100, 900} Les deux graphiques ci-dessous, du type "nuages de points relis" reprsentent respectivement les sries indices I1 et I2. On remarque que le changement de base na pas dincidence sur la forme de la courbe, mais seulement sur les valeurs indiques par lchelle de lordonne (la position relative de ces valeurs les unes par rapport aux autres sur l'chelle demeurant inchange).

B - Indice temporel et indice de situation 1) Indice temporel Un indice temporel est un indice qui concerne une comparaison de valeurs dans le temps. La base est dans ce cas la date de rfrence. Exemple : Une action a cot 54,10 euro l'ouverture des marchs boursiers et 54 euros la fermeture. Lindice de variation du cours de laction sur la sance, donn

66

par (54/54,1)*100 = 99,815, est un indice temporel, la base tant lheure de louverture du march le jour considr. 2) Indice de situation Un indice de situation, galement appel indice spatial, est un indice qui concerne nimporte quelle comparaison de valeurs, hormis les comparaisons temporelles. Exemple : En 2006, le nombre de victimes daccidents de la route en France a t de 77 par million dhabitants, alors quau Portugal il a t de 104 par million dhabitants8. Lindice de situation du nombre de victimes daccidents est gal (104/779)*100 = 135,06, si lon prend le nombre daccidents en France comme base.

C - Indice lmentaire et indice synthtique 1) Indice lmentaire Un indice lmentaire est un indice qui renseigne sur lvolution temporelle ou situationnelle (spatiale) dune seule valeur. Il a pour dfinition :

O V0 reprsente la valeur de rfrence et Vt la valeur qui est compare la valeur de rfrence. Dans le cas dun indice temporel, 0 reprsente la priode rfrence (la base) et t la priode que lon compare la priode de rfrence. Dans le cas dun indice de situation ou indice spatial, 0 reprsente la situation de rfrence (la base) et t la situation que lon compare la situation de rfrence. Exemple : le Ph , ou potentiel hydrogne de leau dune piscine a t mesur 8h du matin. La mesure rvle quil est gal sa valeur de neutralit (soit 7 sur une chelle qui varie de 1 14). Le soir 18 h, on mesure nouveau le Ph et cette valeur est alors de 5. Lindice lmentaire de la variation du Ph entre 8 h et 18 h est donn par :

Chiffres publis par lOCDE : http://oberon.sourceoecd.org/vl=2311694/cl=16/nw=1/rpsv/factbook_fre/11-04-02.htm

67

2) Indice synthtique Un indice synthtique est un indice qui rsume lvolution de plusieurs grandeurs : plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits), etc. Exemple : Le prix dun bien x est gal 1,7 euros la date 0. la date t, il est gal 2,5 euros. Le prix dun bien y est gal 3 euros la date 0 et 2 euros la date t. Les donnes sont rsumes dans le tableau ci-aprs :
Dates 0 Biens x y 1,7 3 t 2,5 2

Nous pouvons calculer les indices lmentaires dvolution des prix du bien x et du bien y. Mais nous pouvons aussi calculer lindice synthtique dvolution du prix des deux biens. Pour calculer cet indice synthtique, nous allons faire une moyenne arithmtique de chacun des indices lmentaires. On obtient alors le tableau suivant :
Dates 0 Biens x y 1,7 3 t 2,5 2 Indice lmentaire 147,06 66,67 coefficients de Indice * Coefficient pondration 0,5 73,53 0,5 33,33 Indice synthtique 106,86

La colonne "indices lmentaires" est obtenue en divisant les prix en t par les prix en 0 et en multipliant ce rapport par 100 : Ixt/0 = Indice lmentaire du prix de x = (2,5/1,7)*100=147,06 Iyt/0 = Indice lmentaire du prix de y = (2/3)*100= 66,67 Pour obtenir l'indice synthtique de l'volution du prix des deux biens, on fait la moyenne des deux indices : It/0 = Indice synthtique = (147,06 * 0,5) + (66,67*0,5)= 73,53+33,3=106,86 Lorsque l'on fait une moyenne simple, on suppose que la contribution de chaque bien l'volution totale est la mme. En ralit cela revient attribuer un coefficient 1/2 chaque bien. Si l'on dsigne par x le coefficient de pondration de x et par y le coefficient de pondration de y on aura x = 0,5 et y =0,5 et donc x + y = 1.

68

L'indice synthtique d'volution du prix des deux biens pourra alors s'crire :

Dans le cas o x = 0,5 et y =0,5 on aura :

Cependant, nous pouvons choisir de pondrer chaque bien par des coefficients x et y diffrents de mais toujours tels que x + y = 1. Si l'on prend par exemple x = 1/4 et y = 3/4, on obtient :

Et enfin si l'on prend x = 3/4 et y = 1/4, on obtient :

L'intrt du choix d'une pondration diffrente de la pondration 50/50 apparat mieux si l'on tudie un cas particulier d'indice synthtique : l'indice d'volution du prix d'un panier compos de plusieurs biens reprsentatifs, communment appel indice d'volution des prix. D - Indice d'volution de la valeur d'un panier de bien En conomie, on s'intresse particulirement l'volution du niveau gnral des prix. Cette question est dlicate car chacun s'intresse des prix diffrents. Chacun a son propre panier reprsentatif de biens dont l'volution des prix le proccupe. Malgr ces considrations qui pourraient conduire renier la notion d'indice gnral des prix, la plupart des conomistes se rfrent l'indice des prix calcul par l'INSEE (Institut National de la Statistique et des tudes conomiques). 1) Dfinition de la valeur d'un panier de biens La valeur de chaque produit d'un panier de bien est le produit dun prix par une i quantit. Soit Vt = pti x qti la valeur du bien i, la date t o pti est le prix du bien i la date t et qti sa quantit. Par exemple, si pti = 3 euros et que qti =2 units, on a :

S'il y a n produits dans le panier (i= 1 n), la valeur totale du panier la date t scrira :

69

Exemple : soit le tableau suivant qui donne le prix unitaire en euros et les quantits de 3 biens la date t : pti qti Produit 1 15 3 Produit 2 7 9 Produit 3 3 11 La valeur du panier est alors donne par :

La valeur du panier est donc gale 141 euros. Lvolution de la valeur du panier entre les deux dates 0 et t dpend de lvolution du prix de chaque bien et de lvolution de la quantit de chaque bien. Il faut les donc construire un indice synthtique qui permette dimputer lvolution de la valeur du panier au composant prix ou la composante quantit. Trois conomistes, LASPEYRES, PAASCHE et FISHER, ont propos des indices synthtiques diffrents pour mesurer lvolution des composants prix et quantit au sein de la valeur du panier. Le plus frquemment utilis de nos jours est l'indice de LASPEYRES. C'est pourquoi nous n'tudierons que cet indice dans ce cours introductif. Le lecteur intress par les deux autres indices synthtiques peut se rfrer l'ouvrage de Bernard PY, 2007, Statistique descriptive : nouvelle mthode pour comprendre et bien russir 5me dition, Economica. L'indice de LASPEYRES permet de mesurer deux volutions : -- L'volution des prix des produits composant un panier de biens (indice de LASPEYRES d'volution des prix) -- L'volution des quantits de produits composant un panier de biens (indice de LASPEYRES d'volution des quantits) 2) Indice de LASPEYRES a) Indice dvolution des prix Lindice de LASPEYRES dvolution des prix mesure lvolution, entre deux dates 0 et t, des prix des biens qui composent un panier, en prenant comme rfrence la valeur du panier la date initiale (t = 0) et en supposant que les quantits de biens dans le panier nont pas vari entre 0 et t.

70

Sa dfinition est la suivante :

On voit ainsi que si les prix ne changent pas entre 0 et t (cest--dire si pti = p0i ), lindice synthtique de LASPEYRES des prix demeure gal 100. Pour comprendre la signification de cet indice et voir comment on le calcule, prenons un exemple concret. Exemple : Soit le tableau ci-aprs, qui donne les prix et les quantits de deux produits 1 et 2, aux dates 0 et t. On peut supposer que le produit 1 est un pantalon et le produit 2 un tee shirt (voir le fichier EXCEL).

Date 0 Produit 1 Produit 2 p01=15 p02=7 q01=3 q02=9 pt1=22 pt2=5

Date t qt1=10 qt2=8

Dans cet exemple, le prix du bien 1 (pantalon) augmente (de 15 22 euros) tandis que celui du bien 2 (tee shirts) baisse (de 7 5 euros). Mais les quantits aussi ont chang. Pour diverses raisons, les gens ont achet plus de pantalons et moins de tee-shirts. Il n'est pas ncessaire que ces quantits voluent en sens inverse des prix car il ne s'agit pas dune relation instantane, mais d'une volution dans le temps. Pour mesurer l'volution des prix, LASPEYRES suppose donc que les quantits ne changent pas. Il pose la question : quelle serait l'volution de la valeur de ce panier si les quantits n'avaient pas chang ? Pour rpondre cette question et savoir si l'indice synthtique des prix ainsi dfini augmente ou baisse, appliquons la formule de LASPEYRES d'volution des prix :

On enregistre donc une volution des prix du panier de bien de 2,8 % selon la formule de LASPEYRES. b) Indice d'volution des quantits Lindice de LASPEYRES dvolution des quantits mesure lvolution, entre deux dates 0 et t, des quantits des biens qui composent un panier, en prenant comme rfrence la valeur du panier la date initiale (t=0) et en supposant que les prix des biens dans le panier nont pas vari entre 0 et t. 71

Sa dfinition est la suivante :

On voit ainsi que si les quantits ne changent pas entre 0 et t (cest--dire si qti = q0i), lindice synthtique de LASPEYRES des quantits demeure gal 100. Pour comprendre la signification de cet indice et voir comment on le calcule, prenons un exemple concret. Exemple : reprenons le tableau prcdent, qui donne les prix et les quantits de deux produits 1 et 2, aux dates 0 et t voir le fichier EXCEL). Date 0 Produit 1 p01=15 Produit 2 p02=7 q01=3 q02=9 pt1=22 pt2=5 Date t qt1=10 qt2=8

Dans cet exemple, la quantit du bien 1 augmente (de 3 10 units) tandis que celle du bien 2 baisse (de 9 8 units). Pour savoir si l'indice synthtique des volumes augmente ou baisse, appliquons la formule de LASPEYRES d'volution des quantits :

On enregistre donc une volution des volumes du panier de bien de 90,74 % selon la formule de LASPEYRES. 3) Indice des prix de l'INSEE Lun des indices synthtiques les plus connus et les plus utiliss est lindice des prix la consommation (IPC) publi chaque mois par lINSEE. L'IPC permet de mesurer l'inflation, cest--dire la variation du niveau gnral des prix des biens et des services consomms par les mnages sur le territoire franais entre deux priodes donnes. C'est une mesure synthtique des volutions de prix qualit constante. Pour le calculer, lINSEE applique la formule de lindice de LASPEYRES des prix un chantillon de quelques 21000 indices lmentaires. Ces 21000 indices lmentaires sont calculs partir de prix recueillis dans 106 agglomrations de plus de 2000 habitants rparties sur tout le territoire. Lindice couvre plus de 1000 varits de produits, regroupes en 161 groupes. Pour viter toute tentative de manipulation 72

des prix, la liste prcise de ces 1000 varits de produits reste confidentielle. Actuellement, la priode de rfrence, ou base de lIPC, est 1998. Ci-aprs, le camembert qui donne la structure des pondrations par grandes catgories de consommation.

Source : Insee, http://www.insee.fr/fr/indicateur/indic_cons/info_ipc.htm LIPC est publi aux environs du 13 de chaque mois et porte sur lvolution des prix du mois prcdent. Ce chiffre, rgulirement relay par les mdias, est trs attendu car il sert de multiples fonctions conomiques parmi lesquelles la connaissance de linflation, la dfinition des objectifs de la politique montaire, mais aussi le versement de pensions et de divers revenus, tels le SMIC, dont le montant est index sur lvolution de lIPC. Depuis le milieu de l'anne 2006, l'indice des prix a fait l'objet de critiques et de controverses. Selon l'conomiste Florence JANY-CATRICE, "Les rflexions les plus intressantes qui ont t dresses pour clairer ces critiques sont celles qui mettent en avant l'ide qu'avec la fin des classes moyennes, ou plus humblement, la fin du "Franais moyen", il devient dlicat pour les individus de s'identifier l'espace de rfrence commun dress par l'Insee (c'est--dire le panier moyen de la mnagre) qui, transform en coefficients budgtaires, est un lment central du calcul de l'indice" (Le Monde, 5 Mars 2007, "L'acte de naissance du chacun-pour-soi") Pour rpondre ces critiques l'Insee met sur son site Internet, disposition, un simulateur qui permet instantanment de mesurer "son" indice des prix personnels. Il est disponible ce lien : http://www.insee.fr/fr/indicateur/indic_cons/indic_sip.htm Selon l'conomiste Florence JANY-CATRICE, c'est d'abord "la fin de l'indice des prix comme outil collectif de revendication d'un pouvoir d'achat ngoci au sein de

73

relations industrielles. Attach l'Etat-providence, l'indice des prix la consommation tait un des dispositifs majeurs de rgulation du march du travail salari. Avec l'clatement des lieux de ngociation et plus gnralement la faiblesse de la ngociation collective comme mode de gouvernance, les usages principaux de l'indice des prix moyen sont en partie perdus". Et c'est ensuite "la prvalence d'une logique d'Etat nolibral qui associe son mode de gouvernance une dmultiplication des centres de calcul, et une individualisation croissante des dispositifs valuatifs, comme l'a dcrit depuis longtemps dj Alain DESROSIERES, de l'Insee. L'indice des prix calcul par chacun devient ici un mode de description statistique personnalis, qui, sans avoir de statut lgal, permet chaque "agent" d'adopter un comportement rationnel, optimal". Finalement, voici le tableau rsum de l'volution des prix, tel que publi par l'INSEE en dcembre 2008 (rgulirement mis jour et disponible l'URL : http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 ) (voir le tableau ci-aprs)

74

75

2 - Progressions Soit la valeur numrique V au temps t qui s'crit respectivement V 0 quand t=0, V 1 quand t=1 et Vt quand t est une date quelconque. A - Variation absolue La variation absolue de la valeur V entre le temps 0 et le temps t s'crit :

Exemple : Soit V0 = 1 500 euros la somme dont je dispose la date 0 et V1 = 2 000 euros la somme dont je dispose la date 1. Le taux de variation entre la date 0 et l& date 1 scrit : V1 -V0= 1 500 - 1 000 = 500 B - Taux de croissance sur une priode Le taux de croissance sur une priode de la valeur V entre t = 0 (date du dbut de la priode) et t =1 (date de fin de la priode) s'crit9 :

Calculons le taux de croissance, entre la date 0 et la date 1, de la somme dont je dispose : g1= (1 500 - 1 000)/ 1000 =500/1 000= 0,5 Le taux g1 s'exprime frquemment en pourcentages. Dans ce cas on le multiplie par 100. Ainsi la somme dont je dispose a augment de 0,5 x 100 = 50 %.

Le mot valeur est ici employ au sens de grandeur , pas dans le sens de valeur montaire , quoiquon puisse galement appliquer la formule des valeurs montaires, mais pas uniquement.

76

C - Taux de croissance sur plusieurs priodes : formule du taux moyen 1) Formule de calcul directe (en passant par l'accroissement global) La formule du taux de croissance moyen sur plusieurs priodes est donne par l'expression :

o g = taux de croissance moyen, V0 = grandeur la date 0, Vt = grandeur la date t et le t qui figure dans l'exposant 1/t est le nombre de priodes sur lequel le taux moyen est calcul. Pour voir comment on obtient cette formule, on va supposer que le taux moyen g se substitue au taux de croissance de chaque priode g1, g2, ..., gt dans la formule du taux de croissance sur une seule priode. Autrement dit, supposons que g= g1, g2, ..., gt. Dans ce cas :

pour la premire priode. Cette expression peut s'crire :

Pour la priode 2, on aura de mme :

Ce qui peut scrire :

Et ainsi de suite pour les autres priodes jusqu' la priode t pour laquelle on aura :

Donc, en reformulant cette expression :

77

2) Formule indirecte (en passant par les accroissements successifs) Le taux de croissance moyen g peut aussi s'crire sous forme d'une moyenne gomtrique des taux de croissance de chaque priode g1, g2, g3, ..., gt. En effet, on a:

Or :

Donc, en remplaant :

Il y a donc deux faons quivalentes de calculer le taux de croissance moyen La formule directe, en passant par l'accroissement global de V0 V t :

La formule indirecte, en passant par les accroissements successifs de V0 V1, de V1 V 2, jusqu' Vt :

78

3) Exemple numrique Soit une entreprise dont le chiffre d'affaires en euros de 2001 2007 est donn par le tableau ci-dessous : (Fichier EXCEL) Annes 2004 2005 2006 2007 2008 V V0 V1 V2 V3 V4 Chiffre d'affaires 210000 280000 330000 450000 500000

a) Calcul du taux de croissance moyen par la formule directe (en passant par l'accroissement global) : Ici, on pose par exemple V0 = 210000, V1 = 280000, V2= 330000, V3= 450000 et V 4 = 500000.

(Fichier EXCEL) Soit un taux de croissance moyen gal 24,2%. b) Calcul du taux de croissance moyen par la formule indirecte (en passant par les accroissements successifs) : Calculons le taux de croissance annuel du CA entre 2004 et 2005, puis entre 2005 et 2006, 2006-07 et enfin 2007-08. Nous allons ainsi avoir 4 taux de croissance g1, g2, g3 et g4. Le tableau ci-dessous rsume les calculs : gi 2004- 05 2005- 06 2006- 07 2007- 08 g1 g2 g3 g4 1+gi

0,33333333 1,33333333 0,17857143 1,17857143 0,36363636 1,36363636 0,11111111 1,11111111

(Fichier EXCEL)

79

Dans le tableau ci-dessus, chaque taux de croissance a t calcul conformment la formule :

Ainsi, pour la premire priode, 2004-05, on aura :

Et ainsi de suite pour g2 (2005-06), g3 (2006-07) et g4 (2007-08). La dernire colonne du tableau donne (1+g1), (1+g2), (1+g3) et (1+g4). Effectuons le produit : (1+g1) x (1+g2) x (1+g3) x (1+g4) = 1,333 x 1,17857 x 1,36363 x 1,11111 = 2,38095238

Puis levons ce produit la puissance 1/4 = 0,25 : [(1+g1) x (1+g2) x (1+g3) x (1+g4)](1/4) = (2,38095238) (1/4) = 1,242189 Il nous reste calculer g : 1+g =1,242189 g = 0,242189 Soit un taux de croissance annuel moyen en pourcentage de 24,2 % (Fichier EXCEL). 4) Lien avec la moyenne gomtrique Nous avons ainsi calcul la moyenne gomtrique simple des quatre valeurs (1+g1), (1+g2), (1+g3) et (1+g4). En effet, nous avons appliqu la formule :

Cette formule est un cas particulier pour n=4 de la formule plus gnrale de la moyenne gomtrique simple d'une srie dfinie par les termes {(1+g1), (1+g2), (1+g3), ......., (1+gn)} :

80

D - Taux de croissance du produit de 2 valeurs En conomie, on raisonne frquemment sur des valeurs qui sont en fait le produit d'un prix et d'une quantit. C'est le cas par exemple de la recette totale, dont la dfinition est :

p est le prix d'un produit quelconque et q sa quantit. Dans ce cas, si le prix varie et que la quantit varie aussi, on peut souhaiter calculer le taux de croissance du produit des deux, c'est--dire le taux de croissance de la recette totale. Soient le prix pt et la quantit qt. L'volution du prix pt et de la quantit qt par rapport la priode prcdente peut s'exprimer ainsi : pt =(1+gp)pt-1 qt =(1+gq)qt-1 o gp et gq sont les taux de croissance respectivement du prix et de la quantit entre t -1 et t. Partant de ces deux expressions, la recette totale en t s'crit alors : RTt= pt qt =(1 + gp)(1 + gq)pt-1 qt-1 = (1 + gp)(1 + gq)RTt-1 On en dduit son taux de croissance entre t-1 et t : gRT=(RTt/RTt-1) -1=(1 + gp)(1 + gq)-1 Exemple : Un commerant augmente le prix d'un produit de 1% (gp = 0,01). la suite de cette augmentation, la quantit vendue baisse de 4% (gq=-0,04). Pour connatre l'volution de la recette totale, on va calculer son taux de croissance partir de la formule prcdente: gRT = (RTt / RTt-1) -1=(1 + gp)(1 + gq) -1 gRT = (1 + 0,01)(1 - 0,04) - 1 =(1,01 x 0,96) - 1 = 0,9696 - 1 = -0,0304 La recette totale a diminu de 3,04% la suite de la hausse du prix de 1% et de la baisse de la quantit de 4%.

81

E - Taux de croissance du rapport de 2 valeurs De la mme faon que l'on a parfois besoin de connatre le taux de croissance du produit de 2 grandeurs, il arrive aussi que l'on ait besoin de connatre le taux de croissance du rapport de deux grandeurs. C'est le cas par exemple de la productivit apparente du travail, dont la dfinition est :

o Y = production exprime en euros et L = nombre d'heures travailles. Dans ce cas, si la production varie et que le nombre d'heures de travail varie aussi, on peut calculer le taux de croissance du rapport des deux, c'est--dire le taux de croissance de la productivit apparente du travail. Soient la production Yt et le travail Lt. Leur volution par rapport la priode prcdente peut s'exprimer ainsi : Yt = (1+gY)Yt-1 Lt = (1+gL)Lt-1 o gY et gL sont les taux de croissance respectivement de la production et du travail entre t -1 et t. Partant de ces deux expressions, la productivit la date t s'crit alors :

On en dduit son taux de croissance entre t-1 et t :

Exemple : La production augmente de 10% et le nombre d'heures travailles augmente de 4%. Quelle est l'augmentation de la productivit ?

La productivit a augment de 5,769%.

82

F - Complments 1) Augmentations (diminutions) successives Lorsque qu'une grandeur crot successivement des taux diffrents chaque priode et que l'on veut connatre la valeur de la grandeur au terme des augmentations ou diminutions successives on applique la formule suivante :

Exemple : Soit V0=10 et g1=10%, g2=12%, g3=-5%. Dterminer V 3. On a :

Donc :

On peut faire la vrification pas pas : V0=10 V1 = V0(1+g1)= 10(1+0,1)=11 V2=V1(1+g2)=11(1+0,12)=12,32 V3=V2(1+g3)=12,32(1-0,05)=11,704 2) Augmentation en pourcentage suivie d'une diminution identique (ou diminution suivie d'une augmentation) Lorsque l'on applique une grandeur une augmentation d'un certain pourcentage, par exemple 10%, et qu'ensuite on applique au rsultat un pourcentage identique de diminution, par exemple 10%, on ne retrouve pas le chiffre de dpart. Exemple : si l'on part de V0 =10 et que l'on applique une augmentation de 10%, on obtient V 1=11. Si l'on applique une diminution de 10% V 1, on obtient V2=11 x (10,1)=11 x 0 ,9 = 9,9, parce que 10% de 11 = 1,1 alors que 10% de 10 =1. On ajoute donc 1 10, puis on retranche 1,1 11. On se retrouve donc avec 9,9.

83

De mme, si on applique une grandeur une diminution d'un certain pourcentage, par exemple 10%, et qu'ensuite on applique au rsultat un pourcentage identique d'augmentation, par exemple 10%, on ne retrouve pas le chiffre de dpart. Exemple : si l'on part de V0=10 et que l'on applique une diminution de 10%, on obtient V 1= 9. Si l'on applique une augmentation de 10% V1, on obtient V2=9(1+0,1)=9 x 1,1 = 9,9.

3) Temps de doublement d'une grandeur Le temps de doublement d'une grandeur qui crot un taux moyen constant se calcule en appliquant la formule :

Exemple : En combien de temps un capital plac 5% l'an double-t-il ? On a la formule :

Il faut donc 14 ans plus 0,2 x 12 mois = 2,4 mois pour qu'un capital plac 5% l'an double. C'est--dire 14 ans, 2 mois et 0,4 x 30 jours = 12 jours. Soit 14 ans, 2 mois et 12 jours. 3 Rsum Les indices et les taux de croissance permettent dtudier lvolution dune ou plusieurs grandeurs dans le temps. Ils sont aussi utiliss pour comparer des situations (gnralement deux sries dont les valeurs changent selon le lieu). Un nombre indice est une mesure de la variation dune grandeur compare une valeur de rfrence gale 100 et appele base . Un indice lmentaire est un indice qui renseigne sur lvolution temporelle ou situationnelle (spatiale) dune seule valeur. Un indice synthtique est un indice qui rsume lvolution de plusieurs grandeurs : plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits), etc. Lindice de LASPEYRES dvolution des prix mesure lvolution, entre deux dates 0 et t, des prix des biens qui composent un panier, en prenant comme rfrence la valeur du panier la date initiale (t = 0) et en supposant que les quantits de biens dans le panier nont pas vari entre 0 et t. Lindice de LASPEYRES dvolution des quantits mesure lvolution, entre deux dates 0 et t, des quantits des biens qui composent un panier, en prenant comme

84

rfrence la valeur du panier la date initiale (t=0) et en supposant que les prix des biens dans le panier nont pas vari entre 0 et t. Lun des indices synthtiques les plus connus et les plus utiliss est lindice des prix la consommation (IPC) publi chaque mois par lINSEE. L'IPC permet de mesurer l'inflation, cest--dire la variation du niveau gnral des prix des biens et des services consomms par les mnages sur le territoire franais entre deux priodes donnes. C'est une mesure synthtique des volutions de prix qualit constante. Le taux de croissance sur une priode de la valeur V entre t = 0 (date du dbut de la priode) et t =1 (date de fin de la priode) s'crit :

Le taux g1 s'exprime frquemment en pourcentages. Dans ce cas on le multiplie par 100. La formule du taux de croissance moyen sur plusieurs priodes est donne par l'expression :

o g = taux de croissance moyen, V0 = grandeur la date 0, Vt = grandeur la date t et le t qui figure dans l'exposant 1/t est le nombre de priodes sur lequel le taux moyen est calcul.

85

Chapitre 5 Diagrammes et graphiques 0 Introduction 1 Utilit des graphiques A Qualits dun bon graphique B Quartet dANSCOMBE 2 Les chelles graphiques A Echelles numriques B Echelles de catgories 1) catgories numriques 2) catgories nominales C Echelles ordinales D Echelles verticales doubles E Echelles logarithmiques 1) Dfinition 2) Calcul pratique du log dcimal dun nombre 3) Rappels sur le log dcimal 4) Exemples a) Lchelle log pour mieux voir les diffrences de progression b) Lchelle log linarise les volutions taux constant 3 Diagrammes A - Pictogramme B - Cartogramme C Diagramme de GANTT 4 Graphiques usuels A - Graphique en barres 1) Barres verticales a) Simples b) Multiples c) Trononnes 2) Barres horizontales a) Simples b) Multiples c) Trononnes B Courbes et aires 1) Courbe simple 2) Courbes multiples 3) Aires dlimites par des courbes C - Graphique de dispersion ou nuage de points D - Secteurs 1) Secteurs 360 degrs 2) Secteurs 180 degrs 3) Mthode de construction a) 360 degrs b) 180 degrs

86

4) Anneaux a) Simples b) concentriques 5 Autres graphiques A Graphiques en radar et toiles daraigne 1) Radar 2) Toile daraigne B Graphique bulles C Graphiques boursiers D Graphiques de TUKEY 1) Les lments constitutifs du graphique original 2) Exemple 3) Le graphique de TUKEY simplifi E Graphiques panachs 1) Secteur complt par une barre trononne 2) Graphique de PARETO a) De la loi de Pareto au graphique de Pareto b) Dfinition, construction, exemple et interprtation c) Interprtation F Histogramme 1) amplitudes de classes identiques a) Histogramme deffectifs b) Histogramme de frquences 2) Amplitudes de classes diffrentes a) Histogramme deffectifs b) Histogramme de frquences G Pyramide des ges H Graphique en cascade I Graphique trois dimensions 1) Graphique en 2D avec ajout de profondeur 2) Graphique en barres avec 3 dimensions relles 6 - Rsum

87

0 Introduction Les diagrammes et les graphiques sont des reprsentations visuelles simplifies, mais nanmoins rigoureuses, de chiffres, de concepts, de catgories, dimages, etc. Bien que certains diagrammes reprsentent aussi des chiffres (voir la section 3 de ce chapitre), cest principalement au graphique que cette fonction incombe. Plus prcisment, en statistique descriptive, le graphique sert reprsenter visuellement des informations sur les dimensions (caractres ou variables) dune population dunits statistiques. Le graphique statistique combine dans des proportions varies des points, des lignes, un systme de coordonnes gnralement cartsiennes, des chiffres, des symboles, des mots, des formes et des couleurs. Lide de reprsenter visuellement des nombres traduisant eux-mmes des proprits quantitatives ou qualitatives de populations statistiques (ou mme de collections dobjets matriels ou abstraits) et les relations ventuelles entre ces nombres et entre ces proprits, est assez rcente dans lhistoire de lhumanit. Ainsi, on ne trouve pas proprement parler de graphiques statistiques dans les cavernes prhistoriques. Selon Edward TUFTE10, un des meilleurs spcialistes contemporains des graphiques, cest vers les annes 1750-1800 que lide de reprsenter visuellement des donnes statistiques ou des sries temporelles est apparue, donc bien aprs linvention du trac des fonctions mathmatiques dans un repre de coordonnes cartsiennes. Cest langlais William PLAYFAIR (1759-1823) qui fut lun des pionniers de la reprsentation graphique de donnes statistiques jusque-l proposes sous forme de tableaux. 1 Utilit des graphiques A Qualits dun bon graphique Nous sommes quotidiennement bombards dinformations visuelles, que ce soit par lintermdiaire des journaux (gratuits ou pas), dinternet, des tlphones portables, des panneaux publicitaires gants ou non, numriques ou en papier. Or nous ne pouvons en absorber quune partie limite. De plus, une partie de cette information est complexe et requiert un degr non ngligeable dattention et de concentration pour tre comprise et exploite utilement. Les annonceurs et autres diffuseurs dinformation sont conscients de ce dfi et cest pourquoi ils redoublent de crativit et dimagination pour forcer notre attention et tenter de la captiver suffisamment longtemps pour quelle se transforme magiquement, notre insu, en concentration, cela pour quau bout du compte nous retenions cette information et lutilisions dans le sens quils souhaitent (achat de produits, certes, mais aussi adoption de certains comportements dans le cas des politiques de sant publique ou de dveloppement durable, entres autres).

10

TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics Press. Voir le site internet de Edward TUFTE, page 13.

88

Pour ce faire, quand linformation doit prendre la forme de donnes chiffres, ils font appel des infographistes. En effet, lutilisation des graphiques pour transmettre un message savre trs efficace. Mais le statisticien se doit de rappeler quil faut nanmoins respecter certaines rgles et ne jamais laisser lesthtique empiter sur lexactitude, fut-ce au nom de lefficacit du message. Selon Edward TUFTE, lexcellence en matire de graphiques statistiques consiste communiquer avec clart, prcision et efficacit des ides complexes. Ensuite, il numre neuf caractristiques dun excellent graphique . Ainsi, un excellent graphique devrait-il avoir tout ou partie des qualits suivantes : Montrer les donnes. Attirer lattention du lecteur ou de lauditoire sur lide essentielle que le graphique vise mettre en vidence plutt que sur les qualits esthtiques du graphique lui-mme. Eviter de dformer le message contenu dans les chiffres Prsenter un grand nombre de chiffres dans un espace restreint Donner de la cohrence de vastes ensembles de donnes Faciliter les comparaisons visuelles entre diffrents chiffres Rvler les chiffres diffrents niveaux de dtails, allant de la vision densemble une structure plus fine. Servir un objectif clair : dcrire des donnes, explorer des donnes, ou simplement les tabuler ou leur donner un aspect esthtique. Etre troitement corrl avec la description purement statistique ou verbale des donnes.

B Quartet dANSCOMBE Les graphiques rvlent des informations sur la forme des sries que les tableaux et les statistiques rsumes ne peuvent pas toujours montrer. La meilleure illustration en est le quartet dANSCOMBE, nomm ainsi aprs la publication dun article sur ce thme par le statisticien anglais Francis ANSCOMBE (1918-2001) 11 . Dans le tableau ci-aprs les quatre 4 paires de sries diffrentes de 11 chiffres ont toutes les mmes statistiques rsumes. La moyenne des X est gale 9 et leur cart-type est 1,94 pour les 4 sries. La moyenne des Y est gale 7,5 et leur carttype 1,94 pour les 4 sries. Sans les quatre graphiques ci-aprs, on pourrait dduire de faon errone que comme les 4 paires de sries ont la mme moyenne et la mme dispersion (en outre, elles ont le mme coefficient de corrlation et la mme droite de rgression Y = 3 + 0,5 X [sur le calcul de la droite de rgression voir le chapitre 6]), elles sont trs semblables. Or, comme le montrent les 4 graphiques dits en nuages de points qui leurs sont associes, elles ont des formes trs diffrentes. Et ceci confirme ladage qui dit que un beau graphique vaut mieux quun long discours !

11

F.J. ANSCOMBE, Graphs in Statistical Analysis, American Statistician, 27 fvrier 1973, pages 17-21.

89

Quartet dANSCOMBE

Source des chiffres : F.J. ANSCOMBE, Graphs in Statistical Analysis, American Statistician, 27 fvrier 1973, pages 17-21.

2 Les chelles graphiques Beaucoup de graphiques deux dimensions se prsentent sous la forme suivante dite dun systme de coordonnes cartsiennes :

Ce qui nous intresse dans un premier temps ce sont les diffrentes sortes dchelles propres ce type de reprsentations graphiques. A Echelles numriques Une chelle numrique est une chelle qui mesure des valeurs qui peuvent varier de moins linfini plus linfini. Ci-aprs, un graphique avec une chelle numrique sur laxe horizontal et une chelle numrique sur laxe vertical. Sur laxe horizontal, lunit de mesure numrique est lanne. Les valeurs schelonnent entre 1995 et 2008. Si lon doit dessiner ce graphique la main sur une feuille de papier, on prendra soin de dfinir la distance que lon souhaite consacrer une anne (par exemple : 1 an = 1 cm). Si cest un logiciel qui ralise le graphique, cette opration devient inutile car les dimensions du graphique seront choisies par dfaut (il est possible cependant de les modifier son gr en redimensionnant le graphique12).

12

Dans EXCEL, il faut utiliser la poigne de redimensionnement tout en maintenant enfonc la touche Maj , afin de garantir la proportionnalit de la transformation.

Sur laxe vertical, lunit de mesure numrique est le dficit commercial dun pays, mesur en millions de dollars. Il varie de -150 millions + 400 millions. Si lon doit dessiner ce graphique la main sur une feuille de papier, on prendra soin de dfinir la distance que lon souhaite consacrer 100 millions de dollars (par exemple : 100 millions de dollars = 1 cm). Si cest un logiciel qui ralise le graphique, cette opration devient inutile car les dimensions du graphique seront choisies par dfaut. Un exemple dchelles numriques sur les deux axes

Il est important de toujours bien stipuler sur chaque axe lunit dans laquelle lchelle de laxe considre est mesure (ici lunit est lanne pour laxe horizontal et les millions de dollars pour laxe horizontal). En revanche, on peut se dispenser dindiquer la relation entre la dimension de lchelle (en centimtres) et la dimension de la variable mesure sur lchelle (millions de dollars, temps, etc.). B Echelles de catgories Une chelle de catgories est une chelle sur laquelle sont portes des catgories. Il peut sagir : De catgories numriques (chelle quantitative) De catgories non numriques dites nominales (chelle qualitative)

92

1) Catgories numriques Ci-aprs un graphique o lon a regroup les chmeurs dune ville par classes dges : Sur laxe horizontal figurent les catgories dges. Cest une chelle de catgories ou catgorielle. Lunit est lge. On remarque aussi que les classes dge ont la mme amplitude cest--dire que toutes les catgories dges ont le mme nombre dannes. Il existe aussi des chelles de catgories damplitude diffrentes. Sur laxe vertical figurent leffectif des chmeurs qui entrent dans chaque catgorie. Cest une chelle numrique simple. Lunit est le nombre des chmeurs.

Exemple dutilisation dune chelle avec catgories numriques sur laxe horizontal

2) Catgories nominales Ci-aprs un graphique o lon a regroup les 35 pays du tableau 1 selon la monnaie utilise. On a cr trois catgories : La catgorie des pays qui font partie de la zone Euro au premier janvier 2009 La catgorie des pays de lUE 27 qui nen font pas partie et utilisent de ce fait dautres monnaies La catgorie des pays hors UE qui sont reprsents dans le tableau 1.

93

Lchelle de laxe vertical est donc une chelle nominale. On a plac lchelle nominale sur laxe vertical car ainsi il est plus commode dcrire ce que signifie chaque barre. Lchelle de laxe horizontal, quant--elle, est numrique, elle mesure le nombre de pays appartenant chaque catgorie. Exemple dutilisation dune chelle avec catgories nominales sur laxe vertical

C Echelles ordinales Une chelle ordinale est une chelle sur laquelle un ordonnancement des modalits est concevable. Il peut sagir : Dun classement de prfrences. Cest souvent le cas dans les enqutes et les sondages dopinion. Dun classement de rang. On peut par exemple demander des investisseurs de classer une liste de pays du plus attractif au moins attractif. Ce classement ne doit pas tre confondu avec une chelle numrique simple. En effet, bien quil sagisse de chiffres, lcart entre les chiffres na pas de signification.

Le tableau et le graphique ci-aprs reproduisent des donnes fournies par le rapport de la Banque mondiale intitul Doing Business 2009 Report 13). La Banque mondiale a class 181 pays. Les pays sont classs en fonction de la facilit d'y faire des affaires, de 1 181, la premire place indique le plus haut niveau de facilit. Un classement lev sur l'indice de facilit de faire des affaires signale un environnement rglementaire propice aux oprations commerciales. Le fait que le classement soit reprsent sous forme numrique ne doit pas laisser penser cependant quil sagit dune chelle numrique. En effet, ces chiffres ne reprsentent que des rangs.

13

Voir http://www.doingbusiness.org/economyrankings/ (Le classement qui figure dans cette version du cours a t relev le 08/10/2008 et peut donc tre diffrent de celui qui figure sur le site internet donn en rfrence).

94

Source : http://www.doingbusiness.org/economyrankings/ (Classement relev le 8 octobre 2008)

95

Exemple dchelles ordinales (Classement des 20 premiers pays du tableau prcdent sur laxe vertical et sur laxe horizontal)

Source : http://www.doingbusiness.org/economyrankings/ (classement relev le 8 octobre 2008)

Lchelle horizontale du graphique ci-dessus nest quapparemment numrique. En fait elle donne le classement du pays. Il sagit donc bien dune chelle ordinale car lcart qui spare les pays nest pas quantifiable. Par exemple,Singapour est class au premier rang et la Malaisie est classe au 20me rang. Si lon fait la diffrence 201 = 19, on ne peut pas en conclure que Singapour est 19 fois plus attractif que la Malaisie du point de vue des investissements internationaux. Il ne sagit pas dune 96

chelle rellement numrique, mais dune chelle spciale, qualifie pour cette raison d chelle ordinale . Lchelle verticale du graphique ci-dessus est galement ordinale : les pays y sont classs par ordre dcroissant, du moins attractif au plus attractif. D Echelles verticales doubles Lorsque que lon veut reprsenter les donnes relatives deux variables ou deux caractres, on a recours une chelle verticale double pour faciliter la lecture. Lexemple suivant va permettre dillustrer ce point. Le tableau ci-dessous montre deux sries mensuelles. La premire indique le temps pass par une personne sur Internet chaque mois (en heures) et la seconde srie indique le total de la somme dpense sur diffrents sites marchands14.
Temps pass sur Internet (heures/mois) et sommes dpenses sur diffrents sites marchands (euros)

Source : Matthew McDONALD, Creating a Combination Chart in EXCEL 2007 , Matthew


McDONALD, video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc

14

Exemple inspir de Creating a Combination Chart in EXCEL 2007 , par Matthew McDONALD, video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc

97

Exemple de lutilit des chelles verticales doubles

Imaginons que lon souhaite savoir sil existe une covariation entre ces deux sries. Une bonne faon de procder est de les mettre sous forme dun graphique. Cependant, comme les deux chelles sont diffrentes, il faut rserver par exemple lchelle verticale de gauche pour le temps pass sur internet (qui est exprim en heures) et lchelle verticale de droite pour les sommes dpenses (qui sont exprimes en euros). En effet, si lon utilise seulement lchelle verticale de gauche pour tracer les deux sries, la plus petite (celle des heures passes sur internet) sera crase par la plus grande (celle des euros dpenss) et le graphique ne rvlera rien du tout. Inversement, si lon rserve une chelle pour chaque srie, on obtient alors un graphique beaucoup plus lisible qui semble bel et bien rvler que plus cet individu a pass de temps sur Internet et plus il a dpens dargent (ceci nest quun constat de covariation et non une relation de causalit, bien sr). E Echelles logarithmiques 1) Dfinition Lchelle logarithmique est une chelle qui mesure le logarithme dcimal des valeurs de la variable. C'est un excellent moyen de mettre en vidence une ide ou un rsultat grce aux proprits des logarithmes dcimaux. Avant de prsenter le mode de construction d'un graphique chelle semilogarithmique, il convient cependant de faire un rappel sur les logarithmes dcimaux. ce sujet, sur un plan pratique, il est plus important de savoir obtenir un logarithme dcimal avec une machine calculer, que de comprendre le pourquoi et le comment des logarithmes dcimaux, ce qui est certainement passionnant mais relve d'un cours de mathmatiques. Nous allons donc commencer par voir comment on calcule un logarithme dcimal avec une machine calculer standard (ci-aprs la "SC-05 Plus") avant de faire un bref rappel sur les logarithmes dcimaux. 2 ) Calcul pratique du log dcimal d'un nombre Il suffit d'appuyer sur la touche "log" d'une machine calculer pour obtenir le log d'un nombre. Par exemple, l'image ci-dessous illustre le calcul du log dcimal de 1000. L'cran indique que le log dcimal de 1000 est gal 3. Pour obtenir ce rsultat, on procde ainsi : 1 - Allumer la machine 2 - appuyer sur la touche "log" entoure en rouge (attention de ne pas appuyer sur la touche "ln" qui est entoure en bleu juste ct et qui sert calculer les logarithmes naturels) 3 - Entrer le chiffre 1000 4 - Appuyer sur la touche "=" 5 - Le rsultat (ici le log de 1000 c'est 3) apparat sur l'cran de la calculatrice.

3) Rappels sur le logarithme dcimal Le logarithme dcimal d'un nombre est la puissance laquelle il faut lever 10 pour obtenir ce nombre. Appliquons cette dfinition quelques nombres. Quel est, par exemple, le logarithme dcimal de 1 ? Autrement dit, quelle puissance faut-il lever 10 pour obtenir 1 ? La puissance laquelle il faut lever 10 pour obtenir 1 est 0. Par consquent, le logarithme dcimal de 1 est gal zro: 100=1 On crira donc : log 1 = 0 Quel est le logarithme dcimal de 100 ? C'est la puissance laquelle il faut lever 10 pour obtenir 100 : 102=100, parce qu'il faut lever 10 la puissance 2 pour obtenir 100. Donc le logarithme dcimal de 100 est gal 2. On crira par consquent : log 100 =2 Inversement, si l'on demande "De quel chiffre 3 est-il le logarithme dcimal ?", on fera le raisonnement inverse. Sachant que 103=1000, la rponse est donc : log 3 = 1000 Autrement dit, le logarithme dcimal de 1000 est gal 3.

100

4 ) Exemples a ) Lchelle logarithmique permet de mieux voir les diffrences de progression On dcide de comparer le nombre de contrats conclus par deux vendeurs en 2004 et 2005 : 2007 300 100 2008 600 400 Progression multipli par 2 multipli par 4

Vendeur 1 Vendeur 2

Le tableau montre que le nombre de contrats conclus par le vendeur 1 a t multipli par 2 et que le nombre de contrats conclus par le vendeur 2 a t multipli par 4. Sur un graphique ordinaire ( gauche ci-dessous), les deux progressions sont parallles. En revanche, sur un graphique avec une ordonne logarithmique, on voit clairement que la progression du vendeur 2 est plus rapide que celle du vendeur 1.

Sur le graphique de droite, l'chelle de l'ordonne est logarithmique, mais les chiffres indiqus (les nombres de contrats) sont les mmes que sur le graphique de gauche. Cependant, au lieu d'utiliser les valeurs elles-mmes, le trac utilise le logarithme dcimal des valeurs, comme indiqu dans le tableau ci-dessous : 2007 log(300)=2,48 log(100)=2 2008 log(600)=2,78 log(400)=2,6

Vendeur 1 Vendeur 2

101

b) Lchelle log linarise les volutions taux constant On souhaite faire un graphique indiquant l'volution du chiffre d'affaires d'une entreprise dont la croissance est trs rapide : Annes 2004 2005 2006 2007 2008 CA (en euros) 100 1000 10000 100000 1000000

Comme on peut le voir sur le graphique ci-aprs les valeurs pour 2004, 2005 et 2006 sont crases par rapport celles de 2007 et 2008 : Graphique avec chelle des ordonnes ordinaires (sans transformation logarithmique)

Fichier EXCEL

102

Appliquons une transformation logarithmique aux valeurs de l'ordonne : Annes 2004 2005 2006 2007 2008 CA (en euros) 100 1000 10000 100000 1000000

log(100)=2 log(1000)=3 log(10000)=4 log(100000)=5 log(1000000)=6

On obtient alors le graphique suivant o la progression devient linaire : Graphique semi logarithmique (l'chelle des abscisses est logarithmique)

Fichier EXCEL 5 Echelle doublement logarithmique il existe aussi des graphiques avec chelle logarithmique sur les deux axes. Autrement dit, non seulement l'chelle des ordonnes est logarithmique, mais galement l'chelle des abscisses. C'est assez peu frquent en conomie. L'exemple donn ci-aprs est celui de la relation entre le temps de gnration (priode allant de la naissance l'ge moyen de reproduction) et la longueur de divers tres vivants. On voit nettement sur ce graphique que le temps de gnration crot avec la longueur. Mais on a ici un cas trs intressant o l'chelle de temps varie entre moins d'une heure et 100 ans et o l'chelle de longueur varie de l'infiniment petit 100 m. Pour bien contraster ce graphique avec le graphique semi-logarithmique 103

tudi prcdemment, logarithmique.

on

parle

de

graphique

chelle

doublement

Exemple d'un graphique chelle doublement logarithmique

Source : John Tyler BONNER, Size and Cycle : An Essay on the Structure of Biology (Princeton, 1965), p.17. Reproduit dans Edward R. TUFTE, The Visual Display of Quantitative Information (Graphics Press LLC, 2004), p. 94

104

3 Diagrammes Un diagramme est une reprsentation visuelle simplifie et structure de concepts, dides, de constructions, des relations, de l'anatomie et aussi parfois (et cest en cela quil nous intresse ici) de donnes statistiques. Il est employ dans tous les aspects des activits humaines pour visualiser et clarifier. Un diagramme permet aussi de dcrire des phnomnes, de mettre en vidence des corrlations en certains facteurs ou de reprsenter des parties dun ensemble.. Il existe donc une relation entre diagramme et graphique, que nous pouvons dailleurs illustrer par le diagramme de VENN ci-aprs (lequel est un diagramme non statistique !).

105

A Pictogramme Le pictogramme est un dessin, gnralement en couleur, conu de prfrence par un infographiste, qui essaie de traduire non seulement des donnes quantitatives, mais galement des informations dordre commercial ou esthtique. Dans lexemple suivant, quatre figurines reprsentent des bouteilles deau : la corpulence de chaque bouteille correspond aux ventes de la marque fictive eau de qualit . En ralit, il sagit au dpart dun graphique en colonnes qui a t redessin pour remplacer les colonnes par des bouteilles. Ce qui compte ici, cest la hauteur de la bouteille. Plus la bouteille est haute, plus les ventes sont importantes. On voit aussi sur le graphique que la corpulence augmente avec la hauteur. Il faudrait donc, pour que le pictogramme reste conforme aux canons habituels (proportionnalit des surfaces aux grandeurs reprsentes), que la surface des bouteilles soit proportionnelle aux chiffres quelles reprsentent. Ce nest pas le cas pour des raisons esthtiques et/ou de ralisme visuel. Il y a donc un risque (certains diront une opportunit ) utiliser ce genre de graphique, risque qui est dinduire des impressions visuelles qui ne sont pas contenues dans la ralit des chiffres. Remarquons quil sagit dun pictogramme qui traduit principalement une information statistique. Mais beaucoup de pictogrammes traduisent que des informations diverses, non statistiques. Un pictogramme qui reprsente des donnes chiffres

106

B - Cartogramme Le cartogramme sert localiser gographiquement des valeurs ou des modalits relatives une variable ou un caractre dcrivant les units statistiques dune population. Les cartogrammes sont dsormais trs frquemment utiliss pour reprsenter toutes sortes dinformations, de la mtorologie, aux rsultats lectoraux, en passant naturellement par des informations conomiques.

Un cartogramme statistique : De la CEE 6 lUE 27

Source : http://upload.wikimedia.org/wikipedia/commons/c/c4/European_union_past_enlargements_map_fr.png

107

Le cartogramme ci-avant montre lvolution de la construction europenne par date dadhsion. On a dabord : En 1956 : les 6 pays fondateurs (France, Allemagne, Italie, Pays-Bas, Belgique et Luxembourg) En 1973 : Le premier largissement avec le Royaume-Uni, lIrlande et le Danemark En 1981 : La Grce En 1986 : LEspagne et le Portugal EN 1975 : LAutriche, La Finlande et la Sude En 2004 : 8 pays de lEst (Estonie, Lettonie, Lituanie, Rpublique Tchque, Slovaquie, Pologne, Slovnie, Hongrie) plus Malte et Chypre En 2007 : La Bulgarie et la Roumanie C - Diagramme de GANTT Le diagramme de GANTT, du nom de lingnieur amricain Henry Laurence GANTT (1861-1919) qui la popularis, est un outil de gestion de projets. Il sert visualiser dans le temps les diffrentes tapes qui composent un projet. Il existe des logiciels spcifiques qui permettent de produire ce diagramme, mais il est aussi possible dutiliser EXCEL 2007 pour le tracer. Nous allons partir dun exemple simple sous forme dun tableau dcrivant la dure des diffrentes tapes de la ralisation dun mmoire et nous transformerons ce tableau en diagramme de Gantt. Ci-aprs, le tableau qui va servir faire le diagramme : Tableau chronologique des tches effectuer pour raliser un mmoire

108

Sur ce tableau figurent successivement : Dans la premire colonne, lnumration des tches Dans la seconde colonne la date de dbut de chaque tche Dans la troisime colonne la dure de chaque tape en jours Dans la dernire colonne, la date dachvement de chaque tche

Voici maintenant le diagramme tel quil apparat une fois termin. Diagramme de GANTT pour la ralisation dun mmoire

Grce ce diagramme, nous pouvons : Visualiser la dure totale du projet Apprcier la dure de chaque tape et ventuellement raffecter le temps total entre les diffrentes tches Vrifier si les chevauchements sont ralistes (ici pour simplifier- il ny a pas de chevauchement) Ordonner les tches dans un ordre chronologique

4 Graphiques usuels lre du numrique et des tlcommunications, les graphiques sont partout. Ces reprsentations visuelles colores, aux formes trs diverses sont plus agrables regarder que les tableaux et permettent souvent de mieux faire passer un message au premier coup dil. Il est galement trs facile, grce aux logiciels tels que EXCEL 2007 de Microsoft de donner une profondeur aux diffrents graphiques, afin quils apparaissent comme ayant trois dimensions (Il est aussi possible dans EXCEL 2007, de reprsenter

109

rellement trois dimensions pour certains graphiques en barres ou pour les graphiques dits de surface ). Il ne faut cependant pas abuser de la possibilit qui nous est donne aujourdhui de raliser des graphiques complexes. Car cette complexit peut finir par rendre le graphique difficilement comprhensible. Mieux vaut sen tenir aux principales reprsentations graphiques connues et apprcies de tous : diagrammes en colonne, diagramme en barres, lignes, camemberts , etc. Il existe une grande quantit de graphiques, tous plus imaginatifs les uns que les autres. Ainsi, titre dexemple, la figure ci-aprs montre les 73 possibilits de graphiques simples, regroupes en 11 catgories, qui peuvent tre raliss avec le logiciel EXCEL 2007. Mais en ralit, il est possible den faire beaucoup plus, soit en combinant ces formes de base, soit en utilisant certaines astuces. Les 73 reprsentations graphiques de base dans EXCEL 2007, regroupes dans 11 catgories communes

De plus, grce des logiciels tels que FLASH dAdobe, il est possible de raliser des graphiques anims, ou des graphiques interactifs (pouvant par exemple tre modifis par lutilisateur).

110

Les quatre formes graphiques les plus frquemment utilises sont : Barres verticales ou horizontales Courbes ou aires dlimites par des courbes Nuages de points Secteurs ou camemberts

A Graphiques en barres On distingue les graphiques en barres verticales et les graphiques en barres horizontales. Mais pour chacune de ces deux catgories, il existe 3 varits : simple, multiples et trononne. Sagissant des barres trononnes , elles se subdivisent en barres deffectifs ou en barres de pourcentages empils 100%. Le Tableau ciaprs donne une reprsentation schmatique de ces 8 varits. Pour crer les 8 graphiques les donnes ci-dessous ont t utilises :

. Il sagit du chiffre daffaires hypothtique quune entreprise a ralis en 2008 249 327 045 euros) rpartis par ses 4 vendeurs et dans les trois villes o se trouvent ses clients. Les 8 graphiques ci-aprs sont les 8 principales faons de reprsenter ces donnes (ou une partie dentre elles). Chaque graphique en barres fait ressortir ces chiffres dune manire diffrente et pourra donc tre prfr selon les circonstances dans lesquelles le graphique est utilis. 1) Barres verticales La premire ligne du tableau ci-aprs intitul les 8 principales varits de graphiques en barres reprsente les 4 principales faons de disposer les donnes du tableau sous forme de barres verticales (ou colonnes). Comme laxe horizontal reprsente des catgories nominales, la largeur des colonnes na pas dimportance, pourvu quelle soit identique pour toutes les colonnes. Cette largeur peut varier dun minimum qui serait un simple trait vertical jusqu un maximum qui serait reprsent par le fait que toutes les colonnes seraient colles . a) Simple Le type barres verticales simples est reprsent par le graphique numrot 1. Il permet de mettre en vidence le chiffre daffaire ralis par chaque vendeur. On voit du premier coup dil combien chaque vendeur ralis et quel est celui qui a ralis le plus gros chiffre daffaires. Les chiffres du graphique correspondent la dernire ligne du tableau.

111

Les 8 principales varits de graphiques en barres

b) Multiples Le type barres verticales multiples est reprsent par le graphique numrot 3. Il permet de mettre en vidence le chiffre daffaire ralis par chaque vendeur dans chaque ville. Pour chacune des villes (Marseille, Paris, Lyon) on peut voir combien chaque vendeur ralis. Ce graphique permet de voir quel est le vendeur le plus performant dans chaque ville. c) trononnes Le type barres verticales trononne est reprsent par les graphiques numrots 5 et 7. Le graphique numrot 5 montre les valeurs absolues : il permet de voir dune part quelle est la ville qui a produit le plus gros chiffre daffaires. Mais il permet aussi de voir quelle est la contribution de chaque vendeur dans le chiffre daffaires ralis dans chaque ville. Le graphique numrot 7 montre les pourcentages : il permet seulement de voir la contribution de chaque vendeur dans le CA de chaque ville. Et comme chaque barre verticale correspond 100%, on peut comparer la performance de chaque vendeur dans chaque ville. On voit par exemple que la contribution de Leila (rouge) est plus forte Lyon qu Marseille. Inversement, la contribution de Ahmed est plus forte Marseille qu Paris.

2) Barres horizontales La deuxime ligne du tableau ci-avant intitul les 8 principales varits de graphiques en barres montre les 4 principales faons de disposer les donnes du tableau sous forme de barres horizontales. Comme laxe horizontal reprsente des catgories nominales, la largeur des barres na pas dimportance, pourvu quelle soit identique pour toutes les barres. Cette largeur peut varier dun minimum (un simple trait vertical) jusqu un maximum (toutes les colonnes sont colles ). a) Simple Le type barres horizontales simples est reprsent par le graphique numrot 2. Il est lquivalent en barres horizontales du graphique numrot 1 b) Multiples Le type barres horizontales multiples est reprsent par le graphique numrot 4. Il est lquivalent en barres horizontales du graphique numrot 3. c) trononnes Le type barres horizontales trononnes est reprsent par les graphiques numrots 6 et 8. Il est lquivalent en barres horizontales des graphiques numrots 5 et 7.

B Courbes et aires La courbe est gnralement le graphique le plus appropri pour montrer des volutions dans le temps. Lorsque lon veut montrer lvolution de plusieurs sries dans le temps on utilisera galement ce type de prsentation. Parfois, on veut aussi montrer lvolution de diffrentes composantes dun ensemble dans le temps. Dans ce cas, on peut utiliser des aires dlimites par des courbes. Pour illustrer les diffrents usages possibles des courbes et des aires, soit le tableau suivant qui reprsente la rpartition du chiffre daffaires dune entreprise sur les 3 villes o se situent ses clients. Rpartition du chiffre daffaires de lentreprise XXX par villes (Millions deuros)

Pour complter ce tableau, ajoutons le tableau en pourcentage suivant, qui donne, pour chaque anne, la contribution en pourcentage de chaque ville au chiffre daffaires total. Ce second tableau sobtient en divisant les 3 premiers chiffres de chaque ligne du tableau initial par le quatrime chiffre de la ligne correspondante et en multipliant le rsultat par 100 Contribution en % de chaque ville au chiffre daffaires total de chaque anne

Le tableau de graphiques ci-aprs illustre les 4 principales possibilits dexploiter les graphiques en ligne o les aires dlimites par des lignes. 1) Courbes simples Le graphique numrot 1 reprsente lvolution des ventes totales (ou chiffre daffaires total) en millions deuros de cette entreprise fictive. Il permet de lire la fois laugmentation et les priodes o lvolution a marqu le pas. Il est parfaitement adapt pour illustrer lvolution globale du chiffre daffaires de lentreprise.

114

Quatre principales faons dutiliser les graphiques en courbes et aires

2) Coubes multiples Le graphique numrot 2 reprsente lvolution des ventes totales (ou chiffre daffaires total) en millions deuros que cette entreprise ralise pour chacune des 3 villes o se trouvent ses clients. Il est intressant, mais en fait, on peut lui prfrer un graphique qui allierait la fois les avantages de la courbe simple (graphique numrot 1) et la dcomposition par ville (graphique numrot 2). Cest ce que propose le graphique numrot 3. 3) Aires dlimites par des courbes On peut concevoir deux faons de prsenter un graphique daires dlimites par des courbes : Soit sous forme de valeurs absolues : le graphique numrot 3 reprsente ainsi la fois lvolution des ventes totales et la contribution de chaque ville cette volution. La contribution est reprsente par le dcoupage en trois de la surface qui se trouve sous la courbe. La contribution de Marseille est en bleu, celle de Paris en rouge et celle de Lyon en vert. Les 3 contributions additionnes donnent lvolution totale. Soit sous forme de pourcentages : le graphique numrot 4 reprsente la contribution en pourcentage de chaque ville au chiffre total de lentreprise. Ce graphique permet de voir par exemple que Paris tait prpondrant en 2001 mais que sa part (ainsi que celle de Lyon) a t progressivement grignote par Marseille.

La mthode de construction est simple : on part du tableau initial et lon additionne dabord la colonne de Marseille et de Paris, puis les colonnes Marseille, Parie et Lyon. Ensuite, on trace les 3 courbes sur un mme graphique et on effectue un coloriage des 3 zones (voir schma ci-aprs). Naturellement, si lon dispose dun tableur comme EXCEL 2007, le graphique est trac automatiquement uniquement en slectionnant les donnes du tableau initial en en choisissant le graphique adquat.

Mthode construction dun graphique sous forme daires dlimites par des courbes

117

C - Graphique de dispersion ou nuage de points Un graphique de dispersion ou nuage de points est un graphique qui met en relation les valeurs de deux variables sur un repre de coordonnes cartsiennes. Nous avons dj rencontr ce type de graphique dans lintroduction ce chapitre. En effet, les 4 graphiques du quartet dANSCOMBE sont des graphiques de dispersion. Prenons un autre exemple. Ci-aprs, un tableau hypothtique qui illustre les diffrentes quantits dun certain produit quun consommateur XXX est dispos acheter suivant selon le prix du produit. Exemple de graphique de dispersion ou nuage de points

Le graphique de dispersion correspondant permet dassocier chaque une coordonne dabscisse (la quantit) et une coordonne dordonne (le prix). Les graphiques de dispersion ou en nuage de points sont trs utiliss pour ltude des corrlations entre deux variables. (Voir le chapitre 6).

118

D - Secteurs Les graphiques en secteurs sont utiles lorsque lon veut reprsenter la relation entre une partie et un tout. On distingue les secteurs 360 et ceux 180. Voyons un exemple de chacun deux avant de voir la mthode de construction qui repose sur la conversion des pourcentages en degrs. Reprenons les donnes du chiffre daffaires hypothtique quune entreprise a ralis en 2008 (249 327 045 euros) rpartis par ses 4 vendeurs et dans les trois villes o se trouvent ses clients.

1) Secteurs 360 degrs Le secteur 360 ci-dessous reprsente la rpartition des ventes totales entre les trois villes (Marseille en jaune, Paris en rouge et Lyon en vert).

119

2) Secteurs 180 degrs Le secteur 180 ci-dessous reprsente la rpartition des ventes totales entre les trois villes (Marseille en jaune, Paris en rouge et Lyon en vert). Pour le faire avec EXCEL, voir lien internet ici.

3) Mthode de construction a) Secteur 360 degrs Pour obtenir la part du chiffre daffaire ralis dans chaque ville, on divise le chiffre daffaires ralis dans la ville par le chiffre daffaires total et on multiplie par 360. Par exemple, pour Marseille on a :

Le tableau ci-dessous donne les rsultats en degrs pour les trois villes :

Une fois que lon a calcul les degrs associs au chiffre daffaire dans chaque ville, il faut tracer le secteur au moyen dun compas, puis, avec un rapporteur, le diviser en 3 sous-secteurs ayant pour angle 97 (Marseille), 185,3 (Paris) et 77,7(Lyon).

120

b) Secteur 180 degrs Pour obtenir la part du chiffre daffaire ralis dans chaque ville, on divise le chiffre daffaires ralis dans la ville par le chiffre daffaires total et on multiplie par 180. Par exemple, pour Marseille on a :

Le tableau ci-dessous donne les rsultats en degrs pour les trois villes :

Une fois que lon a calcul les degrs associs au chiffre daffaires dans chaque ville, il faut tracer le secteur au moyen dun compas, puis, avec un rapporteur, le diviser en 3 sous-secteurs ayant pour angle 48,5 (Marseille), 92,7 (Paris) et 38,8 degr (Lyon). Pour le faire avec EXCEL, voir lien internet ici. 4) Anneaux a) Simples Les anneaux sont simplement des secteurs trous au milieu. Ainsi, par exemple, les deux secteurs prcdents peuvent tre reprsents sous forme danneaux comme ci-aprs. La seule diffrence tant le cercle vide du milieu dont la taille peu tre choisie de faon arbitraire en fonction de considration telles que lesthtique ou lconomie dencre (si le graphique est destin tre imprim et que lon doit payer soi-mme la cartouche dencre) par exemple.

121

b) Concentriques Un exemple typique danneaux concentriques est celui de la reprsentation des rsultats du second tour de llection prsidentielle de 2007 pour 3 villes hypothtiques. Dans le cercle intrieur, on a la rpartition des voix entre les deux candidats (dans cet exemple hypothtique, ils ont obtenu chacun 150 voix) et dans le cercle extrieur, on a la rpartition des voix de chaque candidat dans chacune des villes.

5 Autres graphiques A Graphiques en radar et toile daraigne 1 Radar Soit par exemple 120 personnes qui sont interroges dans la ville A et 120 personnes dans la ville B sur la caractristique quelles placent en premier lors de lachat dune maison. Il s'agit d'une caractristique avec 4 modalits. On a le tableau suivant :

122

On peut alors placer ces donnes sur un diagramme en radar de la faon suivante :

2 Toile daraigne Le graphique en toile daraigne est une variante du graphique en radar, mais avec un nombre daxes plus grand. On lutilise par exemple pour reprsenter des donnes chronologiques. Soit par exemple une entreprise qui souhaite comparer le nombre de visiteurs mensuels sur son site internet en 2007 et en 2008. Nombre de visiteurs mensuels sur le site internet de lentreprise XXX (milliers)

123

Une bonne faon de prsenter une comparaison visuelle est de faire le graphique en toile daraigne suivant :

Ce graphique donne immdiatement deux informations : Les visites en 2008 ont chaque mois t suprieures aux visites en 2007 Il y a un caractre cyclique dans les visites, car les mois creux et les mois pleins sont les mmes en 2007 et en 2008.

124

B Graphiques bulles
Semblable au graphique de dispersion ou nuages de points, le graphique (ou diagramme) en bulles permet d'ajouter une troisime dimension l'analyse. Les deux premires dimensions dterminent la position des bulles sur le diagramme tandis que la troisime fixe la surface de chacune des bulles. Exemple 1 ( faire avec un logiciel) titre dexemple, soit les chiffres ci-dessous, extrait du tableau 1, qui donnent lge mdian, lindice de fcondit. Le PIB par habitant en 2006 des pays de lUE 27 a t ajout.

Age mdian, Indice de fcondit et PIB/habitant

Dans le graphique bulles ci-aprs, 3 dimensions sont reprsentes : lindice de fcondit (axe vertical), lge mdian (axe horizontal) et le PIB par habitant (surface de chaque bulle ).

125

Exemple de graphique bulles : Age mdian (axe horizontal), indice de fcondit (axe vertical) et PIB par habitant (surface de la bulle) des pays de lUE 27. Annes 2007 (ge mdian et indice de fcondit) et 2006 (PIB/habitant en $)

Exemple 2 : Le tableau ci-dessous donne les performances macroconomiques de 2 pays hypothtiques A et B, en 2008.

Reprsenter ces chiffres sur un graphique en bulles avec : Le taux de chmage en abscisse Le taux dinflation en ordonne La croissance par un cercle de surface proportionnelle au taux du pays considr

On obtient alors le graphique suivant :

Dans cet exemple relativement simple, il suffit de faire en sorte que laire du disque qui reprsente le taux de croissance du pays A soit le double de laire qui reprsente le taux de croissance du pays B. Pour assurer la proportionnalit des aires, il faut passer par la formule de laire du disque :

On peut choisir pour rfrence la plus grosse valeur reprsenter sous forme de disque. Ensuite on lui attribue une aire arbitraire, par exemple 2 cm2 et on en dduit le rayon :

Pour tracer le cercle, on arrondira le rayon 8 mm. On calcule ensuite laire de lautre disque du graphique. Dans notre exemple, si laire du disque du pays A reprsente 4%, le disque du pays B, qui reprsente 2% doit avoir une aire 2 fois plus petite. Par consquent, laire du disque reprsentatif de la croissance du pays B sera gale la moiti de la surface du disque qui reprsente la croissance de A, soit 1 cm2. On en dduit ensuite le rayon du disque de B par la formule :

Pour tracer le cercle, on arrondira le rayon 5,5 mm. En dfinitive, le disque de A aura un rayon de 8 mm (environ) et le disque de B aura un rayon de 5,5 mm (environ). Ceci nest pas facile tracer de manire prcise ! Cest la raison pour laquelle les graphiques bulles sont gnralement raliss avec un logiciel. C Graphiques boursiers Les graphiques boursiers sont appels ainsi car ils servent principalement donner des indications sur lvolution des cours boursiers. Dans lexemple ci-aprs, nous allons voir la version la plus simple du graphique boursier, mais des versions plus complexes sont possibles et facilement ralisables dans EXCEL 2007 un fois que lon a compris le principe de base. Soit le tableau ci-dessous qui donne lvolution du cours journalier dun titre boursier (en euros) deu 2 janvier au 31 janvier 2009, en en retenant que les jours ouvrables. On a relev 3 informations chaque jour : le cours le plus bas, le cours le plus haut et le cours de clture.

128

Evolution du cours du titre XXX

Le graphique ci-aprs, dit graphique boursier, permet de visualiser les 3 informations

129

D - Graphiques de TUKEY Le graphique Boite moustaches ou diagramme en bote (box plot) a t invent en 1977 par le statisticien amricain John TUKEY (1915-2000). 1) Les lments constitutifs du graphique original Sur le graphique ci-aprs, les lments suivants apparaissent : Lintervalle interquartile : il est dfini par Q3 - Q 1 et donne les "dimensions" de la bote. Les moustaches : Ce sont les extrmits gauche et droite du graphique (parfois appeles "pattes"). La moustache gauche est dfinie par la valeur de la srie immdiatement suprieure Q1 - 1,5 (Q3 - Q1). Sil y a des valeurs infrieures Q1 - 1,5 (Q 3 Q1) dans la srie, elles sont atypiques et reprsentes par des marqueurs. La moustache droite est dfinie par la valeur de la srie immdiatement infrieure Q3 + 1,5 (Q3 - Q 1). Sil y a des valeurs suprieures Q3 + 1,5 (Q 3 - Q1), elles sont reprsentes par des marqueurs. La mdiane : la valeur de la variable qui partage la population en deux populations gales. On la dsigne par l'abrviation Me.

2) Exemple15 Soit la srie des 20 lments : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} La mdiane est gale 3. De plus, Q1 = 2 et Q3 = 4. Enfin, la valeur minimale est 0 et la valeur maximale 5. Pour tre complet, on peut ajouter la moyenne de la srie qui est gale 2,7.

15

Pour tracer une boite moustache avec EXCEL 2007, voir : http://blog.immeria.net/2007/01/boxplot-and-whisker-plots-in-excel.html . Voir aussi : http://www.bloggpro.com/box-plot-for-excel-2007/ (mais remplacer les valeurs Min et Max par les valeurs adquates si la distribution contient des valeurs atypiques). Enfin, voir aussi http://www.coventry.ac.uk/ec/~nhunt/boxplot.htm qui explique la construction dune boite moustaches avec EXCEL 97, 2003 et 2007.

130

Valeurs atypiques : Pour savoir s'il y a des valeurs atypiques il faut calculer Q1 - 1,5 (Q3 - Q1) = 2 - 1,5 x (4 - 2) = 2 - 1,5 x 2 = 2 - 3 = -1 < 0 et Q3 + 1,5 (Q3 - Q1) = 4 + 1,5 x (4 - 2) = 4 + 3 = 7 > 5. Conclusion : puisque -1 >0 et que 7>5, n'y a pas de valeurs atypiques 16. Par consquent, puisque la valeur immdiatement suprieure Q1 - 1,5 (Q3 - Q1) est 0 et que la valeur immdiatement infrieure Q3 + 1,5 (Q3 - Q1) est 5, les deux moustaches ont respectivement pour extrmit gauche le minimum de la srie (soit 0) et pour extrmit droite le maximum de la srie (soit 5). On a donc le graphique boite moustaches ci-aprs. La boite est dlimite par Q1 et Q3. l'intrieur de la boite un premier trait noir indique la mdiane (et un second trait rouge [en pointill et facultatif] indique la moyenne). Les valeurs minimale et maximale constituent ici les moustaches, car elles sont comprises dans lintervalle dfini par Q1 - 1,5 (Q3 - Q1) et Q3 + 1,5 (Q3 - Q1). Boite moustaches de TUKEY pour la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}

Voir le fichier EXCEL 3) Le graphique de TUKEY simplifi La plupart des logiciels ne tiennent pas compte de la possibilit de valeurs atypiques dans une srie et se contentent de prendre pour moustaches les valeurs minimum et maximum de la srie. On obtient alors un graphique de TUKEY simplifi comme ciaprs.

Cependant, mme la version simplifie ne fait pas lunanimit, en raison des divers algorithmes employs pour calculer Q 1 et Q3 (voir le chapitre 3).

16

Selon Monique LE GUENN, La valeur 1.5 est selon TUKEY une valeur pragmatique qui a une raison probabiliste. Si une variable suit une distribution normale, alors la zone dlimite par la bote et les moustaches devrait contenir 99,3 % des observations. On ne devrait donc trouver que 0.7% d'observations atypiques. Si le coefficient vaut 1, la probabilit serait de 0.957, et elle vaudrait 0.999 si le coefficient est gal 2. Pour TUKEY la valeur 1.5 est donc un compromis pour retenir comme atypiques assez dobservations mais pas trop dobservations . http://matisse.univparis1.fr/leguen/leguen2001b.pdf

131

E Graphiques panachs Il existe une infinit de faons de panacher les diffrents graphiques. Voyons quelques exemples. 1) Secteur complt par une barre trononne Soient les donnes dj utilises du chiffre daffaires par ville et par vendeur dune entreprise XXX en 2008.

On souhaite : utiliser un secteur 360 pour faire apparaitre la rpartition du chiffre daffaires entre les trois villes. Dcomposer le chiffre daffaires ralis sur Paris entre les quatre vendeurs et le faire apparatre au moyen dune barre verticale trononne 100%.

132

Un autre exemple de graphique panach, symtrique du prcdent, consiste faire une barre trononne dont une des tronons est lui-mme dcompos en en secteur. Voici un exemple ralis avec PowerPoint 2007. Un autre exemple de graphique panach

Daprs Kathy VILLELA, Graphic elements that connect two objects http://www.powerframeworks.com/makeyourpoint/?p=73 . Tlcharger le graphique au format PowerPoint 2007. 2) Graphique de PARETO Le graphique de PARETO est un cas particulier du graphique chelle verticale double. Avant de voir comment il se construit, il convient de rappeler la loi de PARETO dont il sert vrifier la validit. Le graphique a en fait t invent par Joseph Moser DURAN (1904 - ), fondateur de la dmarche qualit. Le graphique de PARETO est en effet lun des sept graphiques de base utilis dans les contrles de qualit. Sil est appel graphique de PARETO et non graphique de DURAN (ou graphique de Kaoru ISHIKAWA [1915-1989]), autre fondateur du management de la qualit), cest en raison de la loi de PARETO que nous allons donc exposer pour commencer. a) De la loi de PARETO au graphique de PARETO Vilfredo PARETO, conomiste et sociologue de la fin du 19me sicle et du dbut du 20me sicle (1848-1923) a notamment tudi la rpartition des revenus dans diffrents pays. Une des principaux constats qui ressort de cette tude est une "loi", dite "Loi de PARETO": dans presque tous les pays, 80% de la richesse sociale

133

tait possde par 20% des individus. Par la suite, on s'aperut qu'un grand nombre de phnomnes taient gouverns par la loi du 80/20 : 20 % des clients reprsentent 80 % du chiffre d'affaires 20% des pices stockes dans une entreprise reprsentent 80% de la valeur du stock 20% des fournisseurs reprsentent 80% du volume d'achat total 20% du personnel effectue 80% du travail 20% des salaris dune entreprise empoche 80% de la masse salariale 20% des automobilistes causent 80% des accidents 20% des vtements d'une garde-robe sont ports 80% du temps 20% des produits reprsentent 80% du chiffre d'affaires 20% des ventes reprsentent environ 80% de la marge bnficiaire 20% du personnel total est concern par 80% des accidents du travail 20% des causes peuvent tre l'origine de 80% des dfauts 20% des clients sont l'origine de 80% des rclamations 20% de la population paie 80% des impts 20% des dlinquants gnrent 80% des dlits 20% des joueurs de foot marquent 80% des buts 20% des problmes reprsentent 80% des proccupations 20% des pays mettent 80% des gaz effet de serre. 20% des acteurs jouent dans 80% des films. Source : http://www.ed-productions.com/leszed/index.php?80-20-pareto Ces exemples illustrent la loi de PARETO. Quelques causes majeures, une fois isoles, permettent de rsoudre la plus grande partie d'un problme de qualit. Une fois ces causes majeures identifies, on peut concentrer les efforts et les ressources les liminer. Le graphique de PARETO est une faon de visualiser la loi des 80/20. Mais, comme on va le voir dans l'exemple tudi plus loin, cette loi n'est pas systmatique, il arrive trs souvent aussi que 20% des causes expliquent beaucoup moins que 80% des rsultats. b) Dfinition, construction, exemple et interprtation Un diagramme de PARETO est un graphique qui combine un graphique en barre et une courbe cumulative. Il sert principalement l'tude des donnes qualitatives, mais rien n'empche de l'utiliser pour des donnes quantitatives. Procdure pour construire le graphique : i) Si les donnes sont sous forme d'une srie, les regrouper par modalits (donnes) ou par valeurs (donnes quantitatives), de faon obtenir une distribution par modalits ou par valeurs (ventuellement, une distribution par classes de modalits ou par classes de valeurs). ii) Classer les valeurs ou les modalits par ordre dcroissant des effectifs iii) Ajouter une colonne pour la distribution en pourcentages

134

iv) Ajouter ensuite une colonne de pourcentages cumuls v) Faire un graphique pour reprsenter simultanment : - La distribution des pourcentages par un graphique en barre, en mettant l'axe des y gauche - Les pourcentages cumuls par une courbe des pourcentages cumuls, en mettant l'axe des y droite Exemple : Supposons que l'on veuille tudier les raisons de la rsiliation d'un abonnement en ligne. Le problme ici est de comprendre pourquoi les abonns rsilient leur abonnement (afin de rduire le nombre de rsiliation). On recherche donc les causes. Pour ce faire, lorsque les clients rsilient leur abonnement, on leur propose un questionnaire (volontairement simplifi dans cet exemple) o ils sont invit cocher la case qui correspond la raison de la rsiliation de leur abonnement. Supposons que les 5 choix suivants leurs soient proposs (Remarque : nous sommes en prsence de donnes qualitatives non hirarchisables, les choix sont donc des modalits nominales : le contenu du site ne correspondait pas mes attentes (rponse codifie par "A"), le contenu n'est pas bon (rponse codifie par "B"), le contenu n'est pas renouvel assez souvent (rponse codifie par "C"), difficults techniques pour accder au contenu (rponse codifie par "D"), Autres (rponse codifie par "E"). On a obtenu les rsultats suivants en tudiant 15 cas de rsiliations : {E, B,D, E, D, E, A, B, B,C, D, A, B,B, E}. Evidemment, en ralit, on tudierait un nombre de cas beaucoup plus grand, mais le principe de construction resterait identique.

135

Construction du graphique : i) Si les donnes sont sous forme d'une srie, les regrouper par modalits (donnes qualitatives) ou par valeurs (donnes quantitatives), de faon obtenir une distribution :
Modalits Le contenu ne correspond pas mes attentes (A) Le contenu n'est pas bon (B) Le contenu n'est pas renouvel assez souvent (C) Difficults techniques pour accder au contenu (D) Autres (E) Total Nombre de rponses 2 5 1 3 4 15

ii) Classer les valeurs ou les modalits par ordre dcroissant des effectifs :
Modalits Le contenu n'est pas bon Autres Difficults techniques pour accder au contenu Le contenu ne correspond pas mes attentes Le contenu n'est pas renouvel assez souvent Total Nombre de rponses 5 4 3 2 1 15

iii) Ajouter une colonne pour la distribution en pourcentages


Modalits Le contenu n'est pas bon Autres Difficults techniques pour accder au contenu Le contenu ne correspond pas mes attentes Le contenu n'est pas renouvel assez souvent Total Nombre de rponses 5 4 3 2 1 15 Pourcentages 33,3 26,7 20,0 13,3 6,7 100,0

iv) Ajouter ensuite une colonne de pourcentages cumuls


Modalits Le contenu n'est pas bon Autres Difficults techniques pour accder au contenu Le contenu ne correspond pas mes attentes Le contenu n'est pas renouvel assez souvent Total Nombre de rponses 5 4 3 2 1 15 Pourcentages 33,3 26,7 20,0 13,3 6,7 100,0 Pourcentages cumuls 33,3 60,0 80,0 93,3 100,0

136

v) Faire un graphique pour reprsenter simultanment : - La distribution des pourcentages par un graphique en barre, en mettant l'axe des y gauche - Les pourcentages cumuls par une courbe des pourcentages cumuls, en mettant l'axe des y droite

Fichier EXCEL c) Interprtation Dans notre exemple, on voit que la loi de PARETO n'est pas vrifie. En effet, la loi de PARETO veut que 20% des causes expliquent 80 % des rsultats. Or ici, il y a 5 causes. Donc une cause reprsente elle seule 20% des causes. Pour que la loi de PARETO soit vrifie, il faudrait qu'une seule cause (20% des causes) explique 80% des rsultats (80% des rsiliations). Or, ici, la premire cause n'explique que 35% des rsiliations et il faut 3 causes, soit 60% des causes, pour parvenir expliquer 80% des rsultats. On peut se reporter au site internet suivant qui donne un exemple intressant : www.economie-cours/stats/Powerpoint/exemple-Pareto01.ppt

137

F Histogramme Lhistogramme peut parfois tre assimil un graphique en barre verticales. Cest le cas lorsque le graphique en barres verticales a pour chelle horizontale des catgories numriques damplitudes gales. Mais lhistogramme se distingue du graphique en barres verticales lorsque les catgories numriques de laxe horizontal sont damplitudes ingales. Le diagramme de VENN ci-aprs permet dillustrer ce point et les exemples qui suivent permettent de le prciser. Barres verticales et histogrammes : pas toujours la mme chose !

138

Sagissant des histogrammes, il convient en outre de distinguer les histogrammes deffectifs et les histogrammes de frquences. Nous allons donc tre amens tudier 4 types dhistogrammes comme indiqu dans le tableau ci-dessous. Les 4 types dhistogrammes

Nous allons construire chacun de ces 4 types dhistogrammes ci-aprs en les identifiant par leur numro dans le tableau (de 1 4). 1) Amplitude de classes identiques Soir le tableau ci-dessous qui donne la population mondiale en 2008 (estimation dite en milieu danne ) par groupes dges quinquennaux (hommes et femmes confondus). La dernire colonne, intitules frquences est simplement calcule en divisant leffectif de chaque classe dge par la population mondiale totale. Par exemple, pour obtenir le premier chiffre de la colonne des frquences (classe dge des 0-4 ans), on a effectu le calcul suivant :

Soit, en arrondissant : 0,094.

139

On remarque que toutes les classes dges sont identiques (5 ans)17. Les classes ont la mme amplitude. A chaque classe dge est associ un effectif (colonne des effectifs) ou une frquence (colonne des frquences). La somme des effectifs donne la population mondiale en 2008, tandis que la somme des frquences est gale 1. Nous allons dabord voir comment se prsente lhistogramme des effectifs, puis ensuite lhistogramme des frquences.

a) Histogramme des effectifs Sur lhistogramme des effectifs ci-aprs, on peut voir que : Laxe horizontal a pour chelle des catgories numriques damplitude gales (5 ans) Laxe vertical correspond leffectif de population associ la classe dge correspondante.

17

La dernire classe va en fait de 80 plus de 110 ans, mais pour simplifier, nos la supposons gale 5 ans, en nous basant sur le fait que le nombre des 85 ans et plus reste encore minime compar lensemble de la population mondiale, mme sil est appel augmenter.

140

Exemple dhistogramme deffectifs quand les catgories numriques sont damplitudes gales Correspond lhistogramme numrot 1 dans le tableau Les 4 types dhistogrammes

Exemple dhistogramme de frquences quand les catgories numriques sont damplitudes gales Correspond lhistogramme numrot 2 dans le tableau Les 4 types dhistogrammes

142

b) Histogramme des frquences Sur lhistogramme des frquences ci-avant, on peut voir que : Laxe horizontal a pour chelle des catgories numriques damplitude gales (5 ans) Laxe vertical correspond la frquence associe la classe dge correspondante.

Les deux histogrammes (celui des effectifs et celui des frquences) ont la mme forme, mais diffrent par lchelle de laxe vertical.

2) Amplitude de classes diffrentes Pour bien comprendre ce quest un histogramme (deffectifs ou de frquences) lorsque que les catgories numriques de laxe horizontal sont damplitudes diffrentes, prenons lexemple dun chantillon de 110 mnages dont le revenu mensuel en euros est donn par la srie classe ci-aprs : Revenu = {1100, 1130, 1150, 1200, 1220, 1300, 1300, 1310, 1400, 1400, 1450, 1460, 1480, 1490, 1490, 1495,1495, 1500, 1600, 1630, 1640, 1700, 1900, 2000, 2020, 2050, 2070, 2090, 2400, 2500, 2540, 2560, 2600, 2710, 2730, 2750, 2800, 2810, 2850, 2850, 2850, 2870, 2890, 2900, 2920, 2960, 2980, 2990, 3000, 3000, 3030, 3050, 3070, 3080, 3090, 3090, 3090, 3095, 3250, 3280, 3300, 3350, 3400, 3400, 3400, 3400, 3420, 3450, 3570,3575, 3600, 3610, 3800, 4000, 4100, 4250, 4300, 4310, 4580, 4590, 4590, 5000, 6000, 7500, 9000, 9800}. 1350, 1500, 2100, 2810, 3000, 3100, 3500, 4380, 1400, 1550, 2200, 2820, 3000, 3200, 3550, 4500, 1400, 1600, 2220, 2840, 3000, 3210, 3560, 4560,

Supposons que lon souhaite rpartir ces mnages dans les catgories de revenu suivantes : [0 1500[ ; [1500 3000[ ;[3000 5000[ ; [5000 10000[. On va alors obtenir le tableau deffectifs suivant : Rpartition des 110 mnages par classe de revenu

Lamplitude de chaque classe nest pas la mme. Les 2 premires classes ont une amplitude de 1500 euros, la troisime a une amplitude de 2000 euros et la dernire classe a une amplitude de 5000 euros. Par consquent, si lon veut reprsenter ces donnes sous forme dun histogramme deffectifs, nous ne pouvons pas procder de la mme faon que lorsque les amplitudes de classes sont identiques. En effet, sur laxe vertical, les barres nauront plus la mme longueur. Lchelle de laxe horizontal est le suivant :

On voit que dans ces conditions, la hauteur des barres verticales ne peut plus tre proportionnelle aux effectifs, car cela aboutirait donner une image fausse de limportance des effectifs inclus dans chaque classe. a) Histogramme deffectifs Pour tracer lhistogramme des effectifs, il faut donc modifier lchelle de laxe vertical en divisant les effectifs de chaque classe par lamplitude de classe correspondante. On ajoute pour cela deux colonnes au tableau prcdent : Calcul des effectifs corrigs (effectifs sur amplitudes)

La colonne amplitude de classe donne lcart en euros entre les deux extrmits de chaque classe. La colonne effectifs corrigs se calcule en divisant chaque effectif par lamplitude de classe qui lui correspond ; Ainsi, leffectif corrig de la classe de revenu [0 1500[ sobtient par lopration suivante :

Cest--dire 0,013 en ne conservant que les 3 premires dcimales. Les autres chiffres de la colonne sobtiennent de la mme faon. Nous pouvons maintenant tracer lhistogramme des effectifs (voir graphique ciaprs). Dans cet histogramme, ce nest plus la hauteur de chaque barre qui indique leffectif, mais sa surface. Cest la raison pour laquelle leffectif est report directement sur chaque barre, tandis que laxe vertical mesure leffectif corrig, ou plus prcisment leffectif divis par lamplitude de classe. Sur cet histogramme, ce n'est plus la hauteur qui correspond l'effectif, mais la surface. On peut voir 144

facilement que la barre qui correspond 40 a une surface double de celle qui correspond 20. Et, bien que cela ne soit pas vident visuellement, la barre qui correspond 45 a une surface qui est 45/40=1,125 plus grande que celle qui correspond 40 et une surface 45/5 = 9 fois plus grande que celle qui correspond 5. Histogramme deffectifs avec catgories numriques damplitudes diffrentes Correspond lhistogramme numrot 3 dans le tableau Les 4 types dhistogrammes

b) Histogramme de frquences Pour tracer lhistogramme des frquences, il faut donc modifier lchelle de laxe vertical en divisant les frquences de chaque classe par lamplitude de classe correspondante.

145

On construit pour cela le tableau suivant : Calcul des frquences corriges (frquences sur amplitudes)

Dans ce tableau, la colonne des frquences correspond aux effectifs de chaque classe diviss par leffectif total et la colonne des frquences corriges est gale au rapport de chaque frquence lamplitude de classe correspondante. On obtient un histogramme de frquence qui a exactement la mme forme que lhistogramme des effectifs, mais lchelle verticale est gradue diffremment (cest lchelle des amplitudes corriges). Et dans chaque barre figure maintenant la frquence quelle reprsente. Histogramme de frquences avec catgories numriques damplitudes diffrentes Correspond lhistogramme numrot 4 dans le tableau Les 4 types dhistogrammes

146

G Pyramide des ges La pyramide des ges est un outil de l'analyse dmographique invent en 1870 par le Gnral WALKER, alors directeur du Bureau of Census, organisme amricain charg du recensement de la population et des tudes dmographiques. C'est en fait un double histogramme qui indique la composition dune population par classes dges et par sexe, un moment donn. Faire une pyramide, c'est faire le graphique du nombre d'hommes et de femmes de diffrents ges. Pour cela on place dos dos, deux histogrammes dcrivant la structure par classe dge dune population masculine pour le premier et dune population fminine pour le second. Le tableau ci-dessous rpertorie la population mondiale par groupe dges quinquennaux et par ge en 2008. Nous allons lutiliser titre dexemple pour construire la pyramide des ges.

Lhistogramme A ci-dessous reprsente la rpartition de la population masculine mondiale en 2008 suivant les donnes du tableau prcdent. Il sagit dun histogramme dont les amplitudes de classe sont identiques (5 ans) et qui peut donc tre assimil un graphique en barres (voir le diagramme de VENN qui explique les diffrences et les similitudes entre barres verticales et histogramme). Histogramme A

Nous pouvons ensuite faire effectuer une rotation ce graphique de faon obtenir lhistogramme B. Histogramme B

148

Lhistogramme C ci-dessus reprsente la rpartition de la population fminine mondiale en 2008 Histogramme C

Nous pouvons ensuite faire effectuer ce graphique une rotation de 90 degrs dans le sens inverse des aiguilles de la montre puis un pivotement de gauche droite autour de laxe vertical de faon obtenir lhistogramme D. Histogramme D

149

Et finalement, en mettant cte cte les histogrammes B et D, nous obtenons la pyramide classique des ges de la population mondiale en 2008 :

Il sagit en fait dun graphique qui reprsente TROIS dimensions : lge, le sexe et les effectifs associs ces deux catgories. H Graphique en cascade Le graphique en cascade ( waterfall graphic ) est une variante du graphique en barres. Il sert faire apparatre : - les contributions positives et ngatives une grandeur - les variations successives d'une grandeur. Exemple : Le tableau ci-dessous indique l'volution du chiffre d'affaire d'une entreprise de 2003 2008. La troisime colonne du tableau met en vidence les augmentations et la quatrime les diminutions. On voit ainsi que le CA a augment en 2004, 2005 et 2007, et qu'il a baiss en 2006 et 2008.
Annes 2003 2004 2005 2006 2007 2008 CA (euros) 210000 280000 330000 300000 360000 320000 Plus 70000 50000 -30000 60000 -40000 Moins

150

Le graphique en cascade va permettre de faire apparatre ces variations (en milliers d'euros sur le graphique):

Voir le fichier Excel (il faut d'abord installer la macro : tlchargeable ici) On voit ainsi immdiatement la contribution de chaque anne et on peut visualiser : l'importance de la contribution Si la contribution est positive ou ngative. comment on est pass de 210 320 par variations successives.

I Graphique trois dimensions Grce aux ordinateurs et aux logiciels il est devenu trs facile aujourdhui de raliser de beaux graphiques en 3D. La troisime dimension reste cependant une construction visuelle dans la mesure o elle doit tre affiche sur des crans 2 dimensions 18. EXCEL 2007 offre diverses possibilits, tout comme dautres logiciels, tels que Mathematica. En revanche, moins dtre trs bon dessinateur, il est impossible de raliser ce type de graphique avec la rgle, le rapporteur, le compas et les crayons de couleur ( linverse de tous les autres graphiques vus jusqu prsent).

18

Ceci est appel changer dans les dcennies venir.

151

On peut distinguer 3 catgories de graphique en 3D : Les faux graphiques en 3D qui ne sont que des graphiques en 2D auxquels on a ajout une profondeur des fins visuelles. Les graphiques en barres 3 dimensions Les graphiques dits de surface (non trait)

1) Graphiques en 2D avec ajout de profondeur Pour illustrer ce type de graphique, reprenons les donnes du chiffre daffaires hypothtique quune entreprise a ralis en 2007 249 327 045 euros) rpartis par ses 4 vendeurs et dans les trois villes o se trouvent ses clients.

Lorsque lon ajoute de la profondeur ou de la perspective au graphique en barres verticales ou aux secteurs classiques, on obtient ce genre de rsultats (voir graphiques ci-aprs). Bien entendu, le nombre de dimensions na pas chang par rapport lquivalent 2D de ces deux graphiques qui nont que linconvnient de paratre plats par comparaison. Les graphiques 2D avec ajout de profondeur ou de perspective attirent davantage les regards. Il ne faut donc pas se gner pour les utiliser surtout tant donn la facilit avec laquelle on peut les raliser grce aux logiciels.

152

gauche, graphiques en 2D avec ajout de profondeur ; droite : leurs quivalents 2D

2) Graphique en barres avec 3 dimensions "relles" Par comparaison avec les graphiques en 2D avec ajout de profondeur, les graphiques en barres avec 3 dimensions ajoute rellement une dimension supplmentaire. Cette fois, nous allons utiliser un seul graphique en barres verticales pour montrer la fois la rpartition du CA par villes et par vendeur en 2008.

6 Rsum Les diagrammes et les graphiques sont des reprsentations visuelles simplifies, mais nanmoins rigoureuses, de chiffres, de concepts, de catgories, dimages, etc. Bien que certains diagrammes reprsentent aussi des chiffres, cest principalement au graphique que cette fonction incombe. Plus prcisment, en statistique descriptive, le graphique sert reprsenter visuellement des informations sur les dimensions (caractres ou variables) dune population dunits statistiques. Les graphiques rvlent des informations sur la forme des sries que les tableaux et les statistiques rsumes ne peuvent pas toujours montrer. Beaucoup de graphiques deux dimensions se prsentent sous la forme suivante dite dun systme de coordonnes cartsiennes . Il existe diffrentes sortes dchelles propres ce type de reprsentations graphiques. Une chelle numrique est une chelle qui mesure des valeurs qui peuvent varier de moins linfini plus linfini. Une chelle de catgories est une chelle sur laquelle sont portes des catgories. Il peut sagir : De catgories numriques (chelle quantitative) De catgories non numriques dites nominales (chelle qualitative)

Un graphique chelle verticale double permet de reprsenter les valeurs ou les modalits dune variable ou dun caractre sur lchelle verticale de droite et les modalits dune variable ou dun caractre sur lchelle verticale de gauche. Lchelle logarithmique est une chelle qui mesure le logarithme dcimal des valeurs de la variable. C'est un excellent moyen de mettre en vidence une ide ou un rsultat grce aux proprits des logarithmes dcimaux. Parmi les diagrammes statistiques, on distingue notamment le pictogramme, dessin gnralement en couleur, conu de prfrence par un infographiste, qui essaie de traduire non seulement des donnes quantitatives, mais galement des informations dordre commercial ou esthtique, le cartogramme, pour localiser gographiquement des valeurs ou des modalits relatives une variable ou un caractre dcrivant les units statistiques dune population et le diagramme de GANTT, qui est un outil de gestion de projets. Il sert visualiser dans le temps les diffrentes tapes qui composent un projet. Parmi les 73 reprsentations graphiques de base proposes par le logiciel EXCEL on distinguera plus particulirement les graphiques usuels suivants : graphique en barres, horizontales ou verticales, simples, multiples ou trononnes, les courbes, les aires dlimites par des courbes, les nuages de points et les secteurs 360 ou 180 degrs, concentriques ou non. Mais la liste des graphiques ne peut pas par dfinition, tre exhaustive, car seule limagination en limite le nombre. Ainsi a-t-on aussi tudi dans ce chapitre, outre les

155

graphiques usuels, dautres graphiques tels que les anneaux et les radars et autres graphiques en toile daraigne, les graphiques bulles, le graphique de TUKEY, les graphiques panachs , le graphique de PARETO, lhistogramme ( quil faut distinguer du graphique en barres verticales quand les amplitudes de classes sont ingales), la pyramide des ges, le graphique en cascade et les reprsentations tridimensionnelles.

156

Chapitre 6 Tendances et corrlations

0 Introduction 1 La dtermination de la tendance dune srie chronologique A Dtermination graphique B Dtermination par la mthode des points extrmes C Dtermination par la mthode des moindres carrs (MCO) 2 Ltude de la corrlation entre deux variables A Lexemple dune fonction de demande B Lquation de rgression linaire C Le coefficient de dtermination 3 Le test dindpendance du Khi-carr de PEARSON A Introduction B Exemple dutilisation 4 - Rsum

0 Introduction Ce chapitre est consacr lutilisation dun mme outil statistique, lajustement linaire, aussi appel mthode des Moindres Carrs Ordinaires (MCO) applique successivement : A ltude de la tendance dune srie chronologique. la mise en vidence dune corrlation entre deux variables.

Ci-aprs, deux graphiques : lun illustre le trac dun trend ( tendance ) linaire partir de ltude dune srie chronologique (taux de chmage en France de 1997 2008) lautre illustrant le trac dune droite linaire pour apprcier lexistence dune relation entre deux variables (prix et quantit dun produit). Dans les deux cas, ces droites ont t obtenues laide de la mthode des moindres carrs ordinaires : pour les sries chronologiques, on la qualifie de trend linaire , pour ltude de la relation statistique entre deux variables, on parle plus volontiers de droite de rgression .

157

Pour ltude de la corrlation entre deux dimensions dont lune au moins nest pas quantitative, cest le test dindpendance du Khi-carr, tudi en section 3, qui remplace lajustement linaire19. Trend linaire dune srie chronologique

Ajustement linaire de la relation entre prix et quantit dun bien

19

Le test du Khi-carr est souvent prsent, juste titre, comme un test dindpendance entre deux dimensions quil sagisse de variables ou de caractres ou des deux quand les donnes sont regroupes en catgories. Si lon se rfre cette dfinition, les donnes distribues par modalits (et fortiori par valeurs) semblent exclues. Mais, en pratique, on ne voit pas pourquoi elles le seraient.

158

1 La dtermination de la tendance dune srie chronologique A Dtermination graphique Soit le tableau suivant qui donne lvolution du taux de chmage en France de 1994 2008.
Annes 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 Taux de chmage (%) - France 11,5 11,1 10,5 9,1 8,4 8,6 9 9,3 9,3 9,2 8,3 7,7 (estimation)

Source : FMI Pour tudier lvolution de cette srie chronologique, le plus simple est de la reprsenter laide dun graphique en ligne : Taux de chmage en France de 1997 2008 (selon donnes FMI)

On constate alors que la tendance du taux de chmage sur les 12 dernires annes est la baisse. On constate aussi quaprs avoir baiss jusquen 2001, le taux de chmage a connu une lgre remonte avec un pic en 2004 et a ensuite encore baiss pour atteindre 7,7 % en 2008.

159

Bien souvent, cette analyse graphique est suffisamment loquente pour ne pas poursuivre lanalyse. Nanmoins, il est possible de poursuivre plus rigoureusement ce raisonnement et de dterminer mathmatiquement une droite dont la pente nous donnera la tendance . B Dtermination de la tendance par la mthode des points extrmes Puisquil faut deux points pour tracer une droite, une ide simple consiste faire passer une droite par les deux points extrmes de la srie, soit {1997 ; 11,5} et {2008 ; 7,7} dautre part. On obtient alors une droite qui nous indique une tendance ngative. Dtermination de la tendance par une droite passant par les deux points extrmes

Cette mthode nest cependant pas trs satisfaisante car elle ne tient compte que de des deux points extrmes. Une meilleure mthode est celle dite des moindres carrs ordinaires ou MCO en abrg.

160

C Dtermination de la tendance par la mthode MCO Ce nom bizarre vient du fait que la mthode consiste dterminer la droite d'ajustement en minimisant la somme du carr des carts entre cette droite et les observations. Les dtails mathmatiques de cette mthode importent peu dans un cours de statistique descriptive, car l'essentiel est de savoir calculer les coordonnes de la droite. De plus, les machines calculer ainsi que les logiciels comme Excel permettent un calcul et un trac facile de cette droite. Cette droite, comme toutes les droites, a pour expression lquation : yi = a. ti + b o i varie de 1 n, et o n est le nombre des observations. Les valeurs {t1, t2, ..., ti, ... tn} sont les dates. Dans notre exemple les chiffres 1 12 (le chiffre 1 correspond 1997 et le chiffre 12 correspond 2008). Les yi - c'est--dire les valeurs tendancielles - ne peuvent tre calcules qu'une fois que l'on connat a et b. Pour calculer les coefficients a et b, nous allons donc utiliser les valeurs observes, savoir la srie : {11,5 ; 11,1 ; 10,5 ; 9,1 ; 8,4 ; 8,6 ; 9 ; 9,3 ; 9,3 ; 9,2 ; 8,3 ; 7,7 }. Les formules de calcul des coefficients a et b sont alors donnes respectivement par 20 :

20

Ces formules sont donnes ici sans dmonstration, le lecteur intress par une dmonstration rigoureuse pourra consulter avec profit le livre de PY, Bernard (2007), Statistique descriptive : nouvelle mthode pour comprendre et bien russir 5me dition, Economica.

161

Nous pouvons alors tracer la droite MCO sur le graphique initial :

162

La mthode MCO est plus rigoureuse que la mthode des points extrmes car elle calcule la droite de tendance en tenant compte de toutes les observations. 2 Ltude de la liaison statistique entre deux variables Nous allons maintenant nous intresser la mise en vidence due relation statistique entre deux variables partir de la mthode MCO. Nous prendrons comme exemple ltude de la relation entre prix et quantit dun produit. A Lexemple dune fonction de demande Il est important pour une entreprise d'avoir une bonne ide de la demande qui s'adresse son produit. Comment faire pour connatre la fonction de demande pour un produit ? La premire ide qui vient l'esprit consiste tracer un repre quantit/prix, avec la quantit en abscisse et le prix en ordonne, comme ci-dessous. Supposons que l'on dispose pour cela des informations suivantes : Prix du produit (euros) 10 12 15 quantits vendues (millions d'units) 100 50 30

2006 2007 2008

Un graphique bas sur ces informations donnerait le rsultat suivant :

163

La courbe obtenue en joignant les 3 points est bien dcroissante et suggre que plus le prix augmente, plus la quantit demande diminue. S'agit-il pour autant d'une fonction de demande ? En fait, pas forcment. Le prix et la quantit d'un bien sont normalement dtermins la fois par l'offre et la demande, du moins lorsque le march est concurrentiel (si le march n'est pas concurrentiel, les choses n'en sont que plus compliques). Mais, quoiquil en soit, le prix et la quantit du produit s'tablissent l'intersection de l'offre et de la demande. Ainsi, en fait, les 3 points du graphique prcdent sont gnralement interprts par les conomistes comme trois points d'quilibre, ainsi qu'illustr ci-dessous :

Sur ce graphique, nous voyons en fait que les 3 points prcdents sont trois points d'quilibre qui rsultent de l'intersection de courbes d'offre et de demande. Par exemple, en 2008, il s'est vendu 30 millions d'units au prix unitaire de 15 euros, ce qui correspond au point d'quilibre E, qui est l'intersection des courbes d'offre et de demande de l'anne 2008. En reliant les 3 observations temporelles pour en faire une courbe de demande, on commet sans doute une erreur. On est conduit ainsi sous-estimer l'lasticit de la demande par rapport au prix. Ainsi, par exemple, on pourrait penser qu'une baisse du prix de 15 14,5 euros a pour effet d'augmenter la demande de 30 33 millions d'units. Or en fait, ainsi qu'on peut le voir sur le graphique, une baisse du prix de 15 14,5 entrane une augmentation bien plus importante de la demande (de 30 40 millions). Bien sr, pour que la quantit vendue soit effectivement gale 40 millions, il ne faut pas seulement qu'il y ait un dplacement le long de D 2008, il faut aussi que la courbe d'offre O2008 se dplace de faon ce que le nouveau point d'intersection soit en E' (ce que nous supposons ici).

164

Cependant, comme illustr sur le graphique ci-dessous, on ne peut pas exclure que les 3 observations temporelles correspondent 3 points sur la fonction de demande. Mais cela signifie en fait que la courbe de demande n'a pas chang, alors que la courbe d'offre s'est dplace vers la gauche (en supposant que maintenant on commence en 2006, puis on continue avec 2007 et ensuite 2008). Trois courbes d'offre successives, face une courbe de demande suppose inchange, constituent ainsi une justification simple de l'estimation d'une courbe de demande par un nuage de points constitus de couples prix/quantit observs diffrents points du temps (de prfrence en un mme lieu). Il existe des analyses bien plus subtiles et le lecteur intress peut se rapporter pour plus de dtails un ouvrage dconomtrie.

B - L'quation de rgression linaire Passons maintenant la procdure d'estimation proprement dite, en supposant que le modle appropri soit celui dcrit par le schma ci-dessus. Cependant, trois observations ne suffisent pas pour faire une estimation par la mthode des moindres carrs. Nous allons donc : ajouter des observations et pour ce faire changer de cadre temporel (nous allons passer de l'anne au mois).

Le tableau ci-aprs donne les ventes mensuelles et le prix unitaire correspondant. Ces valeurs reprsentent les observations qui vont servir l'estimation de la fonction de demande. Ces chiffres, sont invents pour l'occasion et il serait sans doute plus difficile d'obtenir une relation aussi vidente avec des chiffres rels. Cependant, ce qui nous intresse principalement ici, c'est d'illustrer la mthode.

165

Dates Janvier Fvrier Mars Avril Mai Juin Juillet Aot Septembre Octobre Novembre Dcembre

Quantit qi (milliers d'units) 5 15 9 14 3 9 10 17 11 16 7 3

Prix pi (euros) 14 6 10 9 11 13 9 6 5 3 11 15

Le graphique en nuage de points (graphique de dispersion) des observations laisse prsupposer l'existence d'une relation dcroissante. Pour que notre graphique soit conforme la prsentation traditionnelle du diagramme de demande, nous avons mis le prix en ordonne et la quantit en abscisse. Toutefois, il faut garder prsent l'esprit le fait quau niveau de la causalit conomique, c'est la quantit demande qui est fonction du prix et non l'inverse.

Appliquons maintenant la mthode des moindres carrs ordinaires introduite pour l'analyse du trend. Cette fois, nous devons estimer les coefficients a et b d'une quation de la forme p = a * q+b. Par rapport la formule du trend temporel, il ny a que les symboles qui changent

166

Nous nous attendons ici ce que le coefficient a soit ngatif. Les principaux calculs ncessaires sont donns ci-aprs :

Un didacticiel Microsoft est disponible pour l'utilisation directe de la fonction de rgression sans faire soi-mme les calculs : http://office.microsoft.com/frfr/excel/HA010877851036.aspx

167

On a ainsi la droite de demande dcroissante comme illustr sur la figure :

On peut maintenant exprimer p en fonction de q si l'on prfre. Sachant que :

On a : q = - 1,55618* p+24,4413 On peut ensuite se servir de la fonction de demande ainsi obtenue pour valuer les consquences d'une baisse du prix sur la quantit demande et donc sur la recette totale.

168

C - Le coefficient de dtermination Lorsque l'on a estim la droite de rgression, on doit se demander ci cette estimation est de bonne qualit. On dispose d'un premier outil pour rpondre cette question : c'est le coefficient de dtermination dont la formule est donne par :

Ce coefficient est compris entre 0 et 1. Plus il est proche de 1 et plus la qualit globale de la rgression est bonne. titre d'exemple, calculons le coefficient de dtermination de l'quation de rgression de demande prcdent. Remplaons x par q et y par p dans la formule de r2, afin d'avoir :

Un didacticiel Microsoft est disponible ici pour l'obtention directe du coefficient de dtermination sans faire soi-mme les calculs : http://office.microsoft.com/frfr/excel/HA010877851036.aspx

169

Pour faire les calculs, voici comment procder :

170

Interprtation du rsultat : Plus le coefficient r2 tend vers 1, plus la qualit globale de la rgression, est bonne. Ici, le r2 est proche de 0,7. On peut juger que c'est insuffisant. Il faut de toute manire complter ce premier diagnostic par le calcul dautres statistiques, mais ceci est lobjet dun cours dconomtrie et non plus de statistique descriptive. 3 Le test dindpendance du Khi-carr de PEARSON A - Introduction Le test dindpendance du khi-carr (lcriture anglaise est chi-square ) a t dvelopp par Karl PEARSON (1857-1936), lun des fondateurs de la statistique mathmatique. Lexpression test du khi-carr principalement : recouvre plusieurs tests statistiques 21 , trois tests

le test dajustement ou dadquation, qui compare globalement la distribution observe dans un chantillon statistique une distribution thorique, celle du khi-carr. Le test d'indpendance du chi-deux qui permet de contrler l'indpendance de deux caractres dans une population donne. le test d'homognit, qui teste si des chantillons sont issus d'une mme population.

Le test qui nous intresse ici est uniquement le test dindpendance statistique. Ce test sert apprcier lexistence ou non dune relation entre deux dimensions au sein dune population, lorsque ces dimensions sont mesures sur des chelles qualitatives et/ou que les modalits de ces chelles de mesure ont t regroupes en catgories. On peut bien sr utiliser aussi le test du khi carr pour apprcier lexistence dune relation entre deux dimensions mesures sur des chelles quantitatives groupes en catgories, mais le test est moins appropri que la rgression (sauf si lon en peut pas remonter aux donnes brutes). On peut enfin lutiliser pour tudier la relation entre une dimension quantitative et une autre qualitative. noter que ce test permet de dterminer lexistence dune dpendance mais en aucun cas le sens de cette dpendance (sauf dans certains cas particuliers o lexistence dune relation implique une causalit univoque comme dans lexemple ciaprs o le sexe peut avoir une influence sur le choix dune certaine matire mais o il est impossible que le choix dune certaine matire ait une influence sur le sexe. noter enfin que les diffrents tests du khi-carr ne doivent pas tre confondus avec la distribution thorique du khi-carr, dont les valeurs servent seulement valider ces diffrents tests.

21

Une prsentation synthtique des diffrents tests est donne dans Wikipdia (voir larticle Test du khi-2 )

171

B - Exemple dutilisation22 Nous allons maintenant montrer comment ce test peut-tre utilis dans le cas dune distribution deux dimensions. La premire dimension, dsigne par X, pourra tre une variable ou un caractre, comprenant des catgories (ou des classes) (issues gnralement dun regroupement des valeurs de la variable ou des modalits du caractre). On aura ainsi les classes A1, , Al. La seconde dimension, dsigne par Y, pourra tre une variable ou un caractre, comprenant des catgories (ou des classes) (issues gnralement dun regroupement des valeurs de la variable ou des modalits du caractre). On aura ainsi les classes B1, , Ac. Dans ces conditions, leffectif n de la population se distribue dans un tableau crois. On dsigne par ni, j leffectif de la population qui appartient simultanment la classe i de la dimension X et la classe j de la dimension Y. On a schmatiquement le tableau suivant :

O ni,j reprsente leffectif qui appartient simultanment la classe i de la dimension X et la classe j de la dimension Y. Li reprsente la somme des effectifs appartenant la dimension X ( i = 1,, l ) et o Cj reprsente la somme des effectifs en colonne (j = 1 ., c). Exemple : Sexe et prfrence pour une matire universitaire Soit le tableau ci-dessous, qui donne les rsultats dune enqute hypothtique effectue auprs de 400 tudiants, sur leurs prfrences en matire de cours. On leur a demand : Parmi ces 4 matires : HPE, Droit, Micro et Macro, laquelle prfrez-vous ? (il tait interdit de rpondre : aucune ).

22

Pour une trs bonne explication de la faon deffectuer un test dindpendance du khi-2 (ou chi-2), voir Charles McCREERY The CHI-SQUARE test : A test of Association Between Categorical Variables . Sur internet : http://www.celiagreen.com/charlesmccreery/statistics/chisquare.pdf. Voir aussi les explications trs claires donnes sur BibMath dont nous nous sommes inspirs ci-aprs : http://www.bibmath.net/dico/index.php3?action=affiche&quoi=./c/chideuxtest.html

172

Faire un test du khi-carr pour savoir si le sexe a une influence significative sur le choix des matires (se rapporter la table de la distribution du khi-2 thorique en annexe). On remarque que le droit et la micro sont davantage prfrs par la population masculine tandis que HPE et macro semblent ne pas tre prfrs plus par la population masculine que par la population fminine. Le test du khi carr va apporter une information supplmentaire. Il va permettre de dire si les diffrences de prfrences pour les diverses matires qui sont attribues au sexe sont le fait du hasard du tirage ou si elles sont relles. Elles peuvent en effet tre dues au hasard de lchantillon. Ce que le test va nous dire cest dans quelle mesure la diffrence est indpendante de lchantillon choisi. Pour cela on doit calculer lexpression suivante, dite khi-carr calcul :

Avec :

173

Calculons dabord les ei,j : Si les deux dimensions taient totalement indpendantes, les effectifs thoriques e i,j remplaceraient les ni,j et lon aurait :

Ensuite calculons les n i,j - ei,j :

Puis calculons (n i,j - ei,j )2 :

Ensuite calculons (n i,j - ei,j )2/ ei,j :

Ensuite effectuons la somme des huit chiffres obtenus :

174

Une fois que lon connat le khi carr calcul, on doit le comparer avec la valeur khideux issue de la distribution du khi carr (voir le tableau ci-aprs). Pour trouver cette valeur dans le tableau, nous devons prendre en compte deux informations supplmentaires : Le nombre de degrs de libert qui se calcule ainsi : Degrs de libert = (Nb de catgories[ou valeurs ou variables] en ligne 1) x (Nb de catgories [ou valeurs ou variables] en colonne 1) Ici, il y a 4 catgories en ligne (les 4 matires) et 2 modalits en colonne (les deux sexes). Donc, le nombre de degrs de libert est gal : (4 - 1) x (2 1) = 3 x 1 = 3. Ensuite, nous devons choisir la probabilit de fiabilit du test : 5% de chances de se tromper, 1% ou 1 pour 1000. Nous allons choisir 5%, soit P = 0,05.

Nous avons donc 3 degrs de libert et une probabilit de fiabilit du test de P=0,05. Par consquent, nous voyons dans la table que le khi-carr thorique est gal :

Il nous reste maintenant comparer le khi carr thorique issu de la table (7,82) avec le khi-carr calcul (34,11 environ) :

La rgle est la suivante : Si le khi-carr calcul est infrieur au khi-carr thorique : indpendance Si le khi-carr calcul est suprieur au khi-carr thorique : dpendance Etant donn que le chi-carr calcul est suprieur au khi carr thorique, nous pouvons conclure que le sexe a une influence sur le choix de la matire. Notre observation initiale sur la base de lchantillon est donc probablement vraie lextrieur de lchantillon (avec cependant 5% de chances de nous tromper).

175

Degrs de libert

P=0,05

P=0,01

P=0,001

Degrs de libert

P=0,05

P=0,01

P=0,001

Source de la table : http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html

176

4 Rsum Ce chapitre a montr lutilisation dun mme outil statistique, lajustement linaire, appel aussi mthode des Moindres Carrs Ordinaires (MCO) pour la mise en vidence de la tendance dune srie chronologique, puis pour la mise en vidence dune corrlation entre deux variables. Ltude de la corrlation entre deux variables statistiques peut tre affine par le calcul du coefficient de dtermination. Lorsquon sintresse la corrlation entre deux caractres ou entre une variable et un caractre, ou lorsque les donnes sont regroupes en catgories, le plus simple est de recourir au test dindpendance du khi-carr de Karl PEARSON. Il existe dautres outils plus labors pour tudier les corrlations entre variables et/ou caractres, mais ceux-ci relvent alors dun cours dconomtrie et/ou de statistique mathmatique.

177

Chapitre 7 Courbe de LORENZ et coefficient de GINI

0 Introduction 1 La courbe de LORENZ A Lexemple de la rpartition des superficies de lUE 27 B Lutilit de la courbe de LORENZ pour les comparaisons C Cas gnral 2 Le coefficient de GINI A Dfinition B Formules de calcul C - Exemple 3 - Rsum 0 Introduction Max Otto LORENZ (1880 -1962) est lconomiste amricain qui inventa le concept de courbe de LORENZ en 1905. Il sagissait pour lui de dcrire et de mesurer les ingalits de revenu. Par la suite, cette courbe quil fut le premier utiliser servit plus gnralement reprsenter visuellement la faon dont se rpartit une masse (salariale, de revenus, de richesses, etc.) au sein dune population pour se faire une ide du caractre plus ou moins galitaire de la rpartition de cette masse au sein de la population et comparer ainsi diffrentes populations entre elles ou comparer la distribution dune masse au sein dune population en deux ou plusieurs points du temps afin de savoir si lingalit augmente ou diminue23. Corrado GINI (1884 -1965) est le statisticien, dmographe, ethnologue, sociologue et idologue italien qui on doit le coefficient de GINI une mesure de l'ingalit associ la la courbe de LORENZ. En pratique, lorsquon sintresse la rpartition dune masse au sein dune population, on trace dabord une courbe de LORENZ afin davoir une ide visuelle de lgalit ou de lingalit de cette rpartition. Ensuite, si lon dsire rsumer cette ingalit par un chiffre, on calcule le coefficient de GINI. 1 La courbe de LORENZ A Lexemple de la rpartition des surfaces des 27 pays de lUE Pour introduire la courbe de LORENZ, prenons lexemple de la rpartition des superficies au sein de lUE 27. Ci-aprs, un extrait du tableau 1, o les 27 pays de lUE ont t classs par ordre de surface croissante (colonne 2), en partant de Malte (316 km2) jusqu la France mtropolitaine (547030 km2).
23

Lexpression courbe de LORENZ a probablement t utilise pour la premire fois en 1912 dans le manuel de W. I. KING, The Elements of Statistical Method. New York: Macmillan.

178

La colonne 3 est simplement un cumul des pays de 0 27. La colonne 4 est un cumul des surperficies des pays. La colonne 5 reprend les chiffres de la colonne 3 diviss par 27 (nombre total des pays) et multipli par 100. La colonne 6 reprend les chiffres de la colonne 4 diviss par 4236271 (surface totale de lUE 27) et multipli par 100. Les chiffres des colonnes 5 et 6 nous permettent dvaluer lampleur de lingalit de la rpartition des surfaces au sein des pays de lUE 27 Tableau pour la construction dune courbe de LORENZ de la rpartition des superficies de lUE 27

Le graphique ci-aprs reprsente une courbe de LORENZ. En abscisse, cest le pourcentage cumul de la population statistique qui est mesur (ici la population statistique est constitue par les 27 pays), autrement dit les chiffres de la colonne 5 du tableau. En ordonne, cest le pourcentage cumul des surfaces qui est mesur, autrement dit les chiffres de la colonne 6 du tableau. La courbe de LORENZ sinscrit donc dans un carr. Pour apprcier lingalit, on doit comparer cette courbe (en rouge sur le graphique) avec la droite dgalit parfaite qui correspond la diagonale (droite en vert).

179

Si les surfaces taient parfaitement distribues 10% des pays reprsenteraient 10% de la surface totale de lUE 27, 20% des pays reprsenteraient 20% de la surface totale, etc. Or, cest loin dtre le cas puisque il faut 22 pays (81,5% des pays) pour atteindre 49,24% de la surface de lUE 27). Courbe de LORENZ de la rpartition des surfaces des pays de lUE 27

B Lutilit de la courbe de LORENZ pour les comparaisons Soit maintenant un autre exemple concernant cette fois la masse salariale des deux filiales A et B dune entreprise et sa rpartition entre les salaris. Pour simplifier, nous supposons quil y a 20 salaris dans chaque entreprise. Les salaires mensuels en euros sont donns par le tableau ci-aprs qui dtaille galement les calculs des deux sries ncessaires au trac de la courbe de LORENZ.

180

Comparaisons de la distribution des salaires dans les filiales A et B dune entreprise XXX et calculs ncessaires pour le trac de la courbe de LORENZ

Courbes de LORENZ des salaires des filiales A et B

Sur le graphique ci-dessus, on constate que cest la courbe de LORENZ de la filiale B qui est la plus proche de la droite dgalit parfaite. Cest donc dans la filiale B que lingalit de la rpartition des salaires est la moins grande. Par exemple, on voit que dans la filiale A, 50% des salaris reoivent seulement 22% de la masse salariale, alors que dans la filiale B, 50 % des salaris reoivent 33% de la masse salariale (voir les chiffres encadrs dans le tableau prcdent). Si la distribution tait parfaitement galitaire, 50% des salaris devraient recevoir 50% de la masse salariale. C Cas gnral De faon gnrale, plus une courbe de LORENZ se rapproche de la droite dgalit parfaite et plus la rpartition de la masse considre au sein de la population est galitaire. En effet, dans ce cas, la masse (des salaires, de la richesse, du revenu, etc.) est peu concentre sur quelques uns. Inversement, plus une courbe de LORENZ sloigne de la droite dgalit parfaite et plus la rpartition de la masse considre au sein de la population est ingalitaire car la masse (des salaires, de la richesse, du revenu) est alors concentre sur un petit nombre dunits statistiques.

3 cas typiques, dont les deux cas limites, sont reprsents par les graphiques ci-dessous

2 Le coefficient de GINI A Dfinition Le coefficient de Corrado GINI (1884 -1965) est une mesure de l'ingalit associe la courbe de LORENZ. Il est donn par la formule :

O A reprsente la surface comprise entre la courbe de LORENZ et la droite dgalit parfaite et B reprsente la surface situe sous la droite dgalit parfaite moins la surface A. Le meilleur indicateur visuel de cette formule est le cas numro 2 du tableau ci-avant. Le coefficient de GINI est compris entre zro et 1. En cas dgalit parfaite, il est gal zro (car A=0). En cas dingalit totale il est gal 1, car B=0. Par consquent, mesure que G augmente de zro 1, lingalit de la rpartition augmente. Le coefficient de GINI permet ainsi de faire de nombreuses comparaisons. Sachant que la courbe de LORENZ est inscrite dans un carr de 1 x 1, on voit que la surface A+B est gale la moiti de cette surface. On a donc :

On peut de ce fait crire :

De plus, comme :

De ce fait on peut crire que :

B Formules de calcul Il existe plusieurs formules de calcul du coefficient de GINI. Nous adopterons lune des plus utilises qui est donne dans la notice explicative de la Banque mondiale pour le calcul de lingalit des rpartitions 24, parfois dite formule de BROWN . Cette formule scrit :

o X est la part cumule de la population, et Y la part cumule de la masse rpartir. Dans le cas qui nous intresse ici, comme les donnes sont connues individuellement cette formule peut se simplifier :

O n reprsente le nombre dunits statistiques (la population). Nous allons voir que ces deux formules donnent des rsultats identiques. C Exemple Reprenons lexemple des deux filiales de la mme entreprise et calculons dabord les deux coefficients de GINI laide la premire formule, soit :

Les 2 tableaux ci-aprs montrent comment les calculs doivent tre disposs pour parvenir rapidement au rsultat.
24

Voir http://info.worldbank.org/etools/docs/library/103072/ch6.pdf , page 3

185

Calcul du coefficient de GINI de la filiale A selon la formule :

Calcul du coefficient de GINI de la filiale B selon la formule :

187

On constate que le coefficient de GINI de la filiale A est beaucoup plus lev que celui de la filiale B, indiquant que la distribution de la masse salariale y est plus ingalitaire. En effet, on a : Coefficient de GINI de la filiale A = 0,45107 Coefficient de GINI de la filiale B = 0,27635 Voyons maintenant comment disposer les calculs en appliquant la deuxime formule (qui est plus simple et plus rapide tout en donnant les mmes rsultats) Calcul du coefficient de GINI de la filiale A selon la formule :

Calcul du coefficient de GINI de la filiale B selon la formule :

On constate que les coefficients de GINI de la filiale A et de la filiale B obtenus avec la seconde formule sont identiques ceux obtenus avec la premire formule. On pourra donc prfrer utiliser la seconde formule dans les calculs (lorsque les donnes sont connues individuellement) car elle est la plus simple. 3 Rsum La courbe de GINI sert reprsenter visuellement la faon dont se rpartit une masse (salariale, de revenus, de richesses, etc.) au sein dune population pour se faire une ide du caractre plus ou moins galitaire de la rpartition de cette masse au sein de la population et comparer ainsi diffrentes populations entre elles ou comparer la distribution dune masse au sein dune population en deux ou plusieurs points du temps afin de savoir si lingalit augmente ou diminue.

189

Le coefficient de GINI est quant lui un indicateur statistique, compris entre 0 et 1, qui sert mesurer le degr dingalit de la rpartition dune masse au sein dune population statistique.

190

Bibliographie A ABELL Martha L., James P. BRASELTON & John A. RAFTER (1998), Statistics with mathematica , Academic Press. ALBARELLO, Luc, Jean-Luc GUYOT et Etienne BOURGEOIS (2002), Statistique descriptive , De Boeck AVENEL, Jean-David (1999), Statistique descriptive : Cours et exercices corrigs , Dunod. B BADIA, Jacques, Ren BASTIDA et Jean-Robert HAIT (1997), Statistique sans mathmatique , Ellipses BAILLY, Pierre (1999), Statistique descriptive , Presses Universitaires de Grenoble BEAUFILS, Batrice (1996) , Statistiques appliques la psychologie. Statistiques descriptives, tome 1 , ditions Bral. BLUMAN, Allan (2005), Elementary Statistics: A Step by Step Approach , Mc Graw Hill Publishing Company BOUNDFORD, Trevor et Alaister CAMPBELL (2000), Digital Diagrams , WatsonGuptill Publications. BOURSIN, Jean-Louis (2000), La statistique pour l'conomie et la gestion: QCM , EJA/Gualino. C CALOT, Grard (1969), Cours de statistique descriptive , Dunod. CHAUVAT, Grard et Jean-Philippe REAU (1995), Statistique descriptive , Hachette Suprieur. D DAGNELIE, Pierre (1998), Statistique thorique et applique. Statistique descriptive et bases de l'infrence statistique, tome 1 , De Boeck DELMAS, Bernard (2005), Statistique descriptive , Armand Colin, Fac conomie de BERNONVILLE, Dug (1939), Initiation l'analyse statistique , Librairie de Droit et de Jurisprudence. DUTHIL, Grard (1998), Initiation la statistique descriptive , Ellipse Marketing

191

G GEORGIN, Jean-Pierre et Michel GOUET, Statistiques avec Excel : Descriptives, tests paramtriques et non paramtriques partir de la version Excel 2000 (1Cdrom) , Presses Universitaires de Rennes. GONICK larry et Woollcott SMITH (1993), The Cartoon Guide to Statistics , HarperCollins Publishers GOULET, DRETZKE (2004), Statistiques avec Microsoft Excel , Reynald et Goulet diteur. GRAIS, Bernard (2003), Statistique descriptive : Techniques statistiques , Dunod. GUEGUEN, Nicolas (2005), Statistiques pour psychologues : Cours et exercices , Dunod. H HAND, D.J. (1993), A Handbook of Small Data Sets , Chapman & Hall. HUFF, Darrell et Irving GEIS (1993), How to Lie With Statistics , W. W. Norton & Company HOWELL, David (1998), Mthodes statistiques en sciences humaines , De Boeck. I INSEE (2005), Tableaux de l'conomie franaise , INSEE Editeur, Collection "Rfrences". J JAISINGH, Lloyd R. (2005), Statistics for the Utterly Confused , McGraw-Hill. JANVIER, Michel (1999), Statistique descriptive : Avec ou sans tableur, cours et exercices corrigs , Dunod. JONES, Gerald, E. (1995), How to Lie With Charts , Sybex K KAZMIER, Leonard (2003), Business Statistics: Based on Schaum's Outline of Theory and Problems of Business Statistics, Third Edition , Schaum/McGraw Hill Publishing Company.

192

L LETHIELLEUX, Maurice (2003), Statistique descriptive , ditions Dunod, Collection "Express". M MASSONI, Andr (2002),Initiation aux statistiques descriptives avec Excel. 2me dition , Vuibert. . MILNE, P. H. (1992), Presentation Graphics For Engineering, Science And Business , Spon (Chapman & Hall) MONINO, Jean-Louis, Jean-Michel KOSIANSKI et Franois LE CORNU (2004), Statistique descriptive : Travaux dirigs , Dunod. MOORE, David, S. et George P. McCABE (2002), Introduction to the Practice of Statistics , 4me dition, W.H. Freeman & Company. P PIATIER, Andr (1966), Statistique, statistique descriptive et initiation l'analyse , Puf, Presses Universitaires de France, Collection Thmis, Manuels Juridiques, Economiques et Politiques . PILLER, Alain (2004), Statistique descriptive : Manuel d'exercices corrigs avec rappels de cours , ditions Premium. PY, Bernard (2007), La statistique sans formule mathmatique , 1re dition, Pearson Education. PY, Bernard (2007), Statistique descriptive : nouvelle mthode pour comprendre et bien russir 5me dition, Economica. PY, Bernard (2007), Exercices corrigs de statistique descriptive : Problmes, exercices et QCM , 3me dition revue et augmente, Economica. R REUCHLIN, Maurice (1998), Prcis de statistique : Prsentation notionnelle, 7e dition , PUF. RODRIGUEZ, Marc et Michel TERRAZA (1998), Statistique descriptive: 30 exercices corrigs , EJA/gualino. RUMSEY, Deborah (2003), Statistics for Dummies , Wiley Publishing inc. Site internet de la collection "... for dummies" : Etats-Unis. Voir aussi la page Web du livre.

193

S SCHARLIG, Alain (1997), Faire parler les chiffres: La statistique descriptive au service de la gestion , Presses Polytechniques et Universitaires Romandes (PPUR) SLAVIN, Steve (1998), Chances Are: The Only Statistics Book You'll Ever Need , Madison Books SPIEGEL, Murray et Larry STEPHENS, Statistique: Cours et problmes , 3me dition, Srie Schaum/McGraw Hill T TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics Press. Voir le site internet de Edward TUFTE. V VOELKLER, David, Peter ORTON et Scott ADAMS (2001), Cliffsquickreview Statistics , Hungry Minds W WAINER, Howard (2005), Graphic Discovery: A Trout in the Milk and Other Visual Adventures , Princeton University Press. WILKINSON Leyland, S. (1999), The Grammar of Graphics , Springer. Z ZELAZNY, Gene (2001), Say it with Charts : The Executive's Guide to Visual Communication , McGraw-Hill

194

Sites internet utiles Le cours de statistiques descriptives de Daniel MIRZA : http://perso.univ-rennes1.fr/daniel.mirza/ Le cours de Daniel GRAU. Trs bien fait : http://www.iutbayonne.univ-pau.fr/~grau/ . Il explique notamment comment tracer une courbe de LORENZ sous EXCEL Le cours du Dr. Hossein ARSHAM, de l'Universit de Baltimore : http://home.ubalt.edu/ntsbarsh/ Un site pour la cration de graphiques sous Excel : http://sn1.chezalice.fr/presentation/excel.html Statistics at square one : http://bmj.bmjjournals.com/collections/statsbk/index.shtml Le cours de Statistiques & informatique de Jean VERONIS (Universit de Provence), avec powerpoint tlchargeables : http://www.up.univ-mrs.fr/~veronis/cours/index.html Techniques d'analyse quantitative de donnes I de Gilles Dupuis - (Dpartement de psychologie de l'Universit du Qubec Montral) : http://www.er.uqam.ca/nobel/r16424/PSY7102/ Hyperstats Online TextBook : http://davidmlane.com/hyperstat/index.html Le cours de B. ICARD (Universit de Paris V) : http://www.math-info.univ-paris5.fr/smel/cours/cadre_cours.html A new view of statistics : http://www.sportsci.org/resource/stats/contents.html Le PDF de Laurent DOYEN sur la statistique descriptive : http://www-lmc.imag.fr/lmcsms/Laurent.Doyen/StatDesc2HTML.pdf Statistics for economists, a beginning: http://www.economics.utoronto.ca/archives/floyd_stats/ Le cours et les TD de Patrice BOUGETTE : http://sites.google.com/site/patricebougette/ Le cours de Pierre MAGAIN, Introduction aux mthodes quantitatives et lments de statistiques, Institut d'Astrophysique, de gophysique et d'ocanographie de Lige : http://www.astro.ulg.ac.be/cours/magain/stat/index.html

195

Faire des graphiques avec EXCEL : Le cours de Christine CAMPIONI (Centre de Mathmatiques et d'informatique de Chateau-Gombert) http://www.cmi.univ-mrs.fr/~campioni/documents/MASS/cours/Graphiques.doc (accs direct au document word). Paradoxe de SIMPSON : http://fr.wikipedia.org/wiki/Paradoxe_de_Simpson

196