Statistique

Statistique Descriptive
Fabrice MAZEROLLE
Notes de cours 2008
Dernire mise jour le mercredi 2 avril 2008
1re anne de Licence AES Marseille & Aix
Rsum du cours
Ce cours dintroduction la statistique descriptive de niveau L1 a pour objet de

donner les outils de bases permettant de dcrire une population statistique. Une
premire section est consacre la dfinition des termes habituellement utiliss en
statistique descriptive. Le chapitre 2 introduit loutil de base danalyse des chiffres : le
tableau. Le chapitre 3 est consacr la prsentation des principales statistiques
permettant de rsumer une masse de chiffres. Le chapitre 4 traite des formules de
base utilises dans lanalyse des volutions temporelles impliquant des grandeurs
quantitatives. Le chapitre 5 couronne les quatre chapitres prcdents en dcrivant
une partie de la grande palette des graphiques statistiques. Le chapitre 6 peut tre
conu comme une premire tape vers la statistique mathmatique, bien que restant
rattach au dernier tage de la statistique descriptive : il sagit de lanalyse
des tendances et des corrlations. Enfin le chapitre 7 est essentiellement utile
ltudiant en conomie : il traite de la courbe de LORENZ et du coefficient de GINI,
deux outils complmentaires dont les principales applications sont lanalyse de la
plus ou moins grande galit de la rpartition dune masse (de revenu, de richesse,
de ressources, tec.) au sein dune population.
Pour toute question relative ce cours, merci de madresser un mail

fabrice@mazerolle.fr .
Sommaire
Chapitre 1 : Vocabulaire de la statistique descriptive

Chapitre 2 : Les tableaux statistiques
Chapitre 3 : Statistiques permettant de rsumer une srie
Chapitre 4 : Indices et progressions
Chapitre 5 : Diagrammes et graphiques
Chapitre 6 : Tendances et corrlations
Chapitre 7 : Courbe de LORENZ et coefficient de GINI
Bibliographie
Chapitre 1
Vocabulaire de la statistique descriptive
1 - Utilit de la statistique descriptive en conomie
A - Dfinition
B - Exemples d'utilisation
2 - Terminologie
A Population et units statistiques
B Echantillons et sous-ensembles dune population
C - Critres de classification
1) Critres quantitatifs
2) Critres qualitatifs
3 - Modes de regroupement des donnes
A - Srie simple
B - Distribution par valeurs ou par modalits
1) Distribution par valeurs
2) Distribution par modalits
C - Regroupement par catgories
1) Catgories de valeurs
2) Catgories de modalits
1 - Utilit de la statistique descriptive en conomie
A Dfinition
On divise gnralement l'tude de la statistique gnrale en deux parties :
La statistique descriptive, qui est un ensemble de mthodes permettant de dcrire
les units statistiques (voir la section 2 pour une dfinition plus prcise du terme
"units statistiques") qui composent une population (voir la section 2 pour une
dfinition plus prcise du terme "population").
La statistique mathmatique dont l'objet est de formuler des lois partir de
l'observation d'chantillons, c'est--dire de sous-ensemble d'une population
statistique (voir la section 2 pour une dfinition plus prcise du terme "population").
La statistique mathmatique intervient dans les enqutes et les sondages. Elle
s'appuie sur la statistique descriptive, mais aussi sur le calcul des probabilits.
Enfin, lconomtrie est lapplication de la statistique (descriptive et mathmatique)

la mesure et ltude chiffre des grandeurs conomiques.
B - Exemples d'utilisation
Soit le tableau ci-aprs qui donnent quelques statistiques macroconomiques des
pays de lUE 27 ainsi que de certains de leurs partenaires commerciaux. Les
chiffres contenus dans ce tableau permettent de rpondre de multiples questions.
Certaines des rponses sont immdiates, dautres ncessitent de faire certains
calculs ou bien de reprsenter les chiffres sous formes visuelles (graphique par
exemple).
Supposons que lon souhaite savoir quel est le pays de lUE 27 qui a la
superficie la plus leve ? La rponse est immdiate. Il suffit de regarder le tableau
et de voir quil sagit de la France avec une superficie gale 643 427 km2 (sachant
que la France mtropolitaine ne compte que 547 030 km2, mais mme dans ce cas,
elle reste le plus grand pays de lUE).
Bien quil suffise de regarder le tableau pour rpondre cette question, lesprit est
immdiatement attir par la possibilit faire des comparaisons plus prcises. De
nombreuses autres questions peuvent alors tre poses, mais qui vont ncessiter
soit des calculs supplmentaires, soit un ragencement des donnes, soit une
combinaisons de ces donnes avec dautres donnes du tableau, etc.
Ainsi, on peut par exemple classer les pays du tableau (ou seulement ceux de lUE
27 par ordre de superficie croissante ou dcroissante, ce qui permet alors dun seul
coup dil de se reprsenter lordre de grandeur des surfaces.
On peut galement calculer la surface totale des pays de lUE 27 et ensuite
diviser la surface de chaque pays par ce total et multiplier par cent. On obtient alors
le pourcentage de la surface de chaque pays dans la surface de lUE.
On peut aussi comparer la surface de lUE 27 avec la surface des Etats-Unis ou de
la Chine, etc.
On peut encore, de faon trs habituelle, comparer la superficie de chaque pays
avec sa population. Par exemple, si on divise la population franaise totale en 2007
(mtropolitaine et non mtropolitaine) par la superficie totale de la France
(mtropolitaine et non mtropolitaine), on obtient la densit de population ou nombre
dhabitants par km2, soit :
On devra calculer ce chiffre pour tous les pays du tableau, ou seulement pour ceux
de lUE 27 et faire une la moyenne des rsultats obtenus. Ce qui permettra alors
de savoir quel est lcart de chaque pays par rapport cette moyenne, etc.
Tableau 1 : Quelques statistiques macroconomiques des pays de lUE 27

ainsi que de certains de leurs partenaires commerciaux
Bien souvent, pour rpondre certaines questions, les calculs prcdents ne

suffiront pas, o bien, sils suffisent, il faudra aussi crer un autre tableau, pour faire
apparatre plus prcisment certaines informations.
Supposons par exemple que lon souhaite avoir une ide synthtique sur la question
suivante : Combien y-a-t-il de pays qui sont membres de la zone Euro au premier
janvier 2008, quels sont ces pays, combien reprsentent-ils en pourcentage du total
des pays, et quels sont les autres pays.
Pour rpondre toutes ces questions, il faudra faire quelques calculs et ensuite
rcapituler ces rsultats dans un tableau (pour plus de dtails sur les tableaux, voir
la section 3 de ce chapitre, ainsi que le chapitre 2 du cours) ou dans un graphique,
ou encore sur une carte. Supposons ici, que pour simplifier, on se contente du
tableau suivant :
Rpartition des pays de lUE 27 entre membres et non-membres
de la zone Euro au premier janvier 2008
Ce tableau a donc ncessit quelques calculs statistiques simples :

Reprage des pays membres et non-membres
Comptage des pays appartenant chaque catgorie
Calcul des pourcentages
Des calculs plus complexes (mais aussi plus intressants) peuvent tre faits. Par
exemple, plutt que de calculer combien les pays membres et non-membres
reprsentent en pourcentage des 27 de lUE, on peut, sans doute de faon plus
pertinente, se demander combien chaque groupe reprsente en pourcentage du
Produit Intrieur Brut total de lUE27. Pour obtenir un tel tableau (voir tableau ciaprs), il faudra :
1) additionner les PIB des 15 pays membres de la zone euro au 1er janvier 2008
2) Additionner les PIB des 12 pays non membres de la zone euro au 1er janvier 2008.
3) calculer les pourcentages respectifs.
On obtient alors le tableau ci-aprs :
Plutt que de reprsenter le rsultat sous forme dun tableau on peut choisir une
reprsentation visuelle, par exemple une reprsentation en secteurs, dite aussi
parfois en camembert :
2 - Terminologie
A Population et units statistiques
En statistique, la population dsigne un ensemble d'units statistiques. Les units
statistiques sont les entits abstraites qui reprsentent des personnes, des
populations d'animaux ou des objets. Les premires populations ayant fait l'objet
dun recensement ayant t des populations humaines (d'o le lien troit entre
statistique et dmographie) on emploie frquemment le terme "individus" comme
synonyme de "units statistiques".
La statistique sert dcrire l'ensemble des units statistiques qui composent la

population. On commence par compter ces units. La premire information
statistique que l'on tire d'une population est en effet le nombre de ses units.
Exemple 1 : La population de la France, de ses rgions, de ses dpartements, de
ces communes de moins de 10 000 habitants et des communes de plus de 10 000
habitants ( grandes villes ) est estime annuellement par lINSEE. Les rsultats
sont disponibles sur son site internet1. On sait ainsi que les populations des 3 plus
grandes villes de France sont, selon la dernire estimation publie en janvier 2007
(qui porte sur lanne 2005) :
Source : http://www.insee.fr/fr/recensement/nouv_recens/resultats/grandes-villes.htm#L
Exemple 2 : Le tableau 1
statistiques.
contient une population de 35 pays, donc 35 units
Voir le lien suivant : http://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultatsrecensement.htm
10
B Echantillons et sous-ensembles dune population

Il est frquent que lon prlve un chantillon dans une population statistique et/ou
que lon dcoupe la population selon certains critres (ou dimensions ou encore
caractristiques)
Pour comprendre le lien entre population et lchantillon, prenons lexemple du
recensement de la population franaise. Chaque anne, la population est rvalue
partir des rsultats dune enqute qui porte sur le choix dun chantillon. Ainsi,
dans les 900 communes de 10 000 habitants ou plus, une partie de la population est
recense chaque anne par tirage au sort (8%). Il y a donc un sondage annuel qui
aboutit recenser 40% de la population de ces villes en 5 ans. Cette opration est
en fait un sondage grande chelle. Concrtement, une ville de plus de 10 000
habitants est divise en cinq groupes d'adresses rparties sur tout le territoire de la
commune. Chaque anne, lINSEE prlve un chantillon de 8% d'adresses dans un
des cinq groupes et on le recense. La dtermination des chantillons de personnes
interroges est effectue en utilisant les fichiers de taxe d'habitation et les registres
d'assurance-maladie, ce qui permet l'extrapolation avec une grande fiabilit des
donnes des sondages. Ainsi, tous les habitants d'une mme rue ne seront pas
recenss la mme anne2.
Pour notre propos, la relation de la population lchantillon est facile dcrire
partir dun diagramme dEULER suivant.
Le lien entre lchantillon et la population
Pour plus de dtails, voir le document de lINSEE, Le plan de sondage dans les communes de 10
000 habitants ou plus, INSEE Mthodes, Pour comprendre le recensement de la population, numro
hors srie.
11
En gnral, on parle dchantillon dune population statistique quand les units

statistiques sont tires au sort ou alors choisies par une mthode qui permet
dassurer la reprsentativit de lchantillon par rapport la population totale.
Cependant, ces dfinitions ne concernent plus directement la
statistique
descriptive mais plutt la statistique mathmatique.
Ce qui nous intresse ici, cest la possibilit de dcouper une population en souspopulations en utilisant certains critres.
Prenons pour exemple la population des 35 pays du tableau 1. Ces 35 pays sont les
units statistiques du tableau. Nous souhaitons par exemple dcouper cette
population entre trois sous ensembles, suivant les critres de la monnaie utilise et
lappartenance lUE 27. On aura donc :
15 pays membres de lUE 27 qui font partie de la zone Euro.
12 pays membres de lUE 27 qui ne font pas (encore) partie de la zone Euro
8 pays partenaires de lUE 27 et qui utilisent dautres monnaies.
Pour concrtiser ce dcoupage en 3 sous populations, on peut par exemple
construire un rectangle contenant 35 petits carrs, chaque carr reprsentant un
pays. Puis dcouper les trois zones comme dans le graphique ci-dessous.
Dcoupage dune population statistique (les 35 pays du tableau) en trois souspopulations, suivant deux critres (appartenance lUE27 et monnaie
officielle).
12
C - Critres de classification
Nous avons vu dans lexemple prcdent que les units statistiques dune population
pouvaient tre regroupes suivant des critres ou dimensions. Ces critres sont
choisis en fonction de ce qui nous intresse. On parle de critre, mais aussi parfois
de dimension.
On distingue deux sortes de critres :

Les critres quantitatifs
Les critres qualitatifs
1) Critres quantitatifs
Les critres quantitatifs sont les critres qui sont reprsents par des chiffres.
Cest la raison pour laquelle on les appelle aussi parfois des variables. Les
variables prennent des valeurs.
Par exemple, dans le tableau 1 , on peut voir que la superficie est un critre de
classification quantitatif. Cest une variable qui dont les diffrentes occurrences
sont appeles valeurs. Chacune des 35 units statistiques de notre population est
ainsi caractrise par une valeur. La superficie est donc ici une variable qui prend
35 valeurs diffrentes. Cest un cas particulier dans lequel le nombre de valeurs de
la variable est gal au nombre des units statistiques de la population. Nous verrons
que dans des cas de ce type, ou bien lorsque le nombre de valeurs possibles, bien
quinfrieur au nombre dunits statistiques, est grand, un regroupement par classes
de valeurs peut tre utile.
Les critres quantitatifs ou variables permettent de faire des calculs. On peut
par exemple additionner les superficies, calculer des moyennes, etc.
13
Dans le tableau 1, la plupart des critres sont quantitatifs. On peut donc effectuer
des calculs sur les valeurs. Il ny a gure que la monnaie et le nom des pays qui ne
sont pas des critres quantitatifs. Ce sont des critres qualitatifs.
2) Critres qualitatifs
Les critres qualitatifs sont tous les critres qui ne sont pas reprsents de faon
numrique. On les appelle des caractres . Les caractres prennent
des
modalits.
Par exemple, dans le tableau 1, on peut voir que la monnaie utilise dans chaque
pays est un critre qualitatif qui possde 21 modalits. Ces modalits sont les
diffrentes monnaies. Il y a en effet 15 pays qui ont la modalit euro et les 20
autres qui ont chacun pour modalit une monnaie diffrente. On voit donc dans cette
exemple que le nombre de modalits (21) est infrieur celui de la population (35).
14
3 - Modes de regroupement des donnes

A - Srie simple
Le tableau 1 est un tableau dans lequel les donnes nont pas t regroupes. Cest
un tableau de donnes brutes. Nous pouvons lire pour chaque ligne les diffrentes
valeurs ou modalits des variables ou des caractres associs chacune des 35
units statistiques de la population. Chaque colonne correspond une srie
simple de valeurs ou de modalits.
Par exemple, dans le cas de la variable superficie , il y a 35 valeurs diffrentes.
Dans le cas du caractre monnaie , il y a 21 modalits. Dans le cas de la variable
nombre de frontires terrestres avec dautres pays de lUE 27 , les 35 pays se
rpartissent seulement sur 8 valeurs.
Mais on comprend facilement quune prsentation exhaustive, dans laquelle aucun
regroupement nest effectu, nest pas toujours pratique, mme si lon dispose dun
ordinateur, comme cest le cas aujourdhui, pour effectuer les calculs. En ralit, le
plus souvent, les donnes sont collectes et entres dans lordinateur sous forme
dun tableau brut de ce type (ou sous une autre forme), mais ensuite, elles sont
regroupes.
B - Distribution par valeurs ou par modalits
Suivant que le critre est une variable ou un caractre, on peut effectuer un
regroupement par valeurs ou un regroupement par modalits. Dans ce cas, on parle
de distribution. En effet, la srie initiale des 35 donnes va tre distribue sur un
nombre gnralement infrieur (ou au maximum gal), de valeurs ou de modalits.
1) Distribution par valeurs
Prenons lexemple de la variable nombre de frontires terrestres avec dautres
pays de lUE 27 dans le tableau 1. Un regroupement des 35 units statistiques
pour chacune des valeurs possibles de la variable donnera alors le tableau suivant :
Distribution des pays des pays du tableau 1
selon leur nombre de frontires terrestres avec les pays de lUE 27
15
2) Distribution par modalits

Dans le tableau 1, nous allons choisir le seul critre qualitatif disponible pour
effectuer un regroupement par modalits : la monnaie officielle utilise dans chaque
pays. On sait videmment le rsultat davance : En 2008, 15 pays sont dans la zone
euro et les 20 autres utilisent toujours leur monnaie nationale. Dans ces conditions,
un regroupement par modalits, quoique peu utile, donnerait le rsultat suivant :
C - Regroupement par catgories

Lorsquil y a trop de valeurs ou trop de modalits, on peut procder
regroupement par catgories de valeurs ou de modalits.
un
1) Catgories de valeurs
Prenons lexemple de la variable superficie dans le tableau 1. Un regroupement
des 35 units statistiques pour chacune des valeurs possibles de la variable
donnerait un tableau avec 35 valeurs, ce qui naurait aucun intrt. En revanche, on
peut crer des classes de valeurs pour les superficies et rpartir les 35 pays
lintrieur de ces classes. Comment procder sachant que le plus petit (Malte) na
quune superficie de 316 km2 et le plus grand pays (La Russie) a une superficie de
17 075 200 km2 ? Si lon regarde les superficies des diffrents pays, on voit quun
trs grand nombre de pays ont des superficies infrieures 600 000 km2. Pour le
faire apparatre, classons les pays par ordre croissant de superficies (voir le tableau
ci-aprs)
16
Regroupement des pays par catgories de superficies
Dcoupage du monde en zones selon les catgories de lOMC
Source : OMC, http://www.wto.org/english/res_e/statis_e/its2007_e/its07_world_maps_e.pdf
2) Catgories de modalits
Prenons lexemple du caractre pays dans le tableau 1. Un regroupement des
35 units statistiques pour chacune des modalits possibles du caractre donnerait
un tableau avec 35 modalits, ce qui naurait aucun intrt. En revanche, on peut
crer des classes de modalits pour les pays. On peut par exemple rpartir les 35
pays selon catgories propose par lOrganisation Mondiale du Commerce (voir
carte prcdente). Si lon regroupe nos 35 pays selon ces 6 catgories on obtient le
tableau suivant :
Regroupement des pays selon des catgories gographiques
A noter quil sagit bien dun regroupement par catgories de modalits car chaque
pays est en lui-mme une modalit.
Chapitre 2
Les tableaux statistiques
1 Sries brutes ou vecteurs

A - sries classes et non classes
B - Sries identifies et non identifies
2 Tableaux unidimensionnels
A - Tableaux avec chiffres bruts
B - Tableaux avec pourcentages
C - Tableaux avec cumuls
1) Cumuls des donnes brutes
2) Cumuls des pourcentages
3 - Tableaux avec statistiques rsumes
4 Tableaux croiss
A Dfinition et exemple
1) Dfinition
2) Exemple
a) Effectifs
b) Pourcentages
B Distributions marginales
1) Dfinition
2) Exemple
a) Effectifs
b) Pourcentages
C Distributions conditionnelles
1) Colonnes
a) Effectifs
b) Pourcentages
2) Lignes
a) Effectifs
b) Pourcentages
1 Sries brutes ou vecteurs

Avant mme dtre prsentes sous forme de tableau, les donnes sont parfois
prsentes sous formes de sries brutes.
Prenons lexemple de la variable nombre de frontires terrestres avec dautres
pays de lUE 27 dans le tableau 1. On peut la reprsenter sous la forme dun
vecteur de donnes, galement appel srie.
Srie nombre de frontires terrestres avec dautres pays de lUE 27 :
S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0,
5, 0,0}
20
A - sries classes et non classes

S1 est une srie non classe. Considrons maintenant la srie S2, qui elle, est une
srie classe par ordre croissant
S2 : {0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4, 4,
5, 5, 6, 8}
B - Sries identifies et non identifies
En revanche, ni S1, ni S2 ne sont des sries identifies. Pour quelles soient
identifies, il faudrait crer des couples de valeurs.
Ainsi, la srie S3 ci-dessous est une srie identifie, non classe :
S3 = {{Allemagne, 8}, {Belgique, 4}, {France, 5}, {Italie, 3}, {Luxembourg, 3}, {PaysBas, 2}, {Danemark, 1}, {Irlande, 1}, {Royaume-Uni, 1}, {Grce, 1}, {Espagne, 2},
{Portugal, 1}, {Autriche, 6}, {Finlande, 1}, {Sude, 1}, {Chypre, 0}, {Estonie, 1},
{Hongrie, 4}, {Lettonie, 2}, {Lituanie, 2}, {Malte, 0}, {Pologne, 4}, {Rpublique
tchque, 4}, {Slovaquie, 4}, {Slovnie, 3}, {Bulgarie, 2}, {Roumanie, 2}, {Suisse, 4},
{Etats-Unis, 0}, {Chine, 0}, {Inde, 0}, {Japon, 0}, {Russie, 5}, {Taiwan, 0}, {Hong
Kong, 0}}
Enfin, la srie S4 ci-dessous est une srie identifie et classe par ordre croissant
du nombre de frontires terrestres avec dautres pays de lUE 27 :
S4 = {{Chypre, 0}, {Malte,0}, {Etats-Unis,0}, {Chine,0},{Inde,0}, {Japon,0}, {Taiwan,0},
{Hong Kong, 0}, {Danemark,1}, {Irlande,1}, {Royaume-Uni,1}, {Grce,1}, {Portugal,
1}, {Finlande,1}, {Sude,1}, {Estonie,1}, {Pays-Bas, 2}, {Espagne, 2}, {Lettonie, 2},
{Lituanie, 2}, {Bulgarie, 2}, {Roumanie,2}, {Italie ,3}, {Luxembourg, 3}, {Slovnie, 3},
{Belgique,4}, {Hongrie, 4}, {Pologne,4}, {Rpublique tchque,4}, {Slovaquie, 4},
{Suisse,4}, {France, 5 }, {Russie, 5}, {Autriche,6}, {Allemagne, 8}}
2 Tableaux unidimensionnels
La prsentation sous forme de srie est utile pour certains calculs, mais on utilise
bien plus frquemment les tableaux pour prsenter les caractristiques des units
dune population statistique.
Le tableau est un outil statistique rbarbatif. La meilleure preuve est que lon voit
beaucoup moins de tableaux dans les mdias que lon ne voit de graphiques.
Nanmoins, pour des tudes prcises, les tableaux sont souvent ncessaires et
mme plus utiles que les graphiques. Une remarque simple simpose en effet ici : si
lon dispose dun tableau, on peut faire un graphique. Inversement, si lon dispose
seulement dun graphique, on ne peut pas revenir au tableau initial (ou trs
rarement). Le tableau est donc une sorte de pralable au graphique.
21
En outre :
il est souvent possible de produire plusieurs graphiques partir dun mme

tableau.
Il est aussi souvent possible de calculer plusieurs statistiques rsumes

partir dun tableau.
Ainsi, si le tableau est rbarbatif, il est cependant trs utile.

A - Tableaux avec chiffres bruts
Le tableau 1 est un tableau de chiffres bruts qui contient plusieurs sries de chiffres
caractrisant une population de 35 units statistiques.
Le tableau ci-aprs, quant lui, est galement un tableau qui prsente des chiffres
bruts extraits du tableau 1 et regroups par classes :
Distribution des 35 pays par classes de superficie
Chiffres bruts
B - Tableaux avec pourcentages

Souvent, on ajoute une colonne dans laquelle les donnes sont prsentes en
pourcentages comme ci-dessous :
Pourcentages
22
C - Tableaux avec cumuls

On peut aussi ajouter des colonnes avec les cumuls. Une colonne o les chiffres
bruts sont cumuls et une autre o ce sont les pourcentages qui sont cumuls.
1) Cumuls des donnes brutes
Chiffres bruts et cumuls
2) Cumuls des pourcentages

Chiffres bruts et cumuls, pourcentages et pourcentages cumuls
3 - Tableaux avec statistiques rsumes

Parfois, on prfre rsumer une srie de chiffres par son total, par sa moyenne, par
ses valeurs extrmes, ou par diffrentes autres statistiques que nous tudierons
dans le chapitre 3. Le tableau ci-aprs indique les moyennes simples (voir le
chapitre 5 pour une dfinition plus prcise de la moyenne simple) de certaines des
variables du tableau 1, ainsi que les valeurs minimales et maximales pour les sries
correspondantes.
23
Tableau de statistiques rsumes pour certaines des variables du tableau 1
Note : Certaines moyennes ne sont pas reportes (superficie, population) car la dispersion est trop
grande pour que la moyenne ait un sens.
4 -Tableaux croiss
A Dfinition et exemple
1) Dfinition
Les tableaux croiss sont appels ainsi car ils croisent deux distributions au sein
dun mme tableau. Les possibilits de croisement sont multiples. En fait, comme
lillustre le tableau synoptique ci-aprs, il y a 16 possibilits.
Diffrentes possibilits de croisement de 2 distributions
2) Exemple
a) Effectifs
Le tableau crois ci-aprs illustre le cas numro 6. Les variables Age mdian et
Indice de fcondit du tableau 1 ont en effet t regroupes par catgories de
valeurs puis croises dans le tableau. On a choisi de mettre les catgories dges
mdians en lignes et les catgories dindices de fcondit en colonne, mais linverse
aurait galement t possible sans que cela ne change la signification du tableau.
24
Avant de construire le tableau crois, on regarde les valeurs minimales et maximales

des deux sries. On voit alors que lge mdian varie de 24,8 ans (Inde) 43,5 ans
(Japon) et que lindice de fcondit varie de 0,98 enfants par femme (Hong Kong)
2,81 enfants par femme (Inde).
Il reste alors former les catgories. Il sagit dun choix arbitraire. Pour simplifier,
nous allons former les catgories suivantes :
Age mdian (3 catgories) : [20-30 ans [ ; [30-40 ans [ ;[40-50]
Indice de fcondit (3 catgories) : [0-1,4 enfants/femme [; [1,4-2 enfants/femme [ ;
[2-3 enfants/femme].
Ensuite on choisit une des 2 sries, par exemple la srie des indices de fcondit en
on la classe par ordre croissant.
On forme les 3 groupes de fcondit, en utilisant par exemple des couleurs

diffrentes pour chaque groupe. Ensuite, il suffit de compter pour chaque groupe,
combien de pays ont un ge mdian compris dans les trois catgories dge mdian
que nous avons dfini : [20-30 ans [ ; [30-40 ans [ ; [40-50]
25
On obtient alors le tableau suivant :

Tableau crois indice de fcondit/ge mdian - Effectifs
Notons bien que ce tableau crois contient leffectif des 35 pays. Autrement dit, si on
fait la somme des 9 chiffres contenus dans le tableau, on trouve leffectif total de la
population, soit 35.
b) Pourcentages
Ce tableau peut tre mis sous forme de pourcentages en divisant chacun des 9
chiffres par 35 et en multipliant par 100. On obtient alors une distribution croise des
35 pays en fonction de lge mdian et de lindice de fcondit, mais contrairement
au cas prcdent, cette distribution croise est exprime en en pourcentages
Tableau crois indice de fcondit/ge mdian - Pourcentages
On peut facilement vrifier quil sagit dun tableau en pourcentages en additionnant

les 9 chiffres pour obtenir 100 (en tenant compte des arrondis).
B Distributions marginales
1) Dfinition
Lorsquon ajoute au tableau crois une colonne pour la somme des valeurs en ligne
et une ligne pour la somme des valeurs en colonnes, on appelle cette colonne et
cette ligne les distributions marginales.
26
2) Exemple
a) Effectifs
Reprenons le tableau crois indice de fcondit/ge mdian , mais ajoutons une
ligne et une colonne.
Chaque chiffre de la dernire ligne ajoute (en caractre gras) reprsente le

total des effectifs de la colonne correspondante. Cest la distribution
marginale en lignes ou distribution de la population des 35 pays sur 3
catgories dge mdian. En effet 1+20+14 = 35.
Chaque chiffre de la dernire colonne ajoute reprsente le total des effectifs
de la ligne correspondante. Cest la distribution marginale en colonnes ou
distribution de la population des 35 pays sur 3 catgories dindices de
fcondit. En effet 17 +16 +2 = 35.
Les deux distributions marginales des effectifs
27
b) Pourcentages
La dernire ligne et la dernire colonne du tableau prcdent peuvent sexprimer en
pourcentage de la faon suivante :
C Distributions conditionnelles
1) Colonnes
a) Effectifs
Reprenons le tableau crois indice de fcondit/ge mdian , mais concentronsnous sur les diffrentes colonnes. Considrons par exemple la colonne des ges
mdians compris dans lintervalle [30-40[ :
Exemple de distribution conditionnelle en colonne (effectifs)
28
La distribution par catgories dge de fcondit des 20 pays dont lge mdian est
dans lintervalle [30-40 ans [est appele distribution conditionnelle en colonne.
Lexpression conditionnelle provient du fait que les 20 pays concerns sont une
sous-population de la population totale et que cette sous-population correspond
tous les pays qui rpondent la condition tre dans lintervalle [30-40[des ges
mdians .
On voit quil y a 3 distributions conditionnelles possibles puisquil y a 3 catgories
dges mdians.
b) Pourcentages
Leffectif de la distribution conditionnelle prcdente est de 20. Il est distribu selon
les 3 catgories dindices de fcondit. Si lon fait abstraction du reste du tableau, on
peut diviser chacun des chiffres de cette colonne par 20 et le multiplier par 100 de
faon exprimer la distribution conditionnelle en pourcentages. On aura alors :
Si maintenant on effectue la mme opration pour les trois colonnes on obtient le

tableau des tableaux des distributions conditionnelles en colonnes en
pourcentages.
Les 3 distributions conditionnelles en colonnes (pourcentages)
Dans chaque colonne, leffectif initial a t divis par le chiffre correspondant de la

sous population de pays associs la catgorie dge mdian correspondante.
2) Lignes
a) Effectifs
De la mme faon quil y a des distributions conditionnelles en colonnes, il y a aussi
des distributions conditionnelles en ligne. Cette fois, on isole 3 sous populations qui
correspondent aux catgories dindices. A titre dexemple, dans le tableau ci-aprs,
la catgorie dindice de fcondit [1,4 2 enfants/femme [a t isole, ce qui
correspond une sous population de pays gale 16. La distribution de ces pays
par catgories dges de fcondit est ensuite donne par la ligne encadre.
29
Naturellement, puisquil y a 3 catgories dindice de fcondit, il y a 3 sous

populations et trois distributions conditionnelles.
Exemple de distribution conditionnelle en ligne (effectifs)
b) Pourcentages
Suivant le mme principe que pour les distributions conditionnelles en colonne, on
peut transformer les distributions deffectifs en distribution de pourcentages en
divisant les chiffres de chaque ligne par le total de la ligne. On obtient alors le
tableau suivant des distributions conditionnelles en colonnes en pourcentages.
Les 3 distributions conditionnelles en ligne (pourcentages)
30
Chapitre 3 : Statistiques permettant de rsumer une srie
1 Tendance centrale et dispersion des valeurs dune variable

2 - Les statistiques de tendance centrale
A - Le mode
1) Dfinition
2) Remarques propos du mode
a) Une srie peut avoir plusieurs modes
b) Le mode n'existe pas forcment
c) Le mode n'est pas forcment la valeur la plus leve
d) Variables et caractres peuvent avoir un mode
e) Mettre la srie sous forme de distribution pour reprer le mode
B - La moyenne arithmtique
1) La moyenne arithmtique simple
2) La moyenne arithmtique pondre
3) Calcul de la moyenne sur des donnes catgorielles
C - La mdiane
1) Origine du mot, sens gomtrique
2) Sens du mot en statistique descriptive
3) Mthode de calcul
a) n est pair
b) n est impair
3 - Les statistiques de dispersion
A - Minimum, maximum, intervalle de variation et rapport de variation
1) Minimum et maximum dune srie
2) Intervalle de variation ou tendue
3) Rapport de variation
B - Intervalle interquartile
C - Variance, cart-type et coefficient de variation
1) La variance
a) Dfinition
b) Exemple
c) Utilit de la variance
2) L'cart-type
a) Dfinition
b) Mthode de calcul
c) Utilit de lcart-type
3) Le coefficient de variation
Annexe : Mthode alternative pour le calcul des quartiles
31
1 Tendance centrale et dispersion des valeurs dune variable

Nous avons dj vu dans le chapitre prcdent, un exemple de tableau contenant
des statistiques rsumes, tableau qui est reproduit ci-dessous pour mmoire:
Ce tableau ne contient que trois statistiques rsumant les diffrentes sries du

tableau 1 : Il sagit de la moyenne simple, ainsi que des valeurs minimales et
maximales de chaque srie. Nous allons maintenant tudier systmatiquement les
principales autres statistiques permettant de rsumer une srie. A chaque fois, on
insistera sur la mthode de calcul (plutt que sur la formule) et on sappuiera sur des
exemples extraits du tableau 1.
Il est habituel de distinguer deux types de statistiques rsumes, quitte ensuite
les runir dans des statistiques rsumes plus labores :
Les statistiques qui rsument la tendance centrale dune srie ou dune

distribution :
o mode,
o moyenne
o mdiane.
Les statistiques qui rsument la dispersion dune srie :

o intervalle de variation (aussi appele tendue )
o intervalle interquartile.
Certaines de ces statistiques, tout en rsumant la dispersion de la srie,
tiennent aussi compte de sa valeur centrale. Cest le cas de :
o lcart-type,
o de la variance
o du coefficient de variation3.
Une dernire remarque : bien quil soit possible deffectuer des calculs de
statistiques rsumes sur les donnes groupes en catgories, cest dconseill de
3
Il existe aussi des statistiques qui rsument la forme dune distribution, mais celles-ci ne sont
plus gure utilises aujourdhui dans la mesure o il est plus facile dobserver directement le
graphique dune distribution pour en apprcier la forme.
32
le faire quand on dispose des donnes brutes ou regroupes par valeurs ou

modalits. Cest une question de bon sens. Si lon effectue les calculs sur des
donnes regroupes par catgories, on obtient des rsultats approximatifs et mme
carrment faux quand on les compare aux calculs effectus sur les donnes brutes
(sans parler des formules abstruses et abscondes quil faut employer pour effectuer
les calculs de moyennes, mdianes, quartiles ou variance sur des donnes
catgorielles).
2 Les statistiques de tendance centrale
A Le mode
1) dfinition
Le mode d'une srie est la valeur la plus frquente d'une srie.
Exemple : Soit la srie {8,4,4,3,4,3,8,2,5}
La valeur la plus frquente de cette srie est 4. Le mode est donc gal 4. L'effectif
associ ce mode est 3.
2) Remarques propos du mode
a) Une srie peut avoir plusieurs modes
Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, les "2" sont mis
en gras et les "3" sont souligns, car ce sont les valeurs qui reviennent le plus
souvent : 5 fois chacune. Cette srie a 2 modes, elle est bimodale. Ses deux modes
sont : 2 et 3. L'effectif associ chacun de ces modes est : 5. Bien entendu, on peut
avoir des sries avec 3, 4, 5, etc. modes. Ce sont alors des sries multimodales.
b) Le mode nexiste pas forcment
C'est le cas lorsque toutes les valeurs ont le mme effectif comme dans l'exemple
suivant : {8,6,5,7,3,1}. Dans ce cas, on peut aussi dire que toutes les valeurs sont
modales.
c) Le mode nest pas la valeur la plus leve
Il ne faut pas confondre le mode, qui est la valeur la plus frquente, avec la valeur la
plus leve de la srie. Dans la srie {8,6,5,7,3,1}, il n'y a pas de mode, mais la
valeur la plus leve est 8. Il peut arriver que le mode soit aussi la valeur la plus
leve, mais ce nest alors quune concidence.
d) Variables et caractres peuvent avoir un mode
La notion de mode existe aussi bien dans le cas dune srie qui se rapporte une
variable que dans le cas dune srie qui se rapporte un caractre.
33
e) Mettre la srie sous forme dune distribution pour reprer le mode

Pour dtecter le mode, il est souvent plus facile de distribuer les lments de la srie
par valeurs (ou par modalits). Soit la srie nombre de frontires terrestres avec
dautres pays de lUE 27 extraite du tableau 1 :
S1 = {8, 4, 5, 3, 3, 2,1, 1, 1, 1, 2, 1 ,6, 1, 1, 0, 1, 4, 2, 2, 0, 4, 4, 4, 3, 2, 2, 4, 0, 0, 0, 0,
5, 0,0}
Nous savons que cette srie peut tre mise sous forme dune distribution par valeurs
de la faon suivante :
Distribution des pays du tableau 1
selon leur nombre de frontires terrestres avec les pays de lUE 27
Nous voyons alors plus facilement quels sont les deux modes de la srie.
B - La moyenne arithmtique
Le mot moyenne a pour origine le latin "mdius, mot signifiant "qui est au milieu".
"Mdius" est aussi l'origine du mot "mdiane". Pourtant, en statistique, les deux mots
conduisent des dfinitions diffrentes. Ceci nous laisse supposer que la notion de
milieu n'est pas toujours facile dfinir.
1) La moyenne arithmtique simple
La moyenne arithmtique d'une srie ou moyenne arithmtique simple se
calcule par une formule qui est donne par l'expression :
(1)
34
Le "x" surmont d'un trait dsigne classiquement la moyenne. On remarque que la

somme va de 1 n o n dsigne le nombre d'units statistiques de la population.
Appliquons cette dfinition au calcul de la moyenne de la srie suivante = {4, 0, 1, 1,
2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}. On a donc :
2) La moyenne arithmtique pondre

La moyenne arithmtique d'une distribution ou moyenne arithmtique
pondre se calcule par une formule qui est donne par l'expression :
(2)
La somme varie cette fois de 1 k, avec k qui reprsente le nombre de valeurs de la
srie. Dans le cas o aucune valeur n'est rpte k=n. Sinon k<n. Remarquons que
la somme va de 1 k, mais que cette somme est divise par n et non par k.
La notation ni reprsente les effectifs ou frquences absolues des valeurs.
Appliquons cette dfinition au calcul de la moyenne de la distribution :
Les diffrences entre la formule de la moyenne donne en (1) et celle donne en (2)
sont importantes noter, quoique les deux formules donnent ncessairement le
mme rsultat.
La premire diffrence tient au fait que dans la formule (1) la somme se fait
sur les n units statistiques, alors que dans la formule (2) la somme se fait sur
les k valeurs.
La seconde diffrence tient au fait que dans la formule (1), chaque lment
additionn compte pour un, c'est--dire que la pondration est de 1. Dans la
formule 2, les pondrations sont diffrentes. La formule (1) est en fait un cas
particulier de la formule (2). En effet si n = k et que ni = 1 pour i = 1 k alors
les deux formules sont identiques.
35
En pratique, si le calcul de la moyenne doit tre fait sans machine calculer ni

tableur et que les donnes sont peu nombreuses (infrieures 10), mieux vaut
utiliser la formule (1). Sinon, la formule (2) peut tre prfre.
La moyenne arithmtique ne peut pas tre calcule pour un caractre
(dimension quantitative). Soit par exemple le caractre sexe, avec les deux
modalits "F" et "H", dans une population de 10 personnes. On a la srie suivante :
{F,H,F,F,H,H, F,F,F,H}. La modalit "Femme" est plus frquente (6 contre 4 pour la
modalit "Homme") : c'est le mode. En revanche, on ne peut pas calculer de
moyenne arithmtique. La mme chose est vraie si l'on met cette srie sous forme
d'une distribution :
Sexe
H
F
Effectifs
4
6
On peut calculer les frquences associes chaque modalit. On voit alors que la
modalit la plus frquente est "F" (0,6 contre 0,4 pour la modalit "H"). Mais la notion
de moyenne arithmtique n'a pas de sens pour un caractre.
3) Calcul de la moyenne sur des donnes catgorielles
Ainsi que prcis dans lintroduction cette section consacre la moyenne, il faut
tout prix viter de procder ce type de calcul. Nous ne le donnons ici qu titre
dinformation. Lorsque l'on a une distribution par classes de valeurs, la moyenne se
calcule en prenant la formule de la moyenne pondre et en remplaant dans cette
formule "xi" par "ci", o ci reprsente le centre de la classe i, cest--dire la
moyenne arithmtique des extrmits de classe. A dfaut d'avoir une valeur xi on
prend "ci". Ceci explique que le calcul de la moyenne donne un rsultat imprcis. On
va le voir dans les deux exemples suivants :
Soit la srie dj utilise prcdemment : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1,
3, 3, 4, 5}. Nous savons que la moyenne arithmtique simple applique cette srie
est :
Exemple 1 : Supposons maintenant que seule la distribution par classe de valeurs

d'amplitudes gales nous soit donne :
Classes
[0-2[
[2- 4[
[4- 6]
ni
4
10
6
36
Pour calculer la moyenne, nous devons dterminer les centres de classe, puis faire
la somme des "ni x ci" et diviser par n. Autrement dit, nous devons appliquer la
formule :
La notation ci indique le centre de classe et o k reprsente le nombre de classes.

Comme indiqu prcdemment, le centre de classe est gal la moyenne des
extrmits de classe. On a donc le tableau de calcul suivant :
Classes
ni
[0-2[
[2- 4[
[4- 6]
4
10
6
ci (moyenne des
extrmits de
classe)
1
3
5
ni x ci
4
30
30
64
Et finalement :
Nous avons donc une marge d'erreur non ngligeable par rapport la vraie
moyenne, savoir 2,7. La marge d'erreur en pourcentage est donne par :
La marge d'erreur dpend de la dfinition des classes.

Exemple 2 : Supposons que l'on ait maintenant deux classes d'amplitudes ingales.
Le calcul se fait de la mme faon, mais on obtient un rsultat diffrent :
Classes
[0-4[
[4- 6]
ni
14
6
ci
2
5
ni x ci
28
30
58
La moyenne est donc :
37
On voit donc que chaque fois que l'on change les classes ou que l'on modifie leur
amplitude, on exerce un effet sur la moyenne par le jeu de la modification des
centres de classe. Il est donc facile de manipuler la moyenne en choisissant les
amplitudes de classe. C'est pourquoi il est recommand de ne calculer la
moyenne partir des centres de classe que lorsqu'on ne peut pas faire
autrement, c'est--dire lorsque l'on ne dispose pas des donnes brutes.
C - La mdiane
1) Origine du mot, sens gomtrique
Le mot mdiane a pour origine le latin mdius, mot signifiant qui est au
milieu . Mdius est aussi l'origine du mot "moyenne". Pourtant, en statistique,
les deux mots conduisent des dfinitions diffrentes. Ceci nous laisse supposer
que la notion de milieu n'est pas toujours facile dfinir.
Avant d'avoir une dfinition statistique, la mdiane a d'abord une dfinition
gomtrique. On dfinit ainsi, par exemple, les mdianes d'un triangle. Une mdiane
d'un triangle est une droite qui joint un sommet au milieu du ct oppos. Il y a donc
3 mdianes par triangle.
2) Sens du mot en statistique descriptive

La mdiane est la valeur de la variable (et dans certains cas, la modalit du
caractre) qui partage la population, dont les valeurs ont pralablement t classes
par ordre croissant, en deux sous populations gales. On la dsigne par
l'abrviation Me.
38
3) Mthode de calcul
Toujours se ramener une srie : Si les donnes se prsentent sous forme

d'une distribution, convertir la distribution en srie.
Classer la srie : Une fois la srie constitue, l'ordonner en classant les
chiffres par ordre croissant. On dsignera par k le rang dune valeur dans la
srie (voir tableau ci-aprs).
Dterminer si la srie comprend un nombre pair ou impair dunits
statistiques : Soit n le nombre dunits statistiques. Deux cas peuvent alors
se prsenter : celui ou n est pair et celui ou n est impair.
a) n est pair
Dans ce cas la mdiane est gale la moyenne arithmtique de a(k) et de
a(k+1) o k est tel que n = 2k et o a(k) et a(k+1) sont les valeurs associes k
et k+1
Exemple : si l'on prend la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4,
5}.
On a donc le tableau suivant (o les valeurs sont classes par ordre croissant):
Puisque n=20, n est pair. Donc n= 2k implique 20 = 2k soit k = 10 et k+1 = 11. Les
valeurs associes sont a(k) = 3 et a(k+1) = 3. Par consquent :
Me = [a(k)+a(k+1)]/2=(3+3)/2=3
39
On peut aussi appliquer la formule propose par le tableur EXCEL ( cf. la notice
technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr 4.
Dans ce cas, on doit calculer Me de la faon suivante :
Me = a(k) + [ f x [ a(k+1) - a(k)] ]
Pour comprendre cette formule, il faut dabord dfinir g :

g = [(1/2) (n-1)] +1.
Une fois que lon a dfinit g, on peut en dduire k et f :

k reprsente le rang de la valeur dans le classement du tableau ci-dessus et
est gal la partie entire de g.
f est la partie dcimale de g.
a(k) est la valeur associe au rang k
a(k+1) est la valeur associe au rang k+1.
Si lon applique cette formule, on voit que :
g = [(1/2)(20-1)]+1=10,5
Par consquent k= 10 et f = 0,5. On a donc a(k) = 3 et a(k+1)=3. Ds lors :
Me = 3 + [0,5(3-3)] = 3
La notice technique sur le site de Microsoft ( http://support.microsoft.com/kb/103493/fr ) prsente la

formule diffremment mais aboutit au mme rsultat.
40
b) n est impair
Dans ce cas la mdiane est gale a(k+1) o k est dfini par 2k+1 = n et o
a(k+1) est la valeur associe k+1
Exemple : si l'on prend la srie prcdente mais que l'on enlve le 20me lment, on
alors la srie { 4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4 } ou n = 19 et le
tableau suivant (o les valeurs sont classes par ordre croissant) :
2k+1 = n donne donc 2k+1 = 19, cest--dire k=9. Donc k+1 = 10 .

Par consquent la mdiane est gale a(k+1) soit 3.
On peut, comme dans le cas o n est pair, applique la formule propose par le
tableur EXCEL et on obtiendra le mme rsultat.
41
3 - Les statistiques de dispersion

A - Minimum, maximum, intervalle de variation et rapport de variation
1) Minimum et maximum dune srie
Revenons au tableau de statistiques rsumes dans lequel figure, pour certaines des
variables du tableau 1, les valeurs minimale et maximale de la srie.
Ces deux valeurs donnent immdiatement une certaine ide de la dispersion. On voit
par exemple que les carts entre les superficies des pays, de mme que lcart entre
les populations sont trs importants.
2) Intervalle de variation (ou tendue )
Lintervalle de variation (IV) ou ltendue de la srie est simplement une faon de
rsumer le minimum et le maximum de la srie en un seul chiffre. On lobtient ainsi :
Intervalle de variation de la srie = valeur maximale Valeur minimale
Dans le tableau ci-aprs, lintervalle de variation a t ajout sur la dernire ligne
pour les 8 sries :
La dernire ligne donne lintervalle de variation (arrondi au nombre entier le plus

proche), cest--dire la diffrence entre la valeur maximale et la valeur minimale.
42
3) Rapport de variation
Le rapport de variation est simplement le rapport de la valeur maximale la valeur
minimale. Ainsi, si lon divise le PIB par habitant maximum par le PIB par habitant
minimum en 2006, on obtient :
On voit ainsi que lcart est pratiquement de 1 100 puisque le PIB/habitant du

Luxembourg est 99 fois suprieur celui de lInde. Naturellement, il sagit de chiffres
exprims en dollars courant. Il faudrait, pour tre plus prcis, les exprimer en parit
de pouvoir dachat.
B - Intervalle interquartile
Lintervalle de variation ne donne quune ide imprcise et parfois fausse de la
dispersion de la srie, car les valeurs extrmes peuvent tre exceptionnelles et le
reste de la population statistique tre concentr sur un intervalle beaucoup plus
retreint. On peut parfaitement sen rendre compte dans le tableau ci-dessus, o les
intervalles de variation sont normes pour les superficies et pour les populations, car
de toutes petites les (comme Malte) sont compares avec des pays ayant presque
la taille dun continent (Russie, Chine, Inde). Do lide de calculer lintervalle
interquartile qui donne une ide plus prcise de la dispersion des valeurs dune
srie (ou dune distribution). Avant de dfinir lintervalle interquartile, il convient
cependant de dfinir les quartiles.
1) Quartiles
Les quartiles sont les trois valeurs qui partagent la population, dont les valeurs ont
pralablement t classes par ordre croissant, en quatre sous populations de
mme taille. On les dsigne respectivement par Q1, Q2 et Q3 .
43
2) Calcul des quartiles

On notera que Q2 = Me. Autrement dit, le deuxime quartile nest autre que la
mdiane que nous avons dj tudie. Il est important de noter quil nexiste pas
dalgorithme universellement accept pour dterminer les quartiles Q1 et Q3.
Dans ce qui suit, nous utiliserons la formule employe par le logiciel EXCEL de
Microsoft5.
Prenons lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}, on
a n=20
Le calcul de Qi (i=1,2 ou 3) seffectuera ds lors au moyen la formule suivante :
Qi = a(k) + [ f x [ a(k+1) - a(k)] ]
Sagissant du premier quartile on aura donc :
Q1 = a(k) + [ f x [ a(k+1) - a(k)] ]
Pour comprendre cette formule, il faut dabord dfinir g :
g = [(1/4) (n-1)] +1.
Voir la notice technique sur le site de Microsoft : http://support.microsoft.com/kb/103493/fr . La

notice prsente la formule diffremment mais aboutit au mme rsultat. Les principales autres
mthodes de calcul des quartiles sont rsumes sur le site Mathworld. Lavantage de la mthode
Microsoft est quil nest pas ncessaire dappliquer une formule diffrente suivant que n est
pair ou impair.
Le logiciel Mathematica 6, dtermine quant lui les quartiles de la faon suivante :
Sagissant de la srie prcdente, on trouve ainsi Q3 = 11,175 avec Mathematica :
Un autre algorithme de calcul est propos dans lannexe ce chapitre.
44
Une fois que lon a dfinit g, on peut en dduire k et f :

k reprsente le rang de la valeur dans le classement du tableau ci-dessous et
est gal la partie entire de g
f est la partie dcimale de g.
a(k) est la valeur associe au rang k et a(k+1) est la valeur associe au rang
k+1 Si lon applique cette formule, on voit que :
g = [(1/4)(20-1)]+1=5,75
Q1 = 2 + [0,75 x (2-2)] = 2
On peut suivre la formule sur le tableau ci-aprs :
Le calcul de Q3 seffectue au moyen de la mme formule que pour Q1, soit :

Q3 = a(k) + [f x [a (k+1) - a(k)]]
Mais avec un changement dans la dfinition de g. Dsormais on a :
g = [(3/4) (n-1)] +1
Prenons toujours lexemple de la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3,

4, 5}, on a n=20. Ds lors :
g = [(3/4) (n-1)] +1 = [(3/4)(20-1)]+1=15,25

Q3 = 4 + [0,25 x (4-4)] = 4
45
On peut suivre la formule sur le tableau ci-aprs :
3) Intervalle interquartile
L'intervalle interquartile (IIQ) est la diffrence entre le troisime quartile et le
premier quartile. Il s'crit :
IIQ = Q3 - Q1
L'intervalle interquartile sert apprcier la dispersion de la srie, de faon absolue,
ou bien par comparaison avec une autre srie ( condition que les valeurs de lautre
srie soient exprimes dans la mme unit). En effet, les valeurs Q1 et Q3 dlimitent
une plage au sein de laquelle environ6 50% des valeurs de la srie sont
concentres. Plus cet intervalle est large, plus la srie est disperse. Dans
lexemple que nous avons utilis, lIIQ est gal 4-2 = 2.
Le tableau ci-aprs donne la mdiane, Q1 et Q3 , ainsi que lintervalle interquartile

pour certaines des variables du tableau 1 . Les calculs ont t effectus avec
Microsoft EXCEL en utilisant la mme formule que celle propose ci-dessus et
donnent par consquent, sauf erreur, les mmes rsultats que si les calculs sont
effectus avec une machine calculer ou la main (certains problmes darrondis
peuvent crer de lgres divergences non significatives).
Cest pour cette raison que les algorithmes de calcul diffrent.
46
Prenons lexemple de la densit de population. Q1, Q3 et lintervalle interquartile

nous indiquent respectivement des chiffres gaux 74, 212 et 138 (cest--dire 21274). Cela signifie quenviron la moiti de nos 35 pays a une densit de population
comprise entre 74 et 212, et que lcart entre ces deux bornes est de 138. On peut
galement calculer le rapport Q3/Q1 qui est ici de 212/74 = 2,86, alors que le rapport
de variation (valeur maximale/valeur minimale est de 6356/8 = 794.5 ). Ces rsultats
compltent ceux dj indiqus par la moyenne et lintervalle de variation. Ils nous
montrent aussi la difficult de rsumer correctement une srie statistique par un
chiffre. Cest une des raisons pour lesquelles les graphiques sont de plus en plus
utiliss de prfrence aux statistiques rsumes. En effet, non seulement ils sont
plus parlants que les tableaux, mais aussi, ils rsument mieux la srie ou la
distribution, quune kyrielle de statistiques telles que celles que nous sommes en
train de calculer.
Dautant que ces statistiques rsumes, bien quintressantes et dj fort
nombreuses, restent encore insuffisantes. Elles peuvent en effet tre compltes par
trois autres indicateurs que nous allons tudier maintenant : La variance, lcart-type
et le coefficient de variation
47
C - Variance, cart-type et coefficient de variation

Ces trois statistiques sont lies entre elles. Elles sont toutes les trois des indicateurs
de la dispersion dune srie par rapport sa valeur moyenne. Le plus simple est de
commencer par ltude de la variance.
1) La variance
La variance est un indicateur de la dispersion dune srie par rapport sa moyenne.
De mme que la moyenne, elle se rsume un seul chiffre qui sobtient par un calcul
que nous allons dcomposer ci-aprs.
a) Dfinition
La dfinition de la variance dune srie de chiffres est donne par la formule7 :
O :
V dsigne la variance des n valeurs associes aux n units statistiques de la

population. Chacune de ces valeurs est dsigne par xi , le i tant un indice
qui varie de 1 n (i = 1 .,n).
est la moyenne arithmtique simple des n valeurs associes aux units

statistiques xi (i = 1, , n).
Nous donnons ici la formule de la variance des valeurs associes aux units statistiques dune
population et non la variance dun chantillon de cette population, dont la dfinition est lgrement
diffrente. En effet, pour calculer la variance dun chantillon, on divise par n-1 au lieu de diviser par
n, mais dans ce cas le n de lchantillon est videmment beaucoup plus petit que le n de la
population et lon diffrencie alors les deux en dsignant par N le nombre dunits statistiques de la
population et par n le nombre dunits statistiques de lchantillon. De plus, si lon veut extraire
plusieurs chantillons de la population, on est amen rajouter un indice aux n pour les distinguer (on
prendra alors lindice j puisque lindice i est dj utilis pour dsigner les units statistiques ellesmmes).
48
b) Exemple
Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20. Pour
calculer la variance de cette srie, on procde ainsi :
Toujours se ramener une srie :par exemple, si au lieu davoir une srie
on avait la distribution suivante :
Il faudrait dabord la transformer en srie.
Calculer la moyenne arithmtique simple :
Retrancher ensuite cette moyenne de chacune des 20 valeurs de la srie

(colonne 3 du tableau ci-aprs ).
On obtient ainsi une srie qui comprend des valeurs ngatives (car certaines
valeurs de la variable sont infrieures la moyenne et donc si on retranche la
moyenne elles deviennent ngatives) et des valeurs positives (car certaines
valeurs de la variable sont suprieures la moyenne et donc si on retranche
la moyenne elles restent positives).
Afin de tenir compte la fois des distances positives et ngatives, on ne peut

pas additionner immdiatement les valeurs de la colonne 3. Il faut dabord
lever au carr chacune de ces valeurs, de faon obtenir une srie de
valeurs positives (colonne 4).
Cette srie de valeurs positives reflte dj en elle-mme la dispersion par

rapport la moyenne. Mais il faut encore additionner ces valeurs pour avoir
un chiffre unique (dernire valeur en gras dans la colonne 4)
Diviser ensuite ce total par n, pour avoir en fait une sorte de moyenne. Cest
pour cela que lon dit que la variance nest finalement que la moyenne du
carr des carts la moyenne . Et lon obtient la variance de notre srie de
chiffres, soit ici :
49
Tableau pour la disposition du calcul de la variance
c) Utilit de la variance
La variance nest pas dune grande utilit en soi. On peut seulement dire que plus
elle est leve, plus la dispersion autour de la moyenne est leve. Mais comme les
carts la moyenne ont t levs au carr, le chiffre obtenu, quoiquexprim dans
lunit de la variable, est gnralement assez lev et encombrant . Cest
pourquoi, on utilise surtout la variance comme calcul intermdiaire pour obtenir
lcart-type et le coefficient de variation.
50
2) Lcart-type
a) Dfinition
La dfinition de lcart-type dune srie de chiffres est donne par la formule :
En dautres termes, lcart-type est gal la racine carre de la variance.

b) Exemple
Soit la srie S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} ou n=20.
Nous voulons calculer lcart-type. Nous avons dj calcul la variance :
V(x)=1,81
Il suffit donc de prendre la racine carre de la variance et lon obtient :
c) Utilit de lcart-type
De faon gnrale :
si lcart-type est faible, cela signifie que les valeurs sont assez concentres
autour de la moyenne.
si lcart-type est lev, cela veut dire au contraire que les valeurs sont plus
disperses autour de la moyenne.
Exemple : Dans une usine, le fait davoir un cart-type aussi bas que possible peut
constituer un objectif de contrle de qualit. Soit une entreprise qui fabrique un
certain composant et quun des lments du contrle de la qualit consiste
mesurer le diamtre du composant. Chaque composant aura donc son diamtre
mesur. On calculera ensuite le diamtre moyen, puis lcart-type. Si lcart-type est
faible, cela signifie que les pices ont dans lensemble un diamtre proche de la
moyenne, donc que leur diamtre se ressemble. la limite, un cart-type nul signifie
que toutes les pices ont le mme diamtre. Inversement, plus lcart-type est lev,
plus il y a de pices dont le diamtre scarte de la moyenne et qui risque de ne pas
cadrer avec le systme auxquelles elles sont destines.
51
Une autre utilit de lcart-type est de servir de bornes. On regardera par exemple
combien de valeurs de la srie sont comprises dans lintervalle dfini par :
Dans lexemple de S = {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5} , dont

nous avons dj calcul la moyenne simple (2,7), nous obtenons lintervalle suivant :
[2,7 1,345 ; 2,7 + 1,345] = [1,355 ; 4,045]
Pour savoir combien dunits ont des valeurs comprises dans cet intervalle, il faut
classer la srie par ordre croissant des valeurs de la variable et ensuite encadrer les
valeurs comprises dans lintervalle. On voit ainsi que 14 units sur 20 ont des valeurs
comprises dans lintervalle, ce qui reprsente 70% de la population. Si ces valeurs se
rapportaient aux caractristiques des pices dun processus industriel on pourrait
juger que la qualit est acceptable ou bien au contraire se fixer comme objectif
daugmenter le nombre de valeurs qui sont dans cet intervalle. On voit que cet
intervalle est avec lintervalle interquartile une autre faon de mesurer la dispersion
dune srie.
Nombres dunits statistiques dont la valeur est comprise dans lintervalle
52
3) Le coefficient de variation
Lcart-type est un outil intressant pour mesurer la dispersion dune srie, ainsi que
nous venons de le voir. Mais il possde une limite : Il est est exprim dans lunit
de la variable dont il mesure la dispersion des valeurs.
Ainsi, par exemple, si on veut comparer les dispersions de deux sries qui sont
exprimes dans des units diffrentes, on ne peut pas.
Le tableau de statistiques rsumes ci-aprs donne lcart-type de certaines des
variables du tableau 1. On peut regarder chaque cart-type et constater quil est
lev ou pas, mais on ne pourrait comparer chaque cart-type qu un autre carttype exprim dans la mme unit.
Par exemple, si lon avait aussi la srie des ges mdians de lanne 1997 pour les
mmes 35 pays, on pourrait regarder si la dispersion a augment ou diminu en 10
ans, car les deux cart-types seraient exprims dans la mme unit (lanne).
Par contre, on ne peut pas dire, en regardant lcart-type des densits par habitant
en 2006 (qui est de 138) que la distribution de valeurs est plus groupe autour de la
moyenne que dans le cas des PIB par habitant de 2006, dont lcart-type est
pourtant beaucoup plus lev (17 239). Car comme les deux sries sont exprimes
dans des units diffrentes, elles ne sont pas comparables.
Do lide de calculer le coefficient de variation qui est gal lcart-type divis

par la moyenne, cest--dire :
53
Le tableau ci-dessus donne le coefficient de variation de certaines des variables du

tableau 1. Cette fois on peut comparer les dispersions des diffrentes sries, car le
coefficient de variation est un nombre sans dimension. Sil est gal 0, cest que
toutes les valeurs de la srie sont identiques. Plus il est lev et plus les valeurs de
la variable sont disperses. Et si lon compare par exemple la dispersion des
densits la dispersion des PIB, on peut dire que les densits par habitant sont au
moins 4 fois plus disperses que les PIB par habitant (2,94/0,69=4,26).
54
Annexe : Mthode alternative pour le calcul des quartiles

Cette mthode ne correspond pas celle employe par EXCEL, ni par les autres
logiciels de calcul. Elle nest donne ici qu titre dinformation parce quelle est
la plus logique. Cest aussi la mthode qui est propose dans Wikipedia (voir
http://fr.wikipedia.org/wiki/Crit%C3%A8res_de_position ) :
i) Toujours se ramener une srie : Si les donnes se prsentent sous forme

d'une distribution par valeurs, convertir la distribution en srie.
ii) Classer la srie : Une fois la srie constitue, l'ordonner en classant les chiffres
par ordre croissant.
iii) Dterminer le quotient et le reste de la division de n par 4 : Soit n le nombre
d'lments de la srie et p le quotient de la division de n par 4. Quatre cas peuvent
se prsenter, suivant les quatre valeurs possibles du reste de la division de n par 4.
On peut en effet avoir n=4p (pas de reste) ; n=4p+1 (reste 1); n=4p+2 (reste 2);
n=4p+3 (reste 3). Envisageons successivement ces quatre cas .
a) Cas o n = 4p
C'est le cas o, quand on divise n par 4, on trouve p et que le reste est nul. Dans ce
cas, on a :
Q1 = moyenne entre la pe et (p+1)e valeur.
Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur.
Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur
Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5},
on a n = 4 p = 20 p=5.
55
En classant cette srie on obtient le tableau suivant :
Fichier EXCEL
Par consquent, on a :
Q1 = moyenne entre la pe et la (p+1)e valeur =(2+2)/2=2
Q2 = Me = moyenne entre la (2p)e valeur et la (2p+1)e valeur = (3+3)/2=3
Q3 = moyenne entre la (3p)e valeur et la (3p+1)e valeur = (4+4)/2=4
Les 4 groupes de valeurs sont : {{0, 1, 1, 1, 2}, {2, 2, 2, 2, 3}, {3, 3, 3, 3, 4}, {4, 4, 4, 5,
5}}
b) Cas o n = 4p + 1
Dans ce cas, le reste de la division par 4 est 1 et l'on a :
Q1 = moyenne entre la pe et la (p+1)e valeur.
Q2 = (2p+1)e valeur.
Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)e valeur.
Exemple : si l'on prend la srie
n =17 et n = 4p + 1, avec p = 4.
{4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3} on a
56
Fichier EXCEL
Q1 = moyenne entre la pe et la (p+1)e valeur = (1+2)/2=1,5
Q2 = (2p+1)e valeur = 2
Q3 = moyenne entre la (3p+1)e valeur et la (3p+2)e valeur=(3+4)/2=3,5
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, {2, 2, 2, 2}, 2, {3, 3, 3, 3}, {4, 4, 4, 5}}
On a exclu Q2=Me pour obtenir 4 groupes gaux.
c) Cas o n = 4p + 2
Q1 =(p+1)e valeur.
Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur.
Q3 = (3p+2)e valeur
Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3}, on a
n=18 et n = 4p+2, avec p= 4.
57
Fichier EXCEL
Q1 =(p+1)e valeur = 2
Q2 = moyenne entre la (2p+1)e valeur et la (2p+2)e valeur = (2+3)/2=2,5
Q3 = (3p+2)e valeur =3
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, {3, 3, 3, 3}, 3, {4, 4, 4, 5}}
On a exclu Q1 et Q3 pour obtenir 4 groupes gaux.
d) Cas o n = 4p + 3
Q1 =(p+1)e valeur.
Exemple : si l'on prend la srie {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4} on
a n=19 et n = 4p+3, avec p= 4.
58
Fichier EXCEL
Q1 =(p+1)e valeur = 2
Q2 = (2p+2)e valeur = 3
Q3 = (3p+3)e valeur = 4
Les 4 groupes de valeurs sont : {{0, 1, 1, 1}, 2, {2, 2, 2, 2}, 3, {3, 3, 3, 3}, 4, {4, 4, 4,
5}}
On a exclu Q1, Q2 et Q3 pour obtenir 4 groupes gaux.
59
Tableau rcapitulatif
Fichier EXCEL
60
Chapitre 4
Indices et progressions
1 Indices
A Dfinitions
1) Nombre indice
2) Srie indice
B Indice temporel et indice de situation
1) Indice temporel
2) Indice de situation
C Indice lmentaire et indice synthtique
1) Indice lmentaire
2) Indice synthtique
D Indice dvolution de la valeur dun panier de biens
1) Dfinition de la valeur dun panier de biens
2) Indice de LASPEYRES
a) Indice dvolution des prix
b) Indice dvolution des quantits
2 Progressions
A Variation absolue
B Taux de croissance sur une priode
C Taux de croissance sur plusieurs priodes
1) Formule directe (en passant par laccroissement global)
2) Formule indirecte (en passant par les accroissements successifs)
3) Exemple numrique
4) Lien avec la moyenne gomtrique
D Taux de croissance du produit de 2 valeurs
E Taux de croissance du rapport de 2 valeurs
F Complments
1) Augmentations et/ou diminutions successives
2) Augmentation en % suivie dune diminution identique en pourcentage
3) Temps de doublement dune grandeur
4) Exemple dutilisation en conomie
Nous avons vu au chapitre 2 que les chiffres dune srie pouvaient tre prsents
sous forme deffectifs, de pourcentages et de pourcentages cumuls. Mais ce nest
pas tout : les chiffres dune srie peuvent aussi tre mis sous forme dindices. De
plus, il est frquent que lon souhaite tudier une srie dont les valeurs changent au
cours du temps ou bien, plus simplement, que les valeurs dune seule srie
correspondent diffrentes valeurs dans le temps (il sagit alors dune srie
chronologique). Dans ces deux cas, le calcul dun indicateur de progression (taux
de variation, taux de croissance) va permettre de rsumer lvolution avec un seul
chiffre. Les indices et les progressions sont aussi utiliss pour comparer des
situations (gnralement deux sries dont les valeurs changent selon le lieu).
61
1 - Indices
A - Dfinition
1) Nombre indice
Un nombre indice est une mesure de la variation dune grandeur compare une
valeur de rfrence gale 100 et appele base .
Exemple : En dcembre 2007, l'Indice des prix la consommation de l'INSEE (IPC),
base 100 en 1998, s'tablissait ainsi :
Source : http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 .
La valeur de rfrence est ici la valeur 100 en 1998. A partir de ce tableau, on peut
voir que :
les prix ont augment de 17,70% entre 1998 et 2007 (en 10 ans)
les prix ont augment de 117,26-114,73=2,53% entre dcembre 2006 et
novembre 2007 (en 1 an)
Les prix ont augment de 117,7-117,26=0,44% entre novembre 2007 et
dcembre 2007 (en un mois)
Certains indices ne sont pas exprims par rapport une base 100, mais par rapport
une base 1. C'est le cas de l' indice S.I.E.R
Exemple : Lindice de trafic routier en le de France, dit indice S.I.E.R . (Service
Interdpartemental d'Exploitation Routire) est gal 1 quand le trafic est fluide,
cest--dire quand il faut en moyenne 1 minute pour faire un km. Si lindice est gal
2, cela signifie que les temps de parcours sur le rseau sont deux fois plus longs que
si le trafic est fluide. Sil est gal 3, ils sont 3 fois plus longs et ainsi de suite.
(Source : www.sytadin.equipement.gouv.fr ).
2) Srie indice
Une srie indice est une srie divise par une de ses valeurs et ventuellement
multiplie par 100.
Exemple : Soit la srie S1 = {1, 3, 7, 4, 8, 6, 11, 9}
Pour transformer cette srie en sri indice, nous allons diviser chaque lment de la
srie par l'un des lments, par exemple 7 (troisime lment) et ensuite multiplier
chaque lment par 100. On obtient alors :
I1 = {14,3 ; 42,9 ; 100 ; 57,1 ; 114,3 ; 85,7 ; 157,1 ; 128,6}
62
I1 est une srie indice. Sa base "100" est le troisime lment de la srie. On voit
ainsi que le choix de la "base" est arbitraire. On aurait pu aussi diviser par le premier
lment de la srie. Mais plutt que de partir de la srie initiale S1, on peut aussi
partir de I1 et diviser chaque lment par 14,3 et multiplier par 100. On a alors
effectu un changement de base, la nouvelle base tant le premier lment de la
srie.
I2 = [I1/I1(1)]*100 = {100, 300, 700, 400, 800, 600, 1100, 900}
Les deux graphiques ci-dessous, du type "nuages de points relis" reprsentent
respectivement les sries indices I1 et I2. On remarque que le changement de base
na pas dincidence sur la forme de la courbe, mais seulement sur les valeurs
indiques par lchelle de lordonne (la position relative de ces valeurs les unes par
rapport aux autres sur l'chelle demeurant inchange).
B - Indice temporel et indice de situation

1) Indice temporel
Un indice temporel est un indice qui concerne une comparaison de valeurs dans le
temps. La base est dans ce cas la date de rfrence.
Exemple : Une action a cot 54,10 euro l'ouverture des marchs boursiers et 54
euros la fermeture. Lindice de variation du cours de laction sur la sance, donn
par (54/54,1)*100 = 99,815, est un indice temporel, la base tant lheure de
louverture du march le jour considr.
2) Indice de situation
Un indice de situation, galement appel indice spatial, est un indice qui concerne
nimporte quelle comparaison de valeurs, hormis les comparaisons temporelles.
Exemple : En 2002, le nombre de victimes daccidents de la route en France a t
de 129 par million dhabitants, alors quau Portugal il a t de 165 par million
dhabitants. Lindice de situation du nombre de victimes daccidents est gal
(165/129)*100 = 127,9, si lon prend le nombre daccidents en France comme base.
63
C - Indice lmentaire et indice synthtique

1) Indice lmentaire
Un indice lmentaire est un indice qui renseigne sur lvolution temporelle ou
situationnelle (spatiale) dune seule valeur. Il a pour dfinition :
O V0 reprsente la valeur de rfrence et Vt la valeur qui est compare la valeur

de rfrence.
Dans le cas dun indice temporel, 0 reprsente la priode rfrence (la base) et
t la priode que lon compare la priode de rfrence.
Dans le cas dun indice de situation ou indice spatial, 0 reprsente la situation de
rfrence (la base) et t la situation que lon compare la situation de rfrence.
Exemple : le Ph , ou potentiel hydrogne de leau dune piscine a t mesur
8h du matin. La mesure rvle quil est gal sa valeur de neutralit (soit 7 sur une
chelle qui varie de 1 14). Le soir 18 h, on mesure nouveau le Ph et cette
valeur est alors de 5. Lindice lmentaire de la variation du Ph entre 8 h et 18 h est
donn par :
2) Indice synthtique
Un indice synthtique est un indice qui rsume lvolution de plusieurs grandeurs :
plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits), etc.
Exemple : Le prix dun bien x est gal 1,7 euros la date 0. la date t, il est gal
2,5 euros. Le prix dun bien y est gal 3 euros la date 0 et 2 euros la date t.
Les donnes sont rsumes dans le tableau ci-aprs :
Dates
Biens
1,7
2,5
Nous pouvons calculer les indices lmentaires dvolution des prix du bien x et du
bien y. Mais nous pouvons aussi calculer lindice synthtique dvolution du prix des
deux biens. Pour calculer cet indice synthtique, nous allons faire une moyenne
arithmtique de chacun des indices lmentaires.
64
On obtient alors le tableau suivant :

Dates
Biens
x
y
Indice lmentaire
1,7
3
2,5
2
147,06
66,67
coefficients
de
Indice * Coefficient
pondration
0,5
73,53
0,5
33,33
Indice synthtique 106,86
La colonne "indices lmentaires" est obtenue en divisant les prix en t par les prix en
0 et en multipliant ce rapport par 100 :
Ixt/0 = Indice lmentaire du prix de x = (2,5/1,7)*100=147,06
Iyt/0 = Indice lmentaire du prix de y = (2/3)*100= 66,67
Pour obtenir l'indice synthtique de l'volution du prix des deux biens, on fait la
moyenne des deux indices :
It/0 = Indice synthtique = (147,06 * 0,5) + (66,67*0,5)= 73,53+33,3=106,86
Lorsque l'on fait une moyenne simple, on suppose que la contribution de chaque
bien l'volution totale est la mme. En ralit cela revient attribuer un coefficient
1/2 chaque bien. Si l'on dsigne par x le coefficient de pondration de x et par y
le coefficient de pondration de y on aura x = 0,5 et y =0,5 et donc x + y = 1.
L'indice synthtique d'volution du prix des deux biens pourra alors s'crire :
Dans le cas o x = 0,5 et y =0,5 on aura :
Cependant, nous pouvons choisir de pondrer chaque bien par des coefficients x et
y diffrents de mais toujours tels que x + y = 1. Si l'on prend par exemple x =
1/4 et y = 3/4, on obtient :
Et enfin si l'on prend x = 3/4 et y = 1/4, on obtient :
65
L'intrt du choix d'une pondration diffrente de la pondration 50/50 apparat

mieux si l'on tudie un cas particulier d'indice synthtique : l'indice d'volution du prix
d'un panier compos de plusieurs biens reprsentatifs, communment appel indice
d'volution des prix.
D - Indice d'volution de la valeur d'un panier de bien
En conomie, on s'intresse particulirement l'volution du niveau gnral des prix.
Cette question est dlicate car chacun s'intresse des prix diffrents. Chacun a son
propre panier reprsentatif de biens dont l'volution des prix le proccupe.
Malgr ces considrations qui pourraient conduire renier la notion d'indice gnral
des prix, la plupart des conomistes se rfrent l'indice des prix calcul par l'INSEE
(Institut National de la Statistique et des tudes conomiques).
1) Dfinition de la valeur d'un panier de biens
La valeur de chaque produit d'un panier de bien est le produit dun prix par une
i
quantit. Soit Vt = pti x qti la valeur du bien i, la date t o pti est le prix du bien i la
date t et qti sa quantit. Par exemple, si pti = 3 euros et que qti =2 units, on a :
S'il y a n produits dans le panier (i= 1 n), la valeur totale du panier la date t
scrira :
Exemple : soit le tableau suivant qui donne le prix unitaire en euros et les quantits
de 3 biens la date t :
Produit 1
Produit 2
Produit 3
pti
15
7
3
qti
3
9
11
La valeur du panier est alors donne par :
La valeur du panier est donc gale 141 euros.

Lvolution de la valeur du panier entre les deux dates 0 et t dpend de lvolution
du prix de chaque bien et de lvolution de la quantit de chaque bien. Il faut les donc
construire un indice synthtique qui permette dimputer lvolution de la valeur du
panier au composant prix ou la composante quantit. Trois conomistes,
66
LASPEYRES, PAASCHE et FISHER, ont propos des indices synthtiques diffrents

pour mesurer lvolution des composants prix et quantit au sein de la valeur du
panier.
Le plus frquemment utilis de nos jours est l'indice de LASPEYRES. C'est pourquoi
nous n'tudierons que cet indice dans ce cours introductif. Le lecteur intress par
les deux autres indices synthtiques peut se rfrer l'ouvrage de Bernard PY,
2007, Statistique descriptive : nouvelle mthode pour comprendre et bien russir
5me dition, Economica.
L'indice de LASPEYRES permet de mesurer deux volutions :
-- L'volution des prix des produits composant un panier de biens (indice de
LASPEYRES d'volution des prix)
-- L'volution des quantits de produits composant un panier de biens (indice de
LASPEYRES d'volution des quantits)
2) Indice de LASPEYRES
a) Indice dvolution des prix
Lindice de LASPEYRES dvolution des prix mesure lvolution, entre deux dates
0 et t, des prix des biens qui composent un panier, en prenant comme rfrence la
valeur du panier la date initiale (t = 0) et en supposant que les quantits de biens
dans le panier nont pas vari entre 0 et t.
Sa dfinition est la suivante :
On voit ainsi que si les prix ne changent pas entre 0 et t (cest--dire si pti = p0i ),
lindice synthtique de LASPEYRES des prix demeure gal 100. Pour comprendre
la signification de cet indice et voir comment on le calcule, prenons un exemple
concret.
67
Exemple : Soit le tableau ci-aprs, qui donne les prix et les quantits de deux
produits 1 et 2, aux dates 0 et t. On peut supposer que le produit 1 est un pantalon et
le produit 2 un tee shirt (voir le fichier EXCEL).
Date 0
1
Date t
1
Produit 1
p0 =15
q0 =3
pt =22
qt1=10
Produit 2
p02=7
q02=9
pt2=5
qt2=8
Dans cet exemple, le prix du bien 1 (pantalon) augmente (de 15 22 euros) tandis
que celui du bien 2 (tee shirts) baisse (de 7 5 euros).
Mais les quantits aussi ont chang. Pour diverses raisons, les gens ont achet plus
de pantalons et moins de tee-shirts. Il n'est pas ncessaire que ces quantits
voluent en sens inverse des prix car il ne s'agit pas dune relation instantane, mais
d'une volution dans le temps. Pour mesurer l'volution des prix, LASPEYRES
suppose donc que les quantits ne changent pas. Il pose la question : quelle serait
l'volution de la valeur de ce panier si les quantits n'avaient pas chang ?
Pour rpondre cette question et savoir si l'indice synthtique des prix ainsi dfini
augmente ou baisse, appliquons la formule de LASPEYRES d'volution des prix :
On enregistre donc une volution des prix du panier de bien de 2,8 % selon la
formule de LASPEYRES.
b) Indice d'volution des quantits
Lindice de LASPEYRES des quantits mesure lvolution, entre deux dates 0 et t,
des quantits des biens qui composent un panier, en prenant comme rfrence la
valeur du panier la date initiale (t=0) et en supposant que les prix des biens dans le
panier nont pas vari entre 0 et t.
Sa dfinition est la suivante :
On voit ainsi que si les quantits ne changent pas entre 0 et t (cest--dire si qti =
q0i), lindice synthtique de LASPEYRES des quantits demeure gal 100. Pour
comprendre la signification de cet indice et voir comment on le calcule, prenons un
exemple concret.
68
Exemple : reprenons le tableau prcdent, qui donne les prix et les quantits de
deux produits 1 et 2, aux dates 0 et t voir le fichier EXCEL).
Date 0
Date t
Produit 1 p01=15
q01=3
pt1=22
qt1=10
Produit 2 p02=7
q02=9
pt2=5
qt2=8
Dans cet exemple, la quantit du bien 1 augmente (de 3 10 units) tandis que
celle du bien 2 baisse (de 9 8 units). Pour savoir si l'indice synthtique des
volumes augmente ou baisse, appliquons la formule de LASPEYRES d'volution des
quantits :
On enregistre donc une volution des volumes du panier de bien de 90,74 % selon la
formule de LASPEYRES.
3) Indice des prix de l'INSEE
Lun des indices synthtiques les plus connus et les plus utiliss est lindice des prix
la consommation (IPC) publi chaque mois par lINSEE. L'IPC permet de mesurer
l'inflation, cest--dire la variation du niveau gnral des prix des biens et des
services consomms par les mnages sur le territoire franais entre deux priodes
donnes. C'est une mesure synthtique des volutions de prix qualit constante.
Pour le calculer, lINSEE applique la formule de lindice de LASPEYRES des prix
un chantillon de quelques 21000 indices lmentaires. Ces 21000 indices
lmentaires sont calculs partir de prix recueillis dans 106 agglomrations de plus
de 2000 habitants rparties sur tout le territoire. Lindice couvre plus de 1000 varits
de produits, regroupes en 161 groupes. Pour viter toute tentative de manipulation
des prix, la liste prcise de ces 1000 varits de produits reste confidentielle.
Actuellement, la priode de rfrence, ou base de lIPC, est 1998. Ci-aprs, le
camembert qui donne la structure des pondrations par grandes catgories de
consommation.
69
Source : Insee, http://www.insee.fr/fr/indicateur/indic_cons/info_ipc.htm

LIPC est publi aux environs du 13 de chaque mois et porte sur lvolution des prix
du mois prcdent. Ce chiffre, rgulirement relay par les mdias, est trs attendu
car il sert de multiples fonctions conomiques parmi lesquelles la connaissance de
linflation, la dfinition des objectifs de la politique montaire, mais aussi le
versement de pensions et de divers revenus, tels le SMIC, dont le montant est
index sur lvolution de lIPC.
Depuis le milieu de l'anne 2006, l'indice des prix a fait l'objet de critiques et de
controverses. Selon l'conomiste Florence JANY-CATRICE, "Les rflexions les plus
intressantes qui ont t dresses pour clairer ces critiques sont celles qui mettent
en avant l'ide qu'avec la fin des classes moyennes, ou plus humblement, la fin du
"Franais moyen", il devient dlicat pour les individus de s'identifier l'espace de
rfrence commun dress par l'Insee (c'est--dire le panier moyen de la mnagre)
qui, transform en coefficients budgtaires, est un lment central du calcul de
l'indice" (Le Monde, 5 Mars 2007, "L'acte de naissance du chacun-pour-soi")
Pour rpondre ces critiques l'Insee met sur son site Internet, disposition, un
simulateur qui permet instantanment de mesurer "son" indice des prix personnels. Il
est disponible ce lien : http://www.insee.fr/fr/indicateur/indic_cons/indic_sip.htm
Selon l'conomiste Florence JANY-CATRICE, c'est d'abord "la fin de l'indice des
prix comme outil collectif de revendication d'un pouvoir d'achat ngoci au sein de
relations industrielles. Attach l'Etat-providence, l'indice des prix la
consommation tait un des dispositifs majeurs de rgulation du march du travail
salari. Avec l'clatement des lieux de ngociation et plus gnralement la faiblesse
de la ngociation collective comme mode de gouvernance, les usages principaux de
l'indice des prix moyen sont en partie perdus". Et c'est ensuite "la prvalence d'une
70
logique d'Etat nolibral qui associe son mode de gouvernance une

dmultiplication des centres de calcul, et une individualisation croissante des
dispositifs valuatifs, comme l'a dcrit depuis longtemps dj Alain DESROSIERES,
de l'Insee. L'indice des prix calcul par chacun devient ici un mode de description
statistique personnalis, qui, sans avoir de statut lgal, permet chaque "agent"
d'adopter un comportement rationnel, optimal".
Finalement, voici le tableau rsum de l'volution des prix, tel que publi par l'INSEE
en Dcembre 2007 (rgulirement mis jour et disponible l'URL :
http://www.insee.fr/fr/indicateur/indic_conj/indconj_frame.asp?ind_id=29 ) (voir le
tableau ci-aprs)
71
Indice des prix de lINSEE (Dcembre 2007)
72
2 - Progressions
Soit la valeur numrique V au temps t qui s'crit respectivement V0 quand t=0, V1
quand t=1 et Vt quand t est une date quelconque.
A - Variation absolue
La variation absolue de la valeur V entre le temps 0 et le temps t s'crit :
Exemple : Soit V0 = 2 104 967 fin novembre 2006 le nombre de chmeurs (de
catgorie 1, c'est--dire ceux qui recherchent un emploi temps plein, en contrat
dure indtermine et qui n'ont pas travaill plus de 78 heures au cours du mois- les
demandeurs d'emploi peuvent en effet avoir une activit rduite tout en restant
inscrits pour viter un loignement du march du travail) en France et V1 = 1 907
100 ce nombre fin novembre 2007 (ce sont les chiffres donns par le Ministre du
travail, des relations sociales et de la solidarit : http://www.travailsolidarite.gouv.fr/etudes-recherche-statistiques-dares/statistiques/chomage/lesindicateurs-conjoncturels/les-dernieres-statistiques-mensuelles-novembre-20077187.html ).
Le taux de variation entre fin novembre 2006 et fin novembre 2007 est alors gal :
V1 -V0= 1 907 100 - 2 104 967 = - 197 867
B - Taux de croissance sur une priode
Le taux de croissance sur une priode de la valeur V entre t = 0 (date du dbut de la
priode) et t =1 (date de fin de la priode) s'crit :
Calculons le taux de croissance du nombre de chmeurs entre fin novembre 2006 et

fin novembre 2007 :
g1= (1 907 100 - 2 104 967)/ 2 104 967= - 197 867/2 104 967= - 0,094
Le taux g s'exprime frquemment en pourcentages. Dans ce cas on le multiplie par
100. On dira ainsi que le nombre de chmeurs a baiss de 9,4 % de fin novembre
2006 fin novembre 2007.
73
C - Taux de croissance sur plusieurs priodes : formule du taux moyen

1) Formule de calcul directe (en passant par l'accroissement global)
La formule du taux de croissance moyen sur plusieurs priodes est donne par
l'expression :
o g = taux de croissance moyen, V0 = grandeur la date 0, Vt = grandeur la date

t et le t qui figure dans l'exposant 1/t est le nombre de priodes sur lequel le taux
moyen est calcul. Pour voir comment on obtient cette formule, on va supposer que
le taux moyen g se substitue au taux de croissance de chaque priode g1, g2, ..., gt
dans la formule du taux de croissance sur une seule priode. Autrement dit,
supposons que g= g1, g2, ..., gt . Dans ce cas :
pour la premire priode. Cette expression peut s'crire :
Pour la priode 2, on aura de mme :
Ce qui peut scrire :
Et ainsi de suite pour les autres priodes jusqu' la priode t pour laquelle on aura :
Donc, en reformulant cette expression :
74
2) Formule indirecte (en passant par les accroissements successifs)

Le taux de croissance moyen g peut aussi s'crire sous forme d'une moyenne
gomtrique des taux de croissance de chaque priode g1, g2, g3, ..., gt. En effet, on
a:
Or :
Donc, en remplaant :
Il y a donc deux faons quivalentes de calculer le taux de croissance moyen
La formule directe, en passant par l'accroissement global de V0 Vt :
La formule indirecte, en passant par les accroissements successifs de V0

V1, de V1 V2, jusqu' Vt :
75
3) Exemple numrique
Soit une entreprise dont le chiffre d'affaires en euros de 2001 2007 est donn par
le tableau ci-dessous : (Fichier EXCEL)
Annes
2003
V0
Chiffre
d'affaires
210000
2004
V1
280000
2005
V2
330000
2006
V3
450000
2007
V4
500000
a) Calcul du taux de croissance moyen par la formule directe (en passant par
l'accroissement global) :
Ici, on pose par exemple V0 = 210000, V1 = 280000, V2= 330000, V3= 450000 et V4 =
500000.
(Fichier EXCEL)
Soit un taux de croissance moyen gal 24,2%.
b) Calcul du taux de croissance moyen par la formule indirecte (en passant par
les accroissements successifs) :
Calculons le taux de croissance annuel du CA entre 2003 et 2004, puis entre 2004 et
2005, 2005-06 et enfin 2006-07. Nous allons ainsi avoir 4 taux de croissance g1, g2,
g3 et g4. Le tableau ci-dessous rsume les calculs :
gi
1+gi
2003- 04
g1
0,33333333 1,33333333
2004- 05
g2
0,17857143 1,17857143
2005- 06
g3
0,36363636 1,36363636
2006- 07
g4
0,11111111 1,11111111
(Fichier EXCEL)
76
Dans le tableau ci-dessus, chaque taux de croissance a t calcul conformment

la formule :
Ainsi, pour la premire priode, 2003-04, on aura :
Et ainsi de suite pour g2 (2004-05), g3 (2005-06) et g4 (2006-07).

La dernire colonne du tableau donne (1+g1), (1+g2), (1+g3) et (1+g4). Effectuons le
produit :
(1+g1) x (1+g2) x (1+g3) x (1+g4) = 1,333 x 1,17857 x 1,36363 x 1,11111 =
2,38095238
Puis levons ce produit la puissance 1/4 = 0,25 :

[(1+g1) x (1+g2) x (1+g3) x (1+g4)](1/4) = (2,38095238) (1/4) = 1,242189
Il nous reste calculer g :
1+g =1,242189 g = 0,242189
Soit un taux de croissance annuel moyen en pourcentage de 24,2 % (Fichier
EXCEL).
4) Lien avec la moyenne gomtrique
Nous avons ainsi calcul la moyenne gomtrique simple des quatre valeurs (1+g1),
(1+g2), (1+g3) et (1+g4). En effet, nous avons appliqu la formule :
Cette formule est un cas particulier pour n=4 de la formule plus gnrale de la
moyenne gomtrique simple d'une srie dfinie par les termes {(1+g1), (1+g2),
(1+g3), ......., (1+gn)} :
77
D - Taux de croissance du produit de 2 valeurs

En conomie, on raisonne frquemment sur des valeurs qui sont en fait le produit
d'un prix et d'une quantit. C'est le cas par exemple de la recette totale, dont la
dfinition est :
p est le prix d'un produit quelconque et q sa quantit. Dans ce cas, si le prix varie et
que la quantit varie aussi, on peut souhaiter calculer le taux de croissance du
produit des deux, c'est--dire le taux de croissance de la recette totale.
Soient le prix pt et la quantit qt. L'volution du prix pt et de la quantit qt par rapport
la priode prcdente peut s'exprimer ainsi :
pt =(1+gp)pt-1
qt =(1+gq)qt-1
o gp et gq sont les taux de croissance respectivement du prix et de la quantit entre
t -1 et t.
Partant de ces deux expressions, la recette totale en t s'crit alors :
RTt= pt qt =(1 + gp)(1 + gq)pt-1 qt-1 = (1 + gp)(1 + gq)RTt-1
On en dduit son taux de croissance entre t-1 et t :
gRT=(RTt/RTt-1) -1=(1 + gp)(1 + gq)-1
Exemple : Un commerant augmente le prix d'un produit de 1% (gp = 0,01). la
suite de cette augmentation, la quantit vendue baisse de 4% (gq=-0,04). Pour
connatre l'volution de la recette totale, on va calculer son taux de croissance
partir de la formule prcdente:
gRT = (RTt / RTt-1) -1=(1 + gp)(1 + gq) -1
gRT = (1 + 0,01)(1 - 0,04) - 1 =(1,01 x 0,96) - 1 = 0,9696 - 1 = -0,0304
La recette totale a diminu de 3,04% la suite de la hausse du prix de 1% et de la
baisse de la quantit de 4%.
78
E - Taux de croissance du rapport de 2 valeurs

De la mme faon que l'on a parfois besoin de connatre le taux de croissance du
produit de 2 grandeurs, il arrive aussi que l'on ait besoin de connatre le taux de
croissance du rapport de deux grandeurs. C'est le cas par exemple de la productivit
apparente du travail, dont la dfinition est :
o Y = production exprime en euros et L = nombre d'heures travailles. Dans ce

cas, si la production varie et que le nombre d'heures de travail varie aussi, on peut
calculer le taux de croissance du rapport des deux, c'est--dire le taux de croissance
de la productivit apparente du travail.
Soient la production Yt et le travail Lt. Leur volution par rapport la priode
prcdente peut s'exprimer ainsi :
Yt = (1+gY)Yt-1
Lt = (1+gL)Lt-1
o gY et gL sont les taux de croissance respectivement de la production et du travail
entre t -1 et t.
Partant de ces deux expressions, la productivit la date t s'crit alors :
On en dduit son taux de croissance entre t-1 et t :
Exemple : La production augmente de 10% et le nombre d'heures travailles

augmente de 4%. Quelle est l'augmentation de la productivit ?
La productivit a augment de 5,769%.
79
F - Complments
1) Augmentations (diminutions) successives
Lorsque qu'une grandeur crot successivement des taux diffrents chaque
priode et que l'on veut connatre la valeur de la grandeur au terme des
augmentations ou diminutions successives on applique la formule suivante :
Exemple : Soit V0=10 et g1=10%, g2=12%, g3=-5%. Dterminer V3.

On a :
Donc :
On peut faire la vrification pas pas :

V0=10
V1 = V0(1+g1)= 10(1+0,1)=11
V2=V1(1+g2)=11(1+0,12)=12,32
V3=V2(1+g3)=12,32(1-0,05)=11,704
2) Augmentation en pourcentage suivie d'une diminution identique (ou
diminution suivie d'une augmentation)
Lorsque l'on applique une grandeur une augmentation d'un certain pourcentage,
par exemple 10%, et qu'ensuite on applique au rsultat un pourcentage identique de
diminution, par exemple 10%, on ne retrouve pas le chiffre de dpart.
Exemple : si l'on part de V0 =10 et que l'on applique une augmentation de 10%, on
obtient V1=11. Si l'on applique une diminution de 10% V1, on obtient V2=11 x (10,1)=11 x 0 ,9 = 9,9, parce que 10% de 11 = 1,1 alors que 10% de 10 =1. On ajoute
donc 1 10, puis on retranche 1,1 11. On se retrouve donc avec 9,9.
De mme, si on applique une grandeur une diminution d'un certain pourcentage,
par exemple 10%, et qu'ensuite on applique au rsultat un pourcentage identique
d'augmentation, par exemple 10%, on ne retrouve pas le chiffre de dpart :
80
Exemple : si l'on part de V0=10 et que l'on applique une diminution de 10%, on
obtient V1= 9. Si l'on applique une augmentation de 10% V1, on obtient
V2=9(1+0,1)=9 x 1,1 = 9,9.
3) Temps de doublement d'une grandeur
Le temps de doublement d'une grandeur qui crot un taux moyen constant se
calcule en appliquant la formule :
Exemple : En combien de temps un capital plac 5% l'an double-t-il ?

On a la formule :
Il faut donc 14 ans plus 0,2 x 12 mois = 2,4 mois pour qu'un capital plac 5% l'an
double. C'est--dire 14 ans, 2 mois et 0,4 x 30 jours = 12 jours. Soit 14 ans, 2 mois et
12 jours.
4) Exemple d'utilisation en conomie
Les taux de croissance, et en particulier les taux de croissance annuels moyens,
sont trs utiliss en conomie. On les reprsente parfois sous la forme de
graphiques, comme dans l'exemple ci-dessous, tir du site Internet de l'organisation
mondiale du commerce, qui donne les taux de croissance du commerce mondial et
de la production, par priodes. Le graphique illustre un point qui est frquemment
soulign : le commerce mondial est plus dynamique que la production. Il a un taux
de croissance annuel moyen plus rapide.
Voir le fichier EXCEL complet

Source : OMC,
http://www.wto.org/french/res_f/statis_f/its2005_f/its05_longterm_f.htm
81
Chapitre 5
Diagrammes et graphiques
1 Utilit des graphiques
A Qualits dun bon graphique
B Quartet dANSCOMBE
2 Les chelles graphiques
A Echelles numriques
B Echelle catgorielles
1) catgories numriques
2) catgories nominales
C Echelles ordinales
D Echelles verticales doubles
E Echelles logarithmiques
1) Dfinition
2) Calcul pratique du log dcimal dun nombre
3) Rappels sur le log dcimal
4) Exemples
a) Lchelle log pour mieux voir les diffrences de progression
b) Lchelle log linarise les volutions taux constant
3 Diagrammes
A - Pictogramme
B - Cartogramme
C Diagramme de GANTT
4 Graphiques usuels
A - Graphique en barres
1) Barres verticales
a) Simples
b) Multiples
c) Trononnes
2) Barres horizontales
a) Simples
b) Multiples
c) Trononnes
B Courbes et aires
1) Courbe simple
2) Courbes multiples
3) Aires dlimites par des courbes
C - Graphique de dispersion ou nuage de points
D - Secteurs
1) Secteurs 360 degrs
3) Mthode de construction
a) 360 degrs
b) 180 degrs
4) Anneaux
a) Simples
b) concentriques
82
5 Autres graphiques
A Graphiques en radar et toiles daraigne
1) Radar
2) Toile daraigne
B Graphique bulles
C Graphiques boursiers
D Graphique de TUKEY
E Graphiques panachs
1) Secteur complt par une barre trononne
2) Graphique de PARETO
a) De la loi de Pareto au graphique de Pareto
b) Dfinition, construction, exemple et interprtation
c) Interprtation
F Histogramme
1) amplitudes de classes identiques
a) Histogramme deffectifs
b) Histogramme de frquences
2) Amplitudes de classes diffrentes
G Pyramide des ges
H Graphique en cascade
I Graphique en trois dimensions
1) Graphique en 2D avec ajout de profondeur
2) Graphique en barres avec 3 dimensions relles
83
1 Utilit des graphiques

A Qualits dun bon graphique
Selon Edward TUFTE8, un des meilleurs spcialistes contemporains des graphiques,
lexcellence en matire de graphiques statistiques consiste communiquer avec
clart, prcision et efficacit des ides complexes. Ensuite, il numre neuf
caractristiques dun excellent graphique .
Ainsi, un excellent graphique devrait-il avoir tout ou partie des qualits suivantes :
Montrer les donnes.

Attirer lattention du lecteur ou de lauditoire sur lide essentielle que le
graphique vise mettre en vidence plutt que sur les qualits esthtiques du
graphique lui-mme.
Eviter de dformer le message contenu dans les chiffres
Prsenter un grand nombre de chiffres dans un espace restreint
Donner de la cohrence de vastes ensembles de donnes
Faciliter les comparaisons visuelles entre diffrents chiffres
Rvler les chiffres diffrents niveaux de dtails, allant de la vision
densemble une structure plus fine.
Servir un objectif clair : dcrire des donnes, explorer des donnes, ou
simplement les tabuler ou leur donner un aspect esthtique.
Etre troitement corrl avec la description purement statistique ou verbale
des donnes.
B Quartet dANSCOMBE
Les graphiques rvlent des informations sur la forme des sries que les
tableaux et les statistiques rsumes ne peuvent pas toujours montrer. La meilleure
illustration en est le quartet dANSCOMBE.
Dans le tableau ci-aprs les quatre 4 paires de sries diffrentes de 11 chiffres ont
toutes les mmes statistiques rsumes. La moyenne des X est gale 9 et leur
cart-type est 1,94 pour les 4 sries de X. La moyenne des Y est gale 7,5 et leur
cart-type 1,94 pour les 4 sries de Y. Sans les quatre graphiques ci-aprs, on
pourrait dduire de faon errone que comme les 4 paires de sries ont la mme
moyenne et la mme dispersion (en outre, elles ont le mme coefficient de
corrlation et la mme droite de rgression Y = 3 + 0,5 X [sur le calcul de la droite de
rgression voir le chapitre 6]), elles sont trs semblables. Or, comme le montrent les
4 graphiques dits nuages de points qui leurs sont associes, elles ont des formes
trs diffrentes. Et ceci confirme ladage qui dit que un beau graphique vaut mieux
quun long discours !
TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics Press. Voir le site
internet de Edward TUFTE, page 13.
84
Quartet dANSCOMBE
Source des chiffres : F.J. ANSCOMBE, Graphs in Statistical Analysis, American Statistician, 27 fvrier 1973, pages 17-21.
2 Les chelles graphiques

Beaucoup de graphiques deux dimensions se prsentent sous la forme suivante
dite dun systme de coordonnes cartsiennes :
Ce qui nous intresse dans un premier temps ce sont les diffrentes sortes
dchelles propres ce type de reprsentations graphiques.
A Echelles numriques
Une chelle numrique est une chelle qui mesure des valeurs qui peuvent varier
de moins linfini plus linfini. Ci-aprs, un graphique avec une chelle numrique sur
laxe horizontal et une chelle numrique sur laxe vertical.
Sur laxe horizontal, lunit de mesure numrique est lanne. Les valeurs
schelonnent entre 1995 et 2007. Si lon doit dessiner ce graphique la main
sur une feuille de papier, on prendra soin de dfinir la distance que lon
souhaite consacrer une anne (par exemple : 1 an = 1 cm). Si cest un
logiciel qui ralise le graphique, cette opration devient inutile car les
dimensions du graphique seront choisies par dfaut (il est possible cependant
de les modifier son gr en redimensionnant le graphique).
Sur laxe vertical, lunit de mesure numrique est le dficit commercial dun
pays, mesur en millions de dollars. Il varie de -150 millions + 400 millions.
Si lon doit dessiner ce graphique la main sur une feuille de papier, on

prendra soin de dfinir la distance que lon souhaite consacrer 100 millions
de dollars (par exemple : 100 millions de dollars = 1 cm). Si cest un logiciel
qui ralise le graphique, cette opration devient inutile car les dimensions du
graphiques seront choisies par dfaut9.
Un exemple dchelles numriques sur les deux axes
Remarque : il est important de toujours bien stipuler lunit dans laquelle lchelle est
mesure (ici lunit est lanne pour laxe horizontal et les millions de dollars pour
laxe horizontal)
B Echelle catgorielles
Une chelle catgorielle est une chelle sur laquelle sont portes des catgories. Il
peut sagir :
De catgories numriques (chelle quantitative)

De catgories non numriques dites nominales (chelle qualitative)
1) Catgories numriques
Ci-aprs un graphique o lon a regroup les chmeurs dune ville par classes
dges :
Il est possible cependant de les modifier son gr en utilisant la poigne de redimensionnement

tout en maintenant enfonc la touche shift afin de garantir la proportionnalit de la transformation.
Ce type de redimensionnement est quasi universel dans les diffrents logiciels de calcul ou de dessin.
87
Sur laxe horizontal figurent les catgories dges. Cest une chelle de
catgories ou catgorielle. Lunit est lge. On remarque aussi que les
classes dge ont la mme amplitude cest--dire que toutes les catgories
dges ont le mme nombre dannes. Il existe aussi des chelles de
catgories damplitude diffrentes.
Sur laxe vertical figurent leffectif des chmeurs qui entrent dans
chaque catgorie. Cest une chelle numrique simple. Lunit est le nombre
des chmeurs.
Exemple dutilisation dune chelle

avec catgories numriques sur laxe horizontal
2) Catgories nominales
Ci-aprs un graphique o lon a regroup les 35 pays du tableau 1 selon la monnaie
utilise. On a cr trois catgories :
La catgorie des pays qui font partie de la zone Euro en 2008
La catgorie des pays de lUE 27 qui nen font pas partie et utilisent de ce fait
dautres monnaies
La catgorie des pays hors UE qui sont reprsents dans le tableau 1.
Lchelle de laxe vertical est donc une chelle nominale. On a plac lchelle
nominale sur laxe vertical car ainsi il est plus commode dcrire ce que signifie
chaque barre. Lchelle de laxe horizontal, quant--elle, est numrique, elle
mesure le nombre de pays appartenant chaque catgorie.
88
Exemple dutilisation dune chelle

avec catgories nominales sur laxe vertical
C Echelles ordinales
Une chelle ordinale est une chelle sur laquelle un ordonnancement des modalits
est concevable. Il peut sagir :
Dun classement de prfrences. Cest souvent le cas dans les enqutes et

les sondages dopinion.
Dun classement de rang. On peut par exemple demander des

investisseurs de classer une liste de pays du plus attractif au moins attractif.
Ce classement ne doit pas tre confondu avec une chelle numrique simple.
En effet, bien quil sagisse de chiffres, lcart entre les chiffres na pas de
signification.
Le tableau et le graphique ci-aprs reproduisent des donnes fournies par le site

internet de la Banque mondiale intitul Doing Business en 2008 10). La Banque
mondiale a class 178 pays, parmi lesquels 33 des 35 pays du tableau 1 (Chypre et
Malte ne figurent pas dans le classement de la Banque Mondiale), selon divers
critres qui tentent dapprhender lattractivit des pays pour les investisseurs
potentiels. Le fait que le classement soit reprsent sous forme numrique ne doit
pas laisser penser cependant quil sagit dune chelle numrique. En effet, ces
chiffres ne reprsentent que des rangs.
10
Voir http://www.doingbusiness.org/economyrankings/ (Le classement qui figure dans cette version

du cours a t relev le 15/12/2007 et peut donc tre diffrent de celui qui figure sur le site internet
donn en rfrence).
89
Classement des pays du tableau 1 selon le critre de la Banque Mondiale

Doing Business - Anne 2008
Source : http://www.doingbusiness.org/economyrankings/ (classement relev le 15

dcembre 2007)
90
Exemple dchelles ordinales

(classement de pays sur laxe vertical et sur laxe horizontal)
Source : http://www.doingbusiness.org/economyrankings/ (classement relev le 15

dcembre 2007)
Lchelle horizontale du graphique ci-dessus nest quapparemment numrique. En

fait elle donne le classement du pays. Il sagit donc bien dune chelle ordinale car
lcart qui spare les pays nest pas quantifiable. Par exemple, les Etats-Unis sont
classs au 3me rang et lInde est classe au 120me rang. Si lon fait la diffrence
91
120-3 = 117, on ne peut pas en conclure que les Etats-Unis sont 117 fois plus
attractifs que lInde du point de vue des investissements internationaux. Il ne sagit
pas dune chelle rellement numrique, mais dune chelle spciale, dite
ordinale .
Lchelle verticale du graphique ci-dessus est galement ordinale : les pays y sont
classs par ordre dcroissant, du moins attractif au plus attractif.
D Echelles verticales doubles
Lorsque que lon veut reprsenter les donnes relatives deux variables ou deux
caractres, on a parfois recours une chelle double pour faciliter la lecture.
Lexemple suivant va permettre dillustrer ce point. Le tableau ci-dessous montre
deux sries mensuelles. La premire indique le temps pass par une personne sur
Internet chaque mois (en heures) et la seconde srie indique le total de la somme
dpense sur diffrents sites marchands11.
Temps pass sur Internet (heures/mois)
et sommes dpenses sur diffrents sites marchands (euros)
Source : Matthew McDONALD, Creating a Combination Chart in EXCEL 2007 , Matthew

McDONALD, video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc
11
Exemple inspir de Creating a Combination Chart in EXCEL 2007 , par Matthew McDONALD,
video Youtube : http://fr.youtube.com/watch?v=WW2IDE4rPCc
92
Exemple de lutilit des chelles verticales doubles
Imaginons que lon souhaite savoir sil existe une covariation entre ces deux sries.
Une bonne faon de procder est de les mettre sous forme dun graphique.
Cependant, comme les deux chelles sont diffrentes, il faut rserver par exemple
lchelle verticale de gauche pour le temps pass sur internet (qui est exprim en
heures) et lchelle verticale de droite pour les sommes dpenses (qui sont
exprimes en euros). En effet, si lon utilise seulement lchelle verticale de gauche
pour tracer les deux sries, la plus petite (celle des heures passes sur internet) sera
crase par la plus grande (celle des euros dpenss) et le graphique ne rvlera
rien du tout. Inversement, si lon rserve une chelle pour chaque srie, on obtient
alors un graphique beaucoup plus lisible qui semble bel et bien rvler que plus cet
individu a pass de temps sur Internet et plus il a dpens dargent (ceci nest quun
constat de covariation et non une relation de causalit, bien sr).
E Echelles logarithmiques
1) Dfinition
Lchelle logarithmique est une chelle qui mesure le logarithme dcimal des
valeurs de la variable. C'est un excellent moyen de mettre en vidence une ide ou
un rsultat grce aux proprits des logarithmes dcimaux.
Avant de prsenter le mode de construction d'un graphique chelle semilogarithmique, il convient cependant de faire un rappel sur les logarithmes dcimaux.
ce sujet, sur un plan pratique, il est plus important de savoir obtenir un logarithme
dcimal avec une machine calculer, que de comprendre le pourquoi et le comment
des logarithmes dcimaux, ce qui est certainement passionnant mais relve d'un
cours de mathmatiques.
Nous allons donc commencer par voir comment on calcule un logarithme dcimal
avec une machine calculer standard (ci-aprs la "SC-05 Plus") avant de faire un
bref rappel sur les logarithmes dcimaux.
2 ) Calcul pratique du log dcimal d'un nombre
Il suffit d'appuyer sur la touche "log" d'une machine calculer pour obtenir le log d'un
nombre. Par exemple, l'image ci-dessous illustre le calcul du log dcimal de 1000.
L'cran indique que le log dcimal de 1000 est gal 3. Pour obtenir ce rsultat, on
procde ainsi :
1 - Allumer la machine
2 - appuyer sur la touche "log" entoure en rouge (attention de ne pas appuyer sur
la touche "ln" qui est entoure en bleu juste ct et qui sert calculer les
logarithmes naturels)
3 - Entrer le chiffre 1000
4 - Appuyer sur la touche "="
5 - Le rsultat (ici le log de 1000 c'est 3) apparat sur l'cran de la calculatrice.
3) Rappels sur le logarithme dcimal

Le logarithme dcimal d'un nombre est la puissance laquelle il faut lever 10 pour
obtenir ce nombre. Appliquons cette dfinition quelques nombres. Quel est, par
exemple, le logarithme dcimal de 1 ? Autrement dit, quelle puissance faut-il
lever 10 pour obtenir 1 ?
La puissance laquelle il faut lever 10 pour obtenir 1 est 0. Par consquent, le
logarithme dcimal de 1 est gal zro:
100=1
On crira donc :
log 1 = 0
Quel est le logarithme dcimal de 100 ? C'est la puissance laquelle il faut lever 10
pour obtenir 100 :
102=100, parce qu'il faut lever 10 la puissance 2 pour obtenir 100. Donc le
logarithme dcimal de 100 est gal 2. On crira par consquent :
log 100 =2
Inversement, si l'on demande "De quel chiffre 3 est-il le logarithme dcimal ?", on
fera le raisonnement inverse. Sachant que 103=1000, la rponse est donc :
log 3 = 1000
Autrement dit, le logarithme dcimal de 1000 est gal 3.
95
4 ) Exemples
a ) Lchelle logarithmique permet de mieux voir les diffrences de
progression
On dcide de comparer le nombre de contrats conclus par deux vendeurs en 2004 et
2005 :
Vendeur 1
Vendeur 2
2004
300
100
2005
600
400
Progression
multipli par 2
multipli par 4
Le tableau montre que le nombre de contrats conclus par le vendeur 1 a t multipli

par 2 et que le nombre de contrats conclus par le vendeur 2 a t multipli par 4.
Sur un graphique ordinaire ( gauche ci-dessous), les deux progressions sont
parallles. En revanche, sur un graphique avec une ordonne logarithmique, on voit
clairement que la progression du vendeur 2 est plus rapide que celle du vendeur 1.
Sur le graphique de droite, l'chelle de l'ordonne est logarithmique, mais les chiffres
indiqus (les nombres de contrats) sont les mmes que sur le graphique de droite.
Cependant, au lieu d'utiliser les valeurs elles-mmes, le trac utilise le logarithme
dcimal des valeurs, comme indiqu dans le tableau ci-dessous :
Vendeur 1
Vendeur 2
2004
log(300)=2,48
log(100)=2
2005
log(600)=2,78
log(400)=2,6
96
b) Lchelle log linarise les volutions taux constant

On souhaite faire un graphique indiquant l'volution du chiffre d'affaires d'une
entreprise dont la croissance est trs rapide :
Annes
2001
2002
2003
2004
2005
CA (en euros)
100
1000
10000
100000
1000000
Comme on peut le voir sur le graphique ci-aprs les valeurs pour 2001, 2002 et 2003
sont crases par rapport celles de 2004 et 2005 :
Graphique avec chelle des ordonnes ordinaires (sans transformation
logarithmique)
Fichier EXCEL
97
Appliquons une transformation logarithmique aux valeurs de l'ordonne :

Annes
2001
2002
2003
2004
2005
CA (en euros)
100
1000
10000
100000
1000000
log(100)=2
log(1000)=3
log(10000)=4
log(100000)=5
log(1000000)=6
On obtient alors le graphique suivant o la progression devient linaire :

Graphique semi logarithmique (l'chelle des abscisses est logarithmique)
Fichier EXCEL
5 Echelle doublement logarithmique
il existe aussi des graphiques avec chelle logarithmique sur les deux axes.
Autrement dit, non seulement l'chelle des ordonnes est logarithmique, mais
galement l'chelle des abscisses. C'est assez peu frquent en conomie. L'exemple
donn ci-aprs est celui de la relation entre le temps de gnration (priode allant de
la naissance l'ge moyen de reproduction) et la longueur de divers tres vivants.
On voit nettement sur ce graphique que le temps de gnration crot avec la
longueur. Mais on a ici un cas trs intressant o l'chelle de temps varie entre
moins d'une heure et 100 ans et o l'chelle de longueur varie de l'infiniment petit
98
100 m. Pour bien contraster ce graphique avec le graphique semi-logarithmique

tudi prcdemment, on parle de graphique chelle doublement
logarithmique.
Exemple d'un graphique chelle doublement logarithmique
Source : John Tyler BONNER, Size and Cycle : An Essay on the Structure of Biology (Princeton,
1965), p.17. Reproduit dans
Edward R. TUFTE, The Visual Display of Quantitative Information
(Graphics Press LLC, 2004), p. 94
99
3 Diagrammes
Un diagramme est une reprsentation visuelle simplifie et structure de concepts,
dides, de constructions, des relations, de l'anatomie et aussi (et cest en cela quil
nous intresse ici) de donnes statistiques. Il est employ dans tous les aspects
des activits humaines pour visualiser et clarifier. Un diagramme permet aussi de
dcrire des phnomnes, de mettre en vidence des corrlations en certains
facteurs ou de reprsenter des parties dun ensemble..
Un graphique est aussi une reprsentation visuelle simplifie, mais il reprsente
principalement, voire exclusivement des chiffres.
Il existe donc une relation entre diagramme et graphique, que nous pouvons
dailleurs illustrer par le diagramme de VENN ci-aprs (lequel est un diagramme non
statistique !).
100
A Pictogramme
Le pictogramme est un dessin gnralement en couleur, conu par un graphiste,
qui essaie de traduire non seulement des donnes quantitatives, mais galement
des informations dordre commercial ou esthtique. Dans lexemple suivant, 4
figurines qui reprsentent des bouteilles deau et la corpulence de chaque
bouteille correspond aux ventes de la marque fictive eau de qualit . En ralit, il
sagit au dpart dun graphique en colonne qui a t redessin pour remplacer les
colonnes par des bouteilles. Ce qui compte ici, cest la hauteur de la bouteille. La
plus haute et la plus grosse montre que les ventes ont t particulirement
importantes au troisime semestre.
Remarquons quil sagit dun pictogramme qui traduit principalement une information
statistique. Certains pictogrammes ne traduisent que des informations diverses, non
statistiques.
Un pictogramme qui reprsente des donnes chiffres
101
B - Cartogramme
Les cartogrammes sont dsormais trs frquemment utiliss pour reprsenter
toutes sortes dinformations, de la mtorologie, aux rsultats lectoraux, en
passant naturellement par des informations conomiques.
Un cartogramme statistique : De la CEE 6 lUE 27
Source : http://upload.wikimedia.org/wikipedia/commons/c/c4/European_union_past_enlargements_map_fr.png
102
Le cartogramme ci-aprs montre lvolution de la construction europenne par date

dadhsion. On a dabord :
En 1956 : les 6 pays fondateurs (France, Allemagne, Italie, Pays-Bas, Belgique et
Luxembourg)
En 1973 : Le premier largissement avec le Royaume-Uni, lIrlande et le Danemark
En 1981 : La Grce
En 1986 : LEspagne et le Portugal
EN 1975 : LAutriche, La Finlande et la Sude
En 2004 : 8 pays de lEst (Estonie, Lettonie, Lituanie, Rpublique Tchque,
Slovaquie, Pologne, Slovnie, Hongrie) plus Malte et Chypre
En 2007 : La Bulgarie et la Roumanie
C - Diagramme de GANTT
Le diagramme de GANTT, du nom de lingnieur amricain Henry Laurence GANTT
(1861-1919) qui la popularis, est un outil remarquable de gestion de projets. Il sert
visualiser dans le temps les diffrentes tapes qui composent un projet. Il existe
des logiciels spcifiques qui permettent de produire ce diagramme, mais il est aussi
possible dutiliser EXCEL 2007 pour le tracer12.
Nous allons partir dun exemple simple sous forme dun tableau dcrivant la dure
des diffrentes tapes de la ralisation dun mmoire et nous transformerons ce
tableau en diagramme de Gantt. Ci-aprs, le tableau qui va servir faire le
diagramme :
Tableau chronologique des tches effectuer pour raliser un mmoire
12
Voir le tutorial vido http://fr.youtube.com/watch?v=_JfCMJ_s_Fk
103
Sur ce tableau figurent successivement :
Dans la premire colonne, lnumration des tches

Dans la seconde colonne la date de dbut de chaque tche
Dans la troisime colonne la dure de chaque tape en jours
Dans la dernire colonne, la date dachvement de chaque tche
Voici maintenant le diagramme tel quil apparat une fois termin.

Diagramme de GANTT pour la ralisation dun mmoire
Grce ce diagramme, nous pouvons :
Visualiser la dure totale du projet

Apprcier la dure de chaque tape et ventuellement raffecter le temps
total entre les diffrentes tches
Vrifier si les chevauchements sont ralistes (ici pour simplifier- il ny a pas
de chevauchement)
Ordonner les tches dans un ordre chronologique
4 Graphiques usuels
lre du numrique et des tlcommunications, les graphiques sont partout. Ces
reprsentations visuelles colores, aux formes trs diverses sont plus agrables
regarder que les tableaux et permettent souvent de mieux faire passer un message
au premier coup dil.
Il est galement trs facile, grce aux logiciels tels que EXCEL 2007 de Microsoft de
donner une profondeur aux diffrents graphiques, afin quils apparaissent comme
104
ayant trois dimensions (Il est aussi possible dans EXCEL 2007, de reprsenter
rellement 3 dimensions pour certains graphiques en barres ou pour les graphiques
dits de surface ).
Il ne faut cependant pas abuser de la possibilit qui nous est donne aujourdhui de
raliser des graphiques complexes. Car cette complexit peut finir par rendre le
graphique difficilement comprhensible. Mieux vaut sen tenir aux principales
reprsentations graphiques connues et apprcies de tous : diagrammes en
colonne, diagramme en barres, lignes, camemberts , etc.
Il existe une grande quantit de graphiques, tous plus imaginatifs les uns que les
autres. Ainsi, titre dexemple, la figure ci-aprs montre les 73 possibilits de
graphiques simples, regroupes en 11 catgories, qui peuvent tre raliss avec le
logiciel EXCEL 2007. Mais en ralit, il est possible den faire beaucoup plus, soit en
combinant ces formes de base, soit en utilisant certaines astuces.
Les 73 reprsentations graphiques de base dans EXCEL 2007, regroupes
dans 11 catgories communes
De plus, grce des logiciels tels que FLASH dAdobe, il est possible de raliser des
graphiques anims, ou des graphiques interactifs (pouvant par exemple tre modifis
par lutilisateur).
105
Les quatre formes graphiques les plus frquemment utilises sont :
Barres verticales ou horizontales

Courbes ou aires dlimites par des courbes
Nuages de points
Secteurs ou camemberts
A Graphiques en barres
On distingue les graphiques en barres verticales et les graphiques en barres
horizontales. Mais pour chacune de ces deux catgories, il existe 3 varits : simple,
multiples et trononne. Sagissant des barres trononnes , elles se subdivisent
en barres deffectifs ou en barres de pourcentages empils 100%. Le Tableau ciaprs donne une reprsentation schmatique de ces 8 varits.
Pour crer les 8 graphiques les donnes ci-dessous ont t utilises :
.
Il sagit du chiffre daffaires hypothtique quune entreprise a ralis en 2007
249 327 045 euros) rpartis par ses 4 vendeurs et dans les trois villes o se trouvent
ses clients. Les 8 graphiques ci-aprs sont juste les 8 principales faons de
reprsenter ces donnes (ou une partie dentre elles). Chaque graphique en barres
fait ressortir ces chiffres dune manire diffrente et pourra donc tre prfr selon
les circonstances dans lesquelles le graphique est utilis.
1) Barres verticales
La premire ligne du tableau ci-aprs intitul les 8 principales varits de
graphiques en barres reprsente les 4 principales faons de disposer les donnes
du tableau sous forme de barres verticales (ou colonnes). Comme laxe horizontal
reprsente des catgories nominales, la largeur des colonnes na pas dimportance,
pourvu quelle soit identique pour toutes les colonnes. Cette largeur peut varier dun
minimum qui serait un simple trait vertical jusqu un maximum qui serait reprsent
par le fait que toutes les colonnes seraient colles .
a) Simple
Le type barres verticales simples est reprsent par le graphique numrot 1. Il
permet de mettre en vidence le chiffre daffaire ralis par chaque vendeur. On voit
du premier coup dil combien chaque vendeur ralis et quel est celui qui a
ralis le plus gros chiffre daffaires. Les chiffres du graphique correspondent la
dernire ligne du tableau.
106
Les 8 principales varits de graphiques en barres
b) Multiples
Le type barres verticales multiples est reprsent par le graphique numrot 3. Il
permet de mettre en vidence le chiffre daffaire ralis par chaque vendeur dans
chaque ville. Pour chacune des villes (Marseille, Paris, Lyon) on peut voir combien
chaque vendeur ralis. Ce graphique permet de voir quel est le vendeur le plus
performant dans chaque ville.
c) trononnes
Le type barres verticales trononne est reprsent par les graphiques
numrots 5 et 7.
Le graphique numrot 5 montre les valeurs absolues : il permet de voir

dune part quelle est la ville qui a produit le plus gros chiffre daffaires. Mais il
permet aussi de voir quelle est la contribution de chaque vendeur dans le
chiffre daffaires ralis dans chaque ville.
Le graphique numrot 7 montre les pourcentages : il seulement de voir la
contribution de chaque vendeur dans le CA de chaque ville. Et comme chaque
barre verticale correspond 100%, on peut comparer la performance de
chaque vendeur dans chaque ville. On voit par exemple que la contribution de
Leila (rouge) est plus forte Lyon qu Marseille. Inversement, la contribution
de Ahmed est plus forte Marseille qu Paris.
2) Barres horizontales
La deuxime ligne du tableau ci-avant intitul les 8 principales varits de
graphiques en barres reprsentent les 4 principales faons de disposer les
donnes du tableau sous forme de barres horizontales. Comme laxe horizontal
reprsente des catgories nominales, la largeur des barres na pas dimportance,
pourvu quelle soit identique pour toutes les barres. Cette largeur peut varier dun
minimum qui serait un simple trait vertical jusqu un maximum qui serait reprsent
par le fait que toutes les colonnes seraient colles .
a) Simple
Le type barres horizontales simples est reprsent par le graphique numrot 2.
Il est lquivalent en barres horizontales du graphique numrot 1
b) Multiples
Le type barres horizontales multiples est reprsent par le graphique numrot 4.
Il est lquivalent en barres horizontales du graphique numrot 3.
c) trononnes
Le type barres horizontales trononnes est reprsent par les graphiques
numrots 6 et 8. Il est lquivalent en barres horizontales des graphiques numrots
5 et 7.
B Courbes et aires
La courbe est gnralement le graphique le plus appropri pour montrer des
volutions dans le temps. Lorsque lon veut montrer lvolution de plusieurs sries
dans le temps on utilisera galement ce type de prsentation. Parfois, on veut aussi
montrer lvolution de diffrentes composantes dun ensemble dans le temps. Dans
ce cas, on peut utiliser des aires dlimites par des courbes. Pour illustrer les
diffrents usages possibles des courbes et des aires, soit le tableau suivant qui
reprsente la rpartition du chiffre daffaires dune entreprise sur les 3 villes o se
situent ses clients.
Rpartition du chiffre daffaires de lentreprise XXX par villes
(Millions deuros)
Pour complter ce tableau, ajoutons le tableau en pourcentage suivant, qui donne,

pour chaque anne, la contribution en pourcentage de chaque ville au chiffre
daffaires total. Ce second tableau sobtient en divisant les 3 premiers chiffres de
chaque ligne du tableau initial par le quatrime chiffre de la ligne correspondante et
en multipliant le rsultat par 100
Contribution en % de chaque ville
au chiffre daffaires total de chaque anne
Le tableau de graphiques ci-aprs illustre les 4 principales possibilits dexploiter les

graphiques en ligne o les aires dlimites par des lignes.
1) Courbes simples
Le graphique numrot 1 reprsente lvolution des ventes totales (ou chiffre
daffaires total) en millions deuros de cette entreprise fictive. Il permet de lire la fois
laugmentation et les priodes o lvolution a marqu le pas. Il est parfaitement
adapt pour illustrer lvolution globale du chiffre daffaires de lentreprise.
109
Quatre principales faons dutiliser les graphiques en courbes et aires
2) Coubes multiples
Le graphique numrot 2 reprsente lvolution des ventes totales (ou chiffre
daffaires total) en millions deuros que cette entreprise ralise pour chacune des 3
villes o se trouvent ses clients. Il est intressant, mais en fait, on peut lui prfrer un
graphique qui allierait la fois les avantages de la courbe simple (graphique
numrot 1) et la dcomposition par ville (graphique numrot 2). Cest ce que
propose le graphique numrot 3.
3) Aires dlimites par des courbes
On peut concevoir deux faons de prsenter un graphique daires dlimites par des
courbes :
Soit sous forme de valeurs absolues : le graphique numrot 3 reprsente

ainsi la fois lvolution des ventes totales et la contribution de chaque ville
cette volution. La contribution est reprsente par le dcoupage en trois de
la surface qui se trouve sous la courbe. La contribution de Marseille est en
bleu, celle de Paris en rouge et celle de Lyon en vert. Les 3 contributions
additionnes donnent lvolution totale.
Soit sous forme de pourcentages : le graphique numrot 4 reprsente la

contribution en pourcentage de chaque ville au chiffre total de lentreprise. Ce
graphique permet de voir par exemple que Paris tait prpondrant en 2001
mais que sa part (ainsi que celle de Lyon) a t progressivement grignote
par Marseille.
La mthode de construction est simple : on part du tableau initial et lon

additionne dabord la colonne de Marseille et de Paris, puis les colonnes Marseille,
Parie et Lyon. Ensuite, on trace les 3 courbes sur un mme graphique et on effectue
un coloriage des 3 zones (voir schma ci-aprs). Naturellement, si lon dispose dun
tableur comme EXCEL 2007, le graphique est trac automatiquement uniquement en
slectionnant les donnes du tableau initial en en choisissant le graphique adquat.
Mthode construction dun graphique

sous forme daires dlimites par des courbes
112
C - Graphique de dispersion ou nuage de points

Un graphique de dispersion ou nuage de points est un graphique qui met en relation
les valeurs de deux variables sur un repre de coordonnes cartsiennes. Nous
avons dj rencontr ce type de graphique dans lintroduction ce chapitre. En effet,
les 4 graphiques du quartet dANSCOMBE sont des graphiques de dispersion.
Prenons un autre exemple. Ci-aprs, un tableau hypothtique qui illustre les
diffrentes quantits dun certain produit quun consommateur XXX est dispos
acheter suivant selon le prix du produit.
Exemple de graphique de dispersion ou nuage de points
Le graphique de dispersion correspondant permet dassocier chaque une

coordonne dabscisse (la quantit) et une coordonne dordonne (le prix).
Les graphiques de dispersion ou en nuage de points sont trs utiliss pour ltude
des corrlations entre deux variables. (Voir le chapitre 6).
113
D - Secteurs
Les graphiques en secteurs sont utiles lorsque lon veut reprsenter la relation entre
une partie et un tout. On distingue les secteurs 380 et ceux 180. Voyons un
exemple de chacun deux avant de voir la mthode de construction qui repose sur la
conversion des pourcentages en degrs.
Reprenons les donnes du chiffre daffaires hypothtique quune entreprise a ralis
en 2007 249 327 045 euros) rpartis par ses 4 vendeurs et dans les trois villes o se
trouvent ses clients.

Le secteur 360 ci-dessous reprsente la rpartition des ventes totales entre les
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert).
114

Le secteur 180 ci-dessous reprsente la rpartition des ventes totales entre les
trois villes (Marseille en jaune, Paris en rouge et Lyon en vert). Pour le faire avec
EXCEL, voir lien internet ici.
3) Mthode de construction
a) Secteur 360 degrs
Pour obtenir la part du chiffre daffaire ralis dans chaque ville, on divise le chiffre
daffaires ralis dans la ville par le chiffre daffaires total et on multiplie par 360.
Par exemple, pour Marseille on a :
Le tableau ci-dessous donne les rsultats en degrs pour les trois villes :
Une fois que lon a calcul les degrs associs au chiffre daffaire dans chaque ville,
il faut tracer le secteur au moyen dun compas, puis, avec un rapporteur, le diviser
en 3 sous-secteurs ayant pour angle 97 (Marseille), 185,3 (Paris) et 77,7(Lyon).
115
b) Secteur 180 degrs

Pour obtenir la part du chiffre daffaire ralis dans chaque ville, on divise le chiffre
daffaires ralis dans la ville par le chiffre daffaires total et on multiplie par 180.
Par exemple, pour Marseille on a :
Le tableau ci-dessous donne les rsultats en degrs pour les trois villes :
Un fois que lon a calcul les degrs associs au chiffre daffaires dans chaque ville,
il faut tracer le secteur au moyen dun compas, puis, avec un rapporteur, le diviser
en 3 sous-secteurs ayant pour angle 48,5 (Marseille), 92,7 (Paris) et 38,8 degr
(Lyon). Pour le faire avec EXCEL, voir lien internet ici.
4) Anneaux
a) Simples
Les anneaux sont simplement des secteurs trous au milieu. Ainsi, par exemple,
les deux secteurs prcdents peuvent tre reprsents sous forme danneaux
comme ci-aprs. La seule diffrence tant le cercle vide du milieu dont la taille peu
tre choisie de faon arbitraire en fonction de considration telles que lesthtique ou
lconomie dencre (si le graphique est destin tre imprim) par exemple.
116
b) Concentriques
Un exemple typique danneaux concentriques est celui de la reprsentation des
rsultats du second tour de llection prsidentielle 2007 pour 3 villes hypothtiques.
Dans le cercle intrieur, on a la rpartition des voix entre les deux candidats (dans
cet exemple hypothtique, ils ont obtenu chacun 150 voix) et dans le cercle extrieur,
on a la rpartition des voix de chaque candidat dans chacune des villes.
Pour le faire avec EXCEL, voir http://fr.youtube.com/watch?v=cC6iXzejxrg

5 Autres graphiques
A Graphiques en radar et toile daraigne
1 Radar
Soit par exemple 120 personnes qui sont interroges dans la ville A et 120
personnes dans la ville B sur la caractristique quelles placent en premier lors de
lachat dune maison. Il s'agit d'une caractristique avec 4 modalits. On a le tableau
suivant :
117
On peut alors placer ces donnes sur un diagramme en radar de la faon

suivante :
2 Toile daraigne
Le graphique en toile daraigne est une variante du graphique en radar, mais avec
un nombre daxes plus grand. On lutilise par exemple pour reprsenter des donnes
chronologiques. Soit par exemple une entreprise qui souhaite comparer le nombre
de visiteurs mensuels sur son site internet en 2006 et en 2007.
Nombre de visiteurs mensuels sur le site internet de lentreprise XXX (milliers)
118
Une bonne faon de prsenter une comparaison visuelle est de faire un graphique
en toile daraigne suivant :
Exemple de graphique en toile daraigne
Ce graphique donne immdiatement deux informations :
Les visites en 2007 ont chaque mois t suprieures aux visites en 2006
Il y a un caractre cyclique dans les visites, car les mois creux et les mois
pleins sont les mmes en 2006 et en 2007.
119
B Graphiques bulles
Semblable au graphique de dispersion ou nuages de points, le graphique
(ou diagramme) en bulles permet d'ajouter une troisime dimension
l'analyse. Les deux premires dimensions dterminent la position des bulles
sur le diagramme tandis que la troisime fixe la surface de chacune des
bulles.
Exemple 1 ( faire avec un logiciel)
titre dexemple, soit les chiffres ci-dessous, extrait du tableau 1, qui
donnent lge mdian, lindice de fcondit et le PIB par habitant des pays de
lUE 27.
Age mdian, Indice de fcondit et PIB/habitant
Dans le graphique bulles ci-aprs, 3 dimensions sont reprsentes : lindice de

fcondit (axe vertical), lge mdian (axe horizontal) et le PIB par habitant (surface
de chaque bulle ).
120
Exemple de graphique bulles : Age mdian (axe horizontal) , indice de fcondit (axe vertical)
et PIB par habitant (surface de la bulle) des pays de lUE 27. Annes 2007 (ge mdian et indice de fcondit) et 2006 (PIB/habitant en $)
Exemple 2 : Le tableau ci-dessous donne les performances macroconomiques de

2 pays hypothtiques A et B, en 2007.
Reprsenter ces chiffres sur un graphique en bulles avec :
Le taux de chmage en abscisse

Le taux dinflation en ordonne
La croissance par un cercle de surface proportionnelle au taux du pays
considr
On obtient alors le graphique suivant :
Dans cet exemple relativement simple, il suffit de faire en sorte que laire du disque
qui reprsente le taux de croissance du pays A soit le double de laire qui reprsente
le taux de croissance du pays B.
Pour assurer la proportionnalit des aires, il faut passer par la formule de laire du
disque :
On peut choisir pour rfrence la plus grosse valeur reprsenter sous forme de
disque.
Ensuite on lui attribue une aire arbitraire, par exemple 2 cm2 et on en dduit le
rayon :
Pour tracer le cercle, on arrondira le rayon 8 mm.

On calcule ensuite laire de lautre disque du graphique. Dans notre exemple, si laire
du disque du pays A reprsente 4%, le disque du pays B, qui reprsente 2% doit
avoir une aire 2 fois plus petite. Par consquent, laire du disque reprsentatif de la
croissance du pays B sera gale la moiti de la surface du disque qui reprsente
la croissance de A, soit 1 cm2. On en dduit ensuite le rayon du disque de B par la
formule :
Pour tracer le cercle, on arrondira le rayon 5,5 mm.

En dfinitive, le disque de A aura un rayon de 8 mm (environ) et le disque de B aura
un rayon de 5,5 mm (environ). Ceci nest pas facile tracer de manire prcise !
Cest la raison pour laquelle les graphiques bulles sont gnralement raliss avec
un logiciel.
C Graphiques boursiers
Les graphiques boursiers sont appels ainsi car ils servent principalement donner
des indications sur lvolution des cours boursiers. Dans lexemple ci-aprs, nous
allons voir la version la plus simple du graphique boursier, mais des versions plus
complexes sont possibles et facilement ralisables dans EXCEL 2007 un fois que
lon a compris le principe de base.
Soit le tableau ci-dessous qui donne lvolution du cours journalier dun titre boursier
(en euros) de 2 janvier au 31 janvier 2008, en en retenant que les jours ouvrables.
On a relev 3 informations chaque jour : le cours le plus bas, le cours le plus haut et
le cours de clture.
123
Evolution du cours du titre XXX
Le graphique ci-aprs, dit graphique boursier, permet de visualiser les 3 informations
124
D - Graphique de TUKEY
Le graphique Boite moustaches ou diagramme en bote (box plot) a t
invent en 1977 par le statisticien amricain John TUKEY (1915-2000).
1) Les lments constitutifs du graphique
Sur le graphique ci-aprs, les lments suivants apparaissent13 :
Lintervalle interquartile : il est dfini par Q3 - Q1 et donne les "dimensions" de la
bote.
Les moustaches : Ce sont les extrmits gauche et droite du graphique (parfois
appeles "pattes").
La moustache gauche est dfinie par la valeur de la srie immdiatement
suprieure Q1 - 1,5 (Q3 - Q1). Sil y a des valeurs infrieures Q1 - 1,5 (Q3 Q1) dans la srie, elles sont atypiques et reprsentes par des marqueurs.
La moustache droite est dfinie par la valeur de la srie immdiatement
infrieure Q3 + 1,5 (Q3 - Q1). Sil y a des valeurs suprieures Q3 + 1,5 (Q3
- Q1), elles sont reprsentes par des marqueurs.
La mdiane : la valeur de la variable qui partage la population en deux populations
gales. On la dsigne par l'abrviation Me.
2) Exemple14
Soit la srie des 20 lments : {4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}
La mdiane est gale 3. De plus, Q1 = 2 et Q3 = 4. Enfin, la valeur minimale est 0 et
la valeur maximale 5. Pour tre complet, on peut ajouter la moyenne de la srie qui
est gale 2,7.
13
Voir : http://www.sfds.asso.fr/groupes/statvotre/Boite-a-moustaches.pdf
Pour tracer une boite moustache avec EXCEL 2007, voir : http://blog.immeria.net/2007/01/boxplot-and-whisker-plots-in-excel.html . Voir aussi : http://www.bloggpro.com/box-plot-for-excel-2007/
(mais remplacer les valeurs Min et Max par les valeurs adquates si la distribution contient des
valeurs atypiques). Enfin, voir aussi http://www.coventry.ac.uk/ec/~nhunt/boxplot.htm qui explique la
construction dune boite moustaches avec EXCEL 97, 2003 et 2007.
14
125
Valeurs atypiques : Pour savoir s'il y a des valeurs atypiques il faut calculer Q1 - 1,5
(Q3 - Q1) = 2 - 1,5 x (4 - 2) = 2 - 1,5 x 2 = 2 - 3 = -1 < 0 et Q3 + 1,5 (Q3 - Q1) = 4 +
1,5 x (4 - 2) = 4 + 3 = 7 > 5. Conclusion : puisque -1 >0 et que 7>5, n'y a pas de
valeurs atypiques15. Par consquent, puisque la valeur immdiatement suprieure
Q1 - 1,5 (Q3 - Q1) est 0 et que la valeur immdiatement infrieure Q3 + 1,5 (Q3 - Q1)
est 5, les deux moustaches ont respectivement pour extrmit gauche le minimum
de la srie (soit 0) et pour extrmit droite le maximum de la srie (soit 5).
On a donc le graphique boite moustaches ci-aprs. La boite est dlimite par Q1 et

Q3. l'intrieur de la boite un premier trait noir indique la mdiane (et un second trait
rouge [en pointill et facultatif] indique la moyenne). Les valeurs minimale et
maximale constituent ici les moustaches, car elles sont comprises dans lintervalle
dfini par Q1 - 1,5 (Q3 - Q1) et Q3 + 1,5 (Q3 - Q1).
Boite moustaches de TUKEY pour la srie
{4, 0, 1, 1, 2, 2, 2, 3, 3, 4, 2, 3, 4, 5, 2, 1, 3, 3, 4, 5}
Voir le fichier EXCEL
15
Selon Monique LE GUENN, La valeur 1.5 est selon TUKEY une valeur pragmatique (rule of
thumb), qui a une raison probabiliste. Si une variable suit une distribution normale, alors la zone
dlimite par la bote et les moustaches devrait contenir 99,3 % des observations. On ne devrait donc
trouver que 0.7% d'observations atypiques (outliers). Si le coefficient vaut 1, la probabilit serait de
0.957, et elle vaudrait 0.999 si le coefficient est gal 2. Pour TUKEY la valeur 1.5 est donc un
compromis pour retenir comme atypiques assez dobservations mais pas trop dobservations .
http://www.sfds.asso.fr/groupes/statvotre/Boite-a-moustaches.pdf
126
E Graphiques panachs
Il existe une infinit de faons de panacher les diffrents graphiques. Voyons
quelques exemples.
1) Secteur complt par une barre trononne
Soient les donnes dj utilises du chiffre daffaires par ville et par vendeur dune
entreprise XXX en 2007.
On souhaite :
utiliser un secteur 360 pour faire apparaitre la rpartition du chiffre

daffaires entre les trois villes.
Dcomposer le chiffre daffaires ralis sur Paris entre les quatre vendeurs et
le faire apparatre au moyen dune barre verticale trononne 100%.
127
Un autre exemple de graphique, symtrique, consiste faire une barre trononne

dont une des tronons est lui-mme dcompos en en secteur. Voici un
exemple ralis avec PowerPoint 2007.
Un autre exemple de graphique panach
Daprs Kathy VILLELA, Graphic elements that connect two objects

http://www.powerframeworks.com/makeyourpoint/?p=73 . Tlcharger le graphique
au format PowerPoint 2007.
2) Graphique de PARETO
Le graphique de PARETO est un cas particulier du graphique chelle verticale
double. Avant de voir comment il se construit, il convient de rappeler la loi de
PARETO dont il sert vrifier la validit. Le graphique a en fait t invent par
Joseph Moser DURAN (1904 - ), fondateur de la dmarche qualit. Le graphique de
PARETO est en effet lun des sept graphiques de base utilis dans les contrles de
qualit. Sil est appel graphique de PARETO et non graphique de DURAN (ou
graphique de Kaoru ISHIKAWA (1915-1989), autre fondateur du management de la
qualit), cest en raison de la loi de PARETO que nous allons donc exposer pour
commencer.
a) De la loi de PARETO au graphique de PARETO
Vilfredo PARETO, conomiste et sociologue de la fin du 19me sicle et du dbut du
20me sicle (1848-1923) a notamment tudi la rpartition des revenus dans
diffrents pays. Une des principaux constats qui ressort de cette tude est une "loi",
dite "Loi de PARETO": dans presque tous les pays, 80% de la richesse sociale
128
tait possde par 20% des individus. Par la suite, on s'aperut qu'un grand
nombre de phnomnes taient gouverns par la loi du 80/20 :
20 % des clients reprsentent 80 % du chiffre d'affaires
20% des pices stockes dans une entreprise reprsentent 80% de la valeur du
stock
20% des fournisseurs reprsentent 80% du volume d'achat total
20% du personnel effectue 80% du travail
20% des salaris dune entreprise empoche 80% de la masse salariale
20% des automobilistes causent 80% des accidents
20% des vtements d'une garde-robe sont ports 80% du temps
20% des produits reprsentent 80% du chiffre d'affaires
20% des ventes reprsentent environ 80% de la marge bnficiaire
20% du personnel total est concern par 80% des accidents du travail
20% des causes peuvent tre l'origine de 80% des dfauts
20% des clients sont l'origine de 80% des rclamations
20% de la population paie 80% des impts
20% des dlinquants gnrent 80% des dlits
20% des joueurs de foot marquent 80% des buts
20% des problmes reprsentent 80% des proccupations
20% des pays mettent 80% des gaz effet de serre, etc.
20% des acteurs jouent dans 80% des films.
Source : http://www.ed-productions.com/leszed/index.php?80-20-pareto
Ces exemples illustrent la loi de PARETO. Quelques causes majeures, une fois
isoles, permettent de rsoudre la plus grande partie d'un problme de qualit. Une
fois ces causes majeures identifies, on peut concentrer les efforts et les ressources
les liminer. Le graphique de PARETO est une faon de visualiser la loi des
80/20. Mais, comme on va le voir dans l'exemple tudi plus loin, cette loi n'est pas
systmatique, il arrive trs souvent aussi que 20% des causes expliquent beaucoup
moins que 80% des rsultats.
b) Dfinition, construction, exemple et interprtation
Un diagramme de PARETO est un graphique qui combine un graphique en barre
et une courbe cumulative. Il sert principalement l'tude des donnes qualitatives,
mais rien n'empche de l'utiliser pour des donnes quantitatives.
Procdure pour construire le graphique :
i) Si les donnes sont sous forme d'une srie, les regrouper par modalits
(donnes) ou par valeurs (donnes quantitatives), de faon obtenir une
distribution par modalits ou par valeurs (ventuellement, une distribution par
classes de modalits ou par classes de valeurs).
ii) Classer les valeurs ou les modalits par ordre dcroissant des effectifs
iii) Ajouter une colonne pour la distribution en pourcentages
129
iv) Ajouter ensuite une colonne de pourcentages cumuls

v) Faire un graphique pour reprsenter simultanment :
- La distribution des pourcentages par un graphique en barre, en mettant l'axe
des y gauche
- Les pourcentages cumuls par une courbe des pourcentages cumuls, en
mettant l'axe des y droite
Exemple : Supposons que l'on veuille tudier les raisons de la rsiliation d'un
abonnement en ligne. Le problme ici est de comprendre pourquoi les abonns
rsilient leur abonnement (afin de rduire le nombre de rsiliation). On recherche
donc les causes. Pour ce faire, lorsque les clients rsilient leur abonnement, on leur
propose un questionnaire (volontairement simplifi dans cet exemple) o il sont invit
cocher la case qui correspond la raison de la rsiliation de leur abonnement.
Supposons que les 5 choix suivants leurs soient proposs (Remarque : nous
sommes en prsence de donnes qualitatives non hirarchisables, les choix sont
donc des modalits nominales : le contenu du site ne correspondait pas mes
attentes (rponse codifie par "A"), le contenu n'est pas bon (rponse codifie par
"B"), le contenu n'est pas renouvel assez souvent (rponse codifie par "C"),
difficults techniques pour accder au contenu (rponse codifie par "D"), Autres
(rponse codifie par "E").
On a obtenu les rsultats suivants en tudiant 15 cas de rsiliations : {E, B,D, E, D,
E, A, B, B,C, D, A, B,B, E}. Evidemment, en ralit, on tudierait un nombre de cas
beaucoup plus grand, mais le principe de construction resterait identique.
130
Construction du graphique :
i) Si les donnes sont sous forme d'une srie, les regrouper par modalits (donnes
qualitatives) ou par valeurs (donnes quantitatives), de faon obtenir une
distribution :
Modalits
Le contenu ne correspond pas mes attentes (A)
Le contenu n'est pas bon (B)
Le contenu n'est pas renouvel assez souvent (C)
Difficults techniques pour accder au contenu (D)
Autres (E)
Total
Nombre de rponses
2
5
1
3
4
15
ii) Classer les valeurs ou les modalits par ordre dcroissant des effectifs :
Modalits
Le contenu n'est pas bon
Autres
Difficults techniques pour accder au contenu
Le contenu ne correspond pas mes attentes
Le contenu n'est pas renouvel assez souvent
Total
Nombre de rponses
5
4
3
2
1
15
iii) Ajouter une colonne pour la distribution en pourcentages

Modalits
Autres
Difficults techniques pour accder au contenu
Le contenu ne correspond pas mes attentes
Le contenu n'est pas renouvel assez souvent
Total
Nombre de rponses
5
4
3
2
1
15
Pourcentages
33,3
26,7
20,0
13,3
6,7
100,0
iv) Ajouter ensuite une colonne de pourcentages cumuls

Modalits
Autres
Difficults techniques pour accder au
contenu
Le contenu ne correspond pas mes
attentes
Le contenu n'est pas renouvel assez
souvent
Total
Nombre de
rponses
5
4
Pourcentages
33,3
26,7
Pourcentages
cumuls
33,3
60,0
20,0
80,0
13,3
93,3
1
15
6,7
100,0
100,0
131
v) Faire un graphique pour reprsenter simultanment :

- La distribution des pourcentages par un graphique en barre, en mettant l'axe
des y gauche
- Les pourcentages cumuls par une courbe des pourcentages cumuls, en
mettant l'axe des y droite
Fichier EXCEL
c) Interprtation
Dans notre exemple, on voit que la loi de PARETO n'est pas vrifie. En effet, la loi
de PARETO veut que 20% des causes expliquent 80 % des rsultats. Or ici, il y a 5
causes. Donc une cause reprsente elle seule 20% des rsultats. Pour que la loi
de PARETO soit vrifie, il faudrait qu'une seule cause (20% des causes) explique
80% des rsultats (80% des rsiliations). Or, ici, la premire cause n'explique que
35% des rsiliations et il faut 3 causes, soit 60% des causes, pour parvenir
expliquer 80% des rsultats.
On peut se reporter aux sites internet suivants qui donnent des exemples
intressants :
http://membres.lycos.fr/jflipes/pareto.htm (scurit routire)
http://www.azaquar.com/outils/pareto.html (amlioration de la qualit dans une usine
qui fabrique des conserves)
132
F Histogramme
Lhistogramme peut parfois tre assimil un graphique en barre verticales. Cest le
cas lorsque le graphique en barres verticales a pour chelle horizontale des
catgories numriques damplitudes gales. Mais lhistogramme se distingue du
graphique en barres verticales lorsque les catgories numriques de laxe horizontal
sont damplitudes ingales. Le diagramme de VENN ci-aprs permet dillustrer ce
point et les exemples qui suivent de le prciser.
Barres verticales et histogrammes : pas toujours la mme chose !
133
Sagissant des histogrammes, il convient en outre de distinguer les histogrammes

deffectifs et les histogrammes de frquences. Nous allons donc tre amens
tudier 4 types dhistogrammes comme indiqu dans le tableau ci-dessous.
Les 4 types dhistogrammes
Nous allons construire chacun de ces 4 types dhistogrammes ci-aprs en les

identifiant par leur numro dans le tableau (de 1 4).
1) Amplitude de classes identiques
Soir le tableau ci-dessous qui donne a population mondiale en 2007 par groupes
dges quinquennaux (hommes et femmes confondus). La dernire colonne,
intitules frquences est simplement calcule en divisant leffectif de chaque
classe dge par la population mondiale totale. Par exemple, pour obtenir le premier
chiffre de la colonne des frquences, on a effectu le calcul suivant :
Soit, en arrondissant : 0,094.

On remarque que toutes les classes dges sont identiques (5 ans)16. Les classes
ont la mme amplitude. A chaque classe dge est associ un effectif (colonne des
16
La dernire classe va en fait de 80 plus de 110 ans, mais pour simplifier, nos la supposons gale
5 ans, en nous basant sur le fait que le nombre des 85 ans et plus reste encore minime compar
lensemble de la population mondiale, mme sil est appel augmenter.
134
effectifs) ou une frquence (colonne des frquences). La somme des effectifs donne
la population mondiale en 2007, tandis que la somme des frquences est gale 1.
Nous allons dabord voir comment se prsente lhistogramme des effectifs, puis
ensuite lhistogramme des frquences.
a) Histogramme des effectifs

Sur lhistogramme des effectifs ci-aprs, on peut voir que :
Laxe horizontal a pour chelle des catgories numriques damplitude gales

(5 ans)
Laxe vertical correspond leffectif de population associ la classe dge
correspondante.
135
Exemple dhistogramme deffectifs quand les catgories numriques sont damplitudes gales
Correspond lhistogramme numrot 1 dans le tableau Les 4 types dhistogrammes
Exemple dhistogramme de frquences quand les catgories numriques sont damplitudes gales
Correspond lhistogramme numrot 2 dans le tableau Les 4 types dhistogrammes
137
b) Histogramme des frquences

Sur lhistogramme des frquences ci-avant, on peut voir que :
Laxe horizontal a pour chelle des catgories numriques damplitude gales

(5 ans)
Laxe vertical correspond la frquence associe la classe dge
correspondante.
Les deux histogrammes (celui des effectifs et celui des frquences) ont la mme
forme, mais diffrent par lchelle de laxe vertical.
2) Amplitude de classes diffrentes

Pour bien comprendre ce quest un histogramme (deffectifs ou de frquences)
lorsque que les catgories numriques de laxe horizontal sont damplitudes
diffrentes, prenons lexemple dun chantillon de 110 mnages dont le revenu
mensuel en euros est donn par la srie classe ci-aprs :
Revenu = {1100, 1130, 1150, 1200, 1220, 1300, 1300, 1310,
1400, 1400, 1450, 1460, 1480, 1490, 1490, 1495,1495, 1500,
1600, 1630, 1640, 1700, 1900, 2000, 2020, 2050, 2070, 2090,
2400, 2500, 2540, 2560, 2600, 2710, 2730, 2750, 2800, 2810,
2850, 2850, 2850, 2870, 2890, 2900, 2920, 2960, 2980, 2990,
3000, 3000, 3030, 3050, 3070, 3080, 3090, 3090, 3090, 3095,
3250, 3280, 3300, 3350, 3400, 3400, 3400, 3400, 3420, 3450,
3570,3575, 3600, 3610, 3800, 4000, 4100, 4250, 4300, 4310,
4580, 4590, 4590, 5000, 6000, 7500, 9000, 9800}.
1350,
1500,
2100,
2810,
3000,
3100,
3500,
4380,
1400,
1550,
2200,
2820,
3000,
3200,
3550,
4500,
1400,
1600,
2220,
2840,
3000,
3210,
3560,
4560,
Supposons que lon souhaite rpartir ces mnages dans les catgories de revenu
suivantes : [0 1500[ ; [1500 3000[ ;[3000 5000[ ; [5000 10000[. On va alors
obtenir le tableau deffectifs suivant :
Rpartition des 110 mnages par classe de revenu
Lamplitude de chaque classe nest pas la mme. Les 2 premires classes ont une
amplitude de 1500 euros, la troisime a une amplitude de 2000 euros et la dernire
classe a une amplitude de 5000 euros. Par consquent, si lon veut reprsenter ces
donnes sous forme dun histogramme deffectifs, nous ne pouvons pas procder de
la mme faon que lorsque les amplitudes de classes sont identiques. En effet, sur
laxe vertical, les barres nauront plus la mme longueur. Lchelle de laxe
horizontal est le suivant :
On voit que dans ces conditions, la hauteur des barres verticales ne peut plus tre
proportionnelle aux effectifs, car cela aboutirait donner une image fausse de
limportance des effectifs inclus dans chaque classe.
Pour tracer lhistogramme des effectifs, il faut donc modifier lchelle de laxe vertical
en divisant les effectifs de chaque classe par lamplitude de classe correspondante.
On ajoute pour cela deux colonnes au tableau prcdent :
Calcul des effectifs corrigs (effectifs sur amplitudes)
La colonne amplitude de classe donne lcart en euros entre les deux extrmits
de chaque classe. La colonne effectifs corrigs se calcule en divisant chaque
effectif par lamplitude de classe qui lui correspond ; Ainsi, leffectif corrig de la
classe de revenu [0 1500[ sobtient par lopration suivante :
Cest--dire 0,013 en ne conservant que les 3 premires dcimales. Les autres

chiffres de la colonne sobtiennent de la mme faon.
Nous pouvons maintenant tracer lhistogramme des effectifs (voir graphique ciaprs). Dans cet histogramme, ce nest plus la hauteur de chaque barre qui indique
leffectif, mais sa surface. Cest la raison pour laquelle leffectif est report
directement sur chaque barre, tandis que laxe vertical mesure leffectif corrig, ou
plus prcisment leffectif divis par lamplitude de classe. Sur cet histogramme,
ce n'est plus la hauteur qui correspond l'effectif, mais la surface. On peut voir
139
facilement que la barre qui correspond 40 a une surface double de celle qui
correspond 20. Et, bien que cela ne soit pas vident visuellement, la barre qui
correspond 45 a une surface qui est 45/40=1,125 plus grande que celle qui
correspond 40 et une surface 45/5 = 9 fois plus grande que celle qui correspond
5.
Histogramme deffectifs
avec catgories numriques damplitudes diffrentes
Correspond lhistogramme numrot 3
dans le tableau Les 4 types dhistogrammes
Pour tracer lhistogramme des frquences, il faut donc modifier lchelle de laxe
vertical en divisant les frquences de chaque classe par lamplitude de classe
correspondante.
140
On construit pour cela le tableau suivant :

Calcul des frquences corriges (frquences sur amplitudes)
Dans ce tableau, la colonne des frquences correspond aux effectifs de chaque

classe diviss par leffectif total et la colonne des frquences corriges est gale
au rapport de chaque frquence lamplitude de classe correspondante.
On obtient un histogramme de frquence qui a exactement la mme forme que
lhistogramme des effectifs, mais lchelle verticale est gradue diffremment (cest
lchelle des amplitudes corriges). Et dans chaque barre figure maintenant la
frquence quelle reprsente.
Histogramme de frquences
avec catgories numriques damplitudes diffrentes
Correspond lhistogramme numrot 4 dans le tableau Les 4 types
dhistogrammes
141
G Pyramide des ges
La pyramide des ges est un outil de l'analyse dmographique plus clbre encore
que le diagramme de LEXIS (et surtout plus populaire !). Ce graphique a t invent
en 1870 par le Gnral WALKER, alors directeur du Bureau of Census, organisme
amricain charg du recensement de la population et des tudes dmographiques.
C'est en fait un double histogramme qui indique la composition dune population
par classes dges et par sexe, un moment donn.
Faire une pyramide, c'est faire graphique du nombre d'hommes et de femmes de
diffrents ges. Pour cela on place dos dos, deux histogrammes dcrivant la
structure par classe dge dune population masculine pour le premier et dune
population fminine pour le second. Le tableau ci-dessous rpertorie la population
mondiale par groupe dges quinquennaux et par ge en 2007. Nous allons lutiliser
titre dexemple pour construire la pyramide des ges17.
17
Cet exemple est disponible sous forme vido sur You Tube :
http://fr.youtube.com/watch?v=ubAKKG2Bxsg
Lhistogramme A ci-dessous reprsente la rpartition de la population masculine

mondiale en 2007 suivant les donnes du tableau prcdent. Il sagit dun
histogramme dont les amplitudes de classe sont identiques (5 ans) et qui peut donc
tre assimil un graphique en barres (voir le diagramme de VENN qui explique les
diffrences et les similitudes entre barres verticales et histogramme).
Histogramme A
Nous pouvons ensuite faire effectuer une rotation ce graphique de faon

obtenir lhistogramme B.
Histogramme B
143
Lhistogramme C ci-dessus reprsente la rpartition de la population fminine

mondiale en 2007.
Histogramme C
Nous pouvons ensuite faire effectuer une rotation ce graphique de faon

obtenir lhistogramme D.
Histogramme D
144
Et finalement, en mettant cte cte les histogrammes B et D, nous obtenons

la pyramide classique des ges de la population mondiale en 2007 :
Il sagit en fait dun graphique qui reprsente TROIS dimension : lge, le sexe
et les effectifs associs ces deux catgories.
H Graphique en cascade
Le graphique en cascade (waterfall graphic) est une variante du graphique en barres.
Il sert faire apparatre :
- les contributions positives et ngatives une grandeur
- les variations successives d'une grandeur.
Exemple : Le tableau ci-dessous indique l'volution du chiffre d'affaire d'une
entreprise de 2001 2006. La troisime colonne du tableau met en vidence les
augmentations et la quatrime les diminutions. On voit ainsi que le CA a augment
en 2002, 2003 et 2005, et qu'il a baiss en 2004 et 2006.
Annes
2001
2002
2003
2004
2005
2006
CA (euros)
210000
280000
330000
300000
360000
320000
Plus
Moins
70000
50000
-30000
60000
-40000
145
Le graphique en cascade va permettre de faire apparatre ces variations (en milliers

d'euros sur le graphique):
Voir le fichier Excel 2003 (il faut d'abord installer la macro : tlchargeable ici)
On voit ainsi immdiatement la contribution de chaque anne et on peut visualiser :
l'importance de la contribution
Si la contribution est positive ou ngative.
comment on est pass de 210 320 par variations successives.
I Graphique en trois dimensions

Grce aux ordinateurs et aux logiciels il est devenu trs facile aujourdhui de raliser
de beaux graphiques en 3D. EXCEL 2007 offre diverses possibilits, tout comme
dautres logiciels, tels que Mathematica. En revanche, moins dtre trs bon
dessinateur, il est impossible de raliser ce type de graphique avec la rgle, le
rapporteur, le compas et les crayons de couleur ( linverse de tous les autres
graphiques vu jusqu prsent).
On peut distinguer 3 catgories de graphique en 3D :
Les faux graphiques en 3D qui ne sont que des graphiques en 2D

auxquels on ajoute une profondeur des fins visuelles.
Les graphiques en barres 3 dimensions
Les graphiques dits de surface
146
1) Graphiques en 2D avec ajout de profondeur

Pour illustrer ce type de graphique, reprenons les donnes du chiffre daffaires
hypothtique quune entreprise a ralis en 2007 249 327 045 euros) rpartis par
ses 4 vendeurs et dans les trois villes o se trouvent ses clients.
Lorsque lon ajoute de la profondeur ou de la perspective au graphique en

barres verticales ou aux secteurs classiques, on obtient ce genre de rsultats (voir
graphiques ci-aprs).
Bien entendu, le nombre de dimensions na pas chang par rapport lquivalent 2D
de ces deux graphiques qui nont que linconvnient de paratre plats par
comparaison.
Il semble que les graphiques 2D avec ajout de profondeur ou de perspective attirent
davantage les regards. Il ne faut donc pas se gner pour les utiliser surtout tant
donn la facilit avec laquelle on peut les raliser grce aux logiciels.
147
gauche, graphiques en 2D avec ajout de profondeur ; droite : leurs quivalents 2D
2) Graphique en barres avec 3 dimensions "relles"

Par comparaison avec les graphiques en 2D avec ajout de profondeur, les
graphiques en barres avec 3 dimensions ajoute rellement une dimension
supplmentaire.
Cette fois, nous allons utiliser un seul graphique en barres verticales pour montrer
la fois la rpartition du CA par villes et par vendeur en 2007.
Chapitre 6
Tendances et corrlations
1 Introduction
2 La dtermination de la tendance dune srie chronologique
A Dtermination graphique
B Dtermination par la mthode des points extrmes
C Dtermination par la mthode des moindres carrs (MCO)
3 Ltude de la corrlation entre deux variables
A Lexemple dune fonction de demande
B Lquation de rgression linaire
C Le coefficient de dtermination
4 Le test du Khi-carr
A Introduction
B Exemple dutilisation
1 Introduction
Ce chapitre est consacr lutilisation dun mme outil statistique, lajustement
linaire, deux cas de figure diffrents. Lajustement linaire, aussi appel
mthode des Moindres Carrs Ordinaires (MCO).
Il est appliqu successivement :
A ltude de la tendance dune srie chronologique

la mise en vidence dune corrlation entre deux variables. La mthode des
moindres carrs est galement utilise pour tudier lexistence dune
corrlation entre deux variables.
Ci-aprs, deux graphiques :

lun illustre le trac dun trend ( tendance ) linaire partir de ltude dune
srie chronologique
lautre illustrant le trac dune droite linaire pour apprcier lexistence dune
relation entre deux variables.
Dans les deux cas, ces droites ont t obtenues laide de la mthode des moindres
carrs ordinaires :
pour les sries chronologiques, on la qualifie de trend linaire ,
pour ltude de la relation statistique entre deux variables, on parle plus
volontiers de droite de rgression.
Pour ltude de la corrlation entre deux dimensions non quantitatives, cest le test
du Khi-carr qui remplace lajustement linaire.
150
Trend linaire dune srie chronologique
Ajustement linaire de la relation entre prix et quantit dun bien
151
2 La dtermination de la tendance dune srie chronologique

A Dtermination graphique
Soit le tableau suivant qui donne lvolution du taux de chmage en France de 1993
2007.
Annes
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
Taux de chmage (%) - France

11,1
11,7
11,2
11,6
11,5
11,1
10,5
9,1
8,4
8,9
9,5
9,6
9,5
9
8,5
Source : FMI
Pour tudier lvolution de cette srie chronologique, le plus simple est de la

reprsenter laide dun graphique en ligne :
Taux de chmage en France de 1993 2007 (selon donnes FMI)
152
On constate alors que la tendance du taux de chmage sur les 15 dernires

annes est la baisse. Il sagit l dune simple constatation visuelle, suffisante dans
bien des cas. On constate aussi quaprs avoir baiss jusquen 2001, le taux de
chmage a connu une lgre remonte avec un pic en 2004 et a ensuite encore
baiss pour atteindre 8,5 % en 2007.
Bien souvent, cette analyse graphique est suffisamment loquente pour ne pas
poursuivre lanalyse. Nanmoins, il est possible de poursuivre plus rigoureusement
ce raisonnement et de dterminer mathmatiquement une droite dont la pente nous
donnera la tendance .
B Dtermination de la tendance par la mthode des points extrmes
Puisquil faut deux points pour tracer une droite, une ide simple consiste faire
passer une droite par les deux points extrmes de la srie, soit {1993 ;11,1} et
{2007 ; 8,5} dautre part. On obtient alors une droite qui nous indique une tendance
ngative.
Dtermination de la tendance par une droite
passant par les deux points extrmes
Cette mthode nest cependant pas trs satisfaisante car elle ne tient compte que de
des deux points extrmes. Une meilleure mthode est celle dite des moindres
carrs ordinaires ou MCO en abrg.
153
C Dtermination de la tendance par la mthode MCO

Ce nom bizarre vient du fait que la mthode consiste dterminer la droite
d'ajustement en minimisant la somme du carr des carts entre cette droite et
les observations. Les dtails mathmatiques de cette mthode importent peu dans
un cours de statistique descriptive, car l'essentiel est de savoir calculer les
coordonnes de la droite. De plus, les machines calculer ainsi que les logiciels
comme Excel permettent un calcul et un trac facile de cette droite.
Cette droite, comme toutes les droites, a pour expression lquation :
yi = a. ti + b
o i varie de 1 n, et o n est le nombre des observations.
Les valeurs {t1, t2, ..., ti, ... tn} sont les dates.
Dans notre exemple les chiffres 1 12 (le chiffre 1 correspond 1993 et le chiffre 12
correspond 2007). Les yi , c'est--dire les valeurs tendancielles, ne peuvent tre
calcules qu'une fois que l'on connat a et b. Pour calculer les coefficients a et b,
nous allons donc utiliser les valeurs observes, savoir la srie :
{11,1 ;11,7 ;11,2 ;11,6 ;11,5 ;11,1 ;10,5 ;9,1 ;8,4 ;8,9 ;9,5 ; 9,6 ;9,5 ;8,5}.
Les formules de calcul des coefficients a et b sont alors donnes respectivement
par18 :
18
Ces formules sont donnes ici sans dmonstration, le lecteur intress par une dmonstration
rigoureuse pourra consulter avec profit le livre de PY, Bernard (2007), Statistique descriptive :
nouvelle mthode pour comprendre et bien russir 5me dition, Economica.
154
Nous pouvons alors tracer la droite sur le graphique initial :
155
La mthode MCO est plus rigoureuse que la mthode car elle calcule la droite de
tendance en tenant compte de toutes les observations.
3 Ltude de la liaison statistique entre deux variables
Nous allons maintenant nous intresser la mise en vidence due relation
statistique entre deux variables partir de la mthode MCO. Nous prendrons comme
exemple, ltude de la relation entre prix et quantit dun produit.
A Lexemple dune fonction de demande
Il est important pour une entreprise d'avoir une bonne ide de la demande qui
s'adresse son produit. Comment faire pour connatre la fonction de demande pour
un produit ?
La premire ide qui vient l'esprit consiste tracer un repre quantit/prix, avec la
quantit en abscisse et le prix en ordonne, comme ci-dessous. Supposons que l'on
dispose pour cela des informations suivantes :
2005
2006
2007
Prix du produit (euros)

10
12
15
quantits vendues (millions d'units)

100
50
30
Un graphique bas sur ces informations donnerait le rsultat suivant :
156
La courbe obtenue en joignant les 3 points est bien dcroissante et suggre que plus
le prix augmente, plus la quantit demande diminue. S'agit-il pour autant d'une
fonction de demande ? En fait, pas forcment. Le prix et la quantit d'un bien sont
normalement dtermins la fois par l'offre et la demande, du moins lorsque le
march est concurrentiel (si le march n'est pas concurrentiel, les choses n'en sont
que plus compliques). Mais, quoiquil en soit, le prix et la quantit du produit
s'tablissent l'intersection de l'offre et de la demande.
Ainsi, en fait, les 3 points du graphique prcdent sont gnralement interprts par
les conomistes comme trois points d'quilibre, ainsi qu'illustr ci-dessous :
Sur ce graphique, nous voyons en fait que les 3 points prcdents sont trois points
d'quilibre qui rsultent de l'intersection de courbes d'offre et de demande. Par
exemple, en 2007, il s'est vendu 30 millions d'units au prix unitaire de 15 euros, ce
qui correspond au point d'quilibre E, qui est l'intersection des courbes d'offre et de
demande de l'anne 2007.
En reliant les 3 observations temporelles pour en faire une courbe de demande, on
commet sans doute une erreur. On est conduit ainsi sous-estimer l'lasticit de la
demande par rapport au prix. Ainsi, par exemple, on pourrait penser qu'une baisse
du prix de 15 14,5 euros a pour effet d'augmenter la demande de 30 33 millions
d'units. Or en fait, ainsi qu'on peut le voir sur le graphique, une baisse du prix de 15
14,5 entrane une augmentation bien plus importante de la demande (de 30 40
millions). Bien sr, pour que la quantit vendue soit effectivement gale 40 millions,
il ne faut pas seulement qu'il y ait un dplacement le long de D2007, il faut aussi que la
courbe d'offre O2007 se dplace de faon ce que le nouveau point d'intersection soit
en E' (ce que nous supposons ici).
157
Cependant, comme illustr sur le graphique ci-dessous, on ne peut pas exclure que
les 3 observations temporelles correspondent 3 points sur la fonction de demande.
Mais cela signifie en fait que la courbe de demande n'a pas chang, alors que la
courbe d'offre s'est dplace vers la gauche (en supposant que maintenant on
commence en 2005, puis on continue avec 2006 et ensuite 2007).
Trois courbes d'offre successives, face une courbe de demande inchange
constituent ainsi une justification simple de l'estimation d'une courbe de demande par
un nuage de points constitus de couples prix/quantit observs diffrents points
du temps (de prfrence en un mme lieu). Il existe des analyses bien plus subtiles
et le lecteur intress peut se rapporter pour plus de dtails un ouvrage
dconomtrie.
B - L'quation de rgression linaire

Passons maintenant la procdure d'estimation proprement dite, en supposant que
le modle appropri soit celui dcrit par le schma ci-dessus. Cependant, trois
observations ne suffisent pas pour faire une estimation par la mthode des moindres
carrs. Nous allons donc :
ajouter des observations et pour ce faire

changer de cadre temporel (nous allons passer de l'anne au mois).
Le tableau ci-aprs donne les ventes mensuelles et le prix unitaire correspondant.

Ces valeurs reprsentent les observations qui vont servir l'estimation de la fonction
de demande. Ces chiffres, sont invents pour l'occasion et il serait sans doute plus
158
difficile d'obtenir une relation aussi vidente avec des chiffres rels. Cependant, ce
qui nous intresse principalement ici, c'est d'illustrer la mthode.
Dates
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
Quantit qi
(milliers d'units)
5
15
9
14
3
9
10
17
11
16
7
3
Prix pi (euros)
14
6
10
9
11
13
9
6
5
3
11
15
Le graphique en nuage de points (graphique de dispersion) des observations laisse

prsupposer l'existence d'une relation dcroissante. Pour que notre graphique soit
conforme la prsentation traditionnelle du diagramme de demande, nous avons
mis le prix en ordonne et la quantit en abscisse. Toutefois, il faut garder prsent
l'esprit le fait quau niveau de la causalit conomique, c'est la quantit demande
qui est fonction du prix et non l'inverse.
Appliquons maintenant la mthode des moindres carrs ordinaires introduite pour

l'analyse du trend. Cette fois, nous devons estimer les coefficients a et b d'une
quation de la forme p = a * q+b. Par rapport la formule du trend temporel, il ny a
que les symboles qui changent
159
Nous nous attendons ici ce que le coefficient a soit ngatif. Les principaux calculs
ncessaires sont donns ci-aprs :
Un didacticiel Microsoft est disponible ici pour l'utilisation directe de la fonction de

rgression sans faire soi-mme les calculs : http://office.microsoft.com/frfr/excel/HA010877851036.aspx
160
On a ainsi la droite de demande dcroissante comme illustr sur la figure :
On peut maintenant exprimer p en fonction de q si l'on prfre. Sachant que :
On a :
q = - 1,55618* p+24,4413
On peut ensuite se servir de la fonction de demande ainsi obtenue pour valuer les
consquences d'une baisse du prix sur la quantit demande et donc sur la recette
totale.
161
C - Le coefficient de dtermination
Lorsque l'on a estim la droite de rgression, on doit se demander ci cette estimation
est de bonne qualit. On dispose d'un premier outil pour rpondre cette question :
c'est le coefficient de dtermination dont la formule est donne par :
Ce coefficient est compris entre 0 et 1. Plus il est proche de 1 et plus la qualit

globale de la rgression est bonne.
titre d'exemple, calculons le coefficient de dtermination de l'quation de
rgression de demande prcdent. Remplaons x par q et y par p dans la formule de
r2, afin d'avoir :
Un didacticiel Microsoft est disponible ici pour l'obtention directe du coefficient de

dtermination sans faire soi-mme les calculs : http://office.microsoft.com/frfr/excel/HA010877851036.aspx
162
Pour faire les calculs, voici comment procder :
163
Interprtation du rsultat : Plus le coefficient r2 tend vers 1, plus la qualit globale

de la rgression est bonne. Ici, le r2 est proche de 0,7. On peut juger que c'est
insuffisant. Il faut de toute manire complter ce premier diagnostic par le calcul
dautres statistiques, mais ceci est lobjet dun cours dconomtrie et non plus de
statistique descriptive.
4 Le test du Khi-carr
A - Introduction
Lexpression khi-carr a deux significations en statistique :
Lexpression khi-carr est le nom du test statistique qui sert apprcier

lexistence ou non dune relation entre deux dimensions au sein dune
population, lorsque ces dimensions sont mesures sur des chelles
qualitatives et que les modalits de ces chelles de mesure ont t
regroupes en catgories. On peut bien sr utiliser aussi le test du khi carr
pour apprcier lexistence dune relation entre deux dimensions mesures sur
des chelles quantitatives groupes en catgories. On peut enfin (et sans
doute le plus souvent), lutiliser pour tudier la relation entre une dimension
quantitative et une autre qualitative.
Lexpression khi carr est aussi le nom dune distribution thorique assez
complexe, dont les valeurs servent valider le test du chi-carr. Ces rsultats
sont prsents sous forme dune table. De ce fait, en pratique, il suffit de se
reporter la table.
En rsum, lexpression khi-carr dsigne la fois le test et la distribution qui sert

valider le test.
B - Exemple dutilisation
Nous allons maintenant montrer comment ce test peut-tre utilis en prsence de
deux dimensions dont lune (lge) est mesure sur une chelle quantitative mais o
les ges ont t regroups en 2 catgories (les moins de 20 ans et les plus de 20
ans) et lautre (le produit) est mesure sur une chelle qualitative nominale :
quatre produits A, B, C et D.
La population de dpart est constitue de 100 units statistiques, ici 100
consommateurs qui on a demand :
leur ge
Parmi ces 4 produits, quels est celui que vous avez achet .
Naturellement, seuls les consommateurs ayant achet lun des 4 produits en
question ont t slectionns pour tre interrogs.
On cherche savoir si lge a une influence sur le type de produit achet. Or ici, il y
a deux dimensions dont lune est quantitative (lge) et lautre est qualitative (le
produit achet). On ne peut donc pas utiliser la mthode des moindres carrs. On
peut en revanche utiliser un test du khi-carr.
164
Pour cela, les donnes sur lge ont t regroupes en 2 catgories : jeunes et
moins jeunes , pour savoir si le produit est galement achet par les plus de 20
ans par exemple. On va donc regrouper la population en deux catgories : les moins
de 25 ans et ceux de 25 ans et plus (ici, cela se rsume la catgorie 20-45 ans).
En ce qui concerne les catgories de produits, nous allons en revanche conserver
les 4 catgories A, B, C et D. Les 100 personnes sont donc regroupes dans le
tableau deux dimensions ci-dessous :
Le tableau se lit ainsi : 10 personnes de moins de 25 ans ont achet le produit A, 15

personnes de 25 ans 45 ans ont achet le produit A, 25 en tout ont achet le
produit A. Et ainsi de suite pour les produits B, C et D.
On remarque avant mme de procder un test que lge semble exercer une
influence. On remarque tout de suite que les produits A et B sont davantage
achets par les 25 45 ans et que les produits C et D sont en revanche
davantage achets par les moins de 25 ans.
Le test du khi carr va apporter une information supplmentaire. Il va permettre de
dire si les diffrences de comportement dachat qui sont attribues lge sont le fait
du hasard ou si elles sont relles. Elles peuvent en effet tre dues au hasard de
lchantillon. Ce que le test va nous dire cest dans quelle mesure la diffrence
est indpendante de lchantillon choisi.
165
Pour effectuer le test, on part de la constatation suivante. Si l'ge n'a aucune

influence sur le choix, les colonnes moins de 25 ans et 25 45 ans doivent
tre proportionnelles la colonne total . Pour le vrifier, il suffit de calculer deux
colonnes fictives, dans lesquelles les individus choisissent les produits dans
la mme proportion quel que soit leur ge.
Ainsi, les moins de 25 ans reprsentent 55% des effectifs totaux. Donc, si lge na
pas dinfluence sur le choix du produit, les choix de chaque produit A, B, C et D par
les moins de 25 ans devraient correspondre 55% de leffectif total de chaque
produit. Par exemple, il y a 25 personnes qui ont achet le produit A. Si lge na pas
dinfluence sur le choix, le nombre de jeunes devrait tre gal 55% de 25, soit
13,75. Il sagit videmment dun effectif thorique car les personnes ne peuvent
pas tre coupes en morceaux . En appliquant ce principe toutes les donnes
du tableau, on obtient :
On voit ds prsent que les effectifs rels ne sont pas gaux aux effectifs
attendus ou thoriques . Il se peut donc que lge ait une influence sur le
choix du produit. Mais dans quelle mesure ?
Il faut maintenant calculer les diffrences entre les effectifs rels et les effectifs
attendus ou thoriques, puis porter cette diffrence au carr et la diviser par leffectif
thorique, et enfin additionner les huit chiffres ainsi obtenus.
En dautres termes, il faut appliquer la formule suivante :
166
Pour faciliter les calculs, disposons-les dans le tableau suivant :
Une fois que lon connat le khi carr calcul, on doit le comparer avec la valeur du
khi-deux issue de la distribution du khi carr (voir le tableau ci-aprs).
Pour trouver cette valeur dans le tableau, nous devons prendre en compte deux
informations supplmentaires :
Le nombre de degrs de libert qui se calcule ainsi :

Degrs de libert = nombre dobservations - nombre de dimensions
Ici, il y a 8 observations (les huit chiffres du tableau) et deux dimensions (lge et le

le produit choisi), ce qui donne un degr de libert gal 8-2 = 6.
Ensuite, nous devons choisir la probabilit de fiabilit du test : 5% de chances

de se tromper, 1% ou 1 pour 1000. Nous allons choisir 5%, soit P = 0,05.
Nous avons donc 6 degrs de libert et une probabilit de fiabilit du test de P=0,05.
Par consquent, nous voyons dans la table que :
Il nous reste maintenant comparer le chi-carr calcul et le khi carr thorique, issu
de la table :
167
Degrs de
libert
P=0,05
P=0,01
P=0,001
Degrs de
libert
P=0,05
P=0,01
P=0,001
Source de la table : http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html
168
Etant donn que le chi-carr thorique est infrieur au khi carr calcul, nous
pouvons conclure que la rpartition des prfrences est suffisamment diffrente
dune rpartition homogne pour quon puisse raisonnablement se fier lide que
l'ge a une influence sur le choix du produit. Notre observation initiale sur la base
de lchantillon est donc probablement vraie lextrieur de lchantillon (avec 5% de
chances de nous tromper). Si lon crot ce type de test, on pourrait donc cibler des
publicits pour les jeunes pour mieux vendre les produits C et D et cibler des
publicits pour les moins jeunes pour mieux vendre les produits A et B. Il devrait
alors en rsulter une augmentation des ventes la fois pour les produits destins
aux jeunes (C et D) et pour les produits destins aux moins jeunes (A et B). Bien
sr, le test nest pas fiable 100%. Il y a toujours 5% de chances de se tromper.
Mais lon peut juger que cette marge derreur est suffisamment faible pour dcider
dune politique de marketing en fonction des rsultats. On peut aussi, choisir de
refaire le test en choisissant P =0,001. Dans ce cas, il ny a plus quune chance sur
1000 de se tromper et la valeur du khi-carr thorique passe 22,46, valeur qui
reste infrieure au chi-carr calcul et qui aboutit donc la mme conclusion, avec
une fiabilit renforce.
Si en revanche le chi-carr thorique avait t suprieur au khi carr calcul, alors
nous naurions pas pu conclure avec suffisamment de certitude que,
indpendamment de notre chantillon, l'ge a une influence sur le choix du
produit
169
Chapitre 7
Courbe de LORENZ et coefficient de GINI
1 Introduction
2 La courbe de LORENZ
A Lexemple de la rpartition des PIB au sein de lUE 27
B Lutilit de la courbe de LORENZ pour les comparaisons
C Cas Gnral
3 Le coefficient de GINI
A Dfinition
B Formules de calcul
C - Exemple
1 Introduction
Max Otto LORENZ (1880 -1962) est lconomiste amricain qui inventa le concept
de courbe de LORENZ en 1905. Il sagissait pour lui de dcrire et de mesurer les
ingalits de revenu. Par la suite, cette courbe quil fut le premier utiliser servit plus
gnralement mesurer la faon dont se rpartit une masse (salariale, de revenus,
de richesses, etc.) au sein dun population pour se faire une ide du caractre plus
ou moins galitaire de la rpartition de ces masses au sein de la population et
comparer ainsi diffrentes populations entre elles ou comparer la distribution dune
masse au sein dune population en deux ou plusieurs points du temps afin de savoir
si lingalit augmente ou diminue19.
Corrado GINI (1884 -1965) est le statisticien, dmographe, ethnologue, sociologue
et idologue italien qui on doit le coefficient de GINI une mesure de l'ingalit
associ la la courbe de LORENZ.
En pratique, lorsquon sintresse la rpartition dune masse de revenus ou de
richesse au sein dune population, on trace dabord une courbe de LORENZ afin
davoir une ide visuelle de lgalit ou de lingalit de cette rpartition. Ensuite, si
lon dsire rsumer cette ingalit par un chiffre, on calcule le coefficient de GINI.
2 La courbe de LORENZ
A Lexemple de la rpartition des PIB au sein de lUE 27
Pour introduire la courbe de LORENZ, prenons lexemple de la rpartition des PIB
au sein de lUE 27. Ci-aprs, un extrait du tableau 1, o les 27 pays de lUE ont
t classs par ordre de PIB dcroissant (colonne 2).
La colonne 3 est simplement un cumul des pays de 0 27. La colonne 4 est un
cumul des PIB des pays.
19
Lexpression courbe de LORENZ a probablement t utilise pour la premire fois en 1912

dans le manuel de W. I. KING, The Elements of Statistical Method. New York: Macmillan.
170
La colonne 5 reprend les chiffres de la colonne 3 diviss par 27 (nombre total des
pays) et multipli par 100.
La colonne 6 reprend les chiffres de la colonne 4 diviss par 13847 (PIB total de lUE
27) et multipli par 100.
Les chiffres des colonnes 5 et 6 nous permettent dvaluer lampleur de lingalit de
la production de richesse au sein des pays de lUE 27
Tableau pour la construction dune courbe de LORENZ
de la rpartition des PIB au sein de lUE 27
Le graphique ci-aprs reprsente une courbe de LORENZ. En abscisse, cest le

pourcentage cumul de la population qui est mesur (ici cest le pourcentage cumul
des 27 pays). En ordonne, cest le pourcentage cumul des PIB qui est mesur.
La courbe de LORENZ sinscrit donc dans un carr. Pour apprcier lingalit, on doit
comparer cette courbe (en rouge sur le graphique) avec la droite dgalit parfaite
qui correspond la diagonale (droite en vert).
Si les PIB taient parfaitement distribus 50% des pays produiraient 50% du PIB
total de lUE 27. Or, cest loin dtre la cas puisque les 50% pays les plus pauvres
en termes de PIB total ne produisent que pniblement environ 7% du PIB total de
lUE 27. Pour atteindre 50% de la production de lUE, il faut mettre contribution
90% des pays ! A elle-seule, lAllemagne cr plus de 20% de la richesse annuelle
de lUE 27.
171
Courbe de LORENZ de la rpartition des PIB de lUE 27 en 2006
B Lutilit de la courbe de LORENZ pour les comparaisons

Soit maintenant un autre exemple concernant cette fois la masse salariale des deux
filiales A et B dune entreprise et sa rpartition entre les salaris. Pour simplifier,
nous supposons quil y a 20 salaris dans chaque entreprise. Les salaires mensuels
en euros sont donns par le tableau ci-aprs qui dtaille galement les calculs des
deux sries ncessaires au trac de la courbe de LORENZ.
172
Comparaisons de la distribution des salaires dans les filiales A et B dune entreprise XXX
et calculs ncessaires pour le trac de la courbe de LORENZ
Courbes de LORENZ des salaires des filiales A et B
Sur le graphique ci-dessus, on constate que cest la courbe de LORENZ de la filiale

B qui est la plus proche de la droite dgalit parfaite. Cest donc dans la filiale B que
lingalit de la rpartition des salaires est la moins grande. Par exemple, on voit que
dans la filiale A, 50% des salaris reoivent seulement 22% de la masse salariale,
alors que dans la filiale B, 50 % des salaris reoivent 33% de la masse salariale
(voir les chiffres encadrs dans le tableau prcdent). Si la distribution tait
parfaitement galitaire, 50% des salaris devraient recevoir 50% de la masse
salariale20.
C Cas gnral
De faon gnrale, plus une courbe de LORENZ se rapproche de la droite dgalit
parfaite et plus la rpartition de la masse considre au sein de la population est
galitaire. En effet, dans ce cas, la masse (des salaires, de la richesse, du revenu,
etc.) est peu concentre sur quelques uns.
20
Une dmonstration vido de construction dune courbe de LORENZ avec EXCEL 2007
disponible sur You Tube : http://fr.youtube.com/watch?v=UeHUhDyHGjQ
est
Inversement, plus une courbe de LORENZ sloigne de la droite dgalit parfaite et

plus la rpartition de la masse considre au sein de la population est ingalitaire car
la masse (des salaires, de la richesse, du revenu) est alors concentre sur un petit
nombre dunits statistiques.
175
3 cas typiques, dont les deux cas limites, sont reprsents par les graphiques ci-dessous
3 Le coefficient de GINI
A Dfinition
Le coefficient de Corrado GINI (1884 -1965) est une mesure de l'ingalit associ
la courbe de LORENZ. Il est donn par la formule :
O A reprsente la surface comprise entre la courbe de LORENZ et la droite

dgalit parfaite et B reprsente la surface situe sous la droite dgalit parfaite
moins la surface A.
Le coefficient de GINI est compris entre zro et 1. En cas dgalit parfaite, il est gal
zro (car A=0). En cas dingalit totale il est gal 1, car B=0. Par consquent,
mesure que G augmente de zro 1, lingalit de la rpartition augmente. Le
coefficient de GINI permet ainsi de faire de nombreuses comparaisons.
Sachant que a courbe de LORENZ est inscrite dans un carr de 1 x 1, on voit que la
surface A+B est gale la moiti de cette surface. On a donc :
On peut de ce fait crire :
De plus, comme :
De ce fait on peut crire que :
B Formules de calcul
Il existe plusieurs formules de calcul du coefficient de GINI. Nous adopterons lune
des plus utilises qui est donne dans la notice explicative de la Banque mondiale
pour le calcul de lingalit des rpartitions21, parfois dite formule de BROWN .
Cette formule scrit :
o X est la part cumule de la population, et Y la part cumule de la masse

rpartir. Dans le cas qui nous intresse ici, comme les donnes sont connues
individuellement cette formule peut se simplifier :
O n reprsente le nombre dunits statistiques (la population).

Nous allons voir que ces deux formules donnent des rsultats identiques.
C Exemple
Reprenons lexemple des deux filiales de la mme entreprise et calculons dabord les
deux coefficients de GINI laide la premire formule, soit :
Les 2 tableaux ci-aprs montrent comment les calculs doivent tre disposs pour
parvenir rapidement au rsultat.
21
Voir http://info.worldbank.org/etools/docs/library/103072/ch6.pdf , page 3
178
Calcul du coefficient de GINI de la filiale A selon la formule :
Calcul du coefficient de GINI de la filiale B selon la formule :
180
On constate que le coefficient de GINI de la filiale A est beaucoup plus lev que
celui de la filiale B, indiquant que la distribution de la masse salariale y est plus
ingalitaire. En effet, on a :
Coefficient de GINI de la filiale A = 0,45107
Coefficient de GINI de la filiale B = 0,27635
Voyons maintenant comment disposer les calculs en appliquant la deuxime formule
(qui est plus simple et plus rapide tout en donnant les mmes rsultats)
Calcul du coefficient de GINI de la filiale A selon la formule :
Calcul du coefficient de GINI de la filiale B selon la formule :
On constate que les coefficients de GINI de la filiale A et de la filiale B obtenus avec

la seconde formule sont identiques ceux obtenus avec la premire formule. On
pourra donc prfrer utiliser la seconde formule dans les calculs (lorsque les
donnes sont connues individuellement) car elle est la plus simple.
182
Bibliographie
A
ABELL Martha L., James P. BRASELTON & John A. RAFTER (1998), Statistics with
mathematica , Academic Press.
ALBARELLO, Luc, Jean-Luc GUYOT et Etienne BOURGEOIS (2002), Statistique
descriptive , De Boeck
AVENEL, Jean-David (1999), Statistique descriptive : Cours et exercices corrigs ,
Dunod.
B
BADIA, Jacques, Ren BASTIDA et Jean-Robert HAIT (1997), Statistique sans
mathmatique , Ellipses
BAILLY, Pierre (1999), Statistique descriptive , Presses Universitaires de Grenoble
BEAUFILS, Batrice (1996) , Statistiques appliques la psychologie. Statistiques
descriptives, tome 1 , ditions Bral.
BLUMAN, Allan (2005), Elementary Statistics: A Step by Step Approach , Mc Graw
Hill Publishing Company
BOUNDFORD, Trevor et Alaister CAMPBELL (2000), Digital Diagrams , WatsonGuptill Publications.
BOURSIN, Jean-Louis (2000), La statistique pour l'conomie et la gestion: QCM ,
EJA/Gualino.
C
CALOT, Grard (1969), Cours de statistique descriptive , Dunod.
CHAUVAT, Grard et Jean-Philippe REAU (1995), Statistique descriptive , Hachette
Suprieur.
D
DAGNELIE, Pierre (1998), Statistique thorique et applique. Statistique descriptive
et bases de l'infrence statistique, tome 1 , De Boeck
DELMAS, Bernard (2005), Statistique descriptive , Armand Colin, Fac conomie
de BERNONVILLE, Dug (1939), Initiation l'analyse statistique , Librairie de Droit
et de Jurisprudence.
DUTHIL, Grard (1998), Initiation la statistique descriptive , Ellipse Marketing
183
G
GEORGIN, Jean-Pierre et Michel GOUET, Statistiques avec Excel : Descriptives,
tests paramtriques et non paramtriques partir de la version Excel 2000
(1Cdrom) , Presses Universitaires de Rennes.
GONICK larry et Woollcott SMITH (1993), The Cartoon Guide to Statistics ,
HarperCollins Publishers
GOULET, DRETZKE (2004), Statistiques avec Microsoft Excel , Reynald et Goulet
diteur.
GRAIS, Bernard (2003), Statistique descriptive : Techniques statistiques , Dunod.
GUEGUEN, Nicolas (2005), Statistiques pour psychologues : Cours et exercices ,
Dunod.
H
HAND, D.J. (1993), A Handbook of Small Data Sets , Chapman & Hall.
HUFF, Darrell et Irving GEIS (1993), How to Lie With Statistics , W. W. Norton &
Company
HOWELL, David (1998), Mthodes statistiques en sciences humaines , De Boeck.
I
INSEE (2005), Tableaux de l'conomie franaise , INSEE Editeur, Collection
"Rfrences".
J
JAISINGH, Lloyd R. (2005), Statistics for the Utterly Confused , McGraw-Hill.
JANVIER, Michel (1999), Statistique descriptive : Avec ou sans tableur, cours et
exercices corrigs , Dunod.
JONES, Gerald, E. (1995), How to Lie With Charts , Sybex
K
KAZMIER, Leonard (2003), Business Statistics: Based on Schaum's Outline of
Theory and Problems of Business Statistics, Third Edition , Schaum/McGraw Hill
Publishing Company.
184
L
LETHIELLEUX, Maurice (2003), Statistique descriptive , ditions Dunod, Collection
"Express".
M
MASSONI, Andr (2002),Initiation aux statistiques descriptives avec Excel. 2me
dition , Vuibert.
.
MILNE, P. H. (1992), Presentation Graphics For Engineering, Science And Business ,
Spon (Chapman & Hall)
MONINO, Jean-Louis, Jean-Michel KOSIANSKI et Franois LE CORNU (2004),
Statistique descriptive : Travaux dirigs , Dunod.
MOORE, David, S. et George P. McCABE (2002), Introduction to the Practice of
Statistics , 4me dition, W.H. Freeman & Company.
P
PIATIER, Andr (1966), Statistique, statistique descriptive et initiation l'analyse ,
Puf, Presses Universitaires de France, Collection Thmis, Manuels Juridiques,
Economiques et Politiques .
PILLER, Alain (2004), Statistique descriptive : Manuel d'exercices corrigs avec
rappels de cours , ditions Premium.
PY, Bernard (2007), La statistique sans formule mathmatique , 1re dition, Pearson
Education.
PY, Bernard (2007), Statistique descriptive : nouvelle mthode pour comprendre et
bien russir 5me dition, Economica.
PY, Bernard (2007), Exercices corrigs de statistique descriptive : Problmes,
exercices et QCM , 3me dition revue et augmente, Economica.
R
REUCHLIN, Maurice (1998), Prcis de statistique : Prsentation notionnelle, 7e
dition , PUF.
RODRIGUEZ, Marc et Michel TERRAZA (1998), Statistique descriptive: 30 exercices
corrigs , EJA/gualino.
RUMSEY, Deborah (2003), Statistics for Dummies , Wiley Publishing inc. Site
internet de la collection "... for dummies" : Etats-Unis. Voir aussi la page Web du
livre.
185
S
SCHARLIG, Alain (1997), Faire parler les chiffres: La statistique descriptive au
service de la gestion , Presses Polytechniques et Universitaires Romandes (PPUR)
SLAVIN, Steve (1998), Chances Are: The Only Statistics Book You'll Ever Need ,
Madison Books
SPIEGEL, Murray et Larry STEPHENS, Statistique: Cours et problmes , 3me
dition, Srie Schaum/McGraw Hill
T
TUFTE, Edward (2001), The Visual Display of Quantitative Information , Graphics
Press. Voir le site internet de Edward TUFTE.
V
VOELKLER, David, Peter ORTON et Scott ADAMS (2001), Cliffsquickreview
Statistics , Hungry Minds
W
WAINER, Howard (2005), Graphic Discovery: A Trout in the Milk and Other Visual
Adventures , Princeton University Press.
WILKINSON Leyland, S. (1999), The Grammar of Graphics , Springer.
Z
ZELAZNY, Gene (2001), Say it with Charts : The Executive's Guide to Visual
Communication , McGraw-Hill
186
Sites internet utiles

Le cours de statistiques descriptives de Daniel MIRZA :
http://perso.univ-rennes1.fr/daniel.mirza/
Le cours de Daniel GRAU. Trs bien fait : http://www.iutbayonne.univ-pau.fr/~grau/ .
Il explique notamment comment tracer une courbe de LORENZ sous EXCEL
Le cours du Dr. Hossein ARSHAM, de l'Universit de Baltimore :
http://home.ubalt.edu/ntsbarsh/
Un site pour la cration de graphiques sous Excel : http://sn1.chezalice.fr/presentation/excel.html
Statistics at square one : http://bmj.bmjjournals.com/collections/statsbk/index.shtml
Le cours de Statistiques & informatique de Jean VERONIS (Universit de Provence),
avec powerpoint tlchargeables :
http://www.up.univ-mrs.fr/~veronis/cours/index.html
Techniques d'analyse quantitative de donnes I de Gilles Dupuis - (Dpartement de
psychologie de l'Universit du Qubec Montral) :
http://www.er.uqam.ca/nobel/r16424/PSY7102/
Hyperstats Online TextBook : http://davidmlane.com/hyperstat/index.html
Le cours de B. ICARD (Universit de Paris V) :
http://www.math-info.univ-paris5.fr/smel/cours/cadre_cours.html
A new view of statistics : http://www.sportsci.org/resource/stats/contents.html
Le PDF de Laurent DOYEN sur la statistique descriptive : http://www-lmc.imag.fr/lmcsms/Laurent.Doyen/StatDesc2HTML.pdf
Statistics for economists, a beginning:
http://www.economics.utoronto.ca/archives/floyd_stats/
Le cours de Patrice BOUGETTE :
http://perso.orange.fr/patrice.bougette/HTML/tdstat.htm , avec notamment un lien
vers un texte sur l'histoire des sries chronologiques (PDF).
Le cours de Pierre MAGAIN, Introduction aux mthodes quantitatives et lments de
statistiques, Institut d'Astrophysique, de gophysique et d'ocanographie de Lige :
http://www.astro.ulg.ac.be/cours/magain/stat/index.html
187
Faire des graphiques avec EXCEL : Le cours de Christine CAMPIONI (Centre de

Mathmatiques et d'informatique de Chateau-Gombert)
http://www.cmi.univ-mrs.fr/~campioni/documents/MASS/cours/Graphiques.doc
(accs direct au document word).
188

Statistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistique

Transféré par

Droits d'auteur :

Formats disponibles

Statistique Descriptive

Notes de cours 2008

Dernire mise jour le mercredi 2 avril 2008

1re anne de Licence AES Marseille & Aix

Ce cours dintroduction la statistique descriptive de niveau L1 a pour objet de

Pour toute question relative ce cours, merci de madresser un mail

Chapitre 1 : Vocabulaire de la statistique descriptive

Enfin, lconomtrie est lapplication de la statistique (descriptive et mathmatique)

Tableau 1 : Quelques statistiques macroconomiques des pays de lUE 27

Bien souvent, pour rpondre certaines questions, les calculs prcdents ne

Ce tableau a donc ncessit quelques calculs statistiques simples :

On obtient alors le tableau ci-aprs :

La statistique sert dcrire l'ensemble des units statistiques qui composent la

contient une population de 35 pays, donc 35 units

Voir le lien suivant : http://www.insee.fr/fr/recensement/nouv_recens/resultats/premiers-resultatsrecensement.htm

B Echantillons et sous-ensembles dune population

En gnral, on parle dchantillon dune population statistique quand les units

On distingue deux sortes de critres :

3 - Modes de regroupement des donnes

2) Distribution par modalits

C - Regroupement par catgories

Regroupement des pays par catgories de superficies

Dcoupage du monde en zones selon les catgories de lOMC

Source : OMC, http://www.wto.org/english/res_e/statis_e/its2007_e/its07_world_maps_e.pdf

1 Sries brutes ou vecteurs

1 Sries brutes ou vecteurs

A - sries classes et non classes

il est souvent possible de produire plusieurs graphiques partir dun mme

Il est aussi souvent possible de calculer plusieurs statistiques rsumes

Ainsi, si le tableau est rbarbatif, il est cependant trs utile.

B - Tableaux avec pourcentages

C - Tableaux avec cumuls

2) Cumuls des pourcentages

3 - Tableaux avec statistiques rsumes

Tableau de statistiques rsumes pour certaines des variables du tableau 1

Avant de construire le tableau crois, on regarde les valeurs minimales et maximales

On forme les 3 groupes de fcondit, en utilisant par exemple des couleurs

On obtient alors le tableau suivant :

On peut facilement vrifier quil sagit dun tableau en pourcentages en additionnant

Chaque chiffre de la dernire ligne ajoute (en caractre gras) reprsente le

Si maintenant on effectue la mme opration pour les trois colonnes on obtient le

Dans chaque colonne, leffectif initial a t divis par le chiffre correspondant de la

Naturellement, puisquil y a 3 catgories dindice de fcondit, il y a 3 sous

Chapitre 3 : Statistiques permettant de rsumer une srie

1 Tendance centrale et dispersion des valeurs dune variable

1 Tendance centrale et dispersion des valeurs dune variable

Ce tableau ne contient que trois statistiques rsumant les diffrentes sries du

Les statistiques qui rsument la tendance centrale dune srie ou dune

Les statistiques qui rsument la dispersion dune srie :

le faire quand on dispose des donnes brutes ou regroupes par valeurs ou

e) Mettre la srie sous forme dune distribution pour reprer le mode

Le "x" surmont d'un trait dsigne classiquement la moyenne. On remarque que la

2) La moyenne arithmtique pondre

En pratique, si le calcul de la moyenne doit tre fait sans machine calculer ni

Exemple 1 : Supposons maintenant que seule la distribution par classe de valeurs

La notation ci indique le centre de classe et o k reprsente le nombre de classes.

La marge d'erreur dpend de la dfinition des classes.

La moyenne est donc :

2) Sens du mot en statistique descriptive

Toujours se ramener une srie : Si les donnes se prsentent sous forme

Pour comprendre cette formule, il faut dabord dfinir g :

Une fois que lon a dfinit g, on peut en dduire k et f :

Si lon applique cette formule, on voit que :

Par consquent k= 10 et f = 0,5. On a donc a(k) = 3 et a(k+1)=3. Ds lors :