Académique Documents
Professionnel Documents
Culture Documents
Master AGPS
lment 424b
Introduction la statistique descriptive
Anne 2010/2011
Statistique 1
Annexes
Annexe 1 : Prcision et explication sur une notation spcifique en statistique : somme et produit
Annexe 2 : Liste (non exhaustives) des fonctions Excel utiles en statistiques descriptive
Annexe 3 : Activer la macro histogramme dans Excel
Annexe 4 : Tableau crois dynamique dans Excel : utilisation et complments
Statistique 1
Chapitre 1
1. Dfinitions, terminologie et notation
1.1 Quest-ce-que la statistique ?
Il n'existe pas de dfinition universelle et totalement aboutie de la statistique. Celles prsentes ci-aprs
donnent un aperu des diffrentes facettes que peut revtir le terme statistique en tant que science.
La statistique cest la science des grands nombres regroupant l'ensemble de mthodes mathmatiques qui,
partir du recueil et de l'analyse de donnes relles, permettent l'laboration de modles probabilistes
autorisant les prvisions. (Larousse).
On peroit dans cette premire dfinitions plusieurs termes et notions fondamentales propres la
statistique : le recueil sous-entend la collecte qui elle-mme suppose dans bien des cas la ralisation d'une
enqute ou d'un sondage. Enqute et sondage impose l'chantillonnage en vue de l'infrence 1 .
L'analyse des donnes suppose la manipulation de tableaux ou grands ensembles de donnes qu'il s'agira
de dcrire et de rsumer tout en accompagnant cette opration de reprsentations graphiques et
cartographiques.
La notion de modles probabilistes sous-entend une certaine matrise de l'incertitude dans le but de raliser
des prvisions ou de pratiquer l'infrence.
Autre dfinition, moins acadmique celle-ci :
la statistique est un ensemble de mthodes permettant de prendre une bonne dcision face lincertitude
(Wallis & Roberts, The Nature of Statistics)
Cest aussi un ensemble doutils et de mthodes qui permettent de synthtiser et de rsumer des grands
volumes de donnes, des grandes matrices dinformations.
On voit se dessiner ici les deux principales branches de la statistique :
La statistique descriptive
1 Infrence: Opration intellectuelle par laquelle on passe d'une vrit une autre vrit, juge telle en raison de son lien avec la
premire. La dduction est une infrence.
Rgles d'infrence, celles qui permettent, dans une thorie dductive, de conclure la vrit d'une proposition partir d'une ou de
plusieurs propositions, prises comme hypothses. En statistique, l'infrence est une opration qui permet de gnraliser une
population mre les proprits et conclusions observes partie d'un chantillon reprsentatif de cette population mre
Ensemble des mthodes permettant de dcrire une population par le biais des individus qui la composent. La statistique
descriptive sintresse donc dcrire et caractriser un ensemble dindividus reprsent la plupart du temps sous la
forme de tableaux (tableaux de donnes), rsumer et synthtiser ces tableaux par lintermdiaire de graphiques et de
paramtres appropris (frquences, distribution, moyenne, dispersion, etc.). Elle sattachera ventuellement
rechercher des corrlations (liaisons statistiques) entre les lments de ces tableaux (variables et individus).
Exemple :
Les tempratures moyennes mensuelles Strasbourg sur la priode 1971-2000
Tempratures moyennes
mensuelles (C)
Jan.
Fv.
Mars
Avr.
Mai
Juin
Juil.
Aot
Sept.
Oct.
Nov.
Dc.
Normales
1,6
2,8
6,7
9,7
14,3
17,3
19,5
19,3
15,5
10,6
5,3
2,8
Maximales
4,2
6,2
11,1
14,9
19,6
22,4
25,1
25,0
20,7
14,6
8,3
5,3
Minimales
-1,0
-0,7
2,2
4,6
9,0
12,1
13,9
13,6
10,3
6,6
2,3
0,3
xm in
Le simple passage d'un tableau de donnes plus ou moins important un graphique et/ou quelques indicateurs
pertinents telle que la moyenne constituent une opration relevant de la statistique descriptive.
Exemple :
En priode lectorale, on interroge 1 000 personnes sur leur intention de vote. A partir des rsultats obtenus sur cet
chantillon, on prvoit, avec une certaine prcision, le comportement de lensemble des lecteurs (population mre) et
par l mme, le rsultat des lections. Cest ce quon appel linfrence statistique et cest le principe mme du sondage
dopinion par exemple.
Le lien de complmentarit entre statistique infrentielle et statistique descriptive est vident : la premire collecte et
fournit la seconde la matire premire dcrire et et analyser qui, retourne la premire est extrapole.
Le prsent cours sera consacr la statistique descriptive. Mais avant de commencer, il convient de se familiariser avec
le vocabulaire et la notation universelle de la statistique.
la population europenne : ensemble des individus rsidant sur le territoire europen un moment donn.
Le parc automobile franais: ensemble des automobiles immatricules sur le territoire franais.
Le lot 9 718 du mdicament alpha : ensemble botes de alpha produit sous le n. de lot 9 718.
Le cheptel bovin de l'exploitation Martin : ensemble des bovins femelles et mles rattachs l'exploitation
agricole Martin.
Classe : il est frquent qu'une population soit divise en sous-ensembles cohrents construits partir de critres
dtermins de faon rduire la taille des tableaux de donnes et en faciliter la lecture, l'analyse et l'interprtation.
Cette division induit une regroupement des individus et la formation de classes rassemblant chacune des individus
prsentant des caractres similaires.
Classe 2
Classe 3
20-29 ans
30-39 ans
21
32
Classe 2
Classe 3
13
Classe 4
Classe 5
Classe 6
Classe 7
26
19
14
Ou
Classe 1
Classe 4
53
57
33
Plusieurs critres peuvent tre utiliss simultanment pour former des classes ou sous-populations comme par exemple
l'ge et le sexe :
Age
Sexe
&
0-19 ans
20-39
ans
40-59
ans
60 ans et
plus
26
29
19
81
27
28
14
75
13
53
57
33
N = 156
La seule contrainte rside dans le fait que la somme des effectifs par classe donne toujours l'effectif total N
Le dcoupage en classes d'une population selon un ou plusieurs critres est une opration appele discrtisation .
Celle-ci ncessite la plupart du temps une connaissance fine du phnomne tudi car sa ralisation, trs sensible aux
effets de seuils et de limites de classes, peut aboutir des rsultats dont l'interprtation peut tre diffrente
totalement oppose notamment sur le plan cartographique. La discrtisation fera l'objet d'un paragraphe particulier
dans ce cours.
Frquence : Rapport du nombre d'individus d'une population ou d'un chantillon ayant un caractre commun (=
modalit) au nombre total des individus de cette mme population ou de ce mme chantillon.
Note : pour davantage de prcisions et d'explication concernant la notation ci-aprs
utilise, on se reportera l'annexe 1 en fin du prsent document
Exemple:
En 1999, une commune quelconque comptait 393 mnages. 108 d'entre eux taient composs d'une seule personne
soit une frquence de : 108 / 393 = 0,275. Cette frquence, galement appele frquence relative, peut tre exprime en
pourcentage soit 0,275 x 100 = 27,5 %. On la note F quand elle brute et
L'effectif d'une modalit, ou nombre de fois qu'apparat une modalit dans une population, est appel frquence
absolue note f . Dans notre cas, le nombre de fois o apparat la modalit mnage compos d'une seule personne
est 108. A noter que la somme des frquences absolues des modalits donne le nombre total N d'individus d'une
population (le symbole signifiant somme (pour davantage de prcision, se reporter l'annexe 1)) :
n
f i = f 1 f 2 f 3... f i... f n = N
i=1
La frquence relative est donc le rapport de la frquence absolue d'une modalit la population totale (N) soit :
F = Nf
Frquence relative :
l'ensemble des frquences pour toutes les modalits des individus d'une population ou d'un chantillon forme
l'histogramme des frquences. L'histogramme n'est autre chose que le graphique figurant la distribution des
frquences pour un phnomne donn. La somme des frquences, pour une population ou un chantillon donn, est
toujours gale 1 :
F1
F2
Fi
Fn
Exemple:
Reprenons notre commune. Relativement la variable mnages , 5 modalits ont t retenues:
Modalit 1 : mnages composs d' 1 personne
Modalit 2 : mnages composs de 2 personnes
Modalit 3 : mnages composs de 3 personnes
Modalit 4 : mnages composs de 4 personnes
Modalit 5 : mnages composs de 5 personnes et plus
Pour chacune de ces modalits nous avons une frquence absolue et une frquence relative
Modalit 1
Mnages 1
pers.
Frquence
absolue fi
Modalit 2
mnages 2
pers.
f1 = 108
Modalit 3
mnages 3
pers.
f2 = 130
Modalit 4
mnages 4
pers.
f3 = 72
Modalit 5
mnages 5
pers. et plus
f4 = 48
Fi
i=1
5
f5 = 35
f i=393
i=1
Frquence
relative Fi
F1 = 0,275
(108/393)
F2 =0,331
(130/393)
F3 =0,183
(72/393)
F4 =0,122
(48/393)
F5 =0,089
(35/393)
F i=1
i=1
Frquence
relative en
pourcentage
Fi%
F3% = 18,3 %
F4% = 12,2 %
F5% = 8,9 %
(F1 x 100)
(F3 x 100)
(F4 x 100)
(F5 x 100)
(F2 x 100)
F i %=100
i=1
fi
i =1
108
130
72
48
35
Distribution : Selon le Petit Larousse, ensemble des donnes d'une srie statistique associes un ou plusieurs
caractres. Faon dont les individus d'une population se rpartissent en fonction d'une ou plusieurs modalits.
Exemple :
Distribution d'une population de 120 individus (Id) selon la couleur des yeux (Cy) :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Cy
Br
Br
Bl
Br
Bl
Br
Br
Vr
Br
Bl
Br
Bl
Au
Br
Br
Bl
Au
Br
Vr
Br
Id
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
Cy
Bl
Au
Br
Br
Bl
Au
Br
Bl
Br
Br
Br
Br
Bl
Vr
Bl
Br
Br
Bl
Br
Bl
Id
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Cy
Vr
Bl
Au
Br
Br
Br
Bl
Br
Br
Bl
Vr
Br
Br
Au
Bl
Vr
Br
Bl
Br
Br
fi
Fi %
Bruns (Br.)
61
50,8
Bleus (Bl.)
32
26,6
Verts (Vr.)
14
11,6
Autre (Au.)
13
10,8
120
100
Couleur yeux
Id
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
Cy
Vr
Br
Br
Vr
Au
Br
Bl
Br
Au
Bl
Vr
Br
Br
Au
Br
Br
Bl
Br
Bl
Br
Id
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
Cy
Bl
Vr
Br
Br
Bl
Au
Br
Br
Vr
Bl
Vr
Au
Br
Br
Bl
Br
Bl
Br
Br
Br
Id
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Cy
Br
Br
Vr
Bl
Br
Br
Au
Bl
Br
Bl
Br
Vr
Bl
Br
Br
Au
Vr
Bl
Bl
Br
0,60
0,50
Frquence relative
Id
0,40
0,30
0,20
Distribution de la population
pour la variable couleur des
yeux et son histogramme
0,10
0,00
Brun
Bleu
Vert
Autre
Une distribution se reprsente la plupart du temps sous forme graphique soit partir des donnes brutes, c'est--dire
non regroupes en classes, soit partir des donnes classifies, discrtises. Dans les deux cas, le graphique construit
porte le mme nom: l'Histogramme. Un histogramme figure toujours des frquences, qu'elles soient absolues ou
relatives.
Moyenne : pour une variable donne, la moyenne correspond la somme des valeurs d'une population
d'une modalit) divise par le nombre de valeurs N de ladite population (ou de ladite modalit).
Exemple: prix au m du foncier btir observ sur la commune de Besanon.
10
xi
(ou
Parcelle
p1
78,24
p2
81,15
p3
69,65
p4
101,54
p5
97,89
p6
77,23
p7
54,56
p8
98,21
p9
65,32
p10
113,33
p11
108,79
p12
93,66
p13
99,45
N = 13
13
pi =1139,02
i =1
13
pi
i=1
13
1
p = 1139,02 over 13 = 87,62 /m
N i=1 i
Formulation /
notation
lecture
Grand N
Petit n
Moyenne de la variable x
X barre
Somme des x
xi
Somme des
Ecart-type de la variable x
Ecart-type de x ou sigma x
Variance de la variable x
2x
Produite des
i=1
Coefficient de corrlation
pour i = 1 jusqu' n
xi
Produit des
i=1
Coefficient de dtermination
xi
xi
pour i = 1 jusqu' n
R carr
Frquence absolue
Petit f
Frquence relative
Grand F ou F majuscule
Chapitre 2
2. Types de donnes et tableaux statistiques
2.1 Types et proprits de la donne
Les donnes manipules en statistique (lors de la collecte et/ou lors du l'analyse) peuvent se prsenter sous
diffrentes formes. Ces formes, reflets des proprits intrinsques de la donne, influent de faon dcisive sur la
manire de reprsenter celle-ci et sur les types de traitements qui pourront lui tre appliqus en vue de son analyse.
On distingue trois proprits fondamentales qui permettent de caractriser prcisment la donne. Ce sont:
A chaque donne, chaque variable sont ncessairement rattaches ces trois proprits.
Type
Qualitative
Quantitative
Echelle de mesure
Nominale
Ordinale
Discrte
Discrte
Intervalle
Proportionnelle
Nature
Discrte
Continue
Discrte
Continue
12
Exemple: le sexe
Une personne ne peut pas appartenir des sexes diffrents en mme temps et ne peut, en
thorie, pas en changer (unicit) . Le fait d'tre, par exemple, du sexe fminin l'exclue
automatiquement des autres modalits que peut prendre la variable sexe (exclusivit).
Les donnes et variables qualitatives peuvent se prsenter sous deux formes deux diffrentes: la forme
nominale ou la forme ordinale.
La forme qualitative nominale : une variable est dite qualitative nominale quand ses valeurs sont des
lments d'une catgorie type nom non hirarchique. En d'autres termes, ses lments ne peuvent pas
se ranger dans une gradation logique, selon une hirarchie naturelle. La donne qualitative nominale ne
peut donc tre apprhende qu' travers des modalits entre lesquelles il n'existe aucune relation
d'ordre
Exemple : la variable couleur est de type qualitative nominale, les valeurs pouvant tre
prises par celle-ci tant bien de type nom (vert, jaune, noir, rouge, ) sans qu'aucune
hirarchie ne soit applicable entre les modalits recenses (on peut en aucun cas crire jaune
> rouge ou vert = noir).
La forme qualitative ordinale : une variable qualitative ordinale possde toutes les proprits de la
variable qualitative nominale avec en plus la possibilit de positionner et de hirarchiser les individus
entre eux selon la valeur attache leur caractre. En d'autres termes, il sera possible de ranger dans
une gradation logique, selon une hirarchie naturelle, les individus de la population tudie pour le
caractre retenu. D'une faon gnrale, la forme qualitative ordinale fait rfrence des caractres non
mesurables mais dont on sait que les modalits renferment une notion d'ordre, ou bien des variables
quantitatives ayant fait l'objet d'une classification. Les oprations autorises pour l'chelle qualitative
ordinale sont, en plus du comptage par modalit (frquences absolues et frquences relatives et mode),
la mdiane.
Exemple : la variable niveau de confort d'un logement est de type qualitative ordinale, les
valeurs pouvant tre prises par celle-ci tant bien de type nom (mdiocre, moyen, bon, trs
bon) et une hirarchie existe entre les modalits dfinies sans pour autant que l'on puisse
mesurer de faon infaillible le niveau de confort : il n'existe pas de conforomtre ni d'unit
de mesure du paramtre confort au demeurant trs subjectif. Le caractre ordinal de la
variable permet cependant d'crire bon > mdiocre ou moyen < trs bon. L'poque de
construction des logements est galement une variable qualitative ordinale.
Une variable qualitative, qu'elle soit nominale ou ordinale, est toujours de nature discrte, contrairement une
variable quantitative qui peut tre soit de nature discrte, soit de nature continue.
Dfinition : variable discrte
Une variable est dite discrte quand elle prendre un nombre fini ou dnombrable de valeurs. En
d'autres termes, le passage d'une modalit une autre est brutal , sans continuit, sans
glissement progressif. C'est typiquement le cas des variables qualitatives nominales et ordinales
pour lesquelles la transitions entre modalits se ralise sans nuance, abruptement.
Exemple: la variable catgorie socioprofessionnelle est une variable
qualitative nominative discrte. En effet, le nombre de valeurs qu'elle peut
prendre est fini (ou dnombrable) et la transition entre modalit, par
13
rfrence une unit de mesure reconnue. Pour cette raison, elles sont quelques fois qualifies de
variables mtriques. La taille, le poids, la surface, la distance, le revenu, l'ge, le chiffre d'affaire ou bien
encore la population (dans le sens du nombre d'habitants) sont des variables quantitatives.
Variables
Unit de mesure
Taille
Mtre
Poids
Kilogramme
Surface
Mtre carr
Distance
Mtre
Revenu
Euros
Age
Anne
Chiffre d'affaire
Euros
Loyer
Euros/mois
Population
Nombre d'habitants
Toutes les oprations arithmtiques simples et complexes sont applicables aux variables quantitatives,
du dnombrement (frquences absolues) et autre calcul de pourcentage (frquences relatives) en
passant par la moyenne, la mdiane et l'cart-type jusqu' la modlisation numrique.
Exemple: le loyer d'un logement
Au-del de la qualification d'un loyer (bon march, correct, cher ou trs cher) qui en fait alors
une variable qualitative ordinale, le loyer demeure une variable mesurable objectivement selon
une unit de mesure reconnue : le prix exprim en euros par mois ou en euros par mois et par
m. On peut l'additionner, en calculer la moyenne et l'cart-type, en regrouper les valeurs pour
former des classes et mme le modliser.
Tout comme la donne qualitative, la donne quantitative peut se prsenter sous diffrentes formes. On
en dnombre trois, de la plus simple la plus complexe : la forme (ou l'chelle) ordinale, l'chelle
d'intervalles et l'chelle proportionnelle ou chelle de rapport.
La forme quantitative ordinale : Nous aborderons que succinctement l'chelle quantitative ordinale
dj voque dans le cas des variables qualitatives. Applique aux variables quantitatives, la forme
ordinale revt les mmes caractristiques. Elle s'applique en fait aux variables quantitatives pour
lesquelles un regroupement par classes a t opr (par ex. le regroupement d'individus par classes
14
d'ge ou classes de taille, le regroupement de villes selon leur taille ou bien encore le regroupement de
parcelles foncires selon leur prix au m). Mme si l'chelle ordinale est aborde dans la paragraphe
traitant des donnes quantitatives, il faut tre conscient du fait que la transformation que l'on fait subir
une variable quantitative en en regroupant les valeurs l'intrieur de classes a pour effet de
transformer celle-ci en variable qualitative ordinale discrte
Exemple: le prix du foncier constructible par classe
Le prix du foncier au m demeure fondamentalement une variable quantitative continue. Mais
comme cela peut tre le cas lorsque les donnes sont nombreuses et lorsque que l'on souhaite
cartographier le phnomne, on est amen regrouper ces valeurs sous forme de classes afin
d'en amliorer la lecture et l'analyse. Cette transformation contribue modifier les proprits
de la variable: de quantitative continue elle devient qualitative ordinale discrte
Parcelle
p1
78,24
p2
81,15
p3
69,65
p4
101,54
p5
97,89
p6
77,23
p7
54,56
p8
98,21
p9
65,32
p10
113,33
...
...
p124
108,79
p125
93,66
Effectif
(frquence
absolue)
Frquence
relative
(%)
< 50 /m
13
10,4
de 50 74,99 /m
29
23,2
de 75 99,99 /m
57
45,6
>= 100 /m
25
20,0
125
100,0
Total
Le processus qui vise la fabrication des classes (ou discrtisation) est une opration dlicate qui sera
aborde plus avant.
L'chelle d'intervalle : cette forme concerne les donnes et variables se rfrant des units de mesure
constantes mais dont le point zro est fix arbitrairement ne correspondant en rien l'absence de
phnomne. L'exemple le plus significatif pour ce cas est celui de la temprature: l'unit de mesure est
constante une fois le systme de rfrence dfini (Celsius ou Fahrenheit) et le zro est totalement
arbitraire : dans le cas du systme Celsuis C le zro correspond la temprature de conglation de l'eau
alors que dans le cas du systme Fahrenheit F, le zro quivaut la temprature de solidification d'un
15
mlange part gal d'eau et de chlorure d'ammonium (Fahrenheit , 1724). Profitant du caractre
quantitatif de la variable temprature, une relation peut cependant tre tablie entre les deux systmes
comme suit : F = 1,8 C +32 et inversement C = (F 32) / 1,8. 0C tout comme 0F ne correspondent pas
une absence de temprature. Mme en considrant le zro absolu (0 K = - 273,15 C) , temprature la
plus basse que l'on puisse observer dans l'univers et laquelle tout mouvement molculaire et atomique
est stopp compte tenu d'un tat nergtique minimal, la temprature demeure une variable
appartenant l'chelle d'intervalle.
Une variable appartenant l'chelle d'intervalle a ceci de spcifique que les valeurs qui la composent ne
sont pas des multiples les unes de autres, et donc que les intervalles entre valeurs ne sont pas constants.
Un exemple: on a relev le 12/06/2008 Moscou une temprature de 11C. Le lendemain, on mesure une
temprature de 22 C la mme heure. Il a donc fait plus chaud le 13/12/2008 que la veille mais on ne peut
cependant pas affirmer qu'il y a fait deux fois plus chaud.
L'chelle d'intervalles, en plus des oprations arithmtique s classiques, autorise la plupart des calculs
statistiques : moyenne arithmtique, cart-type, coefficient de corrlation, variance, covariance, etc. Par
contre, elle ne permet pas le calcul de la moyenne gomtrique ou du coefficient de variation.
En dehors de la temprature, quantit d'autres variables se rfre l'chelle d'intervalles. Parmi celle-ci,
on peut citer l'chelle de Richter de mesure d'intensit des tremblements de terre, la mesure du temps
via notre calendrier grgorien,
Les variables quantitatives d'intervalle peuvent tre de nature discrte ou continue. On a vu plus haut
quoi correspondait la caractre discret de la donnes, voyons maintenant en quoi consiste sa nature
continue
16
universel. Toutes les variables faisant rfrence au Systme International d'Unit (SI norme ISO 1000)
appartiennent l'chelle de mesure dite proportionnelle (ou de rapport): c'est le cas des longueurs, des
surfaces, des poids et des comptages d'effectifs ainsi que la mesure du temps via le SI, et toutes les
variables rsultantes de la combinaison d'au moins deux des units du SI telle que la vitesse (qui n'est
qu'une expression de la distance par rapport au temps), la densit de population (effectif rapport une
surface), etc. Le zro y est universel et signifie absence de mesure ou mesure nulle, et chaque valeur non
nulle mesure est ncessairement le multiple de n'importe quelle autre valeur mesure. Exemple: on
pourra dire qu'une personne pesant 90 kg est deux fois plus lourde qu'une personne de 45 kg ou bien
encore qu'un loyer de 337,50 /mois est 1,5 fois (ou 50 %) plus lev qu'un loyer de 225 /mois.
L'chelle de rapport (ou chelle proportionnelle) possde toutes les proprits et tous les niveaux
d'informations des autres chelles plus l'immense avantage de se prter absolument toutes les
oprations arithmtiques et statistiques pouvant exister.
Une variable quantitative proportionnelle (ou de rapport) peut galement tre de nature discrte ou de
nature continue:
2.2 Transformation de variables qualitatives (ou non-mtriques) en variables quantitatives (ou mtriques)
Certains traitements et analyses sur des donnes et variables qualitatives ncessitent voire exigent que ces
dernires prsentent une forme pseudo quantitative en lieu et place de leur forme nominale . C'est
notamment le cas lorsqu'il s'agit d'utiliser des variables qualitatives dans un traitement multivari ou
simplement lorsque l'on dsire les rendre manipulables et compatibles avec des logiciels statistiques. Il faut
17
donc faire subir la variable une transformation lui confrant ce caractre pseudo numrique , une
transformation qui s'apparente davantage un codage de l'information qualitative en information numrique.
Cette transformation doit cependant respecter certaines rgles. En effet, ds lors que l'on introduit une
dimension numrique, il s'instaure naturellement une hirarchie qui doit respecter celle sous-jacente, si elle
existe, la dimension qualitative de la variable traite. C'est le cas exclusivement des variables qualitatives
ordinales. L'exemple qui suit illustre parfaitement cette rgle.
Exemple: la variable qualitative ordinale moral des mnages franais propose les cinq
modalits suivantes: Trs bon, Bon, Moyen, Mauvais et Trs mauvais. L'encodage numrique de
la variable doit se faire en respectant son caractre ordinal initial. Ce faisant, on obtient le
codage suivant:
5 = Trs bon
4 = Bon
3 = Moyen
2 = Mauvais
1 = Trs mauvais
Cela dit, il s'agit d'un codage possible parmi d'autres.
Pour ce qui est des variables qualitative nominales, donc sans hirarchie identifiable, cette rgle ne s'applique
plus comme le montre l'exemple qui suit:
Exemple: la variable qualitative nominale sexe propose les deux modalits suivantes:
Masculin et Fminin. Dans ce cas, l'encodage numrique n'a aucune hirarchie respecter mais
doit seulement reproduire la distinction entre modalits. On peut ainsi indiffremment crire:
1 = Masculin
2 = Fminin
1 = Fminin
2 = Masculin
Il est noter que les nombres affects aux modalits qualitatives en vue de leur transformation n'ont pas de
signification et ne peuvent faire l'objet d'oprations arithmtiques comme par exemple le calcul d'une somme ou d'une
moyenne. En ralit, ce sont des numros qui ne modifient en rien les proprits fondamentales rattaches aux
variables qualitatives, qu'elles soient nominales ou ordinales. La transformation d'une variable qualitative en variable
numrique ne lui confre en rien les proprits de cette dernire. C'est pourquoi on parle davantage de
transformation pseudo-numrique .
18
2.3 Transformation de variables quantitatives (ou mtriques) en variables qualitatives (ou non-mtriques)
L'opration inverse, c'est--dire la transformation d'une variable quantitative en variable qualitative, est galement
possible et mme souhaitable dans certains cas de figures mme si elle demeure plus dlicate et impose de ce fait le
respect de rgles beaucoup plus strictes.
La plupart du temps la transformation d'une variable quantitative en une variable qualitative passe la constitution de
classes partir de la distribution observe. Cette opration est appele discrtisation puisque, quelle que soit la nature
des donnes quantitatives en amont (intervalle ou de rapport, discrte ou continue), elle aboutit invitablement la
fabrication d'une variable qualitative ordinale discrte. Il est donc important d'avoir l'esprit que cette transformation
engendre une perte d'information et galement une diminution de la capacit d'analyse et traitement des donnes
puisque certains paramtres ne seront plus calculables prcisment partir d'une distribution discrte (moyenne,
cart-type, etc.). En effet, chaque classe dfinie regroupe sous une mme identit, selon un mme caractre des
individus qui l'origine se distinguaient les uns des autres par des valeurs diffrentes. On souponne ici l'importance
que revt le processus d'laboration des classes (dfinition des limites de classes, tendue des classes, nombre de
classes, etc.), le but final tant de synthtiser un volume important d'informations en limitant la perte lie la
discrtisation. Autrement dit, il s'agit de maximiser la rduction de contenu informationnelle d'une distribution en en
minimisant les pertes.
C'est un mal pour un bien et la transformation de donnes quantitatives en donnes qualitatives via la discrtisation
demeure souvent incontournable. Il est en effet souvent bien plus commode et pertinent pour la lecture, l'analyse,
l'interprtation ou la reprsentation d'un phnomne de regrouper les individus l'intrieur de classes plutt que de
s'reinter essayer de lire et d'interprter un tableau contenant des centaines voire des milliers de valeurs.
Il existe plusieurs mthodes plus ou moins complexes et labores en vue de la discrtisation d'une distribution de
valeurs sachant que pour ce faire rien ne remplace le bon sens et la connaissance que l'on a du phnomne tudi.
Lorsque cette exprience existe, les mthodes mises disposition ne sont souvent l que pour assister l'utilisateur.
Dans les autres cas, elles permettent d'orienter de faon objective la stratgie de discrtisation. Attention, certaines
des mthodes prsentes ci-aprs font appel des notions qui ne seront vues que plus tard dans le cours : c'est le cas
notamment de celle faisant appel l'cart-type.
Il existe donc trois groupes de mthodes de discrtisation:
les mthodes empiriques : bases sur l'exprience et la connaissance du phnomne tudi, elles utilisent en
plus l'allure de la distribution pour y dceler des ruptures naturelles et ainsi dlimiter les bornes des classes
crer. Cette mthode, pour partie visuelle, ncessite une bonne connaissance du phnomne traiter.
Exemple: on dispose des loyers surfaciques mensuels hors charges pour l'ensemble des logements
locatifs sociaux d'un dpartement, soit au total plus de 9 500 individus (= logements) avec, pour
chacun d'eux, des valeurs dans 5 variables (loyers, nombres de pices, surface, localisation,
financement). Au total nous disposons donc de 9 500 x 6 = 57 000 valeurs. Hormis, dans un premier,
le calcul de paramtres comme la moyenne, il semble difficile d'apprhender et d'analyser cette
masse de donnes. Rduire la taille du tableau en oprant un regroupement des valeurs selon un
systme adapt de classes apparat comme tant la meilleure solution pour y parvenir.
La connaissance du phnomne que l'on a ainsi qu'une analyse de l'histogramme de la variable
loyer nous permettent assez rapidement d'identifier les cassures naturelles pouvant servir de
limites de classes (Cf. figure 3). Le nombre de classes alors dfini est de 5, organises de la faon
suivante (il s'agit d'une possibilit parmi tant d'autres):
19
Numro de
classe
tendue ou
amplitude
criture
2,99
2,99
[0 ; 3,0[ ou Moins de 3
3,0
3,99
0,99
4,0
5,99
1,99
6,0
8,99
3,99
9,0
[9,0 ;
[ ou Plus de 9,0
Classes
Frquence
absolue
[0 ; 2,5[
Moins de 3,0
685
7,2
[2,5 ; 4,5[
De 3,0 3,99
5 359
56,3
[4,5 ; 6,0[
de 4,0 5,99
3 287
34,5
[6,0 ; 9,0[
de 6,0 8,99
142
1,5
41
0,4
[9,0 ;
Plus de 9,0
Frquence
relative (%)
A partir de l, interprtation, graphiques et cartes deviennent plus aises. Par contre, le contenu
informationnel initial s'est fortement dgrad: l o il y avait une multitude de cas de figures entre
les valeurs 3,0 et 3,99, il n'y en a plus qu'un seul aprs regroupement.
20
les mthodes par dfaut qui ne ncessitent ni une connaissance approfondie du phnomne ni une tude de
la distribution. Leur simplicit est la hauteur des approximations qu'elles gnrent et elles ont tendance, de
fait, lisser le phnomne tudi. Leur principe est simple: prenant en compte ou l'effectif total de la
population tudie ou l'amplitude totale de la distribution de la variable tudie, ces mthodes proposent,
ds lors qu'un nombre souhait de classes est dfini :
- soit une discrtisation en classes d'gale amplitude,
- soit une discrtisation en classes d'gal effectif.
Exemple: reprenons l'exemple prcdent. Nous disposions d'une population de 9 517 individus, en
l'occurrence des logements locatifs privs, pour lesquels nous connaissons les loyers et d'autres
caractristiques. La simple consultation des donnes initiales nous permet de relever la valeur
minimale et la valeur maximale de loyer pour calculer l'amplitude totale de la distribution:
Borne suprieure
Frquence
absolue
Frquence
relative
Classe 1
0,68
351
3,7
Classe 2
2,80
7 520
79,0
Classe 3
4,92
1 549
16,3
Classe 4
7,04
54
0,6
Classes 5
9,16
40
0,4
La dernire borne de la distribution doit tre gale (aux arrondis prts) la valeur maximale
observe dans la distribution (ici on 11,27 pour 11,26). Une fois les classes dlimites, il suffit,
partir de la distribution initiale, de mettre chaque individu dans la classe correspondant sa
valeur de loyer et de compter les effectifs par classe (voir tableau ci-dessus). On observe que le
rsultat obtenu est sensiblement diffrent de celui de la mthode empirique: les classes
extrmes notamment apparaissent plus faiblement reprsentes.
21
Figure 4: histogramme de la variable loyers et discrtisation selon la mthode des classes d'gale
amplitude
Borne infrieure
Borne
suprieure
Frquence
absolue
Frquence
relative
Classe 1
0,68
3,31
1903
20,0
Classe 2
3,32
3,57
1903
20,0
Classe 3
3,58
3,90
1903
20,0
Classe 4
3,91
7,79
1903
20,0
Classes 5
4,80
11,26
1903
20,0
22
Figure 5: histogramme de la variable loyers et discrtisation selon la mthode des classes d'gal
effectif
les mthodes statistiques bases sur les paramtres de tendance centrale et de dispersion
Classe 3
Classe 2
x -30 %
x -10 %
Classe 4
x +10 %
Classe 5
x +30 %
Borne
suprieure
Frquence
absolue
Frquence
relative
Classe 1
0,00
2,79
351
3,7
Classe 2
2,78
3,57
3 471
36,5
Classe 3
3,58
4,38
3 119
32,8
Classe 4
4,39
5,18
1 403
14,7
Classes 5
5,19
1 170
12,3
23
zi =
xi x
l Exercice 18 : fichier Excel associ Exercice 20 - Discrtisation.xls . Il est conseill de raliser cette exercice aprs avoir
pris connaissance du chapitre 4 sur les mesures de tendance centrale et de dispersion.
24
25
Exemple: on interroge 10 individus sur leur taille, leur poids et leur sexe. Le tableau rsultant de l'enqute comportera
L = 10 lignes et C = 3 colonnes soit 10x3 = 40 cellules = 30 donnes. Chaque donne est localisable dans le tableau par
ses coordonnes comme suit:
Taille
Poids
Sexe
Individu 1
(1,1)
(1,2)
(1,3)
Individu 2
(2,1)
(2,2)
(2,3)
Individu 3
(3,1)
(3,2)
(3,3)
Individu 4
(4,1)
(4,2)
(4,3)
Individu 5
(5,1)
(5,2)
(5,3)
Individu 6
(6,1)
(6,2)
(6,3)
Individu 7
(7,1)
(7,2)
(7,3)
Individu 8
(8,1)
(8,2)
(8,3)
Individu 9
(9,1)
(9,2)
(9,3)
Individu 10
(10,1)
(10,2)
(10,3)
Lignes
Colonnes
La dimension d'un tableau est donne par le nombre de variables se rapportant aux individus d'une mme population.
Dans notre exemple, le tableau comporte 3 dimensions (taille, poids et sexe).
Chaque individu est reprable dans l'espace de travail par un ensemble de coordonnes correspondant aux valeurs
prises par celui-ci dans chacune des variables. On parle alors de coordonnes thmatiques.
Exemple : dans le tableau qui suit, l'individu 1 a comme coordonnes thmatiques : (1,82;78,M)
Taille (m)
Poids (kg)
Sexe
Individu 1
1,82
78
Individu 2
1,67
61
Individu 3
1,71
70
Individu 4
1,75
69
Individu 5
1,88
82
Individu 6
1,69
55
Individu 7
1,72
71
Individu 8
1,90
92
Individu 9
1,85
88
Individu 10
1,64
59
Il est possible de reprsenter graphiquement les individus en fonction de leurs coordonnes thmatiques dans un
repre gomtrique (x,y) pour 2 dimensions et (x,y,z) pour 3 dimensions, sachant qu'une reprsentation graphique
n'est plus possible au-del de 3 dimensions mme si statistiquement et mathmatiquement il demeure tout fait
possible de grer et manipuler des tableaux dont la dimension est suprieure 3.
26
une 1re forme faisant correspondre individus et variable. Dans ce cas, chaque cellule du tableau contient la
valeur de la variable prise par l'individu lui correspondant. On travaille ici sur des donnes brutes qui
autorisent le calcul de la moyenne, de la mdiane, des quartiles ou bien encore de la variance.
Une 2me forme o les lignes du tableau ne correspondent plus aux individus mais aux modalits de la
variable tudie (attention, s'il s'agit d'une variable continue, une discrtisation est ncessaire). Dans ce cas
de figure, les cellules du tableau contiennent alors les effectifs relatifs chaque modalit. Le regroupement
des individus ne permet plus le calcul des paramtres de tendance centrale inhrents la distribution
initiale. Ce mode de reprsentation permet cependant, par ses aspects synthtique, une meilleure lisibilit
du phnomne. Cela est surtout vrai lorsque le nombre d'individus est important.
Les formes restent complmentaires et ncessaires dans une approche globale et complte d'un phnomne
27
Taille (m)
Poids (kg)
Sexe
Individu 1
1,82
78
Individu 2
1,67
61
Individu 3
1,71
70
Individu 4
1,75
69
Individu 5
1,88
82
Individu 6
1,69
55
Individu 7
1,72
71
Individu 8
1,90
92
Individu 9
1,85
88
Individu 10
1,64
59
Taille (m)
Poids (kg)
Sexe
1,82
Individu 1
78
Individu 1
Individu 2
1,67
Individu 2
61
Individu 2
Individu 3
1,71
Individu 3
70
Individu 3
Individu 4
1,75
Individu 4
69
Individu 4
Individu 5
1,88
Individu 5
82
Individu 5
Individu 6
1,69
Individu 6
55
Individu 6
Individu 7
1,72
Individu 7
71
Individu 7
Individu 8
1,90
Individu 8
92
Individu 8
Individu 9
1,85
Individu 9
88
Individu 9
Individu 10
1,64
Individu 10
59
Individu 10
Frquences absolues
Frquences absolues
Frquences absolues
Individu 1
Poids (kg)
Taille (m)
Sexe
Taille (m)
Individu 1
1,82
Individu 2
1,67
Individu 3
1,71
Individu 4
1,75
Individu 5
1,88
Individu 6
1,69
Individu 7
1,72
Individu 8
1,90
Individu 9
1,85
Individu 10
1,64
Frquence
absolue
Frquence
relative
Frquence
absolue cumule
Frquence
relative cumule
30%
Moins de 1,70 m
30%
de 1,70 1,79 m
30 %
60 %
1,80 m et plus
40 %
10
100 %
Total
10
100 %
28
poque de construction (Avant 1915, de 1915 1948, de 1949 1967, de 1968 1981, de 1982
Tableau 2 dimensions (ou tableau bidimensionnel) : retenons pour sa construction les 2 variables les plus
reprsentatives de la caractristique d'un parc de logement notamment dans la formation des loyers, savoir le
nombre de pices et l'poque de construction. Leur croisement, poque de construction en ligne et nombre de
pices en colonnes, aboutit un tableau crois de dimension 2 comme suit :
1 pice
2 pices
3 pices
4 pices
5 pices et +
] Avant 1915 [
407
1457
2318
2094
1602
[1915 1948 ]
161
526
857
718
555
[1949 1967 ]
387
1132
2789
2889
1555
[1968 1981 ]
331
558
908
855
530
[1982 1989 ]
251
280
333
322
295
[1999 et aprs [
108
431
870
946
601
Chaque cellule du tableau crois contient le nombre d'individus rpondant strictement aux critres des modalits
dont elle est issue. Ainsi, dans notre exemple, la cellule mise en valeur, de coordonnes (2,3), contient-elle le nombre
de logements locatifs rpondant la fois au critre 3 pices et au critre de 1915 1948 : 857 constitue le
nombre de logements locatifs composs de 3 pices et construits entre 1915 et 1948.
Tableau 3 dimensions : au tableau prcdent, il est possible de rajouter une dimension, c'est--dire une variable.
Rajoutons la variable type de logement composes des modalits Individuel et collectif . Dans la mesure o
nous sommes limits graphiquement par une reprsentation en 2 dimensions, la dimension supplmentaire doit tre
rajoute soit en ligne, soit en colonne. On dcide de la rajouter en ligne. Comme il y existe dj une dimension (ou
29
variable), celle ajoute doit y tre dcline pour chacune des modalits de la variable existante comme figur dans le
tableau qui suit; on dit alors que les dimensions sont imbriques :
1 pc
] Avant 1915
[
[1915 1948]
[1949
1967]
2 pc
3 pc
4 pc
5 pc+
Individuel
70
388
1075
1259
1207
Collectif
337
1069
1243
835
395
Individuel
26
168
375
450
415
Collectif
135
358
482
268
140
Individuel
21
116
387
758
729
366
1016
2402
2131
826
Individuel
14
48
186
429
409
Collectif
317
510
722
426
121
[1982
1989]
Individuel
19
52
118
209
256
Collectif
232
228
215
113
39
[1999 et
aprs [
Individuel
10
91
335
627
474
Collectif
98
340
535
319
127
[1968 1981]
Collectif
Le nombre total de cellules s'accrot alors que les effectifs par cellule diminue. L'information devient plus prcise mais
se rpartie en un nombre de cas de figures plus important. La cellule surligne (3,3) renseigne sur le nombre de
logements locatifs composs de 3 pices sis dans un immeuble type maison individuelle construite entre 1915 et 1948.
Tableau 4 dimensions : accroissons encore un petit peu la prcision des informations en ajoutant une 4 e variable (ou
dimension) notre tableau. De la mme faon, cette nouvelle variable peut tre place en ligne ou en colonne. Afin
d'quilibrer le tableau, nous dcidons de localiser la nouvelle variable statut et ses deux modalits (Parc Locatif
Priv (PLP) et Parc Locatif Social (PLS)) en ligne selon le mme principe que prcdemment. On obtient le tableau qui
suit. L'information devient encore plus prcise mais paralllement la lecture du tableau se complexifie, l'image de
l'intitul de chacune des cellules le composant. La cellule exemple suivie depuis le dbut de l'exercice indique que
358 individus sont des logements locatifs ayant un statut priv et composs de 3 pices sis dans une maison
individuelle construite entre 1915 et 1948.
1 pc
PLS
] Avant 1915 [
[1915 1948]
[1949 1967]
[1968 1981]
[1982 1989]
[1999 et aprs
[
2 pc
PLP
PLS
3 pc
PLP
PLS
4 pc
PLP
PLS
5 pc+
PLP
PLS
PLP
Ind.
70
10
378
12
1063
15
1244
24
1183
Coll.
33
304
67
1002
79
1164
41
794
386
Ind.
24
12
156
17
358
16
434
20
395
Coll.
13
122
31
327
80
402
25
243
16
124
Ind.
12
23
93
86
301
277
481
137
592
Coll.
169
197
701
315
1791
611
1611
520
615
211
Ind.
17
31
104
82
244
185
108
301
Coll.
179
138
323
187
539
183
294
132
59
62
Ind.
12
23
29
26
92
43
166
40
216
Coll.
41
191
99
129
97
118
49
64
19
20
Ind.
12
79
103
232
247
380
95
379
Coll.
20
78
114
226
223
312
122
197
43
84
On a fait figurer dans ces tableaux successifs des effectifs (ou frquences absolues) mais on aurait tout aussi bien pu
y faire figurer des pourcentages (ou frquences relatives). Les tableaux croiss permettent de confronter tous les
30
types de donnes entre eux (qualitatif et quantitatif) et ce, quelle que soit l'chelle de mesure (nominale, ordinale,
intervalle ou de rapport).
2 pc
PLP
PLS
3 pc
PLP
PLS
4 pc
PLP
PLS
5 pc+
PLP
PLS
PLP
Total par
ligne
Ind.
70
10
378
12
1063
15
1244
24
1183
3999
Coll.
33
304
67
1002
79
1164
41
794
386
3879
Ind.
24
12
156
17
358
16
434
20
395
1434
Coll.
13
122
31
327
80
402
25
243
16
124
1383
[1949
1967]
Ind.
12
23
93
86
301
277
481
137
592
2011
Coll.
169
197
701
315
1791
611
1611
520
615
211
6741
[1968
1981]
Ind.
17
31
104
82
244
185
108
301
1086
Coll.
179
138
323
187
539
183
294
132
59
62
2096
Ind.
12
23
29
26
92
43
166
40
216
654
Coll.
41
191
99
129
97
118
49
64
19
20
827
Ind.
12
79
103
232
247
380
95
379
1537
Coll.
20
78
114
226
223
312
122
197
43
84
1419
488
1157
1432
2952
3157
4918
2984
4840
1185
3953
27066
[1982
1989]
[1999 et
aprs [
Total par
colonne
La lecture des distributions marginales distingue clairement lignes et colonnes: ainsi la lecture du total par ligne ne
permettra plus de dceler les modalits de de la ou des variables figurant en colonnes et vice versa. Dans notre
exemple, la cellule total par ligne allume nous informe sur le nombre total de logements locatifs type maison
individuelle construite entre 1915 et 1948(sous-entendu toute taille de logements et tous statuts confondus). On ne
peut plus distinguer dans ce total ni la taille des logements ni leur statut. Cette remarque vaut pour les totaux
calculs en colonnes. A noter que la cellule donne la somme des lignes, gale la somme des colonnes et
correspondant l'effectif total de la distribution (27 066 logements locatifs).
Exercice 3 : fichier Excel associ Exercice 3 - Tableau crois dynamique.xls . Utiliser l'annexe4 si vous n'tes pas
familier avec la fonction tableau crois dynamique d'Excel (ou d'un autre tableur).
31
Chapitre 3
3. Modes de reprsentation des donnes : les graphiques
Graphiques et cartes sont les corollaires d'une bonne analyse et d'une interprtation la plus complte possible de sries
statistiques ou de rsultats sur des traitements de donnes. Ces modes de reprsentation de la donne participent la
comprhension des phnomnes, au mme titre que les tableaux simples ou labors, apportant une information
certes agrge, synthtique mais trs visuelle et en cela plus facile aborder et interprter que ne le ferait un tableau
de chiffres.
Nous avons volontairement inclus dans ce chapitre le mode de reprsentation cartographique mme s'il convient de
prciser qu'il constitue lui seul une technique et mme une science digne d'un chapitre voire d'un ouvrage part
entire. C'est pourquoi il ne sera abord que trs superficiellement mais suffisante pour en acqurir les bases.
La reprsentation graphique comme cartographique de donnes s'accompagne ncessairement d'une simplification de
la ralit reprsenter. Cette perte d'information car tout simplification se traduit par une perte d'information est
compense, et quelques fois largement, par un gain indniable en lisibilit et en comprhension, pour peu qu'un certain
nombre de rgles aient t respectes l'occasion de l'laboration du graphique ou de la carte.
Dfinition: un graphique - tymologiquement qui figure par le dessin - est une reprsentation visuelle et simplifie
d'une ralit apprhende sous une forme essentiellement numrique (srie, tableau).
Un graphique peut figurer une seule variable au quel cas on parlera de graphique unidimensionnel ou plusieurs
variables. On parlera dans ce dernier cas de graphique multidimensionnel.
Un graphique est compos de plusieurs lments incontournables de base. Ces sont :
un systme de coordonnes matrialis par des axes (2 ou 3). Chaque axe reprsente selon les cas de figure
soit une variable tudie soit une frquence (absolue ou relative), soit un repre temporelle (date). L'axe
horizontale ou abscisse est par convention appel axe des X, l'axe verticale, ou ordonne, axe des Y. Les axes X
et Y se croisent angle droit en un point nomm origine. Chaque axe est gradu en fonction du type de la
variable qu'il reprsente (qualitatif ou quantitatif, discret ou continu), de son unit de mesure et des valeurs
ou modalits prises par celle-ci.
Une zone de dessin (ou zone de trac) l'intrieur de laquelle est figur le trac issu des donnes X et Y. Le
type de dessin ou le type de trac dpend alors de la relation (X,Y), de ce que l'on souhaite montrer et de la
nature des variables impliques.
32
Zone de dessin
ou zone de trac
Zone de dessin
ou zone de trac
Origine
Zone de dessin
ou zone de trac
Zone de dessin
ou zone de trac
Chaque type de graphique est adapt une ou plusieurs situation ou faon de reprsenter l'information. Selon la nature
des donnes, le nombre de variables et ce que l'on souhaite montrer, il sera judicieux de choisir la reprsentation
graphique la mieux adapte.
C'est la seule reprsentation graphique habilite figurer une distribution statistique et ce, quelle que soit la nature de
la variable. L'histogramme met toujours en relation les effectifs d'une population (frquences absolues ou frquences
relatives) et les valeurs prises par les individus composant ladite population pour une variable donne. Le rsultat de
cette confrontation est un graphique compos de barres ou btonnets jointifs dont la hauteur et la surface sont
proportionnels l'effectif qu'ils reprsentent. C'est l la grosse diffrence avec les graphiques en barres tels que sait les
faire Excel : les btonnets ne se touchent pas et si leur hauteur est bien proportionnelle l'effectif qu'ils reprsentent,
ce n'est pas le cas de leur aire. Excel ne sait pas faire simplement un histogramme.
L'histogramme est un graphique fondamental dans l'approche statistique des caractristiques d'une population et de la
faon dont se distribue les individus qui la composent en fonction de leurs valeurs. C'est un peu le code gntique d'une
population. Toute approche et analyse statistique d'un phnomne devraient tre prcdes d'un trac et d'une tude
de son histogramme. Il existe deux faons de dessiner un histogramme : soit sous la forme discrte de btonnets,
soit sous une forme plus continue sorte de courbe, appele polygone de frquences, obtenue en joignant les points
milieux des sommets de chaque btonnet.
33
Exemple : la distribution des loyers mensuels au m hors charges dans le parc social du dpartement du Jura
Construction du polygone de frquences
Polygone de frquences
2000
1800
1800
1800
1600
1600
1600
1400
1400
1400
1200
1000
800
Frquences absolues
2000
Frquences absolues
Frquences absolues
Histogramme
2000
1200
1000
800
1200
1000
800
600
600
600
400
400
400
200
200
200
0
0
0
0
Par convention, les frquences sont inscrites en ordonnes, les valeurs de la variable en abscisse. Cette dernire peut
tre qualitative ou quantitative, discrte ou continue.
Il est possible de faire figurer plusieurs variables, donc plusieurs histogrammes ou polygones de frquences sur un
mme graphique pour peu que les units de mesure soient identiques et que les chelles de valeurs soient les mmes
ou peu prs. Il est galement envisageable de faire figurer sur un mme graphique plusieurs histogrammes dune
mme population correspondant son tat diffrentes dates.
Exemple : Comparaison des distributions des loyers mensuels au m hors charges des parcs priv et public du
dpartement du Jura. En 2007.
Histogrammes
Polygones de frquences
0,16
0,14
0,12
0,14
0,12
Frquences relatives
Frquences relatives
0,16
0,10
0,08
0,06
0,10
0,08
0,06
0,04
0,04
0,02
0,02
0,00
0,00
0
10
12
14
16
18
10
12
14
34
16
18
Mme si en apparence les graphiques en barres ressemblent aux histogrammes, il a t dit prcdemment en quels
points ils en diffraient. Les graphiques en barres permettent de comparer des effectifs ou des proportions selon les
modalits retenues et ce, quelle que soit le nature des variables. Les possibilits qu'ils offrent en matire de
reprsentation sont nanmoins beaucoup plus larges que ce que permet l'histogramme. Il est en effet relativement ais
de reprsenter plusieurs variables pour une mme population, la mme variable et ses variations dans le temps,
plusieurs populations pour une mme variable ainsi que plusieurs variables concernant plusieurs population.
Imbriques.
Exemple:
volution de la proportion de
logements de 3 pices dans le Parc
Locatif Social dans la CC Bassin de Lonsle-Saunier
Comparaison de la proportion de
logements de 3 pices dans le Parc Locatif
Social en 2007 entre diffrents Epci
45
45
40
40
40
35
35
35
30
30
30
25
20
15
45
Frquences relatives
Frquences relatives
25
20
15
25
20
15
10
10
10
0
1
3
Nombre de pices
5+
0
1975
1982
1990
Annes
1999
2007
Bassin de Jura
Pays de VelouseLons-le- Dolois Salins-les- Ain
Saunier
Bains
EPCI
35
Val de
Bienne
70
45
Pays de Salins-les-Bains
Bassin de Lons-le-Saunier
40
30
20
F rquences relatives
35
Jura Dolois
Pays de Salins-les-Bains
50
Frquences relatives
Frquences relatives
40
Velouse-Ain
60
30
25
20
15
50
40
30
20
10
10
10
5
0
1
5+
Nombre de pices
1975
1982
1990
Annes
1999
1 2 3 4 5
2007
1982
1 2 3 4 5
1 2 3 4 5
1990
1 2 3 4 5
1999
2007
100%
100
90%
90
1 pice
60%
50%
40%
30%
20%
3 pices
70
60
50
40
30
10
1982
2 pices
1990
3 pices
1999
4 pices
2007
5 pices +
5 pices et plus
2000
1500
500
VelouseAin
1 pice
4 pices
2500
1000
20
10%
2 pices
3000
Frquences absolues
Frquences relatives
Frquences relatives
70%
1 pice
3500
80
80%
0%
Bassin de
Lons-leSaunier
2 pices
Jura
Dolois
3 pices
Pays de
Salins-lesBains
4 pices
5 pices +
VelouseAin
Bassin de
Lons-leSaunier
Jura
Dolois
Pays de
Salins-lesBains
EPCI
Tous ces graphiques peuvent se faire horizontalement et/ou avec effet 3D sans que a ajoute leur contenu
informationnel.
l Exercice 5 : fichier Excel associ Exercice 5 - Graphiques en barres.xls et Exercice 6 : fichier Excel associ Exercice 6
- Graphiques en barres empiles.xls
36
1,9 %
122
4,4%
204
7,3%
8,5 %
6,9 17,3
32,6
1,9
17,3 %
39,3
48,4
51,6
33,0 %
1174
42,2%
1284
39,3 %
1 pice
3 pices
5 pices +
40,4
3,7
46,1%
2 pices
4 pices
16,5
1 pice
3 pices
5 pices +
CC. Velouse-Ain
CC. Bassin de Lons-le-Saunier
CC. Jura Dolois
CC. Pays de Salins-les-Bains
33,0
8,5
2 pices
4 pices
200 000
350 000
300 000
150 000
250 000
Doubs
Creuse
Ain
Haute-Savoie
Haute-Marne
Essonne
Val-d'Oise
400 000
250 000
200 000
Propritaires
Locataires
Autres
Vacants
Rsidences secondaires
150 000
200 000
100 000
100 000
150 000
100 000
50 000
50 000
50 000
0
1962
1968
1975
1982
1990
1999
1962
1968
1975
1982
1990
0
1962
1999
1975
1982
1990
1999
37
1968
38
Trois variables, une seule date, une seule population aprs classification
39
4 axes, 4 variables
5 axes, 5 variables
6 axes, 6 variables
7 axes, 7 variables
8 axes, 8 variables
1
10 0
14
100
14
90
70
13
70
13
60
50
50
40
40
30
12
20
10
11
10
10
Levier
Quingey
Ornans
Rougemont
10 0
2
90
2.
3.
4.
80
70
60
50
5.
6.
40
30
4
20
7.
10
0
8.
11
9.
10.
10
11.
9
12.
Vercel - Villedieu
1999
1990
Vercel - Villedieu
12
7
8
13
20
10
11
14
60
30
12
90
80
80
13.
1982
14.
Les traders et autres habitus des places boursires sont les principaux consommateurs de ce type de graphiques par
ailleurs utilisables et utiliss dans bien d'autres contextes. C'est cependant de cette premire utilisation qu'ils tirent leur
nom car ils permettent en effet de renseigner sur l'volution des cours boursiers au cours d'une priode donne en
figurant 3 informations: le minimum et le maximum enregistrs au cours de ladite priode ainsi que la valeur des cours
en clture. On peut facilement envisager une application de ce type de graphique d'autres thmatiques comme celle
des loyers en considrant par exemple, par ville, par type de logements ou pour une type de logements par date, les
loyers minimal et maximal mesurs ainsi que la moyenne (ou la mdiane):
Exemple: les loyers dans le parc locatif priv de Besanon selon la taille des logements.
3 me quartile
Moyenne
Mdiane
1 er quartile
700
661
622
600
558
503
500
515
487
460
420
400
379
380
316
300
290
442
429
368
400
334
291
267
200
1 pice
2 pices
3 pices
4 pices
5 pices
et plus
xyz reprsentent les 3 dimensions de l'espace: x et y les coordonnes gographiques, z la composante altimtrique
que l'on peut fort bien remplacer par n'importe quelle variable pour peu qu' celle-ci soit rattache une dimension
spatiale (ce qui n'est pas le cas de toutes les variables). Il en est de mme des coordonnes gographiques lesquelles
peuvent tre substitues par d'autres variables. Le rsultat est une surface
41
100
85
Coordonnes Y
80
70
75
70
35
65
60
55
La
50
t it
45
ud
40
Lon
35
g itu
de
Coordonnes X
0
10
100
90
20
80
30
70
40
60
50
50
a
b
30
80
h
10
20
30
40
50 60
a+b +c = h
70
80
90 100
80
30
10
100
90
20
20
100
10
40
60
70
80
c<a<b
100
0
42
a=b=c
a=c
90
50
b=c
a<c<b
10
20
30
60
b<a<c
a<b<c
50
70
a=b
70
90
40
a=c
40
30
20
b=
c
c<b<a
50
60
b
40
b<c<a
a=b
60
70
10
80
90 100
Pour une mme population, le graphique triangulaire permet, le cas chant, de grouper les individus selon leur profil
dans les 3 variables complmentaires retenues. Sur plusieurs dates, il permet de montrer l'volution des profils. Il est,
en ce sens, assez proche du graphique polaire ou radar.
Exemple : on s'intresse la structure par poque de construction du parc de logements de l'ensemble des communes
d'un dpartement franais. Trois classes de priodes de construction considres comme significativement
discriminantes ont t retenues : Avant 1948, de 1948 1981, 1982 et aprs. Chaque commune est localisable
l'intrieur du graphique triangulaire au moyen de coordonnes triples correspondant aux valeurs prises dans chacune
des modalits retenues. La projection de l'ensemble des individus dans le graphique triangulaire devrait permettre
d'identifier des groupes composs de communes au profil semblable.
0
10
90
80
30
70
40
40
70
30
80
20
90
10
100
0
1
198
50
60
48
60
50
19
de
1
98
2
20
Po
st
rie
urs
100
10
20
30
40
50 60 70
Avant 1948
80
90 100
43
44
Chapitre 4
4. Caractriser une distribution et rsumer des tableaux statistiques l'aide de
paramtres appropris : tendance centrale et mesure de dispersion
Paramtres de tendance centrale (mode, moyenne, mdiane, quantiles, etc.), paramtres de dispersion
(variance, cart-type, coefficient de variation, standardisation, etc.). Exercices.
C'est un des objectifs fondamentaux et LE dfis de la statistique descriptive : rsumer de faon simple de grandes sries
statistiques tout en en conservant au mieux le contenu informationnel en limitant au maximum la perte d'informations
inhrente ce processus rducteur.
Afin d'y parvenir, la statistique a dvelopp un certain nombre d'outils pour d'une part caractriser et rsumer au mieux
des distributions statistiques et pour d'autre part mettre en vidence, voire exacerber, le cas chant, leurs diffrences.
Deux groupes complmentaires de paramtres permettent d'atteindre ces objectifs :
Ces deux groupes de paramtres sont complmentaires pour la description et le rsum de distributions statistiques et
on ne saurait faire abstraction de l'un ou de l'autre pour ces oprations.
reprsenter au mieux un ensemble de donnes. L'appellation mesure de tendance centrale vient du fait que ces
paramtres donne une ide de ce qui se passe au centre d'une distribution, d'un ensemble de donnes.
On distingue trois mesures de tendance centrale :
Le mode
La mdiane
Le moyenne
Tous trois ne dcrivent par la mme chose et sont, de ce fait, complmentaires dans la description et l'analyse d'une
distribution.
4.1.1 Le mode
Not Mo, il correspond la valeur qui apparat le plus souvent dans une distribution, autrement la valeur qui a la
frquence (absolue ou relative) la plus leve. S'il s'agit de donnes non groupes, la valeur modale est clairement
identifiable. Par contre, si l'on est en prsence de donnes groupes en classes, le mode se rapportera la classe
comportant le plus grand nombre d'individus : on parlera alors de classe modale.
Attention ! Le mode est la seule mesure centrale qui peut tre releve et utilise aussi bien pour des donnes
qualitatives que quantitatives.
Exemple 1 : en relevant les notes un examen d'une classe de 28 lves, on obtient la srie suivante :
S1 = {9;11;13;5;8;14;6;12;5;10;16;3;12;13;8;13;8;7;13;13;9;17;10;13;6;13;7;14} qui trie devient :
0
1
2
3
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Occurrences
(frquences
absolues)
0
0
0
2
2
2
2
3
2
2
1
2
6
2
0
1
1
0
0
0
Frquences
relatives (%)
0,0
0,0
0,0
7,1
7,1
7,1
7,1
10,7
7,1
7,1
3,6
7,1
21,4
7,1
0,0
3,6
3,6
0,0
0,0
0,0
7
Mode
Occurrences
Note
13
Notes
La note 13 apparat 6 fois. Elle est, avec une frquence relative de (6/28)*100 = 21,4 % la note la plus
reprsente de la distribution. Le mode Mo est donc ici gale 13.
Exemple 2: Examinons les notes obtenues au mme examen par la classe voisine compose de 30 lves:
S2 = {9;11;2;10;5;8;14;6;12;5;10;16;3;12;10;18;7;13;7;7;13;11;9;17;10;7;6;10;7;17} qui une fois trie devient :
S2 = {2;3;5;5;6;6;7;7;7;7;7;8;9;9;10;10;10;10;10;11;11;12;12;13;13;14;16;17;17;18}
On obtient ds lors le tableau de frquences et l'histogramme suivants:
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Occurrences
(frquences absolues)
0
0
1
1
0
2
2
5
1
2
5
2
2
2
1
0
1
2
1
0
0
Frquences
relatives (%)
0,0
0,0
3,3
3,3
0,0
6,7
6,7
16,7
3,3
6,7
16,7
6,7
6,7
6,7
3,3
0,0
3,3
6,7
3,3
0,0
0,0
46
6
Mode 1
Mode 2
4
Occurrences
Notes
10
Notes
Dans ce cas-ci, deux modalits prsentent les frquences les plus leves : les notes 7 et 10 avec toutes
deux une frquence relative de 16,6 % (5 occurrences chacune). La distribution comporte ici deux modes, Mo1 = 7
et Mo2 = 10. On parle alors de distribution bimodale.
Exemple 3: Dans une troisime classe, compose de 24 lves, les notes obtenues au mme examen sont les
suivantes:
S3 = {3;12;16;5;3;7;10;7;16;5;11;13;11;9;13;9;10;12;8;15;15;8;19} qui une fois trie devient :
S3 = {3;3;5;5;7;7;8;8;9;9;10;10;11;11;12;12;13;13;15;15;16;16;19}
On obtient par le fait le tableau de frquences et l'histogramme suivants:
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Occurrences
0
0
0
2
0
2
0
2
2
2
2
2
2
2
0
2
2
0
0
2
0
Frquences
relatives (%)
0,0
0,0
0,0
8,7
0,0
8,7
0,0
8,7
8,7
8,7
8,7
8,7
8,7
8,7
0,0
8,7
8,7
0,0
0,0
4,3
0,0
Occurrences
Notes
Notes
Plutt que de parler de distribution multimodale ( plusieurs modes) on parlera davantage ici de distribution amodale (sans rel mode). Dans cet exemple, le mode est une mesure non-significative. C'est souvent le cas
lorsque l'on est en prsence d'une distribution contenant peu de rsultats.
Le mode n'est videmment pas suffisant pour caractriser et rsumer une distribution. Il l'est encore moins pour
comparer et diffrencier des distributions. Deux distribution peuvent en effet avoir le mme mode avec
cependant des allures, et donc des caractristiques, totalement diffrentes. On a donc inventer d 'autres
paramtres, d'autres mesures susceptibles de mieux caractriser et/ou diffrencier des distribution. C'est le cas
de la mdiane.
tymologiquement mdiane signifie milieu, et c'est bien de a dont il s'agit car la mdiane est rellement le
milieu d'une distribution. Not Me, la mdiane correspond la valeur de la distribution qui partage l'effectif total
en deux sous-effectifs de mme taille de telle sorte que l'on puisse dire que 50 % des individus d'une population
47
sont caractriss par une valeur suprieure celle de la mdiane et que 50 % des individus de cette mme
population ont une valeur infrieure la mdiane.
Exemple: la mdiane des revenus pour une population donne correspond la valeur du revenu pour
laquelle on a 50 % de ladite population dont le revenu est suprieur cette valeur et 50 % dont le revenu
est infrieur. On parle alors de revenu mdian.
Le revenu mdian par mnage dans le dpartement des Yvelines tait, en 2002, de 34 506 contre 17
640 pour le dpartement de la Creuse.
Attention ! Contrairement au mode, la mdiane est une mesure centrale qui ne peut tre calcule et utilise
que pour des variables quantitatives, continues ou discrtes.
Classe 1
28 lves / notes
Classe 3
23 lves / notes
9
11
13
5
8
14
6
12
5
10
16
3
12
13
8
13
8
7
13
13
9
17
10
13
6
13
7
14
3
12
16
5
3
7
10
7
19
16
5
11
13
11
9
13
9
10
12
8
15
15
8
1. Classer les valeurs de la srie par ordre croissant. Cette opration a pour but d'affecter un rang chaque
valeur et ainsi de dterminer plus facilement le milieu de la srie donc la mdiane.
48
Rang
Classe 1
28 lves /
notes
Rang
Classe 3
23 lves /
notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
3
5
5
6
6
7
7
8
8
8
9
9
10
10
11
12
12
13
13
13
13
13
13
13
14
14
16
17
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
3
3
5
5
7
7
8
8
9
9
10
10
11
11
12
12
13
13
15
15
16
16
19
2. Dterminer si la srie comporte un nombre n pair ou impair de valeurs. Deux cas peuvent alors se prsenter:
Si n est pair,il n'y a pas possibilit d'identifier simplement la valeur qui partage la population en deux
effectifs gaux. Deux valeurs se situent au centre de la srie et jouent ce rle respectivement de
rang (n/2) et [(n/2)+1]. La mdiane est alors gale la moyenne des valeurs encadrant le milieu
de la srie. C'est le cas dans la srie de notes de la classe 1 compose de 28 valeurs. La mdiane
se situe entre le 14e et le 15e rang et sa valeur est donc comprise entre 10 et 11. L'application de la
rgle sus mentionne nous donne donc une mdiane Me de (10 + 11)/2 = 10,5
Si n est impair alors il est possible d'identifier simplement la valeur qui partage la population en
deux effectifs gaux. Le rang central tant gal [(n+1)/2]. C'est le cas dans la srie de notes de
la classe 3 compose de 23 valeurs. La mdiane se situe au niveau du 12 e rang et sa valeur est lue
directement en face de ce 12e rang, dans notre Me = 10
49
Valeurs
encadrant
le milieu
Rang
Classe 1
28 lves /
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
3
5
5
6
6
7
7
8
8
8
9
9
10
10
11
12
12
13
13
13
13
13
13
13
14
14
16
17
Milieu de
la srie
Me = (10+11)/2
=10,5
Rang
Classe 3
23 lves / notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
3
3
5
5
7
7
8
8
9
9
10
10
11
11
15
16
17
18
19
20
21
22
23
12
12
13
13
15
15
16
16
19
Milieu de la srie
Me = 10
La mdiane peut galement tre repre graphiquement sur le courbe des frquences cumules comme suit :
50
Frquences
absolues
cumules
Frquences
[de 0 5]
[de 6 9]
[de 10 14]
[de 15 20]
Frquences
relatives
cumules
0,0 %
17,4 %
10
12
18
43,5 %
50,0 %
78,3 %
23
100,0 %
Classe contenant
la mdiane
4
10
Interpolation
10
11
14 Valeur
12
18 Effectif
2
8
(12-10)/8 = 2/8 = 0,25
Pour chaque classe (ou groupe) on connat la frquence absolue ou relative que l'on cumule pour reprer plus
facilement la classe ou le groupe devant contenir la mdiane. Dans notre exemple, la classe contenant la note
mdiane est la classe [de 10 14] car c'est celle qui contient la frquence cumule 50 %. Connaissant n= 23 impair
on sait que la mdiane correspond au rang 12 qui se situe bien dans la classe [de 10 14]. Le rapport des
diffrences effectif mdian (12) borne infrieure de la classe mdiane (10) borne suprieure de la classe
mdiane (18) borne infrieure de la classe mdiane (10) nous donne le rapport appliquer aux valeurs pour
trouver la note mdiane :
(12-10)/(18-10) = 2/8 = 0,25 pour les effectifs. Pour la valeur mdiane, on connat l'amplitude de la classe mdiane
(14-10 = 4). Il nous reste donc trouver la diffrence entre la mdiane (Vm) et la borne infrieure de la classe de
valeurs mdiane (10). Cette diffrence est appele x. A l'aide du rapport (0,25) calcul prcdemment, on peut
crire:
V m10
x
=0,25 =0,25 x=1
1410
4
4.1.3 La moyenne
La moyenne constitue un autre paramtre de tendance centrale fondamental mais non suffisant pour
caractriser une distribution. Complmentaire du mode et surtout de la mdiane, la moyenne constitue n'en
point douter, la mesure la plus calcule et la plus utilise lors de la description de sries statistiques.
Il existe plusieurs types de moyennes, chacun adapt des situations prcises :
51
Dnomination
Notation courante
Moyenne arithmtique
Moyenne gomtrique
ou xG
G
Moyenne harmonique
ou xH
H
Moyenne quadratique
ou xQ
Q
Moyenne glissante
La moyenne arithmtique :
C'est la plus simple et la communment utilise et ce, pas toujours bon escient. Elle se note
x la plupart du
temps. Elle peut tre simple ou pondre. Attention ! On ne peut pas calculer de moyenne arithmtique sur des
donnes qualitatives.
xi
x =
Avec :
x x x ... xi ... x n
1 n
x i = i=1 = 1 2 3
n i=1
n
n
L =
1011
n i=1
1011 i=1
1011
1011
Le calcul nous donne un loyer mensuel moyen au m hors charges de 7,83 . Cependant, la moyenne simple, dans
son principe de calcul, ne permet de tenir compte de la structure de la population tudie et du poids
ventuellement diffrent que peuvent avoir chacun des individus ou classes d'individus la composant.
La moyenne arithmtique pondre, autant le dire tout de suite, donne, dans son utilisation classique (c'est-dire lorsque tous les individus ont le mme poids), le mme rsultat que la moyenne arithmtique simple. Sa
formule est cependant diffrente puisqu'elle introduit la notion de poids via un terme supplmentaire qui peut
52
s'avrer utile dans certaines situations, notamment lorsque justement les individus composant une population
n'ont pas le mme poids ou coefficient : certains individus, pour diverses raisons, ont davantage d'influence
dans ladite population que les autres. Ce peut tre le cas par exemple lorsque l'on a affaire une srie de notes
dont le coefficient n'est pas le mme.
En considrant un ensemble de donnes
X ={x 1, x 2, x 3, .. , x i , ... , x n}
et une ensemble de poids non ngatifs correspondants :
w i xi
xp= i=1n
wi
w1 x 1 w 2 x 2 w 3 x 3...wi x i...w n x n
w1 w 2 w 3...w1 ...w n
i=1
Exemple :
Reprenons l'exemple prcdent pour lequel le calcul de la moyenne arithmtique simple sur l'ensemble des
loyers attribuait par dfaut un poids identique chaque logement.
Or on sait que les loyers surfaciques sont inversement proportionnels la taille des logements (nombre de
pices) et que les petits logements (1 et 2 pices) constituent en gnral une part importante, voire la
majoritaire du parc locatif priv. Dans ces conditions, la non pris en compte de la structure du parc et
l'attribution de poids identiques chaque logement se traduisent systmatiquement par un sous estimation du
loyer moyen.
L'attribution de poids diffrents chaque logement en fonction de son nombre de pices contribuera rtablir
la contribution vraie et relle de chaque logement dans le calcul de la moyenne. Ainsi, dans notre chantillon de
1011 logements, on observe la structure suivante :
Catgories
Poids Wi par
catgorie
1 pc
0,216
2 pc
0,244
3 pc
0,267
4 pc
0,197
5 pc+
0,076
Les poids par catgorie correspondent la part de chaque catgorie dans le parc locatif total : titre d'exemple,
les logements de 3 pices reprsentent, dans l'chantillon, 0,267 x 100 = 26,7 % du total des logements.
On attribue alors chaque logement un coefficient pondrateur fonction de sa catgorie d'appartenance. Ainsi,
chaque logement de 1 pice, on attribue le coefficient (ou poids) 0,216, chaque logements compos de 2
pices, le poids 0,244 et ainsi de suite.
53
w i xi
xp= i=1n
wi
1 769,34
= 7,88 /m
224,42
i=1
Le rsultat est au final assez peu diffrent de celui obtenu par la moyenne arithmtique simple car la moyenne
arithmtique simple, vu le nombre important de valeurs et compte tenu de la structure de l'chantillon, tient
compte, de faon presque naturelle, du poids des individus en attribuant implicitement chaque individus le
poids de sa catgorie.
On peut galement utiliser la moyenne pondre pour corriger et rectifier les biais et erreurs accumuls au
cours de l'enqute et qui font que l'chantillon n'est au final plus tout fait reprsentatif de la population mre,
dans notre exemple du point de la structure du parc. En effet, lors de la fabrication de l'chantillon ou l'issue
du sondage, il se peut que certaines modalits soient sur- ou sous-reprsentes pour diffrentes raisons, au quel
cas l'utilisation d'une moyenne arithmtique pondre avec les poids tels que relevs dans l'chantillon biaisera
invitablement le rsultat final. La connaissance de la structure de la population mre, rend alors possible
l'introduction de nouveaux poids issus de la population mre qui, appliqus aux donnes collectes, viendront
corriger le biais rsident de l'chantillon en permettant le calcul d'une moyenne moins fausse .
chantillon
Catgories
Population mre
Poids initiaux
Poids corrigs
Wi par catgorie W'i par catgorie
Statut
1 pc
0,216
0,256
sous -reprsente
2 pc
0,244
0,272
sous -reprsente
3 pc
0,267
0,227
sur -reprsente
4 pc
0,197
0,172
sur -reprsente
5 pc+
0,076
0,073
sur -reprsente
Dans notre exemple, on observe que la structure de l'chantillon diffre sensiblement de la structure de la
population mre. Certaines catgorie sont sur-reprsentes, comme par exemple les logements de 3 et 4 pices,
alors que d'autres sont sous-reprsentes, comme celles des logements de petite taille (1 et 2 pices). Le calcul
d'une moyenne partir des donnes et poids du seul chantillon introduira un biais li aux sur-reprsentations
et aux sous-reprsentations voques en tirant la moyenne vers le bas, la catgorie des logements de taille
moyenne (3 et 4 pices) proposant en gnral des loyers surfaciques moins levs que la catgorie sousreprsente des petits logements (1 et 2 pices). En affectant aux individus de l'chantillon les poids relevs
dans la population mre, on corrige en quelque sorte le biais de l'chantillon en donnant davantage de poids aux
petits logements et en minorant celui des logements sur-reprsents (3 et 4 pices).
Appliqus notre exemple ces nouveaux poids aboutissent au rsultat suivant :
n
w ' i xi
xp= i=1n
w 'i
1 812,54
= 8,09 /m
224,06
i=1
w'i
54
Nous obtenons ici un loyer moyen sensiblement diffrent de ceux calculs prcdemment. Le rtablissement
des contributions respectives vrais des diffrents catgories de logements et l'attribution de poids corrigs plus
importants aux petits logements ont permis de faire disparatre le sous estimation inhrente l'chantillon.
Classe
Borne
infrieure
2,50
Borne
suprieure
Centre de
classe
Frquence
absolue
5,00
3,75
67
fX
67 x 3,75 = 251,25
5,01
7,50
6,25
461
7,51
10,00
8,75
326
10,01
12,50
11,25
116
12,51
26,50
19,50
41
41 x 19,50 = 799,50
1011
8090
x =
8 090
=8,00 /m
1 011
La moyenne gomtrique :
Sa dfinition purement mathmatique est un peu rbarbative mais son utilit est grande comme nous allons le
dmontrer.
La moyenne gomtrique de n valeurs positives
ou xG , elle s'crit :
G
G=
x i =n x 1x 2x 3...x i...x n
i =1
La moyenne gomtrique est un instrument permettant de calculer des taux moyens, notamment des taux
moyens annuels. Son utilisation na un sens que si les valeurs ont un caractre multiplicatif.
55
Exemple : Les prix de l'immobilier ancien ont augment ces 10 dernires annes de la faon suivante :
Anne
Variation
annuelle (%)
1
2
3
4
5
6
7
8
9
10
9,2
12,7
8,8
7,7
3,9
1,7
0,9
2,2
4,7
3,3
En utilisant la moyenne arithmtique simple, on obtiendrait une volution moyenne de (13,8 + 12,7 + 12,8 + 11,2 +
7,7) / 5 = 55,1 / 10 = 5,51 % mais ce rsultat est faux compte tenu de la relation entretenue par les taux d'une anne
sur l'autre.
L'utilisation de la moyenne gomtrique permet de solutionner ce problme :
5 9,212,78,87,73,91,70,92,22,24,73,3
G=
1
5 1611964,46=1611964,46 5 =4,18
G=
Soit une hausse moyenne annuelle de 4,18 % contre 5,51 % avec la moyenne arithmtique.
Pour une distance donne, le temps de trajet est dautant plus court que la vitesse est leve.
Un loyer dans le parc priv est d'autant plus lev que la taille ou la surface du logement est petite.
La moyenne harmonique de N valeurs est le nombre dont l'inverse est la moyenne arithmtique des inverses
desdites valeurs. C'est un peu compliqu comme dfinition ! Voil ce que a donne sous une forme
mathmatique :
=
H
n
n
x1
i=1
n
1 1
1
1
... ...
x1 x2
xi
xn
La moyenne harmonique permet de calculer des moyennes sur des fractions si le dnominateur change. C'est le
cas du calcul de la vitesse moyenne parcourue dans un trajet aller/retour, la vitesse tant la valeur reprsente
par distance / temps.
56
Exemple :
Dans un parc locatif priv, 3 logements ont respectivement un loyer surfacique de:
L1 = loyers surfacique Logement A : 7,49 /m pour 67 m
L2 = loyers surfacique Logement B : 11,43 /m pour 28 m
L3 = loyers surfacique Logement C : 6,18 /m pour 97 m
La moyenne arithmtique des loyers donne:
3
x =
1 n
1
7,4911,436,18 25,1
=
=8,37 / m
x = L=
n i=1 i 3 i=1 i
3
3
La relation d'inverse proportionnalit qui existe entre surface des logements et loyer surfacique nous incite
utiliser la moyenne harmonique pour le calcul du loyer moyen. Pour cela il faut tenir compte du fait que la
logement C est 3 fois plus grand que le logement B
La moyenne quadratique :
Une moyenne qui trouve des applications lorsque l'on a affaire des phnomne prsentant un caractre
sinusodal avec alternance de valeurs positives et de valeurs ngatives. Elle est, de ce fait, trs utilise en
lectricit. Elle permet notamment de calculer la grandeur d'un ensemble de nombre. A titre d'information, elle
s'crit :
= 1 x2i
Q
n i=1
Prenons un rapide exemple : considrons les nombre suivants { -2, 5, -8, 9, -4 }
Nous pouvons en calculer la moyenne arithmtique avec l'inconvnient de voir se neutraliser les valeurs
positives et ngatives et d'aboutir un rsultat nul sans que cela ne nous apprenne quoi que ce soit. En effet,
x =0
Le calcul de la moyenne quadratique pour la mme srie donne 6,16
57
Evol% prix
Moy. glissante
par trimestre
Janv
08
Fev
08
Mars
08
Avr
08
Mai
08
Juin
08
Juil
08
Aout
08
Sept
08
Oct
08
Nov
08
Dec
08
Janv
09
Fev
09
mars
09
Avr
09
Mai
09
0,3
0,4
0,6
0,9
0,5
0,2
-0,1
-0,3
0,1
0,4
0,5
0,4
0,3
0,5
0,7
0,6
0,43
0,63
0,66
0,53
0,20
-0,07
-0,13
-0,07
0,17
0,33
0,43
0,40
0,40
0,50
0,60
La moyenne trimestrielle glissante calcule pour chaque mois tient compte tient de la valeur du mois de
rfrence et des valeurs des 2 mois prcdents. Ainsi, la moyenne trimestrielle calcule au mois de rfrence
Juillet 2008 donnera donc : (-0,1 + 0,2 + 0,5) / 3 = 0,6 / 3 = 0,20. Celle du mois d'Aot 2008 donnera (-0,3 + (-0,1) +
0,2) / 3 = -0,2 / 3 = -0,07. Remarque : on ne peut calculer la moyenne glissante pour les deux premiers mois de la
srie.
D'une faon gnrale, la moyenne glissante s'crit :
xn =
1
N
N 1
x nk
k =0
x 3 x 2 x 1 0,10,20,5 0,6
1
1
xn = x 3k = x 30 x 31 x 32 =
=
=
=0,20
3 k=0
3
3
3
3
D'une faon gnrale, pour une mme distribution, les rsultats obtenus par les diffrentes moyennes dcrites
s'organisent de la faon suivante :
Moyenne Harmonique Moyenne Gomtrique Moyenne Arithmtique Moyenne Quadratique
58
L'intervalle interquartile
La variance
L'cart-type
IV =Max Min
Classe 3
23 lves / notes
9
11
13
5
8
14
6
12
5
10
16
3
12
13
8
13
8
7
13
13
9
17
10
13
6
13
7
14
3
12
16
5
3
7
10
7
19
16
5
11
13
11
9
13
9
10
12
8
15
15
8
59
RV =
V max
V min
Classe 1
Classe 3
Minimum
Maximum
17
19
tendue
(17 3) = 14
(19 3) = 16
Rapport de
variation
17/3 = 5,7
19/3 = 6,3
Le rapport de variation nous apprend que dans la classe 1 la meilleure est 5,7 fois plus leve que la note la plus
faible. Ce rapport est plus important dans la classe 3 pour laquelle il est 6,3.
Distribution brute
Mesures de tendance centrale
Mdiane
117 427,50
Moyenne
122 164,57
Mesures de dispersion
Minimum
3 811,00
Maximum
1 100 194,00
1 096 383,00
Rapport de variation
288,7
Intervalle et rapport de variation sont trs importants tant les individus qui composent la population tudie
diffrent des uns des autres pour le caractre apprhend (prix). Par contre, mdiane et moyenne ne sont que
trs peu perturbes pas les valeurs extrmes certes exceptionnelles par leur grandeur mais trop peu
nombreuses au regard de la masse des valeurs dites dans la norme (voir histogramme). Preuve en est: si on
retire ces valeurs extrmes, moyenne et mdiane ne bougent que trs peu. A contrario, tendue et rapport de
variation s'en trouve considrablement amoindris:
60
160
Frquences absolues
140
120
100
80
60
40
20
0
0
100 000
200 000
300 000
400 000
500 000
600 000
700 000
800 000
900 000
1 000 000
1 100 000
Prix ()
117 400,00
Moyenne
120 613,16
Mesures de dispersion
Minimum
4 600,00
Maximum
346 700,00
342 100,00
Rapport de variation
75,37
La ncessit se fait donc d'utiliser d'autres mesures de dispersion plus mme de prendre en compte de faon
plus prcise la dispersion d'une distribution comme par exemple l'intervalle interquartile. Auparavant il convient
cependant de dfinir les quartiles.
Quartile 1 ou Q1
61
Quartile 2 ou Q2
Quartile 3 ou Q13
Les quartiles se dterminent de la mme faon que la mdiane et ncessitent, comme pour cette dernire, que
les valeurs de la distribution aient t au pralable classes par ordre croissant. Il suffit alors de cumuler les
frquences (absolues ou relatives) et de se positionner l'endroit o rsident les seuils Q1 = 25%, Q2 = 50 % et Q3
= 75 % et de lire les valeurs correspondantes de la distribution.
De faon visuelle et approximative, il est toujours possible d'utiliser, aprs l'avoir trace, la courbe
des frquences cumules comme suit :
1,00
0,90
0,80
Q3 = 0,75
0,70
0,60
Q2 = 0,50
0,40
0,30
Q1 = 0,25
0,20
0,10
0,00
0
300
400
500
600
700
800
900
1 000
1 100
Prix (K)
A noter qu'avec Microsoft Excel ainsi qu'avec OpenOffice Calc il est possible de dterminer automatiquement
les quartiles d'une distribution (Fonction QUARTILE dans les deux cas).
62
De la mme manire, et dans le but de prciser et d'affiner encore l'analyse de la dispersion d'une distribution,
on peut faire appel aux notions de dciles et de centiles. Le principe demeure le mme que pour les quartiles la
diffrence que la population est ici divise respectivement en 10 et 100 sous-populations d'gal effectifs:
Dcile 1 ou D1
Dcile 2 ou D2
Dcile 3 ou D3
Dcile 4 ou D4
Dcile 5 ou D5
Dcile 6 ou D6
Dcile 7 ou D7
Dcile 8 ou D8
Dcile 9 ou D9
Grce aux quartiles (comme aux dciles) il devient possible d'amliorer la description et l'analyse de la
dispersion d'une distribution et de comparer de faon plus sre et plus pertinente deux distributions entre elles
ou bien encore la distribution d'une mme population deux dates diffrentes pour une mme variable, en
rappelant que la mesure de dispersion qui nous intresse n'est pas ncessairement le quartile (qui n'est pas une
mesure de dispersion) mais l'intervalle interquartile, c'est dire la diffrence entre le troisime quartile (Q3) et
le premier quartile (Q1).
Not I2Q il s'crit : I 2 Q=Q 3Q 1
L'intervalle interquartile contient toujours 50 % de la distribution. Plus il est large, plus la distribution est
disperse. Afin d'illustration, reprenons l'exemple prcdent relatif aux prix des logements lors de transactions
immobilires sur maisons individuelles dans le dpartement du Doubs en 2003 et ajoutons l'anne 2005 :
2003
2005
Moyenne
122 165
154 220
Minimum
3 811
2 300
Maximum
1 100 194
800 000
1 096 383
797 700
288,7
347,8
Q1
80 036
106 770
Q2 (mdiane)
117 427
150 000
Q3
155 498
190 560
I2Q
75 462
83 790
Rapport de variation
63
Un certains nombre d'observations et de conclusions peuvent d'ores et dj tre tires partir des mesures
effectues et des graphiques tablies qui permettent de dcrire et de rsumer un phnomne et sa distribution
(rappelons qu'au dpart nous avions une srie de prs de 3 000 valeurs) :
En 2003, 50 % des biens vendus avaient une valeur de march infrieure 117 000 (et de faon
corollaire 50 % des biens vendus l'ont t un pris suprieur 117 000 ).
En 2005, pour le mme prix, 30 % des biens vendus avaient un prix infrieur et 70 % un prix
suprieur: les prix ont mont. Le seuil de 50 % (mdiane) est rendu 150 000 en 2005 soit plus
lev de 28,2 %. Sur les deux annes, la moyenne passe de 122 165 154 220 soit une progression de
26,2 % moins importante que la mdiane : de ce constat on peut en dduire que la dispersion des
valeurs s'est aggrave ce que confirme l'intervalle interquartile calcul sur les deux dates
64
x i x
Plus cet cart sera faible, plus la valeur xi sera proche de la moyenne et donc du centre de la distribution. A
contrario, plus l'cart sera important et plus xi sera loigne du centre de la distribution. La prise en compte de
la somme l'ensemble des carts la moyenne, c'est--dire de la somme de tous les carts entre les xi et la
moyenne donne logiquement 0, la moyenne tant au centre de la distribution:
n
x i x =0
i=1
Si l'on veut tenir compte de l'ensemble des distances la moyenne sans ptir d'une somme nulle rsultat de la
compensation entre carts ngatifs et carts positifs, il est ncessaire d'lever au carr 2 chaque cart de telle
sorte que l'on est :
x i x 20
i=1
S 2 = 2 =
xi x 2
1 n
x x 2= i =1 n
n i=1 i
pose toutefois le problme de proposer un rsultat en unit leve au carr. Si les donnes xi sont en euros, la
moyenne sera en euros, de mme que l'cart xi x alors que la variance sera en euros carrs.
Pour revenir l'unit initiale il faut extraire la racine carre de la variance ou cart-type. Ce dernier s'crit :
2 Tout nombre, positif ou ngatif, devient positif lorsqu'il est lev au carr On prfrera l'utilisation des puissances plutt que les valeurs
absolues, les premires se prtant mieux au calcul algbrique que les secondes.
65
= 2=
x ix 2
i=1
Exemple :
Individu
Intitul
Revenu
moyen (/an)
xi x
x i x
19 129
4 166,52
17 359 888,9
CZ Rp. Tchque
6 139
-8 823,48
77 853 799,3
x3
DK - Danemark
25 113
10 150,52
x4
DE - Allemagne
20 208
5 245,52
27 515 480,1
x5
EE - Estonie
5 304
-9 658,48
93 286 235,9
x6
IE - Irlande
26 043
11 080,52
x7
GR - Grce
12 126
-2 836,48
8 045 618,8
x8
ES - Espagne
13 613
-1 349,48
1 821 096,3
x9
FR - France
18 481
3 518,52
12 379 983,0
x10
IT - Italie
17 213
2 250,52
5 064 840,3
x11
CY - Chypre
18 500
3 537,52
12 514 047,7
x12
LV - Lettonie
4 086
-10 876,48
x13
LT - Lituanie
3 939
-11 023,48
x14
LU - Luxembourg
3 4213
19 250,52
x15
HU - Hongrie
4 377
-10 585,48
x16
MT - Malte
9 954
-5 008,48
25 084 871,9
x17
NL - Pays-Bas
20 753
5 790,52
33 530 121,9
x18
AT - Autriche
20 399
5 436,52
29 555 749,7
x19
PL - Pologne
4 149
-10 813,48
x20
PT - Portugal
9 918
-5 044,48
25 446 778,5
x21
SI - Slovnie
10 719
-4 243,48
18 007 122,5
x22
SK - Slovaquie
4 376
-10 586,48
x23
FI - Finlande
20 787
5 824,52
33 925 033,2
x24
SE - Sude
19 898
4 935,52
24 359 357,7
x25
UK - Royaume-Uni
24 625
9 662,52
93 364 292,75
374 062
0,00
x1
BE - Belgique
x2
Avec :
x =14962,48
n
x i x =0
i =1
66
=
D'o
xi x 2
i =1
On mesure une dispersion leve lie aux fortes diffrences de richesse entre pays de l'Union Europenne. Si
l'on effectue le mme travail sur le pays membre de l'union avant 2000, on obtient un cart-type rduit
quasiment de moiti de 5 786,8 ---> ensemble plus homogne de pays, dispersion moins grande. L'arrive de
nouveaux pays de l'Est plus pauvres a fait chuter la moyenne et augmenter l'cart-type.
Proprits et utilit de l'cart-type :
Son unit est celle de la variable laquelle il se rapporte. Si la variable tudie est exprime en euro (), l'unit
de l'cart-type sera l'euro.
Un cart-type faible signifie que les valeurs sont relativement concentres autour de la moyenne et que la
population regroupe des individus aux caractristiques relativement homogne.
A contrario, un cart-type lev est rvlateur de valeurs trs disperses autour de la moyenne et d'une
population htrogne.
L'cart-type peut servir de bornes pour dlimiter une partie de la population, celle la plus proche des
tendances centrales et donc la plus reprsentative du phnomne tudi et la plus pertinente son
interprtation, ou bien celle la plus loigne. En prenant comme point de rfrence la moyenne d'une
distribution et en considrant l'cart-type comme une unit de distance cette moyenne, et de part et d'autre
de celle-ci, il devient possible de mesurer la proportion de la population (ou le nombre d'individus) compris
entre les limites ainsi dfinies qui s'crivent :
[ x ; x ]
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne une fois cart-type et la moyenne + une fois
l'cart-type.
[
x 1,5 ; x1,5 ]
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne 1,5 fois cart-type et la moyenne + 1,5 l'carttype.
[ x2 ; x 2 ]
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne deux fois cart-type et la moyenne + deux fois
l'cart-type.
[ x a ; x a ]
Contient tous les individus dont le caractre (la valeur) est comprise
entre la moyenne a fois cart-type et la moyenne + a fois l'carttype.
Dans les conditions statistiques idales c'est--dire celle d'une population parfaitement bien distribue autour
des paramtres centraux, on sait que :
[ x ; x ]
[ x2 ; x 2 ]
[ x3 ; x 3 ]
67
3s
2s
1s
2s
1s
3s
68,3 %
x - 1s
x + 1s
95,5 %
x - 2s
x + 2s
99,7 %
x - 3s
x + 3s
Il est d'usage assez frquent de considrer ces intervalles comme un moyen simple et efficace d'liminer les
valeurs extrmes d'une distribution avant traitement et analyse statistique. Ce sujet sera abord plus avant.
285,8 ; 14 962,5 + 8 285,8] = [6 676,7 ; 23 248,3] et contient 14 units statistiques soit 56 % de la distribution. Un
chiffre bien en-dessous de ce que promet la distribution idale voque. L'analyse de l'histogramme de la
distribution permet d'lucider le mystre:
0
3 939
8 939
13 939
18 939
23 939
28 939
33 939
La structure bimodale et la forte dispersion des valeurs autour de la moyenne explique tout ou partie de la
faible proportion d'individus compris dans ce premier intervalle. L'extension de l'intervalle 1,5 de part et
d'autre de la moyenne permet d'accrotre la proportion de la population 92 %. Cette dernire atteint 96 %
lorsque les limites de l'intervalle sont repousses 2 .
68
f ix i
xi x
xi x 2
f i x i x 2
[4 ; 6]
(6 + 4)/2 = 5
10
- 3,3
10,89
21,78
[7 ; 9]
(9 + 7)/2 = 8
40
- 0,3
0,09
0,45
[10 ; 12]
(12 + 10)/2 = 11
33
2,7
7,29
21,87
10
83
- 0,9
44,10
Cette distribution aura la mme variance et le mme cart-type que la srie {5; 5; 8; 8; 8; 8; 8; 11; 11; 11}.
x =
83
=8,3 et
10
2 =
f i x i x 44,10
=
=4,90 = 2 = 4,90=2,2
n1
9
Quelques remarques :
x i x 0
travaille pas sur des valeurs justes mais sur des centres de classes. Dans ce cas, la compensation n'est pas
automatique, d'o l'ingalit.
Dans la formule de calcul de la variance (et indirectement dans celle de l'cart-type), n est remplac par (n1). Cette substitution est courante lorsqu'il s'agit non pas de calculer srement variance et cart-type comme
on peut le faire dans le cas d'une population l'effectif connu et complet, mais lorsque l'on travaille sur un
chantillon ou une population aux caractristiques tronque comme c'est le cas quand il y a eu discrtisation.
On est alors amen estimer la variance ou l'cart-type plutt que de les calculer. Si n est le dnominateur de
la variance d'un chantillon, l'estimation sera trop faible. En changeant n par (n-1) au dnominateur, la
fraction augmente juste assez pour que la variance de l'chantillon devienne une bonne estimation de la
variance de la population.
69
C'est une mesure neutre qui s'exprime la plupart du temps en pourcentage. Il se calcule en divisant l'cart-type
par la moyenne et s'crit donc :
Coefficient de variation :
Cv =
x =56,6 m
=12,4 m
x =81,5 m
=13,2m
A premire vue, et en examinant seulement les carts types, on pourrait conclure que la dispersion de la surface
des logements de grande taille est plus leve que celle des petits logements. Le calcul des coefficients de
variation respectifs montre qu'il n'en est rien :
Pour les petits logements
C v =0,21921,9%
C v =0,16216,2 %
On note que le coefficient de variation des logements de petite taille est plus lev que celui des logements de
grande taille. Contrairement ce que laissait penser les cart-type calculs, la dispersion pour le groupe des
petits logements est plus leve que celle des grands logements.
70
Chapitre 5
5. Sries chronologiques : progression et indices
L'utilisation et l'analyse de sries chronologiques, c'est--dire de sries qui figurent l'volution d'une variable
statistique au cours du temps, s'appuient sur deux outils principaux : d'une part la progression et d'autre
l'indice. Ces deux outils mesurent les variations d'une variable entre deux dates ou plus selon un pas de temps
rgulier ou non.
5.1 Progression
La progression mesure le sens et l'intensit du changement intervenu sur une variable numrique V diffrents
temps t. Au temps t la variable s'crit par convention Vt (V indice t). Lorsque t = 0 la variable s'crit V0 , quand
t = 1 elle s'crit V1 , lorsque t = n on a Vn . A chaque temps t la variable V est caractrise par une valeur
diffrente.
Exemple : considrons la population de la France diffrentes dates ,comme suit :
t
Date
Population
1876
V1 = 38 437 592
1901
V2 = 40 681 415
1921
V3 = 39 209 518
1946
V4 = 40 506 639
1962
V5 = 46 243 173
1982
V6 = 54 334 871
1999
V7 = 58 518 395
2007
V8 = 62 106 000
Ds lors, plusieurs mesures de progression peuvent tre appliques afin de caractriser la variation de la variable
population .
V =V t V 0
Reprenons notre exemple relatif la population de la France travers le temps. La variation absolue de
population entre 1901 et 1946 s'crit :
V 0=
V 1=
71
V 19011946=V 1V 0=Pop 1946Pop 1901=40 506 63940 681 415= 174 776
La variation absolue de population en France entre 1901 et 1946 est donc ngative signifiant une baisse des
effectifs value 174 776 habitants.
gt =
Avec :
V 1 V 0 V
=
V0
V0
Le taux de croissance ainsi obtenu est sans unit et le rsultat multipli par 100 donne un pourcentage.
Exemple: nous avons vu dans dans le cas de la variation absolue que la population de la France entre 1901 et
1946 avait volu la baisse avec une perte de 174 776 habitants. Quelle est l'intensit de cette diminution par
rapport la situation initiale de 1901 ? en d'autres termes, quelle est le taux de croissance de la population en
pourcentage entre 1901 et 1946 ?
g%=
Entre 1901 et 1946, la population franaise a diminu de 174 776 habitants ce qui correspond une baisse de
-0,43 %.
[ ]
Vt t
g =
1
V0
72
Avec :
g
V0
Vt
Exemple : reprenons le cas de la France et de sa population dans la premire moiti du XXe sicle. Nous
disposions des chiffres de la population pour les annes 1901 et 1946. De nouvelles donnes sont disponibles
l'intrieur de cet intervalle pour les annes 1906, 1911, 1921, 1926, 1931 et 1936 formant la srie suivante :
t
Date
Population
1901
V0 = 40 681 415
1906
V1 = 41 066 809
1911
V2 = 41 479 006
1921
V3 = 39 209 518
1926
V4 = 40 743 897
1931
V5 = 41 834 923
1936
V6 = 41 911 530
1946
V7 = 40 506 639
Quel est le taux de croissance moyen de la population franaise entre 1901 et 1946 ?
1
1
V7 7
Vt t
40 506 639 7
1 =
1 =
1 = 0,99931=0,00061=0,061 %
g =
V0
V0
40 680 415
[ ] [ ] [
V t =V 0 1 g i
i=1
Exemple : on connat un moment donn t = 0 le prix mensuel moyen des loyers au m : V0 = 7,48
/m. Durant quatre annes successives la seule information disponible concerne la hausse moyenne
observe pour ces mmes loyers soit : g1 = 2,33 % pour le 1re anne, g2 = -1,03 % pour le 2ime anne,
g3 = 1,93 % pour le 3ime anne et g1 = 2,48 % pour le4ime anne. Quelle la valeur du loyer mensuel
moyen l'issue de ces 4 annes, autrement dit, dterminez V4 ?
t
V 4 =V 0 1g i =7,481 g 11 g 21 g 31 g 4
i=1
73
A l'issue des 4 annes, le loyer mensuel moyen au m s'lve 7,91 /m compte tenu des hausses successives
enregistres.
De la mme faon, on peut, connaissant la valeur terminale Vt d'une variable et les taux de croissance
successifs pour y aboutir, renverser le problme et calculer la valeur initiale V0 selon la formule suivante:
Vt
V 0=
1g i
i =1
2V 0=V 0 1 g
L'inconnue est ici le paramtre t qui reprsente la quantit de temps ncessaire la vrification de l'galit
pose. Sans faire talage de dmonstrations mathmatiques superflues, on peut crire que t est gal :
t=
ln2
ln 1g
2V 0=V 0 1 g t
t
ln 2
0,6934
=
= 131,1 ans
ln 10,0053 0,00258
Il aurait fallu au pays 131 ans pour voir sa population doubler, soit un doublement prvu en 1981. Or en 1981, la
population de la France tait de 54 millions d'mes soit quelques 77 % de son objectif. C'est donc que le taux
annuel moyen de croissance de la population n'a t constant sur la priode et a t en moyenne infrieur
0,53%. Les deux grandes guerres y sont probablement pour quelque chose.
Remarque : on observe que la valeur initiale V0 n'intervient pas du tout dans le rsultat finale et que la seule
connaissance du taux de croissance annuel moyen ( g) est ncessaire pour connatre, quel que soit le
phnomne, un taux de doublement.
74
5.2 Indices
L'indice est avant toute chose un rsum d'informations. Il est une autre faon d'exprimer une variation relative,
c'est--dire un rapport de valeurs absolues, en dsignant ds le dpart l'une d'elles comme rfrence ou base
laquelle on affecte par convention la valeur 100.
Exemple: plutt que de dire que le prix d'un bien immobilier a augment de 12,5 % de 2006 2007, on peut
crire que sur base 100 en 2006, il tait en 2007 l'indice 112,5 (on note couramment 2006 = 100). Cette faon
d'exposer une variation n'ajoute rien la prcdente si ce n'est qu'elle permet d'viter les variations ngatives :
ainsi, au lieu de parler d'une baisse de 20 % on crira que l'indice est pass de 100 80.
Dans cet exemple, on a affaire un indice lmentaire c'est--dire qui renseigne sur lvolution temporelle ou
spatiale dune seule valeur, par opposition un indice complexe ou indice synthtique qui rsume quant lui
lvolution de plusieurs grandeurs comme plusieurs prix, plusieurs quantits, plusieurs valeurs (prix x quantits),
etc.
situation 0, on a :
I 1 /0=
g1
g0
Exemple : en 1876, la population franaise comptait 38,4 millions d'habitants. En 2007, cette mme population
tait value 62,1 millions d'mes. Calculer l'indice de variation de population en prenant comme rfrence
l'anne 1876.
62,1
=1,62
38,4
La situation de base, ou de rfrence ( g0), est toujours place au dnominateur, le numrateur ( g1) tant
occup par la situation dite courante. Pour viter de trainer trop de chiffres aprs la virgule, on a pour habitude
de multiplier le rsultat d'un indice par 100. Dans l'exemple prcdent on obtient donc 1,62 x 100 = 162. En base
1876 = 100, la population franaise tait en 2007 l'indice 162, soit une population en progression de 62 % entre
1876 et 2007.
Les indices lmentaires ont trois proprits:
La rversibilit: un indice lmentaire est rversible c'est--dire que l'on inverse les situations comme suit :
I 0/ 1 =
1
I 1/ 0
1
g1
g0
Cette proprit est peu utilise dans les comparaisons chronologiques car il est peu frquent de mettre au
dnominateur une priode postrieure celle mise au numrateur. Elle l'est en revanche beaucoup plus et
75
mme essentielle lorsqu'il s'agit de comparaisons gographiques pour lesquelles il n'existe aucune relation
d'ordre entre les lieux compars et o le choix du lieu de rfrence demeure parfaitement arbitraire.
Exemple: prenons le revenu moyen par mnage de 3 pays de l'Union Europenne en 2007 (Danemark, France et
Hongrie) avec comme rfrence France = 100 et calculons les indices lmentaires. Nous obtenons :
Pays
Revenu
moyen
DK - Danemark
25 113
135,9
FR - France
18 481
100,0
4 377
23,7
HU - Hongrie
I DK /FR =
Indice base
France = 100
25 113
100=135,9
18 481
I HU / FR=
4 377
100=23,7
18 481
Le revenu moyen des mnages danois est suprieur de 35,9 % celui des mnages franais. En revanche le
revenu moyen des mnages hongrois reprsente peine le quart de celui des mnages franais .
En appliquant la rgle de rversibilit, on s'autorise comparer la base France aux autres individus comme suit :
I FR/DK =
1
I DK / FR
1
100=73,6
25 113
18 481
I FR/HU =
1
1
=
100=422,2
I HU /FR 4 377
18 481
Ainsi le revenu moyen des mnages franais ne reprsente-t-il que 73,6 % de celui des mnages danois. Par
contre, un mnage franais a en moyen un revenu plus de 4 fois suprieur celui d'un mnage hongrois.
La transitivit : un indice lmentaire est transitif tel que :
I 2/0 =I 2/ 1I 1/ 0
I 2/1 =
I 2/ 0
I 1/0
L'intrt de la transitivit se manifeste lorsque, une situation de rfrence 0 ayant t choisie, on souhaite
pouvoir comparer deux situations diffrentes de celle prise pour rfrence.
Exemple : Considrons la srie indice de la variation de la population franaise quelques dates cl entre 1876
et 2007 avec 1936 = 100 :
Date
Indice
1876
91,7
1901
97,1
1921
93,6
1936
100,0
1946
96,6
1962
110,3
1982
129,6
1999
139,6
2007
148,2
76
Chaque priode est indice par rapport la situation de rfrence 1936 = 100. Mais ds lors que l'on
ne possde plus les chiffres initiaux de population comment faire pour comparer une priode avec
une autre sur la base des seuls indices et toujours en considrant la rfrence 1936 = 100 ?
L'indice de variation de population entre 1936 et 1962 est 110,3 signifiant qu'entre ces deux dates le
nombre d'habitants a cru de 10,3 %. Entre 1936 et 2007, l'indice donne une valeur de 148,3 indiquant
une progression dmographique de 48,3 %. Qu'en est-il de l'indice de variation de population entre
1962 et 2007 avec 1936 = 100 ? En posant I1/0 = I1962/1932 et I2/0 = I2007/1932 et en utilisant la
proprit de transitivit, on peut crire :
I 2/1=
I 2/0
I 2007/ 1932 148,2
=I 2007/1692 1932=100=
=
=1,344 soit 134,4
I 1/0
I 1962/1932 110,3
En base 1936 = 100, l'indice de variation de population entre 1962 et 2007 est 134,4 traduisant un
accroissement de population 34,4 % entre ces deux dates.
La multiplication : troisime proprit fondamentale des indices lmentaires que l'on peut noncer
ainsi : si une grandeur g est le produit de deux grandeurs h et k , l'indice lmentaire de la grandeur g
est le produit des indices des grandeurs h et k pour une mme priode :
Si g=h k alors
I 1 /0 g =I 1/0 hI 1 /0 k
Cette dernire proprit trouve une application essentielle en conomie o la valeur est toujours
considre comme le produit d'une prix et d'une quantit.
Exemple :
L'Adil de Syldavie ne dispense qu'un type seul de conseil juridique qu'elle facture ses consultants au
prix unitaire de 8,50 . En 2007, elle a dlivr 8 573 conseils ralisant ainsi un chiffre d'affaire pour
l'anne de 72 870,5 . En 2008, la crise aidant, le conseil d'administration de l'Adil de Syldavie
propose de baisser le prix de la consultation 7,80 afin de permettre davantage de personnes de
profiter de la qualit et de la comptence toutes deux incomparables de son service juridique. A la
fin de l'anne 2008, le nombre de consultations donn atteint 9 788 reprsentant un chiffre d'affaire
de 76 346,4 . La baisse du prix de la consultation (PU) combine une hausse du nombre de
contacts (NC) se sont traduites par un indice de variation du chiffre d'affaire (CA) calcul comme suit
et correspondant une augmentation de 4,8 % :
I 1 /0 CA=I 1 /0 PU I 1 /0 NC =
I 2008/2007 CA=I 2008/2007 PU I 2008 /2007 NC =
7,80 9 788
Logements
Dates
0
11,16
11,57
9,18
9,67
7,73
8,09
6,44
6,81
5,56
5,91
Pour chacun des logements il demeure toujours possible de calculer l'indice lmentaire d'volution
des loyers. Mais l'intrt existe de vouloir connatre l'volution globale des loyers prenant en compte
l'ensemble des logements, autrement dit, l'indice synthtique d'volution des loyers de plusieurs
logements.
Une premire faon de procder consisterait calculer les indices lmentaires pour chacun des
logements et en faire la moyenne arithmtique comme suit :
Indice lmentaire
I t /0
Coefficient
de
pondration
Indice x
coefficient
11,16
11,57
Ia t/ 0 = 103,7
0,20
20,73
9,18
9,67
Ibt / 0 = 105,3
0,20
21,07
7,73
8,09
Ic t /0 = 104,7
0,20
20,93
6,44
6,81
Id t /0 = 105,7
0,20
21,15
5,56
5,91
Ie t /0 = 106,3
0,20
21,26
L'indice synthtique des loyers est gale la moyenne arithmtique des indices lmentaires
calculs :
I t /0=
Ia t /0 Ib t /0 Ic t/ 0 Id t /0 Ie t /0
n=5
I t/ 0 =
Avec toujours
=1
videmment, une partie de l'intrt de l'indice synthtique rside dans la trs vraisemblable variation
du coefficient de pondration en fonction des situations observes.
En reprenant l'exemple prcdent, on peut supposer que a, b, c, d et e ne sont pas des logements
locatifs mais plutt des catgories de logements constitutives d'un parc locatifs l'chelle d'une ville
par exemple. Ainsi, on peut imaginer que
a
79
et que le loyer mesur aux dates 0 et la date t pour chacun des parcs est un loyer moyen et que l'on
cherche connatre l'indice d'volution des loyers pour l'ensemble du parc locatif. Dans ce cas de figure-ci, les
coefficients de pondration ont toutes les chances de ne plus tre gaux d'abord parce que l'on souhaite que le
calcul de l'indice synthtique d'volution des loyers tienne compte de la structure existante du parc locatif et
que de la sorte le poids de chaque parc soit respect.
Rpartition (%)
1 pc
2 pc
3 pc
4 pc
5 pc+
Coefficient de
pondration (poids)
0,256
0,272
0,227
0,172
0,073
1
25,6 %
27,2 %
22,7 %
17,2 %
7,3 %
100 %
Quelques exemples d'indices synthtiques clbres : les indices d'volution de la valeurs d'un
panier de biens.
Considrons un panier de biens courants, celui que les mdia appelle habituellement le panier de la
mnagre . La valeur de chaque bien est le produit d'un prix et d'une quantit achete. Si la panier
contient n produits, la valeur du panier au temps t s'crit :
n
Vt
p it
q 1t
Exemple :
Examinons le panier de Madame Duraton au temps t . Il contient quatre produits dont le prix unitaire
et les quantits achetes figurent dans le tableau qui suit :
Prix
Quantit
i
t
qt
Produit 1
3,88
Produit 2
7,50
Produit 3
12,45
Produit 4
4,40
12
80
V t = p t q t = p t qt pt qt pt qt p t q t
i =1
V t =3,8877,50412,4534,4012=147,31
L'indice de Laspeyres :
L'indice de Laspeyres permet de mesurer deux volutions : l'volution des prix des biens composant
le panier on parlera alors d'indice d'volution des prix de Laspeyres et l'volution des quantits
des biens composant ce mme panier on parlera alors d'indice d'volution des quantits de
Laspeyres.
Ltp/0=
Vt
=
V0
pit qit
i=1
n
p
i=1
i
0
Vt
V0
p0
q i0
pt
qt
Avec
100
i
0
i
i
q t=q0 Puisque les quantits sont fixes
81
Date t
i
p0
q0
pt
qt
Produit
1
3,88
4,13
Produit
2
7,50
8,42
Produit
3
12,45
11,71
Produit
4
4,40
12
4,89
Les prix ont volu mais aussi les quantits. Or l'indice des prix de Laspeyres suppose que les
quantits restent inchanges. Le calcul se fera donc quantits gales avec comme rfrence les
quantits au temps initial. On aura donc :
4
V
L = t=
V0
p
t /0
p it q it
i =1
4
100 =
i
0
i=1
p
t /0
L =
1
0
2
0
2
0
3
0
3
0
4
0
p q p q p q p q
4
0
i
0
100 =
Ltp/0=
p 1t q 1t p 2t q2t p 3t q 3t p4t q 4t
p 10 q10 p20 q 20 p 30 q03 p40 q 40
100
4,1378,42411,713 4,8912
3,8877,50412,4534,4012
156,4
100 = 106,2
147,3
Soit une progression de la valeur du panier de Mme. Duraton de 6,2 % selon les prix entre 0 et t .
Ltq/0=
p it q it
i =1
n
p
i =1
pi0 qit
100 =
i
0
i=1
n
i
0
i=1
82
100
i
0
i
0
O
Prix du bien i au temps 0
p i0
q0
p it
qt
Avec
fixes
Date t
i
0
1
0
i
t
q 1t
Produit 1
3,88
4,13
Produit 2
7,50
8,42
Produit 3
12,45
11,71
Produit 4
4,40
12
4,89
Les quantits ont volu mais aussi les prix. Or l'indice des quantits de Laspeyres suppose que les
prix restent inchanges. Le calcul se fera donc prix gaux avec comme rfrence les prix au temps
initial. On aura donc :
4
V
q
L t/0= t =
V0
p it q it
i=1
4
100 =
p
i=1
p
L t/0
=
i
0
1
0
1
0
2
0
2
0
3
0
3
0
4
0
4
0
p 0 q t p 0 q t p0 q t p 0 qt
p q p q p q p q
i
0
100 =
L qt/0=
p1t q 1t p2t q 2t p 3t q 3t p 4t q 4t
p 10 q 10 p 20 q 20 p 30 q30 p40 q 40
100
155,4
100 = 105,5
147,3
Soit une progression de la valeur du panier de Mme. Duraton de 5,5 % selon les quantits entre 0 et
t.
83
Cher au cur ou plutt au porte-monnaie - des franais, cet indice est sans doute le plus connu dans notre
pays (peut-tre juste derrire le CAC40 en ce moment). L'IPC ou Indice des Prix la Consommation est
calcul et publi mensuellement par l'INSEE. Il permet, sur la base d'un panel de produits et services
consomms rgulirement et massivement par les mnages franais, d'valuer l'volution des prix entre deux
priodes. C'est une mesure synthtique d'volution de prix quantit constante.
Le calcul de l'IPC de l'INSEE utilise la formule de l'indice des prix Laspeyres qu'elle applique un chantillon de
quelques 21 000 indices lmentaires eux-mmes calculs sur la base d'une collecte nationale de prix de
produits dans 106 agglomrations de plus de 2 000 habitants rparties sur l'ensemble du territoire. LIPC couvre
plus 1 000 varits de biens et services regroups en 161 catgories. La liste des biens et services enquts
demeurent confidentielle afin d'viter tout tentative ventuelle de manipulation des prix par les commerants.
Actuellement, la priode de rfrence pour le calcul de l'IPC est 1998 = 100. Le graphique qui suit donne la
structure du panier de l'IPC de l'INSEE et par consquent les pondrations appliques lors du calcul :
Source : http://www.insee.fr/fr/themes/indicateur.asp?id=29&type=1&page=info_ipc.htm#q2
Publi dans la premire quinzaine de chaque mois et portant sur l'volution des prix du mois prcdent, l'IPC
fait chaque fois l'objet de commentaires et de dbats passionns tant sur sa valeur il sert en effet de tmoins
de nombreux paramtres conomiques (inflation, revalorisation des pensions et du SMIC, etc.)- que sur sa
composition et son mode calcul que certains jugent ne plus tre en phase avec les vrais habitudes de
consommation des franais, notamment depuis 2006 avec la flambe des cot de l'nergie, des transport et du
logement. Le tableau qui suit fait le point sur la valeur rcente de l'indice gnral puis dclin par poste (source:
http://www.insee.fr/fr/themes/indicateur.asp?type=1&id=29).
84
85
Chapitre 6
6. Relation entre deux variables : tendance, ajustement linaire (ou
rgression linaire) et corrlation
Dans les chapitres prcdents nous avons numr et dcrits les principaux outils statistiques disposition pour
caractriser et rsumer des distributions de valeurs. Comment, en limitant au maximum la perte d'informations,
passer d'un volume important de donnes difficilement manipulable quelques indicateurs pertinents
synthtisant l'allure et le contenu de la distribution de la population tudie.
Le prsent chapitre s'intresse un autre aspect de l'analyse statistique, celui qui dcrit et tudie la relation
pouvant exister entre deux variables. Il est en effet frquent, lorsque l'on tudie et analyse un phnomne quel
qu'il soit, que plusieurs variables ou facteurs entrent en ligne pour sa comprhension, variables qui de part la
relation de cause effet qu'elles entretiennent sont mme d'une part de permettre de mieux comprendre le
phnomne et d'autre part d'en dgager tendance et projection compte tenu de la situation existante.
D'une part rsumer mathmatiquement (par une quation) et graphiquement (par une droite) la
relation pouvant exister entre deux variables : lorsqu'il s'agira d'une variable confronte au temps ou
l'espace dans le cadre d'une relation non immuable , on parlera de tendance. Par contre lorsqu'il
s'agira de deux variables entretenant une relation de cause effet immuable on parlera davantage
d'ajustement ou de rgression.
D'autre part qualifier et mesurer l'intensit de la relation (ou degr de liaison) entre les variables
tudies via des outils appropris comme par exemple le coefficient de corrlation ou les test du Khi
lorsque l'on aura affaire des variables non quantitatives.
86
Exemple de tendance linaire : volution de l'esprance de vie la naissance pour les femmes et les hommes en
France de 1750 nos jours et droites de tendance associes.
Exemple d'ajustement linaire : Relation entre loyers mensuels moyens au m hors charges et surface des
logements dans le parc locatif priv du territoire de Belfort en 2007 avec la droite d'ajustement (ou droite de
rgression) associe.
20
18
16
14
12
10
8
6
4
y = -0,0409x + 10,896
2
0
0
20
40
60
80
Surface (m)
87
100
120
140
6.1
y =ax b
O
Cette relation suppose que y est une fonction de x, c'est--dire que la valeur de y dpend de celle de x, ou bien
encore que la valeur de y est explique par la valeur de x. Ainsi, la faon dont voluera la valeur de y dpendra
de manire plus ou moins forte de la faon dont voluera celle de x. x est alors appele variable explicative, sa
variation expliquant tout ou partie de la variation de y, elle-mme appele variable explique.
Dans le premier cas tendance linaire l'volution de l'esprance de vie dpend du temps (et non
l'inverse). En effet, au fur et mesure que l'on avance dans le temps, l'esprance de vie crot. La
variable dpendante ou explique est ici l'esprance de vie en anne et la variable indpendante
ou explicative est le temps , mais l'on sait pertinemment que ce n'est pas le temps qui explique
l'accroissement l'esprance de vie mais davantage les progrs de l'alimentation et de la mdecine
qui eux s'amliore avec le temps. Le temps explique donc de faon indirecte l'augmentation de
l'esprance de vie. Nanmoins, nous dirons que l'esprance vie est une fonction du temps et
crirons : Esprance de vie = f (temps)
y = Variable explique
88
Il nous reste dcrire les deux dernires composantes de l'quation de la droite de tendance et de la droite de
rgression savoir a et b :
Si a est ngatif, cela signifie que lorsque x augmente, y diminue. On parle alors de relation
inversement proportionnelle;
Si a est nulle, cela signifie que lorsque x augmente, y demeure constant, ne varie pas;
Enfin si a est positif, cela signifie que lorsque x augmente, y augmente galement (mais pas
ncessairement dans les mmes proportions). On parle alors de relation proportionnelle.
a0
y=2 x
y= x
y
X
a=0
1
y= x
2
y
y constant
X
a0
y
X
A titre d'exemple,
y
X
y=ax
On parle alors de fonction linaire. Qui plus est, si
89
y
Ordonne
y = ax + b
b = ordonne lorigine
a = pente de la droite
0
Origine
Abscisse
90
y .
Le nuage initial de points se trouve maintenant distribu de part et d'autre de la droite et chaque observation
se trouve dornavant une certaine distance de ladite droite. Lorsque que les observations se situent au-dessus
de la droite d'ajustement (points verts), la distance est positive. Lorsque les observations se trouvent sous la
droite d'ajustement (points rouges), la distance est ngative. Ces distances correspondant aux carts voqus
lors de la tentative de dfinition de la mthode des Moindres Carres Ordinaires qu'il faudra, une fois levs au
carr, minimiser. Une distance, ou un cart, correspond la diffrence entre la valeur observe de y et la valeur
estime de y soit :
y i y i
Rappelons que
La distance ou l'cart ainsi dtermin est galement appel rsidu en rfrence Plus le rsidu est faible, plus la
valeur observe est proche de la droite d'ajustement. De mme, un rsidu positif signifie que la valeur observe
y i est gale la valeur estime y i alors le rsidu est nul et la valeur observe se trouve exactement sur
le droite d'ajustement.
Valeurs
Rsidu
yi y i
y i y i 0
yi y i
y i y i 0
yi = y i
y i y i =0
91
Si les choses ont t faites dans les rgles, c'est--dire si la droite passe bien au plus prs de tous les points du
nuage, alors la somme des rsidus doit tre gale 0, la somme des rsidus ngatifs compensant exactement la
somme des rsidus positifs. Nous avons donc :
n
i=1
i=1
d i= y i yi =0
Le but tant termes de minimiser les somme des rsidus levs au carr
n
d = y i yi 2
i=1
2
i
minimum
i=1
Pour atteindre cet objectif et respecter ainsi le postulat de dpart, il nous faut trouver les paramtres a et b
pour formaliser l'quation de la droite d'ajustement. Pour viter de ce perdre dans des dveloppements
mathmatiques inutiles ce stades, on donnera ici les recettes permettant de dterminer directement a et b .
L'ordonne l'origine :
a=
Cov x , y xy
= 2=
Var x
x
1 n
x x yi y
n i=1 i
n
1
x x 2
n i=1 i
b= y a x
Exemple : on s'intresse au prix moyen du foncier constructible et la faon dont celui-ci varie au fur et mesure
que l'on s'loigne d'un ple d'emplois et de services. On suppose logiquement que la valeur du foncier dcrot
en fonction de l'loignement au ple, autrement dit que le prix du foncier est inversement proportionnel la
distance au ple. Ce postulat considre donc le prix du foncier constructible comme une fonction de la distance
au ple: prix du foncier constructible = f (distance au ple).
Sur le terrain, on relve le prix moyen du foncier constructible par commune ainsi que la distance routire entre
chacune de ces communes et la commune-ple et on confronte les deux variables sur un mme obtenant ainsi
un nuage de points o chaque point reprsente une observation, c'est--dire une commune :
92
L'axe des x (abscisse) figure la variable explicative, en l'occurrence la distance au ple, alors que l'axe des y
correspond la variable explique ou dpendante, le prix moyen au m du foncier constructible. D'vidence, il
existe bien une relation inversement proportionnelle entre les deux variables : plus la distance est grande, moins
le prix du foncier semble lev. La droite d'ajustement aura donc ncessairement une pente ngative ( a < 0) .
Le calcul des paramtre de la droite de rgression nous donne :
Pour la pente :
1 n
xi x yi y 61,19
Cov x , y xy n i=1
a=
= 2=
=
=1,667
n
Var x
36,71
x
1
2
x x
n i=1 i
Pour l'ordonne l'origine:
b= y a x =29,991,66716,34=57,22
Soit une droite d'ajustement d'quation :
On vrifie assez aisment que le postulat de dpart est vrifi, savoir que la somme des rsidus est gale 0 :
n
y i yi =0
i=1
Notre droite d'ajustement passe au plus prs de tous les points du nuage.
93
dehors du champ de celles observes. Dans les deux cas, le fait de disposer d'une quation, qui n'est autre
chose qu'un modle mathmatique, autorise la production de n'importe y pour n'importe quel x.
Interpolation
Extrapolation
Source : http://www.coventry.ac.uk/ec/~nhunt/regress/pred1.html
Exemple : en reprenant l'exemple prcdent, il est possible de calculer la valeur du foncier pour une distance au
ple de 30 km, 35 km, 40, 50 et mme de 100 km:
y i
Distance (km)
30
(/m)
7,2
35
-1,1
40
-9,5
45
- 17,8
50
-26,1
100
-109,5
94
Les rsultats obtenus sont rvlateurs de la limite du modle de rgression linaire car l'en croire, il suffirait de
s'loigner au-del de 34,3 km pour que le prix du foncier constructible devienne nul puis ngatif !
Un modle plus juste devrait proposer une limite asymptotique, c'est--dire un prix qui demeure quasi constant,
sans tre nul ou ngatif, partir d'une certaine distance. Ces modles existent mais ils ont la particularit de ne
pas tre linaires: on parle alors de modles polynomiaux, exponentiels ou bien encore logarithmiques.
Dans notre, il est possible d'affiner l'ajustement et par l mme les estimations par le biais d'un modle type
puissance
Comparons les estimations du modle puissance celles du modle linaire dans les mmes conditions :
Distance
(km)
y i
(/m)
modle
linaire
y i
(/m)
modle
puissance
30
7,22
15,76
35
-1,12
14,03
40
-9,46
12,69
50
-26,13
10,72
100
-109,48
6,36
Il semblerait que les estimations obtenues soient plus en phase avec une suppose ralit. Cependant, rien
ne nous garanti, dans le cadre d'une extrapolation, que les rsultats fournis soient reprsentatif d'une
quelconque ralit. En effet, rien ninterdit de penser qu partir dune certaine distance les prix du foncier
renouent avec la hausse du fait de linfluence dun autre ple demplois et de services.
Le fait de pouvoir formaliser, sous forme d'une quation, une relation mathmatique et statistique entre deux
variables ne signifie pas ncessairement qu'il y ait, dans la ralit, une relation effective de cause effet entre
ces mmes deux variables. Les exemples sont lgion o, pour montrer les travers de la modlisation par
rgression, on dcrit une relation entre variables qui dans la ralit n'a aucune chance ou raison de se raliser.
95
Exemple : la consommation annuelle de poisson pan en Australie (x) et le taux de mortalit infantile
(enfants de moins de 5 ans) en Bolivie (y) entre 1960 et 2005. A premire vue, la relation entre les deux
variable semble vidente. Elle est peut tre mise en quation au mme titre que n'importe quelle autre
relation via le modle de rgression linaire. Seulement elle n'existe tout simplement pas: il n'y a en effet
aucune chance, et aucune raison, pour que l'augmentation de la consommation de poisson pan en
Australie ait une quelconque influence sur le taux de mortalit infantile en Bolivie.
La formalisation de la relation par l'intermdiaire d'une quation ne renseigne pas non plus sur la qualit et
l'intensit d'une suppose liaison entre deux variables. On peut en effet dterminer une quation matrialisant
une relation que l'on juge probable et logique et qui cependant n'est pas ou peu marque ou qui n'est pas
systmatique dans la ralit.
L'exemple qui suit montre, de faon certes caricaturale, le fait qu'une relation qui n'existe pas ou peu entre
deux variables peut malgr tout tre formalise par une quation. Dans cet exemple, la variation de x n'a pour
ainsi dire aucune consquence sur la variation de y.
96
d'une part un problme li l'identification de l'existence ou non d'une relation de cause effet entre
deux variables que l'on souhaite confronter : la plupart du temps, la solution de ce problme rside
dans le bon sens (confrontation de variables dont on suppose qu'elles entretiennent un lien rel et
logique) et/ou dans l'exprimentation (vrification d lien suppos par des mthodes statistiques);
d'autre part, un problme li la mesure de la qualit et de l'intensit de la liaison entre deux variables.
Pour ce faire, la statistique a dvelopp des outils capables d'valuer la qualit d'une liaison entre
variables : le coefficient de corrlation et le coefficient de dtermination.
6.2 Mesure de la qualit et de l'intensit d'une liaison entre deux variables : coefficient de
corrlation et coefficient de dtermination
Ces deux coefficients qualifient et mesurent la force de la relation mathmatique et statistique entre deux
variables. Pour les mmes raisons que la droite de rgression, l'obtention de coefficients jugs bons ne signifie
pas l'existence d'une relation relle entre les variables.
Coefficient de corrlation et coefficient de dtermination sont intimement lis, le second n'tant ni plus ni
moins que la carr du premier. Nots respectivement r et r , on crit :
r=
1 n
x x y i y
n i=1 i
Cov x , y
= xy =
n
n
Var x Var y x y
1
1
2
x ix y i y 2
n i=1
n i=1
Cette formule, en apparence complique reprend, pour son calcul, beaucoup de paramtres normalement dj
connus lorsque les distributions des deux variables ont t tudies et la droite d'ajustement dtermine.
1 r 1
Sa valeur mesure la force de la liaison tandis que son signe renseigne sur le sens de la corrlation :
Lorsque r = -1, la relation entre les variables x et y est inversement proportionnelle et parfaite
97
Entre ces bornes, tous les cas de figures sont possibles avec des degr de liaison variables. La forme du nuage
de points permet dj de se faire une ide quelques fois assez juste de la nature et de la force de liaison entre
deux variables ainsi que l'illustrent les figures ci-aprs.
On considre que deux variables sont suffisamment lies pour pratiquer des interpolation et extrapolation
lorsque
r 0,75 ou quand
Le coefficient de dtermination r renseigne sur la force de la liaison statistique entre deux variables. Il diffre
assez peu du coefficient de corrlation r dont il est le carr. Pour cette raison, il est toujours de signe positif et
n'informe donc pas sur le sens de la relation. C'est pourquoi on lui prfre le coefficient de corrlation .
Il existe des tests (test de signification du r de Pearson par exemple) permettant de juger objectivement de la
signification statistique d'un coefficient de corrlation calcul et par l mme de la signification de la liaison
entre les variables tudies.
98
Quelques formes typiques de nuages de points en relation avec les valeurs du coefficient de corrlation pour la
rgression linaire (Sx et Sy reprsentent respectivement l'cart-type de la variable x et l'cart-type de la
variable y) Source : Guide pratique d'analyse des donnes p. 68, Crauser, Harvatopoulos et Sarnin, 1989.
Exemple:
Reprenons l'exercice qui avait consist confronter la variation du prix moyen du foncier constructible par
commune en fonction de la distance des communes un ple d'emplois. L'hypothse de dpart avait suppos
qu'une relation de cause effet existait entre ces deux variables et qu'elle tait inversement proportionnelle. En
d'autres termes, le prix moyen du foncier constructible pour un ensemble de communes priphriques tait
inversement proportionnel la distance entre ces communes et le ple d'emploi.
Cette hypothse avait t en partie conforte par la figuration du graphique de dispersion (nuage de points)
dont l'allure montrait clairement une relation pouvant aller dans le sens des soupons avancs. Partant de l,
l'quation de la droite de rgression avait t calcule permettant tout aussi bien, le croyait-on, infrence,
interpolation et extrapolation. Les quelques tests raliss sur la base du modle linaire nous avaient
cependant interpel sur la fragilit du modle pour ce cas et il avait t suggr du coup l'emploi d'un modle
non-linaire plus appropri.
99
Mais absolument rien ne nous avait renseign sur la qualit et l'intensit de cette suppose liaison. L'utilisation
du coefficient de corrlation r doit nous permettre d'apprhender la qualit de la liaison. Son calcul nous donne
le rsultat suivant :
r=
et
Cov x , y
=
Var x Var y
1 n
x x y i y
n i =1 i
1
1
x i x 2 y i y 2
n i=1
n i=1
61,19
=0,695
36,71 212,04
r 2=0,48
Il s'agit d'un score modeste. La relation existe bel et bien mais n'est pas convaincante sur le plan statistique.
Plusieurs raisons cela :
Si, pour le calcul des prix moyen on s'est bas sur un chantillon de communes et/ou de terrains, le biais
introduit par la dmarche peut affecter la distribution en favorisant quelque peu la dispersion : l'chantillon n'est
pas forcment reprsentatif de la ralit et du coup la relation suppose entre les variables s'en trouve
perturbe.
Le relation entre les deux variables existe mais n'est de type linaire. Autrement dit, le prix moyen du foncier ne
dcrot pas linairement au fur et mesure que la distance augmente. L'ajustement trouve ses limites, comme
dj dmontr et la force de la liaison statistique en est affecte, diminue. Il faut trouver un autre modle non
linaire plus adapt au phnomne.
L'exercice n'ayant t ralis que sur anne, il se peut que cette anne ne soit pas reprsentative d'une
tendance sur une longue priode: des donnes extraordinaires pour cette anne ont pu polluer la
distribution et du mme coup accrotre la dispersion et fausser l'ajustement linaire.
Il se peut galement que le phnomne souffre d'anisotropie, c'est--dire qu'il prsente des variations
diffrentes selon les directions de l'espace : dans ce cas, la distance kilomtrique n'est pas suffisante pour
expliquer la dcroissance des prix. La distance temps, variable pour une mme distance kilomtrique d'un point
un autre compte tenu de la qualit des axes de circulation et de l'intensit du trafic, serait peut-tre plus
approprie pour expliquer la diminution des prix du foncier.
L'ensemble de ces remarques peuvent se combiner pour expliquer le score modeste obtenu.
Ritrons le calcul des coefficients r et r en utilisant cette fois-ci le modle de rgression puissance et
voyons ce que nous obtenons :
2
r =0,66
r =0,44
Les rsultats ne sont pas meilleurs, ils sont mme moins bons qu'avec le modle linaire. Le problme ne rside
donc pas dans le choix du modle mais probablement davantage dans la construction de la distribution de la
population ou de l'chantillon. Le modle non linaire (puissance) n'ajuste pas mieux le nuage de points que le
100
modle linaire. Pour ce qui est des interpolations, on lui prfrera donc le modle linaire. Par contre il produit
des extrapolations (ou des prdictions meilleures ou moins incohrentes que le modle linaire.
ES y = y 1r
Avec :
cart-type de la variable y
Coefficient de dtermination
ES renvoie l'erreur-type de la valeur y prvue pour chaque x de la rgression. L'erreur type est une mesure du
degr d'erreur dans la prvision de y partir d'une valeur individuelle x. L' erreur-type est l'cart-type estim de
l'erreur de cette estimation. C'est donc une estimation de l'cart-type entre les valeurs mesures ou estimes
(d'une distribution d'chantillonnage) et les vraies valeurs.
Dans la formule ci-dessus, on note que:
Si r = 1 ou si r = -1, Es = 0
Par consquent, et afin de minimiser l'erreur-type synonyme d'un modle de prdiction fiable , on devrait
toujours exiger de ce dernier qu'il produise un coefficient de corrlation au moins 0,75 ou au moins -0,75.
101
Annexes
102
10
i=1
i=1
xi = xi
qui se dit :
somme des xi pour i = 1 jusqu' 10 . Je somme donc les valeurs de la variable x pour les 10 individus. Si notre
population avait t compos de 1 388 individus dont nous aurions souhait faire la somme des valeurs pour la
variable y, nous aurions crit :
1388
yi
i=1
Dans les cas prsents, la somme s'est effectue du 1 er au dernier individu (de 1 n). Mais elle peut trs bien tre
slective et se faire n'importe o dans une population, comme par exemple du 21
quel cas on crira pour une variable x :
ime
individu au 133
133
xi
i=21
La mme logique s'applique la notion de PRODUIT, note P (Pi majuscule) qui n'est autre chose que la
multiplication de termes.
Ainsi, partir du mme exemple que prcdemment, plutt que d'crire :
x1 . x2 . x3 . x4 . x5 . x6 . x7 . x8 . x9 . x10 on notera :
103
10
i=1
i=1
xi = xi
ime
. Au
Annexe 2 : Liste (non exhaustives) des fonctions Excel utiles en statistiques descriptive
Pour accder et insrer une fonction Excel une feuille de calcul, il existe deux possibilits :
Slectionner alors l'onglet Commande et dans la liste Catgories l'option Insertion . S'affiche alors en face les
fonctionnalits disponibles et l'icne affecte. Choisir Insrer une fonction et faire glisser l'icne jusqu' l'endroit
de la barre d'outils o l'on souhaite la voir figurer dfinitivement.
Une fois l'opration termine, fermer la fentre Personnalisation .
104
Fonction
(dnomination franaise)
Rsultat
ABS
ARRONDI
CENTILE
COEFFICIENT.CORRELATION
COEFFICIENT.DETERMINATION
COVARIANCE
CNUM
DROITEREG
ECARTYPE
ERREUR.TYPE.XY
Renvoie l'erreur type (ou erreur standard) de prdiction d'un modle de rgression
FREQUENCE
Calcule la frquence laquelle des valeurs apparaissent dans une plage de valeurs
MAX
MEDIANE
MIN
MODE
MOYENNE
MOYENNE.GEOMETRIQUE
NB
Dtermine le nombre de cellules contenant des nombres et les nombres compris dans la liste des arguments.
NB.SI
NBVAL
Compte le nombre de cellules qui ne sont pas vides et les valeurs comprises dans la liste des arguments.
PLAFOND
ORDONNEE.ORIGINE
PENTE
PRODUIT
QUARTILE
RACINE
SOMME
SOMME.CARRES
SOMME.SI
TENDANCE
VAR
VAR.P
105
Crer un histogramme
Dans le menu principal, choisir Outils puis Utilitaire d'analyse comme suit (Dans Excel 2007, cliquez sur
Analyse des donnes dans le groupe Analyse sous l'onglet Donnes) :
106
S'affiche alors la fentre paramtrique suivante qu'il convient de complter en s'aidant eventuellement de l'aide
propose :
REMARQUE : vous ne serez pas en mesure de crer le graphique Histogramme si vous spcifiez les options
(Plage de sortie ou Nouvelle feuille de feuille de calcul) qui crent le tableau d'histogramme dans le mme
classeur que vos donnes.
Pour plus d'informations, cliquez (Ctrl Clic gauche de la souris) sur le numro ci-dessous pour afficher l'article
correspondant dans la Base de connaissances Microsoft.
214029 (http://support.microsoft.com/kb/214029/ ) Utilisation d'outils d'analyse des donnes dans des feuilles
regroupes
107
Introduction
Excel offre la possibilit de construire des tableaux de synthse relativement labors dont le principe repose sur le
croisement de plusieurs variables. L'appellation tableaux croiss dynamiques dcoule directement de ce principe, le
qualificatif dynamique faisant rfrence au fait que toute modification opres dans la srie de donnes se traduit
par une mise jour quasi automatique du tableau crois
Vocabulaire de base
Excel nomme champ les variables dcrivant les individus de la population tudie. Les champs constituent
en gnral les colonnes du tableau.
Les lignes du tableau Excel constituent les enregistrements qui dcrivent les individus de la population
tudie. Une ligne = un individu.
108
Excel vous demande de prcisez la localisation de la source des donnes qui servira l'laboration du tableau
crois dynamique. Plusieurs possibilits s'offrent vous :
Liste ou base de
donnes Excel.
Les donnes proviennent d'une base de donnes Excel ou d'une srie de cellules situe sur une
feuille de calcul d'Excel.
109
Source de donnes
externes
Plage de feuilles de
calcul avec tiquette.
Autre tableau ou
graphique crois
Les donnes proviennent d'autres logiciels tels qu'Access, dBASE, FoxPro ainsi que plusieurs
autres.
Crer automatiquement un tableau aprs lui avoir dtermin la plage de cellules utiliser. Il utilise
le contenu de la premire ligne et de la premire colonne pour dterminer le nom des champs du
tableau.
Vous permet d'approfondir des analyses sur des tableaux et graphiques dynamiques qui ont dj
t conus.
dynamique
Excel vous demande ensuite quel type de rapport que vous souhaitez construire:
Rapport de graphique crois dynamique : cette option vous permet de construire des graphiques labors
partir de tableau crois. De ce fait, le choix de cette option s'accompagne galement de la construction d'un
tableau crois dynamique
Excel vous demande ensuite de choisir l'endroit o vous voulez voir figurer les rsultats. Vous avez le choix entre une
nouvelle feuille et un endroit prciser de la feuille active.
Si vous appuyez sur Terminer , Excel s'excute et produit la structure du tableau crois l'endroit prcis. Vous
pouvez, avant cela, explorer les autres options proposes sur l'cran :
110
L'option Disposition vous permet de concevoir immdiatement le tableau crois dynamique (choix et
disposition des champs l'intrieur des diffrentes zones du tableau (page, ligne, colonne et donnes).
Donnes
Cette zone affiche les rsultats que vous voulez voir pour un champ. Par dfaut, le
tableau affiche la somme des valeurs si celui-ci est compos de chiffres. S'il est
compos de texte, le tableau va afficher le nombre d'enregistrements qui rpond au
critre. Il y a d'autres fonctions qui sont disponibles tel que la moyenne, l'cart type et
plusieurs autres. Une liste sera mentionne la fin de cette page.
Colonne
Ligne
Page
Permets de "filtrer" les valeurs du tableau par rapport aux valeurs d'un champ. Ceci
permet de voir seulement les enregistrements qui rpondent un certain critre.
L'option Option vous permet de personnaliser l'affichage de l'information dans le tableau. Vous pouvez, par
exemple, dcider d'afficher ou non les totaux par ligne ou par colonne, de nommer votre tableau, etc.
111
Ds lors que vous avez validez la cration du tableau en ayant appuyer sur Terminer avec ou sans option mais avoir
activer l'option Disposition , Excel cre l'endroit prcis, une structure vide de tableau dynamique qu'il vous
appartient de complter en y ajoutant les variables souhaites dans les zones ad hoc.
L'affichage de la structure du tableau s'accompagne normalement de l'apparition d'une nouvelle barre d'outils
spcialement ddie aux tableaux croiss dynamiques
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de donnes.
Relchez le bouton de la souris ds que le carr pour le champ Nombre de personnes est par-dessus la
OU
zone de donnes.
112
Le tableau indique maintenant que le nombre total des personnes habitant dans le parc de logement de la Ville de Gray
s'lve 6 320. La prochaine tape consiste rpartir cette population par type et taille de logements.
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de colonnes.
Relchez le bouton de la souris ds que le carr pour le champ Type de logements est par-dessus la zone
OU
de colonnes.
La population est maintenant rpartie en fonction du type de logement. Remarquez que le total des personnes est
toujours de 6 320. Le tableau affiche chacune des valeurs du champ Type de logements avec le total des personnes
pour celui-ci. L'tape suivante consiste rpartir le total des personnes par Type de logements et par Nombre de
pices .
A partir de la barre d'outils Tableau crois dynamique, slectionnez le champ Nombre de pices .
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ dans la zone de colonnes.
Relchez le bouton de la souris ds que le carr pour le champ Type de logements est par-dessus la zone
de colonnes.
Le champ Nombre de pices va tre automatiquement plac devant le champ Titre. cause de la longueur du
tableau, seulement une partie est affiche l'image ci-dessus. Il est possible aussi de changer l'ordre de prsentation
des champs. La prochaine opration consiste donner la priorit au champ Type de logements par-dessus Nombre
de pices .
Placez le pointeur par-dessus le champ Type de logements de la zone des colonnes du tableau crois
dynamique.
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Type de logements devant le
champ Nombre de pices .
113
Le tableau qui suit propose les mmes informations mais avec un arrangement diffrent. On dispose maintenant du
nombre de personnes par type de logement et selon le nombre de pices, le total gnral restant inchang. Pour ce
faire, procder comme suit :
Placez le pointeur par-dessus le champ Type de logements de la zone des colonnes du tableau crois
dynamique.
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Type de logements dans la zone
des lignes du tableau crois dynamique (par-dessus Somme de la ligne).
Une fois le champ est dans la zone des lignes, relchez le bouton de la souris.
114
Le tableau est automatiquement mis jour en tenant compte de vos choix. Vous pouvez tout moment revenir
une situation affichant l'ensemble des informations pour l'ensemble des modalits. Le total gnral n'est
videmment plus le mme puisque seule une partie de la population est maintenant prise en compte. Vous
remarquez galement que les modalits dsactives ne figurent plus dans le tableau.
Le filtrage peut s'effectuer sur plusieurs champs simultanment, par exemple sur Type de logements et Nombre
de pices .
115
Il est encore possible d'ajouter d'autres champs (ou variables) de manire affiner, si ncessaire, le filtrage des
informations. Cet ajout peut se faire dans la zone situe au-dessus du tableau et dite zone de page
A partir de la liste de champs de tableau crois dynamique, slectionnez le champ Statut d'occupation .
En gardant un doigt sur le bouton gauche de la souris, dplacez le champ Statut d'occupation dans la zone
OU
Une fois le champ est dans la zone de pages, relchez le bouton de la souris.
Ds lors que le champ Statut d'occupation est la zone de pages, il vous est possible de filtrer toutes les informations
du tableau en activant uniquement par exemple la modalit Propritaire .
116
De cette faon, nous pouvons connatre prcisment la population ayant un statut de propritaire, vivant dans des
logements de 5 pices et plus en habitat de type collectif ou maison individuelle.
117
A partir du tableau crois dynamique cr, cette fonction vous permet de construire une prsentation plus
labore des rsultats obtenus avec une meilleure matrise de la mise en page, des couleurs, de l'organisation en
gnral du tableau. Excel propose en standard un certain nombre de modle de mise en forme
Il y a des situations o il est prfrable de reprsenter une masse de donnes sous forme de graphique comme
par exemple :
- Pour simplifier l'analyse d'une masse de donnes.
- Pour ressortir rapidement les tendances des sries de donnes.
- Pour pouvoir comparer les donnes.
- Pour ressortir des proportions.
118
Excel gnre par dfaut un graphique en barres. Il est bien entendu possible de modifier le type de graphique en
passant par la procdure classique prvue cet effet. Relativement au graphique dynamique, Excel vous donne la
possibilit de changer les variables reprsenter, de modifier les filtres, etc. avec effets immdiat sur le
graphique.
l'assistant graphique qui vous permet de modifier le type de graphique comme vous le feriez lors de la cration
d'un graphique classique.
119
Dans la barre d'outils du tableau crois dynamique, slectionnez l'option Assistant tableau crois dynamique .
L'assistant affiche la structure actuelle du tableau en vous laissant la possibilit de la modifier votre guise.
120
Masquer
ou afficher
les dtails
Il est possible d'avoir dans une zone plusieurs champs pour mieux dcrire les valeurs. Ces options permettent d'afficher
ou de masquer les valeurs des champs qui sont la droite du champ slectionn. Si vous ne l'avez pas fait, ajoutez les
champs Nom et Prnom la zone des lignes.
Prenons le tableau suivant :
121
L'option
permet de rafficher les informations caches dans les mmes conditions. Slectionnez le champs Type
construction .
des champs non encore prsents dans la partie du tableau concerne et que vous pouvez ajouter.
. S'affiche alors la
fentre suivante qui vous autorise modifier les paramtres lis au champs slectionn. De total ou somme vous
pouvez passer nombre, moyenne, minimum, maximum, produit, cart-type, etc. selon les besoins. En choisissant par
exemple la paramtre moyenne en lieu et place de total , Excel remplace le total en colonne et en ligne par une
moyenne.
L'option Avanc vous permet de paramtrer plus en dtail la procdure en vous donnant la possibilit
d'effectuer par exemple des tris.
122
Somme
Nbval
Moyenne
Max
Min
Produit
Nb
Ecartype
Ecartypep
Var
Varp
La fentre des paramtres du champ vous offre aussi d'autres options tel que dmontr dans la prochaine
partie.
123
Grouper
ou dissocier
des valeurs
Cette fonction vous permet de regrouper des modalits d'un mme champ.
On peut, par exemple regrouper les logements construite Av. 1915 avec ceux de 1915 1948 de faon former
une catgorie logements anciens . les informations et totaux ou autres paramtres seront rajusts
automatiquement.
124
125
Rfrences
http://www.excel-online.net/tabl_crois.html
126