Académique Documents
Professionnel Documents
Culture Documents
Généralités
Objectifs spécifiques
- Identifier les différents types de statistiques
- Définir les éléments de base du langage statistique tels que la population, l’individu, le
caractère, la variable…
- Définir une série et une distribution statistique et la différence entre elles
- Décrire les étapes essentielles de la statistique descriptive
Section 1
Objet de la statistique
La statistique sert à décrire, comprendre, analyser, interpréter et estimer. Pour accomplir ses
tâches, la statistique s’est structurée en trois parties.
Section 2
Vocabulaire de la statistique
2.1 Population et unités statistiques
Une population statistique est un ensemble d’individus ou unités (personne, animal, objet…)
statistiques ayant des caractéristiques en commun.
Section 3
Série statistique
L’ensemble des mesures d’un même caractère faites sur tous les individus d’une population
statistique, conduit à l’obtention de ce que l’on appelle une série statistique ou série brute ou
données brutes.
En fonction du caractère étudié, on distinguera par la suite les séries statistiques qualitatives,
les séries statistiques discrètes et les séries statistiques continues. La série est dite qualitative
quand les données prises par le caractère ne sont pas mesurables sur une échelle de valeurs.
Quand les mesures du caractère ne peuvent prendre que des valeurs bien ”isolées” les unes
des autres (mais éventuellement en nombre infini), la série est dite discrète. Au contraire, elle
est continue si les mesures peuvent prendre a priori n’importe quelle valeur dans tout un
intervalle I de IR. L’intervalle peut être fermé, ouvert ou semi-ouvert. Les intervalles peuvent
aussi avoir des amplitudes constantes ou variables.
En associant à chaque valeur d’une série statistique le nombre d’individus ou d’unités
possédant cette valeur, on obtient une distribution statistique. Dans une distribution
statistique, le nombre de valeurs possibles est inférieur ou égal au nombre d’individus de la
population statistique.
Section 4
Analyse d’une série statistique
En statistique descriptive, le travail du statisticien se décompose en plusieurs étapes :
– Tout d’abord, il faut recueillir les données formant une série statistique et résultant de
l’étude d’un même caractère chez tous les individus d’une population
– Ensuite, il faut organiser la série statistique obtenue afin de la présenter de manière
synthétique, c’est à dire sous la forme d’un tableau ou d’un graphique. Les modalités de
construction d’un tel tableau ou d’une telle représentation graphique dépendent de la nature de
la série. Si la série est discrète, le tableau comporte les effectifs et/ou fréquences (simples
et/ou cumulés) de chaque modalité, et les représentations graphiques sont des diagrammes en
bâtons et en escaliers. Si la série est continue, alors le tableau comporte les effectifs et/ou
fréquences (simples et/ou cumulés) d’une série classée associée, et les représentations
graphiques sont des histogrammes et des courbes cumulatives
– Dans un troisième temps, il faut résumer la série statistique, c’est à dire proposer des
indicateurs (en nombre limité) traduisant les caractéristiques essentielles de la série. Grâce à
ces indicateurs, il doit être possible d’appréhender la série statistique sans avoir à revenir aux
données brutes recueillies ou aux tableaux et représentations graphiques synthétisant ces
données brutes. Ces indicateurs portent le nom de paramètres. On distinguera les paramètres
de position (résumant une série statistique à l’aide d’une valeur ”centrale”), les paramètres de
dispersion (donnant un renseignement sur la façon dont les données recueillies se
répartissent), les paramètres de concentration qui permettent de comparer deux séries de
fréquences cumulées et les paramètres de forme qui permettent de connaître l’allure d’une
courbe de fréquence sans être obligé de la tracer. Ils se déclinent avec certaines nuances
suivant que la série statistique est discrète ou continue.
Section 1
Taux de croissance absolu et relatif
La variation en unités entre des valeurs d’une même grandeur constatée à différentes périodes
(une année, un trimestre, un mois, etc.), est mesurée par le taux de croissance absolu. Les
grandeurs peuvent être soient des variables de flux (PIB, revenu annuel d’un ménage, déficit
public, investissement d’une entreprise, exportations, etc.), soient des variables de stock
(population, fortune d’un ménage, masse monétaire, capital d’une entreprise, etc.)
Soit V0 la valeur observée à la date de départ et, Vt la valeur observée à la date d’arrivée t .
Le taux de croissance absolue entre la date zéro et la date t est ainsi donné:
= Vt V0 .
A la date t, la valeur V0 aura augmenté ou diminué d’une valeur ∆ égal à la croissance
absolue. La croissance absolue peut donc être négative ou positive.
Application 1
Lorsque la note statistique d’un étudiant passe de 8 au premier examen à 17 au deuxième
examen, la croissance absolue de sa note en statistique entre les deux examens est de :
Vt V0 17 8 9 points
Le taux de croissance relatif en pourcentage de sa note en statistique est
Section 2
Les évolutions successives
Lorsqu’une grandeur subit une succession d’évolutions avec différents taux de croissance, son
taux de croissance finale est obtenu en soustrayant 1 au produits de ses multiplicateurs
successifs. Par ce principe, on peut connaître la valeur d’une grandeur à la date t , si on
connaît sa valeur V0 à la date 0 et celle de tous ses taux de croissance entre la date 0 et la date
t . Pour cela on utilise la formule : Vt (1 g1 )(1 g 2 )...(1 g t 2 ) (1 g t 1 ) (1 g t ).V0
Démonstration :
Vt (1 g t )Vt 1
Vt 1 (1 g t 1) )Vt 2
Vt 2 (1 g t 2 )Vt 3
.
.
.
V3 (1 g 3 )V2
V2 (1 g 2 )V1
V1 (1 g1 )V0
En remplaçant en cascade les valeurs de V par leurs expressions, on peut trouver :
Vt (1 g1 )(1 g 2 )...(1 g t 2 )(1 g t 1 )(1 g t ).V0 (c.q.f.d)
(1 g1 )(1 g 2 )...(1 g t 2 )(1 g t 1 )(1 g t ).V0 est appelé multiplicateur composite.
Application 2
Soit une valeur V0 à la date zéro. A la date 1, elle augmente de 50%. A la date 2, elle
augmente de 20%. D’où :
À la date 1 on a : V1(10.5)V0 (a)
À la date 2 on a : V2(10.2)V1 (b)
En remplaçant (a) dans (b) on a : V2(10.2)(10.5)V0
On peut alors trouver la valeur de V2 à la date 2, en multipliant la valeur à la date zéro ( V0 ),
par le nouveau multiplicateur composite: (1+0.2)(1+0.5), sans connaître la valeur à la date 1.
Section 3
Multiplicateurs associés aux grandeurs liées
3.1 La multiplication entre deux grandeurs
Soit deux grandeurs à la date t:
1/ Vt (1gv)V0 et
2/ Ut (1gu)U0
La grandeur qui représente leur produit sera alors égale à :
Wt Vt.Ut (1gv)(1gu)W0 et son taux de croissance gw(1gv)(1gu)1
Section 4
Taux de croissance global et taux de croissance moyen
Une grandeur passe de la valeur V0 à l’instant 0 à la valeur Vt à l’instant t . Les deux étant
séparées par n périodes alors, le taux de croissance globale entre ces deux dates est :
V
G t 1
V0
On appelle taux de croissance moyen le taux unique g qui, répété n fois, fournit le même
résultat que n évolutions successives correspondant au taux global G . C'est-à-dire que :
Vt (1 G)V0 (1 g ) n V0 (a)
D’où g n 1 G 1 (b)
V V
En remplaçant G par sa valeur dans (b) on obtient : g n 1 t 1 1 n t 1
V0 V0
1
V n
Ce revient à g t 1
V0
Le taux de croissance moyen est un taux de croissance constant durant toute la période et qui
correspondrait à la même variation
Application 4
En 2004, le taux d’augmentation du prix du livre était de 0,10 et en 2005, pour le même livre,
le taux de croissance était de -0,05.
1. Calculer le taux global G correspondant à ces deux évolutions successives.
2. Calculer le taux moyen annuel g d’évolution durant cette période.
Un tableau est une représentation visuelle donnant très rapidement une information sur des
données statistiques. Cette mise en évidence très rapide d’une information constitue une des
faiblesses des tableaux statistiques par manque de précision.
Section 1
Distribution des effectifs
Pour mettre en évidence les correspondances entre les valeurs d’une variable et l’effectif
correspondant, on peut les consigner tous dans un tableau. Dans la première colonne du
tableau, on range par ordre croissant les différentes valeurs de la variable. Dans la seconde
colonne, on met en face de chaque valeur de la variable le nombre d’élément possédant cette
valeur. On obtient ainsi le tableau des effectifs ou tableau de distribution des effectifs.
Que la distribution soit discrète ou continue, la somme des effectifs n i des valeurs x i ou des
classes de valeurs ei 1 , ei est égale à l’effectif total de la population. On Le note
généralement par n tel que n n1 n2 ... ni ... n p
Section 2
Distribution des fréquences simples
Pour tenir compte, de l’effectif total de la population, on introduit la notion de fréquence
d’une modalité. Il s’agit du rapport entre l’effectif de cette modalité ou de cette classe et
n
l’effectif total. On la note: f i i . Où n est l’effectif total de la population.
n
La fréquence d’une modalité ou d’une classe s’exprime en général en pourcentages et,
p p
généralement f
i 1
i 1 ou encore f
i 1
i 100
Section 3
Distribution des effectifs et des fréquences cumulées
Les effectifs et fréquences définis auparavant donnent des renseignements sur une modalité
donnée. Or, en statistique, on cherche souvent à répondre à des questions du type :
– Pour combien d’individus dans la population la modalité du caractère étudié est-elle
inférieure à une valeur donnée ?
Ou encore
– Quelle est la proportion d’individus dont le caractère étudié prend une valeur supérieure ou
égale à tel nombre ?
3.1. Tableaux de distribution des effectifs et fréquences cumulés d’une variable discrète
Tableau 13 : Distribution des effectifs cumulés croissants et décroissant, des fréquences cumulées
croissantes et décroissantes de la répartition des âges des étudiants de la seg1-UO II , 2011-2012
Effectif Effectif Fréquence Fréquence
cumulé cumulé Fréquence f i % cumulée cumulée
Age Effectif
croissant décroissant croissante décroissante
N(xi)↑ N(xi)↓ F(xi)↑% F(xi)↓%
17 1 1 2176 0,05 0,05 100,00
18 12 13 2175 0,55 0,60 99,95
19 54 67 2163 2,48 3,10 99,4
20 149 216 2109 6,85 9,90 96,92
21 240 456 1960 11,03 21,00 90,07
22 330 786 1720 15,17 36,10 79,04
23 390 1176 1390 17,92 54,00 63,87
24 373 1549 1000 17,14 71,20 45,95
25 284 1833 627 13,05 84,20 28,81
26 170 2003 343 7,81 92,00 15,76
27 88 2091 173 4,04 96,10 7,95
28 33 2124 85 1,52 97,60 3,91
29 18 2142 52 0,83 98,40 2,39
30 13 2155 34 0,60 99,00 1,56
31 4 2159 21 0,18 99,20 0,96
32 3 2162 17 0,14 99,40 0,78
33 1 2163 14 0,05 99,40 0,64
34 2 2165 13 0,09 99,50 0,59
35 4 2169 11 0,18 99,70 0,5
36 1 2170 7 0,05 99,70 0,32
37 2 2172 6 0,09 99,80 0,27
38 2 2174 4 0,09 99,90 0,18
39 2 2176 2 0,09 100,00 0,09
3.2. Tableaux de distribution des effectifs et fréquences cumulés d’une variable continue
Tableau 15 : Distribution des effectifs cumulés croissants et décroissant, des fréquences
cumulées croissantes et décroissantes de la population Burkinabè par tranche d’âge en 2007
Age Effectif Effectif Effectif Fréquence Fréquence
cumulé cumulé Fréquence f % cumulée cumulée
i
croissant décroissant croissante décroissante
N(xi)↑ N(xi)↓ F(xi)↑% F(xi)↓%
[0-15[ 6 327 242 6 327 242 13641162 46,38 46,38 100,00
[15-65[ 6 786 716 13113958 7313920 49,75 96,14 53,61
[65-115[ 527 204 13641162 527 204 3,86 100,00 3,86
Total 13 641 162 100
Section 1
Graphiques des distributions des effectifs et des fréquences simples
Pour les variables qualitatives et quantitatives, l’ensemble des graphiques qui correspond à
une représentation des effectifs ou des fréquences simples prend le nom de diagramme
différentiel
1.1. Variable qualitative
Pour une variable qualitative, on utilise principalement trois types de représentation
graphique. Le diagramme en bâtons, la représentation par tuyaux d'orgue et la représentation
par secteurs.
1.1.1. Diagramme en bâton
Nous portons en abscisse les modalités, de façon arbitraire. Puis en ordonnée des segments de
longueur proportionnelle aux effectifs (ou aux fréquences) de chaque modalité.
1.1.2. Tuyau d’orgue
En abscisses, les modalités sont portées de façon arbitraire. Ensuite, en ordonnées des
rectangles, non contigües de base identique, dont la longueur est proportionnelle aux effectifs,
ou aux fréquences, de chaque modalité.
Graphique 2
1.1.3. Secteur circulaire
Un disque ou un demi-disque est partagé en tranches ou secteurs correspondant aux modalités
observées. La surface de chaque secteur est proportionnelle à l'effectif ou à la fréquence d’une
modalité.
1. 3. Variable continue
Quand on construit un histogramme, on fait l'hypothèse implicite que les effectifs sont répartis
uniformément à l'intérieur de la classe, la moyenne de la classe est alors le centre de la classe.
1.3.1. Histogramme
Les modalités exprimées en classes sont portées en abscisses. Puis, en ordonnées des
rectangles dont la longueur est proportionnelle à la densité d'effectif, à la densité de
fréquence, aux effectifs corrigés ou aux fréquences corrigées. L'aire d'un rectangle de cet
histogramme est alors proportionnelle à l'effectif ou à la fréquence de la classe.
450000
400000
Densité des effectifs
350000
300000
250000
200000
150000
100000
50000
0
0 20 40 60 80 100 120
Age ei
Graphique 6
3,5
densité des fréquences
3
2,5
2
1,5
1
0,5
0
0 20 40 60 80 100 120
Age ei
Graphique 7
Section 2
Graphiques des distributions des effectifs et des fréquences cumulées
Pour les variables quantitatives, la représentation graphique qui correspond à une
représentation des effectifs ou des fréquences cumulés est le diagramme intégral
2400
2300
2200
2100
2000
1900
1800
1700
1600
1500
Effectif cumulé
1400
1300 N(x)
1200
1100 N(x)
1000
900
800
700
600
500
400
300
200
100
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Note
Graphique 8
100
95
90
85
80
75
70
65
Fréquence cumulée
60
F(x)
55
F(x)
50
45
40
35
30
25
20
15
10
5
0
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Note
Graphique 9
14000000
12000000
10000000
Effectif cumulé
8000000
N(x)
6000000 N(x)
4000000
2000000
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Age ei
Graphique 10
100
90
80
Fréquence cumulée
70
60
F(x)
50
F(x)
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100 110 120
Age ei
Graphique 11
Les paramètres de position que sont le mode, la médiane, la médiale et les moyennes
permettent de savoir autour de quelles valeurs se situent les valeurs d'une variable statistique.
Section 1
Le mode
Le mode, noté Mo, est la modalité qui admet le plus grand effectif ou la plus grande fréquence
Il est parfaitement défini pour une variable qualitative ou une variable quantitative discrète.
Pour une variable quantitative continue nous parlons de classe modale. C'est la classe dont la
densité d’effectif ou la densité de fréquence ou l’effectif corrigé ou la fréquence corrigée est
maximum.
Exemple 1
Dans le tableau 7, la modalité M représente le mode car ayant le plus grand effectif (1491) ou
la plus grande fréquence (68,6%).
Dans le tableau 8, le mode Mo est représenté par la modalité F. C’est elle qui présente le plus
grand effectif (6 927 608) ou la plus grande fréquence (50,08%).
Dans le tableau 10, le mode Mo est représenté par la modalité 23 ans. C’est elle qui présente
le plus grand effectif (390) ou la plus grande fréquence (17,92%).
Dans le tableau 12, la classe modale est représentée par la classe [0-15[. C’est elle qui
présente la plus grande densité d’effectif ou la plus grande densité de fréquence (50,08%).
Géométriquement, pour une variable qualitative ou une variable discrète, le mode correspond
à la valeur de la variable ayant le plus grand bâton dans leur diagramme en bâton.
Pour une variable quantitative continue le mode peut se définir, en tenant compte des densités
d’effectif de fréquence des 2 classes adjacentes à la classe modale par la méthode suivante.
Autrement dit, Me est un nombre en-dessous duquel se trouvent 50% des valeurs de la série.
C’est donc le nombre associé à la fréquence cumulée croissante égale à 50%. La médiane Me
vérifie ainsi la relation : F(Me) = 50%.
Finalement, si ei est la plus petite limite de classe telle que F(ei) 50%, alors la médiane
Me [ei, ei+1[et sera telle que F(ei) <50%< F(ei+1) ou N(ei) < n <N(ei+1). Elle s’obtient par
2
l’interpolation suivante :
n
N (ei )
F(M e) F(M e) 2
M e ei (ei 1 ei) ou eM e ( e e )
F(ei 1) F(ei) i i 1 i
N (ei 1 ) N (ei )
Exemple : En nous appuyant sur la distribution de fréquences cumulées du tableau 15 et en
appliquant la formule de la médiane on trouve :
F ( M e ) F (15) 50 46,38
M e 15 (65 15) 15 (65 15) 18,63
F (65) F (15) 96,14 46,38
Sous l’hypothèse de répartition uniforme des valeurs dans les classes, Me est alors l’abscisse
du point d’ordonnée y = 50% sur la courbe des effectifs cumulés ou des fréquences cumulées
croissants ou décroissants de la série classée associée à la série continue étudiée. La médiane
partage aussi l'histogramme des densités d’effectifs ou de fréquence en deux parties d'aires
égales.
Remarque : La médiane ne dépend que de l'ordre des modalités, elle n'est donc pas
influencée par les observations aberrantes.
La médiane n’est pas sensible aux valeurs extrêmes. Si, par exemple, on échange la plus
grande valeur d’une série statistique par une valeur beaucoup plus grande, la médiane reste
inchangée.
discrètes) ou f' knici (cas des variables continues), et des fréquences cumulées F'(xi) où
nici i 1
i 1
F'(ei)= f '.
i 1
i
50F'(ei)
Ml est tel que F'(Ml) =50%, d'où M l ei (ei 1ei)
F'(ei 1)F'(ei)
Tableau 16 : Tableau de calculs de la médiale d’une série de ventes (en millions d’euros) d’un
échantillon de 500 entreprises.
Ventes ei centre ci ni fi % Fci % n.i ci fi ' % Fi ' ci %
[0-4[ 2 165 33 33 330 13,15 0
[4-6[ 5 250 50 83 1250 49,80 13,15
[6-9[ 7,5 50 10 93 375 14,94 62,95
[9-11[ 10 25 5 98 250 9,96 77,89
[11-50[ 30.5 10 2 100 305 12,15 87,85
Total ////// 500 100 ////// 2510 100 100
5013,15
M l[46[ . Donc M l 4(64) 5,479919679
62,9513,15
La médiale étant de 5479919,679 euros cela signifie que, le cumule des ventes des entreprises
dont les ventes sont inférieures à 5479919,679 euros est égale au cumule des ventes des
entreprises dont les ventes sont supérieures à 5479919,679 euros.
Remarque : La médiale n'est pas le chiffre d’affaires gagné par l’entreprise qui est "au milieu
de la file", mais le chiffre d’affaires gagné par l’entreprise qui permet d'atteindre la moitié de
la masse totale des chiffres d’affaires.
Section 4
Les quantiles
Par extension de la notion de médiane, on appelle, pour une série aux valeurs ordonnées dans
l’ordre croissant ou décroissant, quantile d’ordre , noté x , une valeur en dessous de laquelle un
pourcentage d'observations sont situées. F( x ) mesure donc la proportion des individus qui
possèdent la valeur xi inférieure à x .
Comme la médiane, les quantiles ne sont pas forcément uniques et ne sont pas toujours des
modalités de la série. Leur détermination dépend également de la parité de l’effectif total et de
la parité de l’effectif des sous-séries séparées par la médiane pour une série discrète.
Sous l’hypothèse de répartition uniforme des valeurs dans les classes, les quartiles Q1, Q2 et
Q3 correspondent, graphiquement, approximativement aux abscisses des points d’ordonnées
respectives y1 = 25%, y2 = 50% et y3 = 75% de la courbe cumulative des fréquences cumulées
croissantes de la série classée associée à une série continue étudiée.
Remarquons que Le quantile d'ordre 0,5 ie x0,5 ou deuxième quartile Q2, n’est autre que la
médiane Me de la série.
Les quantiles d'ordre 0,1, x0,1 ; d'ordre 0,2, x0,2 ; …; et d'ordre 0,9, x0,9 ; sont appelés des
déciles et divisent la population en dix parties égales. Ils sont aussi notés D1, D2, D3, …, et
D9.D'où F(D1)=10%, F(D2)=20%,… F(D9)=90%.
Les quantiles d'ordre 0,01, x0,01 ; d'ordre 0,02, x0,02 ; …; et d'ordre 0,99, x0,99 ; sont appelés des
centiles et divisent la population en cent parties égales. Ils sont aussi notés C 1, C2, C3, …, et
C99.D'où F(C1) =1%, F(C2)=2%,… F(C99)=99%.
On remarque que F( x0,5 )=F(Me)=F(Q2)=F(D5)=F(C50)=50%, alors x0,5 = Q2= D5= C50.
Les valeurs des quantiles peuvent s’obtenir par interpolation linéaire de la manière suivante :
F(x )F(ei)
x = ei (ei 1ei) avec, x est tel que F( x ) = ou N( x ) = N
F(ei 1)F(ei)
Exemple : Si le salaire médian d’une entreprise s’élève à 1300€, cela signifie que la moitié
des salariés gagne plus de 1300€ et la moitié moins. Si le troisième quartile de cette même
distribution de salaires vaut 2000€, 75% des salariés de l’entreprise ont un salaire inférieur à
2000€ et 25% un salaire supérieur.
Section 5
Les moyennes
La moyenne est un paramètre de position dont le calcul prend en compte l’ensemble des
valeurs de la série statistique. Elle est donc plus appropriée dans beaucoup de cas.
n x i i p
x ou encore x fi xi
i 1
N i 1
On peut distinguer la moyenne arithmétique simple et pondérée. Dans la moyenne
arithmétique simple, toutes les valeurs de la variable ont le même poids tandis que, dans la
moyenne arithmétique pondérée chacune des valeurs de la variable est affectée d’un poids
différent.
Calculons la moyenne des notes de contrôle 2 de statistique des étudiants de seg1-UO II, en
2007-2008. Pour cela établissons le tableau de calculs suivants :
n x i i
8043 p
370,38
x i 1
=x
3, 69 ou par la formule : x fi xi = x 3,70
N 2175 i 1 100
Tableau 18 : Tableau de calculs de la moyenne et de la variance des âges de la population
burkinabè en 2007.
ei ci ni fi % ni ci f i ci ni ci2 f i ci2
[0-15[ 7,5 6327242 46,38 47454315 347,85 355907362,5 2608,875
[15-65[ 40 6 786 716 49,75 271468640 1990 10858745600 79600
[65-115[ 90 527 204 3,86 47448360 347,4 4270352400 31266
Total 13 641 162 100 366371315 2685,25 15485005363 113474,875
En appliquant la formule de la moyenne arithmétique, nous trouvons
p
n c i i
366371315
x i 1
=x 26,85777905 ou par la formule :
n 13641162
p
2685,25
x f i ci = x 26,8525
i 1 100
n (x i i x)
Pour toute série statistique ( xi , ni ) i 1
0
N
Propriété 4: La moyenne est la valeur la plus proche de toutes les observations en raison
de la propriété 3, et parce qu’elle est la valeur qui minimise la moyenne des écarts à tout réel
non nul a.
Section 6
Le boxplot
La boîte à moustaches, ou diagramme en boîte, ou encore boxplot en anglais, est un
diagramme simple qui permet de représenter la distribution d'une variable. Ce diagramme est
composé de :
- Un rectangle qui s'étend du premier au troisième quartile. Le rectangle est divisé par une
ligne correspondant à la médiane.
- Ce rectangle est complété par deux segments de droites.
Pour les dessiner, on calcule d'abord les quartiles. On identifie ensuite la plus petite et la plus
grande observation. On trace les segments de droites reliant ces observations au rectangle.
Objectifs spécifiques
- Définir les principaux paramètres de dispersion
- Calculer les principaux paramètres de dispersion
- Interpréter les principaux paramètres de dispersion
Section 1
L’étendue
L'étendue de X est la différence entre la plus grande valeur de X et la plus petite valeur de X.
Étendue = xmax − xmin
Pour une série continue, l’étendue peut toujours se définir à partir de la série classée, de deux
façons :
– Soit comme la différence entre la limite supérieure emax de la dernière classe et la limite
inférieure emin de la première classe. C’est la définition que nous utiliserons dans le cadre de
ce cours :
Étendue = emax − emin
– Soit comme la différence entre le centre cmax de la dernière classe et le centre cmin de la
première classe :
Étendue = cmax − cmin
L’intérêt de l’étendue est limité par le fait qu'il dépend uniquement des valeurs extrêmes, qui
peuvent être des valeurs aberrantes.
Section 2
Ecarts inter-quantile
Comme la moyenne arithmétique, l’étendue présente le défaut d’être très sensible aux valeurs
extrêmes et aberrantes. Pour éviter de prendre en compte les valeurs extrêmes, on peut utiliser
les écarts inter-quantile
Section 3
Ecarts moyen
Pour tenir compte de toutes les valeurs de la série dans l’estimation de la dispersion de ces
valeurs, on peut calculer la moyenne des écarts entre chaque valeur de la série et la moyenne
arithmétique de cette série. C’est l’écart absolu moyen par rapport à la moyenne noté Eam.
Pour une série statistique notée X d’effectif total n, de modalités x1 , x2 , . . . , xp et d’effectifs
ni , on a:
p
n i xi x
Eam i 1
n
Les valeurs absolues sont nécessaires pour que les écarts positifs ne soient pas compensés par
les écarts négatifs.
On pourrait aussi définir l'écart absolu moyen de X par rapport à sa médiane, ou par rapport à
un nombre réel a quelconque.
p
n i xi a
Eam i 1
n
On peut démontrer que l'écart absolu moyen par rapport à un nombre réel a est minimum
lorsque a est égal à la moyenne de X.
Plus l’écart absolu moyen par rapport à la moyenne est élevé, plus il y a de valeurs éloignées
de la moyenne. L’écart absolu moyen est donc bien un paramètre de dispersion, c’est à dire un
indicateur de l’étalement des valeurs recueillies.
Remarque
Lorsque les observations sont groupées par classe, on adopte généralement pour valeur de
variable statistique le centre de chaque classe.
L'écart absolu moyen présente un inconvénient majeur : il ne se prête pas facilement aux
calculs algébriques, à cause de la valeur absolue.
n (x i i x)2 p
X2 i 1
ou encore X2 fi(xi x )
n i 1
La variance est un nombre positif qui est d’autant plus élevé que les valeurs de la série sont
dispersées.
La formule développée de la variance (formule de la variance), qui n’est qu’un cas particulier
du théorème de König, nous donne:
p
n x i
2
i p
X2 i 1
x 2 ou encore X2 fi xi2 x 2
n i 1
Cette formule s’interprète en disant que la variance d’une série statistique X est la différence
entre la moyenne des carrés des valeurs de cette série et le carré de la moyenne des valeurs de
cette série.
L’expression de la variance peut s’obtenir aussi à travers la moyenne quadratique et cela, nous
donne :
p
Q x puisque Q
2
X
2 2
f x
i 1
i i2
A partir du tableau 17, calculons la variance des notes de contrôle 2 de statistique des étudiants de la
seg1-UO II, 2007-2008
L’application la formule de la variance en utilisant les effectifs, nous donne :
p
n x i
2
i
62355,35
X2 i 1
x2
(3,70) 2 14,97
n 2175
L’application la formule de la variance en utilisant les fréquences, nous donne :
p
2873,64
X2 fi xi2 x 2 (3,70) 2 15,04
i 1 100
A partir du tableau 18, calculons la variance des âges de la population burkinabè en 2007.
n c 2
i i
15485005363
X2 i 1
x2 (26,85) 2 414,2451171
n 13 641162
L’application la formule de la variance en utilisant les fréquences, nous donne :
p
113474,875
2
X f i ci2 x 2 (26,85) 2 413,82625
i 1 100
De façon générale :
- Si l’écart-type est faible, cela signifie que les valeurs sont assez concentrées autour de la
moyenne.
- Si l’écart-type est élevé, cela veut dire au contraire que les valeurs sont plus dispersées
autour de la moyenne
Coefficient de variation des notes de contrôle 2 de statistique des étudiants de la seg1-UO II,
2011-2012:
3,86
CV 0,724137 . Soit %
3,70
Coefficient de variation des âges de la population burkinabè en 2007:
20,35
CV 0,757914 . Soit 75,79%
26,85
n x i i a
r
p
mr a i 1
ou encore mr a f i xi a
r
n i 1
n x i
r
i p
mr i 1
ou encore mr f i xir
n i 1
n x i i x
r
p
r i 1
ou encore r f i xi x
r
n i 1
Remarque : m0 1; m1 x; m2 Q 2 ; 0 1; 1 0; 2 2 m2 m12
Il existe des relations entre les moments centrés et les moments non centrés que l’on pourra
démontrer en utilisant le binôme de Newton.
r 2 r 2
- r 1 Cr m1 mr 1 r 1m1r et mr Cr r m1 m1r
r 1
0 0
Objectifs spécifiques
- Définir les principaux paramètres de concentration
- Calculer les principaux paramètres de concentration
- Interpréter les principaux paramètres de concentration
La concentration d’une distribution mesure sa répartition par rapport à une distribution idéale
ou distribution normale où, les écarts entre les observations sont parfaitement égalitaires.
Donc il s’agit de comparer deux séries de fréquences cumulées. Mais ces fréquences
cumulées (distributions) doivent avoir un lien économique rationnel entre elles.
Les paramètres de concentration s’interprètent comment les paramètres de dispersion. Car à
une grande dispersion correspond obligatoirement une forte concentration.
Section 1
Ecart en médiale et médiane
La comparaison des valeurs de la médiale et de la médiane, M l M e , constitue une mesure de
la concentration. Lorsque l'écart entre la médiale et la médiane est important par rapport à
Ml Me
l'étendue de la distribution de la variable, , la concentration est forte.
w
Section 2
Courbe de concentration de Lorenz
Considérons la distribution des salaires dans la population des salariés d'une entreprise.
Les salaires sont divisés en n classes : la ième classe, [ei , ei 1 [ a, pour centre, c i et, pour
effectif, n i .
On note pi la fréquence cumulée de ei 1 : c'est la proportion de salariés dont le salaire est
strictement plus petit que ei 1 .
On note q i la proportion de masse salariale représentée par les salariés dont le salaire est
strictement plus petit que ei 1 .
On appelle courbe de concentration, ou courbe de Lorenz, la courbe régulière passant par les
'
points de coordonnées ( pi , qi ) . Avec F (ei 1 ) p i et F (ei 1 ) qi
La courbe de Lorenz est toujours inscrite dans le carré [0, 100] × [0, 100].
100
90
80
70
fréquence F'(ei) = qi
60
50
40
30
20
10
0
0 10 20 30 40 50 60 70 80 90 100
fréquence F(ei) = Pi
Graphique 12
Objectifs spécifiques
- Définir quelques indices de forme et d’aplatissement
- Calculer les indices de forme et d’aplatissement
- Interpréter les indices de forme et d’aplatissement
Les indices de position et de dispersion ne sont pas toujours suffisants pour caractériser les
données. Car, la forme de la distribution, qui s'apprécier de façon visuelle à l'aide de
diagrammes, constitue aussi un élément d'information important. Mais, l’existence d’aspect
tel que, l’aplatissement, ne pouvant s’apprécier visuellement nous amène à introduire des
indices qui permettent de quantifier exactement ces deux informations de forme que sont :
l’asymétrie et l’aplatissement.
Section 1
L’asymétrie
L’asymétrie, à travers les différents coefficients qui le représente, mesure la régularité ou non
de la répartition des observations autour d’une valeur centrale.
En pratique, si 1 ] 0,5;0,5[ , la distribution est dite symétrique. Sinon elle est dite
asymétrique à droite pou r 10 , ou asymétrique à gauche pour 1 0 .
Section 2
L’aplatissement
L’aplatissement se défini par la variation de la fréquence en fonction de la variation de la
valeur de la variable.
A moyenne et variance égales, l'allure générale de la distribution peut être plus ou moins
voûtée ou aplatie. Il existe plusieurs indices qui permettent de mesurer l'aplatissement, ou à
l'inverse, la concentration des données autour de la moyenne. Car :
Faible concentration Aplatissement élevé ;
Section I
Tableau de mélange de populations
Dans un tableau de mélange de populations, on met en lignes les différentes valeurs de la
variable étudié, et en colonnes les sous populations correspondantes. Le tableau 20 est un
exemple de mélange de populations
Tableau 20 : Répartition des âges selon le sexe des étudiants de la seg1-uo2, 2011-2012
Age ( x i ) Filles ( n i1 ) Garçons ( ni 2 ) Ensemble ( ni. )
17 1 0 1
18 8 4 12
19 18 36 54
20 59 90 149
21 74 166 240
22 94 236 330
23 113 277 390
24 120 253 373
25 106 178 284
26 50 120 170
27 24 64 88
28 6 27 33
29 4 14 18
30 3 10 13
31 0 4 4
32 2 1 3
33 0 1 1
34 0 2 2
35 2 2 4
36 0 1 1
37 0 2 2
38 0 2 2
39 0 2 2
Total 684 1492 2176
- nh : Effectif d’une sous population. C’est l’ensemble des individus de cette sous
p
population. Il est donné par la relation suivante : n h nih
i 1
On peut constater que l’effectif de la population globale peut s’obtenir avec les deux relations
suivantes :
m
- n nh , c'est-à-dire en additionnant l’effectif de chacune des sous population ;
h 1
p
- n ni. , c'est-à-dire par addition des effectifs correspondant à chaque modalité x i
i 1
indépendamment de la sous population.
On peut aussi calculer les fréquences correspondantes à toutes les valeurs contenues dans le
tableau de mélange de population.
n
- f h h : Fréquence de la sous population dans la population globale ou proportion
n
du mélange ;
n
- f ih ih : Fréquence dans une sous population des individus ayant la modalité x i ;
nh
n
- f i. i. : Fréquence dans la population globale des individus possédant la
n
modalité x i , indépendamment de la sous population.
On peut aussi établir entre les différentes fréquences des relations qui s’expriment de la
manière suivante :
m
- f i. f h f ih
h 1
m p P
- h 1
f h f ih f i. 1
i 1 i 1
Section 2
Moyenne et relation entre moyenne
Il existe des relations entre les paramètres calculés de la population mère et ceux calculés des
sous populations.
n x i. i p
x i 1
f i . xi
n i 1
n ih xi p
La moyenne de la sous population Ph est xh : x h i 1
f ih xi . x1 23,23 ans et
nh i 1
x2 23,47 ans
L’âge moyen des étudiantes est x1 et des étudiants est x2 en 2011-2012. En 2011-2012, les
étudiantes étaient moins âgées que les étudiants en moyenne.
2.3 Relation entre moyennes
La moyenne de la population mère est égale à la moyenne pondérée des moyennes des sous
m
n x h h m
populations pondérées par les proportions du mélange: x h 1
ph xh
n h 1
Section 3
Variance et relation entre variance
Comme pour les moyennes, nous donnerons les formules des différentes variances et la
relation qui existe entre elles.
3.1 La variance de la population mère
p
n i. ( xi x ) 2 p
2 i 1
= f i. ( xi x ) 2
n i 1
Tableau 22 : Tableau de calculs de la variance de la variance des sous populations et de la
population globale
Age ( x i ) ( n i1 ) ( ni 2 ) ( ni . ) ni1 xi2 ni 2 xi2 ni. xi2
17 1 0 1 289 0 289
18 8 4 12 2592 1296 3888
19 18 36 54 6498 12996 19494
20 59 90 149 23600 36000 59600
21 74 166 240 32634 73206 105840
22 94 236 330 45496 114224 159720
23 113 277 390 59777 146533 206310
24 120 253 373 69120 145728 214848
25 106 178 284 66250 111250 177500
26 50 120 170 33800 81120 114920
27 24 64 88 17496 46656 64152
28 6 27 33 4704 21168 25872
29 4 14 18 3364 11774 15138
30 3 10 13 2700 9000 11700
31 0 4 4 0 3844 3844
32 2 1 3 2048 1024 3072
33 0 1 1 0 1089 1089
34 0 2 2 0 2312 2312
35 2 2 4 2450 2450 4900
36 0 1 1 0 1296 1296
37 0 2 2 0 2738 2738
38 0 2 2 0 2888 2888
39 0 2 2 0 3042 3042
Total 684 1492 2176 372818 831634 1204452
Ainsi la variance de la série des étudiants de la seg1-uo2 selon l'âge en 2011-2012 est de:
2
6,42
n ih ( xi x h ) 2 p
h2 i 1
= f ih ( xi x h ) 2
nh i 1
2
La variance de la série des étudiantes selon l'âge en 2011-2012 est: 5,42
2
La variance de la série des étudiants selon l'âge en 2011-2012 est: 6,55
nh h2 n x h h x
2
m m
2 h 1
h 1
f h h2 f h x h x
2
n n h 1 h 1
n h
2
h
La moyenne des variances, 2 h 1
, est appelée "variance intra sous population". C'est
n
la variance que l'on obtiendrait si toutes les sous populations avaient la même moyenne.
m
n (x
h 1
h h x )2
La variance des moyennes, , est appelée "variance inter sous populations".
n
C'est la variance que l'on obtiendrait si toutes les sous populations étaient homogènes.
Cette relation peut se démontrer de la façon suivante:
p p m
2 f i . x i x 2 f h f ih xi x
2
i 1 i 1 h 1
m p m p 2
f h f ih xi x f h f ih xi x h x h x
2
h 1 i 1 h 1 i 1
m p m
f h f ih xi x h f h x h x
2 2
h 1 i 1 h 1
m m
f h h2 f h xh x
2
h 1 h 1
L'on pourra vérifier à travers l'exemple étudié que:
n1 12 n2 22 n1 ( x1 x ) 2 n2 ( x2 x ) 2
2
n n
Une population peut également être décrite à l’aide de deux caractères simultanément, X et Y.
On pourra alors établir et représenter plusieurs distributions. On pourra alternativement
résumer l’information en utilisant à nouveau des paramètres. On pourra enfin étudier la
relation entre les deux variables.
Section 1
Tableaux de contingence
1.1 Construction d’un tableau de contingence
Le tableau de contingence présente l’information apportée par deux variables sur une
population. C’est un tableau à double entré comprenant une variable en ligne et une en
colonne.
Tableau 23 : Répartition des étudiants de seg1-UO selon la note en stat et math de juin 2011-
2012.
math
stat [0;4[ [4;8[ [8;12[ [12;20[ total des lignes
[0;4[ 1068 158 42 4 1272
[4;8[ 267 174 69 8 518
[8;12[ 112 112 60 15 299
[12;16[ 29 26 19 9 83
[16;20] 1 1 1 0 3
total des colonnes 1477 471 191 36 2175
Ce tableau croise l’information apportée par les deux variables sur le groupe d’étudiants.
Ainsi, dans le tableau 24, 26 étudiants ont une note de stat dans l’intervalle [12;16[ et une
note de math dans l’intervalle [4;8[.
Section 2
Tableaux de fréquences jointes
2.3 Propriétés
Par ailleurs, nous avons
k p
k p k p n ij
n
- f
i 1 j 1
ij 1 puisque fij
i 1 j 1
i 1 j 1
n
n
1
c p n i.
n
- f i f ij et f i. i 1
1
j 1 i 1 n n
c
p c n .j
n
- f . j f ij et f
j 1
.j 1
i 1 j 1 n n
Section 3
Les tableaux de fréquences conditionnelles f j / i et f i / j
Ils sont construits en rapportant les effectifs nij aux effectifs marginaux ni. (tableau des
profils lignes) ou n. j (tableau des profils colonnes).
Section 1
Les distributions marginales
n x i. i P
x i 1
f i . xi
n i 1
n (x i. i x)2 p
V (X ) i 1
f i . ( xi x ) 2
n i 1
La relation de Koenig est évidemment applicable et nous donne :
p
n x 2
i. i p
V (X ) i 1
x 2 f i. xi2 x 2
n i 1
Tableau 31 : Tableau de calculs de la distribution marginale de la variable X (note de stat)
xi ni . ni. xi ni. xi2 f i. % f i. xi f i. xi2
2 1272 2544 5088 58,48 116,96 233,92
6 518 3108 18648 23,82 142,92 857,52
10 299 2990 29900 13,75 137,5 1375
14 83 1162 16268 3,82 53,48 748,72
18 3 54 972 0,14 2,52 45,36
Total 2175 9858 70876 100 453,38 3260,5
Pour la distribution donnée au tableau 24, x 4,53 est la note moyenne en stat des 2175
étudiants et V X = 12,06 est la variance des notes en stat.
n .j yj c
f. j y j
j 1
y
n j 1
n .j ( y j y) 2 c
f. j ( y j y) 2
j 1
V (Y )
n j 1
n .j y 2j c
y 2 f . j y 2j y 2
j 1
V (Y )
n j 1
Section 2
Les distributions conditionnelles
Une distribution à deux caractères présente deux types de distributions conditionnelles: Les
distributions conditionnelles de X liées par Y que nous notons par X / y j et les distributions
conditionnelles de Y liées par X que notons Y / xi .
n ij xi p
xj i 1
f i / j xi
n. j i 1
n ij ( xi x j ) 2 p
notée V j (X ) Sa formule est : V j ( X ) i 1
f i / j ( xi x j ) 2
n. j i 1
Ces formules peuvent également être développées selon la relation de Koenig et donne :
p
n ij xi2 p
Vj (X ) i 1
x 2j f i / j xi2 x 2j
n. j i 1
n ij yj c
f j/i y j
j 1
yj
ni . j 1
n ij ( y j yi ) 2 c
f j / i ( y j yi ) 2
j 1
notée Vi (Y ) . Sa formule est : Vi (Y )
ni. j 1
Ces formules peuvent également être développées selon la relation de Koenig et donne :
c
n ij yi2 c
yi2 f j / i yi2 yi2
j 1
Vi (Y )
ni . j 1
Section 3
Relation entre distributions marginales et conditionnelles
n nij n. j nij
f ij f i. f j / i f . j f i / j puisque f i. f j / i i. x et f i. f i / j x
n ni. n n. j
3.1 Relation entre moyennes marginales et moyennes conditionnelles
La moyenne marginale est égale à la moyenne pondérée des moyennes conditionnelles.
n .j xj c
f. j x j
j 1
* x
n j 1
p
n i. yi p
*y i 1
f i. yi
n i 1
En effet:
P p c c p c
ni . x i n
i 1 j 1
ij xi n
j 1 i 1
ij xi n
j 1
.j xj
x i 1
n n n n
et
c c p p c p
n. j y j
j 1
nij y j
j 1 i 1
nij y j
i 1 j 1
n i. yi
y i 1
n n n n
c C
n. jV ( X ) n .j (x j x)2 c c
f . jV j ( X ) f . j ( x j x ) 2
j 1 j 1
* V (X )
n n j 1 j 1
ni.Vi (Y ) n (y i. i y) 2 p p
* V (Y ) i 1
i 1
f i.Vi (Y ) f i. ( yi y ) 2
n n i 1 i 1
Section 4
La covariance
La covariance peut être considérée comme la variance d’une distribution à deux variables. Si
l’on posait X Y , on retrouverait la formule de la variance. Autrement, la covariance de
deux variable statistique X et Y , notée COV X , Y est le moment centré d’ordre 1 et 1.
p c
nij( x i x )( y j y ) p c
COV X , Y ou encore COV X , Y f ij ( xi x )( y j y )
i j
n i j
La covariance est nulle si les deux variables sont indépendantes. Cette grandeur interviendra
dans l’étude de la liaison entre deux variables et, notamment, dans celle de la corrélation.
Il est possible, pour obtenir une expression mieux adaptée au calcul numérique, de
développer la formule de définition.
p c
n ij xi y j
Ainsi, on obtient que : COV X , Y xy
i j
n
p c
ou encore COV X , Y f ij xi y j x y
i j
X n y
ij j
yi
x i nij y j
2 6 10 16 ni. j 1 j 1
n
i 1
ij xi
5282 2862 1382 332
xj 3,58 6,08 7,24 9,22
p
y j nij xi
i 1 10564 17172 13820 5312 46868
Les modèles linéaires expriment mathématiquement la relation supposée entre une variable
dépendante notée Y , et une ou plusieurs variables indépendantes notée X . Sans être limitatif,
dans les modèles linéaires simples, on distincte:
- Le modèle de régression linéaire simple. C'est le modèle qui permet de mesurer
l'influence d'une variable quantitative sur une autre variable quantitative;
- L’analyse de la variance. C’est le modèle de régression qui permet de mesurer
l’influence d’une variable qualitative sur une autre variable qualitative ;
- L’analyse de la corrélation. C’est d’elle qu’on déduit la force de la liaison entre les
variables.
L’analyse de la relation logique entre les variables doit précéder toute analyse de régression
ou de corrélation.
Section 1
Le diagramme de dispersion et la courbe de régression
Le diagramme de dispersion est une représentation graphique, dans le plan, des valeurs
ponctuelles obtenues pour deux variables de nature quantitative. Chaque symbole représente
une unité d'observation et sa position dépend des valeurs obtenues pour les variables X (en
abscisse) et Y (en ordonnée). Ce diagramme aide à déterminer s'il existe une relation entre les
deux variables et, si oui, il aide à choisir le type d'équation qui permettrait de décrire cette
relation. Il existe trois types de relations entre deux variables :
- La liaison nulle, signifie qu’il n’y a aucune influence d’un caractère sur l’autre ;
- La liaison totale ou fonctionnelle, signifie que la connaissance de l’un des caractères
entraîne la connaissance de l’autre ;
- La liaison relative, signifie que les caractères sont dépendantes l’une de l’autre dans
une certaine mesure.
La relation entre deux variables peut être de différents types. C'est ce qu'illustrent les
diagrammes suivants
Tableau 40 : Note moyenne de math en fonction de la note de stat des étudiants de la seg1-uo2, en
juin 2011-2012
xi 2 6 10 14 18
yi 2,80 4,59 7,72 6,43 6
Tableau 41 : Note moyenne de stat en fonction de la note de math des étudiants de la seg1-uo2, en
juin 2011-2012
yj 2 6 10 14 18
xj 3,58 6,08 7,24 9,06 12
Le diagramme de dispersion montre que plus la note en mathématiques augmente, plus celle en
statistique augmente également de façon un peu prononcée.
Graphique 15
Le diagramme de dispersion montre que plus la note en math augmente, plus celle en stat augmente
également.
On cherche donc, une droite d'équation y ax b telle que celle ci passe le plus près possible
des points du diagramme de dispersion. Le but de la régression est donc de trouver les
paramètres a et b qui caractérisent la droite.
Notons la moyenne du carré des écarts entre les y j observés et celles théoriques obtenues à partir
de l'équation de la droite y j axi b .
p c
f ij ( y j axi b) 2
i 1 j 1
Trouver la droite y ax b , c’est minimiser la quantité . Une quantité est minimale si la dérivée
s’annule. Pour trouver a et b calculons cette dérivée :
c p p c p c
y j f ij a xi f ij b f ij 0
j 1 i 1 i 1 j 1 i 1 j 1
c p
f j y j a f i . xi b
j 1 i 1
y ax b
f ij xi y j a f i. xi2 ( y ax ) f i. xi
j 1 i 1 i 1 i 1
c p p p p
f ij xi y j a f i. xi2 y f i. xi ax f ij xi
j 1 i 1 i 1 i 1 i 1
c p p
f
j 1 i 1
ij xi y j a f i. xi2 xy ax 2
i 1
c p p
f ij xi y j xy a( f i. xi2 x 2 )
j 1 i 1 i 1
p c
f
i 1 j 1
ij xi y j x y
a p
f
i 1
i. ix x2
p c
L'expression f
i 1 j 1
ij xi y j x y (numérateur de a ) est la covariance de X et de Y notée
COV X , Y ou XY
p
L'expression f x x 2 (dénominateur de a ) est la variance marginale de X , V X
i. i
i 1
a 0,34 : Lorsque la note en stat varie d’un point, celle en math varie de 0,34 points.
b 2,22 : implique une note de 2.22 en stat pour une note de zéro en math.
46300
4,53x3,77
a 2175 0,49 ; b' 4,53 (0,49 x3,77) 2,68
8,44
L’équation de la droite de régression de X en Y sera donc : x 0,49 y 2,68
a ' 0,49 : Lorsque la note en math varie d’un point, celle en stat varie de 0,49 points.
b' 2,68 : Implique une note de 2,68 en stat pour une note de zéro en math.
On utilise la droite de régression pour estimer la valeur de la variable dépendante sachant une
valeur (réelle ou potentielle) de la variable indépendante.
Ainsi, l’équation y 0,34 x 2,22 permet de connaître la note de math lorsqu’on connaît la
note en stat. Et x 0,49 y 2,68 , permet de connaître la note en math lorsqu’on connaît la
note en stat.
Remarque 1
Si aa' 1 , c’est à dire a 1 les droites de régression seront identique et auront la même
a'
pente. Cette situation correspond précisément au cas où les points du diagramme de
dispersion sont alignés.
Section 3
Autres régression
Cette droite est déterminée par la méthode des moindres carrés par laquelle nous obtenons les
expressions de a et b :
COV ( X , y ) COV ( X , ln Y )
a a
V (X ) V (X )
b y aX
b ln Y X ln A
Comme A=ea et =eb , nous déterminons finalement à partir de ces formules l’équation de la
courbe exponentielle.
50 7,93
A partir du tableau 42, on calcule : x 10 ; y 1,58
5 5
86,82
COV ( X , y ) (10x1.58) 1,56
5
Le raisonnement consiste à dire que si les points xi, yi sont proches de la courbe Y AX,
alors les points ( (xi,ln yi) seront proches de la droite d’équation : ln yi ln xi ln A .
Le raisonnement consiste à dire que si les points xi, yi sont proches de la courbe Y XA,
alors les points ( (ln xi,ln yi) seront proches de la droite d’équation ln yi ln Aln xi , obtenue
par le changement de variable suivant :
ln Y ln( X A )
ln ln X A
ln Aln X
Posons y lnY , xln X et bln , nous voyons que cette équation prend la forme de
l’équation d’une droite y = Ax+b.
Cette droite est déterminer par la méthode des moindres carrés par laquelle nous obtenons les
expressions de A et b :
A COV(X, y) A COV(ln X,lnY)
V(X) V(ln X)
b y Ax ln Y A ln X
Comme =eb, nous déterminons finalement à partir de ces formules l’équation de la courbe
puissance.
10,3
A partir du tableau 43, on calcule : ln x 2,06 ;
5
7,93 24,24
ln y i 1,58 ; V (ln x) (2,06) 2 0,60
5 5
17,49
COV (ln x, ln y ) (2,06x1,58) 0,24
5
Les résultats suivant sont obtenus : A 0,4 ; b 0,75 ;
e b e 0, 75 2,03
On obtient ainsi la courbe d’équation : Y 2,03(0,4) X .
En calculant les dérivées partielles de par rapport à , et e a0 , a1 ,...,a p n égalisant à zéro, nous
obtenons le système à ( p 1 ) équations à ( p 1 ) inconnues suivant:
p c
0 2 f ij ( y j a p xip a p 1 xip 1 a p 2 xip 2 .......... a1 xi a0 ) 0
a0 i 1 j 1
p c
0 2 f ij xi ( y j a p xip a p 1 xip 1 a p 2 xip 2 .......... a1 xi a0 ) 0
a1 i 1 j 1
p c
0 2 f ij xi2 ( y j a p xip a p 1 xip 1 a p 2 xip 2 .......... a1 xi a0 ) 0
a2 i 1 j 1
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
p c
0 2 f ij xip 1 ( y j a p xip a p 1 xip 1 a p 2 xip 2 .......... a1 xi a0 ) 0
a p 1 i 1 j 1
p p p p p c
a p f i. xip 1 a p 1 f i. xip a p 2 f i. xip 1 ..... a1 f i. xi2 a0 x f ij xi y j
i 1 i 1 i 1 i 1 i 1 j 1
p p p p p p c
a p f i. xip 2 a p 1 f i. xip 1 a p 2 f i. xip ..... a1 f i. xi3 a0 f i. xi2 f ij xi2 y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
p p p p p p c
ap f x 2 p 1
i. i a p 1 f x 2 p 2
i. i a p 2 f x 2 p 3
i. i ..... a1 f x a0 f x
i. i
p
i. i
p 1
f ij xip 1 y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1
p p p p p p c
a p f i. xi2 p a p 1 f i. xi2 p 1 a p 2 f i. xi2 p 2 ..... a1 f i. xip 1 a 0 f i. xip f ij xip y j
i 1 i 1 i 1 i 1 i 1 i 1 j 1
Comme application, régressions par la méthode des moindres carrés la dispersion des points
de la double série des notes à l'aide d'un polynôme du second degré.
En calculant les dérivées partielles de par rapport à , et e a0 , a1 ,...,a p n égalisant à zéro, nous
obtenons le système à ( 2 1 ) équations à ( 2 1 ) inconnues suivant:
p c
0 2 f ij ( y j a 2 xi2 a1 xi a0 ) 0
a0 i 1 j 1
p c
0 2 f ij xi ( y j a2 xi2 a1 xi a0 ) 0
a1 i 1 j 1
p c
0 2 f ij xi2 ( y j a 2 xi2 a1 xi a0 ) 0
a 2 i 1 j 1
……………………………………………………………………………………………….
p p p p c
a 2 f i. xi2 a1 f i. xi a0 f i. f ij y j
i 1 i 1 i 1 i 1 j 1
p p p p c
a2 f i. xi3 a1 f i. xi2 a0 f i. xi f ij xi y j
i 1 i 1 i 1 i 1 j 1
p p p p c
a 2 f i. xi4 a p 1 f i. xi3 a0 f i. xi2 f ij xi2 y j
i 1 i 1 i 1 i 1 j 1
A cette étape, nous construisons un tableau de calculs pour déterminer les différentes valeurs
du système d'équations.
Tableau 44 : Tableau de calculs pour une régression par une fonction polynomiale
p p p
n y
j 1
ij j
ni. xi2 ni. xi3 ni. xi4
xinij y j x
j 1
2
i n y
j 1
ij j
n.j y j
xi ni. ni. xi
2 1272 3560 2544 5088 10176 20352 7120 14240 2954
6 518 2380 3108 18648 111888 671328 14280 85680 2826
10 299 1710 2990 29900 299000 2990000 17100 171000 1910
14 83 534 1162 16268 227752 3188528 7476 104664 476
18 3 18 54 972 17496 314928 324 5832 36
2175 8202 9858 70876 666312 7185136 46300 381416 8202
S/2175 3,77 4,53 32,59 306,35 3303,51 21,29 175,36 3,77
Section 4
Evaluation de la liaison entre deux variables
La dépendance entre deux variables se traduit par des paramètres, sans dimension, qui mesure
l'intensité de la liaison entre ces deux variables. L’un de ces paramètres est le coefficient de
corrélation linéaire. Dans la corrélation, le rôle des deux variables est parfaitement
interchangeable, alors que dans la régression linéaire il ne l'est pas.
La liaison entre deux variables est fonctionnelle réciproque (dépendance totale) si à chaque
valeur de x correspond une valeur unique de y et rigoureusement déterminée, et
réciproquement. Cela se traduit dans le tableau de contingence, par une seule observation par
ligne et par colonne. Et les moyennes conditionnelles seront toutes égales aux valeurs des
variables, x j xi et yi y j . Graphiquement, les courbes de régression conditionnelles sont
confondues. Mais parfois, la liaison fonctionnelle peut n’ai pas être réciproque. C’est à dire
qu’une valeur x fournie une seule valeur de y mais, une valeur de y ne fournie pas une
valeur unique de x .
La liaison relative, se traduit par un tableau de contingence quelconque. Son graphe laisse
apparaître une dispersion de points plus ou moins allongés. On en déduire deux courbes de
régression.
réciproque linéaire).
- Si r 2 0 : pas de relation linéaire entre X et Y (il indique seulement une indépendance
linéaire).
- Si 0 r 2 1 : 1 il y a une relation linéaire relative d’autant plus forte que r 2 est grand.
COV ( X , Y )
r avec r 1
XY
On peut aussi calcule le coefficient de corrélation linéaire par : r r 2 en décidant du signe
selon le signe de la pente de la droite de régression.
- Si r est proche de 1: il y a une liaison linéaire marquée, et les deux variables varient dans le
même sens.
- Si r est proche de 0: il n'y a pas de liaison linéaire
- Si r est proche de -1: il y a une liaison linéaire marquée, et les deux variables varient en
sens contraire.
fi. ( yi y ) 2 f V (Y )
i. i
Y , X i 1
1 i 1
V (Y ) V (Y )
j 1
f. j ( x j x ) 2 f V (X )
j 1
.j j
X ,Y 1
V (X ) V (X )
Ces deux rapports sont situés entre 0 et 1 en cas de corrélation et, en général, sont différents
l'un de l'autre.
- Si YX 0 , donc V(x j)0 , et la régression de y en x n’explique par la liaison. La courbe de
régression de y en x est une droite parallèle à l’axe Ox .
- Si YX 1 , donc V(x j ) 1, et la régression de y en x explique en totalité la liaison entre y
et x . Il y a une donc une liaison fonctionnelle de y en x . Si XY 1 également, il y a une
double liaison fonctionnelle, ou liaison fonctionnelle réciproque.
- Si 0 YX 1 , il y a une liaison relative entre y et x d’autant plus fort que YX tend vers 1.
Une série chronologique se définit comme la succession des valeurs d’une variable ordonnée
par un indicateur de temps. Elle se présente généralement sous la forme d’un graphique.
320
300
280
260
240
Hauteurs de pluies en mm
220
200
180
160
140
120
100
80
60
40
20
0
v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c v s l i t t t t v c
jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé jan fé mar avri Ma juin ille aoû sep oc no dé
ju ju ju ju ju
Graphique 19
- La tendance
- L’aléatoire ou accidentelle
Les valeurs à l’instant t sont la superposition de ces trois sources de variation.
L’indice j est relatif à la saison (jour, mois, trimestre, etc. j 1,..., m ) tandis que t est le
numéro de la saison ( t 1,..., T Avec T nm ou n représente généralement l’année).
La détermination des composantes d’une série chronologique concerne essentiellement la
détermination du trend t et des coefficients saisonniers j .
Section 2
La détermination du trend
Pour faire apparaître plus clairement la tendance, il faut atténuer la composante accidentelle et
saisonnière (cyclique). On utilise pour cela les techniques de lissage telles que, la méthode de
Mayer, la méthode des moindres carrés, la méthode des moyennes échelonnées, des
moyennes mobiles, définies de la façon suivante.
A titre d’exemple, et par la méthode des moindres carrés, le trend de la série des pluies à
Ouagadougou est donné par l’équation Y 0,033t 60,76 .
320
300
280
260
Trend: Y = 0,0333t + 60,762
240
Hauteurs de pluies en mm
220
200
180
160
140
120
100
80
60
40
20
0
m v
m v
m v
av s
av s
av s
av s
av s
v
Ml
ao t
ao t
ao t
c
Ml
ao t
ao t
c
Ml
Ml
Ml
c
pt
pt
pt
pt
pt
ju in
ju in
ju in
ju in
ju in
n
se t
se t
se t
se t
se t
t
ai
ai
ai
ai
ai
ri
ri
ri
ri
ri
e
e
oc
oc
oc
oc
oc
û
û
ar
ar
ar
ar
ar
dé
dé
dé
dé
dé
fé
no
fé
no
fé
no
fé
no
fé
no
ja
ja
ja
ja
ja
ill
ill
ill
ill
ill
ju
ju
ju
ju
ju
m
Graphique 20
Par la méthode des moyennes mobiles, seules les observations au début et à la fin de la séries
p p
disparaissent : soit p observations quand p est pair ( au début et à la fin) ou et
2 2
p 1 p 1
p 1 observations quand p est impair ( au début et à la fin).
2 2
Diagramme de dispersion et trend des hauteurs de pluie à Ouaga selon la méthode des moyennes mobiles
340
320 Trend: moyennes mobiles
300
280
260
240
Hauteur de pluie
220
200
180
160
140
120
100
80
60
40
20
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60
Temps t
Graphique 21
Section 3
La détermination des coefficients saisonnier
L’élimination de la composante saisonnière d’une chronique requière au préalable le calcul
des coefficients saisonniers, indicateur des variations saisonnières. Leurs méthodes de calculs
sont :
- La méthode des différences ou des rapports à la moyenne générale, appropriée pour les
chroniques à trend stationnaire,
- La méthode des différences ou des rapports au trend, appropriée pour les chroniques à trend
croissant ou décroissant.
Tableau 48 : Calcul des coefficients saisonniers pour modèle additif à trend stationnaire
(méthode des différences à la moyenne générale)
jan fév mars avril Mai Juin juillet août Sept oct nov Déc
1986 0 0 4,1 10,4 84 130 160,7 197,8 165 40,6 0,3 0
1987 0 0 13,2 0 67 164 148,3 221,9 131 39 0 0
1988 0 0 0 0 68,9 65,6 161,9 263,8 88,7 6,2 0 0
1989 0 0 5,5 0 35,7 55,2 233,5 305,3 112 48,4 0 1,7
1990 0 0 0 15,3 112 81,9 162,2 196,6 104 3,8 0 0
y j 0 0 22,8 25,7 367,9 496,8 866,6 1185,4 602 138 0,3 1,7
yj 0 0 4,56 5,14 73,58 99,36 173,32 237,08 120 27,6 0,06 0,34
j ( y j y ) -61,778 -61,78 -57,22 -56,64 11,8 37,58 111,54 175,3 58,5 -34,18 -61,72 -61,44
m j
contraire, il conviendrait de prendre comme coefficients saisonniers les 'j m . Et on aura
j 1
j
m
cette fois ci
j 1
'j m
y j 0 0 22,8 25,7 367,9 496,8 866,6 1185,4 602 138 0,3 1,7
yj 0 0 4,56 5,14 73,58 99,36 173,32 237,08 120 27,6 0,06 0,34
yj
j
y 0 0 0,0738 0,083 1,191 1,608 2,8055 3,8376 1,95 0,447 0,001 0,0055
Tableau 50 : Calcul des coefficients saisonniers pour modèle additif à trend variable
(méthode des différences au trend)
jan fév mars Avril Mai Juin juillet août Sept oct nov Déc
1986 0,25 33,7 61,8 99,76 73,26 -38,1 -61,08 -39,8
1987 -21,29 -22,84 -26,59 -62,91 -17,98 -68,2 51,1 125,5 38,99 -38,8 -58,28 -35,14
1988 -17,38 -15,15 -26,93 -53,54 -6,67 -15,9 80 181,9 11,12 -62 -55,3 -29,04
1989 -9,24 -8,99 -21,14 -60,32 -50,73 -41,3 134 206,7 15,61 -41,7 -73,07 -38,65
1990 -22,22 -24,31 -36,53 -43,56 34,77 -2,35 77,7 113,1
j -17,533 -17,823 -27,798 -55,083 -8,072 -18,81 80,98 145,38 34,75 -45,16 -61,933 -35,658
Les indices statistiques, sont des indicateurs qui, synthétisent l’évolution d’une grandeur
économique dans l’espace et dans le temps. On peut distinguer les indices élémentaires, qui
mesurent l’évolution d’une seule grandeur, des indices synthétiques, qui mesurent l’évolution
simultanée de plusieurs grandeurs.
Section 1
Les indices simples ou élémentaires
Soit G , une grandeur économique notée G t à la date t où t varie de 0 à n .
1.1 Définitions
L’indice élémentaire de G est un rapport entre deux de ses valeurs mesurées à des dates
différentes. Une des dates étant choisie comme date de référence. It / 0(G) Gt où t est appelée
G0
date courante, et 0 date de base ou date de référence.
On convient de multiplier le résultat de ce rapport par 100. Ce qui signifie que la grandeur G
est à l’indice It / 0(G) à la date t , base 100 à la date 0.
En fait l’indice simple, lorsqu’il n’est pas multiplié par 100, est le coefficient multiplicateur.
Nous déduisons de l’indice simple, le taux de variation de G noté Tt / 0(G) :
Tt / 0(G) Gt G0 Gt G0 Tt / 0(G) It / 0(G)1
G0 G0 G0
Le taux de variation est donc égal à la différence entre l’indice simple et l’unité. Par
équivalence nous aurons aussi : It / 0(G)1Tt / 0(G) .
Ainsi, un indice simple supérieur à 1 (ou 100) indique une augmentation de la grandeur G
entre les deux dates, et un indice simple inférieur à 1 (ou 100) en indique une diminution.
Section 2
Les indices Synthétiques
Un indice synthétique est une grandeur composite qui résume un ensemble d’indices simples
basés sur des grandeurs hétérogènes. C’est donc une moyenne d’indices simples. Les plus
courants sont l’indice de Laspeyres, de Paasche et de Fisher.
coefficient de pondération, est aussi appelé coefficient budgétaire dans certains cas de
dépenses de consommation de ménages.
Une deuxième formule de Laspeyres des prix peut être déduite de la première :
n
P Q t
i i
0
Lt / 0(P) i 01
P Q
i 1
0
i i
0
En considérant les indices simples de quantités, nous définissons de la même manière l’indice
n
n P Q 0
i
t
i
L’indice de Laspeyres des quantités mesure la variation de la valeur d’un panier de biens à
des prix constants, donc en fait des variations des quantités.
1
P Q t
i
t
i
Pt / 0(P) ou Pt / 0(P) i 1
n
ti n
I
i 1 t /0 (Pi ) P Q
i 1
0
i
t
i
1
i 1
i
t
1
P Q t
i
t
i
Pt / 0(Q) ou Pt / 0(Q) i 1
n
ti n
i 1
I
(Q i) t /0
i 1
Pt iQ0i
L’indice de Paasche des prix compare la valeur courante d’un panier de biens à la valeur qu’il
aurait eu à la période de base, tandis que l’indice de Paasche des quantités compare cette
même valeur courante à la valeur courante du panier de biens à la période de base.
2.3 L’inde de Fisher
C’est la moyenne géométrique des indices de Laspeyres et de Paasche.
2.3.1 L’indice de Fisher des prix
Ft / 0(P) Lt / 0(P)xPt / 0(P)
2.3.2 L’indice de Fisher des quantités
Ft / 0(Q) Lt / 0(Q)xPt / 0(Q)
L’indice de Fisher est compris entre l’indice de Laspeyres et l’indice de Paasche.
2.4 L’indice de valeur
Il mesure la variation de la valeur d’un produit ou d’un ensemble de produits entre la date 0 et
n
PtQt P Q t
i
t
i
la date t . It / 0(V) pour un seul produit, ou It / 0(V) i n1 pour plusieurs produits.
P0Q0
P Q
i 1
0
i i
0