Académique Documents
Professionnel Documents
Culture Documents
STATISTIQUE
L1/S1
Ensemble de méthodes: car la statistique n’est pas une théorie en soi, mais un outil rigoureux
pour décrire des phénomènes. Dans ce sens, la statistique se met au service de son utilisateur
pour lui permettre de comprendre des faits en les comparant aux théories.
2.1 LE RECENSEMENT
C’est une enquête exhaustive auprès de toutes les unités de la population statistique que l’on
étudie. L’enquête reporte des données sur les caractéristiques de ces unités étudiées.
Exemple: Recensement Général de la Population (INSD) auprès des ménages burkinabè.
Un échantillon est une sous population sélectionnée pour représenter toute la population.
L’échantillon est déterminer aléatoirement, quand tous les individus sont identiques, ou par
construction d’un échantillon représentatif, quand la population est structurée.
- Variables discrètes
La variable sera dite discrète lorsque ses valeurs possibles sont des nombres isolés, notamment
des nombres entiers.
Exemple : Le nombre d’enfants par famille, le nombre de chômeurs par pays et le nombre
d’étudiants par filière.
- Variables continues
Une variable est dite continue quand les observations qui la définissent prennent des valeurs
infinies sur un intervalle bien défini. L’intervalle peut être fermé, ouvert ou semi-ouvert.
Exemple : l’âge d’une personne et la moyenne de passage d’un étudiant.
Remarque : Ces définitions sont à relativiser, l’âge est théoriquement une variable quantitative
continue, mais en pratique, l’âge est mesuré dans le meilleur des cas au jour près. Toute mesure
est limitée en précision !
Les pourcentages qui sont une division par cent de valeurs observées, ne veulent rien dire en
soi. Par contre se sont des outils très pratiques pour comprendre certains chiffres. En particulier,
les pourcentages sont utiles pour:
- Rendre les proportions plus compréhensibles (plus esthétiques).
- Décrire des évolutions dans le temps.
A la date t, la valeur V0 aura augmenté ou diminué d’une valeur égale à la croissance absolue.
La croissance absolue peut être négative ou positive. Mais peut être aussi définie comme une
fraction d’une valeur plus large. C’est à dire gV0 . Donc Vt V0 g.V0 (1 g)V0 .
Donc de manière équivalente, on peut dire qu’à la date t, la nouvelle valeur Vt a une valeur plus
grande ou plus petite que V0 d’une proportion égale à 1 g . Autrement Vt 1 g et le taux de
V0
V
croissance est g 1 .
t
V0
Ainsi, quand la valeur de V n’est pas connue à la date t, mais qu’on observe la valeur initiale
V0 et le taux de croissance g entre les deux dates alors on peut trouver Vt par la formule:
Vt (1 g)V0 . (1+g) est alors appelé le multiplicateur: grandeur par laquelle on multiplie la
valeur initiale pour trouver la valeur finale.
Exemple : le mois de février 2017, la fédération des patrons de boulangerie du Burkina
annonçaient que le prix de la miche de pain connaîtra une hausse de 125F à 150F tandis que le
poids de la miche passera de 180g à 200g, en mars 2017.
1) Calculer le taux de croissance du prix du pain et celui du poids.
2) Quel est le multiplicateur du prix et du poids entre février et mars 2017?
Plus généralement, Soit une valeur Vi à la date i. Si on connaît tous les taux de croissance
annuelles entre la date i et la date i+n, on peut savoir ce qu’est devenue cette valeur à la date
(i+n) avec la formule : Vin(1 gi1)(1 gi2)...(1 gin).Vi .
Démonstration :
Vin(1 gin)Vi(n1)
Vi(n1)(1 gi(n1))Vi(n2)
…
Vi2(1 gi2)Vi1
Vi1(1 gi1)Vi
En remplaçant en cascade les valeurs de V par leurs expressions, on peut trouver :
Vin(1 gi1)(1 gi2)...(1 gin).Vi (c.q.f.d)
V1(1 g )V0
V2(1 g )V1
…
Vt (1 g )Vt1 (a)
Ainsi en remplaçant dans (a) nous obtenons : Vt (1 g )TV0 et donc g Vt
V0
1/ T
1 .
Les étapes suivantes doivent être distinguées dans toute étude statistique : la collecte de
données, l’organisation, la présentation, l’analyse, l’interprétation. Les données statistiques
sont organisées suivants trois étapes :
Tableau 1 Distribution de fréquences par sexe des étudiants de SEG S1, en 2016 (variable
qualitative)
Sexe (xi) Effectif (ni) Fréquence (fi) en %
Féminin 332 23,50
Masculin 1081 76,50
Total 1413 100
Source: construit à partir des données du service informatique (scolarité ufr-seg), 2016.
Tableau 2 Distribution de fréquences des âges des étudiants de SEG S1, en 2016
(variable discrète)
Age(xi) Effectif (ni) Fréquence (fi) en % Fréquence (fi) arrondi
17 1 0,07077141 0,07
18 2 0,14154282 0,14
19 18 1,27388535 1,27
20 87 6,15711253 6,16
21 166 11,7480538 11,75
22 231 16,3481953 16,35
23 253 17,9051663 17,91
24 273 19,3205945 19,32
25 193 13,6588818 13,66
26 91 6,44019816 6,44
27 45 3,18471338 3,18
28 32 2,26468507 2,26
29 21 1,48619958 1,49
Total 1413 100 100
Source: construit à partir des données du service informatique (scolarité ufr-seg), 2016.
Tableau 3 Distribution de fréquences des notes de statistique des étudiants de SEG S1,
session de juin 2016. (variable continue)
Note (ei) Effectif (ni) Fréquence (fi) en % Fréquence (fi) arrondi
[0-5[ 399 27,1428571 27,14
[5-8[ 345 23,4693878 23,47
[8-10[ 234 15,9183673 15,92
6
Les distributions de fréquence cumulée donne le pourcentage d’individus ayant une valeur inférieure
(ou supérieure) à un certain seuil. Il en existe deux types: les distributions de fréquences cumulées
croissantes et les distributions de fréquences cumulées décroissantes. Elles ne peuvent se calculer
que pour les variables quantitatives.
Les fréquences cumulées sont symbolisées par N(xi) pour les effectifs ou F(xi) pour les Fréquences.
N et F sont appelés fonction cumulative ou fonction de répartition.
N(xi) est donc l'effectif des individus dont la valeur du caractère est inférieure à x i (pour les
distributions de fréquences cumulées croissantes) ou supérieure à xi (pour les distributions de
fréquences cumulées décroissantes).
i 1 i 1
Formellement : N(xi) = n
i 1
i et F(xi) = f . D'où pour les fréquences cumulées croissantes:
i 1
i
Les tableaux synthétisent les données mais ne permettent pas d’avoir une vue d’ensemble des
distributions. Au contraire, les graphiques viennent compléter le travail d’analyse en apportant
une synthèse visuelle d’ensemble.
Suivant la variable observée, de nombreuses représentations peuvent être utilisées:
- Pour les variables qualitatives, les représentations possibles sont des tuyaux d'orgue ou des secteurs
circulaires ou camembert;
- Pour les variables quantitatives, on peut représenter soient:
les diagrammes différentiels qui prennent le nom de diagramme en bâton pour les variables
discrètes et d’histogramme pour les variables continues. Ils mettent en évidence les différences
d'effectifs(ou de fréquences) entre les différentes modalités ou classes.
les diagrammes intégraux qui prennent le nom de fonction en escaliers pour les variables
discrètes et de courbe cumulative pour les variables continues. Ils permettent de répondre aux
questions du type "combien d'individus ont pris une valeur inférieure (ou supérieure) à x i ?"
les box-plot ou boite à moustaches.
Les tuyaux d'orgue sont des rectangles isolés, de base constante, correspondant à chaque
modalité et proportionnelles en taille aux effectifs ou fréquences.
Tuyaux d'orgue
100
80
Fréquence %
60
40
20
0
Féminin Masculin
Sexe
Les secteurs circulaires, permettent de visualiser des parts relatives, correspondant à une
modalité dont l'angle au centre i est proportionnel à l'effectif correspondant :
i= 360° x fi. Donc ici 1=360x0,235=84,6° et 2 =360x0,765=275,4°.
Secteurs circulaires
Féminin Masculin
Les valeurs discrètes xi, prises par la variable, sont représentées par des bâtons de hauteur
proportionnelle aux effectifs (ou fréquences). L'axe des abscisses recevant les xi, et l’axe
des ordonnées les effectifs(ou fréquences).
250
200
Effectif (ni)
150
100
50
0
17 18 19 20 21 22 23 24 25 26 27 28 29
âge de l'étudiant (xi)
Les effectifs corrigés sont données par : nic ni aic . Les densités des effectifs par: di ni
ai ai
Représenter les séries par des tableaux et des Graphiques permettent une vue d’ensemble mais
ne peuvent résumer des tendances moyennes ou encore des dispersions dans les séries.
La façon la plus commode de résumer une série se fait à partir de la tendance centrale (ou sa
valeur la plus représentative comme la moyenne) et de la dispersion de la série.
1.1 LE MODE
Le mode (Mo) est la valeur de la variable associée au plus grand nombre d’effectif (ou encore
à la plus grande fréquence). C'est le seul que l'on puisse déterminer lorsque la variable est
qualitative. Il est aussi le plus représentatif dans le cas où les individus sont très différents les
uns des autres du point de vue du caractère étudié. Pour les variables continues, le mode ou
classe modale peut changer suivant les découpages en classes.
Tableau 1 1 Distribution de fréquences par sexe des étudiants de la seg1, en 2016 (variable
qualitative)
Sexe (xi) Effectif (ni) Fréquence (fi) en %
Féminin 332 23,50
Masculin 1081 76,50
Total 1413 100
Source: construit à partir des données du service informatique (scolarité ufr-seg), 2016.
Dans le tableau 1 du chapitre III, chaque modalité étant bien définie, le mode va être facilement
repéré. Le sexe masculin est la modalité ayant le plus grand effectif ou la plus grande fréquence,
c’est donc cette modalité qui est le mode (Mo = Masculin).
Tableau 2 Distribution de fréquences des âges des étudiants de la seg S1, en 2016
(variable discrète)
Age(xi) Effectif (ni) Fréquence (fi) en %
17 1 0,07
18 2 0,14
19 18 1,27
20 87 6,16
11
Tableau 6 Tableau de calculs des densités et des fréquences corrigées des notes de
statistique des étudiants de seg1, session de juin 2004. (variable continue)
Note (ei) Effectif (ni) Fréquence (fi) en % ai di ni nic ni *aic fi fi
ai ai di fic *aic
ai ai
[0-5[ 399 27,14 5 79,5 159 5,42 10,84
[5-8[ 345 23,47 3 115 230 7,82 15,64
[8-10[ 234 15,92 2 117 234 7,96 15,92
[10-12[ 249 16,94 2 124,5 249 8,47 16,94
[12-14[ 163 11,09 2 81,5 163 5,54 11,08
[14-20[ 80 5,44 6 13,33 26,66 0,90 1,81
Total 1470 100 // ////////// ////////////// /////////////////// ///////////////////
Source: construit à partir des données du service informatique (scolarité ufr-seg), 2004.
Le mode correspond à la classe [10-12[ car, c’est à elle que correspond la densité la plus élevée.
1.2 LA MEDIANE
La médiane Me se définie comme la valeur de la variable qui divise en deux groupes d'effectifs
égaux les valeurs observées rangées par ordre croissant ou décroissant. Elle est ainsi définie de
sorte que 50% des valeurs lui soient inférieures et 50% lui soient supérieures.
Me est telle que F(Me) 50% ou N(Me) = n .
2
La médiane se détermine à partir des distributions de fréquences cumulées. Dans le cas où la
variable étudiée est discrète:
Me =xi tel que F(xi) <50% < F(xi+1) ou N(xi) < n <N(xi+1), si un tel cas existe. Sinon, la médiane
2
est un intervalle appelé intervalle médian; Me = [xi, xi+1 [ tel que F(xi+1) =50% ou N(Me) = n .
2
Dans le cas où la variable étudiée est continue, Me appartient à une classe appelée classe
médiane et est déterminer par interpolation linéaire:
Me [ei, ei+1 [ tel que F(ei) <50%< F(ei+1) ou N(ei) < n <N(ei+1)
2
n N(ei)
F(M e) F(M e)
M e ei (ei 1 ei) ou M e ei (ei 1 ei) 2
F(ei 1) F(ei) N(ei 1) N(ei)
En considérant la distribution des fréquences cumulées pour l’âge des étudiants de la seg S1 en
2016 (tableau 4), nous voyons que n 706,5 est compris entre N(23)=505 et N(24)=758. Par
2
conséquent, Me =23 ans.
1.3 LA MEDIALE
Contrairement à la médiane qui divise en les effectifs en deux groupes égaux, la médiale quant
à elle, divise des quantités ou valeurs globales en deux groupes égaux. La détermination de la
13
50 F'(ei)
Ml est tel que F'(Ml) =50%, d'où M l ei (ei 1ei)
F'(ei 1) F'(ei)
Tableau 7 : Tableau de calculs de la médiale d’une série de ventes (en millions de FCFA) d’un
échantillon de 500 entreprises.
Ventes ei centre ci ni fi % Fci % n.i ci fi ' % Fi ' ci %
[0-4[ 2 165 33 33 330 13,15 0
[4-6[ 5 250 50 83 1250 49,80 13,15
[6-9[ 7,5 50 10 93 375 14,94 62,95
[9-11[ 10 25 5 98 250 9,96 77,89
[11-50[ 30.5 10 2 100 305 12,15 87,85
500 2510 100
5013,15
M l[46[ . Donc M l 4(64) 5,479919679 millions de FCFA
62,9513,15
La médiale étant de 5 479 919,679 F cela signifie que, le cumul des ventes des entreprises dont
les ventes sont inférieures à 5 479 919,679 F est égale au cumul des ventes des entreprises dont
les ventes sont supérieures à 5 479 919,679 F.
Les quantiles d'ordre 0,1, x0,1 ; d'ordre 0,2, x0,2 ; …; et d'ordre 0,9, x0,9 ; sont appelés des déciles
et divisent la population en dix parties égales. Ils sont aussi notés D 1 D2, D3, …, et D9.D'où
F(D1)=10%, F(D2)=20%,… F(D9)=90%.
Les quantiles d'ordre 0,01, x0,01 ; d'ordre 0,02, x0,02 ; …; et d'ordre 0,09, x0,99 ; sont appelés des
centiles et divisent la population en cent parties égales. Ils sont aussi notés C 1, C2, C3, …, et
C99.D'où F(C1)=1%, F(C2)=2%,… F(C99)=99%.
14
n x i i k
signification concrète: x i 1
ou encore x fi xi
n i 1
On peut distinguer la moyenne arithmétique simple et pondérée. Dans la moyenne arithmétique
simple toutes les valeurs de la variable ont le même poids tandis que, dans la moyenne
arithmétique pondérée chacune des valeurs de la variable est affectée d’un poids différent.
Calculons la note moyenne de statistique des étudiants de seg1, session de juin 2004 (tableau
3).
Pour cela établissons le tableau de calculs suivants
Note (ei) Effectif (xi) Fréquence (fi) en % ci fici nici
[0-5[ 399 27,14 2,5 67,85 997,5
[5-8[ 345 23,47 6,5 152,555 2242,5
[8-10[ 234 15,92 9 143,28 2106
[10-12[ 249 16,94 11 186,34 2739
[12-14[ 163 11,09 13 144,17 2119
[14-20[ 80 5,44 17 92,48 1360
Total 1470 100 786,675 11564
En appliquant la formule de la moyenne arithmétique, nous trouvons x 11564 7,866666667
1470
La moyenne Harmonique est utilisée souvent pour calculer des performances moyennes par
unité de temps. Elle intervient lorsqu'on demande une moyenne de valeurs se présentant sous
forme de quotient de deux variables x/y (km/h, km/litre,…).
15
n (x x )
i i
Pour toute série statistique ( xi , ni ), i 1
0
n
Preuve
Propriété 4: La moyenne est la valeur la plus proche de toutes les observations en raison
de la propriété 3, et parce qu'elle est la valeur qui minimise la moyenne des écarts à tout réel
non nul a.
Propriété 5: Pour tout série statistique (xi, ni), l'inégalité suivante est vérifiée: H<G<x<Q et
que x.hG 2
2.1 L'ETENDUE
L'étendue (w) d'une série statistique est la différence entre la plus grande et la plus petite valeur
de la série: w= xk-x1.
IQR=(Q3-Q1)/Q2.
2.3 LA VARIANCE
La variance est notée 2 ou V(X) et est la moyenne arithmétique du carré des écarts à la
moyenne:
k
n (x x )
i i
2
k
2 i 1
ou encore 2 fi ( xi x )2
n i 1
Nous déduisons de cette première formule de la variance une formule plus pratique pour les
calculs:
k
n x 2
i i k
2 i 1
x 2 ou encore 2 fi xi2 x 2
n i 1
Démonstration
k
Nous avons par conséquent aussi 2 Q 2 x 2 puisque Q = f x
i=1
2
i i
L’écart type de la répartition des notes de statistique des étudiants de seg S1, en juin 2016 est :
17,53248776 4,187181362
2.5 LE COEFFICIENT DE VARIATION
Le coefficient de variation est une mesure de la dispersion relative d’une série. C’est aussi une
expression de l’écart type par rapport à la moyenne. Parfois, nous avons besoin de comparer
des dispersions de différentes séries. Or, des dispersions autour de la moyenne ne sont
comparables que pour des niveaux de moyennes comparables. Aussi, ces dispersions doivent
être exprimées dans la même unité. D’où le coefficient de variation CV
x
Il est sans unité et nous l'exprimerons de préférence en pourcentage pour une appréciation plus
immédiate de la dispersion.
Coefficient de variation des notes de statistiques des étudiants de la seg1, en juin 2004 :
4,187181362
CV 0,5322
7,86666667
18
La concentration d’une distribution mesure sa répartition par rapport à une distribution idéale
où les écarts entre les observations sont parfaitement égalitaires. Donc il s’agit de comparer
deux séries de fréquences cumulées. Mais ces fréquences cumulées (distributions) doivent avoir
un lien économique rationnel entre elles.
Par exemple, 10% des entreprises occupent 90% du total du marché (ou encore 90% de part de
marché) dans une économie, c’est que la structure de marché est fortement concentrée
également (10% des entreprises détiennent un quasi monopole du marché).
Elle est souvent utilisée dans l’analyse de la distribution des salaires, de la fortune, des ventes
des entreprises, etc…
Les paramètres de concentration s’interprètent comment les paramètres de dispersion. Car à
une grande dispersion correspond obligatoirement une forte concentration.
Une idée de la concentration d’une distribution peut être donnée par une différence entre sa
médiale et sa médiane : M l M e .
On peut aussi calculer le rapport M l M e qui permet de relativiser cette différence.
w
Mais la concentration d’une distribution s’apprécie difficilement bien à partir de ces
différences. C’est pourquoi en pratique on utilise souvent les courbe et indice de concentration.
La courbe de concentration ou courbe de Lorenz est la courbe régulière passant par les points
de coordonnées F '(ei),F(ei) . Ici nous poserons que F(ei) pi et F ' (ei)qi
Traçons la courbe de concentration de la série de ventes (en millions d’euros) d’un échantillon
de 500 entreprises (tableau 7).
Ventes centre ni fi % Fci pi % n.i ci
fi ' % Fi ' ci qi % qi qi 1 % fiqi qi 1 .10 4
ei ci
[0-4[ 2 165 33 33 330 13,15 13,15 13,15 433,95
[4-6[ 5 250 50 83 1250 49,80 62,95 76,1 3805
[6-9[ 7,5 50 10 93 375 14,94 77,89 140,84 1408,4
[9-11[ 10 25 5 98 250 9,96 87,85 165,74 828,7
[11-50[ 30.5 10 2 100 305 12,15 100 187,85 375,7
500 2510 6851,75
Pour une concentration nulle, la courbe de Lorenz et la première bissectrice sont confondues.
19
L’allure d’une courbe de fréquences peut se connaître sans être obligé de la tracer. Pour cela il
suffit de connaître ses caractéristiques de forme, c’est à dire son degré d’asymétrie ou
d’aplatissement, qui sont calculés à partir de paramètre de tendance centrale et de dispersion
ou des moments.
Un moment est une moyenne des écarts par rapport à un réel non nul « a » élevés à une puissance
« r » ; r étant un entier naturel positif ;
Le moment d’ordre r par rapport à a est le nombre mr a :
k
n x a
r
i i k
mr a i 1 ou encore mr a fixi a
r
n i 1
n x i ir k
mr i 1 ou encore mr fi xir
n i 1
n x x
r
i i k
r i 1 ou encore r fixi x
r
n i 1
0 0
20
Le coefficient d’asymétrie de Yule est basé sur les écarts de quartiles. Il s’écrie :
(Q3 M e ) ( M e Q1 ) Q1 Q3 2 M e
AY
(Q3 M e ) ( M e Q1 ) Q3 Q1
Si AY = 0 la distribution est dite symétrique. Sinon elle est asymétrique à droite (étalement des
observations vers la droite) : cas où 0 AY 1 , ou asymétrique à gauche (étalement des
observations vers la gauche) : cas où 1 AY 0 .
Pearson établit une statistique basée sur les écarts entre moyennes et Modes. Ainsi, Pour une
distribution unimodale, le premier coefficient d’asymétrie de Pearson est :
x MO
AP1 avec 1 AP1 1 . AP1 s’interprète comme AY 1 .
32 32
Le second coefficient d’asymétrie de Pearson est : AY 2 3 ou encore AY 2 6 avec AY 2 0 .
2
La distribution est dite symétrique pour AY 2 0 , faiblement asymétrique pour AY 2 petit et
fortement asymétrique pour AY 2 grand.
En pratique, si AF ] 0,5;0,5[ , la distribution est dite symétrique. Sinon elle est dite
asymétrique à droite pou r AF 0 , ou asymétrique à gauche pour AF 0 .
21
Il s’écrit :
B P 42 44
2
Si B P =3 alors la distribution est mesocutique (moyennement aplatie) ou est normale
Si B P >3 alors distribution est leptocurtique (faiblement aplatie) ou moins aplatie que la
distribution normale.
Si B P <3 alors distribution est platicurtique (fortement aplatie) ou plus aplatie que la
distribution normale
La quantité 3 BP est appelée excès d’aplatissement.
Il s’agit d’un coefficient de Pearson centré sur 0. Il s’exprime en écart à la valeur correspondant
à la loi normale (i.e. en déviation par rapport 3).
BF 44 3 BP 3
Dans la mesure où BF est exprimé en fonction de BP , son interprétation est immédiate à partir
de celle de BP .
L'étude simultanée de plusieurs caractères, sur une population donnée est possible. Cette
étude sera l'objet de ce chapitre. Il ne prendra en compte que le cas de deux caractères en
insistant sur les concepts qui ne sont pas communs aux distributions à un caractère comme le
tableau de contingence, les distributions marginales et conditionnelles, la relation entre
caractères et la covariance..
22
nij
fij Fréquence du couple de modalité (xi, yj) ou fréquence totale ou encore la proportion
n
d'individus qui présentent simultanément les modalités x i et yj.
k p
k p
n k p n ij
Dans le cas d'une distribution à deux caractères, nous pouvons définir deux distributions
marginales: la distribution marginale selon le caractère X et la distribution marginale selon le
caractère Y.
n
- f i. i. : fréquence des individus présentant la modalité xi (indépendamment de y j ) .
n
k
p k
n n i.
Nous avons aussi fi. fij et fi.
1. i 1
j 1 i 1 n n
La moyenne et variance ainsi obtenues, seront appelées moyenne marginale de X et variance
marginale de X.
23
n x i. i k
x i 1
fi. xi .
n i 1
La variance marginale X
La variance de la variable X est appelée variance marginale de X et est notée V(X). Sa
formule est:
k
n (x x )
i. i
2
k
V (X ) i 1
fi. ( xi x ) 2
n i 1
C'est l'étude de la variable Y, en calculant ses caractéristiques comme une distribution à une
variable. Les effectifs considères sont les n.j.
- n.j.:nombre d'individus présentant la modalités yj (indépendant de xi)
k p
Donc n. j nij et n n. j .
i 1 j 1
n. j
- f. j : fréquence des individus présentant la modalité yi (indépendamment de x j ) .
n
p
k
n p n .j
La moyenne marginale de Y
La moyenne de la variable Y est appelée moyenne marginale de Y. Sa formule est:
p
n .j yj P
f. j y j .
j 1
y
n j 1
La variance marginale Y
La variance de la variable Y est appelée variance marginale de Y et est notée V(Y). sa
formule est:
24
n .j ( y j y )2 p
V (Y ) j 1
f. j ( y j y ) 2
n j 1
Une distribution à deux caractères présente deux types de distributions conditionnelles: Les
distributions conditionnelles de X liées par Y que nous notons par X/yj et les distributions
conditionnelles de Y liées par X que notons Y/xi.
Elle sont au nombre des p modalités de la variables Y. Pour chaque distribution, une colonne
comprendra les modalités xi et l'autre les effectifs nij(j étant fixé).
n
- f i j ij , se lit : "f i si j ": fréquence conditionnelle de la modalité xi liée par yj. C'est la
n. j
fréquence des individus qui présentent la modalité xi parmi les individus présentant la
modalité yj.
k
k n ij
n. j
Nous avons par ailleurs l'égalité
n. j n. j
1.
i 1
fi j i 1
Comme pour les distributions marginales, nous présentons les moyennes et variances des
distributions conditionnelles.
n x ij i k
xj i 1
f i j xi .
n. j i 1
Ainsi, x3 4,495726 est la moyenne en math des étudiants qui ont une note de statistique
comprise en 8 et 10.
n (x x )
ij i j
2
k
Sa formule est: V j ( X ) i 1
f i j ( xi x j ) 2 .
n. j i 1
ni. k n ij
Comme pour les distributions marginales, nous présentons les moyennes et variances des
distributions conditionnelles.
n ij yj k
yi j 1
f ji y j .
ni. i 1
Ainsi, y5 14,66666667 est la moyenne en statistique des étudiants qui ont une note de math
comprise entre 12 et 14.
n (y ij j yi ) 2 k
Sa formule est: Vi (Y )
j 1
f ji ( y j yi ) 2 .
n. j i 1
ni. nij n n
* f ij f i. xf ji f. j xf i j puisque f i. xf ji =
x et f. j xf i j = . j x ij .
n ni. n n. j
La relation entre les moyennes est donnée par:
26
n .j xj p
*x
j 1
f. j x j
n j 1
k
n y i. i k
*y i 1
fi. yi
n i 1
C'est à dire que la moyenne marginale est égale à la moyenne des moyennes conditionnelles.
En effet:
k k p p k p
n x n x n x n
i. i
i 1 j 1
ij i
j 1 i 1
ij i
j 1
.j xj
x i 1
et
n n n n
p p k k p k
n. j y j
j 1
nij y j
j 1 i 1
nij y j
i 1 j 1
n y i. i
y i 1
n n n n
n. jV j ( X ) n .j ( x j x )2 p p
f. jV j ( X ) f. j ( x j x ) 2
j 1 j 1
* V (X )
n n j 1 j 1
K K
n V (Y ) n ( y y )
i. i i. i
2
k k
* V (Y ) i 1
i 1
fi.Vi (Y ) fi. ( yi y ) 2
n n i 1 i 1
C'est à dire que la variance marginale est égale à la moyenne des variances conditionnelles
augmentée de la variance des moyennes conditionnelles.
En effet:
k k p p k p k p
V ( X ) fi. ( xi x ) 2 f ij ( xi x ) 2 f. j f i j ( xi x ) 2 f. j f i j ( xi x j ) 2 f. j ( x j x ) 2
i 1 i 1 j 1 j 1 i 1 j 1 i 1 j 1
P p k k p k p k
V (Y ) f. J ( y j y ) 2 fij ( y j y ) 2 fi. f ji ( y j y ) 2 fi. f ji ( y j yi ) 2 f i. ( yi y ) 2
J 1 j 1 i 1 i 1 j 1 i 1 j 1 i 1
SECTION 4 : LA COVARIANCE
La covariance peut être considérée comme la variance d’une distribution à deux variables. Si
l’on posait X= Y, on retrouverait la formule de la variance. Autrement, la covariance de deux
variable statistique X et Y, notée COV(X, Y), est le moment centré d’ordre 1 et 1.
27
nij(x x)(y y) i j
k p
COV(X, Y) = i j
ou encore COV(X,Y) = fij (xi x )(y j y)
n i j
La covariance est nulle si les deux variables sont indépendantes. Cette grandeur interviendra
dans l’étude de la liaison entre deux variables et, notamment, dans celle de la corrélation.
Il est possible, pour obtenir une expression mieux adaptée au calcul numérique, de développer
la formule de définition.
k p
n x y ij i j
Preuve
k p k p
k p k p k p
= fij xi y j y fij xi x fij y j xy fij
i j i j i j
k p k p k
f x x f f x x
i j
ij i
i
i
j
ij
i
i. i
k p p k p
d’où
k p
COV(X, Y) = f x y xy
i j
ij i j
nij y j
j 1 yi
xi nij y j
j 1
2,5 6,5 9 11 13 17 ni.
6,1792349
2,5 372 250 136 101 47 9 915 5654 7 14135
9,8259668
6,5 23 79 72 103 60 25 362 3557 5 23120,5
11,564220
9 2 11 21 26 31 18 109 1261 2 11344,5
12,284482
11 2 5 5 14 17 15 58 712,5 8 7837,5
14,666666
13 0 0 0 3 6 9 18 264 7 3432
17 0 0 0 2 2 4 8 116 14,5 1972
n.j 399 345 234 249 163 80 1470 61841,5
k
n x
i 1
ij i
1119,5 1292,5 1052 1383 1085,5 697
28
Il est fréquent, dans une étude élémentaire, de chercher à préciser une liaison éventuelle entre
deux grandeurs pour lesquelles on dispose d'une série d'observations jointes. Ainsi :
- la taille et le poids des membres d'un groupe d'étudiants
- le salaire et le solde bancaire moyen des clients d'une banque
- le revenu annuel et le nombre moyen de voiture par habitant
- le revenu par habitant et le taux d'analphabétisme
- le taux de criminalité et le nombre de policier par habitant
29
La courbe de régression montre que plus la note en mathématiques augmente, plus celle en
statistique augmente également de façon un peu prononcée.
Le nuage de points associés à des séries statistiques à deux caractères peuvent présenter différentes
formes. Le nuage peut présenter des points qui sont presque alignés ou laisser simplement apparaître
une direction d'allongement privilégiée. Dans ce cas, la courbe de régression associée va présenter
un caractère linéaire. Le nuage peut ne pas manifester de structure particulière. Dans ce cas, sa
courbe de régression, peut par exemple, présenter un caractère exponentielle, puissance, ou encore
polynomial, qui peuvent se ramener à un cas linéaire par changement de variable.
xi 2,5 6,5 9 11 13 17
yi 6,17923497 9,82596685 11,5642202 12,2844828 14,6666667 14,5
A partir du obtient : G1(6 ;9,18) ; G2(13,67 ;13,81)
La construction de la droite de Mayer est rapide, simple et fournit une droite convenable lorsque les
points du nuage sont presque alignés comme ici. Mais elle ne donne pas une mesure de sa fiabilité,
due à sa simplicité.
30
Notons la moyenne du carré des écarts entre les yj observés et les yj donnés par l'équation de la
droite D.
k p
fij ( y j axi b) 2
i 1 j 1
La droite de régression de Y en X, encore appelée droite des moindres carrés, est la droite qui
minimise . C'est la droite qui passe le plus près possible des points yj observés.
L a méthode des moindres carrés permet de déterminer cette droite, c'est à dire de trouver les
valeurs de a et b qui minimisent .
k p
Posons 0 Cela est équivalent à 2 fij ( y j axi b) 0
b i 1 j 1
Nous en déduisons par développement de l'équation que la valeur de b qui minimise est:
b y ax .
Remplaçons b par sont expression dans :
k p k p
fij ( y j axi y ax ) 2 fij ( y j y a ( xi x )) 2
i 1 j 1 i 1 j 1
Posons que 0
a
Nous aurons par équivalence:
k p
2 fij ( xi x )( y j y a ( xi x )) 0
i 1 j 1
k p
fi 1 j 1
ij ( xi x )( y j y )
puis a k p
qui est la valeur qui minimise
f
i 1 j 1
ij ( xi x ) 2
k p
L'expression f
i 1 j 1
ij ( xi x )( y j y ) numérateur de a est appelée covariance de X et de Y et notée
COV(X,Y) ou XY
En pratique on peut utiliser également la formule suivante de la covariance par développement de la
k p
première: COV ( X , Y ) fij xi y j xy
i 1 j 1
k p
L'expression f
i 1 j 1
ij ( xi x ) 2 (dénominateur de a) est en fait la variance marginale de X, V(X)
k
puisqu'elle est égale à f (x x )
i 1
i. i
2
31
NB
L'équation de la droite de régression de X en Y écrite sous la forme X=a'Y+b' et déterminée par la
méthode des moindres carrés est définie par:
COV ( X ; Y )
a '
V (Y )
b ' x a ' y
Pour illustration, déterminons les équations des droites de régression, de Y en X et de X en Y,
pour le nuage de points relatif aux séries de notes en math et en statistique. Nous appliquons
ensuite les différentes formules :
61841,5
4,50x7,86
a 1470 = 0,80 ; b=7,86-(0,80x4,50)=4,26 (les moyennes et les variances ayant
8,37
été précédemment calculées).
L’équation de la droite de régression de Y en X sera donc :Y=0,80X+4,26.
Elle permet de connaître la note de statistique lorsqu’on connaît la note en mathématique. Et
puisque a= 0,80, c’est dire que lorsque la note en mathématique augmente d’un point, celle en
statistique augmente de 0,80 points. b= 4,26 implique une note de 4,26 en statistique pour une
note de zéro en mathématique.
61841,5
4,50x7,86
a' 1470 0,38 ; b’=4,50-(0,38x7,86)=1,5
17,58
L’équation de la droite de régression de X en Y sera donc : X=0,38Y+1,51
Elle permet de connaître la note en mathématique lorsqu’on connaît la note en statistique. Et
puisque a’= 0,38, c’est dire que lorsque la note en statistique augmente d’un point, celle en
mathématique augmente de 0,38 points. b’=1,51 implique une note de 1,51 en mathématique
pour une note de zéro en statistique.
Remarque 1
Si aa’ = 1, c’est à dire a 1 les droites de régression seront identique et auront la même pente.
a'
Cette situation correspond précisément au cas où les points du nuages sont alignés.
Si l’allure du nuage de points laisse pressentir une relation globale de type exponentiel, liant
deux variables X et Y, il convient alors d’ajuster ce nuage de points par une courbe dont
l’équation prend la forme : Y AX.
Le raisonnement consiste à dire que si les points xi, yi sont proches de la courbe Y AX, alors
les points ( (xi,ln yi) seront proches de la droite d’équation ln yi ln xi ln A .
Posons y lnY , aln A et bln , nous voyons que cette équation prend la forme de l’équation
d’une droite y = aX+b.
32
Comme A=ea et =eb , nous déterminons finalement à partir de ces formules l’équation de la
courbe exponentielle.
Appliquons un ajustement exponentiel au nuage de points xi, yi de la double série des notes en
mathématiques et en statistique.
Les résultats suivant sont obtenus : a=0,154 ; b=0,61 ; A=1,1664 ; =1,840. On obtient ainsi
la courbe d’équation : Y=1,840(1,1664)X.
Si l’allure du nuage de points laisse pressentir une relation globale de type puissance, liant deux
variables X et Y, il convient alors d’ajuster ce nuage de points par une courbe dont l’équation
prend la forme : Y XA.
Le raisonnement consiste à dire que si les points xi, yi sont proches de la courbe Y XA, alors
les points ( (ln xi,ln yi) seront proches de la droite d’équation ln yi ln Aln xi .
Posons y lnY , xln X et bln , nous voyons que cette équation prend la forme de l’équation
d’une droite y = Ax+b.
Cette droite est déterminer par la méthode des moindres carrés par laquelle nous obtenons les
expressions de A et b :
et b y Ax lnY Aln X
A COV(X, y) A COV(ln X,lnY)
V(X) V(ln X)
Comme =eb , nous déterminons finalement à partir de ces formules l’équation de la courbe
puissance.
Appliquons un ajustement puissance au nuage de points xi, yi de la double série des notes en
mathématiques et en statistique.
Les résultats suivant sont obtenus : A=1,3487 ; b=-0,7468 ; =0,4738. On obtient ainsi la
courbe d’équation : Y=0,4738X1,3487.
Y ak X k ak 1 X k 1 ak 2 X k 2 ... a1 X a0
On pourra déterminer dans ce cas la courbe de régression de Y en X par la méthode des
moindres carrés.
Cherchons donc les valeurs de a0 , a1 ,..., ak qui minimisent
k p
fij ( y j ak xik ak 1 xik 1 ... a1 xi a0 )2
i 1 j 1
En calculant les dérivées partielles de par rapport à a0 , a1 ,..., ak , et en égalisant à zéro, nous
obtenons le système à (k+1) équations à (k+1) inconnues suivant:
33
i 1 i 1
k p k k p
k i. i k 1 i . i 1 i. i
k 1
a f x a f x k
... a f x 2
a 0 x f ij xi y j
i 1 i 1 i 1 i 1 j 1
.............
k p k k k p
k i. i k 1 i . i 1 i. i 0 i. i
2 k 1 k 1
a f x 2k
a f x ... a f x a f x k
f ij xik y j
i 1 i 1 i 1 i 1 i 1 j 1
k
0 a2 f i. xi a1 x a0 y
2
a0 i 1
k k k p
Posons que 0 a2 f i. xi3 a1 f i. x 2 a0 x f ij xi y j
a1 i 1 i 1 i 1 j 1
k k k k p
0 a2 f i. xi a1 f i. x a0 f i. xi fij xi2 y j
4 3 2
a2 i 1 i 1 i 1 i 1 j 1
A cette étape, nous construisons un tableau de calculs pour déterminer les différentes valeurs
du système d'équations.
Tableau de calculs
p p p
nij y j
j 1 ni. xi2 ni. xi3 n i . x i4 j 1
xi nij y j xi2nij y j
j 1 n.j y j
xi ni. ni. xi
35742,187
2,5 915 5654 2287,5 5718,75 14296,875 5 14135 35337,5 997,5
646192,62
6,5 362 3557 2353 15294,5 99414,25 5 23120,5 150283,25 2242,5
9 109 1260,5 981 8829 79461 715149 11344,5 102100,5 2106
11 58 712,5 638 7018 77198 849178 7837,5 86212,5 2739
13 18 264 234 3042 39546 514098 3432 44616 2119
17 8 116 136 2312 39304 668168 1972 33524 1360
3428527,8
1470 11564 6629,5 42214,3 349220,125 1 61841,5 452073,75 11564
34
La dépendance entre deux variables se traduit par des paramètres, sans dimension, qui
mesure l'intensité de la liaison entre ces deux variables.
Deux variables sont totalement indépendantes si les variations de l’une n’entraîne pas la
variation de l’autre. Cette indépendance, ce traduit d’une manière plus formalisée par :
fi j fi / j nij ou f ji f j / i nij . C’est à dire que les fréquences conditionnelles ne dépendant plus
n.j ni.
de j ou de i. La conséquence se traduit par l’égalité entre fréquences conditionnelles et
fréquences marginales : fi j fi. ou f ji f . j .
Graphiquement, les courbes de régressions ne dépendent plus ni de i ni de j respectivement.
La liaison entre deux variables est fonctionnelle réciproque (dépendance totale) si à chaque
valeur de x correspond une valeur unique de y et rigoureusement déterminée, et
réciproquement. Cela se traduit dans le tableau de contingence, par une seule observation par
ligne et par colonne. Et les moyennes conditionnelles seront toutes égales aux valeurs des
variables, x j xi et yi y j . Graphiquement, les courbes de régression conditionnelles sont
confondues. Mais parfois, la liaison fonctionnelle peut n’ai pas être réciproque. C’est à dire
qu’une valeur x fournie une seule valeur de y mais, une valeur de y ne fournie pas une valeur
unique de x.
La liaison relative, se traduit par un tableau de contingence quelconque. Son graphe laisse
apparaître un nuage de points plus ou moins allongé. Et on en déduire deux courbes de
régression.
Il évalue le degré d’association entre deux variables. C’est à dire, juger de la qualité de
l’ajustement des points par la droite de régression.
35
COV ( X , Y )
r avec r1
XY
- Si R est proche de 1: il y a une liaison linéaire marquée, et les deux variables varient dans le
même sens.
- Si R est proche de -1: il y a une liaison linéaire marquée, et les deux variables varient en
sens contraire.
L'existence d'une liaison non linéaire, entre deux variable X et Y, ne peut se définir par le calcul
du coefficient de détermination. Le paramètre approprié est le rapport de corrélation. Il définit,
l'existence d'une liaison linéaire ou non linéaire entre deux variables. Il est fondé sur la propriété
de décomposition de la variance marginale.
Le rapport de corrélation de Y en X
C'est la proportion de la variance marginale de Y représentée par la variance des moyennes
conditionnelles de Y.
k k
fi. ( yi y ) 2 f V (Y )
i. i
Y , X i 1
1 i 1
V (Y ) V (Y )
Le rapport de corrélation de X en Y
C'est la proportion de la variance marginale de X représentée par la variance des moyennes
conditionnelles de X.
p p
j 1
f. j ( x j x ) 2 f V (X )
j 1
.j j
X ,Y 1
V (X ) V (X )
ces deux rapports sont situés entre 0 et 1 en cas de corrélation et, en général, sont différents l'un
de l'autre.
- Si YX =0, donc V(x j )0 , et la régression de y en x n’explique par la liaison. La courbe de
régression de y en x est une droite parallèle à l’axe Ox.
- Si YX =1, donc V(x j) 1, et la régression de y en x explique en totalité la liaison entre y et x.
Il y a une donc une liaison fonctionnelle de y en x. Si XY =1 également, il y a une double liaison
fonctionnelle, ou liaison fonctionnelle réciproque.
36
La régression telle qu'elle vient d'être présentée reste une méthode descriptive; il importe en
particulier de ne pas croire que l'observation d'une corrélation implique nécessairement une
liaison de causalité.
ERREURS FRÉQUENTES
Utiliser, à tort, l'analyse de corrélation pour établir une relation de cause à effet
Interpréter le coefficient de corrélation comme un pourcentage
Mal interpréter le coefficient de détermination, i.e. comme un «% de cause»
Faire des estimations, via la droite de régression, au-delà des valeurs observées
Ne pas respecter le postulat d'indépendance des observations
37
Les indices statistiques, sont des indicateurs qui, synthétisent l’évolution d’une grandeur
économique dans l’espace et dans le temps. On peut distinguer les indices élémentaires, qui
mesure l’évolution d’une seule grandeur, des indices synthétiques, qui mesure l’évolution
simultanée de plusieurs grandeurs.
1.1 DEFINITION
L’indice élémentaire de G est un rapport entre deux de ses valeurs mesurées à des dates
différentes. Une des dates étant choisi comme date de référence. It / 0(G) Gt où t est appelée
G0
date courante, et 0 date de base ou date de référence.
On convient de multiplier le résultat de ce rapport par 100. Ce qui signifie que la grandeur G
est à l’indice It / 0(G) à la date t, base 100 à la date 0.
En fait l’indice simple, lorsqu’il n’est pas multiplié par 100, est le coefficient multiplicateur.
Nous déduisons de l’indice simple, le taux de variation de G noté Tt / 0(G) :
Tt / 0(G) Gt G0 Gt G0 Tt / 0(G) It / 0(G)1
G0 G0 G0
Le taux de variation est donc égal à la différence entre l’indice simple et l’unité. Par
équivalence nous aurons aussi : It / 0(G)1Tt / 0(G) .
Ainsi, un indice simple supérieur à 1 (ou 100) indique une augmentation de la grandeur G entre
les deux dates, et un indice simple inférieur à 1 (ou 100) en indique une diminution.
Circularité ou tranférabilité
Un indice à la date t exprimé par rapport à une année de référence 0, peut être décomposé en
plusieurs indices élémentaires à des dates successives ou à des dates intermédiaires.
It / 0(G) It /1(G)xI1/ 0
Enchaînement
La généralisation de la propriété de circularité, nous donne la relation d’enchaînement suivante :
It / 0(G) It / t 1(G)xIt 1/ t 2(G)x...xI1/ 0(G)
Réversibilité
38
Multiplication
Si G = ExF, alors It / 0(G) It / 0(E)xIt / 0(F)
La variation de G dépend ainsi de la variation de E et de celle de F.
Comme exemple, l’évolution du chiffre d’affaires qui dépend de l’évolution des prix et de celle
de la quantité.
Division
It / 0(E)
Si G E , alors It / 0(G)
F It / 0(F)
Un indice synthétique est une grandeur composite qui résume un ensemble d’indices simples
basés sur des grandeurs hétérogènes. C’est donc une moyenne d’indices simples.
Les plus courant sont l’indice de Laspeyres, de Paasche et de Fisher.
de pondération, est aussi appelé coefficient budgétaire dans certains cas de dépenses de
consommation de ménages.
Une deuxième formule de Laspeyres des prix peut être déduite de la première :
n
P Q t
i i
0
Lt / 0(P) i 01
P Q
i 1
0
i i
0
39
n P Q 0
i
t
i
L’indice de Laspeyres des quantités mesure la variation de la valeur d’un panier de biens à des
prix constant, donc en fait des variation des quantités.
P Q t
i
t
i
Pt iQti
Avec ti n
.C’est la part du produit i en valeur sur la valeur totale à la date courante.
P Q
i 1
t
i
t
i
1
i 1
i
t
1
P Q t
i
t
i
L’indice de Paasche des prix compare la valeur courante d’un panier de biens à la valeur qu’il
aurait eu à la période de base, tandis que l’indice de Paasche des quantités compare cette même
valeur courante à la valeur courante du panier de biens à la période de base.
PtQt Pt iQti
la date t. It / 0(V) pour un seul produit, ou It / 0(V) i n1 pour plusieurs produits.
P0Q0
P Q
i 1
0
i i
0
40
- Lt / 0(P) 1 ; Lt / 0(Q) 1
P0 / t (P) P0 / t (Q)
- Pt / 0(P) 1 ; Pt / 0(Q) 1
L0 / t (P) L0 / t (Q)
Ft / 0(G) 1
F0 / t (G)
41