Académique Documents
Professionnel Documents
Culture Documents
Statistique bivariée
Enseignant:
Pegdwindé Ousséni Fabrice OUEDRAOGO
Licence 1, Géologie
Institut Teng-Tuuma Géoscience de Ouagadougou (I.T.T.G.O)
2019-2020
Une série statistique bivariée est une suite de n couples des valeurs prise
par deux variables x et y sur chaque individu de n unités d’observation.
Chacune des deux variables peut être, soit quantitative, soit qualitative.
yi xi yi xi
60 155 75 180
61 162 76 175
64 157 78 173
67 170 80 175
68 164 85 179
69 162 90 175
70 169 96 180
70 170 96 185
72 178 98 189
73 173 101 187
- Analyse séparée
n n
1X 1X
x̄ = xi , sx2 = (xi − x̄)2
n n
i=1 i=1
n n
1X 1X
ȳ = yi , sy2 = (yi − ȳ )2
n n
i=1 i=1
On définit la covariance
n
1X
sxy = (xi − x̄)(yi − ȳ )
n
i=1
Remarque :
Le coefficient de corrélation mesure la dépendance linéaire entre deux
variables ;
−1 ≤ rxy ≤ 1 ;
2 ≤ 1;
0 ≤ rxy
Si le coefficient de corrélation est positif, les points sont alignés le
long d’une droite croissante ;
Si le coefficient de corrélation est négatif, les points sont alignés le
long d’une droite décroissante ;
Si le coefficient de corrélation est nul ou proche de zéro, il n’y a pas
de dépendance linéaire. On peut cependant avoir une dépendance
non-linéaire avec un coefficient de corrélation nul.
y = ax + b
ei = yi − axi − b
Theorem
Les coefficients a et b qui minimisent le critère des moindres carrés sont
donnés par :
sxy
a= 2 et b = ȳ − ax̄
sx
Figure 4 – Résidus ei
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 16 / 148
Deux variables quantitatives
Résidus et valeurs ajustées
yi∗ = axi + b
Les résidus sont les différences entre les valeurs observées et les valeurs
ajustées de la variable dépendante
ei = yi − yi∗
Les résidus représentent la partie inexpliquée de yi par la droite de
régression.
Remarque :
La moyenne des résidus est nulle :
n
1X
ei = 0
n
i=1
De plus,
n
X
xi ei = 0.
i=1
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 18 / 148
Deux variables quantitatives
Somme des carrés de la variance
Definition
La somme des carrés totale est la quantité
n
X
SCTOT = (yi − ȳ )2
i=1
Definition
On appelle somme des carrés de la régression la quantité
n
X
SCREGR = (yi∗ − ȳ )2
i=1
Definition
La variance de régression est la variance des valeurs ajustées :
n
1X ∗
sy2∗ = (yi − ȳ )2
n
i=1
Definition
On appelle somme des carrés des résidus( ou résiduelle) la quantité
n
X
SCRES = ei2
i=1
Definition
La variance résiduelle est la variance des résidus :
SCRES
se2 =
n
Theorem
SCTOT = SCREGR + SCRES
Theorem
La variance de régression peut également s’écrire
sy2∗ = sy2 r 2 ,
Theorem
La variance résiduelle peut également s’écrire
se2 = sy2 (1 − r 2 ),
Theorem
La variance marginale est la somme de la variance de régression et de la
variance résiduelle :
sy2 = sy2∗ + se2 .
x1 , . . . , xj , . . . , xJ
et
y1 , . . . , yk , . . . , yK
Les données observées peuvent être regroupées sous forme d’un tableau
de contingence
y1 · · · yk ··· yK total
x1 n11 · · · n1k ··· n1K n1·
.. .. .. .. ..
. . . . .
xj nj1 ··· njk ··· njK nj·
.. .. .. .. ..
. . . . .
xJ nJ1 · · · nJk ··· nJK nJ·
total n·1 · · · n·k ··· n·K n
K
X
njk = nj· , pour tout j = 1, . . . , J,
k=1
et
J
X K
X J X
X K
nj· = n·k = njk = n
j=1 k=1 j=1 k=1
y1 · · · yk ··· yK total
x1 f11 · · · f1k ··· f1K f1·
.. .. .. .. ..
. . . . .
xj fj1 ··· fjk ··· fjK fj·
.. .. .. .. ..
. . . . .
xJ fJ1 · · · fJk ··· fJK fJ·
total f·1 · · · f·k ··· f·K 1
Exemple :
∗ nj· n·k
njk =
n
Les effectifs observés njk ont les mêmes marges que les effectifs théoriques
∗.
njk
0≤V ≤1
V ne dépend ni de la taille de l’échantillon ni de la taille du
tableau,
Si V ≡ 0, alors les deux variables sont indépendantes.
Si V = 1, il existe une relation fonctionnelle entre les
variables, ce qui signifie que chaque ligne et chaque colonne
du tableau de contingence ne contiennent qu’un seul effectif
différent de 0 (il faut que le tableau ait le même nombre de
lignes que de colonnes).
Exemple :
Les deux tableaux suivant représentent resp le tableau des effectifs
2 /n∗ .
théoriques, le tableau des écarts à l’indépendance et le rapport ejk jk
Considérons un indice quelconque I (t/0). On dit que cet indice possède les
propriétés de
1
réversibilité si I (t/0) = 1002 × ,
I (0/t)
identité si I (t/t) = 100,
circularité (ou transitivité) si I (t/u) × I (u/v ) = 100 × I (t/v )
Il est très facile de montrer que ces trois propriétés sont satisfaites pour un
indice simple.
Temps 0 1 2
Prix (p0i ) Qté (q0i ) Prix (p1i ) Qté (q1i ) Prix (p2i ) Qté (q2i )
Bien 1 100 14 150 10 200 8
Bien 2 60 10 50 12 40 14
Bien 3 160 4 140 5 140 5
Alors
Pn Pn pti Pn
i=1 ω0i Ii (t/0) i=1 p0i q0i × 100 × p0i q0i pti
L(t/0) = Pn = Pn = 100× Pni=1
i=1 ω0i i=1 p0i q0i i=1 p0i q0i
Pour le calculer on utilise les quantités qti du temps par rapport auquel on
veut calculer l’indice.
Pn Pn Pn
i=1 ωti pti qti i=1 qti pti
P(t/0) = Pn = Pn i=1 p0i = 100 × Pn .
ω /I
i=1 ti i (t/0) p q
i=1 ti ti 100×pti i=1 qti p0i
Des indicateurs particuliers ont été développés pour mesurer les inégalités
des revenus ou les inégalités de patrimoine.
On note
x1 . . . , xi . . . , xn
les revenus de n individus de la population étudiée. On note étalement
Exemple : On utilise une enquête ménage sur le revenu dans une région
des Philippines appelée Ilocos. Cette enquête de 1997 sur le revenu des
ménages a été produite par l’Office philippin de Statistique. La courbe de
Lorenz est présentée en figure 5
L’indice de Gini G est égal à deux fois la surface comprise entre la courbe
de Lorenz et la diagonale.
1 Pn Pn
n(n−1) i=1 j=1 |xi − xj |
G=
2x̄
En utilisant la statistique d’ordre x(1) , . . . , x(i) , . . . , x(n) , l’indice de Gini
peut encore s’écrire
Pn
2 i=1 ix(i)
1
G= − (n + 1)
n−1 nx̄
L’indice de Gini est compris entre 0 et 1. S’il est proche de 0, tous les
revenus sont égaux. S’il est proche de 1, les revenus sont très inégaux.
On définit d’abord :
- S10 le revenu moyen des individus ayant un revenu inférieur au
premier décile x1/10 ,
- S20 le revenu moyen des individus ayant un revenu inférieur au
premier quintile ou deuxième décile x1/5 ,
- S80 le revenu moyen des individus ayant un revenu supérieur au
quatrième quintile ou huitième décile x4/5 ,
- S90 le revenu moyen des individus ayant un revenu supérieur au
neuvième décile x9/10 ,
Par exemple si QSR = 5, cela signifie que le revenu moyen de 20% des plus
riches est 5 fois plus grand que le revenu moyen de 20% des plus pauvres.
puisque log(1 + et ) ≈ et .
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 78 / 148
Séries chronologiques - Modèles de composition d’une série
chronologique
Pour choisir le modèle de composition, on peut relier par une courbe (ou
plutôt par une ligne brisée) les maxima distants d’une période p et faire de
même avec les maxima.
Si ces deux courbes sont à peu près parallèles, alors le facteur
saisonnier a des amplitudes à peu près constantes, c’est-à-dire qu’il
affecte la tendance indépendamment de son niveau, et le schéma
additif est adapté. C’est le cas de la chronique des Voyageurs
RATP de 1995 à 2004 (voire fig. 8).
Les logiciels spécialisés (SPSS,. . .), mais aussi les tableurs (Excel, . . .),
proposent des fonctions analytiques pour ajuster la tendance, l’ajustement
se faisant par la méthode de moindres carrés (méthode qui minimise les
écarts quadratiques entre modèle et observations). On peut citer
quelques-uns de ces modèles :
modèle linéaire : y (t) = a + bt
modèle quadratique : y (t) = a + bt + ct 2
modèle exponentiel : y (t) = exp(a + bt), ce type de modèle convient
à des quantités évoluant à taux constant puisque
y (t + 1) = exp(b) · y (t) = c · y (t)
modèle logarithmique : y (t) = a + b ln(t)
modèle S (courbe sigmoı̈de ) : y (t) = exp(a + b/t), ce type
d’ajustement convient à la description du cycle de vie de certains
produits.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 87 / 148
Séries chronologiques - Analyse de la tendance
Ajustement de la tendance par une fonction analytique
Exemple :
La chronique {xt , t = 1, . . . , 12} du tableau 11 est périodique de période
p = 4 ; les suites des moyennes mobiles de longueur 2,3,5 sont aussi de
période 4, et la suite des moyennes mobiles de période 4 est une suite de
termes constants égaux à −1/4, moyenne des termes sur une période.
Modèle : xt = ft + st + et
Si la somme des coefficients saisonniers n’est pas nulle sur une période, on
corrige les coefficients saisonniers obtenus de façon à avoir une somme
nulle :
p
1X
st → st∗ = st − s̄ avec s̄ = st
p
t=1
et = xt − yt − st∗ = xt∗ − yt
Si le modèle est adapté, les valeurs absolues des écarts ne doivent pas être
élevées, et leurs somme voisine de zéro.
Si la somme des (1 + st ) n’est pas égale à p sur une période, on fait une
correction proportionnelle :
p
1 + st 1X
1 + st → 1 + st∗ = avec s̄ = st
1 + s̄ p
t=1
Si le modèle est adapté, les valeurs absolues des écarts ne doivent pas être
élevées, et leur somme voisine de zéro.
Disposant des coefficients saisonniers, on peut ajuster la série CVS par une
fonction d’ajustement ou en utilisant une méthode de lissage exponentiel
sur la série CVS. Mais, il ne faut pas oublier que ce mode de prévision ne
peut être envisagé que sur du court terme puisqu’il suppose une évolution
future non perturbée par des changements sur l’environnement.
Pour obtenir la série CVS et la série des résidus, les calculs ont été réalisés
à l’aide du tableur Excel selon les étapes indiquées (??). Dans cet exemple,
la synthèse des coefficients saisonniers a été réalisée par la moyenne.
Comme pour le modèle additif, les calculs ont été réalisés à l’aide du
tableur Excel (voire tableau 16). La synthèse des coefficients saisonniers a
aussi été réalisée par la moyenne. Les différences entre certains résultats
donnés, dans le tableau 16 avec ceux obtenus par calcul direct, sont à
expliquer par le fait que Excel utilise pour les calculs un grand nombre de
décimales.
xt = a + et , t = 1, . . . , T
est la suivante :
PT −1
i=0 (1 − α)i xT −i
â = α ≈ x̂T
1 − (1 − α)T
Propriétés
1 La chronique lissée {x̂t , t = 1, . . . , T } a une variance inférieure à
celle de la chronique {xt , t = 1, . . . , T }. Comme tout filtre, le lissage
exponentiel simple réalise un écrêtage des irrégularités de la série.
2 Le lissage exponentiel simple est un filtre linéaire.
3 De même que la moyenne mobile, le lissage exponentiel simple
d’adapte avec retard à un changement de niveau de la chronique.
C’est de la valeur de la constante de lissage α que dépendent la
stabilité et le taux de réponse de la série lissée, ces deux
caractéristiques ayant un aspect complémentaire.
a)Initialisation
choisir α minimisant :
La minimisation de ces critères peut être faite sur toute la série des erreurs
de prévision ou sur un pourcentage donné de ces derniers termes (dans ce
cas, on prend souvent le dernier tiers de la série, tableau fig.16). Certains
logiciels proposent actuellement les méthodes de lissage avec une
constante α déterminée par la minimisation d’un critère. Le logiciel SPSS
calcule la constante optimale en minimisant l’Erreur Quadratique Moyenne
de prévision.
P.O.Fabrice OUEDRAOGO Statistique descriptive 2 2019-2020 139 / 148
Figure 19 – Chronique du tableau fig.16 et série obtenue par LES avec α = 0.4
Le critère EQM est minimum pour α = 0.4, le critère EAM pour α = 0.5
et la valeur absolue de l’erreur moyenne est minimum pour α = 0.5.
xt = a1 (T ) + a2 (T )(t − T )
S1 (T ) = α · xT + (1 − α)i · S1 T − 1
S2 (T ) = α · S1 (T ) + (1 − α)i · S2 T − 1