Académique Documents
Professionnel Documents
Culture Documents
L3 Maths-Eco
Université de Nantes
Frédéric Lavancier
Un jeu de données est composé de l’observation des variables sur les individus
issus de la population. Il se présente généralement sous forme d’un tableau
dont les lignes sont les individus et les colonnes les variables.
Site Al Fe Mg Ca Na
1 Llanedyrn 14.4 7.00 4.30 0.15 0.51
2 Llanedyrn 13.8 7.08 3.43 0.12 0.17
3 Llanedyrn 14.6 7.09 3.88 0.13 0.20
4 Llanedyrn 10.9 6.26 3.47 0.17 0.22
5 Caldicot 11.8 5.44 3.94 0.30 0.04
6 Caldicot 11.6 5.39 3.77 0.29 0.06
7 IsleThorns 18.3 1.28 0.67 0.03 0.03
8 IsleThorns 15.8 2.39 0.63 0.01 0.04
9 IsleThorns 18 1.88 0.68 0.01 0.04
10 IsleThorns 20.8 1.51 0.72 0.07 0.10
11 AshleyRails 17.7 1.12 0.56 0.06 0.06
12 AshleyRails 18.3 1.14 0.67 0.06 0.05
13 AshleyRails 16.7 0.92 0.53 0.01 0.05
Quelques exemples :
Le ”reporting” : résumer de façon efficace un jeu de données afin de rendre
l’information lisible facilement et rapidement.
Outils : résumés numériques, représentations graphiques.
L’inférence : les observations sont souvent recueillies auprès d’un
échantillon et non de toute la population d’intérêt. L’inférence statistique
vise à induire certaines caractéristiques de la population à partir de leur
observation sur un échantillon.
Outils : estimation, tests statistiques.
L’étude du lien entre des variables : quantifier le lien, voire le modéliser.
Outils : analyse bivariée, analyse multivariée, modèles de régression,...
La classification des individus : chercher des regroupements entre individus
selon leurs profils.
Outils : analyse multivariée, analyse discriminante,...
La prévision : prédire des valeurs futures (pour une série temporelle) ou la
valeur manquante d’une variable pour un individu.
Outils : modélisation temporelle, modèles de régression,...
On utilisera R...
Modalités de A A1 A2 ··· Ak
Effectifs observés n1 n2 ··· nk
Fréquences observées f1 f2 ··· fk
Ordre des modalités. Si la variable est ordinale, les modalités sont présentées
dans leur ordre naturel. Sinon, les modalités sont classées par ordre décroissant
de leur fréquence d’apparition.
Remarque : la médiane est plus robuste aux valeurs extrêmes que la moyenne
F. Lavancier (Univ. Nantes) Statistiques descriptives 19
Les quantiles.
Soit p ∈ [0, 1], le quantile d’ordre p, noté Q(p), sépare l’échantillon ordonné
en deux parties de taille respective np et n(1 − p) approximativement.
Plus précisément, Q(p) vérifie
n n
1X 1X
1{xi ≤Q(p)} ≥ p et 1{xi ≥Q(p)} ≥ 1 − p (1)
n i=1 n i=1
Calcul en pratique :
1. Q(p) = x(dnpe) : choix qui respecte la définition mais n’est pas cohérent
avec la convention adoptée pour la médiane (lorsque p = 0.5).
2. Q(p) = x(dnpe) si np n’est pas un entier, et Q(p) = 21 (x(np) + x(np+1) )
sinon. Ce choix respecte la définition et est cohérent avec la convention
adoptée pour la médiane.
Choix 1 Choix 2
x(4)
x(4)
●
x(3)
x(3)
●
●
x(1) x(2)
x(1) x(2)
●
●
●
0 1 n 2 n 3 n 1 0 1 n 2 n 3 n 1
Skewness positif (x̄n > mediane) Skewness négatif (x̄n < mediane)
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8
0.04
0.03
0.03
0.02
0.02
0.01
0.01
0.00
0.00
0 20 40 60 80 100 0 20 40 60 80 100
●
●
●
80
●
●
●
●
●
●
60
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
40
20
0
On a ainsi 0 ≤ η ≤ 1
F. Lavancier (Univ. Nantes) Statistiques descriptives 32
Variable quantitative/ Variable qualitative : résumés numériques
Remarque : On peut remplacer les effectifs nij par les fréquences nij /n en
choisissant l’option ”Pourcentages du total” dans l’onglet ”Statistiques”.
F. Lavancier (Univ. Nantes) Statistiques descriptives 36
Variable qualitative/ Variable qualitative : distributions conditionnelles
• La distribution conditionnelle du second facteur sachant la modalité i du
premier facteur est donnée par les fréquences:
nij
, pour j = 1, . . . , J.
ni.
PJ nij
Pour chaque i, on a évidemment : j=1 ni. = 1.
Les profils lignes correspondent à l’ensemble de ces distributions
conditionnelles pour i = 1, . . . , I .
L’intéret des profils lignes est de comparer la distribution du second facteur
selon les modalités du premier facteur. S’il y a indépendance entre les deux
facteurs, les profils lignes doivent être similaires.
Dans R Commander, on obtient les profils lignes en choisissant l’option
”Pourcentages des lignes” dans l’onglet ”Statistiques” du menu
Statistiques\Tables de contingence\Tri croisé...
• De même on peut s’intéresser aux profils colonnes qui sont les distributions
conditionnelles du premier facteur sachant le second. Elles sont données par les
fréquences
nij
, pour i = 1, . . . , I .
n.j
On constate peu de différences entre les profils lignes (de même pour les profils
colonnes), il ne semble donc pas y avoir de lien entre les deux facteurs.
F. Lavancier (Univ. Nantes) Statistiques descriptives 38
Variable qualitative/ Variable qualitative : distance du khi-deux
Pour mesurer le lien entre les deux facteurs, on calcule la distance du khi-deux.
I X
J ni. n.j 2
X (nij − )
χ2 = ni. n.j
n
i=1 j=1 n
Cette distance mesure la différence entre les effectifs observés nij et les effectifs
théoriques s’il y avait indépendance : dans ce cas la fréquence observée dans i
n n
et j, nij , vaudrait le produit des fréquences marginales nni. n.j .
Propriétés (voir preuve en cours):
0 ≤ χ2 ≤ n × [min(I , J) − 1]
On a 0 ≤ V ≤ 1.
Pour comprendre plus profondément le lien éventuel entre les deux facteurs :
L’option ”Imprimer les fréquences attendues” donne le tableau des effectifs
n n
(et non fréquences...) théoriques i.n .j s’il y avait eu indépendance.
L’option ”Composants de la statistique du chi-deux” donne le tableau des
résidus, c’est à dire chaque terme composant la somme du χ2 .
Un résidu élevé témoigne d’une sur-représentation (ou sous-représentation) de
la modalité croisée par rapport à une situation d’indépendance.
20
4 1
3 2
2 3
1 4
60
15
40
10
20
5
0
P U A T V P U A T V
barplot(t(tablig)) barplot(tabcol)
100
100
80
80
60
60
40
40
20
20
0
1 2 3 4 P U A T V
Al ● ● ● ●
18
●● ●●
●●
● ●●
●
●
●
●
●●●
●
● ● ● ● ●
● ● ● ●
● ●● ● ● ● ●● ● ●
● ●
14
● ● ● ● ● ●●
20
● ● ●● ● ● ●●
●● ●●● ●● ● ●● ●
●● ●● ●● ●
● ●● ●● ●● ●●
● ● ● ● ● ● ● ●
10
● ● ● ●
● ● ●
●
●
● ● ●
●●
●●
●
●● ●
● ●
●●●
●
18
● ●
●● ●●
● ● ● ●
● ●
● ●
● ● ●
● ●● ●
● ●● ●●
● ● ● ●
●● ● ●● ●
●● ●●●
● ● ● ● ● ●●
● ● ● ● ●● ● ●
●
● ●
●●
●
●
●●● ●● ● ● ● ●● ● ●●● ●
1 2 3 4 5 6 7
● ● ●
● ● ● ●●
●● ● ●
16
●
●● ●
●
●●●
●●
●
●
●
●●
●
Fe ●●
●● ●
●
●
●
●●
● ●
●
●
●
●
Al
● ● ● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ●
● ● ●
●
● ●
● ●
● ● ●
●
●
● ●● ●
●●
●● ●
● ●
14
● ● ● ●
● ● ● ● ● ●
7
●
●
●
● ●●
●
●
●
●
● ●
●●
●●
●
Mg ●
●
●●
●
5
● ● ● ● ● ●● ●
● ● ● ● ● ● ●● ●
●● ● ● ● ●● ● ● ● ●● ●●
●
● ●
●
● ● ●
●
● ● ● ●
3
12
●
● ●
1
● ●● ●
● ● ● ●● ● ● ●● ●
●● ● ●● ●●
●●●●
●● ●
●●
●●●
●
● ● ● ● ●
●
0.5
● ● ● ●
Na
●
10
0.3
● ● ● ●
● ● ● ● ●
● ● ● ●● ●●● ●● ●
●● ● ● ● ● ●● ● ● ●
● ● ● ● ● ● ● ●
● ● ● ●
● ● ● ●
0.1
● ● ● ●
0.00 0.05 0.10 0.15 0.20 0.25 0.30 ●
● ● ● ● ●●
●
●● ●
●
●
●●●
●
●
●
●
● ●●
● ● ● ●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
Aucun lien (r ≈ 0) Lien linéaire (r ≈ 0.4) Lien linéaire (r ≈ −0.4) Lien non-linéaire(r ≈ 0)
Aucun lien (r ≈ 0) Lien linéaire (r ≈ 0.9) Lien linéaire (r ≈ −0.8) Lien non-linéaire (r ≈ 0.8)
6
● ●
● ● ● ●
5
5
● ●
● ●
● ●
● ●
● ●
● ●
● ●
4
4
●
● ● ● ●
● ●
● ●
● ●
Y
Y
● ● ● ● ● ●
● ●
3
3
● ●
● ● ● ●
●● ●●
● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
● ●
● ● ● ●
● ●
● ●
● ●
2
2
● ●
● ●
● ● ● ●
● ● ● ● ● ●
● ●
1
1
● ●
● ●
−1 0 1 −1 0 1
X X
On trouve, si var (X ) 6= 0 :
Pn
cov (X , Y ) i=1 (xi − x̄)(yi − ȳ )
â = = Pn et b̂ = ȳ − âx̄
i=1 (xi − x̄)
var (X ) 2
que l’on note généralement SCT = SCE + SCR où SCT : ”Somme des
Carrés Totaux”, SCE : ”SC Expliqués” et SCR : ”SC Résiduels”.
On définit le coefficient de détermination : R 2 = SCE
SCT
. On a
0≤ R2≤ 1 d’après la formule de décomposition de la variance
R 2 = r 2 où r est le coefficient de corrélation linéaire entre Y et X (cf cours)
L’ajustementPpar la droite est d’autant meilleur que R 2 est proche de 1 (car
dans ce cas ni=1 ei2 ≈ 0)
Exemples :
PIB des Etats-Unis.
Une observation par an.
Intervalle d’observation : 1929 - 2012.
15000
10000
GDP
5000
Time
Trafic aérien.
Une donnée par mois de 1949 à 1961.
100
Time
100
50
Jours
Dans une série temporelle, il est courant d’observer une dépendance entre les
différentes valeurs de la série, notamment entre les valeurs voisines.
Cela peut se vérifier en calculant la corrélation ou en représentant le nuage de
points entre les valeurs de la série et ses valeurs au pas de temps précédent.
Exemple :
Pour la série des max d’ozone, on construit la série
des valeurs de la veille.
Le nuage de points entre la série initiale et la
série des valeurs de la veille est donné ci-contre.
La corrélation vaut r = 0.68.
La série est donc corrélée positivement à son
passé immédiat.
σ(h)
ρ(h) = .
σ(0)
Remarque :
ρ(h) calcule la corrélation entre les valeurs de la série et les valeurs ”h plus
tard”.
F. Lavancier (Univ. Nantes) Statistiques descriptives 60
Les ACF : exemple
Sous R : la fonction acf(x) calcule et représente les ACF de la série x.
Series GDP
1.0
15000
0.8
0.6
10000
GDP
ACF
0.4
0.2
5000
0.0
-0.2
Time Lag
Series Tempdub
1.0
70
60
0.5
50
Températures
ACF
0.0
40
30
-0.5
20
10
Time Lag
Series CO2
1.0
380
0.8
375
0.6
370
ACF
co2
0.4
365
0.2
360
0.0
355
350
-0.2
Time Lag
100
50
Jours
200
375
370
150
co2
x
365
360
100
355
350
1994 1996 1998 2000 2002 2004 1960 1970 1980 1990
Time Time
de façon multiplicative : xt = mt × st × rt
De façon non-paramétrique.
On effectue des moyennes mobiles de la série, ce qui équivaut à la lisser :
le lissage résultant estime la tendance, mais aucune formule exprimant
cette tendance n’est fournie.
15000
temps=as.numeric(time(GDP))
10000
temps2=temps^2 GDP
plot(GDP)
lines(temps,reg$fitted.values)
1940 1960 1980 2000
Time
Pk2
où les poids somment à 1 : i=−k1 ai = 1.
Chaque valeur xt est donc remplacée par la moyenne pondérée des valeurs
autour de xt : k1 valeurs avant, k2 valeurs après, soit en tout k1 + k2 + 1
valeurs moyennées.
Elle est utilisée en finance afin de comparer la valeur présente d’une action xn
(à l’instant t = n) à sa tendance passée.
- La moyenne mobile centrée d’ordre p, pour laquelle k1 = k2 et
1
si p = 2k + 1, ai = p
pour tout i = −k, . . . , k
1
M2k+1 (t) = (xt−k + · · · + xt+k )
2k + 1
1 1
si p = 2k, a−k = ak = 2p
et ai = p
pour i = −(k − 1), . . . , (k − 1).
1 xt−k xt+k
M2k (t) = + xt−k+1 + · · · + xt+k−1 +
2k 2 2
On obtient :
Exemples de calcul :
M3 (2) = 13 (x(1) + x(2) + x(3)) = 13 (4 + 6 + 5) = 5
M4 (3) = 14 ( x(1)
2
+ x(2) + x(3) + x(4) + x(5)
2
) = 14 ( 42 + 6 + 5 + 3 + 72 ) = 4.875
200
p=5 p = 12
200
150
150
beer
beer
100
100
1960 1970 1980 1990 1960 1970 1980 1990
Time Time
p = 36 p = 120
200
200
150
150
beer
beer
100
100
Time Time
160
140
140
M36(Beer)
M37(Beer)
120
120
100
100
Time Time
=⇒ Le lissage par M37 , bien que d’un ordre supérieur à M36 , est parasité par
l’effet saisonnier initial.
Plus précisément :
si p = 2k + 1
filter(x, rep(1/(2*k+1), 2*k+1))
La commande rep(a,n) crée un vecteur contenant n fois la valeur a.
si p = 2k
filter(x, c(1/(4*k), rep(1/(2*k), 2*k-1), 1/(4*k)))
La commande c() permet de concaténer dans un même vecteur un
ensemble de valeurs, ici les 2k + 1 coefficients : 4k1 , (2k − 1) fois 2k1 , et 1
4k
.
La série complète ŝ1 , . . . , ŝn s’obtient par périodicité en répétant ŝ1 , . . . , ŝT .
Exemple : pour une série mensuelle de période T = 12, ŝ1 correspond à la
moyenne des mois de janvier, ŝ2 à la moyenne de mois de février, etc.
30
40
20
20
10
beertilde
beertilde
0
0
-20
-10
-40
Time Mois
1.2
1.2
1.1
AirPassengersTilde
AirPassengersTilde
1.1
1.0
1.0
0.9
0.9
0.8
0.8
Time Mois
200
Pour obtenir le graphe ci-contre:
observed
150
100
plot(decompose(x))
0 10 20 30
Pour récupérer la saisonnalité :
seasonal
decompose(x)$seasonal
Pour récupérer le reste :
-20
decompose(x)$random
20
random
decompose(x)$figure
-40
Time
Remarque : le même type de décomposition est possible dans le cas multiplicatif avec
plot(decompose(x,"multiplicative"))
F. Lavancier (Univ. Nantes) Statistiques descriptives 83
Série ajustée et série CVS
200
La série ajustée m̂t + ŝt est un
150
beer
lissage de xt qui respecte la
tendance et la saisonnalité.
100
1960 1970 1980 1990
Time
200
variations saisonnières)
180
correspond à xt − ŝt = m̂t + r̂t . 160
140
Time
Une prévision de la série est possible grâce à la série ajustée m̂t + ŝt ,
pourvu que m̂t ait une forme paramétrique.
Exemple : si m̂t = ât + b̂, alors la prévision de la série en t = n + 1 est
x̂n+1 = m̂n+1 + ŝn+1 = â(n + 1) + b̂ + ŝn+1−T
où la dernière égalité est obtenue par périodicité de ŝt .
Application : série de CO2 à Hawaı̈.
En noir : la série initiale, observée de 1994 à 2004.
En rouge : la série ajustée ât + b̂ + ŝt , prolongée en 2005
385
380
375
370
co2pred
365
360
355
350
tempspred
Exemple : r̂t pour la série précédente (série noire - série rouge) et ses ACF
Series res
1.0
0.8
1
0.6
0
0.4
ACF
res
0.2
-1
0.0
-0.2
-2
1994 1996 1998 2000 2002 2004 0.0 0.5 1.0 1.5 2.0 2.5 3.0
Time Lag
Les ACF montre que r̂t est corrélé avec son passé.
−→ On souhaite tirer parti de cette dépendance pour prédire r̂t et
améliorer la prévision en 2005.
−→ Cela se fait en modélisant la dépendance de r̂t , par exemple à l’aide
de modèles ARMA : voir le cours d’économétrie.