Vous êtes sur la page 1sur 7

Analyse de températures dans différentes stations suisses

L. Duvivier − A. Leroux

11 Janvier 2010

Résumé
Ce projet décrit une analyse statistique de données concernant les températures en Suisse.
A partir de données journalières récoltées dans 17 stations, nous avons pu pratiquer une analyse
de données extrêmes. En raison de la saisonnalité naturellement associé à ce type de données,
nous avons dû adopter différentes stratégies. Dans un premier temps, nous avons déterminer
par maximum de vraisemblance la distribution GEV ayant un paramètre de localisation variable
qui correspondait le mieux aux données. Dans un second temps, nous avons réalisé le travail
d’adéquation pour une distribution GPD en ne tenant compte que d’une seule saison. Nous avons
ensuite comparer ces deux approches. La troisième partie a consisté en différentes analyses bivar-
iées : d’abord avec un critère géographique puis en utilisant un décalage de la série temporelle.
Finalement, nous avons terminé par une section permettant une discussion des résultats ainsi
qu’une conclusion sur les analyses pratiquées.
1 Introduction 1

1 Introduction
La Suisse jouit d’un climat agréable et varié. Chaque région à son climat propre, du chaud et
sec Valaisan aux températures presque polaires des sommets alpins. En outre, les saisons sont
très marquées, avec des été chauds (sans être torrides) et des hivers où l’on peut skier grâce à
la neige abondante. Les températures journalières dont nous disposons ont été récoltées dans 17
stations réparties à travers le pays (Neuchatel, Zürich, Lugano,...). La première mesure date du
1er janvier 1961 et la dernière du 1er juin 2006, soit une période de plus de 45 ans.
L’intérêt de ce travail réside également dans le fait qu’aujourd’hui et plus que jamais, la question
du réchauffement climatique (en particulier les extrêmes climatiques) est centrale. La hausse des
tendances de la température depuis le 19e siècle et les récents événements extrêmes observés (par
exemple la vague de chaleur qui a touché l’Europe en 2003) nécessitent une analyse minutieuse
afin d’évaluer dans quelle mesure les événements extrêmes ont déjà changé et, en accord avec la
philosophie de la statistique de l’extrême, le but est de savoir si nous devons nous attendre à
ce que de tels événements deviennent plus graves ou plus fréquentes à l’avenir. Les analyses de
ce domaine demande une estimation de la probabilité d’événements qui sont plus extrêmes que
n’importe lequel qui a déjà été observé.

2 Analyse initiale des données


Les données dont nous disposons sont liées au phénomène naturelle des saisons. Cette cara-
ctéristique se traduit par une non stationnarité évidente : le niveau températures des mois d’été
sera toujours plus élevé que celui des mois d’hiver. Cette particularité des données se remarque
facilement à l’aide d’un simple graphique des données journalières.
Températures journalières station de Bâle




●● ● ●●●
● ●

● ●●● ● ● ●● ●

● ●● ●●● ●
●●
30

● ●● ●
● ●●
●●●●
●● ●●●


●● ●


●● ●
● ●●●
● ●● ● ● ●● ●

● ● ● ● ●
● ●●●●
●●● ●●●●
● ● ● ● ●●●
●● ●
●●● ●●●● ● ● ● ● ●●● ●● ●

●●● ● ●●●
●●
● ● ● ●●
●●
● ●●● ●●● ●●●● ●● ●



●●● ●

●●
● ●●●●
● ●●●
● ●
●●●
●● ●●●

● ●● ●●●
● ● ●●
●●●●●
● ● ●
●●●
● ●

● ●

● ●
● ●● ●

● ●● ●●
●●●



●● ●
●●


●●●●● ●●
●●

●●

●●● ●●
●●

●●●

●●
● ●● ●
●●●●●
●● ●
●●●
●●●●

●●



●● ●●
●●●● ●●
●●
●●●
● ●● ●● ●
●●●●● ● ●●
● ● ●●●●●
●●
●● ●● ●
●●●● ● ●● ●● ●●● ●● ●●
●●●● ●● ● ●● ● ●● ●●
20

●● ● ●
● ●
● ●● ●●●●
●● ●

● ●
●●
●● ●●
●●
●●● ● ● ● ●●●
●●●


●●
●●


●●
●●
●●●● ● ●● ●●
●●●

●●●
● ● ● ●● ● ●●


●●

●●●● ●


●●
●●●●●●
●●
● ●
●●●●
●●
●●
●●
●● ●
● ●
●● ●● ● ● ● ● ●



●●

●●●
●●●● ●●● ●
●●●●●
●●●● ●


●●● ● ●

●● ●
● ●● ●●●
●●●
●●●
●● ●●●●

● ● ● ●
● ●● ● ● ●●
●● ●
● ●● ●●
●●●● ●●●●●●● ● ●●
●●●
●●●●●
● ● ●● ●●●● ●●●●●



●●
●● ●●
● ●●●



●● ● ●● ●
●● ●●
●●● ●
●● ●
●●●●●

●●
● ● ● ●●
● ●●
● ●




●●


●●

● ●●●


● ● ●●

● ●
●● ● ●● ●
●●● ● ● ●●
● ● ● ●

●● ●
●● ●
● ● ●●● ●
● ● ● ● ●
●● ●● ●●●
● ●● ● ●● ●
●● ●
10

●● ● ● ●
●● ●●●● ●●
● ●
●●●●● ●●●● ● ●
● ● ●
●●
●●● ●●
●● ●
● ●
●●
●●
● ●● ●●●

●●
● ● ●● ●● ●● ●

●●

● ● ●● ●●●●●● ● ●
●●●●

●●● ●
●●
● ●● ● ●●●
●●

●●● ● ●
● ● ● ●● ●● ● ●
● ●●●●


● ●●
●● ● ●● ● ● ● ● ● ● ●●
●●●


●●● ●
●●

● ●● ●●●
●●●

●● ●

●●
●●
● ●


● ●


● ●● ● ●
● ●

●●

● ●
●●● ● ● ●●●● ● ● ● ●
● ●

● ●●●● ● ●

●● ●●● ●
●●

●● ●
● ●
●● ● ●
● ●●
●●





● ●●
●●● ●

●● ●

●●●●

● ●●●


● ●
●●


●●






●●●● ●
● ●
●● ● ●●●

● ●
0

● ● ● ● ●●●
● ●●
● ●
● ●
● ●

●●●●
●● ●

●●● ● ●●●

●● ●●●
●●● ●

●●● ●●
●●
● ● ●
● ● ● ●

●● ●
● ●
●●

−10


0 200 400 600 800 1000 1200

Index

Figure 1: Traduction visible de l’effet de saisonnalité des données de la température dans la


station de Bâle. Le graphique est réalisé sur les trois premières années.
3 Ajustement à diverses distributions. 2

A cause de cet effet, l’analyse ne peut pas être réalisée immédiatement sur les données "brutes".
Il faut donc choisir une stratégie pour y remédier.

3 Ajustement à diverses distributions.


Description

3.1 Distribution GEV avec paramètre de localisation variable.


Une première possibilité est d’adapter le paramètre de localisation en le laissant varier au cours
du temps comme suggéré par [1] page 137, section 7.7 Wooster Temperature Series.
Ainsi au lieu de considérer simplement un paramètre de localisation µ fixe, nous allons opter
pour un paramètre dépendant du temps µ(t). Le modèle tient donc compte de la périodicité du
cycle de 12 mois :
µ(t) = β0 + β1 × cos(2πt/12 − β2 )

Une spécification linéaire en les paramètres à estimer produit d’encore meilleurs résultats et est
simple à obtenir par développement du cosinus par la formule d’addition. Il serait également
envisageable d’autoriser un (des) paramètre(s) différent(s) pour chacune des quatre saisons. Cela
ne donne cependant pas des résultats aussi satisfaisants que ceux obtenus.
Pour effectuer l’adéquation à la distribution GEV, nous avons sélectionné le maximum de chacun
des mois dont nous disposions. Ensuite, il nous a fallut implémenter via le logiciel R la spécifica-
tion de la fonction de log-vraisemblance disponible notamment en page 37 du cours du Professeur
Davison [2] [Modelling with the GEV, Autumn 2009 - slide 70] :
n
"      −1/ξ #
X yi − µ(t) yi − µ(t)
`(µ(t), τ, ξ) = −log τ − (1 + 1/ξ) log 1 + ξ − 1+ξ
τ + τ +
i=1
 
yi − µ(t)
en tenant compte du fait que cette fonction renvoie −∞ si nous avons 1 + ξ < 0.
τ

Enfin, il suffit de déterminer alors les paramètres qui maximisent cette fonction `, afin de pouvoir
caractériser la distribution GEV. Le tableau ci-dessous reprend un résumé de la distribution ainsi
obtenue.

Interprétation

Table 1: default

Modèle résultat

3.2 Distribution GPD sur une seule saison.


La seconde ligne de conduite est d’étudier les températures des différents étés que l’on a pu
observer. En effet, il est raisonnable d’espérer une plus grande stabilité dans ces données. On a
3.2 Distribution GPD sur une seule saison. 3

40
Maxima mensuels station de Bâle

● ●
● ● ● ●

● ●
● ● ●●
●● ●
● ● ● ● ● ● ● ●

● ● ● ● ●
● ● ● ● ● ● ● ●● ●

●●
● ●● ● ● ●
● ● ● ●
● ● ● ● ● ●
● ● ● ● ● ●●
● ● ●● ● ● ● ●
● ●● ● ● ● ● ● ●
● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●
30

●●
●● ● ● ● ● ●
● ●
●● ●
● ● ● ● ●● ● ● ●
●● ●
● ●
● ●● ●● ● ● ● ● ● ● ●● ● ●
● ●●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ●●
● ● ●● ● ●● ● ● ● ● ● ● ●● ●
● ● ● ●● ● ●●
●● ● ● ● ●
● ● ●● ● ●●● ●
● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ●
● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ●● ● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●

● ● ● ● ● ● ● ● ●● ●
● ● ● ● ● ● ● ● ● ●● ● ● ●
● ● ●● ● ● ● ● ●● ●
20

● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●●● ●
● ● ●● ● ●● ●● ●
● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ●
● ● ●
● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●●
● ● ●● ●● ● ● ● ●
● ● ●● ●
● ●
●● ●
● ●● ●
● ● ●●● ● ●● ●● ● ● ● ● ● ●
● ●● ●
●● ● ● ● ● ●

● ●● ●
● ●● ● ●
● ● ● ● ● ● ●● ● ●
● ● ● ● ●● ●● ●●
● ● ●
● ● ● ● ● ● ● ● ●
● ● ●● ● ● ●● ● ● ● ● ●●
10

● ● ● ● ● ● ●● ● ● ●
● ● ●● ●
● ● ● ●
● ●
● ● ●
5

0 100 200 300 400 500

Index

Figure 2: Comportement périodique des données. La ligne rouge représente le paramètre de


localisation variant comme un cosinus au cours du temps.

donc extrait les données correspondantes à ces mois d’étés et en les représentant sur un graphique
nous avons pu nous rendre compte que la situation est bien meilleure car plus stable.
La première étape est de choisir un seuil convenable pour notre distribution. En terme de
Mean Residual Life Plot, un graphique donnant un diagnostique pour la distribution généralisée
de Pareto (GPD), il semble approprié de choisir un seuil supérieur à 30 (et inférieur à 36). Etant
donné que, à priori, la linéarité est présente à 32.5, nous choissisons cette valeur comme seuil.
Le tcplot confirme cette décision et la valeur est satisfaisante étant donné les trois graphiques
fournissant un diagnostique :

Probability Plot Quantile Plot


1.0

40
0.8

38
0.6

Empirical
Model

36
0.4
0.2

34
0.0

0.0 0.2 0.4 0.6 0.8 1.0 33 34 35 36 37 38

Empirical Model

Density Plot Return Level Plot


0.5

40
0.4

38
Return Level
0.3
Density

36
0.2
0.1

34
0.0

33 34 35 36 37 38 39 0.5 1.0 2.0 5.0 10.0 20.0 50.0 100.0

Quantile Return Period

Figure 3: Les trois premier graphiques permettent de déterminer la qualité de l’adéquation de


la distripution GPD aux données. D’abord via un probability plot et un quantile plot, ensuite
avec un graphique de la densité proposée et celle obtenue par noyaux à partir des données.
4 Analyses bivariées 4

Interprétation

Nous pouvons interpréter les trois premiers graphiques (le quatrième, en bas à droite, étant utile
pour déterminer les niveaux de retours).
Il est également intéressant de décrire les résultats obtenus :

-
mu : il n y a que deux parametres ? Voir TP2 explication sigma : 1.9234
(0.25734) xi : -0.2111 (0.09472)
#Call: fpot(x = V4, threshold = 32.5, npp = 94)
#Deviance: 308.7984
#Threshold: 32.5
#Number Above: 107
#Proportion Above: 0.0253
#Estimates
# scale shape
# 1.9234 -0.2111
2
#Standard Errors
# scale shape
#0.25734 0.09472
#Optimization Information
# Convergence: successful
# Function Evaluations: 27
# Gradient Evaluations: 9
#CI for sigma : c(1.9234-2*0.25734,1.9234+2*0.25734)
#CI for xi : c(-0.2111-2* 0.09472, -0.2111 +2* 0.09472)
#It seems we can reject the fact that xi is null

4 Analyses bivariées
Il est tout à fait possible d’effectuer différentes analyses bivariées à partir des données et du
contexte dont nous disposons. On peut par exemple dans un premier temps considérer un critère
géographique. Ainsi nous allons d’abord nous intéresser à une analyse basée sur les distances
entre les stations, ensuite nous pouvons considérer les altitudes. Pour compléter cette section,
nous allons également comparer la série temporelle avec un décalage d’un jour, de deux jours,...
Nous pourrons alors estimer la dépendance des maxima.

5 Discussion
Final section:
summary of the results
discussion of the advantages and limitations of the applied method;
what else might be done, if time/data were available.
5 Discussion 5

Remerciements
Le soutien et l’aide constante de l’assistant Raphaël Huser ont été grandement appréciés.
REFERENCES 6

References
[1] Stuart Coles, An introduction to statistical modeling of extreme values, Springer, 2001.

[2] Anthony C. Davison, Statistics of extremes - statistical analysis of maxima, 2009.