Vous êtes sur la page 1sur 12

Corrélations et Analyse des données

Corrélation
On considérera deux séries d’observations (correspondant, par exemple, à des relevés en deux
points 𝐴 et ) 𝑋 et 𝑌 , notées :
𝑥1 , 𝑥2 , … … . . 𝑥𝑛
{𝑦 , 𝑦 , … … . . 𝑦
1 2 𝑛

On dit que deux variables hydrologiques 𝑋 et 𝑌 sont corrélées ou qu’il y a une corrélation
totale entre elles si ces dernières satisferont toute une relation quelconque. La corrélation est
dite simple si dans la relation interviennent uniquement deux variables, dans le cas contraire,
la corrélation est dite multiple (relation entre plusieurs variables).

 Coefficient de corrélation simple

Le coefficient de corrélation qui est désigné par 𝑅 caractérise le degré de la liaison linaire
existante entre les deux variables 𝑋 et 𝑌. Pour calculer ce coefficient on utilise la formule
suivante :

∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅)


𝑅=
√∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 ∙ ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2

𝑥𝑖 et 𝑦𝑖 sont respectivement les valeurs des observations (𝑖) des variables X et Y ;

𝑥̅ et 𝑦̅ sont respectivement les moyennes arithmétiques des variables X et Y .

La définition du coefficient de corrélation 𝑅 permet d’établir les cas suivants :


1 La valeur de ce coefficient est comprise entre −1 et +1 (1 ≤ 𝑅 ≤ +1) ;
2 Si 𝑅 < 0, la corrélation est négative ;
3 Si 𝑅 > 0, la corrélation est positive ;
4 Lorsque |𝑅| est proche de 1, la corrélation est très forte ;
5 Lorsque |𝑅| est proche de 0, la corrélation est très faible.

 Régression linéaire

Pour déterminer la droite de régression la plus représentative (la droite qui ajuste au
mieux l’ensemble des valeurs 𝑥𝑖 , 𝑦𝑖 ) et son expression mathématique on utilise souvent la
méthode des moindre carrés. Cette méthode consiste à minimiser la somme des carrés entre
les points empiriques (points d’observation ou de mesure) et les points correspondants sur la
droite d’ajustement.
La droite des moindre carrés à pour équation :
𝑦 = 𝑎𝑥 + 𝑏

𝑎 et 𝑏 sont des paramètres de l’équation de régression.


Pente :
𝜎𝑥𝑦
𝑎=
𝜎𝑥2

Ordonnée à l’origine :

𝑏 = 𝑦̅ − 𝑎𝑥̅
- Moyennes :
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
𝑛
1
𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1

- Variances :
𝑛
1
𝜎𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑖=1
𝑛
1
𝜎𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2
𝑛
𝑖=1

- Covariances :
𝑛
1
𝜎𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) × (𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1

- Coefficient de corrélation :
𝜎𝑥𝑦
𝑅=
√𝜎𝑥2 × 𝜎𝑦2
A partir de ces équations on trouve 𝑎 et 𝑏 et par conséquent l’équation 𝑦 = 𝑎𝑥 + 𝑏

Corrélation orthogonale
L’équation de la droite de régression 𝑦 − 𝑦̅ = 𝑚(𝑥𝑖 − 𝑥̅ ). L’équation du deuxième degré
qui permet de trouver 𝑚 est :

2
𝜎𝑥2 𝜎𝑥2 ∙ 𝜎𝑦2 − 𝜎𝑥𝑦
2
𝜆 − 2𝜆+ =0
𝜎𝑦 𝑛2
Ses racines sont :
𝜆2 > 𝜆1 > 0
et
𝑛𝜆2 − 𝜎𝑥2
𝑚=
𝜎𝑥𝑦
A partir de ces équations on trouve 𝜆1 et 𝜆2 et par conséquent 𝑚
L’ordonnée à l’origine de la droite de régression est donnée par
𝑦̅ − 𝑚𝑥̅
L’équation de régression devient alors :
𝑦 = 𝑎𝑥 + 𝑏
𝑎 = 𝑚 et 𝑏 = 𝑦̅ − 𝑚𝑥̅ .

Exercice
Etablissement de l’équation de régression entre les débits et les pluies (voir tableau ci-
dessous).

Pluie 𝑃, 𝑚𝑚 Débit 𝑄 𝑚3/𝑠


25 10
75 37
45 21
80 39
100 48

1. Représnter graphiquement les données de ce tableau ;


2. Est-il possible d’établir une relation linéaire entre 𝑃 et 𝑄 . Si oui, justifier cette
possibilité à l’aid d’un calcul ;
3. Etablir l’équation de régression de 𝑄 en 𝑃 ;
4. Quelle pourrait être la valeur du débit 𝑄 si la pluie 𝑃 = 120 𝑚𝑚.

Solution
1. Représentation graphique des données.
On doit choisir d’abord une échelle convenable par exemple
- pour l’axe des abscisses (l’axe des 𝑥) : 1𝑐𝑚 → 20𝑚𝑚 ;
- pour l’axe des ordonnées (l’axe des 𝑦) : 1𝑐𝑚 → 10𝑚3 /𝑠
60

50

Débit Q, m3/s
40

30

20

10

0
0 20 40 60 80 100 120
Pluie P, mm
Relation entre le débit 𝑄 et la pluie 𝑃.

Nous effectuons les calculs dans le tableau suivant :


Pluie 𝑃𝑖, 𝑚𝑚 Débit 𝑄𝑖 𝑚3/𝑠 𝑃𝑖 − 𝑃̅ 𝑄𝑖 − 𝑄̅ (𝑃𝑖 − 𝑃̅ )2 (𝑄𝑖 − 𝑄̅ )2 (𝑃𝑖 − 𝑃̅ ) (𝑄𝑖 − 𝑄̅ )
25 10 -40 -21 1600 441 840
75 37 10 6 100 36 60
45 21 -20 -10 400 100 200
80 39 15 8 225 64 120
100 48 35 17 1225 289 595
̅
𝑃 = 65𝑚𝑚 ̅
𝑄 = 31𝑚3 /𝑠 ∑ 3550 ∑ 930 ∑ 1815

𝑛 = 5 − nombre d’observations
Calcul des pluies et des débits moyens par les relations :
𝑛
1 25 + 75 + 45 + 80 + 100
𝑃̅ = ∑ 𝑃𝑖 = = 65𝑚𝑚
𝑛 5
𝑖=1
𝑛
1 10 + 37 + 21 + 39 + 48
𝑄̅ = ∑ 𝑄𝑖 = = 31𝑚3 /𝑠
𝑛 5
𝑖=1

2. Est-il possible d’établir une relation linéaire entre 𝑃 et 𝑄. Si oui, justifier cette possibilité à
l’aid d’un calcul

Pour répondre à cette question on doit calculer le coefficient de corrélation 𝑅 entre le débit 𝑄
et la pluie 𝑃
 Calcul du coefficient de corrélation

∑𝑛𝑖=1(𝑃𝑖 − 𝑃̅ )(𝑄𝑖 − 𝑄̅ ) 1815


𝑅= = = 0.998
√3550 × 930
√∑𝑛𝑖=1(𝑃𝑖 − 𝑃)2 ∙ ∑𝑛𝑖=1(𝑄𝑖 − 𝑄̅ )2

Le coefficient de corrélation 𝑅 = 0.998 est proche de 1, ce qui montre une grande corrélation
entre le débit 𝑄 et la pluie 𝑃
3. Etablir l’équation de régression de 𝑄 en 𝑃 ;
Le graphique de la relation entre le débit Q et la pluie P, présenté dans la figure ci-dessus
permet de tracer un droite qui passe au milieu des points (tracée visuellement).
60

50
Débit Q, m3/s

40

30

20

10

0
0 20 40 60 80 100 120
Pluie P, mm
Tracé de la droite entre le débit 𝑄 et la pluie 𝑃.

Comme le montre cette figure l’équation est de type :

𝑦 = 𝑎𝑥 + 𝑏 = 𝑎𝑃 + 𝑏
𝑥 = 𝑃 et 𝑦 = 𝑄
𝑎 et 𝑏 sont des paramètres de l’équation de régression.
Pente :
𝜎𝑥𝑦 𝜎𝑃𝑄
𝑎= = 2
𝜎𝑥2 𝜎𝑃
1
𝜎𝑃2 = 𝑛 ∑𝑛𝑖=1(𝑃𝑖 − 𝑃̅)2 = (voir tableau)
1
𝜎𝑃𝑄 = 𝑛 ∑𝑛𝑖=1(𝑃𝑖 − 𝑃̅) × (𝑄𝑖 − 𝑄) = 3630 (voir tableau)

1815
𝑎= = 0.511
3530
Nous avons :

𝑏 = 𝑄̅ − 𝑎𝑃̅ = 31 − (0.511)65 = −2.215

L’équation finale est donc :


𝑄 = 0.511𝑃 − 2.215

4. Quelle pourrait être la valeur du débit 𝑄 si la pluie 𝑃 = 120 𝑚𝑚.


Si 𝑃 = 120 𝑚𝑚, le débit serait de :
𝑄 = 0.511𝑃 − 2.215 = 0.511 ∙ (120) − 2.215 ≈ 59𝑚3 /𝑠.
2.1.3 Autres types de corrélation
Il arrive souvent que le nuage de points formé par les couples (𝑥𝑖 , 𝑦𝑖 ) ne permet pas
l’obtention d’une droite, mais soit voisin d’une courbe connue (courbe non linéaire). Parmi les
équations possibles représentant la courbe de régression non linéaires on trouve (les
polynômes) :

1. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 (fonction quadratique ou parabole) ;

2. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 (fonction cubique) ;

3. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 + 𝑎4 𝑥 4 (fonction du 4𝑒 degré) ;

4. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 + ⋯ + 𝑎𝑛 𝑥 𝑛 (fonction du 𝑛𝑒 degré).

Pour la fonction parabole, les constantes 𝑎0 , 𝑎1 , 𝑎2 dans l’équation 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2

sont déterminées en résolvant simultanément les équations :


𝑛 𝑛 𝑛
1 1 1
𝑎0 𝑛 + 𝑎1 ∑ 𝑥𝑖 + 𝑎2 ∑ 𝑥𝑖2 = ∑ 𝑦𝑖
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
1 1 1 1
𝑎0 ∑ 𝑥𝑖 + 𝑎1 ∑ 𝑥𝑖2 + 𝑎2 ∑ 𝑥𝑖3 += ∑ 𝑥𝑖 𝑦𝑖
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1 𝑖=1
𝑛 𝑛 𝑛 𝑛
1 1 1 1
𝑎0 ∑ 𝑥 2 𝑖 + 𝑎1 ∑ 𝑥𝑖3 + 𝑎2 ∑ 𝑥𝑖4 += ∑ 𝑥𝑖2 𝑦𝑖
𝑛 𝑛 𝑛 𝑛 }
𝑖=1 𝑖=1 𝑖=1 𝑖=1

On peut trouver également dans la régression non linéaire les équations suivantes :

1. 𝑦 = 𝑎𝑒 𝑏𝑥 fonction exponentielle ;

2. 𝑦 = 𝑎𝑥 𝑏 fonction puissance;

3. 𝑦 = 𝑎𝑏 𝑥 fonction géométrique;

4. 𝑦 = 𝑝𝑞 𝑏𝑥 fonction de Gompertz ;
1
5. 𝑦 = 𝑎𝑏𝑥 +𝑔 fonction logistique.

2.2.1 Analyse primaire de qualité


Avant de pouvoir exploiter les données et bien qu'elles soient dans un format adéquat, il
importe de contrôler la fiabilité et la précision de ces dernières. Le contrôle permet de valider
les données avant leur organisation au sein d'une banque de données pour leur mise à
disposition à des fins opérationnelles. Lors de cette opération, on introduit des indices de
qualité de la donnée ainsi que des indices indiquant que celle-ci est reconstituée, calculée
voire manquante.
Toute étude climatique ou hydrologique est basée sur l'exploitation de séries de données
recueillies pendant des périodes plus ou moins longues continues ou discontinues.
Les méthodes statistiques d'analyse de ces séries exigent de celles-ci une homogénéité de
leurs composants. En d'autres termes, on ne peut faire une analyse statistique, d'un échantillon
composé de 𝑛 réalisations d'une variable climatique ou hydrologique, que si certaines de ces 𝑛
réalisations ne présentent pas d'erreurs systématiques rendant l'échantillon hétérogène.
 Nature des hétérogénéités dans les séries
- Absence de données

C'est l'hétérogénéité la plus apparente, à laquelle on remédie par l'extension des données
de la station défaillante 𝐵 à partir d'une corrélation entre les données de cette station et
celles d'une station de référence 𝐴 ;
- Données défectueuses

Si les relevés n'ont pas été toujours effectués dans de bonnes conditions, on peut être
amené à les éliminer (et on est alors ramené, pour une ou plusieurs périodes, au cas
précédent), ou à faire subir aux données une correction qui les rendra utilisables, au moins
dans une certaine mesure.
- Données correspondant à deux ou plusieurs séries homogènes non défectueuses,
groupées sous le nom d'une même station

On se trouve dans ce cas si le pluviomètre a été déplacé ou si l'environnement immédiat a


changé.
1. Déplacement des pluviomètres :
Un ensemble de caractéristiques des sites dans le cadre de déplacement des pluviomètres
déplacés (altitude, forme du terrain, orientation du relief, végétation hydrographie, sols,
degré d'urbanisation) est responsable de l'hétérogénéité,
2. Changement d’environnement des pluviomètres :
Parmi les caractéristiques d'un site que l'on a citées au paragraphe précédent, celles qui
peuvent être modifiées sont les suivantes :
A. Végétation à proximité du pluviomètre (croissance d'un arbre qui devient
progressivement un obstacle et peut même rendre les données défectueuses) ;
B. Hydrographie (création de plans d'eau, assèchement de marais ou simplement drainage
de zones très humides);
C. Urbanisation (surfaces bâties, surfaces aplanies, création de zones industrielles,
pollution et réchauffement de l'atmosphère)
 Premières vérifications des données
1. Examen de tous les relevés journaliers, sur les feuilles de relevé des observateurs
2. Le problème de la vérification des «originaux» se pose surtout pour les données ne
provenant pas d'un correspondant du Service Météorologique ou Hydrologique.
3. Anomalies rencontrées dans les «originaux» d'un poste relativement isolé ;
4. Anomalies rencontrées dans les copies des «originaux» (des chiffres peu lisibles ont pu
être mal interprétés par le copieur, la virgule a pu être omise, l'ordre chronologique des
feuilles mensuelles a pu être mal reproduit, etc.), et répétition des mêmes relevés;

 Principe de la méthode de comparaison des totaux cumulés annuels


- Caractère de la liaison existant entre les totaux annuels de deux postes
pluviométriques
Sur le graphique des totaux annuels comparés des deux postes, il apparaît une certaine
dispersion. On pourrait examiner sur ce graphique si les points représentatifs des années
successives présentent des écarts simplement aléatoires autour de la droite de régression,
ou si jusqu'à telle année les écarts oscillent autour d'une valeur négative ou vice-versa.
Le procédé est d'autant plus difficile à appliquer que les séries sont plus longues et leur
liaison plus lâche.

2.2.2 Valeur caractéristiques d’une série chronologique


Définition série chronologique
On appelle série chronologique, ou bien encore chronique ou série temporelle, une suite finie
de données quantitatives indexée par le temps. L'indice temps peut être selon les cas, la
seconde, la minute, l'heure, le jour, le mois, l’année, etc.
L’analyse des séries chronologique permet :
- de comprendre le passé : analyser et expliquer les valeurs observées ;
- de prédire le futur : bâtir des prévisions pour les valeurs non encore observées ;
- d’étudier le lien avec d'autres séries chronologiques.

Classification des mouvements des séries chronologiques


- Mouvements à grande période ou séculaire : caractérisant les séries chronologiques
dont la direction générale du graphique s’étend sur un grand intervalle de temps. Dans
le graphique ce mouvement séculaire ou encore cette variation ou tendance séculaire
par une courbe de tendance en tirets ;
Tendance de longue durée.

- Mouvements cycliques ou variations cycliques : caractérisant les oscillations qui se


présentent sur une grande période autour d’une droite ou d’une courbe de tendance. Ces
oscillations sont souvent des cycles peuvent être ou ne pas être périodiques ;

Tendance de longue durée et mouvement cyclique.

- Mouvements saisonniers ou variations saisonnières : correspondent aux modèles


identiques, ou presque identiques, qu’une série temporelle semble suivre pendant les
mois correspondant à des années successives. De tels mouvements sont dus à des
évènements qui se répètent annuellement, comme par exemple la croissance soudaine
des débits des cours d’eau en hiver ;
Tendance de longue durée, et mouvement cyclique et saisonnier.

- Mouvement irréguliers et aléatoires : correspondent mouvements des séries


chronologiques qui sont dus aux évènements du hasard, comme des inondations des
orages etc. Bien que l’on suppose ordinairement que de tels évènements ne produisent
des variations durables que sur un intervalle de temps de courte durée, on peut imaginer
qu’ils soient assez puissants pour prendre l’allure de mouvements cycliques ou autres.

2.2.3 Lissage des séries chronologiques


Considérons une série chronologique de longueur 𝑛.
Si
 𝑡1 , 𝑡2 ,···, 𝑡𝑛 sont les 𝑛 instants successifs d’observation
 et 𝑡𝑡𝑗 est la valeur mesurée `a l’instant 𝑡𝑡 ,

on notera la série chronologique (𝑦𝑡 )𝑡 ∈ T ou 𝑇 est l’ensemble ordonné des instants


d’observation, ie. 𝑇 = {𝑡1 , 𝑡2 ,···, 𝑡𝑛 }.
la série chronologique (𝑦𝑡 )𝑡 ∈ T avec 𝑇 = {𝑡1 , 𝑡2 ,···, 𝑡𝑛 } n’est rien d’autre que la série
statistique double {𝑡𝑗 , 𝑦𝑡𝑗 } 1 ≤ 𝑗 ≤ 𝑛, où
- la première composante est le temps 𝑡,
- la deuxième composante est une variable numérique 𝑦 prenant ses valeurs aux instants
𝑡.
 Représentation graphique

On représente graphiquement la série chronologique(𝑦𝑡 )𝑡 ∊𝑇 :


1. en dessinant le nuage formé par les points (𝑡𝑗 , 𝑦𝑡𝑗 ) 1 ≤ 𝑗 ≤ 𝑛
2. en reliant les points entre eux par des segments de droite, pour indiquer la chronologie.
Exemple. On considère la série des pluies annuelles en registrées au poste pluviométrique du
barrage Foum El Ghorza- Biskra ( 1971 -2000)

250

200
Pluie annuelle P, mm

150

100

50

0
1965 1970 1975 1980 1985 1990 1995 2000 2005

Année

Figure. Pluies annuelles au poste pluviométrique du barrage Foum El Ghorza- Biskra (1971 -2000).

 Intérêt de la représentation graphique : essayer de repérer les caractéristiques de la


chronique, comme :
- une tendance
- un cycle
- un phénomène périodique
- des variations accident elles des fluctuations irrégulières.
- …..

Lissage des séries chronologique par la méthode des moyennes mobiles


Etant donné l’ensemble des nombre 𝑦1 , 𝑦2 , 𝑦3 …
On défini une moyenne mobile d’ordre 𝑁 que l’on obtient par la suite des moyennes
arithmétiques :
𝑦1 + 𝑦2 + ⋯ 𝑦𝑁 𝑦2 + 𝑦3 + ⋯ 𝑦𝑁+1 𝑦3 + 𝑦4 + ⋯ 𝑦𝑁+2
, ,
𝑁 𝑁 𝑁
Les sommed des numérateurs dans cette relation sont appelés totaux mobiles d’ordre 𝑁

Exemple :
Etant donné les nombres 2, 6, 1,5, 3, 7,2, on obtient la moyenne mobile d’ordre 3 au moyen de
la suite :
2+6+1 6+1+5 5+3+7 3+7+2
, , , 𝑜𝑢 3, 4, 3, 5,4
3 3 3 3
Dans une moyenne mobile, il est commode de localiser chaque nombre à sa position relative
par rapport aux données d’origine. Dans cet exemple, on écrira :
Données d’origine : 2, 6, 1, 5, 3, 7, 2
Moyenne mobile d’ordre 3 : 3, 4, 3, 5, 4
Chaque nombre de la moyenne mobile étant la moyenne des trois nombres immédiatement
situés au-dessus de lui.
250

200
Pluie annuelle P, mm

150

100

50

0
1965 1970 1975 1980 1985 1990 1995 2000 2005
Année

Tendance de longue durée et mouvement cyclique des pluies au barrage Foum El Gherza- Biskra.

Vous aimerez peut-être aussi