Académique Documents
Professionnel Documents
Culture Documents
Corrélation
On considérera deux séries d’observations (correspondant, par exemple, à des relevés en deux
points 𝐴 et ) 𝑋 et 𝑌 , notées :
𝑥1 , 𝑥2 , … … . . 𝑥𝑛
{𝑦 , 𝑦 , … … . . 𝑦
1 2 𝑛
On dit que deux variables hydrologiques 𝑋 et 𝑌 sont corrélées ou qu’il y a une corrélation
totale entre elles si ces dernières satisferont toute une relation quelconque. La corrélation est
dite simple si dans la relation interviennent uniquement deux variables, dans le cas contraire,
la corrélation est dite multiple (relation entre plusieurs variables).
Le coefficient de corrélation qui est désigné par 𝑅 caractérise le degré de la liaison linaire
existante entre les deux variables 𝑋 et 𝑌. Pour calculer ce coefficient on utilise la formule
suivante :
Régression linéaire
Pour déterminer la droite de régression la plus représentative (la droite qui ajuste au
mieux l’ensemble des valeurs 𝑥𝑖 , 𝑦𝑖 ) et son expression mathématique on utilise souvent la
méthode des moindre carrés. Cette méthode consiste à minimiser la somme des carrés entre
les points empiriques (points d’observation ou de mesure) et les points correspondants sur la
droite d’ajustement.
La droite des moindre carrés à pour équation :
𝑦 = 𝑎𝑥 + 𝑏
Ordonnée à l’origine :
𝑏 = 𝑦̅ − 𝑎𝑥̅
- Moyennes :
𝑛
1
𝑥̅ = ∑ 𝑥𝑖
𝑛
𝑖=1
𝑛
1
𝑦̅ = ∑ 𝑦𝑖
𝑛
𝑖=1
- Variances :
𝑛
1
𝜎𝑥2 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑛
𝑖=1
𝑛
1
𝜎𝑦2 = ∑(𝑦𝑖 − 𝑦̅)2
𝑛
𝑖=1
- Covariances :
𝑛
1
𝜎𝑥𝑦 = ∑(𝑥𝑖 − 𝑥̅ ) × (𝑦𝑖 − 𝑦̅)
𝑛
𝑖=1
- Coefficient de corrélation :
𝜎𝑥𝑦
𝑅=
√𝜎𝑥2 × 𝜎𝑦2
A partir de ces équations on trouve 𝑎 et 𝑏 et par conséquent l’équation 𝑦 = 𝑎𝑥 + 𝑏
Corrélation orthogonale
L’équation de la droite de régression 𝑦 − 𝑦̅ = 𝑚(𝑥𝑖 − 𝑥̅ ). L’équation du deuxième degré
qui permet de trouver 𝑚 est :
2
𝜎𝑥2 𝜎𝑥2 ∙ 𝜎𝑦2 − 𝜎𝑥𝑦
2
𝜆 − 2𝜆+ =0
𝜎𝑦 𝑛2
Ses racines sont :
𝜆2 > 𝜆1 > 0
et
𝑛𝜆2 − 𝜎𝑥2
𝑚=
𝜎𝑥𝑦
A partir de ces équations on trouve 𝜆1 et 𝜆2 et par conséquent 𝑚
L’ordonnée à l’origine de la droite de régression est donnée par
𝑦̅ − 𝑚𝑥̅
L’équation de régression devient alors :
𝑦 = 𝑎𝑥 + 𝑏
𝑎 = 𝑚 et 𝑏 = 𝑦̅ − 𝑚𝑥̅ .
Exercice
Etablissement de l’équation de régression entre les débits et les pluies (voir tableau ci-
dessous).
Solution
1. Représentation graphique des données.
On doit choisir d’abord une échelle convenable par exemple
- pour l’axe des abscisses (l’axe des 𝑥) : 1𝑐𝑚 → 20𝑚𝑚 ;
- pour l’axe des ordonnées (l’axe des 𝑦) : 1𝑐𝑚 → 10𝑚3 /𝑠
60
50
Débit Q, m3/s
40
30
20
10
0
0 20 40 60 80 100 120
Pluie P, mm
Relation entre le débit 𝑄 et la pluie 𝑃.
𝑛 = 5 − nombre d’observations
Calcul des pluies et des débits moyens par les relations :
𝑛
1 25 + 75 + 45 + 80 + 100
𝑃̅ = ∑ 𝑃𝑖 = = 65𝑚𝑚
𝑛 5
𝑖=1
𝑛
1 10 + 37 + 21 + 39 + 48
𝑄̅ = ∑ 𝑄𝑖 = = 31𝑚3 /𝑠
𝑛 5
𝑖=1
2. Est-il possible d’établir une relation linéaire entre 𝑃 et 𝑄. Si oui, justifier cette possibilité à
l’aid d’un calcul
Pour répondre à cette question on doit calculer le coefficient de corrélation 𝑅 entre le débit 𝑄
et la pluie 𝑃
Calcul du coefficient de corrélation
Le coefficient de corrélation 𝑅 = 0.998 est proche de 1, ce qui montre une grande corrélation
entre le débit 𝑄 et la pluie 𝑃
3. Etablir l’équation de régression de 𝑄 en 𝑃 ;
Le graphique de la relation entre le débit Q et la pluie P, présenté dans la figure ci-dessus
permet de tracer un droite qui passe au milieu des points (tracée visuellement).
60
50
Débit Q, m3/s
40
30
20
10
0
0 20 40 60 80 100 120
Pluie P, mm
Tracé de la droite entre le débit 𝑄 et la pluie 𝑃.
𝑦 = 𝑎𝑥 + 𝑏 = 𝑎𝑃 + 𝑏
𝑥 = 𝑃 et 𝑦 = 𝑄
𝑎 et 𝑏 sont des paramètres de l’équation de régression.
Pente :
𝜎𝑥𝑦 𝜎𝑃𝑄
𝑎= = 2
𝜎𝑥2 𝜎𝑃
1
𝜎𝑃2 = 𝑛 ∑𝑛𝑖=1(𝑃𝑖 − 𝑃̅)2 = (voir tableau)
1
𝜎𝑃𝑄 = 𝑛 ∑𝑛𝑖=1(𝑃𝑖 − 𝑃̅) × (𝑄𝑖 − 𝑄) = 3630 (voir tableau)
1815
𝑎= = 0.511
3530
Nous avons :
2. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 (fonction cubique) ;
3. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 + 𝑎4 𝑥 4 (fonction du 4𝑒 degré) ;
4. 𝑦 = 𝑎0 + 𝑎1 𝑥 + 𝑎2 𝑥 2 + 𝑎3 𝑥 3 + ⋯ + 𝑎𝑛 𝑥 𝑛 (fonction du 𝑛𝑒 degré).
On peut trouver également dans la régression non linéaire les équations suivantes :
1. 𝑦 = 𝑎𝑒 𝑏𝑥 fonction exponentielle ;
2. 𝑦 = 𝑎𝑥 𝑏 fonction puissance;
3. 𝑦 = 𝑎𝑏 𝑥 fonction géométrique;
4. 𝑦 = 𝑝𝑞 𝑏𝑥 fonction de Gompertz ;
1
5. 𝑦 = 𝑎𝑏𝑥 +𝑔 fonction logistique.
C'est l'hétérogénéité la plus apparente, à laquelle on remédie par l'extension des données
de la station défaillante 𝐵 à partir d'une corrélation entre les données de cette station et
celles d'une station de référence 𝐴 ;
- Données défectueuses
Si les relevés n'ont pas été toujours effectués dans de bonnes conditions, on peut être
amené à les éliminer (et on est alors ramené, pour une ou plusieurs périodes, au cas
précédent), ou à faire subir aux données une correction qui les rendra utilisables, au moins
dans une certaine mesure.
- Données correspondant à deux ou plusieurs séries homogènes non défectueuses,
groupées sous le nom d'une même station
250
200
Pluie annuelle P, mm
150
100
50
0
1965 1970 1975 1980 1985 1990 1995 2000 2005
Année
Figure. Pluies annuelles au poste pluviométrique du barrage Foum El Ghorza- Biskra (1971 -2000).
Exemple :
Etant donné les nombres 2, 6, 1,5, 3, 7,2, on obtient la moyenne mobile d’ordre 3 au moyen de
la suite :
2+6+1 6+1+5 5+3+7 3+7+2
, , , 𝑜𝑢 3, 4, 3, 5,4
3 3 3 3
Dans une moyenne mobile, il est commode de localiser chaque nombre à sa position relative
par rapport aux données d’origine. Dans cet exemple, on écrira :
Données d’origine : 2, 6, 1, 5, 3, 7, 2
Moyenne mobile d’ordre 3 : 3, 4, 3, 5, 4
Chaque nombre de la moyenne mobile étant la moyenne des trois nombres immédiatement
situés au-dessus de lui.
250
200
Pluie annuelle P, mm
150
100
50
0
1965 1970 1975 1980 1985 1990 1995 2000 2005
Année
Tendance de longue durée et mouvement cyclique des pluies au barrage Foum El Gherza- Biskra.