Vous êtes sur la page 1sur 6

Régression linéaire multiple

Examinons maintenant la corrélation entre plus de deux variables ; supposons que nous ayons une

variable X(0) et que nous voulons l'"expliquer" à partir de k variables X(1), X(2), loi linéaire :

, X(k) par une

X(0) = 0 + k k X(k)

Les paramètres k sont, a priori inconnus.

X(0) est la variable à expliquer et X(k) pour k = 1,

N

sont les variables explicatives.

Pour simplifier, on admettra que l'on a effectué n observations ce qui a conduit à n valeurs X i (k) pour chaque variable X(k).

moyennes : m X(k) =(i X i (k))/n

variances : v(X(k)) = (i (X i (k) - m X(k) )2

covariances : cov(X(k), X(l)) = [i (X i (k) - m X(k) )(X i (l) - m X(l) )

On définira l'écart entre l'expérience et le modèle par

l'écart entre l'expérience et le modèle par Pour minimiser E et donc trouver les coefficients 

Pour minimiser E et donc trouver les coefficients k , on écrira que les dérivées partielles de E

par rapport aux coefficients k sont nulles :

dérivées partielles de E par rapport aux coefficients  k sont nulles : ce qui conduit

ce qui conduit aux équations suivantes :

dérivées partielles de E par rapport aux coefficients  k sont nulles : ce qui conduit

La première de ces équations donne

n0 = i X i (0) - i k k X i (k) ou

n0 = nm X(0) - nk k m X(k)

soit

0 = m X(0) - k k m X(k)

La seconde équation s'écrit alors

0 i X i (l) + i X i (l)k k X i (k) - i X i (l)X i (0) = 0

n0 m X(l) + k k i X i (l)X i (k) - i X i (l)X i (0) = 0

nm X(0) m X(l) - nk k m X(l) m X(k) + k k i X i (l)X i (k) - i X i (l)X i (0) = 0

Pour faciliter l'écriture posons

V kl = cov(X(k), X(l)) =(i X i (k)X i (l))/n - m X(k) m X(l)

ou matriciellement

d'où

k k V kl = V 0l

k ) m X ( l ) ou matriciellement d'où  k  k V kl

M est appelée matrice des covariances.

Pour résoudre ce système, il faut calculer la matrice inverse M -1 :

B = M -1 V

relation qui fournit les coefficients k pour k = 1N.

On est amené à poser, pour mesurer la corrélation globale

On est amené à poser, pour mesurer la corrélation globale Ce coefficient est quelquefois appelé coefficient

Ce coefficient est quelquefois appelé coefficient de corrélation multiple

exemple1 : On donne les deux séries suivantes, relatives à un pays alpha :

 

Récepteurs de radio en service (en centaines de milliers) : x

 

Nombre de maladies mentales déclarées (pour 1000 habitants) : y

années

 
 

1924

13

8

1925

20

8

1926

23

9

1927

25

10

1928

27

11

1929

31

11

1930

36

12

1931

46

16

1932

55

18

1933

63

19

1934

70

20

1935

76

21

1937

81

22

1937

85

23

Recherchons s'il y a une corrélation entre x et y. Calculons tout d'abord le coefficient de corrélation.

Calculons tout d'abord le coefficient de corrélation. Le coefficient de corrélation est r = 0,99 .

Le coefficient de corrélation est r = 0,99 . Il est donc très élevé ce qui indique une forte corrélation entre x et y. Les droites de régression, qui figurent ci-dessous et ont pour équations

Dy/x : y = 0,22x + 4,55

Dx/y : x = 4,44y - 19,48

droites de régression, qui figurent ci-dessous et ont pour équations Dy/x : y = 0,22x +

La corrélation observée ne permet pas de dire si la radio rend fou ou bien si seulement les fous utilisent la radio.

exemple 2 : Le bassin versant du Danube hongrois se situe en Bavière et en Autriche. Si par là, la quantité de condensations atmosphériques devient élevée, une vague de crue se produit tout au long du Danube dont le plafond à Budapest on veut prédire. Le problème nécessite une approche mathématique assez complexe mais pour le moment nous nous contentons de présenter une illustration bien simplifiée sur la régression à plusieurs variables. On introduit les trois variables suivantes :

X(0) le plafond du Danube à Budapest. On ne considère que les cas les plus importants.

X(1) la quantité de condensations atmosphériques dans le bassin versant du Danube hongrois. La moyenne mathématique des données mesuré par 15 station d’observation en Bavière et en Autriche.

X(2) le niveau du Danube à Budapest juste avant les grandes eaux causant des vagues de crue.

Le tableau suivant donne les trois données de 26 vagues de crue du Danube à Budapest.

Numéro

temps

X(0)

X(1)

X(2)

d’ordre

 
   

(cm)

(mm)

(cm)

 

1 1896.08.14

590

58

405

 

2 1896.08.20

660

52

450

 

3 1897.08.08

780

133

350

 

4 1899.09.22

770

179

285

 

5 1903.07.15

710

98

330

 

6 1906.07.20

640

72

400

 

7 1907.05.02

670

72

550

 

8 1907.06.29

520

43

480

 

9 1907.07.21

660

62

450

 

10 1912.05.31

690

67

610

 

11 1912.07.27

500

64

380

 

12 1912.08.04

460

33

460

 

13 1912.09.16

610

57

425

 

14 1912.09.21

710

62

560

 

15 1914.07.14

620

54

420

 

16 1914.07.24

660

48

620

 

17 1918.07.01

620

86

390

 

18 1918.08.15

590

74

350

 

19 1926.06.26

740

95

570

 

20 1926.07.01

730

44

710

 

21 1926.07.17

720

53

700

 

22 1926.08.06

720

77

580

 

23 1926.08.14

640

46

700

 

24 1954.07.18

805

123

560

 

25 1955.06.26

510

26

370

26

1955.07.16

673

62

430

On tente d'expliquer X(0) en fonction de X(1) et X(2) suivant le modèle linéaire :

X(0) = 0 + 1 X(1) + 2 X(2)

Calculons la matrice M et le vecteur V :

+  2 X(2) Calculons la matrice M et le vecteur V : Le modèle linéaire
+  2 X(2) Calculons la matrice M et le vecteur V : Le modèle linéaire

Le modèle linéaire donne X(0) = 274,89 + 2,35X(1) + 0,44X(2). Les valeurs théoriques sont données ci-dessus.