Vous êtes sur la page 1sur 22

17/01/2021

Chapitre I

LIAISONS ENTRE VARIABLES

Préparé par Pr. D. SOUAG


1
2020-2021

I- Corrélation simple à deux variables

Soit deux variables aléatoires X et Y ; (par


exemple, X est la pluie annuelle à
Bouzaréah, et Y la pluie annuelle à Dar el
Beida). Celles-ci sont connues sur un
échantillon de N observations.

Préparé par Pr. D. SOUAG 2

1
17/01/2021

Corrélation simple à deux variables


La liaison n'est pas toujours fonctionnelle (c'est le cas des pluies),
les données sont entachées d'erreurs, etc.
On peut alors chercher à:
+ schématiser analytiquement cette liaison (par exemple pour pouvoir
facilement estimer une valeur de Y à partir d'une valeur de X)
+ caractériser la dépendance (ou indépendance) entre les variables X
et Y par une valeur numérique.
Applications:
+ Prévision (par exemple: prévision des apports à partir des
précipitations)
+ Contrôle et reconstitution de données (on va reconstituer Y Dar El
Beida, où des valeurs sont manquantes, à partir de Bouzareah, où la
série est complète)
+ Comparaison théorie-expérimentation.

Préparé par Pr. D. SOUAG 3

Corrélation simple à deux variables


• Mesure de la corrélation:
Le degré de dépendance entre deux variables peut être
mesuré par le coefficient de corrélation donné par:

C’est un coefficient compris entre -1 et 1 ; plus la valeur


est proche de 1 plus la corrélation est envisageable.

Préparé par Pr. D. SOUAG 4

2
17/01/2021

Corrélation simple à deux variables


• Régression linéaire-Principe des
moindres carrés.
 Il existe une droite Y=aX+b appelée
droite de régression de X en Y. elle
est toujours définie et unique pour
un échantillon donné.
 Pour choisir la meilleure droite à
tracer pour l’estimation de y à
partir de x, on cherche celle
correspondant à la somme des
carrés des écarts à la droite
minimale : c’est la méthode des
moindres carrés

Préparé par Pr. D. SOUAG 5

Corrélation simple à deux variables


Le résidu ei est l’écart entre la valeur observée yi
et la valeur estimée par l’équation de
régression axi+b.

E est une fonction de a et de b. l’une des conditions nécessaires


d’extremum est que les dérivées partielles de E (par rapport
aux paramètres a et b) soient nulles, donc :

Préparé par Pr. D. SOUAG 6

3
17/01/2021

Corrélation simple à deux variables


On obtient:

Et

Préparé par Pr. D. SOUAG 7

Corrélation simple à deux variables


• Qualité de l’estimation
Est-ce-que cette droite nous permet d’estimer Y en fonction de X
sans trop d’erreurs?
On sait que l’erreur moyenne est pratiquement nulle sur
l’échantillon. On peut aussi calculer l’écart-type résiduel, c’est
à dire l’écart-type des erreurs d’estimation qui est une
première mesure de la qualité de la relation linéaire.

L’écart-type des résidus est une première mesure de la


qualité de la relation linéaire.

Préparé par Pr. D. SOUAG 8

4
17/01/2021

Corrélation simple à deux variables


L’écart-type des résidus Se peut s’écrire en fonction de
l’écart-type Sy:

Donc sur un échantillon de n couples de valeurs xi,yi il


existe une droite de régression linéaire de X en Y
d’équation :

Donnant pour chaque point i de l’échantillon yi une


estimation yiest entachée d’une erreur Se

Préparé par Pr. D. SOUAG 9

Corrélation simple à deux variables


On peut de même rechercher la meilleure
estimation linéaire de X à partir de Y. On
parlera alors de la droite de régression de Y en
X, qui estime X=a’Y+b’

en minimisant
L’équation s’écrit alors:

Préparé par Pr. D. SOUAG 10

5
17/01/2021

Corrélation simple à deux variables


• Conditions préalables
Pour que la régression linéaire soit intéressante, il faut que :
 la relation soit linéaire ou linéarisable, la vérification de l’existence
d’une relation linéaire doit précéder tout calcul ;
 que les variables confrontées suivent une loi normale,
 les réalisations successives des variables soient indépendantes
 Une régression linéaire n’est envisageable que pour des
échantillons ayant une dizaine de couples de valeurs.
 La corrélation à deux variables s’emploie généralement entre
valeurs annuelles et plus rarement entre valeurs saisonnières ou
mensuelles.

Il faut savoir enfin qu'une bonne corrélation entre variables ne


démontre pas l’existence obligatoire d'une liaison physique de
cause à effets. Il ne s'agit que d'une constatation statistique.
Seul le physicien peut trancher cette question.

Préparé par Pr. D. SOUAG 11

Corrélation simple à deux variables


• Cas non linéaires:
Il arrive souvent que les points représentants les variables X et Y ne soient pas
alignés sur une droite, mais que la direction des points représente une
autre courbe analytique quelconque. Dans ce cas, on doit utiliser une
courbe de régression différente, ou bien transformer les variables
originales de façon telle que les points correspondants aux nouvelles
variables soient sensiblement alignés et alors appliquer la méthode de la
régression linéaire. Parmi les fonctions analytiques pouvant devenir
linéaires, on peut considérer :

Pièges de la corrélation: Variables monotones, variable influente


cachée, corrélation et liaison de cause à effet

Préparé par Pr. D. SOUAG 12

6
17/01/2021

Corrélation simple à deux variables


• Application à la reconstitution des données et l’extension des séries
La corrélation est un outil très utile en hydrologie (exemple : Compléter une
série courte à partir d'une série longue (extension de série).
La corrélation entre les stations Y et X sur les K observations de la période
commune fournit une équation de régression:
Que l'on peut ensuite appliquer aux N-K valeurs observées de X de la période
où elle est seule disponible, pour fournir N-K estimations yesti de la
variable Y.

• Gain d'information sur la moyenne


Le gain de précision, encore appelé l'efficacité de l'extension sur l'estimation
de la moyenne s'exprime par:

Et s'interprète comme l'augmentation du nombre équivalent d'observations.


Au lieu de K observations, la moyenne a une précision comparable à celle
tirée de l’échantillon ayant un nombre d’observations fictif :

Préparé par Pr. D. SOUAG 13

Corrélation simple à deux variables


• Gain d'information sur la moyenne
Pour achever l’appréciation du gain obtenu par
extension, il faut estimer la nouvelle moyenne et
écart-type des échantillons étendus.

L’intervalle de confiance est donné par :

Variable réduite de Gauss

Préparé par Pr. D. SOUAG 14

7
17/01/2021

II- Corrélation multiple


Dans le cas de la corrélation multiple, on cherche à
estimer une variable Y que l’on appelle variable à
expliquer par un lot de p variables X1,X2, …, Xk
(appelées variables explicatives) par
l’intermédiaire d’une liaison linéaire du type :

variable à expliquer K variables explicatives


Ces liaisons trouvent leurs applications dans
différents cas en hydrologie tels que :
 Reconstitution des données manquantes
 Modèles de prévision (étiages, crues, …)
 Contrôle des données.
Préparé par Pr. D. SOUAG 15

II- Corrélation multiple


• Caractéristiques de la corrélation double
Le critère des moindres carrés des écarts d’estimation
est utilisé pour déterminer les paramètres de la
relation.
Soit une variable Z que l'on désire expliquer à partir de deux
variables X et Y. On se propose de trouver une relation linéaire
de la forme : Z=aX+bY+C+e
Les paramètres a, b et c étant déterminés de façon à minimiser
la somme des carrés des écarts ei

Ce qui revient à annuler les dérivées partielles de par


rapport à a, b et c

Préparé par Pr. D. SOUAG 16

8
17/01/2021

II- Corrélation multiple


La résolution de ce système de trois équations à trois inconnues
ne présente pas de difficultés. Les paramètres a, b et c
peuvent s'exprimer en fonction des moyennes, écarts-types et
coefficients de corrélation de x, y et z

Coefficients de corrélation totale entre les variables deux


à deux
Préparé par Pr. D. SOUAG 17

II- Corrélation multiple


Tout calculs faits, on obtient alors:

Coefficients de régression
partiels

• Coefficient de corrélation multiple et variance


résiduelle
un coefficient de corrélation multiple R mesure la
dispersion des résidus ei

Préparé par Pr. D. SOUAG 18

9
17/01/2021

II- Corrélation multiple


Le coefficient de corrélation double s’écrit :

Si x et y sont des variables indépendantes, le


coefficient r est nul et l'expression précédente
se simplifie en :
L’écart-type des résidus ei est donné par:

Préparé par Pr. D. SOUAG 19

II- Corrélation multiple


• Coefficients de corrélation partielle
Nous avons admis que z dépendait à la fois de x et y. Les
coefficients de corrélation totale rzx et rzy entre z, x et y
rendent donc mal compte de la liaison entre 2 variables
puisque l'on ne tient pas compte de l'influence de la troisième.
L'idée est donc de mesurer non pas la corrélation totale entre
z et x mais entre z corrigé des variations de y, et x. d’où les
coefficients de corrélation partielle:
un coefficient de corrélation partielle entre x et z corrigé des
variations de y (noté rzx,y), comme étant la part de la variance
expliquée par x et non expliquée par y. (On peut définir de
même rzy,x)

Préparé par Pr. D. SOUAG 20

10
17/01/2021

II- Corrélation multiple


• Coefficients de corrélation partielle
Ils sont donnés par:

Préparé par Pr. D. SOUAG 21

Préparé par Pr. D. SOUAG 22

11
17/01/2021

II- Corrélation multiple


• Corrélation multiple
Supposons que l’on cherche à expliquer une variable y à partir de
k variables explicatives
On commence par estimer les
moyennes et les écart-types des
variables mises en jeu ainsi que les
Coefficients de corrélation totales.
Puis à évaluer les k+1
coefficients de régression ai ,
le coefficient de corrélation multiple R, et les k coefficients de
corrélation partielle.
Les paramètres ai peuvent être estimés par la méthode des
moindres carrés ou toute autre méthode d’optimisation.

Préparé par Pr. D. SOUAG 23

II- Corrélation multiple


Mise en œuvre
Ayant une variable Y que l'on désire expliquer à partir d'autres
variables X : on fait l'inventaire des Xi susceptibles d'avoir
une influence sur Y. Deux méthodes sont alors
envisageables :

a) Méthode régressive (backward elimination)


On effectue la régression multiple avec toutes les variables Xi ;
on calcule alors les différents coefficients de corrélation
partielle et on élimine éventuellement la variable dont le
coefficient est le moins significatif et on recommence
jusqu'à ce que tous les coefficients de corrélation soient
significatifs à un seuil fixé à l'avance.

Préparé par Pr. D. SOUAG 24

12
17/01/2021

II- Corrélation multiple


b) Méthode progressive (Stepwise Regression)
On commence par faire une régression simple entre Y et
la variable Xi qui lui est le mieux corrélé ; on vérifie que
le coefficient de corrélation est significatif. On cherche
alors la variable Xj qui se corrèle le mieux avec le résidu
de la régression de Xi et Y. On effectue alors une
régression double, on vérifie les coefficients de
corrélations partielles. Si la dernière variable introduite
n'est pas significative, on s'arrête, si une des variables
précédemment entrées n'est plus significative, on la
sort. Si le coefficient de corrélation multiple n'est plus
significatif, on s'arrête. Enfin, dans les cas
contraires, on introduit un nouveau Xk qui explique le
mieux la variance résiduelle précédente.

Préparé par Pr. D. SOUAG 25

Analyse en Composantes Principales


• L'ACP est la plus simple et la plus connue des
techniques d'Analyse de Données multivariées.
• Objectif de l'Analyse en Composantes Principales
(ACP)
Etant donné un ensemble d'observations décrites par des
variables exclusivement numériques
{x1, x2 , ..., xp}, l'ACP a pour objectif de décrire ce même
ensemble de données par de nouvelles variables en
nombre réduit. Ces nouvelles variables seront des
combinaisons linéaires des variables originales, et
porteront le nom de Composantes Principales (CP).
L'ACP procède de façon à ce que la perte d'information
soit la plus faible possible.

Préparé par Pr. D. SOUAG 26

13
17/01/2021

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 27

Analyse en Composantes Principales


• L’analyse en composantes principales est une sorte de
régression linéaire à N dimension qui crée une variable.
Chaque composante principale sera définie par une
équation linéaire mettant en jeu les variables qui ont
participé à sa construction.

• Caractéristiques des variables composantes principales

 Elles sont caractérisées par la mesure de l’information


qu’elle restitue des n variables initiales.
 Elles sont ordonnées selon l’information qu’elle restitue des
n variables initiales.
 Elles ne sont pas corrélées linéairement entre elles.
 Les premières, au moins, sont moins sensibles aux
variations de la population que les variables initiales

Préparé par Pr. D. SOUAG 28

14
17/01/2021

Analyse en Composantes Principales


• Pour déterminer les composantes principales, on
part d’une matrice carrée des variables. Le choix
du type de la matrice est un paramètre de l’ACP.
• Matrice des covariances:
La covariance de deux variables X1 et X2 est un
indicateur de la variation simultanée. La
covariance est positive quand X2 croît chaque fois
que X1 croit. Elle est négative quand X2 décroît
chaque fois que X1 croit. Elle est nulle si X1 et X2
sont indépendantes. Covariance et corrélation
sont de même signe.

Préparé par Pr. D. SOUAG 29

Analyse en Composantes Principales


• Les composantes principales
A partir d’une matrice, on peut calculer les composantes
principales par calcul matriciel (diagonalisation de la
matrice).
Chaque composante principale est une combinaison
linéaire des variables impliquées dans sa
détermination. (Matrice des variables x Matrice des
vecteurs propres)
C’est cette fonction qui permet de calculer la valeur de la
composante pour chaque individu.
Le calcul de la composante est fait de telle sorte que :
 la somme et la moyenne de la composante valent 0 ;
 la variance et l’écart-type de la composante valent 1.

Préparé par Pr. D. SOUAG 30

15
17/01/2021

Analyse en Composantes Principales


• Valeur propre des composantes principales
 Chaque composante principale a une valeur propre.
 La valeur propre d’une composante principale est égale à la somme des
coefficients de corrélation au carré de chaque variable d’entrée avec la
composante.
 La notion de valeur propre est assez abstraite. On peut dire que chaque
valeur propre mesure la part de variance totale des variables impliquées
pour la composante principale correspondante (rappelons que la
variance:
1) caractérise une variable et les valeurs de sa population ;
2) mesure une dispersion qui est la moyenne des déviations au carré de
chaque individu par rapport à la moyenne de la variable).
 La somme des valeurs propres correspond à la variance totale
 Les composantes principales sont classées par valeur propre
décroissante.
 Pour mieux situer le niveau de l’information restituée par chaque
composante, on donne aussi la proportion de la valeur propre de
chaque composante par rapport à la somme des valeurs propres de
toutes les composantes.
Préparé par Pr. D. SOUAG 31

Analyse en Composantes Principales


• Combien de composantes principales faut-il garder ?
Il y a 3 critères empiriques pour savoir combien de composantes
principales garder :
Le critère de Kaiser: Si on a utilisé une matrice Eigenvalues
des corrélations (cas le
plus courant), on ne garde que les composantes principales dont la
valeur propre est > 1.
4,0

Valeur du pourcentage: La valeur propre est aussi donnée en


F1

pourcentage. On peut garder les pourcentages significatifs. En


3,0

regardant la courbe des pourcentages cumulés, on peut faire


F2

apparaître un moment de flexion significatif qui montre qu’à partir


de là, il y a peu d’information restituée.
2,0

F3
F4

Valeurs des coefficients de corrélation avec les variables d’origine :


F5

On peut aussi ne garder que les composantes principales qui ont un


1,0 F6
F7

coefficient de corrélation élevé avec au moins une variable


F8
F9
F10
F11

d’origine.
F12
F13
F14

0,0

Préparé par Pr. D. SOUAG 32

16
17/01/2021

Procédure de Analyse en Composantes Principales


Données brutes (matrice mxn)
m variables et n observations (ou individus)
Calcul des paramètres statistiques (moyennes et écart-
types)
Calcul des coefficients de corrélation à partir des données
centrées et réduites
Détermination des valeurs propres  (m valeurs) et des
vecteurs propres (matrice mxm)
Calcul des composantes principales (CP)
CP=Matrice des variables centrées réduites*matrice des vecteurs propres)

Calcul des composantes principales centrées réduites (CP’)

Calcul des coefficients de corrélation entre les CP’ et les


variables centrés réduites
Tracé des cercles de corrélation et interprétation des
résultats de l’ACP
Préparé par Pr. D. SOUAG 33

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 34

17
17/01/2021

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 35

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 36

18
17/01/2021

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 37

Analyse en Composantes Principales

Préparé par Pr. D. SOUAG 38

19
17/01/2021

Analyse en Composantes Principales


• Applications de l'Analyse en Composantes Principales
1- Analyse exploratoire des données
L'utilisation la plus commune de l'ACP est de fournir des données
décrites par un grand nombre de variables quantitatives des
représentation planes (et donc interprétables visuellement) aussi
fidèles que possible. Pour cela, on projette ces données sur des
plans factoriels, chaque plan étant défini par une paire de
Composantes Principales prises parmi les premières CP.
De l'examen de ces projection, l'analyste tentera de tirer des
informations sur la structure des données, par exemple :
 L'existence et la localisation d'observations "exceptionnelles", ou
"aberrantes", c'est à dire très éloignées de l'ensemble des autres
observations.
 L'existence de regroupements bien marqués ("classes", ou
"clusters"), suggérant l'existence de plusieurs sous-populations au
sein de l'ensemble des observations.

Préparé par Pr. D. SOUAG 39

Analyse en Composantes Principales


2 - Prétraitement de données, réduction de dimensionalité
En pratique, l'analyste fait souvent face à des variables en
nombre beaucoup plus important que le "nombre
optimal" de variables pour le modèle considéré.
Il existe parfois des techniques spécialisées de sélection de
variables), mais des techniques de réduction de
dimensionalité comme l'ACP peuvent également être
utilisées pour n'alimenter le modèle qu'avec un nombre
réduit de variables : par exemple, une Régression Linéaire
Multiple "ordinaire" peut parfois être avantageusement
remplacé par une Régression utilisant les k premières CP
comme variables indépendantes (Régression sur
Composantes Principales).

Préparé par Pr. D. SOUAG 40

20
17/01/2021

Analyse en Composantes Principales


3- Compression et reconstitution de données
La table des données décrivant les observations
dans les k premières CP est moins volumineuse
que la table originale. Dans une perspective de
transmission ou de stockage d'information, l'ACP
peut être perçue comme un technique de
compression de données avec pertes
(minimales).
Il est possible de reconstruire approximativement
les données dans un espace à p dimensions à
partir de leurs projections dans un sous-espace
optimal à k dimensions, avec k < p., par un
processus itératif. (hydrolab)
Préparé par Pr. D. SOUAG 41

Préparé par Pr. D. SOUAG 42

21
17/01/2021

43

22

Vous aimerez peut-être aussi