Colinearite

Modèle linéaire.
Analyse numérique d’une

matrice de corrélation.
Transitivité et Colinéarité.
Thierry Foucart
UMR 6086, Mathématiques, SP2MI, Bd Marie et Pierre Curie, BP 30179
86962 FUTUROSCOPE CHASSENEUIL CEDEX.
1. introduction au
modèle linéaire.
1.1 un exemple
• étude des liaisons entre le revenu, l’âge, la
CSP, le niveau de diplôme, l’orientation
politique, le sexe … au sein d’une population
d’électeurs.
• Grand nombre de tableaux croisés :

impuissance des tests classiques du 2 et de
Fisher
• modélisation : expression mathématique des

liaisons.
1.2 modèle linéaire.
Y = 0 +  1 X 1 +  2 X 2 +  3 X3 +  4 X 4 + 
Y : revenu
X1 : âge
X2 : CSP
X3 : diplôme
X4 : orientation politique
 : variable d’ajustement
hypothèses rigides (linéarité, indépendance des
observations, normalité et homoscédasticité de la
variable d’ajustement ).
1.3 interprétation du modèle
• toutes choses égales par ailleurs.
• recherche d’un effet propre de Xj sur Y : j  0.
• l’âge X1 augmente d’un an : le revenu moyen Y

augmente toujours de 1, quelle que soient la
CSP, le diplôme, l’orientation politique.
• démarche implicite : on suppose a priori

l’existence d’un effet propre et on le contrôle.
1.4 analyse en quatre points :
• Analyse numérique de la matrice des
corrélations : transitivité, corrélation partielle.
• Colinéarité : instabilité des estimations
• Evaluation de la régression bornée.
• Régression orthogonale. Sélection des

composantes principales.
2. Analyse
numérique d’une
matrice de
corrélation
2.1 Modèle linéaire.
Y = 0 + 1 X1 + … + j Xj + ... + p Xp + 
E(Xj) = 0, V(Xj) = 1
j = coefficients de régression théoriques

 : variable résiduelle : E() = 0, V() = 2
X : matrice des observations des Xj (en colonnes)

Y : matrice des observations de Y (en colonne)
R : matrice symétrique p x p des corrélations
entre les variables Xj
2.2 Estimateur MCO
B : estimateur sans biais de variance minimale

(efficace) défini par
(B1, B2, ..., Bp)t.
Bj : estimateur du coefficient j
Les propriétés des estimateurs dépendent de R-1

2.3. Factorisation de Cholesky.
Le calcul de R-1 consiste à factoriser R puis à
inverser T.
R=TTt
Factorisation de Cholesky
LT matrice triangulaire supérieure
La matrice R étant symétrique définie positive

est inversible : la matrice T existe et est
inversible.
2.4 Calcul de la matrice T
 i = 1,..., p ti,1 = r1,i / [r1,1 ] ½ (1)
i-1
i = 2, ..., p ti,i = [ri,i -  ti,k2 ]1/2 (2)
k=1
i-1
ri,j -  ti,k tj,k
k=1
i=2,...,p-1 j=i+1,...p tj,i = ___________________ (3)
ti,i
2.5 Encadrement d’un terme
-1  ap,p–1< rp,p–1 < bp,p-1 1
p-2 p-2
ap,p–1 = – tp–1,p–1 [1 –  tp,k2]1/2 +  tp–1,k tp,k

k=1 k=1
p-2 p-2
k = 1 2 1/2 k=1
bp,p–1 = tp–1,p–1 [1 – t ]
p,k
+  tp–1,k tp,k
généralisation par permutation
ai,j < ri,j < bi,j
2.6 terme diagonal
p-1
cp,p =  tp,k2 rp,p > cp,p

k=1
rj,j > cj,j
cj,j = Rj2
Rj2 : coefficient de détermination obtenu dans

la régression de Xj par les autres variables
explicatives
2.6 Exemple numérique
X1 X 2 X3 X 4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1
r1,2  ] -0.3697771 , 0.5126343 [
r4,4  ] .98 , + [ R42 = 0.98

3. Relations entre les
corrélations
3.1 Transitivité de la corrélation.
X Y Z
X 1
R= Y 0.8 1
Z r3,1 r3,2 1
•Forte corrélation entre X et Y : r1,2 = 0.8
•Une forte corrélation entre Y et Z (r3,2 = 0.8)

implique-t-elle une forte corrélation entre X et Z
(r3,1 élevé) ?
3.2 Evaluation de la transitivité
X Y Z
X 1
R= Y 0.8 1
Z r3,1 r3,2 1
• r3,2 = -0.2 r3,1  ]-0.75, 0.43[

• r3,2 = 0.6 r3,1  ] 0, 0.96 [
• r3,2 = 0.746 r3,1  ] 0.196, 1[ (>>0 pour n=100)
• r3,2 = 0.919 r3,1  ] 0.499, 1[
3.3 Représentation graphique
ensemble des couples (r3,2, r3,1) tels que la

matrice soit définie positive (r1,2 = 0.8)
3.4 Généralisation
• cas d’une matrice p x p :
X1 X2 X3 X4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1
• relation entre r1,2 et r3,4 : quelle est la
conséquence de la liaison entre la CSP et le
diplôme (r1,2) sur la liaison entre l’âge et le
revenu (r3,4) ?
3.7 Positionnement du coefficient
de corrélation
Evaluation de la position de ri,j dans son intervalle
] a, b [ à l’aide d’un indice variant de –1 à 1
- 1  (ri,j – (a+b)/2) / [ (b – a)/2 ]  1

3.8 corrélation partielle
On obtient le coefficient de corrélation partielle :
rpi,j = (ri,j – (a+b)/2) / [ (b – a)/2 ]
• ri,j = (a + b)/2 si et seulement si rpi,j = 0

• rpi,j fonction linéaire croissante de ri,j
• ri,j tend vers a ou b si et seulement rpi,j tend
vers 1 en v.a.
• relation entre rk,l et rpi,j : rk,l tend vers a
(ou b) implique que rpi,j tend vers 1 en
4. Colinéarités
statistiques.
4.1 Application du modèle
• Domaine d’application D = ensemble des valeurs
vraisemblables des variables explicatives.
• forte liaison entre la CSP et le diplôme : un

employé a rarement un diplôme BAC+5. Le
modèle ne permet pas d’estimer le revenu d’un
employé titulaire d’un BAC+5.
• Plus les variables explicatives sont nombreuses :

plus le risque de colinéarité est élevé.
moins la colinéarité est visible.
plus le domaine d’application est restreint.
4.2 Colinéarités statistiques
• entre deux variables : leur coefficient de

corrélation linéaire est proche de 1 en valeur
absolue .
• entre plusieurs variables : il existe une

combinaison linéaire de ces variables de
variance faible (d’où l’ACP).
4.3 Conséquences numériques
Les termes de la matrice R-1 sont élevés,
en particulier les termes diagonaux.
Termes diagonaux de VB : variances des

estimateurs Bj
4.4 Effets de la colinéarité statistique
• Variances des estimateurs MCO des j élevées :
d’où valeurs des coefficients estimés parfois
élevées.
• Coefficients de corrélation entre les Bj proches de

 1 : compensation entre les estimations
• Conséquence : coefficients estimés parfois

opposés aux coefficients théoriques
• Coefficient de détermination instable.

4.5 modèle simulé.
Y = 0.5 X1 + 0.5 X2 – 0.5 X3 – 0.5 X4 + 
n = 100 R 2 = 1
X1 X2 X3 X4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1
4.6 Interprétation du modèle :
Le modèle théorique correspond aux propriétés
suivantes :
• l’âge et la CSP ont un effet propre positif sur

le revenu (1 = 2 = 0.5 )
• le diplôme et l’orientation politique un effet

propre négatif sur le revenu (3 = 4 = - 0.5 ).
4.7 Estimations suivant les MCO
(premier échantillon, n = 100)
Estimation écart-type t vraie valeur
b1 1.6339 0.8739 1.870 0.5
b2 -0.1482 0.5659 -0.262 0.5
b3 -1.0375 0.4153 -2.498 -0.5
b4 0.4439 0.7848 0.566 -0.5
b0 -0.1650 0.1110 -1.486 0

R2 = 0.49
4.8 Estimations suivant les MCO
(deuxième échantillon, n = 100)
Estimation écart-type t vraie valeur
b1 0.4638 0.7832 0.592 0.5
b2 0.3674 0.5072 0.724 0.5
b3 -0.5204 0.3722 -1.398 -0.5
b4 -0.5594 0.7033 -0.795 -0.5
b0 -0.0985 0.0995 -0.990 0
R2 = 0.50
4.9 Coefficient de détermination
Troisième exemple
X1 X2 X3 Y
X1 1
X2 0.6 1
X3 -0.279 0.6 1
Y 0.0446 0 0 1
R2 = 0.99536 (r1,2 = 0.600)
R2 = 0.45260 (r1,2 = 0.599)

4.10 Variation du coefficient de
détermination R42 en fonction de r1,2
5. Détection de la
colinéarité.
X1 X2 X3 X4
X1 1
X2 0.5 1
X3 0.5 0.5 1
X4 -0.5 0.4 0.3 1
5.1 Facteurs d’inflation
• Facteurs d’inflation :
fj = 1 / (1 – Rj2)
(termes diagonaux de la matrice R-1)
• Indice de multicolinéarité (Tomassonne) :

I = (1/p)  fj
(moyenne des facteurs d’inflation)
En l’absence totale de colinéarité, les facteurs
d’inflation et l’indice I sont égaux à 1
5.2 Valeurs propres
• On note 1, 2, …, p les valeurs propres de R
classées suivant les valeurs décroissantes.
Faibles valeurs propres : colinéarité statistique
• L’indice de conditionnement  (Belsley et al.):
 = 1/ p (ou 1/ p)
• L’indice de multicolinéarité :
I = (1/p)  1/ j
5.3 Application au modèle simulé
•Facteurs d’inflation :
b1 f1 = 62
b2 f2 = 26
b3 f3 = 14
b4 f4 = 50
•Valeurs propres
1=2.019 2=1.47 3=0.5 4= 0.007
•Indice de multicolinéarité I = 38
• Indice de conditionnement  = 148.83
6. Application de la
régression bornée.
6.1 Estimateur biaisé d’un
paramètre 
E[(X’ –  )2] = V(X’) + [E(X’) – ]2

E[(X –  )2] = V(X) > E[(X’ –  )2]
6.2 Estimateur de la régression
bornée
critère des MC sous la contrainte B 2  M
(Pour k = 0, on retrouve l’estimateur des MCO)

6.3 Application.
• On fait varier k de 0 à 1.
• on estime les coefficients de régression

par l’estimateur de la régression bornée.
• On construit la représentation graphique

des bj en fonction de k appelée ridge
trace.
• On choisit k de façon que leurs valeurs

soient stabilisées.
6.4 Premier exemple
6.5 estimations (k = 0.1)
6.6 Deuxième exemple
6.7 estimations (k = 0.02).
6.8 Distances entre vecteur observé
et vecteur réel
d, B= bj–j
(erreur quadratique)
• 50 échantillons de taille 100 : 50 distances
1) par la régression des MCO k = 0

2) par la régression bornée k = 0.01
3) par la régression bornée k = 0.05
6.9 Résultats numériques
Carrés des distances

entre vecteurs estimés et vecteur vrai
(50 vecteurs estimés)
6.10 Les 20% plus mauvais
résultats par les MCO
6.11 fonction de répartition des
carrés des distances (MCO)
6.12 Variation de la moyenne
des ||B - || 2
6.13 Optimisation
Meilleure Moyenne des Variance
valeur de k : carrés des distances
k = 0.078 0.039 0.001
Forte stabilité de l’erreur quadratique pour

0.05 < k < 0.1
6.14 Critique de la régression bornée
• amélioration considérable des estimations
• résultats discutables dans le cas de coefficients

de régression théoriques élevés en valeur
absolue. D’où la nécessité de les évaluer a priori.
• mise en oeuvre nécessitant une démarche

critique d’analyse des coefficients de régression.
6.15 Développements
• Régression bornée partielle : on calcule les
dérivées des coefficients de régression par
rapport à chaque terme diagonal de R, et on
on ajoute une constante à ceux dont la
dérivée est la plus grande en v.a.
• Détection de valeurs influentes : les valeurs

observées influentes sont celles par rapport
auxquelles les dérivées des coefficients de
régression sont les plus grandes en v.a.
7. régression
orthogonale
7.1 Méthode
ACP du tableau de données X :
C=XU
• U : tableau des vecteurs principaux, vecteurs

propres unitaires de R.
• C : tableau des composantes principales Cl

(n lignes et q colonnes)
On considère les composantes principales

comme variables explicatives.
7.2 Modélisation et estimateurs
Y = 0’ + 1’ C1 + … + l’ Cl + ... + p’ Cp + 
l’ = cov (Y, Cl) / l
B’ = 1/n D1/Ct Y
estimateur B’’ des coefficients de régression
des variables initiales :
B’’ = U B’ VB’’ = U VB’ Ut

7.3 Choix des composantes
principales
Algorithme descendant
On sélectionne la composante principale Cl en fonction de

son coefficient de régression bl’ avec la variable expliquée
Y.
• bl’  > b’0 : on sélectionne la composante principale.
• bl’  < b’0 :on écarte la composante principale.
Le test sur le coefficient de corrélation partielle rpl est

équivalent : on fixe alors une valeur limite rp0.
7.4 Premier type d’erreur
Y = 0’ + 1’ C1 + … + l’ Cl + ... + p’ Cp + 
(théo.)
Y = b0’ + b1’ C1 + … + bl’ Cl + ... + bp’ Cp + e

(obs.)
erreur possible : introduire Cl avec l’ nul :
la moyenne des carrés des erreurs est égale à :
bl’2 l
(erreur de type I)
7.5 Second type d’erreur
Y = 0’ + 1’ C1 + … + l’ Cl + ... + p’ Cp + 
(théo.)
Y = b0’ + b1’ C1 + … + bl’ Cl + ... + bp’ Cp + e
(obs.)
erreur possible : éliminer Cl avec l’ non nul

(erreur de type II)
La moyenne des carrés des erreurs est égale

à l’2 l
7.6 évaluation de l’erreur de type II:
• l’ inconnu : Démarche baysienne
• Probabilité a priori sur l’ensemble contenant

le coefficient de régression l’
• E(l’2 l ) : mesure de l’erreur de type II.
• En pratique : on étudie le coefficient de

corrélation partielle (loi normale tronquée).
7.7 Algorithme
•On choisit la région critique du test en fixant
un coefficient de corrélation partielle limite.
• On calcule la somme des deux erreurs
•On recommence le calcul en faisant varier le
coefficient de corrélation partielle limite
de -1 à 1.
• on en déduit celui qui minimise la moyenne
des deux erreurs.
On applique cet algorithme aux deux exemples

précédents.
7.8 Application (1e simulation).
Pour chaque valeur du coefficient de corrélation
partiel limite rp entre 0 et 1, on calcule la
somme des deux erreurs
7.9 Résultats numériques
Valeur limite du coefficient de corrélation partielle

0.0991
Valeur du coefficient de corrélation correspondant
0.0709
Valeur limite du F 0.9422 vraisemblance
P(F>f)= 0.3389
7.10 Exemple 1 : conclusion
• toutes les composantes principales sont
conservées.
• les coefficients de régresion sont égaux aux
coefficients de régression initiaux (MC).
• la régression bornée et la régression

orthogonale donnent des résultats très différents.
• D’où la nécessité d’une réflexion a priori sur les

coefficients de régression théoriques.
7.11 Application (2e simulation).
• Valeur limite 0.149, observée 0.002. On

élimine C4.
• On élimine également C1, et les prédicteurs
retenus sont C2 et C3 (variance résiduelle
estimée minimale).
Exemple 2 : conclusion
Régression orthogonale des moindres carrés
estimation écart-type estimation écart-type
b1 0.449 0.047 0.464 0.783
b2 0.323 0.094 0.367 0.507
b3 -0.561 0.104 -0.520 0.372
b4 -0.556 0.065 -0.559 0.703
La régression orthogonale diminue considé-

rablement les écarts-types des estimateurs.
7.13 Commentaires sur l’algorithme
• Le choix des composantes principales à

éliminer dépend de [r(Y,Cl) 2 / l ].
• Eliminer une composante principale de faible
variance n’est pas toujours une bonne décision.
• Conserver une composante principale de

variance relativement élevée n’est pas toujours
une bonne décision.
• Risque de 1e espèce correspondant à la valeur
limite largement supérieur à 5%.
CONCLUSION
• Le modèle linéaire compense l’impuissance des
tests classiques en recourant à des hypothèses
rigides.
• Ces hypothèses mathématiques sont vérifiées
dans les simulations effectuées, mais jamais
dans la réalité.
• Une réflexion non statistique sur la nature des

données est indispensable pour appliquer le
modèle linéaire et en interpréter correctement
les résultats.
BIBLIOGRAPHIE
1. Colinéarité et régression linéaire, Math. & Sci.
hum. Mathematics and Social Sciences (43e
année, n° 173, 2005(4), p. 5-25).
2. évaluation de la régression bornée. Revue des
Nouvelles Technologies de l’Information, éd.
Cépaduès sous presse.
3. Limites de l’informatisation des sciences de
l’homme et de la société. Contribution à
l’ouvrage collectif Les sciences humaines et
sociales à l’heure des technologies de
l’information et de la communication, dir. B.
Reber C. Brossaud , publication prévue juin
2007, Hermès, Paris.
Compléments
http://foucart.thierry.free.fr
Matrices de corrélation
X1 X2 X3 X4 Y
X1 1.000
X2 0.500 1.000
X3 0.500 0.500 1.000
X4 -0.500 0.400 0.300 1.000
Y1 0.540 0.216 -0.107 -0.491 1.000

Y2 0.486 0.084 -0.199 -0.584 1.000

Colinearite

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Colinearite

Transféré par

Droits d'auteur :

Formats disponibles

Modèle linéaire.

Analyse numérique d’une

• Grand nombre de tableaux croisés :

• modélisation : expression mathématique des

• recherche d’un effet propre de Xj sur Y : j  0.

• l’âge X1 augmente d’un an : le revenu moyen Y

• démarche implicite : on suppose a priori

• Colinéarité : instabilité des estimations

• Evaluation de la régression bornée.

• Régression orthogonale. Sélection des

j = coefficients de régression théoriques

X : matrice des observations des Xj (en colonnes)

B : estimateur sans biais de variance minimale

Les propriétés des estimateurs dépendent de R-1

LT matrice triangulaire supérieure

La matrice R étant symétrique définie positive

ap,p–1 = – tp–1,p–1 [1 –  tp,k2]1/2 +  tp–1,k tp,k

cp,p =  tp,k2 rp,p > cp,p

rj,j > cj,j

Rj2 : coefficient de détermination obtenu dans

r1,2  ] -0.3697771 , 0.5126343 [

r4,4  ] .98 , + [ R42 = 0.98

•Forte corrélation entre X et Y : r1,2 = 0.8

•Une forte corrélation entre Y et Z (r3,2 = 0.8)

• r3,2 = -0.2 r3,1  ]-0.75, 0.43[

ensemble des couples (r3,2, r3,1) tels que la

- 1  (ri,j – (a+b)/2) / [ (b – a)/2 ]  1

• ri,j = (a + b)/2 si et seulement si rpi,j = 0

• forte liaison entre la CSP et le diplôme : un

• Plus les variables explicatives sont nombreuses :

• entre deux variables : leur coefficient de

• entre plusieurs variables : il existe une

Termes diagonaux de VB : variances des

• Coefficients de corrélation entre les Bj proches de

• Conséquence : coefficients estimés parfois

• Coefficient de détermination instable.

• l’âge et la CSP ont un effet propre positif sur

• le diplôme et l’orientation politique un effet

b3 -1.0375 0.4153 -2.498 -0.5

b4 0.4439 0.7848 0.566 -0.5

b0 -0.1650 0.1110 -1.486 0

b4 -0.5594 0.7033 -0.795 -0.5

b0 -0.0985 0.0995 -0.990 0

R2 = 0.45260 (r1,2 = 0.599)

• Indice de multicolinéarité (Tomassonne) :

• L’indice de conditionnement  (Belsley et al.):

 = 1/ p (ou 1/ p)

E[(X’ –  )2] = V(X’) + [E(X’) – ]2

(Pour k = 0, on retrouve l’estimateur des MCO)

• on estime les coefficients de régression

• On construit la représentation graphique

• On choisit k de façon que leurs valeurs

• 50 échantillons de taille 100 : 50 distances

1) par la régression des MCO k = 0

Carrés des distances

Forte stabilité de l’erreur quadratique pour

• amélioration considérable des estimations

• résultats discutables dans le cas de coefficients

• mise en oeuvre nécessitant une démarche

• Détection de valeurs influentes : les valeurs

• U : tableau des vecteurs principaux, vecteurs

• C : tableau des composantes principales Cl

On considère les composantes principales