Vous êtes sur la page 1sur 22

L'Analyse des Données pour la GIE

Master en GIE

El kettani Moummou

Departament Economie et Gestion


Faculté de SJES de Tétouan

El kettani Moummou L'Analyse des Données pour la GIE 1 / 22


CP's à partir des variables centrées réduites

Les composantes principales CP's peuvent aussi êtres obtenues pour les variables
centrées réduites. Soient

X1 − µ1 X2 − µ2 Xp − µp
Z1 = √ , Z2 = √ , . . . , Zp = √
σ11 σ22 σpp
"p" variables telles que E (Zi ) = µi et VAR(Zi ) = σii pour "i = 1, 2, . . . , p "

Forme matricièlle
1 1 1
Z = V − 2 (X − µ) avec COV (Z ) = V − 2 ΣV − 2
Ou on a

√ 
σ11 0 ··· 0
 .. 
1  0 . ... 0 
V 2 = 
. . .. .
. . .
 
 . . . . 

0 0 ··· σpp

El kettani Moummou L'Analyse des Données pour la GIE 2 / 22


CP's à partir des variables centrées réduites

On verie facilement que la matrice des corrélations est donnée par


1 1
ρ = V − 2 ΣV − 2
avec  
1 ρ12 ρ12 ... ρ1p
ρ21 1 ρ23 ... ρ2p 
 
 .. .
. .. . 
. 
ρ=
 . . . ··· .

 .. .
. .. .. . 
. 
 . . . . .
ρp 1 ρp2 ... ... 1

⋆ Resulta3
La i-ème composante principale des variables standards Z = (Z1 , Z2 , . . . , Zp ) avec
matrice de covariance COV (Z ) = ρ est donnée par
1
Yi = ξi′ Z = ξi′ V − 2 (X − µ) i = 1, 2, . . . , p
De plus, on a
p
X p
X
VAR(Yi ) = VAR(Zi ) = p
i=1 i=1

El kettani Moummou L'Analyse des Données pour la GIE 3 / 22


CP's à partir des variables centrées réduites

et

Coecients de corrélation
p
ρYi ,Zk = ξik λi i = 1, 2, . . . , p

Dans ce cas, "(λi , ξi ); i = 1, 2, . . . , p " sont les valeurs et les vecteurs propres de
la matrice ρ ( on suppose que λ1 ≥ λ2 ≥ . . . . ≥ λp ≥ 0)

Proportion de la variance d'une CP


La proportion de la variance d'une composante principale obtenue à partir de la
matrice de corrélation
est donnée par

 
Proportion de λk
= ; k = 1, 2, . . . , p
la k-ième CP p

El kettani Moummou L'Analyse des Données pour la GIE 4 / 22


CP's à partir des variables centrées réduites

• Exemple :Comparaison entre les CP's obtenues à partir des deux matrices, de
Covariances et de corrélations.
Considérer la matrice de covariance suivante
 
1 4
Σ=
4 100

El kettani Moummou L'Analyse des Données pour la GIE 5 / 22


Variance d'un echantillon au moyen des CP's

Supposons qu'on extrait d'une manière indépendante n-observations,


x1 , x2 , . . . , xn , d'une certaine population p-dimensionnelle de moyen " µ " et de
covariance " Σ ". A partir de ces données on peut calculer
1 la moyenne d'echantillonnage X̄
2 la covarinace d'echantillonnage S
3 la matrice de corrélation d'échantillonnage R

Notre objectif est de résumer la variance de ces p-variable en choisissant, d'une


manière judisciouse, quelques combinaison linéaires de ces variables. Il s'agit, tous
simplement des combinaison linéaires uncorrélées et qui représentent une grande
partie de la variance de notre échantillon.

El kettani Moummou L'Analyse des Données pour la GIE 6 / 22


Variance d'un echantillon au moyen des CP's

♦ Rappel
Pour toute combinaison linéaire

ai′ x = ai 1 xj 1 + ai 2 xj 2 + . . . + aip xjp , j = 1, 2, . . . , n

on a

- la moyenne d'échantillonnage : M(ai′ x) = ai′ x̄


- la variance d'échantillonnage : VAR(ai′ x) = ai′ Sai
- la covariance d'échantillonnage : COV (ai′ x, aj′ x) = ai′ Saj
• Dénition3

Les CP's d'échantillonnage sont les combinaison linéaires dont la varaince


d'échantillonage est maximale. De la même manière ce maximum est restrinte à
l'ensemble {ai ∈ Rp /ai′ ai = 1}

El kettani Moummou L'Analyse des Données pour la GIE 7 / 22


Variance d'un échantillon au moyen des CP's

Etant donnée "p" variables "X1 , X2 , . . . , Xp " de matrice de covariance


d'échantillonnage "S = (Sik )i=1,2,...,p ". ˆi );
Si on indique par "(λ̂i , ξ i = 1, 2, . . . , p "
k=1,2,...,p
les valeurs propres et les vecteurs propres associés, alors la i-ème composante
principale "i-CP" d'échantillonnage est donnée par :

yˆi = ξˆi′ x = ξˆi 1 x1 + ξˆi 2 x2 + . . . + ξˆip xp ; i = 1, 2, . . . , p


ou on suppose que "(λ̂1 ≥ (λ̂2 ≥ . . . ≥ (λ̂p " (sans perte de généralité) et "x " une
observation quelconque de ces variables. Avec

Var .Echanttillon : S(yˆk ) = λ̂1 ; k = 1, 2, . . . , p


Cov .Echantillon : S(yˆi , yˆk ) = 0; i, k = 1, 2, . . . , p et i ̸= k
En plus on a :
k=p
X
skk = λ̂1 + λ̂2 + . . . + λ̂p
k=1
et p
ξˆik λ̂i
rŷi ,xk = √ ; i, k = 1, 2, . . . , p
skk
El kettani Moummou L'Analyse des Données pour la GIE 8 / 22
Variance d'un échantillon au moyen des CP's :

Test de corrélations

Pour savoir si les variables "X1 , X2 , . . . , Xp " sont corrélées, on peut calculer la matrice de corrélation en appliquant
ensuite un test qui évalue si le modèle obtenu est signicatif dans son ensemble.
1 Test KMO
Le test KMO (Kaiser, Meyer et Olkin) relie les coecients de corrélation "rij " , observés entre les variables xi
et xj, de telle sorte que plus la valeur du test KMO est proche de 1, plus la relation entre les variables sera
élevée .

KMO≥ 0.9 KMO≥ 0.8 KMO≥ 0.7 KMO≥ 0.6 KMO≤ 0.5
le test est le test est le test est le test est le test est
très bon bon moyen faible très faible

Table  Critère d'évaluation du test d'hypothèse H0 : correlation entres variables

2 Test de Bartlett
Le test de sphéricité de Bartlett évalue également l'applicabilité de l'analyse pour les variables étudiées. Le
test est basé sur le fait que plus la corrélation entre les variables est faible, plus le nuage de points associé
aux données considérées est sphérique. Ainsi, le modèle est signicatif (on accepte l'hypothèse nulle H0 )
quant à l'adéquation de l'application des composantes principales, selon le critère suivant :

1 si Sig.(p-valeur)< 0.05. Nous acceptons l'hypothèse nulle : il est logique d'appliquer l'analyse des
CP's
2 si Sig.(p-valeur)> 0.05. Nous rejetons l'hypothèse nulle : il n y a n'a pas de sens d'appliquer l'analyse
du CP's

El kettani Moummou L'Analyse des Données pour la GIE 9 / 22


Variance d'un échantillon au moyen des CP's

S'il convient d'appliquer la méthode, on ne conserve généralement que les


composantes qui collectent l'essentiel de la variabilité ([80%, 90%]) ce qui permet
de présenter les données selon deux ou trois dimensions (si deux ou trois axes
principaux sont conservés), permettant ainsi d'identier les groupes parmi les
observations.

El kettani Moummou L'Analyse des Données pour la GIE 10 / 22


Analyse Factorièlle

L'objectif essentiel de l'analyse factorielle est de décrire, si c'est possible, les


relations de covariance entre de nombreuses variables en termes d'autres variables
sous-jacents (plus petits en nombre).Les dites variables sont des quantités
aléatoires inobservables appelées facteurs

Fondamentalement, le modèle factoriel est motivé par l'argument suivant :


supposons que les variables peuvent être regroupées par leurs corrélations.
Autrement dit, supposons que toutes les variables d'un groupe particulier soient
fortement corrélées entre elles, mais elles présentent des corrélations relativement
faibles avec ceux d'un groupe diérent. Alors il est concevable que chaque groupe
de variables représente une seule construction sous-jacente, ou facteur, qui est
responsable des corrélations observées.

L'analyse factorielle peut être considérée comme une extension de l'analyse en


composantes principales. Les deux peuvent être considérées comme des tentatives
d'approximation de la matrice de covariance. Cependant l'approximation basée
sur le modèle d'analyse factorielle est plus élaborée

El kettani Moummou L'Analyse des Données pour la GIE 11 / 22


Analyse Factorielle
Le Modèle Factoriel Orthogonal

La principale question dans l'analyse factorielle est de savoir si les données sont
conformes à une structure prescrite.

Etant donné un vecteur  X = (X1 , X2 , . . . , Xp ) de p variables observables de


moyenne  µ et de variance  Σ. Le modèle factoriel postule que X dépend
linéairement de certaines variables aléatoires inobservables  F1 , F2 , . . . , Fm 
appelées facteurs communs, et de p sources de variation supplémentaires
 ϵ1 , ϵ2 , . . . , ϵp , appelés erreurs.
En particulier, le modèle d'analyse factorielle est :

Xi = µi + αi 1 F1 + αi 2 F2 + . . . + αim Fm + ϵi ; i = 1, 2, . . . , p

Forme matricièlle
X − µ = LF + ϵ (1)

ou ona
µ = (µ1 , µ2 , . . . , µp )′ ; L = (αij )i=1,2,...,p et ϵ = (ϵ1 , ϵ2 , . . . , ϵp )′
j=1,2,...,m

El kettani Moummou L'Analyse des Données pour la GIE 12 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal

Quelques nomenclatures :

1 µi : la moyenne de la variable Xi
2 αij : les coecients de pondérations(ou de charge)de la variable i sur le
facteur j

3 L : la matrice de pondérations

4 ϵi : le i-ème facteur spécique associé à la variable Xi 1

Avec autant de quantités non observables, une vérication directe du modèle


factoriel à partir d'observations sur  X2 , . . . , Xp  est sans espoir

Pour faciliter notre tache, on va supposer ( des hypothèses qui peuvent être
vériées) que :

E (F ) = 0; Cov (F ) = E (FF ′ ) = I
E (ϵ) = 0; Cov (ϵ) = E (ϵϵ′ ) = ψ = Diag (ψi )i=1,...,p
1. Comme le souligne Maxwell [1977], dans de nombreuses enquêtes, les ϵ ; ont tendance à être des combinaisons
d'erreur de mesure et des facteurs qui sont uniquement associés aux variables individuelles.
El kettani Moummou L'Analyse des Données pour la GIE 13 / 22
Analyse Factorièlle
Le Modèle Factoriel Orthogonal

Avec F et ϵ sont indépendants, tels que :

Cov (ϵ, F ) = E (ϵF ′ ) = 0

Ce modèle factoriel orthogonal implique une structure de la variance de X telle


que

(X − µ)(X − µ)′ = (LF + ϵ)(LF + ϵ)′


= (LF + ϵ)(F ′ L′ + ϵ′ )
= LFF ′ L + ϵF ′ L′ + LF ϵ′ + ϵϵ′
D'ou on a

Σ = Cov (X ) = E (X − µ)(X − µ)′


= LL′ + ψ 2

2. le cas ou les facteurs F présenent une corrélation de sorte que Cov (F) ne soit pas diagonal donne le modèle à
facteurs obliques. Le modèle oblique présente quelques dicultés d'estimation supplémentaires et ne sera pas abordé
dans notre cours
El kettani Moummou L'Analyse des Données pour la GIE 14 / 22
Analyse Factorièlle
Le Modèle Factoriel Orthogonal : Structure de la covariance

1 Cov (X ) = LL′ + ψ
ou bien
Var (Xi ) = αi21 + αi22 + . . . + αim 2 +ψ
i
Cov (Xi , Xk ) = αi 1 αk 1 + αi 2 αk 2 + . . . + αim αkm
2 Cov (X , F ) = L
ou bien
Cov (Xi , Fj ) = αij

La très importante hypothèse de linéarité est inhérente à la formulation du


modèle factoriel traditionnel

- La proportion de la variance attribuée au i-ème facteur commun Fi est


appelée la i-ème communauté.

- La proportion de la variance  Var (Xi ) = σii  due au facteur spécique est


souvent appelée l'unicité, ou la variance spécique.

El kettani Moummou L'Analyse des Données pour la GIE 15 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal : Structure de la covariance

♦Noter bien
En cas où le nombre de facteurs m est bien inférieur à p la plupart des matrices
de covariance ne peuvent pas être factorisées comme LL′ + ψ (Malheureusement
pour l'analyste factoriel).
•Exemple
Considérer  X1 , X2 , X3  trois variables observables, de matrice de covariance
(dénie positive)
 
1 0.9 0.7
Σ =  0.9 1 0.4 
0.7 0.4 1

Pour  m = 1, Essayer de détérminer les paramètres αij et ψi , à partir de la


structure de la matrice de covariance indiquée avant.

El kettani Moummou L'Analyse des Données pour la GIE 16 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal : Structure de la covariance

♦Noter bien

Lorsque  m > 1, il y a toujours une certaine ambiguïté inhérente associée au


modèle factoriel : En se basant sur des observation de X, il est impossible de
distinguer les chargements L

Procédure
L'analyse du modèle factoriel se réalise en imposant des conditions qui permettent
d'estimer de manière unique les matrices L et ψ

El kettani Moummou L'Analyse des Données pour la GIE 17 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal :Méthodes d'éstimation

Étant donné  x1 , x2 , ..., xn  n observations faites sur p variables( généralement


corrélées), l'analyse factorielle cherche à répondre à la question suivante :

Est ce que le modèle factoriel (1) représente-t-il adéquatement les données, avec
un petit nombre de facteurs ?

Essentiellement, nous abordons ce problème de construction de modèle statistique


en essayant de vérier la relation de covariance.

Si les éléments hors diagonale de la matrice S (estimation de Σ) sont petits ou


ceux de la matrice de corrélation R essentiellement nulle, alors les variables ne
seront pas liées et une analyse factorielle ne s'avérera pas utile. cependant, si la
covariance semble s'écarter signicativement d'une matrice diagonale, alors un
modèle factoriel peut être envisagé, et le problème initial consiste à estimer les
saturations factorielles  αij  et les variances (les écarts) spéciques ψi

El kettani Moummou L'Analyse des Données pour la GIE 18 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal :Méthodes d'éstimation

♦Méthode des Facteurs principaux

Considérer une matrice de covariance Σ avec les variables et les vecteurs propres
respectives  (λ1 , ξ1 ), (λ2 , ξ2 ), . . . , (λp , ξp ) tels que  λ1 ≥ λ2 ≥ . . . ≥ λp , alors la
décomposition spectrale nous ore une décomposition de la matrice Σ:

Σ = λ1 ξ1 ξ1′ + λ2 ξ2 ξ2′ + . . . + λp ξp ξp′√


λ1 ξ1′

√. . . ′
 
 
 λ2 ξ2 
√ √

. . .
 
= λ1 ξ1 .. λ2 ξ2 )....... λp ξp 
p  ... 

.
.
 
 . 
 
p. . . ′
 
λ p ξp
Cela correspond à la structure de covariance prescrite pour le modèle d'analyse
factorielle ayant autant de facteurs que de variables  (m = p) et des variances
spéciques  ψi = 0 pour tout  i  : Σ = LL′ + ψ
El kettani Moummou L'Analyse des Données pour la GIE 19 / 22
Analyse Factorièlle
Le Modèle Factoriel Orthogonal :Méthodes d'éstimation

• Approche
Lorsque les dernières  p − m valeurs propres sont petites en valeurs , alors une
de stechniques consiste à négliger la contribution de

′ ′ ′
λm+1 ξm+1 ξm+ 1 + λm+2 ξm+2 ξm+2 + . . . + λp ξp ξp

à Σ. On obtiendra ainsi l'approximation :

 √
λ1 ξ1′

√. . . ′
 
 
p   λ 2 ξ2 
.p . .p
 
. . . ...
Σ= λ1 ξ1 . λ2 ξ2 )..... λm ξm   = LL′ (2)
 
.
.
 

 . 

√... ′
 
λ m ξm

El kettani Moummou L'Analyse des Données pour la GIE 20 / 22


Analyse Factorièlle
Le Modèle Factoriel Orthogonal :Méthodes d'éstimation

• Noter bien
Cette approximation (2)prend les  ϵ de la relation (1) comme facteurs
spéciques d'importance mineure et peuvent également être ignorés dans la
factorisation de Σ Par contre si des facteurs spéciques sont inclus dans le
modèle, leurs variances peuvent être prises comme les éléments de la diagonal de
Σ − LL′ . Par suite on aura la relation :

Σ = LL′ + ψ  √
λ1 ξ1′

√. . . ′
   
  ψ1 0 ... 0
 λ 2 ξ2 

√ .√ . .√
   0 ψ2 0 0 
= λ1 ξ1 .. λ2 ξ2 )....... λm ξm  ...  +  ..
   
.. .
.

.   . ... . .
.
 
 . 
  0 0 ... ψp
√... ′
 
λ m ξm
avec
m
αij2 i = 1, 2, . . . , p
X
ψi = σii −
j=1
El kettani Moummou L'Analyse des Données pour la GIE 21 / 22
Analyse Factorièlle
Le Modèle Factoriel Orthogonal :Méthodes d'éstimation

Rappelons que pour appliquer cette approche à un ensemble de données


 x1 , x2 , ..., xn , il est d'usage centrer et réduire d'abord ces observations :

 
′ xj 1 − x¯1 xj 2 − x¯2 xjp − x¯p
zj = √ , √ ,..., √ , j = 1, 2, . . . , n
s11 s22 spp

El kettani Moummou L'Analyse des Données pour la GIE 22 / 22

Vous aimerez peut-être aussi