Analyse Des Données P2

L'Analyse des Données pour la GIE
Master en GIE
El kettani Moummou
Departament Economie et Gestion

Faculté de SJES de Tétouan
El kettani Moummou L'Analyse des Données pour la GIE 1 / 22

CP's à partir des variables centrées réduites
Les composantes principales CP's peuvent aussi êtres obtenues pour les variables
centrées réduites. Soient
X1 − µ1 X2 − µ2 Xp − µp
Z1 = √ , Z2 = √ , . . . , Zp = √
σ11 σ22 σpp
"p" variables telles que E (Zi ) = µi et VAR(Zi ) = σii pour "i = 1, 2, . . . , p "
Forme matricièlle
1 1 1
Z = V − 2 (X − µ) avec COV (Z ) = V − 2 ΣV − 2
Ou on a
√ 
σ11 0 ··· 0
 .. 
1  0 . ... 0 
V 2 = 
. . .. .
. . .
 
 . . . . 
√
0 0 ··· σpp

On verie facilement que la matrice des corrélations est donnée par

1 1
ρ = V − 2 ΣV − 2
avec  
1 ρ12 ρ12 ... ρ1p
ρ21 1 ρ23 ... ρ2p 
 
 .. .
. .. . 
. 
ρ=
 . . . ··· .

 .. .
. .. .. . 
. 
 . . . . .
ρp 1 ρp2 ... ... 1
⋆ Resulta3
La i-ème composante principale des variables standards Z = (Z1 , Z2 , . . . , Zp ) avec
matrice de covariance COV (Z ) = ρ est donnée par
1
Yi = ξi′ Z = ξi′ V − 2 (X − µ) i = 1, 2, . . . , p
De plus, on a
p
X p
X
VAR(Yi ) = VAR(Zi ) = p
i=1 i=1

et
Coecients de corrélation
p
ρYi ,Zk = ξik λi i = 1, 2, . . . , p
Dans ce cas, "(λi , ξi ); i = 1, 2, . . . , p " sont les valeurs et les vecteurs propres de
la matrice ρ ( on suppose que λ1 ≥ λ2 ≥ . . . . ≥ λp ≥ 0)
Proportion de la variance d'une CP

La proportion de la variance d'une composante principale obtenue à partir de la
matrice de corrélation
est donnée par

Proportion de λk
= ; k = 1, 2, . . . , p
la k-ième CP p

• Exemple :Comparaison entre les CP's obtenues à partir des deux matrices, de
Covariances et de corrélations.
Considérer la matrice de covariance suivante

1 4
Σ=
4 100

Variance d'un echantillon au moyen des CP's
Supposons qu'on extrait d'une manière indépendante n-observations,

x1 , x2 , . . . , xn , d'une certaine population p-dimensionnelle de moyen " µ " et de
covariance " Σ ". A partir de ces données on peut calculer
1 la moyenne d'echantillonnage X̄
2 la covarinace d'echantillonnage S
3 la matrice de corrélation d'échantillonnage R
Notre objectif est de résumer la variance de ces p-variable en choisissant, d'une

manière judisciouse, quelques combinaison linéaires de ces variables. Il s'agit, tous
simplement des combinaison linéaires uncorrélées et qui représentent une grande
partie de la variance de notre échantillon.

Variance d'un echantillon au moyen des CP's
♦ Rappel
Pour toute combinaison linéaire
ai′ x = ai 1 xj 1 + ai 2 xj 2 + . . . + aip xjp , j = 1, 2, . . . , n
on a
- la moyenne d'échantillonnage : M(ai′ x) = ai′ x̄

- la variance d'échantillonnage : VAR(ai′ x) = ai′ Sai
- la covariance d'échantillonnage : COV (ai′ x, aj′ x) = ai′ Saj
• Dénition3
Les CP's d'échantillonnage sont les combinaison linéaires dont la varaince

d'échantillonage est maximale. De la même manière ce maximum est restrinte à
l'ensemble {ai ∈ Rp /ai′ ai = 1}

Variance d'un échantillon au moyen des CP's
Etant donnée "p" variables "X1 , X2 , . . . , Xp " de matrice de covariance

d'échantillonnage "S = (Sik )i=1,2,...,p ". î );
Si on indique par "(λ̂i , ξ i = 1, 2, . . . , p "
k=1,2,...,p
les valeurs propres et les vecteurs propres associés, alors la i-ème composante
principale "i-CP" d'échantillonnage est donnée par :
yî = ξî′ x = ξî 1 x1 + ξî 2 x2 + . . . + ξîp xp ; i = 1, 2, . . . , p

ou on suppose que "(λ̂1 ≥ (λ̂2 ≥ . . . ≥ (λ̂p " (sans perte de généralité) et "x " une
observation quelconque de ces variables. Avec
Var .Echanttillon : S(yˆk ) = λ̂1 ; k = 1, 2, . . . , p

Cov .Echantillon : S(yî , yˆk ) = 0; i, k = 1, 2, . . . , p et i ̸= k
En plus on a :
k=p
X
skk = λ̂1 + λ̂2 + . . . + λ̂p
k=1
et p
ξîk λ̂i
rŷi ,xk = √ ; i, k = 1, 2, . . . , p
skk
Variance d'un échantillon au moyen des CP's :
Test de corrélations
Pour savoir si les variables "X1 , X2 , . . . , Xp " sont corrélées, on peut calculer la matrice de corrélation en appliquant
ensuite un test qui évalue si le modèle obtenu est signicatif dans son ensemble.
1 Test KMO
Le test KMO (Kaiser, Meyer et Olkin) relie les coecients de corrélation "rij " , observés entre les variables xi
et xj, de telle sorte que plus la valeur du test KMO est proche de 1, plus la relation entre les variables sera
élevée .
KMO≥ 0.9 KMO≥ 0.8 KMO≥ 0.7 KMO≥ 0.6 KMO≤ 0.5
le test est le test est le test est le test est le test est
très bon bon moyen faible très faible
Table Critère d'évaluation du test d'hypothèse H0 : correlation entres variables
2 Test de Bartlett
Le test de sphéricité de Bartlett évalue également l'applicabilité de l'analyse pour les variables étudiées. Le
test est basé sur le fait que plus la corrélation entre les variables est faible, plus le nuage de points associé
aux données considérées est sphérique. Ainsi, le modèle est signicatif (on accepte l'hypothèse nulle H0 )
quant à l'adéquation de l'application des composantes principales, selon le critère suivant :
1 si Sig.(p-valeur)< 0.05. Nous acceptons l'hypothèse nulle : il est logique d'appliquer l'analyse des
CP's
2 si Sig.(p-valeur)> 0.05. Nous rejetons l'hypothèse nulle : il n y a n'a pas de sens d'appliquer l'analyse
du CP's

Variance d'un échantillon au moyen des CP's
S'il convient d'appliquer la méthode, on ne conserve généralement que les

composantes qui collectent l'essentiel de la variabilité ([80%, 90%]) ce qui permet
de présenter les données selon deux ou trois dimensions (si deux ou trois axes
principaux sont conservés), permettant ainsi d'identier les groupes parmi les
observations.

Analyse Factorièlle
L'objectif essentiel de l'analyse factorielle est de décrire, si c'est possible, les

relations de covariance entre de nombreuses variables en termes d'autres variables
sous-jacents (plus petits en nombre).Les dites variables sont des quantités
aléatoires inobservables appelées facteurs
Fondamentalement, le modèle factoriel est motivé par l'argument suivant :

supposons que les variables peuvent être regroupées par leurs corrélations.
Autrement dit, supposons que toutes les variables d'un groupe particulier soient
fortement corrélées entre elles, mais elles présentent des corrélations relativement
faibles avec ceux d'un groupe diérent. Alors il est concevable que chaque groupe
de variables représente une seule construction sous-jacente, ou facteur, qui est
responsable des corrélations observées.
L'analyse factorielle peut être considérée comme une extension de l'analyse en

composantes principales. Les deux peuvent être considérées comme des tentatives
d'approximation de la matrice de covariance. Cependant l'approximation basée
sur le modèle d'analyse factorielle est plus élaborée

Analyse Factorielle
Le Modèle Factoriel Orthogonal
La principale question dans l'analyse factorielle est de savoir si les données sont
conformes à une structure prescrite.
Etant donné un vecteur X = (X1 , X2 , . . . , Xp ) de p variables observables de

moyenne µ et de variance Σ. Le modèle factoriel postule que X dépend
linéairement de certaines variables aléatoires inobservables F1 , F2 , . . . , Fm
appelées facteurs communs, et de p sources de variation supplémentaires
ϵ1 , ϵ2 , . . . , ϵp , appelés erreurs.
En particulier, le modèle d'analyse factorielle est :
Xi = µi + αi 1 F1 + αi 2 F2 + . . . + αim Fm + ϵi ; i = 1, 2, . . . , p
Forme matricièlle
X − µ = LF + ϵ (1)
ou ona
µ = (µ1 , µ2 , . . . , µp )′ ; L = (αij )i=1,2,...,p et ϵ = (ϵ1 , ϵ2 , . . . , ϵp )′
j=1,2,...,m

Quelques nomenclatures :
1 µi : la moyenne de la variable Xi
2 αij : les coecients de pondérations(ou de charge)de la variable i sur le
facteur j
3 L : la matrice de pondérations
4 ϵi : le i-ème facteur spécique associé à la variable Xi 1
Avec autant de quantités non observables, une vérication directe du modèle

factoriel à partir d'observations sur X2 , . . . , Xp est sans espoir
Pour faciliter notre tache, on va supposer ( des hypothèses qui peuvent être
vériées) que :
E (F ) = 0; Cov (F ) = E (FF ′ ) = I
E (ϵ) = 0; Cov (ϵ) = E (ϵϵ′ ) = ψ = Diag (ψi )i=1,...,p
1. Comme le souligne Maxwell [1977], dans de nombreuses enquêtes, les ϵ ; ont tendance à être des combinaisons
d'erreur de mesure et des facteurs qui sont uniquement associés aux variables individuelles.
Avec F et ϵ sont indépendants, tels que :
Cov (ϵ, F ) = E (ϵF ′ ) = 0
Ce modèle factoriel orthogonal implique une structure de la variance de X telle

que
(X − µ)(X − µ)′ = (LF + ϵ)(LF + ϵ)′

= (LF + ϵ)(F ′ L′ + ϵ′ )
= LFF ′ L + ϵF ′ L′ + LF ϵ′ + ϵϵ′
D'ou on a
Σ = Cov (X ) = E (X − µ)(X − µ)′

= LL′ + ψ 2
2. le cas ou les facteurs F présenent une corrélation de sorte que Cov (F) ne soit pas diagonal donne le modèle à
facteurs obliques. Le modèle oblique présente quelques dicultés d'estimation supplémentaires et ne sera pas abordé
dans notre cours
Le Modèle Factoriel Orthogonal : Structure de la covariance
1 Cov (X ) = LL′ + ψ
ou bien
Var (Xi ) = αi21 + αi22 + . . . + αim 2 +ψ
i
Cov (Xi , Xk ) = αi 1 αk 1 + αi 2 αk 2 + . . . + αim αkm
2 Cov (X , F ) = L
ou bien
Cov (Xi , Fj ) = αij
La très importante hypothèse de linéarité est inhérente à la formulation du

modèle factoriel traditionnel
- La proportion de la variance attribuée au i-ème facteur commun Fi est

appelée la i-ème communauté.
- La proportion de la variance Var (Xi ) = σii due au facteur spécique est

souvent appelée l'unicité, ou la variance spécique.

♦Noter bien
En cas où le nombre de facteurs m est bien inférieur à p la plupart des matrices
de covariance ne peuvent pas être factorisées comme LL′ + ψ (Malheureusement
pour l'analyste factoriel).
•Exemple
Considérer X1 , X2 , X3 trois variables observables, de matrice de covariance
(dénie positive)
 
1 0.9 0.7
Σ =  0.9 1 0.4 
0.7 0.4 1
Pour m = 1, Essayer de détérminer les paramètres αij et ψi , à partir de la

structure de la matrice de covariance indiquée avant.

♦Noter bien
Lorsque m > 1, il y a toujours une certaine ambiguïté inhérente associée au

modèle factoriel : En se basant sur des observation de X, il est impossible de
distinguer les chargements L
Procédure
L'analyse du modèle factoriel se réalise en imposant des conditions qui permettent
d'estimer de manière unique les matrices L et ψ

Le Modèle Factoriel Orthogonal :Méthodes d'éstimation
Étant donné x1 , x2 , ..., xn n observations faites sur p variables( généralement

corrélées), l'analyse factorielle cherche à répondre à la question suivante :
Est ce que le modèle factoriel (1) représente-t-il adéquatement les données, avec
un petit nombre de facteurs ?
Essentiellement, nous abordons ce problème de construction de modèle statistique

en essayant de vérier la relation de covariance.
Si les éléments hors diagonale de la matrice S (estimation de Σ) sont petits ou

ceux de la matrice de corrélation R essentiellement nulle, alors les variables ne
seront pas liées et une analyse factorielle ne s'avérera pas utile. cependant, si la
covariance semble s'écarter signicativement d'une matrice diagonale, alors un
modèle factoriel peut être envisagé, et le problème initial consiste à estimer les
saturations factorielles αij et les variances (les écarts) spéciques ψi

♦Méthode des Facteurs principaux
Considérer une matrice de covariance Σ avec les variables et les vecteurs propres
respectives (λ1 , ξ1 ), (λ2 , ξ2 ), . . . , (λp , ξp ) tels que λ1 ≥ λ2 ≥ . . . ≥ λp , alors la
décomposition spectrale nous ore une décomposition de la matrice Σ:
Σ = λ1 ξ1 ξ1′ + λ2 ξ2 ξ2′ + . . . + λp ξp ξp′√

λ1 ξ1′

√. . . ′
 
 
 λ2 ξ2 
√ √

. . .
 
= λ1 ξ1 .. λ2 ξ2 )....... λp ξp 
p  ... 

.
.
 
 . 
 
p. . . ′
 
λ p ξp
Cela correspond à la structure de covariance prescrite pour le modèle d'analyse
factorielle ayant autant de facteurs que de variables (m = p) et des variances
spéciques ψi = 0 pour tout i : Σ = LL′ + ψ
• Approche
Lorsque les dernières p − m valeurs propres sont petites en valeurs , alors une
de stechniques consiste à négliger la contribution de
′ ′ ′
λm+1 ξm+1 ξm+ 1 + λm+2 ξm+2 ξm+2 + . . . + λp ξp ξp
à Σ. On obtiendra ainsi l'approximation :
 √
λ1 ξ1′

√. . . ′
 
 
p  λ 2 ξ2 
.p . .p
 
. . . ...
Σ= λ1 ξ1 . λ2 ξ2 )..... λm ξm   = LL′ (2)
 
.
.
 

 . 

√... ′
 
λ m ξm

• Noter bien
Cette approximation (2)prend les ϵ de la relation (1) comme facteurs
spéciques d'importance mineure et peuvent également être ignorés dans la
factorisation de Σ Par contre si des facteurs spéciques sont inclus dans le
modèle, leurs variances peuvent être prises comme les éléments de la diagonal de
Σ − LL′ . Par suite on aura la relation :
Σ = LL′ + ψ  √
λ1 ξ1′

√. . . ′
   
  ψ1 0 ... 0
 λ 2 ξ2 

√ .√ . .√
   0 ψ2 0 0 
= λ1 ξ1 .. λ2 ξ2 )....... λm ξm  ...  +  ..
   
.. .
.

.   . ... . .
.
 
 . 
  0 0 ... ψp
√... ′
 
λ m ξm
avec
m
αij2 i = 1, 2, . . . , p
X
ψi = σii −
j=1
Rappelons que pour appliquer cette approche à un ensemble de données

x1 , x2 , ..., xn , il est d'usage centrer et réduire d'abord ces observations :

′ xj 1 − x¯1 xj 2 − x¯2 xjp − x¯p
zj = √ , √ ,..., √ , j = 1, 2, . . . , n
s11 s22 spp

Analyse Des Données P2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Données P2

Transféré par

Droits d'auteur :

Formats disponibles

L'Analyse des Données pour la GIE

Departament Economie et Gestion

El kettani Moummou L'Analyse des Données pour la GIE 1 / 22

El kettani Moummou L'Analyse des Données pour la GIE 2 / 22

On verie facilement que la matrice des corrélations est donnée par

El kettani Moummou L'Analyse des Données pour la GIE 3 / 22

Proportion de la variance d'une CP

El kettani Moummou L'Analyse des Données pour la GIE 4 / 22

El kettani Moummou L'Analyse des Données pour la GIE 5 / 22

Supposons qu'on extrait d'une manière indépendante n-observations,

Notre objectif est de résumer la variance de ces p-variable en choisissant, d'une

El kettani Moummou L'Analyse des Données pour la GIE 6 / 22

ai′ x = ai 1 xj 1 + ai 2 xj 2 + . . . + aip xjp , j = 1, 2, . . . , n

- la moyenne d'échantillonnage : M(ai′ x) = ai′ x̄

Les CP's d'échantillonnage sont les combinaison linéaires dont la varaince

El kettani Moummou L'Analyse des Données pour la GIE 7 / 22

Etant donnée "p" variables "X1 , X2 , . . . , Xp " de matrice de covariance

yî = ξî′ x = ξî 1 x1 + ξî 2 x2 + . . . + ξîp xp ; i = 1, 2, . . . , p

Var .Echanttillon : S(yˆk ) = λ̂1 ; k = 1, 2, . . . , p

Table  Critère d'évaluation du test d'hypothèse H0 : correlation entres variables

El kettani Moummou L'Analyse des Données pour la GIE 9 / 22

S'il convient d'appliquer la méthode, on ne conserve généralement que les

El kettani Moummou L'Analyse des Données pour la GIE 10 / 22

L'objectif essentiel de l'analyse factorielle est de décrire, si c'est possible, les

Fondamentalement, le modèle factoriel est motivé par l'argument suivant :

L'analyse factorielle peut être considérée comme une extension de l'analyse en

El kettani Moummou L'Analyse des Données pour la GIE 11 / 22

Etant donné un vecteur  X = (X1 , X2 , . . . , Xp ) de p variables observables de

El kettani Moummou L'Analyse des Données pour la GIE 12 / 22

4 ϵi : le i-ème facteur spécique associé à la variable Xi 1

Avec autant de quantités non observables, une vérication directe du modèle

Avec F et ϵ sont indépendants, tels que :

Cov (ϵ, F ) = E (ϵF ′ ) = 0

Ce modèle factoriel orthogonal implique une structure de la variance de X telle

(X − µ)(X − µ)′ = (LF + ϵ)(LF + ϵ)′

Σ = Cov (X ) = E (X − µ)(X − µ)′

La très importante hypothèse de linéarité est inhérente à la formulation du

- La proportion de la variance attribuée au i-ème facteur commun Fi est

- La proportion de la variance  Var (Xi ) = σii  due au facteur spécique est

El kettani Moummou L'Analyse des Données pour la GIE 15 / 22

Pour  m = 1, Essayer de détérminer les paramètres αij et ψi , à partir de la

El kettani Moummou L'Analyse des Données pour la GIE 16 / 22

Lorsque  m > 1, il y a toujours une certaine ambiguïté inhérente associée au

El kettani Moummou L'Analyse des Données pour la GIE 17 / 22

Étant donné  x1 , x2 , ..., xn  n observations faites sur p variables( généralement

Essentiellement, nous abordons ce problème de construction de modèle statistique

Si les éléments hors diagonale de la matrice S (estimation de Σ) sont petits ou

El kettani Moummou L'Analyse des Données pour la GIE 18 / 22

♦Méthode des Facteurs principaux

Σ = λ1 ξ1 ξ1′ + λ2 ξ2 ξ2′ + . . . + λp ξp ξp′√

à Σ. On obtiendra ainsi l'approximation :

El kettani Moummou L'Analyse des Données pour la GIE 20 / 22

Rappelons que pour appliquer cette approche à un ensemble de données

El kettani Moummou L'Analyse des Données pour la GIE 22 / 22

Vous aimerez peut-être aussi

On verie facilement que la matrice des corrélations est donnée par

Table Critère d'évaluation du test d'hypothèse H0 : correlation entres variables

Etant donné un vecteur X = (X1 , X2 , . . . , Xp ) de p variables observables de

4 ϵi : le i-ème facteur spécique associé à la variable Xi 1

Avec autant de quantités non observables, une vérication directe du modèle

- La proportion de la variance Var (Xi ) = σii due au facteur spécique est

Pour m = 1, Essayer de détérminer les paramètres αij et ψi , à partir de la

Lorsque m > 1, il y a toujours une certaine ambiguïté inhérente associée au

Étant donné x1 , x2 , ..., xn n observations faites sur p variables( généralement