Académique Documents
Professionnel Documents
Culture Documents
Dans ce contexte, il existe un élément clé qui guide le succès ou l'échec de la mise
en ÷uvre de ces stratégies : la prise de décision basée sur l'analyse des données en
contexte
1 L'analyse descriptive
L'analyse descriptive des données est le type d'analyse qui est présent
dans la grande majorité des organisations et avec lequel on commence
normalement
3 L'analyse prédective
La quantité de données que nous produisons aujourd'hui a permis de
vulgariser(rendre populaire) certaines techniques et modèles mathématiques
ou statistiques qui existent depuis de nombreuses années.
• Exemple
Résultats issus de l'application de l'analyse prédictive: les prévisions de la
demande, du comportement des consommateurs ou des besoins de maintenance
des machines.
Si ce n'est pas le cas, les organisations doivent de plus en plus valoriser la prise de
décisions éclairées basées sur l'analyse de données en contexte
• L'ACP est un moyen pour un objectif est ne pas un objectif: Il sert toujours
comme un pas intérmediaire dans plusieurs recherches
Idée:
le concept de plus d'informations est lié à celui de plus grande variabilité, de sorte
que plus la variabilité des données est grande, plus l'informations considérée est
grande.
• Etudier les relations qui se présentent entre les variables d'origine (qui
présentent certain correlation) dont l'information est la même;
- Taux d'alphabétisation
•Dénition1
les composantes principales sont des combinaisons linéaires des variables initiales
(d'origine). Leur construction se fait selon l'ordre d'importance de la variabilité
totale recueillie sur l'échantillon.
→ Téchniquement:
Sin on dispose de p variables initiales on cherche "m<p"variables (comme
combinason linéaire des p-variables).
Les "m"nouvelle variables ne présentent pas de corrélation et telle que
l'information ou la variabilité des données soit la plus grande possible.
♦Noter bien
p
X
Yi = aij Xj (1)
i=1
= ai′ X ; ai′ = (ai 1 , ai 2 , . . . , aip ) ∈ Rp (2)
Objectif
Chercher les coécients ai′ = (ai 1 , ai 2 , . . . , aip ) qui maximise la variance des
variables d'origin
|Σ − λI | = 0
étant
•Dénition2
Les composantes principales (CP's) sont les combinaison linéaires non corrélées,
Y1 , Y2 , . . . , Ym telles que
Par suite
⋆Resultat1 :
Soit Σ la matrice de covariance associée au vecteur X = (X1 , X2 , . . . , Xp ) dont les
valeurs et les vecteurs propres sont respectivement λ1 ≥ λ2 ≥ . . . , ≥ λp et
ξ1 , ξ2 , . . . , ξp , alors la i-ème composante principale CP est:
p
X
Yi = ξi′ X = ξij Xj , i = 1, 2, . . . , p
j
avec
⋆Resultat2 :
′
Soient Yi = ξi X , i = 1, 2, . . . , p les Cp's telles que (λi , ξi )i=1,2,....p sont les
valeurs et les vecteurs propres respectivement de Σ, avec λ1 ≥ λ2 ≥ . . . , ≥ λp ,
alors on a
p
X p
X
σii = λi ou Σ = (σj )i,j
i i=1
λ λk
Pp k =
i=1 λj λ1 + λ2 + . . . + λp
⋆Resultat3 :
′
Si Yi = ξi X , i = 1, 2 . . . , p sont les composantes principales obtenues à partir
de la matrice de Cov (X ) = Σ, alors le coecient de corrélation entre Yi et
Xk est donné par
√
ξik λi
ρYi ,Xk = √ pour i, k = 1, 2, . . . , p
σii
Les composantes principales CP's peuvent aussi êtres obtenues pour les variables
centrées réduites. Soient
X1 − µ1 X2 − µ2 Xp − µp
Z1 = √ , Z2 = √ , . . . , Zp = √
σ11 σ22 σpp
"p"variables telles que E (Zi ) = µi et VAR(Zi ) = σii pour "i = 1, 2, . . . , p "
Forme matricièlle
1 1 1
Z = V − 2 (X − µ) avec COV (Z ) = V − 2 ΣV − 2
Ou on a
√
σ11 0 ··· 0
..
1 0 . ... 0
V 2 =
. . .. .
. . .
. . . .
√
0 0 ··· σpp
⋆ Resulta3
La i-ème composante principale des variables standards Z = (Z1 , Z2 , . . . , Zp ) avec
matrice de covariance COV (Z ) = ρ est donnée par
1
Yi = ξi′ Z = ξi′ V − 2 (X − µ) i = 1, 2, . . . , p
De plus, on a
p
X p
X
VAR(Yi ) = VAR(Zi ) = p
i=1 i=1
et
Coecients de corrélation
p
ρYi ,Zk = ξik λi i = 1, 2, . . . , p
Proportion de λk
= ; k = 1, 2, . . . , p
la k-ième CP p
1 la moyenne d'echantillonnage X̄
2 la covarinace d'echantillonnage S
3 la matrice de corrélation d'échantillonnage R
♦ Rappel
Pour toute combinaison linéaire
on a