Analyse Des Données-S9-GE (Cours)

Analyse des données
Cours Master GIE
Prof. El kettani Moummou
Faculté SJES de Tétouan

Université Adbel Malik Assaâdi
El Kettani. Moummou (UAE) Analyse des données 1 / 28

Analyse des données
Cours Master GIE
Prof. El kettani Moummou
Faculté SJES de Tétouan

Université Adbel Malik Assaâdi

Analyse des données −→ Science de la décision
♦ La rechreche scientique est un processus itératif d'apprentissage. Les objectifs

relatifs (partenaires) à l'application d'un phénomène social ou physique doivent
êtres spéciés et après expliqués en collectant des données et après les analyser.
Les méthodes d'analyse multivariée sont très importantes dans ce contexte

L'environnement concurrentiel de ces dernières années a été caractérisé par
l'utilisation de stratégies pour entrer dans la vague de la transformation
numérique (digitalisation). Cela a amené les entreprises à prendre des mesures
pour ne pas se réduire à de très petites niches de marché ou même faire face à la
disparition de leur organisation
Dans ce contexte, il existe un élément clé qui guide le succès ou l'échec de la mise
en ÷uvre de ces stratégies : la prise de décision basée sur l'analyse des données en
contexte

1 Introduction
2 Méthodes statistique multivariantes

Analyse des composantes principale
Détérmination des composantes principales

Analyse des données −→ Science de la décision
•Les diérents types d'analyse

Savoir interpréter les données est un grand dé pour toutes les entreprises.
Diérents types d'analyses peuvent être eectués pour mener à bien cette tâche
1 L'analyse descriptive
est utilisée lorsque l'organisation dispose d'un grand ensemble de données

sur des événements passés ou des événements historiques. Pour que ces
données soient utiles, elles doivent être simpliées et résumées an qu'elles
soient compréhensibles.
L'analyse descriptive des données est le type d'analyse qui est présent
dans la grande majorité des organisations et avec lequel on commence
normalement

2 L'analyse exploratoire
L'analyse exploratoire des données ou statistiques exploratoires est une
branche des statistiques. Elle a comme objective examiner et évaluer des
données sur lesquelles on a peu d'information concernant leurs relations. De
nombreuses techniques ADE (Exploratory Data Analysis) sont utilisées dans
l'exploration de données.
3 L'analyse prédective
La quantité de données que nous produisons aujourd'hui a permis de
vulgariser(rendre populaire) certaines techniques et modèles mathématiques
ou statistiques qui existent depuis de nombreuses années.
Dans ce contexte d'analyse prédictive, il sera courant de se croiser avec le terme

de machine learning, qui s'est popularisé ces dernières années, et qui consiste à
donner à un système informatique la capacité d'apprendre. L'apprentissage
automatique nous permet avec un certain degré de abilité de prédire un résultat.
• Exemple
Résultats issus de l'application de l'analyse prédictive: les prévisions de la
demande, du comportement des consommateurs ou des besoins de maintenance
des machines.

4 Analyse prescriptive
L'analyse prescriptive va au-delà des deux types d'analyse précédents: Tout
d'abord, il recommande des plans d'action qu'une entreprise peut prendre.
De plus, il quantie l'eet de chacune de ces actions pour aider à prendre les
meilleures décisions dans la poursuite des objectifs commerciaux de
l'organisation.
• Exemple à titre d'information
Méthodes prespectives : Utilisation des techniques de simulation et d'optimisation

Auparavant, et encore aujourd'hui, les organisations basaient leurs décisions sur
l'intuition des personnes les plus expérimentées ou les mieux rémunérées au sein
de l'entreprise. Ceci est utile lorsque vous expérimentez un nouveau produit ou
service, lorsque vous souhaitez pénétrer un nouveau marché qui n'existe pas ou
lorsque vous ne pouvez pas obtenir de données pour étayer vos décisions..
Si ce n'est pas le cas, les organisations doivent de plus en plus valoriser la prise de
décisions éclairées basées sur l'analyse de données en contexte

1 Introduction
2 Méthodes statistique multivariantes

Analyse des composantes principale
Détérmination des composantes principales

•Les techniques multivariées sont souvent utiles pour explorer les données
dans le but de savoir s'il existe des informations utiles et précieuses
contenues dans ces données
En sciences économiques et commerciales, les méthodes statistiques multivariées
sont utilisées pour quantier le développement d'un pays, déterminer les
dimensions existantes entre les revenus et les dépenses famillières, comprendre le
comportement des consommateurs et mesurer la qualité des produits et services

Analyse des composantes principales ACP
• L'ACP est un moyen pour un objectif est ne pas un objectif: Il sert toujours
comme un pas intérmediaire dans plusieurs recherches
Lorsqu'une étude d'un phénomène est proposée, il y a une phase exploratoire au

cours de laquelle toutes les informations possibles sont recueillies sur le sujet.
Possibilité d'une information redandante entre certaines variables

Analyse des composantes principales ACP:Objectif ?
L'ACP concerne la structure de la Variance-Covariance d'un certain nombre de

variable . L'objectif général est:
1 Réduire les données
2 Interpréter ces données
Idée:
Pour reproduire la variabilité totale on a besoin d'un nombre de composantes ou il

y a aussi d'information que dans les variables d'origine
le concept de plus d'informations est lié à celui de plus grande variabilité, de sorte
que plus la variabilité des données est grande, plus l'informations considérée est
grande.

Analyse des composantes principales ACP:Objectif ?
• Etudier les relations qui se présentent entre les variables d'origine (qui
présentent certain correlation) dont l'information est la même;
Exemple d'une étude économique

Relation entre le PIB et
- La rente par habitant
- Indicateurs de mortalité infantile
- Taux d'alphabétisation
• trouver des nouvelle variables (inferieur en dimension) non corrélées (sans

répetition, ni redondance dans l'information). ces nouvelles variables sont
appelées composantes principales

Calcul des composantes principales
•Dénition1
les composantes principales sont des combinaisons linéaires des variables initiales
(d'origine). Leur construction se fait selon l'ordre d'importance de la variabilité
totale recueillie sur l'échantillon.
→ Téchniquement:
Sin on dispose de p variables initiales on cherche "m<p"variables (comme
combinason linéaire des p-variables).
Les "m"nouvelle variables ne présentent pas de corrélation et telle que
l'information ou la variabilité des données soit la plus grande possible.
♦Noter bien
Si les variables originales ne sont pas corrélées ça na aucun sense d'ectuer

l'analuse des CP

Si on considérer une serie de variables X1 , X2 , . . . , Xp , alors il s'agit de chercher

un nouveau ensemble de variables Y1 , Y2 , . . . , Ym non corrélées, dont les
variances diminuent progressivement, telles que
p
X
Yi = aij Xj (1)
i=1
= ai′ X ; ai′ = (ai 1 , ai 2 , . . . , aip ) ∈ Rp (2)
Objectif
Chercher les coécients ai′ = (ai 1 , ai 2 , . . . , aip ) qui maximise la variance des
variables d'origin
♦ La solution est obtenue au moyen de l'équation canonique:
|Σ − λI | = 0
étant
Σ = Cov(X1 , X2 , .., Xp ); λ = valeur propre; I = matrice identité

Comment choisir les CP's
L'ordre de la matrice Σ est p et si en plus on suppose qu elle est dénie

positive, alors l'èquation canonique indiqué avant aura p solutions,
λ1 , λ2 , . . . , λp de telle sorte que
Var (Yi ) = λi (3)

X X
Var (Yi ) = λi , la variance totale des composantes (4)
i i
•Dénition2
Les composantes principales (CP's) sont les combinaison linéaires non corrélées,
Y1 , Y2 , . . . , Ym telles que
Var (Yi ) = max ai′ Σai sujet à ai ∈ Rp

Sous l'hypothèse λ1 ≥ λ2 ≥ . . . ≥ λp , la première composante est celle avec la

variance la plus grandes:
Var (Y1 ) = a1′ Σa1
♦Noter Bien
Cette variance peut augmanter en multipliant a1 par une constante. Pour

éliminer cette indétérmination il est convenable de limiter les coecients à des
vecteurs unitaire:
∥ai′ ai ∥ = 1

Par suite
la première CP = la première combinaison a1′ X qui maximise

′ ′
Var (a1 X ) sujet à a1 a1 = 1
la deuxième CP = la deuxième combinaison a2′ X qui maximise
′ ′
Var (a2 X ) sujet à a2 a2 = 1 et Cov (a1′ X , a2′ X ) = 0

la i-ème CP = la i-ème combinaison ai′ X qui maximise
Var (ai′ X ) sujet à ai′ ai =1 et Cov (ai′ X , ak′ X ) = 0 ∀k < i
⋆Resultat1 :
Soit Σ la matrice de covariance associée au vecteur X = (X1 , X2 , . . . , Xp ) dont les
valeurs et les vecteurs propres sont respectivement λ1 ≥ λ2 ≥ . . . , ≥ λp et
ξ1 , ξ2 , . . . , ξp , alors la i-ème composante principale CP est:
p
X
Yi = ξi′ X = ξij Xj , i = 1, 2, . . . , p
j
avec
Var (Yi ) = ξi′ Σξi = λi i = 1, 2, . . . , p (5)
Cov (Yi , Yk ) = ξi′ Σξk = 0 pour i ̸= k (6)

⋆Resultat2 :
′
Soient Yi = ξi X , i = 1, 2, . . . , p les Cp's telles que (λi , ξi )i=1,2,....p sont les
valeurs et les vecteurs propres respectivement de Σ, avec λ1 ≥ λ2 ≥ . . . , ≥ λp ,
alors on a
p
X p
X
σii = λi ou Σ = (σj )i,j
i i=1
Proportion de la variance d'une CP

la proportion de la variabilité recueillie par les premiers m composants (ce qui
est nalement l'objectif de ce travail) est:
λ λk
Pp k =
i=1 λj λ1 + λ2 + . . . + λp
De cette manière on choisi une proportion de 80 % ou de 90 % du total; c.a.d

la première, la deuxième ou la troisième CP

Inspection d'importance
Chacune des composante principales ξi = (ξ1 , ξ2 . . . , ξp ) mérite une inspection.

La magnitude de ξik mesure l'importance de la k-ième variable Xk à la i-ieme
composante principale, quelque soit les autres variables. En particulier ξik est
proportionnel à la corrélation entre Yi et Xk
⋆Resultat3 :
′
Si Yi = ξi X , i = 1, 2 . . . , p sont les composantes principales obtenues à partir
de la matrice de Cov (X ) = Σ, alors le coecient de corrélation entre Yi et
Xk est donné par
√
ξik λi
ρYi ,Xk = √ pour i, k = 1, 2, . . . , p
σii

CP's à partir des variables centrées réduites
Les composantes principales CP's peuvent aussi êtres obtenues pour les variables
centrées réduites. Soient
X1 − µ1 X2 − µ2 Xp − µp
Z1 = √ , Z2 = √ , . . . , Zp = √
σ11 σ22 σpp
"p"variables telles que E (Zi ) = µi et VAR(Zi ) = σii pour "i = 1, 2, . . . , p "
Forme matricièlle
1 1 1
Z = V − 2 (X − µ) avec COV (Z ) = V − 2 ΣV − 2
Ou on a
√ 
σ11 0 ··· 0
 .. 
1  0 . ... 0 
V 2 = 
. . .. .
. . .
 
 . . . . 
√
0 0 ··· σpp

On verie facilement que la matrice des corrélations est donnée par

1 1
ρ = V − 2 ΣV − 2
avec  
1 ρ12 ρ12 ... ρ1p
ρ21 1 ρ23 ... ρ2p 
 
 .. .
. .. . 
. 
ρ=
 . . . ··· .

 .. .
. .. .. . 
. 
 . . . . .
ρp 1 ρp2 ... ... 1
⋆ Resulta3
La i-ème composante principale des variables standards Z = (Z1 , Z2 , . . . , Zp ) avec
matrice de covariance COV (Z ) = ρ est donnée par
1
Yi = ξi′ Z = ξi′ V − 2 (X − µ) i = 1, 2, . . . , p
De plus, on a
p
X p
X
VAR(Yi ) = VAR(Zi ) = p
i=1 i=1

et
Coecients de corrélation
p
ρYi ,Zk = ξik λi i = 1, 2, . . . , p
Dans ce cas, "(λi , ξi ); i = 1, 2, . . . , p "sont les valeurs et les vecteurs propres de la

matrice ρ ( on suppose que λ1 ≥ λ2 ≥ . . . . ≥ λp ≥ 0)
Proportion de la variance d'une CP

La proportion de la variance d'une composante principale obtenue à partir de la
matrice de corrélation
est donnée par

Proportion de λk
= ; k = 1, 2, . . . , p
la k-ième CP p

• Exemple:Comparaison entre les CP's obtenues à partir des deux matrices, de

Covariances et de corrélations.
Considérer la matrice de covariance suivante

1 4
Σ=
4 100

Variance d'un echantillon au moyen des CP's
Supposons qu'on extrait d'une manière indépendante n-observations,

x1 , x2 , . . . , xn , d'une certaine population p-dimensionnelle de moyen "µ .et de
covariance "Σ ". A partir de ces données on peut calculer
1 la moyenne d'echantillonnage X̄
2 la covarinace d'echantillonnage S
3 la matrice de corrélation d'échantillonnage R
Notre objectif est de résumer la variance de ces p-variable en choisissant, d'une

manière judisciouse, quelques combinaison linéaires de ces variables. Il s'agit, tous
simplement des combinaison linéaires uncorrélées et qui représentent une grande
partie de la variance de notre échantillon.

Variance d'un echantillon au moyen des CP's
♦ Rappel
Pour toute combinaison linéaire
ai′ x = ai 1 xj 1 + ai 2 xj 2 + . . . + aip xjp , j = 1, 2, . . . , n
on a
- la moyenne d'échantillonnage: M(ai′ x) = ai′ x̄

- la variance d'échantillonnage: VAR(ai′ x) = ai′ Sai
- la covariance d'échantillonnage: COV (ai′ x, aj′ x) = ai′ Saj
• Dénition3
Les CP's d'échantillonnage sont les combinaison linéaires dont la varaince

d'échantillonage est maximale. De la même manière ce maximum est restrinte à
l'ensemble {ai ∈ Rp /ai′ ai = 1}

Analyse Des Données-S9-GE (Cours)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Données-S9-GE (Cours)

Transféré par

Droits d'auteur :

Formats disponibles

Analyse des données

Cours Master GIE

Prof. El kettani Moummou

Faculté SJES de Tétouan

El Kettani. Moummou (UAE) Analyse des données 1 / 28

Cours Master GIE

Prof. El kettani Moummou

Faculté SJES de Tétouan

El Kettani. Moummou (UAE) Analyse des données 2 / 28

♦ La rechreche scientique est un processus itératif d'apprentissage. Les objectifs

Les méthodes d'analyse multivariée sont très importantes dans ce contexte

El Kettani. Moummou (UAE) Analyse des données 3 / 28

El Kettani. Moummou (UAE) Analyse des données 4 / 28

2 Méthodes statistique multivariantes

El Kettani. Moummou (UAE) Analyse des données 5 / 28

•Les diérents types d'analyse

est utilisée lorsque l'organisation dispose d'un grand ensemble de données

El Kettani. Moummou (UAE) Analyse des données 6 / 28

Dans ce contexte d'analyse prédictive, il sera courant de se croiser avec le terme

El Kettani. Moummou (UAE) Analyse des données 7 / 28

• Exemple à titre d'information

Méthodes prespectives : Utilisation des techniques de simulation et d'optimisation

El Kettani. Moummou (UAE) Analyse des données 8 / 28

El Kettani. Moummou (UAE) Analyse des données 9 / 28

2 Méthodes statistique multivariantes

El Kettani. Moummou (UAE) Analyse des données 10 / 28

El Kettani. Moummou (UAE) Analyse des données 11 / 28

Lorsqu'une étude d'un phénomène est proposée, il y a une phase exploratoire au

Possibilité d'une information redandante entre certaines variables

El Kettani. Moummou (UAE) Analyse des données 12 / 28

L'ACP concerne la structure de la  Variance-Covariance d'un certain nombre de

1 Réduire les données

2 Interpréter ces données

Pour reproduire la variabilité totale on a besoin d'un nombre de composantes ou il

El Kettani. Moummou (UAE) Analyse des données 13 / 28

Exemple d'une étude économique

- La rente par habitant

- Indicateurs de mortalité infantile

• trouver des nouvelle variables (inferieur en dimension) non corrélées (sans

El Kettani. Moummou (UAE) Analyse des données 14 / 28

Si les variables originales ne sont pas corrélées ça na aucun sense d'ectuer

El Kettani. Moummou (UAE) Analyse des données 15 / 28

Si on considérer une serie de variables  X1 , X2 , . . . , Xp  , alors il s'agit de chercher

♦ La solution est obtenue au moyen de l'équation canonique:

Σ = Cov(X1 , X2 , .., Xp ); λ = valeur propre; I = matrice identité

El Kettani. Moummou (UAE) Analyse des données 16 / 28

L'ordre de la matrice Σ est p et si en plus on suppose qu elle est dénie

Var (Yi ) = λi (3)

Var (Yi ) = max ai′ Σai sujet à ai ∈ Rp

El Kettani. Moummou (UAE) Analyse des données 17 / 28

Sous l'hypothèse  λ1 ≥ λ2 ≥ . . . ≥ λp  , la première composante est celle avec la

Cette variance peut augmanter en multipliant  a1  par une constante. Pour

El Kettani. Moummou (UAE) Analyse des données 18 / 28

la première CP = la première combinaison a1′ X qui maximise

El Kettani. Moummou (UAE) Analyse des données 19 / 28

la i-ème CP = la i-ème combinaison ai′ X qui maximise

Var (ai′ X ) sujet à ai′ ai =1 et Cov (ai′ X , ak′ X ) = 0 ∀k < i

Var (Yi ) = ξi′ Σξi = λi i = 1, 2, . . . , p (5)

Cov (Yi , Yk ) = ξi′ Σξk = 0 pour i ̸= k (6)

El Kettani. Moummou (UAE) Analyse des données 20 / 28

Proportion de la variance d'une CP

De cette manière on choisi une proportion de  80 % ou de  90 % du total; c.a.d

El Kettani. Moummou (UAE) Analyse des données 21 / 28

♦ La rechreche scientique est un processus itératif d'apprentissage. Les objectifs

•Les diérents types d'analyse

L'ACP concerne la structure de la Variance-Covariance d'un certain nombre de

Si les variables originales ne sont pas corrélées ça na aucun sense d'ectuer

Si on considérer une serie de variables X1 , X2 , . . . , Xp , alors il s'agit de chercher

L'ordre de la matrice Σ est p et si en plus on suppose qu elle est dénie

Sous l'hypothèse λ1 ≥ λ2 ≥ . . . ≥ λp , la première composante est celle avec la

Cette variance peut augmanter en multipliant a1 par une constante. Pour

De cette manière on choisi une proportion de 80 % ou de 90 % du total; c.a.d

Chacune des composante principales ξi = (ξ1 , ξ2 . . . , ξp ) mérite une inspection.

On verie facilement que la matrice des corrélations est donnée par