Vous êtes sur la page 1sur 28

Analyse des données

Cours Master GIE

Prof. El kettani Moummou

Faculté SJES de Tétouan


Université Adbel Malik Assaâdi

El Kettani. Moummou (UAE) Analyse des données 1 / 28


Analyse des données

Cours Master GIE

Prof. El kettani Moummou

Faculté SJES de Tétouan


Université Adbel Malik Assaâdi

El Kettani. Moummou (UAE) Analyse des données 2 / 28


Analyse des données −→ Science de la décision

♦ La rechreche scientique est un processus itératif d'apprentissage. Les objectifs


relatifs (partenaires) à l'application d'un phénomène social ou physique doivent
êtres spéciés et après expliqués en collectant des données et après les analyser.

Les méthodes d'analyse multivariée sont très importantes dans ce contexte

El Kettani. Moummou (UAE) Analyse des données 3 / 28


L'environnement concurrentiel de ces dernières années a été caractérisé par
l'utilisation de stratégies pour entrer dans la vague de la transformation
numérique (digitalisation). Cela a amené les entreprises à prendre des mesures
pour ne pas se réduire à de très petites niches de marché ou même faire face à la
disparition de leur organisation

Dans ce contexte, il existe un élément clé qui guide le succès ou l'échec de la mise
en ÷uvre de ces stratégies : la prise de décision basée sur l'analyse des données en
contexte

El Kettani. Moummou (UAE) Analyse des données 4 / 28


1 Introduction

2 Méthodes statistique multivariantes


Analyse des composantes principale
Détérmination des composantes principales

El Kettani. Moummou (UAE) Analyse des données 5 / 28


Analyse des données −→ Science de la décision

•Les diérents types d'analyse


Savoir interpréter les données est un grand dé pour toutes les entreprises.
Diérents types d'analyses peuvent être eectués pour mener à bien cette tâche

1 L'analyse descriptive

est utilisée lorsque l'organisation dispose d'un grand ensemble de données


sur des événements passés ou des événements historiques. Pour que ces
données soient utiles, elles doivent être simpliées et résumées an qu'elles
soient compréhensibles.

L'analyse descriptive des données est le type d'analyse qui est présent
dans la grande majorité des organisations et avec lequel on commence
normalement

El Kettani. Moummou (UAE) Analyse des données 6 / 28


2 L'analyse exploratoire
L'analyse exploratoire des données ou statistiques exploratoires est une
branche des statistiques. Elle a comme objective examiner et évaluer des
données sur lesquelles on a peu d'information concernant leurs relations. De
nombreuses techniques ADE (Exploratory Data Analysis) sont utilisées dans
l'exploration de données.

3 L'analyse prédective
La quantité de données que nous produisons aujourd'hui a permis de
vulgariser(rendre populaire) certaines techniques et modèles mathématiques
ou statistiques qui existent depuis de nombreuses années.

Dans ce contexte d'analyse prédictive, il sera courant de se croiser avec le terme


de machine learning, qui s'est popularisé ces dernières années, et qui consiste à
donner à un système informatique la capacité d'apprendre. L'apprentissage
automatique nous permet avec un certain degré de abilité de prédire un résultat.

• Exemple
Résultats issus de l'application de l'analyse prédictive: les prévisions de la
demande, du comportement des consommateurs ou des besoins de maintenance
des machines.

El Kettani. Moummou (UAE) Analyse des données 7 / 28


4 Analyse prescriptive
L'analyse prescriptive va au-delà des deux types d'analyse précédents: Tout
d'abord, il recommande des plans d'action qu'une entreprise peut prendre.
De plus, il quantie l'eet de chacune de ces actions pour aider à prendre les
meilleures décisions dans la poursuite des objectifs commerciaux de
l'organisation.

• Exemple à titre d'information

Méthodes prespectives : Utilisation des techniques de simulation et d'optimisation

El Kettani. Moummou (UAE) Analyse des données 8 / 28


Auparavant, et encore aujourd'hui, les organisations basaient leurs décisions sur
l'intuition des personnes les plus expérimentées ou les mieux rémunérées au sein
de l'entreprise. Ceci est utile lorsque vous expérimentez un nouveau produit ou
service, lorsque vous souhaitez pénétrer un nouveau marché qui n'existe pas ou
lorsque vous ne pouvez pas obtenir de données pour étayer vos décisions..

Si ce n'est pas le cas, les organisations doivent de plus en plus valoriser la prise de
décisions éclairées basées sur l'analyse de données en contexte

El Kettani. Moummou (UAE) Analyse des données 9 / 28


1 Introduction

2 Méthodes statistique multivariantes


Analyse des composantes principale
Détérmination des composantes principales

El Kettani. Moummou (UAE) Analyse des données 10 / 28


•Les techniques multivariées sont souvent utiles pour explorer les données
dans le but de savoir s'il existe des informations utiles et précieuses
contenues dans ces données
En sciences économiques et commerciales, les méthodes statistiques multivariées
sont utilisées pour quantier le développement d'un pays, déterminer les
dimensions existantes entre les revenus et les dépenses famillières, comprendre le
comportement des consommateurs et mesurer la qualité des produits et services

El Kettani. Moummou (UAE) Analyse des données 11 / 28


Analyse des composantes principales ACP

• L'ACP est un moyen pour un objectif est ne pas un objectif: Il sert toujours
comme un pas intérmediaire dans plusieurs recherches

Lorsqu'une étude d'un phénomène est proposée, il y a une phase exploratoire au


cours de laquelle toutes les informations possibles sont recueillies sur le sujet.

Possibilité d'une information redandante entre certaines variables

El Kettani. Moummou (UAE) Analyse des données 12 / 28


Analyse des composantes principales ACP:Objectif ?

L'ACP concerne la structure de la  Variance-Covariance d'un certain nombre de


variable . L'objectif général est:

1 Réduire les données

2 Interpréter ces données

Idée:

Pour reproduire la variabilité totale on a besoin d'un nombre de composantes ou il


y a aussi d'information que dans les variables d'origine

le concept de plus d'informations est lié à celui de plus grande variabilité, de sorte
que plus la variabilité des données est grande, plus l'informations considérée est
grande.

El Kettani. Moummou (UAE) Analyse des données 13 / 28


Analyse des composantes principales ACP:Objectif ?

• Etudier les relations qui se présentent entre les variables d'origine (qui
présentent certain correlation) dont l'information est la même;

Exemple d'une étude économique


Relation entre le PIB et

- La rente par habitant

- Indicateurs de mortalité infantile

- Taux d'alphabétisation

• trouver des nouvelle variables (inferieur en dimension) non corrélées (sans


répetition, ni redondance dans l'information). ces nouvelles variables sont
appelées composantes principales

El Kettani. Moummou (UAE) Analyse des données 14 / 28


Calcul des composantes principales

•Dénition1

les composantes principales sont des combinaisons linéaires des variables initiales
(d'origine). Leur construction se fait selon l'ordre d'importance de la variabilité
totale recueillie sur l'échantillon.

→ Téchniquement:
Sin on dispose de p variables initiales on cherche "m<p"variables (comme
combinason linéaire des p-variables).
Les "m"nouvelle variables ne présentent pas de corrélation et telle que
l'information ou la variabilité des données soit la plus grande possible.
♦Noter bien

Si les variables originales ne sont pas corrélées ça na aucun sense d'ectuer


l'analuse des CP

El Kettani. Moummou (UAE) Analyse des données 15 / 28


Calcul des composantes principales

Si on considérer une serie de variables  X1 , X2 , . . . , Xp  , alors il s'agit de chercher


un nouveau ensemble de variables Y1 , Y2 , . . . , Ym  non corrélées, dont les
variances diminuent progressivement, telles que

p
X
Yi = aij Xj (1)
i=1
= ai′ X ; ai′ = (ai 1 , ai 2 , . . . , aip ) ∈ Rp (2)

Objectif
Chercher les coécients ai′ = (ai 1 , ai 2 , . . . , aip ) qui maximise la variance des
variables d'origin

♦ La solution est obtenue au moyen de l'équation canonique:

|Σ − λI | = 0
étant

Σ = Cov(X1 , X2 , .., Xp ); λ = valeur propre; I = matrice identité

El Kettani. Moummou (UAE) Analyse des données 16 / 28


Calcul des composantes principales
Comment choisir les CP's

L'ordre de la matrice Σ est p et si en plus on suppose qu elle est dénie


positive, alors l'èquation canonique indiqué avant aura p solutions,
λ1 , λ2 , . . . , λp de telle sorte que

Var (Yi ) = λi (3)


X X
Var (Yi ) = λi , la variance totale des composantes (4)
i i

•Dénition2

Les composantes principales (CP's) sont les combinaison linéaires non corrélées,
Y1 , Y2 , . . . , Ym  telles que

Var (Yi ) = max ai′ Σai sujet à ai ∈ Rp

El Kettani. Moummou (UAE) Analyse des données 17 / 28


Calcul des composantes principales
Comment choisir les CP's

Sous l'hypothèse  λ1 ≥ λ2 ≥ . . . ≥ λp  , la première composante est celle avec la


variance la plus grandes:
Var (Y1 ) = a1′ Σa1
♦Noter Bien

Cette variance peut augmanter en multipliant  a1  par une constante. Pour


éliminer cette indétérmination il est convenable de limiter les coecients à des
vecteurs unitaire:
∥ai′ ai ∥ = 1

El Kettani. Moummou (UAE) Analyse des données 18 / 28


Calcul des composantes principales
Comment choisir les CP's

Par suite

la première CP = la première combinaison a1′ X qui maximise


′ ′
Var (a1 X ) sujet à a1 a1 = 1
la deuxième CP = la deuxième combinaison a2′ X qui maximise
′ ′
Var (a2 X ) sujet à a2 a2 = 1 et Cov (a1′ X , a2′ X ) = 0

El Kettani. Moummou (UAE) Analyse des données 19 / 28


Calcul des composantes principales
Comment choisir les CP's

la i-ème CP = la i-ème combinaison ai′ X qui maximise

Var (ai′ X ) sujet à ai′ ai =1 et Cov (ai′ X , ak′ X ) = 0 ∀k < i

⋆Resultat1 :
Soit Σ la matrice de covariance associée au vecteur X = (X1 , X2 , . . . , Xp ) dont les
valeurs et les vecteurs propres sont respectivement  λ1 ≥ λ2 ≥ . . . , ≥ λp  et
 ξ1 , ξ2 , . . . , ξp , alors la i-ème composante principale CP est:

p
X
Yi = ξi′ X = ξij Xj , i = 1, 2, . . . , p
j
avec

Var (Yi ) = ξi′ Σξi = λi i = 1, 2, . . . , p (5)

Cov (Yi , Yk ) = ξi′ Σξk = 0 pour i ̸= k (6)

El Kettani. Moummou (UAE) Analyse des données 20 / 28


Calcul des composantes principales
Comment choisir les CP's

⋆Resultat2 :

Soient  Yi = ξi X , i = 1, 2, . . . , p  les Cp's telles que (λi , ξi )i=1,2,....p sont les
valeurs et les vecteurs propres respectivement de Σ, avec  λ1 ≥ λ2 ≥ . . . , ≥ λp ,
alors on a
p
X p
X
σii = λi ou Σ = (σj )i,j
i i=1

Proportion de la variance d'une CP


la proportion de la variabilité recueillie par les premiers m composants (ce qui
est nalement l'objectif de ce travail) est:

λ λk
Pp k =
i=1 λj λ1 + λ2 + . . . + λp

De cette manière on choisi une proportion de  80 % ou de  90 % du total; c.a.d


la première, la deuxième ou la troisième CP

El Kettani. Moummou (UAE) Analyse des données 21 / 28


Inspection d'importance

Chacune des composante principales  ξi = (ξ1 , ξ2 . . . , ξp ) mérite une inspection.


La magnitude de  ξik  mesure l'importance de la k-ième variable  Xk  à la i-ieme
composante principale, quelque soit les autres variables. En particulier  ξik  est
proportionnel à la corrélation entre  Yi  et  Xk 

⋆Resultat3 :

Si  Yi = ξi X , i = 1, 2 . . . , p  sont les composantes principales obtenues à partir
de la matrice de  Cov (X ) = Σ, alors le coecient de corrélation entre  Yi  et
 Xk  est donné par


ξik λi
ρYi ,Xk = √ pour i, k = 1, 2, . . . , p
σii

El Kettani. Moummou (UAE) Analyse des données 22 / 28


CP's à partir des variables centrées réduites

Les composantes principales CP's peuvent aussi êtres obtenues pour les variables
centrées réduites. Soient

X1 − µ1 X2 − µ2 Xp − µp
Z1 = √ , Z2 = √ , . . . , Zp = √
σ11 σ22 σpp
"p"variables telles que E (Zi ) = µi et VAR(Zi ) = σii pour "i = 1, 2, . . . , p "

Forme matricièlle
1 1 1
Z = V − 2 (X − µ) avec COV (Z ) = V − 2 ΣV − 2
Ou on a

√ 
σ11 0 ··· 0
 .. 
1  0 . ... 0 
V 2 = 
. . .. .
. . .
 
 . . . . 

0 0 ··· σpp

El Kettani. Moummou (UAE) Analyse des données 23 / 28


CP's à partir des variables centrées réduites

On verie facilement que la matrice des corrélations est donnée par


1 1
ρ = V − 2 ΣV − 2
avec  
1 ρ12 ρ12 ... ρ1p
ρ21 1 ρ23 ... ρ2p 
 
 .. .
. .. . 
. 
ρ=
 . . . ··· .

 .. .
. .. .. . 
. 
 . . . . .
ρp 1 ρp2 ... ... 1

⋆ Resulta3
La i-ème composante principale des variables standards Z = (Z1 , Z2 , . . . , Zp ) avec
matrice de covariance COV (Z ) = ρ est donnée par
1
Yi = ξi′ Z = ξi′ V − 2 (X − µ) i = 1, 2, . . . , p
De plus, on a
p
X p
X
VAR(Yi ) = VAR(Zi ) = p
i=1 i=1

El Kettani. Moummou (UAE) Analyse des données 24 / 28


CP's à partir des variables centrées réduites

et

Coecients de corrélation
p
ρYi ,Zk = ξik λi i = 1, 2, . . . , p

Dans ce cas, "(λi , ξi ); i = 1, 2, . . . , p "sont les valeurs et les vecteurs propres de la


matrice ρ ( on suppose que λ1 ≥ λ2 ≥ . . . . ≥ λp ≥ 0)

Proportion de la variance d'une CP


La proportion de la variance d'une composante principale obtenue à partir de la
matrice de corrélation
est donnée par

 
Proportion de λk
= ; k = 1, 2, . . . , p
la k-ième CP p

El Kettani. Moummou (UAE) Analyse des données 25 / 28


CP's à partir des variables centrées réduites

• Exemple:Comparaison entre les CP's obtenues à partir des deux matrices, de


Covariances et de corrélations.
Considérer la matrice de covariance suivante
 
1 4
Σ=
4 100

El Kettani. Moummou (UAE) Analyse des données 26 / 28


Variance d'un echantillon au moyen des CP's

Supposons qu'on extrait d'une manière indépendante n-observations,


x1 , x2 , . . . , xn , d'une certaine population p-dimensionnelle de moyen "µ .et de
covariance "Σ ". A partir de ces données on peut calculer

1 la moyenne d'echantillonnage X̄
2 la covarinace d'echantillonnage S
3 la matrice de corrélation d'échantillonnage R

Notre objectif est de résumer la variance de ces p-variable en choisissant, d'une


manière judisciouse, quelques combinaison linéaires de ces variables. Il s'agit, tous
simplement des combinaison linéaires uncorrélées et qui représentent une grande
partie de la variance de notre échantillon.

El Kettani. Moummou (UAE) Analyse des données 27 / 28


Variance d'un echantillon au moyen des CP's

♦ Rappel
Pour toute combinaison linéaire

ai′ x = ai 1 xj 1 + ai 2 xj 2 + . . . + aip xjp , j = 1, 2, . . . , n

on a

- la moyenne d'échantillonnage: M(ai′ x) = ai′ x̄


- la variance d'échantillonnage: VAR(ai′ x) = ai′ Sai
- la covariance d'échantillonnage: COV (ai′ x, aj′ x) = ai′ Saj
• Dénition3

Les CP's d'échantillonnage sont les combinaison linéaires dont la varaince


d'échantillonage est maximale. De la même manière ce maximum est restrinte à
l'ensemble {ai ∈ Rp /ai′ ai = 1}

El Kettani. Moummou (UAE) Analyse des données 28 / 28

Vous aimerez peut-être aussi