BA Class 3 FT

Business Analytics
Analyse multidimensionnelle
Objectifs
A la fin cours, vous saurez :

• Utiliser l’analyse en composantes principales pour réduire le nombre de
variables observées à un nombre plus petit de dimensions
• Créer un graphique permettant un positionnement multidimensionnel des
individus
2
Simplifier votre
base de données
Pourquoi l’ACP ?
Les statistiques descriptives donnent un aperçu de chaque variable

individuellement.
Plusieurs variables peuvent mesurer la même idée ou « même dimension ».
L’analyse en composantes principales permet d’identifier et de hiérarchiser

les groupes de variables exprimant la même dimension.
Montant cumulé des
Solde moyen du compte découverts sur les 12
courant sur les 12 derniers mois
derniers mois Nombre de mois en
Retraits cumulés du
variation en % du découvert sur les 12
compte épargne sur les
solde épargne sur les derniers mois
12 derniers mois
12 derniers mois Nombre de comptes
utilisés hors compte
Emprunts cumulés au cours Dépôts cumulés faits à partir courant
des 3 dernières années du compte épargne sur les 5
dernières années
Nombre d’enfants Âge du client
âgés de moins de 18
ans
4
Pourquoi l’ACP ?
L’analyse en composantes principales est une technique statistique

permettant de réduire le nombre de variables à un nombre de dimensions
restreint
• Ex. 12 éléments d’un questionnaire peuvent mesurer 3 dimensions
 Liquidité bancaire, activité bancaire et situation familiale
On l’utilise pour réduire les données et rendre l’information plus claire.
5
Analyse en
composantes
principales
Qu’est-ce que l’ Analyse en Composantes
Principales ?
Il est facile de comparer des individus à travers une ou deux variables.
Rémunération Rémunération Années

faible élevée d’expérience Rémunération
élevée seniors
Rémunération
salaire faible
juniors
salaire
Années Mais il est plus difficile de comparer des individus à

d’expérience travers trois variables ou plus.
On préfère avoir des variables synthétiques pour
comparer les individus sur 2 axes uniquement.
salaire Variable
synthétique 2
années
d’éducation L’ACP crée des variables
synthétiques appelées dimensions
Variable
et attribue un poids à chaque synthétique 1
individu.
7
Quand peut-on utiliser l’Analyse en
Composantes Principales ?
 Données quantitatives (ordinales, intervalles et ratios)
 Variables normalement distribuées (pas vraiment nécessaire)
 Les données doivent être standardisées

(centrées réduites pour ramener toutes les variables dans une même unité)
8
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
Etudiant Maths Economie Droit

Marie 6 3 8
John 18 10 12 n = 5 individus
Bob 19 13 15
Kevin 17 13 18
Lenny 1 7 1
p = 3 variables
9

2. Représentez tous les individus dans un espace à p dimensions
Eco
Nuage de points à
20
Kevin p-dimensions
Bob John
10
Marie
18
Lenny 0
10 20 Droit
10
20
Maths
10

3. Tracez un axe passant par la direction où le nuage de point est le plus

allongé (dispersion la plus forte)
Eco L’axe suit la direction du nuage

où il y a le plus de dispersion.
20
Kevin C’est l’axe qui conserve le
mieux la distance entre les
Bob John
individus. Ainsi on retient sur
10
Marie cet axe une grande partie de la
variance de la base de données.
18 Vue du dessus
Lenny 0
10 20 Droit
10
20
Maths Distance à
l’axe
Cet axe s’appelle la première dimension du nuage.
11
Comment fonctionne l’analyse de

3. Tracez un axe passant par la direction où le nuage de point est le plus

allongé (dispersion la plus forte)
La dimension 1 (axe 1) résume une partie
Eco de l’information contenue dans les
variables d’origine
20
Kevin
La dimension 1 restitue C’est une combinaison linéaire de ces
81% de la variance Bob John variables.
contenue dans les 10
Marie Les variables ayant le plus de poids sur
données
cette dimension 1 sont celles qui font le
18 plus la différence entre les individus
Lenny 0
10 20 Droit
10
20
PC1 = 0.95Droit + 0.77Maths + 0.96
Maths Eco
On calcule pour chaque individu sa coordonnée sur la dimension 1 basée sur les valeurs
des variables d’origine.
12
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un deuxième axe (orthogonal au premier) pour capter de

l’information additionnelle (indépendante de celle du 1er axe, 2ème direction
d’allongement maximum du nuage)
Cette 2ème dimension résume une partie de

Eco l’information contenue dans les variables
originales et non captée par la 1ère dimension
Chaque individu a une 20
Kevin
coordonne sur cette 2ème Cette 2ème dimension est aussi une combinaison
dimension Bob John
linéaire des variables d’origine.
10 Les variables ayant le plus de poids sur cette

dimension 2 restitue 17% Marie
dimension 2 différencient moins les individus que
de la variance contenue celles ressorties sur la dimension 1.
dans la base de données. 18
Lenny 0
10 20 Droit
10
PC2 = -0.28Droit + 0.63Maths - 0.23
Maths
20 Eco
13
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle
5. Déterminez le nombre de dimensions requises pour résumer la base de

données
La « valeur propre » est un indicateur de la
Valeurs propres
variance restituée par chacune des dimensions.
On retient :
- toutes les dimensions jusqu’à une baisse
significative de la valeur propre
- ou toutes les dimensions ayant des valeurs
propres supérieures à 1
Forte diminution. Les 2 premières dimensions sont retenues. Elle doivent expliquer
un fort pourcentage de la variance de la base de donnée.
14
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle
5. Déterminez le nombre de dimensions requises pour résumer la base de données
6. Interprétez la signification de chaque dimension en vous basant sur les

variables les plus corrélées à la dimension.
Performance académique des étudiants La coordonnée d’une variable sur une

dimension est le coefficient de
corrélation de cette variable avec la
dimension
Une pointe de flèche proche des bords

du cercle signifie que la variable est bien
représentée sur le plan en 2 dimensions
15
4. Tracez un 2ème axe (ortho au premier) pour capter de l’info additionnelle
5. Déterminez le nb de dimensions requises pour résumer la base de données
6. Interprétez la signification de chaque dimension en vous basant sur les variables les plus corrélées à la dimension.
7. Utilisez les coordonnées sur les nouvelles dimensions pour représenter les
individus en fonction des variables synthétiques
Performance académique des étudiants
Edward a un score positif sur la

dimension 1 et un score négatif sur
la dimension 2.
Comment interpréter ces deux dimensions ?
16
Etude de cas
Description du cas
Une société d’investissement vous demande une analyse comparative des

stations de ski des Pyrénées françaises. Elle cherche à investir dans une
station et voudrait une carte comparative de l’ensemble des stations pour
l’aider dans son choix.
Vous avez collecté une large quantité de données à partir des sites de 36
stations. En tout, vous disposez de 33 variables décrivant chaque station.
18
Feuille de route
Question d’entreprise Méthodologie Résultats  Aperçu
… Schémas, résultats, implications
…
…
Données
Contexte …
Que s’est-il passé où, et quand.
…
Intuition  Hypothèses
Parties prenantes Recommandations

Quelles actions, par qui et pour quand.
…
…
Objectifs de l’analyse
19
Feuille de route
Question Méthodologie Résultats  Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour Text
représenter chaque station à travers les
dimensions principales.
Données
Contexte 33 variables observées sur les sites de 36
Que s’est-il passé, où et quand. stations de ski.
Une société d’investissement a décidé
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition  Hypothèses
marché de toutes les stations. Intuition des causes & moteurs
Il y a probablement plusieurs dimensions

sous-jacentes qui décrivent les stations
de ski telles que la localisation
géographique, le type de services
offerts et la qualité du domaine skiable
Actionnaires Recommandations
Objectifs de l’analyse Text
La société d’investissement
La station de ski choisie
Construire une carte comparative des
stations de ski à travers les dimensions
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement
20
Cas Ski-La feuille de route complète
Question Méthodologie Résultats  Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour La dimension 1 mesure le « niveau
représenter chaque station à travers les d’infrastructure » d’une station de ski.
dimensions principales.
Données La dimension 2 mesure la « difficulté des
Contexte 33 variables observées sur les sites de 36
pistes »
Que s’est-il passé, où et quand. stations de ski. La dimension 3 « l’accessibilité de la
Une société d’investissement a décidé station depuis Toulouse ».
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition  Hypothèses Le graphique montre la dispersion des
marché de toutes les stations. Intuition des causes & moteurs stations à travers les deux dimensions.
Chaque quadrant traduit un niveau
Il y a probablement plusieurs dimensions d’infrastructure, de difficulté et de
sous-jacentes qui décrivent les stations proximité à Toulouse.
de ski telles que la localisation
géographique, le type de services
offerts et la qualité du domaine skiable
Actionnaires Recommandations
Objectifs de l’analyse Sélectionner une station avec une
La société d’investissement
coordonnée faible sur la dimension 1
La station de ski choisie
(station dont on a besoin d’améliorer
Construire une carte comparative des l’infrastructure) et faible sur la
stations de ski à travers les dimensions dimension 2 (proche de Toulouse).
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement
21
Conclusion
L’analyse en composantes principales est utilisée pour réduire un grand

nombre de variables dans une base de données à un nombre plus petit de
dimensions synthétiques. Elle est utile pour résumer les données et
cartographier les individus selon les dimensions clés.
Pour la semaine prochaine, faites les exercices de révision et le quiz sur

C@mpus et complétez la préparation pour le cours de la semaine prochaine
« groupes et partitionnement »
22
Visualisation des
données astuce #2
Astuce #2: Soyez cohérents
Le manqué de cohérence peut rendre une visualisation confuse ou difficile à

interpréter.
• Gardez les éléments de design tels que la couleur et l’épaisseur de la ligne
uniformes.
• Veillez à ce que le nom et les couleurs représentant un point particulier des
données restent les mêmes pour les graphiques liés.
Source: « Zero to beautiful. Data visualization best practices », Power BI Microsoft
24
Astuce #2: Soyez cohérent
Les couleurs et les titres dans R
La fonction plot( ) indique à R de représenter le graphique le plus approprié

pour vos données. Vous pouvez utiliser les fonctions text( ), points( ) et
labels( ) en même temps que plot.
1. Utilisez plot( ) pour créer le graphique basique, ajouter un titre principal
et le nom des axes
plot(mtcars$hp, mtcars$mpg, main = "MPG vs horsepower", xlab = "miles per gallon",
ylab = "horsepower")
2. Utilisez text( ) pour nommer les points et ajuster la taille, la position et la

couleur
text(mtcars$mpg, mtcars$hp, labels = rownames(mtcars), cex = 0.7, adj = c(0.5, 2))
3. Utilisez points( ) pour modifier la forme et la couleur des points sur un

graphique
points(mtcars$mpg, mtcars$hp, col = "red", pch = 19)
Utilisez la function colors( ) pour lister tous les noms de

couleurs dans R. Utilisez help (ex. ?plot) pour voir tous les
arguments disponibles.
25
Références
Rapport
• « Zero to beautiful. Data visualization best practices », Power BI Microsoft
Livre
• R for data science
26

BA Class 3 FT

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

BA Class 3 FT

Transféré par

Droits d'auteur :

Formats disponibles

Business Analytics

A la fin cours, vous saurez :

Les statistiques descriptives donnent un aperçu de chaque variable

Plusieurs variables peuvent mesurer la même idée ou « même dimension ».

L’analyse en composantes principales permet d’identifier et de hiérarchiser

L’analyse en composantes principales est une technique statistique

On l’utilise pour réduire les données et rendre l’information plus claire.

Rémunération Rémunération Années

Années Mais il est plus difficile de comparer des individus à

 Données quantitatives (ordinales, intervalles et ratios)

 Variables normalement distribuées (pas vraiment nécessaire)

 Les données doivent être standardisées

1. Vous avez une base de données composée de n individus et p variables

Etudiant Maths Economie Droit

1. Vous avez une base de données composée de n individus et p variables

1. Vous avez une base de données composée de n individus et p variables

3. Tracez un axe passant par la direction où le nuage de point est le plus

Eco L’axe suit la direction du nuage

1. Vous avez une base de données composée de n individus et p variables

3. Tracez un axe passant par la direction où le nuage de point est le plus

4. Tracez un deuxième axe (orthogonal au premier) pour capter de

Cette 2ème dimension résume une partie de

10 Les variables ayant le plus de poids sur cette

5. Déterminez le nombre de dimensions requises pour résumer la base de

6. Interprétez la signification de chaque dimension en vous basant sur les

Performance académique des étudiants La coordonnée d’une variable sur une

Une pointe de flèche proche des bords

Performance académique des étudiants

Edward a un score positif sur la

Comment interpréter ces deux dimensions ?

Une société d’investissement vous demande une analyse comparative des

Parties prenantes Recommandations

Il y a probablement plusieurs dimensions

L’analyse en composantes principales est utilisée pour réduire un grand

Pour la semaine prochaine, faites les exercices de révision et le quiz sur

Le manqué de cohérence peut rendre une visualisation confuse ou difficile à

Source: « Zero to beautiful. Data visualization best practices », Power BI Microsoft

La fonction plot( ) indique à R de représenter le graphique le plus approprié

2. Utilisez text( ) pour nommer les points et ajuster la taille, la position et la

3. Utilisez points( ) pour modifier la forme et la couleur des points sur un

Utilisez la function colors( ) pour lister tous les noms de

Vous aimerez peut-être aussi