Vous êtes sur la page 1sur 26

Business Analytics

Analyse multidimensionnelle
Objectifs

A la fin cours, vous saurez :


• Utiliser l’analyse en composantes principales pour réduire le nombre de
variables observées à un nombre plus petit de dimensions
• Créer un graphique permettant un positionnement multidimensionnel des
individus

2
Simplifier votre
base de données
Pourquoi l’ACP ?

Les statistiques descriptives donnent un aperçu de chaque variable


individuellement.

Plusieurs variables peuvent mesurer la même idée ou « même dimension ».

L’analyse en composantes principales permet d’identifier et de hiérarchiser


les groupes de variables exprimant la même dimension.
Montant cumulé des
Solde moyen du compte découverts sur les 12
courant sur les 12 derniers mois
derniers mois Nombre de mois en
Retraits cumulés du
variation en % du découvert sur les 12
compte épargne sur les
solde épargne sur les derniers mois
12 derniers mois
12 derniers mois Nombre de comptes
utilisés hors compte
Emprunts cumulés au cours Dépôts cumulés faits à partir courant
des 3 dernières années du compte épargne sur les 5
dernières années
Nombre d’enfants Âge du client
âgés de moins de 18
ans

4
Pourquoi l’ACP ?

L’analyse en composantes principales est une technique statistique


permettant de réduire le nombre de variables à un nombre de dimensions
restreint
• Ex. 12 éléments d’un questionnaire peuvent mesurer 3 dimensions
 Liquidité bancaire, activité bancaire et situation familiale

On l’utilise pour réduire les données et rendre l’information plus claire.

5
Analyse en
composantes
principales
Qu’est-ce que l’ Analyse en Composantes
Principales ?
Il est facile de comparer des individus à travers une ou deux variables.

Rémunération Rémunération Années


faible élevée d’expérience Rémunération
élevée seniors

Rémunération
salaire faible
juniors

salaire

Années Mais il est plus difficile de comparer des individus à


d’expérience travers trois variables ou plus.
On préfère avoir des variables synthétiques pour
comparer les individus sur 2 axes uniquement.

salaire Variable
synthétique 2
années
d’éducation L’ACP crée des variables
synthétiques appelées dimensions
Variable
et attribue un poids à chaque synthétique 1
individu.

7
Quand peut-on utiliser l’Analyse en
Composantes Principales ?

 Données quantitatives (ordinales, intervalles et ratios)

 Variables normalement distribuées (pas vraiment nécessaire)

 Les données doivent être standardisées


(centrées réduites pour ramener toutes les variables dans une même unité)

8
Comment fonctionne l’analyse en
composantes principales

1. Vous avez une base de données composée de n individus et p variables

Etudiant Maths Economie Droit


Marie 6 3 8
John 18 10 12 n = 5 individus
Bob 19 13 15
Kevin 17 13 18
Lenny 1 7 1

p = 3 variables

9
Comment fonctionne l’analyse en
composantes principales

1. Vous avez une base de données composée de n individus et p variables


2. Représentez tous les individus dans un espace à p dimensions

Eco
Nuage de points à
20
Kevin p-dimensions

Bob John
10
Marie

18
Lenny 0
10 20 Droit
10

20
Maths

10
Comment fonctionne l’analyse en
composantes principales

1. Vous avez une base de données composée de n individus et p variables


2. Représentez tous les individus dans un espace à p dimensions

3. Tracez un axe passant par la direction où le nuage de point est le plus


allongé (dispersion la plus forte)

Eco L’axe suit la direction du nuage


où il y a le plus de dispersion.
20
Kevin C’est l’axe qui conserve le
mieux la distance entre les
Bob John
individus. Ainsi on retient sur
10
Marie cet axe une grande partie de la
variance de la base de données.
18 Vue du dessus
Lenny 0
10 20 Droit
10

20
Maths Distance à
l’axe
Cet axe s’appelle la première dimension du nuage.

11
Comment fonctionne l’analyse de
composantes principales

1. Vous avez une base de données composée de n individus et p variables


2. Représentez tous les individus dans un espace à p dimensions

3. Tracez un axe passant par la direction où le nuage de point est le plus


allongé (dispersion la plus forte)
La dimension 1 (axe 1) résume une partie
Eco de l’information contenue dans les
variables d’origine
20
Kevin
La dimension 1 restitue C’est une combinaison linéaire de ces
81% de la variance Bob John variables.
contenue dans les 10
Marie Les variables ayant le plus de poids sur
données
cette dimension 1 sont celles qui font le
18 plus la différence entre les individus
Lenny 0
10 20 Droit
10

20
PC1 = 0.95Droit + 0.77Maths + 0.96
Maths Eco

On calcule pour chaque individu sa coordonnée sur la dimension 1 basée sur les valeurs
des variables d’origine.
12
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)

4. Tracez un deuxième axe (orthogonal au premier) pour capter de


l’information additionnelle (indépendante de celle du 1er axe, 2ème direction
d’allongement maximum du nuage)

Cette 2ème dimension résume une partie de


Eco l’information contenue dans les variables
originales et non captée par la 1ère dimension
Chaque individu a une 20
Kevin
coordonne sur cette 2ème Cette 2ème dimension est aussi une combinaison
dimension Bob John
linéaire des variables d’origine.

10 Les variables ayant le plus de poids sur cette


dimension 2 restitue 17% Marie
dimension 2 différencient moins les individus que
de la variance contenue celles ressorties sur la dimension 1.
dans la base de données. 18
Lenny 0
10 20 Droit
10
PC2 = -0.28Droit + 0.63Maths - 0.23
Maths
20 Eco

13
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle

5. Déterminez le nombre de dimensions requises pour résumer la base de


données
La « valeur propre » est un indicateur de la
Valeurs propres
variance restituée par chacune des dimensions.

On retient :
- toutes les dimensions jusqu’à une baisse
significative de la valeur propre
- ou toutes les dimensions ayant des valeurs
propres supérieures à 1

Forte diminution. Les 2 premières dimensions sont retenues. Elle doivent expliquer
un fort pourcentage de la variance de la base de donnée.

14
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle
5. Déterminez le nombre de dimensions requises pour résumer la base de données

6. Interprétez la signification de chaque dimension en vous basant sur les


variables les plus corrélées à la dimension.

Performance académique des étudiants La coordonnée d’une variable sur une


dimension est le coefficient de
corrélation de cette variable avec la
dimension

Une pointe de flèche proche des bords


du cercle signifie que la variable est bien
représentée sur le plan en 2 dimensions

15
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un 2ème axe (ortho au premier) pour capter de l’info additionnelle
5. Déterminez le nb de dimensions requises pour résumer la base de données
6. Interprétez la signification de chaque dimension en vous basant sur les variables les plus corrélées à la dimension.

7. Utilisez les coordonnées sur les nouvelles dimensions pour représenter les
individus en fonction des variables synthétiques

Performance académique des étudiants

Edward a un score positif sur la


dimension 1 et un score négatif sur
la dimension 2.

Comment interpréter ces deux dimensions ?

16
Etude de cas
Description du cas

Une société d’investissement vous demande une analyse comparative des


stations de ski des Pyrénées françaises. Elle cherche à investir dans une
station et voudrait une carte comparative de l’ensemble des stations pour
l’aider dans son choix.
Vous avez collecté une large quantité de données à partir des sites de 36
stations. En tout, vous disposez de 33 variables décrivant chaque station.

18
Feuille de route
Question d’entreprise Méthodologie Résultats  Aperçu
… Schémas, résultats, implications

Données
Contexte …
Que s’est-il passé où, et quand.

Intuition  Hypothèses

Parties prenantes Recommandations


Quelles actions, par qui et pour quand.


Objectifs de l’analyse

19
Feuille de route
Question Méthodologie Résultats  Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour Text
représenter chaque station à travers les
dimensions principales.
Données
Contexte 33 variables observées sur les sites de 36
Que s’est-il passé, où et quand. stations de ski.
Une société d’investissement a décidé
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition  Hypothèses
marché de toutes les stations. Intuition des causes & moteurs

Il y a probablement plusieurs dimensions


sous-jacentes qui décrivent les stations
de ski telles que la localisation
géographique, le type de services
offerts et la qualité du domaine skiable

Actionnaires Recommandations
Quelles actions, par qui et pour quand.
Objectifs de l’analyse Text
La société d’investissement
La station de ski choisie
Construire une carte comparative des
stations de ski à travers les dimensions
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement

20
Cas Ski-La feuille de route complète
Question Méthodologie Résultats  Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour La dimension 1 mesure le « niveau
représenter chaque station à travers les d’infrastructure » d’une station de ski.
dimensions principales.
Données La dimension 2 mesure la « difficulté des
Contexte 33 variables observées sur les sites de 36
pistes »
Que s’est-il passé, où et quand. stations de ski. La dimension 3 « l’accessibilité de la
Une société d’investissement a décidé station depuis Toulouse ».
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition  Hypothèses Le graphique montre la dispersion des
marché de toutes les stations. Intuition des causes & moteurs stations à travers les deux dimensions.
Chaque quadrant traduit un niveau
Il y a probablement plusieurs dimensions d’infrastructure, de difficulté et de
sous-jacentes qui décrivent les stations proximité à Toulouse.
de ski telles que la localisation
géographique, le type de services
offerts et la qualité du domaine skiable

Actionnaires Recommandations
Quelles actions, par qui et pour quand.
Objectifs de l’analyse Sélectionner une station avec une
La société d’investissement
coordonnée faible sur la dimension 1
La station de ski choisie
(station dont on a besoin d’améliorer
Construire une carte comparative des l’infrastructure) et faible sur la
stations de ski à travers les dimensions dimension 2 (proche de Toulouse).
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement

21
Conclusion

L’analyse en composantes principales est utilisée pour réduire un grand


nombre de variables dans une base de données à un nombre plus petit de
dimensions synthétiques. Elle est utile pour résumer les données et
cartographier les individus selon les dimensions clés.

Pour la semaine prochaine, faites les exercices de révision et le quiz sur


C@mpus et complétez la préparation pour le cours de la semaine prochaine
« groupes et partitionnement »

22
Visualisation des
données astuce #2
Astuce #2: Soyez cohérents

Le manqué de cohérence peut rendre une visualisation confuse ou difficile à


interpréter.
• Gardez les éléments de design tels que la couleur et l’épaisseur de la ligne
uniformes.
• Veillez à ce que le nom et les couleurs représentant un point particulier des
données restent les mêmes pour les graphiques liés.

Source: « Zero to beautiful. Data visualization best practices », Power BI Microsoft

24
Astuce #2: Soyez cohérent
Les couleurs et les titres dans R

La fonction plot( ) indique à R de représenter le graphique le plus approprié


pour vos données. Vous pouvez utiliser les fonctions text( ), points( ) et
labels( ) en même temps que plot.
1. Utilisez plot( ) pour créer le graphique basique, ajouter un titre principal
et le nom des axes
plot(mtcars$hp, mtcars$mpg, main = "MPG vs horsepower", xlab = "miles per gallon",
ylab = "horsepower")

2. Utilisez text( ) pour nommer les points et ajuster la taille, la position et la


couleur
text(mtcars$mpg, mtcars$hp, labels = rownames(mtcars), cex = 0.7, adj = c(0.5, 2))

3. Utilisez points( ) pour modifier la forme et la couleur des points sur un


graphique
points(mtcars$mpg, mtcars$hp, col = "red", pch = 19)

Utilisez la function colors( ) pour lister tous les noms de


couleurs dans R. Utilisez help (ex. ?plot) pour voir tous les
arguments disponibles.
25
Références

Rapport
• « Zero to beautiful. Data visualization best practices », Power BI Microsoft

Livre
• R for data science

26

Vous aimerez peut-être aussi