Académique Documents
Professionnel Documents
Culture Documents
Analyse multidimensionnelle
Objectifs
2
Simplifier votre
base de données
Pourquoi l’ACP ?
4
Pourquoi l’ACP ?
5
Analyse en
composantes
principales
Qu’est-ce que l’ Analyse en Composantes
Principales ?
Il est facile de comparer des individus à travers une ou deux variables.
Rémunération
salaire faible
juniors
salaire
salaire Variable
synthétique 2
années
d’éducation L’ACP crée des variables
synthétiques appelées dimensions
Variable
et attribue un poids à chaque synthétique 1
individu.
7
Quand peut-on utiliser l’Analyse en
Composantes Principales ?
8
Comment fonctionne l’analyse en
composantes principales
p = 3 variables
9
Comment fonctionne l’analyse en
composantes principales
Eco
Nuage de points à
20
Kevin p-dimensions
Bob John
10
Marie
18
Lenny 0
10 20 Droit
10
20
Maths
10
Comment fonctionne l’analyse en
composantes principales
20
Maths Distance à
l’axe
Cet axe s’appelle la première dimension du nuage.
11
Comment fonctionne l’analyse de
composantes principales
20
PC1 = 0.95Droit + 0.77Maths + 0.96
Maths Eco
On calcule pour chaque individu sa coordonnée sur la dimension 1 basée sur les valeurs
des variables d’origine.
12
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
13
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle
On retient :
- toutes les dimensions jusqu’à une baisse
significative de la valeur propre
- ou toutes les dimensions ayant des valeurs
propres supérieures à 1
Forte diminution. Les 2 premières dimensions sont retenues. Elle doivent expliquer
un fort pourcentage de la variance de la base de donnée.
14
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un deuxième axe (orthogonal au premier) pour capter de l’information additionnelle
5. Déterminez le nombre de dimensions requises pour résumer la base de données
15
Comment fonctionne l’analyse en
composantes principales
1. Vous avez une base de données composée de n individus et p variables
2. Représentez tous les individus dans un espace à p dimensions
3. Tracez un axe passant par la direction où le nuage de point est le plus allongé (dispersion la plus forte)
4. Tracez un 2ème axe (ortho au premier) pour capter de l’info additionnelle
5. Déterminez le nb de dimensions requises pour résumer la base de données
6. Interprétez la signification de chaque dimension en vous basant sur les variables les plus corrélées à la dimension.
7. Utilisez les coordonnées sur les nouvelles dimensions pour représenter les
individus en fonction des variables synthétiques
16
Etude de cas
Description du cas
18
Feuille de route
Question d’entreprise Méthodologie Résultats Aperçu
… Schémas, résultats, implications
…
…
Données
Contexte …
Que s’est-il passé où, et quand.
…
Intuition Hypothèses
19
Feuille de route
Question Méthodologie Résultats Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour Text
représenter chaque station à travers les
dimensions principales.
Données
Contexte 33 variables observées sur les sites de 36
Que s’est-il passé, où et quand. stations de ski.
Une société d’investissement a décidé
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition Hypothèses
marché de toutes les stations. Intuition des causes & moteurs
Actionnaires Recommandations
Quelles actions, par qui et pour quand.
Objectifs de l’analyse Text
La société d’investissement
La station de ski choisie
Construire une carte comparative des
stations de ski à travers les dimensions
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement
20
Cas Ski-La feuille de route complète
Question Méthodologie Résultats Aperçu
Dans quelle station de ski la société Effectuer une ACP sur les variables Schémas, résultats, implications
devrait-elle investir ? quantitatives sélectionnées pour La dimension 1 mesure le « niveau
représenter chaque station à travers les d’infrastructure » d’une station de ski.
dimensions principales.
Données La dimension 2 mesure la « difficulté des
Contexte 33 variables observées sur les sites de 36
pistes »
Que s’est-il passé, où et quand. stations de ski. La dimension 3 « l’accessibilité de la
Une société d’investissement a décidé station depuis Toulouse ».
d’investir dans une station de ski dans les
Pyrénées. Elle demande une carte de Intuition Hypothèses Le graphique montre la dispersion des
marché de toutes les stations. Intuition des causes & moteurs stations à travers les deux dimensions.
Chaque quadrant traduit un niveau
Il y a probablement plusieurs dimensions d’infrastructure, de difficulté et de
sous-jacentes qui décrivent les stations proximité à Toulouse.
de ski telles que la localisation
géographique, le type de services
offerts et la qualité du domaine skiable
Actionnaires Recommandations
Quelles actions, par qui et pour quand.
Objectifs de l’analyse Sélectionner une station avec une
La société d’investissement
coordonnée faible sur la dimension 1
La station de ski choisie
(station dont on a besoin d’améliorer
Construire une carte comparative des l’infrastructure) et faible sur la
stations de ski à travers les dimensions dimension 2 (proche de Toulouse).
clés, stratégiques. Cela doit permettre
de visualiser les opportunités
d’investissement
21
Conclusion
22
Visualisation des
données astuce #2
Astuce #2: Soyez cohérents
24
Astuce #2: Soyez cohérent
Les couleurs et les titres dans R
Rapport
• « Zero to beautiful. Data visualization best practices », Power BI Microsoft
Livre
• R for data science
26