Projet Analyse de Données - Grace (ACP - ACM) - 103225

UNIVERSITE THOMAS SANKARA BURKINA FASO
-------------------------- ----------------------------
UFR/SCIENCES ET TECHNIQUES Unité – Progrès – Justice
SPECIALITE : LIME LISE
PROJET D’ANALYSES DE DONNEES
Présentée par : Encadré par :
• OUEDRAOGO Pingwendé Grâce Dr SOME Sobom Matthieu
• KABORE Oumou Kolsom
Promotion
2020 - 2023
Table des matières
INTRODUCTION GENERALE......................................................................................................
PARTIE A : ANALYSE EN COMPOSANTE PRINCIPAL...........................................................
INTRODUCTION............................................................................................................................
I-Description des données.................................................................................................................
II-ETUDE DES VALEURS PROPRES...........................................................................................
III-ETUDE DES CORRELATIONS..............................................................................................
1-Corrélations des variables............................................................................................................
IV- CONTRIBUTIONS ET QUALITES DE REPRESENTATION DES VARIABLES.............
1-Contributions des variables.........................................................................................................
2-Qualité de représentation des variables.......................................................................................
V-CONTRIBUTION ET QUALITES DE REPRESENTATION DES INDIVIDUS...................
1-Contribution des individus..........................................................................................................
VI-RELATION ENTRE VARIABLES ET INDIVIDUS..............................................................
CONCLUSION...............................................................................................................................
Partie B : Analyse en composante multiple....................................................................................
INTRODUCTION..........................................................................................................................
I-PRESENTATION DES DONNEES............................................................................................
II-Etude des valeurs propres de l’ACM..........................................................................................
1-Pourcentage d’inertie expliqué par les valeurs propres...............................................................
III-Etude des individus....................................................................................................................
1-Nuage des individus....................................................................................................................
2-Contribution et qualité de représentation des individus..............................................................
a-Contribution des individus sur le plan.........................................................................................
b- Qualité de représentation des individus......................................................................................
III-ETUDE DES MODALITES.....................................................................................................
1-Nuage des modalités variables qualitatives.................................................................................
2- Nuage des modalités des modalités qualitatives supplémentaires.............................................
3-Nuage de la variable supplémentaire...........................................................................................
IV -CONTRIBUTION ET QUALITES DE REPRESENTATIONS DES MODALITES............
2-Qualité de représentation des modalités......................................................................................
V-RELATION DE TRANSITION.................................................................................................
1-Nuage des individus et des modalités..........................................................................................
VI-REPRESENTATION D’ELLIPSES.........................................................................................
CONCLUSION GENERALE.........................................................................................................
Liste des tables
Table 1 : Tableau des données ................................................................................................... 8

Table 2: Tableau des valeurs propres......................................................................................... 9
Table 3 : coordonnées des variables par rapport à l'axe 1 ...................................................... 10
Table 4: coordonnées des variables par rapport à l'axe 2 ....................................................... 10
Table 5: Coordonné de la variable supplémentaire âge .......................................................... 26
Table 6 : Description de la premiere dimension par les variables qualitatives ....................... 31
Table 7 : Description de la première dimension par les modalités
supplémentaires ................................... 32
Liste des figures
Figure 1 : : Eboulis des valeurs propres ......................................................................................

9
Figure 2: Cercle de corrélation .................................................................................................
11
Figure 3 : Nuage des individus..................................................................................................
12
Figure 4: Histogramme de contribution des variables de dimension 1 .................................. 13
Figure 5: Histogramme de contribution des variables de dimension 2 ................................... 13
Figure 6 : Histogramme de contribution des variables de dimensions 1 et 2. ........................ 14
Figure 7: Représentation des variables sur le plan .................................................................. 15
Figure 8 : Histogramme de contribution des individus sur le plan. ......................................... 16
Figure 9 : Nuage des individus sur le plan (Cos2=0.9). ...........................................................
17
Figure 10: Diagramme des individus et des variables ..............................................................
18
Figure 11 : représentation graphique des valeurs propres ...................................................... 20
Figure 12 : Représentation plane des nuages des individus sur le plan factoriel .................... 21
Figure 13 : Représentation plane de la contribution des individus ......................................... 22
Figure 14: Histogramme de contribution des individus ...........................................................
23
Figure 15: Qualité de représentation ....................................................................................... 24
Figure 16: Représentation plane du nuage des modalités ...................................................... 25
Figure 17: Représentation plane des nuages des modalités supplémentaire ....................... 26
Figure 18 : Coordonné de la variable supplémentaire âge ...................................................... 26
Figure 19: Représentation de la variable supplémentaire âge ................................................ 27
Figure 20: Contribution des variables sur le plan factoriel ......................................................
28
Figure 21 : Histogramme de contribution des modalités ........................................................ 29
Figure 22 : Qualité de représentation des modalités .............................................................. 30
Figure 23: Représentation plane des individus et les modalités ............................................. 32
Figure 24: Représentation d d’ellipses de quelques modalités ............................................... 33
INTRODUCTION GENERALE
PARTIE A : ANALYSE EN COMPOSANTE PRINCIPAL
INTRODUCTION
L’Analyse en Composantes principales (ACP) fait partie du groupe des méthodes descriptives
multidimensionnelles appelées méthodes factorielles. Ces méthodes qui sont apparues au début
des années 30 ont été surtout développées en France dans les années 60, en particulier par Jean-
Paul Benzécri qui a beaucoup exploité les aspects géométriques et les représentations graphiques.
Dans la mesure où ce sont des méthodes descriptives, elles ne s’appuient pas sur un modèle
probabiliste, mais elles dépendent d’un modèle géométrique. L’ACP propose, `à partir d’un
tableau rectangulaire de données comportant les valeurs de p variables quantitatives pour n unités
(appelées aussi individus), des représentations géométriques de ces unités et de ces variables. Ces
données peuvent ˆêtre issues d’une procédure d’´échantillonnage ou bien de l’observation d’une
population toute entière. Les représentations des unités permettent de voir s’il existe une
structure, non connue a priori, sur cet ensemble d’unités. De façon analogue, les représentations
des variables permettent d’´étudier les structures de liaisons linéaires sur l’ensemble des variables
considérées. Ainsi, on cherchera si l’on peut distinguer des groupes dans l’ensemble des unités en
regardant quelles sont les unités qui se ressemblent, celles qui se distinguent des autres, etc. Pour
les variables, on cherchera quelles sont celles qui sont très corrélées entre elles, celles qui, au
contraire ne sont pas corrélées aux autres, etc.
L’Analyse en Composantes Principales (ACP) est un outil extrêmement puissant de

compréhension et de synthèse de l’information, très utile lorsque l’on est une présence d’une
somme importante de données quantitatives à traiter et interpréter. L’application au cours des
dernières années de logiciels chaque fois plus performants et faciles à utiliser rend aujourd’hui
accessibles ce type d’analyses de données à tous les chercheurs en sciences sociales, et non
plus aux seules spécialistes. C’est pourquoi nous proposons ici de présenter le principe et
l’intérêt de l’ACP à partir d’un exemple simple celui d’une analyse portant sur les données
cities_climate.csv, qui contient des données climatiques tirées de worldclim pour 49 grandes
villes composées de 11 variables.
I-Description des données
On s’intéresse au climat de différents pays du monde. Pour cela, on a recueilli les

températures, moyennes annuelles pour certaine capital et grande ville du monde.
En plus des températures annuelles on donne pour chaque villes la variation journalière de
température : différence moyenne entre la température maximale et minimale dans un même
mois ; la variation saisonnière de température : écart-type de la température moyenne entre les
mois ; la température maximale du mois le plus chaud ; la température minimale du mois le
plus froid ; la précipitation annuelle ; précipitation du mois le plus humide ;la précipitation du
mois le plus sec ; le coefficient de variation (ratio écart-type / moyenne) de la précipitation
entre les mois.
On donne deux variables qualitatives de positionnement (la longitude et la latitude) que nous
allons considérer comme variables supplémentaires dans le cadre de notre étude. Un extrait
des données est fourni dans le tableau 1.
Voici les lignes de code qui entre autre permette d’obtenir les graphes et les sorties de
l’analyse que nous commentons :
#packages
 library(readr)
 library(FactoMineR)
 library(ggplot2)
 library(factoextra)
 library(ggplot2)
 library(psych)
##Importation de la base
 base≤-read.csv("C:/Users/TOSHIBA/Desktop/Statistique/
cities_climate.csv",row.names="city")
 print(base)
 str(base)
 dim(base)
 summary(base)
##Construction de la matrice de corrélation
 pairs(base[,1:11])
 matrice.corr<-cor(base)
Ces lignes de code permettent :
 D’importer le jeu de données (en précisant que le nom des variables est présent, le
séparateur de champs est ‘’ ; ‘’, le séparateur de décimale est ‘’. ‘’ et le nom des
individus est présent dans la première colonne) ;
 De mettre en œuvre l’ACP avec les individus supplémentaires, les variables
quantitatives supplémentaire
 De construire le graphe avec la fonction plot.PCA des individus en habillant les
individus en fonction de la variable
 De récupérer les principaux tableaux de résultat : sur les variances expliquées par
chaque axe, sur les individus actifs, sur les individus supplémentaires, sur les variables
(quantitatives) actives, sur les variables quantitatives supplémentaire et sur les
variables qualitatives supplémentaire
 De décrire les dimensions à partir des variables ;
 De calculer les données centrées-réduites pour les variables quantitatives sur les
individus actifs uniquement ;
 De calculer la matrice de corrélation.
Table 1 : Tableau des données

II-ETUDE DES VALEURS PROPRES
Valeurs propres % Total variance % cumulée
Dim.1 3 ,91441706442566 43.4935229380629 43.4935229380629
Dim.2 2,477765395 27.5307266072769 71.0242495453399
Dim.3 0.95521447439914 10.6134941599905 81.6377437053303
Dim.4 0.823859307763768 9.15399230848632 90.7917360138166
Dim.5 0.562545789583462 6.25050877314958 97.0422447869662
Dim.6 0.217664458816321 2.41849398684802 99.4607387738142
Dim.7 0.0400100379463081 0.444555977181202 99.9052947509954
Dim.8 0.0066268620671261 0.0736318007458456 99.9789265517413
Dim.9 0.00189661034328643 0.0210734482587382 100
Table 2: Tableau des valeurs propres

Soit v la Somme des valeurs propres
v=3,91+2,47+0,95+ 0,82+ 0,56+0,21+0,04+ 0,0066+0,0018
v=9
La somme des valeurs propres représente la variance totale de l’information issus de l’analyse des
composantes principale.
On choisit de n’étudier que les deux premières composantes principales. Car :
D’après le critère de l’inertie cumulé les deux premiers axes traduisent représente 71,02% de l’inertie
total supérieur à 70%.
En considérant les valeurs propres supérieur à 1, on ne prendra que le premier et le deuxième axe
respectivement égal à 3,9144 et 2 ,4777.
Sur le graphique ci-dessous qui représente l’éboulis des valeurs propres on constate (visuellement)
une cassure (un coude) dans le graphique des valeurs propres. Selon la règle du coude les deux axes à
considérer sont celle qui sont à droite de la cassure c’est-à-dire celle qui représente respectivement
43,5% et 27,5% du pourcentage de l’inertie.
Figure 1 : : Eboulis des valeurs propres
III-ETUDE DES CORRELATIONS

1-Corrélations des variables
correlation p.value
t_mean 0.9359129 6.194791e-23
t_min 0.9183047 1.528123e-20
p_max 0.7709323 9.174885e-11
p_ann 0.6527594 3.718200e-07
p_cv 0.5362900 7.133773e-05
t_max 0.5249680 1.076949e-04
long 0.2921071 4.168812e-02
lat -0.4298205 2.054550e-03
t_sd -0.7435432 9.351291e-10
Table 3 : coordonnées des variables par rapport à l'axe 1
On peut interpréter deux variables proches (par exemple t_mean et t_min) ,comme étant à
priori corrélées positivement ,tandis que les variables (par exemple t_sd et lat ) sont corrélées
négativement par rapport au premier axe factoriel. Les variables qui ont une forte corrélation
avec l’axe explique mieux cet axe. Ainsi, les villes qui sont proches de cet axe auront une
température annuelle très élevé et les variables corrélé négativement comme t_sd , les villes
qui seront proche de cet même axe auront une variation saisonnière très faible.
Corrélation p. value
t_diu 0.7242301 4.062887e-09
p_cv 0.7050057 1.559559e-08
t_max 0.5860988 9.657264e-06
p_ann -0.5899607 8.155192e-06
p_min -0.7753274 6.135724e-11
Table 4: coordonnées des variables par rapport à l'axe 2

Les variables t_diu et p_cv sont corrélées positivement et les variables p_ann et p_min sont
négativement corrélés au deuxième axe. Les variables qui ont une forte corrélation avec cet
axe explique mieux cet axe. Ainsi, les villes qui sont proche de cet axe vont enregistre de très
faible précipitation et de très forte variation de température journalière.
Toutes les variables de table 2 et de la table 3 sont fortement corrélées respectivement au
premier et au deuxième axe.
Figure 2: Cercle de corrélation
La première composante principale est associée entre autre à une température moyenne et une
température minimale élevée.
La deuxième composante est d'abord associée à une précipitation minimale élevée, à une
faible variation journalière et à une faible variation de la précipitation. 2-Corrélation des
individus sur le plan factoriel
Figure 3 : Nuage des individus
Les variables les plus fortement corrélée entre elles sont :
o T_min et t_mean dont le coefficient de corrélation est égal à 0,9146. Les pays qui enregistrent
une forte température annuelle ont aussi de fortes température dans le mois.
o T_sd et t_min dont le coefficient de corrélation est de -0,8780 .Les pays enregistrant des
température élevées dans l’année ont une faible variation saisonnière.
o P_ann et p_max dont le coefficient est égal à 0,8462.Les pays qui enregistrent de forte
précipitation mensuelle ont une forte précipitation annuel.
Code : matrice.corr<-cor(base) ;cor(base)
IV- CONTRIBUTIONS ET QUALITES DE REPRESENTATION DES VARIABLES
1-Contributions des variables

Figure 4: Histogramme de contribution des variables de dimension 1
Les variables t_mean, t_min, p_max , t_sd contribuent fortement à la formation de l'axe 1,car
leurs coefficients de contributions sont supérieurs à la contribution moyenne.
Figure 5: Histogramme de contribution des variables de dimension 2

Les variables t_mean, t_min, p_max , t_sd contribuent faiblement à la formation de l'axe 2,car
leurs coefficients de contributions sont supérieurs à la contribution moyenne
Figure 6 : Histogramme de contribution des variables de dimensions 1 et 2.
En réalité, seul les variables t_mean,t_min,p_cv,p_ann qui contribuent plus à la formation du

plan factoriel.
2-Qualité de représentation des variables
Figure 7: Représentation des variables sur le plan
On remarque que toutes les variables ci-dessus sont biens représentées.
V-CONTRIBUTION ET QUALITES DE REPRESENTATION DES INDIVIDUS

1-Contribution des individus
Figure 8 : Histogramme de contribution des individus sur le plan.
On remarque qu'en considérant les top 30 des individus,27 ont leurs contributions supérieures
à la moyenne. En effet les individus Singapour et Mumbai contribuent fortement à la
formation du plan.
2-Qualité de représentation des individus

Figure 9 : Nuage des individus sur le plan (Cos2=0.9).
Les individus représentés sur le graphique ci _dessus ont une qualité cos2 = 0.9, donc bien
représentés.
VI-RELATION ENTRE VARIABLES ET INDIVIDUS

Figure 10: Diagramme des individus et des variables
_Le diagramme peut nous aider à donner les interprétations suivantes:

*Les villes au climat le plus froid (exemple Saint Petersburg, Montréal) sont concentrés à
gauche du graphique, un peu en haut de la médiane, à l'opposé des vecteurs associés à une
température minimale, moyenne et maximale plus élevée.
*Les villes situés à droite (exemple Mumbai et Manille) sont caractérisées par les
températures élevées toute l'année (t_mean élevé et beaucoup de précipitation lors du mois le
plus humide (p_max élevée).
*la ville de Singapour est placée à part des autres, notamment en raison de ses fortes pluies
toute l'année (p_ann et p_min élevée).
*Les villes en bas du graphique ont une température maximale élevée, au moins une saison
très aride (p_min faible) et une grande variation de température journalière.
Puisque les deux premières composantes n'expliquent que 70% de la variance totale, il faut
s'attendre à ce qu'elles ne représentent pas parfaitement la distance climatique entre les villes.
Par exemple, la ville avec les précipitations annuelles les plus faibles (Lima) se trouve au
centre du graphique plutôt qu’à proximité des autres climats arides; cela est due au fait que les
variations de température sont moins prononcées dans cette ville.
CONCLUSION
Dans ce travail, on a présenté l’Analyse en Composantes Principales comme une méthode de
base exploratoire multidimensionnelle. L’objectif de cette méthode est d’obtenir une
représentation simple du nuage des données plus proche de la réalité dans un espace de
dimension faible, permettant ainsi l’étude de la ressemblance entre les individus et la
corrélation entre les variables, tous ces informations pertinentes sont résumées et visualisées
tableau des données.
Partie B : Analyse en composante multiple
INTRODUCTION
Une ACM est une extension de l’analyse Factorielle des Correspondances pour résumer et
visualiser un tableau de données contenant plus de deux variables catégorielles. L’on peut
aussi la considérer comme une généralisation de l’analyse en composantes principales ACP
lorsque les variables à analyser sont catégorielles plutôt que quantitatives.
En statistique, une variable qualitative ou catégorielle est une variable qui prends pour valeur
des modalités, des catégories ou des niveaux, par opposition aux variables quantitatives qui
mesurent sur chaque individu une quantité.
I-PRESENTATION DES DONNEES
300 consommateurs de thé ont répondu à un questionnaire sur leur consommation de thé.
Les questions portaient sur leurs façons de consommer le thé et leurs images du thé. Le
questionnaire comporte également des questions descriptives telles que le sexe, l’âge, la
catégorie socio-professionnelle et la pratique régulière d’un sport.
Excepter l’âge, toutes variables sont qualitatives. Le tableau de donnée comporte deux
variables différentes pour l’âge : une continue et une qualitative.
II-Etude des valeurs propres de l’ACM

1-Pourcentage d’inertie expliqué par les valeurs propres
Dim.1 Dim.2 Dim.3 Dim4 Dim.5 Dim.6 Dim.7 Dim.8 Dim.9 Dim.10
Valeur 0.148 0.122 0.090 0.078 0.074 0.O71 0.068 0.065 0.062 0.059
propre
Pourcentage 9.885 8.103 6.001 5.204 4.917 4.759 4.522 4.355 4.123 3.902
d’inertie
Pourcentage 9.885 17.988 23.989 29.192 34.109 38.868 43.390 47.745 51.867 55.769
d’inertie
cumulée
Table 5 : Tableau des valeurs propres

Il ressort du graphique ci-dessous qu’il y’a une cassure au niveau de la 2em valeur propre
(règle de Kaiser)
Figure 11 : représentation graphique des valeurs propres

Les données sont représentées à hauteur de 17.989 par les deux premiers axes (9 .885 +
8.103). On peut voir à partir du tableau ou de la figure que la décroissance des valeurs propres
est régulière. On n’interprète ici les deux premiers axes factoriels même s’il est intéressant
d’interpréter les axes suivants.
III-Etude des individus

1-Nuage des individus
Figure 12 : Représentation plane des nuages des individus sur le plan factoriel
Il n’y a pas de groupe d’individus particulier : le nuage des points a une forme plutôt
homogène. Pour illustrer la notion de distance entre individu on peut s’intéresser au 4
individus suivants : 200 ;262 (à l’extrémité négative du premier axe factoriel) et 265 ;273 (à
l’extrémité positive du premier axe factoriel). Les individus 200 et 262 (resp.265 et 273) sont
proches car ils ont beaucoup de modalités communes. Les couple 200-262 et 265-273 sont
éloignés loin de l’autre (opposé sur le premier axe) car ils ont très peu de modalités en
commun.
On peut, comme dans toute analyse factorielle, interpréter les dimensions de l’ACM à partir
des individus. Les individus 265 et 273 sont des amateurs de thé qui boivent du thé
régulièrement et à toute occasion. Les individus 200 et 262 ne boivent du thé qu’à la maison
soit au petit déjeuner soit en soirée. Cette démarche exploratoire est fastidieuse en raison du
nombre important d’individus et se généralise par l’étude des modalités à travers les individus
qu’elles représentent.
2-Contribution et qualité de représentation des individus

a-Contribution des individus sur le plan
Figure 13 : Représentation plane de la contribution des individus

Les individus visibles sur la figure (figure 13) c’est à dire les individus numérotés sont des top
20 des individus qui contribuent le plus à la formation du premier plan factoriel et les points
gris sont les individus qui contribuent moins.
Figure 14: Histogramme de contribution des individus
En réalité en regardant sur la contribution totale des individus, plus de la moitié des individus
ont une contribution inferieur à la contribution moyenne et les individus qui contribuent
fortement sont vraiment peu.
b- Qualité de représentation des individus
Figure 15: Qualité de représentation
Les individus en vert sont les top 20 les mieux représentés sur le premier plan factoriel et les
individus représentés en point gris sont les mal représentés
III-ETUDE DES MODALITES
1-Nuage des modalités variables qualitatives

Figure 16: Représentation plane du nuage des modalités
Le premier axe oppose les modalités tearoom, tea bag + unpackaged, resto, pub, work, aux
modalités not friends, not home, not resto. Ce premier axe oppose tous donc tous les buveurs
réguliers aux buveurs occasionnels. Quant au deuxième axe, il distingue les modalités tea
shop, unpackaged, p-upscale, et dans une moindre mesure green, dinner de l’ensemble des
autres modalités.
2- Nuage des modalités des modalités qualitatives supplémentaires

Figure 17: Représentation plane des nuages des modalités supplémentaire
Le premier axe oppose student et les individus âgés de plus de 60, middle, non worker, not
relaxing aux modalités not sophisticated, 15-24.
3-Nuage de la variable supplémentaire
Dim.1 Dim.2
0.042 0.204
Table 5: Coordonné de la variable supplémentaire âge

Figure 19 : Représentation de la variable supplémentaire âge
Le cercle de corrélation permet de représenter la variable quantitative âge. Cette variable n’est
pas bien représentée ; cependant la corrélation avec le deuxième facteur (0.204) est
significative en raison du nombre important d’individus. Les jeunes ont plutôt tendance à ne
pas acheter leur thé en magasin spécialisé. On peut dire aussi que les vieux achètent de
préférence un thé haut de game, en vrac, dans les magasins spécialisés.
IV -CONTRIBUTION ET QUALITES DE REPRESENTATIONS DES MODALITES

1-Contribution des modalités des variables
Figure 20 : Contribution des variables sur le plan factoriel
Les 2O variables qui sont en rouge sont les variables qui contribuent le plus à la formation du
plan factoriel.
Figure 21 : Histogramme de contribution des modalités
En visualisant l’histogramme, on voit que c’est la variable tea shop qui contribue le plus. En
réalités ce sont 17 variables qui ont une valeur de contribution supérieur à la moyenne, donc
qui contribuent fortement à la formation du premier plan factoriel.
2-Qualité de représentation des modalités

Figure 22 : Qualité de représentation des modalités
Les modalité Chain Stare, tea shop, p_upscale etc.… sont les top 20 modalités bien
représentés, mais les trois premières modalités sont les mieux représenter car leurs
coefficients de représentativité sont proche de 1.
R2 p.value
where 0.41793014 1.255462e-35
tearoom 0.37189109 6.082138e-32
how 0.29882863 1.273180e-23
friends 0.24319952 8.616289e-20
resto 0.22646759 2.319804e-18
tea.time 0.19203800 1.652462e-15
price 0.21609382 4.050469e-14
pub 0.14722360 5.846592e-12
work 0.11153590 3.000872e-09
How 0.10285191 4.796010e-07
Tea 0.08950330 8.970954e-07
lunch 0.07458227 1.570629e-06
evening 0.05311759 5.586801e-05
always 0.04479873 2.219503e-04
sex 0.03335969 1.487620e-03
dinner 0.03289362 1.608077e-03
breakfast 0.02539639 5.667604e-03
sugar 0.01527654 3.234986e-02
Table 6 : Description de la premiere dimension par les variables qualitatives

Estimate p.value
Tea=Earl Grey 0.18122366 5.474630e-22
breakfast=Not.breakfast 0.13921762 2 .138445e-17
sugar=sugar 0.13764789 5.278399e-17
home=Not.home 0.32238212 5.642852e-11
evening=evening 0.10304138 7.269113e-09
friends=friends 0.10113377 1.307065e-08
always=always 0.10056783 1.721112e-08
How=lemon 0.29113799 3.532927e-05
tea.time=Not.tea time 0.07044079 4.636352e-05
frequency=1 to 2/week 0.13367067 4.787775e-05
age_Q=25-34 0.15458550 9.102105e-05
SPC=student 0.11762964 1.467086e-04
pub=pub 0.07646920 2.936636e-04
age_Q=15-24 0.12278166 4.286711e-04
How=alone 0.13200504 7.535155e-04
where=tea shop 0.12875140 1.905017e-03
exciting=exciting 0.04797670 6.872690e-03
dinner=dinner 0.08625296 1.095256e-02
spirituality=spirituality 0.04098581 2.817777e-02
lunch=lunch 0.05297807 3.050262e-02
Table 7 : Description de la première dimension par les modalités supplémentaires
La première composante principale est caractérisée par les variables « where, tea room, … »
Quelques variables qualitatives illustratives lui sont corrélés comme « sex et conviviality ». La
caractérisation par les modalités est similaire à la caractérisation par les variables mais permet
plus de précision. Par exemple ; la coordonnée de la modalité « tea room » est positive alors
que celle de « not tea room » est négative. Cela signifie que les individus dont la coordonnée
sur l’axe 1 est positive ont tendance à fréquenté les salons de thé.
V-RELATION DE TRANSITION
Les relations de transition lient le nuage des individus au nuage des modalités
1-Nuage des individus et des modalités

Figure 23 : Représentation plane des individus et les modalités
Les modalités p_private label et p_branded sont représenter l’une à côté de l’autre. En effet
ces deux modalités groupent des consommateurs aux profils similaires : ils ont tendances à
acheter plus en tea bag et non en magasin spécialisé, à consommer Chain store (le thé en
sachet) exclusivement, à le sucrer. L’influence de l’ensemble de ces variables rapproche ces
deux modalités
VI-REPRESENTATION D’ELLIPSES
Figure24 : Représentation d d’ellipses de quelques modalités

_ La modalité lunch : On remarque dans le graphique que les individus qui prennent du thé
après le déjeuner est largement supérieur aux individus qui le prennent.
_La modalité tea time : On voit que les gens qui accorde leur temps pour prendre le thé est
sensiblement supérieur à ceux qui ne le font pas.
_La modalité breakfast : les individus du breakfast sont sensiblement égaux aux individus du
not breakfast.
_La modalité evening : Le nombre d’individus qui consomment le thé dans les après-midi est
inférieur au nombre d’individu qui ne le consomme pas.
CONCLUSION GENERALE
Dans ce projet, nous avons présenté comment mettre en œuvre les différentes méthodes
d’Analyses des données à l’aide d’un logiciel statistique R. Cela nous a permis de montrer
quel type de données peuvent être par quel méthode, et ce que l’on peut attendre des résultats.
Quant à l’aspect informatique, nous avons fait un script R pour une mise en œuvre des
méthodes grâce à la simplicité du langage R.
L’Analyse des données est un processus qui permet de progresser pas à pas dans la
connaissance et l’explication des faits traduit en termes de données. L’analyse des données
n’est donc pas une méthode de calcul numérique, qui a un ensemble de nombres fait
correspondre un résultat unique numérique !

Projet Analyse de Données - Grace (ACP - ACM) - 103225

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet Analyse de Données - Grace (ACP - ACM) - 103225

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE THOMAS SANKARA BURKINA FASO

UFR/SCIENCES ET TECHNIQUES Unité – Progrès – Justice

SPECIALITE : LIME LISE

PROJET D’ANALYSES DE DONNEES

Présentée par : Encadré par :

• OUEDRAOGO Pingwendé Grâce Dr SOME Sobom Matthieu

• KABORE Oumou Kolsom

Table 1 : Tableau des données ................................................................................................... 8

Figure 1 : : Eboulis des valeurs propres ......................................................................................

L’Analyse en Composantes Principales (ACP) est un outil extrêmement puissant de

I-Description des données

On s’intéresse au climat de différents pays du monde. Pour cela, on a recueilli les

Table 1 : Tableau des données

Table 2: Tableau des valeurs propres

III-ETUDE DES CORRELATIONS

Table 4: coordonnées des variables par rapport à l'axe 2

Code : matrice.corr<-cor(base) ;cor(base)

IV- CONTRIBUTIONS ET QUALITES DE REPRESENTATION DES VARIABLES

1-Contributions des variables

Figure 5: Histogramme de contribution des variables de dimension 2

Figure 6 : Histogramme de contribution des variables de dimensions 1 et 2.

En réalité, seul les variables t_mean,t_min,p_cv,p_ann qui contribuent plus à la formation du

On remarque que toutes les variables ci-dessus sont biens représentées.

V-CONTRIBUTION ET QUALITES DE REPRESENTATION DES INDIVIDUS

2-Qualité de représentation des individus

VI-RELATION ENTRE VARIABLES ET INDIVIDUS

_Le diagramme peut nous aider à donner les interprétations suivantes:

Partie B : Analyse en composante multiple

I-PRESENTATION DES DONNEES

II-Etude des valeurs propres de l’ACM

Table 5 : Tableau des valeurs propres

Figure 11 : représentation graphique des valeurs propres

III-Etude des individus

2-Contribution et qualité de représentation des individus

Figure 13 : Représentation plane de la contribution des individus

Figure 14: Histogramme de contribution des individus

Figure 15: Qualité de représentation

III-ETUDE DES MODALITES

1-Nuage des modalités variables qualitatives

2- Nuage des modalités des modalités qualitatives supplémentaires

3-Nuage de la variable supplémentaire

Table 5: Coordonné de la variable supplémentaire âge

IV -CONTRIBUTION ET QUALITES DE REPRESENTATIONS DES MODALITES

2-Qualité de représentation des modalités

Table 6 : Description de la premiere dimension par les variables qualitatives

Table 7 : Description de la première dimension par les modalités supplémentaires

1-Nuage des individus et des modalités

Figure24 : Représentation d d’ellipses de quelques modalités

Vous aimerez peut-être aussi