Académique Documents
Professionnel Documents
Culture Documents
-------------------------- ----------------------------
Promotion
2020 - 2023
Table des matières
INTRODUCTION GENERALE......................................................................................................
PARTIE A : ANALYSE EN COMPOSANTE PRINCIPAL...........................................................
INTRODUCTION............................................................................................................................
I-Description des données.................................................................................................................
II-ETUDE DES VALEURS PROPRES...........................................................................................
III-ETUDE DES CORRELATIONS..............................................................................................
1-Corrélations des variables............................................................................................................
IV- CONTRIBUTIONS ET QUALITES DE REPRESENTATION DES VARIABLES.............
1-Contributions des variables.........................................................................................................
2-Qualité de représentation des variables.......................................................................................
V-CONTRIBUTION ET QUALITES DE REPRESENTATION DES INDIVIDUS...................
1-Contribution des individus..........................................................................................................
VI-RELATION ENTRE VARIABLES ET INDIVIDUS..............................................................
CONCLUSION...............................................................................................................................
Partie B : Analyse en composante multiple....................................................................................
INTRODUCTION..........................................................................................................................
I-PRESENTATION DES DONNEES............................................................................................
II-Etude des valeurs propres de l’ACM..........................................................................................
1-Pourcentage d’inertie expliqué par les valeurs propres...............................................................
III-Etude des individus....................................................................................................................
1-Nuage des individus....................................................................................................................
2-Contribution et qualité de représentation des individus..............................................................
a-Contribution des individus sur le plan.........................................................................................
b- Qualité de représentation des individus......................................................................................
III-ETUDE DES MODALITES.....................................................................................................
1-Nuage des modalités variables qualitatives.................................................................................
2- Nuage des modalités des modalités qualitatives supplémentaires.............................................
3-Nuage de la variable supplémentaire...........................................................................................
IV -CONTRIBUTION ET QUALITES DE REPRESENTATIONS DES MODALITES............
2-Qualité de représentation des modalités......................................................................................
V-RELATION DE TRANSITION.................................................................................................
1-Nuage des individus et des modalités..........................................................................................
VI-REPRESENTATION D’ELLIPSES.........................................................................................
CONCLUSION GENERALE.........................................................................................................
Liste des tables
INTRODUCTION GENERALE
PARTIE A : ANALYSE EN COMPOSANTE PRINCIPAL
INTRODUCTION
L’Analyse en Composantes principales (ACP) fait partie du groupe des méthodes descriptives
multidimensionnelles appelées méthodes factorielles. Ces méthodes qui sont apparues au début
des années 30 ont été surtout développées en France dans les années 60, en particulier par Jean-
Paul Benzécri qui a beaucoup exploité les aspects géométriques et les représentations graphiques.
Dans la mesure où ce sont des méthodes descriptives, elles ne s’appuient pas sur un modèle
probabiliste, mais elles dépendent d’un modèle géométrique. L’ACP propose, `à partir d’un
tableau rectangulaire de données comportant les valeurs de p variables quantitatives pour n unités
(appelées aussi individus), des représentations géométriques de ces unités et de ces variables. Ces
données peuvent ˆêtre issues d’une procédure d’´échantillonnage ou bien de l’observation d’une
population toute entière. Les représentations des unités permettent de voir s’il existe une
structure, non connue a priori, sur cet ensemble d’unités. De façon analogue, les représentations
des variables permettent d’´étudier les structures de liaisons linéaires sur l’ensemble des variables
considérées. Ainsi, on cherchera si l’on peut distinguer des groupes dans l’ensemble des unités en
regardant quelles sont les unités qui se ressemblent, celles qui se distinguent des autres, etc. Pour
les variables, on cherchera quelles sont celles qui sont très corrélées entre elles, celles qui, au
contraire ne sont pas corrélées aux autres, etc.
On donne deux variables qualitatives de positionnement (la longitude et la latitude) que nous
allons considérer comme variables supplémentaires dans le cadre de notre étude. Un extrait
des données est fourni dans le tableau 1.
Voici les lignes de code qui entre autre permette d’obtenir les graphes et les sorties de
l’analyse que nous commentons :
#packages
library(readr)
library(FactoMineR)
library(ggplot2)
library(factoextra)
library(ggplot2)
library(psych)
##Importation de la base
base≤-read.csv("C:/Users/TOSHIBA/Desktop/Statistique/
cities_climate.csv",row.names="city")
print(base)
str(base)
dim(base)
summary(base)
##Construction de la matrice de corrélation
pairs(base[,1:11])
matrice.corr<-cor(base)
Ces lignes de code permettent :
D’importer le jeu de données (en précisant que le nom des variables est présent, le
séparateur de champs est ‘’ ; ‘’, le séparateur de décimale est ‘’. ‘’ et le nom des
individus est présent dans la première colonne) ;
De mettre en œuvre l’ACP avec les individus supplémentaires, les variables
quantitatives supplémentaire
De construire le graphe avec la fonction plot.PCA des individus en habillant les
individus en fonction de la variable
De récupérer les principaux tableaux de résultat : sur les variances expliquées par
chaque axe, sur les individus actifs, sur les individus supplémentaires, sur les variables
(quantitatives) actives, sur les variables quantitatives supplémentaire et sur les
variables qualitatives supplémentaire
De décrire les dimensions à partir des variables ;
De calculer les données centrées-réduites pour les variables quantitatives sur les
individus actifs uniquement ;
De calculer la matrice de corrélation.
v=9
La somme des valeurs propres représente la variance totale de l’information issus de l’analyse des
composantes principale.
On choisit de n’étudier que les deux premières composantes principales. Car :
D’après le critère de l’inertie cumulé les deux premiers axes traduisent représente 71,02% de l’inertie
total supérieur à 70%.
En considérant les valeurs propres supérieur à 1, on ne prendra que le premier et le deuxième axe
respectivement égal à 3,9144 et 2 ,4777.
Sur le graphique ci-dessous qui représente l’éboulis des valeurs propres on constate (visuellement)
une cassure (un coude) dans le graphique des valeurs propres. Selon la règle du coude les deux axes à
considérer sont celle qui sont à droite de la cassure c’est-à-dire celle qui représente respectivement
43,5% et 27,5% du pourcentage de l’inertie.
Figure 1 : : Eboulis des valeurs propres
correlation p.value
t_mean 0.9359129 6.194791e-23
t_min 0.9183047 1.528123e-20
p_max 0.7709323 9.174885e-11
p_ann 0.6527594 3.718200e-07
p_cv 0.5362900 7.133773e-05
t_max 0.5249680 1.076949e-04
long 0.2921071 4.168812e-02
lat -0.4298205 2.054550e-03
t_sd -0.7435432 9.351291e-10
Table 3 : coordonnées des variables par rapport à l'axe 1
On peut interpréter deux variables proches (par exemple t_mean et t_min) ,comme étant à
priori corrélées positivement ,tandis que les variables (par exemple t_sd et lat ) sont corrélées
négativement par rapport au premier axe factoriel. Les variables qui ont une forte corrélation
avec l’axe explique mieux cet axe. Ainsi, les villes qui sont proches de cet axe auront une
température annuelle très élevé et les variables corrélé négativement comme t_sd , les villes
qui seront proche de cet même axe auront une variation saisonnière très faible.
Corrélation p. value
t_diu 0.7242301 4.062887e-09
p_cv 0.7050057 1.559559e-08
t_max 0.5860988 9.657264e-06
p_ann -0.5899607 8.155192e-06
p_min -0.7753274 6.135724e-11
La première composante principale est associée entre autre à une température moyenne et une
température minimale élevée.
La deuxième composante est d'abord associée à une précipitation minimale élevée, à une
faible variation journalière et à une faible variation de la précipitation. 2-Corrélation des
individus sur le plan factoriel
Figure 3 : Nuage des individus
Les variables les plus fortement corrélée entre elles sont :
o T_min et t_mean dont le coefficient de corrélation est égal à 0,9146. Les pays qui enregistrent
une forte température annuelle ont aussi de fortes température dans le mois.
o T_sd et t_min dont le coefficient de corrélation est de -0,8780 .Les pays enregistrant des
température élevées dans l’année ont une faible variation saisonnière.
o P_ann et p_max dont le coefficient est égal à 0,8462.Les pays qui enregistrent de forte
précipitation mensuelle ont une forte précipitation annuel.
On remarque qu'en considérant les top 30 des individus,27 ont leurs contributions supérieures
à la moyenne. En effet les individus Singapour et Mumbai contribuent fortement à la
formation du plan.
*Les villes situés à droite (exemple Mumbai et Manille) sont caractérisées par les
températures élevées toute l'année (t_mean élevé et beaucoup de précipitation lors du mois le
plus humide (p_max élevée).
*la ville de Singapour est placée à part des autres, notamment en raison de ses fortes pluies
toute l'année (p_ann et p_min élevée).
*Les villes en bas du graphique ont une température maximale élevée, au moins une saison
très aride (p_min faible) et une grande variation de température journalière.
Puisque les deux premières composantes n'expliquent que 70% de la variance totale, il faut
s'attendre à ce qu'elles ne représentent pas parfaitement la distance climatique entre les villes.
Par exemple, la ville avec les précipitations annuelles les plus faibles (Lima) se trouve au
centre du graphique plutôt qu’à proximité des autres climats arides; cela est due au fait que les
variations de température sont moins prononcées dans cette ville.
CONCLUSION
Dans ce travail, on a présenté l’Analyse en Composantes Principales comme une méthode de
base exploratoire multidimensionnelle. L’objectif de cette méthode est d’obtenir une
représentation simple du nuage des données plus proche de la réalité dans un espace de
dimension faible, permettant ainsi l’étude de la ressemblance entre les individus et la
corrélation entre les variables, tous ces informations pertinentes sont résumées et visualisées
tableau des données.
INTRODUCTION
Une ACM est une extension de l’analyse Factorielle des Correspondances pour résumer et
visualiser un tableau de données contenant plus de deux variables catégorielles. L’on peut
aussi la considérer comme une généralisation de l’analyse en composantes principales ACP
lorsque les variables à analyser sont catégorielles plutôt que quantitatives.
En statistique, une variable qualitative ou catégorielle est une variable qui prends pour valeur
des modalités, des catégories ou des niveaux, par opposition aux variables quantitatives qui
mesurent sur chaque individu une quantité.
300 consommateurs de thé ont répondu à un questionnaire sur leur consommation de thé.
Les questions portaient sur leurs façons de consommer le thé et leurs images du thé. Le
questionnaire comporte également des questions descriptives telles que le sexe, l’âge, la
catégorie socio-professionnelle et la pratique régulière d’un sport.
Excepter l’âge, toutes variables sont qualitatives. Le tableau de donnée comporte deux
variables différentes pour l’âge : une continue et une qualitative.
Dim.1 Dim.2 Dim.3 Dim4 Dim.5 Dim.6 Dim.7 Dim.8 Dim.9 Dim.10
Valeur 0.148 0.122 0.090 0.078 0.074 0.O71 0.068 0.065 0.062 0.059
propre
Pourcentage 9.885 8.103 6.001 5.204 4.917 4.759 4.522 4.355 4.123 3.902
d’inertie
Pourcentage 9.885 17.988 23.989 29.192 34.109 38.868 43.390 47.745 51.867 55.769
d’inertie
cumulée
Figure 12 : Représentation plane des nuages des individus sur le plan factoriel
Il n’y a pas de groupe d’individus particulier : le nuage des points a une forme plutôt
homogène. Pour illustrer la notion de distance entre individu on peut s’intéresser au 4
individus suivants : 200 ;262 (à l’extrémité négative du premier axe factoriel) et 265 ;273 (à
l’extrémité positive du premier axe factoriel). Les individus 200 et 262 (resp.265 et 273) sont
proches car ils ont beaucoup de modalités communes. Les couple 200-262 et 265-273 sont
éloignés loin de l’autre (opposé sur le premier axe) car ils ont très peu de modalités en
commun.
On peut, comme dans toute analyse factorielle, interpréter les dimensions de l’ACM à partir
des individus. Les individus 265 et 273 sont des amateurs de thé qui boivent du thé
régulièrement et à toute occasion. Les individus 200 et 262 ne boivent du thé qu’à la maison
soit au petit déjeuner soit en soirée. Cette démarche exploratoire est fastidieuse en raison du
nombre important d’individus et se généralise par l’étude des modalités à travers les individus
qu’elles représentent.
En réalité en regardant sur la contribution totale des individus, plus de la moitié des individus
ont une contribution inferieur à la contribution moyenne et les individus qui contribuent
fortement sont vraiment peu.
b- Qualité de représentation des individus
Les individus en vert sont les top 20 les mieux représentés sur le premier plan factoriel et les
individus représentés en point gris sont les mal représentés
Dim.1 Dim.2
0.042 0.204
Les 2O variables qui sont en rouge sont les variables qui contribuent le plus à la formation du
plan factoriel.
Figure 21 : Histogramme de contribution des modalités
En visualisant l’histogramme, on voit que c’est la variable tea shop qui contribue le plus. En
réalités ce sont 17 variables qui ont une valeur de contribution supérieur à la moyenne, donc
qui contribuent fortement à la formation du premier plan factoriel.
La première composante principale est caractérisée par les variables « where, tea room, … »
Quelques variables qualitatives illustratives lui sont corrélés comme « sex et conviviality ». La
caractérisation par les modalités est similaire à la caractérisation par les variables mais permet
plus de précision. Par exemple ; la coordonnée de la modalité « tea room » est positive alors
que celle de « not tea room » est négative. Cela signifie que les individus dont la coordonnée
sur l’axe 1 est positive ont tendance à fréquenté les salons de thé.
V-RELATION DE TRANSITION
Les relations de transition lient le nuage des individus au nuage des modalités
Les modalités p_private label et p_branded sont représenter l’une à côté de l’autre. En effet
ces deux modalités groupent des consommateurs aux profils similaires : ils ont tendances à
acheter plus en tea bag et non en magasin spécialisé, à consommer Chain store (le thé en
sachet) exclusivement, à le sucrer. L’influence de l’ensemble de ces variables rapproche ces
deux modalités
VI-REPRESENTATION D’ELLIPSES
_La modalité tea time : On voit que les gens qui accorde leur temps pour prendre le thé est
sensiblement supérieur à ceux qui ne le font pas.
_La modalité breakfast : les individus du breakfast sont sensiblement égaux aux individus du
not breakfast.
_La modalité evening : Le nombre d’individus qui consomment le thé dans les après-midi est
inférieur au nombre d’individu qui ne le consomme pas.
CONCLUSION GENERALE
Dans ce projet, nous avons présenté comment mettre en œuvre les différentes méthodes
d’Analyses des données à l’aide d’un logiciel statistique R. Cela nous a permis de montrer
quel type de données peuvent être par quel méthode, et ce que l’on peut attendre des résultats.
Quant à l’aspect informatique, nous avons fait un script R pour une mise en œuvre des
méthodes grâce à la simplicité du langage R.
L’Analyse des données est un processus qui permet de progresser pas à pas dans la
connaissance et l’explication des faits traduit en termes de données. L’analyse des données
n’est donc pas une méthode de calcul numérique, qui a un ensemble de nombres fait
correspondre un résultat unique numérique !