Vous êtes sur la page 1sur 5

EXERCICE 15.1 : VRAI OU FAUX ?

1°) Vrai : Plus les variables sont corrélés sont plus elles sont dépendants entre elles, cela veut dire
que les premiers axes expliquent à un pourcentage significatif les informations des données.

2°) Vrai : Pour chaque individu, la qualité de sa représentation est définie par le carré du cosinus de
l’angle entre l’axe de projection et le vecteur. Plus la valeur est proche de 1(c'est-à-dire éloigné du
centre de gravité), meilleure est la qualité de représentation.

3°) Vrai : plus la variance des coordonnées des individus est grand sur un axe plus le pourcentage
d’inertie est élevée sur l’axe ce qui veut dire que la variance des coordonnées des individus est plus
important sur l’axe 1 que sur l’axe 2 car le premier a une inertie plus grande que le deuxième.

4°) Faux : dans une probabilité significative, plus l’angle entre les variables sont fermes plus les
variables sont corrélées sur un axe donné. Mais deux variables peuvent être superposées sur un axe
et S’éloignées sur un autre. Ainsi, deux variables superposées ne sont pas nécessairement très
corrélées. Il vaut mieux examiner un facteur sur un plan que sur un axe. Il est prudent de se méfier
de l’association étroite que l’on accorderait à deux points i et j à la vue d’un seul plan factoriel. Cette
proximité sur un plan peut être contredite par des coordonnées très différentes (signe opposé) sur
un autre facteur (i.e. : ne pas se contenter d’examiner le plan F1F2, envisager également F1F3 et
F2F3).

5°) Vrai : Le centre de gravité a pour valeur égal à 0 et que toutes individus proche de cette centre de
gravité auront probablement des valeurs proche de 0. Et un individu proche du centre de gravité est
mal représenté ainsi on en déduit que sa valeur est proche de 0.

6°) Faux : Le pourcentage d’inertie du premier plan factoriel d’un ACP dans une analyse composante
principale n’est pas obligatoirement faible, car il est déterminé en fonction des individus et des
Variables (quantitative)

EXERCICE 15.2 : Description des graphes de l’ACP


1. Lors d’une analyse en composantes principales, 100 variables sont mises en actif. Le
pourcentage d’inertie expliqué par le plan principal (les deux premiers axes) est de 35%.
Commenter ce pourcentage d’inertie
Solution
Le pourcentage d’inertie est le pourcentage d’information expliqué par chaque axe. Dans ce
cas de figure on en déduit que si on résume les 100 variables initiaux du jeu de donnée par
deux de dimensions alors on récupère 38 %de l’information contenu dans tout le tableau.
Autrement dit nous avons un résumé qui synthétise presque parfaitement les 100 variables.
2. La figure 15.1 représente la projection de 5 variables sur le plan principal d’une ACP. Que
peut –on dire des corrélations entre les variables A-B, B-C, B-D, et C-E ?
 A et B forment un angle supérieur à 90 degré donc ils sont dits en quadrature. Cela
correspond à une situation d’indépendance. L’écart de l’indépendance est égal à 0.
 B et C forment un angle inférieur à 90 degré donc ils sont conjonction. Ceci
correspond à une attraction entre deux variables. L’écart de l’indépendance est
positif.
 B et D forment un angle supérieur à un angle droit, cela correspond à une
opposition. Donc l’écart de l’indépendance est négatif.
 C et E forment aussi un angle supérieur à un angle droit correspondant à une
opposition. Donc l’écart de l’indépendance est aussi négatif. Aussi ils sont mal
représentés car ils sont très proches du centre de gravité.
3. Quel est, approximativement, le pourcentage d’inertie associé à ce plan ?

D’après les données, l’analyse en composantes des 100 variables seul 5 ont été projetés. Cela
révèle une approximation du pourcentage d’inertie de :

Pourcentage d’inertie = nombre variable projeté /variable totale=5/100=5%

EXERCICES 15.3 : Lecture des graphes de l’ACP


1) Les valeurs prises par l’individu 3 sont significatives pour la variable B car ils sont corrélés
positivement par rapport aux deux axes mais sont indépendantes pour l’axe D puisque ce
dernier est corrélé négativement sur les deux axes.
Sur l’axe 1 l’individu 2 est significatif pour la variable D et indépendant pour la variable B et
sur l’axe 2 l’individu 2 est significatif pour la variable B et indépendant pour la variable D.
L’individu 2 est très proche de l’axe 2 donc elle aussi a été très bien représenté.
2) Que peut-on dire des corrélations entre les variables :
 A et B : L’angle quasi droit formé par les deux points indique que ces deux variables
sont indépendantes entre elles.
 C et D : forment un angle supérieur à 90 degré donc ils sont dits en quadrature. Cela
correspond à une situation d’indépendance donc ils ne sont pas corrélés.
 A et E : ici on a deux points opposés donc les deux variables sont corrélés
négativement.
3) L’individu 1 prend des valeurs élevées pour la variable C : on ne sait pas car C est mal
représenté vu qu’elle est proche du centre de gravité ainsi on ne peut pas avoir des
informations fiables sur elle.
Pour chacun des variables, les variables 1 et 2 ont valeurs similaires. Vrai

EXERCICE 15.4 :
Question 1 : décrire le jeu de données

Réponse : nous avons dans le tableau (TAB. 15. 1) 34 individus (villes), 12 variables et chaque variable
est de type liste

Question 2 : que pouvez vous dire à partir des données centrées-réduites (Tableau 15. 2)
Réponse : Le tableau de données centré et réduit nous donnes quelques informations, on voit par
exemple qu’à Ajaccio en juillet et aout on a des valeurs de -2,05 et -2,09 cela signifie qu’à ces deux
mois la précipitation est très basse à Ajaccio. Si les valeurs d’une variable suivent une loi normale
alors 95% des valeurs centré et réduite sont entre -1,96 et 1,96. Même si on ce pas si les valeurs
suivent une loi normal, une valeur centré et réduite de -2 est très extrême donc en Ajaccio il ne pleut
pratiquement pas en juillet et aout. En revanche à Biarritz il pleut pendant toute l’année surtout en
septembre, octobre, novembre et décembre.

Question 3 : quels sont les objectifs d’une telle analyse

Réponse : L’analyse en composantes principales notée ACP sur ce jeu de données à pour objectif de
déterminer des profils pluviométriques similaires : c'est-à-dire on veut savoir s’il ya, parmi ces 34
villes française, des villes plus pluviales et de voir sil ya des mois ou les précipitations se ressemblent :
si une ville qui pleut beaucoup dans un mois donné, pleut elle plus dans un autre mois.

Question 4 : pourquoi ne pas introduire ces variables en actives ?


Réponse : par ce qu’ils sont des variables supplémentaires, ils ne servent pas à calculer la distance
entre es individus, mais ils peuvent aider à interpréter les axes. Ici pour déterminer les profils
pluviométriques on plus besoin des variables actives c.-à-d. les variables correspondantes à la
pluviométriques mensuels des viles.

Question 5 : les variables on été centrées et réduites avant l’analyse. La réduction était-elle
indispensables ?
Réponse : Non ce n’était pas indispensable car elles ont tous la même unité, le millimètre. Mais la
réduction conduit à accorder la même importance à chaque variable. Et si on ne réduit pas on donne
plus d’importance aux variables qui ont une variabilité plus grande.

Question 6 : quelle est l’inertie utilisé par le premier axe de l’ACP ?


Réponse : d’après le tableau (TAB. 15. 3) avec le tableau « inertie des 8 premiers axes » nous
constatons que le premiers axe retient plus de la moitié de l’inertie total soit 60% c.-à-d. que 60% de
l’information du tableau de données est contenue dans la première dimension. Ainsi on peut en
déduire que la diversité des profils pluviométriques ne peut être résumé par la première dimension.
Et par le plan principal ?
L’axe 2 retient tout de même 28% de l’inertie, ce qui n’est pas négligeable, et qui conduit à un taux
d’inertie expliquée de 93%, ce qui est un très bon résultat.
On constate une forte baisse de pourcentage après le deuxième axe.

Question 7 : quelles sont les villes qui contribuent le plus à la construction des deux premiers axes ?
Réponse : la figure 15.4 nous montre que les corrélations d’avril et septembre sont très proche de 1

 │ci1│>√ λ1 =1,98 c'est-à-dire que les villes contribuent le plus à la formation de l’axe 1
sont les villes dont leur corrélation en valeur absolue est supérieure à 1,98 et ces villes sont :
Besançon, Biarritz, Brest, Bordeaux, Clermont-Fd, Grenoble, Lille, Limoges, Marseille,
Orléans, Paris et Reims. Celles qui villes contribuent le plus à la formation de l’axe 1, dans ces
villes qu’on vient d’énumérer sont Besançon, Biarritz et Brest.
 │ci2│>√ λ2 =1,42 c'est-à-dire que les villes contribuent le plus à la formation de l’axe 2
sont les villes dont leur corrélation en valeur absolue est supérieure à 1,42 et ces villes sont :
Ajaccio, Besançon, Clermont-Fd, Dijon, Grenoble, Lyon, Marseille, Montpellier, Nancy, Nice,
Nîmes, Perpignan, Strasbourg, Toulon et Vichy. Parmi elles, celles qui contribuent le plus à la
formation de l’axe 2 sont : Ajaccio, Nice et Toulon.

 Que signifie une contribution importante ?


Lorsqu’une contribution est très forte par rapport à d’autre qui sont pourtant en dessus du seuil, le
point détermine l’axe presque exclusivement. Si une variable a une forte contribution positive à l’axe,
les individus ayant une forte contribution positive à l’axe sont caractérisés par une valeur élevée de
la variable

Question 8 : Interpréter les facteurs principaux de l’ACP (à l’aide du graphe des individus et de celui
des variables actives et illustratives)
Réponse :
 Fig. 15.4 – ACP sur la pluviométrie : graphe des variables (graphe FactoMineR)
Le graphique "cercle de corrélations" donne une représentation des caractéristiques de la
pluviométrie des 34 villes française sur les deux premiers axes factoriels. Les données étant ici
centrées réduites, les coordonnées de ces caractéristiques sur les axes sont les coefficients de
corrélations entre les variables et les composantes principales. Ainsi :
- le premier facteur est corrélé significativement négativement avec tous les tous les variables actives
(mois).
-le deuxième facteur est corrélé négativement avec les mois de janvier, mars, décembre, févier,
novembre et octobre et positivement avec les mois de juillet, juin, aout, mai, avril et septembre.
La variable illustrative "% hauteur d’eau mai à aout" qui a été projetée a posteriori dans le plan
factoriel, est corrélé avec le deuxième axe factoriel.
Les variables, avril septembre et janvier, sont bien représentés sur l’axe 2 et la variable illustrative
insolation annuelle sur l’axe 1.
 Fig. 15.3 – ACP sur la pluviométrie : graphe des individus (graphe FactoMineR)
L’interprétation interne de la représentation des individus s’effectue toujours à partir de celle des
variables actives. Ainsi, relativement à l’ensemble des villes de France :
- le premier facteur n’oppose pas les villes à partir des variables actives mais des variables
illustratives, car ce facteur est négativement corrélé à tous les variables actives ce qui veut dire qu’à
ce lieu tous les villes ont la même signification. Mais si on se base sur les variables illustratives, le
premier facteur oppose les villes qui ont plutôt un taux d’hauteur d’eau élevé à mai jusqu'à aout
(Clermont-Fd, Reims, Marseille…) aux villes qui ont un taux d’hauteur d’eau élevé à mai jusqu'à
aout(Besançon, Brest, Biarritz) (interprétation externe – variables illustratives).
- Quant au deuxième facteur, il oppose les pays ayant une précipitation significativement élevés aux
mois de janvier, mars, décembre, févier, novembre et octobre et une faible précipitation aux mois
de juillet, juin, aout, mai, avril et septembre (Nice, Ajaccio et Toulon), aux pays caractérisés par une
précipitation importante aux mois de juillet, juin, aout, mai, avril et septembre et une précipitation
faible aux mois de janvier, mars, décembre, févier, novembre et octobre c’est le cas notamment de
la Strasbourg et du Besançon.
Question 9 : A partir du cercle des corrélations que pouvez-vous dire concernant les corrélations
suivantes :
 Février – mars : L’angle plutôt fermé que forment les points “février” et “mars” indique que
ces 2 variables sont assez bien corrélées entre elles.
 Février— juin : l’angle droit formé par “février” et “juin” indique que ces deux variables sont
indépendantes entre elles.
 Latitude – longitude : l’angle quasi droit formé par “latitude” et “longitude” indique que ces
deux variables sont aussi indépendantes entre elles et sont malle représentées car elles sont
proches du centre.
Question 10 : vrai ou faux si faux corrigés la phrase proposée.
Réponse :
- Une ville pluvieuse en juillet est également pluvieuse en octobre : Faux
Correction : une ville pluvieuse en juillet n’est pas pluvieuse en octobre car les points “juillet”
et “octobre” forme un angle droit ce qui montre qu’ils sont indépendantes entre elles.
- La variable janvier est bien représenté sur l’axe 1 : Faux
Correction : la variable janvier est très éloigné de l’axe 1, on peut conclure qu’il est peu
représenté par cet axe
- La ville de vichy a joué le rôle le plus important dans la construction de l’axe 2 : Faux
Correction : La ville qui a joué le rôle le plus important de l’axe 2 est la ville Toulon qui à la
corrélation la plus élevé sur cet axe
- La coordonnée d’une variable sur un axe est un indicateur de sa qualité de représentation
par l’axe : vrai
- Les villes ayant une forte insolation annuelle ont une faible pluviométrie les mois d’hivers :
Vrai

Vous aimerez peut-être aussi