Vous êtes sur la page 1sur 42

Analyse de données

Prof. Sokaina EL KHAMLICHI

Ecole des Sciences de l’Information

sel-khamlichi@esi.ac.ma
Plan
Chapitre 1: Analyses Factorielles

Chapitre 2: Analyse en Composantes Principales

Chapitre 3: Analyse Factorielle des Correspondances

Chapitre 4: Analyse des Correspondances Multiples

Chapitre 5: Analyse Factorielle Discriminante


Introduction
• L'analyse multivariée, ou analyse des données est un ensemble de
méthodes dont la fonction principale est de mettre en évidence les
structures pertinentes de grands ensembles de données.
• Ces méthodes tentent de dégager les paramètres caractéristiques d'un
grand nombre de données recueillies, essaient d'apporter des éléments de
réponses à des questions du type :
- Existe-t-il des corrélations entre les variables ?
- Quels sont les caractères qui discriminent le plus les individus ?
- Existe-t-il des caractères globaux ?
Introduction
Les méthodes d'Analyse des Données ont pour objectif d'étudier de gros
tableaux de données pour :
• en extraire les informations essentielles en vue d'une description et d'une
synthèse (méthodes factorielles),

• en dégager des groupes homogènes d'individus ou de variables (méthodes


de classifications),

• prévoir la valeur d'un individu sur une variable, dite à expliquer, à partir de
la connaissance de valeurs de ce même individu sur d'autres variables, dites
explicatives (méthodes de prédiction).
Chapitre1
Analyses Factorielles
Introduction
• Pour faire une étude exploratoire des données multivariées, on peut faire
recours aux techniques d'analyses factorielles dont l'objectif est d'essayer
de synthétiser l'information contenue dans un tableau de données.
• Ces techniques vont donc chercher à résumer un grand ensemble de
données en un ensemble plus petit d'informations pertinentes rendant
compte des associations principales entre variables et individus de
l'ensemble de départ.
• Réduire les dimensions du tableau de données initial tout en conservant
ses principales caractéristiques nécessitera le calcul de distance entre les
éléments de ce tableau.
Introduction
• Ainsi, certains éléments du tableau pourront être considérés comme
proches, d'autres, distants
➔ par exemple, nous pourrons nous apercevoir que deux variables
sont très corrélées, ou que deux individus ont des comportements très
semblables
• L'idée est donc de se focaliser sur les proximités pour en rendre
compte dans la représentation simplifiée ou synthétique recherchée
du tableau de données
Introduction
• Pour mesurer les distances entre les éléments d'un tableau de
données, la distance à utiliser ne sera pas la même. Celle-ci est
différente selon le type des variables que l'on cherche à synthétiser :
- si les variables sont de type échelle, une distance euclidienne
standard peut s'appliquer,
- si les variables sont nominales, on peut utiliser une distance de
type Khi-deux.
• A chaque type de variables va correspondre une analyse statistique
particulière.
Introduction
Exemple: Les données température
•15 individus (lignes) : villes de France
•14 variables (colonnes) :
•12 températures mensuelles moyennes (sur 30 ans)
•2 variables géographiques (latitude, longitude)
Problèmes - objectifs
Le tableau peut être vu comme un ensemble:
- de lignes et chercher les différences et les ressemblances qu'il peut y avoir d'une
ligne à l'autre
- ou un ensemble de colonnes et chercher à voir les ressemblances entre
colonnes.
Etude des individus
•Quand dit-on que 2 individus se ressemblent du point de vue de l’ensemble des
variables ?
•Si beaucoup d’individus, peut-on faire un bilan des ressemblances ?
⇒ Nous cherchons à faire une Partition des individus, c’est à dire une construction
des groupes d’individus homogènes du point de vue de l’ensemble des variables , A
l'intérieur d'un groupe, les individus se ressemblent et d'un groupe à l'autre ils sont
différents.
Problèmes - objectifs
Etude des variables
•Recherche des ressemblances entre variables:
- Quelles sont les variables qui apportent une information à peu près
identique ?
- Quelles sont les variables qui apportent des informations différentes?
•Entre variables, on parle plutôt de liaisons
•Liaisons linéaires sont simples, très fréquentes et résument de nombreuses
liaisons ⇒ coefficient de corrélation
⇒ Notre objectif dans l'analyse sera de faire un bilan des ressemblances
entre variables et de visualiser la matrice de corrélations mais aussi de
trouver des indicateurs qui résument beaucoup de variables.
⇒ recherche d’un petit nombre d’indicateurs synthétiques pour résumer
beaucoup de variables
Lien entre les deux études
• Dans l'étude sur les individus, nous construisons des groupes d'individus et
nous allons chercher à caractériser les différents groupes (classes) d'individus,
Pour caractériser ces groupes, plutôt que de lister tous les individus du
groupe, nous préférons utiliser les variables.

•De même quand nous étudions les liaisons entre variables nous allons dire
que ces différentes variables sont très liées entre elles. Mais ce langage est
plutôt abstrait. Et on pourrait l'illustrer par une opposition entre des individus
spécifiques, c'est-à-dire des individus qui sont très particuliers qui sont
extrêmes:
Lien entre les deux études
Par exemple, la variable taille et la variable poids sont deux
variables très liées. On peut dire qu'il existe une corrélation
linéaire forte entre ces variables. Mais on peut aussi illustrer cette
liaison en opposant deux individus extrêmes, et en disant : les
individus qui sont petits sont légers et les individus qui sont grands
sont lourds. L'illustration de la liaison par des individus extrêmes
n'est ici pas décisive mais si nous avons beaucoup de variables et
que les variables sont moins bien connues, l'illustration par des
individus extrêmes est très utile.
Deux nuages de points
Etude des individus Etude des variables
1 j p 1 j p
1 1

i X i X

n n
Rp Rn

ind 1
var 1

var j ind i
Ajustement du nuage des individus dans l'espace
des variables
Le nuage des individus Nn

1 individu = 1 ligne du tableau ⇒ 1 point dans un espace à p dim


•Si p = 1 : Représentation axiale
•Si p = 2 : Nuage de points
•Si p = 3 : Représentation + difficile en 3D
•Si p = 4 : Impossible à représenter MAIS le concept est simple
Notion de ressemblance : distance (au carré) entre individus i et i’:
𝑝
d2 (i, i’) = σ𝑗=1(𝑥 ij-xi’j)2
Etude des individus ≡ Etude de la forme du nuage Nn ≡ voir les individus qui sont proches,
les individus qui sont éloignés.
Centrage – réduction des données
Centrer les données revient à translater le nuage ce qui ne modifie pas sa forme
➔toujours centrer

Réduire les données est indispensable si les unités de mesure sont différentes d’une variable à
l’autre

Réduire des variables exprimées dans des unités différentes permet de comparer les valeurs
prises par ces variables
Centrage – réduction des données
• Si toutes les variables sont exprimées dans la même unité de mesure,
il est possible de réduire ou non ces variables.

• La réduction des variables conduit à accorder la même importance à


chaque variable.

• Ne pas réduire donne plus d'importance aux variables qui ont une
variabilité plus grande, c’est à dire une variance plus grande.

• L'importance d'une variable sera proportionnelle à son écart-type.


Centrage – réduction des données
Ajustement du nuage des individus
Fournir une image simplifiée de N la plus fidèle possible
⇐⇒ Trouver le sous-espace qui résume au mieux les données
Qualité d’une image :
• Restitue fidèlement la forme générale du nuage

• La 3ème proposition a bien séparé les points, ce qui nous donne


l'impression de mieux voir les distances entre individus. Donc c’est
l’image la plus fidèle du nuage.
Ajustement du nuage des individus
Fournir une image simplifiée de Nn la plus fidèle possible
⇐⇒ Trouver le sous-espace qui résume au mieux les données
Qualité d’une image :
•Restitue fidèlement la forme générale du nuage
•Meilleure représentation de la diversité, de la variabilité
•Ne perturbe pas les distances entre individus

Comment quantifier la qualité d’une image ?


A l’aide de la notion de dispersion ou variabilité appelée Inertie
Inertie ≡ variance généralisée à plusieurs dimensions
Ajustement du nuage des individus
• Comment trouver la meilleure image approchée du nuage ?
1- Trouver l’axe (facteur) qui déforme le moins possible le nuage
Notons Hi la projection d'un individu i sur un axe, O le centre de gravité du nuage,
(iHi)2 est l'écart entre l'individu i dans l'espace initial et sa projection sur un axe.
i

min

O max Hi u1

2 2- Trouver le meilleur plan: maximiser avec Hi ∈ plan, le Meilleur plan


contient le meilleur axe : on cherche u2⊥u1 et maximisant
3 3- on peut chercher un 3ème axe, etc. d’inertie maximum
Exemple : graphe des individus

Brest

4
Dimension 2 (18.97%)
Rennes

2
Nantes
Lille Nice
Bordeaux
Paris Toulouse
0

Clermont Montpellier
Vichy
Marseille
Lyon
Strasbourg Grenoble
-2

-4 -2 0 2 4 6
Dimension 1 (79.85%)

Comment interpréter le graphe ?


Interprétation du graphe des individus
Ce graphe montre par exemple que:

• Montpellier et Marseille sont très proches. Cela signifie que les températures
moyennes à Montpellier et à Marseille sont à peu près les mêmes et ce, quel
que soit le mois de l'année. De même, Rennes et Nantes sont deux villes
ayant des températures proches pour les douze mois de l'année.

• Par contre, Nice et Lille ont des comportements très différents. Ces 2 villes
sont complètement opposées sur le premier axe. Donc si elles sont opposées
sur le 1er axe, cela signifie que ce sont des villes très différentes puisque le
premier axe est celui qui sépare au mieux les points. Donc ces deux villes ont
des comportements très différents, et ce, sur l'ensemble des variables.

• Qu’est-ce qui oppose Lille à Nice ?


⇒ Besoin de variables pour interpréter ces dimensions de variabilité
Interprétation du graphe des individus grâce aux variables

Graphe des individus de l'ACP − habillage selon la variable octobre


5.0

Dim 2 (18.97%)

Brest

2.5 Octo
16

Rennes Nantes 14



Lille Bordeaux Nice 12
0.0 Paris ●
● ●
Montpellier
Vichy● ●
Toulouse ● 10
Clermont ●
Marseille
Grenoble

● Lyon
−2.5 Strasbourg

−5.0 −2.5 0.0 2.5 5.0 7.5


Dim 1 (79.85%)

18 / 35
Interprétation du graphe des individus grâce aux variables

• On remarque que les villes à gauche du graphe sont en bleu, et il y fait


donc froid en octobre (par rapport aux autres villes), tandis que les villes à
droite sont en rouge, et il y fait donc chaud en octobre. On visualise ainsi
une corrélation entre les coordonnées des individus sur l’axe horizontal et la
variable octobre.

• Comment peut-on faire, si on a beaucoup de variables, pour détecter


rapidement les variables les plus intéressantes pour expliquer les
dimensions sans avoir à construire de nombreux graphes ?
Interprétation du graphe des individus grâce aux variables
Considérons les coordonnées des individus sur les axes comme des variables

1 j p F.1 F.2
1
-2.3 4.1
Brest Fi2 = 4.1
4
2
Dim 2 (18.97%)

Rennes
Nantes x ij Fi1 Fi2
Lille Nice i
Paris Bordeaux
0

= -2.3Clermont
Fi1Vichy Toulouse Montpellier
Marseille
Grenoble
Lyon
-2

Strasbourg

-4 -2 0 2 4 6
n
Dim 1 (79.85%)

Par construction, ces vecteurs (F.1 et F.2) ont n coordonnées, le même nombre d’individus du tableau
de données.
Interprétation du graphe des individus grâce aux variables
• Corrélations entre la variable x.j et F.1 (et F.2)
1

r(F.2, x.j ) x.j


Janv

-1 1
0 r(F.1, x .j )

-1

⇒ Cercle des corrélations


Interprétation du graphe des individus grâce aux variables
• Pour interpréter le graphe des individus, on peut calculer la corrélation entre la variable, par
exemple la variable janvier, et l'axe 1. On peut aussi calculer la corrélation entre la variable janvier
et l'axe 2.

• Si la variable janvier est très liée à l'axe 1, cela voudra dire que les températures en janvier sont
très liées aux coordonnées sur l'axe 1. Ainsi, si la corrélation est proche de 1, cela veut dire que
les individus qui ont de faibles valeurs pour janvier prennent de faibles valeurs sur l'axe 1. Les
individus qui prennent de faible valeurs sur l'axe 1 sont les individus à gauche du graphe. Et les
individus qui ont de fortes valeurs en janvier prennent de fortes valeurs sur l'axe 1; et seront donc
à droite sur le graphe.

• Si la corrélation est négative, alors les individus qui prennent de faibles valeurs pour janvier
prendront de fortes valeurs sur l'axe 1. Et les individus qui prennent de fortes valeurs pour janvier
prendront de faibles valeurs sur l'axe 1.

• Et même chose avec l'axe 2. On a la corrélation avec l'axe 2. Et donc on va pouvoir construire un
graphe avec une représentation de toutes les variables du jeu de données. Toutes ces variables
vont se retrouver dans un cercle qu'on appelle le cercle des corrélations, et on appelle ce graphe,
le graphe du cercle des corrélations.
Interprétation du graphe des individus grâce aux variables
Interprétation du graphe des individus grâce aux variables

• on voit que toutes les variables sont corrélées à l'axe 1, au facteur 1. On a une
corrélation qui est positive et supérieure à, 0.6 ou 0.7, pour toutes les variables. On a
même des corrélations très élevées pour octobre et mars par exemple, des corrélations
très proches de 1. Cela signifie que les températures en octobre sont très liées aux
coordonnées sur l'axe 1.
• Autrement dit, les villes qui sont à gauche, avec une faible coordonnée sur l'axe 1 ont
des températures faibles au mois d'octobre, les villes qui sont au milieu ont des
températures moyennes en octobre et les villes qui sont à droite ont des températures
élevées en octobre. Quand on dit des températures élevées, c'est par rapport aux autres
villes, le même mois de l'année.
Interprétation du graphe des individus grâce aux variables
Graphe des individus de l'ACP − habillage selon la variable octobre
5.0

Dim 2 (18.97%)

Brest

2.5 Octo
16

Rennes Nantes 14



Nice
1..0

Lille Bordeaux 12
0.0 Paris ●
● ●
Montpellier
Vichy● ●
Toulouse ● 10
Janv Clermont ●

Déce Marseille
Grenoble
0..5

Févr ●

Nove
● Lyon
−2.5 Strasbourg
Octto
Diim 2 (18..97%)

Mars
−5.0 −2.5 0.0 2.5 5.0 7.5
0..0

Dim 1 (79.85%)
Avrii
Septt Graphe des individus de l'ACP − habillage selon la variable juin
5.0

Dim 2 (18.97%)
Aoûtt
-0..5

Maii
Juiin
jjuiill
Brest

-1..0

2.5 Juin

-1..0 -0..5 0..0 0..5 1..0 ● 20


Rennes

Diim 1 (79..85%)
Lille Nantes ● 18

Bordeaux Nice
0.0 Paris ●
16
Vichy
● ●
Montpellier
● ●
Toulouse ●

Clermont ●

Marseille
Grenoble


Strasbourg
● Lyon
−2.5

−5.0 −2.5 0.0 2.5 5.0 7.5


Dim 1 (79.85%)
Interprétation du graphe des individus grâce aux variables

❑ Si on dessine les individus en fonction de la valeur qu’ils prennent pour la


variable juin, on visualise une évolution des températures en juin avec des
villes froides en haut à gauche et des villes chaudes en bas à droite. Cette
évolution des températures est exactement donnée par la représentation
de la variable juin sur le graphe des variables.
Interprétation du graphe des individus grâce aux variables

1.0
Janv
Déce
0.5
Févr
Nove Toutes les variables sont corré-
Octo
lées à F1.
Diim 2 (18.97%)

Mars

Comment interpréter le 1er axe?


0.0

Avrii
Sept

Août
Maii Comment interpréter le 2ème?
-0.5

Juiin
jjuiill
-1.0

-1.0 -0.5 0.0 0.5 1.0

Diim 1 (79.85%)

Principaux facteurs de variabilité :


Interprétation du graphe des individus grâce aux variables

➢ Interprétation du 1er axe :

On remarque que toutes les variables sont très liées à l'axe 1. Donc, à droite
du graphe, on a toutes les villes pour lesquelles il y a de forte valeurs pour
tous les mois de l'année. Ces villes ont une forte coordonnée sur l'axe 1 ,
donc elles sont des villes où il fait plutôt chaud tous les mois de l'année.
Cependant, à gauche, on a des villes où il fait plutôt froid tous les mois de
l'année. Cela représente le principal facteur de variabilité. Ce qui différencie
le plus les villes, c'est qu'il y a des villes où il fait froid un peu tout le temps
et d'autres où il fait chaud un peu tout le temps.
Interprétation du graphe des individus grâce aux variables
➢ Interprétation du 2ème axe:

Dans le 2ème axe, les corrélations sont un peu moins fortes. Ceci est normal puisque
c'est un axe de variabilité qui est moins important c'est le 2ème axe de variabilité. Donc
en haut du graphe des individus, on a des villes où il fait plutôt chaud en janvier
décembre, et plutôt froid en mai, juin, juillet. Il fait plutôt chaud en janvier décembre
parce que la corrélation avec l'axe 2 est positive. Elle n'est pas très proche de 1 mais elle
est positive (de l'ordre de 0.5) tandis que la corrélation est négative avec les variables
mai juin juillet. On peut donc dire que les villes qui ont des coordonnées plutôt élevées
sur l'axe 2 vont prendre des valeurs plutôt faibles en mai, juin, juillet. Autrement dit, en
haut du graphe, on va avoir des villes où il fait plutôt doux l'hiver et plutôt froid l'été. Et
au contraire, les villes qui sont en bas du graphe sont des villes ou il fait plutôt chaud
l'été et plutôt froid l’hiver.
Interprétation du graphe des individus grâce aux variables

1.0
Janv
Déce
0.5
Toutes les variables sont corrélées à F1,
Févr
Nove

Octo Comment interpréter le 1er axe? Comment


Diim 2 (18.97%)

Mars

interpréter le 2ème?
0.0

Avrii
Sept

Août
Maii
-0.5

Juiin
jjuiill
-1.0

-1.0 -0.5 0.0 0.5 1.0

Diim 1 (79.85%)

Principaux facteurs de variabilité :


1 - villes chaudes et froides ;
2 - à To moyenne constante : l’amplitude thermique
Interprétation du graphe des individus grâce aux variables

➔On a donc déterminé les principaux facteurs de variabilité :

➢ le premier axe sépare les villes chaudes des villes froides.

➢ Le deuxième axe est orthogonal au premier et donc il différencie des villes à une
température moyenne annuelle constante. Ce 2ème axe sépare, en haut du
graphe, des villes où il fait plutôt chaud l'hiver et froid l'été donc ayant une petite
amplitude thermique annuelle, aux villes, en bas du graphe, où il fait plutôt froid
l'hiver et chaud l'été donc aux villes ayant une forte amplitude thermique annuelle.

➔ C'est ça qui va différencier principalement les villes. Donc il y a un 1er axe de


variabilité : villes chaudes - villes froides, le deuxième axe plutôt par rapport à
l'amplitude thermique annuelle.
Etude des variables
Nuage des variables Np
1 variable = 1 point dans un espace à n dimensions
Les variables seront représentées par des flèches= interpréter surtout
les angles.

k
j
θjk < x.j , x.k >
O cos(θjk) =
xik 1 || x.j || || x.k ||
𝑛

෍ 𝑥𝑖𝑗 𝑥𝑖𝑘
= 𝑖=1

𝑛 𝑛

෍ 𝑥𝑖𝑗 ² ෍ 𝑥𝑖𝑘 ²
Comme les variables sont centrées : cos(θjk )= r (x.j, x.k ) 𝑖=1 𝑖=1

→ La représentation géométrique de cette corrélation est le cosinus de l'angle entre les variables j et k.
Si variables réduites ⇒ la longueur des flèches est égale à 1 ⇒ extrémités des flèches seront sur une
hypersphère de rayon 1
Ajustement du nuage des variables
Même règle que pour les individus : recherche d’axes orthogonaux

On va alors chercher des dimensions qui permettent de voir au mieux le nuage des variables. Comme pour
les individus, on va chercher des axes orthogonaux qui permettent de représenter au mieux les variables.
Le premier axe, c’est l'axe qui permet de voir au mieux l'ensemble des variables est l'axe qui maximise la
somme des corrélations entre le facteur et chacune des variables.
𝑝
arg max σ𝑗=1 r (v1, x.j )²
v1∈
Rn
Donc, le meilleur facteur, V1, est le facteur qui est le plus lié à l'ensemble des variables. Plus lié au sens des
corrélations au carré. Donc la variable V1, sera une variable synthétique qui résume au mieux l'ensemble des
variables. Cette variable 1 va porter le 1er axe et une fois que cette variable V1est déterminée, on cherche un 2ème
axe, orthogonal au premier et qui permet de bien synthétiser le reste de l'information qui n'a pas encore été
synthétisé par le 1er axe. On va donc séquentiellement chercher un axe orthogonal aux axes précédents et qui
maximise l'information qui n'est pas encore résumée par les premiers axes.
Ajustement du nuage des variables

1.0
⇒ Même représentation que
précédemment ! ! ! !
Janv
0.5 Déce
Févr
Nove

• aide pour interpréter les


Octo
Diim 2 (18.97%)

Mars
0.0

Avrii
individus
Sept

Août
Maii • représentation optimale
-0.5

Juiin
jjuiill
du nuage des variables
• visualisation de la
-1.0

-1.0 -0.5 0.0 0.5 1.0 matrice des corrélations


Diim 1 (79.85%)
Ajustement du nuage des variables

On avait construit une représentation des variables pour nous aider à interpréter le nuage des
individus.
Et maintenant, quand on construit des axes pour voir au mieux le nuage des variables, on
retombe sur la même présentation.
On a la même représentation que précédemment. Et donc cette représentation du nuage des
variables, nous a permis de caractériser le nuage des individus; elle nous a servi à caractériser
les individus dans l'exemple.
C'est aussi, on vient de le voir ici, une représentation optimale du nuage des variables. Mais
c'est également une visualisation de l'ensemble des corrélations entre les variables prises 2 à
2, grâce aux cosinus des angles entre les variables. C'est donc aussi une visualisation de la
matrice des corrélations.

Vous aimerez peut-être aussi