Vous êtes sur la page 1sur 38

Formation en Analyse des Données

Présenter par:
Laarabi bochar
Doctorat en mathématiques appliquées
Tel: 0662218950
Introduction

Domaines d'application
marketing
L'analyse d'enquêtes
Les données
L’organisation des données présentée par le tableau
Les objectifs

Répondre aux problèmes posés par des tableaux de grandes


dimensions.

La visualisation des données dans le meilleur espace réduit .

Les ressemblances entre les individus et les liaisons entre les


variables.
Les méthodes

Méthodes d'analyse factorielle


A. L'analyse en composantes principales ACP

B. L'analyse factorielle des correspondances AFC

C. L'analyse factorielle des correspondances multiples


AFCM
Les méthodes de classification

A. La méthode des centres mobiles.

A. La classification hiérarchique ascendante.


Les logiciels
les méthodes d'analyse de données nées de la recherche universitaire
sont depuis longtemps entrées dans le monde industriel. Il y a cependant
peu de logiciels qui savent intégrer ces méthodes pour une recherche
exploratoire aisée dans les données. Nous citons ici cinq logiciels:

SAS
Splus
R
XlStat
SPSS
Analyse en Composantes
Principales
A.C.P.
Introduction

 L’ACP, introduite par K. Pearson et Thurston


(années 20), est une technique des
statistiques descriptives destinée à l’analyse
des données multidimensionnelles.
 Elle permet de réduire la dimension de
l’espace des descripteurs.
 On cherche à réduire le nombre de
descripteurs (variables) avec le minimum de
perte d’information et préservant les relations
existant déjà avec entre les différents
descripteurs.
Position du Problème

 On a observé p variables sur n individus.


Dans la pratique cela représente un tableau
à np entrées qu’il est difficile, voire
impossible à lire, pour extraire les
informations les plus pertinentes.
 Exemple artificiel : Supposons qu’on a
observé le jeu de données suivant :
Exemple (suite)

descrip-
-teur D1 D2 D3 D4
Sujet
S1 -11 -60 110 40
S2 -12 -62 93 25
S3 -15 -80 113 39
S4 -14 -75 94 25
S5 -14,5 -82 100 30
S6 -13 -72 102 32
Objectif de l’ACP

On est supposé être devant un tableau de variables


quantitatives décrit par des individus.

Sur ce tableau, on veut savoir quelles sont les


variables qui sont liée entre elles, quels sont les
individus qui se ressembles.
Les étapes de ACP

Etape 1 :
centrer et réduite
1 ….. j .. … p

1
.
i rij
.
n
ACP ACP normée

Tableau centré Tableau centré-réduit


Variables xj Variables
1 ..…
yj
j … .. p
1 ….. j .. … p
1
1 .
. 1
X(n,p) i . Y(n,p) i
yij
i
xij .
. n
n .
n

xij  rij  r j rij  r j


yij 
j
1 n j 1 n j  2(y j ) 1

n i 1
xi  0  yi  0
15
n i 1
Tableau (matrice) centré-réduit associé à X


 x x x x x x x  x p 
 11 1 12 2 ... 1j j ... 1p 
  (X )  (X )  (X j)  ( X p) 
 1 2 
 
 
 x x x x x x x  xp 


21 1 22 2 ... 2 j j ... 2 p 

  (X )  (X )  (X j)  ( X p) 
 1 2 
 
 
 ... ... ... ... ... ... 
Xr   

 x x x x x x x  xp 

 i1 1 i2 2 ... ij j ... ip 


 (X )  (X )  (X j)  ( X p) 


1 2 
 
 ... ... ... ... ... ... 
 
 
 x x x x x x xnp  x p 
 n1 1 n2 2 ... nj j ... 


 (X )  (X )  (X j)  ( X p) 

 1 2 
Etape2

 Matrice de variance-covariance : mesure la liaison entre les


différents descripteurs

Σ= covX , X 
i j i, j

où cov(Xi, Xi) = Var(Xi).

 Matrice de corrélation : même chose que Σ sauf qu’il s’agit


d’un paramètre sans dimension
R = (Rij)i,j
Matrice de corrélation

1 0,970 -0,064 0,094

-- 1 -0,102 0,037

-- -- 1 0,986

-- -- -- 1
.

Etape3 :diagonaliser la matrice de


corelation

  est une valeur propre de la matrice A si et seulement si


Av = v
 Le vecteur v dans la relation ci-dessus est appelé vecteur
associé à 
 Les valeurs propres s’obtiennent en résolvant le système
d’équations det(A- I) = 0.
 Le nombre de valeurs propres, 1> … > p, est égal au nombre
de lignes = nombre de colonnes de la matrice A
 Important :
p p
I   I k   k  p
k 1 k 1
Etape 4 : Comment se fait la réduction de
la dimension tout en préservant les liaisons
entre les différents descripteurs ?

 Les variables de départ sont remplacées par « des


vecteurs propres » de la matrice Σ ou de la matrice
R, appelés Composantes principales.

 Y-a-t-il un critère d’arrêt ? généralement on


s’arrête quand au moins 75% de la variance est
expliquée par la variance cumulée par les CP.
 Chaque valeur propre représente la variance prise en compte
par la composante principale correspondante.
 Pour l’exemple on obtient :

 Ici les deux premières composantes rendent compte de


0,5003+0,4917 = 0,9920 = 99,2 % de la variance totale.
 Ce qui veut dire que les 4 descripteurs peuvent être remplacés
par les 2 premières composantes tout en préservant la quasi-
totalité de l’information (réduction).
ACP Mais quelle est l’importance de chaque
composante (axe)?
Quelle est la variance expliquée par chaque
Axe : 1 Axe : 2 axe?
Coord Coord
I1 -1.666 -0.801 4.0000

I2 1.348 -0.487 2

I3 1.800 -1.476
I4 1.559 0.968
On calcule les variances
I5 1.664 0.082 I9 (inerties) du nuage des
I4
I10
I6 1.730 -0.740
-4.0000 I11 I7
I8
I5 4.0000
points projetés, expliquées
I7 -1.424 -0.017
I8 -0.765 0.364
I12
I1
I2
I6
1
par les axes (valeur
I9 1.834 1.516 I3 propres) et les % de
I10 -1.840 0.821 variances cumulés
I11 -1.811 0.065
I12 -2.430 -0.295
-4.0000

n
1
Valeur Pourcent Cumul
2.8807 72.02 72.02
0 2.8807
L’axe1 explique 72.02 % de
2
3
0.6453
0.3897
16.13 88.15
9.74 97.89
variance, l’axe 2: 16.13%
4 0.0844 2.11 100.00

1  2
Variance totale = 4.0
 88 .15
notatio 1 4

n 1
i

23
Etape 5 : composantes principales

 D’un point de vue pratique les composantes


principales s’écrivent
Fj = 1X1+….+ pXp

c’est-à-dire que Fj est une combinaison linéaire des


variables initiales X1,… , Xp.

En plus de cet aspect calculatoire on doit pouvoir


faire des affirmations sur la qualité de la réduction et
la qualité de la représentation graphique.
Etape 6 :Les Coordonnées des individus et des variables

Coordonnées des individus sur les axes


factoriels du nuage de points:

Ck =Xuk

Coordonnées des variables sur les axes


factoriels du nuage de points:
Zk= k uk
Résultats des calculs

 Coordonnées des individus : il s’agit des


valeurs prises par les composantes
principales sur les individus.
 Ici
Résultats (suite I)

 Coordonnées des variables : il s’agit des


coefficients de corrélation entre les variables
et les composantes principales.

 La première composante est surtout corrélée


avec les deux derniers descripteurs
Etape 7 : Contribution et Qualité
de la représentation
 Contribution (relative) d’un individu à la
formation d’une composante principale :
0,07712
 CTR(sujet 1, CP1)=  0,64%
0,0771  ...  0,0556
2 2

 Qualité de la représentation :
pour sujet 1 et CP2
2,75152
 0,998
QLT = 0,0771  ...  0,0166
2 2
Règles d'interprétation :
■ L'analyse se fait axe par axe, en parallèle sur les variables et les
individus.
■ Plus ctr est grande, plus l'influence de l'individu est grande. On ne
retient donc que les
plus fortes valeurs (il y a souvent un décrochage après quelques
valeurs).
■ ctr est considéré comme positif si l'individu est dans la partie positive
de l'axe.
■ ctr est considéré comme négatif si l'individu est dans la partie
négative de l'axe.
Résultats (suite II)

 Qualité de la représentation d’une variable à la


formation d’une CP : contribution de la première variable
à la formation de la première composante principale

0,62882
CTR =  0,1976
0,6288  0,6651  ...  0,7129
2 2 2
cos ²( ik ).

Qualité de représentation

L’opération de projection d’un nuage sur un axe constitue une opération déformante.
Avant d’interpréter les proximités observées sur les axes, il est donc indispensables de
savoir si elles correspondent à la réalité. Si l’élément est proche de sa projection sur
l’axe, on dit qu’il est bien représenté sur l’axe. S’il est éloigné, on dit qu’il est mal
représenté. L’indicateur que l’on songe naturellement à utiliser est l’angle formé entre
l’élément et sa projection sur l’axe : au plus il est proche de 90 degrés, au moins
l’individu est bien représenté .

L’indicateur qui sera utilisé est le cosinus carré de l’angle, Lorsque l’angle est
proche de 0, c'est-à-dire que l’individu est bien représenté, cet indicateur est
proche de 1. Dans le cas inverse, l’angle est proche de 90° et le cosinus est
proche de 0.
Etape 8 : Interprétation

 Scores et saturations ne sont pas exprimés


dans la même unité de mesure.
 Interpréter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrélé.
 Individus proches de l’origine : ils ont peu
contribué à l’inertie.
 Interpréter plutôt les oppositions marquées entre
individus.
Interprétation

 Scores et saturations ne sont pas exprimés


dans la même unité de mesure.
 Interpréter chaque axe : part de la variance sont il
rend compte, variables avec lesquelles il est corrélé.
 Individus proches de l’origine : ils ont peu
contribué à l’inertie.
 Interpréter plutôt les oppositions marquées entre
individus.
ACP Interprétation des résultats

Regarder la structure des variables à partir de leurs corrélations avec les


axes principaux.
Qualité de la représentation

Cosinus carrés (COR)


Les variables sont d’autant mieux représentées sur le plan qu’elles sont
proches du cercle

Structures des variables


Pour chaque axe, on regarde les variables qui lui sont les plus fortement
corrélées.
On compare la position de ces variables les unes par rapport aux autres.
On peut ainsi interpréter cet axe.
On peut aussi étudier la position des variables par rapport aux deux axes et
chercher une explication.
Interprétation des résultats
ACP
: Cosinus carré
 2
cos   ( r j )
2
: Qualité de représentation de la variable j
coefficients de corrélation entre les variables et les composantes principales.

cp2

Vj Cercle de corrélation
rj2

0 1 cp1
rj1
Interprétation des résultats : individus

Regarder la répartition des individus à partir de leurs coordonnées sur les axes principaux et de la qualité de leur
représentation.

2
I i' : Cosinus carré
cos  2
2
: Qualité de représentation d’un individu i sur l’axe Uα
Ii
Ii Indique dans quelle proportion l’axe α contribue à la représentation de
θ l’individu i
μ uα
I’i

Un individu sera bien représenté sur un axe s’il est proche de l’axe i.e. si le
cos²θ est élevé et inversement.

Un individu sera bien représenté sur un plan


si la somme des cos²θ est forte.

On ne peut pas interpréter les proximités d’individus mal


représentés.
Interprétation des individus

Les individus qui contribuent le plus à la formation des axes


sont les individus qui ont les fortes coordonnées

(ci ) 2 : Contribution de l’individu i à l’axe principal α




Indique dans quelle proportion l’individu i contribue à l’inertie


λα du nuage projeté sur l’axe α
Les règles de lecture des plans factoriels sont:

Seuls les individus bien représentés sont pris en compte dans l'interprétation

On réalise le bilan en positif et en négatif des individus qui ont la plus forte

contribution pour un axe donné

On réalise des groupes : on construit arbitrairement ces groupes en raison

des proximités entre individus.

En présence de trop nombreux individus, on peut utiliser des individus type

et réaliser une analyse sur ce individus

Vous aimerez peut-être aussi