Vous êtes sur la page 1sur 92

Analyse de Données

RAMCHOUN Hassan
hassanramchoun@gmail.com
2021/2022

RAMCHOUN Hassan cours ADD 2021/2022 1


Plan

1 Introduction à l’analyse de données

2 Analyse en composante principale

3 Analyse factorielle des correspondances

RAMCHOUN Hassan cours ADD 2021/2022 2


Introduction à l’analyse
Chapitre 1 de données

RAMCHOUN Hassan cours ADD 2021/2022 3


Introduction
 L’analyse de données s’inscrit dans le cadre de la statistique exploratoire
1. Introduction multidimensionnelle.
à l’analyse de
données
 Le but de l'analyse des données est, de façon générale, de décrire une
situation à l'aide de mesures relevées.
2 . Analyse en
composante
principale  L'intérêt des méthodes réside dans leur capacité d’avoir des résumés,
adapté aux grands fichiers de données.
3 . Analyse
factorielle des  Pour toutes les analyses des données, et quelle que soit la présentation des
correspondances
données dont on dispose, il faut pouvoir construire (parfois formellement) un
tableau de données brutes, c'est-à-dire un tableau de 𝑛 individus sur lequel sont
mesurées 𝑝 variables.

 Les méthodes employées diffèrent selon la nature des variables


(quantitative ou qualitative), le nombre de variables et la problématique à
résoudre.
4
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction
à l’analyse de
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

𝑥𝑖𝑘 est donc la valeur de la variable 𝑘 pour l’individu 𝑖 avec 𝑘 = 1, … , 𝐾


et 𝑖 = 1, … , 𝐼
5
RAMCHOUN Hassan cours ADD 2021/2022
Exemple 1: Données IRIS
1. Introduction
à l’analyse de Comprend 50 échantillons de chacune des trois espèces (Iris setosa, Iris
données virginica et Iris versicolor).
Quatre caractéristiques ont été mesurées à partir de chaque échantillon : la
longueur et la largeur des sépales et des pétales, en centimètres.
2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

6
RAMCHOUN Hassan cours ADD 2021/2022
Exemple 2: Notes des élèves
1. Introduction
à l’analyse de
données Note Math Note Arabe Note PC Note Français
Elève 1 12 7 10 8
2 . Analyse en Elève 2 19 10 16 12
composante
principale Elève 3 2 16 6 13
Elève 4 9 18 13 16
3 . Analyse
factorielle des Elève 5 14 11 15 14
correspondances
Peut-on représenter les individus (les élèves) dans l’espace
des variables (les matières)?

7
RAMCHOUN Hassan cours ADD 2021/2022
Exemples de tableau de données
1. Introduction
à l’analyse de • Ecologie : concentration du polluant k dans la rivière i
données
• Economie : valeur de l’indicateur k pour l’année i
2 . Analyse en
• Génétique : expression du gène k pour le patient i
composante
principale
• Biologie : mesure k pour l’animal i
• Marketing : valeur d’indice de satisfaction k pour la marque
3 . Analyse
factorielle des
i
correspondances

8
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction
 P variables quantitatives ont été mesurées sur N individus :
à l’analyse de
données X1 X2 ... Xj ... Xp
ind 1 x11 x11 ... x1j ... x1p
2 . Analyse en
composante
ind 2 x12 x22 ... x2j ... x2p
principale
... ... ... ... ... ... ...
3 . Analyse
ind i xi1 xi2 ... xij ... xip
factorielle des
correspondances
... ... ... ... ... ... ...
ind n xn1 xn2 ... xnj ... xnp
 Peut-on « simplifier », « concentrer » ou « compresser » l’essentiel de
l’information contenue dans ce tableau?

9
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction
à l’analyse de Statistique descriptive
données Les représentations recherchées sont bien souvent des représentations
graphiques, comme il est difficile de visualiser des points dans des espaces
2 . Analyse en de dimensions supérieures à deux, nous chercherons à représenter ces points
composante dans des plans.
principale

Analyse de données
3 . Analyse
factorielle des Ces méthodes ne se limitent pas à une représentation des données, ou du
correspondances moins pour la rendre plus aisée, elles cherchent les ressemblances entre les
individus et les liaisons entre les variables.

10
RAMCHOUN Hassan cours ADD 2021/2022
Introduction
1. Introduction
à l’analyse de
données  Si la taille du tableau est grand, ou que nous recherchons des relations entre
plus de deux individus ou plus de deux variables, les techniques simples de la
statistique descriptive ne suffisent plus.
2 . Analyse en
composante
principale
Les objectifs de l’ ADD
3 . Analyse
1. La visualisation des données dans le meilleur espace réduit.
factorielle des 2. Le regroupement dans tout l’espace.
correspondances
3. Les méthodes de l’analyse de données doivent donc permettre de représenter
synthétiquement de vastes ensembles numériques pour faciliter l’opérateur dans
ses décisions.

11
RAMCHOUN Hassan cours ADD 2021/2022
Principales méthodes d'analyse de données
1. Introduction
à l’analyse de Les méthodes factorielles cherchent à réduire le nombre de variables en les
données résumant par un petit nombre de composantes synthétiques en utilisant
essentiellement des outils de l’algèbre linéaire et donnant lieu à des
2 . Analyse en représentations graphiques dans lesquelles les objets à décrire se transforment
composante en des points sur des axes et des plans, (ACP, AFC, AFCM,…)
principale

Les méthodes de classification visant à réduire la taille de l’ensemble des


3 . Analyse
factorielle des individus en formant des groupes homogènes
correspondances

12
RAMCHOUN Hassan cours ADD 2021/2022
Principales méthodes d'analyse de données
- Analyse en Composantes Principales (ACP), appliquée à 𝑝 variables quantitatives,
1. Introduction
dans le but de résumer les liens entre les variables par l'analyse des covariances ou
à l’analyse de
données des corrélations, et dresser une carte des individus indiquant leur position par
rapport à ces liens.
- Analyse Factorielle des Correspondances (AFC), appliquée à 2 variables
2 . Analyse en qualitatives, dans le but de mettre en évidence, graphiquement, le lien entre les
composante
principale deux variables traitées, et accessoirement voir quels individus influencent le plus ce
lien.
3 . Analyse - Analyse Factorielle des Correspondances Multiple (AFCM), appliquée à p
factorielle des variables qualitatives, avec le même but que l'AFC, mais pour plus de 2
correspondances
variables.
- Classification (hiérarchique et non hiérarchique), appliquée à p variables, soit
quantitatives, soit qualitatives, rarement les deux types mélangés, dans le but de
regrouper les individus les plus ressemblants.

13
RAMCHOUN Hassan cours ADD 2021/2022
• Définition
On considère une variable comme un vecteur X de taille n.
1. Introduction Chaque coordonnée xi correspond a un individu.
à l’analyse de
• Poids
données Chaque individu a éventuellement un poids pi, tel que p1+ …+ pn=1.
On a souvent pi = 1 / n.
2 . Analyse en
composante
principale

1 n
3 . Analyse
factorielle des
La moyenne arithmétique dans ce cas est donnée par x   xi
correspondances n i 1

14
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction • Définition
à l’analyse de la variance de X est définie par
données
1 n n

Var(X)   (xi  x )2 ou Var(X)   pi (xi  x )2


2 . Analyse en n i 1 i 1

composante
principale L'écart type est la racine carrée de la variance.

3 . Analyse
factorielle des
correspondances

15
RAMCHOUN Hassan cours ADD 2021/2022
Forme générale de données
1. Introduction
à l’analyse de
données • Tableau sous forme d’une matrice formée par p variables statistiques
notée par X1 , X 2 ,..., X p et un échantillon 𝐼1 , 𝐼2 , … , 𝐼𝑛 de taille n.
2 . Analyse en
composante
principale • Pour n individus et p variables, on a le tableau X est une matrice
rectangulaire a n lignes et p colonnes tq 𝑋 = 𝑥𝑘𝑗 pour k = 1, … 𝑛;
3 . Analyse 𝑗 = 1, … , 𝑝
factorielle des
correspondances

16
RAMCHOUN Hassan cours ADD 2021/2022
Vecteurs variable et individu
1. Introduction • La Variable 𝑋𝑗 : Une colonne du tableau
à l’analyse de
données 𝑥1𝑗
𝑥2𝑗
2 . Analyse en 𝑋𝑗 = . ∈ ℝ𝑛
composante .
principale 𝑥𝑛𝑗
3 . Analyse
factorielle des
correspondances • L’individu 𝐼𝑘 : Une ligne du tableau
𝐼𝑘 = (𝑥𝑘1 , 𝑥𝑘2 , … , 𝑥𝑘𝑝 ) ∈ ℝ𝑝
• Les n individus sont décrits par un nuage de p variables.
L'information représentée par un nuage correspond à la dispersion
des n points.

17
RAMCHOUN Hassan cours ADD 2021/2022
Exemple: cas p=3 et N=10
AGE: X TAILLE: X POIDS: X
X
Individu (ans) 1 (cm) 2 (Kg) 3
1

1 25 169 64

2 24 180 82

3 19 172 69

4 22 175 68

5 26 182 78
• Formule matricielle
6 25 178 80

7 24 179 75

8 23 174 76

9 21 178 72

10 24 176 75
Matrice de variance covariance

1. Introduction
à l’analyse de • Définition C’est une matrice carrée de dimension p
données

2 . Analyse en
composante
principale  V (X1 ) cov(X1 ,X 2 ) cov(X1 ,X p ) 
 
3 . Analyse  cov(X 2 ,X1 ) V (X 2 ) cov(X 2 ,X p )
 
factorielle des  
 
correspondances

cov(X p ,X1 ) cov(X p ,X 2 ) V (X p ) 

avec
1 n
cov(X i , X j )   (xi  xi )(x j  x j )
n i 1
19
RAMCHOUN Hassan cours ADD 2021/2022
Matrice de données

1. Introduction
à l’analyse de
• Pour une matrice de données on a trois types d’analyses:
données

 Analyse univariée: On traite (étudie) chaque variable indépendamment


2 . Analyse en
composante
des autres (statistique descriptive) .
principale
 Analyse bivariée: traitement de deux variables X et Y dépendantes.
3 . Analyse
factorielle des
correspondances  Analyse multivariée: Traitement de l’information de p variables
statistiques X , X ,..., X présentées dans une matrice de données.
1 2 p

20
RAMCHOUN Hassan cours ADD 2021/2022
Mesure de liaison entre deux variables

1. Introduction
à l’analyse de
données • le coefficient de corrélation entre deux variables X et Y est donnée par
cov(X,Y)
 

X ,Y

2 . Analyse en X Y
composante
principale • On a toujours 1    1
X ,Y

3 . Analyse
factorielle des
 Si 𝜌𝑋,𝑌 > 0,7 , les variables X et Y sont fortement corrélées.
correspondances
 Si 𝜌𝑋,𝑌 > 0,5 , les variables X et Y sont corrélées.

 Si 𝜌𝑋,𝑌 < 0,5 , les variables X et Y sont faiblement corrélées.

 Si 𝜌𝑋,𝑌 = 0, les variables X et Y sont non corrélées.

21
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction
à l’analyse de
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

22
RAMCHOUN Hassan cours ADD 2021/2022
Analyse en composante
Chapitre 2 principale

RAMCHOUN Hassan cours ADD 2021/2022 23


Introduction
1. Introduction à  Représenter au mieux dans un espace plus réduit des observations issues d’un espace
l’analyse de plus grand en nombres de dimensions (Xj variables) :
données
 Simplification de la réalité
2 . Analyse en
 Concentration d’une information de départ diluée
composante  Description du maximum de variabilité dans un espace réduit
principale
X1 X2 X3 ...
ind 1 33 12 55 ...
ind 2 25 11 50 ...

3 . Analyse ind 3 29 11 43 ...


... ... ... ... ...
factorielle des
correspondances

X10 X
5
X6 X
3

Y1
Y2

24
RAMCHOUN Hassan cours ADD 2021/2022
Problématique

1. Introduction à
l’analyse de A chaque individu noté 𝑒𝑖 , on peut associer un point dans ℝ𝑝 = espace des individus.
données
A chaque variable du tableau 𝑋 est associé un axe de ℝ𝑝 .

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
Impossible de
correspondances visualiser dès que
𝑝>3

25
RAMCHOUN Hassan cours ADD 2021/2022
Introduction
1. Introduction à
l’analyse de Données :
données
n individus observés sur p variables quantitatives.
2 . Analyse en
L’A.C.P. permet d’explorer les liaisons entre variables et
composante les ressemblances entre individus.
principale

Résultats :
3 . Analyse
factorielle des
 Visualisation des individus (Notion de distances entre
correspondances individus)
 Visualisation des variables (en fonction de leurs
4 . Régression
linéaire simple et corrélations)
multiple

26
RAMCHOUN Hassan cours ADD 2021/2022
Applications
 Analyses de données :
1. Introduction à  Réduction du nombres de variables explicatives (Xj) avant modélisation
l’analyse de
données  Obtention de nouvelles variables explicatives appelé composantes principales
(CPj) non corrélées
2 . Analyse en  Imagerie :
composante
principale  Compression d’image
 Reconnaissance faciale

3 . Analyse
factorielle des
correspondances

4 . Régression
linéaire simple et
multiple

27
RAMCHOUN Hassan cours ADD 2021/2022
Objectifs
Représenter graphiquement les relations entre individus par l’évaluation de
1. Introduction à leurs ressemblances, ainsi que les relations entre variables par l’évaluation de
l’analyse de
données
leurs liaisons (étude de la matrice des corrélations)

 Résumer le tableau de façon à identifier les variables ou combinaisons de


2 . Analyse en
composante variables selon lesquelles les N individus se différencient le plus
principale Identification des « composantes principales » (CP) qui déterminent l’essentiel
de la différence entre individus (variance)

3 . Analyse
factorielle des  Examiner la position des N individus le long de ces « composantes
correspondances principales »
 Etudier les relations des P variables le long de ces « composantes
principales »

Le but final de ces représentations est l’interprétation par une analyse des
résultats.

28
RAMCHOUN Hassan cours ADD 2021/2022
Définitions
1. Introduction à
Deux individus se ressemblent, ou sont proches, s’ils possèdent des valeurs proches
l’analyse de pour l’ensemble des variables.
données

Pour établir un bilan des ressemblances entre individus, nous cherchons à répondre à
2. Analyse en des questions du type :
composante - Quels sont les individus qui se ressemblent ?
principale
- Quelles sont ceux qui sont différents ?
- Existe-t-il des groupes homogènes d’individus ?
3 . Analyse - Est-il possible de mettre en évidence une typologie des individus ?
factorielle des
correspondances
De la même façon que nous avons défini la ressemblance entre individus, il est
essentiel de définir la liaison entre des variables.
-Deux variables sont liées si elles ont un fort coefficient de corrélation linéaire.

29
RAMCHOUN Hassan cours ADD 2021/2022
ACP non-normée ou ACP normée?
 S’il est recommandé de toujours « centrer » ses donnés en ACP, la question de
1. Introduction à
l’analyse de les « réduire » (ACP normée) dépend de vos données :
données
 Si vos données sont toutes dans la même unité de mesure et varient dans des
gammes de valeurs identiques : l’ACP non-normée suffit
2 . Analyse en
 Si vos données sont dans des unités de mesure différentes et varient dans des
composante
principale gammes de valeurs différentes : l’ACP normée est recommandée

Rappel:
3 . Analyse
factorielle des C’est le signe de la covariance qui importe :
correspondances
 cov(X1, X2) > 0 : X1 augmente quand X2 augmente
 cov(X1, X2) < 0 : X1 augmente quand X2 diminue

 Si X1 et X2 sont centrées, alors X1  X 2  0


 Corrélation = covariance « standardisée » : réduction
 Comprise entre -1 et 1, la corrélation mesure l’intensité de la liaison linéaire
entre deux variables X1 et X2
30
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction à
l’analyse de Homogénéisations des données
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances
Si les données hétérogènes, on transforme le tableau X en un tableau de données
homogènes Z.

31
RAMCHOUN Hassan cours ADD 2021/2022
Exemple

1. Introduction à X  ( X 1 , X 2 ,....., X p )
l’analyse de
données
Z  ( Z 1 , Z 2 ,......, Z p )

Xi  Xi 
Z  0
2 . Analyse en Zi   i
composante X ii  Z I  1

principale
Z=tableau de données centrées et réduites
Z : données centrées réduites
3 . Analyse
factorielle des
correspondances 1  2  3  4  9 19
X1    3,8
5 5
5  10  8  8  12 43
X2    8,6
5 5
 X 1  2,79
 X  2,33
2

32
RAMCHOUN Hassan cours ADD 2021/2022
Exemple

1. Introduction à
l’analyse de  1  3,8 5  8,6 
 
données
 2,79 2,33 
 2  3,8 10  8,6 
    1,005;1,543 
2 . Analyse en
 2,79 2,33   
 
 3  3,8 8  8,6   
composante 0, 646; 0,6
principale
Z      0,287;0,257 
 2,79 2,33   0,072;0,257 
 4  3,8 8  8,6   
3 . Analyse     1,867;1,458 

factorielle des  2,79 2,33 
correspondances  9  3,8 12  8,6 
 
 2,79 2,33 
Z 1  0;  Z1  1
Z 2  0;  Z 2  1

33
RAMCHOUN Hassan cours ADD 2021/2022
Principe
1. Introduction à
l’analyse de
données
Définition L’analyse en composantes principales (ACP) est une analyse
multivariée de traitement de p variables dépendantes.
2 . Analyse en
composante
principale Principe: On cherche une représentation des n individus , dans un sous-espace
ℝ𝑘 de ℝ𝑝 de dimension k ( k petit 2, 3 …; par exemple un plan).
Autrement dit, on cherche à définir k nouvelles variables 𝒀𝒌 combinaisons
3 . Analyse linéaires des p variables initiales qui feront perdre le moins d’information
factorielle des
correspondances possible.
𝒑
𝒀𝒌 = 𝒋=𝟏 𝒂𝒌𝒋 𝑿𝒋 avec 𝒌 < 𝒑

Ces variables seront appelées «composantes principales ».


les axes qu’elles déterminent : « axes principaux ».
𝒂𝒌 = (𝒂𝒌𝟏 , 𝒂𝒌𝟐 , … , 𝒂𝒌𝒑 ): le vecteur directeur de nouveau axe trouvé

34
RAMCHOUN Hassan cours ADD 2021/2022
Principe
1. Le sous-espace obtenu devra être « ajusté » le mieux possible au nuage
1. Introduction à
l’analyse de
des individus: la somme des carrés des distances des individus au sous-
données espace doit être minimale.

2 . Analyse en
composante 2. Le sous-espace obtenu sur lequel le nuage projeté ait une inertie
principale
(dispersion) maximale.

3 . Analyse
1 et 2 sont basées sur les notions de :
factorielle des
correspondances
distance
projection orthogonale

35
RAMCHOUN Hassan cours ADD 2021/2022
Contexte
1. Introduction à  : Population de n individus
l’analyse de
données Ces individus sont décrits par P variables quantitatives X 1 , X 2 ,..........., X P

2 . Analyse en Représentations graphiques


composante
principale

3 . Analyse
factorielle des
correspondances

Espace des individus : E Espace des variables : F

 X 11   X i1   X 11   X1j



     
I 1   X 12  i
; I   X i2  X1   X 12 ; X j   X2j  Dim F = n
X  X  X   
 n1  X 
 1P   iP   nj 
Dans la pratique n p
Dim E = p
36
RAMCHOUN Hassan cours ADD 2021/2022
ACP sur les individus
  P espace des individus Dim E = p>2
1. Introduction à
l’analyse de
données
Idée :
Représenter des individus sur un espace de dimensions faibles (2 ou 3) en conservant le
maximum l’information (avec un minimum de perte d’information)
2 . Analyse en L’information en statistique est équivalente à la dispersion ou l’inertie.
composante
principale J
I

3 . Analyse
factorielle des 
correspondances
P (I ) Photo P ( J )
Trouver un plan (∆1 , ∆2 ) sur lequel on projette le nuage de points 𝑁𝐼 tel que les distances
réelles entre les individus sont les mieux préservés en projection
(∆1 , ∆2 ) sont appelés les deux axes principaux.
(∆1 , ∆2 ) est appelé plan principal

37
RAMCHOUN Hassan cours ADD 2021/2022
ACP sur les individus
1. Introduction à 1
l’analyse de Z Z : matrice de corrélation
données n

2 . Analyse en 1 r ( X 1 , X 2 )......r ( X 1 , X p) 
composante  
principale
1  r ( X 2 , X 1 ) 1......r ( X 2 , X p ) 
Z (p , p ) Z    Matrice symétrique
n  
3 . Analyse  r ( X , X ) ...................1 
factorielle des  p 1 
correspondances
Inertie du nuage projeté
I 1 ( N )   d (P
I , J N
1 ( I ), P 2 ( J ))

Inertie du nuage réel

I (N )   d (I , J )
I , J N

38
RAMCHOUN Hassan cours ADD 2021/2022
Inertie
1. Introduction à
l’analyse de
données
Le moment d’inertie totale est intéressant car c’est une mesure de la
dispersion du nuage des individus 𝑢𝑖 par rapport à son centre de gravité 𝐺.
Si ce moment d’inertie est grand, cela signifie que le nuage est très dispersé,
2 . Analyse en
composante tandis que s’il est petit, alors le nuage est très concentré sur son centre de
principale gravité.
1 𝑛 2 (𝐺, 𝑢 ) = 𝑝 𝑣𝑎𝑟(𝑋 ) = 𝑇𝑟𝑎𝑐𝑒 (𝑉)
𝐼𝐺 = 𝑖=1 𝑑 𝑖 𝑗=1 𝑗
𝑛
3 . Analyse
factorielle des Ou G est le vecteur des données centrées et V la matrice de covariance des
correspondances
𝑝 variables

39
RAMCHOUN Hassan cours ADD 2021/2022
ACP sur les individus
Détermination du 1er axe principal
1. Introduction à
l’analyse de J
données
I
2 . Analyse en
composante P (I ) Photo P ( J )
principale
∆1 Est l’axe tel que :
Maximiser  d (P
I , J N
1 ( I ), P1 ( J )) Minimiser  d ( J , P1 ( J ))
J N
3 . Analyse
factorielle des
correspondances
Caractéristique de ∆1
∆1 est un axe qui passe par l’origine et il a comme vecteur directeur le vecteur
𝑎1 solution du problème de vecteur propre suivant
1   
Z Za1  1a1 et a1  1
n 1
Avec 𝜆1 la plus grande valeur propre de la matrice de corrélation 𝑍 ′ 𝑍
𝑛

40
RAMCHOUN Hassan cours ADD 2021/2022
ACP sur les individus

1. Introduction à
l’analyse de
données
Détermination de la deuxième composante principale

Trouver 𝑌2 revient à chercher 𝑎2 tq


2 . Analyse en
composante
principale 𝑉 𝑌2 𝑠𝑜𝑖𝑡 𝑚𝑎𝑥𝑖𝑚𝑎𝑙𝑒
𝑎2𝑡 𝑎2 = 1
𝑐𝑜𝑣 𝑌1 , 𝑌2 = 0
3 . Analyse
factorielle des
correspondances La solution de ce problème est obtenue lorsque 𝜆 = 𝜆2 est la 2ème plus
1
grande valeur propre de la matrice de corrélation 𝑍 ′ 𝑍 ainsi 𝑎2 est un
𝑛
vecteur propre associé à 𝜆2

41
RAMCHOUN Hassan cours ADD 2021/2022
ACP sur les individus

1. Introduction à
l’analyse de
données
Généralisation:
2 . Analyse en
1 ′
composante 𝑌𝑘 = 𝑎𝑘𝑡 𝑋 ou 𝑎𝑘 et le vecteur propre de la matrice des corrélations 𝑍𝑍 associé à
principale 𝑛
𝜆𝑘 avec 𝜆𝑘 < 𝜆𝑘−1 < ⋯ < 𝜆2 < 𝜆1

3 . Analyse Remarque
factorielle des
correspondances
Dans l’ ACP non normé on travaille sur la matrice des covariances au lieu de celle
des corrélations

42
RAMCHOUN Hassan cours ADD 2021/2022
Résumé
1. Introduction à
l’analyse de La recherche d’axes portant le maximum d’inertie équivaut à la
données
construction de nouvelles variables (auxquelles sont associés ces
axes) de variance maximale.
2 . Analyse en
composante
principale En d’autres termes, on effectue un changement de repère dans
ℝ𝑝 de façon à se placer dans un nouveau système de représentation où
le premier axe apporte le plus possible de l’inertie totale du nuage, le
3 . Analyse deuxième axe le plus possible de l’inertie non prise en compte par le
factorielle des
correspondances premier axe, et ainsi de suite.

Cette réorganisation s’appuie sur la diagonalisation de la matrice de


variances-covariances ou des corrélations

43
RAMCHOUN Hassan cours ADD 2021/2022
Résumé
1. Introduction à
l’analyse de
données Axes principaux

2 . Analyse en On appelle axes principaux d’inertie les axes de direction les


composante vecteurs propres de V normés à 1, Il y en a p.
principale

Le premier axe est celui associé à la plus grande valeur propre .


3 . Analyse On le note 𝑌1 ou ∆1
factorielle des Le deuxième axe est celui associé à la deuxième valeur propre .
correspondances
On le note 𝑌2 ou ∆2

44
RAMCHOUN Hassan cours ADD 2021/2022
Propriétés des composantes principales
1. Introduction à
l’analyse de La variance d’une composante principale est égale à l’inertie portée par l’axe
données principal qui lui est associé.

2 . Analyse en 𝑉 𝑌𝑘 = 𝜆𝑘
composante
principale
Les composantes principales sont non corrélées deux à deux. En effet, les axes
associés sont orthogonaux.
3 . Analyse
factorielle des
correspondances

45
RAMCHOUN Hassan cours ADD 2021/2022
Inertie des q premières composantes principales
1. Introduction à Soit λ1 , λ2 ,…λp les valeurs propres de R et 𝑣1 = (𝑣11 , 𝑣12 , … , 𝑣1𝑝 )
l’analyse de
données 𝑣2 = (𝑣21 , 𝑣22 , … , 𝑣2𝑝 ) les vecteurs propres associés respectivement au 2 plus
grande valeurs propres λ1 , λ2
2 . Analyse en
composante l’inertie totale apporté par les p composantes principales vaut I(R) =
principale 𝑝
k=1 λk

3 . Analyse
On calcule l’inertie apporté par chaque axe
𝜆
factorielle des Pour le premier axe on trouve 𝑝 1 × 100
𝑘=1 𝜆𝑘
correspondances
𝜆2
Pour le deuxième axe on trouve 𝑝 × 100
𝑘=1 𝜆𝑘
𝜆1 +𝜆2
Si 𝑝 × 100 ≥ 80% on peut retenir les deux axes
𝑘=1 𝜆𝑘

46
RAMCHOUN Hassan cours ADD 2021/2022
Nombre d’axes à retenir
1. Introduction à
l’analyse de
données
La contribution relative de l’axe 𝑌𝑘 à l’inertie totale du nuage des individus est
𝜆𝑘
2 . Analyse en
composante
𝜆1 + 𝜆2 + ⋯ + 𝜆𝑝
principale Le nombre d’axe à retenir est donné par l’entier naturel k le plus petit entier non
nul tel que:
𝜆1 +𝜆2 +⋯+𝜆𝑘
× 1𝑂𝑂 ≥ 80%
3 . Analyse 𝜆1 +𝜆2 +⋯+𝜆𝑝
factorielle des
correspondances

47
RAMCHOUN Hassan cours ADD 2021/2022
Composantes principales
1. Introduction à
l’analyse de
données
On calcule les composantes principales par
2 . Analyse en
composante 𝑌𝑘 = 𝑍𝑣𝑘𝑡
principale

Par suite on retrouve les coordonnées des individus dans le nouveau repère
et on peut donc représenter les individus dans ce repère s’ il est de dimension
3 . Analyse
factorielle des ≤3
correspondances

La 𝑘 è𝑚𝑒 composante principale 𝑌𝑘 = (𝑦𝑘1 , 𝑦𝑘2 , … , 𝑦𝑘𝑛 )𝑡 fournit les


coordonnées des individus sur le 𝑘 è𝑚𝑒 axe principale

48
RAMCHOUN Hassan cours ADD 2021/2022
Qualité de représentation des individus
1. Introduction à
l’analyse de
données
En général on peut interpréter uniquement les individus qui sont bien représentés
et on
2 . Analyse en
composante
Qualité de représentation par rapport à un axe ∆𝑘 est:
principale
2
∆ 𝑦𝑖𝑘
𝑄𝑖 𝑘 = 𝑝 2 ou 𝑖 = 1, … , 𝑛 𝑒𝑡 𝑘 = 1, … , 𝑝
𝑗=1 𝑧𝑖𝑗
3 . Analyse
factorielle des
correspondances Et la Qualité de représentation par rapport à un plan par exemple est donnée par:

2 2
𝑝𝑙𝑎𝑛 𝑦𝑖1 + 𝑦𝑖2
𝑄𝑖 = 𝑝 2
𝑗=1 𝑧𝑖𝑗
 Si cette valeur est proche de 1 l’individu est bien représenté et vice versa

49
RAMCHOUN Hassan cours ADD 2021/2022
Qualité de représentation des individus
1. Introduction à
l’analyse de
données
 Pour interpréter correctement la proximité des projections de deux individus sur un
plan, il faut donc s’assurer que ces individus sont bien représentés dans le plan. Pour
que l’individu I soit bien représenté sur un axe (ou sur un plan, ou un sous-espace), il
2 . Analyse en
composante faut que l’angle entre le vecteur GI et l’axe (ou le plan, ou le sous-espace) soit petit.
principale On calcule donc le cosinus de cet angle, ou plutôt le carré de ce cosinus.

 Si le carré du cosinus de l’angle entre GI et l’axe (ou le plan, ou le sous espace) est
3 . Analyse
factorielle des
proche de 1, alors on pourra dire que l’individu I est bien représenté par sa projection
correspondances sur l’axe (ou le plan, ou le sous-espace). Et si deux individus sont bien représentés en
projection sur un axe (ou un plan, ou un sous-espace) et ont des projections proches,
alors on pourra dire que ces deux individus sont proches dans l’espace

50
RAMCHOUN Hassan cours ADD 2021/2022
Qualité de représentation des individus
Regarder la répartition des individus à partir de leurs coordonnées sur les
1. Introduction à axes principaux et de la qualité de leur représentation.
l’analyse de
données
2
I i' : Cosinus carré
2 . Analyse en cos 2  
composante Ii
2 : Qualité de représentation d’un individu i sur l’axe Uα
principale Ii Indique dans quelle proportion l’axe α contribue à
θ la représentation de l’individu i
μ uα I’i
3 . Analyse
factorielle des
correspondances
Un individu sera bien représenté sur un axe s’il est proche de l’axe i.e. si le
cos²θ est élevé et inversement.
Un individu sera bien représenté sur un plan si la somme des cos²θ est forte.

On ne peut pas interpréter les proximités d’individus mal représentés.

51
RAMCHOUN Hassan cours ADD 2021/2022
Qualité de représentation des individus
1. Introduction à
l’analyse de
données
Remarque
la comparaison des signes peut s’interpréter. Si deux individus ont sur un axe Δ, le
2 . Analyse en
composante premier une coordonnée positive et le second une coordonnée négative, cela
principale signifie qu’ils s’opposent sur cet axe.

3 . Analyse
factorielle des
correspondances

52
RAMCHOUN Hassan cours ADD 2021/2022
Interprétation des nouveaux axes en fonction
des individus
1. Introduction à
l’analyse de
données

2 . Analyse en Les individus qui contribuent le plus à la formation des axes sont
composante les individus qui ont les fortes coordonnées
principale

(ci ) 2 : Contribution de l’individu 𝑖 à l’axe principal α


3 . Analyse
factorielle des 
correspondances
Indique dans quelle proportion l’individu i contribue à l’inertie
λα du nuage projeté sur l’axe α

53
RAMCHOUN Hassan cours ADD 2021/2022
Interprétation: Typologie des individus
1. Introduction à La lecture graphique de la position des individus le long des
l’analyse de
données composantes principales permet de dresser une typologie

2 . Analyse en Les individus proches le long d’une composante principale sont des
composante
principale
individus qui partagent les mêmes caractéristiques vis-à-vis des variables
quantitatives étudiées

3 . Analyse
factorielle des
correspondances
 Mesurer la qualité des représentations obtenues :
critère global (par rapport à plusieurs axe)
critères individuels (par rapport à un seul axe)
 Donner des noms aux axes
Expliquer la position des individus

54
RAMCHOUN Hassan cours ADD 2021/2022
Interprétation: Typologie des individus
1. Introduction à
l’analyse de
données
Un individu contribuera d’autant plus à la confection d’un axe, que sa
projection sur cet axe sera éloignée du centre de gravité du nuage.
2 . Analyse en Inversement, un individu dont la projection sur un axe sera proche du
composante
principale centre de gravité contribuera faiblement à l’inertie portée par cette axe. On
se sert de ces contributions pour interpréter les nouveaux axes de l’ACP
en fonction des individus.
3 . Analyse
factorielle des
correspondances

55
RAMCHOUN Hassan cours ADD 2021/2022
Etudes des variables

1. Introduction à
l’analyse de
données

2 . Analyse en
composante
 Les « proximités » entre les composantes principales et les
principale variables initiales sont mesurées par les covariances, et surtout
les corrélations.

3 . Analyse 𝜌(𝑌𝑘 , 𝑋𝑗 )est le coefficient de corrélation linéaire entre 𝑌𝑘 𝑒𝑡 𝑋𝑗


factorielle des
correspondances

56
RAMCHOUN Hassan cours ADD 2021/2022
Etudes des variables
On calcule les corrélations entre les composantes principales et les anciens variables par
1. Introduction à
𝑟𝑋𝑗 𝑌𝑘 = 𝜆𝑘 𝑣𝑘𝑗 𝑗 = 1, … , 𝑝 et 𝑘 = 1, 2 en générale
l’analyse de Par exemple pour la variable 𝑋1 on retrouve ces coordonnées comme suit:
données
𝑋1 ( 𝜆1 𝑣11 ; 𝜆2 𝑣21 )
𝑋2 ( 𝜆1 𝑣12 ; 𝜆2 𝑣22 )
2 . Analyse en Et on peut trouver toutes les coordonnées des variables 𝑋𝑗 dans le nouveau plan appelés
composante
principale cercle des corrélations
Y2
1
3 . Analyse
factorielle des Xj
correspondances rj2 Cercle de corrélation

0 1 Y1
rj1

57
RAMCHOUN Hassan cours ADD 2021/2022
Qualité de représentation des variables
1. Introduction à
l’analyse de
données

𝑝𝑙𝑎𝑛
2 . Analyse en 𝑄𝑋𝑗 = (𝑟𝑋𝑗 𝑌1 )2 +(𝑟𝑋𝑗 𝑌2 )2 ou j = 1, … , 𝑝
composante
principale
𝑝𝑙𝑎𝑛
Une variable est bien représenté si 𝑄𝑋𝑗 est proche de 1
3 . Analyse On identifie la qualité de représentation par rapport à un axe principal ∆𝑘 par
factorielle des
correspondances
𝑐𝑜𝑠 2 𝜃 = (𝑟𝑋𝑗 𝑌𝑘 )2
Ou 𝜃 est l’angle formé entre la variable 𝑋𝑗 est sa projection sur l’axe
principale ∆𝑘

58
RAMCHOUN Hassan cours ADD 2021/2022
Interprétation des résultats

1. Introduction à
l’analyse de
Regarder la structure des variables à partir de leurs corrélations avec les axes
données principaux.
Qualité de la représentation
2 . Analyse en
composante Cosinus carrés (COR)
principale
Les variables sont d’autant mieux représentées sur le plan qu’elles sont
proches du cercle
3 . Analyse Pour chaque axe, on regarde les variables qui lui sont les plus fortement
factorielle des
correspondances corrélées.
On compare la position de ces variables les unes par rapport aux autres.
On peut ainsi interpréter cet axe.
On peut aussi étudier la position des variables par rapport aux deux axes et
chercher une explication.
La lecture graphique du cercle des corrélations permet de juger du poids des
différentes variables de départ sur chacune des composantes principales

59
RAMCHOUN Hassan cours ADD 2021/2022
Analyse factorielle des
Chapitre 3 correspondances

RAMCHOUN Hassan cours ADD 2021/2022 60


Introduction

1. Introduction à  L’AFC fait partie de la famille des analyses factorielles . C’est une
l’analyse de
données technique utilisée par l’équipe de recherche du professeur J.P
Benzecri au début des années 1960.
2 . Analyse en
composante  C’est une méthode qui permet d’analyser les correspondances des
principale modalités de deux variables qualitatives.

3 . Analyse  L’objectif de l’AFC, comme l’ ACP, est de réduire des données


factorielle des initiales.
correspondances
 L’ AFC S’ applique de préférence à des variables qualitatives (
dichotomiques, nominales ou ordinales). Ceci implique qu’elle
représente une technique d’analyse privilégiée de données issues
d’enquêtes ou de questionnaires.

61
RAMCHOUN Hassan cours ADD 2021/2022
Introduction

1. Introduction à
l’analyse de
données  L’AFC s’appuie sur un tableau de donnés croisé à p lignes et q colonnes (
tableau de contingence ).
2 . Analyse en
composante  Avant de préciser les principales étapes de l’AFC, il nous parait utile de
principale clarifier la notion du tableau de contingence( ou tableau croisé )

3 . Analyse
factorielle des
correspondances

62
RAMCHOUN Hassan cours ADD 2021/2022
Introduction

1. Introduction à
l’analyse de
données • À partir de ce tableau , on peut calculer le total des lignes et le total des
colonnes ainsi que la somme totale qui représente la taille de la
population ou de l’échantillon (n).
2 . Analyse en
composante
principale Concernant le total des lignes et des colonnes

3 . Analyse
factorielle des J
correspondances ni .  n
k 1
ik
I J
n   ni.   n. j
n. j  n
k 1
kj i 1 j 1

63
RAMCHOUN Hassan cours ADD 2021/2022
Données: Tableau de contingence

1. Introduction à
l’analyse de
données
Ω : Population décrite par deux caractères qualitatifs X et Y

2 . Analyse en Tableau de contingence


composante
principale

3 . Analyse
factorielle des
correspondances

𝑛11 : individus tels que X prend la modalité 𝑋1 et Y prend la modalité 𝑌1

64
RAMCHOUN Hassan cours ADD 2021/2022
Données: Tableau de contingence

1. Introduction à
l’analyse de
données
Tableau croisé Genre de chaque employé * Catégorie de travail

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

65
RAMCHOUN Hassan cours ADD 2021/2022
Données: Tableau de contingence
1. Introduction à Un
l’analyse de
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

66
RAMCHOUN Hassan cours ADD 2021/2022
Données: Tableau de contingence

1. Introduction à
l’analyse de n individus et 2 variables qualitatives
données

2 . Analyse en
composante
principale

Tapez une équation ici.


3 . Analyse
factorielle des
correspondances

Distribution des n individus dans les I × J cases du tableau

67
RAMCHOUN Hassan cours ADD 2021/2022
Objectifs

1. Introduction à
l’analyse de
données

1) Trouver les correspondances entre les modalités X et Y


2 . Analyse en
composante -Influence d’un caractère sur l’autre
principale
-Mesurer l’influence
3 . Analyse -Chercher les correspondances entre les modalités des deux caractères
factorielle des
correspondances 2) Traduire ces informations sous formes de graphes

68
RAMCHOUN Hassan cours ADD 2021/2022
Du tableau de contingences au tableau de probabilités

1. Introduction à Modalité de Marge colonne


l’analyse de Probabilité marginale
données
V2

2 . Analyse en
composante
principale
𝐽
Modalité de
3 . Analyse V1 𝑓𝑖. = 𝑓𝑖𝑗
factorielle des 𝑗=1
𝑥𝑖𝑗
correspondances 𝑓𝑖𝑗 =
𝑛
ni.  ni1  ni 2  ......  niJ
J

Marge ligne 𝐼
ni .  n
k 1
ik

Probabilité marginale
𝑓.𝑗 =
𝑖=1
𝑓𝑖𝑗
n. j  n k 1
kj

69
RAMCHOUN Hassan cours ADD 2021/2022
Profiles lignes et colonnes

1. Introduction à
l’analyse de
𝑛𝑖𝑗
données le tableau des profils lignes c’est le tableau des fréquences conditionnelles
𝑛𝑖.

2 . Analyse en
composante 𝑛𝑖𝑗
Et le tableau des profils colonnes est
principale 𝑛.𝑗

3 . Analyse
Profil ligne i = distribution conditionnelle de V2 sachant que l'on possède la
factorielle des modalité i de V1
correspondances
L’AFC compare les profils lignes au profil moyen

Profil ligne moyen=distribution marginale de V2 dans le tableau des profiles


lignes

70
RAMCHOUN Hassan cours ADD 2021/2022
Les profils lignes

1. Introduction à
•Métrique sur les profils lignes:
l’analyse de Soient i et i’ deux profils lignes:
données
2
J
1  f ij fi' j 
2 . Analyse en d (i , i ' )   
 f  f 

composante j 1 f. j  i. i '. 
principale

nij J

3 . Analyse
Où f ij 
n
et f i.  j 1
f ij
factorielle des
correspondances
2
J
1  f ij 
d (i , GI )   

f. j  f i.
 f. j 

j 1 
C’est le pourcentage que constitue les individus
tels que Y  Y j parmi les individus tels que X  X i

71
RAMCHOUN Hassan cours ADD 2021/2022
Exemple
500 entreprises décrits par :
1. Introduction à Région R1: Nord Secteur d’activité A1: Primaire
l’analyse de
données R2: Sud A2 : Secondaire
R3:Est A3 : Tertiaire
2 . Analyse en
R4: Ouest
composante
principale

3 . Analyse
factorielle des
correspondances

72
RAMCHOUN Hassan cours ADD 2021/2022
1. Introduction à
l’analyse de
données

2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

Tableau des profils lignes

2 2 2
25  1 2  25  1 6  5  1 3 
d ( R2 , R3 )            
8  2 11  7  4 11  2  4 11 
73
RAMCHOUN Hassan cours ADD 2021/2022
Profiles colonnes

1. Introduction à
l’analyse de Métrique sur les profils colonnes:
données
Soient j et j’ deux profils colonnes:
2
2 . Analyse en 1  f f 

I

composante d ( j, j ' )   ij  ij ' 


principale i 1 f i. 
 f. j f. j ' 

3 . Analyse

J
factorielle des nij
correspondances
Où f ij  et f i.  f ij
n j 1

2
1  f 

I

d ( j , GJ )   ij  f i . 
i 1 f i. 
 f. j


74
RAMCHOUN Hassan cours ADD 2021/2022
Principe de l AFC

1. Introduction à
l’analyse de
données • Principe de l’AFC:

2 . Analyse en
composante Une AFC consiste à effectuer deux ACP:
principale
1. ACP sur le tableau des profils lignes:  Individu : Modalité de X

Variable : Modalité de Y
3 . Analyse
factorielle des 2. ACP sur le tableau des profils colonnes:  Individu : Modalité de Y
correspondances 
Variable : Modalité de X
3. On aura une projection plane des profils lignes.
4. On aura une projection plane des profils colonnes
5. Une superposition des deux projections
6. Dégager les correspondances entre modalités des deux caractères.

75
RAMCHOUN Hassan cours ADD 2021/2022
Objectif
1. Introduction à
l’analyse de
données
Bien que le tableau étudié soit de nature très différente de celui étudié en ACP, les
objectifs de l’AFC peuvent s’exprimer de manière analogue à ceux de l’ACP : on
2 . Analyse en cherche à obtenir une typologie des lignes, une typologie des colonnes et à relier
composante
principale ces deux typologies entre elles ; mais la notion de ressemblance entre deux lignes,
ou entre deux colonnes, est différente de celle de l’ACP.
3 . Analyse Deux lignes sont considérées comme proches si elles s’associent de la même
factorielle des façon à l’ensemble des colonnes, c’est-à-dire si elles s’associent trop (ou trop peu)
correspondances
aux mêmes colonnes ; les termes « trop » et « trop peu » sont pris en référence à la
situation d’indépendance. Symétriquement, deux colonnes sont proches si elles
s’associent de la même façon à l’ensemble des lignes.

76
RAMCHOUN Hassan cours ADD 2021/2022
Test d’indépendance de Khi deux

1. Introduction à
l’analyse de
données
Khi deux théorique
2 . Analyse en La décision se prends en utilisant un  2 test d’hypothèse avec un seuil de
composante
principale signification de 1% , de 5% ou de 10 % On cherche la valeur critique de khi-
deux avec un degré de liberté de (I-1)(J-1)
3 . Analyse
factorielle des
correspondances

77
RAMCHOUN Hassan cours ADD 2021/2022
Test de Khi deux d’indépendance
2
Consiste à comparer le ꭓ2 lu sur la table et le ꭓ2 calculé (𝒳𝑜𝑏𝑠 ), à partir de la formule
1. Introduction à
l’analyse de suivante :
données 𝐼 𝐽 ′ 2 ni. n. j
2
𝑛 𝑖𝑗 − 𝑛 𝑖𝑗 2 n  
𝒳𝑜𝑏𝑠 = ′
= 𝑛𝜑 ij
n
𝑛𝑖𝑗
2 . Analyse en 𝑖=1 𝑗=1
composante Avec 𝑛𝑖𝑗 représente l’effectif observé et 𝑛𝑖𝑗 ′ représente l’effectif théorique
principale
Intensité de la liaison: 𝜑 2 = écart entre probabilités théoriques et observées

3 . Analyse  Principe du test de khi-deux :


factorielle des
correspondances - On propose un seuil de signification de 1%, , de 5% ou de 10 % .
- Deux hypothèse seront testés :
H0= les deux variables sont indépendantes
H1=les deux variables sont dépendantes
Nous rejetons l’hypothèse nulle (on conclut que la relation existe) si
2 2
𝒳𝑜𝑏𝑠 >> 𝒳1−𝛼;(𝐼−1)(𝐽−1)

Remarque. Il convient de noter qu’on peut aussi calculer le khi- deux tout en se
2
2 𝐼 𝐽 𝑛𝑓𝑖𝑗 −𝑛𝑓𝑖. 𝑓.𝑗 78
basant sur les fréquences. 𝒳 =
𝑜𝑏𝑠Hassan 𝑖=1
RAMCHOUN 𝑗=1 2021/2022
cours ADD 𝑛𝑓 𝑓
Test de Khi deux d’indépendance

1. Introduction à
l’analyse de
données  Ce test est significatif si la valeur du khi-deux est assez élevée avec une
probabilité inférieure au seuil de signification
2 . Analyse en
composante
principale
 On peut vérifier la significativité de ce test tout en comparant le khi-deux lu sur la
table est le khi-deux calculé. Si ce dernier est supérieur au premier, le test précité
est significatif (on rejette H0)
3 . Analyse
factorielle des
correspondances  Si ce test n’est pas significatif , l’application de l’AFC n’ a aucun sens .

79
RAMCHOUN Hassan cours ADD 2021/2022
Ecart à l’indépendance et inertie

1. Introduction à Plus les données s’écartent de l’indépendance et plus les profils s’écartent de l’origine
2
l’analyse de 𝐼 2 𝒳𝑜𝑏𝑠
données Inertie (𝑁𝐼 𝐺𝐼 ) = 𝑖=1 𝑓𝑖. 𝑑𝒳 2 𝑖, 𝐺𝐼 = = 𝜑2
𝑛

2 . Analyse en  Etudier l’inertie de NI revient à étudier l’écart à l’indépendance


composante
principale
De même pour Inertie (𝑁𝐽 𝐺𝐽 ) on a
Inertie (𝑁𝐽 𝐺𝐽 ) = Inertie ( 𝑁𝐼 𝐺𝐼 )
3 . Analyse Remarque:
factorielle des 2
𝒳𝑜𝑏𝑠
correspondances La quantité , notée 𝜑 2 , mesure l’intensité de la liaison entre deux variables
𝑛
qualitatives (cette liaison est d’autant plus intense que les modalités de l’une
s’associent exclusivement aux modalités de l’autre) et non sa significativité (elle ne
dépend pas de l’effectif total) ;
2
l’indicateur 𝒳𝑜𝑏𝑠 , lui, mesure la significativité (une liaison forte peut ne pas être
significative si elle est observée sur très peu d’individus; une liaison faible peut être
significative si elle est observée sur beaucoup d’individus).
80
RAMCHOUN Hassan cours ADD 2021/2022
Ecart à l’indépendance et inertie

1. Introduction à
l’analyse de
données

2 . Analyse en 2 n  1 2 n  2
I 1  1  I  2  2 
composante
principale
n  2
n 2

3 . Analyse
factorielle des La valeur de l’inertie est un indicateur de la dispersion des nuages de points et une
correspondances mesure de liaison entre les deux variables qualitatives encore appelée mesure d’ écart
à l’indépendance.

81
RAMCHOUN Hassan cours ADD 2021/2022
Détermination des axes factoriels

1. Introduction à
l’analyse de
La détermination des composantes principales de l’ACP se fonde sur la détermination
données des vecteurs et des valeurs propres de la matrices de corrélation .

2 . Analyse en Pour le cas de l’AFC, la détermination des axes factoriels est conditionnée par la
composante détermination des valeurs et des vecteurs propres de la matrice des distances des
principale
profils–lignes et de la matrice des distances des profils-colonnes. Les deux matrices
ont les mêmes valeurs propres non nulles.
3 . Analyse
factorielle des
correspondances

82
RAMCHOUN Hassan cours ADD 2021/2022
Matrice des profiles centrées

1. Introduction à Profiles lignes et colonnes centrées


l’analyse de
données On définit la matrice des profiles lignes centrées par L telle que
𝑓𝑖𝑗
𝑙𝑖𝑗 = − 𝑓.𝑗
2 . Analyse en 𝑓𝑖.
composante
principale
On définit la matrice des profiles colonnes centrées par C telle que
𝑓𝑖𝑗
𝑐𝑖𝑗 = − 𝑓𝑖.
Tapez une𝑓.équation
𝑗 ici.
3 . Analyse
factorielle des On obtient deux nuage de point des profiles ligne (colonne)de ℝ𝑞 et (de ℝ𝑝 )
correspondances respectivement

En ACP normée, l’inertie totale du nuage des point-individus est égale à p le nombre
de variables. En AFC, l’inertie totale du nuage des profil-lignes est égale à l’inertie
totale du nuage des profil-colonnes, et est égale au 𝒳 2 d’indépendance entre les deux
variables qualitatives :
𝒳2
Les inerties de ces deux nuage est: 𝐼 𝐿 = 𝐼 𝐶 =
𝑛

83
RAMCHOUN Hassan cours ADD 2021/2022
Facteurs principaux et composantes principales

1. Introduction à Notations
l’analyse de
données N: Matrice des fréquence
𝑋𝑟 : matrice des profils-ligneset son centre de gravité 𝑔𝑟 = (𝑓.1 , … , 𝑓.𝐽 )𝑡
2 . Analyse en 𝑋𝑐 : matrice des profils-colonnes; 𝑔𝑐 = (𝑓1. , … , 𝑓𝐼. )𝑡
composante
principale
𝐷𝑟 = 𝑑𝑖𝑎𝑔(𝑓𝑖. ); 𝐷𝑟 −1 =diag(1/𝑓𝑖. )
𝐷𝑐 = 𝑑𝑖𝑎𝑔(𝑓.𝑗 ); 𝐷𝑐 −1 =diag(1/ 𝑓.𝑗 )
3 . Analyse 𝑋𝑟 = 𝐷𝑟 −1 𝑁 Tapez une équation ici.
factorielle des 𝑋𝑐 = 𝐷𝑐 −1 𝑁 𝑡
correspondances 𝐴𝑟 = 𝑋𝑟𝑡 𝑋𝑐𝑡 est une matrice de J lignes et J colonnes
𝐴𝑐 = 𝑋𝑐𝑡 𝑋𝑟𝑡 est une matrice de I lignes et I colonnes
𝜆𝑘 𝑘 = 1, … , 𝜏 valeurs propres non nulles communes de 𝐴𝑟 et de 𝐴𝑐

Remarques: Les valeurs propres de l’une des matrices 𝐴𝑐 ou 𝐴𝑟 font partie des
valeurs propres de l’autre et les valeurs propres non nulle des deux matrices
sont égaux.
84
RAMCHOUN Hassan cours ADD 2021/2022
Relation entre vecteurs propres des profils-ligne et
profils colonnes
1. Introduction à Proposition
l’analyse de
données  Si u est un vecteur propre de 𝐴𝑟 pour 𝜆 ≠ 0 alors
1
𝑣= 𝑋𝑐𝑡 u
𝜆
2 . Analyse en
composante Est un vecteur propre de 𝐴𝑐 pour la même valeur propre 𝜆
principale
 Si 𝑢 est un vecteur propre de 𝐴𝑐 𝜆 ≠ 0 alors
Tapez une1équation ici.
3 . Analyse 𝑢= 𝑋𝑟𝑡 𝑣
𝜆
factorielle des
correspondances Est un vecteur propre de 𝐴𝑟 pour la même valeur propre 𝜆

85
RAMCHOUN Hassan cours ADD 2021/2022
Facteurs principaux et composantes principales

1. Introduction à Proposition
l’analyse de
données  Les composantes principales des profils-lignes sont les coordonnées des
vecteurs lignes de la matrice de données 𝑋𝑟 c à d 𝑐𝑘 = 𝑋𝑟 𝐷𝑐 −1 𝑢𝑘 ; 𝑘 = 1, … , 𝜏
2 . Analyse en avec 𝑢𝑘 vecteur propre de la matrice 𝐴𝑟
composante
principale
 Les composantes principales des profils-colonnes sont les coordonnées des
vecteurs colonnes de la matrice deune
Tapez données
équation à d 𝑐𝑘 = 𝑋𝑐 𝐷𝑟 −1 𝑣𝑘 ; 𝑘 =
𝑋𝑐 cici.
3 . Analyse
factorielle des 1, … , 𝜏 avec 𝑣𝑘 vecteur propre de la matrice 𝐴𝑐
correspondances
 Les facteurs principaux des profils-colonnes associés aux valeurs propres non
nulles, sont à une constante près, les composantes principales des profils-ligne
et vice-versa c a d 𝑐 = 𝜆𝐷𝑟 −1 𝑣𝑘 et 𝑐 = 𝜆𝐷𝑐 −1 𝑢𝑘

Remarque: On a 0 < 𝜆𝑘 ≤ 1 ; 𝑘 = 1, … , 𝜏

86
RAMCHOUN Hassan cours ADD 2021/2022
Facteurs principaux et composantes principales

1. Introduction à Propriétés barycentriques


l’analyse de
données Soit 𝜆1 > 𝜆2 > ⋯ > 𝜆𝜏 ≠ 0. Alors, pour tout 𝑘 ≤ 𝜏 on a
1 1
𝑐𝑘 = 𝑋𝑟 𝑐𝑘 et 𝑐𝑘 = 𝑋𝑐 𝑐𝑘
𝜆𝑘 𝜆𝑘
2 . Analyse en
composante Par conséquent
principale 𝜆𝑘 𝑐𝑘 = 𝑋𝑟 𝑋𝑐 𝑐𝑘

3 . Analyse
Autrement dit
factorielle des
1 𝐽 𝑓𝑖𝑗 1 𝐹𝑠 𝑖 : coord de la ligne i sur l’axe du rang s
correspondances 𝐹𝑠 𝑖 = 𝐺 (𝑗)= 𝑋 𝐺 de 𝑁𝐼
𝜆𝑠 𝑗=1 𝑓𝑖. 𝑠 𝜆𝑠 𝑟 𝑠
𝐼 𝑓𝑖𝑗
1 𝑓𝑖𝑗 1 : jème élément du profil i
𝑓𝑖.
𝐺𝑠 𝑗 = 𝐹𝑠 (𝑖) = 𝑋𝑐 𝐹𝑠
𝑓
𝜆𝑠 𝑖=1 .𝑗 𝜆𝑠 𝐺𝑠 𝑗 : coord. de la colonne j sur l’axe de
rang s 𝑁𝐽
𝜆𝑠 : valeur commune de l’inertie associée à
chacun de ces deux axes: inertie associée à
l’axe s
87
RAMCHOUN Hassan cours ADD 2021/2022
Contributions absolues

1. Introduction à
l’analyse de
données Les contributions absolues permettent de savoir quelles variables sont responsables
de la construction d’un axe factoriel.
2 . Analyse en
composante
principale
Contribution absolue du profil-ligne i de 𝑋𝑟 au k ème axe
2
𝑓𝑖. 𝑐𝑙𝑘 (𝑖)
CTAL i, k = 𝑖 = 1, … , 𝐼 et 𝑘 = 1, … , 𝜏 l’indice l pour désigner les
𝜆𝑘
3 . Analyse coordonnés des profils-lignes
factorielle des
correspondances
Contribution absolue du profil-colonne j de 𝑋𝑐 au k ème axe
2
𝑓.𝑗 𝑐𝑐𝑘 (𝑗)
CTAC j, k = j = 1, … , 𝐽 et 𝑘 = 1, … , 𝜏 l’indice 𝑐 pour désigner les
𝜆𝑘
coordonnés des profils-colonnes

88
RAMCHOUN Hassan cours ADD 2021/2022
Interprétations

1. Introduction à
l’analyse de
données
La valeur de l’inertie est un indicateur de la dispersion des nuages de points et une
mesure de liaison entre les deux variables qualitatives encore appelée mesure d’ écart
à l’indépendance.
2 . Analyse en
composante
principale Remarques: Sur les plans factoriels, les points éloignés de l’origine retiennent
particulièrement l’attention car ce sont les profils les plus différents du profil moyen.
3 . Analyse
factorielle des On trouve donc, pour un facteur, du même côté qu’une ligne i les colonnes j
correspondances auxquelles elle s’associe le plus et, à l’opposé, celles auxquelles elle s’associe le
moins.

Il est ainsi possible d’interpréter la position d’une ligne par rapport à l’ensemble des
colonnes, ce qui justifie l’intérêt pratique de la représentation simultanée.

89
RAMCHOUN Hassan cours ADD 2021/2022
Interprétations

1. Introduction à
l’analyse de
données Lorsqu’un tableau vérifie les relations d’indépendance, les nuages sont concentrés en
un point (leur barycentre) ; tous les profils-lignes sont identiques et égaux à la marge
2 . Analyse en ligne { f . j ; j = 1, . . . , J } et tous les profils-colonnes sont identiques et égaux à la
composante
principale
marge-colonne { f i. ; i = 1, . . . , I }. L’inertie des nuages 𝑁𝐼 et 𝑁𝐽 relativement à leur
centre de gravité est nulle et l’AFC ne donne aucun facteur (ou plutôt toute direction
est associée à une inertie projetée nulle).
3 . Analyse
factorielle des
correspondances L’inertie associée à un axe étant au maximum égale à 1, l’inertie totale en AFC
est donc comprise entre 0 (indépendance) et min { I − 1, J − 1 } (liaison d’intensité
maximum = association stricte entre les modalités des deux variables mises en corres-
pondances).

90
RAMCHOUN Hassan cours ADD 2021/2022
Démarche de l’AFC
i) justification de l’utilisation de l’AFC ( 2 variables qualitatives et les questions
1. Introduction à
l’analyse de traitées nécessitent une analyse descriptive ).
données ii) Préparation des données ( correction des données et élaboration du tableau de
contingence ) .
2 . Analyse en iii) Test de khi-deux ( pour savoir s’il y a effectivement une relation de dépendance
composante entre les caractères étudiés ).
principale
iv) détermination des axes factoriels
v) Calcul des coordonnées des modalités lignes sur les axes
3 . Analyse vi) Calcul des coordonnées des modalités colonnes sur les axes en utilisant les
factorielle des
correspondances relations de transition
vii) Calcul des contributions absolus des axes dans la variabilité des modalités lignes
et colonnes
viii) Projection simultanée des modalités lignes et colonnes dans les plans factoriels
formés par les axes retenus.
ix) Interprétation des associations (comparer les positions des points lignes et
colonnes)

91
RAMCHOUN Hassan cours ADD 2021/2022
Exemple

1. Introduction à
l’analyse de
données Utiliser la méthode AFC pour analyser les données de ce tableau de
contingence
2 . Analyse en
composante
principale

3 . Analyse
factorielle des
correspondances

92
RAMCHOUN Hassan cours ADD 2021/2022

Vous aimerez peut-être aussi