Vous êtes sur la page 1sur 110

Année Universitaire 2022-2023

Data Science
Chapitre 1 : Analyse en
Composantes Principales(ACP)

Zouaoui Slim
zou_slim@yahoo.fr
Sommaire

Analyse en composantes principales

Analyse factorielle de correspondance


anaconda.com
Méthodes de classification

modélisation linéaire simple et multiple

Analyse discriminante
cran.r-project.org
Arbre de Décision

réseaux de neurones
Deep Learning
Analyse en composantes principales

L’Analyse en Composantes Principales (ACP) a pour objectif de


résumer un ensemble de données quantitatives. Ces données sont
relatives à un grand nombre d’individus et /ou de variables illustrés
dans un tableau à n lignes (chaque ligne représente un individu de
l’échantillon étudié composé de n observations) et p colonnes. p
étant le nombre de variables quantitatives mesurées sur les n
individus. Elle permet notamment de :

Décrire et représenter le réseau d’interaction entre les variables.

Décrire et représenter les ressemblances entre les individus % à


l’ensemble des variables.
Ainsi par le biais de l’ACP, on va synthétiser l’information fournie
par les p variables et ce en construisant un certain nombre de
variables nouvelles, les composantes principales, qui sont des
combinaisons linéaires des différentes variables initiales.

I - Présentation des données :


Soit X un tableau à n lignes et p colonnes.

X1 X2 ….. Xp-1 Xp
1 x11 x21 ….. x(p-1)1 xp1
2 x12 x22 ….. x(p-1)2 xp2
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
n-1 x1(n-1) x2(n-1) ….. x(p-1)(n-1) xp(n-1)
n x1n x2n ….. x(p-1)n xpn
Exemple : considérons deux variables X1 et X2 mesurées sur cinq
individus.

Individu X1 X2 5
1 1 5 2
2 2 10
3 3 8 3 4
4 4 8
5 9 12 1

X1  3,8 ; X2  8,6
 X1  2,79 ;  X2  2,33
Les deux variables étudiées ne sont pas homogènes et de plus, elles
n’ont pas d’importances égales. Afin de remédier à ce problème, on
procède à une transformation des données et ce en déterminant les
variables centrées et réduites et telles que
~ X  X1 ~ X  X2
X1  1 et X2  2
X
X 1
2
Ainsi, les deux variables ont la même moyenne (égale à 0) et la
même variance (égale à1)

On obtient le tableau suivant :

Individu ~ ~
X1 X2
1 -1,005 -1,543
2 -0.0646 -0,06
3 -0,0287 -0,257
4 0,072 -0,257
5 1,867 1,458

Les individus seront représentés dans un nouveau repère dont


l’origine est le centre de gravité du nuage de points. On a procédé
donc à une translation de l’origine du repère passant du point o
au centre de gravité du nuage dont les coordonnées dans l’ancien
repère étaient les moyennes respectives des variables X1 et X2 .
Centrage et réduction des données
II – La détermination des facteurs et des composantes
principales :
II . 1– Covariance et coefficient de corrélation

On définit la covariance entre deux variable X et Y par :


1 n
cov( X , Y )   ( xi  x)( yi  y )
n i 1
Si cov ( , ) = 0 : les deux variables ne sont pas corrélées,
Si cov ( , ) > 0 : dépendance linéaire positive.
Si cov ( , ) < 0 : dépendance linéaire négative.

 L’appréciation de la liaison entre deux variables et la


comparaison des couples de variables n’est pas évidente avec
la covariance.
 v11 cov12 ... cov1p 
On définit la matrice de variance  1 
cov 2 v22
covariance entre les variables V  
    
 1 p 
cov p ... v p 

On définit le coefficient de corrélation linaire entre deux variable X


et Y par :
n

cov( X , Y )  ( x  x )( y
i i  y)
cor ( X , Y )   xy   i 1

var( X ) * var(Y ) n 2 n

 ( xi  x)
i 1

i 1
( yi  y ) 2

On a toujours (inégalité de Cauchy Schwarz) :


 1  cor ( X , Y )  1
1 12  1p 
On définit la matrice de  1 
 1
corrélation entre les variables Cor   2 
    
 1 
  p  1 

Cette matrice est symétrique définit et positive

Remarque
~ x ~
x 21 ~
x 31  ~
x p1 
 ~ 11 ~ ~ ~ 
On pose la matrice des données  x 12 x 22 x 32  x p2 
~ x ~
x ~ x p3 
x 33  ~
centrées et réduites ~  13 23

~ x ij  x j
X       x ij 
       σX j

      
 ~ 
 x 1n
~
x 2n ~ x pn 
x 3n  ~
1 ~ ~
Cor  tr ( X ) * ( X )
n 1
L’examen de la forme de nuage de points peut présenter un grand
intérêt pour l’étude de la structure de données et pour les relations
qui existent entre les différents points.

Un tel examen n’est plus possible si la dimension de l’espace


considéré est élevé (>3). La solution est l’analyse factorielle qui
permet une visualisation de ce nuage de points en le projetant sur un
espace de dimension réduite.
II . 2– La détermination des composantes principales :
X Y

Si on vous demande de
représenter une bouteille
que dessinerez-vous ? Y Z

Cette partie consiste à synthétiser les données contenues dans le


tableau des données transformées (centrées et réduites). Pour cela,
on construit un nombre de facteurs nouvelles C1, C2, C3, …et Cp
appelées composantes principales, permettant de saisir l’essentiel du
tableau .
; II . 2– La détermination des composantes principales :
II.2.1– Analyse de l’espace des individus
;
Exemple : considérons deux variables vitesse d’un microprocesseur et capacité
d’une disque dur mesurées sur cinq ordinateurs. Dans ce cas, on peut représenter
les cinq ordinateurs dans le plan formé par les deux variables VIT et CAP..
Individu VIT CAP 140
(GHZ) (GB) 120

1 1.3 6 100

Capacité (GB)
2 2.6 40 80

60
3 3 120
40
4 0.6 4
20
5 2.8 60
0
0 0,5 1 1,5 2 2,5 3 3,5
On a : VIT  2.06 CAP  46 Vitesse (GHZ)

 VIT  1.05  CAP  47.06

On constate que les deux variables n’ont pas le même ordre de grandeur. La
différence d’une unité de mesure sur la vitesse n’a pas la même importance que
celle d’une unité de mesure sur la capacité.
; II . 2– La détermination des composantes principales :
II.2.1– Analyse de l’espace des individus
;
on procède à une transformation des données et ce en déterminant les variables
~
centrées et réduites et on obtient le tableau X

~
X 3,0
2,5
Individu 2,0
1,5

Capacité (GB)
1 -0,724 ‐0,850
1,0
2 0,514 ‐0,127
0,5
3 0,895 1,572
0,0
4 -1,390 ‐0,892 -2,0 -1,5 -1,0 -0,5 -0,5 0,0 0,5 1,0 1,5
5 0,705 0,297
-1,0
-1,5
Vitesse (GHZ)

La seconde étape consiste à synthétiser les données contenues dans le tableau


des données transformées (centrées et réduites). Pour cela, on construit un
nombre de variables nouvelles C1, C2, C3, …et Cp appelées composantes
~
principales, permettant de saisir l’essentiel du tableau X
II . 2– La détermination des composantes principales :
II.2.1– Analyse de l’espace des individus

Dans cet espace, les n individus forment un nuage de points. L’objet de l’Analyse
en Composantes Principales est de décrire de façon synthétique la dispersion du
nuage de points.

A la première étape, l’ACP détermine l’axe D1 passant par l’origine (le centre de
gravité du nuage) selon lequel la dispersion du nuage de points est maximale.
Cet axe D1 passe au plus près du nuage de points, c'est-à-dire est tel que la
moyenne des carrés des distances entre les n points et l’axe D1 est minimale.
Soit u1 le vecteur directeur normé de D1. u1 est alors le vecteur propre normé
associé à la valeur propre la plus élevée de la matrice de corrélation entre les
variables.
Démonstration
D1
Cet axe D1 passe au plus près du nuage de points,
c'est-à-dire est tel que l’inertie entre les n points et
l’axe D1 est minimale.
Soit U le vecteur directeur normé de D1
Inertie Minimale donc Inertie expliquée maximale
La recherche d’un maximum devient un problème d’optimisation :

Soit le lagrangien définit par :

Donc U est un vecteur propre de la matrice qui est égale à la matrice de


corrélation entre les variables associé à la valeur propre λ
II . 2– La détermination des composantes principales :
Ainsi à la première étape, l’ACP fournit la meilleure représentation
unidimensionnelle possible du nuage de point mais elle s’avère insuffisante pour
décrire complètement le nuage de n points. La dispersion du nuage dans les
directions de l’espace orthogonales à D1 n’est pas décrite par cette étape.

Durant la seconde étape, l’ACP détermine un axe D2 de vecteur directeur normé


u2 orthogonal à u1 passant au plus près du nuage de points. Le vecteur u2 est le
vecteur propre normé de la matrice de corrélation associé à sa deuxième valeur
propre.

On continue ainsi de suite la procédure, afin de compléter la description du nuage


de points donnée par les deux premières étapes.

A l’étape k, l’ACP détermine l’axe Dk passant par l’origine, de vecteur directeur


normé uk orthogonal aux différents vecteurs ul (l=1, 2, 3,…, k-1) selon lequel la
dispersion du nuage de points est maximale. Cet axe Dk passe au plus près du
nuage de points.
II.2.2– Contributions des composantes principales à
l’inertie totale :

En utilisant le théorème de Huygens, on peut décomposer l’inertie


totale du nuage des individus

I G  I *  I *  .........  I *  1  1  ......   p
1 1 p

La contribution absolue de l’axe ∆k à l’inertie totale du nuage des


individus est égale à :

Contributions( k / I G )  k Valeur propre associé

Sa contribution relative est égale à :


k On emploie souvent
cr ( k / I G )  l’expression « le pourcentage
1  2  .....   p d’inertie ou d’information »
On peut étendre ces définitions à tous les sous-espaces engendrés
par les nouveaux axes. Ainsi, le pourcentage d’inertie expliqué par le
plan engendré par les deux premiers axes ∆1 et ∆2 est égal à :

1  2
cr (1   2 / I G ) 
1  2  .....   p

Ces pourcentages d’inertie sont des indicateurs qui rendent compte


de la part de variabilité du nuage des individus expliquée par ces
sous-espaces. Si les dernières valeurs propres ont des valeurs
faibles, on pourra négliger la variabilité qu’expliquent les axes
correspondants.
Reprenons l’exemple
Continuons l’exemple précédemment cité.

La matrice de corrélation entre les variables s’écrit :

1 ~ ~  1 0,84 
X' X   
n  0,84 1 

Les facteurs sont les vecteurs propres normés de cette matrice de


corrélation.
 0 ,707 
Le premier facteur associé à la valeur propre 1,84 est égal à  
 0 ,707 

tandis que le second facteur associé à la deuxième valeur propre


0,16 est égal à 
0 ,707 

  0 ,707 
Par conséquent, les composantes principales s’écrivent :
~ ~ ~ ~
C 1  0 ,707 X 1  0 ,707 X 2 C 2  0 ,707 X 1  0 ,707 X 2
Et les pourcentages de variance expliquée sont (1,84 /2) soit
91,99% pour le premier axe et (0,16 /2) soit 8,01% pour le second
axe.
Les corrélations entre les variables de départ et les composantes
principales peuvent être déterminées comme suit :

~
  C1 ; X~1  
 0,707   0,96   Cord C1 ( X 1 ) 
     
  C ; X~   1,84  0,707    0,96    Cord ( X~ ) 
 1 2      C1 2 

~
  C2 ; X~1   0, 707   0, 28    Cord ( X 1)

   0,16       C2
~ 
  C ; X~  
 2 2   0,707    0,28   Cord C2 ( X 2 ) 
Cercle de corrélation
III– La représentation des individus :

L’information pertinente est donc celle donnée par les premières


étapes. Il s’agit maintenant d’analyser simultanément les résultats
de ces premières étapes. Cette analyse se fait en établissant des
cartes de proximités entre les individus et des cartes de corrélation
entre les variables.

Pour faire la représentation des individus dans les plans définis par les
nouveaux axes, il suffit de calculer les coordonnées des individus
dans les nouveaux axes.

La lecture des graphiques est facilitée par le calcul de deux aides à


l’interprétation : la qualité de représentation d’un individu et les
contributions des individus à la variance.
C 12

III–1 Coordonnées des individus :


~
Les coordonnées de X~ 1 sont donc 0,96 et 0,28 tandis que celles de X 2
sont 0,96 et -0,28.
~ ~
X 1 et X 2 sont positivement et fortement corrélées avec la première
composante principale. Au contraire, ces deux variables sont assez
faiblement corrélées avec la seconde composante principale.
~ ~ ~ ~
Comme C1  0 ,707 X 1  0 ,707 X 2 C 2  0 ,707 X 1  0 ,707 X 2
on obtient les coordonnées des individus.

Individu C1 C2
1 -1,802 0,381
2 -0 ,032 -0,881
3 -0,385 -0,021
4 0,131 -0,233
5 2,351 0,289
III–2 La qualité de représentation des individus :
Dans l’espace des individus, on dispose de deux bases : la base
d’origine : dans cette base les coordonnées de l’individu i sont ~xi1 ~xi2
~
,… x.ip .Et la base orthonormées constituée par les p facteurs : dans
cette base les coordonnées de l’individu i sont y i1 , y i2 , … y ip

Le carré de la distance de l’individu i au centre du nuage est égal à


p p
~
 ij en effectuant les calculs avec la première base et
x
j1
2
 ij
y 2

j 1
p p
~
en effectuant les calculs avec la seconde base et donc  ij  ij

2 2
x y
j1 j1

La qualité de représentation de l’individu i sur l’axe ∆k est


yik2 yik2 Cette qualité de représentation est égale au
donc mesurée par p
 p carré du cosinus de l’angle entre le vecteur
 ~x
j 1
2
ij  ij
y 2

j 1
représentatif du point i et le vecteur directeur
de l’axe ∆k.
III–3 Les contributions des individus à la variance :

La variance expliquée à l’étape r est égale à la valeur propre λ r


n


1
qui est égale à c ri2
n i 1

1 2
La part de cette variance due à l’individu i est : c ri
n
La contribution de l’individu i à la variance de l’axe r est donc
mesurée par :
1 2 1 2
c ri c ri
n n c ri2
n
 
λr nλr

1
c ri2
n i 1
Pour un axe donné la somme des contributions de tous les
individus est égale à 100%. Si la contribution d’un individu à un
axe donné est importante, ceci signifie que cet individu joue un
rôle important dans la construction de cet axe.

Reprenons l’exemple

Pour faciliter l’interprétation des résultats calculons maintenant,


la qualité de représentation de chaque individu pour chacun des
deux axes, à partir des coordonnées de chaque individu sur ces
deux axes.
Pour l’individu 4, par exemple, la qualité de représentation est :

( 0 ,131 ) 2
Axe1 :  0 ,24
( 0 ,072 )  ( 0 ,257 )
2 2

( 0 ,233 ) 2
Axe 2 :  0 ,76
( 0 ,072 )  ( 0 ,257 )
2 2

Pour ce même individu 4, la contribution à la variance est :


( 0 ,131 ) 2
Axe1 :  0 ,002
5( 1,788 )

( 0 ,233 )2
Axe 2 :  0 ,051
5( 0 ,212 )
Et on obtient pour l’ensemble des individus les tableaux suivants :

Qualité de représentation Contribution à la


Individu Axe1 Axe 2 Total variance
1 0,96 0,04 1 Individu Axe1 Axe 2
2 0,01 0,99 1 1 0,36 0,14
3 0,99 0,01 1 2 0,00 0,73
4 0,24 0,76 1
3 0,02 0,00
5 0,98 0,02 1
4 0,00 0,05
5 0,62 0,08
Total 1 1

Les individus 1 et 5 sont ceux qui contribuent le plus fortement à la variance sur
le premier axe. Sur cet axe, ils s’opposent, puisque l’individu 1 est à gauche de
l’axe et l’individu 5 à la droite de l’axe. L’interprétation est simple : le premier
~ ~
axe est lié fortement aux variables X 1 et X 2 et représente « la taille » des
individus : les individus 1 et 5 sont ceux qui connaissent des valeurs extrêmes à la
~ ~
X
fois pour 1 et X 2 , petites pour l’individu 1 et grandes pour l’individu 5.
Notons que l’individu 3 est presque parfaitement représenté sur
l’axe 1 : sa position correspond aux valeurs qu’il prend pour
~
variables 1 et X~ 2 c'est-à-dire légèrement en dessous de la moyenne
X
pour chacune des deux variables.

C’est l’individu 2 qui contribue à la variance de l’axe 2 ; en fait, cet


~
axe est lié positivement à X~ 1 et négativement à X 2 et la position de
~
X
l’individu 2 est due à la faible valeur qu’il prend pour 1 par
~
rapport à la forte valeur prise par X 2 . A l’opposé, l’individu 4, bien
~
représenté sur le second axe, doit sa position à une valeur de X 1
~
relativement forte par rapport à la valeur prise par X 2 .
OBJECTIFS – ÉTUDES DES variables

•Réseau d’interaction
Ressemblance
entre les variables

•Détection des
Informations
indicateurs
synthétiques

Corrélations
•Regroupement
des variables
OBJECTIFS – ÉTUDES DES INDIVIDUS
•Groupes
Typologie
d’individus
homogènes

•Du point de vue


Ressemblance des variables

•Du point de vue


Différence des variables
TP 1 - Analyse en Composantes Principales
(ACP)

On dispose de 6 variables continues observées sur 20 voitures. On va présenter


dans la suite la liste des variables :nom du véhicule, longueur (m), largeur (m),
hauteur (m), puissance (chevaux), vitesse maxi (Km/h), 0 à 100 km (secondes)

A partir de ces données, il vous est demandé de faire une analyse en composantes
principales :

1- A partir de la matrice des corrélations, peut-on induire des liaisons entre les
variables continues.
2- En prenant en compte les corrélations variables-facteurs et le graphique du
cercle des corrélations, donnez une interprétation du premier et deuxième axe
factoriel.
3- Vous appuyant sur les contributions et cos2 des observations (véhicules) ainsi
que la carte des individus sur le premier plan factoriel interpréter la distribution
des véhicules dans ce plan factoriel.
Analyse en Composantes Principales avec SPAD

TP voiture (Sortie Logiciel SPAD)


+-------------------------------------------------------+----------------------+----------------------+
| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM |
+-------------------------------------------------------+----------------------+----------------------+
| 2 . C2 - longueur 20 20.00 | 4.37 0.36 | 3.61 4.88 |
| 3 . C3 - largeur 20 20.00 | 1.75 0.05 | 1.64 1.86 |
| 4 . C4 - hauteur 20 20.00 | 1.47 0.10 | 1.29 1.75 |
| 5 . C5 - puissance 20 20.00 | 135.20 52.49 | 65.00 250.00 |
| 6 . C6 - vitesse maxi 20 20.00 | 198.20 26.43 | 161.00 250.00 |
| 7 . C7 - 0 100km 20 20.00 | 10.55 2.27 | 5.90 14.80 |
+-------------------------------------------------------+----------------------+----------------------+

MATRICE DES CORRELATIONS


| C2 C3 C4 C5 C6 C7
-----+------------------------------------------
C2 | 1.00
C3 | 0.84 1.00
C4 | 0.30 0.29 1.00
C5 | 0.27 0.41 -0.45 1.00
C6 | 0.17 0.27 -0.61 0.95 1.00
C7 | -0.01 -0.16 0.64 -0.87 -0.96 1.00
-----+------------------------------------------
Analyse en Composantes Principales avec SPAD
VALEURS PROPRES
APERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 6.0000
SOMME DES VALEURS PROPRES ........6.0000
HISTOGRAMME DES 6 PREMIERES VALEURS PROPRES
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| NUMERO | VALEUR | POURCENT.| POURCENT.| |
| | PROPRE | | CUMULE | |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+
| 1 | 3.3569 | 55.95 | 55.95 | ******************************************************************************** |
| 2 | 2.0499 | 34.17 | 90.11 | ************************************************* |
| 3 | 0.3612 | 6.02 | 96.13 | ********* |
| 4 | 0.1365 | 2.28 | 98.41 | **** |
| 5 | 0.0872 | 1.45 | 99.86 | *** |
| 6 | 0.0083 | 0.14 | 100.00 | * |
+--------+------------+----------+----------+----------------------------------------------------------------------------------+

COORDONNEES DES VARIABLES SUR LES AXES 1 A 5 VARIABLES ACTIVES


----------------------------+------------------------------------+-------------------------------+------------------------------- VARIABLES
| COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES
----------------------------+------------------------------------+-------------------------------+------------------------------- IDEN -
LIBELLE COURT | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5
----------------------------+------------------------------------+-------------------------------+-------------------------------
C2 - longueur | -0.23 -0.91 -0.28 0.21 -0.03 | -0.23 -0.91 -0.28 0.21 -0.03 | -0.13 -0.63 -0.46 0.58 -0.12
C3 - largeur | -0.35 -0.89 -0.03 -0.28 -0.01 | -0.35 -0.89 -0.03 -0.28 -0.01 | -0.19 -0.62 -0.05 -0.75 -0.03
C4 - hauteur | 0.62 -0.61 0.48 0.08 -0.04 | 0.62 -0.61 0.48 0.08 -0.04 | 0.34 -0.43 0.79 0.23 -0.13
C5 - puissance | -0.95 -0.11 0.18 0.04 0.21 | -0.95 -0.11 0.18 0.04 0.21 | -0.52 -0.07 0.30 0.10 0.71
C6 - vitesse maxi | -0.99 0.06 0.07 0.08 -0.02 | -0.99 0.06 0.07 0.08 -0.02 | -0.54 0.04 0.12 0.21 -0.08
C7 - 0_ 100km | 0.95 -0.20 -0.14 0.01 0.20 | 0.95 -0.20 -0.14 0.01 0.20 | 0.52 -0.14 -0.23 0.03 0.68
----------------------------+------------------------------------+-------------------------------+-------------------------------
Analyse en Composantes Principales avec SPAD

Cercle de corrélation
Analyse en Composantes Principales avec SPAD
Analyse en Composantes Principales avec SPAD
Projection des individus dans le premier plan factoriel
> voit = read.table("voitures.txt", header=T,sep="\t")
> Fix(voit)
> voiture=voit[,-1]
> voiture_cr=scale(voiture)
> fix(voiture_cr)
> M=(1/19)*t(voiturecr)%*%(voiturecr)
> fix(M)

> C=cor(voit)
> fix(C)

M=C
> install.packages(c("FactoMineR", "factoextra"))
> library("FactoMineR")
> library("factoextra")

Plusieurs fonctions, de différents packages, sont disponibles dans le


logiciel R pour le calcul de l’ACP:
 prcomp() et princomp() [fonction de base, package stats],
 PCA() [package FactoMineR],
 dudi.pca() [package ade4],
 epPCA() [package ExPosition]
Peu importe la fonction que vous décidez d’utiliser, vous pouvez
facilement extraire et visualiser les résultats de l’ACP en utilisant les
fonctions R fournies dans le package factoextra.

Ici, nous utiliserons les deux packages FactoMineR (pour l’analyse)


et factoextra (pour la visualisation, des données, basée sur ggplot2).
> res=PCA(voiture_cr, scale.unit = TRUE, ncp = 6, graph = TRUE)
> summary(res)
> Print(res)
Cercle de corrélation : Variables factor map (PCA)
Projection des individus dans le premier plan factoriel :
Individuals factor map (PCA)
Analyse en Composantes Principales avec Python
Analyse en Composantes Principales avec Python
Analyse en Composantes Principales avec Python
Année Universitaire 2022-2023

Data Science
Chapitre 2 : Analyse Factorielle
des Correspondances (AFC)

Zouaoui Slim
zou_slim@yahoo.fr
Sommaire
Analyse en composantes principales

Analyse factorielle de correspondance


Méthodes de classification

modélisation linéaire simple et multiple cran.r-project.org

Analyse discriminante

Arbre de Décision

réseaux de neurones
anaconda.com
Deep Learning
Analyse Factorielle des Correspondances (AFC)

Deux variables qualitatives :


L'analyse factorielle des correspondances (AFC) est une méthode exploratoire
d'analyse des tableaux de contingences, c'est-à-dire aux tableaux de comptages
obtenus par le croisement de deux variables qualitatives.

Le tableau de contingence suivant indique la répartition, en fonction de la


Catégorie et les classes d'âge de 1000 employés dans une entreprise

Variable en ligne : Age


- < 30 ans
- [ 30 ; 45[
- [ 45 ; 60 [
Variable en colonne : Catégorie
- Ouvriers
- Techniciens
- Cadres
Analyse Statistique : Tableau de Contingence

Tableau de contingence en Effectif


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 300 50 100 450
[ 30 ; 45 [ 250 80 20 350
[45 ; 60 [ 50 120 30 200
Total 600 250 150 1000

Tableau de contingence en pourcentages


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Analyse Statistique : Tableau de Contingence

Tableau de contingence en fréquence


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,05 0,12 0,03 0,20
Total 0,60 0,25 0,15 1,00

Tableau de contingence en pourcentages


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 30,0% 5,0% 10,0% 45,0%
[ 30 ; 45 [ 25,0% 8,0% 2,0% 35,0%
[45 ; 60 [ 5,0% 12,0% 3,0% 20,0%
Total 60,0% 25,0% 15,0% 100,0%
Á l’intersection d’une ligne et d’une colonne, nous avons le nombre kij
d’employés ayant simultanément la classe d'âge i et la catégorie j. Le total
marginal ki. est le nombre des employés ayant la classe d'âge i, alors que le total
marginal k.j est le nombre des employés ayant la catégorie j.

Qui, en termes de fréquences relatives, donnent lieu aux relations :

On se propose d’étudier les éventuelles relations existant entre ces deux


variables nominales. Donc on pose la question :

Y-a-t-il indépendance entre la classe d'âge et la catégorie de des


employés ? Sinon, quels types d’associations existent entres ces deux variables
qualitatives.
Analyse Statistique : Profils lignes et colonnes

Tableau de Profils lignes


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 66,7 11,1 22,2 100
[ 30 ; 45 [ 71,4 22,9 5,7 100
[45 ; 60 [ 25,0 60,0 15,0 100
Total 60,0 25,0 15,0 100

Tableau de Profils colonnes


Catégories
Age
Ouvriers techniciens Cadre Total
< 30 ans 50,0 20,0 66,7 45,0
[ 30 ; 45 [ 41,7 32,0 13,3 35,0
[45 ; 60 [ 8,3 48,0 20,0 20,0
Total 100 100 100 100
Analyse Bidimensionnelle entre deux variables
qualitatives
Hypothèse d’indépendance :

Tableau de fréquences théoriques Tableau de fréquences empiriques

Ouvriers techniciens Cadre Total Ouvriers techniciens Cadre Total

< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35

[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2

Total 0,60 0,25 0,15 1 Total 0,60 0,25 0,15 1

Naturellement, même sous l’hypothèse d’indépendance, une telle relation n’est


qu’approximativement vraie. Le classique test deux χ2 pour les tables de
contingence permet précisément d’apprécier l’écart entre les lois empiriques fij et
fi. * f.j
Hypothèse d’indépendance :
Le test de χ2 est définit par :

H0 : Les deux variables sont indépendantes

H1 : Les deux variables sont dépendantes

La statistique du test est définie par :

d2=
n
N .
p f ij  f i. f. j 
2

d 2   2  
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre 
 s’appelle le nombre de degrés de liberté avec :
 = (nombre de modalités de la première variable -1) x
(nombre de modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque
d’erreur α si d2 est supérieur à la valeur critique dans la table de
χ2 à (n-1)*(p-1) degré de liberté .

AN : d2 = 214.5 χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49


d2 >> χ2 4  on accepte H1  Les deux variables sont
dépendantes
Hypothèse d’indépendance :

χ2 (n-1)(p-1) = χ2 (3-1)*(3-1) = χ2 4 = 9.49

95%

5%
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des
coordonnées d'un point dans un espace à q dimensions. On obtient ainsi le nuage des
individus-lignes. On définit de même le nuage des individus-colonnes à partir du
tableau des fréquences colonnes.

On s'intéresse alors aux directions de "plus grande dispersion" de chacun de ces


nuages de points. Mais, pour mesurer la "distance" entre deux individus. La distance
euclidienne usuelle entre deux profils-lignes traduit bien la ressemblance
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:

Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
Catégorie « ouvrier ».
Pour remédier à cela, on pondère chaque écart par l’inverse de la masse de la colonne et l’on
calcule une nouvelle distance appelée la distance du χ2 :

On définit de la même manière la distance entre les profils-colonnes par :


AFC : Association entre les modalités
Construction des nuages

Pour l’analyse d’un tableau de contingence, nous raisonnerons en termes de profils, ce


qui permet de rendre comparables les modalités d’une même variable.

Nuage des n lignes


L’ensemble des profils-lignes forme un nuage de n points dans l’espace des p colonnes et
représente ici le nuage des 3 modalités classes d'âge. Chaque point i a pour coordonnées dans
IRp {fij /fi. ; j = 1…..p}

Nuage des p colonnes


De la même façon, l’ensemble des p profils colonnes constitue un nuage de p points dans
l’espace de n lignes et représente ici le nuage de 3 modalités des catégories des employés. Les
coordonnées dans IRn du point j sont données par : {fij /f.j; j = 1…..n}
Association entre les modalités
Représentation Simultanée
Construction des nuages

Le tableau de données (tableau de contingence) subit deux transformations, l’une en profils-lignes, l’autre
en profils-colonnes, à partir desquelles vont être construits les nuages de points dans IRn et IRp.

Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
Association entre les modalités
Représentation Simultanée
Construction des nuages
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :

- Les deux modalités Cadre et < 30 ans s’approchent,


- La catégorie la plus proche de la classe d'âge [45,60[ est « techniciens »
Exemple pratique de AFC sous Python
Année Universitaire 2022-2023

Data Science
Chapitre 3 : Les méthodes de classification
non supervisées
(K_Means, CAH, classification mixte)

Zouaoui Slim
zou_slim@yahoo.fr
Sommaire
Analyse en composantes principales

Analyse factorielle de correspondance

Méthodes de classification
modélisation linéaire simple et multiple cran.r-project.org

Analyse discriminante

Arbre de Décision

réseaux de neurones
anaconda.com
Deep Learning
Classification non supervisée : hiérarchique,
non hiérarchique et mixte

La classification a pour but de regrouper des individus en classes homogènes en fonction de


l’étude de certaines caractéristiques des individus. Par classes homogènes, on entend regrouper
les individus qui se ressemblent et séparer ceux qui sont éloignés.

Il y a alors deux approches distinctes :


– La classification automatique, qui fonctionne selon des algorithmes formalisés ;
– La classification subjective. Celle-ci est effectuée par les praticiens, en fonction de leurs
études qualitatives et de leurs intuitions.

Comme souvent dans l’analyse de données, les meilleures solutions se trouveront dans une
combinaison des deux approches. Dans ce cours, nous aborderons uniquement la classification
automatique.
Introduction
La classification automatique se divise en deux catégories :

La classification automatique hiérarchique : il s’agit d’effectuer une partition de classes de


plus en plus vaste (classification hiérarchique ascendante) ou de moins en moins vaste
(classification automatique descendante). Nous développerons l’algorithme de la classification
hiérarchique ascendante.

La classification automatique non-hiérarchique. Dans ce cas, le nombre de classes de la


partition est fixé en avance. La méthode des centres mobiles illustrera cette approche. La
généralisation de cette méthode, que nous n’introduirons pas ici, conduit à la méthode des
nuées dynamiques.
Les Notions
Matrice des distances

Pour un nuage d’individus, on peut résumer l’ensemble des distances entre individus au sein d’une matrice
des distances que l’on note D. Chaque coefficient dij représente la distance
entre l’individu Ii et l’individu Ij . Par exemple, si l’on choisit comme critère de ressemblance la distance
euclidienne, on a dij = d(Ii,Ij) = .
Avec deux points (I1,I2) qui ont 2 variables uniquement : (x1, y1) et (x2, y2).
I1 I2 I3 . . . In‐1 In
I1 0 d(I1,I2) d(I1,I3) d(I1,In‐1) d(I1,In)
I2 d(I1,I2) 0
I3 d(I1,I3) 0
. 0
. 0
. 0
In‐1 d(I1,In‐1) 0 d(In‐1,In)
In d(I1,In) d(In‐1,In) 0

Une matrice de distances est une matrice carré, symétrique (dij = dji), de coefficients
positifs (dij ≥ 0) et de coefficients nuls sur la diagonale (dii = d(Ii,Ii) = 0).
Les Notions
La notion d’Inertie

Soit une classification en k groupes d'effectifs n1, ... ,nk, les individus étant des points d'un
espace euclidien. Notons les groupes G1, ... ,Gk, et g1, ... ,gk leurs centres de gravité (gest le
centre de gravité du nuage).
Les Notions

Une partition pour être bonne doit satisfaire les deux critères suivants :
– Les individus proches doivent être regroupés : chaque classe doit être le plus homogène
possible.
– Les individus éloignés doivent être séparé : les classes de la partition doivent être éloignées
les unes des autres.

L’inertie est une mesure de l’homogénéité d’un ensemble de points (nuage ou classe). Une
classe (ou un nuage) sera d’autant plus homogène que son inertie totale sera faible.

L’inertie intraclasse mesure l’homogénéité de l’ensemble des classes. Plus l’inertie


intraclasse est faible, plus la partition est composée de classes homogènes.

L’inertie interclasse mesure la séparation entre les classes d’une partition. Plus l’inertie
interclasse est grande plus les classes sont distinctement séparées.
Théorème de Huygens :

Inertie totale = Inertie inter-classe + Inertie intra-classe


Itot = Iinter + Iintra

Choix de la méthode de classification


Principe Algorithmique

Entrée : k le nombre de groupes cherchés

DEBUT
Choisir aléatoirement les centres des groupes

REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
ii. Recalculer le centre de chaque groupe

JUSQU‘A (stabilisation des centres)


OU (nombre d'itérations =t)

FIN
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
Le processus se stabilise nécessairement et l’algorithme s’arrête soit lorsque deux itérations
successives conduisent à la même partition, soit lorsqu’un critère convenablement choisi (par
exemple, la mesure de la variance intra-classes) cesse de décroître de façon sensible, soit
encore parce qu’un nombre maximal d’itérations a été fixé à priori.
Généralement, la partition obtenue finalement dépend du choix initial des centres.

Justification élémentaire de l’algorithme

La variance intra-classes ne peut que décroître (Ou rester stationnaire) entre l’étape m et
l’étape m+1. Des règles d’affectation permettent de faire en sorte que cette décroissance soit
stricte et donc de conclure à la convergence de l’algorithme puisque l’ensemble de départ I est
fini.
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification hiérarchique
(classification hiérarchique ascendante)
Le principe de l’algorithme consiste à créer, à chaque étape, une partition obtenue en agrégeant
deux a deux les éléments les plus proches. On désignera alors par éléments à la fois les
individus et les regroupements d’individus générés par l’algorithme. Il y a différentes manières
de considérer le nouveau couple d’éléments agrégés, d’ou un nombre important de variante de
cette technique.
L’algorithme ne fournit pas une partition en q classes
d’un ensemble de n objets mais une hiérarchie
de partition, se présentant sous la forme d’arbres
appelés également dendrogrammes
et contenant n-1 partitions.
L’intérêt de ces arbres est qu’ils peuvent donner
une idée du nombre de classes existant
effectivement dans la population.
La classification hiérarchique
(classification hiérarchique ascendante)

Distance entre éléments et entre groupes


On suppose au départ que l’ensemble des individus à classer est muni d’une distance. On
construit alors une première matrice de distances entre tous les individus.
Une fois constitué un groupe d’individus, il convient de se demander ensuite sur quelle base on
peut calculer une distance entre un individu et un groupe et par la suite une distance entre deux
groupes. Ceci revient à définir une stratégie de regroupements des éléments, c’est-à-dire se
fixer des règles de calcul des distances entre groupements disjoints d’individus, appelées
critères d’agrégation. Cette distance entre groupements pourra en général se calculer
directement à partir des distances des différents éléments impliqués dans le regroupement.
La classification hiérarchique
(classification hiérarchique ascendante)
Par exemple si x, y, z sont trois objets, et si les objets x et y sont regroupés en un seul élément
noté h, on peut définir la distance de ce groupement à z par la plus petite distance des divers
éléments de h à z :
d(h,z) = Min {d(x,z), d(y,z) }
Cette distance s’appelle le saut minimal (single linkage) (Sneath,1957 Johnson,1967) et
constitue un critère d’agrégation.
On peut également définir la distance du saut maximal (ou : Diamètre) en prenant la plus
grande distance des divers éléments de h à z :
d(h,z) = Max {d(x,z), d(y,z)}
Une autre règle simple et fréquemment employée est celle de la distance moyenne; pour deux
objets x et y regroupés en h :
d(h, z) = {d(x, z) + d(y, z)} / 2
La classification hiérarchique
(classification hiérarchique ascendante)
Algorithme de classification
L’algorithme fondamental de classification ascendante hiérarchique se déroule de la façon
suivante :

Étape 1 : il y a n éléments à classer (qui sont les n individus);

Étape 2 : on construit la matrice de distances entre les n éléments et l’on cherche les deux
plus proches, que l’on agrège en un nouvel élément. On obtient une première partition à n-1
classes;

Étape 3 : on construit une nouvelle matrice des distances qui résultent de l’agrégation, en
calculant les distances entre le nouvel élément et les éléments restants (les autres distances
sont inchangées). On se trouve dans les mêmes conditions qu’à l’étape 1, mais avec
seulement n-1 éléments à classer et en ayant choisi un critère d’agrégation. On cherche de
nouveau les deux éléments les plus proches, que l’on agrège. On obtient une deuxième
partition avec n-2 classes et qui englobe la première.

Étape m : on calcule les nouvelles distances jusqu’à n’avoir plus qu’un seul élément
regroupant tous les objets et qui constitue la dernière partition.
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Coupure du Dendrogramme
La classification hiérarchique
(classification hiérarchique ascendante)
Critère d’agrégation selon la variance

A l’étape initiale, l’inertie Intra-classes est nulle et l’inertie inter-classes est égale à l’inertie
totale du nuage puisque chaque élément terminal constitue à ce niveau une classe. A l’étape
finale, c’est l’inertie inter-classes qui est nulle et l’inertie intra-classes est équivalente à
l’inertie totale puisque l’on dispose à ce niveau d’une partition en une seule classe. Par
conséquent, au fur et à mesure que l’on effectue des regroupements, l’inertie intra-classes
augmente et l’inertie inter-classes diminue.

Le principe de l’algorithme d’agrégation selon la variance consiste à rechercher à chaque


étape une partition telle que la variance interne de chaque classe soit minimale et par
conséquent la variance entre les classes soit maximale.
La classification hiérarchique
(classification hiérarchique ascendante)
Exercice Application
La classification hiérarchique
(classification hiérarchique ascendante)
Exercice Application
La classification Mixte
Principe de la classification mixte

L’algorithme de classification mixte procède en


trois phases: l’ensemble des éléments à classer
subit un partitionnement initial (centres mobiles)
de façon à obtenir quelques dizaines, voire
quelques centaines de groupes homogènes; on
procède ensuite à une agrégation hiérarchique de
ces groupes, dont le dendrogramme suggérera
éventuellement le nombre de classes finales à
retenir; et enfin, on optimise (encore par la
technique des centres mobiles) la ou les partitions
correspondant aux coupures choisies de l’arbre.
K_Means avec Python
CAH avec Python
CAH avec Python

Vous aimerez peut-être aussi