Académique Documents
Professionnel Documents
Culture Documents
Data Science
Chapitre 1 : Analyse en
Composantes Principales(ACP)
Zouaoui Slim
zou_slim@yahoo.fr
Sommaire
Analyse discriminante
cran.r-project.org
Arbre de Décision
réseaux de neurones
Deep Learning
Analyse en composantes principales
X1 X2 ….. Xp-1 Xp
1 x11 x21 ….. x(p-1)1 xp1
2 x12 x22 ….. x(p-1)2 xp2
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
n-1 x1(n-1) x2(n-1) ….. x(p-1)(n-1) xp(n-1)
n x1n x2n ….. x(p-1)n xpn
Exemple : considérons deux variables X1 et X2 mesurées sur cinq
individus.
Individu X1 X2 5
1 1 5 2
2 2 10
3 3 8 3 4
4 4 8
5 9 12 1
X1 3,8 ; X2 8,6
X1 2,79 ; X2 2,33
Les deux variables étudiées ne sont pas homogènes et de plus, elles
n’ont pas d’importances égales. Afin de remédier à ce problème, on
procède à une transformation des données et ce en déterminant les
variables centrées et réduites et telles que
~ X X1 ~ X X2
X1 1 et X2 2
X
X 1
2
Ainsi, les deux variables ont la même moyenne (égale à 0) et la
même variance (égale à1)
Individu ~ ~
X1 X2
1 -1,005 -1,543
2 -0.0646 -0,06
3 -0,0287 -0,257
4 0,072 -0,257
5 1,867 1,458
cov( X , Y ) ( x x )( y
i i y)
cor ( X , Y ) xy i 1
var( X ) * var(Y ) n 2 n
( xi x)
i 1
i 1
( yi y ) 2
Remarque
~ x ~
x 21 ~
x 31 ~
x p1
~ 11 ~ ~ ~
On pose la matrice des données x 12 x 22 x 32 x p2
~ x ~
x ~ x p3
x 33 ~
centrées et réduites ~ 13 23
~ x ij x j
X x ij
σX j
~
x 1n
~
x 2n ~ x pn
x 3n ~
1 ~ ~
Cor tr ( X ) * ( X )
n 1
L’examen de la forme de nuage de points peut présenter un grand
intérêt pour l’étude de la structure de données et pour les relations
qui existent entre les différents points.
Si on vous demande de
représenter une bouteille
que dessinerez-vous ? Y Z
1 1.3 6 100
Capacité (GB)
2 2.6 40 80
60
3 3 120
40
4 0.6 4
20
5 2.8 60
0
0 0,5 1 1,5 2 2,5 3 3,5
On a : VIT 2.06 CAP 46 Vitesse (GHZ)
On constate que les deux variables n’ont pas le même ordre de grandeur. La
différence d’une unité de mesure sur la vitesse n’a pas la même importance que
celle d’une unité de mesure sur la capacité.
; II . 2– La détermination des composantes principales :
II.2.1– Analyse de l’espace des individus
;
on procède à une transformation des données et ce en déterminant les variables
~
centrées et réduites et on obtient le tableau X
~
X 3,0
2,5
Individu 2,0
1,5
Capacité (GB)
1 -0,724 ‐0,850
1,0
2 0,514 ‐0,127
0,5
3 0,895 1,572
0,0
4 -1,390 ‐0,892 -2,0 -1,5 -1,0 -0,5 -0,5 0,0 0,5 1,0 1,5
5 0,705 0,297
-1,0
-1,5
Vitesse (GHZ)
Dans cet espace, les n individus forment un nuage de points. L’objet de l’Analyse
en Composantes Principales est de décrire de façon synthétique la dispersion du
nuage de points.
A la première étape, l’ACP détermine l’axe D1 passant par l’origine (le centre de
gravité du nuage) selon lequel la dispersion du nuage de points est maximale.
Cet axe D1 passe au plus près du nuage de points, c'est-à-dire est tel que la
moyenne des carrés des distances entre les n points et l’axe D1 est minimale.
Soit u1 le vecteur directeur normé de D1. u1 est alors le vecteur propre normé
associé à la valeur propre la plus élevée de la matrice de corrélation entre les
variables.
Démonstration
D1
Cet axe D1 passe au plus près du nuage de points,
c'est-à-dire est tel que l’inertie entre les n points et
l’axe D1 est minimale.
Soit U le vecteur directeur normé de D1
Inertie Minimale donc Inertie expliquée maximale
La recherche d’un maximum devient un problème d’optimisation :
I G I * I * ......... I * 1 1 ...... p
1 1 p
1 2
cr (1 2 / I G )
1 2 ..... p
1 ~ ~ 1 0,84
X' X
n 0,84 1
~
C1 ; X~1
0,707 0,96 Cord C1 ( X 1 )
C ; X~ 1,84 0,707 0,96 Cord ( X~ )
1 2 C1 2
~
C2 ; X~1 0, 707 0, 28 Cord ( X 1)
0,16 C2
~
C ; X~
2 2 0,707 0,28 Cord C2 ( X 2 )
Cercle de corrélation
III– La représentation des individus :
Pour faire la représentation des individus dans les plans définis par les
nouveaux axes, il suffit de calculer les coordonnées des individus
dans les nouveaux axes.
Individu C1 C2
1 -1,802 0,381
2 -0 ,032 -0,881
3 -0,385 -0,021
4 0,131 -0,233
5 2,351 0,289
III–2 La qualité de représentation des individus :
Dans l’espace des individus, on dispose de deux bases : la base
d’origine : dans cette base les coordonnées de l’individu i sont ~xi1 ~xi2
~
,… x.ip .Et la base orthonormées constituée par les p facteurs : dans
cette base les coordonnées de l’individu i sont y i1 , y i2 , … y ip
j 1
p p
~
en effectuant les calculs avec la seconde base et donc ij ij
2 2
x y
j1 j1
j 1
représentatif du point i et le vecteur directeur
de l’axe ∆k.
III–3 Les contributions des individus à la variance :
1
qui est égale à c ri2
n i 1
1 2
La part de cette variance due à l’individu i est : c ri
n
La contribution de l’individu i à la variance de l’axe r est donc
mesurée par :
1 2 1 2
c ri c ri
n n c ri2
n
λr nλr
1
c ri2
n i 1
Pour un axe donné la somme des contributions de tous les
individus est égale à 100%. Si la contribution d’un individu à un
axe donné est importante, ceci signifie que cet individu joue un
rôle important dans la construction de cet axe.
Reprenons l’exemple
( 0 ,131 ) 2
Axe1 : 0 ,24
( 0 ,072 ) ( 0 ,257 )
2 2
( 0 ,233 ) 2
Axe 2 : 0 ,76
( 0 ,072 ) ( 0 ,257 )
2 2
( 0 ,233 )2
Axe 2 : 0 ,051
5( 0 ,212 )
Et on obtient pour l’ensemble des individus les tableaux suivants :
Les individus 1 et 5 sont ceux qui contribuent le plus fortement à la variance sur
le premier axe. Sur cet axe, ils s’opposent, puisque l’individu 1 est à gauche de
l’axe et l’individu 5 à la droite de l’axe. L’interprétation est simple : le premier
~ ~
axe est lié fortement aux variables X 1 et X 2 et représente « la taille » des
individus : les individus 1 et 5 sont ceux qui connaissent des valeurs extrêmes à la
~ ~
X
fois pour 1 et X 2 , petites pour l’individu 1 et grandes pour l’individu 5.
Notons que l’individu 3 est presque parfaitement représenté sur
l’axe 1 : sa position correspond aux valeurs qu’il prend pour
~
variables 1 et X~ 2 c'est-à-dire légèrement en dessous de la moyenne
X
pour chacune des deux variables.
•Réseau d’interaction
Ressemblance
entre les variables
•Détection des
Informations
indicateurs
synthétiques
Corrélations
•Regroupement
des variables
OBJECTIFS – ÉTUDES DES INDIVIDUS
•Groupes
Typologie
d’individus
homogènes
A partir de ces données, il vous est demandé de faire une analyse en composantes
principales :
1- A partir de la matrice des corrélations, peut-on induire des liaisons entre les
variables continues.
2- En prenant en compte les corrélations variables-facteurs et le graphique du
cercle des corrélations, donnez une interprétation du premier et deuxième axe
factoriel.
3- Vous appuyant sur les contributions et cos2 des observations (véhicules) ainsi
que la carte des individus sur le premier plan factoriel interpréter la distribution
des véhicules dans ce plan factoriel.
Analyse en Composantes Principales avec SPAD
Cercle de corrélation
Analyse en Composantes Principales avec SPAD
Analyse en Composantes Principales avec SPAD
Projection des individus dans le premier plan factoriel
> voit = read.table("voitures.txt", header=T,sep="\t")
> Fix(voit)
> voiture=voit[,-1]
> voiture_cr=scale(voiture)
> fix(voiture_cr)
> M=(1/19)*t(voiturecr)%*%(voiturecr)
> fix(M)
> C=cor(voit)
> fix(C)
M=C
> install.packages(c("FactoMineR", "factoextra"))
> library("FactoMineR")
> library("factoextra")
Data Science
Chapitre 2 : Analyse Factorielle
des Correspondances (AFC)
Zouaoui Slim
zou_slim@yahoo.fr
Sommaire
Analyse en composantes principales
Analyse discriminante
Arbre de Décision
réseaux de neurones
anaconda.com
Deep Learning
Analyse Factorielle des Correspondances (AFC)
< 30 ans 0,27 0,11 0,07 0,45 < 30 ans 0,30 0,05 0,10 0,45
[ 30 ; 45 [ 0,21 0,09 0,05 0,35 [ 30 ; 45 [ 0,25 0,08 0,02 0,35
[45 ; 60 [ 0,12 0,05 0,03 0,2 [45 ; 60 [ 0,05 0,12 0,03 0,2
d2=
n
N .
p f ij f i. f. j
2
d 2 2
i 1 j 1 f i. f. j
En outre, le d2 suit une loi du khi-2 de paramètre
s’appelle le nombre de degrés de liberté avec :
= (nombre de modalités de la première variable -1) x
(nombre de modalités de la deuxième variable -1).
Hypothèse d’indépendance :
On rejettera donc l’hypothèse d’indépendance à un risque
d’erreur α si d2 est supérieur à la valeur critique dans la table de
χ2 à (n-1)*(p-1) degré de liberté .
95%
5%
AFC : Association entre les modalités
Distances entre profils. Métrique du χ2:
Chaque ligne du tableau des fréquences lignes peut être vue comme la liste des
coordonnées d'un point dans un espace à q dimensions. On obtient ainsi le nuage des
individus-lignes. On définit de même le nuage des individus-colonnes à partir du
tableau des fréquences colonnes.
Cependant, cette distance favorise les colonnes qui ont une masse f.j importante c'est-à-dire la
Catégorie « ouvrier ».
Pour remédier à cela, on pondère chaque écart par l’inverse de la masse de la colonne et l’on
calcule une nouvelle distance appelée la distance du χ2 :
Le tableau de données (tableau de contingence) subit deux transformations, l’une en profils-lignes, l’autre
en profils-colonnes, à partir desquelles vont être construits les nuages de points dans IRn et IRp.
Les deux nuages de points (dans l’espace des colonnes et dans l’espace des lignes) sont
construits de manière analogue.
Association entre les modalités
Représentation Simultanée
Construction des nuages
La représentation simultanée des différentes modalités de deux variables qualitatives est
la suivante :
Data Science
Chapitre 3 : Les méthodes de classification
non supervisées
(K_Means, CAH, classification mixte)
Zouaoui Slim
zou_slim@yahoo.fr
Sommaire
Analyse en composantes principales
Méthodes de classification
modélisation linéaire simple et multiple cran.r-project.org
Analyse discriminante
Arbre de Décision
réseaux de neurones
anaconda.com
Deep Learning
Classification non supervisée : hiérarchique,
non hiérarchique et mixte
Comme souvent dans l’analyse de données, les meilleures solutions se trouveront dans une
combinaison des deux approches. Dans ce cours, nous aborderons uniquement la classification
automatique.
Introduction
La classification automatique se divise en deux catégories :
Pour un nuage d’individus, on peut résumer l’ensemble des distances entre individus au sein d’une matrice
des distances que l’on note D. Chaque coefficient dij représente la distance
entre l’individu Ii et l’individu Ij . Par exemple, si l’on choisit comme critère de ressemblance la distance
euclidienne, on a dij = d(Ii,Ij) = .
Avec deux points (I1,I2) qui ont 2 variables uniquement : (x1, y1) et (x2, y2).
I1 I2 I3 . . . In‐1 In
I1 0 d(I1,I2) d(I1,I3) d(I1,In‐1) d(I1,In)
I2 d(I1,I2) 0
I3 d(I1,I3) 0
. 0
. 0
. 0
In‐1 d(I1,In‐1) 0 d(In‐1,In)
In d(I1,In) d(In‐1,In) 0
Une matrice de distances est une matrice carré, symétrique (dij = dji), de coefficients
positifs (dij ≥ 0) et de coefficients nuls sur la diagonale (dii = d(Ii,Ii) = 0).
Les Notions
La notion d’Inertie
Soit une classification en k groupes d'effectifs n1, ... ,nk, les individus étant des points d'un
espace euclidien. Notons les groupes G1, ... ,Gk, et g1, ... ,gk leurs centres de gravité (gest le
centre de gravité du nuage).
Les Notions
Une partition pour être bonne doit satisfaire les deux critères suivants :
– Les individus proches doivent être regroupés : chaque classe doit être le plus homogène
possible.
– Les individus éloignés doivent être séparé : les classes de la partition doivent être éloignées
les unes des autres.
L’inertie est une mesure de l’homogénéité d’un ensemble de points (nuage ou classe). Une
classe (ou un nuage) sera d’autant plus homogène que son inertie totale sera faible.
L’inertie interclasse mesure la séparation entre les classes d’une partition. Plus l’inertie
interclasse est grande plus les classes sont distinctement séparées.
Théorème de Huygens :
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
ii. Recalculer le centre de chaque groupe
FIN
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
Le processus se stabilise nécessairement et l’algorithme s’arrête soit lorsque deux itérations
successives conduisent à la même partition, soit lorsqu’un critère convenablement choisi (par
exemple, la mesure de la variance intra-classes) cesse de décroître de façon sensible, soit
encore parce qu’un nombre maximal d’itérations a été fixé à priori.
Généralement, la partition obtenue finalement dépend du choix initial des centres.
La variance intra-classes ne peut que décroître (Ou rester stationnaire) entre l’étape m et
l’étape m+1. Des règles d’affectation permettent de faire en sorte que cette décroissance soit
stricte et donc de conclure à la convergence de l’algorithme puisque l’ensemble de départ I est
fini.
La classification K-means
(Agrégation autour des centres mobiles)
La classification K-means
(Agrégation autour des centres mobiles)
La classification hiérarchique
(classification hiérarchique ascendante)
Le principe de l’algorithme consiste à créer, à chaque étape, une partition obtenue en agrégeant
deux a deux les éléments les plus proches. On désignera alors par éléments à la fois les
individus et les regroupements d’individus générés par l’algorithme. Il y a différentes manières
de considérer le nouveau couple d’éléments agrégés, d’ou un nombre important de variante de
cette technique.
L’algorithme ne fournit pas une partition en q classes
d’un ensemble de n objets mais une hiérarchie
de partition, se présentant sous la forme d’arbres
appelés également dendrogrammes
et contenant n-1 partitions.
L’intérêt de ces arbres est qu’ils peuvent donner
une idée du nombre de classes existant
effectivement dans la population.
La classification hiérarchique
(classification hiérarchique ascendante)
Étape 2 : on construit la matrice de distances entre les n éléments et l’on cherche les deux
plus proches, que l’on agrège en un nouvel élément. On obtient une première partition à n-1
classes;
Étape 3 : on construit une nouvelle matrice des distances qui résultent de l’agrégation, en
calculant les distances entre le nouvel élément et les éléments restants (les autres distances
sont inchangées). On se trouve dans les mêmes conditions qu’à l’étape 1, mais avec
seulement n-1 éléments à classer et en ayant choisi un critère d’agrégation. On cherche de
nouveau les deux éléments les plus proches, que l’on agrège. On obtient une deuxième
partition avec n-2 classes et qui englobe la première.
Étape m : on calcule les nouvelles distances jusqu’à n’avoir plus qu’un seul élément
regroupant tous les objets et qui constitue la dernière partition.
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Simulation du CAH
La classification hiérarchique
(classification hiérarchique ascendante)
Coupure du Dendrogramme
La classification hiérarchique
(classification hiérarchique ascendante)
Critère d’agrégation selon la variance
A l’étape initiale, l’inertie Intra-classes est nulle et l’inertie inter-classes est égale à l’inertie
totale du nuage puisque chaque élément terminal constitue à ce niveau une classe. A l’étape
finale, c’est l’inertie inter-classes qui est nulle et l’inertie intra-classes est équivalente à
l’inertie totale puisque l’on dispose à ce niveau d’une partition en une seule classe. Par
conséquent, au fur et à mesure que l’on effectue des regroupements, l’inertie intra-classes
augmente et l’inertie inter-classes diminue.