Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
TI608 – Electif
Plan
2
Rappel –
Apprentissage supervisée
3
Réduction de dimensionnalité
Qu’est ce que c’est ?
4
Réduction de dimensionnalité
A quoi ça peut servir?
1. Compression de données (avec perte)
2. Visualisation des données en 2D ou 3D
3. Extraction de caractéristiques :
Fondamentales, explicatives, compactes, …
Prétraitement => meilleure représentation de
départ pour un autre algorithme (classification ou
régression).
5
Réduction de dimensionnalité
Algorithmes
Modèles linéaires Gaussiens
• L’Analyse en Composantes Principales (ACP ou
PCA) traditionnelle
• L’ACP probabiliste
• L’analyse de facteurs (factor analysis)
6
Réduction de dimensionnalité
ACP Classique
• L’ACP trouve un sous-espace linéaire qui passe proche
des données : projection orthogonale de x ∈ RD sur un
sous espace linéaire de plus faible dimension M.
• Les composantes z représentent les coordonnées de la
projection de x dans ce sous-espace de dimension M.
• Très utilisé comme pré-traitement (extraction de
caractéristiques) ou pour la visualisation.
• Un vieil algorithme classique, 2 formulations
équivalentes :
minimisation de l’erreur de reconstruction (Pearson 1901)
maximisation de la variance (Hotelling 1933).
7
Réduction de dimensionnalité
ACP Classique
On cherche les directions principales u: une base orthonormale du
sous-espace sur lesquelles projeter les x
• Minimum d’erreur :
on minimise la moyenne des distances
carrées entre les x et leur projection
(lignes bleues).
• Maximum de variance :
on maximise la variance le long de la
direction de projection (variance des
blue lines points verts)
Trouver une nouvelle base orthonormée dans laquelle représenter
nos données, telle que la variance des données selon ces nouveaux
axes soit maximisée.
8
Réduction de dimensionnalité
ACP Classique : maximisation de variance
9
Réduction de dimensionnalité
ACP Classique : maximisation de variance
Supposons que nous ayons p variables : chaque observation est représentée par un
vecteur dans ℝp , et nous avons n observations rassemblées dans une matrice x ∈ ℝp×n .
11
Réduction de dimensionnalité
ACP Classique : maximisation de variance
12
Réduction de dimensionnalité
ACP Classique : maximisation de variance
https://matlabacademy.mathworks.com
14
Apprentissage non supervisé
Clustering ou partionnement
2.1 Course Example - Grouping Basketball Players
▷ Objectif : Identifier des groupes
(cf. video)
d’observations ayant des caractéristiques
similaires (ex. comportement d’achats de
clients, caractère «polluant» de véhicules,
etc.)
▷ On veut que :
(1) Les individus dans un même groupe se
ressemblent le plus possible
(2) Les individus dans des groupes différents
se démarquent le plus possible
▷ Pourquoi ?
▷ Identifier des structures sous-jacentes
dans les données
▷ Résumer des comportements
▷ Affecter de nouveaux individus à des
catégories
Objectif de l’étude : Identifier les catégories des joueurs
de basket (groupes) « similaires » (qui se ressemblent au ▷ Identifier les cas totalement atypiques
regard de leurs propriétés) 15
Apprentissage non supervisé
Clustering ou partionnement : Illustration
▷ L’algorithme de partionnement automatique vise à déterminer les
groupes « naturels » c.-à-d. qui se démarquent significativement les
uns des autres.
Combien de groupes ?
Délimitation de ces groupes ? 16
Clustering ou partionnement
Caractérisation de la partition: Inertie intra-classes W
d() : mesure de distance caractérisant les proximités entre les individus. Ex. distance euclidienne
ou euclidienne pondérée par l’inverse de la variance (attention aux points aberrants)
où K est le nombre de clusters, nk le nombre d'individus dans le cluster k , et Gk le centre de
gravité du cluster k
17
Clustering ou partionnement
Caractérisation de la partition: Inertie intra-classes W
Une bonne partition doit vérifier :
1) Les individus dans un même groupe (cluster) se ressemblent le plus possible
: deux points qui sont proches devraient appartenir au même groupe.
(inertie intraclasse faible)
2) Les individus dans des groupes différents se démarquent le plus possible :
deux points qui sont proches devraient appartenir au même groupe inertie
interclasse forte.
21
Clustering
Algorithme K-moyennes : Méthode des centres mobiles
22
Clustering
Algorithme K-moyennes : Méthode des centres mobiles
Avantages Inconvénients
Scalabilité Lenteur dûe à la nécessité de faire passer
plusieurs fois les observations.
Capacité à traiter les très
grandes bases. Seuls les Nombre de classe à fournir à l’algorithme
vecteurs des moyennes sont à L’optimisation aboutit à un minimum local de
conserver en mémoire l’inertie intra-classes W.
centrale. La solution dépend du choix initial des centres
de classes :
Complexité linéaire
Essayer plusieurs configurations de
par rapport au nombre
départ et choisir celle qui aboutit à une
d’observations (pas de calcul solution minimisant W.
des distances deux à deux des
La solution peut dépendre de l’ordre des
individus). individus (MacQueen) :
Mélanger aléatoirement les individus
avant de les faire passer pour ne pas être
dépendant d’une organisation non
maîtrisée des observations. 23
Clustering
K-means : Exemple avec matlab
https://matlabacademy.mathworks.com
24
Clustering
Notion de proximité : Distances et similarités
Clustering : Regrouper ensemble les observations (points) les plus proches, ou
les plus semblables
Comment déterminer a quel point deux observations sont proches et deux
clusters sont proches ?
La qualité d’un regroupement dépend donc de la mesure de similarité utilisée
par la méthode et de son implémentation
25
Clustering
Notion de proximité : Distances et similarités
Distance : une fonction d : ℝp→ℝ+, qui vérifie les trois propriétés :
o d(x,x)=0 (réflexivité)
o d(u,v)=d(v,u) (symétrie)
o d(u,v) ≤ d(u,x)+d(x,v) (inégalité triangulaire).
Exemples
o distance euclidienne :
o distance de Manhattan :
o distance de Sebestyen :
o ….
26
Clustering
Algorithme K-moyennes : Méthode des centres mobiles
Exercice 1
27
Clustering
Algorithme K-moyennes : Méthode des centres mobiles
Exercice 2
1/ Ecrire une fonction matlab qui permet de calculer l’inertie Intraclasse
[g,~,~, D] = kmeans(X,k,"Start",Start);
Intra =0 ;
for i = 1: size(D,1)
Intra = Intra+ D(i,g(i));
end
end
28
Clustering
Exercice 2 : Kmeans
On souhaite regrouper les 8 exemples suivants en 3 clusters et on considère
comme centres de classes à l’initialisation les points A1, A4 et A7:
A1(2,10), A2(2,5), A3(8,4), A4(5,8), A5(7,5), A6(6,4), A7(1,2), A8(4,9).
La matrice de distance basée sur la distance euclidienne est fournie ci-dessous :
29
Clustering
Exercice 2 : Kmeans
A1 ->cluster 1 A1 ->cluster 1
A2->cluster 3 A2->cluster 3
A3, A4->cluster 2 A3, A4->cluster 2
A5,A6->cluster 2 A5,A6->cluster 2
A7->cluster 3 A7->cluster 3
A8->cluster2 A8->cluster1
A1 ->cluster 1 A1 ->cluster 1
A2->cluster 3 A2->cluster 3
A3_>cluster 2 A3_>cluster 2
A4->cluster 1 A4->cluster 1
A5,A6->cluster 2 A5,A6->cluster 2
A7->cluster 3 A7->cluster 3
A8->cluster1 A8->cluster1
1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu
Clustering
Partitionnement hiérarchique CHA
Exercice
On souhaite progressivement regrouper les 5 exemples suivants en utilisant
l’algorithme agglomérative CHA et la métrique de distance euclidienne
minimale :
M1(2,0), M2(0,1), M3(0,2), M4(3,4) et M5(5,4)
1. Présentez les étapes de cet algorithme tout en détaillant les calculs effectués.
2. Présentez le dendrogramme correspondant au résultat obtenu
C1 0 5 8 17 25
C2 0 1 18 34
C3 0 13 31
C4 0 4
C5 0
Clustering
Partitionnement hiérarchique CHA
Etape 1
C1 C2 C3 C4 C5
C1 0 5 8 17 25
C2 0 1 18 34
C3 0 13 31
C4 0 4
C5 0
Clustering
Partitionnement hiérarchique CHA
Etape 2
C1 C2 C3 C4 C5
Finding the hierarchical structure involves calculating the distance between each pair of points and then using
these distances to link together pairs of “neighboring” points.
You can use the cluster function to assign observations into groups, according to the linkage distances Z.
IRIS Data set (matlab)
Mesures :
load fisheriris
la largeur des sépales
la longueur des sépales
la largeur des pétales
la longueur des pétales
Tumor brain detec7on
Image CT