Vous êtes sur la page 1sur 2

TD Théorie Bayesienne

de la décision 4ème année


G. Gasso, B. Gaüzère

1 On s’échauffe
Soit un problème de classification à 2 classes avec x ∈ R2 . Chaque classe Ck est caractérisée
par une loi conditionnelle p(x|Ck ) qui est une loi normale de moyenne µk ∈ R2 et de matrice de
covariance Σk ∈ R2×2 . L’objectif est d’implémenter et tester la méthode LDA.
1. Utiliser le script matlab montpBayes.m fourni pour générer n1 = 100 données pour C1
et n2 = 150 pour C2 . Dans la suite on ne travaillera qu’avec les données X,Y générées.
2. Implémentation de la méthode LDA (compléter le script montpBayes.m)
(a) Utiliser X,Y pour calculer les estimations π̂k = P (Ck ), µ̂k , k = 1, 2 de chaque classe
et la matrice de covariance commune Σ̂
(b) Calculer les paramètres w ∈ R2 et w0 ∈ R de la fonction de décision de la LDA qui
est donnée par : 
C1 si f (x) > 0
x est affecté à
C2 sinon
avec
π̂1 1 >
f (x) = w> x + w0 où w = Σ̂−1 (µ̂1 − µ̂2 ) , w0 = ln − w (µ̂1 + µ̂2 )
π̂2 2

(c) Tracer la frontière de décision de la LDA (décommenter les lignes appropriées dans
montpBayes.m)
(d) Calculer l’erreur de classification de la méthode LDA sur les données X,Y

2 La tête dans les étoiles


L’objectif est d’étudier des données astronomiques provenant du Sloan Digital Sky Survey
(SDSS) qui est un programme destiné à répertorier les objets célestes et cartographier une partie
du ciel. Les données brutes fournissent la luminosité (en échelle logarithmique) des objets dans 5
longueurs d ?onde différentes, u : ultraviolet, g : vert, r : rouge, i, z : infrarouges. Notre problème
de classification consistera à classer les étoiles (C1 ) des naines blanches (C2 ). Pour cela on utilise
des rapports de luminosité ce qui donne les 4 variables suivantes : u − g, g − r, r − i et i − z.
Le fichier astrodat.mat contient ces variables pour C1 et C2 ainsi que les labels des points.
1. Faire une analyse statistique sommaire des données. Combien de points y-a-t-il par classe ?
2. Découper les données en un ensemble d’apprentissage et un ensemble de test
3. Normaliser les jeux de données
4. Mettez en oeuvre votre méthode LDA. Quel jeu de données utiliser pour cela ?
5. Calculer l’erreur de classification en apprentissage et en test. Quel constat peut-on faire ?

3 Facultatif : for bold people


On va essayer de faire une implémentation "dirty" de la méthode QDA sur les données de
l’exercice 1.

p.1/2
ASI4 DM

1.
2. Implémentation de la méthode LDA (compléter le script montpBayes.m)
(a) Utiliser X,Y pour calculer les estimations π̂k = P (Ck ), µ̂k et Σ̂k , k = 1, 2 de chaque
classe.
(b) Calculer les paramètres H ∈ R2×2 , w ∈ R2 et w0 ∈ R de la fonction de décision de la
QDA qui est donnée par :

C1 si f (x) > 0
x est affecté à
C2 sinon
avec
f (x) = −x> Hx + w> x + w0
 
où H = 1
2 Σ̂−1
1 − Σ̂ −1
2 , w = w1 − w2 , w1 = Σ̂−1 −1
1 µ̂1 , w2 = Σ̂2 µ̂2

w0 = ln π̂π̂12 − 12 ln |Σ̂1 | − 21 w1> µ̂1 − w2> µ̂2



|Σ̂2 |
(c) Tracer la frontière de décision de la QDA (décommenter les lignes appropriées dans
montpBayes.m)
(d) Calculer l’erreur de classification de la méthode QDA sur les données X,Y et comparer
à la LDA.

p.2/2

Vous aimerez peut-être aussi