Vous êtes sur la page 1sur 4

master professionnel Analyse de donnes 2005 - session 1 p.

1
Universit de Nantes , Dpartement de mathmatiques 2004 - 2005
Master professionnel 1
re
anne Ingnierie Mathmatique

Correction de la premire session d'examen d'Analyse des donnes
I Question thorique (7 points)
1. a) dis
0
(N(I)) =

=
n
i
i i
OX p
1

=
=
n
i
t
i
XX OX
1


b) d) dis
0,u
(N(I)) = ,
1

=
> <
n
i
i i
u X p =
t
u
t
XXu
c) dis
0
(N(I)) =

=
p
j 1
dis
0,ej
(N(I))
e) U est une matrice symtrique, (semi) dfinie symtrique. Ses valeurs propres sont positives
et les sous espaces propres sont orthogonaux deux deux. La dispersion explique par un vecteur propre
unitaire est gale la valeur propre correspondante.
f) U=
|
|
|

\
|

=
|
|

\
|
|
|
|

\
|
1 0 2
0 1 0
2 0 4
0 1 0
1 0 2
0 1
1 0
0 2

|U-I| = (1-)[(4-)(1-)-4]=(1-)[-5] dont les racines sont
1
=5
2
=1 et
3
=0
Soit u
1
|
|
|

\
|
z
y
x

qui vrifie

=
=
=
0 4 2
0
0 2
z x
y
z x
donc de la forme
|
|
|

\
|
z
z
0
2
. u
1
est unitaire pour z=-
1
5

Soit u
2
|
|
|

\
|
z
y
x

qui vrifie

=
=
=
0 2
0 2 3
x
y y
z x
donc de la forme
|
|
|

\
|
0
0
y
. u
2
est unitaire pour y=1.
Soit u
3
|
|
|

\
|
z
y
x

qui vrifie

= +
=
=
0 2
0
0 2 4
z x
y
z x
donc de la forme
|
|
|

\
|
x
x
2
0
. u
1
est unitaire pour x=
1
3

u
1
est la direction de plus grande dispersion (
5
6
<0.9). Un sous espace permettant d'expliquer
plus de 90% (ici 100%) est celui engendr par (u
1
, u
2
).

2. a) V = X
t
X
b) Pour

0,

u vrifie

u XXu
t
= donc

Xu XXu X
t
= . Comme

Xu

O ,

Xu est
un vecteur propre de X X
t
associ la valeur propre

.
Pour

0,

v vrifie

v Xv X
t
= donc

Xv Xv XX
t t t
= . Comme

Xv
t

O ,

Xv
t

est un vecteur propre de XX
t
associ la valeur propre

.
Les deux matrices ont donc leurs valeurs propres non nulles communes.
c)

u vrifie

u XXu
t
= , on en dduit donc

Xu XXu X
t
= donc

Xu est vecteur
propre de X
t
X associ

de norme

(
t
(

Xu )

Xu =

) donc

Xu v
1
=
d) V=
|
|

\
|
=
|
|
|

\
|

|
|

\
|
1 0
0 5
0 1
1 0
0 2
0 1 0
1 0 2
donc
1
=5 et
2
=1 et v
1
|
|

\
|
0
1
v
2
|
|

\
|
1
0

master professionnel Analyse de donnes 2005 - session 1 p. 2
On a bien :
|
|

\
|
=
|
|
|
|

\
|

|
|

\
|
= =
0
1
5
1
0
5
2
0 1 0
1 0 2
5
1 1
1
1
1
Xu v


|
|

\
|
=
|
|
|

\
|
|
|

\
|
= =
1
0
0
1
0
0 1 0
1 0 2
1
2
2
2
Xu v


|
|
|
|

\
|

=
|
|

\
|
|
|
|

\
|

= =
5
1
0
5
2
0
1
0 1
1 0
0 2
5
1 1
1
1
1
Xv u
t


|
|
|

\
|
=
|
|

\
|
|
|
|

\
|

= =
0
1
0
1
0
0 1
1 0
0 2
1
2
2
2
Xv u
t


Exercice II:
1. F
|
|
|
|
|
|
|
|

\
|
6
1
6
1
0
6
1
0
12
1
6
1
0 0
0
12
1
12
1
0 0
12
1
f
i.
|
|
|
|
|
|
|
|

\
|
3
1
4
1
6
1
6
1
12
1
f
.j
( )
2
1
4
1
4
1
L
|
|
|
|
|
|
|

\
|
2
1
2
1
0
3
2
0
3
1
1 0 0
0
2
1
2
1
0 0 1
C
|
|
|
|
|
|
|
|

\
|
3
1
3
2
0
3
1
0
3
1
3
1
0 0
0
3
1
3
1
0 0
3
1

2. a) X
|
|
|
|
|
|
|
|
|

\
|
6 2
1
3 2
1
0
2 3
1
0
3
1
3 2
1
0 0
0
6
1
6
1
0 0
3
1
b)
t
XX=
(
(
(
(
(

18
13
6
2
9
2
6
2
2
1
6
1
9
2
6
1
18
11
reprsente la matrice
1 1
J I
t
LD LD dont les vecteurs propres unitaires sont les axes principaux.

c) On rsoud |
t
XX-I| = 0
En multipliant la matrice par 18, on recherche alors la valeur propre ' = 18, donc '=18 est
solution, vrifiant :
(11-')[(9-')(13-')-18] 3[-3'+27]+2
2
[-9
2
+2
2
']
=1089+11'-242'-99'-'
3
+22'+9'-81-36+8'=-'
3
+33'-324'+972=-['-18][' -15'+54]
Soit '=9 et '=6 sont galement solution.
On trouve donc
0
=1
1
=
1
2

2
=
1
3

d) Un vecteur propre associ
0
reprsente l'axe (OG
I
), axe trivial.
e)

1
*
1
*
1
*
1
2 / 1 1 2 / 1 *
1
= =

u u u D D D u
t
J J J
t
donc u
1
=
*
1
2 / 1
u D
J
(de mme pour u
2
)
f) L'inertie est gale
1 +

2
=


1
2
+
1
3
=
5
6

La proportion d'inertie projete sur u
1
est donc de
5
3
6
5
2
1
= donc 60% et donc 40% sur u
2
.
3. a) F
1
=
*
1
2 / 1
1
1
u LD u LD
J J

= .
master professionnel Analyse de donnes 2005 - session 1 p. 3
b) F
1
=
|
|
|
|
|
|
|
|

\
|

6
1
0
6
2
6
2
6
4
F
2
=
|
|
|
|
|
|
|
|
|

\
|

3
1
3
1
3
1
3
1
3
1

c)
*
1
2 / 1
1 1
u D G
J

= =
|
|
|
|

\
|

3
1
0
3
2

*
2
2 / 1
2 2
u D G
J

= =
|
|
|
|

\
|

3
1
1
3
1

III Analyse de documents (7 points)
1. a) Une fonction discriminant est une combinaison linaire des variables. Ce sont les vecteurs
propres de W
-1
B.
b) Il faut maximiser le rapport entre la variance inter et la variance intra de Xu, soit
uTu
uBu
t
t

c) Le nombre est r=min(q-1,p), q le nombre d classe et p de variables soit ici q-1=2.

2. Le tableau j nous donne les fonctions discriminantes.

3. a) La dimension est p=4.
b) L'estimation est (104,60,155,37) d'aprs a.
c) On obtient une estimation de en divisant W (c.) par 42:
253,3 -76,6 -92,9 29,1
-76,6 80,5 61,8 -8,0
-92,9 61,8 739,5 14,3
29,1 -8,0 14,3 28,8

4. a) L'hypothse nulle est l'absence de diffrence entre les matrices des covariances intra.
b) La probabilit d'obtenir la valeur observe sous H
0
est 0.464. On accepte donc H
0
.

5. a) L'hypothse nulle pour le test portant sur F1-F2 est l'absence de diffrences globales entre
groupes, et sur F2 l'absence de diffrence pour le dernier axe discriminant.
b) Pour F1-F2, on rejette l'hypothse H
0
avec un risque de 1
re
espce trs faible (<0.001), par
contre le dernier axe ne semble pas montrer de diffrences significative (P=0.8).

6. a) Le tableau indique le groupe d'appartenance (a priori) et d'affectation par l'AFD (a
posteriori). Il donne ensuite la valeur du score dans les 3 groupes et les coordonnes F1 F2.
L'affectation a posteriori est celle donne par le score le plus grand.
b) Les individus mal classs sont 17 et 20.

7. a) L'analyse discriminante linaire suppose l'galit des matrices des covariances dans les
diffrents groupes alors que celle quadratique utilise des matrices diffrentes dans chacun des groupes.
a) Il est de 13/15 soit 87%.
b) Il est de 42/45 soit 93%.

8. L'valuation du taux d'erreur sur l'chantillon d'apprentissage est trop optimiste. Deux
mthodes permettent une meilleure estimation : l'utilisation d'un chantillon test ou la validation croise
(bootstrap) (voir le cours).
master professionnel Analyse de donnes 2005 - session 1 p. 4
fin du I

2. a) Rappeler comment s'expriment les composantes a

d'un vecteur quelconque Y =

=
p
u a
1

de

p
en fonction de Y et des u

.

b) En dduire la relation

|
|

\
|

=
p
t
u u
1

Y=Y pour tout Y
p

puis la relation

|
|

\
|

=
p
t
u u
1

= I.

c) Vrifier cette relation sur l'exemple numrique de la question 1f).

d) Etablir la relation
X=

=
p
t
u v
1



e) Vrifier cette relation sur l'exemple numrique de la question 1f).

f) Commenter.

Vous aimerez peut-être aussi