Vous êtes sur la page 1sur 5

master MIM Analyse de donnes 2006 - session 1 p.

1
Universit de Nantes , Dpartement de mathmatiques 2006
Master MIM premire anne


Premire session d'examen d'Analyse des donnes

MAI 2005

Documents interdits Dure 3 heures


I Question thorique (7 points)


On se place dans l'espace
p
muni du produit scalaire standard
<X,Y> =

=
p
j
j j
y x
1
,

=
=
p
j
j j
e x X
1
et

=
=
p
j
j j
e y Y
1

o e
1
,e
2
,,e
p
dsigne la base canonique de
p
. On note dsormais par la mme lettre X, Y, un point ou
un vecteur de
p
et sa matrice colonne dans la base canonique de
p
.

On considre le nuage

N(I) = {(X
i
,1) | i I = {1,2,,n}}

de n points de
p
affects de poids uniformes p
i
=1.

On note X la matrice ayant pour lignes X
1
, X
2
,, X
n
.


1. a) Qu'appelle-t-on dispersion, dis
0
(N(I)), du nuage N(I) par rapport l'origine 0 de
p
?

b) Etant donn un vecteur unitaire u de
p
qu'appelle-t-on dispersion, dis
0,u
(N(I)), de N(I)
suivant u d'origine 0?

c) Quelle relation lie dis
0
(N(I)) aux dispersions dis
0,ej
(N(I)) suivant les divers vecteurs e
j
de la
base canonique?

d) Justifier la relation
dis
0,u
(N(I)) =
t
u
t
X X u

On note dsormais U cette matrice de dispersion : U=
t
X X et on suppose que U est non nulle.

e) Donner des proprits de la matrice U. En particulier, que sait-on de ses valeurs propres et
espaces propres associs et quelle est la dispersion de N(I) explique par un vecteur propre unitaire?

f) Exemple numrique : p=3, n=2, X
1
= (2,0,-1), X
2
= (0,1,0).
Dterminer la matrice de dispersion U de ce nuage (X
1
, X
2
), les valeurs propres et vecteurs
propres associs de celle-ci. Prciser la direction de plus grande dispersion et un sous espace qui explique
au moins 90% de la dispersion.

master MIM Analyse de donnes 2006 - session 1 p. 2
2. On revient au cas gnral mais on suppose, pour simplifier, que toutes les valeurs propres non
nulles de U sont simples. On note
1
>
2
> >
p
les valeurs propres de U et u
1
, u
2
,, u
p
des vecteurs
propres unitaires associs formant une base orthonorme.

On considre maintenant le nuage des points N(J) de
n
associs aux colonnes de la matrice X.
On suppose, comme pour
p
, que
n
est muni du produit scalaire euclidien standard.

a) Que vaut la matrice de dispersion V du nuage N(J) par rapport 0?

b) On note
1

2

n
les valeurs propres ordonnes par valeurs dcroissantes de V et
v
1
, v
2
,, v
n
des vecteurs propres unitaires associs.
Etablir l'galit des premires valeurs propres
1
=
1
.

c) En admettant l'galit des valeurs propres non nulles suivantes, tablir les relations

=
=

Xv u
Xu v
t
1
1

pour tout tel que

=

0

d) Vrifier ces relations sur l'exemple numrique de la question 1f).



master MIM Analyse de donnes 2006 - session 1 p. 3
II - Etude dun tableau laide dune AFC (6 points)
Soit le tableau de contingence T=
Z Y X
E
D
C
B
A
(
(
(
(
(
(

2 2 0
2 0 1
2 0 0
0 1 1
0 0 1
croisant les 5 modalits A, B ,E dune
premire variable et les 3 modalits X,Y,Z dune seconde variable.

1. Profils ligne et colonne
Calculer le tableau des frquences relatives F, des frquences marginales f
.i.
et f
.j
et les profils
lignes et colonnes L et C.

2. Ajustement du nuage des profils lignes (7 pts)
On rappelle que la mtrique utilise dans le nuage des profils lignes est
1
J
D avec D
J
la matrice
diagonale (f
.j
) et la matrice des poids est D
I
la matrice diagonale (f
i.
).
On rappelle que la dispersion du nuage des profils lignes L suivant le vecteur u unitaire d'origine 0
est

t
u
1
J
D
t
LD
I
L
1
J
D u =
t
u
1
J
D
t
X
1
I
D X
1
J
D u.
a) Construire la matrice
(
(

=
j i
ij
f f
f
X
. .
=
(
(

j i
ij
n n
n
. .


b) On en dduit
t
XX=
(
(
(
(
(

18
13
6
2
9
2
6
2
2
1
6
1
9
2
6
1
18
11
(rsultat admis).
Que reprsente cette matrice ?

c) Calculer les valeurs propres de
t
XX,
0

1

2
(Pour vrification:
1
=
1
2
et
2
=
1
3
).
d) Que reprsente un vecteur propre associ
0
(il n'est pas demand de le calculer)?

e)

Dterminer les vecteurs propres unitaires pour la norme classique
*
1
u et
*
2
u associ
1
et

2
. Montrer que les vecteurs
*
1
2 / 1
u D
J
et
*
2
2 / 1
u D
J
sont unitaires pour la mtrique
1
J
D .

f) Quelle est linertie du nuage et le % dinertie expliqu par les axes 1 et 2.


3. Reprsentation du nuage
On note F
1
, F
2
les facteurs principaux associs aux profils lignes.
a) Justifier la relation F
1
=
*
1
2 / 1
u LD
J

.
b) Calculer les facteurs principaux F
1
et F
2
.
c) Calculer les facteurs principaux G
1
et G
2
pour les profils colonnes laide des formules de
transition
*
1
2 / 1
1 1
u D G
J

= et
*
2
2 / 1
2 2
u D G
J

=
d) Reprsenter dans un mme plan les profils des deux variables.
master MIM Analyse de donnes 2006 - session 1 p. 4
III Analyse de documents (7 points)

L'activit de diffrents vendeurs a t tudie partir de quatre variables quantitatives :
- contact : nombre de contacts nouveaux clients,
- rencontre : proportion de contacts avec rendez-vous,
- appels : appels tlphoniques reus,
- visites : nombre de nouveaux comptes visits.

Les vendeurs ont t classs selon leur russite un concours de vente :
- G : gagnant,
- C : prix de consolation,
- S : sans succs.

Le tableau contient 15 individus de chaque classe, un extrait est donn ci-dessous:
vendeur contact rencontre appels visites classe
KZV 130 62 148 42 G
BOR 122 70 186 44 G
NUA 89 68 171 32 G

Les rsultats de l'analyse discriminante sont prsents en annexe.

1. a) Qu'appelle-t-on fonction linaire discriminante?
b) Rappeler le critre utilis pour dterminer les fonctions linaires discriminantes.
c) Combien de fonctions linaires discriminantes peut-on dterminer dans cet exemple.

2. Interprter les informations apportes en j.

Dans la suite, on suppose que les trois classes suivent des lois multinormales.

3. a) Quelle est la dimension de ces lois?
b) Donner une estimation de la moyenne du groupe G.
c) Donner une estimation de la matrice des covariances sous l'hypothse o elle est
identique dans les trois classes.

4. Le test de Kullback est prsent au f. Il porte sur la diffrence entre les matrices des
covariances.
a) Quelle est l'hypothse nulle ?
b) Interprter le rsultat obtenu ici.

5. Les tests de Bartlett sont prsents au k. Ils portent sur l'galit des moyennes.
a) Quelle est l'hypothse nulle pour le test portant sur F1-F2 et sur F2 seul respectivement.
b) Interprter le rsultat obtenu ici.

6. La qualit de classement obtenue a t calcule sur l'chantillon d'apprentissage.
a) Comment interprter le tableau l. Comment est dtermin le classement a posteriori?
b) Dterminer les individus mal classs dans ce tableau.

7. Les tableaux m et n propose le bilan du classement en AFD linaire et quadratique.
a) Expliquer la diffrence entre ces deux mthodes.
b) Quel est le % de bon classement pour un individu issu de la population C en AFD linaire.
c) Quel est le % de bon classement globale en AFD linaire.

8. Proposer deux mthodes pour amliorer l'valuation de la qualit du classement en AFD.
master MIM Analyse de donnes 2006 - session 1 p. 5
fin du I

3. a) Rappeler comment s'expriment les composantes a

d'un vecteur quelconque Y =

=
p
u a
1

de

p
en fonction de Y et des u

.

b) En dduire la relation

|
|

\
|

=
p
t
u u
1

Y=Y pour tout Y
p

puis la relation

|
|

\
|

=
p
t
u u
1

= I.

c) Vrifier cette relation sur l'exemple numrique de la question 1f).

d) Etablir la relation
X=

=
p
t
u v
1



e) Vrifier cette relation sur l'exemple numrique de la question 1f).

f) Commenter.