Vous êtes sur la page 1sur 2

TP Text mining Quelques points sur lanalyse smantique latente 12/02/07

Prambule
Ce document fait un rsum rapide de lanalyse smantique latente. Il sagit dune mthode
statistique permettant dextraire automatiquement des relations conceptuelles entre les termes
dune collection de textes (par exemple : mobylette et voiture sont deux types de vehicule et sont
donc relis conceptuellement).

Lanalyse smantique latente


Principe
Le principe de cette analyse est trs simple. Elle ncessite tout simplement davoir disposition
un logiciel permettant la dcomposition en valeurs singulires de matrices.
Encore une fois, lobjectif de cette procdure est de crr un espace de reprsentation de mots
dans lequel les relations de synonymie et dhypernymie sont modlises adquatement tout comme
la possibilit de polysmie (un mme mot qui prend plusieurs sens diffrents).
Le principe est le suivant : soit X = [x1 xm ]> la matrice o chaque xi est un vecteur-colonne
qui est la reprsentation vectorielle du document i de la collection (cette reprsentation peut tre
binaire, frquentielle ou bien TF-IDF). Lanalyse smantique latente consiste simplement calculer
la dcomposition en valeurs singulire de X :

X = U V >

o U et V sont des matrices orthonormales et est une matrice diagonale contenant les valeurs
singulires de X. Il suffit alors de se fixer un espace de dimension K et prserver la valeur des
K premires valeurs singulires de (i.e. de X) et annuler les autres. La matrice modifie des
valeurs singulires permet de calculer un nouveau codage des textes dans lespace smantique
latent par :
X = U V > .

Exemple
Voici un exemple tir du livre Modeling the Internet and the Web de Pierre Baldi, Paolo
Frasconi, Padhraic Smyth.

L. Ralaivola M2 I2A BDA 1


TP Text mining Quelques points sur lanalyse smantique latente 12/02/07

Voici la matrice X > :

et, en conservant les 2 premires valeurs singulires on obtient la nouvelle matrice :

On voit clairement la sparation des termes entre deux sujets ! ! !

Conclusion
Mthode extrmement simple et trs efficace pour lextraction de relations conceptuelles entre
termes. La question de la dimension conserver reste un paramtre rgler. Lutilisation de cette
mthode ncessite par ailleurs la disponibilit dune bibliothque dalgbre linaire permettant de
grer des matrices de grande dimension (et ventuellement creuses).

L. Ralaivola M2 I2A BDA 2