Chap3-Pond Stats

Chap.
3: Indexation :
Techniques de pondération
et
Statistiques sur le texte
Cours RI, M. Boughanem

1
Pondération des mots
•  Comment caractériser les termes importants dans
un document?
•  …… Pondération des termes
•  Idée sous jacente :

–  Les termes importants doivent avoir un poids fort

2
Approches de pondération
•  Plusieurs approches :
–  Tf, IDF approche plus répandue
–  Pourvoir discriminatoire d’un terme
–  Modèle 2 poisson
–  Clumping model
–  Modèle de Langage
•  Dépend aussi du modèle de RI.

3
tf.idf
•  tf : Idée sous jacente : plus un terme est fréquent dans un
document plus il est important dans la description de ce
document $ freq(t, d)
&
&1+ log( freq(t, d))
&& freq(t, d)
–  Exemple de tf : tf = % max
∀t '∈d (t ', d)
&
& freq(t, d)
& ∑ freq(t ', d)
&' ∀t '∈d
Taille (longueur)
du document
–  “Okapi tf” : K introduit pour tenir
compte de la longueur des documents
(Robertson tf)d)
freq(t,
tf tf =
dl
(K +tf) k1.(1− b + b *
avgdl
) + freq(t, d)

4
tf.idf
–  IDF : (Inverse Document Frequency) la frequence du

terme dans la collection
( !N$
* log # &
* " nt %
idf (t) = )
* N − nt
*+ log( )
nt
avec
N : le nombre de documents de la collection,
nt : le nombre de documents contenant le terme t

5
Tf.Idf
–  Quelques formules répandues en RI
Facteur de
% N normalisation
' (1+ log( freq(t, d))* log
nt
'
'' ∑ (1+ log( freq(t ', d))* log N
w(t, d) = tf * idf = & ∀t '∈d nt '
' freq(t, d) N − nt
' * log
' k1.(1− b + b * dl ) + freq(t, d) nt
'( avgdl

6
Tf.Idf
–  Exploitation en RI
•  Retour (transp.à , calcul score d’un document)
•  Soit une requête q(t1, t2) et document d(t1, t2, ..tn)
•  Calculer le score de document vis-à-vis de la requête
à Faire la somme pondérée des termes de la requête apparaissant dans le
document
score(q, d) = ∑ w(t, d)
t∈q
Ce point sera détaillé dans le chapitre Modèles de RI

7
Quelques Statistiques sur le texte
•  La fréquence d’apparition d’un terme dans une

collection est un bon indicateur de l’importance de ce
terme.

8
Quelques Statistiques sur le texte
•  “Principle of Least Effort” (Zipf)

–  Il est plus simple pour un auteur (rédacteur d’un
document) de répéter les mots que term%frequency%
d’en chercher de
nouveaux. decreases%rapidly%
as%a%func2on%of%
rank!
term frequency decreases rapidly
as a func2on of rank!

9
Exemple de mots fréquents
Copyright © James Allan

10
Loi de Zipf
•  Loi de Zipf
Rang . Pr≈ constante
–  Pr = fréquence du terme de rang r/N

–  N nombre total d’occurrence
–  A ≈ 0.1

11
Exemple loi de Zipf
Copyright © James Allan

12
Est que les données suivent réellement la loi
de Zipf ?
•  Une loi de la forme y = kxc est appelée loi puissance.
•  Est une loi de puissance c = –1

–  r = (A*N)·n-1 et n = (A*N )·r-1
–  A*N est une constante pour une collection donnée
•  En passant à un logarithme.
–  log(n) = log(A*Nr-1) = log(A*N) – 1·log(r)

13
Exemple loi de Zipf le corpus Brown
Transparent J. Allan et B. Croft k = 100,000

14
Accroissement du vocabulaire de l’index
(loi de Heap)
•  La taille de l’index croît de manière logarithmique
–  L’index n’a pas borne supérieure (noms propres,
erreurs de typos, etc.)
–  Mais, les nouveaux mots apparaissent moins
fréquemment quand le vocabulaire croît.
•  Considérons V la taille de l’index(en nombre de
mots) et n le nombre de documents dans le corpus
–  V = Knβ (0< β <1)
–  Constantes typiques :
•  K ≈ 10−100
•  β ≈ 0.4−0.6 (approx. Racine carré de n)

15
Loi de Heap
Transparent J. Allan et B. Croft

16

Chap3-Pond Stats

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap3-Pond Stats

Transféré par

Droits d'auteur :

Formats disponibles

Chap.

Cours RI, M. Boughanem

• …… Pondération des termes

• Idée sous jacente :

Cours RI, M. Boughanem

• Dépend aussi du modèle de RI.

Cours RI, M. Boughanem

Cours RI, M. Boughanem

– IDF : (Inverse Document Frequency) la frequence du

Cours RI, M. Boughanem

Cours RI, M. Boughanem

Ce point sera détaillé dans le chapitre Modèles de RI

Cours RI, M. Boughanem

• La fréquence d’apparition d’un terme dans une

Cours RI, M. Boughanem

• “Principle of Least Effort” (Zipf)

Cours RI, M. Boughanem

Copyright © James Allan

Cours RI, M. Boughanem

– Pr = fréquence du terme de rang r/N

Cours RI, M. Boughanem

Copyright © James Allan

Cours RI, M. Boughanem

• Est une loi de puissance c = –1

Cours RI, M. Boughanem

Transparent J. Allan et B. Croft k = 100,000

Cours RI, M. Boughanem

Transparent J. Allan et B. Croft

Vous aimerez peut-être aussi

•  …… Pondération des termes

•  Idée sous jacente :

•  Dépend aussi du modèle de RI.

–  IDF : (Inverse Document Frequency) la frequence du

•  La fréquence d’apparition d’un terme dans une

•  “Principle of Least Effort” (Zipf)

–  Pr = fréquence du terme de rang r/N

•  Est une loi de puissance c = –1