Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
1
Introduction
2
Modèle probabiliste
3
RI et probabilité
4
Plan
• Chapitre 5.1 :
– Rappel théorie des probabilités
– Modèle de tri probabiliste (Probabilistic Ranking
Principle)
• Modèle BIR
• Modèle BM25 (2-Poisson)
• Chapitre 6 :
– Modèle inférentiel
• Chapitre 5.2
– Introduction au modèle de langue
– Modèle de langue et RI
5
Rappel probabilités
6
Rappel probabilités
• Probabilité conditionnelle
– P(s|M) probabilité d’un événement s sachant M
• P(“retrieval” | “information”) > P(“retrieval” | “politic”)
7
Distribution de probabilités
© Jaime Arguello 8
Estimation de la distribution de
probabilités
• L’estimation de ces probabilités (compter
le nombre de cas favorable sur le nombre
de cas total)
– P(Rouge) = ?
– P(Bleu) = ?
– P(Orange) = ?
• Deux conditions
– Probabilité entre 0 et 1
– La somme des probabilités (de tous les
événements est égale à 1)
© Jaime Arguello 9
Rappel probabilités
• Probabilité conditionnelle
P( A, B) = P( A ∩ B) = P( A | B) P( B) = P ( B | A) P( A)
P( B | A) P( A)
P( A | B) = Règle de Bayes
P( B)
– Evénements indépendants
– P(A,B) = P(A) .P(B)
– Evénements dépendants
– P(A,B,C) = P(A) .P(B|A).P(C|A,B)
– Formule des probabilités totales
P( A) = ∑ P( A | Bi ) * P(Bi )
i
11
Variable aléatoire
14
Rappel probabilités
– Loi de Poisson :
−λ
.e
P(t = k ) = λk x .e− λ
P(k = x) = λ k!
x!
.e−3.5
4
P(k = 4) = 3.4 ≈ 0.1888
4!
15
Chapitre 5.1 : Modèle PRP
16
Probability Ranking Principle
(principe du tri probabiliste)
17
Probability Ranking Principle
• Règle de Bayes
P(d | R) P( R)
P( R | d ) =
P(d )
P ( d | NR ) P ( NR )
P ( NR | d ) =
P(d )
• PRP : Ordonner les documents selon
P(d | R) P( R)
RSV (q, d ) = *
P (d | NR ) P ( NR )
rank P ( d | R )
=
P (d | NR )
19
Comment estimer ces probabilités ?
• Options
– Comment représenter le document d ?
– Quelle distribution pour P(d | R) et P(d|NR)?
• Plusieurs solutions
– BIR (Binary Independance Retrieval model)
– “Two poisson model”
20
Binary Independance Retrieval (BIR)
• Hypothèses
– 1) Un document est représenté comme un ensemble
d’événements (ti)
d = (t1,…, tn )
• Un événement ti dénote la présence ou l’absence d’un
terme dans le document
21
Binary Independence Retrieval (BIR)
22
Binary Independence Retrieval (BIR)
n n
x
P(d | R) = ∏ P(ti = xi | R) = ∏ pi i (1 − pi ) (1− xi )
i =1 i =1
n n
x
P(d | NR ) = ∏ P(ti = xi | NR ) = ∏ qi i (1 − qi ) (1− xi )
i =1 i =1
23
Binary Independence Retrieval (BIR)
n
x (1− xi )
p
∏ i i
(1 − pi )
P(d | R) i =1
RSV (d , q ) = log = log n
P(d | NR ) x (1− xi )
q
∏ i i
(1 − qi )
i =1
n n
pi (1 − qi ) 1 − pi
= ∑ xi log + ∑ log
i:xi =1 qi (1 − pi ) i =1 1 − qi
n
pi (1 − qi )
∝ ∑ log
i: xi =1 qi (1 − pi )
Constante
(quelque
soit le
document)
ti=1 r n-r n
Total R N-R N
r n−r
pi = qi =
R N −R
25
Estimation par maximun de vraisemblance
Estimation des pi et qi
r et
n−r
pi = qi =
R N −R
p(1 − q)
RSV (q, d ) = ∑ log =
q(1 − p)
r N −n−R+r
*
= ∑ log R N −R =
n−r R−r
*
N −R R
r (R − r)
= ∑ log
(n − r ) ( N − n − R + r ) 26
Modèle probabiliste BIR
r + 0.5
RSV (q, d ) = ∑ log R − r + 0.5
(n − r + 0.5)
( N − n − R + r + 0.5)
27
Estimation sans données d’apprentissage
• Estimation de pi
– Constante (Croft & Harper 79)
– Proportionnel à la probabilité d’occurrence du terme
dans la collection (n/N)
• Estimation de qi
– prendre tous les documents ne comportant pas ti
Rank k
N − ni + 0.5 N − ni
RSV (Q, D) ≈ ∑ log IDF ' = log
i =1, d i = ki =1 ni + 0.5 ni
28
Avantages et inconvénients du modèle
BIR
• Avantages
– Formalisation puissante
– Modélisation explicite de la notion de pertinence
• Inconvénients
– La fréquence des termes n’est pas prise en compte
– Difficulté d’estimer les probabilités sans données
d’apprentissage
– Hypothèse d’indépendance entre termes souvent
critiquée …mais pas d’amélioration significative
pour les modèles qui considèrent cette dépendance
29
Modéliser la fréquence des termes
30
Modèle 2-Poisson [Harter]
• Idée de base
– les occurrences d'un mot dans un document sont distribuées de
façon aléatoire: la probabilité qu'un mot apparaisse k fois dans
un document suit une loi de Poisson
k .e − λ
P(t = k ) = λ
k!
• λ Moyenne des fréquences des termes dans le document
Wiki
31
Modèle 2-Poisson [Harter]
• Les termes (mots) ne sont pas distribués selon une loi de Poisson
dans tous les documents
– Les mots qui traitent le sujet du document ont une distribution
différente de ceux apparaissent de manière marginale dans le
document
• On distingue alors
– Les documents élites qui traitent du sujet représenté par le
terme
– Les documents non élites qui ne traitent pas du sujet du
terme
32
Modèle 2-Poisson [Harter]
33
Modèle BM25
−λ 0
e− λ1
k k e
P(ti = k|R) = P(E|R)λ1 + P(¬E|R)λ 0
k! k!
− λ1 −λ 0
e e
P(ti = k|NR) = P(E|NR)λ1k + P(¬E|NR)λ 0k
k! k!
34
Modèle BM25
−λ 0
e − λ1
tf tf e
P(ti = tf | R ) = pλ1 + (1 − p)λ 0
tf ! tf !
−λ 0
e − λ1 tf tf e
P(ti = tf | NR ) = qλ1 + (1 − q)λ 0
tf ! tf !
35
Modèle BM25
• Réécriture de la fonction de tri (en passe au log)
n
( pλ1tf e− λ1 + (1− p)λ 0tf e− λ 0 )(qe− λ1 + (1− q)e− λ 0 )
P(R | d) = ∑ log( tf − λ1 tf −λ 0 − λ1 −λ 0
)
i=1 (qλ1 e + (1− q)λ 0 e )( pe + (1− p)e )
36
Approximation de la fonction de
poids
• La fonction de poids doit respecter les
caractéristiques suivantes :
– (a) 0 si tf=0
– (b) monotone croissante avec tf
– (c) a un maximum asymptotique
– (d) approximé par le poids du modèle de base
37
Approximation .. (suite)
• On réarrange la fonction
• λ0 <<λ1 et tf à ∞
p(1− q)
à P(w) = log
q(1− p)
38
Approximation.. (suite)
(k1 +1)tfi 1
P(w) = w
K + tfi
K est une constante
Cette onction respecte les 4
contraintes
39
La forme (finale) de BM25
N (k1 +1)tfi
RSV BM 25
= ∑ log ⋅
i∈q dfi k ((1− b) + b dl ) + tf
1 i
avdl
• k1 contrôle term frequency
– k1 = 0 à modèle BIR;
– b controle la normalisation de la longueur
– b = 0 à pas de normalisation; b = 1 fréquence relative
• k1 est entre 1.2–2 et b autour de 0.75
Modèle BM25
41