Vous êtes sur la page 1sur 44

25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Recherche dinformation Akli ABBAS abbasakligmail com Dpartement


Informatique

prev next

Slides: 88

Download presentation

Recherche d’information Akli ABBAS abbasakli@gmail. com Département Informatique Université de Bouira

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 1/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Plan du cours • Chapitre 1 : Les notions de bases de la recherche d’information • Chapitre 2 : Les modèles de recherche
d’information • Chapitre 3 : Les Stratégies de recherche • Chapitre 4 : Evaluation des systèmes de recherche d’information Cours RI
A. ABBAS 2

Chapitre : 1 Qu’est ce que la RI ? • Recherche d’information (RI) est une branche de l’informatique qui s’intéresse à l’acquisition,
l’organisation, le stockage, la recherche et la sélection d’information «salton 1968» • Ensemble des méthodes et techniques pour
l’acquisition, l’organisation, le stockage, la recherche et la sélection d’information pertinente pour un utilisateur Cours RI A. ABBAS 3

Chapitre : 1 Bref historique de la RI • 1940: Apparition des SRI, focalisation de la RI sur les applications dans des bibliothèques. •
1950: Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites collections de documents. • 1960 et
1970: Apparition du système SMART (G. Salton, 1971), développement d’une méthodologie d'évaluation de système et conception

de corpus de test pour évaluer des systèmes différents. • 1980: Développement de l'intelligence arti cielle, ainsi on tentait d'intégrer
des techniques de l'IA en RI (système expert). • 1990 et 1995: L’apparition d’internet, la RI a été modi é et sa problématique plus
élargie (traitement des documents multimédia). Cours RI A. ABBAS 4

Chapitre : 1 Domaine très visible Cours RI A. ABBAS 5

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 2/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 . . Mais pas seulement • Plusieurs domaines d’application – Internet (Web, Forum/Blog search, news) – Entreprises
(entreprise search) – Bibliothèques numériques «digital library» – Domaine spécialisé (médecine, droit, littérature, chimie,
mathématique, brevets, software, …) – Nos propres PC (Yahoo! Desktop search) Cours RI A. ABBAS 6

Chapitre : 1 Gros volumes d’information VD RFID Digital TV MP 3 players Digital cameras Camera phones, Vo. IP Medical imaging,
Laptops, Data center applications, Games Satellite images, GPS, ATMs, Scanners Sensors, Digital radio, DLP theaters, Telematics
Peer-to-peer, Email, Instant messaging, Videoconferencing, CAD/CAM, Toys, Industrial machines, Security systems, Appliances
Cours RI A. ABBAS 7

Chapitre : 1 Origine Cours RI A. ABBAS 8

Chapitre : 1 Origine • L’information (numérique) est disponible partout et avec un gros volumes. • Création des systèmes de
recherche d’information. Cours RI A. ABBAS 9

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 3/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Dé nition Chapitre : 1 • Un Système de Recherche d’Information (SRI) est un programme (ensemble de programmes) informatique
qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs Cours RI A. ABBAS 10

Chapitre : 1 Donnée Vs. Information Vs. Connaissance Système de Recherche d’information Système de gestion de Base de
données Données : Chaîne de caractères + valeurs associées à des objets, des personnes et des événements : (15) Select. . From …
where Découverte de connaissance (information mining) Information : Signi cation (explication/ description) des données, données
intelligible (compréhensible): (15° C - relevé à 18 h, sous abri, à Bouira) Connaissance : Information découverte, comprise et
partagée par une communauté (étant donné qu’on est à Bouira 15°C en février c’est plutôt froid) Cours RI A. ABBAS 11

Chapitre : 1 Information • Formes –Texte –images, sons, vidéo, graphiques, etc. • Propriétés – Structure Non structuré OU semi
structuré (XML) (HTML) – Hétérogénéité • langage (multilingues) • media (multimédia) • structures Cours RI A. ABBAS 12

Chapitre : 1 Dé nition d’un SRI • Un Système de Recherche d’Information (SRI) est un programme (ensemble de programmes)
informatique qui a pour but de sélectionner des informations pertinentes répondant à des besoins utilisateurs Cours RI A. ABBAS 13

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 4/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Pertinence ? La notion de pertinence peut être appréhendée à deux niveaux : ØNiveau utilisateur : la pertinence
correspond à la satisfaction de l’utilisateur par apport à l’ensemble des documents restitués par le SRI. (pertinence subjective,
cognitive) ØNiveau système : le système mesure un degré de pertinence, une valeur de similitude entre un document et une requête.
(pertinence algorithmique, objective) Le but de tout SRI est de rapprocher la pertinence système de la pertinence utilisateur. Cours RI
A. ABBAS 14

Processus de RI Chapitre : 1 documents Langage de requêtes Requête SRI Traitement Reformulation de la requête Liste de mots clé
Traitement = Indexation Appariement/ Ranking Modèles de RI : Vectoriel, probabiliste, … Index (mots clés) Fichier inverse
Visualisation Cours RI A. ABBAS 15

Chapitre : 1 Indexation ? § Indexation = représentation de l’information Def 1: Consiste à créer un ensemble de mots clés re étant
aux mieux le contenue sémantique du document, cette liste de mots clés sera plus facilement exploitable lors du processus de la RI
Def 2 : Processus permettant de construire un ensemble d’éléments « clés » permettant de caractériser le contenu d’un document /
retrouver ce document en réponse à une requête § Éléments clés – Information textuelle • mots simples : pomme • groupe de mots :
pomme de terre – Image • Couleurs, formes Cours RI A. ABBAS 16

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 5/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Indexation ? • Les approches d’indexation ü Manuelle (expert en indexation) ü Automatique (ordinateur) ü Semi-
automatique (combinaison des deux) • Basée sur ü Un langage contrôlé (lexique/thesaurus/ontologie/réseau sémantique) ü Un
langage libre (éléments pris directement des documents) Cours RI A. ABBAS 17

Chapitre : 1 Un langage contrôlé ? • Lexique Ø Liste de mots clés • Liste hiérarchique Ø de concepts Ø de notations (codes) •
Thésaurus Ø Liste de mots clés + relation sémantiques entre les mots clés • Ontologie Ø Liste concepts + relations entre les
concepts Cours RI A. ABBAS 18

Un langage contrôlé ? Chapitre : 1 • Liste hiérarchique (de concepts & de notations (codes)) A. Anatomy B. Organisms C. Diseases C
1. Bacterial infections C 2. Virus diseases C 21. arbovirus infection C 22. Encephalitis, Epidemic C 3. Parasitic diseases Cours RI A.

ABBAS 19

Chapitre : 1 Un langage contrôlé ? • Thésaurus : Liste de mots clés + relation sémantiques entre les mots clés Cours RI A. ABBAS 20

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 6/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Indexation manuelle ? Ø Choix des mots effectué par des indexeurs Ø Basée sur un vocabulaire contrôlé Ø Approche
utilisée souvent dans les bibliothèques, les centres de documentation Ø Dépend du savoir faire de l’indexeur Cours RI A. ABBAS 21

Chapitre : 1 Indexation manuelle ? Avantage du vocabulaire contrôle Ø Permet la recherche par concepts (par sujets, par thèmes),
plus intéressante que la recherche par mots simples Ø Permet la classi cation (regroupement) de documents (par sujets, par
thème) Ø Fournit une terminologie standard pour indexer et recher les documents Cours RI A. ABBAS 22

Chapitre : 1 Indexation manuelle ? Inconvénients du vocabulaire contrôle Ø Indexation très coûteuse – Pour construire le vocabulaire
– Pour affecter les concepts (termes) aux documents (imaginer cette opération sur le web) Ø Di cile à maintenir – La terminologie
évolue, plusieurs termes sont rajoutés tous les jours Ø Processus humain donc subjectif – Des termes différents peuvent être
affectés à un même document par des indexeurs différents Ø Les utilisateurs ne connaissent pas forcément le vocabulaire utilisé
par les indexeurs Cours RI A. ABBAS 23

Chapitre : 1 Indexation Automatique ? C’est le SRI qui génère les indexes documents. Approches : v Statistique (distribution des
mots) et/ou TALN (compréhension du texte) Approche courante est plutôt statistique avec des hypothèses simples : ØRedondance
d’un mot marque son importance ØCooccurrence des mots marque le sujet d’un document 4 étapes : – Étape 1 : Extraction de mots
simples – Étape 2 : Normalisation des mots extraits – Étape 3 : Statistique sur les occurrences – Étape 4: Construction du chier
inverse et pondération des mots Cours RI A. ABBAS 24

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 7/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Indexation Automatique ? Etape 1 : Extraction des mots 1. Extraire les termes (tockenization) terme = suite de caractères
séparés par (blanc ou signe de ponctuation, caractères spéciaux, …), Nombres q Ce sont les index utilisés lors de la recherche 2.
Suppression des mots « vides » (stoplist / Commo Words removal) Mots trop fréquents mais pas utiles – Exemples : • Anglais : the,
or, a, you, I, us, … • Français : le , la de , des, je, tu, … Cours RI A. ABBAS 25

Chapitre : 1 Indexation Automatique ? Etape 2 : Normalisation des mots extraits Ø «Lemmatisation» (radicalisation) / (stemming) –
Processus morphologique permettant de regrouper les variantes d’un mot • Ex 1 : économie, économiquement, économiste, économ
• Ex 2 (pour l’anglais) : retrieve, retrieving, retrieval, retrieved, retrieves retriev ØUtilisation de règles de transformations – règle de
type : condition action : Ex : si mot se termine par s supprimer la terminaison – Technique utilisée principalement pour l’anglais :
L’algorithme le plus connu est : Porter Cours RI A. ABBAS 26

Indexation Automatique ? Chapitre : 1 Etape 2 : Normalisation des mots extraits ØAnalyse grammaticale – Utilisation de lexique
(dictionnaire) – Tree-tagger (gratuit sur le net) ØTroncature : Tronquer les mots à X caractères – Tronquer plutôt les su xes –
Exemple troncature à 7 caractères : économiquement : écomoni Quelle est la valeur optimale de X ? : 7 caractères pour le Français
Cours RI A. ABBAS 27

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 8/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Indexation Automatique ? Etape 3 : Statistique sur les occurrences Pour chaque mot, on doit faire la statistique de sa
fréquence d'occurrence dans le document. Ainsi, à chaque nouvelle occurrence d'un mot, on ajoute 1 dans sa fréquence. Cours RI A.
ABBAS 28

Chapitre : 1 Indexation Automatique ? (Exemple) ü Texte : un système de recherche d ’informations (document) (SRI, base de
données documentaires) permet d ’analyser, d ’indexer et de retrouver les documents pertinents répondant à un besoin d ’un
utilisateur. Etape 1 : Extraire les termes et suppression des mots vides ü système, recherche, informations, document, SRI, base,
données, documentaires, analyser, indexer, retrouver, documents, pertinents, répondant, besoin , utilisateur Etape 2 : Normalisation
des mots extraits (troncature à 7) ü systeme, recherc, informa, documen, sri, base, donnee, documen, analyse, indexer, retrouv,
documen, pertine, reponda, besoin, utilisa Etape 3 : Statistique sur les occurrences ü systeme 1, recherc 1, informa 1, documen 3, sri
1, base 1, donnee 1, analyse 1, indexer 1, retrouv 1, pertine 1, reponda 1, besoin 1, utilisa 1 Cours RI A. ABBAS 29

Chapitre : 1 Indexation Automatique ? Etape 4 : Construction du chier inverse et pondération des mots Une fois les documents
indexés le résultat est que chaque document aura donc un descripteur / une représentation : ØUn descripteur : – Liste de mots –
Fréquence de chaque mot ØCes mots sont ensuite stockés dans une structure appelée chier inverse Cours RI A. ABBAS 30

Chapitre : 1 Indexation Automatique ? Etape 4 : Construction du chier inverse et pondération des mots Cours RI A. ABBAS 31

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 9/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 Indexation Automatique ? Etape 4 : Construction du chier inverse et pondération des mots Cours RI A. ABBAS 32

Chapitre : 1 Indexation Automatique ? Etape 4 : pondération des mots Comment caractériser les termes importants dans un
document ou plusieurs docuements? • ……Pondération des termes • Idée : –Les termes importants doivent avoir un poids fort Cours
RI A. ABBAS 33

Chapitre : 1 Approches de pondération • Plusieurs approches : – Tf, IDF (approche plus répandue) – Pourvoir discriminatoire d’un
terme -…. • Dépend aussi du modèle de RI. Cours RI A. ABBAS 34

TF * IDF Chapitre : 1 ØTF : (term frequency) plus un terme est fréquent dans un document plus il est important dans la description de
ce document Exemple de tf : TF = Robertson TF : TF = TF/(TF+k) est souvent appelé“Okapi TF” • K introduit pour tenir compte de la
longueur des documents Cours RI A. ABBAS 35

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 10/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 1 TF * IDF Ø IDF : (Inverse Document Frequency) la fréquence du terme dans la collection (ensemble des documents). ü
Désigne le pouvoir de discrimination d’un terme c. -à-d. qu'un terme distingue bien un document des autres documents. avec N : le
nombre de documents de la collection, nt : le nombre de documents contenant le terme t ØLe poids du terme dans un document w(t,
d) = tf *idf Cours RI A. ABBAS 36

Chapitre : 1 TD N° 1 DOCUMENTS: D 1 : La mesure R-précision est pertinente pour la mesure de la précision moyenne D 2: Les
modèles de recherche les plus e caces sont le modèle de langage et le modèle vectoriel D 3: L'e cacité de la recherche est
mesurée par la précision moyenne D 4 : Apparition du modèle booléen et l’élaboration de petites expérimentations sur des petites
collections de documents QUESTIONS : ØDonner la table des fréquences : terme, document, terme dans la collection ØCalculer
TF*IDF de chaque terme ØSoit la requête Q: «Modèle de recherche e cace » § Calculer le degré de correspondance R(Di, Q) = w(tq,
Di) représentant la somme des fréquences des termes de la requête tq dans le document Di. § Quel est le document qui sera classé
en haut lors de la réponse. Cours RI A. ABBAS 37

Chapitre : 1 Qualité de l’indexation • Exhaustive(rappel) : Représente le nombre de documents pertinents extraits par rapport au
nombre de documents pertinents (limiter le silence) • Spéci cité(précision) : Représente le nombre de documents pertinents extraits
par rapport au nombre de documents extraits. (Exactitude et précision des index, limiter le bruit) Cours RI A. ABBAS 38

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 11/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 2 Les modèles de RI Cours RI A. ABBAS 39

Chapitre : 2 Qu’est ce qu’un modèle de RI ? ØUn modèle est une abstraction d’un processus (ici recherche d’info) ØLes modèles de RI
peuvent décrire – Le processus de mesure de pertinence : comment les documents sont sélectionnés et triés – L’utilisateur : besoin
en information, interaction – L’information ØLes modèles de RI manipulent plusieurs variables : les besoins, les documents, les
termes, les jugements de pertinence , les utilisateurs, … ØLes modèles de RI se distinguent par le principe d’appariement (matching) :
appariement exact /approché (Exact /Best matching Cours RI A. ABBAS 40

Chapitre : 2 Appariement exact /Appariement approché ØAppariement exact ü Requête spéci e de manière précise les critères
recherchés ü L’ensemble des documents respectant exactement la requête sont sélectionnés, mais pas ordonné. ØAppariement
approché ü Requête décrit les critères recherchés dans un document ü Les documents sont sélectionnés selon un degré de

pertinence (similarité/ probabilité ) vis-à-vis de la requête et sont ordonné Cours RI A. ABBAS 41

Modèles de RI Chapitre : 2 Les différent modèles de la RI ü Modèle booléen (± 1950) üModèle vectoriel (± 1970) üModèle
probabiliste (± 1976) üModèle connexionniste (réseaux de neurones)(± 1989) üModèle d’inférence (réseau d’inférence bayésien) (±
1992) üModèle LSI (Latent Sementic Indexing) (± 1994) üModèle de langage (± 1998) Cours RI A. ABBAS 42

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 12/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 2 Modèles de RI Cours RI A. ABBAS 43

Chapitre : 2 Le Modèle Booléen • Le premier modèle de RI • Basé sur la théorie des ensembles • Un document est représenté un
ensemble de termes: –Ex : d 1(t 1, t 2, t 5); d 2(t 1, t 3, t 5, t 6); d 3(t 1, t 2, t 3, t 4, t 5) • Une requête est un ensemble de mots avec des
opérateurs booléens : AND (∧), OR(∨), NOT (¬) –Ex: q = t 1 ∧(t 2 ∨¬t 3) • Appariement Exact basé sur la présence ou l’absence des
termes de la requête dans les documents - Appariement (d, q) = R (d, q)=1 ou 0 Cours RI A. ABBAS 44

Chapitre : 2 Le Modèle Booléen La correspondance R(d, q) entre une requête et un document est déterminée de la façon suivante:
Cours RI A. ABBAS 45

Le Modèle Booléen Chapitre : 2 Exemples : Requête q = t 1 ∧(t 2 ∨¬t 3) Documents d 1(t 1, t 2, t 5); d 2(t 1, t 3, t 5, t 6); d 3(t 1, t 2, t 3, t
4, t 5) Calculer la correspondance : R(d 1, q) = ? R(d 2, q) = ? R(d 3, q) = ? Cours RI A. ABBAS 46

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 13/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 2 Le Modèle Booléen Les avantages 1. Ce modèle est simple à mettre en œuvre 2. la clarté conceptuelle des systèmes
booléens Les inconvénients 1. Tous les termes dans un document ou dans une requête étant pondérés de la même façon simple (0
ou 1) c’est à dire, indexation binaire 2. La sélection d’un document est basée sur une décision binaire 3. Pas d’ordre pour les
documents sélectionnés 4. Formulation de la requête di cile pas toujours évidente pour beaucoup l’utilisateurs 5. Problème de
collections volumineuses : le nombre de documents retournés peut être considérable Cours RI A. ABBAS 47

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Ø Proposé par Salton dans le système SMART (Salton, G. 1970) Idée de base :
Représenter les documents et les requêtes sous forme de vecteurs dans l’espace vectoriel engendré par tous les termes de la
collection de documents Un document Doci est représenté par un vecteur de dimension m : Doci= (wi 1, wi 2 , . . . , wim) pour i = 1, 2,
…, n. où wij est le poids (TF*IDF) du terme tj dans le document Doci n est le nombre de documents dans la collection, m est le
nombre de termes dans les documents de la collection. Une requête qk est représentée par un vecteur dans le même espace des
termes. qk = (wk 1 , wk 2 , . . . , wkm). où wkj est le poids de terme tj dans la requête qk. Cours RI A. ABBAS 48

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Soit T<t 1, t 2, …, t. M> : ensemble des M termes de la collection Di= (wi 1, wi 2 , . .
. , wim) qk = (wk 1 , wk 2 , . . . , wkm) Cours RI A. ABBAS 49

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Une collection de n documents et M termes distincts peut être représentée sous
https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 14/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

forme de matrice La requête est également représentée par un vecteur. Cours RI A. ABBAS 50

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Exemple : – T (document, web, information, recherche, image, contenu) :
ensemble des termes d’indexation d 1(document 2, web 1) ; d 2(information 1, document 3, contenu 2) q 1 (image, web); q
2(recherche, documentaire) – Représentation vectorielle d 1 (2, 1, 0, 0) d 2 (? ) q 1 (? ) q 2 (? ) Cours RI A. ABBAS 51

Chapitre : 2 Modèle Vectoriel (Vector Space Model) La pertinence est traduite en une similarité vectorielle : un document est d’autant
plus pertinent à une requête que le vecteur associé est similaire à celui de la requête. Cours RI A. ABBAS 52

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Le degré de correspondance R(d, q): Produit scalaire des deux vecteurs : R(di,
qk) = pour i = 1, 2, …, n. Cosinus de l’angle : pour i = 1, 2, …, n. R(di, qk) = Cos(di, qk) = Cours RI A. ABBAS 53

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Le degré de correspondance R(d q): Cours RI A ABBAS 54
https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 15/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique
Chapitre : 2 Modèle Vectoriel (Vector Space Model) Le degré de correspondance R(d, q): Cours RI A. ABBAS 54

Chapitre : 2 Modèle Vectoriel (Vector Space Model) Avantages L’un des avantages du modèle vectoriel réside dans sa simplicité
conceptuelle et de mise en œuvre. Il offre aussi des moyens simples pour classer les résultats d’une recherche Il est robuste et
performant dans les tests. Inconvénients Approche vectorielle considère chaque terme comme étant indépendant des autres (pas
de liens entre termes). Cours RI A. ABBAS 55

Chapitre : 2 Extension du modèle Booléen Cours RI A. ABBAS 56

Chapitre : 2 Extension du modèle Booléen Prendre en compte l’importante des termes dans les documents et/ou dans la requête •
Possibilité d’ordonner les documents sélectionnés • Comment étendre le modèle booléen ? – Interpréter les conjonctions et les
disjonction • Deux modèles : – Modèle ou- fuzzy based model (basé sur la logique oue) – Modèle booléen étendu- extended
boolean model Cours RI A. ABBAS 57

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 16/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 2 Modèle booléen étendu Prendre en compte l’importante des termes dans les documents et/ou dans la requête •
Possibilité d’ordonner les documents sélectionnés • Comment étendre le modèle booléen ? – Interpréter les conjonctions et les
disjonction • Deux modèles : – Modèle ou- fuzzy based model (basé sur la logique oue) – Modèle booléen étendu- extended
boolean model Cours RI A. ABBAS 58

Chapitre : 2 Modèle booléen étendu Combinaison des modèles booléen et vectoriel –Document : liste de termes pondérés –Requête
booléenne –Utilisation des distances algébriques pour mesurer la pertinence d’un document vis-àvis à d’une requête Cours RI A.
ABBAS 59

Chapitre : 2 Modèle booléen étendu - appariement § Considérons - dj= (w 1 j, w 2 j , . . . , wtj) - q : requête à deux termes (t 1 , t 2)
Cours RI A. ABBAS 60

Chapitre : 2 Modèle booléen étendu - appariement Exemple : Documents D 1 D 2 D 3 D 4 Booléen booléen étendu A B A ou B A et B 1
1 ? ? 1 0 ? ? 0 1 1 0 ? ? 0 0 ? ? Cours RI A. ABBAS 61

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 17/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 2 Modèle booléen étendu - appariement Exemple : Documents D 1 D 2 D 3 D 4 Booléen booléen étendu A B A ou B A et B 1
1 1 1 1 0 1/sqr(2) 1 -1/sqr(2) 0 1 1 0 1/sqr(2) 1 -1/sqr(2) 0 0 0 Cours RI A. ABBAS 62

Chapitre : 2 Modèle booléen étendu - appariement § Généralisation –Distance euclidienne à plusieurs dimensions –Utilisation de la
p-norm § Considérons - dj= (w 1 j, w 2 j , . . . , wtj) - q : requête composée de m termes (t 1 , t 2, …, tm) Cours RI A. ABBAS 63

Chapitre : 2 Modèle booléen étendu - appariement § Généralisation - dj= (w 1 j, w 2 j , . . . , wtj) - Si la requête et les documents sont
pondérés q(q 1 , q 2, …, qm) Cours RI A. ABBAS 64

Chapitre : 2 Similarité d'une requête de type ET (t 1 et t 2 ) entre une requête Q et les documents Dj et Dj+1 Similarité d'une requête
de type OU (t 1 ou t 2 ) entre une requête Q et les documents Dj et Dj+1 Cours RI A. ABBAS 65

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 18/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

TESTE D 1 « L'objectif d'un système de recherche d'informations est de répondre à une requête d'un utilisateur » D 2 « L’information
traitée dans ce domaine de recherche est l’ explication ou la description d’une donnée» Q 1 (recherche, information) Questions : 1 -
On suppose que les termes d’indexation sont obtenus par extraction des mots simples (avec élimination des mots vides) mais sans
troncature. Précisez l’ensemble des termes obtenus. 2 - Proposez une fonction de pondération et justi ez votre choix 3 - Calculez
degré de correspondance R(Di, Q) = w(tq, Di) (similarité) entre la requête et les documents et dites quel document sera restitué au
premier Cours RI A. ABBAS 66

Chapitre : 2 Modèle booléen basé sur des ensembles ous Un document est représenté comme un ensemble de termes pondérés
comme suit: d = {…, (ti, ai), …} ti est le terme, ai est le poids associer au terme ti. Le degré de correspondance (évaluation d' une
requête) : Évaluation 1: [Zadeh] Cours RI A. ABBAS 67

Chapitre : 2 Modèle booléen basé sur des ensembles ous Un document est représenté comme un ensemble de termes pondérés
comme suit: d = {…, (ti, ai), …} ti est le terme, ai est le poids associer au terme ti. Le degré de correspondance (évaluation d'une
requête) : Évaluation 2: [Lukaswicz] Cours RI A. ABBAS 68

Chapitre : 3 Evaluation de performance dans les SRI Objectif: Evaluer la performance d’une approche, d’une technique, d’un système
–En RI, on ne mesure pas la performance absolue d’un système / technique / approche car non signi cative –Mais, . . • Evaluation
comparative entre approches • Mesurer la performance relative de A par rapport à B Critères d’évaluation • Identi er la tâche à
évaluer • Identi er les critères (Cleverdon 66) – acilité d’utilisation du système – oût accès/stockage – résentation des résultats –
apacité d’un système à sélectionner des documents pertinents. Cours RI A. ABBAS 69

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 19/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 3 Evaluation de performance dans les SRI Deux facteurs • Rappel – La capacité d’un système à sélectionner tous les
documents pertinents de la collection • Précision – La capacité d’un système à sélectionner que des documents pertinents Cours RI
A. ABBAS 70

Non pertinents Evaluation de performance dans les SRI Pertinents Chapitre : 3 Cours RI A. ABBAS Non Pertinents & Non &
Sélectionnés Pertinents & Sélectionnés Pertinents & Non Sélectionnés 71

Chapitre : 3 Evaluation de performance dans les SRI Cours RI A. ABBAS 72

Chapitre : 3 Evaluation de performance dans les SRI Cours RI A. ABBAS 73

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 20/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 3 Evaluation de performance dans les SRI Lien entre Rappel et Précision moyenne : une seule valeur reliant le rappel et
précision Cours RI A. ABBAS 74

Chapitre : 3 Evaluation de performance dans les SRI Démarche d’évaluation • Démarche Analytique (formelle): – Di cile pour les SRI,
car plusieurs facteurs : pertinence, distribution des termes, etc. sont di ciles à formaliser mathématiquement. • Démarche
Expérimentale – par « benchmarking » . – Evaluation effectuée sur des collections de tests – Collection de test : un ensemble de
documents, un ensemble de requêtes et des pertinences (réponses positives pour chaque requêtes) Cours RI A. ABBAS 75

Chapitre : 3 Evaluation de performance dans les SRI Démarche expérimentale • Lancée dès les années 1960, par Cleverdon, dans le
cadre du projet Cran eld • Objectif du projet Cran eld – Construire des collections de test – Evaluer les systèmes sur ces collections
de test Cours RI A. ABBAS 76

Chapitre : 3 Evaluation de performance dans les SRI Evaluation à la Cran eld Requêtes de test Cours RI A. ABBAS 77

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 21/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 3 Evaluation de performance dans les SRI Calcul du rappel et de la précision • On suppose qu’on dispose d’une collection
de tests –Lancer chaque requête sur la collection de tests. –Marquer les documents pertinents par rapport à la liste de test. –
Calculer le rappel et la précision à pour chaque document pertinent de la liste. Cours RI A. ABBAS 78

Chapitre : 3 Evaluation de performance dans les SRI Calcul du rappel et de la précision- Exemple Cours RI A. ABBAS 79

Chapitre : 3 Evaluation de performance dans les SRI Calcul du rappel et de la précision- Exemple 2 Cours RI A. ABBAS 80

Chapitre : 3 Evaluation de performance dans les SRI Interpolation de la courbe Rappel/Précision • Interpoler une précision pour
chaque point de rappel : –rj ∈{0. 0, 0. 1, 0. 2, 0. 3, 0. 4, 0. 5, 0. 6, 0. 7, 0. 8, 0. 9, 1. 0} –r 0= 0. 0, r 1= 0. 1, …, r 10=1. 0 • La précision
interpolée au point de rappel rj est égale à la valeur maximale des précisions obtenues aux points de rappel r, tel que r >= rj Cours RI
A. ABBAS 81
https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 22/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 3 Evaluation de performance dans les SRI Exemple Interpolation des Précisions 1 0. 75 0. 71 0. 67 0. 01 0 Cours RI A.
ABBAS 82

Chapitre : 3 Evaluation de performance dans les SRI R-P courbes sur l’ensemble des requêtes Illisible, di cile de comparer deux
approches/systèmes requête par requête On a besoin d’une moyenne entre les requêtes Cours RI A. ABBAS 83

Chapitre : 3 Evaluation de performance dans les SRI Courbe des moyennes sur plusieurs requêtes Macro moyenne –Calculer la
précision moyenne à chaque point de rappel pour l’ensemble des requêtes. –Tracer la courbe rappel-précision Cours RI A. ABBAS 84

Chapitre : 3 Evaluation de performance dans les SRI Exemple Cours RI A. ABBAS 85

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 23/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chapitre : 3 Evaluation de performance dans les SRI Exemple Cours RI A. ABBAS 86

Chapitre : 3 Evaluation de performance dans les SRI Comparaison de deux systèmes sur un ensemble de requêtes Cours RI A.
ABBAS 87

Test N° 2 Soient deux documents D 1 et D 2, représentés par les termes d'indexation T= t 1, t 2, …t 8 Les poids des termes dans D 1
et D 2 sont: t t 1 t 2 t 3 t 4 t 5 t 6 t 7 t 8 W (ti ; D 1) 0. 5 0 0. 7 1 0 0. 3 0. 6 0. 8 W (ti ; D 2) 0. 2 0. 3 0. 5 0 0. 8 0. 4 0. 9 0 Questions : 1 -
Donner les représentations de D 1 et D 2 dans le cas d’utilisation des modèles: 1) Booléen 2) Vectoriel 2 - Soit la requête Q contenant
les termes : t 1 et t 3 et t 6 - Représenter et traiter cette requête selon les modèles booléen et vectoriel Cours RI A. ABBAS 88

Report

Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Dpartement DocumentationURFIST RECHERCHE DOCUMENTAIRE ET RECHERCHE DINFORMATION

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 24/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Bien

Dpartement O ce Autoroute A 41 Dpartement O ce Dpartement

La recherche Philippe Binder La recherche organiser Recherche

Le Brevet informatique et Internet Le brevet informatique

Informatique 2 Continue B Shishedjiev Informatique 1 Reprsentation

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 25/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Droit Dontologie Ethique Informatique Droit Dontologie Ethique Informatique

Informatique et Rseaux Politique dachat informatique 19 February

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 26/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Informatique Ordinateur Programme Selon le ROBERT Informatique Thorie

Spci cations axiomatiques des types abstraits EISTI Dpartement Informatique

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 27/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Universit Mentouri de constantine Dpartement informatique 3 licence

Les systmes tempsrel hard embarqus Dpartement informatique DUT

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 28/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Rapport de stage UFR de Sciences Dpartement Informatique

UFR Sciences et Techniques Dpartement Informatique Campus Blois

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 29/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Maintenance informatique des collges Dpartement de lAude Coter

Que faire aprs le DUT Dpartement Informatique IUT

ECOLE SUPERIEURE POLYTECHNIQUE ESP Dpartement Gnie Informatique 30112014


https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 30/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique
ECOLE SUPERIEURE POLYTECHNIQUE ESP Dpartement Gnie Informatique 30112014

Spcialit Automatique Electronique Dpartement de Gnie Electrique Informatique

Thorie des systmes dinformation 6 INFORMATIQUE DE COMMUNICATION

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 31/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

DRT Gnie informatique Gopositionnement et Systmes dinformation gographique

Le Dpartement du Bout du Monde Ce Dpartement

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 32/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Dpartement de Gnie lectrique Dpartement Tlcommunications Services Usages

Dpartement fdral des affaires trangres DFAE Dpartement fdral

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 33/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Dpartement fdral des affaires trangres DFAE Dpartement fdral

Mayotte Le nouveau dpartement Franais Mayotte nouveau dpartement

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 34/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Mayotte Le nouveau dpartement Franais Mayotte nouveau dpartement

Introduction aux Systmes dInformation Rpartis Stphane Frenot Dpartement

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 35/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Institut de Recherche en Informatique et Systmes Alatoires

Travail Etude Recherche Master I STIC Informatique Gestionnaire

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 36/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Master Recherche Informatique TEXT MINING Fouille de textes

Centre de Recherche en Informatique du CNAM Conservatoire

INF 8000 Initiation la recherche en informatique Utilisation

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 37/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Master 2 recherche en informatique Parcours 4 Des

LABORATOIRE GREYC Groupe de recherche en informatique image

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 38/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

INRIA Institut National de Recherche en Informatique et

INM 6000 Informatique et socit Recherche documentaire Jean

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 39/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Chane dinformation Flux dinformation dbut Pour assurer le

Systmes dinformation fondements des systmes dinformation Le cours

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 40/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

SYSTEMES DINFORMATION CONCEPTION ET METHODOLOGIE 1 Systme dinformation

Runion dinformation syndicale Hors de France Runion dinformation

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 41/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Les systmes dinformation Mthodologie des systmes dinformation 1

Dpartement dinformatique et de recherche oprationnelle Certi cat en

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 42/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

Sminaire de Recherche Interdisciplinaire du Dpartement EGSH conomie

La recherche dinformation sur le web recalibr Lvaluation

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 43/44
25/05/2021 Recherche dinformation Akli ABBAS abbasakligmail com Dpartement Informatique

La recherche dinformation sur Internet enjeux dducation technologique

https://slidetodoc.com/recherche-dinformation-akli-abbas-abbasakligmail-com-dpartement-informatique/ 44/44

Vous aimerez peut-être aussi