Vous êtes sur la page 1sur 2

Banque de questions autour du cours:

1. Quelle est la relation entre les bases de donnes et la RI? Et entre le systme question-rponse et la RI?
2. Quels sont les buts d'une indexation? Comment peut-on valuer la qualit d'une indexation? Dans quelle mesure
la qualit de l'indexation influence la qualit de la recherche?
3. Comment une indexation automatique se compare une indexation manuelle? Et leur utilisation dans la RI?
4. Une approche possible pour raliser la RI est de balayer squentiellement les textes pour trouver les textes qui
contiennent un segment identique ou similaire la requte. Commentez sur cette approche par rapport aux
aspects suivants: vitesse, espace, qualit de RI.
5. Quels sont les critres pour slectionner les bons index? Quelles sont les approches utilises actuellement?
Comparez ces approches.
6. Qu'est-ce qu'est la pertinence? Quels sont les aspects principaux que vous connaissez sur cette notion?
7. Comment peut-on valuer la performance d'un systme de RI? Quelles sont les ressources ncessaires?
8. Pourquoi utilise-t-on la mesure de prcision moyenne, plutt que les mesures prcision et rappel? Comment la
prcision moyenne est obtenue?
9. Qu'est-ce que sont le bruit et le silence? Quelles sont leurs relations avec la prcision et le rappel?
10. Quelle est la relation entre la prcision et le rappel? Pourquoi faut-il toujours utiliser les deux mesures
ensemble?
11. Dans certaines tudes, on tente de construire des systmes "orients-prcision" ou "orients-rappel".
Commentez sur ces tentatives.
12. Quel est le rle de traitement de la langue naturelle (TAL) dans la RI? Dcrivez son utilisation actuelle est le
perspective dans le futur.
13. Plusieurs exprimentations utilisant des TAL n'ont pas russi amliorer la performance de RI, et souvent la
dtriorent. Est-ce qu'on peut encore esprer une contribution positive des techniques de TAL la RI?
Comment?
14. Nous avons dcrit dans ce cours notamment les modles boolen (y compris le modle bas sur des ensembles
flous) et vectoriel. Comment les comparez-vous? Pourquoi beaucoup d'exprimentations montrent que le
modle vectoriel fonctionne mieux que le modle boolen, mais certaines exprimentations dans TREC
montrent le contraire? De votre analyse, quels sont les types d'applications appropris pour ces deux modles
respectivement?
15. Que signifient tf et idf? Comment sont-elles calcules? Qu'est-ce qu'elles tentent de mesurer?
16. Qu'est-ce qu'est un fichier invers? Pourquoi le cre-t-on?
17. Analysez toutes les procdures pour la ralisation d'un systme de RI, et montrez les procdures identiques pour
la ralisation d'un modle boolen et celles qui sont diffrents. Pour les procdures diffrentes, montrez aussi la
diffrence.
18. Quelle est la relation qu'on suppose existant entre des mots et des concepts dans les systmes classiques? Est-ce
que cette hypothse est correcte? Pourquoi? Quels problmes peut-on avoir de cette hypothse? Comment peut-
on rsoudre ces problmes?
19. Qu'est-ce qu'est une stopliste, et quel est son rle?
20. Qu'est-ce que sont la lemmatisation et la troncature, et quel est leur rle?
21. Pourquoi essaie-t-on de regrouper des mots en un terme compos? Comment fait-on? Quels sont les problmes
dans ces approches? Avez-vous une solution ces problmes?
22. Qu'est-ce qu'est la rtroaction de pertinence (relevance feedback)? A quoi a sert? Expliquez pourquoi cette
technique peut amliorer la performance de la recherche?
23. La mme question pour la pseudo-rtroaction (pseudo-relevance feedback).
24. Quelles sont les diffrences entre la RI et le filtrage de l'information (FI)? Quels changements que ces
diffrences impliquent dans la ralisation d'un systme de FI (en rapport avec un systme de RI)?
25. Qu'est-ce que le systme SMART permet de faire? Comment peut-on lancer ces traitements?
26. Qu'est-ce que des diffrences entre les langues sur impliquent sur la RI? Quelles sont les procdures changer
si on veut utiliser un systme construit pour une langue une autre langue?
27. Quels sont les traitements supplmentaires effectuer dans une RI translinguistique (d'une langue vers une autre
langue) et multilingue (d'une langue vers toutes les langues)?
28. Comment est-ce que le modle LSI fonctionne? Pourquoi ce modle peut amliorer la performance de la RI ?
29. Quelles diffrences y a-t-il entre la RI classique et la recherche de document sur le Web?
30. La condensation de texte vise crer un texte condens pour un long texte. Par exemple, on peut vouloir
raccourcir un texte 30% de sa taille originale. Peut-on utiliser un systme de RI pour cette tche? Pourquoi et
comment?
31. L'extraction de l'information vise trouver des informations de certains types trs spcifiques. Par exemple, on
peut construire un systme pour trouver des informations sur le terrorisme, sur les transactions dans les bourses,
etc. Les approches utilises actuellement essaient de comparer un texte ou une phrase avec les patrons pr-
dfinies afin d'extraire ces informations. Est-ce qu'on peut utiliser la RI pour cette tche? Pourquoi et comment?
32. Est-ce que les techniques dcrites dans ce cours sont utilisables pour la recherche d'informations non textuelles?
Par exemple, pour des images, pour des bandes sonores, Si oui, comment?
33. Quelle sont les similarits et les diffrences entre la classification des documents et le clustering des
documents? Dans quels cas peut-on les utiliser? Quelles sont les techniques courantes utilises ? Comment les
comparez-vous ?
34. Comment est-ce quun modle probabiliste fonctionne? Quelles probabilits doit-on estimer pour permettre le
fonctionnement de ce modle? Est-ce qu'il est possible de supprimer ou assouplir l'hypothse d'indpendance
entre les termes? Qu'est-ce que cela implique pour son implantation?
35. Quel est le but de l'expansion de requte? Comment arrive-t-on le faire? Quelles ressources sont ncessaires?
36. Quelle est la diffrence entre lexpansion globale (analyse du contexte global) et lexpansion locale (analyse du
contexte local) ? Pourquoi des exprimentations ont-elles montr de meilleures performances avec lexpansion
locale ?
37. Quels sont les problmes additionnels peut-on rencontrer pour la recherche d'information translinguistique?
Quelles solutions a-t-on proposes? Quels sont les avantages et les inconvnients de ces approches? Et pour la
recherche d'information multilingue, quel est le problme additionnel?
38. Est-ce que le concept de "profil d'usager" est utilisable dans le cas de recherche d'information? Comment?

Questions sur les dpendances

1. Pourquoi est-il important de tenir compte des de pendances entre les termes ?
2. Une faon de couvrir les de pendances possibles est dutiliser un dictionnaire de
syntagmes (ou termes compose s). Quels sont les avantages et les inconve nients de cette
approche ? Est-ce que cest toujours une bonne ide e de demander aux experts dannoter
des de pendances (syntagmes) pour la RI ?
3. Une autre faon de couvrir les de pendances est dutiliser des bi-grammes dans la
reque te. Quels sont les avantages et les inconve nients par rapport a lutilisation dun
dictionnaire ?
4. Une faon plus flexible de tenir compte des de pendances en utilisant la proximite des
termes fonctionne assez bien en pratique. Quelles sont les raisons possibles de ce
succe s ?
5. Comment de terminer les de pendances utiles vs. des de pendances inutiles ?
6. La plupart des approches sur les de pendances utilisent des de pendances entre une
paire de termes. Est-ce que cette approche est trop limite e ? est-ce quon doit
augmenter le type de de pendance a celles entre plusieurs termes ?
7. Dans le contexte de recherche sur le web, quels sont des e le ments qui peuvent nous
aider a savoir si des termes sont de pendants ?
8. Pour implanter des approches utilisant des de pendances, on peut pre -segmenter des
groupes de termes qui sont de pendants, et cre er un index supple mentaire en utilisant
ces groupes de termes de pendants ; ou bien on peut indexer des documents avec des
termes et leurs positions. Quels sont des avantages de chaque me thode ?

Vous aimerez peut-être aussi