Vous êtes sur la page 1sur 29

La recherche documentaire

sur Internet : généralités


Diversité des outils de recherche sur Internet :
 Les annuaires ou répertoires
Yahoo, MSN
 Les moteurs de recherche
Google
MOTEURS DE ANNUAIRES
RECHERCHE Principes (REPERTOIRES)
S’interrogent par requête Principes
(mots-clés) Arborescence de thèmes
Résultat constitué et sous-thèmes
dynamiquement par Résultat statique
exploration du web par
un robot
MOTEURS DE ANNUAIRES
RECHERCHE Avantages
Avantages Simplicité de
Possibilité de recherche l’organisation et de
fine l’interrogation
Dynamisme des pages
MOTEURS DE ANNUAIRES
RECHERCHE
Inconvénients
Inconvénients
Référencement sur
Quantité de pages
demande : résultats
Moteurs à capacités partiels (pages statiques)
inégales Indexation manuelle et
Résultats liés à superficielle
l’algorithme (différents Nombre de clicks
selon les moteurs)
1. Principes de fonctionnement d’un
moteur de recherche
Moteur de recherche composé de :
 Un robot ou crawler (Ex. GoogleBot) qui visite les pages web
qu’il rencontre – fréquence de mise à jour variable selon les
moteurs et parfois inconnue
 Un index contenant toutes les pages web visitées rapatriées
par le robot
 Un serveur web qui offre l’interface de recherche et présente
les résultats d’une requête
Principe technique de présentation des données :
Ex. l’algorithme Google
 Utilisation du logiciel Page Rank qui classe les pages web
retenues en fonction de leur popularité
 Analyse des pages web et des liens qu’elles contiennent
 Pas de référencement payant
Exercices de
recherche
comparée :
en utilisant à chaque fois Google, Yahoo, MSN/Live
Search, Voilà.
Rechercher « approche par compétences» : A
quelle position trouvez-vous le site
Trouver l’adresse Internet du site pédagogique
traitant le problème de façon pertinente
Présence de la publicité :
 Pas de positionnement payant MAIS liens commerciaux
entre entreprises et moteurs de recherche possible
Ex. MSN – Amazon
 Lien vers des sites publicitaires clairement indiqué
2. Fonctionnalités des moteurs de recherche –
Ex : Google

⇒ Principales fonctionnalités :
3. Recherche simple
4. Recherche avancée
5. Rebond
6. Atout spécifique à Google
RECHERCHE SIMPLE : Saisir un mot clé
 Pas de prise en compte des majuscules /
minuscules, accents, signes
diacritiques(particuliers)
 Ni des troncatures (*) : penser aux
variantes masculin / féminin, singulier /
pluriel
RECHERCHE SIMPLE : saisir un ensemble de
mots clés ou une expression
 Utilisation des opérateurs ET, OU, SAUF (le ET est utilisé
par défaut)

OU

ET

SAUF
 Ne pas tenir compte des mots vides de sens (articles ou liens
entre termes)
 Pour rechercher :
Deux (ou plusieurs) mots clés : le 1er est plus important
Une expression précise : la mettre entre « »
 Mot clé recherché dans le texte des
pages web, et pas nécessairement dans
le titre, l’en-tête et le texte des liens :
In text:mot-clé
 Recherche de fichiers sous formats
spécifiques :
Mot-clé filetype:extension du format (pdf,
doc, html …)
RECHERCHE AVANCEE :
Masque de saisie à remplir
Bouton « J’AI DE LA CHANCE » : donne
directement accès à la page d’accueil de la
première réponse obtenue ; pas d’accès à la liste
de références – A utiliser avec prudence
Relance de la recherche vers des sites similaires
grâce au lien Pages similaires ou à la fonction
Related
(ex : related:nom du site)
Les atouts de Google par rapport aux
autres outils :
 Sa taille
 Son ergonomie

 Ses pages en cache : permettent de


conserver l’accès à un site lorsque son
serveur est indisponible (En cache)
3. Les limites de la recherche sur
Internet

2. Des références à décrypter


3. Les sites pertinents sont-ils présentés parmi les
réponses à ma requête ?
4. Une complémentarité avec d’autres outils
Des références à analyser :
Sont-elles pertinentes ?
Quelques critères à appliquer aux
réponses produites par un moteur
de recherche :
a. Fiabilité.
Le responsable (l’éditeur) du site et les
contributeurs ont-ils une expertise reconnue du
sujet qu’ils traitent ?
L’URL et le nom de domaine donnent d’utiles
indications :
 Le nom de domaine est-il celui d’une institution
(ministère, ONU …), d’un centre de recherche, d’un
producteur d’information officiel (ex: INSEE)? Dans ce
cas, l’information est fiable.
 Le domaine indique l’origine
géographique du site : .fr, .com, .edu,
.org, .ac.uk …
 Toujours rechercher les noms et qualités
des contributeurs (cela peut aider à
identifier une information
biaisée)=anormale
b. Fraîcheur de l’information.
L’information est-elle datée ? Est-elle mise à jour ?
Chercher la date de dernière mise à jour de
l’information.
c. Pertinence pour la recherche effectuée.
L’information recueillie répond-elle correctement à vos
besoins ?
d. Accessibilité.
L’information est-elle facile à trouver sur le site?
Facile à télécharger ?
Encyclopédie contributions
personnelles

Société financière

Site du Ministère de la culture

Site personnel (E. Keslassy)

Site d’institution
d’enseignement canadienne

Site personnel (auteurs du


programme secondaire)

Site académique (université


de Chicoutimi, Canada)
Source Utilisable pour un travail académique ?
Sites EVENTUELLEMENT. Peuvent contenir
d’entreprises des informations intéressantes : rapports
annuels, chiffres clés. En complément des
bases de données d’entreprises.
Sites de EVENTUELLEMENT. Offrent des
presse éléments d’actualité récente sur les
entreprises. Archives souvent payantes.
Sites PRUDENCE. Sont des sites d’expression
personnels, libre. Vérifier les données avant de les
blogs utiliser. Utiles parfois pour les liens
proposés.
Source Utilisable pour un travail académique ?
Bases de OUI. Données validées non libres
données d’accès. Disponibles en BU.
commerciales
Sites OUI. Sites officiels libres d’accès
institutionnels comportant des informations validées
(ministères, centres de recherche …)
Les sites pertinents sont-ils présentés parmi
les réponses à ma requête ?
Pléthore de réponses
Mais paradoxalement les moteurs de recherche
n’indexent pas tout le web (20% seulement)
Le web invisible (Deep Web, Hidden Web)
recouvre :
 Les pages nouvellement créées depuis le
dernier passage du robot, donc pas encore
indexées
 Les sites difficiles à indexer en raison de leur
architecture technique (format, frames, pages
produites à partir de données rassemblées dans
formulaire HTML …)
Les sites accessibles par
authentification
Les pages non liées à d’autres

Les pages dont les propriétaires


interdisent l’indexation
La complémentarité avec d’autres outils
Autres outils du web :
 Répertoires thématiques (ensembles de
sites choisis pour leur qualité : signets)
 Moteurs spécialisés
Autres outils dont les données sont fiables : les
bases de données documentaires