Académique Documents
Professionnel Documents
Culture Documents
Dr. AKEKE
1
I. Introduction.
Tout travail universitaire doit être documenté. L’étudiant va avoir
besoin de compléter ses cours par des recherches personnelles. Les
systèmes éducatifs actuels permettent d’affirmer que la recherche
documentaire est un élément essentiel des apprentissages. Il est
important de transmettre aux étudiants une méthodologie qui permet
d'identifier, récupérer et traiter des informations sur un sujet donné. Ces
notes de cours mettent l’accent sur les grands axes de la recherche
documentaire.
II. Définitions
II-1 La recherche documentaire (cf. Vocabulaire de la documentation,
AFNOR, 1987) : Action, méthodes et procédures ayant pour objet de
retrouver dans des fonds documentaires les références des documents
pertinents (répondant à une demande d’information) et les documents
eux-mêmes.
« Savoir se documenter, c'est savoir où et comment trouver l'information,
savoir poser les bonnes questions, savoir de quelles informations on a
besoin, savoir la lire, la comprendre, la critiquer, évaluer si elle répond à
ses besoins et savoir la gérer». Bernard Pochet; Méthodologie
documentaire: rechercher, consulter, rédiger à l'heure d'Internet
(2005).
II-2 Recherche de l’information (Définition Afnor) : Action, méthodes
et procédures ayant pour objet d’extraire d’un ensemble de documents
les informations voulues (d’après l’AFNOR, 1979). Dans un sens plus
large, toute opération (ou ensemble d’opérations) ayant pour objet la
recherche, la collecte et l’exploitation d’informations en réponse à une
question sur un sujet précis.
2
L’information est multiforme :
L'information « orale » (médias audiovisuels notamment)
L'information écrite :
(1) L’édition commerciale donc payante ou littérature blanche
(livres, revues, bases de données essentiellement)
(2) L’édition non commerciale ou littérature grise (thèses,
mémoires, rapports, articles en prépublication, actes de
congrès non publiés, etc)
4
ISBN: International Standard Book Number : Numéro international
normalise attribué à chaque titre de livre ou à chaque édition d’un titre
de livre d’un éditeur donné. Chaque numéro ISBN est unique et ne
correspond qu’à un seul titre. Depuis le 1er janvier 2007, l’ISBN est
composé de 13 chiffres, répartis en 5 segments : le premier segment
permet d’identifier le produit (978 pour le « produit » livre), le
deuxième segment permet d’identifier le secteur géolinguistique (2
pour les « pays francophones »), le troisième segment permet
d’identifier l’éditeur, le quatrième permet d’identifier la publication, le
dernier segment est un chiffre de contrôle.
ISSN: International Standard Serial Number : Numéro international
normalisé attribué à chaque titre de périodique : numéro qui identifie au
plan international chaque titre-clé de publication en série dans le
système international des données sur les publications en série. Chaque
titre de périodique possède un ISSN qui lui est propre.
Monographie : ouvrage formant un tout, en un ou plusieurs volumes et
ayant une parution en une seule fois ou en plusieurs fois avec un plan
de publication établi à l’avance. Une monographie est un document qui
constitue une étude détaillée sur un sujet déterminé. En bibliothèque,
on utilise le terme de monographie pour désigner un livre.
Monographie en plusieurs volumes : monographie ayant un nombre
déterminé de volumes et dont la publication est envisagée comme un
tout. Les volumes portent quelquefois des titres particuliers en plus du
titre d’ensemble et peuvent avoir des mentions de responsabilité qui
leur sont propres.
Moteur de recherche : Sur Internet, un moteur de recherche est un
outil permettant de faire des recherches précises à partir du texte
intégral. (Google est l’exemple type du moteur de recherche, il permet,
à partir d’une seule barre de requête, de lancer une recherche).
5
Un moteur de recherche est composé de:
6
données textuelles ou graphiques, ou d’en modifier la disposition En
anglais : editor.
Editeur scientifique : personne ou collectivité responsable du contenu
intellectuel de l’édition d’un document : édition critique d’un texte,
édition d’un ouvrage collectif.
Edition : ensemble des exemplaires d’une monographie imprimée à
partir d’une même composition typographique ou produits à partir d’un
même exemplaire servant de matrice et publié par un éditeur ou un
groupe d’éditeurs. Une édition peut comprendre plusieurs impressions
ou tirages dans lesquels il peut y avoir de légers changements,
notamment pour l’indication de la date et du prix. Le terme d’édition
désigne aussi la publication simultanée ou consécutive d’un ensemble
d’exemplaires présentant avec les premiers des différences notables
quant au contenu, à la langue, à l’impression, au support, au format…
1 - Cerner le sujet
7
Il faut faire le bilan de ses connaissances personnelles sur le sujet.
Une analyse précise du sujet (de recherche) s’impose. Cette
analyse doit conduire à définir les principaux concepts liés au
sujet ainsi que les questions induites par le sujet, auxquelles la
recherche documentaire devra répondre. Dans bien de cas il faut
définir des limites de la recherche documentaire : dates, langues,
pays, etc.
Stratégie :
Utiliser un ouvrage de référence (dictionnaire, encyclopédie,
manuels) et mobiliser ses connaissances autour du sujet pour le
définir, le clarifier, le cadrer le plus précisément possible.
Déterminer des mots-clés (en anglais keyword) en utilisant des
méthodes de questionnement et de reclassement. Pour identifier
les bons mots clés, il faut utiliser des outils plus spécialisés
comme des thésaurus, des lexiques, des manuels et des articles de
synthèse sur le sujet.
Rappelons qu’un mot-clé est un mot ou groupe de mots choisis, soit
dans le titre, soit dans le texte d’un document, soit dans une requête de
recherche documentaire pour en caractériser le contenu. Les mots-clés
sont donc issus du langage naturel et ils sont dégagés par l’analyse.
Une liste de mots-clés permet ainsi de définir les thématiques
représentées dans un document »
(http://www.cndp.fr/savoirscdi/fileadmin/fichiers_auteurs/PDF_manuel
s/dicoduplessis.pdf)
Thésaurus.
Un thésaurus ou thésaurus de descripteurs, est un type de langage
documentaire qui consiste en une liste de termes sur un domaine de
connaissances, reliés entre eux par des relations synonymiques,
hiérarchiques et associatives. Le thésaurus constitue un vocabulaire
normalisé. C'est une sorte de dictionnaire hiérarchisé. Il permet
8
d’harmoniser « sous un même descripteur les différents termes qui
peuvent être employés pour décrire un même concept. » Il est surtout
utilisé dans les catalogues de bibliothèques. Notons que devant la
difficulté de mise en place, peu d’outils utilisent des thésaurus.
Les mots-clés retenus dans un thésaurus pourront être organisés d’un point de vue
hiérarchique. Ainsi, on trouve alors une « liste de termes classés verticalement
(arborescence) du concept le plus large au concept le plus étroit »
Quelques exemples
Aller sur le site suivant (exemple de thesaurus de Mathématiques) :
http://www.anmath.ulg.ac.be/thesaurus/
Utopies (http://catalogue.bnf.fr/ark:/12148/cb119337395/PUBLIC).
Dyslexie (http://www.hetop.eu/hetop/ - n=500&q=dyslexie).
9
On peut aussi trouver des dictionnaires gratuits répertoriés dans
des sites :
- http://www.dicorama.com/
- www.yourdictionary.com
10
On peut par la suite structurer les termes dans un tableau plus
thématique, avec des thèmes et des sous-thèmes.
- La méthode 3QOCP (ou système de Quintilien ou modèle de
Laswel) : on peut utiliser par ailleurs la méthode de
questionnement du sujet (Qui? Quoi? Quand? Où? Comment?
Pourquoi?) Il s'agit d'appliquer au thème la méthode du
questionnement journalistique face à un événement.
Préciser la question
Qui est concerné par le sujet ?
Qui ? Quels sont les acteurs les acteurs en jeu ?
Quoi ? De quoi s'agit ? Quelle définition donner de
ce sujet ? De quel problème s'agit?
Quand ? Depuis quand?
Quelle période est concernée / intéressante
pour mon sujet?
Où ? Où cela se passe-t-il?
Dans quel contexte géographique?
Comment ? De quelle manière les événements se
déroulent-ils?
Quels sont les moyens?
Pourquoi ? Pourquoi ce problème existe-il?
Quelles en sont les causes?
Pourquoi traiter ce sujet?
11
2 - Chercher les documents
12
Pour la recherche des documents, il faut d’abord identifier les
lieux de ressources, sources et outils par rapport au sujet (centres
de documentation, bibliothèque etc.). Identifier les différents
types de documents disponibles : document papier,
électroniques (internet, cédéroms),….
13
BASES DE DONNEES BIBLIOGRPHIQUES : généralement, ces
outils concernent plutôt des articles de périodiques et donnent des
informations bibliographiques avec un résumé. Ces outils permettent de
faire des repérages bibliographiques, mais ne donnent pas accès au
contenu des articles.
Exemple : web of science (WOS) (sur abonnement)
BASES DE DONNEES EN TEXTE INTEGRAL : en plus du
signalement bibliographique, l’accès au texte intégral est possible.
BOUQUETS DE PERIODIQUES : on parle de bouquet lorsqu’une
base de données donne accès à plusieurs titres de périodiques en texte
intégral
Les portails d'accès à la littérature scientifique intègrent plusieurs
sources différentes dans une même base de données. Ce sont
essentiellement des ressources en libre accès mais aussi des ressources
que les portails vont directement rechercher sur les sites des éditeurs ou
sur des sites officiels (universités, sites gouvernementaux, institutions
internationales...).
Notons que chaque publication est décrite par des « champs
documentaires »:le titre, les auteurs, la date de publication, la revue
dans laquelle la publication est parue, le type de publication, un
résumé , et très souvent des mots choisis par les indexeurs de la
banques de données pour désigner les concepts abordés dans la
publication ; ces mots sont des « descripteurs » listés dans un
« thesaurus ». En général, les banques de données bibliographiques en
tiennent compte.
Une fois identifiées et sélectionnées les ressources pertinentes par
rapport à un besoin d'information, il convient de les interroger.
Retenons les supports électroniques suivants :
14
DISQUETTE, CEDEROM monoposte ou réseau, page web (fichier
html, pdf, ps, etc.)
16
Techxtra (Sci. Ingénieur, mathématiques, informatique) plus que
4 millions de documents
Citeseer
Scitopia (Maths, physique, sci. ingénieur) , plius que3,5 millions
de documents
Scientific commons
Remarque
L'interrogation des ressources électroniques suppose d'obéir à quelques
principes simples, faute de quoi deux phénomènes sont susceptibles de
se produire :
1) le bruit : Il peut être défini comme l'ensemble des réponses non
pertinentes obtenues à l'occasion d'une recherche documentaire
(AFNOR 1987).
Le bruit survient notamment si l'on emploie des termes de
recherche sans les contextualiser. Ces termes pourront donc dans
ce cas de figure revêtir plusieurs significations.
2) le silence : Il peut être défini comme l’ensemble des documents
pertinents non affichés lors d’une recherche documentaire (AFNOR
1987).
Le silence est plus insidieux que le bruit car celui qui effectue une
recherche peut croire que la ressource interrogée n'offre pas le contenu
attendu.
17
considéraient simplement les mots comme des chaînes de caractère. A
présent, plusieurs aides existent :
Prise en compte des synonymes
Autocomplétion (vous commencez à saisir une question, le moteur vous
propose certaines associations. Pour « le rouge », il vous proposera ainsi « et le
noir » écrit par Stendhal.
Correction des fautes d’orthographes.
Les données récupérées par le moteur sont classées (ranking) selon des critères
liés aux mots clés (nombre de fois ou un mot clé apparaît dans une page, le mot
apparaît-il en gras, présence du mot dans le titre ou le premiers tiers de la page)
ou depuis quelques années à l’auteur. Malgré cela, on a souvent en utilisant ces
moteurs un sentiment de bruit documentaire (résultats non pertinents pour
l’utilisateur). Les moteurs mettent le plus souvent une seule « recherche simple
» à disposition de leurs utilisateurs.
Langage de commandes
Le langage de commandes est constitué de l'ensemble des commandes
à entrer dans un système documentaire (catalogue, bibliographie, base
de sommaires, moteur de recherche...) pour poser des questions,
visualiser et sélectionner des références.
Les systèmes documentaires proposent généralement deux à trois
modes d'interrogation. Le mode novice ou simple avec une seule zone
de saisie, un mode avancé qui affiche plusieurs zones de saisie et
plusieurs combinaisons et un mode expert où l'utilisateur doit rédiger
lui-même sa question documentaire, en utilisant toute la syntaxe du
langage.
La tendance générale est de proposer d'emblée le mode simple avec une
seule zone de saisie et la possibilité d'entrer quelques termes comme
pour les moteurs de recherche généralistes (Google ou Yahoo).
Les opérateurs booléens
18
Basés sur l'algèbre de Boole, ils permettent de combiner plusieurs
éléments de la recherche (termes ou questions) pour affiner ou élargir
une question.
Il y a trois opérateurs : le ET, le OU et le SAUF.
- Le ET (AND en anglais) représente une intersection.
Avec l'opérateur ET, « A ET B » les références affichées contiennent le
terme A et le terme B. Si un seul des deux termes est présent, la
référence est rejetée. Les références affichées appartiennent
obligatoirement aux deux ensembles. L'opérateur ET a pour effet de
réduire le nombre de réponses à une question. Il est utilisé pour préciser
une question.
Par exemple, pour chercher un document sur les groupes qui sont
cycliques, on utilisera l'équation : "groupes ET cycliques".
Dans la majorité des outils de recherche, l'opérateur ET est l'opérateur
par défaut, c'est-à-dire que l'espace entre deux termes est équivalent à
l'opérateur ET. Il est parfois remplacé par "+"
- L'opérateur OU a pour effet d'augmenter le nombre de réponses,
il additionne les résultats des différents ensembles. Il est utilisé
pour associer des synonymes dans une question documentaire.
Par exemple, pour chercher des documents sur le blé : "ble OU
triticale OU wheat".
Avec certains outils, les termes placés entre parenthèse sont considérés
comme étant reliés avec l'opérateur OU.
- Le SAUF (NOT ou AND NOT en anglais) représente une
exclusion.
Avec l'opérateur SAUF, (A sauf B) les références affichées
contiennent le terme A mais pas le terme B. Toutes les références de
l'ensemble A qui contiennent aussi le terme B sont éliminées.
19
L'opérateur SAUF a pour effet de réduire le nombre de réponses en
excluant des documents non désirés. Par exemple, pour chercher des
documents qui traitent des espaces topologiques: "espaces SAUF
vectoriels ".
L’opérateur SAUF est parfois remplacé par "-".
La troncature
La troncature est utilisée pour remplacer des lettres manquantes.
Elle est utilisée pour raccourcir la frappe, pour sélectionner plusieurs
termes ayant une racine commune ou pour rechercher à la fois le
singulier et le pluriel d'un mot.
On parle le plus souvent de troncature droite mais. Elle peut être
utilisée :
– à droite d'un mot
– à gauche d'un mot
– à l'intérieur d'un mot
Les caractères pour la représenter: * ? % +
Par exemple: transport * donnera transport, transports, transporteur,
etc.
Une racine opérationnelle (bien positionnée) ne donne que des
réponses attendues. Il faut éviter de tronquer des racines trop courtes.
Par exemple "ener*" :
donnera : énergie, énergies, énergétique et énergivore ;
mais donnera aussi : énergique, énervant, énergumène ou
énervation.
21
Il y a deux groupes de commandes : les commandes qui imposent un
ordre d'apparition des termes et celles qui ne tiennent pas compte de cet
ordre d'apparition. Les commandes que l'on peut rencontrer sont
"ADJ", "W", "WITHIN", "NEAR", "SAME" ou "N" suivie ou non d'un
nombre, "P" :
- la fréquence d’apparition d’un terme dans le texte
(AT LEAST 3 : il faut que le terme recherché apparaissent au moins
fois dans le document….)
- la présence des mots dans le même paragraphe :
Exemple : géométrie SAME topologie
- l’adjacence : les termes recherchés sont proches les uns des
autres.
Par exemple, pour imposer que 2 termes soient proches l’un de
l’autre
Exemple: pollution* P/3 eau*
(cf. Sudoc)
« pollution » est à 3 mots de distance (max) de « eau »
(espace* NEAR3 algébrique) ou (espace N/3 algébrique)
Ces opérateurs syntaxiques varient d’une base de données à l’autre. La
commande "W", dans certaines bases de données, impose l'ordre, dans
d'autres, ne l'impose pas. Il faut donc consulter l'aide en ligne si on veut
en tirer parti.
Les parenthèses
Traditionnellement, elles servent à séparer les éléments d'une question,
par exemple : "groupe* AND (symétrique OR permutation OR
bijection*)" qui est équivalent à : "(groupe * AND symétrique) OR
(groupe* AND permutation) OR (groupe* AND bijection *)".
Avec certains outils, les termes entre parenthèses sont considérés
comme liés avec l'opérateur "OU" et ceux à l'extérieur liés avec
22
l'opérateur "ET". Par exemple, la question documentaire ci-dessus se
traduit alors par : "groupe * (symétrique permutation bijection*)"
Il est conseillé de consulter l'aide en ligne pour voir comment les
commandes sont interprétées par le moteur de recherche utilisé.
L'historique
Avec l'historique, il est possible de voir toutes les questions posées, d'y
revenir et de les combiner entre elles.
Cette fonction n'est pas proposée sur tous les outils documentaires. Les
moteurs de recherche généralistes (comme Google ou Yahoo) et les
moteurs de recherche scientifiques ne conservent pas l'historique des
questions posées. Il faut modifier ou récrire la question posée pour
l'améliorer.
Autres outils
L’opérateur filetype: permet d’imposer le format de fichier contenant
des informations recherchées (attention aux 2 points !). Cet opérateur
effectue un tri et ne délivre que des résultats au format demandé.
Exemples
Somme de carré filetype:pdf
Somme de carré filetype:docx
De même l’opérateur ext: permet de préciser le type de fichier.
Quelques extensions de fichiers
.avi Abréviation de "Audio vidéo interleave". Fichier Vidéo pour Windows. Il peut comprendre des
clips vidéo, des animations et des sons.
.eps Fichiers au format Postscript (abréviation d’ "encapsuled Postscript").
.exe Fichier exécutable.
.gz Fichier comprimé WinZip
.jpg Format graphique défini par la Joint Photographers Expert Group pour la plate- forme DOS
23
(extension de trois lettres). Ce format permet de comprimer les informations graphiques.
.pdf Abréviation de "Printer Drive File". Format des documents réalisés au moyen du logiciel
Acrobat d’Adobe. Ce format permet entre autres de verrouiller toute opération de modification du
fichier et même son impression (entre autres pour des raisons d’authentification, de sécurité ou de
copyright
.pps Diaporama Powerpoint
.ppt Format des présentations réalisées au moyen du logiciel préao Powerpoint de Microsoft
.ps Abréviation de Postscript. Extension utilisée généralement pour désigner les fichiers d’impression
Postscript
.xls Format des fichiers du tableur Excel.
.zip Fichiers comprimés avec l’utilitaire Pkzip, Winzip, etc.
24
- Le fonctionnement de la classification Dewey est décimal.
L’ensemble des connaissances est subdivisés en 10 grandes
classes ou catégories avec une couleur pour chaque classe.
Chaque classe est subdivisée en 10 domaines plus précis, eux-
mêmes subdivisés en 10 domaines encore plus précis, etc. Les dix
classes de la classification Dewey sont données dans le tableau ci-
dessous.
25
360 ABE / 363 CUF / 363.046 BAL / 363.046 CAL / 363.17
FIL / 363.4 ABE
On note alors
qu'un indice est constitué de chiffres uniquement
qu'une cote est constituée d'un indice chiffré suivi
de lettres
Notons que, le classement des livres sur les rayonnages se
fait de gauche à droite et en ordre croissant, on tient
compte d'abord des indices puis des lettres.
635.06 BRU / 635.061 ABI / 635.5 BRU / 635.5 CAR / 640.3
ABI / 640.3 BU
26
- Conservation des documents pertinents, classement des
documents.
Retenons que les principaux critères de fiabilité des sources
électroniques :
- L'auteur, l'éditeur de la ressource
- La date de publication du document
- Le domaine de la ressource (adresse URL)
- L'objectif du site
- La notoriété, l'indice de popularité du site
- Le contenu de l'information
4 Extraire des informations
L’extraction des informations se fait à la suite de lectures accentuées
des documents pertinents obtenus, bien sûr, en se focalisant sur des
chapitres, des sections (relativement aux informations recherchées).
Prendre des notes à partir des documents
5) Traiter les informations
Il s’agit d’analyser les documents retenus et faire une synthèse.
6) Produire le travail final
Une fois les sources et l'information évaluées, le travail de restitution
peut commencer. Mais là encore, il convient de respecter certaines
règles, et notamment, lors de la rédaction, de citer ses sources et de
respecter le droit d'auteur.
Pourquoi citer ses sources ?
- pour prouver le caractère scientifique de ses démonstrations
- pour que les enseignants ou les membres du jury puissent vérifier
l’exactitude des propos de l'étudiant,
- pour valoriser son travail de recherche en l’enrichissant de références
validées
27
- parce que le plagiat peut être sanctionné durement
(source: Cours BU Saint-Charles - Aix-Marseille 1, SCD Université de
Provence)
28
http://arxiv.org/archive/math
Hal (l’archive française toutes disciplines)
http://hal.archives-ouvertes.fr/
www.bibmath.net/
www.les-mathematiques.net/
29
Dogpile affiche sur une même page les meilleurs résultats de
Google, Yahoo, Bing en une liste unique et sans doublon
Metacrawler (idem, résultats de Google, Yahoo, Bing)
Mamma
Yippy
30