Académique Documents
Professionnel Documents
Culture Documents
TP. Collecte Bibliographique Systématique
TP. Collecte Bibliographique Systématique
Première année
Filière: Biostatistique Démographie & Big Data
A.U: 2022-2023
Collecte bibliographique et analyse bibliométrique
❑ Introduction
2
Introduction
❑ « L’exercice académique d’un travail de recherche impose chercheur de s’inscrire dans le prolongement des
travaux antérieurs, d’en dégager les lignes de force, d’en résumer les questions essentielles et identifier
Une étude ciblée, approfondie et critique des travaux antérieurs réalisés sur un thème particulier.
3
Introduction
❑ Analyse de sujet
questions de base…
sujet
de traiter ?
Lecture
Recherche Synthèse de
approfondie
bibliographique littérature
[approche critique]
6
Etapes de la collecte bibliographique
Moteurs de recherche: Scopus, PubMed, Web of science, Google Scholar, Microsoft Acedemic, Crossref…
9
Précision des mots clés
10
Précision des mots clés
11
Recherche simple/ Recherche avancée
• La recherche simple: interroge la base avec une équation de recherche à l’aide des opérateurs booléens et linguistiques
• La recherche avancée; un système de filtre et de catégorie permet d’affiner la recherche. Les champs d’indexation
choisis (auteur, revue, année…) apparaîtront dans le champ de recherche,
➢ Trop de références → restreindre la recherche grâce aux mots clés, aux opérateurs et aux catégories
12
Collecte des articles scientifiques
13
Collecte des articles scientifiques
❖ Google Scholar: https://scholar.google.com/
14
Collecte des articles scientifiques
❖ Science Direct: ScienceDirect.com | Science, health and medical journals, full text articles and books.
15
Collecte des articles scientifiques
❖ PubMed: https://pubmed.ncbi.nlm.nih.gov/advanced/
16
Collecte des articles scientifiques
❖ JSTOR: JSTOR: Advanced Search
17
Collecte des articles scientifiques
❖ L’application Publish or Perish (Harzing, A.W. , 2007)
➢ Lien de téléchargement: https://fr.freedownloadmanager.org/Windows-PC/Harzing-s-Publish-or-Perish-GRATUIT.html
18
Collecte des articles scientifiques
19
Collecte des articles scientifiques
Copy Results → Results for Excel with Header → Coller sur un fichier Excel
20
Collecte des articles scientifiques
21
Collecte des articles scientifiques
Utilisant un code sur R pour les moteurs de recherches dont API est accessible/gratuit
À travers le package « RISmed », il est possible d’importer les articles de la base de données PubMed selon les mots-clés
entrés par l’utilisateur.
install.packages (RISmed)
library (RISmed)
22
Collecte des articles scientifiques
• Code R pour collecter les articles de PubMed :
pubmed_data <- tibble ('id'=ArticleId(data), # convertir data au format tableau en ne retenant que certaines
'Title'=ArticleTitle(data), variables
'Abstract'=AbstractText(data),
'Year'=YearPubmed(data),
'country'=Country(data),
'Journal'=Title(data),
'Language'=Language(data))
23
Gestion Bibliographique
24
Gestion bibliographique: Zotero
Installer Zotero: Zotero | Downloads
25
Gestion bibliographique: Zotero
26
Gestion bibliographique: Zotero
27
Gestion bibliographique: Zotero
28
Gestion bibliographique: Zotero
Citer les références bibliographiques dans un article ou un rapport de thèse
29
Gestion bibliographique: Zotero
Citer les références bibliographiques sur un article ou un rapport de thèse
30
Gestion bibliographique: Zotero
Citer les références bibliographiques sur un article ou un rapport de thèse
31
Gestion bibliographique: Zotero
Citer les références bibliographiques sur un article ou un rapport de thèse
32
Partie 2: Traitement des bases de données et analyse textuelle
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
Exemple:
Nombre total
des articles
N=64
34
Étapes de la collecte bibliographique:
3. Importation et fusion des bases de données collectées
• Pour fusionner ces bases de données, il faut que toutes les bases contiennent les mêmes variables et de
même type. Le code R permettant la fusion:
BDFus <- bind_rows (Crossref, GoogleScholar, Microsoft_Academic, PubMed, Scopus )
35
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
# Supprimer les articles dupliqués (s’ils ont le même titre / même résumé/ même identifiant (si disponible))
BD_Dupl <- BDFus %>%
mutate(Title=Title %>% str_to_lower(),
Year= as.numeric(Year)) %>%
distinct(Title, .keep_all = TRUE) %>%
distinct(Abstract, .keep_all = TRUE) %>%
distinct(id, .keep_all = TRUE)) # si on dispose de l’identifiant (le cas dans l’importation des articles de PubMed
à travers l’API)
# Supprimer les articles dont la date de publication et la source ne sont pas mentionnées
BD_Year <-BD_Dupl[!is.na(BD_Dupl$Year),]
BD_source <-BD_Year[!is.na(BD_Year$Source),]
• Pour pouvoir exclure les articles qui sont hors sujet (comme par exemple la fécondité non humaine), on utilise le
nuage de mots (Word Cloud) faisant partie de l’analyse textuelle (Text mining)
• Cette étape repose sur la variable « Abstract » ou « Title ».
36
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
37
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
38
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
• On peut avoir par exemple « homosex » ou « homosexuel ». Au lieu d’écrire ces deux mots, on peut mettre
« homosex* » (la partie commune suivie de * )
39
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
• On reprend cette étape lorsque des mots hors sujet figurent encore dans le nuage de mots.
41
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
• On peut augmenter la taille minimale des mots à figurer pour ressortir ceux fréquemment utilisés:
42
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
• Exporter la dernière base de données traitée après l'exclusion de tous les mots hors-sujet
• À la dernière étape, vient l’exclusion des articles inaccessibles ou qui semblent hors sujet après la lecture des résumés.
• Télécharger les articles définitivement retenus et les importer au logiciel Zotero (par exemple) pour la gestion
bibliographique
43
Étapes de la collecte bibliographique:
4. Traitement de la base de données selon des critères inclusion/exclusion
Une fois finir ces étapes ok c bon on a pu exculre tout les articles automatiquement possible,
Exporter ensuite la dernière base de données pour voir s’il y aura d’autres articles à exculre selon le
résumé et leur accessbilité
Une fois avoir une dernière base de données : soit on passe à la lecture pour construite un état d’art
(revue de littérature) soit on fait une analyse textuelle avant de passer à la lecture.
Scopus (API)
Les opérateurs booléns; les inconvenients de l’application/ code pubMed
44
Analyse textuelle pour une revue systématique de littérature
• La revue systématique permet d’avoir une idée globale sur les articles collectés, parmi les questions de recherche que
2. Quels sujets spécifiques ont été les plus étudiés sur cette thématique ?
4. Quels sont les pays les plus étudiés dans cette thématique ?
45
Analyse textuelle pour une revue systématique de littérature
• Méthode
Evolution des
Bases de publications
données Sujets abordés
(Structurel topic
modeling)
Nuage de mots
Résumés/Titres (word cloud)
liés à une Pré-traitement
thématique des données
précise textuelles Analyse de
Collecter les Analyse réseaux
Traitement des résumés
résumés/titres qui cartographique (Network
(enlever les mots de
abordent la thématique à
liaisons, les chiffres, les (Mapping analysis)
travers les différents analysis)
ponctuations…)
moteurs de recherche
46
Analyse textuelle pour une revue systématique de littérature
• Evolution des publications dans le temps
Exemple:
47
Analyse textuelle pour une revue systématique de littérature
• Evolution des publications dans le temps
Code sur R:
48
Analyse textuelle pour une revue systématique de littérature
• Evolution des publications dans le temps
Code sur R:
# Tracer la figure
49
Analyse textuelle pour une revue systématique de littérature
• Nuage de mots (Word Cloud)
Exemple:
51
Analyse textuelle pour une revue systématique de littérature
• Nombre optimal des sujets à retenir
Exemple:
52
Analyse textuelle pour une revue systématique de littérature
• Sujets abordés dans une thématique donnée (Topic Modeling)
Code sur R:
out <- quanteda::convert(toks3, to = "stm")
model <- stm(out$documents, out$vocab, K = 20, max.em.its = 150, data = out$meta, init.type = "Spectral", prevalence
=~ Year)
mtext("Expected Topic Proportion", side=1, line=3, cex=1.2) # adds custom Y-axis label
plot1
plot2 <- plot(model, n= 5, text.cex=1)
plot2
53
Analyse textuelle pour une revue systématique de littérature
• Nombre optimal des sujets à retenir
Code sur R:
K<-c(5,10,15,20,25)
plot(kresult)
54
Packages à installer sur R
55