Académique Documents
Professionnel Documents
Culture Documents
Rendue
FSDM/KMOUT-Achraf
TALN
Wisd
2019/2020
Exercice
#Question 1 :
Exécutez le code ci-dessus et essayez de le comprendre.
# Path
# Windows
setwd("d:/TextMining/TP3_R")
getwd()
# ----------- Mettre des pages wiki dans un corpus ------------
#Une longue procédure pour avoir une liste d'articles dans un string # ATTENION aux
noms des pages, utilisez des URL (URlEncoded)
url_start <- "http://edutechwiki.unige.ch/fmediawiki/api.php?action=parse&page="
url_end <- "&format=xml"
titles <- c("1066", "Activate", "Alice", "Argument_Wars", "CeeBot_4", "Chevron",
"Cité_romaine", "Citéjob-négo", "Cyberbudget", "Darfur_is_dying", "E-psych", "Elude"
"Energy_City", "Envers_et_contre_tout", "Eonautes", "FacteurAcademy", "Foodforce"
"Get_the_glass", "Glucifer", "Halte_aux_catastrophes", "Happy_Night", "I-progress",
"ICE-D", "InfinITy", "Ivy%E2%80%99s_Meadow", "J%27apprends_J%27entreprends",
"KROBOT", "Mon_entretien_d%27embauche", "MySQLgame", "Oiligarchy",
"Orbitrunner","Petits_Détectives", "Phun", "Play_the_news", "Real_Lives", "RobotProg
Nb :
Pour installer le package « tm » il va falloir installer le package
« NLP ».
Dans les titres ; KROBOT va générer une erreur. danc il faut qu’il va
être supprimer de la liste des titres.
# un vecteur qui contient 12 strings vides ("")
article_list <- character(length(titles))
# on remplace par les URLs ci-dessus
for (i in 1:length(titles)) {
article_list[i] <- (paste (url_start,titles[i],url_end, sep=""))
#Résultat :
#Résultat :
#Question 2 :
Générez le nuage de mots du corpus final.
#Réponse :
Le nuage de mots dans R nécessite les packages suivants (tm, SnowballC,
wordcloud, RColorBrewer ) on les packages « tm » et « SnowballC » sont
déjà installer, alors il nous reste « wordcloud, RColorBrewer ».
# Installer
Install.packages(‘’wordcloud’’)
On va utiliser la fonction wordcloud() qui prend les arguments suivants :
corpus1 :de type corpus.
scale :pour la taille des mots.
min.freq :pour le plus petit fréquence des mots à ajouter dans le nuage.
max.words :le max des mots à mettre dans le nuage.
colors :les couleurs des mots dans le nuage.
#Résultat :
Maintenant pour avoir un put de style, je vais changer les paramètre de
quelque arguments de la fonction wordcloud(), puis ajouter l’argument
max.words ; pour avoir dans le nuage juste les 100 mots les plus important.
#Résultat :
#Question 3 :
#Réponse :
Pour tracer le graphe de 10 mots les plus utilisés on est besoin du package
« ggplots »
#Résultat :
#Question 4 :
#Réponse :
Matrice termes-documents :
#Résultat :
word freq
jeu jeu 1096
joueur joueur 559
modifi modifi 557
code code 553
point point 373
logiciel logiciel 349
plus plus 323
peut peut 320
princip princip 216
contenu contenu 192
pã©dagogiqu pã©dagogiqu 181
diffã©rent diffã©rent 179
fait fait 172
â«â â«â 169
doit doit 161
tout tout 160
fair fair 156
.
.
.
.
Ref :
*http://edutechwiki.unige.ch/fr/Tutoriel_tm_text_mining_package#Analyse_typologique
_hi.C3.A9rarchique
*http://edutechwiki.unige.ch/fr/Tutoriel_tm_text_mining_package#Matrices_documents
-termes_et_analyses_de_fr.C3.A9quences
Merci,
J’espère que mon travail était au niveau de vos attentes.