Vous êtes sur la page 1sur 8

TP 05 Datamining IA-BD

Exercice 2 : Analyse des données sur ORANGE

1. Analyse visuelle statistique :

(a) Lancez Orange Canvas et cliquez sur New pour créer un nouveau workflow.

(b) Importer le fichier scopus.csv téléchargé précédemment et paramétrer les variables (widget CSV
File Import).

(c) Visualisez le contenu du fichier. Combien y a-t-il de variables quantitatives, qualitatives, de


document ? (Voir Data Info, Data Table, feature statistics).

D’après l’image précédente on retrouve dans les données 03 données qualitative et 04 numérique.

(d) Afficher le nombre d’articles publiés par année (Distribution) et interpréter


On remarque que l’année 2023 est l’année la plus productive car sur le graph son aire est la plus
grande.

(e) Afficher sur une carte de chaleur le nombre d’articles publiés par pays (Document Map) et
interpréter.

On utilise ainsi le document Map pour pouvoir avoir la plus grande fréquence de production de livre
ce qui donne une idée sur les zones géographique qui produisent énormément d’œuvre.

(f) Certains articles peuvent ne pas avoir de lient avec la thématique traitée mais se retrouvent dans
la liste par erreur. Sélectionner et filtrer ces documents (Corpus ; Corpus viewer).
Grace à corpus et a corpus viewer on peut ainsi visualiser tous les éléments les titres d’œuvres les
plus fréquents parmi toutes les productions. Corpus permet d’analyser et de ressortir les éléments les
plus fréquents d’une liste.

(g) Sauvegarder les documents filtrés (Save CSV).

2. Text Mining

a. A partir des documents filtrés dans la partie précédente, faire un prétraitement des données
(Preprocess Text ).
b. Affiche le nuage des mots clés (Word cloud) et interpréter.

c. Afficher les 100 mots les plus fréquent (data table, ...).

d. Visualiser les réseaux de mots et interpréter (Corpus Network).

e. Proposer d’autres visualisations sur ORANGE.

Exercice 3 : Visualisation des réseaux sur VOSviewer


Dans cette partie nous utiliserons l’outil VOSviewer que vous pourriez télécharger ici et installer pour
explorer co-citations et co-occurrences.
1. Lancer l’outil VOSviewer et Créer votre fichier scopus à partir du gadget create qui se trouve à
gauche puis importer le fichier scopus précédemment télécharger.

2. Visulatiser et interpréter le “co-authorship ”.

(a) Authors;
(b) Organizations ;

(c) Countries ;
Entre les pays on remarque beaucoup plus de liaisons qu’entre les auteurs et les organisation ce qui
laisse paraitre que les pays à travers des œuvres son connecté car en effet par exemple un tiers
auteur d’un pays x peut réaliser une œuvre pour un pays y ce qui crée automatiquement un lien entre
le pays d’où les liaisons importante.

3. Visulatiser et interpréter le “co-occurrence ”.

(a) All keywords ;

(b) Authors keywords ;


On observe un circuit préférentiel entre différents thématiques importants notamment data
visualization et les machine learning

(c) Index keywords ;

4. Donner les différents clusters de mots clés, auteurs et institutions (pays).

5. Proposer d’autres types de visualisation, interpréter et commenter.

Vous aimerez peut-être aussi