Rapport Ingénieurie Linguistique VeCIS - Google-Docs

Master VeCIS 2020–2021
Rapport Ingénierie linguistique et système documentaire

Etude de cas : Logiciel RapidMiner
Année universitaire :2020/2021
1
Table des matières
Introduction 3
Chapitre 1 : Définition du concept 3
Définition de data mining 3
Démarche méthodologique de DM 4
Chapitre 2 : Présentation l’outil RapidMiner 5
Définition (wikipédia ) 5
Tutoriel explicatif 5
Chapitre 3 : Méthodes d’évaluation 9
Évaluation transversale : (les systèmes similaires) 9
Évaluation boite noire 10
Évaluation humaine 11
Évaluation orienté usage : ( recommandations , retour d’expériences) 11
Conclusion 12
Webographie 13
2
Chapitre 1 : Définition du concept
Définition de data mining

C’est quoi le Data mining : L’application des techniques de statistiques, d’analyse de
données et d’intelligence artificielle à l’exploration et l’analyse de grande base de données
afin d’extraire des informations intéressantes (non triviales, implicites, préalablement
inconnues et potentiellement utiles).
Les domaines d’application de DM

● Domaine du commerce:
■ Etudier le comportement des clients,
■ Regrouper les clients selon certains critères,
■ Ajuster les promotions,
■ Cibler les « mailings »,
● Domaine des assurances:
■ Analyse des risques (caractérisation des clients à hauts risques, etc.),
■ Automatisation du traitement des demandes (diagnostic des dégâts et
détermination automatique du montant des indemnités),
● Domaine des données financières :
■ Prédire l’évolution des actions,
■ Organismes de crédit (dresser des profils de clients),
3
■ Détection de fraudes,
De manière générale, le DM permet de :

● Limiter la subjectivité humaine dans le processus de prise de décision.
● Traiter de plus en plus rapidement de grandes quantités de données.
● Avoir une meilleure connaissance et compréhension des clients afin de
garantir une meilleure adaptation de l’entreprise à leurs besoins.
Démarche méthodologique de DM
Titre : Processus de data mining
La préparation des données : c’est un processus qui précède celui de l'analyse de données. Il
est constitué de plusieurs tâches comme la collecte de données, le nettoyage de données,
l'enrichissement de données ou encore la fusion de données.
-l'analyse prédictive (extraction de connaissances à partir de données et de la théorie des jeux
qui analysent des faits présents et passés pour faire des hypothèses prédictives sur des
événements futurs).
4
Chapitre 2 : Présentation l’outil RapidMiner
Définition (wikipédia )
RapidMiner est une plateforme logicielle de science des données qui fournit un
environnement intégré pour la préparation des données, l'apprentissage automatique,
l'apprentissage en profondeur, l'exploration de texte et l'analyse prédictive.
Il est utilisé pour les applications commerciales ainsi que pour la recherche, l'éducation, la
formation, le prototypage rapide et le développement d'applications et prend en charge toutes
les étapes du processus d'apprentissage automatique, y compris la préparation des données, la
visualisation des résultats, la validation et l'optimisation des modèles.
C’est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
pour traiter les données : lecture des différents formats d’entrées, préparation et nettoyage des
données, statistiques, tous les algorithmes de data mining, évaluation des performances et
visualisation diverses. Il est disponible sur le site officiel du Rapidminer sous plusieurs
système d'exploitation (Mac, Windows, Linux):
https://my.rapidminer.com/nexus/account/index.html#downloads et sa dernière version est la
9.8.1, noter que le logiciel a été écrit en Java.
➔ Tutoriel explicatif
Titre : Premier page de Logiciel Rapidminer
5
A l'ouverture du programme, RapidMiner vous propose soit de commencer un nouveau
schéma de traitement de données, un projet, soit d'en ouvrir un existant. Choisissez 'new', ce
qui vous amène à choisir un dossier qui stockera votre espace de travail.
Titre : Zone centrale de logiciel
Nous arrivons maintenant à l'écran de travail proprement dit, cet espace de travail se divise en
cinq zones principales :
La zone centrale servira à dessiner le schéma du flux de données : il partira d'une source, qui
passera successivement à travers plusieurs outils (préparation des données, traitement,
évaluation de performances...).
Le catalogue des outils, à gauche, où nous irons chercher les composants à utiliser dans la
zone centrale. Ces composants peuvent être des sources de données, des modificateurs de
données, des algorithmes de data mining, des évaluateurs de performances.
Pour chaque outil utilisé, la zone de droite listera ses paramètres. La zone des informations en
bas à droite renseigne sur le fonctionnement de l'outil courant.
6
Titre : Exemple pour importer les données dans le logiciel
Venons maintenant à tester le logiciel , nous allons importer un jeu de données classique:
Le première chose consiste à ouvrir un fichier de données, et à l'inspecter afin d'avoir une
idée de sa configuration et des caractéristiques des données qui le composent. Nous utilisons
l' exemple classique des Iris. Cet ensemble regroupe la description de 150 iris, de trois sortes
différentes. Chaque individu est décrit par 4 paramètres entiers : la longueur et la largeur des
pétales et des sépales, et la cinquième valeur est la sorte d'iris de l'exemple. Le but du jeu est
d'écrire un algorithme qui, à partir des quatre premiers paramètres, devine correctement la
sorte d'iris.
Titre : Exemple du tableau des données
7
Nous avons glissé le jeu de données dans la zone centrale puis nous avons choisi un
algorithme “decision tree”.
Decision Tree reçoit en entrée un ensemble d'exemples dont un des attributs est un label et
construit un arbre de décision qui essaie de deviner ce label en se servant des autres attributs.
Titre : Test d’une shéma pour prise de décision
En reliant les bords de data avec le modèle on peut obtenir des résultats de classification des
données sous forme d’arbre.
Titre : Résultat de test avec l’arbre de décision
On peut ajouter par la suite un outil d'évaluation pour calculer la performance de l’outil.
8
Titre : Workflow générale pour traitement des données
9
Chapitre 3 : Méthodes d’évaluation
Évaluation transversale : (les systèmes similaires)
Cet outil est fondamentalement identique à Alteryx, mais nettement moins cher (orale).
Le tableau suivant illustre une comparaison des deux systèmes : RapidMiner et Monday.com
Titre : Comparaison entre RapidMiner et Monday.com

RapidMiner Monday.com
Fonctionnalités : Fonctionnalités :
● Alertes/Notifications ● Alertes/Notifications
● Collaboration ● Budgétisation et prévision
● Contrôles ● Collaboration
● Extraction de données ● Contrôles
● Gestion visuel du workflow ● Devises et offres
● Mappage de processus ● Extraction de données
● suivi des changements de processus ● Gestion des fournisseurs
● Gestion visuel du workflow
● Mappage de processus
● suivi des changements de processus
Évaluation boite noire
- RapidMiner Studio dispose de la plupart des modèles d'apprentissage machine utilisés

dans les universités et l'industrie
- Certaines techniques de visualisation sont ambiguës.
- RapidMiner comprend de nombreuses bibliothèques et algorithmes d'apprentissage
automatique.
10
- RapidMiner nécessite beaucoup de mémoire pour traiter les données. donc il ne
fonctionne pas bien avec le Big Data (mégadonnées).
- Diversité des fonctions (Nettoyage, traitement, analyse)
- Le nombre et la fréquence des versions éditées à ce jour (une mise à jour sera faite
sous acceptation de l’usager sans avoir besoin d’installer la dernière version du
logiciel)
- La pérennité potentielle du logiciel (le logiciel ne cesse pas d’évoluer, à chaque fois
on remarque des nouvelles fonctions)
- Il n’est pas le seul programme de traitement de données: il contient des outils qui
permettent d'importer des données format d'un autre logiciel.
Évaluation humaine
- Le traitement de données volumineuses, comme le fait de disposer d'un grand nombre
d'exemples et d'attributs, prend beaucoup de temps : le temps cumulé augmente,
lorsque l'utilisateur optimise manuellement des différents attributs en fonction des
résultats
- L'une des difficultés rencontrées lors de la manipulation du code consiste à modifier
les paramètres de ces modèles, mais grâce à l'interface visuelle, il suffit de cliquer sur
le processus et de le mettre à jour.
- RapidMiner est également bien documenté. Chacun des processus à sa description,
son entrée, sa sortie et ses paramètres bien décrits.
- Des tutoriels vidéo ainsi que des blogs sont disponibles sur leur site web. Le studio
RapidMiner dispose d'une communauté de spécialistes des données qui peuvent vous
aider lorsque vous avez une question.
- Création des modèles d'apprentissage automatique en quelques minutes.
- Pas besoin de compétences en codage! On sait bien que l'une des exigences pour les
scientifiques et les conteurs de données est l'apprentissage d'un langage de
programmation tel que matlab et python et l'écriture de code pour leurs tâches.
;Rapid-miner est un outil qui permet de connecter des boîtes sur un canevas pour
effectuer l'analyse des données, ce qui constitue une excellente introduction à
l'analyse des données: En effet, les fonctionnalités de RapidMiner sont une interface
visuelle par glisser-déposer, ce qui fait toute la différence. La préparation des données
11
jusqu'à la sortie finale et la visualisation est aussi simple que de faire glisser des blocs
de votre flux de travail dans un canevas et de les relier entre eux. (reformuler)
- Des workflows d'apprentissage automatique simples et compréhensibles (aborder
facilement un flux de travail sans avoir à écrire de code)
- Il est pertinent: il est lié à la subjectivité de l'humain (il s’adapte avec l'évolution de
l’usager)
Évaluation orienté usage : (recommandations, retour

d’expériences)
- La “Section help” n'était pas complète à 100%. Il a de nombreuses explications mais
les exemples ne sont pas bien expliqués. (c’est à nous à chercher ailleurs).
- Les capacités de traçage graphique par rapport à R sont faibles, je pense que cette
caractéristique importante qui rend RapidMiner plus faible.
- L'interface graphique est ergonomique: facile à comprendre, bien organisée, les
icônes,
- C’est l’un des meilleurs outils à ce jour pour faire des expériences de pré-production.
(selon plusieurs avis trouvés sur internet des usagers)
- Facile pour windows (Ilham)> moins facile pour mac (Thouraya) > difficile pour
linux (Sirine)
- Cet outil ne fonctionnait bien sous Windows mais pour Mac, les personnes avait des
problèmes constants (même après les réinstallations), ce qui rendait difficile le choix
d'une équipe qui utilise à la fois Windows et Mac
- facile de créer un flux de travail d'apprentissage automatique, y compris le
chargement de données, la sélection et le nettoyage des fonctionnalités
- Les graphiques de sortie ne sont pas pas très présentables (on peut pas changer les
couleurs ou les tailles comme avec R)
- L'installation de RapidMiner Studio est très facile sur Windows (testé avec Windows
7 x64, Windows 8 x64 et Windows 10 technical preview x64), à partir de l'exécutable
téléchargé sur la page de votre compte RapidMiner (l'inscription est obligatoire).
- L'installation de RapidMiner Studio sur Mac OS X s'est révélée être compliquée, du
fait de ses dépendances en Java. Le système intègre Java 1.8 (OS X 10.10.1) et
RapidMiner demande la version 1.7 ne détectant que la version 1.6.
12
Conclusion
Nous avons remarqué que Rapidminer est un excellent outil pour les étudiants et les
personnes sans grande expérience de la programmation. Il est surtout facile à utiliser pour les
utilisateurs non techniques. Il respecte notamment la règle du 80/20.
Malgré sa puissance, il n’est pas facile à manipuler au début mais avec un peu de pratique, on
s’habitue. Toutefois, malgré sa facilité d'utilisation, il est également facile de se perdre avec
autant de fonctionnalités.
Webographie
Didacticiel - Études de cas de RapidMiner 5.0
URL: http://eric.univ-lyon2.fr/~ricco/tanagra/fichiers/fr_Tanagra_RapidMiner_5.pdf
Consulté le : 26/02/2021
Data Mining avec RapidMiner#1-Prétraitement des données (Vidéo sur youtube)

URL: https://www.youtube.com/watch?v=nyj5X4wVwx8
Consulté le : 27/02/2021
Data Mining: Études de cas en Master Maths Finances

URL: https://www.fil.univ-lille1.fr/~decomite/ue/MFFDD/tp1/rapidminer.pdf
Consulté le: 27/02/2021
13

Rapport Ingénieurie Linguistique VeCIS - Google-Docs

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport Ingénieurie Linguistique VeCIS - Google-Docs

Transféré par

Droits d'auteur :

Formats disponibles

Master VeCIS 2020–2021

Rapport Ingénierie linguistique et système documentaire

Année universitaire :2020/2021

Définition de data mining

Les domaines d’application de DM

De manière générale, le DM permet de :

Titre : Processus de data mining

Titre : Premier page de Logiciel Rapidminer

Titre : Zone centrale de logiciel

Titre : Résultat de test avec l’arbre de décision

Évaluation transversale : (les systèmes similaires)

Titre : Comparaison entre RapidMiner et Monday.com

Évaluation boite noire

- RapidMiner Studio dispose de la plupart des modèles d'apprentissage machine utilisés

Évaluation orienté usage : (recommandations, retour

Data Mining avec RapidMiner#1-Prétraitement des données (Vidéo sur youtube)

Data Mining: Études de cas en Master Maths Finances

Vous aimerez peut-être aussi