tp6 Data-Mining

Data Mining
TP 07
LES RÉSEAUX DE NEURONE ARTIFICIELS DANS R
Nom : Tikouk
Prénom : Jamal
Filière : ID-1
OBJECTIF DU TP
Ce TP a pour objectifs :
 Le chargement des données sur R : « credit-‐-german.csv » : dé crit les

caracté ristiques de 1000 clients d’un organisme de crédit. Le fichier provient
du serveur UCI :
 « http://freakonometrics.free.fr/german_credit.csv »
 L’utilisation des RNA : L'objectif consiste à d'utiliser les kNN et les réseaux de
neurone artificiels pour cré er un modè le de pré diction sur un jeu de donné es
(credit-‐-german).
Exercice ❶ : kNN
Chargement des données :
Affichage des statistiques de la variable cible Creditability :
Nous observons que parmi les clients, 700 ont réussi à rembourser leurs crédits avec succès, tandis que
300 ont échoué. Sur la base de ces résultats, nous utiliserons le statut de ces clients pour construire notre
prédiction pour les nouveaux clients.
Prétraitement des dOnnées :
Lors de l'analyse des données extraites du fichier "credit-german.txt", nous constatons l'absence de
données manquantes, dispersées ou en double. Cependant, en ce qui concerne les données
aberrantes, il est clair que la variable "Montant du crédit" est celle qui présente des problèmes
potentiels.
En examinant le diagramme en boîte et moustaches, nous avons identifié plusieurs valeurs atypiques.
Nous devons maintenant décider si nous devons les supprimer s'ils n'entraînent pas de perte
d'informations, ou bien consulter des experts du domaine des systèmes bancaires pour les corriger.
Il est essentiel de prendre les mesures appropriées pour traiter les valeurs aberrantes détectées, afin
de garantir l'intégrité et la fiabilité de notre analyse.
NOrmalisation des dOnnées et transfOrmation en échelle cOmmune :
La fOnction normlize() a pOur but de normaliser les dOnnées de la table creditGerman.

Nous appliquons cette transformation aux variables explicatives de la table et les enregistrons dans une
nouvelle data frame appelée "creditGermanNOr". Une observation importante est que toutes les données
de cette nouvelle data frame sont comprises entre 0 et 1.
Et On vérifie finalement cette normalisation via les deux instructions ci-dessOus ; Summary () affiche le
résumé statique du data frame creditGermanNOr
str () affiche la taille du data frame creditGermanNOr (ligne et cOlOnne), le type des variables et leur
valeurs qui sOnt bien normalisées.
DécOupage en deux bases : base d’apprentissage BAppr et base de test BVal

AjOut de la variable cible « Creditability » pOur tOurner et tester les RNA :
Installation, chargement et utilisation du package « nnet » :
Installation et chargement du package nnet :

Utilisation de la fOnction nnet() pOur créer un mOdèle neuronale :
La commande nnet() est utilisée pour construire le réseau à partir de l'échantillon d'apprentissage
"BAprentissage". Nous avons fixé le nombre maximum d'itérations à 1000 (maxit = 1000) pour garantir la
stabilité des résultats. L'option "skip = FALSE" indique la présence d'une couche cachée, tandis que "size =
30" définit le nombre de neurones dans cette couche.
Voici l'affichage d'une description du modèle créé :
Evaluation du mOdèle RNA crée :
Production de la prédiction à l’aide de la cOmmande predict() :
Matrice de cOnfusion du mOdèle :

Calcul de l’erreur de prédiction :
ChOix de la meilleure architecture RNA :

DévelOppement d’une fOnction variant le nombre de RN et
retOurnant l’erreur de prédiction :
Le graphe de l’évOlution de l’erreur de prédiction :

Pour identifier la meilleure architecture du réseau neuronal artificiel (RNA),
nous recherchons celle qui minimise l'erreur de prédiction en fonction du
nombre de neurones. En d'autres termes, nous cherchons la configuration
du réseau qui offre les performances les plus élevées en termes de précision
et de capacité de généralisation. Cela implique d'évaluer différentes
architectures de réseau et de comparer leurs performances en utilisant des
mesures telles que l'erreur de prédiction, la précision ou le taux de réussite.
La meilleure architecture du RNA sera celle qui parvient à obtenir les
résultats les plus satisfaisants pour la tâche spécifique à laquelle le réseau
est appliqué.

tp6 Data-Mining

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

tp6 Data-Mining

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining

 Le chargement des données sur R : « credit-‐-german.csv » : dé crit les

Affichage des statistiques de la variable cible Creditability :

Prétraitement des dOnnées :

La fOnction normlize() a pOur but de normaliser les dOnnées de la table creditGerman.

DécOupage en deux bases : base d’apprentissage BAppr et base de test BVal

Installation, chargement et utilisation du package « nnet » :

Installation et chargement du package nnet :

Voici l'affichage d'une description du modèle créé :

Evaluation du mOdèle RNA crée :

Production de la prédiction à l’aide de la cOmmande predict() :

Matrice de cOnfusion du mOdèle :

ChOix de la meilleure architecture RNA :

Le graphe de l’évOlution de l’erreur de prédiction :

Vous aimerez peut-être aussi