Vous êtes sur la page 1sur 3

Chapitre 2 

:
Introduction

Le prétraitement des données est une technique d'exploration de données qui est
utilisée pour transformer les données brutes dans un format utile et efficace. Les
données réelles sont souvent incomplètes, incohérentes et / ou dépourvues de certains
comportements, et sont susceptibles de contenir de nombreuses erreurs. Le
prétraitement des données est une méthode éprouvée pour résoudre ces problèmes et
préparer les données brutes à un traitement ultérieur. Cette étape est importante qu'elle
soit effectuée correctement afin de ne pas impacter négativement le produit final ou la
sortie des données.
Dans ce chapitre, on va tout d’abord vous présenter l’origine de notre base de données.
Nous allons par la suite vous détailler le pré-traitement effectué.

1 Acquisition et description de notre dataset


1.1 Acquisition de la dataset
La base de données qu’on va utiliser provient de la plateforme web Kaggle. Cet
ensemble de données provient à l'origine de l'Institut national du diabète et des maladies
digestives et rénales.

1.2 Description de dataset


Les individus sélectionnés sont des femmes d’au moins 21 ans d’origine indienne.
Les ensembles de données se composent de plusieurs variables prédictives médicales
(indépendantes) et d'une variable cible (dépendante), Outcome . 

1.2.1 Sélection des attributs 

 Grossesses: nombre de fois enceinte


 Glucose: concentration plasmatique de glucose a 2 heures dans un test oral de tolérance
au glucose
 Pression artérielle: tension artérielle diastolique (mm Hg)
 Épaisseur de la peau: épaisseur du pli cutané du triceps (mm)
 Insuline: insuline sérique 2 heures (mu U / ml)
 IMC: Indice de masse corporelle (poids en kg / (taille en m) ^ 2)
 DiabetesPedigreeFunction: Fonction généalogique du diabète
 Âge: Âge (années)
 outcome: prend la variable 1 si la patiente est diabétique e.t 0 sinon

2.Préparation des données et analyse des données


Nous avons choisi comme outil de préparation de nos données Orange.
2.1 Nettoyage et complétion des données
Le nettoyage des données consiste à supprimer les données bruitées ou non pertinentes.
Et la complétion à compléter les valeurs manquantes pour rendre la base tolérable par
les techniques de fouille de données qu’on va utiliser par la suite.

Figure La complétion et nettoyage de donnée

Figure dataset avant la complétion et nettoyage


Figure dataset après la complétion et nettoyage

Conclusion
Ce chapitre nous a permis de nettoyer et structurer notre base de données afin de la préparer à une
future analyse.

Dans le prochain chapitre nous allons découvrir et appliquer l’algorithme de prédiction

Vous aimerez peut-être aussi