Vous êtes sur la page 1sur 2

ESSAIE DE CORRECTION INF371

Partie 1 : Data Mining

Question de Cours

1) Definitions
Données Etiquetées : Ce sont des données de la forme (X, Y) ou X est un parametre observé
sur un individu (variables indépendante) et Y est une classe ou une valeur numérique
représentant la variable dépendante.
Fouille de données : Ensemble des méthodes, techniques et outils utilisés pour extraire de la
connaissance dans un ensemble de données de taille importante
Motif fréquent : C’est un ensemble d’item dont le support est supérieur au seuil de
fréquence fixé
Règle d’association : C’est une implication de la forme A=a => B=b qui se traduit par : Lorsque
A prend la valeur a B prend généralement la valeur b
2) Etapes de la fouille de données :
- Compréhension du domaine,
- Compréhension des données,
- Prétraitement des données,
- Modélisation et Evaluation et
- Deployement
3) Validation :
- Validation croisée d’ordre k : Ici on divise le dataset en k partie disjointes et pour i allant de
1 a k on considère à chaque fois la partie i comme testset et le reste comme trainset.
L’évaluation du modèle finale s’obtient en faisant la moyenne des performances des k
modèles.
- Holdout : Ici on divise le dataset en 2 parties (testset et trainset) avec une proportion p pour
le train set (généralement 0.7, 0.75, 0.8)
4) Precision = C’est la probabilité sachant que la prédiction la prédiction d’une classe est k
d’observé effectivement cette classe.
Rappel = C’est la probabilité sachant qu’une classe k est observé de prédire cette clas

Exercice 2

1) Commande R

df <- read.table(‘’file.txt’’, na.string=”?”, sep=”,”, dec=’’.’’)

2) On peut remplacer les Valeurs manquantes par une valeur par défaut (moyenne, medianne
pour les valeurs numériques ou le mode pour les valeurs catégorielles ou une valeur définie
par l’expert du domaine). On peut aussi utiliser la régression/classification pour remplacer les
valeurs manquantes.
3) Normaliser les données c’est les mettre dans une echelle de [0 ;1] ou [-1 ; 1].

#Normalisation Z-score

df$X1.scale <- scale(df$X1)

df$X2.scale <- scale(df$X2)


#Normalisation min-max

df$X1.scale <- scale(df$X1, center=min(df$X1), scale=(max(df$X1)-min(df$X1)))

df$X2.scale <- scale(df$X2, center=min(df$X2), scale=(max(df$X2)-min(df$X2)))

4) Discrétiser les données :

df$X1.discr <- cut(df$X1.scale, breaks=5)

df$X2.discr <- cut(df$X2.scale, breaks=5)

#regles d’association

library(arules)

df_matrix<- as.matric(df[,c(“df$X1.discr”, “df$X1.discr”, “Classe”)])

df_trans=as(df_matrix, ‘’transactions")

regles<-appriori(df_trans, ,parameter = list(supp=0.5,conf=0.8))

regles=sort(regles , by="lift")

Vous aimerez peut-être aussi