Vous êtes sur la page 1sur 17

Data Mining

TP n°3

Réalisé par :
CHERKAOUI Jihane
EL YOUSSFI Marwa
IDRISSI Khalid
KETTANI Mohammed-Ayman
Introduction :

Le Data Mining, étant au confluent de la statistique et de l’informatique


décisionnelle, consiste à appliquer des technologies d’analyse des
données et d’intelligence artificielle à l’exploration et à l’analyse des
grandes bases de données, en vue d’en extraire des informations
pertinentes pour l’entreprise et de les utiliser dans les systèmes d’aide à
la décision. En Data Mining, on distingue deux familles de méthodes : les
méthodes d’apprentissage non supervisé et les méthodes
d’apprentissage supervisé dont on cite l’Arbre de décision auquel on
s’intéressera dans ce devoir.

Un arbre de décision est un schéma représentant les résultats possibles


d'une série de choix interconnectés. Il permet à une personne ou une
organisation d'évaluer différentes actions possibles en fonction de leur
coût, leur probabilité et leurs bénéfices. Il est utilisé pour générer un
algorithme qui détermine le meilleur choix de façon mathématique.

Un arbre de décision commence généralement par un nœud d'où


découlent plusieurs résultats possibles. Chacun de ces résultats mène à
d'autres nœuds, d'où émanent d'autres possibilités. Le schéma ainsi
obtenu rappelle la forme d'un arbre.
Partie Théorique

Exercice I)

On considère le fichier de données suivant où, sur six individus


sont relevées, une variable qualitative Y et 3 variables
quantitatives X1, X2 et X3.

IDEN Y X1 X2 X3
1 1 1 0 0
2 1 0 0 1
3 1 0 1 2
4 2 2 2 1
5 1 1 0 0
6 2 2 3 2

On se propose de bâtir un modèle de prédiction de Y par des X.

On obtient l’arbre de segmentation :


a) Interpréter cet arbre et donner les règles de classification
associées.
Comme vous pouvez le voir au niveau de l’arbre de décision ci-dessus,
on a choisi la variable qualitative Y et la variable quantitative X1 qui nous
permettront d’effectuer le partage des 6 individus relevés.
En se basant sur la variable qualitative Y, on a pu diviser les 6 individus,
dans un premier temps, en 2 catégories :
- Une en violet qui regroupe 4 individus qui constituent 67% des 6
individus relevés.
- Une en vert qui regroupe deux individus qui constituent 33% des 6
individus relevés.
Dans un deuxième temps, on a pu séparer ces 6 individus en deux
catégories en se basant sur la valeur de la variable quantitative X1 :
- Si X1<=1.50 : il s’agit de la catégorie qui regroupe les 4 individus
de la catégorie violette précédente et qui
constituent 67% des 6 individus relevés.
- Si X1>1.50 : il s’agit de la catégorie qui regroupe les 2
individus de la catégorie verte précédente et qui constitue
33% des 6 individus relevés.

b) A quelle catégorie de Y appartient l’individu supplémentaire


(4, 2, 1) ?
L’individu supplémentaire (4, 2, 1) appartient à la catégorie verte de Y
Car on a X1= 4 >1.50 et donc selon l’arbre de décision, l’individu
supplémentaire (4, 2, 1) appartient à la catégorie verte de Y qui constitue
33% des 6 individus relevés.

c) Donner la matrice de confusion associée à cet arbre.


d) Quel est le taux de mauvais classement sur le fichier
d’apprentissage ?
Le taux de mauvais classement sur le fichier d’apprentissage est de
33,333%.

e) Quelles sont les valeurs de : Recall, Precision et la mesure F ?

On a: Recall=TP/(TP+FN) et Precision=TP/(TP+FP)
et la mesure F=2*(Recall*Precision)/(Recall+Precision)
avec: TP: true positive
FP: false positive
FN: false negative

On a donc Recall=2/4=0,5
Precision=2/2=1
F=2*(0,5*1)/(0,5+1)=0,66

f) Est-ce que la valeur de ce taux est suffisante pour juger la


qualité de prédiction de l’arbre ? Sinon à votre avis, que faut-il
faire ?

On a calculé le taux de mauvais classement pour le fichier


d’apprentissage chose qui n’est pas suffisante pour juger la qualité de
prédiction de cet arbre.
On devrait générer un fichier test et recalculer le taux de mauvais
classement.
g) On effectue une analyse discriminante factorielle de Y sur
les X en se basant toujours sur le fichier d’apprentissage
précédent

g1) Expliquer en quelques lignes la démarche


algorithmique de l’analyse discriminante.

L’analyse factorielle discriminante (AFD) ou simplement analyse


discriminante est une technique statistique qui vise à décrire, expliquer
et prédire l’appartenance à des groupes prédéfinis (classes, modalités
de la variable à prédire…) d’un ensemble d’observations (individus,
exemples…) à partir d’une série de variables prédictives (descripteurs,
variables exogènes…).

g2) On obtient la carte factorielle discriminante suivante.


Expliquer

g3) Quelle est la matrice de confusion associée.


h) Quelles sont les autres méthodes que vous connaissez
et qui peuvent servir à prédire Y par les X ?

• Arbre de décision
• Réseau à apprentissage supervisé
• Régression linéaire
• Régression logistique

Exercice II

On considère le fichier d’apprentissage du tableau


suivant pour une classification binaire.

a) Quel est l’entropie de cette collection d’instances par rapport


à la classe positive.

E(col)=−𝑝+ log 𝑝+ − 𝑝− log 𝑝−


4 4 5 5
=- log − log 9
9 9 9

=99.1%

b) Quels sont les gains d’information « information gain»


correspondants à a1 et a2 respectivement
- information gain A1= 23%
- information gain A2= 0.766%

c) Pour a3 qui est un attribut continu, calculer le gain d’information


pour chaque partage possible la valeur moyenne de deux valeurs
successives (exemple 3 pour 1 et 2)
d) Quel est le meilleur partage parmi a1, a2 et a3 selon
le gain d’information ?
e) Quel est le meilleur partage parmi a1 et a2 selon l’indice de
Gini.
Partie Pratique

On considère le fichier Breast-Cancer contenant 699 observations,


9 attributs explicatifs X et la classe binaire Y (malignant, benign).

i) Partitionner les données en fichier d’apprentissage (80 %) et


fichier test (20 %) avec un sampling stratifié et un random
seed =179.

Le Excel Reader est configuré comme suit :


Le Partitioning est configuré comme suit :
ii) Effectuer une régression logistique de Y sur X (Classe
positive=malignant) puis, enlever les deux attributs les moins
significatifs et faite une prédiction avec ce modèle réduit de 7
attributs sur les données test.

Pour les attributs non significatifs on s’est basé sur le graphe 1 suivant :

Donc les attributs les moins significatifs sont : Bland Chromatin et Cell
Size Uniformity.

1
Référence : https://sites.google.com/a/googlesciencefair.com/science-fair-2012-project-
64a91af142a459cfb486ed5cb05f803b2eb41354-1333130785-87/observations
Le Logistic regression Learner est configuré comme suit :

Le Logistic Regression Predictor est configuré par defaut.

iii) Avec uniquement les données d’apprentissage, effectuer une


ACP (non normée) sur les 7 X suivi retenus d’une régression
logistique de Y sur les deux premières composantes principales.
Le PCA est configuré comme suit :

Le Logistic regression Learner est configuré comme suit :


iv) Utiliser le PCA compute sur les données d’apprentissage
(7 variables) suivi par le PCA Apply sur les données test en gardant
uniquement les 2 meilleures composantes principales suivi, d’une
régression logistique obtenue par le modèle de iii) pour la
prédiction de Y sur les données de iv).

Le PCA Compute est configuré comme suit :


Le PCA Aply est configuré comme suit :

v) Expliquer pourquoi nous avons utilisé iii) suivi de iv) au lieu de


faire un partitionnement après avoir fait une ACP sur toutes les 699
données.

vi) Comparer pourcentage de bon classement du modèle de


régression logistique directe ii) avec celui effectué sur les
composantes principales iii) et iv) ainsi que les courbes ROC.
Matrices de confusions :
Modèle de régression Modèle effectué sur les
logistique directe : composantes principales :

On remarque que le pourcentage de bon classement du modèle de


regression logistique directe est supérieur que celui du modèle effectué
sur les composantes principales.

Les courbes ROC :


Modèle de régression Modèle effectué sur les
logistique directe : composantes principales :
vii) Explications et Conclusion(s)
Conclusion : d’après les résultats obtenus par les deux modelés, les
matrices de confusions et les courbes ROC, on peut conclure que le
modèle de regression logistique directe est plus précis, et fournis des
résultats plus fiables, que le modèle effectué sur les composantes
principales.