Corrige Fouille de Données

https://doctorat.epizy.
com
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université Mohamed Seddik Benyahia, Jijel
Faculté des Sciences Exactes et d’Informatique Durée:

Département d’Informatique Date:
Documents interdits
Concours d’accès au Doctorat LMD en informatique au titre de l’année 2018-2019

Corrigé-type de l’épreuve: Fouille de données
Questions (06 pts)
1. Soit la liste des éléments suivants (itemsets et règles d’associations), décrits chacun
par son support S ou sa confiances C:
E1: S(AC) = 50% E2: S(ABC)=60% E3: S(ABCD)=40%

E4: S(BàA)=40% E5: C(A àBD)=30%
matrice diagonale de compatibilité entre ces éléments deux à deux
E1 E2 E3 E4 E5
E1 /
E2 Non /
E3 Oui Oui /
E4 Oui Non Oui /
E5 Oui Oui Oui Oui /
1. Le phénomène de sur-apprentissage dans la construction d’un arbre de décision
• Le surapprentissage consiste à trop développer un arbre de décision pour traiter des

cas très particuliers. Il peut résulter en des feuilles qui correspodent chacune à très peu
d’instances ou à une seule instance seulement.
o
• Pour traiter le surapprentissage, on procède au post-élagage de l’arbre en réduisant sa
taille selon différents crières (nombre de feuilles, taux d’erreurs, etc.). Pour prévenir le
surapprentissage, on procède au pré-élagage pour aboutir à une taille de l’arbre
respecctant différents critères.
2. Dans le regroupement (clustering) hiérarchique ascendant, expliquer la différence

entre les calculs de distance suivants: linkage single, linkage complet et linkage par
centroïde. Dans quel(s) cas de figure ces trois types de linkage donnent-ils le même
résultat?
• Les types de linkage diffèrent selon le mode de calcul de la distance entre deux
clusters. La distance est égale à
o La distance entre les individus les plus proches dans le linkage single
o La distance entre les individus les plus éloignés dans le linkage complet
o La distance entre les centroïdes des clusters dans le linkage par centroïde.
Exercice n°1 (07 pts)
Le tableau ci-dessous représente les choix de livres achetés dans une exposition de vente
effectués par 20 acheteurs. Les livres A et B appartiennent à la catégorie Histoire, les livres C
et D sont de catégorie Politique et les livres E et F sont de catégorie Technologie.
AF E BCDE CEF E
BCD BCDE ACD D CEF
ABCD B C BDE BCDE
CDF ABCE BC BCDF CDF
1. Les tableaux successifs des itemsets en indiquant les itemsets fréquents pour un support
minimal de 30%.
K=1

Itemset Support (%) Nombre de trans. Fréquent?
A 20 4 Non
B 50 10 Oui
C 70 14 Oui
D 55 11 Oui
E 45 09 Oui
F 30 06 Oui
K=2

BC 40 8 Oui
BD 35 7 Oui
BE 25 5 Non
BF 05 1 Non
CD 45 9 Oui
CE 30 6 Oui
CF 25 5 Non
DE 20 4 Non
DF 15 3 Non
EF 10 2 Non
K=3

BCD 30 6 Oui
CDE 15 3 Non

2.
• La liste des règles d’association pour une confiance minimale de 60%.
Itemset fréquent {..} Règle d’association Confiance (%) Retenue?

BC BàC 80 Oui
CàB 57 Non
BD BàD 70 Oui
DàB 63 Oui
CD CàD 64 Oui
DàC 82 Oui
CE CàE 43 Non
EàC 67 Oui
BCD BCà D 75 Oui
BD à C 86 Oui
CD à B 67 Oui
B à CD 60 Oui
C à BD 43 Non
D à BC 55 Non
• Interprétation de la règle de meilleure confiance: la règle BDà C. Cette règle signifie

que 86% de personnes ayant acheté les livres B et D ont acheté le livre C.
3. Nouveau besoin “Savoir à quel degré les gens ayant acheté au moins un livre
d’histoire ont acheté un et un seul livre des autres catégories confondues”.

• Transformation du tableau initial: En considérant la présence d’un item comme un 1
logique et son absence comme un “0” logique, le nouveau tableau contient deux colonnes: la
première colonne “C1” correspond au OU LOGIQUE entre les items A et B. La deuxième
colonne correspond à un OU EXCLUSIF (XOR) entre C, D, E, et F
• Contenu du nouveau tableau
C1 = A OU B C2 = C XOR D XOR E XOR F

1 1
0 1
1 0
0 0
0 1
1 0
1 0
1 0
0 1
0 0
1 0
1 0
0 1
1 0
1 0
0 0
1 0
1 1
1 0
0 0
• Utilisation du tableau: on cherche la confiance de la règle d’association C1 à C2.
Exercice n°2 (07 pts)
Le tableau suivant représente les données relatives à des demandeurs de visa avec leur
décisions de retour à leurs pays d’origine après expiration de leurs visas. Les personnes en
question sont décrites par les attributs suivants:
• Catégorie d’age (CA) ayant comme valeurs “moins de 30 ans” ou “30 ou plus”,
• Zone du pays d’origine (Z) ayant comme valeurs “Z1”, “Z2” et “Z3”,
• Situation familiale (SF) ayant comme valeurs “Marié” et “Célibataire”,
• Situation profesionnelle (SP) ayant comme valeurs “Fonctionnaire”, “Fonction
libérale” ou “Sans emploi”.
CA Z SF SP Retour?
-30 Z1 Célibataire Libéral Non
-30 Z2 Célibataire Sans emploi Non
30+ Z1 Marié Sans emploi Oui
30+ Z3 Marié Libéral Non
-30 Z1 Marié Fonctionnaire Non
30+ Z1 Marié Libéral Oui
-30 Z2 Marié Fonctionnaire Oui
30+ Z1 Célibataire Sans emploi Oui
-30 Z3 Célibaire Sans emploi Non
30+ Z3 Marié Fonctionnaire Non
1. La racine de l’arbre de décision ainsi que les branches en attente de développement

de décision.
- Entropie globale : P(Oui) = 40%, P(Non)=60%, E(S)=0,97.

- Gain
o CA:
§ -30: P(Oui) = 1/5 = 20%, P(Non) = 4/5 = 80% àE(CA/-30)=0,72
§ 30+: P(Oui) = 3/5 = 60%, P(Non) = 2/5= 40%, à E(CA/30+)=0,97
§ Gain = 0,97 – (0,72*5/10 + 0,97*5/10) = 0,125
o Z:
§ Z1: P(Oui) = 3/5 = 60%, P(Non) = 2/5 = 40% à E(Z/Z1) = 0,97
§ Z2: P(Oui) = 1/2 = 50%, P(Non) = 1/2 = 50% à E(Z/Z2) = 1
§ Z3: P(Oui) = 0, P(Non) = 100% à E(Z/Z3) = 0
§ Gain = 0,97 – (0,485 + 0,2) = 0,285
o SF:
§ Célibataire: P(Oui) = 1/4 = 25%, P(Non) = ¾ = 75% à
E(SF/celibataire)= 0,81
§ Marié: P(Oui) = 3/6 = 50%, P(Non) = 3/6 = 50% à E(SF/marié) = 1
§ Gain= 0,97 – (0,81*4/10 + 1*6/10) = 0,05
o SP:
§ Libéral: P(Oui) = 1/3, P(Non) = 2/3 à E(SP/libéral) = 0,92
§ Sans emploi: P(Oui) = 2/4, P(N) = 2/4 à E(SP/ Sans emploi) = 1
§ Fonctionnaire:P(Oui) = 1/3,P(Non) = 2/3 à E(SP/fonctionnaire) = 0,92
§ Gain= 0,97 – (0,92*3/10 + 1 * 4/10 + 0,92* 3/10)= 0,018
o Le meilleur gain est obtenu en choisissant Zone.
- L’arbre initial : racine + branches
Zone
Z1 Z2 Z3
2. L’arbre de décision final: on a deux choix.
Choix 1: Affecter la valeur Non à la branche Z2
Zone
Z1 Z2 Z3
Oui Non Non
Choix 2 : Affecter la valeur Oui à la branche Z2
Zone
Oui Oui Non

3. Calculer la précision et le rappel de l’arbre obtenu en 2 en utilisant comme données de
test les mêmes données de construction.
Choix 1: Affecter la valeur Non à la branche Z2
Z Retour (arbre) Retour? (test)

Z1 Oui Non
Z2 Non Non
Z1 Oui Oui
Z3 Non Non
Z1 Oui Non
Z1 Oui Oui
Z2 Non Oui
Z1 Oui Oui
Z3 Non Non
Z3 Non Non
Precision (Oui) = 3/5 = 60%

Precision (Non) = 4/5 = 75%
Precision moyenne = 67,5%
Rappel (Oui) = 3/4 = 75%

Rappel (Non) = 4/6 = 67 %
Rappel moyen = 71%
Choix 2: Affecter la valeur Oui à la branche Z2
Z Retour (arbre) Retour? (test)

Z1 Oui Non
Z2 Oui Non
Z1 Oui Oui
Z3 Non Non
Z1 Oui Non
Z1 Oui Oui
Z2 Oui Oui
Z1 Oui Oui
Z3 Non Non
Z3 Non Non
Precision (Oui) = 4/7 = 57%

Precision (Non) = 3/3 = 100%
Precision moyenne = 78,5%
Rappel (Oui) = 4/4 = 100%

Rappel (Non) = 3/6 = 50%
Rappel moyen = 75%

Corrige Fouille de Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Corrige Fouille de Données

Transféré par

Droits d'auteur :

Formats disponibles

https://doctorat.epizy.

Faculté des Sciences Exactes et d’Informatique Durée:

Concours d’accès au Doctorat LMD en informatique au titre de l’année 2018-2019

Questions (06 pts)

E1: S(AC) = 50% E2: S(ABC)=60% E3: S(ABCD)=40%

matrice diagonale de compatibilité entre ces éléments deux à deux

1. Le phénomène de sur-apprentissage dans la construction d’un arbre de décision

• Le surapprentissage consiste à trop développer un arbre de décision pour traiter des

2. Dans le regroupement (clustering) hiérarchique ascendant, expliquer la différence

Itemset fréquent {..} Règle d’association Confiance (%) Retenue?

• Interprétation de la règle de meilleure confiance: la règle BDà C. Cette règle signifie

C1 = A OU B C2 = C XOR D XOR E XOR F

Exercice n°2 (07 pts)

1. La racine de l’arbre de décision ainsi que les branches en attente de développement

- Entropie globale : P(Oui) = 40%, P(Non)=60%, E(S)=0,97.

o Le meilleur gain est obtenu en choisissant Zone.

- L’arbre initial : racine + branches

2. L’arbre de décision final: on a deux choix.

Choix 1: Affecter la valeur Non à la branche Z2

Oui Non Non

Choix 2 : Affecter la valeur Oui à la branche Z2

Oui Oui Non

Choix 1: Affecter la valeur Non à la branche Z2

Z Retour (arbre) Retour? (test)

Precision (Oui) = 3/5 = 60%

Rappel (Oui) = 3/4 = 75%

Choix 2: Affecter la valeur Oui à la branche Z2

Z Retour (arbre) Retour? (test)

Precision (Oui) = 4/7 = 57%

Rappel (Oui) = 4/4 = 100%

Vous aimerez peut-être aussi