Vous êtes sur la page 1sur 6

https://doctorat.epizy.

com
République Algérienne Démocratique et Populaire
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Université Mohamed Seddik Benyahia, Jijel

Faculté des Sciences Exactes et d’Informatique Durée:


Département d’Informatique Date:
Documents interdits

Concours d’accès au Doctorat LMD en informatique au titre de l’année 2018-2019


Corrigé-type de l’épreuve: Fouille de données

Questions (06 pts)

1. Soit la liste des éléments suivants (itemsets et règles d’associations), décrits chacun
par son support S ou sa confiances C:

E1: S(AC) = 50% E2: S(ABC)=60% E3: S(ABCD)=40%


E4: S(BàA)=40% E5: C(A àBD)=30%

matrice diagonale de compatibilité entre ces éléments deux à deux

E1 E2 E3 E4 E5
E1 /
E2 Non /
E3 Oui Oui /
E4 Oui Non Oui /
E5 Oui Oui Oui Oui /

1. Le phénomène de sur-apprentissage dans la construction d’un arbre de décision

• Le surapprentissage consiste à trop développer un arbre de décision pour traiter des


cas très particuliers. Il peut résulter en des feuilles qui correspodent chacune à très peu
d’instances ou à une seule instance seulement.
o
• Pour traiter le surapprentissage, on procède au post-élagage de l’arbre en réduisant sa
taille selon différents crières (nombre de feuilles, taux d’erreurs, etc.). Pour prévenir le
surapprentissage, on procède au pré-élagage pour aboutir à une taille de l’arbre
respecctant différents critères.

2. Dans le regroupement (clustering) hiérarchique ascendant, expliquer la différence


entre les calculs de distance suivants: linkage single, linkage complet et linkage par
centroïde. Dans quel(s) cas de figure ces trois types de linkage donnent-ils le même
résultat?

• Les types de linkage diffèrent selon le mode de calcul de la distance entre deux
clusters. La distance est égale à

o La distance entre les individus les plus proches dans le linkage single
o La distance entre les individus les plus éloignés dans le linkage complet
o La distance entre les centroïdes des clusters dans le linkage par centroïde.
Exercice n°1 (07 pts)

Le tableau ci-dessous représente les choix de livres achetés dans une exposition de vente
effectués par 20 acheteurs. Les livres A et B appartiennent à la catégorie Histoire, les livres C
et D sont de catégorie Politique et les livres E et F sont de catégorie Technologie.

AF E BCDE CEF E
BCD BCDE ACD D CEF
ABCD B C BDE BCDE
CDF ABCE BC BCDF CDF

1. Les tableaux successifs des itemsets en indiquant les itemsets fréquents pour un support
minimal de 30%.
K=1

Itemset Support (%) Nombre de trans. Fréquent?
A 20 4 Non
B 50 10 Oui
C 70 14 Oui
D 55 11 Oui
E 45 09 Oui
F 30 06 Oui
K=2

Itemset Support (%) Nombre de trans. Fréquent?
BC 40 8 Oui
BD 35 7 Oui
BE 25 5 Non
BF 05 1 Non
CD 45 9 Oui
CE 30 6 Oui
CF 25 5 Non
DE 20 4 Non
DF 15 3 Non
EF 10 2 Non
K=3

Itemset Support (%) Nombre de trans. Fréquent?
BCD 30 6 Oui
CDE 15 3 Non

2.
• La liste des règles d’association pour une confiance minimale de 60%.

Itemset fréquent {..} Règle d’association Confiance (%) Retenue?


BC BàC 80 Oui
CàB 57 Non
BD BàD 70 Oui
DàB 63 Oui
CD CàD 64 Oui
DàC 82 Oui
CE CàE 43 Non
EàC 67 Oui
BCD BCà D 75 Oui
BD à C 86 Oui
CD à B 67 Oui
B à CD 60 Oui
C à BD 43 Non
D à BC 55 Non

• Interprétation de la règle de meilleure confiance: la règle BDà C. Cette règle signifie


que 86% de personnes ayant acheté les livres B et D ont acheté le livre C.

3. Nouveau besoin “Savoir à quel degré les gens ayant acheté au moins un livre
d’histoire ont acheté un et un seul livre des autres catégories confondues”.

• Transformation du tableau initial: En considérant la présence d’un item comme un 1
logique et son absence comme un “0” logique, le nouveau tableau contient deux colonnes: la
première colonne “C1” correspond au OU LOGIQUE entre les items A et B. La deuxième
colonne correspond à un OU EXCLUSIF (XOR) entre C, D, E, et F
• Contenu du nouveau tableau

C1 = A OU B C2 = C XOR D XOR E XOR F


1 1
0 1
1 0
0 0
0 1
1 0
1 0
1 0
0 1
0 0
1 0
1 0
0 1
1 0
1 0
0 0
1 0
1 1
1 0
0 0
• Utilisation du tableau: on cherche la confiance de la règle d’association C1 à C2.

Exercice n°2 (07 pts)

Le tableau suivant représente les données relatives à des demandeurs de visa avec leur
décisions de retour à leurs pays d’origine après expiration de leurs visas. Les personnes en
question sont décrites par les attributs suivants:
• Catégorie d’age (CA) ayant comme valeurs “moins de 30 ans” ou “30 ou plus”,
• Zone du pays d’origine (Z) ayant comme valeurs “Z1”, “Z2” et “Z3”,
• Situation familiale (SF) ayant comme valeurs “Marié” et “Célibataire”,
• Situation profesionnelle (SP) ayant comme valeurs “Fonctionnaire”, “Fonction
libérale” ou “Sans emploi”.

CA Z SF SP Retour?
-30 Z1 Célibataire Libéral Non
-30 Z2 Célibataire Sans emploi Non
30+ Z1 Marié Sans emploi Oui
30+ Z3 Marié Libéral Non
-30 Z1 Marié Fonctionnaire Non
30+ Z1 Marié Libéral Oui
-30 Z2 Marié Fonctionnaire Oui
30+ Z1 Célibataire Sans emploi Oui
-30 Z3 Célibaire Sans emploi Non
30+ Z3 Marié Fonctionnaire Non

1. La racine de l’arbre de décision ainsi que les branches en attente de développement


de décision.

- Entropie globale : P(Oui) = 40%, P(Non)=60%, E(S)=0,97.


- Gain

o CA:
§ -30: P(Oui) = 1/5 = 20%, P(Non) = 4/5 = 80% àE(CA/-30)=0,72
§ 30+: P(Oui) = 3/5 = 60%, P(Non) = 2/5= 40%, à E(CA/30+)=0,97
§ Gain = 0,97 – (0,72*5/10 + 0,97*5/10) = 0,125
o Z:
§ Z1: P(Oui) = 3/5 = 60%, P(Non) = 2/5 = 40% à E(Z/Z1) = 0,97
§ Z2: P(Oui) = 1/2 = 50%, P(Non) = 1/2 = 50% à E(Z/Z2) = 1
§ Z3: P(Oui) = 0, P(Non) = 100% à E(Z/Z3) = 0
§ Gain = 0,97 – (0,485 + 0,2) = 0,285
o SF:
§ Célibataire: P(Oui) = 1/4 = 25%, P(Non) = ¾ = 75% à
E(SF/celibataire)= 0,81
§ Marié: P(Oui) = 3/6 = 50%, P(Non) = 3/6 = 50% à E(SF/marié) = 1
§ Gain= 0,97 – (0,81*4/10 + 1*6/10) = 0,05
o SP:
§ Libéral: P(Oui) = 1/3, P(Non) = 2/3 à E(SP/libéral) = 0,92
§ Sans emploi: P(Oui) = 2/4, P(N) = 2/4 à E(SP/ Sans emploi) = 1
§ Fonctionnaire:P(Oui) = 1/3,P(Non) = 2/3 à E(SP/fonctionnaire) = 0,92
§ Gain= 0,97 – (0,92*3/10 + 1 * 4/10 + 0,92* 3/10)= 0,018

o Le meilleur gain est obtenu en choisissant Zone.

- L’arbre initial : racine + branches

Zone

Z1 Z2 Z3

2. L’arbre de décision final: on a deux choix.

Choix 1: Affecter la valeur Non à la branche Z2

Zone

Z1 Z2 Z3

Oui Non Non

Choix 2 : Affecter la valeur Oui à la branche Z2

Zone

Oui Oui Non


3. Calculer la précision et le rappel de l’arbre obtenu en 2 en utilisant comme données de
test les mêmes données de construction.

Choix 1: Affecter la valeur Non à la branche Z2

Z Retour (arbre) Retour? (test)


Z1 Oui Non
Z2 Non Non
Z1 Oui Oui
Z3 Non Non
Z1 Oui Non
Z1 Oui Oui
Z2 Non Oui
Z1 Oui Oui
Z3 Non Non
Z3 Non Non

Precision (Oui) = 3/5 = 60%


Precision (Non) = 4/5 = 75%
Precision moyenne = 67,5%

Rappel (Oui) = 3/4 = 75%


Rappel (Non) = 4/6 = 67 %
Rappel moyen = 71%

Choix 2: Affecter la valeur Oui à la branche Z2

Z Retour (arbre) Retour? (test)


Z1 Oui Non
Z2 Oui Non
Z1 Oui Oui
Z3 Non Non
Z1 Oui Non
Z1 Oui Oui
Z2 Oui Oui
Z1 Oui Oui
Z3 Non Non
Z3 Non Non

Precision (Oui) = 4/7 = 57%


Precision (Non) = 3/3 = 100%
Precision moyenne = 78,5%

Rappel (Oui) = 4/4 = 100%


Rappel (Non) = 3/6 = 50%
Rappel moyen = 75%

Vous aimerez peut-être aussi