Vous êtes sur la page 1sur 7

Exercice 1: Classification avec l'algorithme des k plus proches voisins (k-NN)

Considérez le jeu de données suivant :

Caractéristique 1 Caractéristique 2 Classe


2.0 3.5 A
4.5 6.0 B
1.5 4.0 A
3.5 5.0 B
2.5 5.5 B
4.0 2.5 A
Utilisez l'algorithme des k plus proches voisins avec k=3 pour classer le point (3.0, 4.5) en
utilisant la distance euclidienne comme mesure de similarité.

Solution:

Calculez la distance euclidienne entre le point donné (3.0, 4.5) et chaque point du jeu de
données. La distance euclidienne entre deux points (x1, y1) et (x2, y2) est donnée par la formule
: distance = √((x2 - x1)^2 + (y2 - y1)^2).

Distance entre (3.0, 4.5) et (2.0, 3.5) = √((2.0 - 3.0)^2 + (3.5 - 4.5)^2) ≈ 1.41
Distance entre (3.0, 4.5) et (4.5, 6.0) = √((4.5 - 3.0)^2 + (6.0 - 4.5)^2) ≈ 1.58
Distance entre (3.0, 4.5) et (1.5, 4.0) = √((1.5 - 3.0)^2 + (4.0 - 4.5)^2) ≈ 1.58
Distance entre (3.0, 4.5) et (3.5, 5.0) = √((3.5 - 3.0)^2 + (5.0 - 4.5)^2) ≈ 0.71
Distance entre (3.0, 4.5) et (2.5, 5.5) = √((2.5 - 3.0)^2 + (5.5 - 4.5)^2) ≈ 1.12
Distance entre (3.0, 4.5) et (4.0, 2.5) = √((4.0 - 3.0)^2 + (2.5 - 4.5)^2) ≈ 2.83
Sélectionnez les k points les plus proches du point donné, en utilisant la distance euclidienne
calculée précédemment. Dans ce cas, avec k=3, les trois points les plus proches sont :

Point (3.5, 5.0) avec une distance de 0.71


Point (2.0, 3.5) avec une distance de 1.41
Point (2.5, 5.5) avec une distance de 1.12
Analysez la classe majoritaire parmi les k points les plus proches. Dans notre cas, deux points
appartiennent à la classe B et un point appartient à la classe A. Par conséquent, la classe prédite
pour le point (3.0, 4.5) sera B.

Cela conclut la résolution de l'exercice en utilisant l'algorithme des k plus proches voisins avec
k=3 et la distance euclidienne comme mesure de similarité.

Exercice 2: Régression linéaire simple

Considérez le jeu de données suivant :

Caractéristique Sortie
2.0 4.5
4.0 9.1
3.0 7.2
1.0 3.5
5.0 11.0
Appliquez la régression linéaire pour prédire la sortie pour une nouvelle valeur de
caractéristique x=6.0.

Solution:

Calculez la pente (coefficients) de la droite de régression à l'aide de la formule :


m = Σ((xi - moyenne(x))(yi - moyenne(y))) / Σ((xi - moyenne(x))^2)
Calculez l'ordonnée à l'origine (intercept) de la droite de régression à l'aide de la formule :
b = moyenne(y) - m * moyenne(x)
Utilisez la droite de régression pour prédire la sortie correspondant à x=6.0 :
y=m*x+b
Exercice 3

Les données suivantes montrent les derniers jeux Dallas Mavericks ci-dessus :
1. Quelle est l'entropie de l'ensemble de données (Arbre de décision)?
2. Quel est le gain d'information si vous divisez l'ensemble de données en fonction de l’attribut
"Fouls"?
3. Supposant que le Gain (S, Opponent) = Gain (S, PointGuard) = 0.05. Sur la base de votre
Réponse dans (2) et cette information, quel attribut choisissez-vous comme nœud racine pour
l'arbre de décision ? Entourez l'option appropriée ci-dessous.
• Opponent • PointGuard • Fouls
4. Prédire la classe de (Weak, Weak , No ) en utilisant
a. Le Naïve Bayes classification.
b. Le 3-NN. On suppose que La similarité est calculer comme suit : distance(ai,bi) = 1 si ai=bi
sinon dist(no,few)=0,5, dist(many,few) = 0,5 , dist(many,no)=0.

Corriger :

1) 4 wins and 4 losses. Cela implique que l'entropie est 1.

2) Gain(fouls) = 1 − (2/8)(0) − (3/8)(0) − 3/8[−(1/3) log2(1/3) − (2/3) log2(2/3)]


3) le gain de Fouls est plus grand que opponent et PointGuard. Par conséquent, nous choisirons
des Fouls .
4)
a) Naive Bayes :
E= (Opponent = Weak, PointGuard= Weak, Fouls= No )
E1 est Opponent = Weak, E2 est PointGuard = Weak, E3 est Fouls= No
On doit calculer P(Win/E) et P(Loss/E) et comparer entre eux.
P(win/E) = (P(E1/win) P(E2/win) P(E3/win)P(win))/P(E)
P(win)= 4/8 = 0/5 P(loss)= 4/8 = 0/5
P(E1/win)=2/4 = 0.5 P(E1/loss)=1/4 = 0.25
P(E2/win)=2/4 = 0.5 P(E2/loss)=3/4 = 0.75
P(E3/win)=2/4 = 0.5 P(E3/loss)=0/4 = 0
P(win/E) = (P(E1/win) P(E2/win) P(E3/win)P(win)) /P(E)= (0.5 * 0.5 *0.5 ) 0.5/P(E) = 0.0625
/P(E)
P(loss/E) = (P(E1/loss) P(E2/loss) P(E3/loss)P(loss))/P(E) = (0.25 * 0.75 *0 ) 0.5/P(E)
Alors ici le classifieur Naïve Bayes prédit l’exemple « Win »

b) 3-NN
E= (Opponent = Weak, PointGuard= Weak, Fouls= No )
Exemple (Weak, Weak , No )
Exercice 4 : Classification avec les arbres de décision

Considérez le jeu de données suivant :

Caractéristique 1 Caractéristique 2 Classe


1.5 3.5 A
4.5 6.0 B
1.0 4.0 A
3.5 5.0 B
2.5 5.5 B
4.0 2.5 A
Utilisez l'algorithme des arbres de décision pour construire un arbre de décision et prédire la
classe pour le point (3.0, 4.5) en utilisant l’entropie. La formule est : H = - Σ (pi * log2(pi)) où
pi représente la proportion d'instances de chaque classe dans le jeu de données complet.

Solution :
Dans notre cas, nous avons 3 instances de classe A et 3 instances de classe B, donc :
p(A) = 3/6 = 0.5, p(B) = 3/6 = 0.5
Calcul de l'entropie :
H = - (0.5 * log2(0.5) + 0.5 * log2(0.5)) ≈ 1.0
Pour chaque caractéristique, calculez l'entropie après avoir divisé le jeu de données en fonction
de cette caractéristique.

a. Caractéristique 1 :

Divisez le jeu de données en deux sous-ensembles en fonction de la valeur de la caractéristique


1 (<=1.5 et >1.5).
Calculez l'entropie pour chaque sous-ensemble en utilisant la même formule que
précédemment.
Sous-ensemble 1 (<=1.5) :
2 instances de classe A et 0 instance de classe B
p(A) = 2/2 = 1.0, p(B) = 0/2 = 0.0
Entropie = - (1.0 * log2(1.0) + 0.0 * log2(0.0)) = 0.0
Sous-ensemble 2 (>1.5) :

1 instance de classe A et 3 instances de classe B


p(A) = 1/4 = 0.25, p(B) = 3/4 = 0.75
Entropie = - (0.25 * log2(0.25) + 0.75 * log2(0.75)) ≈ 0.81
Calcul de la réduction d'entropie (information gain) :
Gain (Caractéristique 1) = H - [(2/6) * 0 + (4/6) * 0.81] ≈ 0.19

b. Caractéristique 2 :

Divisez le jeu de données en deux sous-ensembles en fonction de la valeur de la caractéristique


2 (<=4.0 et >4.0).
Calculez l'entropie pour chaque sous-ensemble de la même manière que précédemment.
Sous-ensemble 1 (<=4.0) :
2 instances de classe A et 0 instance de classe B
p(A) = 2/2 = 1.0, p(B) = 0/2 = 0.0
sous-ensemble 2 (>4.0) :
1 instance de classe A et 3 instances de classe B
p(A) = 1/4 = 0.25, p(B) = 3/4 = 0.75
Entropie = - (0.25 * log2(0.25) + 0.75 * log2(0.75)) ≈ 0.81
Calcul de la réduction d'entropie (information gain) :
Gain(Caractéristique 2) = H - [(2/6) * 0 + (4/6) * 0.81] ≈ 0.19

Sélectionnez la caractéristique qui donne la plus grande réduction d'entropie


(information gain). Dans notre cas, c'est la caractéristique 2 avec un gain
d'approximativement 0.19.

Utilisez la caractéristique 2 comme nœud de décision pour diviser le jeu de données.

Si la valeur de la caractéristique 2 est inférieure ou égale à 4.0, la classe prévue est A.


Si la valeur de la caractéristique 2 est supérieure à 4.0, la classe prévue est B.
Appliquez les prédictions de l'arbre de décision construit pour le point (3.0, 4.5).

La valeur de la caractéristique 2 (4.5) est supérieure à 4.0, donc la classe prédite est B.

Vous aimerez peut-être aussi