Vous êtes sur la page 1sur 28

2/16/2024

UNIVERSITE SULTAN MOULAY SLIMANE


FACULTE POLYDISCIPLINAIRE
BENI MELLAL

Module :M354 : Apprentissage Automatique

Licence d'Excellence: Data Science et Sécurité des Systèmes d’Information

A.MAARIR
Email: a.maarir@ya.ru 2023/2024

Apprentissage Automatique

Chapitre 2 - Modèles de régression linéaire et


logistique

Apprentissage Automatique Chapitre 2: Modèle de


régression logistique

1
2/16/2024

3
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
• Soit un ensemble de données d’apprentissage 𝐷 = 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1. . 𝑚 , 𝑥𝑖 ∈ ℝ , 𝑦𝑖 ∈ ℝ , de classification des courriels
en spam et non-spam à l'aide de la méthode de gradient pour la régression logistique.

Longueur du message (X) 20 30 15 25 40 18 35 22 28 24 Données :


Spam (Y) 0 1 0 1 1 0 1 0 1 0 θ0 et θ1 = 0 et ∝= 0.01

1.1 La fonction hypothèse ℎ.


𝟏
ℎ(x)=
𝟏+𝒆−(𝜽𝟏 ×𝑿+𝜽𝟎)

1.2 Pour chaque e-mail 𝑥𝑖 , la probabilité prédite qu'il soit un spam est :
𝟏 𝟏 𝟏
𝒑(𝒚 = 𝟏 |𝒙𝒊 , θ0 ,θ1) = ℎ(𝒙𝒊 ) = = = = 𝟎. 𝟓
𝟏+𝒆−(𝜽𝟏×𝒙𝒊+𝜽𝟎 ) 𝟏+𝒆−(𝟎×𝒙𝒊+𝟎) 𝟏+𝒆𝟎

Email: a.maarir@ya.ru
1.3 La formulation de la fonction de coût :

A.MAARIR
𝑚
1
𝐽 𝜽 = − ෍ 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
𝑚
𝑖=1
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique

4
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.3. La valeur de la fonction de coût pour la première itération :
10
1
𝑱 θ0 ,θ1 = − ෍ 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 ) + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
10
𝑖=1
Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806
Email: a.maarir@ya.ru

1
𝑱 0,0 = − 10 × (𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 +
𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 ×
𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 +
A.MAARIR

(1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 )
𝟏
𝑱 0,0 = − (−𝟔. 𝟗𝟑𝟏𝟒𝟕𝟏𝟖𝟎𝟔) = 0.693147181
𝟏𝟎
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique

2
2/16/2024

5
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.4. La valeur de gradient de la fonction de coût (cross-entropy) par rapport aux coefficients θ0 et θ1 du modèle.

Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806

Email: a.maarir@ya.ru
𝑚 10
𝜕𝐽(𝜃) 1 1
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = ෍(𝜎 𝜃 . 𝑋 − 𝑦 )) = ෍(ℎ(𝑥𝑖) − 𝑦𝑖) = 𝟎
𝜕𝜃 0 𝑚 10
𝑖=1 𝑖=1

A.MAARIR
𝑚 10
𝜕𝐽(𝜃) 1 1 −29.5
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = ෍(𝜎 𝜃 . 𝑋 − 𝑦 )) × 𝑋 = ෍(ℎ(𝑥𝑖) − 𝑦𝑖) × 𝑥𝑖 = = −𝟐. 𝟗𝟓
𝜕𝜃 1 𝑚 10 10
𝑖=1 𝑖=1
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique

6
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.5 Les coefficients du modèle en utilisant la formule de mise à jour de la descente de gradient.

𝜕𝐽 𝜃
On a : 𝜃𝑗 = 𝜃𝑗 − 𝛼 pour j =0,1
𝜕𝜃𝑗

𝜃0 0 0
𝜃 𝑖𝑡é𝑟𝑎𝑡𝑖𝑜𝑛 1 = − 0.01 =
𝜃1 −2.95 0.0295
Email: a.maarir@ya.ru
A.MAARIR

Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique

3
2/16/2024

Contenu du Module

✓ Chapitre 1 - Introduction à l’Apprentissage Automatique

✓ Chapitre 2 - Modèles de régression linéaire et logistique.

✓ Chapitre 3- Méthodes de classification :Analyse discriminante, Arbres de décision et forêts aléatoires.

✓ Chapitre 4 - Techniques de clustering telles que le clustering k-means et le clustering hiérarchique

✓ Chapitre 5- Réseaux de neurones artificiels.

✓ Chapitre 6 - Évaluation des performances des modèles de machine learning à l'aide de métriques telles
que l'accuracy, la précision, le rappel et la F-mesure.

Email: a.maarir@ya.ru
A.MAARIR
Apprentissage Automatique Chapitre 2: Modèle de
régression logistique

Apprentissage Automatique

Chapitre 3- Méthodes de classification: Analyse


discriminante, Arbres de décision et Forêts
aléatoires.

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

4
2/16/2024

Qu'avons-nous fait ?
1. Fonction
Hypothèse

2. Déterminer la
Fonction Coût

3. Déterminez le gradient puis appliquez


l'algorithme de la Descente de Gradient

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

10
Classification-
04 motivations

Les méthodes de classification ont pour but d'identifier les classes auxquelles appartiennent des
objets à partir de certains traits descriptifs. Elles trouvent leur utilité dans un grand nombre
d'activités humaines et en particulier dans la prise de décision automatisée. Citons par exemple :

Analyse de sentiment : Classer les commentaires des La classification des fleurs en différentes espèces
utilisateurs comme positifs, négatifs ou neutres. en fonction de leurs caractéristiques.

Reconnaissance de caractères manuscrits : Classer des


Classification des espèces : Identifier le type
images de caractères manuscrits en différentes chiffres.
d'espèce (par exemple, chien, chat, oiseau) à partir
d'images d'animaux
Accord d'un prêt bancaire : à partir de la situation d'un
client (sa description) la procédure de classification donne la Classification de mails : Déterminer si un e-mail
réponse à la demande de prêt : oui / non (sa classe). est primaire (1), social (2), forums (3), Promotions
(4)
Diagnostic médical : Prédire si un patient est atteint d'une
certaine maladie basée sur ses symptômes et ses antécédents Classification des tumeurs : Classer une tumeur
médicaux. comme maligne ou non maligne.

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

5
2/16/2024

11
04
Classification- motivations

Pouvons-nous utiliser la
Jusqu'à présent, la régression logistique présente une exigence importante : la régression logistique pour
classification doit être guidée par un vecteur comportant des valeurs binaires telles entraîner un modèle à
que Vai/Faux, Malade/Sain, admis/Non admis, etc. partir d'un vecteur Y
comprenant 𝑰 modalités
(ou classes), avec 𝑰 > 2 ?

Pour résoudre ce défi, on peut


utiliser l'algorithme "one-versus-all"
(ou "one-versus-rest").
Il convertit le problème multi-
classes en une série de problèmes
binaires distincts.

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

12
04
Classification- motivations

Prenons l'exemple de la figure précédente : correspondra à la classe


1, à la classe 2 et à la classe 3.
La classification sera alors décomposée en trois étapes :

Nous allons donc entraîner un classifieur de


régression logistique classique pour chacune
des valeurs i pouvant être prises par le vecteur
Y, afin de prédire la probabilité que 𝒑(𝒚 = 𝒊).
Cette approche peut être formulée comme suit

𝟎 ≤ 𝒉𝒊 𝒙 ≤ 𝟏
𝒉𝒊 𝒙 = 𝝈 𝜽 . 𝑿 = 𝒑 𝒚 = 𝒊 𝒙, 𝜽 ) (𝒊 = 𝟏, … , 𝑰)

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

6
2/16/2024

13
04
Classification- motivations
Pour utiliser ce modèle afin d’effectuer des prédictions, on cherche

𝑚𝑎𝑥 ℎ𝑖 𝑥
on applique chacun des 𝑰 classifieurs aux nouvelles observations. On obtiendra ainsi i probabilités de
classification.
La probabilité la plus élevée indiquera la classe à laquelle la nouvelle observation est la plus susceptible
d’appartenir.

Exemple : Prédiction pour une nouvelle observation

𝒉𝟏 𝒙 nous apprend que la probabilité d'appartenir à la classe 1 est de 0,3 (sans avoir à distinguer si les autres observations
𝒉𝟐 𝒙 celle d'appartenir à la classe 2 est de 0,5.
𝒉𝟑 𝒙 celle d'appartenir à la classe 3 est de 0,2.

En conséquence, nous concluons que la nouvelle observation appartient à la classe 2 ( ) .


Il est crucial que les probabilités cumulées atteignent 1, garantissant ainsi que la sortie de la régression logistique constitue
une distribution de probabilité.
𝒑 𝒚=𝟏 +𝒑 𝒚=𝟐 +𝒑 𝒚=𝟑 =𝟏

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

14
04
Classification- Analyse discriminante linéaire
La régression logistique est un algorithme de classification traditionnellement limité aux problèmes de classification à deux
classes uniquement. Si vous avez plus de deux classes, alors l'analyse discriminante linéaire est la technique de
classification linéaire préférée.

Lorsque nous représentons les caractéristiques, nous pouvons voir que les données sont linéairement séparables. Nous
pouvons tracer une ligne pour séparer les deux groupes.
Le problème consiste à trouver la ligne et à faire pivoter les caractéristiques de manière à maximiser la distance entre les
groupes et à minimiser la distance au sein du groupe.

Email: a.maarir@ya.ru
A.MAARIR

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

7
2/16/2024

15
04
Analyse Discriminante Linéaire (LDA)
Ce que nous cherchons , c'est de prédire la probabilité que 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙). C'est ce que la régression logistique estime
directement.
Par ailleurs, nous pouvons poser un modèle pour 𝑷 𝑿 = 𝒙 𝒀 = 𝒌). ainsi qu'une probabilité a priori 𝑷(𝒀 = 𝒌). Ensuite,
en appliquant la règle de Bayes, nous pouvons calculer 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙).

Théorème de Bayes:
En théorie des probabilités, Le théorème de Bayes nonce des probabilités conditionnelles. il permet de déterminer la
probabilité de 𝐴 sachant 𝐵, si l’on connaît les probabilités de 𝐴, de 𝐵 et de 𝐵 sachant 𝐴, selon la relation suivante :

La probabilité a posteriori 𝑝𝑘 (𝑥) 𝑃 ∗ 𝐵 𝐴 𝑃(𝐴)


𝑃 𝐴𝐵 =
𝑃 𝑋 = 𝑥 𝑌 = 𝑘 ∗ 𝑃(𝑌 = 𝑘) 𝑃(𝐵)
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) =
𝑃(𝑋 = 𝑥) •Où :
𝑓𝑘 𝑥 ∗ 𝜋𝑘 •𝑃 𝐴 𝐵 est la probabilité de l'événement A sachant
= 𝑘 que l'événement B est réalisé (probabilité à
σ𝑙=1∗ 𝜋𝑙 𝑓𝑙 𝑥 posteriori).
•𝑃 𝐵 𝐴 est la probabilité de l'événement B sachant
𝑂ù 𝑓𝑘 𝑥 est la fonction de densité que l'événement A est réalisé.
•𝑃(𝐴) est la probabilité a priori de l'événement A.
𝑓𝑘 𝑥 = 𝑃 𝑋 = 𝑥 𝑌 = 𝑘) •𝑃(𝐵) est la probabilité de l'événement B.
Le classifieur de Bayes attribue la classe 𝑘 à 𝑥 ayant la plus grande 𝑝𝑘 (𝑥)
Apprentissage Automatique Chapitre 3: Classification:
Analyse discriminante…

16
04
Analyse Discriminante Linéaire (LDA) et Le théorème de Bayes
Nombre total d’observation 𝑚 =24
Nombre total d’observation (y=0) 𝑚0 =19
𝑃 𝐵 𝐴 ∗ 𝑃(𝐴) Nombre total d’observation (y=1) 𝑚1 =5
Théorème de Bayes 𝑃 𝐴𝐵 =
𝑃(𝐵)
Age Infecté Age Infecté
(X) (Y) (X) (Y)
20 0 30 0
𝑃 𝑋 = 𝑥 𝑌 = 𝑘 ∗ 𝑃(𝑌 = 𝑘)
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 23 0 30 0
𝑃(𝑋 = 𝑥)
La probabilité à priori: 24 0 30 0

𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 𝜋𝑘 , 𝑘 = (0,1) 25 0 30 1
25 1 32 0
𝜋0 = 19ൗ24 = 0.8, 𝜋1 = 5ൗ24 = 0.2
26 0 32 0
La fonction de densité
26 0 33 0
𝑓𝑘 𝑥 = 𝑃 𝑋 = 𝑥 𝑌 = 𝑘) 28 0 33 0
60 0 36 1
𝑓𝑘 36 = 𝑃 𝑋 = 36 𝑌 = 1) = 2ൗ24 ∗ 1ൗ2 = 1ൗ24
60 1 36 0
La probabilité à posteriori 𝑃𝑘 (𝑥) 30 0 37 0
𝑃 𝑌 = 𝐾 𝑋 = 𝑥) 30 0 37 1
Apprentissage Automatique Chapitre 3: Classification:
Analyse discriminante…

8
2/16/2024

17
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥

Pour une distribution gaussienne, 𝑓𝑘 𝑥 est donnée par : Une distribution gaussienne, est une distribution
1 1 2
de probabilité qui est symétrique par rapport à
𝑓𝑘 𝑥 = exp − 2 𝑋 − 𝜇𝑘 sa moyenne et qui est caractérisée par sa
2 2𝜎𝑘
2𝜋𝜎𝑘 moyenne (μ) et son écart-type (σ). Elle est
souvent représentée par une courbe en forme

de cloche.
𝜇𝑘 est la moyenne des observations appartenant à la classe k
𝜎𝑘2 est la variance des observations appartenant à la classe k

Supposons que la variance soit égale pour toutes les 𝑘 classes : 𝜎12 = 𝜎22 =⋯= 𝜎𝑘2 = 𝜎 2

1 1
exp − 𝑋 − 𝜇𝑘 2 . 𝜋𝑘
𝑓𝑘 𝑥 ∗ 𝜋𝑘 2𝜋 𝜎 2 𝜎2
𝑝𝑘 𝑥 = 𝑘 =
σ𝑙=1 𝜋𝑙 𝑓𝑙 𝑥 1 1
σ𝑘𝑙=1 𝜋𝑙 . exp(− 𝑋 − 𝜇𝑙 2 )

Email: a.maarir@ya.ru
2𝜋 𝜎 2 𝜎2

𝑒 𝛾𝑘 .𝜋𝑘 1 2

A.MAARIR
𝑘 =
σ𝑙=1 𝜋𝑙 .𝑒 𝛾𝑙
où ∶ γ𝑗 = − 2 𝜎2 𝑋 − 𝜇𝑗 , 𝛾: 𝐺𝑎𝑚𝑚𝑎

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

18
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥
Objectif : Nous classifions une observation dans la classe 𝑘 pour laquelle 𝑝𝑘 𝑥 est maximisée.
Trouver le 𝑘 qui maximise 𝑝𝑘 𝑥 est équivalent à trouver le 𝑘 qui maximise log(𝑝𝑘 𝑥 ).
𝑒 𝛾𝑘 .𝜋𝑘
𝑙𝑜𝑔 (𝑝𝑘 𝑥 ) =𝑙𝑜𝑔(σ𝑘 𝑦𝑙 )
𝑙=1 𝜋𝑙 .𝑒
= 𝑙𝑜𝑔(𝑒 . 𝜋𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )
𝛾𝑘

= 𝑙𝑜𝑔(𝜋𝑘 )+log(𝑒 𝛾𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )


= 𝑙𝑜𝑔(𝜋𝑘 )+𝛾𝑘 - log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )
Choisir un 𝑘 pour maximiser log(𝝅𝒌 )+𝜸𝒌 - log(σ𝒌𝒍=𝟏 𝝅𝒍 . 𝒆𝜸𝒍 ) est donc équivalent à choisir un 𝑘 pour maximiser log(𝝅𝒌 )+𝜸𝒌
1 2
𝑙𝑜𝑔(𝜋𝑘 )+ γ𝑘 = 𝑙𝑜𝑔(𝜋𝑘 ) − 2 𝜎2 𝑋 − 𝜇𝑘
1
= 𝑙𝑜𝑔 (𝜋𝑘 ) − 2 𝜎2 𝑋 2 − 2. 𝑋. 𝜇𝑘 + 𝜇𝑘 2
𝜇𝑘 2 2.𝑋.𝜇𝑘 𝑋2
= 𝑙𝑜𝑔 (𝜋𝑘 ) − + −
Email: a.maarir@ya.ru

2 𝜎2 2 𝜎2 2 𝜎2
𝜇𝑘 2 𝑋.𝜇𝑘
= 𝑙𝑜𝑔 (𝜋𝑘 ) − +
2 𝜎2 𝜎2
A.MAARIR

𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. + 𝒍𝒐𝒈 ( 𝝅𝒌 ) −
𝝈𝟐 𝟐 𝝈𝟐
Apprentissage Automatique Chapitre 3: Classification:
Analyse discriminante…

9
2/16/2024

19
04
Fonction Discriminante Linéaire - Estimation de la fonction de densité 𝑓𝑘 𝑥
𝝁𝒌 𝝁𝒌 𝟐 Remarquez que 𝜹𝒌 (x) est
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) linéaire en 𝒙 d'où le nom
𝝈𝟐 𝟐 𝝈𝟐 d'analyse discriminante
linéaire !.
𝒙. 𝑨 + 𝑩 = 𝟎
𝑨 𝑩
𝜹𝒌 𝒙 est nommé : Fonction Discriminante Linéaire.

Elle est calculée pour chaque classe 𝑘 et la classe ayant la valeur discriminante la plus élevée sera utilisée pour la
classification de sortie (𝑌 = 𝑘 ) :".
Pour utiliser LDA, il est nécessaire d'estimer les moyennes 𝜇𝑘 de chaque classe, la variance 𝜎𝑘2, les probabilités à priori 𝝅𝒌
de chaque classe.
𝑛𝑘
• La probabilité à priori 𝜋𝑘 pour la classe 𝑘 est souvent estimée en prenant la fraction des 𝜋𝑘 =
observations 𝑛𝑘 (sur n) provenant de la classe k: 𝑛
1

Email: a.maarir@ya.ru
• La valeur moyenne 𝜇𝑘 pour la classe 𝑘 est simplement la moyenne de l'échantillon de toutes
𝜇𝑘 = ෍ 𝑋𝑖
les observations de la classe 𝑘: 𝑛𝑘
𝑖

A.MAARIR
𝑘
2 1 2
• La variance 𝜎𝑘2 de l'échantillon à travers toutes les classes :𝜎𝑘 = 𝑛 − 𝑘 ෍ ෍(𝑋𝑖 −𝜇𝑘 )
𝑘
𝑘=1 𝑖

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

20
Utilisation
04 de l’ ADL pour la prédiction Nombre total d’observation 𝑚 =24
Nombre total d’observation 𝑚0 =19
Nombre total d’observation 𝑚1 =5
𝝁𝟎 30.79
Age Infecté Age Infecté
𝝁𝟏 37.6 𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) (X) (Y) (X) (Y)
𝝈𝟐𝟎 𝝈𝟐 𝟐 𝝈𝟐
65.53 20 0 30 0

𝝈𝟐𝟏 23 0 30 0
144.24
24 0 30 0
𝝅𝟎 = 𝟎. 𝟖 , 𝝅𝟏 = 𝟎. 𝟐 25 0 30 1
25 1 32 0
En utilisant ces paramètres estimés ≠ (𝝈𝟐𝟎 𝝈𝟐𝟏 ),
on peut appliquer la règle
26 0 32 0
de décision de LDA pour classer cette nouvelles observation Age = 32
26 0 33 0
𝝁𝟎 𝝁𝟎 𝟐 28 0 33 0
𝜹𝟎 (𝒙) = 𝑿. 𝟐 − + 𝒍𝒐𝒈 (𝝅𝟎 )
𝝈 𝟐 𝝈𝟐 60 0 36 1
𝟑𝟎. 𝟕𝟗 𝟑𝟎. 𝟕𝟗𝟐 60 1 36 0
𝜹𝟎 𝟔𝟎 = 𝟑𝟐 × − + 𝒍𝒐𝒈 (𝟎. 8)
𝟔𝟓. 𝟓𝟑 𝟐 × 𝟔𝟓. 𝟓𝟑
=7.56 30 0 37 0
Email: a.maarir@ya.ru

30 0 37 1
𝝁𝟏 𝝁𝟏 𝟐
𝜹𝟏 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝟏 )
𝝈𝟐 𝟐 𝝈𝟐 Nous pouvons constater que la valeur discriminante pour Y = 0
A.MAARIR

𝟑𝟕. 𝟔 𝟑𝟕. 𝟔𝟐 (7.568) est supérieure à la valeur discriminante pour Y = 1 (1.872),


𝜹𝟏 𝟔𝟎) = 𝟑𝟐 × − + 𝒍𝒐𝒈 (0.2)
𝟏𝟒𝟒. 𝟐𝟒 𝟐 × 𝟏𝟒𝟒. 𝟐𝟒 donc le modèle prédit Y = 0..
=1.872

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

10
2/16/2024

21
04
Analyse discriminante linéaire multivariée

Lorsque les données sont multivariées, c'est-à-dire qu'elles sont caractérisées par plusieurs variables. La Fonction
Discriminante Linéaire est sous la forme suivante :
1 𝑇 −𝟏
𝑇෍ 𝑢𝑘 − 𝑢𝑘 𝑢𝑘 + 𝑙𝑜𝑔(𝜋𝑘 )
−𝟏

𝛿𝑘 𝑥 = 𝑋 2

Où :
1
𝜇𝑘 : est𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 𝑑𝑒 𝑐ℎ𝑎𝑞𝑢𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑘 : 𝜇𝑘 = ෍ 𝑋𝑖
𝑛𝑘
𝑖
𝜋𝑘 : est la probabilité a priori de chaque classe k: 𝑛𝑘
𝜋𝑘 =
𝑛 𝑘
1
σ෢ = ෍ (𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇
σ෢
𝒌 la matrice de covariance entre les variables indépendantes de chaque classe k:
𝒌 𝑛𝑘 − 1
𝑘=1

Si nous envisageons d'utiliser LDA, il est nécessaire de calculer une matrice de covariance regroupée de chaque k covariances,

Email: a.maarir@ya.ru
soit directement comme illustré par l’équation (Eq.1) ou par la formule (Eq.2) après le calcul de chaque covariance.
𝑘

=
1
෍ ෍(𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇 σ𝑘𝑟=1(𝑛𝑟 σ𝒓 )

A.MAARIR
෍ Ou
𝑛 −𝑘 Eq.1 ෍
= Eq.2
𝑘=1 𝑖 σ𝑘𝑟=1 𝑛𝑟

Apprentissage Automatique Chapitre 3: Classification:


Analyse discriminante…

22

Apprentissage Automatique

Chapitre 3- Méthodes de classification: Analyse


discriminante, Arbres de décision et Forêts
aléatoires.
Email: a.maarir@ya.ru
A.MAARIR

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

11
2/16/2024

23
04
Classification - Arbres de décision

• L'arbre de décision est un modèle simple où les décisions sont prises en fonction des
caractéristiques.
• Initialement utilisé dans les années 1960-1980 pour les systèmes experts,
• Cependant, avec l'avènement de méthodes mathématiques pour sa construction, l'arbre de
décision est redevenu pertinent dans les algorithmes d'apprentissage automatique.

Il existe plusieurs algorithmes pour construire des arbres de décision automatiquement


ID3 C4.5 CART

Iterative Dichotomiser 3, conçu Une extension de ID3 par Ross Classification and Regression
par Ross Quinlan en 1986, est Quinlan. Il peut être appliqué Trees: sont similaires à C4.5
une méthode de classification sur tous les types de mais ils utilisent différentes
exclusive aux variables caractéristiques. Son utilisation mesures et peuvent également
nominales. Il est utilisé pour le principale est la classification. être utilisés pour la régression
classement. et la classification

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

24
04
Algorithme global pour construire un arbre de décision

1. Identifier la caractéristique la plus discriminante dans le jeu de données


initial.
2. Partitionner les données en sous-groupes en fonction des différentes
valeurs de cette caractéristique.
3. Répéter le processus de manière itérative pour chaque sous-groupe, en
considérant de manière récursive les caractéristiques restantes jusqu'à ce
que chaque groupe soit clairement classifié.
4. Arrêter la construction de l'arbre lorsque les données sont suffisamment
classifiées ou qu'il n'est plus possible de subdiviser les groupes de manière
Email: a.maarir@ya.ru

significative
A.MAARIR

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

12
2/16/2024

25
04
Arbres de décision - Iterative Dichotomiser 3 - (ID3)

L’algorithme ID3 est basée sur le gain d'information ID3, conçu par Ross Quinlan, a été
initialement présenté dans son ouvrage "Machine Learning" en 1986 [1].
Cet algorithme est supervisé et utilise des exemples classés pour créer un modèle de
classification.
ID3 génère un arbre de décision pour classifier de nouvelles observations.

Cet algorithme est conçu pour traiter des caractéristiques


nominales, nécessitant ainsi une. De plus, discrétisation pour les
caractéristiques continues il est exclusivement employé pour le
classement.

Email: a.maarir@ya.ru
A.MAARIR
[1]J. Ross Quinlan:Induction of Decision Trees. 81-106 Chapitre 3: Classification:
Arbres de décision

Iterative Dichotomiser 3 - (ID3) - Exemple introductif

• Pour appliquer l'algorithme ID3, commençons par examiner l'exemple suivant : une banque dispose des
données clients suivantes et voudrait prédire si un client consulte ses comptes en ligne.

Dans ce cas, nous observons la procédure de Etudes


classification qui identifie, à partir du profil Client Salaire Age Résidence Consultation
d'un client, si ce dernier consulte ses
Sup.
comptes en ligne, c'est-à-dire la catégorie à 1 Moyen Moyen Village Oui Oui
laquelle il est associé. Par exemple : 2 Elevé Moyen Bourg Non Non
3 Faible Agé Bourg Non Non
Le premier client, caractérisé par un salaire : 4 faible Moyen Bourg Oui Oui
Moyen, un âge : moyen, habitant dans un
village et ayant fait des études supérieures, 5 Moyen Jeune Ville Oui Oui
est classé dans la catégorie "Oui". 6 Elevé Agé Ville Oui Non
7 Moyen Agé Ville Oui Non
Email: a.maarir@ya.ru

Le deuxième client, avec des revenus élevés,


un âge moyen, résidant dans un bourg et sans 8 Faible Moyen Village Non Non
études, est classé dans la catégorie "Non". Exemple donné à titre illustratif sur un échantillon non représentatif
A.MAARIR

de profil réel du client).

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

13
2/16/2024

Arbre de décision - Le critère entropique

L'entropie d'un ensemble d'exemples, S, par rapport à une classification binaire est :

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −𝑝+ log 𝑝+ − 𝑝− log 𝑝−

• 𝑝+ est la proportion d'exemples positifs dans S


• 𝑝 est la proportion d'exemples négatifs dans S

• Log est de base 2

• Si tous les éléments appartiennent à la même classe :


Entropy = 0
• Si tous les exemples sont mélangés de manière égale (0,5,
0,5) Entropy = 1

Entropie en fonction de la proportion de classe

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision - Le critère entropique

• En général, lorsque 𝑝𝑖 est la fraction des exemples étiquetés 𝑖


𝑘
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 𝑝1, 𝑝2 , … , 𝑝𝑘 = − ෍ 𝑝𝑖 log 𝑝𝑖
1

• L'entropie peut être considérée comme le nombre de bits nécessaires, en


moyenne, pour coder la classe des étiquettes. Si la probabilité pour '+'
est de 0,5, un seul bit est nécessaire pour chaque exemple ; si elle est de
0,8 - on peut utiliser moins d'un bit.
Email: a.maarir@ya.ru
A.MAARIR

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

14
2/16/2024

Arbre de décision – le gain d'information

• En créant une nouvelle feuille dans l'arbre, une règle est établie pour organiser les
données, et la performance de cette règle est évaluée en termes de gain
d'information

• Le gain d'information d'un attribut a est la réduction attendue de l'entropie


causée par le partitionnement sur cet attribut :
|𝑺𝒗 |
𝑮𝒂𝒊𝒏 𝑺, 𝒂 = 𝑬𝒏𝒕𝒓𝒐𝒑𝒊𝒆 𝑺 − ෍ 𝑬𝒏𝒕𝒓𝒐𝒑𝒊𝒆(𝑺𝒗 )
|𝑺|
𝒗∈𝒗𝒂𝒍𝒖𝒆𝒔(𝑺)
Où :

Email: a.maarir@ya.ru
• 𝑆𝑣 est le sous-ensemble de S pour lequel l'attribut a a la valeur 𝑣 , et l'entropie de
la partition des données est calculée en pondérant l'entropie de chaque partition par

A.MAARIR
sa taille relative par rapport à l'ensemble original.

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision – Meilleur attribut = gain d'information le plus élevé


vole ? couleur class Couleur Vole ?
non marron mammifère
non blanc mammifère
oui marron oiseau
oui blanc oiseau
marron blanc oui non
non blanc mammifère
non marron oiseau 1 mammifère 2 mammifères 3 mammifères
3 oiseaux
oui blanc oiseau 2 oiseaux 1 oiseau 1 oiseau

3 3 4 4
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 = − 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 log2 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 − 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 log2 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 = − log2 − log2 ≈ 0.985
7 7 7 7
1 1 2 2
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑚𝑎𝑟𝑟𝑜𝑛 ) = − log2 − log2 ≈ 0.918 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑏𝑙𝑎𝑛𝑐 ) = 1
3 3 3 3
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒄𝒐𝒍𝒐𝒓 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎. 𝟗𝟏𝟖 − ∙ 𝟏 ≈ 𝟎. 𝟎𝟐𝟎
𝟕 𝟕
3 3 1 1
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑜𝑢𝑖 ) = 0 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑛𝑜𝑛 ) = − log2 − log2 ≈ 0. 811
4 4 4 4
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒗𝒐𝒍𝒆 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎 − ∙ 𝟎. 𝟖𝟏𝟏 ≈ 𝟎. 𝟓𝟐𝟏
𝟕 𝟕
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

15
2/16/2024

Arbre de décision

Etudes
Client Salaire Age Résidence Consultation
Sup.
Reprononce l'exemple cité
précédemment, pour cela, 1 Moyen Moyen Village Oui Oui
nous devons calculer l'entropie 2 Elevé Moyen Bourg Non Non
de notre ensemble de données 3 Faible Agé Bourg Non Non
initial.
4 faible Moyen Bourg Oui Oui
Nous regardons la distribution
des étiquettes (oui ou Non ) 5 Moyen Jeune Ville Oui Oui
pour déterminer l'entropie. 6 Elevé Agé Ville Oui Non
Dans notre cas, nous avons 3 7 Moyen Agé Ville Oui Non
étiquettes "Oui" et 5 étiquettes
"Non« . 8 Faible Moyen Village Non Non

Email: a.maarir@ya.ru
Objectif est de Classifier Client Salaire Age Résidence Etudes Sup. Consultation
les instance suivantes en

A.MAARIR
utilisant l’arbre de décision 9 Moyen Jeune Village Oui ?
criée:
10 Elevé Moyen Ville Non ?
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Arbre de décision - Étape 1 : Calcul de l'entropie initiale

3
Etudes p consultaion = 𝑜𝑢𝑖 = 8 = 0.375
Client Salaire Age Résidence Consultation
Sup. 5
1 Moyen Moyen Village Oui Oui
p consultaion = 𝑛𝑜𝑛 = 8 = 0.625
2 Elevé Moyen Bourg Non Non
3 Faible Agé Bourg Non Non
4 faible Moyen Bourg Oui Oui
5 Moyen Jeune Ville Oui Oui
8 Observations
6 Elevé Agé Ville Oui Non
7 Moyen Agé Ville Oui Non Calcule de l’entropie global :
8 Faible Moyen Village Non Non 𝑐

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑆) = ෍ −𝑝𝑖 log 2 𝑝𝑖


𝑖=1
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −p consultaion = oui × 𝑙𝑜𝑔2 × (p consultaion = 𝑜𝑢𝑖 − p consultaion = 𝑛𝑜𝑛 × 𝑙𝑜𝑔2 (p consultaion = 𝑛𝑜𝑛 )
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −0.375 log2(0.375) − 0.625 log2(0.625 ) = 0.9544

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

16
2/16/2024

Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre

Client Salaire Age Résidence Etudes Consultation Salaire Consul


Sup.
Moyen Oui
1 Moyen Moyen Village Oui Oui
Elève Non
2 Elevé Moyen Bourg Non Non
Faible Non
3 Faible Agé Bourg Non Non
faible Oui Gain d’information:
4 faible Moyen Bourg Oui Oui
5 Moyen Jeune Ville Oui Oui Moyen Oui 0.9544 –(3/8*0.9149 +
Elève Non 3/8*0.9149 + 2/8 *0 )
6 Elevée Agé Ville Oui Non
=0.2685
7 Moyen Agé Ville Oui Non Moyen Non
8 Faible Moyen Village Non Non Faible Non

Email: a.maarir@ya.ru
Salaire Consul Salaire Consul
Salaire Consul
Moyen Oui Faible Non Oui : 1/ 3 = 0.33 Oui :0= 0
Oui :2/ 3 = 0.67
Non: 2/3 = 0.67 Elève Non Non : 2/2 =1

A.MAARIR
Moyen Oui Non : 1/3 =0.33 faible Oui Entropie: 0
Entropie: 0.9149 Entropie: 0.9149
Elève Non
Moyen Non Faible Non

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre


Client Salaire Age Résidence Etude Consul Age Consul
1 Moyen Moyen Village Oui Oui Moyen Oui
2 Elevé Moyen Bourg Non Non Moyen Non
3 Faible Agé Bourg Non Non Agé Non
4 Faible Moyen Bourg Oui Oui
Moyen Oui
5 Moyen Jeune Ville Oui Oui
Jeune Oui
6 Elevé Agé Ville Oui Non
Agé Non
7 Moyen Agé Ville Oui Non
Agé Non
8 Faible Moyen Village Non Non
Moyen Non
Age Consul Age Consul Age Consul
Moyen Oui Agé Non Gain d’information:
Jeune oui 0.9544 –(4/8*1 + 3/8*0 +
Moyen Non Agé Non 1/8 *0 )
Oui :1= 1
Moyen Oui Age Non Non :0=0 =0.4544
Entropie: 0
Moyen Non Oui : 0= 0
Oui :2/ 4 = 0.5 Non: 3/3 = 1
Non : 2/4 =0.5 Entropie: 0
Chapitre 3: Classification:
Entropie: 1 Arbres de décision

17
2/16/2024

Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre


Client Salaire Age Résidence Etude Consul Résidence Consul
1 Moyen Moyen Village Oui Oui Village Oui
2 Elevé Moyen Bourg Non Non Bourg Non
3 Faible Agé Bourg Non Non Bourg Non
4 faible Moyen Bourg Oui Oui Bourg Oui
5 Moyen Jeune Ville Oui Oui Ville Oui
6 Elevé Agé Ville Oui Non Ville Non
7 Moyen Agé Ville Oui Non Ville Non
8 Faible Moyen Village Non Non Village Non

Résidence Consul Résidence Consul Résidence Consul


Village Oui Bourg Non Ville Oui Gain d’information:
0.9544 –(2/8*1 + 3/8*0.913 +
Village Non Bourg Non Ville Non 3/8 *0.914 )
Bourg Oui Ville Non =0.0185
Oui :1/ 2 = 0.5 Oui : 1/3= 0.33 Oui :1/3= 0.33
Non : 1/2 =0.5 Non: 2/3 = 0.67 Non :2/3=0.67
Entropie: 1 Entropie: 0.914 Entropie: 0.914
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre


Client Salaire Age Résidence Etudes Sup Consul Etudes sup Consul
1 Moyen Moyen Village Oui Oui Oui Oui
2 Elevé Moyen Bourg Non Non Non Non
3 Faible Agé Bourg Non Non Non Non
4 faible Moyen Bourg Oui Oui Oui Oui
5 Moyen Jeune Ville Oui Oui Oui Oui
6 Elevé Agé Ville Oui Non Oui Non
7 Moyen Agé Ville Oui Non Oui Non
8 Faible Moyen Village Non Non Non Non
Etudes sup. Consul Etudes Sup Consul
Oui Oui Non Non Gain d’information:
Oui Oui Oui :3/ 5 = 0.6 Non Non 0.9544 –(5/8*0.970 + 3/8*0)
Non : 2/5 =0.4
Oui Oui
Entropie: 0.970
Non Non =0.347
Oui Non Oui :0= 0
Non :3/3=1
oui Non Entropie: 0

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

18
2/16/2024

Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre

La première division est obtenue en choisissant la variable explicative qui fournira la


meilleure séparation, le gain le plus élevé.(diapo suivante)
Salaire Age Résidence Etude Consultation

Moyen Moyen Village Oui Oui

Elève Moyen Bourg Non Non Attributs Gain d’information


Faible Agé Bourg Non Non Moyenne de 0.2685
montants
faible Moyen Bourg Oui Oui
Age 0.454
Moyen Jeune Ville Oui Oui Résidence 0.0185
Elève Agé Ville Oui Non Etudes 0.347

Email: a.maarir@ya.ru
Moyen Agé Ville Oui Non

Faible Moyen Village Non Non

A.MAARIR
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Arbre de décision - Étape 3 : Construire les branche liées à la l’attribut Age

Etudes Age Salaire Résid. Etude Consul


Client Salaire Age Résidence Consultation
Sup. Moyen Moyen Village Oui Oui
1 Moyen Moyen Village Oui Oui Moyen Elève Bourg Non Non
2 Elevé Moyen Bourg Non Non Moyen faible Bourg Oui Oui
3 Faible Agé Bourg Non Non Moyen Faible Village Non Non
4 faible Moyen Bourg Oui Oui
5 Moyen Jeune Ville Oui Oui Age Salaire Résid. Etude Consul
6 Elevé Agé Ville Oui Non Agé Faible Bourg Non Non
7 Moyen Agé Ville Oui Non Agé Elève Ville Oui Non
8 Faible Moyen Village Non Non
Age Moyen Ville Oui Non
Age
Age Salaire Résid. Etude Consul
Jeune Moyen Ville Oui oui

Jeune Agé
Moyen

OUI NON
? Chapitre 3: Classification:
Apprentissage Automatique
Arbres de décision

19
2/16/2024

Arbre de décision -Récursion

• Appliquer récursivement l'algorithme sur chaque sous-ensemble obtenu à partir de la


division précédente, jusqu'à ce que certaines conditions d'arrêt soient satisfaites
• (par exemple, tous les exemples dans le sous-ensemble appartiennent à la même
classe ou que plus aucun attribut ne soit disponible pour diviser les données).

Salaire Résidence Etudes Sup. Consultation


Moyen Village Oui Oui
Elevé Bourg Non Non
Faible Bourg Oui Oui
Faible Village Non Non
Probabilité:
Oui :2/4 =0.5
Non : 2/4 =0.5
Entropie: -0.5log2(0.5)-0.5log2(0.5) = 1

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision -Récursion

Salaire Résidence Etudes. Consul Salaire Consul


Moyen Village Oui Oui Moyen Oui
Elève Bourg Non Non Elève Non
Faible Bourg Oui Oui Faible Oui
Faible Village Non Non Faible Non

Salaire Consul Salaire Consul Salaire Consul


Moyen Oui Elève Non Faible Oui
Oui :1/1= 1 Oui : 0= 0 Faible Non Gain d’information:
Non : 0 =0 Non : 1/1=1
Entropie: 0 Entropie: 0 Oui :1/2 = 0.5 1 –(1/4*0 + 1/4*0+ 2/4 *1 )=0.5
Non : 1/2 =0.5
Entropie: 1

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

20
2/16/2024

Arbre de décision -Récursion

Salaire Résidence Etudes. Consul Résidence Consul


Moyen Village Oui Oui Village Oui
Elève Bourg Non Non Bourg Non
Faible Bourg Oui Oui Bourg Oui
Faible Village Non Non village Non

Résidence Consul. Résidence Consul.


Village Oui Bourg Non
Gain d’information:

Email: a.maarir@ya.ru
Village non Bourg Oui 1 –(2/4*1 + 2/4*1)=0
Oui :1/2= 0.5 Oui : 1/2= 0.5

A.MAARIR
Non : 1/2=0.5 Non : 1/2=0.5
Entropie: 1 Entropie: 1

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision

Salaire Résidence Etudes. Consul Etudes. Consul


Moyen Village Oui Oui Oui Oui
Elève Bourg Non Non Non Non
Faible Bourg Oui Oui Oui Oui
Faible Village Non Non Non Non

Etudes. Consul Etudes. Consul


Oui Oui Non Non
Gain d’information:
Email: a.maarir@ya.ru

Oui Oui Non Non


1 –(2/4*0 + 2/4*0)=1
A.MAARIR

Oui :2/2= 1 Oui : 0= 0


Non : 0=0 Non : 2/2=1
Entropie: 0 Entropie: 0

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

21
2/16/2024

Arbre de décision

Salaire Résidence Etudes. Consul Après avoir calculer l'information gain pour les attributs Salaire,
Résidence Et Etudes sup.
Moyen Village Oui Oui Nous allons choisir l'attribut Etudes qui maximise l'information gain.
Elève Bourg Non Non
Faible Bourg Oui Oui
Faible Village Non Non

Attributs Gain d’information


Salaire 0.5
Résidence 0
Etudes 1

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Arbre de décision - Construction de l'arbre :

Salaire Résidence Etudes. Consul Etudes. Salaire Résidence Consul


Moyen Village Oui Oui Oui Moyen Village Oui
Elève Bourg Non Non Oui Faible Bourg Oui
Faible Bourg Oui Oui
Faible Village Non Non Etudes. Salaire Résidence Consul
Non Elève Bourg Non
Age
Non Faible Village Non

Jeune Agé Construire l'arbre de décision en reliant les


Moyen nœuds de décision sélectionnés à chaque étape
de l'algorithme.
NON
OUI
Etud=oui Etud=non

OUI NON
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

22
2/16/2024

Arbre de décision final


Une fois que l'arbre de décision est construit à l'aide de Age
l'algorithme ID3, la prédiction d'une nouvelle instance se déroule
généralement comme suit :

Traversée de l'arbre Jeune Agé


Moyen
• Commencer par la racine de l'arbre.
• Traverser l'arbre en utilisant les valeurs des attributs de
l'instance à prédire pour atteindre une feuille NON
OUI
Prédiction : Etud=oui Etud=non
• À l'arrivée à un nœud terminal, la classe majoritaire (ou la
classe la plus probable)
• Attribuer la classe majoritaire de cette feuille comme la OUI NON
prédiction finale.

Nom Salaire Age Résidence Etudes Consultati


on
9 Moyen Jeune Village Oui ?oui
10 Elevé Moyen Ville Non ?non

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Traitement des Attributs Numériques

• Comment l'algorithme ID3 gère-t-il les attributs numériques ?


➢ Presque toujours, tout attribut numérique réduirait l'entropie à zéro.
Temps température humidité vent jouer
ensoleilé chaude 90 non non
ensoleilé chaude 87 oui non
nuageux chaude 93 non oui
Considérez une valeur numérique pour l'humidité.
pluvieux douce 89 non oui
pluvieux fraîche 79 non oui humidité
pluvieux fraîche 59 oui non
nuageux fraîche 77 oui oui
ensoleilé douce 91 non non 59 87 74 97
ensoleilé fraîche 68 non oui
pluvieux douce 80 non oui
ensoleilé douce 72 oui oui non non oui non
nuageux douce 96 oui oui
nuageux chaude 74 non oui
pluvieux douce 97 oui non
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

23
2/16/2024

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation
Gain de l'attribut numérique 𝑎 si nous divisons à la valeur 𝑡

humidité jouer humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡


𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
90 non 59 non 𝑋 𝑋
87 non 68 oui humidité
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque paire 73
59 non
Tier 79 oui consécutive 75.5
77 oui 78
80 oui
79.5
91 non 87 non
83.5
68 oui 89 oui 88
80 oui 90 non 89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
68 oui 83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 =
89 oui
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

24
2/16/2024

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59
88 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

25
2/16/2024

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non ≈ 𝟎. 𝟏𝟓𝟐
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision

26
2/16/2024

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation
humidité jouer humidité jouer
90 non valeurs de Gain
59 non
87 non division d'information
68 oui
93 oui 63.5 0.113
72 oui 70
89 oui 0.01
74 oui Moyenne de 73
79 oui Gain de 0.0004
77 oui chaque pair 75.5
59 non successive chaque 0.015
79 oui 78 83,5 est la
77 oui Trier observation 0.045
80 oui 79.5 meilleure valeur
91 non 0.09
87 non 83.5 0.152 de séparation
68 oui 89 oui 88 0.048 avec un gain
80 oui 90 non 89.5 0.102 d'information
72 oui 91 non 90.5 0.025 de 0,152.
96 oui 93 oui 92 0.0004
74 oui 96 oui 94.5 0.01
97 non 97 non 96.5 0.113

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

Traitement des Attributs Numériques


• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation

Temps température humidité vent jouer • 83,5 est la meilleure valeur de séparation
ensoleilé chaude >83.5 non non pour l'Humidité, avec un gain d'information
ensoleilé chaude >83.5 oui non de 0,152.
nuageux chaude >83.5 non oui
pluvieux douce >83.5 non oui • L'Humidité est désormais traitée comme un
pluvieux fraîche ≤83.5 non oui attribut catégorique avec deux valeurs
pluvieux fraîche ≤83.5 oui non possibles ( >83.5 et ≤ 83.5 ).
nuageux fraîche ≤83.5 oui oui
ensoleilé douce >83.5 non non
• Un nouveau découpage optimal est calculé
ensoleilé fraîche ≤83.5 non oui à chaque niveau de l'arbre.
pluvieux douce ≤83.5 non oui
ensoleilé douce ≤83.5 oui oui
nuageux douce >83.5 oui oui
nuageux chaude ≤83.5 non oui
pluvieux douce >83.5 oui non

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

27
2/16/2024

Algorithme - Arbre de décision

Apprentissage Automatique Chapitre 3: Classification:


Arbres de décision

28

Vous aimerez peut-être aussi