LED3SI - Module - M354 - Chap3 - Part1 - Seances4-5

2/16/2024
UNIVERSITE SULTAN MOULAY SLIMANE

FACULTE POLYDISCIPLINAIRE
BENI MELLAL
Module :M354 : Apprentissage Automatique
Licence d'Excellence: Data Science et Sécurité des Systèmes d’Information
A.MAARIR
Email: a.maarir@ya.ru 2023/2024
Apprentissage Automatique
Chapitre 2 - Modèles de régression linéaire et

logistique
Apprentissage Automatique Chapitre 2: Modèle de

régression logistique
1
2/16/2024
3
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
• Soit un ensemble de données d’apprentissage 𝐷 = 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1. . 𝑚 , 𝑥𝑖 ∈ ℝ , 𝑦𝑖 ∈ ℝ , de classification des courriels
en spam et non-spam à l'aide de la méthode de gradient pour la régression logistique.
Longueur du message (X) 20 30 15 25 40 18 35 22 28 24 Données :

Spam (Y) 0 1 0 1 1 0 1 0 1 0 θ0 et θ1 = 0 et ∝= 0.01
1.1 La fonction hypothèse ℎ.

𝟏
ℎ(x)=
𝟏+𝒆−(𝜽𝟏 ×𝑿+𝜽𝟎)
1.2 Pour chaque e-mail 𝑥𝑖 , la probabilité prédite qu'il soit un spam est :
𝟏 𝟏 𝟏
𝒑(𝒚 = 𝟏 |𝒙𝒊 , θ0 ,θ1) = ℎ(𝒙𝒊 ) = = = = 𝟎. 𝟓
𝟏+𝒆−(𝜽𝟏×𝒙𝒊+𝜽𝟎 ) 𝟏+𝒆−(𝟎×𝒙𝒊+𝟎) 𝟏+𝒆𝟎
Email: a.maarir@ya.ru
1.3 La formulation de la fonction de coût :
A.MAARIR
𝑚
1
𝐽 𝜽 = − ෍ 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
𝑚
𝑖=1
Chapitre 2: Modèle de
4
1.3. La valeur de la fonction de coût pour la première itération :
10
1
𝑱 θ0 ,θ1 = − ෍ 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 ) + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
10
𝑖=1
Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806
1
𝑱 0,0 = − 10 × (𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 +
𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 ×
𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 +
A.MAARIR
(1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 )
𝟏
𝑱 0,0 = − (−𝟔. 𝟗𝟑𝟏𝟒𝟕𝟏𝟖𝟎𝟔) = 0.693147181
𝟏𝟎
2
2/16/2024
5
1.4. La valeur de gradient de la fonction de coût (cross-entropy) par rapport aux coefficients θ0 et θ1 du modèle.
Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806
𝑚 10
𝜕𝐽(𝜃) 1 1
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = ෍(𝜎 𝜃 . 𝑋 − 𝑦 )) = ෍(ℎ(𝑥𝑖) − 𝑦𝑖) = 𝟎
𝜕𝜃 0 𝑚 10
𝑖=1 𝑖=1
A.MAARIR
𝑚 10
𝜕𝐽(𝜃) 1 1 −29.5
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = ෍(𝜎 𝜃 . 𝑋 − 𝑦 )) × 𝑋 = ෍(ℎ(𝑥𝑖) − 𝑦𝑖) × 𝑥𝑖 = = −𝟐. 𝟗𝟓
𝜕𝜃 1 𝑚 10 10
𝑖=1 𝑖=1
6
1.5 Les coefficients du modèle en utilisant la formule de mise à jour de la descente de gradient.
𝜕𝐽 𝜃
On a : 𝜃𝑗 = 𝜃𝑗 − 𝛼 pour j =0,1
𝜕𝜃𝑗
𝜃0 0 0
𝜃 𝑖𝑡é𝑟𝑎𝑡𝑖𝑜𝑛 1 = − 0.01 =
𝜃1 −2.95 0.0295
A.MAARIR
3
2/16/2024
Contenu du Module
✓ Chapitre 1 - Introduction à l’Apprentissage Automatique
✓ Chapitre 2 - Modèles de régression linéaire et logistique.
✓ Chapitre 3- Méthodes de classification :Analyse discriminante, Arbres de décision et forêts aléatoires.
✓ Chapitre 4 - Techniques de clustering telles que le clustering k-means et le clustering hiérarchique
✓ Chapitre 5- Réseaux de neurones artificiels.
✓ Chapitre 6 - Évaluation des performances des modèles de machine learning à l'aide de métriques telles
que l'accuracy, la précision, le rappel et la F-mesure.
A.MAARIR
Apprentissage Automatique Chapitre 2: Modèle de
Chapitre 3- Méthodes de classification: Analyse

discriminante, Arbres de décision et Forêts
aléatoires.
Apprentissage Automatique Chapitre 3: Classification:

Analyse discriminante…
4
2/16/2024
Qu'avons-nous fait ?
1. Fonction
Hypothèse
2. Déterminer la
Fonction Coût
3. Déterminez le gradient puis appliquez

l'algorithme de la Descente de Gradient

10
Classification-
04 motivations
Les méthodes de classification ont pour but d'identifier les classes auxquelles appartiennent des
objets à partir de certains traits descriptifs. Elles trouvent leur utilité dans un grand nombre
d'activités humaines et en particulier dans la prise de décision automatisée. Citons par exemple :
Analyse de sentiment : Classer les commentaires des La classification des fleurs en différentes espèces
utilisateurs comme positifs, négatifs ou neutres. en fonction de leurs caractéristiques.
Reconnaissance de caractères manuscrits : Classer des

Classification des espèces : Identifier le type
images de caractères manuscrits en différentes chiffres.
d'espèce (par exemple, chien, chat, oiseau) à partir
d'images d'animaux
Accord d'un prêt bancaire : à partir de la situation d'un
client (sa description) la procédure de classification donne la Classification de mails : Déterminer si un e-mail
réponse à la demande de prêt : oui / non (sa classe). est primaire (1), social (2), forums (3), Promotions
(4)
Diagnostic médical : Prédire si un patient est atteint d'une
certaine maladie basée sur ses symptômes et ses antécédents Classification des tumeurs : Classer une tumeur
médicaux. comme maligne ou non maligne.

5
2/16/2024
11
04
Classification- motivations
Pouvons-nous utiliser la
Jusqu'à présent, la régression logistique présente une exigence importante : la régression logistique pour
classification doit être guidée par un vecteur comportant des valeurs binaires telles entraîner un modèle à
que Vai/Faux, Malade/Sain, admis/Non admis, etc. partir d'un vecteur Y
comprenant 𝑰 modalités
(ou classes), avec 𝑰 > 2 ?
Pour résoudre ce défi, on peut

utiliser l'algorithme "one-versus-all"
(ou "one-versus-rest").
Il convertit le problème multi-
classes en une série de problèmes
binaires distincts.

12
04
Prenons l'exemple de la figure précédente : correspondra à la classe

1, à la classe 2 et à la classe 3.
La classification sera alors décomposée en trois étapes :
Nous allons donc entraîner un classifieur de

régression logistique classique pour chacune
des valeurs i pouvant être prises par le vecteur
Y, afin de prédire la probabilité que 𝒑(𝒚 = 𝒊).
Cette approche peut être formulée comme suit
𝟎 ≤ 𝒉𝒊 𝒙 ≤ 𝟏
𝒉𝒊 𝒙 = 𝝈 𝜽 . 𝑿 = 𝒑 𝒚 = 𝒊 𝒙, 𝜽 ) (𝒊 = 𝟏, … , 𝑰)

6
2/16/2024
13
04
Pour utiliser ce modèle afin d’effectuer des prédictions, on cherche
𝑚𝑎𝑥 ℎ𝑖 𝑥
on applique chacun des 𝑰 classifieurs aux nouvelles observations. On obtiendra ainsi i probabilités de
classification.
La probabilité la plus élevée indiquera la classe à laquelle la nouvelle observation est la plus susceptible
d’appartenir.
Exemple : Prédiction pour une nouvelle observation
𝒉𝟏 𝒙 nous apprend que la probabilité d'appartenir à la classe 1 est de 0,3 (sans avoir à distinguer si les autres observations
𝒉𝟐 𝒙 celle d'appartenir à la classe 2 est de 0,5.
𝒉𝟑 𝒙 celle d'appartenir à la classe 3 est de 0,2.
En conséquence, nous concluons que la nouvelle observation appartient à la classe 2 ( ) .

Il est crucial que les probabilités cumulées atteignent 1, garantissant ainsi que la sortie de la régression logistique constitue
une distribution de probabilité.
𝒑 𝒚=𝟏 +𝒑 𝒚=𝟐 +𝒑 𝒚=𝟑 =𝟏

14
04
Classification- Analyse discriminante linéaire
La régression logistique est un algorithme de classification traditionnellement limité aux problèmes de classification à deux
classes uniquement. Si vous avez plus de deux classes, alors l'analyse discriminante linéaire est la technique de
classification linéaire préférée.
Lorsque nous représentons les caractéristiques, nous pouvons voir que les données sont linéairement séparables. Nous
pouvons tracer une ligne pour séparer les deux groupes.
Le problème consiste à trouver la ligne et à faire pivoter les caractéristiques de manière à maximiser la distance entre les
groupes et à minimiser la distance au sein du groupe.
A.MAARIR

7
2/16/2024
15
04
Analyse Discriminante Linéaire (LDA)
Ce que nous cherchons , c'est de prédire la probabilité que 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙). C'est ce que la régression logistique estime
directement.
Par ailleurs, nous pouvons poser un modèle pour 𝑷 𝑿 = 𝒙 𝒀 = 𝒌). ainsi qu'une probabilité a priori 𝑷(𝒀 = 𝒌). Ensuite,
en appliquant la règle de Bayes, nous pouvons calculer 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙).
Théorème de Bayes:
En théorie des probabilités, Le théorème de Bayes nonce des probabilités conditionnelles. il permet de déterminer la
probabilité de 𝐴 sachant 𝐵, si l’on connaît les probabilités de 𝐴, de 𝐵 et de 𝐵 sachant 𝐴, selon la relation suivante :
La probabilité a posteriori 𝑝𝑘 (𝑥) 𝑃 ∗ 𝐵 𝐴 𝑃(𝐴)

𝑃 𝐴𝐵 =
𝑃 𝑋 = 𝑥 𝑌 = 𝑘 ∗ 𝑃(𝑌 = 𝑘) 𝑃(𝐵)
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) =
𝑃(𝑋 = 𝑥) •Où :
𝑓𝑘 𝑥 ∗ 𝜋𝑘 •𝑃 𝐴 𝐵 est la probabilité de l'événement A sachant
= 𝑘 que l'événement B est réalisé (probabilité à
σ𝑙=1∗ 𝜋𝑙 𝑓𝑙 𝑥 posteriori).
•𝑃 𝐵 𝐴 est la probabilité de l'événement B sachant
𝑂ù 𝑓𝑘 𝑥 est la fonction de densité que l'événement A est réalisé.
•𝑃(𝐴) est la probabilité a priori de l'événement A.
𝑓𝑘 𝑥 = 𝑃 𝑋 = 𝑥 𝑌 = 𝑘) •𝑃(𝐵) est la probabilité de l'événement B.
Le classifieur de Bayes attribue la classe 𝑘 à 𝑥 ayant la plus grande 𝑝𝑘 (𝑥)
16
04
Analyse Discriminante Linéaire (LDA) et Le théorème de Bayes
Nombre total d’observation 𝑚 =24
Nombre total d’observation (y=0) 𝑚0 =19
𝑃 𝐵 𝐴 ∗ 𝑃(𝐴) Nombre total d’observation (y=1) 𝑚1 =5
Théorème de Bayes 𝑃 𝐴𝐵 =
𝑃(𝐵)
Age Infecté Age Infecté
(X) (Y) (X) (Y)
20 0 30 0
𝑃 𝑋 = 𝑥 𝑌 = 𝑘 ∗ 𝑃(𝑌 = 𝑘)
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 23 0 30 0
𝑃(𝑋 = 𝑥)
La probabilité à priori: 24 0 30 0
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 𝜋𝑘 , 𝑘 = (0,1) 25 0 30 1
25 1 32 0
𝜋0 = 19ൗ24 = 0.8, 𝜋1 = 5ൗ24 = 0.2
26 0 32 0
La fonction de densité
26 0 33 0
𝑓𝑘 𝑥 = 𝑃 𝑋 = 𝑥 𝑌 = 𝑘) 28 0 33 0
60 0 36 1
𝑓𝑘 36 = 𝑃 𝑋 = 36 𝑌 = 1) = 2ൗ24 ∗ 1ൗ2 = 1ൗ24
60 1 36 0
La probabilité à posteriori 𝑃𝑘 (𝑥) 30 0 37 0
𝑃 𝑌 = 𝐾 𝑋 = 𝑥) 30 0 37 1
8
2/16/2024
17
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥
Pour une distribution gaussienne, 𝑓𝑘 𝑥 est donnée par : Une distribution gaussienne, est une distribution
1 1 2
de probabilité qui est symétrique par rapport à
𝑓𝑘 𝑥 = exp − 2 𝑋 − 𝜇𝑘 sa moyenne et qui est caractérisée par sa
2 2𝜎𝑘
2𝜋𝜎𝑘 moyenne (μ) et son écart-type (σ). Elle est
souvent représentée par une courbe en forme
où
de cloche.
𝜇𝑘 est la moyenne des observations appartenant à la classe k
𝜎𝑘2 est la variance des observations appartenant à la classe k
Supposons que la variance soit égale pour toutes les 𝑘 classes : 𝜎12 = 𝜎22 =⋯= 𝜎𝑘2 = 𝜎 2
1 1
exp − 𝑋 − 𝜇𝑘 2 . 𝜋𝑘
𝑓𝑘 𝑥 ∗ 𝜋𝑘 2𝜋 𝜎 2 𝜎2
𝑝𝑘 𝑥 = 𝑘 =
σ𝑙=1 𝜋𝑙 𝑓𝑙 𝑥 1 1
σ𝑘𝑙=1 𝜋𝑙 . exp(− 𝑋 − 𝜇𝑙 2 )
2𝜋 𝜎 2 𝜎2
𝑒 𝛾𝑘 .𝜋𝑘 1 2
A.MAARIR
𝑘 =
σ𝑙=1 𝜋𝑙 .𝑒 𝛾𝑙
où ∶ γ𝑗 = − 2 𝜎2 𝑋 − 𝜇𝑗 , 𝛾: 𝐺𝑎𝑚𝑚𝑎

18
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥
Objectif : Nous classifions une observation dans la classe 𝑘 pour laquelle 𝑝𝑘 𝑥 est maximisée.
Trouver le 𝑘 qui maximise 𝑝𝑘 𝑥 est équivalent à trouver le 𝑘 qui maximise log(𝑝𝑘 𝑥 ).
𝑒 𝛾𝑘 .𝜋𝑘
𝑙𝑜𝑔 (𝑝𝑘 𝑥 ) =𝑙𝑜𝑔(σ𝑘 𝑦𝑙 )
𝑙=1 𝜋𝑙 .𝑒
= 𝑙𝑜𝑔(𝑒 . 𝜋𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )
𝛾𝑘
= 𝑙𝑜𝑔(𝜋𝑘 )+log(𝑒 𝛾𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )

= 𝑙𝑜𝑔(𝜋𝑘 )+𝛾𝑘 - log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )
Choisir un 𝑘 pour maximiser log(𝝅𝒌 )+𝜸𝒌 - log(σ𝒌𝒍=𝟏 𝝅𝒍 . 𝒆𝜸𝒍 ) est donc équivalent à choisir un 𝑘 pour maximiser log(𝝅𝒌 )+𝜸𝒌
1 2
𝑙𝑜𝑔(𝜋𝑘 )+ γ𝑘 = 𝑙𝑜𝑔(𝜋𝑘 ) − 2 𝜎2 𝑋 − 𝜇𝑘
1
= 𝑙𝑜𝑔 (𝜋𝑘 ) − 2 𝜎2 𝑋 2 − 2. 𝑋. 𝜇𝑘 + 𝜇𝑘 2
𝜇𝑘 2 2.𝑋.𝜇𝑘 𝑋2
= 𝑙𝑜𝑔 (𝜋𝑘 ) − + −
2 𝜎2 2 𝜎2 2 𝜎2
𝜇𝑘 2 𝑋.𝜇𝑘
= 𝑙𝑜𝑔 (𝜋𝑘 ) − +
2 𝜎2 𝜎2
A.MAARIR
𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. + 𝒍𝒐𝒈 ( 𝝅𝒌 ) −
𝝈𝟐 𝟐 𝝈𝟐
9
2/16/2024
19
04
Fonction Discriminante Linéaire - Estimation de la fonction de densité 𝑓𝑘 𝑥
𝝁𝒌 𝝁𝒌 𝟐 Remarquez que 𝜹𝒌 (x) est
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) linéaire en 𝒙 d'où le nom
𝝈𝟐 𝟐 𝝈𝟐 d'analyse discriminante
linéaire !.
𝒙. 𝑨 + 𝑩 = 𝟎
𝑨 𝑩
𝜹𝒌 𝒙 est nommé : Fonction Discriminante Linéaire.
Elle est calculée pour chaque classe 𝑘 et la classe ayant la valeur discriminante la plus élevée sera utilisée pour la
classification de sortie (𝑌 = 𝑘 ) :".
Pour utiliser LDA, il est nécessaire d'estimer les moyennes 𝜇𝑘 de chaque classe, la variance 𝜎𝑘2, les probabilités à priori 𝝅𝒌
de chaque classe.
𝑛𝑘
• La probabilité à priori 𝜋𝑘 pour la classe 𝑘 est souvent estimée en prenant la fraction des 𝜋𝑘 =
observations 𝑛𝑘 (sur n) provenant de la classe k: 𝑛
1
• La valeur moyenne 𝜇𝑘 pour la classe 𝑘 est simplement la moyenne de l'échantillon de toutes
𝜇𝑘 = ෍ 𝑋𝑖
les observations de la classe 𝑘: 𝑛𝑘
𝑖
A.MAARIR
𝑘
2 1 2
• La variance 𝜎𝑘2 de l'échantillon à travers toutes les classes :𝜎𝑘 = 𝑛 − 𝑘 ෍ ෍(𝑋𝑖 −𝜇𝑘 )
𝑘
𝑘=1 𝑖

20
Utilisation
04 de l’ ADL pour la prédiction Nombre total d’observation 𝑚 =24
Nombre total d’observation 𝑚0 =19
Nombre total d’observation 𝑚1 =5
𝝁𝟎 30.79
Age Infecté Age Infecté
𝝁𝟏 37.6 𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) (X) (Y) (X) (Y)
𝝈𝟐𝟎 𝝈𝟐 𝟐 𝝈𝟐
65.53 20 0 30 0
𝝈𝟐𝟏 23 0 30 0
144.24
24 0 30 0
𝝅𝟎 = 𝟎. 𝟖 , 𝝅𝟏 = 𝟎. 𝟐 25 0 30 1
25 1 32 0
En utilisant ces paramètres estimés ≠ (𝝈𝟐𝟎 𝝈𝟐𝟏 ),
on peut appliquer la règle
26 0 32 0
de décision de LDA pour classer cette nouvelles observation Age = 32
26 0 33 0
𝝁𝟎 𝝁𝟎 𝟐 28 0 33 0
𝜹𝟎 (𝒙) = 𝑿. 𝟐 − + 𝒍𝒐𝒈 (𝝅𝟎 )
𝝈 𝟐 𝝈𝟐 60 0 36 1
𝟑𝟎. 𝟕𝟗 𝟑𝟎. 𝟕𝟗𝟐 60 1 36 0
𝜹𝟎 𝟔𝟎 = 𝟑𝟐 × − + 𝒍𝒐𝒈 (𝟎. 8)
𝟔𝟓. 𝟓𝟑 𝟐 × 𝟔𝟓. 𝟓𝟑
=7.56 30 0 37 0
30 0 37 1
𝝁𝟏 𝝁𝟏 𝟐
𝜹𝟏 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝟏 )
𝝈𝟐 𝟐 𝝈𝟐 Nous pouvons constater que la valeur discriminante pour Y = 0
A.MAARIR
𝟑𝟕. 𝟔 𝟑𝟕. 𝟔𝟐 (7.568) est supérieure à la valeur discriminante pour Y = 1 (1.872),

𝜹𝟏 𝟔𝟎) = 𝟑𝟐 × − + 𝒍𝒐𝒈 (0.2)
𝟏𝟒𝟒. 𝟐𝟒 𝟐 × 𝟏𝟒𝟒. 𝟐𝟒 donc le modèle prédit Y = 0..
=1.872

10
2/16/2024
21
04
Analyse discriminante linéaire multivariée
Lorsque les données sont multivariées, c'est-à-dire qu'elles sont caractérisées par plusieurs variables. La Fonction
Discriminante Linéaire est sous la forme suivante :
1 𝑇 −𝟏
𝑇෍ 𝑢𝑘 − 𝑢𝑘 𝑢𝑘 + 𝑙𝑜𝑔(𝜋𝑘 )
−𝟏
𝛿𝑘 𝑥 = 𝑋 2
෍
Où :
1
𝜇𝑘 : est𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 𝑑𝑒 𝑐ℎ𝑎𝑞𝑢𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑘 : 𝜇𝑘 = ෍ 𝑋𝑖
𝑛𝑘
𝑖
𝜋𝑘 : est la probabilité a priori de chaque classe k: 𝑛𝑘
𝜋𝑘 =
𝑛 𝑘
1
σ෢ = ෍ (𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇
σ෢
𝒌 la matrice de covariance entre les variables indépendantes de chaque classe k:
𝒌 𝑛𝑘 − 1
𝑘=1
Si nous envisageons d'utiliser LDA, il est nécessaire de calculer une matrice de covariance regroupée de chaque k covariances,
soit directement comme illustré par l’équation (Eq.1) ou par la formule (Eq.2) après le calcul de chaque covariance.
𝑘
෢
=
1
෍ ෍(𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇 σ𝑘𝑟=1(𝑛𝑟 σ𝒓 )
A.MAARIR
෍ Ou
𝑛 −𝑘 Eq.1 ෍
= Eq.2
𝑘=1 𝑖 σ𝑘𝑟=1 𝑛𝑟

22
Chapitre 3- Méthodes de classification: Analyse

discriminante, Arbres de décision et Forêts
aléatoires.
A.MAARIR

Arbres de décision
11
2/16/2024
23
04
Classification - Arbres de décision
• L'arbre de décision est un modèle simple où les décisions sont prises en fonction des
caractéristiques.
• Initialement utilisé dans les années 1960-1980 pour les systèmes experts,
• Cependant, avec l'avènement de méthodes mathématiques pour sa construction, l'arbre de
décision est redevenu pertinent dans les algorithmes d'apprentissage automatique.
Il existe plusieurs algorithmes pour construire des arbres de décision automatiquement

ID3 C4.5 CART
Iterative Dichotomiser 3, conçu Une extension de ID3 par Ross Classification and Regression
par Ross Quinlan en 1986, est Quinlan. Il peut être appliqué Trees: sont similaires à C4.5
une méthode de classification sur tous les types de mais ils utilisent différentes
exclusive aux variables caractéristiques. Son utilisation mesures et peuvent également
nominales. Il est utilisé pour le principale est la classification. être utilisés pour la régression
classement. et la classification

Arbres de décision
24
04
Algorithme global pour construire un arbre de décision
1. Identifier la caractéristique la plus discriminante dans le jeu de données

initial.
2. Partitionner les données en sous-groupes en fonction des différentes
valeurs de cette caractéristique.
3. Répéter le processus de manière itérative pour chaque sous-groupe, en
considérant de manière récursive les caractéristiques restantes jusqu'à ce
que chaque groupe soit clairement classifié.
4. Arrêter la construction de l'arbre lorsque les données sont suffisamment
classifiées ou qu'il n'est plus possible de subdiviser les groupes de manière
significative
A.MAARIR

Arbres de décision
12
2/16/2024
25
04
Arbres de décision - Iterative Dichotomiser 3 - (ID3)
L’algorithme ID3 est basée sur le gain d'information ID3, conçu par Ross Quinlan, a été
initialement présenté dans son ouvrage "Machine Learning" en 1986 [1].
Cet algorithme est supervisé et utilise des exemples classés pour créer un modèle de
classification.
ID3 génère un arbre de décision pour classifier de nouvelles observations.
Cet algorithme est conçu pour traiter des caractéristiques

nominales, nécessitant ainsi une. De plus, discrétisation pour les
caractéristiques continues il est exclusivement employé pour le
classement.
A.MAARIR
[1]J. Ross Quinlan:Induction of Decision Trees. 81-106 Chapitre 3: Classification:
Arbres de décision
Iterative Dichotomiser 3 - (ID3) - Exemple introductif
• Pour appliquer l'algorithme ID3, commençons par examiner l'exemple suivant : une banque dispose des
données clients suivantes et voudrait prédire si un client consulte ses comptes en ligne.
Dans ce cas, nous observons la procédure de Etudes

classification qui identifie, à partir du profil Client Salaire Age Résidence Consultation
d'un client, si ce dernier consulte ses
Sup.
comptes en ligne, c'est-à-dire la catégorie à 1 Moyen Moyen Village Oui Oui
laquelle il est associé. Par exemple : 2 Elevé Moyen Bourg Non Non
3 Faible Agé Bourg Non Non
Le premier client, caractérisé par un salaire : 4 faible Moyen Bourg Oui Oui
Moyen, un âge : moyen, habitant dans un
village et ayant fait des études supérieures, 5 Moyen Jeune Ville Oui Oui
est classé dans la catégorie "Oui". 6 Elevé Agé Ville Oui Non
7 Moyen Agé Ville Oui Non
Le deuxième client, avec des revenus élevés,

un âge moyen, résidant dans un bourg et sans 8 Faible Moyen Village Non Non
études, est classé dans la catégorie "Non". Exemple donné à titre illustratif sur un échantillon non représentatif
A.MAARIR
de profil réel du client).

Arbres de décision
13
2/16/2024
Arbre de décision - Le critère entropique
L'entropie d'un ensemble d'exemples, S, par rapport à une classification binaire est :
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −𝑝+ log 𝑝+ − 𝑝− log 𝑝−
• 𝑝+ est la proportion d'exemples positifs dans S

• 𝑝 est la proportion d'exemples négatifs dans S
−
• Log est de base 2
• Si tous les éléments appartiennent à la même classe :

Entropy = 0
• Si tous les exemples sont mélangés de manière égale (0,5,
0,5) Entropy = 1
Entropie en fonction de la proportion de classe

Arbres de décision
Arbre de décision - Le critère entropique
• En général, lorsque 𝑝𝑖 est la fraction des exemples étiquetés 𝑖

𝑘
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 𝑝1, 𝑝2 , … , 𝑝𝑘 = − ෍ 𝑝𝑖 log 𝑝𝑖
1
• L'entropie peut être considérée comme le nombre de bits nécessaires, en

moyenne, pour coder la classe des étiquettes. Si la probabilité pour '+'
est de 0,5, un seul bit est nécessaire pour chaque exemple ; si elle est de
0,8 - on peut utiliser moins d'un bit.
A.MAARIR

Arbres de décision
14
2/16/2024
Arbre de décision – le gain d'information
• En créant une nouvelle feuille dans l'arbre, une règle est établie pour organiser les
données, et la performance de cette règle est évaluée en termes de gain
d'information
• Le gain d'information d'un attribut a est la réduction attendue de l'entropie

causée par le partitionnement sur cet attribut :
|𝑺𝒗 |
𝑮𝒂𝒊𝒏 𝑺, 𝒂 = 𝑬𝒏𝒕𝒓𝒐𝒑𝒊𝒆 𝑺 − ෍ 𝑬𝒏𝒕𝒓𝒐𝒑𝒊𝒆(𝑺𝒗 )
|𝑺|
𝒗∈𝒗𝒂𝒍𝒖𝒆𝒔(𝑺)
Où :
• 𝑆𝑣 est le sous-ensemble de S pour lequel l'attribut a a la valeur 𝑣 , et l'entropie de
la partition des données est calculée en pondérant l'entropie de chaque partition par
A.MAARIR
sa taille relative par rapport à l'ensemble original.

Arbres de décision
Arbre de décision – Meilleur attribut = gain d'information le plus élevé

vole ? couleur class Couleur Vole ?
non marron mammifère
non blanc mammifère
oui marron oiseau
oui blanc oiseau
marron blanc oui non
non blanc mammifère
non marron oiseau 1 mammifère 2 mammifères 3 mammifères
3 oiseaux
oui blanc oiseau 2 oiseaux 1 oiseau 1 oiseau
3 3 4 4
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 = − 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 log2 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 − 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 log2 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 = − log2 − log2 ≈ 0.985
7 7 7 7
1 1 2 2
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑚𝑎𝑟𝑟𝑜𝑛 ) = − log2 − log2 ≈ 0.918 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑏𝑙𝑎𝑛𝑐 ) = 1
3 3 3 3
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒄𝒐𝒍𝒐𝒓 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎. 𝟗𝟏𝟖 − ∙ 𝟏 ≈ 𝟎. 𝟎𝟐𝟎
𝟕 𝟕
3 3 1 1
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑜𝑢𝑖 ) = 0 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑛𝑜𝑛 ) = − log2 − log2 ≈ 0. 811
4 4 4 4
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒗𝒐𝒍𝒆 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎 − ∙ 𝟎. 𝟖𝟏𝟏 ≈ 𝟎. 𝟓𝟐𝟏
𝟕 𝟕
Arbres de décision
15
2/16/2024
Arbre de décision
Etudes
Client Salaire Age Résidence Consultation
Sup.
Reprononce l'exemple cité
précédemment, pour cela, 1 Moyen Moyen Village Oui Oui
nous devons calculer l'entropie 2 Elevé Moyen Bourg Non Non
de notre ensemble de données 3 Faible Agé Bourg Non Non
initial.
4 faible Moyen Bourg Oui Oui
Nous regardons la distribution
des étiquettes (oui ou Non ) 5 Moyen Jeune Ville Oui Oui
pour déterminer l'entropie. 6 Elevé Agé Ville Oui Non
Dans notre cas, nous avons 3 7 Moyen Agé Ville Oui Non
étiquettes "Oui" et 5 étiquettes
"Non« . 8 Faible Moyen Village Non Non
Objectif est de Classifier Client Salaire Age Résidence Etudes Sup. Consultation
les instance suivantes en
A.MAARIR
utilisant l’arbre de décision 9 Moyen Jeune Village Oui ?
criée:
10 Elevé Moyen Ville Non ?
Arbres de décision
Arbre de décision - Étape 1 : Calcul de l'entropie initiale
3
Etudes p consultaion = 𝑜𝑢𝑖 = 8 = 0.375
Sup. 5
1 Moyen Moyen Village Oui Oui
p consultaion = 𝑛𝑜𝑛 = 8 = 0.625
2 Elevé Moyen Bourg Non Non
5 Moyen Jeune Ville Oui Oui
8 Observations
6 Elevé Agé Ville Oui Non
7 Moyen Agé Ville Oui Non Calcule de l’entropie global :
8 Faible Moyen Village Non Non 𝑐
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑆) = ෍ −𝑝𝑖 log 2 𝑝𝑖

𝑖=1
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −p consultaion = oui × 𝑙𝑜𝑔2 × (p consultaion = 𝑜𝑢𝑖 − p consultaion = 𝑛𝑜𝑛 × 𝑙𝑜𝑔2 (p consultaion = 𝑛𝑜𝑛 )
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −0.375 log2(0.375) − 0.625 log2(0.625 ) = 0.9544

Arbres de décision
16
2/16/2024
Arbre de décision - Étape 2 : Choix de l'attribut racine de l’arbre
Client Salaire Age Résidence Etudes Consultation Salaire Consul

Sup.
Moyen Oui
1 Moyen Moyen Village Oui Oui
Elève Non
2 Elevé Moyen Bourg Non Non
Faible Non
faible Oui Gain d’information:
5 Moyen Jeune Ville Oui Oui Moyen Oui 0.9544 –(3/8*0.9149 +
Elève Non 3/8*0.9149 + 2/8 *0 )
6 Elevée Agé Ville Oui Non
=0.2685
7 Moyen Agé Ville Oui Non Moyen Non
8 Faible Moyen Village Non Non Faible Non
Salaire Consul Salaire Consul
Salaire Consul
Moyen Oui Faible Non Oui : 1/ 3 = 0.33 Oui :0= 0
Oui :2/ 3 = 0.67
Non: 2/3 = 0.67 Elève Non Non : 2/2 =1
A.MAARIR
Moyen Oui Non : 1/3 =0.33 faible Oui Entropie: 0
Entropie: 0.9149 Entropie: 0.9149
Elève Non
Moyen Non Faible Non

Arbres de décision

Client Salaire Age Résidence Etude Consul Age Consul
1 Moyen Moyen Village Oui Oui Moyen Oui
2 Elevé Moyen Bourg Non Non Moyen Non
3 Faible Agé Bourg Non Non Agé Non
4 Faible Moyen Bourg Oui Oui
Moyen Oui
5 Moyen Jeune Ville Oui Oui
Jeune Oui
6 Elevé Agé Ville Oui Non
Agé Non
7 Moyen Agé Ville Oui Non
Agé Non
8 Faible Moyen Village Non Non
Moyen Non
Age Consul Age Consul Age Consul
Moyen Oui Agé Non Gain d’information:
Jeune oui 0.9544 –(4/8*1 + 3/8*0 +
Moyen Non Agé Non 1/8 *0 )
Oui :1= 1
Moyen Oui Age Non Non :0=0 =0.4544
Entropie: 0
Moyen Non Oui : 0= 0
Oui :2/ 4 = 0.5 Non: 3/3 = 1
Non : 2/4 =0.5 Entropie: 0
Chapitre 3: Classification:
Entropie: 1 Arbres de décision
17
2/16/2024

Client Salaire Age Résidence Etude Consul Résidence Consul
1 Moyen Moyen Village Oui Oui Village Oui
2 Elevé Moyen Bourg Non Non Bourg Non
3 Faible Agé Bourg Non Non Bourg Non
4 faible Moyen Bourg Oui Oui Bourg Oui
5 Moyen Jeune Ville Oui Oui Ville Oui
6 Elevé Agé Ville Oui Non Ville Non
7 Moyen Agé Ville Oui Non Ville Non
8 Faible Moyen Village Non Non Village Non
Résidence Consul Résidence Consul Résidence Consul

Village Oui Bourg Non Ville Oui Gain d’information:
0.9544 –(2/8*1 + 3/8*0.913 +
Village Non Bourg Non Ville Non 3/8 *0.914 )
Bourg Oui Ville Non =0.0185
Oui :1/ 2 = 0.5 Oui : 1/3= 0.33 Oui :1/3= 0.33
Non : 1/2 =0.5 Non: 2/3 = 0.67 Non :2/3=0.67
Entropie: 1 Entropie: 0.914 Entropie: 0.914
Arbres de décision

Client Salaire Age Résidence Etudes Sup Consul Etudes sup Consul
1 Moyen Moyen Village Oui Oui Oui Oui
2 Elevé Moyen Bourg Non Non Non Non
3 Faible Agé Bourg Non Non Non Non
4 faible Moyen Bourg Oui Oui Oui Oui
5 Moyen Jeune Ville Oui Oui Oui Oui
6 Elevé Agé Ville Oui Non Oui Non
7 Moyen Agé Ville Oui Non Oui Non
8 Faible Moyen Village Non Non Non Non
Etudes sup. Consul Etudes Sup Consul
Oui Oui Non Non Gain d’information:
Oui Oui Oui :3/ 5 = 0.6 Non Non 0.9544 –(5/8*0.970 + 3/8*0)
Non : 2/5 =0.4
Oui Oui
Entropie: 0.970
Non Non =0.347
Oui Non Oui :0= 0
Non :3/3=1
oui Non Entropie: 0

Arbres de décision
18
2/16/2024
La première division est obtenue en choisissant la variable explicative qui fournira la

meilleure séparation, le gain le plus élevé.(diapo suivante)
Salaire Age Résidence Etude Consultation
Moyen Moyen Village Oui Oui
Elève Moyen Bourg Non Non Attributs Gain d’information

Faible Agé Bourg Non Non Moyenne de 0.2685
montants
faible Moyen Bourg Oui Oui
Age 0.454
Moyen Jeune Ville Oui Oui Résidence 0.0185
Elève Agé Ville Oui Non Etudes 0.347
Moyen Agé Ville Oui Non
Faible Moyen Village Non Non
A.MAARIR
Arbres de décision
Arbre de décision - Étape 3 : Construire les branche liées à la l’attribut Age
Etudes Age Salaire Résid. Etude Consul

Sup. Moyen Moyen Village Oui Oui
1 Moyen Moyen Village Oui Oui Moyen Elève Bourg Non Non
2 Elevé Moyen Bourg Non Non Moyen faible Bourg Oui Oui
3 Faible Agé Bourg Non Non Moyen Faible Village Non Non
5 Moyen Jeune Ville Oui Oui Age Salaire Résid. Etude Consul
6 Elevé Agé Ville Oui Non Agé Faible Bourg Non Non
7 Moyen Agé Ville Oui Non Agé Elève Ville Oui Non
8 Faible Moyen Village Non Non
Age Moyen Ville Oui Non
Age
Age Salaire Résid. Etude Consul
Jeune Moyen Ville Oui oui
Jeune Agé
Moyen
OUI NON
? Chapitre 3: Classification:
Arbres de décision
19
2/16/2024
Arbre de décision -Récursion
• Appliquer récursivement l'algorithme sur chaque sous-ensemble obtenu à partir de la

division précédente, jusqu'à ce que certaines conditions d'arrêt soient satisfaites
• (par exemple, tous les exemples dans le sous-ensemble appartiennent à la même
classe ou que plus aucun attribut ne soit disponible pour diviser les données).
Salaire Résidence Etudes Sup. Consultation

Moyen Village Oui Oui
Elevé Bourg Non Non
Faible Bourg Oui Oui
Faible Village Non Non
Probabilité:
Oui :2/4 =0.5
Non : 2/4 =0.5
Entropie: -0.5log2(0.5)-0.5log2(0.5) = 1

Arbres de décision
Salaire Résidence Etudes. Consul Salaire Consul

Moyen Village Oui Oui Moyen Oui
Elève Bourg Non Non Elève Non
Faible Bourg Oui Oui Faible Oui
Faible Village Non Non Faible Non
Salaire Consul Salaire Consul Salaire Consul

Moyen Oui Elève Non Faible Oui
Oui :1/1= 1 Oui : 0= 0 Faible Non Gain d’information:
Non : 0 =0 Non : 1/1=1
Entropie: 0 Entropie: 0 Oui :1/2 = 0.5 1 –(1/4*0 + 1/4*0+ 2/4 *1 )=0.5
Non : 1/2 =0.5
Entropie: 1

Arbres de décision
20
2/16/2024
Salaire Résidence Etudes. Consul Résidence Consul

Moyen Village Oui Oui Village Oui
Elève Bourg Non Non Bourg Non
Faible Bourg Oui Oui Bourg Oui
Faible Village Non Non village Non
Résidence Consul. Résidence Consul.

Village Oui Bourg Non
Gain d’information:
Village non Bourg Oui 1 –(2/4*1 + 2/4*1)=0
Oui :1/2= 0.5 Oui : 1/2= 0.5
A.MAARIR
Non : 1/2=0.5 Non : 1/2=0.5
Entropie: 1 Entropie: 1

Arbres de décision
Arbre de décision
Salaire Résidence Etudes. Consul Etudes. Consul

Moyen Village Oui Oui Oui Oui
Elève Bourg Non Non Non Non
Faible Bourg Oui Oui Oui Oui
Faible Village Non Non Non Non
Etudes. Consul Etudes. Consul

Oui Oui Non Non
Gain d’information:
Oui Oui Non Non

1 –(2/4*0 + 2/4*0)=1
A.MAARIR
Oui :2/2= 1 Oui : 0= 0

Non : 0=0 Non : 2/2=1
Entropie: 0 Entropie: 0

Arbres de décision
21
2/16/2024
Arbre de décision
Salaire Résidence Etudes. Consul Après avoir calculer l'information gain pour les attributs Salaire,
Résidence Et Etudes sup.
Moyen Village Oui Oui Nous allons choisir l'attribut Etudes qui maximise l'information gain.
Elève Bourg Non Non
Faible Village Non Non
Attributs Gain d’information

Salaire 0.5
Résidence 0
Etudes 1

Arbres de décision
Arbre de décision - Construction de l'arbre :
Salaire Résidence Etudes. Consul Etudes. Salaire Résidence Consul

Moyen Village Oui Oui Oui Moyen Village Oui
Elève Bourg Non Non Oui Faible Bourg Oui
Faible Village Non Non Etudes. Salaire Résidence Consul
Non Elève Bourg Non
Age
Non Faible Village Non
Jeune Agé Construire l'arbre de décision en reliant les

Moyen nœuds de décision sélectionnés à chaque étape
de l'algorithme.
NON
OUI
Etud=oui Etud=non
OUI NON
Arbres de décision
22
2/16/2024
Arbre de décision final

Une fois que l'arbre de décision est construit à l'aide de Age
l'algorithme ID3, la prédiction d'une nouvelle instance se déroule
généralement comme suit :
Traversée de l'arbre Jeune Agé

Moyen
• Commencer par la racine de l'arbre.
• Traverser l'arbre en utilisant les valeurs des attributs de
l'instance à prédire pour atteindre une feuille NON
OUI
Prédiction : Etud=oui Etud=non
• À l'arrivée à un nœud terminal, la classe majoritaire (ou la
classe la plus probable)
• Attribuer la classe majoritaire de cette feuille comme la OUI NON
prédiction finale.
Nom Salaire Age Résidence Etudes Consultati

on
9 Moyen Jeune Village Oui ?oui
10 Elevé Moyen Ville Non ?non

Arbres de décision
Traitement des Attributs Numériques
• Comment l'algorithme ID3 gère-t-il les attributs numériques ?

➢ Presque toujours, tout attribut numérique réduirait l'entropie à zéro.
Temps température humidité vent jouer
ensoleilé chaude 90 non non
ensoleilé chaude 87 oui non
nuageux chaude 93 non oui
Considérez une valeur numérique pour l'humidité.
pluvieux douce 89 non oui
pluvieux fraîche 79 non oui humidité
pluvieux fraîche 59 oui non
nuageux fraîche 77 oui oui
ensoleilé douce 91 non non 59 87 74 97
ensoleilé fraîche 68 non oui
pluvieux douce 80 non oui
ensoleilé douce 72 oui oui non non oui non
nuageux douce 96 oui oui
nuageux chaude 74 non oui
pluvieux douce 97 oui non
Arbres de décision
23
2/16/2024

• Les attributs numériques doivent être traités différemment
➢ Trouver la meilleure valeur de séparation
Gain de l'attribut numérique 𝑎 si nous divisons à la valeur 𝑡
humidité jouer humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡

𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
90 non 59 non 𝑋 𝑋
87 non 68 oui humidité
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque paire 73
59 non
Tier 79 oui consécutive 75.5
77 oui 78
80 oui
79.5
91 non 87 non
83.5
68 oui 89 oui 88
80 oui 90 non 89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision

humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
68 oui 83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 =
89 oui
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision
24
2/16/2024

humidité jouer
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
91 non 87 non 79.5
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision

humidité jouer
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
91 non 87 non 79.5
7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59
88 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision
25
2/16/2024

humidité jouer
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision

humidité jouer
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non ≈ 𝟎. 𝟏𝟓𝟐
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Arbres de décision
26
2/16/2024

humidité jouer humidité jouer
90 non valeurs de Gain
59 non
87 non division d'information
68 oui
93 oui 63.5 0.113
72 oui 70
89 oui 0.01
74 oui Moyenne de 73
79 oui Gain de 0.0004
77 oui chaque pair 75.5
59 non successive chaque 0.015
79 oui 78 83,5 est la
77 oui Trier observation 0.045
80 oui 79.5 meilleure valeur
91 non 0.09
87 non 83.5 0.152 de séparation
68 oui 89 oui 88 0.048 avec un gain
80 oui 90 non 89.5 0.102 d'information
72 oui 91 non 90.5 0.025 de 0,152.
96 oui 93 oui 92 0.0004
74 oui 96 oui 94.5 0.01
97 non 97 non 96.5 0.113

Arbres de décision

Temps température humidité vent jouer • 83,5 est la meilleure valeur de séparation
ensoleilé chaude >83.5 non non pour l'Humidité, avec un gain d'information
ensoleilé chaude >83.5 oui non de 0,152.
nuageux chaude >83.5 non oui
pluvieux douce >83.5 non oui • L'Humidité est désormais traitée comme un
pluvieux fraîche ≤83.5 non oui attribut catégorique avec deux valeurs
pluvieux fraîche ≤83.5 oui non possibles ( >83.5 et ≤ 83.5 ).
nuageux fraîche ≤83.5 oui oui
ensoleilé douce >83.5 non non
• Un nouveau découpage optimal est calculé
ensoleilé fraîche ≤83.5 non oui à chaque niveau de l'arbre.
pluvieux douce ≤83.5 non oui
ensoleilé douce ≤83.5 oui oui
nuageux douce >83.5 oui oui
nuageux chaude ≤83.5 non oui
pluvieux douce >83.5 oui non

Arbres de décision
27
2/16/2024
Algorithme - Arbre de décision

Arbres de décision
28

LED3SI - Module - M354 - Chap3 - Part1 - Seances4-5

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

LED3SI - Module - M354 - Chap3 - Part1 - Seances4-5

Transféré par

Droits d'auteur :

Formats disponibles

2/16/2024

UNIVERSITE SULTAN MOULAY SLIMANE

Module :M354 : Apprentissage Automatique

Licence d'Excellence: Data Science et Sécurité des Systèmes d’Information

Chapitre 2 - Modèles de régression linéaire et

Apprentissage Automatique Chapitre 2: Modèle de

Longueur du message (X) 20 30 15 25 40 18 35 22 28 24 Données :

1.1 La fonction hypothèse ℎ.

✓ Chapitre 1 - Introduction à l’Apprentissage Automatique

✓ Chapitre 2 - Modèles de régression linéaire et logistique.

✓ Chapitre 3- Méthodes de classification :Analyse discriminante, Arbres de décision et forêts aléatoires.

✓ Chapitre 4 - Techniques de clustering telles que le clustering k-means et le clustering hiérarchique

✓ Chapitre 5- Réseaux de neurones artificiels.

Chapitre 3- Méthodes de classification: Analyse

Apprentissage Automatique Chapitre 3: Classification:

3. Déterminez le gradient puis appliquez

Apprentissage Automatique Chapitre 3: Classification:

Reconnaissance de caractères manuscrits : Classer des

Apprentissage Automatique Chapitre 3: Classification:

Pour résoudre ce défi, on peut

Apprentissage Automatique Chapitre 3: Classification:

Prenons l'exemple de la figure précédente : correspondra à la classe

Nous allons donc entraîner un classifieur de

Apprentissage Automatique Chapitre 3: Classification:

Exemple : Prédiction pour une nouvelle observation

En conséquence, nous concluons que la nouvelle observation appartient à la classe 2 ( ) .

Apprentissage Automatique Chapitre 3: Classification:

Apprentissage Automatique Chapitre 3: Classification:

La probabilité a posteriori 𝑝𝑘 (𝑥) 𝑃 ∗ 𝐵 𝐴 𝑃(𝐴)

Apprentissage Automatique Chapitre 3: Classification:

= 𝑙𝑜𝑔(𝜋𝑘 )+log(𝑒 𝛾𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )

Apprentissage Automatique Chapitre 3: Classification:

𝟑𝟕. 𝟔 𝟑𝟕. 𝟔𝟐 (7.568) est supérieure à la valeur discriminante pour Y = 1 (1.872),

Apprentissage Automatique Chapitre 3: Classification:

Apprentissage Automatique Chapitre 3: Classification:

Chapitre 3- Méthodes de classification: Analyse

Apprentissage Automatique Chapitre 3: Classification:

Il existe plusieurs algorithmes pour construire des arbres de décision automatiquement

Apprentissage Automatique Chapitre 3: Classification:

1. Identifier la caractéristique la plus discriminante dans le jeu de données

Apprentissage Automatique Chapitre 3: Classification:

Cet algorithme est conçu pour traiter des caractéristiques

Iterative Dichotomiser 3 - (ID3) - Exemple introductif

Dans ce cas, nous observons la procédure de Etudes

Le deuxième client, avec des revenus élevés,

de profil réel du client).

Apprentissage Automatique Chapitre 3: Classification:

Arbre de décision - Le critère entropique

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑆 = −𝑝+ log 𝑝+ − 𝑝− log 𝑝−

• 𝑝+ est la proportion d'exemples positifs dans S

• Si tous les éléments appartiennent à la même classe :

Entropie en fonction de la proportion de classe

Apprentissage Automatique Chapitre 3: Classification:

Arbre de décision - Le critère entropique

• En général, lorsque 𝑝𝑖 est la fraction des exemples étiquetés 𝑖

• L'entropie peut être considérée comme le nombre de bits nécessaires, en

Apprentissage Automatique Chapitre 3: Classification:

Arbre de décision – le gain d'information

• Le gain d'information d'un attribut a est la réduction attendue de l'entropie

Apprentissage Automatique Chapitre 3: Classification:

Arbre de décision – Meilleur attribut = gain d'information le plus élevé

Arbre de décision - Étape 1 : Calcul de l'entropie initiale

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑆) = ෍ −𝑝𝑖 log 2 𝑝𝑖