Académique Documents
Professionnel Documents
Culture Documents
A.MAARIR
Email: a.maarir@ya.ru 2023/2024
Apprentissage Automatique
1
2/16/2024
3
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
• Soit un ensemble de données d’apprentissage 𝐷 = 𝑥𝑖 , 𝑦𝑖 , 𝑖 = 1. . 𝑚 , 𝑥𝑖 ∈ ℝ , 𝑦𝑖 ∈ ℝ , de classification des courriels
en spam et non-spam à l'aide de la méthode de gradient pour la régression logistique.
1.2 Pour chaque e-mail 𝑥𝑖 , la probabilité prédite qu'il soit un spam est :
𝟏 𝟏 𝟏
𝒑(𝒚 = 𝟏 |𝒙𝒊 , θ0 ,θ1) = ℎ(𝒙𝒊 ) = = = = 𝟎. 𝟓
𝟏+𝒆−(𝜽𝟏×𝒙𝒊+𝜽𝟎 ) 𝟏+𝒆−(𝟎×𝒙𝒊+𝟎) 𝟏+𝒆𝟎
Email: a.maarir@ya.ru
1.3 La formulation de la fonction de coût :
A.MAARIR
𝑚
1
𝐽 𝜽 = − 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
𝑚
𝑖=1
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique
4
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.3. La valeur de la fonction de coût pour la première itération :
10
1
𝑱 θ0 ,θ1 = − 𝑦𝑖 log(ℎ𝜃 𝑥𝑖 ) + 1 − 𝑦𝑖 log(1 − ℎ𝜃 (𝑥𝑖 )
10
𝑖=1
Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806
Email: a.maarir@ya.ru
1
𝑱 0,0 = − 10 × (𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 +
𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 ×
𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 + (1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 + 𝟏 × 𝑙𝑜𝑔 0.5 + (1 − 𝟏) × 𝑙𝑜𝑔 1 − 0.5 + 𝟎 × 𝑙𝑜𝑔 0.5 +
A.MAARIR
(1 − 𝟎) × 𝑙𝑜𝑔 1 − 0.5 )
𝟏
𝑱 0,0 = − (−𝟔. 𝟗𝟑𝟏𝟒𝟕𝟏𝟖𝟎𝟔) = 0.693147181
𝟏𝟎
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique
2
2/16/2024
5
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.4. La valeur de gradient de la fonction de coût (cross-entropy) par rapport aux coefficients θ0 et θ1 du modèle.
Longueur du
Spam (Y) ℎ(xi) ℎ(xi)-yi (h(xi)-yi)xi -(yi × log(h(xi)) +(1-yi) × log(1-h(xi))
message (X)
1 20 0 0.5 0.5 10 0.693147181
1 30 1 0.5 -0.5 -15 0.693147181
1 15 0 0.5 0.5 7.5 0.693147181
1 25 1 0.5 -0.5 -12.5 0.693147181
1 40 1 0.5 -0.5 -20 0.693147181
1 18 0 0.5 0.5 9 0.693147181
1 35 1 0.5 -0.5 -17.5 0.693147181
1 22 0 0.5 0.5 11 0.693147181
1 28 1 0.5 -0.5 -14 0.693147181
1 24 0 0.5 0.5 12 0.693147181
Somme : 0 -29.5 6.931471806
Email: a.maarir@ya.ru
𝑚 10
𝜕𝐽(𝜃) 1 1
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = (𝜎 𝜃 . 𝑋 − 𝑦 )) = (ℎ(𝑥𝑖) − 𝑦𝑖) = 𝟎
𝜕𝜃 0 𝑚 10
𝑖=1 𝑖=1
A.MAARIR
𝑚 10
𝜕𝐽(𝜃) 1 1 −29.5
𝐺𝑟𝑎𝑑𝑖𝑒𝑛𝑡: = (𝜎 𝜃 . 𝑋 − 𝑦 )) × 𝑋 = (ℎ(𝑥𝑖) − 𝑦𝑖) × 𝑥𝑖 = = −𝟐. 𝟗𝟓
𝜕𝜃 1 𝑚 10 10
𝑖=1 𝑖=1
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique
6
Correction - Exercice 2 (TD 2 - partie 2 : Régression Logistique )
1.5 Les coefficients du modèle en utilisant la formule de mise à jour de la descente de gradient.
𝜕𝐽 𝜃
On a : 𝜃𝑗 = 𝜃𝑗 − 𝛼 pour j =0,1
𝜕𝜃𝑗
𝜃0 0 0
𝜃 𝑖𝑡é𝑟𝑎𝑡𝑖𝑜𝑛 1 = − 0.01 =
𝜃1 −2.95 0.0295
Email: a.maarir@ya.ru
A.MAARIR
Chapitre 2: Modèle de
Apprentissage Automatique
régression logistique
3
2/16/2024
Contenu du Module
✓ Chapitre 6 - Évaluation des performances des modèles de machine learning à l'aide de métriques telles
que l'accuracy, la précision, le rappel et la F-mesure.
Email: a.maarir@ya.ru
A.MAARIR
Apprentissage Automatique Chapitre 2: Modèle de
régression logistique
Apprentissage Automatique
4
2/16/2024
Qu'avons-nous fait ?
1. Fonction
Hypothèse
2. Déterminer la
Fonction Coût
10
Classification-
04 motivations
Les méthodes de classification ont pour but d'identifier les classes auxquelles appartiennent des
objets à partir de certains traits descriptifs. Elles trouvent leur utilité dans un grand nombre
d'activités humaines et en particulier dans la prise de décision automatisée. Citons par exemple :
Analyse de sentiment : Classer les commentaires des La classification des fleurs en différentes espèces
utilisateurs comme positifs, négatifs ou neutres. en fonction de leurs caractéristiques.
5
2/16/2024
11
04
Classification- motivations
Pouvons-nous utiliser la
Jusqu'à présent, la régression logistique présente une exigence importante : la régression logistique pour
classification doit être guidée par un vecteur comportant des valeurs binaires telles entraîner un modèle à
que Vai/Faux, Malade/Sain, admis/Non admis, etc. partir d'un vecteur Y
comprenant 𝑰 modalités
(ou classes), avec 𝑰 > 2 ?
12
04
Classification- motivations
𝟎 ≤ 𝒉𝒊 𝒙 ≤ 𝟏
𝒉𝒊 𝒙 = 𝝈 𝜽 . 𝑿 = 𝒑 𝒚 = 𝒊 𝒙, 𝜽 ) (𝒊 = 𝟏, … , 𝑰)
6
2/16/2024
13
04
Classification- motivations
Pour utiliser ce modèle afin d’effectuer des prédictions, on cherche
𝑚𝑎𝑥 ℎ𝑖 𝑥
on applique chacun des 𝑰 classifieurs aux nouvelles observations. On obtiendra ainsi i probabilités de
classification.
La probabilité la plus élevée indiquera la classe à laquelle la nouvelle observation est la plus susceptible
d’appartenir.
𝒉𝟏 𝒙 nous apprend que la probabilité d'appartenir à la classe 1 est de 0,3 (sans avoir à distinguer si les autres observations
𝒉𝟐 𝒙 celle d'appartenir à la classe 2 est de 0,5.
𝒉𝟑 𝒙 celle d'appartenir à la classe 3 est de 0,2.
14
04
Classification- Analyse discriminante linéaire
La régression logistique est un algorithme de classification traditionnellement limité aux problèmes de classification à deux
classes uniquement. Si vous avez plus de deux classes, alors l'analyse discriminante linéaire est la technique de
classification linéaire préférée.
Lorsque nous représentons les caractéristiques, nous pouvons voir que les données sont linéairement séparables. Nous
pouvons tracer une ligne pour séparer les deux groupes.
Le problème consiste à trouver la ligne et à faire pivoter les caractéristiques de manière à maximiser la distance entre les
groupes et à minimiser la distance au sein du groupe.
Email: a.maarir@ya.ru
A.MAARIR
7
2/16/2024
15
04
Analyse Discriminante Linéaire (LDA)
Ce que nous cherchons , c'est de prédire la probabilité que 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙). C'est ce que la régression logistique estime
directement.
Par ailleurs, nous pouvons poser un modèle pour 𝑷 𝑿 = 𝒙 𝒀 = 𝒌). ainsi qu'une probabilité a priori 𝑷(𝒀 = 𝒌). Ensuite,
en appliquant la règle de Bayes, nous pouvons calculer 𝑷(𝒀 = 𝒌 |𝑿 = 𝒙).
Théorème de Bayes:
En théorie des probabilités, Le théorème de Bayes nonce des probabilités conditionnelles. il permet de déterminer la
probabilité de 𝐴 sachant 𝐵, si l’on connaît les probabilités de 𝐴, de 𝐵 et de 𝐵 sachant 𝐴, selon la relation suivante :
16
04
Analyse Discriminante Linéaire (LDA) et Le théorème de Bayes
Nombre total d’observation 𝑚 =24
Nombre total d’observation (y=0) 𝑚0 =19
𝑃 𝐵 𝐴 ∗ 𝑃(𝐴) Nombre total d’observation (y=1) 𝑚1 =5
Théorème de Bayes 𝑃 𝐴𝐵 =
𝑃(𝐵)
Age Infecté Age Infecté
(X) (Y) (X) (Y)
20 0 30 0
𝑃 𝑋 = 𝑥 𝑌 = 𝑘 ∗ 𝑃(𝑌 = 𝑘)
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 23 0 30 0
𝑃(𝑋 = 𝑥)
La probabilité à priori: 24 0 30 0
𝑃 𝑌 = 𝑘 𝑋 = 𝑥) = 𝜋𝑘 , 𝑘 = (0,1) 25 0 30 1
25 1 32 0
𝜋0 = 19ൗ24 = 0.8, 𝜋1 = 5ൗ24 = 0.2
26 0 32 0
La fonction de densité
26 0 33 0
𝑓𝑘 𝑥 = 𝑃 𝑋 = 𝑥 𝑌 = 𝑘) 28 0 33 0
60 0 36 1
𝑓𝑘 36 = 𝑃 𝑋 = 36 𝑌 = 1) = 2ൗ24 ∗ 1ൗ2 = 1ൗ24
60 1 36 0
La probabilité à posteriori 𝑃𝑘 (𝑥) 30 0 37 0
𝑃 𝑌 = 𝐾 𝑋 = 𝑥) 30 0 37 1
Apprentissage Automatique Chapitre 3: Classification:
Analyse discriminante…
8
2/16/2024
17
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥
Pour une distribution gaussienne, 𝑓𝑘 𝑥 est donnée par : Une distribution gaussienne, est une distribution
1 1 2
de probabilité qui est symétrique par rapport à
𝑓𝑘 𝑥 = exp − 2 𝑋 − 𝜇𝑘 sa moyenne et qui est caractérisée par sa
2 2𝜎𝑘
2𝜋𝜎𝑘 moyenne (μ) et son écart-type (σ). Elle est
souvent représentée par une courbe en forme
où
de cloche.
𝜇𝑘 est la moyenne des observations appartenant à la classe k
𝜎𝑘2 est la variance des observations appartenant à la classe k
Supposons que la variance soit égale pour toutes les 𝑘 classes : 𝜎12 = 𝜎22 =⋯= 𝜎𝑘2 = 𝜎 2
1 1
exp − 𝑋 − 𝜇𝑘 2 . 𝜋𝑘
𝑓𝑘 𝑥 ∗ 𝜋𝑘 2𝜋 𝜎 2 𝜎2
𝑝𝑘 𝑥 = 𝑘 =
σ𝑙=1 𝜋𝑙 𝑓𝑙 𝑥 1 1
σ𝑘𝑙=1 𝜋𝑙 . exp(− 𝑋 − 𝜇𝑙 2 )
Email: a.maarir@ya.ru
2𝜋 𝜎 2 𝜎2
𝑒 𝛾𝑘 .𝜋𝑘 1 2
A.MAARIR
𝑘 =
σ𝑙=1 𝜋𝑙 .𝑒 𝛾𝑙
où ∶ γ𝑗 = − 2 𝜎2 𝑋 − 𝜇𝑗 , 𝛾: 𝐺𝑎𝑚𝑚𝑎
18
04
Analyse Discriminante Linéaire – Estimation de la fonction de densité 𝑓𝑘 𝑥
Objectif : Nous classifions une observation dans la classe 𝑘 pour laquelle 𝑝𝑘 𝑥 est maximisée.
Trouver le 𝑘 qui maximise 𝑝𝑘 𝑥 est équivalent à trouver le 𝑘 qui maximise log(𝑝𝑘 𝑥 ).
𝑒 𝛾𝑘 .𝜋𝑘
𝑙𝑜𝑔 (𝑝𝑘 𝑥 ) =𝑙𝑜𝑔(σ𝑘 𝑦𝑙 )
𝑙=1 𝜋𝑙 .𝑒
= 𝑙𝑜𝑔(𝑒 . 𝜋𝑘 )- log(σ𝑘𝑙=1 𝜋𝑙 . 𝑒 𝛾𝑙 )
𝛾𝑘
2 𝜎2 2 𝜎2 2 𝜎2
𝜇𝑘 2 𝑋.𝜇𝑘
= 𝑙𝑜𝑔 (𝜋𝑘 ) − +
2 𝜎2 𝜎2
A.MAARIR
𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. + 𝒍𝒐𝒈 ( 𝝅𝒌 ) −
𝝈𝟐 𝟐 𝝈𝟐
Apprentissage Automatique Chapitre 3: Classification:
Analyse discriminante…
9
2/16/2024
19
04
Fonction Discriminante Linéaire - Estimation de la fonction de densité 𝑓𝑘 𝑥
𝝁𝒌 𝝁𝒌 𝟐 Remarquez que 𝜹𝒌 (x) est
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) linéaire en 𝒙 d'où le nom
𝝈𝟐 𝟐 𝝈𝟐 d'analyse discriminante
linéaire !.
𝒙. 𝑨 + 𝑩 = 𝟎
𝑨 𝑩
𝜹𝒌 𝒙 est nommé : Fonction Discriminante Linéaire.
Elle est calculée pour chaque classe 𝑘 et la classe ayant la valeur discriminante la plus élevée sera utilisée pour la
classification de sortie (𝑌 = 𝑘 ) :".
Pour utiliser LDA, il est nécessaire d'estimer les moyennes 𝜇𝑘 de chaque classe, la variance 𝜎𝑘2, les probabilités à priori 𝝅𝒌
de chaque classe.
𝑛𝑘
• La probabilité à priori 𝜋𝑘 pour la classe 𝑘 est souvent estimée en prenant la fraction des 𝜋𝑘 =
observations 𝑛𝑘 (sur n) provenant de la classe k: 𝑛
1
Email: a.maarir@ya.ru
• La valeur moyenne 𝜇𝑘 pour la classe 𝑘 est simplement la moyenne de l'échantillon de toutes
𝜇𝑘 = 𝑋𝑖
les observations de la classe 𝑘: 𝑛𝑘
𝑖
A.MAARIR
𝑘
2 1 2
• La variance 𝜎𝑘2 de l'échantillon à travers toutes les classes :𝜎𝑘 = 𝑛 − 𝑘 (𝑋𝑖 −𝜇𝑘 )
𝑘
𝑘=1 𝑖
20
Utilisation
04 de l’ ADL pour la prédiction Nombre total d’observation 𝑚 =24
Nombre total d’observation 𝑚0 =19
Nombre total d’observation 𝑚1 =5
𝝁𝟎 30.79
Age Infecté Age Infecté
𝝁𝟏 37.6 𝝁𝒌 𝝁𝒌 𝟐
𝜹𝒌 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝒌 ) (X) (Y) (X) (Y)
𝝈𝟐𝟎 𝝈𝟐 𝟐 𝝈𝟐
65.53 20 0 30 0
𝝈𝟐𝟏 23 0 30 0
144.24
24 0 30 0
𝝅𝟎 = 𝟎. 𝟖 , 𝝅𝟏 = 𝟎. 𝟐 25 0 30 1
25 1 32 0
En utilisant ces paramètres estimés ≠ (𝝈𝟐𝟎 𝝈𝟐𝟏 ),
on peut appliquer la règle
26 0 32 0
de décision de LDA pour classer cette nouvelles observation Age = 32
26 0 33 0
𝝁𝟎 𝝁𝟎 𝟐 28 0 33 0
𝜹𝟎 (𝒙) = 𝑿. 𝟐 − + 𝒍𝒐𝒈 (𝝅𝟎 )
𝝈 𝟐 𝝈𝟐 60 0 36 1
𝟑𝟎. 𝟕𝟗 𝟑𝟎. 𝟕𝟗𝟐 60 1 36 0
𝜹𝟎 𝟔𝟎 = 𝟑𝟐 × − + 𝒍𝒐𝒈 (𝟎. 8)
𝟔𝟓. 𝟓𝟑 𝟐 × 𝟔𝟓. 𝟓𝟑
=7.56 30 0 37 0
Email: a.maarir@ya.ru
30 0 37 1
𝝁𝟏 𝝁𝟏 𝟐
𝜹𝟏 (𝒙) = 𝑿. − + 𝒍𝒐𝒈 (𝝅𝟏 )
𝝈𝟐 𝟐 𝝈𝟐 Nous pouvons constater que la valeur discriminante pour Y = 0
A.MAARIR
10
2/16/2024
21
04
Analyse discriminante linéaire multivariée
Lorsque les données sont multivariées, c'est-à-dire qu'elles sont caractérisées par plusieurs variables. La Fonction
Discriminante Linéaire est sous la forme suivante :
1 𝑇 −𝟏
𝑇 𝑢𝑘 − 𝑢𝑘 𝑢𝑘 + 𝑙𝑜𝑔(𝜋𝑘 )
−𝟏
𝛿𝑘 𝑥 = 𝑋 2
Où :
1
𝜇𝑘 : est𝑙𝑎 𝑚𝑜𝑦𝑒𝑛𝑛𝑒 𝑑𝑒𝑠 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 𝑑𝑒 𝑐ℎ𝑎𝑞𝑢𝑒 𝑐𝑙𝑎𝑠𝑠𝑒 𝑘 : 𝜇𝑘 = 𝑋𝑖
𝑛𝑘
𝑖
𝜋𝑘 : est la probabilité a priori de chaque classe k: 𝑛𝑘
𝜋𝑘 =
𝑛 𝑘
1
σ = (𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇
σ
𝒌 la matrice de covariance entre les variables indépendantes de chaque classe k:
𝒌 𝑛𝑘 − 1
𝑘=1
Si nous envisageons d'utiliser LDA, il est nécessaire de calculer une matrice de covariance regroupée de chaque k covariances,
Email: a.maarir@ya.ru
soit directement comme illustré par l’équation (Eq.1) ou par la formule (Eq.2) après le calcul de chaque covariance.
𝑘
=
1
(𝑋𝑖 −𝜇𝑘 )(𝑋𝑖 −𝜇𝑘 )𝑇 σ𝑘𝑟=1(𝑛𝑟 σ𝒓 )
A.MAARIR
Ou
𝑛 −𝑘 Eq.1
= Eq.2
𝑘=1 𝑖 σ𝑘𝑟=1 𝑛𝑟
22
Apprentissage Automatique
11
2/16/2024
23
04
Classification - Arbres de décision
• L'arbre de décision est un modèle simple où les décisions sont prises en fonction des
caractéristiques.
• Initialement utilisé dans les années 1960-1980 pour les systèmes experts,
• Cependant, avec l'avènement de méthodes mathématiques pour sa construction, l'arbre de
décision est redevenu pertinent dans les algorithmes d'apprentissage automatique.
Iterative Dichotomiser 3, conçu Une extension de ID3 par Ross Classification and Regression
par Ross Quinlan en 1986, est Quinlan. Il peut être appliqué Trees: sont similaires à C4.5
une méthode de classification sur tous les types de mais ils utilisent différentes
exclusive aux variables caractéristiques. Son utilisation mesures et peuvent également
nominales. Il est utilisé pour le principale est la classification. être utilisés pour la régression
classement. et la classification
24
04
Algorithme global pour construire un arbre de décision
significative
A.MAARIR
12
2/16/2024
25
04
Arbres de décision - Iterative Dichotomiser 3 - (ID3)
L’algorithme ID3 est basée sur le gain d'information ID3, conçu par Ross Quinlan, a été
initialement présenté dans son ouvrage "Machine Learning" en 1986 [1].
Cet algorithme est supervisé et utilise des exemples classés pour créer un modèle de
classification.
ID3 génère un arbre de décision pour classifier de nouvelles observations.
Email: a.maarir@ya.ru
A.MAARIR
[1]J. Ross Quinlan:Induction of Decision Trees. 81-106 Chapitre 3: Classification:
Arbres de décision
• Pour appliquer l'algorithme ID3, commençons par examiner l'exemple suivant : une banque dispose des
données clients suivantes et voudrait prédire si un client consulte ses comptes en ligne.
13
2/16/2024
L'entropie d'un ensemble d'exemples, S, par rapport à une classification binaire est :
14
2/16/2024
• En créant une nouvelle feuille dans l'arbre, une règle est établie pour organiser les
données, et la performance de cette règle est évaluée en termes de gain
d'information
Email: a.maarir@ya.ru
• 𝑆𝑣 est le sous-ensemble de S pour lequel l'attribut a a la valeur 𝑣 , et l'entropie de
la partition des données est calculée en pondérant l'entropie de chaque partition par
A.MAARIR
sa taille relative par rapport à l'ensemble original.
3 3 4 4
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 = − 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 log2 𝑝𝑚𝑎𝑚𝑚𝑖𝑓è𝑟𝑒 − 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 log2 𝑝𝑜𝑖𝑠𝑒𝑎𝑢 = − log2 − log2 ≈ 0.985
7 7 7 7
1 1 2 2
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑚𝑎𝑟𝑟𝑜𝑛 ) = − log2 − log2 ≈ 0.918 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑐𝑜𝑢𝑙𝑒𝑢𝑟=𝑏𝑙𝑎𝑛𝑐 ) = 1
3 3 3 3
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒄𝒐𝒍𝒐𝒓 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎. 𝟗𝟏𝟖 − ∙ 𝟏 ≈ 𝟎. 𝟎𝟐𝟎
𝟕 𝟕
3 3 1 1
𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑜𝑢𝑖 ) = 0 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑋𝑣𝑜𝑙𝑒=𝑛𝑜𝑛 ) = − log2 − log2 ≈ 0. 811
4 4 4 4
𝟑 𝟒
𝒈𝒂𝒊𝒏 𝑿, 𝒗𝒐𝒍𝒆 = 𝟎. 𝟗𝟖𝟓 − ∙ 𝟎 − ∙ 𝟎. 𝟖𝟏𝟏 ≈ 𝟎. 𝟓𝟐𝟏
𝟕 𝟕
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
15
2/16/2024
Arbre de décision
Etudes
Client Salaire Age Résidence Consultation
Sup.
Reprononce l'exemple cité
précédemment, pour cela, 1 Moyen Moyen Village Oui Oui
nous devons calculer l'entropie 2 Elevé Moyen Bourg Non Non
de notre ensemble de données 3 Faible Agé Bourg Non Non
initial.
4 faible Moyen Bourg Oui Oui
Nous regardons la distribution
des étiquettes (oui ou Non ) 5 Moyen Jeune Ville Oui Oui
pour déterminer l'entropie. 6 Elevé Agé Ville Oui Non
Dans notre cas, nous avons 3 7 Moyen Agé Ville Oui Non
étiquettes "Oui" et 5 étiquettes
"Non« . 8 Faible Moyen Village Non Non
Email: a.maarir@ya.ru
Objectif est de Classifier Client Salaire Age Résidence Etudes Sup. Consultation
les instance suivantes en
A.MAARIR
utilisant l’arbre de décision 9 Moyen Jeune Village Oui ?
criée:
10 Elevé Moyen Ville Non ?
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
3
Etudes p consultaion = 𝑜𝑢𝑖 = 8 = 0.375
Client Salaire Age Résidence Consultation
Sup. 5
1 Moyen Moyen Village Oui Oui
p consultaion = 𝑛𝑜𝑛 = 8 = 0.625
2 Elevé Moyen Bourg Non Non
3 Faible Agé Bourg Non Non
4 faible Moyen Bourg Oui Oui
5 Moyen Jeune Ville Oui Oui
8 Observations
6 Elevé Agé Ville Oui Non
7 Moyen Agé Ville Oui Non Calcule de l’entropie global :
8 Faible Moyen Village Non Non 𝑐
16
2/16/2024
Email: a.maarir@ya.ru
Salaire Consul Salaire Consul
Salaire Consul
Moyen Oui Faible Non Oui : 1/ 3 = 0.33 Oui :0= 0
Oui :2/ 3 = 0.67
Non: 2/3 = 0.67 Elève Non Non : 2/2 =1
A.MAARIR
Moyen Oui Non : 1/3 =0.33 faible Oui Entropie: 0
Entropie: 0.9149 Entropie: 0.9149
Elève Non
Moyen Non Faible Non
17
2/16/2024
18
2/16/2024
Email: a.maarir@ya.ru
Moyen Agé Ville Oui Non
A.MAARIR
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
Jeune Agé
Moyen
OUI NON
? Chapitre 3: Classification:
Apprentissage Automatique
Arbres de décision
19
2/16/2024
20
2/16/2024
Email: a.maarir@ya.ru
Village non Bourg Oui 1 –(2/4*1 + 2/4*1)=0
Oui :1/2= 0.5 Oui : 1/2= 0.5
A.MAARIR
Non : 1/2=0.5 Non : 1/2=0.5
Entropie: 1 Entropie: 1
Arbre de décision
21
2/16/2024
Arbre de décision
Salaire Résidence Etudes. Consul Après avoir calculer l'information gain pour les attributs Salaire,
Résidence Et Etudes sup.
Moyen Village Oui Oui Nous allons choisir l'attribut Etudes qui maximise l'information gain.
Elève Bourg Non Non
Faible Bourg Oui Oui
Faible Village Non Non
OUI NON
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
22
2/16/2024
23
2/16/2024
humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
68 oui 83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 =
89 oui
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
24
2/16/2024
humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94
80 oui 88
90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59
88 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
25
2/16/2024
humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
humidité jouer
humidité jouer 𝑋𝑎≤𝑡 𝑋𝑎>𝑡
90 non 𝑔𝑎𝑖𝑛 𝑋, 𝑎, 𝑡 = 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎≤𝑡 − 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑒 𝑋𝑎>𝑡
59 non 𝑋 𝑋
87 non valeurs de
68 oui division
93 oui 72 oui 63.5
89 oui 74 oui Moyenne de 70
79 oui 77 oui chaque pair 73
59 non 79 oui successive 75.5
77 oui Trier 80 oui 78
91 non 87 non 79.5
7 7
68 oui 89 oui
83.5 𝑔𝑎𝑖𝑛 𝑋, ℎ𝑢𝑚𝑖𝑑𝑖𝑡é, 83.5 = 0.94 − ∙ 0.59 − ∙ 0.98
88 14 14
80 oui 90 non ≈ 𝟎. 𝟏𝟓𝟐
89.5
72 oui 91 non 90.5
96 oui 93 oui 92
74 oui 96 oui 94.5
97 non 97 non 96.5
Apprentissage Automatique Chapitre 3: Classification:
Arbres de décision
26
2/16/2024
Temps température humidité vent jouer • 83,5 est la meilleure valeur de séparation
ensoleilé chaude >83.5 non non pour l'Humidité, avec un gain d'information
ensoleilé chaude >83.5 oui non de 0,152.
nuageux chaude >83.5 non oui
pluvieux douce >83.5 non oui • L'Humidité est désormais traitée comme un
pluvieux fraîche ≤83.5 non oui attribut catégorique avec deux valeurs
pluvieux fraîche ≤83.5 oui non possibles ( >83.5 et ≤ 83.5 ).
nuageux fraîche ≤83.5 oui oui
ensoleilé douce >83.5 non non
• Un nouveau découpage optimal est calculé
ensoleilé fraîche ≤83.5 non oui à chaque niveau de l'arbre.
pluvieux douce ≤83.5 non oui
ensoleilé douce ≤83.5 oui oui
nuageux douce >83.5 oui oui
nuageux chaude ≤83.5 non oui
pluvieux douce >83.5 oui non
27
2/16/2024
28