Académique Documents
Professionnel Documents
Culture Documents
Aissam BERRAHOU
Aissam.berrahou@ensias.um5.ac.ma
Laboratoire Smart Systems Lab
2020-2021
Neurones artificiels
Article: A logical calculus of the ideas immanent in nervous activity, Bulletin of Mathematical biophysics volume 5, 1943
Les neurones sont des cellules excitables connectées les unes aux autres et ayant pour rôle de transmettre des
informations dans notre systèmes nerveux.
+1: Excitateur
-1: Inhibiteur
Synapse
+1: Excitateur
-1: Inhibiteur
Synapse
>
Activation
(dépasse un seuil)
x1
𝑧 𝒚
x2
x1 W1
1. 𝐀𝐠𝐫é𝐠𝐚𝐭𝐢𝐨𝐧: 𝒛 = 𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟐 ∗ 𝒙𝟐
𝑍/A 𝒚
W2
x2 w1 et w2 (activité synaptique)
𝑦 = 1 𝑠𝑖 𝑧 ≥ 0
Dendrites Corps cellulaire Axone 2. Activation: ቊ
(Fonction de transfert ) (Sortie) 𝑦 = 0 𝑠𝑖𝑛𝑜𝑛
(Données d’entrées)
W1
x1
1. 𝐀𝐠𝐫é𝐠𝐚𝐭𝐢𝐨𝐧: 𝒛 = 𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟐 ∗ 𝒙𝟐
w1 et w2 (activité synaptique)
𝑧 𝒚
W2
x2 𝑦 = 1 𝑠𝑖 𝑧 ≥ 0
2. Activation: ቊ
𝑦 = 0 𝑠𝑖𝑛𝑜𝑛
Dendrites Corps cellulaire Axone
(Données d’entrées) (Fonction de transfert ) (Sortie)
Limites:
▪ Ce modèle est conçu juste pour traiter des cas logique.
Frank Rosenblatt
Article: Frank Rosenblatt. The Perceptron, a Perceiving and Recognizing Automaton Project Para. Cornell Aeronautical Laboratory 85, 460–461 (1957)
1. 𝐀𝐠𝐫é𝐠𝐚𝐭𝐢𝐨𝐧: 𝒛 = 𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟐 ∗ 𝒙𝟐
x1 W1
𝑦 = 1 𝑠𝑖 𝑧 ≥ 0
2. Activation: ቊ
Z/A
𝑦 = 0 𝑠𝑖𝑛𝑜𝑛
𝒚
W2
y
x2
y=1
1
y=0 f
-1 1
Algorithme d’apprentissage :
Entrainer un neurone artificiel sur des données de références(X,y) pour que celui-ci renforce
ses paramètres W à chaque fois qu’une entrée X est activée en même temps que la sortie y
présente dans ces données.
Tant que (i<nombre_itération) faire:
𝑾 = 𝑾 + 𝜶 𝒚𝒕𝒓𝒖𝒆 − 𝒚𝒑𝒓𝒆𝒅 𝑿
Fin Tantque
x1 W1
❖ le perceptron est l'unité de base des réseaux de neurones. il s'agit d'un modèle de
x2
x1
5
Neurone
4
Entrées ෝ
𝒚 𝒚
z(x1,x2)
3
Prédiction Cible 2
x2
1
0
0 1 2 3 4 5 6 7
x1
x1 x2 y
5,1 1,4 0
4,9 1,4 0
4,7 1,3 0
4,4 1,5 0
5 1,2 0
pétale sépale pétale sépale
4,1 3,7 1
1,4 4,5 1
1,9 4,9 1
1,5 4 1
2,5 4,6 1
❖ Modèle linéaire
bias
1
W0
Neurone
x1 W1
z (x1,x2) ෝ
𝒚 𝒚
Entrée
Prédiction Cible
W2
x2
Poids
1. 𝐀𝐠𝐫é𝐠𝐚𝐭𝐢𝐨𝐧: 𝒛 = 𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟐 ∗ 𝒙𝟐
ෝ = 1 𝑠𝑖 𝑧 ≥ 0
𝒚
2. Activation: ቊ
ෝ = 0 𝑠𝑖𝑛𝑜𝑛
𝒚
❖ Modèle linéaire
biais 1
𝒛(𝒙𝟏, 𝒙𝟐) = (𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟐 ∗ 𝒙𝟐 + 𝒘𝟎) W0
Neurone
x1 W1
z(x1,x2) ෝ
𝒚 𝒚
Entrées
Prédiction
W2
x2
observations
𝑥1,1 𝑦1
𝑥1,2 𝑦2
… …
biais 1 𝑥1,𝑛 𝑦𝑛
W0
Neurone
Entrée x1 W1 z (x1) ෝ
𝒚 𝒚
ෝ = 𝒛 𝒙𝟏 = (𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟎)
𝒚
observations
𝑥1,1 𝑦1
𝑥1,2 𝑦2
… …
biais 1 𝑥1,𝑛 𝑦𝑛
W0
Neurone
Entrée x1 W1 z (x1) ෝ
𝒚 𝒚
ෝ = 𝒛 𝒙𝟏 = (𝒘𝟏 ∗ 𝒙𝟏 + 𝒘𝟎)
𝒚
bias x0=1
V. explicatives V. expliquée
w0
x1 𝑥1 𝑥2 … 𝑥𝑛 𝑦
observations
w2 𝑥1,2 𝑥2,2 𝑥𝑛,2 𝑦2
Entrées 𝒚ෞ 𝒚
z (x1,…, xn)
… …
w𝑛
Prédiction Cible
xn 𝑦𝑚
𝑥1,𝑚 𝑥2,𝑚 𝑥𝑛,𝑚
𝒎
𝑋𝑘 = (𝑥0 = 1, 𝑥𝑘,1 , 𝑥𝑘,2 ,…, 𝑥𝑘,𝑛 ), 𝑣𝑒𝑐𝑡𝑒𝑢𝑟 𝑑′ 𝑒𝑛𝑡𝑟é𝑒𝑠( k ème observation)
ෞ𝒌 = 𝒛𝒌 (x1,…, xn)= 𝒘𝒊 𝒙𝒌,𝒊 = 𝑾𝑻 𝑿𝒌
𝒚
𝒊=𝟎 𝑊 = (𝑤0 𝑤1 , 𝑤2 ,…, 𝑤𝑛 ), 𝑣𝑒𝑐𝑡𝑒𝑢𝑟 𝑑𝑒 𝑝𝑜𝑖𝑑𝑠
❖ Exercices
❖ Exercices
1
classe.
0
0 1 2 3 4 5 6
x1
Frontière
de décision
❖ Fonction sigmoïde
Fonction sigmoïde(Logistique)
- Epreuve de Bernoulli
On appelle épreuve de Bernoulli de paramètre p, toute expérience admettant deux issues exactement:
- Schéma de Bernoulli
- Loi de Bernoulli
𝑷 𝒀 = 𝒌 = 𝑝𝑘 1 − 𝑝 1−𝑘
𝑷 𝒀=𝟏 =𝑝 = 𝑓(𝑧)
O𝒏 𝒗𝒂 𝒏𝒐𝒕𝒆𝒓 𝒇 𝒛 𝒑𝒂𝒓 𝒂
❖ Fonction coût
- En machine learning une fonction coût (loss function) est une fonction qui permet de quantifier les
Log loss:
𝒎
𝟏
𝑳=− 𝒚𝒊 𝒍𝒐𝒈 𝒂𝒊 + 𝟏 − 𝒚𝒊 𝒍𝒐𝒈(𝟏 − 𝒂𝒊 )
𝒎
𝒊=𝟏
❖ Vraisemblance
Analogie:
Une histoire est vraisemblable lorsqu’elle est en accord avec des faits qui se sont vraiment déroulés.
invraisemblable
❖ Vraisemblance
Nous connaissons certaines iris comme étant Versicolor et d'autres comme étant non
versicolor(Setosa) et on va voir si les prédictions du modèle sont en accord avec ces données.
❖ Vraisemblance
Exemple1:
Modèle P(y=1)=0.9
Vraisemblance: 90%
❖ Vraisemblance
Exemple2:
Modèle P(y=1)=0.2
Vraisemblance: 20%
❖ Vraisemblance du modèle
Un bon modèle est un modèle dont ses paramètres(w0, w1, w2) maximise la vraisemblance.
biais 1
W0
Neurone
x1 W1
f(x1,x2) ෝ
𝒚 𝒚
Entrées
Prédiction
W2
x2
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦𝑖 (𝟏−𝒚𝒊 )
𝑳𝒎𝒐𝒅è𝒍𝒆 = ෑ 𝑷(𝒀 = 𝒚𝒊 ) = ෑ 𝒂 𝑖 𝟏 − 𝒂𝒊
𝒊=𝟏 𝒊=𝟏
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦
𝑳𝒎𝒐𝒅è𝒍𝒆 = ෑ 𝑷(𝒀 = 𝒚𝒊 ) = ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊 (𝟏−𝒚𝒊 ) = 𝟎. 𝟗𝟒 (modèle est vraisemblable à 94%)
𝒊=𝟏 𝒊=𝟏
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦
𝑳𝒎𝒐𝒅è𝒍𝒆 = ෑ 𝑷(𝒀 = 𝒚𝒊 ) = ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊 (𝟏−𝒚𝒊 ) ≈ 𝟎 (modèle est fortement invraisemblable )
𝒊=𝟏 𝒊=𝟏
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦
𝑳𝒎𝒐𝒅è𝒍𝒆 = ෑ 𝑷(𝒀 = 𝒚𝒊 ) = ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊 (𝟏−𝒚𝒊 ) ≈ 𝟎, 𝟑 (Problème de produit des probabilités)
𝒊=𝟏 𝒊=𝟏
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦 (𝟏−𝒚𝒊 )
𝑳𝒎𝒐𝒅è𝒍𝒆 = ෑ 𝑷(𝒀 = 𝒚𝒊 ) = ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊 ≈𝟎
𝒊=𝟏 𝒊=𝟏
Solution: Logarithme
log(ab)=log(a)+log(b)
𝒎 𝒎
𝑦 𝒚𝒊
𝒍𝒐𝒈(𝑳𝒎𝒐𝒅è𝒍𝒆 ) = 𝒍𝒐𝒈 ෑ 𝑷 𝒀 = 𝒚𝒊 = 𝒍𝒐𝒈 ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊
𝒊=𝟏 𝒊=𝟏
= 𝒍𝒐𝒈 𝟎. 𝟕 × 𝟎. 𝟖 × 𝟎. 𝟗𝟓 × 𝟎. 𝟖 × 𝟎. 𝟗 × 𝟎. 𝟕𝟓
= −𝟏. 𝟐4
Aissam BERRAHOU Perceptron simple 39
Perceptron simple
❖ Vraisemblance du modèle
𝒎 𝒎
𝑦 (𝟏−𝒚𝒊 )
𝒍𝒐𝒈(𝑳𝒎𝒐𝒅è𝒍𝒆 ) = 𝒍𝒐𝒈 ෑ 𝑷 𝒀 = 𝒚𝒊 = 𝒍𝒐𝒈 ෑ 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊
𝒊=𝟏 𝒊=𝟏
𝒎
𝑦 (𝟏−𝒚𝒊 )
= 𝒍𝒐𝒈 𝒂𝑖 𝑖 𝟏 − 𝒂𝒊
𝒊=𝟏 Rappel:
𝒎
𝑦 (𝟏−𝒚𝒊 ) 𝑙𝑜𝑔 𝒂𝒃 = 𝑙𝑜𝑔 𝒂 + 𝑙𝑜𝑔 𝒃
= 𝒍𝒐𝒈 𝒂𝑖 𝑖 ) + 𝒍𝒐𝒈( 𝟏 − 𝒂𝒊
𝒊=𝟏
𝒍𝒐𝒈(𝒂𝒃) = 𝒃 𝒍𝒐𝒈(𝒂)
= 𝑦𝑖 𝒍𝒐𝒈 𝒂𝑖 ) + (𝟏 − 𝒚𝒊 ) 𝒍𝒐𝒈( 𝟏 − 𝒂𝒊
𝒊=𝟏
𝒎
−𝟏
𝒍𝒐𝒈 𝒍𝒐𝒔𝒔 = 𝑦𝑖 𝒍𝒐𝒈 𝒂𝑖 ) + (𝟏 − 𝒚𝒊 ) 𝒍𝒐𝒈( 𝟏 − 𝒂𝒊
𝒎
𝒊=𝟏
❖ Vraisemblance du modèle
𝒎 𝒎
𝑴𝒂𝒙𝒊𝒎𝒊𝒔𝒆 𝑦𝑖 𝒍𝒐𝒈 𝒂𝑖 ) + (𝟏 − 𝒚𝒊 ) 𝒍𝒐𝒈( 𝟏 − 𝒂𝒊 −𝟏
𝑴𝒊𝒏𝒊𝒎𝒊𝒔𝒆 𝒍𝒐𝒈 𝒍𝒐𝒔𝒔 = 𝑦𝑖 𝒍𝒐𝒈 𝒂𝑖 ) + (𝟏 − 𝒚𝒊 ) 𝒍𝒐𝒈( 𝟏 − 𝒂𝒊
𝒊=𝟏 𝒎
𝒊=𝟏
1
Avec, 𝒂𝒊 = 1+𝑒 −𝑧 𝑖 𝑒𝑡 𝑧𝑖 = 𝑤0 + 𝑤1𝑥1, 𝑖 + ⋯ + 𝑤𝑛𝑥𝑛, 𝑖=WXi
𝜕𝐿𝑜𝑔𝑙𝑜𝑠𝑠 (𝑊)
𝑤 𝑤 - 𝜶 Comment calculer le gradient?
𝜕𝑾
End while
𝝏𝒍𝒐𝒈𝑳𝒐𝒔𝒔
Comment calculer le gradient ?
𝝏𝑾
Rappel:
𝝏𝒍𝒐𝒈(𝒂) 1
=
𝝏𝒂 𝑎
𝝏𝒆𝒂
= 𝑒𝑎
𝝏𝒂
Fully connected
Dense(couche d’un preceptron)
V. explicative V. expliquée
❖ Estimation des paramètres β0 et β1
𝑥1 𝑦1
observations
𝑥2 𝑦2
1. Dataset (X,Y) 𝑥3
…
• variable explicative(feature) …
• variable expliquée(target) 𝑥𝑛
𝑦𝑛
2. Modèle
• Régression linéaire simple: Perceptron simple
3. Fonction coût
• Erreur quadratique moyenne
𝟏 𝑻
𝑳 𝜷𝟎, 𝜷𝟏 = 𝑿𝜷 − 𝒀 𝑿𝜷 − 𝒀
𝒏
1. Dataset (X,Y)
• variable explicative(feature) Création/ lecture d’une BD(X,y)
• variable expliquée(target)
𝟏 𝑻
𝑳 𝜷𝟎, 𝜷𝟏 = 𝑿𝜷 − 𝒀 𝑿𝜷 − 𝒀 Fonction coût
𝒏
observations
• variable expliquée (target) 𝑥2 𝑦2
𝑥3
2. Modèle …
…
• Régression polynomiale : perceptron simple
𝑦𝑛
𝑥𝑛
𝟏 𝒙𝟏 𝒙𝟐𝟏 ⋯ 𝒙𝒎
𝟏
𝜷𝟎
(𝑌 ≈ 𝛽𝑋) où 𝒀 =
𝒚𝟏
𝒚𝟐 , 𝑿= 𝟏 𝒙𝟐 𝒙𝟐𝟐 ⋮ 𝒙𝒎
𝟐 ,𝜷= 𝜷𝟏 , et 𝜺 =
𝜺𝟏
𝜺𝟐
⋮ 70
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
𝑦𝑛 𝜀𝑛
1 𝒙𝒏 𝒙𝟐𝒏 ⋯ 𝒙𝒎
𝒏
𝜷𝒎
65
60
Rendement
3. Fonction coût 55
• Erreur quadratique moyenne
𝟏 50
𝑳 𝜷𝟎, 𝜷𝟏 𝜷𝒎 = 𝑿𝜷 − 𝒀 𝑻 𝑿𝜷 − 𝒀
𝒏 45
4. Algorithme d’optimisation 40
• Descente de gradient 100 110 120 130 140 150
Température