Académique Documents
Professionnel Documents
Culture Documents
Organisation du support
• Classification
𝑋 ∈Ω ; 𝑘 argmin 𝑑 𝑋 , 𝑀 Y
Partie II • Régression
X1
X1
x11
X2
x12
X3
x13
… Xj
… x1j
…
…
Xd
x1d
Sélection et construction du modèle ..
𝑌 𝑓 𝑋 ,𝜃 X2 x21 … …
X3 x31 … …
… … … … … … … …
Xi xi1 … xij …
… … … … … … … …
XN xN1 xN2 xN3 … xNj … xNd
3 4
09/01/2023
Trois familles
• Techniques descriptives
• Mettre en évidence des informations présentes Partie II.1 : Les
• Moyenne, Variance, Corrélation, Ressemblance, Groupe…
• Extraire des règles pour résumer, synthétiser les connaissances Techniques
• Méthodes explicatives
• Confirmer, préciser, tester des connaissances initiales Descriptives
=> Généralement des tests statistiques
• Techniques prédictives
• Extrapoler, généraliser les informations présentes
• Prédire un score d’un état, d’une appartenance
5 6
7 8
09/01/2023
des données 19
20
3227
3308
1331
1366
21
24
414
282
medium
good
21 3212 1289 17 302 medium
• Caractérise l’intensité et le sens (positif ou négatif) de la relation linéaire 26 3458 1508 43 286 good
• dans l'intervalle qui va de - 1 à +1. • Projection des données sur des axes 27
28
29
3252
3052
3270
1361
1186
1399
26
14
24
346
443
306
medium
bad
good
• = à - 1 ou à +1 indique l'existence d'une relation linéaire parfaite (fonctionnelle) entre les deux secondaires 30
31
3198
2904
1259
1164
20
6
367
311
good
bad
variables.
• Généralement discriminants …
32 3247 1277 19 375 good
• Positive = relation croissante 33
34
3083
3043
1195
1208
5
14
441
371
bad
bad
• Négative = relation descendante
• = 0; pas de relation linéaire
9 10
7
-0.8482 0.5297
6
0.5297 0.8482
• Matrice variance-covariance Σ 𝑋′. 𝑋
5 • Analyse de l’ensemble des dispersions
ValeurProp =
4
• Trouver les axes orthogonaux qui maximisent l’inertie du nuages
0.3241 0
• Extraction des valeurs propres et vecteurs propres
3
2
0 1.9332
1
• Valeurs propres (ValP) = dispersion par axe 𝑉𝑒𝑐𝑡𝑃, 𝑉𝑎𝑙 𝑒𝑖𝑔𝑠 Σ
vol=prod(sqrt(2*diag(ValeurPropre)))
0
0 1 2 3 4 5 6 7 8 9 10
• Vecteurs propres (VectP) = coefficients principaux
• Corrélation variables-facteurs
• Matrice de transformation : T = VectP*sqrt(ValP)
• Les axes représentent les vecteurs propres de la matrice de covariance X’X • Signification des facteurs F / chaque colonne de la matrice de transformation
• Les valeurs propres représentent la variance sur chaque axe
11 12
09/01/2023
13 14
6
• La Classification automatique
1
4 • Regrouper des individus tel que :
0,75
F2 (27,99 %)
Eleve 7
Variables (axes F1 et F2 : 99,88 %)
0,5
Français 2
Eleve 3 Eleve 9
Français • 2 individus d’un même groupe se ressemblent fortement
Anglais Anglais Eleve 4
0
• 2 individus de deux groupes se différencient le + possible
F2 (27,99 %)
-0,25 -4
Physique
-0,5 -6
Math
-10 -8 -6 -4 -2 0 2 4 6 8 10
-0,75
Observations (axes F1 et F2 : 99,88 %) F1 (71,89 %)
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1 2 Eleve 7
F1 (71,89 %)
1 Eleve 3
Eleve 9
F2 (27,99 %)
0
Eleve 2
Eleve 1
Eleve 5
-1
Eleve 8
Eleve 6
-2
-3 -2 -1 0 1 2 3
F1 (71,89 %)
15 16
09/01/2023
• Méthodes hiérarchiques
• Arbres
• Méthodes de partionnement
• Centres mobiles
• Modèles probabilistes
17 18
0.6
𝑥 𝑦 0.4
0.2
10
2 9
8
7
6
5
4
2 3
0 1
0
𝐷 𝑥 𝑥 𝜇 Σ 𝑥 𝜇
19 20
09/01/2023
𝑉 𝑥 𝜇 7
∈
6
21 22
23 24
09/01/2023
25 26
27 28
09/01/2023
29 30
31 32
09/01/2023
Θ 𝜃 𝜃 𝜃 ⋯ 𝜃
1 à p quantitatives 𝑦 𝑋Θ 𝜀 avec
Régression PLS
1 à p tous types 𝑋 1 𝑥 𝑥 ⋯ 𝑥
1 à p quantitatives
Régression ANOVA
1 à p qualitatives
• Hypothèses
1 à p qualitatives Θ constant
Régression logistique 𝐸 𝜀 0
1 à p tous types 𝑉𝐴𝑅 𝜀 𝜎 Ι
33 34
𝑌 𝑋Θ
• Evaluation de la qualité du modèle
• Coefficient de détermination
𝑆𝑆𝐸 𝑦 𝑦 𝑒
𝑆𝑆𝑇 𝑦 𝑦̄ . 1 𝑦′𝑦 𝑛𝑦̄
𝑆𝑆𝑅 𝑦 𝑦̄ . 1 𝑦′𝑦 𝑛𝑦̄
𝑆𝑆𝑅
𝑅
𝑆𝑆𝑇
35 36
09/01/2023
Préd(Temperature) / Temperature
80
60
Puissance Debit Froid Temperature
50
29 23 24,12
Temperature
75 22 51,96
• Ordinary Least Squares : yi variable à expliquer; m variables 24 21 12,98
40
explicatives Xj 60
24
2
9
47,11
14,74
30
84 5 60,85 20
𝛽 𝑋𝑋 𝑋𝑦 56
67
7
1
41,05
46,86 10
𝑦 𝛽 𝛽 .𝑋 ϵ 47 11 37,34
21 5 13,62 0
𝜎 y 𝑦 30 13 18,59
Temperature / Coefficients normalisés
1,2
(Int. de conf. 95%)
Puissance;
0 10 20 30 40
Préd(Temperature)
50 60 70 80
77 2 56,58 1,013
60 15 43,89 1
Coefficients normalisés
26 6 23,81 0,8
40 29 22,66 0,6 Résidus normalisés / Temperature
53 11 41,07 0,4
Obs29
28 1 21,56
• Applicable à un système d’équations linéaires avec n variables à 54 20 40,98
0,2
0
Obs27
Obs25
Obs23
20 10 20,22
expliquer 48 21 31,46 -0,2 Debit
Obs21
Observations
Obs19
Froid; -
78 12 55,32 Obs17
𝑌 𝐵∗𝑋 𝐸
-0,4 0,084
Variable Obs15
y a a L
1 1
0
1
1 a 1
1
m
1 12
27
6
8
10,15
20,82
Obs13
2
Obs11
Obs9
2 2
y a a a x1 2
2 94 7 60,64 Obs7
0 1 m
53 0 43,00 Obs5
37 38
39 40
09/01/2023
Total n-1
𝑆𝑆𝑇 𝑦 𝑦̄ 𝑦 𝑛𝑦̄
41 42
80
85 ST (Int. de conf. 95%)
86 ST 78
alliage-ST;
une classe donnée pour lequel les comportements dynamiques ou
87 ST
74 AL1
76
0
0,000
statiques équivalent à ceux du processus au sens d'un critère donné.
82 AL1
• Deux grands domaines d’application
74 -0,2
Coefficients normalisés
78 AL1 -0,4
72
75 AL1
76 AL1
AL1 AL2
alliage
ST
-0,6
alliage-AL2; -
• La conduite de procédés
77 AL1
• Diagnostic, maintenance et sécurité
-0,8 0,605
79 AL2 -1 alliage-AL1; -
0,847
79 AL2 -1,2
77 AL2 Equation du modèle : -1,4 Variable p2
78 AL2
82 AL2
79 AL2 strength = 84-7*alliage-AL1-5*alliage-AL2
E
Analyse de la variance :
Système S 𝐸∈ℝ ;𝑝1 ∈ ℝ
Source DDL Somme des carrés Moyenne des carrés F Pr > F p1 𝑆∈ℝ ;𝑝2 ∈ ℝ
Modèle 2 184,800 92,400 15,400 0,000
Erreur 17 102,000 6,000
Total corrigé 19 286,800
Calculé contre le modèle Y=Moyenne(Y)
43 44
09/01/2023
𝑍 𝑢 𝑡 ,𝑦 𝑡 ,𝑡 1, . . . , 𝑁
A q y t B q u t v t
• Le critère est défini par : 𝐽 𝜃, 𝑍 𝜀 𝑡|𝜃
𝐴 𝑞 1 𝑎 𝑞 ... 𝑎 𝑞
𝐵 𝑞 1 𝑏 𝑞 ... 𝑏 𝑞 • Avec
𝜀 𝑡|𝜃 𝑦 𝑡 𝑦 𝑡|𝜃 𝜃 𝑎 ,...,𝑎 ,𝑏 ,...,𝑏
𝜀 𝑡|𝜃 𝑦 𝑡 𝜃 𝜓 𝑡 1 𝜓 𝑡 1 𝑦 𝑡 1 ,..., 𝑦 𝑡 𝑛 ,𝑢 𝑡 1 ,...,𝑢 𝑡 𝑛
45 46
Environnement
Informations
non-utilisées Vecteur
Interactions forme
Perturbations E/S
𝑥
C
Signaux .
A
Traitement .
Processus P
.
Informations T
physique émises E 𝑥
U
R Extraction
S
Bruits
𝑋 𝑥 ,...,𝑥 Xi+1
x1
47 48
09/01/2023
𝐶
𝐶 𝐶
𝐶
𝑥 𝑥 𝑥
49 50
5
𝜓 𝜇 𝑥
4
𝐶 𝑃
3
3
𝐶
2 1
0
1
2
𝑥 𝑥 0
1
0 1 2 3 4 5
𝑥
1
𝑎 𝑏 1
-1
1
-1
0
1
0
-1
-1 0 1
5
𝐶 𝑥 -1
𝑃 𝑃
𝜇 𝑃 𝜓 𝐶
4
𝑃 0
3
-2 -1
-1
2
1
𝑥 𝑥
𝑥 -1
𝑥
0
0 1 2 3 4 5
-3
𝑥 -3 -2 -1 0 1 2 3
𝑎 𝑏 𝑐
51 52
09/01/2023
• Théorème énoncé par le mathématicien Thomas Bayes 1763 • Soit f(x) la densité de probabilité de l’événement x,
• Base des principales méthodes statistiques connaissant f(x/ci) la densité de probabilité suivant chaque classe
et P(ci) la probabilité de chaque classe
• Introduction des notions de probabilité dans la résolution des problèmes en
reconnaissance de formes. 𝑓 𝑥 𝑓 𝑥/𝑐 𝑃 𝑐
• Les observations à classer sont considérées comme des réalisations d’un
vecteur aléatoire x caractérisé par une densité de probabilité f(x). • La règle de Bayes définit que la classe d’appartenance de x est celle qui
• Connaissant a priori les probabilités des classes d'appartenance, la théorie maximise : 𝑓 𝑥/𝑐 𝑃 𝑐
𝑃 𝑐 /𝑥
bayésienne permet de définir a posteriori les densités de probabilité 𝑓 𝑥
d'appartenance du vecteur x aux différentes classes.
• Cette théorie introduit également la notion d’erreur de décision due à un Calcul des probabilités a posteriori connaissant les probabilités a priori
recouvrement entre les différentes densités de probabilité de chaque classe. P(ci/x)f(x)
Elle permet par une adaptation de la minimiser.
x
53 54
55 56
09/01/2023
57 58
Revenu actuel
X Y
«Boîte noire» Durée du prêt Oui
vecteur de sortie
?
vecteur d’entrée
Situation bancaire Non
Prêts en cours Peut-être
• Un réseau de neurones est caractérisé par Dossier médical
• le type de neurone formel utilisé
• son architecture Couche Couche
• son évolution ou méthode d’apprentissage d’entrée de sortie
Couches cachées
59 60
09/01/2023
• En général 𝐸 𝑒
comporte
n entrées • et en faisant intervenir des poids synaptiques Wij représentant les
connexions du neurone (j) avec les neurones (i) précédents
• on obtient :
𝐸 𝑤 .𝑒
E: fonction S: fonction
sommation sortie
61 62
• sigmoïde
• Cependant les notions de compétition et de coopération peuvent
s'appliquer grâce à cette fonction de sortie
• tangente hyperbolique
• gaussienne
63 64
09/01/2023
W1,1 Wm,1
S1 • La phase d’apprentissage
• Le réseau modifie ses connexions en fonction de l’environnement
S2
W2,2m
• La phase de généralisation
S3
• Le réseau est en fonctionnement et s’adapte à de nouveaux cas. De légères
Sj modifications peuvent intervenir sur ses poids
W4,j Wi,j
Sn
W3,n Wm,n
e1 e2 e3 e4 ei em
65 66
• Durant la phase d’apprentissage, le réseau soumis à des exemples, • 1) Initialisation des poids du réseau
modifie son architecture et les poids synaptiques. • 2) présentation du patron d’entrée
• 3) propagation de l’activité
• Apprentissage supervisé • 4) calcul de l’erreur (si app. supervisé)
• le réseau compare son résultat avec un modèle présenté par le superviseur.
• 5) calcul du vecteur de correction
• Apprentissage non supervisé
• le réseau cherche à extraire par lui-même les caractéristiques • Répéter 2-5 jusqu’à la fin de l’apprentissage
• Apprentissage semisupervisé
• indications qualitatives
67 68
09/01/2023
• En 1959 Le premier réseau à couches : le perceptron de Rosenblatt • Pour les réseaux à deux couches
• Limitations aux problèmes linéairement séparables
Cellule 1 W1
de décision S
Cellules W2
d’association 2
Retine
Liens modifiables
69 70
71 72
09/01/2023
E1 E2 E3 E4
73 74
𝜕𝐸
Δ𝑊 𝜂
𝜕𝑊
1 1
𝐸 𝑆 𝐷 𝑓 𝑎𝑝𝑒 𝐷 𝑎𝑣𝑒𝑐 𝑎𝑝𝑒 𝑊 .𝑋
2 2
Rétropropagation
de l’erreur
75 76
09/01/2023
• Pour les neurones des couches cachées • et pour les couches cachées :
𝜕𝐸 𝜕𝐸 𝜕𝑎𝑝𝑒 𝜕𝑋 𝜕𝐸
. . . 𝑊 , . 𝑓 𝑎𝑝𝑒 𝑒𝑟𝑟 𝑒𝑟𝑟 . 𝑊 , . 𝑓′ 𝑎𝑝𝑒
𝜕𝑎𝑝𝑒 𝜕𝑎𝑝𝑒 𝜕𝑋 𝜕𝑎𝑝𝑒 𝜕𝑎𝑝𝑒
∈ ∈
77 78
Nb itérations
Voir démo excel
Technique dite de la validation croisée
79 80
09/01/2023
Surapprentissage / Sous
Problèmes d’apprentissage
apprentissage
• Insuffisance de la règle
• minima locaux
• mauvais choix
• Nb couches cachées; neurones
• Pas d’apprentissage
• surapprentissage
• mauvais échantillonnage
• mauvais codage
81 82
Qualitive Quantitative
• Temps de traitement
• Complexité algorithmique,
• Régression logistique •
Qualitive
• Arbres de décision •
Analyse discriminante linéaire & AFD,
K-ppv, • Influence du nombre de données, du nombre de classes sur le temps de
Variable à
Expliquer
• RNx •
•
Classification Bayésienne,
RNx
traitement …
Quantitative • ANOVA
• RNx
• Régression OLS, PCR, PLS …
• Arbres de regression
•…
• RNx
83 84