Vous êtes sur la page 1sur 21

09/01/2023

Organisation du support

• Partie 1 : Extraction et Préparation des données


• Les modèles des données: Loi normale à 99 % !

ADAPI • Partie 2 : Sélection du modèle


Analyse de Données pour l’Amélioration des
• Selon la nature du problème
Processus Industriels • Prédiction, Description
• Selon le type de données
• Quantitatives, Qualitatives

• Partie 3 : Vers l’exploitation des modèles


1 2

Deux approches de Modélisation

• Classification
𝑋 ∈Ω ; 𝑘 argmin 𝑑 𝑋 , 𝑀 Y

Partie II • Régression
X1
X1
x11
X2
x12
X3
x13
… Xj
… x1j


Xd
x1d
Sélection et construction du modèle ..
𝑌 𝑓 𝑋 ,𝜃 X2 x21 … …
X3 x31 … …
… … … … … … … …
Xi xi1 … xij …
… … … … … … … …
XN xN1 xN2 xN3 … xNj … xNd

3 4
09/01/2023

Trois familles

• Techniques descriptives
• Mettre en évidence des informations présentes Partie II.1 : Les
• Moyenne, Variance, Corrélation, Ressemblance, Groupe…
• Extraire des règles pour résumer, synthétiser les connaissances Techniques
• Méthodes explicatives
• Confirmer, préciser, tester des connaissances initiales Descriptives
=> Généralement des tests statistiques
• Techniques prédictives
• Extrapoler, généraliser les informations présentes
• Prédire un score d’un état, d’une appartenance

• Mais la frontière est mince …


• De la classification automatique (clustering) à la classification (discrimination)

5 6

Données à deux variables


Méthodes simples à deux variables
quantitatives

• Méthodes statistiques • Covariance


cov 𝑋, 𝑌 𝑥 𝑥̄ . 𝑦 𝑦̄
• Corrélation
• Rapport de corrélation
• Test du 𝜒
• Représentation graphique • Coefficient de corrélation linéaire
• Nuage de points
• Diagramme-boîte parallèle 𝑐𝑜𝑣 𝑋, 𝑌
• Diagrammes de profil ou en mosaïques 𝑐𝑜𝑟𝑟 𝑋, 𝑌
𝜎 .𝜎

• Distance entre individus, entre groupes

7 8
09/01/2023

Analyse de tableaux de données de


Coefficient de Pearson
grande dimension
Temperature
• Quantifie la dépendance entre deux variables quantitatives Corr(X,Y) • Cas où chaque échantillon mesuré N° Individu
1
(°C)
3064
Sun (h)
1201
Heat (days) Rain (mm)
10 361
Quality
medium
2 3000 1053 11 338 bad
correspond à plusieurs individus 3
4
3155
3085
1133
970
19
4
393
467
medium
bad
5 3245 1258 36 294 good

• Problème d’analyse de données 6


7
3267
3080
1386
966
35
13
225
417
good
bad
8 2974 1189 12 488 bad
multidimensionnelle 9
10
3038
3318
1103
1310
14
29
677
427
bad
medium
11 3317 1362 25 326 good
• Avant de chercher à construire un modèle 12
13
3182
2998
1171
1102
28
9
326
349
bad
bad
14 3221 1424 21 382 good
multivarié, on peut se poser le problème de 15
16
3019
3022
1230
1285
16
9
275
303
medium
medium
la visualisation et de la réduction de l’espace 17
18
3094
3009
1329
1210
11
15
339
536
medium
bad

des données 19
20
3227
3308
1331
1366
21
24
414
282
medium
good
21 3212 1289 17 302 medium

• Rôle de l’analyse en composants 22


23
3361
3061
1444
1175
25
12
253
261
good
medium
24 3478 1317 42 259 good
principales 25 3126 1248 11 315 medium

• Caractérise l’intensité et le sens (positif ou négatif) de la relation linéaire 26 3458 1508 43 286 good

• dans l'intervalle qui va de - 1 à +1. • Projection des données sur des axes 27
28
29
3252
3052
3270
1361
1186
1399
26
14
24
346
443
306
medium
bad
good
• = à - 1 ou à +1 indique l'existence d'une relation linéaire parfaite (fonctionnelle) entre les deux secondaires 30
31
3198
2904
1259
1164
20
6
367
311
good
bad
variables.
• Généralement discriminants …
32 3247 1277 19 375 good
• Positive = relation croissante 33
34
3083
3043
1195
1208
5
14
441
371
bad
bad
• Négative = relation descendante
• = 0; pas de relation linéaire

9 10

Analyse en composants principales Analyse en composantes principales


• Principe de la réduction de dimension
• On ne conserve que les axes qui représentent la plus grande variance • Soit X un ensemble de n individus caractérisés par p variables
statistiques
10
[VecteurPr,ValeurProp]=eig(D_cova) • Trouver une représentation dans ℝ tel que 𝑞 𝑝
9
VecteurPr = • Estimation d’un ensemble centré 𝑋 𝑋 1 . 𝑥̄
8

7
-0.8482 0.5297

6
0.5297 0.8482
• Matrice variance-covariance Σ 𝑋′. 𝑋
5 • Analyse de l’ensemble des dispersions
ValeurProp =
4
• Trouver les axes orthogonaux qui maximisent l’inertie du nuages
0.3241 0
• Extraction des valeurs propres et vecteurs propres
3

2
0 1.9332
1
• Valeurs propres (ValP) = dispersion par axe 𝑉𝑒𝑐𝑡𝑃, 𝑉𝑎𝑙 𝑒𝑖𝑔𝑠 Σ
vol=prod(sqrt(2*diag(ValeurPropre)))
0
0 1 2 3 4 5 6 7 8 9 10
• Vecteurs propres (VectP) = coefficients principaux
• Corrélation variables-facteurs
• Matrice de transformation : T = VectP*sqrt(ValP)
• Les axes représentent les vecteurs propres de la matrice de covariance X’X • Signification des facteurs F / chaque colonne de la matrice de transformation
• Les valeurs propres représentent la variance sur chaque axe

11 12
09/01/2023

Exemple Simple Exemple Simple Suite


Math Physique Français Anglais
Eleve 1 6 6 5 5,5
Eleve 2 8 8 8 8
Eleve 3 6 7 11 9,5 F1 F2 F3 F4
Variable Observations Minimum Maximum Moyenne Ecart-type Valeur propre 2,876 1,120 0,004 0,001
Eleve 4 14,5 14,5 15,5 15
Math 9 5,500 14,500 9,667 3,579 Variabilité (%) 71,892 27,992 0,089 0,026
Eleve 5 14 14 12 12,5
Physique 9 6,000 14,500 9,833 3,172 % cumulé 71,892 99,884 99,974 100,000
Eleve 6 11 10 5,5 7
Français 9 5,000 15,500 10,222 3,684
Eleve 7 5,5 7 14 11,5
Anglais 9 5,500 15,000 10,056 2,984
Eleve 8 13 12,5 8,5 9,5
Eleve 9 9 9,5 12,5 12

• Décomposition en valeurs propres-vecteurs propres de la


matrice de corrélation
• [V, ]=eigs(X’X) Vecteurs propres :

• Matrice transformation F=V*sqrt() Math


F1
0,478
F2
-0,552
F3
0,203
F4
0,652
Physique 0,532 -0,407 -0,441 -0,597
Variables Math Physique Français Anglais
Français 0,444 0,621 -0,532 0,365
Math 1 0,983 0,227 0,508
Anglais 0,540 0,379 0,693 -0,290
Physique 0,983 1 0,397 0,652
Français 0,227 0,397 1 0,951
Anglais 0,508 0,652 0,951 1

13 14

Interprétation des individus et des Autre Catégorie de Technique


caractéristiques Descriptive
Biplot (axes F1 et F2 : 99,88 %)
8

6
• La Classification automatique
1
4 • Regrouper des individus tel que :
0,75
F2 (27,99 %)

Eleve 7
Variables (axes F1 et F2 : 99,88 %)
0,5
Français 2
Eleve 3 Eleve 9
Français • 2 individus d’un même groupe se ressemblent fortement
Anglais Anglais Eleve 4
0
• 2 individus de deux groupes se différencient le + possible
F2 (27,99 %)

0,25 Eleve 1 Eleve 2 Physique


Math Eleve 5
0
-2 Eleve 6 Eleve 8

-0,25 -4
Physique
-0,5 -6
Math
-10 -8 -6 -4 -2 0 2 4 6 8 10
-0,75
Observations (axes F1 et F2 : 99,88 %) F1 (71,89 %)
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1 2 Eleve 7
F1 (71,89 %)

1 Eleve 3
Eleve 9
F2 (27,99 %)

0
Eleve 2
Eleve 1
Eleve 5

-1
Eleve 8
Eleve 6

-2
-3 -2 -1 0 1 2 3
F1 (71,89 %)

15 16
09/01/2023

Classification – Classification Principe de la classification


Automatique ?? Automatique

• Attention au vocabulaire • Repartir l’inertie des données en minimisant l’inertie intraclasse et


• En anglais : Clustering – Classification maximisant l’inertie interclasse
• En français : Classification « automatique » – Classement • Formule de Huygens
Inertie= InertieIntra+InertieInter

• Technique de classification descriptive


• Technique de regroupement

• Méthodes hiérarchiques
• Arbres

• Méthodes de partionnement
• Centres mobiles
• Modèles probabilistes

17 18

Représentation d’une distribution


Critère de ressemblance ?
normale 2D
• Métrique : généralement une distance
• Entre deux observations |𝑥 𝑦|
• Distance de Manhattan |𝑥 𝑦|
• Distance Euclidienne
• Distance d’ordre p |𝑥 𝑦| 1

• Distance du Khi Carré 𝑥 𝑦 0.8

0.6
𝑥 𝑦 0.4

0.2

• Distance d’une observation avec une distribution normale 0


10
• Distance de
Mahalanobis 8

10
2 9
8
7
6
5
4
2 3
0 1
0

𝐷 𝑥 𝑥 𝜇 Σ 𝑥 𝜇

19 20
09/01/2023

Algorithme de classification k-means K-Means Exemple


• Variante des centres mobiles 10

• Minimisation d’un coût V 9

𝑉 𝑥 𝜇 7


6

• k partitions caractérisées par un centre µi 5

• Algorithme itératif (Llyod)


3
• Initialisation aléatoire de k groupes
• Calcul du centre de gravité de chaque groupe 2

• Affectation de chaque donnée à la classe la plus proche 1


2 3 4 5 6 7 8
• Calcul du nouveau centre
• Répétition jusque V est minimum ou que les données ne changent plus de
groupes.

21 22

K-Means Exemple K-Means Exemple

23 24
09/01/2023

Classification par Arbre de décision Exemple Trivial


Distance deux à deux
N° Obs X1 X2 0 0.3258 0.3998 0.4067 0.6819 0.5892 0.5059 0.6459 0.1609 0.8058
1 0.5085 0.8759 0.3258 0 0.3153 0.2864 0.3675 0.2818 0.3111 0.3204 0.3349 0.5565
• Classification ascendante hiérarchique (CAH) 2 0.5108 0.5502
0.3998
0.4067
0.3153
0.2864
0
0.0421
0.0421
0
0.4495
0.4081
0.5440
0.5049
0.1517
0.1173
0.4845
0.4425
0.5169
0.5132
0.4446
0.4179
3 0.8176 0.6225
• Regroupement des observations 2 à 2 sur un critère de distance 4 0.7948 0.5870
0.6819
0.5892
0.3675
0.2818
0.4495
0.5440
0.4081
0.5049
0
0.2817
0.2817
0
0.3118
0.4650
0.1138
0.1697
0.7010
0.5438
0.2950
0.5704
5 0.6443 0.2077 0.5059 0.3111 0.1517 0.1173 0.3118 0.4650 0 0.3681 0.5931 0.3041
• Ces regroupements successifs produisent un arbre binaire de 6 0.3786 0.3012 0.6459 0.3204 0.4845 0.4425 0.1138 0.1697 0.3681 0 0.6403 0.4077
7 0.8116 0.4709 0.1609 0.3349 0.5169 0.5132 0.7010 0.5438 0.5931 0.6403 0 0.8763
classification (dendrogramme), dont la racine correspond à la classe 8 0.5328 0.2305 0.8058 0.5565 0.4446 0.4179 0.2950 0.5704 0.3041 0.4077 0.8763 0
regroupant l'ensemble des individus. Ce dendrogramme représente 9 0.3507 0.8443
10 0.9390 0.1948
une hiérarchie de partitions.
Données
• On peut alors choisir une partition en tronquant l’arbre à un niveau 0.3

Coupe sur critère


donné, le niveau dépendant soit des contraintes de l’utilisateur 0.25
d’inertie intraclasse
Construction itérative
(l’utilisateur sait combien de classes il veut obtenir), soit de critères 3 4 0.0421 0.2

plus objectifs. 5 8 0.1138


7 11 0.1173 0.15
1 9 0.1609
6 12 0.1697 0.1
2 15 0.2818
13 16 0.2864 0.05
10 17 0.2950
3 4 7 2 5 8 6 10 1 9
14 18 0.3258

25 26

Classement par Arbre de Décision Principaux arbres de décision


• Principe Général : Arbre descendant Cf Algorithme ID3, C4.5 …
• Calcul de l’entropie de l’ensemble de données à partir de la répartition des • Méthode AID (Automatic Interaction Detection)
individus en fonction du nombre de classes présentes • Méthode CHAID (CHi-squared Automatic Interaction Detection
• Entropie faible ou nulle : ensemble homogène
• Méthodes d’arbres de classification et de régression (Classification And
• Entropie forte proche de 1 : ensemble hétérogène
Regression Trees, CART)
• Sélection d’un attribut (ou d’un seuil sur un attribut) qui permet de séparer
• QUEST
les individus en maximisant le gain d’information = entropie initiale -
entropie apportée par la scission faite selon l’attribut testé

27 28
09/01/2023

Bilan sur les techniques Descriptives

• Pas de variable à expliquer !

• Représenter des informations complexes


• Graphique (Box-plots, Coefficients de corrélations …) Partie II.2 : Les
• Visualiser des dépendances
• Variables continues : ACP Techniques Prédictives
• Variables catégorielles : AFC (2 types)
ACM (p >2 types)

• Réduire la dimension d’un problème d’analyse de données

• Regroupement des observations similaires


• Individus ou variables …
• Algorithmes de clustering
• K-means, centres mobiles, EM …
• Méthodes hiérarchiques

29 30

Techniques Prédictives Modélisation par Régression

• Prédiction : Estimer la valeur d’une variable « à expliquer » à partir • Principe


d’un ensemble d’informations explicatives Disturbances
Malt Analyses
• Variable à expliquer : Catégorielle, Modale
Varieties
• Technique de classification au sens classement ou discrimination (même si la signification de
ce mot porte à ambiguïté) Adjustables:
• Variable à expliquer : Quantitatives, continues, discrètes Stand Times Control Targets:
• Technique de régression Temperatures LE
• Classification pour la prédiction
• Prédire l’appartenance d’un individu / une observation à un groupe / une Process
classe
Internal States
• Estimer le mode courant d’un procédé …
• Optimal, Défaut n°1, Mode de fabrication n°5 …

• Pronostiquer les évolutions futures du procédé


• Anticiper l’analyse des performances, de la qualité …
• Suivre le comportement Entrées-Sorties et détecter des dérives Process Model

31 32
09/01/2023

Principales techniques de Régression Régression linéaire


Nature des
variables Variable à expliquer

Type de Variables explicatives


• Nature du problème
Régression • 1 variable quantitative y à expliquer
1 à p quantitatives • M variables quantitatives X
Régression linéaire
(OLS) 1 à p quantitatives • 1 observation = 1 couple (yi, Xi) tel que
1 à p quantitatives
𝑦 𝜃 𝜃 .𝑥 𝜃 .𝑥 𝜃 .𝑥 ⋯ 𝜃 .𝑥 𝜀
Régression PCR
1 à p tous types

Θ 𝜃 𝜃 𝜃 ⋯ 𝜃
1 à p quantitatives 𝑦 𝑋Θ 𝜀 avec
Régression PLS
1 à p tous types 𝑋 1 𝑥 𝑥 ⋯ 𝑥

1 à p quantitatives
Régression ANOVA
1 à p qualitatives
• Hypothèses
1 à p qualitatives Θ constant
Régression logistique 𝐸 𝜀 0
1 à p tous types 𝑉𝐴𝑅 𝜀 𝜎 Ι

33 34

Régression linéaire - Principe Régression linéaire - Estimation

𝑌 𝑋Θ 𝑌 𝑋Θ 𝑌′𝑌 2Θ′𝑋′𝑌 Θ′𝑋′𝑋Θ


• Moindres Carrés
Θ argmin 𝑌 𝑋Θ argmin 𝑌 𝑋Θ ′ 𝑌 𝑋Θ • Obtention du minimum par dérivation
𝑋′𝑌 𝑋′𝑋Θ Θ 𝑋′𝑋 𝑋′𝑌

𝑌 𝑋Θ
• Evaluation de la qualité du modèle
• Coefficient de détermination

𝑆𝑆𝐸 𝑦 𝑦 𝑒
𝑆𝑆𝑇 𝑦 𝑦̄ . 1 𝑦′𝑦 𝑛𝑦̄
𝑆𝑆𝑅 𝑦 𝑦̄ . 1 𝑦′𝑦 𝑛𝑦̄
𝑆𝑆𝑅
𝑅
𝑆𝑆𝑇

35 36
09/01/2023

Préd(Temperature) / Temperature

80

Régression Linéaire – n*m variables


Exemple Simple
70

60
Puissance Debit Froid Temperature
50
29 23 24,12

Temperature
75 22 51,96
• Ordinary Least Squares : yi variable à expliquer; m variables 24 21 12,98
40

explicatives Xj 60
24
2
9
47,11
14,74
30

84 5 60,85 20

𝛽 𝑋𝑋 𝑋𝑦 56
67
7
1
41,05
46,86 10
𝑦 𝛽 𝛽 .𝑋 ϵ 47 11 37,34
21 5 13,62 0

𝜎 y 𝑦 30 13 18,59
Temperature / Coefficients normalisés
1,2
(Int. de conf. 95%)
Puissance;
0 10 20 30 40
Préd(Temperature)
50 60 70 80

77 2 56,58 1,013
60 15 43,89 1

𝑦 𝛽 .𝑋 ϵ  Attention X dispose d’une première composante à 1

Coefficients normalisés
26 6 23,81 0,8
40 29 22,66 0,6 Résidus normalisés / Temperature
53 11 41,07 0,4
Obs29
28 1 21,56
• Applicable à un système d’équations linéaires avec n variables à 54 20 40,98
0,2

0
Obs27
Obs25
Obs23
20 10 20,22
expliquer 48 21 31,46 -0,2 Debit
Obs21

Observations
Obs19
Froid; -
78 12 55,32 Obs17
𝑌 𝐵∗𝑋 𝐸
-0,4 0,084
Variable Obs15

 y  a a L
1 1
0
1
1 a  1    
1
m
1 12
27
6
8
10,15
20,82
Obs13

 2     
Obs11
Obs9
2 2
 y   a a a   x1    2 
2 94 7 60,64 Obs7
0 1 m
 53 0 43,00 Obs5

 M  M O O M  M   M  𝑠𝑡𝑎𝑐𝑘 𝑌 𝑠𝑡𝑎𝑐𝑘 𝑋 ∗ 𝐵′ 𝑠𝑡𝑎𝑐𝑘 𝐸 65 0 43,27 Obs3


Obs1
 n   n      91 6 62,37
anm   x m    n 
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
n
 y   a0 a1
72 23 47,35 Résidus normalisés
41 27 24,03

37 38

Analyse de variance à 1 facteur


Regression multivariée NxM
ANOVA
• Régression PCR : Principal Component Regression • Savoir si un facteur X qualitatif (explicatif) a une influence sur la
• Ou régression sur composantes principales … variable Y (à expliquer)
• Même cadre conceptuelle que la régression linéaire
 A utiliser si il y a des fortes corrélations entre les variables explicatives • Mais appliqué à une variable explicative qualitative
• Dans ce cas, la régression OLS a un problème de l’inversibilité de X’X (qui doit être
matrice de rang plein)
• X caractérisée par J modalités et 𝑦 µ 𝜀
• Pour chaque mode, les observations sont indépendantes, de moyenne µj et de
• On transforme les données X en données X_Proj et on ne conserve que variance homogène 𝜎
les p facteurs principaux.
1 1
µ 𝑦 𝜎 𝑦 µ
𝑛 𝑛 1
• Puis, on revient à une méthode OLS sur les données X_Proj
1 1
𝑦̄ 𝑦 𝜎 𝑦 µ
𝑛 𝑛 𝐽

39 40
09/01/2023

Structure du modèle Analyse de la variance

• Premier modèle • Test ANOVA


µ 𝑦 𝜀 • H0 si 𝑦̄ µ µ ⋯µ
• H1 si ∃ 𝑚, 𝑝 tel que µ µ
𝑦 𝜇 .1 𝜇 .1 ⋯ 𝜇 .1 𝜀
• Table d’analyse de la variance
• Deuxième modèle
Variation Ddl Somme des carrés Variance P-value
µ 𝑦̄ 𝑟𝑒𝑠 𝛽 𝛽 Between J-1
𝑆𝑆𝐵 𝑉𝑆𝐵
𝑆𝑆𝐵 𝑛 𝑦̄ 𝑦̄ 𝑛 𝑦̄ 𝑛𝑦̄ 𝑉𝑆𝐵
𝐽 1 𝑉𝑆𝑊
𝑦 𝛽1 𝛽 .1 𝛽 .1 ⋯ 𝛽 .1 𝛽 .1 𝜀
Error (within) n-J 𝑆𝑆𝑊
𝑆𝑆𝑊 𝑦 𝑦̄ 𝑦 𝑛 𝑦̄ 𝑉𝑆𝑊
•… 𝐽 1

Total n-1
𝑆𝑆𝑇 𝑦 𝑦̄ 𝑦 𝑛𝑦̄

41 42

Exemple Simple Vers l’identification de systèmes


alliage
strength alliage
82
86
ST
ST
86
• Zadeh [1963] l'identification des procédés de la façon suivante :
84
79 ST
83 ST 82 "L'identification est la détermination, à partir de la connaissance des
84 ST strength / Coefficients normalisés signaux d'entrée et de sortie, d'un modèle mathématique appartenant à
strength

80
85 ST (Int. de conf. 95%)
86 ST 78
alliage-ST;
une classe donnée pour lequel les comportements dynamiques ou
87 ST
74 AL1
76
0
0,000
statiques équivalent à ceux du processus au sens d'un critère donné.
82 AL1
• Deux grands domaines d’application
74 -0,2
Coefficients normalisés

78 AL1 -0,4
72
75 AL1
76 AL1
AL1 AL2
alliage
ST
-0,6
alliage-AL2; -
• La conduite de procédés
77 AL1
• Diagnostic, maintenance et sécurité
-0,8 0,605
79 AL2 -1 alliage-AL1; -
0,847
79 AL2 -1,2
77 AL2 Equation du modèle : -1,4 Variable p2
78 AL2
82 AL2
79 AL2 strength = 84-7*alliage-AL1-5*alliage-AL2
E
Analyse de la variance :
Système S 𝐸∈ℝ ;𝑝1 ∈ ℝ
Source DDL Somme des carrés Moyenne des carrés F Pr > F p1 𝑆∈ℝ ;𝑝2 ∈ ℝ
Modèle 2 184,800 92,400 15,400 0,000
Erreur 17 102,000 6,000
Total corrigé 19 286,800
Calculé contre le modèle Y=Moyenne(Y)

43 44
09/01/2023

Modélisation de systèmes par erreur Identification linéaire par Moindres


d’équation Carrés
• Cas Discret Entrée-Sortie • Soit une collection d’informations Entrée-Sortie sur le procédé

𝑍 𝑢 𝑡 ,𝑦 𝑡 ,𝑡 1, . . . , 𝑁
A q y t B q u t v t
• Le critère est défini par : 𝐽 𝜃, 𝑍 𝜀 𝑡|𝜃
𝐴 𝑞 1 𝑎 𝑞 ... 𝑎 𝑞
𝐵 𝑞 1 𝑏 𝑞 ... 𝑏 𝑞 • Avec
𝜀 𝑡|𝜃 𝑦 𝑡 𝑦 𝑡|𝜃 𝜃 𝑎 ,...,𝑎 ,𝑏 ,...,𝑏
𝜀 𝑡|𝜃 𝑦 𝑡 𝜃 𝜓 𝑡 1 𝜓 𝑡 1 𝑦 𝑡 1 ,..., 𝑦 𝑡 𝑛 ,𝑢 𝑡 1 ,...,𝑢 𝑡 𝑛

• Technique de construction du modèle


𝜃 𝑎 ,...,𝑎 ,𝑏 ,...,𝑏
𝑦 𝑡 𝜃 𝜓 𝑡 1 𝑣 𝑡 𝜓 𝑡 1 𝑦 𝑡 1 ,..., 𝑦 𝑡 𝑛 ,𝑢 𝑡 1 ,...,𝑢 𝑡 𝑛
• La résolution par Moindres Carrés donne :

• Critère linéaire : Application de la méthode des moindres carrés 𝜃 𝑡 𝜓 𝑖 1 𝜓 𝑖 1 𝑦 𝑖 𝜓 𝑖 1

45 46

Phase d’un projet d’identification Modélisation par Classification

Environnement
Informations
non-utilisées Vecteur
Interactions forme
Perturbations E/S
𝑥
C
Signaux .
A
Traitement .
Processus P
.
Informations T
physique émises E 𝑥
U
R Extraction
S
Bruits

Extraction du vecteur forme représentatif du processus

Localisation des observations dans l’espace de


x2 représentation (en 2D)
Xi
Perturbations PROCESSUS
INDUSTRIEL Xi-1
Entrées
sorties

𝑋 𝑥 ,...,𝑥 Xi+1

x1

47 48
09/01/2023

Méthodologie Problème de la Classification

• Ensemble X constitué de données quantitatives et d’une donnée


Historique qualitative explicative à C modalités
Pré - traitement 𝑥
Base de données
𝑋
Définition 𝐶
Espace de représentation
d'une observation 𝐶
Nouvelle
Constitution d'une Observation 𝑥
𝐶 𝑥
base d'apprentissage 𝐶

Définition des modes Règle Ck 𝑥


𝐶
𝑎
𝑥
𝐶
𝑏
𝑥 𝐶
𝑐
Espace de décision
de fonctionnement de décision

Phase d'analyse Phase d'exploitation 𝐶 𝐶

𝐶
𝐶 𝐶
𝐶

𝑥 𝑥 𝑥

49 50

Zoom - Classification par modélisation Zoom - Classification par séparation

5
𝜓 𝜇 𝑥

4
𝐶 𝑃

3
3
𝐶
2 1

0
1
2
𝑥 𝑥 0

1
0 1 2 3 4 5
𝑥

1
𝑎 𝑏 1

-1
1

-1
0
1
0

-1
-1 0 1
5
𝐶 𝑥 -1
𝑃 𝑃
𝜇 𝑃 𝜓 𝐶
4
𝑃 0
3

-2 -1

-1
2

1
𝑥 𝑥
𝑥 -1
𝑥
0
0 1 2 3 4 5
-3
𝑥 -3 -2 -1 0 1 2 3
𝑎 𝑏 𝑐

51 52
09/01/2023

Classification bayesienne Règle de BAYES

• Théorème énoncé par le mathématicien Thomas Bayes 1763 • Soit f(x) la densité de probabilité de l’événement x,
• Base des principales méthodes statistiques connaissant f(x/ci) la densité de probabilité suivant chaque classe
et P(ci) la probabilité de chaque classe
• Introduction des notions de probabilité dans la résolution des problèmes en
reconnaissance de formes. 𝑓 𝑥 𝑓 𝑥/𝑐 𝑃 𝑐
• Les observations à classer sont considérées comme des réalisations d’un
vecteur aléatoire x caractérisé par une densité de probabilité f(x). • La règle de Bayes définit que la classe d’appartenance de x est celle qui
• Connaissant a priori les probabilités des classes d'appartenance, la théorie maximise : 𝑓 𝑥/𝑐 𝑃 𝑐
𝑃 𝑐 /𝑥
bayésienne permet de définir a posteriori les densités de probabilité 𝑓 𝑥
d'appartenance du vecteur x aux différentes classes.
• Cette théorie introduit également la notion d’erreur de décision due à un  Calcul des probabilités a posteriori connaissant les probabilités a priori
recouvrement entre les différentes densités de probabilité de chaque classe. P(ci/x)f(x)
Elle permet par une adaptation de la minimiser.

x
53 54

Méthode du k-PPV Fenêtre de Parzen

• La méthode la plus basique • Voisinage non constant contrairement aux k-ppv.


• Le choix de la classe d’appartenance de l’observation s’appuie sur la • Volume d’analyse fixé selon h
connaissance des appartenances d’individus passés
1 1 1 𝑦
𝑓 𝑥 𝜙 𝑥 𝑥 𝜙 𝑦 Δ
𝑛 𝑉𝑅 𝑥 ℎ ℎ

55 56
09/01/2023

Réseaux de Neurones Construction neuronale

• Branche de l’intelligence artificielle • L’information nerveuse


• Initialement motivée par la volonté de simuler le comportement d’un • Effet électrique : Propagation
• le long de l’axone
cerveau
• Effet biochimique : Pondération
•  Neuromimétisme / sujet d’investigation éteint dans les 1980
• au niveau des liaisons synaptiques

• Notions de neurone formel et d’architectures à couche de neurones


restent utilisés pour des problèmes de classification et de régression
• Le cerveau
• Principe • Modèle de la neuromimétique
• Extraction d’une base de connaissance = base d’apprentissage • Extrêmement complexe
• Optimisation des paramètres de l’architecture neuronale • 100 à 1000 milliards de neurones
• 1000 à 100000 synapses par neurones
• Test et validation
• 1015 connexions

57 58

Qu’est ce qu’un réseau de neurones


Aide à la décision
artificiels ?

• Concept de la boite noire Y=f(X)

Revenu actuel
X Y
«Boîte noire» Durée du prêt Oui
vecteur de sortie

?
vecteur d’entrée
Situation bancaire Non
Prêts en cours Peut-être
• Un réseau de neurones est caractérisé par Dossier médical
• le type de neurone formel utilisé
• son architecture Couche Couche
• son évolution ou méthode d’apprentissage d’entrée de sortie
Couches cachées

59 60
09/01/2023

Le neurone formel Fonction d’entrée

• modélisation du neurone biologique • E=h(e1,e2,.....,en)


A: fonction d’activation
• h() : fonction sommation pouvant être linéaire; affine ou booléenne

• En général 𝐸 𝑒
comporte
n entrées • et en faisant intervenir des poids synaptiques Wij représentant les
connexions du neurone (j) avec les neurones (i) précédents
• on obtient :

𝐸 𝑤 .𝑒

E: fonction S: fonction
sommation sortie
61 62

fonction d’activation = comportement


Fonction de sortie
du neurone
• binaire à seuil • S=g(A) avec g() fonction de sortie

• Dans la plupart des ces g() : fonction identité


• linéaire à seuil
S=A

• sigmoïde
• Cependant les notions de compétition et de coopération peuvent
s'appliquer grâce à cette fonction de sortie
• tangente hyperbolique

• gaussienne

63 64
09/01/2023

Connexions neuronales Évolution de l’architecture

• Modélisation matricielle des connexions • Deux phases

W1,1 Wm,1
S1 • La phase d’apprentissage
• Le réseau modifie ses connexions en fonction de l’environnement
S2
W2,2m

• La phase de généralisation
S3
• Le réseau est en fonctionnement et s’adapte à de nouveaux cas. De légères
Sj modifications peuvent intervenir sur ses poids
W4,j Wi,j

Sn
W3,n Wm,n

e1 e2 e3 e4 ei em

65 66

L’évolution du réseau Phase d’apprentissage

• Durant la phase d’apprentissage, le réseau soumis à des exemples, • 1) Initialisation des poids du réseau
modifie son architecture et les poids synaptiques. • 2) présentation du patron d’entrée
• 3) propagation de l’activité
• Apprentissage supervisé • 4) calcul de l’erreur (si app. supervisé)
• le réseau compare son résultat avec un modèle présenté par le superviseur.
• 5) calcul du vecteur de correction
• Apprentissage non supervisé
• le réseau cherche à extraire par lui-même les caractéristiques • Répéter 2-5 jusqu’à la fin de l’apprentissage
• Apprentissage semisupervisé
• indications qualitatives

67 68
09/01/2023

Les perceptrons multicouches PMC Limitations du perceptron

• En 1959 Le premier réseau à couches : le perceptron de Rosenblatt • Pour les réseaux à deux couches
• Limitations aux problèmes linéairement séparables

• Exemples : opérations logiques avec 3 neurones


• {E1, E2}->S= W1 E1 +W2 E2

Cellule 1 W1
de décision S
Cellules W2
d’association 2

Retine
Liens modifiables

69 70

Problèmes linéairement séparables Notion de couche cachée


• Ex : le OR
E1 E2 S • Il suffit de rajouter une couche cachée pour résoudre le cas du XOR
1
0 0 0
0 1 1 classe 1 C  E1  E 2   avec   1
1 0 1
1 1 1
1 +1
0 +1
0 1
o Ex : le XOR +1 C -2 S
E1 E2 S 1 +1
0 0 0 2
0 1 1
1 0 1
1 1 0
0 S  E 1  E 2  2. C
0 1

71 72
09/01/2023

Vers les réseaux multicouches P.M.C – Perceptron Multi-couche


• architecture à couches
S1 S2
• neurone linéaire
• fonction d’activation sigmoïde ou
tanh
• apprentissage par rétropropagation
du gradient
X1 X2 X3 X4
1 couche 2 couches 3 couches

E1 E2 E3 E4

Séparation linéaire Formes convexes Formes quelconques

73 74

La rétropropagation du gradient Rétropropagation de l ’erreur


Propagation de l’activité
• Technique permettant de minimiser la distance entre la sortie réelle
et la sortie désirée
• Descente de gradient sur une surface d’erreur

𝜕𝐸
Δ𝑊 𝜂
𝜕𝑊

avec E : erreur quadratique entre la sortie et la sortie désirée

1 1
𝐸 𝑆 𝐷 𝑓 𝑎𝑝𝑒 𝐷 𝑎𝑣𝑒𝑐 𝑎𝑝𝑒 𝑊 .𝑋
2 2

Rétropropagation
de l’erreur

75 76
09/01/2023

Calcul de l’erreur Modification des poids

• Pour les neurones de sortie : • La correction à apporter est donc :


𝜕𝐸 𝜕𝐸 𝜕𝑎𝑝𝑒 Δ𝑊 𝜂. 𝑒𝑟𝑟 . 𝑋
. 𝑎𝑣𝑒𝑐
𝜕𝑊 𝜕𝑎𝑝𝑒 𝜕𝑊
𝜕𝐸 𝜕 1 • avec pour la couche de sortie :
𝑓 𝑎𝑝𝑒 𝐷 𝑓 𝑎𝑝𝑒 𝐷 . 𝑓 𝑎𝑝𝑒
𝜕𝑎𝑝𝑒 𝜕𝑎𝑝𝑒 2
𝜕𝑎𝑝𝑒 𝜕 𝑒𝑟𝑟 𝐷 𝑋 . 𝑓′ 𝑎𝑝𝑒
𝑒𝑡 𝑊 .𝑋 𝑋
𝜕𝑊 𝜕𝑊

• Pour les neurones des couches cachées • et pour les couches cachées :

𝜕𝐸 𝜕𝐸 𝜕𝑎𝑝𝑒 𝜕𝑋 𝜕𝐸
. . . 𝑊 , . 𝑓 𝑎𝑝𝑒 𝑒𝑟𝑟 𝑒𝑟𝑟 . 𝑊 , . 𝑓′ 𝑎𝑝𝑒
𝜕𝑎𝑝𝑒 𝜕𝑎𝑝𝑒 𝜕𝑋 𝜕𝑎𝑝𝑒 𝜕𝑎𝑝𝑒
∈ ∈

77 78

Apprentissage du PMC Bases d’apprentissage et de test ?

• 1) Initialisation aléatoire des poids


• Répétez : Erreur
• 2) Choix d’un nouveau vecteur de la base d’apprentissage, puis
présentation à l’entrée
• propagation de l’activité
• 3) Calcul de l’erreur obtenue en comparant vecteur de sortie et le vecteur
désiré :
• si erreur > seuil_fin 4) sinon 2) Phase de test
• 4) calcul des poids par rétropagation
• tant que exemple disponible Phase d’apprentissage

Nb itérations
Voir démo excel
Technique dite de la validation croisée

79 80
09/01/2023

Surapprentissage / Sous
Problèmes d’apprentissage
apprentissage

• Insuffisance de la règle
• minima locaux
• mauvais choix
• Nb couches cachées; neurones
• Pas d’apprentissage
• surapprentissage
• mauvais échantillonnage
• mauvais codage

81 82

Conclusion sur Techniques


Autres Critères de Choix
Prédictives
• Hypothèses du modèle
• Une technique non détaillée : les arbres de décision – techniques • Compréhension de la structure du modèle, hypothèses de validité de la
descriptives pouvant être utilisées pour l’analyse explicative et la modélisation (nombre de classes, taille du régresseur …), Convergence
prédiction. locale, Biais de l’estimateur, Nature du bruit …
• Cf exemple précédent sur la qualité d’un produit. • Robustesse
• Critère n°1 pour le choix de la méthode de prédiction : • Données erronées, données manquantes,
• Nature des données • Face aux dimensions du problème, à la taille de la base d’apprentissage,
Choix d’une méthode Variables explicatives
• Sensibilité aux variations des données …

Qualitive Quantitative
• Temps de traitement
• Complexité algorithmique,
• Régression logistique •
Qualitive
• Arbres de décision •
Analyse discriminante linéaire & AFD,
K-ppv, • Influence du nombre de données, du nombre de classes sur le temps de
Variable à
Expliquer
• RNx •

Classification Bayésienne,
RNx
traitement …
Quantitative • ANOVA
• RNx
• Régression OLS, PCR, PLS …
• Arbres de regression
•…
• RNx

83 84

Vous aimerez peut-être aussi