Vous êtes sur la page 1sur 29

UNIVERSITE IBN ZOHR,

FACULTE POLYDISCIPLINAIRE TAROUDANT,


DEPARTEMENT SCIENCES ET TECHNIQUES

MASTER SPECIALISE PROCEDES D’ANALYSES ET CONTROLE QUALITE

M02 : CHIMIOMETRIE ET MODELISATION

CHAPITRE I : L’ANALYSE EN COMPOSANTES PRINCIPALES


(Partie 1 : Notions mathématiques)

Pr. A. EL Hammadi

2021-2022

1
• Algèbre linéaire, Calculs matriciels, développement d'une
fonction en série entière; régressions linéaires simple et
Prérequis multiple
• Statistiques descriptives et testsstatistiques

• La terminologie des méthodes de la chimiométrie;


Ce que je dois • La méthode d'analyse en composantes principales (ACP)
connaitre • La méthode d'analyse factorielle des correspondances (AFC) ;

• Construire une matrice d'ACP et d'AFC


Ce que je dois • Diagonaliser la matrice d'une ACP ou d'une AFC et déterminer
savoir faire les valeurs propres et les vecteurs propres (axes principaux).
• Représenter les individus dans l'espace des variables.

Les compétences visées :


- Apprendre à analyser les données d’échantillonnage et simplifier au
mieux l’interprétation des résultats d’un travail expérimental de travaux
pratiques, de recherche scientifique ou des études industrielles.

2
Introduction
Définition et cadre général de la chimiométrie

L’Origine du terme « chimiométrie » est « Chemometrics. C’est une branche de la chimie.


Au départ, elle combine analyse de données et chimie analytique. Aujourd’hui, elle
regroupe l’ensemble des applications de la chimie, la physique, les sciences de la vie,
l’économie, la sociologie, les méthodes statistiques et l’informatique.

Un autre terme « analyse multi variables » = « multivariate analysis » et le terme au sens


large est la reconnaissance de formes «pattern recognition» ‫التعرف على األنماط‬.

1. La chimiométrie est l'application des outils mathématiques, en particulier


statistiques, pour obtenir le maximum d'informations à partir des données chimiques.
Elle est basée sur la construction, puis l’exploitation d’un modèle de comportement à l’aide
d’outils statistiques. Elle peut traiter des systèmes complexes et donc généralement multi-
variables.
 Son but est d'améliorer par l'emploi de ces méthodes, le contrôle et l'optimisation
des procédés ainsi que la qualité des produits fabriqués.
 Son objet essentiel concerne la mesure en analyse chimique quantitative.
2. Analyse des données = est une famille de méthodes statistiques dont les principales
caractéristiques sont d'être multidimensionnelles et descriptives. Les principales méthodes de
l’analyse des données se séparent en deux groupes:
- Les méthodes de classification,
- Les méthodes factorielles.
2.a Les méthodes de classification
 Elles visent à réduire la taille de l’ensemble des individus en formant des groupes
homogènes d’individus ou de variables.
 Ces groupes on les appelle aussi des classes, ou familles, ou segments, ou clusters.
 La classification est appelée aussi Segmentation ou Clustering.

2.b Les méthodes factorielles:


 Parmi les méthodes descriptives ou non supervisées du Datamining, on trouve les
méthodes factorielles de l’Analyse des données.
 les méthodes factorielles consistent en la projection sur un espace de dimension
inferieure pour obtenir une visualisation de l’ensemble des liaisons entre variables tout en
minimisant la perte de l’information.
 Elles cherchent à réduire le nombre de variables en les résumant par un petit nombre
de composantes synthétiques.
 Si on travaille avec un tableau de variables numériques, on utilisera l’analyse en
composantes principales,
 Si on travaille avec des variables qualitatives, on utilisera l’analyse des
correspondances.
 Les liens entre deux groupes de variables peuvent être traités par l’analyse canonique.

3. Méthodes de Chimiométrie et de Machine Learning


Les méthodes de Chimiométrie et de Machine Learning les plus connues et les plus
couramment utilisées se répartissent comme suit :
3
1 • Les méthodes d’analyse exploratoire (ACP, Multi-blocs, ICA)

2 • Les méthodes de classification non supervisées

3 • Les méthodes de régression (MLR, PCR, PLS)

4 • Les méthodes de discrimination supervisée (SIMCA, PLS-DA)

5 • Les méthodes de Machine Learning (SVM, ANN, CART, RF, ANN…)

6 • Les méthodes de deep learning (CNN)

7 • Les pré-traitements (spectroscopiques, sélection de variables…)

8 • Les méthodes de supervision de procédés (MSPC, BSPC)

9 • Les méthodes de plans d’expériences

Abréviations
ACP : Analyse en composantes principale SVM : Support Vector Machines
ICA : Analyse en Composantes Indépendantes ANN : Réseaux de Neurones Artificiels
CAH : Classification Ascendante CART : Classification And
Hiérarchique RegressionTrees
MLR : Multiple LinearRegression RF : RandomForests (forêtsaléatoires)
PCR : Principal Component Regression ANN: Réseaux de Neurones Artificiels
PLS : Partial Least Square Regression CNN : Convolutional Neural Network
SIMCA : Soft Independent Modelling of Class MSPC : Multivariate Statistical Process
Analogy Control
PLS-DA : PLS Discriminant Analysis BSPC : Batch Statistical Process Control.

La définition et le principe de base de ces méthodes sont présentés en annexe.

Ce chapitre I est une introduction à la chimiométrie. Des généralités sur les calculs
matriciels utilisées pour la compréhension des principes de base sur lesquels repose
l’ACP sont d’abord exposées suivie par la définition des différentes méthodes de la
chimiométrie les plus utilisées. La méthode ACP fera l’objet de la partie 2 de ce
chapitre..

4
I. Notions mathématiques appliquées à l’ACP et l’AFC

Cette partie rappelle l’essentiel des notions mathématiques utilisées dans le


développement de la méthodologie des méthodes de la chimiométries : Les calculs
matriciels, la résolution des systèmes d’équations linéaires et le développement en séries
entières d’une fonction à une et plusieurs variables sont abordés.
Dans ce chapitre, K désigne un corps. On peut penser à Q, R ou C .

1. Matrices
1.1 Définition
 Une matrice est un tableau rectangulaire d’élément de K.
 Les nombres aij qui composent la matrice sont appelés les éléments de la matrice ou
aussi les coefficients.
 Une matrice à n lignes et p colonnes est dite matrice d’ordre (n, p) ou de
dimension n p . L’ensemble des matrices à n lignes et p colonnes à coefficients dans K
est noté Mn,p(K). Les éléments de Mn,p (R) sont appelées des matrices réelles.
Un tel tableau est représenté comme suit :

 a11 ... a1 j ... a1 p 


 
 ... ... ... ... 
1  i  n
A   a i1 ... a ij ... a ip 
  
ou A  a ij avec 
 ... ... ... ... ...  1  j  p
 
 a n1 ... a nj ... a np 
Exemple :

1  1 2 
A     a12  1 ; a13  2 ; a 21  3
3 0  2

Est une matrice (2,3) avec a11  1; a12  1 ; a13  2 ; a21  3 ; a22  0 et a23  2

1.2 Matrices particulières

 Si n = p (nombre de lignes = nombre de colonnes), la matrice est dite matrice


carrée. On note Mn (K) au lieu de Mn,n (K).

 a11 ... a1 j ... a1n 


 
 ... ... ... ... 
a ... aij ... ain 
 i1 
 ... ... ... ... ... 
 
 an1 ... anj ... ann 

5
Les éléments a11, a22 ; a33...... ; ann forment la diagonale principale de la matrice.

 Une matrice qui n’a qu’une seule ligne (n = 1) est appelée matrice ligne ou
vecteur ligne. On la note :
A  (a11, a12 ; a13......; a1 p ) .
 De même, une matrice qui n’a qu’une seule colonne (p = 1) est appelée
matrice colonne ou vecteur colonne. On la note :

 a11 
 
 ... 
A   a i1 
 
 ... 
 
 a n1 
 La matrice (de taille n × p) dont tous les coefficients sont des zéros est
appelée la matrice nulle et est notée 0n,p ou plus simplement 0. Dans le calcul
matriciel, la matrice nulle joue le rôle du nombre 0 pour les réels.

1.3 Matrice identité

 La matrice carrée suivante s’appelle la matrice identité :

1 0 0 ... 0
 
0 1 0 ... 0
In   0 0 1 ... 0
 
 ... ... ... 1 0
 
0 ... 0 0 1
Ses éléments diagonaux sont égaux à 1 et tous ses autres éléments sont égaux à 0.
 Elle se note In ou simplement I .
 Dans le calcul matriciel, la matrice identité joue un rôle analogue à celui du
nombre 1 pour les réels. C’est l’élément neutre pour la multiplication. En d’autres termes :
In  A  A et A I p  A

1.4 Opérations sur les matrices

1.4.1 Addition de matrices

Deux matrices A=(aij) et B=(bij) de même type (n, p)) peuvent s'additionner ou se
soustraire. La somme (ou différence) de ces deux matrices est une matrice C (cij) du
même type telle que :
ABCa ijbijc ij

6
Propriétés:
 A B B A : La somme est commutative
 ABC ABC : La somme est associative
 A  0  0 A A : La matrice nulle est l’élément neutre de l’addition
 A  (A)  (A) A  0 : -A est l’élément symétrique de la matrice A.
 (α+β)A=αA+βA
 Α(A+B)= αA+αB

Remarque : La soustraction ne remplit pas les critères d'associativité et de commutativité.


Exemple :
1 2  2 0  1  2 2  0    1 2 
A    B    ; A  B      
3 4  1  2  3 1 4  2  4 2

1.4.2 Produit de matrices

i. Produit par un scalaire


Le produit d'une matrice A par un scalaire α, noté αA, est la matrice obtenue en multipliant
chaque élément aij de A par α:
C A cij aij
Propriétés :
(,)K2et(A,B)M2 b

(AB)AB
,
- n

- ()AAA
- A A
- 1A A

ii. Produit de deux matrices

 Le produit AB de deux matrices A et B est défini si et seulement si le


nombre de colonnes de A est égal au nombre de lignes de B.
 Soient A = (aij) une matrice n × p et B = ( bij ) une matrice p × q. Alors le
produit C = AB est une matrice n × q dont les coefficients ci j sont définis par :
p
cij  a
k 1
ik  bkj

 On peut écrire le coefficient de façon plus développée, à savoir :

cij  ai1b1 j  ai 2b2 j  .......aipbpj

7
Propriété
- Le produit matriciel n'est pas, en général, commutatif:

On donne les matrices ,

.
BA n'existe pas car le nombre de colonnes(=3) de B est différent du nombre de lignes de A.
- Le produit matriciel est associatif : (AB)C=A(BC)
- Le produit matriciel est distributif par rapport à l'addition:

- Le produit matriciel est nul si l'une des matrices est nulle.


A=0 ou B=0  AB=0 mais AB=0 n’implique pas A=0 ou B=0.

1.5 Transposition d’une matrice


On appelle transposée d'une matrice A de type (n, p) et de terme général aij , la matrice notée
t
A ou A’ obtenue en échangeant les lignes et les colonnes de l’ième indice de A.

     
A  aij t At aij  a ji
Propriétés :
-  A  A
t t

1 3 
1  1 2   
t
1  1 2 
A    , la matrice transposée : t A      1 0 
3 0  2 3 0  2  2  2
 
t
1 3 
t t
    1  1 2 
A    1 0   

  A
 2  2  3 0 2 
 
-
-
-

8
1.5 Déterminant d’une matrice
a) Définition
Soit la matrice carrée A , 1 i, j n

 a11 ... a1 j ... a1n 


 
 ... ... ... ... 
A   ai1 ... aij ... ain 

 ... ... ... ... ... 
 
 an1 ... anj ... ann 
On appelle déterminant de la matrice A, d'ordre n, le tableau carré contenant
les éléments de la matrice limité par deux traits verticaux et noté |A| ou

a11 ... a1 j ... a1n


... ... ... ...
det( A)  A  ai1 ... aij ... ain
... ... ... ... ...
an1 ... anj ... ann

b) Mineur
On appelle mineur Mij de l'élément aij du déterminant d'ordre n, le déterminant d'ordre
(n-1) obtenu en supprimant la ième ligne et la jème colonne de |A|.
c) Cofacteur
On appelle cofacteur ij de l’élément aij, le mineur Mij affecté du signe (+) ou (-) suivant la
relation :
(i  j )
  (1)
ij
Exemple :
a11 a12 a13  
A  a21 a22 a a
a23 M12  21 23  a21 * a33  a31 * a23
a31 a32 a33 a31 a33

9
Exemple

a11 a12
A  11  (1)11 M11   a22
n=2 a21 a22

n=3

a11 a12 a13


A  a21 a22 a23  12  (1)1 2 M12  (a21 * a33  a31 * a23 )
a31 a32 a33
La valeur d'un déterminant |A| d'ordre n est donnée par un développement suivant :
une ligne i:
n
A  ai1  i1  ...ain  in   aij  ij
j 1
n
Ou une colonne j : A  a1 j  1 j  ...a nj  nj   aij  ij
i 1

Exemple : Le déterminant de A2 est :

Propriété 1: Si tous les éléments d'une ligne (ou colonne) d'un déterminant |A| sont nuls
alors|A|=0.

Propriété 2 :Si deux lignes (ou deux colonnes) d'un déterminant |A| sont proportionnelles (ou
identiques) alors |A|=0.

Propriété3 : Si l'on permute les lignes et les colonnes d'un déterminant, la


valeur reste inchangée : t A  A .
Propriété4 : Si l'on permute deux lignes (ou deux colonnes) d'un déterminant,
le signe du déterminant est changé.

d) Comatrice ou matrice adjointe : On appelle comatrice (ou matrice adjointe) de A, la


matrice carrée d'ordre n, notée com(A) (ou adjoint(A)) définie par :

11 ... 1 j ... 1n


... ... ... ... ...
com( A)   i1 ...  ij ...  in
... ... ... ... ...
 n10
1 ...  nj ...  nn
Où Δij est le cofacteur de l'élément aij de Adéfini à partir du mineur |Mij| par la
relation : ij  (1)ijMij

Exemple :
a b   d  c
com    
c d  b a 

1.6 Matrice inversible

 Soit A une matrice carrée d’ordre n. On dit que A est inversible s’il existe une matrice B
telle que : A B = BA = I.
On appelle B matrice inverse de A et on la note A−1.

 Une matrice carrée est inversible si et seulement si son déterminant est différent de 0.
Soit A une matrice carré n x n de déterminant non nul :
 a11 ... a1n  t
 A11 ... A1n 
  1  
A   ... ... ...  
A 
1
 ... ... ... 
 la matrice inverse est :
a  det( A)  
 n1 ... ann   An1 ... Ann 

où les coefficients Aij sont les déterminants des comatrices associées à A


multipliés par (-1)i+j.

 a22 ... a2n 


 
A11   ... ... ...   (1) i  j
a 
 n 2 ... ann 

Exemple de calcul d'inverse d'une matrice 2 x 2


Soit A une matrice carré 2 x 2. On veut calculer la matrice inverse A-1 :
2 3
A
4 5

- Première étape : on calcule le déterminant de la matrice A:

Le déterminant de cette matrice n'est pas nul donc la matrice A est


inversible
- Deuxième étape:

11
1.7 Système d’équations linéaires

On appelle système de n équations linéaires à p inconnues (x1, x2, ……xp), le système :


a11 x1  a12 x 2  ...  a1 p x p  b1 ( L1)

a 21 x1  a 22 x 2  ...  a 2 p x p  b2 ( L 2)

................................................
a n1 x1  a n 2 x 2  ...  a np x p  bn ( Ln)

Qui s’écrie sous forme matricielle :
 a11 a12 ... ... a1 p  x1   b1 
    
 a21 a22 ... ... a2 p  x2   b2 
 ... ... ... ... ...  ...    ... 
    
 ... ... ... ... ...  ...   ... 
a ... anp  x p   bn 
 n1 an 2 ...
avec Xp et B p deux matrices colonnes et A appelée matrice de transformation à n

lignes et p colonnes.
Les coefficients aij K (R ou C ) avec 1 i n et 1 j p

Les biK ( 1 i n) constituent le second membre du système.

Le système est dit homogène si bi  0 et non homogène.

Propriété : Toute opération élémentaire sur les lignes d'un système d'équations linéaires
transforme ce dernier en un système équivalent ayant le même ensemble de solutions.

Système de Cramer : On appelle système de Cramer un système de p équations à n inconnues


avec |A| 0 ( |A|= déterminant de la matrice carrée de transformation).
Méthodes de résolution
Les systèmes linéaires rencontrés en Sciences Physiques étant pour la plupart de Cramer,
nous présentons deux méthodes de résolution pour ces systèmes.
 Système non homogène: Anp X n  Bn
1ère méthode : Règle de Cramer
Un système de Cramer admet une solution unique donnée par :

12
,
p e .
o t
étantu le déterminant de la matrice obtenu en remplaçant la ième
r
colonne de par la colonne des constantes .

Exemple : Résolution du système :

La matrice A du système est:

,
et le déterminant de A :

- A est inversible.
- Le système est de Cramer et admet une solution unique:

,
1 3 50
3 5 2
4 7 31  64
x3   8
8 8

13
2ème méthode : Inversion matricielle
Pour |A|  0, la matrice carrée admet une matrice inverse A-1.
Le système sous la forme matricielle AX=B peut être pré-multiplié par A-1

Afion d'obtenir la solution :


La détermination de passe par le calcul de :

t
(com(A)) est la matrice transposée de la comatrice
de A.

Exemple : Résolution du système :


Lamatrice du système étant:

Calculons par la formule

,
sachant que |A|=-8 et

La méthode matricielle est la méthode choisie et utilisée dans la résolution des systèmes
d’équations linéaires abordés dans la suite de ce chapitre.

14
ANNEXE
Méthodes de Chimiométrie et de Machine Learning
Document source : https://ondalys.fr/ressources-scientifiques/methodes-de-machine-learning/.

I. Les méthodes d’analyse exploratoire


I.1 Analyse en Composantes Principales

 L’Analyse en Composantes Principales ou ACP est une des méthodes les plus utilisées en
chimiométrie. Cette méthode est utilisée pour les objectifs suivants :

 La visualisation des données dans l’espace multivarié


 La détection de clusters
 L’effet de facteurs de variabilité
 La détection d’échantillons atypiques (outliers)
 La compression des données, en réduisant la dimensionnalité de X
 La suppression de bruit

 L’ACP permet de visualiser des échantillons représentés par de nombreuses variables, en


projetant leurs coordonnées d’origine dans un nouvel ensemble d’axes, appelés composantes
principales (CP). Ces axes sont construits de façon à maximiser la variance de X, extrayant ainsi
l’information présente dans X. Les k premières composantes représentent l’information résumée
de X, les dernières composantes représentent le bruit. Les graphiques présentés ci-contre
expliquent comment l’ACP fonctionne pour une matrice X simple, composée de seulement trois
variables.

 L’ACP peut être considéré comme un changement d’axes, conçus pour mieux visualiser la
variabilité des échantillons, tout en maintenant les distances et les échelles entre les échantillons.
Pour simplifier la visualisation, les échantillons sont habituellement observés sur un plan 2D ou
3D, correspondant à la projection des échantillons sur un ensemble de 2 ou 3 axes.

 L’ACP peut être également la première étape pour d’autres méthodes


multivariées, telles que la classification non supervisée ou la maîtrise
statistique des procédés (MSPC).

15
I.2. Analyse Multi-blocs

 L’analyse de données multi-blocs permet de traiter des ensembles de données


dans lesquels :
 les mêmes échantillons sont caractérisés avec différents blocs de variables;
 la nature et le nombre de variables de ces différents blocs pouvant varier, ou
plusieurs blocs d’échantillons sont caractérisés avec les mêmes variables, le
nombre de ces échantillons dans chaque bloc pouvant être différent.

 Le but des méthodes d’analyse de données multi-blocs est d’identifier des informations
communes et spécifiques au sein des différents blocs de données.

I.3 Analyse en Composantes Indépendantes


 L’ICA a pour objectif de répondre à la problématique d’identification des produits et
phénomènes présents dans un mélange, ou lors d’un procédé. Les composantes principales d’une
ACP, qui décrivent le plus souvent un mélange de ces sources pures, ne fournissent pas toujours
une réponse adaptée.
 L‘ICA vise à extraire les signaux sources sous-jacents de la matrice ainsi que leurs
proportions dans chaque mélange mesuré.
 L’hypothèse de base de l’ICA consiste à considérer chaque ligne de la matrice X, comme
étant une combinaison linéaire de signaux « sources » indépendants S, avec des coefficients de
Pondération, ou « proportions » A, proportionnels à la contribution des signaux sources aux
mélanges correspondants.
 Contrairement à l’ACP, les résultats dépendent du nombre de composantes que l’on
souhaite extraire. Ainsi, pour une ICA à 3 composantes par exemple, la première composante
sera différente de celle d’une ICA réalisée sur 4 composantes. Il existe des outils permettant de
faciliter le choix du nombre de composantes, comme par exemple l’ICA par blocs, qui permet de
vérifier la robustesse du modèle en regardant les corrélations entre les composantes de modèles
ICA réalisés sur les données partagées en blocs.

16
II. Méthodes de Classification non supervisée (clustering) :

 Il existe deux ensembles de méthodes de classification.

- Le premier regroupe les méthodes de classification non-supervisée (ou clustering) qui


visent à classer des échantillons similaires sans l’utilisation de connaissances a priori.

- Le second regroupe les méthodes de classification supervisée (ou discrimination), où


l’appartenance des échantillons aux différentes classes est utilisée pour construire un modèle.

 Les techniques de clustering, également appelées « techniques de classification non


supervisée » dans le domaine de la chimiométrie, sont des outils d’exploration qui visent à
déterminer les tendances de regroupement naturelles de la structure interne des données sans
aucune autre connaissance préalable sur l’affectation des échantillons à des classes. Ainsi, ces
méthodes mesurent les similitudes entre les échantillons, uniquement en fonction de leurs valeurs
X.

II.1 Classification Ascendante Hiérarchique (CAH)

La classification hiérarchique est une méthode qui assemble ou dissocie successivement les
ensembles d’échantillons. Dans la Classification Ascendante Hiérarchique (CAH), n classes sont
considérées au départ, à savoir une classe par échantillon, et ces classes sont ensuite regroupées
successivement jusqu’à constituer une classe unique. Le résultat est donné sous la forme d’un
arbre de classification, appelé dendrogramme, où la longueur des branches représente la
distance entre les groupes. Le choix des groupes finaux est décidé en coupant l’arbre à un seuil
spécifique ; ainsi le nombre de clusters n’est pas un paramètre à régler à l’avance.

En revanche, deux autres critères doivent être définis : la distance entre échantillons
(généralement la distance Euclidienne) et le critère de regroupement.
Différents arbres sont indiqués dans la figure en fonction du critère choisi. L’impact du critère
sur la classification est assez visible sur cette figure.

17
II.2 K-Means

 Les méthodes de regroupement non hiérarchique visent à construire une partition finale
des données. Contrairement à l’approche hiérarchique, l’utilisateur doit définir un nombre fixe
de groupes a priori. Ce qui peut être une forte limitation à l’utilisation de ces techniques.
 La méthode des K-means très répandue est une procédure itérative qui permet de trouver
la partition optimale de k classes.
 La partition initiale de k groupes est généralement générée au hasard. Les résultats sont
très dépendants de cette partition initiale, ainsi que du choix du nombre de classes k.
 Puis, à chaque itération, le barycentre de chacune des classes est recalculé et les
échantillons sont réaffectés au centre le plus proche.

Cette procédure est effectuée jusqu’à ce que le critère d’arrêt soit atteint (par exemple : aucun
changement d’affectation ou bien un nombre maximum d’itérations atteint).

18
III. Les méthodes de régression MLR, PCR, PLS :
III.1 MLR – Multiple Linear Regression
La régression linéaire multiple (MLR) est la méthode de modélisation multivariée la plus
basique. C’est l’extension de la régression linéaire simple au cas multivarié.

Cette méthode a l’avantage d’être facile à mettre en oeuvre. Toutefois, si les variables
explicatives sont corrélées (colinéarité), le calcul matriciel pseudo-inverse conduit à des modèles
instables. Une autre contrainte importante est que la MLR ne peut pas être calibrée si le nombre
d’échantillons est inférieur au nombre de variables. Ces deux limitations sont très souvent
rencontrées en spectroscopie ou en imagerie où les variables sont nombreuses et fortement
colinéaires. Ainsi, d’autres méthodes de modélisation doivent être adoptées pour ce type de
données.

III.2 PCR – Principal Component Regression

Afin de pallier aux problèmes inhérents de la méthode MLR, c’est-à-dire la gestion de données
colinéaires et/ou de données pour lesquelles le nombre de variables est supérieur au nombre
d’échantillons, il est possible de procéder en deux étapes :

 La première étape consiste à appliquer une ACP sur X et à en extraire k composantes


informatives (non bruitées)
 Les scores ainsi extraits peuvent alors être utilisés dans une MLR à la place de X

Cette méthode est appelée Régression sur Composantes Principales (PCR). Son inconvénient est
que les composantes extraites par l’ACP ne sont pas calculées en fonction de leur lien avec le
paramètre y mais uniquement en fonction de la variance maximale de X. Le paramètre y n’étant
pas toujours lié aux variations les plus importantes dans X, les modèles ne sont donc pas toujours
très performants.

19
III.3 PLS – Partial Least Square Regression

Des méthodes quantitatives, la Régression aux Moindres Carrés (PLS) est la méthode la plus
utilisée en chimiométrie.

Plutôt que de calculer les composantes en utilisant uniquement la variance de X, ce que fait
l’ACP, la PLS prend en compte la covariance entre les variables X et les variables Y, c’est-à-dire
les variances de X et Y et la corrélation entre X et Y. Les composantes, appelées ici variables
latentes (LV), sont donc construites de façon à modéliser Y. Cette méthode est donc généralement
plus performante que la PCR.

Plus le nombre de variables latentes est faible, plus le modèle est robuste, c’est-à-dire stable vis
à vis de perturbations extérieures ,mais plus il risque d’être sous-ajusté. Il est donc nécessaire de
bien choisir le nombre de variables latentes afin de créer un modèle performant et robuste.

IV. Les méthodes de discrimination supervisée

IV.1 SIMCA – Soft Independent Modelling of Class Analogy

SIMCA – (Soft Independent Modelling of Class Analogy) est basée sur l’ACP (Analyse en
Composantes Principales) et convient donc aux données de grande dimension.
Chaque classe k est modélisée par une ACP spécifique. Cette ACP permet de modéliser la
variance intra-classe. Puis, pour chaque modèle, un intervalle de confiance est créé pour définir
la limite d’appartenance de la classe. Cette limite peut être basée sur la distance euclidienne des
résidus X (notée Q), sur le levier (ou de façon équivalente le T² de Hotelling ou la distance de
Mahalanobis) ou, le plus souvent, sur la combinaison de ces deux critères.
Un échantillon inconnu est ensuite classé dans la classe k s’il se situe dans les limites de la
classe. Un échantillon peut être affecté à plusieurs classes si elles se chevauchent ou sont très
proches les unes des autres, ou bien à aucune des classes et, dans ce cas, il est possible de
considérer une « classe de rejet ».
L’avantage de SIMCA par rapport à d’autres méthodes de discrimination est qu’il est très facile
de rajouter de nouvelles classes. En effet, les modèles ACP sont réalisés par classe,
indépendamment des autres classes.
Cette méthode fonctionne très bien pour l’authentification de produits qui présentent des valeurs
X bien différentes. En revanche, lorsque les signaux sont très proches, des méthodes basées sur
les différences inter-classes seront préférables.

IV.2. PLS DA – PLS Discriminant Analysis

La PLS-DA est une méthode dérivée de la PLS qui permet une analyse qualitative ou analyse
discriminante.
Comme pour la PLS, la construction du modèle PLS-DA est basée sur la covariance de X et de Y.
Mais contrairement à la PLS, les Y de la PLS-DA ne sont pas des valeurs continues. Chaque
20
colonne de Y correspond à une classe et contient 1 si l’échantillon appartient à la classe, ou 0
sinon (codage disjonctif complet).
La PLS-DA se focalise donc sur la séparation des classes contrairement à la méthode SIMCA. En
revanche, si les classes sont très hétérogènes cela peut compliquer la modélisation car tous les
échantillons de la classe se voient attribuer la même valeur quantitative.
Les prédictions sont des valeurs continues car le modèle reste tout de même une PLS. Un nouvel
échantillon sera attribué à la classe si celui-ci présente une prédiction proche de 1 pour la
colonne associée. Un seuil est généralement établi pour décider si l’échantillon est attribué ou
non à la classe, comme le montre la figure.

V. Les méthodes de Machine Learning

V.1. SVM – Support Vector Machines

La méthode des SVM (Support Vector Machines) est la plupart du temps utilisée pour les
problématiques non-linéaires ou complexes. Elle est basée sur la recherche de frontières pour la
séparation de deux classes. Ainsi, seule une partie des échantillons d’étalonnage est réellement
utilisée : il s’agit des vecteurs supports délimitant les frontières.
Les données sont transformées dans un nouvel espace, appelé noyau (kernel), qui permet de
modéliser la non-linéarité. En étalonnage, cette matrice est de dimension NxN. Le noyau le plus
courant est le noyau gaussien qui nécessite un paramètre d’optimisation de la largeur de la
gaussienne (sigma) qui permet d’ajuster le degré de linéarité. La méthode SVM nécessite
également l’optimisation d’un paramètre de régularisation qui permet d’éviter le sur-
apprentissage (C ou cost). Le réglage de ces deux paramètres est crucial pour obtenir un modèle
à la fois performant et robuste.
Bien qu’à l’origine créées pour la classification, les SVM ont été étendues à la régression. Il
existe notamment deux méthodes : la SVM-R et la LS-SVM.

21
V.2. ANN – Réseaux de Neurones Artificiels

Les réseaux de neurones artificiels (ANN), ou shallow networks (pour les différencier des
méthodes de deeplearning), sont des outils de modélisation mimant le principe biologique des
neurones.
Le Réseau de Neurones Artificiels le plus utilisé est le Multi-Layer Perceptron (MLP). Il est
organisé sous formes de couches de neurones interconnectés (fullyconnected), avec, a minima 3
couches :
 1 couche d’entrée correspondant aux variables X (1 neurone par colonne)
 1 ou plusieurs couche(s) cachée(s) de k neurones qui correspondent aux poids qu’il faudra
entrainer pour réaliser le modèle
 1 couche de sortie qui correspond aux Y (1 neurone par colonne).

Les Y peuvent correspondre à des valeurs quantitatives à prédire ou à des classes selon le type de
réseau développé. Les ANN sont des méthodes non-linéaires stochastiques, c’est-à-dire que
chaque processus de modélisation aboutira à un résultat différent, il est généralement conseillé
de réaliser plusieurs itérations.
Les non-linéarités sont gérées par l’utilisation de fonctions d’activation à la sortie de chaque
neurone de la couche cachée. Ces fonctions d’activation peuvent être de différentes sortes
(tangente, sigmoïde, …).
Les poids sont ajustés en parcourant plusieurs fois chaque échantillon de la base d’étalonnage.
Un critère d’arrêt est alors nécessaire pour éviter le sur-apprentissage. Ces méthodes sont donc
à utiliser avec précaution, mais des astuces de modélisation permettent d’obtenir des modèles
robustes.

22
V.3. CART – Classification And RegressionTrees

Les modèles CART (Classification And RegressionTrees) fonctionnent selon des séparations
séquentielles dichotomiques du jeu de données, sous forme d’arbre.

À chaque nœud de l’arbre, une variable est sélectionnée selon son intérêt prédictif, et le seuil
optimal de séparation est calculé. Les échantillons ayant une valeur inférieure au seuil sont
dirigés sur la gauche de l’arbre et ceux supérieurs ou égaux au seuil sur la droite. Puis, chaque
sous-partie est à nouveau divisée en deux à partir d’une nouvelle variable (qui peut être
identique ou différente). Ce procédé est réalisé jusqu’à ce que l’ensemble des échantillons se
retrouve séparé ou qu’un minimum par feuille (nœud terminal) est atteint.

Dans le cas d’un modèle de discrimination, un nouvel échantillon sera attribué à la classe
majoritaire de la feuille dans laquelle il tombe après avoir parcouru l’arbre. Dans le cas d’un
modèle de régression, la valeur attribuée est la moyenne des échantillons de la feuille.

V.4. Random Forests (forêts aléatoires)

Une amélioration de cette approche, les « RandomForests », permet de palier aux problèmes de
sur-apprentissage inhérents à la méthode CART.
Le principe est de réaliser plusieurs arbres à partir d’un échantillonnage bootstrap des données
initiales, aussi bien sur les échantillons que sur les variables. Lorsqu’un nouvel échantillon est
soumis à la forêt, sa prédiction finale correspond à la moyenne des prédictions de l’ensemble des
arbres dans le cas d’une prédiction quantitative, et à la classe majoritaire dans le cas d’une
classification. Les méthodes basées sur la génération de plusieurs modèles sont regroupées sous
le terme des « ensemble methods », les RF en font partie.
Les RF permettent à la fois de modéliser de fortes non-linéarités et de gérer les distributions
asymétriques des variables X. Elles permettent également d’utiliser des variables catégorielles en
entrée (tout comme CART) en combinaisons des variables quantitatives discrètes ou continues.
Plusieurs paramètres sont à optimiser dont, le nombre d’arbres dans la forêt, le nombre de
variables à tirer aléatoirement à chaque nœud, et le nombre d’échantillons minimum par feuille.

V.5. Boosting
23
Les méthodes de Boosting, tout comme les RandomForests, font partie des ensemble methods. En
revanche, contrairement aux RF, les modèles de boosting sont réalisés de façon séquentielle.
Les méthodes les plus classiques utilisent des arbres successifs de type CART peu profonds, mais
il est possible d’appliquer le même principe avec d’autres méthodes comme par exemple des
SVM. La librairie la plus connue est XGBoost, elle regroupe plusieurs méthodes de boosting.
Dans le cas de la régression, on peut citer la méthode LSBoost, dont le principe est de réaliser un
premier arbre pour modéliser Y. Le deuxième arbre est ensuite construit afin de prédire le résidu
de Y (auquel une partie du Y initial est rajouté de façon à réaliser un apprentissage plus
progressif), et ainsi de suite jusqu’à obtenir un nombre suffisant d’arbres pour obtenir un modèle
performant.
Dans le cas de la discrimination, l’algorithme AdaBoost procède par pondération des
échantillons mal classés. Un premier arbre permet de réaliser une première séparation des
classes. Les échantillons mal classés se voient alors attribuer un poids plus important avant de
construire l’arbre suivant afin que ce dernier puisse se focaliser sur les échantillons
problématiques. Le procédé est répété jusqu’à obtenir un modèle performant.
Les résultats des différents arbres sont combinés pour obtenir la prédiction finale.

VI. Les méthodes de Deep Learning


VI.1 CNN – Convolutional Neural Network

La méthode des Convolutional Neural Networks (CNN) est la plus répandue du domaine du
deeplearning. Elle fait partie des réseaux de neurones profonds, il y a donc de grandes
similarités avec les réseaux de neurones déjà cités plus haut.

Cette méthode a été initialement développée pour la reconnaissance d’images. L’idée est
d’ajouter des couches de convolution en amont des couches « classiques » des ANN, dans
l’objectif d’extraire automatiquement (par apprentissage) des caractéristiques (features)
informatives pour l’objectif recherché. Pour l’analyse d’images, ces couches convolutionnelles
(combinées à d’autres paramètres : pooling, reLu, …) permettent de s’affranchir notamment de
la position de l’objet et de sa taille dans l’image afin de réaliser des modèles robustes. De
nombreux paramètres sont à définir : le nombre et la nature des couches, la taille des filtres, le
nombre de neurones des couches cachées, … Elle requiert ainsi un nombre très important
d’échantillons pour permettre d’entrainer une très grande quantité de poids sans sur-
apprentissage. La complexité de cette méthode en fait cependant un outil très puissant.

Ce type de méthode peut également être étendu à d’autres types de données comme par exemple
des données spectroscopiques, en ajustant les paramètres de façon adéquate.

24
VII. Les prétraitements
VII.1. Prétraitements spectroscopiques

Les données spectroscopiques présentent des particularités qui nécessitent un minimum de


savoir-faire avant de pouvoir les utiliser dans un modèle. Elles sont sujettes à des variations de
signal dues à des effets indésirables dont la plus répandue est la diffusion de la lumière causée
par la structure physique de l’échantillon. Cela est notamment le cas sur les spectres proche
infrarouge et dans le domaine du visible. D’autres types de spectroscopies, comme par exemple
le Raman, présentent aussi des perturbations indésirables comme la fluorescence, entrainant de
fortes lignes de bases masquant les pics informatifs.
Ces variations peuvent être importantes si le paramètre d’intérêt à modéliser est de nature
physique (structure de l’échantillon, taille de particules, …), mais elles sont en général
indésirables pour la prédiction de propriétés chimiques.
Des méthodes de correction des effets additifs et multiplicatifs sont alors appliquées de façon à
atténuer ces effets indésirables et ainsi aider les modèles à se focaliser sur la partie informative
dans le spectre.
Dans les prétraitements les plus connus on retrouvera notamment : les corrections de ligne de
base (detrend), la Standard Normal Variate (SNV), la Multiplicative Scatter Correction (MSC),
les dérivées première et seconde (Savitzky-Golay, Norris Gap), le lissage pour diminuer le bruit,

D’autres méthodes plus avancées peuvent également être utilisées : l’Extended-MSC (EMSC),
les méthodes d’orthogonalisation (EPO, EROS, DOP, …), …

VII.2. Réduction de dimensions

Les signaux spectraux sont de nature continue et sont donc colinéaires. Ils présentent également
très souvent un très grand nombre de variables. Certaines méthodes ne seront donc pas
appropriées, comme par exemple la MLR ou encore des méthodes pour lesquelles le sur-
apprentissage peut être critique si le nombre de variables est important comme par exemple les
ANN (plus de poids à entrainer). Il est ainsi assez courant d’appliquer des méthodes de réduction
de dimensions avant d’utiliser ce type de modèles.

25
La plus simple étant d’appliquer une ACP et d’en extraire k composantes, supposées informatives
(non bruitées). Ces composantes étant ensuite utilisées comme variables prédictives dans la
méthode choisie.

Il est également possible de réaliser par exemple une PLS ou une PLS-DA (selon si l’on souhaite
réaliser un modèle de régression quantitative ou une discrimination), de façon à extraire des
composantes plus informatives que celle issues d’une ACP.

VII.3. Sélection de variables

La sélection de variables peut avoir plusieurs avantages dont notamment :

 Principe de parcimonie : un modèle moins complexe est un modèle plus robuste


 Peut faire office de méthode de réduction de dimensions (attention tout de même à la
méthode utilisée par la suite si les longueurs d’onde extraites sont corrélées entre elles)
 Permet de conserver uniquement les longueurs d’onde ou les plages de longueur d’onde
informatives et non bruitées. Cela simplifie le modèle et peut le rendre plus performant du fait de
l’élimination de zones indésirables
 Peut permettre de choisir quelques longueurs d’onde pour développer un instrument
multi-spectral plus simple

La méthode la plus efficace serait de pouvoir tester toutes les combinaisons de variables
possibles. Malgré les avancées au niveau des puissances de calcul des ordinateurs, ce procédé
n’est pas réellement envisageable si le nombre de variables est important. Des stratégies doivent
alors être mises en place afin de diminuer le nombre de combinaisons à tester. Quelques
méthodes sont citées à titre d’exemples mais il existe de nombreuses autres méthodes de sélection
de variables.
 La sélection pas à pas
La sélection de variables pas à pas (ou stepwise) peut être réalisée soit de façon forward en
sélectionnant une à une les variables informatives, soit de façon backward en éliminant une à une
les variables non informatives, soit en combinant les deux approches.
Dans le cas de la sélection forward, le principe est de réaliser un modèle sur chacune des
variables, et celle aboutissant aux meilleures performances est sélectionnée. A l’étape suivante,
la combinaison 2 à 2 de cette première variable avec toutes les autres variables permet de
sélectionner une deuxième variable, … On procède ainsi jusqu’à sélectionner k variables ou
jusqu’à ce que les performances atteignent un minimum.

Dans le cas de l’interval-PLS (iPLS) on privilégie généralement la sélection de bandes


spectrales contiguës plutôt que des longueurs d’onde isolées. Tout dépend bien entendu de
l’objectif recherché.

 Les algorithmes génétiques


La méthode des algorithmes génétiques est une méthode basée sur le principe de l’évolution
darwinienne. L’idée est de considérer que chaque variable possède k gènes qui sont, soit activés
(1), soit désactivés (0). Au démarrage, les gènes sont activés de façon aléatoire, puis k modèles
26
sont réalisés sur les k subsets de variables actives. Les k/2 subsets de variables les moins
performants sont éliminés. Pour les k/2 restants, des croisements sont réalisés en interchangeant
des portions de gènes entre eux (single ou double cross-over breedings).
Chaque subset est également soumis à une probabilité de mutation aléatoire en activant ou
désactivant certaines variables. A la fin de cette étape, à nouveau k subsets sont obtenus et ré-
évalués. Ce procédé est itéré jusqu’à l’obtention du critère d’arrêt. Au fil des itérations, les
variables les plus informatives sont identifiées et conservées.
Il est possible de considérer des zones spectrales à la place de variables uniques dans le cas de
données spectroscopiques.
Cette méthode est une méthode stochastique. Ainsi, à chaque fois que la méthode est lancée, un
résultat différent peut être obtenu.

VIII. Les méthodes de supervision de procédés


VIII.1. MSPC – Multivariate Statistical Process Control

Les méthodes de Maîtrise Statistique de Procédés (MSP ou ou StatisticalProcess Control – SPC)


sont largement utilisées dans le but de suivre un procédé et de détecter d’éventuelles anomalies
ou dérives. La SPC a cependant l’inconvénient de ne regarder qu’un seul paramètre à la fois, ce
qui rend le contrôle compliqué si le nombre de paramètres à suivre est important; mais cette
méthode est également moins fiable car elle ne prend pas en compte les interactions entre les
diverses variables du procédé.

La MSPC (MultivariateStatisticalProcess Control) permet de contrôler les procédés de façon


multivariée en prenant ainsi en compte la globalité du procédé. Elle est généralement basée sur
l’ACP, mais d’autres méthodes peuvent également être utilisées. Les statistiques de levier et de
résidus sont suivies afin de détecter d’éventuels problèmes. Les valeurs au-delà des intervalles de
confiance statistiques sont considérées comme des anomalies. Il est ensuite possible de revenir
sur la ou les variable(s) à l’origine de l’anomalie afin de diagnostiquer le problème et de pouvoir
intervenir rapidement sur le procédé.
27
La MSPC peut être réalisée sur des données spectroscopiques (Proche infrarouge, Raman, …),
paramètres procédés (température; pression) ou analytiques (concentrations, …), ou bien sur une
combinaison des deux.

VIII.2. BSPC – Batch StatisticalProcess Control

La BSPC (Batch StatisticalProcess Control) est l’équivalent de la MSPC mais pour le contrôle
de procédés en batch. Le système est donc plus complexe.
La méthode la plus classique est généralement de comparer les nouveaux batch à un « golden
batchs », qui représente un lot de référence pour lequel les conditions sont maitrisées et
optimales. Ce « golden batch » représente la trajectoire idéale ou standard. Les batchs déviant
de cette trajectoire peuvent ainsi être détectés, de la même façon que pour un modèle MSPC en
suivant les scores, et/ou les résidus et le levier. Il doit donc être bien défini à partir de plusieurs
28
batchs réalisés en conditions standard afin de réaliser un modèle robuste avec des intervalles de
confiance pertinents.

Bien que l’ACP soit la méthode la plus courante, des méthodes multivoies peuvent également être
utilisées pour suivre le procédé, comme par exemple la méthode PARAFAC, les données sont en
effet de nature organisées en 3 dimensions : batch x temps x variables.

La BSPC fait appel à divers challenges en termes de traitement de données, dont notamment le
recalage temporel des batchs de façon à bien pouvoir les comparer entre eux (durée différente,
étapes-clés intervenant à différents moments dans le temps, …). Plusieurs méthodes permettent
de gérer ce problème selon le cas étudié : synchronisation, déformation temporelle,
normalisation, index de maturité, …. Cette étape est cruciale lorsque l’objectif est de comparer à
un « golden batch » et/ou lorsque des méthodes multivoies sont utilisées.

-----------------------------------------------------------------------------------------------------------

29

Vous aimerez peut-être aussi