Académique Documents
Professionnel Documents
Culture Documents
1. INTRODUCTION
La chimiométrie est un outil utilisé afin d’extraire de l’information pertinente et utile à partir de données physico-
chimiques mesurées ou connues brutes. Il est basé sur la construction, puis l’exploitation d’un modèle de comportement
à l’aide d’outils statistiques. Il peut traiter des systèmes complexes et donc généralement multivariables.
Le terme « chimiométrie » vient de l’anglais « chemometrics », jeune discipline associant initialement analyse de
données et chimie analytique. Aujourd’hui, il recouvre l’ensemble des applications de la chimie, de la physique, des
sciences de la vie, de l’économie, de la sociologie, des méthodes statistiques et de l’informatique.
Aussi, on lui préfère souvent le terme moins restrictif (par rapport à la chimie) «d’analyse multivariable »
(« multivariate analysis »), voire de reconnaissance de forme au sens large (« pattern recognition »).
Nous nous intéresserons plus particulièrement aux applications « originelles » de la chimiométrie dans le domaine
de la chimie analytique, et plus particulièrement des multicapteurs ou capteurs multivariables.
La chimiométrie (ou analyse multivariable) en instrumentation consiste à modéliser les variations d’un certain
nombre de variables, que nous appellerons Yvariables dont l’obtention est délicate (nécessitant une analyse chimique
par exemple) en fonction d’autres variables appelées Xvariables mesurables «facilement » (mesure de capteurs
physiques par exemple) afin de pouvoir se passer ultérieurement de l’obtention des premières.
On distingue 2 opérations:
- L'étalonnage en laboratoire (ou modélisation) où toutes les mesures de variables doivent être réalisées et où le
modèle (ou « prédicteur ») est calculé. Attention, ce terme se traduit en anglais par « calibration », à ne pas confondre
avec le « calibrage » d’un instrument qui est le recalage à l’aide d’un ou deux mesurages (« gauging » en anglais).
- La prédiction, utilisation courante « sur le terrain », où seules les variables X « faciles » sont mesurées, les autres,
Y, étant calculées à l’aide du modèle.
Variables X Variables X
mesurées mesurées
(capteurs) (capteurs) Calcul de
Calcul de
prédiction
modélisation
Variables Y Prédicteur
mesurées
(analyses)
Estimation des
Prédicteur variables Y
Soient m échantillons, dits d'étalonnage, chacun , chacun étant caractérisé par c Yvariables caractéristiques, par
définition non « facilement » mesurables directement (par exemple des concentrations chimiques), mais dont une
évaluation y j est supposée connue pendant la phase d'étalonnage:
( )
Y = y ij , 1≤ i ≤ m 1≤ j ≤ c
Par contre, n Xvariables sont « facilement » mesurables (par exemple des tensions), leur mesure est appelée xk:
X = (xki ), 1≤ i ≤ m 1≤ k ≤ n
Le problème consiste, à partir de ces échantillons d'étalonnage, à trouver un modèle, c’est à dire une fonction
multivariables F telle que pour tout autre échantillon on puisse évaluer, à partir des seules Xvariables X :
Y = F(X) où F est appelé prédicteur.
Deux types de modèle sont envisageables :
- Le « modèle de connaissance », réalisé à partir des connaissances physico-chimiques que l’on a du
problème. Mais cette approche, déjà complexe et approximative (d’un point de vue instrumentation) lorsqu’il
s’agit d’exprimer les Xvariables en fonction des Yvariables, s’avère généralement impraticable dans le cas
inverse (celui qui nous intéresse : Y=F(X)), notamment à cause de la complexité des fonctions, du bruit de
mesure et des effets d’impuretés non mesurés. On lui préfère classiquement :
- Le « modèle de comportement » : On ne s’intéresse qu’au modèle mathématique permettant de reproduire
« au mieux » les relations entre X et Yvariables d’étalonnage. La connaissance physico-chimique du
problème n’est alors plus nécessaire, c’est un modèle du type « boite noire ».
Toutefois il est généralement préférable dans le cas du modèle de comportement qu’un minimum de connaissance
théorique soit disponible (du genre « le problème est-il linéaire ? ») Mais nous verrons à la fin du chapitre que les réseaux
neuronaux permettent de se passer complètement du modèle de connaissance.
1.2. Exemples:
U
I
On peut alors faire une estimation des valeurs de E et de r par "régression linéaire", en tenant compte de tous les
couples (U, I) pour une meilleure précision. On a alors une connaissance quantitative du phénomène. De plus, on
peut par la suite calculer la valeur de U à partie de la seule mesure de I (phase prédiction).
Il s'agit ici "d'analyse mono variable".
La spectrophotométrie cocnsiste à mesurer à travers une solution contenant un composé dissous absorbant la
lumière, "l'atténuation" de l'intensité d'une source lumineuse: on appelle absorbance à la longueur λk la grandeur:
I
Ak = log 10 k ref où Ik ref est l’intensité de référence.
Ik
2
La loi de Beer Lambert nous indique que cette grandeur est proportionnelle à la concentration du composé:
Ak = m k C
Si on mélange plusieurs composés, les absorbances sont additives:
L'analyse multivariable permettra, après étalonnage avec des échantillons de concentrations connues, de
trouver les concentrations d'autres échantillons à partir des seules mesures d'absorbances.
C’est probablement l’utilisation la plus classique de la chimiométrie, aussi, tous les exemples l’utiliseront, la
matrice A des absorbances sera celle des Xvariables et la matrice C des concentrations celle des Yvariables.
On désire trouver Y=F(X) le "plus précisément possible". On peut donc écrire, pour les échantillons d'étalonnage:
Y=F(X)+E
où E est la matrice d'erreur sur les variables Y que l'on désire minimiser:
(
E = Y − F ( X ) = y ij − f j ( x1i ,..., x ij ) minimale (?) )
Le concept de minimisation d'une matrice nécessite d'introduire une distance. On utilise généralement la distance
Euclidienne:
∑(y )
2
− f j ( x1i ,..., x ki )
i
j minimale
i,j
(D'où le nom de méthode des "moindres carrés"; en fait, d'autres types de distances pourraient faire l'affaire, mais
alors le cas linéaire n'aurait pas de solution analytique simple)
Supposons, pour simplifier la formulation qu'il n'y ait qu'une variable y.
La forme générale des fonctions f est supposée connue. On doit donc trouver les constantes a1,...,aq,...,ap qui les
caractérisent quantitativement, et donc telles que:
∑(y )
2
i
− f ( a1 ,..., a p , x1i ,... , x ki ) minimale
i
2
(
∂ ∑ y i − f ( a1 ,..., a p , x1i ,..., x ki )
i
)
Donc, pour tout q, 1 ≤ q ≤ p, =0
∂a q
On obtient donc p équations à p inconnues dont la résolution littérale est impossible dans le cas général.
3
2. Cas particulier: cas linéaire
Les relations entre les X et les Y sont linéaires et les ap forment une donc matrice A:
Y=XA + E
soit: y ij = ∑ x ik a kj + e ij
k
y i = a0 + ∑ a k x ik
k
Ce cas peut se résoudre directement par la méthode des moindres carrés, mais on préfère
généralement prendre les variables dites centrées:
y* = y − y
x * = x − x, y et x étant les valeurs moyennes d' étalonnage
On a alors: y i* = ∑a k x ki*
k
Remarque 2
Les variables y1...y j, ou x1…xk, ne sont pas forcément du même ordre de grandeur, ni même
homogènes: on doit donc parfois les normer avant le étalonnage, c'est à dire les diviser par la racine
carrée de la moyenne de leur carré (norme):
y ij
yˆ = i
j
1
∑
n i
( y ij ) 2
Il est donc souvent (mais pas toujours…) préférable de normer puis centrer toutes les variables (A et C) avant
étalonnage. Après la prédiction, les variables C calculées devront donc être décentrées et dénormées avec les valeurs de
moyenne et de norme obtenues lors du étalonnage.
Dans d’autres cas, afin de donner moins d’influence aux variables « bruitées », on norme en divisant par l’écart
type des variables.
4
x11 L x1m x 11 L x n1 ∑ ( x1 ) ∑x
i 2
L x1i
i
n σ 2 ( x1 ) L Cov( x1 , x n )
X T X = M O M M O M = = (n − 1)
i i
M O M M O M
x 1 L x m x m L x m Cov ( x , x ) L
n n 1 n ∑
i
x1i x in L ∑ ( x in ) 2
n 1 σ 2
( x n )
i
Cette matrice symétrique, qui comporte les variances des Xvariables (ou Yvariables) sur la diagonale et les
covariances ailleurs, est appelée matrice des covariances. Elles importante car elle contient des information importantes
et surtout les méthodes de régressions imposent d’inverser soit X’X soit Y’Y
Si 2 colonnes de X sont colinéaires, c'est à dire si pour tous les échantillons 2 variables xk ont des valeurs
proportionnelles, la matrice de covariance ne sera pas inversible.
Aki = C ij .K kj
Matrice des absorbances Matrice des coefficients de Beer-Lambert
Matrice des concentrations
La loi de Beer Lambert servira de support pour la suite de l'exposé, mais les applications de l'analyse multivariables
ne se limitent pas à la colorimétrie et sont innombrables.
La loi de Beer-Lambert est linéaire, on peut l’écrire de façon inversée (d’où le nom de la méthode, la méthode dites
« classique», plus complexe, est expliquée plus loin) en exprimant les concentrations en fonction des absorbances:
C = AP + E
Afin d’illustrer la méthode, il est intéressant de faire une représentation dans l’espace dit « des échantillons » :
Supposons que l'on ait 3 échantillons d'étalonnage caractérisés par 2 Xvariables absorbances A1, A2 et une
Yvariable concentration C. On peut représenter chacune de ces variables par un vecteur dans "l'espace des échantillons"
où chaque dimension du repère représente un échantillon, on a donc ici un espace de dimension 3 représenté en
perspective. Les 3 composantes de chaque vecteur (A ou C) représentent les valeurs de la variable pour les 3
échantillons. Ainsi, 2 variables indépendantes auront pour représentation 2 vecteurs orthogonaux:
5
A1
r r E
α1 A1 + α2 A2
A2
Lorsque l’on fait un régression linéaire (régression de C sur A), on cherche à écrire C sous forme d’une
r
combinaison linéaire de A1 et A2 (c=α1A 1+α2A 2) : la chose est à priori impossible puisque C n'est pas dans le plan
r r r r
( A1 , A2 ) , mais on va s'en approcher en minimisant le vecteur E , différence entre C et la combinais on linéaire
r r r r r
approchée (dans le plan ( A1 , A2 ) ). E sera minimal quand il sera orthogonal au plan ( A1 , A2 ) , et la « modélisation » de
r
C sera sa projection sur ce même plan.
r r
On remarque alors que faire une régression de C sur A consiste à projeter C sur le plan des A . P est alors la
r
matrice de projection dans le plan des A .
r r r
L'étalonnage sera d'autant meilleur que C sera près du plan des A . E représente les variations de C non corrélées
avec celles de A et donc pas expliquées par le modèle, on l’appelle « résidus d’absorbance ».
On minimise ici l'erreur E sur les concentrations, on régresse donc les concentrations sur les absorbances . On peut
montrer que la matrice P, opérateur projection, s’écrit :
6
Application : impuretés dans l’eau : Les acides humiques
50
0
0 50 100 150
Concentration réelle
3 courbes de prédictions :
- une avec des nitrates et des acides humiques, ces derniers n’étant pas présents pendant l’étalonnage: pas
terrible !
- la même mais les acides humiques étaient là pendant l’étalonnage: c’est mieux…
- même chose mais avec des impuretés inconnues lors de l’étalonnage: ça recommence !
Inconvénients :
La matrice A’A , qui est la matrice de covariance des absorbances, doit être inversée :
On doit donc avoir :
Nombre de longueurs d’onde ≤ nombre d’échantillons (voir annexe)
Il faut donc préparer au moins autant d'échantillons qu'il y a de longueurs d'onde. Or, sur les spectrophotomètres
modernes à CCD ou à barrettes de photodiodes, le nombre de longueur d’ondes est important (100 ou 1000), et il hors de
question de réduire le nomb re de Xvariables par filtrage ou sélection car il y aurait perte d’une information précieuse.
De plus, si des absorbances de longueurs d'onde trop voisines sont "presque" colinéaires, A'A, même si elle est
mathématiquement inversible, aura un déterminant faible. La matrice P aura alors des coefficients de forte valeur (en
valeur absolue) et il y aura des problèmes d'instabilité lors de la prédiction.
Ces inconvénients sont en partie éliminés par la méthode CLS :
2.2.2. Deuxième méthode: CLS (Classic Least Squares) ou Kmatrice, ou MLR (Multiple Linear Regression):
Lorsqu’on écrit la relation de Beer-Lambert A=CK, on observe que celle-ci exprime les Xvariables en fonction des
Yvariables, elle ne permet donc pas l’évaluation directe des Yvariables (concentrations). Nous allons contourner le
problème en 2 étapes:
La première étape consiste en l’évaluation de la matrice K des coefficients de Beer Lambert
A=CK+E
On va minimiser E, c'est à dire les erreurs sur les absorbances, on va donc régresser A sur C.
On obtient alors la matrice K:
K=(C'C)-1C'A
7
En phase prédiction, nous avons: A=CK, mais c'est la matrice C que l'on veut déterminer.
Or K est généralement non carrée donc non inversible. On peut quand même écrire:
C = AK'(KK')-1 = AM
8
X
noirs) par régression polynomiale dont on va choisir le degré p:
P=1 : l’erreur de modélisation (différence avec la loi réelle) est forte, le modèle est trop simple, on fait de la
surmodélisation
P=5 : par rapport aux échantillons, c’est excellent, mais l’erreur de modélisation est très importante : on fait de
la surmodélisation.
P=2 : semble être un bon compromis.
Remarque : Si l’on rajoute des points expérimentaux (points gris), alors même un polynôme de degré 5 sera très
proche de la courbe réelle, donc le danger de surmodélisation diminue lorsque le nombre d’expériences (ou
échantillons) d’étalonnage augmente.
Surmodélisation et erreur liée à la mesure :
Lorsque l’on effectue le calcul de prédiction, à partir du modèle et des Xvariables, l’erreur aléatoire de mesure sur
les Xvariables (caractérisée par l’incertitude) se propage à travers le modèle et contribue (avec l’erreur de modélisation) à
l’erreur sur les Yvariables. Cette composante d’erreur est appelée « erreur liée à la mesure ».
On peut constater, lors de la prédiction, que même si le modèle est correct physiquement (erreur de modélisation
négligeable) plus un modèle est complexe, plus les erreurs (relatives) liées à la mesure seront amplifiées lors du calcul
des Yvariables :
∆Ymes ∆X
=α , α augmente lorsque la complexité du modèle augmente.
Y X
optimale
3 2: Erreur de modélisation
Toutefois, les effets de la sur-modélisation, prépondérant si les échantillons d’étalonnage sont peu nombreux,
tendent à diminuer si l’on en dispose de beaucoup, ce qui est alors coûteux en temps et en argent.
A l’opposé, si le modèle est trop simple, il y aura peu de propagation de l’erreur de mesure, mais il sera peu
performant en prédiction car il ne reflétera pas suffisamment la réalité physique, on parle alors de sous-modélisation.
Ainsi, cette modélisation aboutit à un compromis entre un modèle simple et robuste (tolérant vis à vis des erreurs de
mesure) mais peu précis et un modèle complexe, précis mais fragile.
Il apparaît donc intéressant de pouvoir choisir la complexité du modèle en fonction du phénomène étudié et des
qualités métrologiques des mesures.
Remarque: Ces considérations sur la sur ou sous-modélisation, bien que comprises dans le chapitre « linéaire »,
ont un caractère plus général, comme on pourra le constater avec les réseaux neuronaux.
9
2.3. B - L'analyse de facteurs:
L'analyse de facteurs consiste à faire un changement de variable au niveau des Xvariables. On prend alors, comme
nouvelles Xvariables, des combinaisons linéaires des anciennes, en nombre réduit afin de « concentrer » l'information
utile.
Il y a, initialement, n Xvariables, généralement plus ou moins corrélées entre elles. Le but est de trouver de
nouvelles variables indépendantes indépendantes par changement de base, avec réduction de la dimension. Ces
variables sont appelées facteurs ou variables latentes et leur valeur pour un échantillon donné, score.
matrice de
changement de
base B
A T
dimension n, dimension h n,
variables variables
corrélées indépendantes
Si h=n, il n'y a pas de réduction de données, le problème est équivalent au précédent et la méthode a peu d'intérêt.
Il y a plusieurs méthodes pour déterminer la matrice de changement de base B ("Loadings vecteurs") qui seront
explicitées plus loin.
Pendant la prédiction, le changement de base permettant de connaître les scores T se fait comme suit:
T=B*A (B matrice h*n)
Il est clair que comme h<n, il y aura perte d'information lors du passage de A à T. On va donc faire en sorte que
cette information perdue soit le moins possible de l'information utile:
bruit
info bruit
info
n h n
On peut ensuite calculer les concentrations par régression de T à partir d'une matrice de prédiction V déterminée,
pendant l’étalonnage, par ILS à partir des scores:
C = TV + E
L'intérêt de cette compression de données est que, faute de pouvoir éliminer le bruit de mesure, on s'arrange pour
que l'information utile (qui pouvait être initialement répartie sur tout le spectre) soit dans les premiers facteurs qui seront
10
seuls utilisés. Or le bruit reste également réparti pour tous les facteurs: l'information "abandonnée" n'est donc
pratiquement que du bruit, et on a donc globalement une réduction de celui-ci.
On élimine ainsi les inconvénients et on ajoute les avantages des 2 précédentes méthodes:
-ILS: Le nombre de longueurs d'onde utilisées n'est limité que par la puissance de calcul. Il n'y a plus de
problèmes de colinéarité puisqu'on ne prend que des combinaisons d’absorbances orthogonales entre elles. Le nombre
de facteurs doit toutefois être inférieur ou égal au nombre d'échantillons.
-MLR: Il n'y a pas de problème d'impuretés puisque le prédicteur des concentrations est déterminé par ILS à
partir des scores, donc de façon indépendante pour chaque composé.
Dans les 2 cas, on réduit le risque d'"overfitting" (modélisation du bruit) en réduisant le nombre de variables.
Il existe principalement 2 méthodes d'analyse des facteurs:
Cette méthode utilise la matrice des covariances des absorbances centrées, A'A. Elle part du principe que pour
choisir une nouvelle base de variables indépendantes, il suffit, par définition, que les covariances de ces variables entre
elles soient nulles. La matrice de changement de base est donc la matrice qui va rendre la matrice de covariance
diagonale. Elle est donc construite à partir des vecteurs propres de A'A. Les valeurs propres représentent alors la
variance des scores, et donc leur contribution à la modélisation: Pour effectuer la réduction de données, il suffit alors de
ne conserver que les h scores correspondant aux plus fortes valeurs propres.
σ 2 ( a1 ) L Cov (a 1 , a n ) σ 2 (t1 ) L 0 σ 2 ( t1 ) L 0
M O M → M O M → M O M
Cov( a , a ) L σ 2 ( an ) 0 L σ 2 ( t n ) 0 L σ 2 (t h )
n 1
h≤ n
Cette méthode est très efficace, mais elle ne tient pas compte dans la première phase d’étalonnage, (choix de la
nouvelle base) des informations concentration, qui ne sont utilisées que dans la phase de régression des concentrations
sur les scores.
Il peut pourtant arriver que des variations importantes des absorbances ne soient absolument pas corrélés avec les
concentrations.
On lui préfère donc souvent une méthode plus récente et plus complexe:
Cette méthode, plus récente (1980), consiste à construire ensembles les matrices de changement de base W
("Loadings Vectors") et de prédiction V en utilisant conjointement les absorbances et les concentrations.
Nous n'expliquerons que très schématiquement l'algorithme le plus simple (dit « non orthogonal ») pour 1 seul
composant (PLS1). Pour une explication plus complète ou pour l'algorithme avec plusieurs composants (PLS2), on se
reportera à la littérature (1).
Etalonnage PLS:
A 0 et C0 sont les valeurs initiales d'absorbance et de concentration normées et centrées.
A : matrice m lignes, k colonnes m : nombre d’échantillons d’étalonnage
C : vecteur (1 seul composé) m valeurs k : nombre d’Xvariables (ou de longueurs d’ondes)
(1): Rechercher, en régressant A 0 sur C0, la composante de A la plus corrélée avec les variations de concentration:
A0 = C0W1 + E
11
W 1 sera alors la première composante de la matrice de changement de base W. C'est l'opérateur "projecteur
moyen" de A 0 sur C0 (et qui ne projettera donc probablement pas parfaitement chaque composante de A 0 sur C0)
W1 = (C'0C0)-1C'0A0
A0 = T1W1 +E
(4): Calculer les résidus d'absorbance et de concentration (information non utilisée, orthogonale à la précédente) en
retranchant l'information déjà modélisée:
A1 = A0 - T1W1
C1 = C0 - T1v1
(6): Reprendre en (1) avec ces nouvelles valeurs et continuer à construire W et V jusqu'à atteindre le nombre de
facteurs souhaité.
Il s'agit donc d'une méthode itérative (1 itération par facteur), pour chaque itération, l'information utilisée pour
construire le modèle (info A ou C) est retranchée pour l'itération suivante.
Apres les n itérations, l'information (A ou C) restante est appelée résidu (d'absorbance ou de concentration).
Prédiction PLS: Il s'agit pratiquement de l'opération inverse: On extrait de A successivement les informations
correspondant à chaque facteur avec lesquelles on construit la concentration C (initialement nulle), soit, pour chaque
facteur d'indice a:
ca = ca-1 + Tava
(4): Continuer en (2) avec le nouveau résidu d'absorbance jusqu'à atteindre le nombre de facteurs souhaités.
La concentration finale, après décentrage et dénormage, sera donc la somme des contributions des différents
facteurs.
12
MODELISATION
Absorbances Concentrations
1 1
2 Modèle 2
3 3
4 4
Résidus
5 5
Absorbances
PREDICTION
2 Modèle Concentrations
3 Même ordre
4 de grandeur?
Résidus
5
Cette méthode de prédiction a l'avantage de fournir, en plus de la concentration, les résidus d'absorbances qui
doivent théoriquement être du même ordre de grandeur que ceux obtenus lors de l’étalonnage. L'examen du rapport
(résidu de prédiction / résidu d’étalonnage) pour chaque longueur d'onde peut alors permettre de détecter des anomalies,
notamment la présence d'impuretés non présentes lors de l’étalonnage. On peut alors supposer que le calcul de
prédiction risque d'être erroné.
2 1000
Rapports de résidu d'absorbance
1.8
NO 60 ppm + AH
1.6 100
1.4 NO 80 ppm + AH + Cr
Absorbance
1.2 10
1 Residu 15 ppm
0.8 1
0.6 Résidu 15 ppm + Cr
0.4 0.1
0.2
0 0.01
0
5
5
0
0
34 0
0
7.5
2.5
7.5
24
25
27
29
31
33
37
20
22
nm
En fait, pour chaque calcul de prédiction, on préfère souvent calculer un terme "d'erreur probable" appelé déviation
(cf logiciel "Unscrambler"):
13
2.3.3. Problème commun aux 2 méthodes PCR et PLS : Le choix du nombre de facteurs:
Nous avons vu qu'il était nécessaire d'arrêter la modélisation pour un nombre de facteurs donnant des résultats de
prédiction optimaux. C'est à dire, dans le cas de PLS, quand les résidus d'absorbance deviennent du même ordre de
grandeur que le bruit de mesure, l'information utile ayant été extraite.
Il faut donc, pour chaque nouveau facteur, faire des tests afin de minimiser la variance des erreurs de prédiction.
Ces tests ne doivent en aucun cas être faits avec les échantillons d'étalonnage sinon on trouverait un nomb re de
facteurs optimal égal au nombre maximum de facteurs: On arriverait alors à retrouver les concentrations d'étalonnage avec
précision, le bruit de mesure modélisé étant reconstitué. Mais avec d'autres échantillons, les performances seraient
mauvaises.
Il est donc nécessaire:
- Soit d'avoir un jeu d'échantillons réservés aux tests de prédiction, mais il peut être alors dommage de gaspiller
ainsi les échantillons car l'étalonnage est d'autant meilleur que ceux-ci sont nombreux.
- Soit de faire les tests avec les échantillons auxquels on ajoute un bruit Gaussien (voir bargraph ci-dessous) de
caractéristiques aussi proches que possible que le bruit de mesure. Ces caractéristiques sont relativement difficiles à
trouver.
12.9
10.74
Influence du nombre de facteurs sur l'erreur de prédiction
4.2
30 4.55
E.T. Erreur avec ech. calib.
25 4.85
E.T. erreur avec bruit
5.16
20 5.48
15 6
7.7
10 9.6
5 13.3
16.4
0 16.8
1 2213 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Nombre de facteurs
22.7
- Soit d'utiliser la méthode des validations croisées: Si l'on a m échantillons, on fait m étalonnages avec m-1
échantillons, le dernier étant réservé aux tests. L'étalonnage ultime, avec le nombre de facteur optimal ainsi déterminé, se
fait alors avec les m échantillons.
3.1. Cas où on peut par des transformations se ramener à des fonctions linéaires:
Si les variables x1,...,xn sont séparables, on peut, après les avoir transformées, utiliser les méthodes de régression
linéaire:
y = f ( x1 ,..., x k )
y = a0 + a 11 f 11 ( x1 ) + a12 f 1 2 ( x1 ) +...+a 12 f 21 ( x 2 ) +... a bk k f kbk ( x k )
Il suffit alors de transformer les variables pour l'étalonnage comme pour la prédiction:
14
Cas particulier classique: la régression polynomiale: une seule variable x remplacée par n variables x1...xn:
y = a0 + a1 x + a 2 x 2 +...+a n x n
y = a0 + a1 X + a 2 X 2 +...+a n X n
Cette méthode peut s’appliquer aussi aux Yvariables.
Bien que cela puisse paraître paradoxal pour une méthode basée sur l’algèbre linéaire, PLS (tout comme PCR) peut
modéliser des phénomènes non linéaires.
En pratique, si différentes Xvariables ont des non-linéarités « différentes » dans leur relation avec les Yvariables,
alors la modélisation PLS peut implicitement combiner ces différentes non-linéarités afin d’exprimer une relation linéaire
entre X et Y, et cela sans terme supplémentaire « non linéaire ».
Mais si toutes les relations entre X et Yvariables ont le même type de non-linéarité alors la modélisation rigoureuse
est impossible. Il est souvent possible de s’en rapprocher en ajoutant des termes fonctions non linéaires des Xvariables
comme Xvariables supplémentaires, par conséquent linéairement indépendantes des anciennes (c’est ce qui est fait en
régression polynomiale).
Toutefois, cela se fait toujours au prix d’une complexification du modèle (augmentation du nombre de facteurs), et il
est toujours préférable, lorsque cela est possible, de faire un traitement de linéarisation des X et/ou des Yvariables (c’est
ce que l’on fait implicitement en spectrophotométrie en transformant les intensités lumineuses en absorbances).
Ces méthodes, peu utilisées en chimiométrie sortent du cadre de cet ouvrage, à une exception notable, les réseaux
neuronaux, traités dans le paragraphe suivant.
4. Réseaux neuronaux
Les réseaux neuronaux peuvent être considérés comme un algorithme d'analyse multivariable. C’est en fait un
modèle de comportement universel dans la mesure où il n’est plus nécessaire de faire d’hypothèse mathématique
initiale. Seule la structure du réseau peut changer (nombre et taille des couches intermédiaires, fonctions de transfert).
Variables Variables
RESEAU de sortie
d'entrée
(= cibles)
15
4.1. Structure générale du réseau:
B 2 Fonction de
Offsets: B1 Transfert non linéaire
+ ∑i W 1,k * E i
i
B 1, k
Le réseau de neurones est composé d’une « couche d’entrée » correspondant à l’Xvariable à transformer, d’une couche
de sortie fournissant l’Yvariable modélisée et éventuellement d’une ou plusieurs couches intermédiaires, de tailles
choisies par le modélisateur. Les couches de sortie et intermédiaires sont des combinaisons linéaires de la couche qui les
précède, les coefficients Wi,j étant appelés « coefficients synaptiques ». On ajoute parfois un terme constant Bi appelé
« offset ». Ce qui fait la richesse des réseau de neurones c’est la transformation de cette combinaison linéaire par une
fonction de transfert généralement non linéaire (souvent une fonction sigmoïde, ou bien linéaire tronquée).
On peut remarquer que si la fonction de transfert est linéaire, alors le réseau est équivalent aux méthodes linéaires
décrites précédemment, les couches intermédiaires correspondant aux facteurs. Seul le mode de calcul des coefficients,
itératif et appelé apprentissage ici, est différent.
16
Il est donc conseillé de tester le réseau, en cours de convergence, avec un jeu d’échantillons non utilisés pour
l’apprentissage.
4.3. Prédiction:
On peut alors "exciter » le réseau (W,B) avec de nouvelles Xvariables d'entrée afin de trouver les Yvariables de
sortie correspondantes (à priori inconnues).
Utilisations:
Essentiellement reconnaissance de formes (au sens large):
* spectres, courbes (--> chimiométrie), systèmes multicapteurs.
* images, caractères
* voix, sons...
mais aussi:
* approximation de fonctions
* systèmes experts, intelligence artificielle
5. Conclusion
(
αA + βA' = αa ki + βa 'ik )
A * B = ∑ a ki b jk
i
Transposée: ( )
A = a ik
→ A ' = aik ( )
Soit à résoudre A = C*X, où X est l'inconnue:
Si C est une matrice carrée, (nombre de lignes = nombre de colonnes), on appelle matrice inverse de C la matrice C-1
telle que:
1 0 0
C *C −1
= C * C = Id = 0 O 0
−1
0 0 1
17
C-1 n'existe que si les colonnes de C sont linéairement indépendantes.
alors X = C-1*A
C'C est alors carrée (n * n) et peut-être inversible si ses colonnes sont linéairement indépendantes ce qui impose
R m. (Si 2 colonnes de C sont colinéaires alors C’C ne sera aussi pas inversible). On peut alors écrire:
que nR
X = (C '*C)-1*C'*A, X est appelé pseudo-inverse.
Les différentes valeurs scalaires r1...rn sont appelés valeurs propres de C. Elles sont uniques alors que le vecteur
propre est défini à une constante près. Une condition nécessaire et suffisante pour que C soit inversible ( = non
singulière) est que ses valeurs propres soient toutes différentes de 0.
On appelle base C1 un ensemble de n 1 vecteurs linéairement indépendants pouvant servir de repère dans un espace
de dimension n1. Lorsqu' on change de base C1 à C2 (n 2<=n 1) , le passage des anciennes coordonnées X1 aux nouvelles
coordonnées X2 se fait à l'aide d'une matrice de changement de base M qui est la matrice de projection de X1 sur X2:
X2 = M*X1
7. Bibliographie
1: "Multivariate Calibration" Harald Martens, Tormod Naes ed: John Wiley & sons Chichester
2: "Practical Guide to Chemometrics" Stephen John Haswell ed: Marcel Dekker, Inc New York
3: "Multivariate Statistitcal Methods" A. Primer, Bryan F.J. Manly ed: Chapman & Hall London
4: Techniques de l'ingénieur: optimisation
5: Logiciel MATLAB (distribué par Scientific Software 92 Sèvres) et modules:
- Chemometrics
- Optimization
- Neural network
6: Logiciel Unscrambler (Camo, Lolav Tryggvasons gt.24, N-7011 Trondheim - Norvège)
7 : « La régression PLS, théorie et pratique » M. Tennenhaus ed : Technip, Paris
Sites Internet:
Galactic algorithmes : http://www.galactic.com/Algorithms/default.asp
Chemo metrics Online (modélisation en ligne avec vos données, inscription gratuite) :
http://chemometrics.odu.edu
18