Vous êtes sur la page 1sur 18

Chimiomtrie

1. INTRODUCTION

La chimiomtrie est un outil utilis afin dextraire de linformation pertinente et utile partir de donnes physicochimiques mesures ou connues brutes. Il est bas sur la construction, puis lexploitation dun modle de comportement laide doutils statistiques. Il peut traiter des systmes complexes et donc gnralement multivariables. Le terme chimiomtrie vient de langlais chemometrics , jeune discipline associant initialement analyse de donnes et chimie analytique. Aujourdhui, il recouvre lensemble des applications de la chimie, de la physique, des sciences de la vie, de lconomie, de la sociologie, des mthodes statistiques et de linformatique. Aussi, on lui prfre souvent le terme moins restrictif (par rapport la chimie) danalyse multivariable ( multivariate analysis ), voire de reconnaissance de forme au sens large ( pattern recognition ). Nous nous intresserons plus particulirement aux applications originelles de la chimiomtrie dans le domaine de la chimie analytique, et plus particulirement des multicapteurs ou capteurs multivariables. La chimiomtrie (ou analyse multivariable) en instrumentation consiste modliser les variations dun certain nombre de variables, que nous appellerons Yvariables dont lobtention est dlicate (ncessitant une analyse chimique par exemple) en fonction dautres variables appeles Xvariables mesurables facilement (mesure de capteurs physiques par exemple) afin de pouvoir se passer ultrieurement de lobtention des premires. On distingue 2 oprations: - L'talonnage en laboratoire (ou modlisation) o toutes les mesures de variables doivent tre ralises et o le modle (ou prdicteur ) est calcul. Attention, ce terme se traduit en anglais par calibration , ne pas confondre avec le calibrage dun instrument qui est le recalage laide dun ou deux mesurages ( gauging en anglais). - La prdiction, utilisation courante sur le terrain , o seules les variables X faciles sont mesures, les autres, Y, tant calcules laide du modle.

ETALONNAGE / MODELISATION
Variables X mesures (capteurs) Variables Y mesures (analyses) Variables X mesures (capteurs)

PREDICTION

Calcul de modlisation

Calcul de prdiction

Prdicteur
Estimation des variables Y

Prdicteur

1.1. Problme de lanalyse multivariable: Soient m chantillons, dits d'talonnage, chacun , chacun tant caractris par c Yvariables caractristiques, par dfinition non facilement mesurables directement (par exemple des concentrations chimiques), mais dont une valuation y j est suppose connue pendant la phase d'talonnage:

Y = y ij , X = (xki ),

( )

1 i m 1 j c

Par contre, n Xvariables sont facilement mesurables (par exemple des tensions), leur mesure est appele xk:

1 i m 1 k n

Le problme consiste, partir de ces chantillons d'talonnage, trouver un modle, cest dire une fonction multivariables F telle que pour tout autre chantillon on puisse valuer, partir des seules Xvariables X :

Y = F(X) Deux types de modle sont envisageables : -

o F est appel prdicteur.

Le modle de connaissance , ralis partir des connaissances physico-chimiques que lon a du problme. Mais cette approche, dj complexe et approximative (dun point de vue instrumentation) lorsquil sagit dexprimer les Xvariables en fonction des Yvariables, savre gnralement impraticable dans le cas inverse (celui qui nous intresse : Y=F(X)), notamment cause de la complexit des fonctions, du bruit de mesure et des effets dimpurets non mesurs. On lui prfre classiquement : Le modle de comportement : On ne sintresse quau modle mathmatique permettant de reproduire au mieux les relations entre X et Yvariables dtalonnage. La connaissance physico-chimique du problme nest alors plus ncessaire, cest un modle du type boite noire .

Toutefois il est gnralement prfrable dans le cas du modle de comportement quun minimum de connaissance thorique soit disponible (du genre le problme est-il linaire ? ) Mais nous verrons la fin du chapitre que les rseaux neuronaux permettent de se passer compltement du modle de connaissance. 1.2. Exemples: Exemple 1 (trivial): Mesure de la caractristique d'une pile lectrique: On mesure quelques couples de points (U, I), or on sait que ces points doivent suivre une loi du type: U = E -rI o E est la f.e.m. de la pile et r sa rsistance interne (partie modle de connaissance ).
E I
pile U r

U
I

On peut alors faire une estimation des valeurs de E et de r par "rgression linaire", en tenant compte de tous les couples (U, I) pour une meilleure prcision. On a alors une connaissance quantitative du phnomne. De plus, on peut par la suite calculer la valeur de U partie de la seule mesure de I (phase prdiction). Il s'agit ici "d'analyse mono variable".

Exemple 2: Loi d'absorption de la lumire dite de Beer-Lambert:


Echantillon (Solution) Source polychromatique Spectrophotomtre

La spectrophotomtrie cocnsiste mesurer travers une solution contenant un compos dissous absorbant la lumire, "l'attnuation" de l'intensit d'une source lumineuse: on appelle absorbance la longueur k la grandeur:

I k ref Ak = log 10 I k

o Ik ref est lintensit de rfrence.


2

La loi de Beer Lambert nous indique que cette grandeur est proportionnelle la concentration du compos:

Ak = m k C
Si on mlange plusieurs composs, les absorbances sont additives: Pour tous les

k , ak =

m c
j k j

L'analyse multivariable permettra, aprs talonnage avec des chantillons de concentrations connues, de trouver les concentrations d'autres chantillons partir des seules mesures d'absorbances. Cest probablement lutilisation la plus classique de la chimiomtrie, aussi, tous les exemples lutiliseront, la matrice A des absorbances sera celle des Xvariables et la matrice C des concentrations celle des Yvariables.

Point commun toutes les mthodes: * On suppose que le modle qui dcrit les chantillons dtalonnage, dcrit aussi le phnomne physico-chimique que l'on veut mesurer et est donc applicable pour la phase de prdiction. * Attention: un "bon" modle pour les chantillons dtalonnage n'en est pas forcment un pour d'autres chantillons (de prdiction). En effet, il est toujours possible, en augmentant suffisamment la complexit du modle, de faire en sorte que celui-ci reproduise aussi bien qu'on le voudra les variations des jeux de variables dtalonnage. On aura alors modlis non seulement les phnomnes physiques, mais aussi les bruits de mesure et autres sources d'incertitude. Ce problme, dit de sur-modlisation, sera dvelopp plus loin. * Il est donc difficile de dfinir le critre "au mieux". Seules les mthodes complexes, notamment d'analyse de facteurs, permettent de faire cette modlisation "efficace" (c'est dire ne modlisant, dans la mesure du possible que les phnomnes physiques utiles). 1.3. Mthode gnrale: On dsire trouver Y=F(X) le "plus prcisment possible". On peut donc crire, pour les chantillons d'talonnage: Y=F(X)+E o E est la matrice d'erreur sur les variables Y que l'on dsire minimiser:
i E = Y F ( X ) = y ij f j ( x1 ,..., x ij ) minimale (?)

Le concept de minimisation d'une matrice ncessite d'introduire une distance. On utilise gnralement la distance Euclidienne:

(y
i,j

i j

f j ( x1i ,..., x ki )

minimale

(D'o le nom de mthode des "moindres carrs"; en fait, d'autres types de distances pourraient faire l'affaire, mais alors le cas linaire n'aurait pas de solution analytique simple) Supposons, pour simplifier la formulation qu'il n'y ait qu'une variable y. La forme gnrale des fonctions f est suppose connue. On doit donc trouver les constantes a1,...,aq,...,ap qui les caractrisent quantitativement, et donc telles que:

(y
i

f ( a1 ,..., a p , x1i ,... , x ki )

minimale

2 y i f ( a1 ,..., a p , x1i ,..., x ki ) i Donc, pour tout q, 1 q p, =0 a q

On obtient donc p quations p inconnues dont la rsolution littrale est impossible dans le cas gnral. 3

2.

Cas particulier: cas linaire

2.1. Notations & prliminaires Les relations entre les X et les Y sont linaires et les ap forment une donc matrice A: Y=XA + E soit:
i y ij = x ik a k j + ej k

avec:

1 i m, numero d'e chantillon, 1 k n, num e ro de Xvariable, 1 j c, num e ro de Yvariable.

(On pourra, si ncessaire, lire les rappels d'algbre linaire en annexe). Remarque: La convention chimiomtrique pour l'criture des matrices, sera utilise: Chaque ligne reprsentera un chantillon (ou exprience) et chaque colonne, une variable .

Remarque 1: cas o Y non nulle pour X=matrice nulle (terme d'offset):

y i = a0 + a k x ik
k

Ce cas peut se rsoudre directement par la mthode des moindres carrs, mais on prfre gnralement prendre les variables dites centres:

y* = y y x * = x x,
On a alors: Remarque 2 Les variables y1...y j, ou x 1x k, ne sont pas forcment du mme ordre de grandeur, ni mme homognes: on doit donc parfois les normer avant le talonnage, c'est dire les diviser par la racine carre de la moyenne de leur carr (norme):

y et x tant les valeurs moyennes d' talonnage y i* =

a
k

x ki*

= y
i j

y ij 1 ( y ij ) 2 n i

Il est donc souvent (mais pas toujours) prfrable de normer puis centrer toutes les variables (A et C) avant talonnage. Aprs la prdiction, les variables C calcules devront donc tre dcentres et dnormes avec les valeurs de moyenne et de norme obtenues lors du talonnage. Dans dautres cas, afin de donner moins dinfluence aux variables bruites , on norme en divisant par lcart type des variables.

Remarque 3 : Matrice de covariance La matrice X'X (note aussi XTX)que l'on est amen inverser s'crit , si les variables xik sont centres:

i 2 1 1 1 x1 ( x1 ) L x1m x 1 L xn i X T X = M O M M O M = M x1 L xm xm L xm i i xn x1 n n 1 n i

x1i 2 ( x1 ) L Cov( x1 , x n ) i = (n 1) O M M O M Cov ( x , x ) L 2 L ( x in ) 2 ( x ) n 1 n i L


i n

Cette matrice symtrique, qui comporte l es variances des Xvariables (ou Yvariables) sur la diagonale et les covariances ailleurs, est appele matrice des covariances. Elles importante car elle contient des information importantes et surtout les mthodes de rgressions imposent dinverser soit XX soit YY Si 2 colonnes de X sont colinaires, c'est dire si pour tous les chantillons 2 variables x k ont des valeurs proportionnelles, la matrice de covariance ne sera pas inversible.

Application: Exemple de la loi de Beer Lambert Reprenons l'exemple de la colorimtrie et de la loi de Beer Lambert. On appelle: aik = absorbance de l'chantillon i la longueur d'onde k cij = concentration de l'chantillon i en compos j

(1 k n) , (1 j c) , (1 i m) ,
La loi de Beer Lambert s'crit, sous forme matricielle:
i Ak = C ij .K kj

Matrice des absorbances Matrice des concentrations

Matrice des coefficients de Beer-Lambert

La loi de Beer Lambert servira de support pour la suite de l'expos, mais les applications de l'analyse multivariables ne se limitent pas la colorimtrie et sont innombrables. 2.2. Mthodes de moindres carrs simples:

2.2.1.

Premire mthode: ILS (Inverse Least Square) ou Pmatrice:

La loi de Beer-Lambert est linaire, on peut lcrire de faon inverse (do le nom de la mthode, la mthode dites classique, plus complexe, est explique plus loin) en exprimant les concentrations en fonction des absorbances:

C = AP + E
Afin dillustrer la mthode, il est intressant de faire une reprsentation dans lespace dit des chantillons : Supposons que l'on ait 3 chantillons d'talonnage caractriss par 2 Xvariables absorbances A1, A2 et une Yvariable concentration C. On peut reprsenter chacune de ces variables par un vecteur dans "l'espace des chantillons" o chaque dimension du repre reprsente un chantillon, on a donc ici un espace de dimension 3 reprsent en perspective. Les 3 composantes de chaque vecteur (A ou C) reprsentent les valeurs de la variable pour les 3 chantillons. Ainsi, 2 variables indpendantes auront pour reprsentation 2 vecteurs orthogonaux:

A1

1 A + 2 A2 1
A2

Lorsque lon fait un rgression linaire (rgression de C sur A ), on cherche crire C sous forme dune combinaison linaire de A1 et A2 (c=1A 1+2A 2) : la chose est priori impossible puisque

r r r r ( A1 , A2 ) , mais on va s'en approcher en minimisant le vecteur E , diffrence entre C et la combinais on linaire r r r r r approche (dans le plan ( A1 , A2 ) ). E sera minimal quand il sera orthogonal au plan ( A1 , A2 ) , et la modlisation de r C sera sa projection sur ce mme plan. r r On remarque alors que faire une rgression de C sur A consiste projeter C sur le plan des A . P est alors la r matrice de projection dans le plan des A . r r r L'talonnage sera d'autant meilleur que C sera prs du plan des A . E reprsente les variations de C non corrles
avec celles de A et donc pas expliques par le modle, on lappelle rsidus dabsorbance . On minimise ici l'erreur E sur les concentrations, on rgresse donc les concentrations sur les absorbances . On peut montrer que la matrice P, oprateur projection, scrit :

r C n'est pas dans le plan

P = (AA)-1AC

qui est la matrice de prdiction

Avantage majeur de cette mthode : On peut voir facilement que, pendant ltalonnage, le calcul des termes de P concernant le compos j (= colonnes de P) ne dpendent pas des concentrations des autres composs. On nest donc pas oblig de connatre les concentrations de tous les composs. Les composs prsents mais de concentration inconnue pendant ltalonnage peuvent tre considrs comme des impurets. On dit que mthode rsout le problme des impurets , mais celles-ci doivent tre prsentes de faon significative dans les chantillons dtalonnage. De faon plus gnrale, il rsout le problme des variations dues des causes externes, celles-ci nont pas tre quantifies pendant la phase dtalonnage, mais doivent, rptons-le, tre prsentes de faon significative .

Application : impurets dans leau : Les acides humiques


Prdiction avec P Matrice

150

Calibration sans AH Calibration avec AH Nitrates + AH + inconnu

100

concentration calcule

50

0 0 50 100 150
Concentration relle

3 courbes de prdictions : une avec des nitrates et des acides humiques, ces derniers ntant pas prsents pendant ltalonnage: pas terrible ! la mme mais les acides humiques taient l pendant ltalonnage: cest mieux mme chose mais avec des impurets inconnues lors de ltalonnage: a recommence !

Inconvnients : La matrice AA , qui est la matrice de covariance des absorbances, doit tre inverse : On doit donc avoir : Nombre de longueurs donde nombre dchantillons (voir annexe) Il faut donc prparer au moins autant d'chantillons qu'il y a de longueurs d'onde. Or, sur les spectrophotomtres modernes CCD ou barrettes de photodiodes, le nombre de longueur dondes est important (100 ou 1000), et il hors de question de rduire le nomb re de Xvariables par filtrage ou slection car il y aurait perte dune information prcieuse. De plus, si des absorbances de longueurs d'onde trop voisines sont "presque" colinaires, A'A, mme si elle est mathmatiquement inversible, aura un dterminant faible. La matrice P aura alors des coefficients de forte valeur (en valeur absolue) et il y aura des problmes d'instabilit lors de la prdiction. Ces inconvnients sont en partie limins par la mthode CLS : 2.2.2. Deuxime mthode: CLS (Classic Least Squares) ou Kmatrice, ou MLR (Multiple Linear Regression):

Lorsquon crit la relation de Beer-Lambert A=CK, on observe que celle-ci exprime les Xvariables en fonction des Yvariables, elle ne permet donc pas lvaluation directe des Yvariables (concentrations). Nous allons contourner le problme en 2 tapes: La premire tape consiste en lvaluation de la matrice K des coefficients de Beer Lambert

A=CK+E
On va minimiser E, c'est dire les erreurs sur les absorbances, on va donc rgresser A sur C . On obtient alors la matrice K:

K=(C'C)-1C'A

En phase prdiction, nous avons: A=CK, mais c'est la matrice C que l'on veut dterminer. Or K est gnralement non carre donc non inversible. On peut quand mme crire:

C = AK'(KK')-1 = AM
M est alors la matrice de prdiction. On est amen effectuer 2 inversions de matrices carres de faible dimension (dimension = nombre de composs): C'C, matrice de covariance des concentrations : on doit donc avoir: nombre de composs nombre d'chantillons. KK' : on doit donc avoir: nombre de composs nombre de longueurs d'onde.

Ces 2 conditions, priori videntes, sont faciles respecter. Remarque: choix des concentrations: On remarque que C'C est la matrice de covariance des concentrations. Si 2 colonnes de C sont colinaires, C'C ne sera pas inversible, d'o des prcautions prendre pour le choix des concentrations des chantillons dtalonnage. De mme, si 2 colonnes sont presque colinaires,(C'C)-1 comprendra de fortes valeurs et on aura alors des instabilits pendant la prdiction. Si il n'y a qu'un seul compos, C'C est un scalaire gal la variance des concentrations et le problme ne se pose pas.

Avantages de la mthode MLR: * On peut utiliser thoriquement autant de longueurs d'onde que l'on veut. Le fait d'en avoir beaucoup donne un effet de "moyenne" bnfique au niveau rapport signal / bruit. * Intressant au niveau comprhension des phnomnes: la matrice K donne directement les coefficients de Berr Lambert. Inconvnients de la mthode: * Le calcul des paramtres de prdiction pour un compos utilise les concentrations de tous les composs: En effet, on est amen faire une projection orthogonale de chaque absorbance sur lhyperespace des concentrations. Le rsultat (oprateur projecteur) dpendra donc de la pris e en compte des composs ayant une influence sur les absorbances. Tous les composs ou interfrents voire tous les vnements susceptibles d'tre prsents en phase de prdiction devront tre introduits pendant ltalonnage, et leur concentration ou valeur numrique devra tre connue sous forme dun Yvariable. Cette mthode ne rsout donc pas le problme des impurets. Pour des raisons similaires, la mthode ne peut pas tenir compte de variations non quantifies ou non quantifiables (variation de la ligne de base par exemple), ou d'interactions entre les constituants. 2.2.3. Problme commun aux 2 mthodes : la surmodlisation. Surmodlisation et erreur de modlisation La surmodlisation apparat lorsque le modle est trop prcis, on tend alors modliser les "particularits" des chantillons d'talonnage, alors que seule l'information "commune" et utile est intressante. On introduit une erreur de modlisation (diffrence entre le modle et la loi relle, priori inconnue).
p=2

Y le
p=1 sous-modlisation

OK

loi physique

le modle, trop complexe, ne sappliquera correctement quaux chantillons ayant servi crer. Exemple polynomiale trivial : la rgression

p=4 sur-modlisation

Soit une loi physique (courbe grasse) modliser laide de 5 expriences (points

8 X

noirs) par rgression polynomiale dont on va choisir le degr p: P=1 : lerreur de modlisation (diffrence avec la loi relle) est forte, le modle est trop simple, on fait de la surmodlisation P=5 : par rapport aux chantillons, cest excellent, mais lerreur de modlisation est trs importante : on fait de la surmodlisation. P=2 : semble tre un bon compromis. Remarque : Si lon rajoute des points exprimentaux (points gris), alors mme un polynme de degr 5 sera trs proche de la courbe relle, donc le danger de surmodlisation diminue lorsque le nombre dexpriences (ou chantillons) dtalonnage augmente. Surmodlisation et erreur lie la mesure : Lorsque lon effectue le calcul de prdiction, partir du modle et des Xvariables, lerreur alatoire de mesure sur les Xvariables (caractrise par lincertitude) se propage travers le modle et contribue (avec lerreur de modlisation) lerreur sur les Yvariables. Cette composante derreur est appele erreur lie la mesure . Mesure de X :

& + X ( X & = valeur relle, X = erreur) X

Contribution de X lerreur sur Y : Ymes Erreur sur Y : Ymes + Ymod, Soit, en raisonnant sur les cart-types : Y

= Y2mes + Y2mod

On peut constater, lors de la prdiction, que mme si le modle est correct physiquement (erreur de modlisation ngligeable) plus un modle est complexe , plus les erreurs (relatives) lies la mesure seront amplifies lors du calcul des Yvariables :

Ymes X = , augmente lorsque la complexit du modle augmente. Y X


Erreur de prdiction

modlisation optimale

4 3

1: Prdiction avec ch. dtalonnage 2: Erreur de modlisation 3: Erreur lie la mesure

sous-modlisation

sur-modlisation
2 1

4: Erreur de prdiction totale

complexit du modle

Toutefois, les effets de la sur-modlisation, prpondrant si les chantillons dtalonnage sont peu nombreux, tendent diminuer si lon en dispose de beaucoup, ce qui est alors coteux en temps et en argent. A loppos, si le modle est trop simple, il y aura peu de propagation de lerreur de mesure, mais il sera peu performant en prdiction car il ne refltera pas suffisamment la ralit physique, on parle alors de sous-modlisation. Ainsi, cette modlisation aboutit un compromis entre un modle simple et robuste (tolrant vis vis des erreurs de mesure) mais peu prcis et un modle complexe, prcis mais fragile. Il apparat donc intressant de pouvoir choisir la complexit du modle en fonction du phnomne tudi et des qualits mtrologiques des mesures. Remarque: Ces considrations sur la sur ou sous-modlisation, bien que comprises dans le chapitre linaire , ont un caractre plus gnral, comme on pourra le constater avec les rseaux neuronaux.

2.3. B - L'analyse de facteurs: L'analyse de facteurs consiste faire un changement de variable au niveau des Xvariables. On prend alors, comme nouvelles Xvariables, des combinaisons linaires des anciennes, en nombre rduit afin de concentrer l'information utile. Il y a, initialement, n Xvariables, gnralement plus ou moins c orrles entre elles. Le but est de trouver de nouvelles variables indpendantes indpendantes par changement de base, avec rduction de la dimension. Ces variables sont appeles facteurs ou variables latentes et leur valeur pour un chantillon donn, score.
matrice de changement de

A
dimension n, variables corrles

base

T
dimension h n, variables indpendantes

Si h=n, il n'y a pas de rduction de donnes, le problme est quivalent au prcdent et la mthode a peu d'intrt. Il y a plusieurs mthodes pour dterminer la matrice de changement de base B ("Loadings vecteurs") qui seront explicites plus loin. Pendant la prdiction, le changement de base permettant de connatre les scores T se fait comme suit: T=B*A (B matrice h*n)

Il est clair que comme h<n, il y aura perte d'information lors du passage de A T. On va donc faire en sorte que cette information perdue soit le moins possible de l'information utile:

Rpartition homogne "bruit" de mesure, concentration information sur les premiers facteurs

bruit info n Rpartition homogne "bruit" et information info h bruit n

On peut ensuite calculer les concentrations par rgression de T partir d'une matrice de prdiction V dtermine, pendant ltalonnage, par ILS partir des scores:

C = TV + E
On fait alors une rgression de C sur V.

L'intrt de cette compression de donnes est que, faute de pouvoir liminer le bruit de mesure, on s'arrange pour que l'information utile (qui pouvait tre initialement rpartie sur tout le spectre) soit dans les premiers facteurs qui seront 10

seuls utiliss. Or le bruit reste galement rparti pour tous les facteurs: l'information "abandonne" n'est donc pratiquement que du bruit, et on a donc globalement une rduction de celui-ci. On limine ainsi les inconvnients et on ajoute les avantages des 2 prcdentes mthodes: -ILS: Le nombre de longueurs d'onde utilises n'est limit que par la puissance de calcul. Il n'y a plus de problmes de colinarit puisqu'on ne prend que des combinaisons dabsorbances orthogonales entre elles. Le nombre de facteurs doit toutefois tre infrieur ou gal au nombre d'chantillons. -MLR: Il n'y a pas de problme d'impurets puisque le prdicteur des concentrations est dtermin par ILS partir des scores, donc de faon indpendante pour chaque compos. Dans les 2 cas, on rduit le risque d'"overfitting" (modlisation du bruit) en rduisant le nombre de variables. Il existe principalement 2 mthodes d'analyse des facteurs: 2.3.1. PCR (Principal Component Rgression)

Cette mthode utilise la matrice des covariances des absorbances centres, A'A. Elle part du principe que pour choisir une nouvelle base de variables indpendantes, il suffit, par dfinition, que les covariances de ces variables entre elles soient nulles. La matrice de changement de base est donc la matrice qui va rendre la matrice de covariance diagonale . Elle est donc construite partir des vecteurs propres de A'A. Les valeurs propres reprsentent alors la variance des scores, et donc leur contribution la modlisation: Pour effectuer la rduction de donnes, il suffit alors de ne conserver que les h scores correspondant aux plus fortes valeurs propres.

2 ( a1 ) 2 (t1 ) L 2 ( t1 ) L L Cov (a 1 , a n ) 0 0 M O M O M O M M M Cov( a , a ) L 0 0 2 ( an ) L 2 (tn ) L 2 (t h ) n 1 h n


Cette mthode est trs efficace, mais elle ne tient pas compte dans la premire phase dtalonnage, (choix de la nouvelle base) des informations concentration, qui ne sont utilises que dans la phase de rgression des concentrations sur les scores. Il peut pourtant arriver que des variations importantes des absorbances ne soient absolument pas corrls avec les concentrations. On lui prfre donc souvent une mthode plus rcente et plus complexe: 2.3.2. PLS (Partial Least Squares): Moindres carrs partiels

Cette mthode, plus rcente (1980), consiste construire ensembles les matrices de changement de base W ("Loadings Vectors") et de prdiction V en utilisant conjointement les absorbances et les concentrations. Nous n'expliquerons que trs schmatiquement l'algorithme le plus simple (dit non orthogonal ) pour 1 seul composant (PLS1). Pour une explication plus complte ou pour l'algorithme avec plusieurs composants (PLS2), on se reportera la littrature (1). Etalonnage PLS: A 0 et C0 sont les valeurs initiales d'absorbance et de concentration normes et centres. A : matrice m lignes, k colonnes C : vecteur (1 seul compos) m valeurs m : nombre dchantillons dtalonnage k : nombre dXvariables (ou de longueurs dondes)

(1): Rechercher, en rgressant A 0 sur C0, la composante de A la plus corrle avec les variations de concentration:

A0 = C0W1 + E

11

W 1 sera alors la premire composante de la matrice de changement de base W. C'est l'oprateur "projecteur moyen" de A 0 sur C0 (et qui ne projettera donc probablement pas parfaitement chaque composante de A 0 sur C0)

W1 = (C'0C0)-1C'0A0
W 1C0 est donc la projection de A 0 sur C0 dans l'espace des chantillons. W 1 est alors normalise: On a alors W 1W'1 = Id (2): Rechercher le "score" (projet) correspondant ce "projecteur moyen" en rgressant A 0 sur W 1:

A0 = T1W1 +E donc T1 = A0W'1(W1W'1)-1 = A0W1


(3): Rechercher en rgressant C0 sur T1 la composante du prdicteur V1 correspondant ce facteur: (On fait alors une ILS).

C = T1v1 + E

(1 compo --> v1 scalaire)

Donc v1 = (T' 1T1)-1T'1C

(4): Calculer les rsidus d'absorbance et de concentration (information non utilise, orthogonale la prcdente) en retranchant l'information dj modlise:

A1 = A0 - T1W1 C1 = C0 - T1v1
(6): Reprendre en (1) avec ces nouvelles valeurs et continuer construire W et V jusqu' atteindre le nombre de facteurs souhait.

Il s'agit donc d'une mthode itrative (1 itration par facteur), pour chaque itration, l'information utilise pour construire le modle (info A ou C) est retranche pour l'itration suivante. Apres les n itrations, l'information (A ou C) restante est appele rsidu (d'absorbance ou de concentration). Prdiction PLS: Il s'agit pratiquement de l'opration inverse: On extrait de A successivement les informations correspondant chaque facteur avec lesquelles on construit la concentration C (initialement nulle), soit, pour chaque facteur d'indice a: (1): Initialisation : A 0 norme centre ,

C0=0 ca = ca-1 + Tava

(2): Calcul de la contribution de ce score la concentration:

(3): Calcul du nouveau rsidu d'absorbance:

Aa+1 = Aa- TaWa


(4): Continuer en (2) avec le nouveau rsidu d'absorbance jusqu' atteindre le nombre de facteurs souhaits. La concentration finale, aprs dcentrage et dnormage, sera donc la somme des contributions des diffrents facteurs.

12

MODELISATION

Absorbances 1 2 3 4 5 Absorbances Rsidus Modle

Concentrations 1 2 3 4 5

PREDICTION

1 2 3 4 5 Rsidus Modle Concentrations Mme ordre de grandeur?

Cette mthode de prdiction a l'avantage de fournir, en plus de la concentration, les rsidus d'absorbances qui doivent thoriquement tre du mme ordre de grandeur que ceux obtenus lors de ltalonnage. L'examen du rapport (rsidu de prdiction / rsidu dtalonnage) pour chaque longueur d'onde peut alors permettre de dtecter des anomalies, notamment la prsence d'impurets non prsentes lors de ltalonnage. On peut alors supposer que le calcul de prdiction risque d'tre erron.

Exemple: Dtection des nitrates, prsence de Cr3 uniquement pendant la prdiction: On peut voir, qu'avec moins de 5 ppm de Cr3, les rsidus sont multiplis par plus de 10 entre 245 et 370 nm, ce qui ne laisse aucune ambigut sur la prsence d'impurets. Mais on peut alors se permettre de douter de la validit des calculs de concentrations.
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1000 Rapports de rsidu d'absorbance 100 10 1 0.1 0.01 nm NO 60 ppm + AH NO 80 ppm + AH + Cr Residu 15 ppm Rsidu 15 ppm + Cr

En fait, pour chaque calcul de prdiction, on prfre souvent calculer un terme "d'erreur probable" appel dviation (cf logiciel "Unscrambler"):

Ydev =

Ce terme, qui est multiplier par la norme des concentrations d'talonnage si celles-ci ont t normes, a, dans la plupart des cas, le mme ordre de grandeur que l'cart type de l'erreur de prdiction.

20 7.5 22 2.5 24 0 25 5 27 5 29 0 31 0 33 34 0 7.5 37 0

Absorbance

Var (Ytalonnage) Var ( Xrsidus prdiction) 1 + Var ( Xrsidus talonnage) nb ech. talon . 2

13

2.3.3.

Problme commun aux 2 mthodes PCR et PLS : Le choix du nombre de facteurs:

Nous avons vu qu'il tait ncessaire d'arrter la modlisation pour un nombre de facteurs donnant des rsultats de prdiction optimaux. C'est dire, dans le cas de PLS, quand les rsidus d'absorbance deviennent du mme ordre de grandeur que le bruit de mesure, l'information utile ayant t extraite. Il faut donc, pour chaque nouveau facteur, faire des tests afin de minimiser la variance des erreurs de prdiction. Ces tests ne doivent en aucun cas tre faits avec les chantillons d'talonnage sinon on trouverait un nomb re de facteurs optimal gal au nombre maximum de facteurs: On arriverait alors retrouver les concentrations d'talonnage avec prcision, le bruit de mesure modlis tant reconstitu. Mais avec d'autres chantillons, les performances seraient mauvaises. Il est donc ncessaire: - Soit d'avoir un jeu d'chantillons rservs aux tests de prdiction, mais il peut tre alors dommage de gaspiller ainsi les chantillons car l'talonnage est d'autant meilleur que ceux-ci sont nombreux. - Soit de faire les tests avec les chantillons auxquels on ajoute un bruit Gaussien (voir bargraph ci-dessous) de caractristiques aussi proches que possible que le bruit de mesure. Ces caractristiques sont relativement difficiles trouver.
12.9 10.74 Influence du nombre de facteurs sur l'erreur de prdiction 4.2 30 4.55 E.T. Erreur avec ech. calib. 4.85 25 E.T. erreur avec bruit 5.16 20 5.48 6 15 7.7 10 9.6 13.3 5 16.4 0 16.8 1 2213 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 Nombre de facteurs 22.7

- Soit d'utiliser la mthode des validations croises: Si l'on a m chantillons, on fait m talonnages avec m -1 chantillons, le dernier tant rserv aux tests. L'talonnage ultime, avec le nombre de facteur optimal ainsi dtermin, se fait alors avec les m chantillons.

Remarque: Gnralement, le nombre de facteurs est gal au : 3. "rang" physique de la matrice de covariance d'absorbance (nombre de valeurs propres significativement diffrentes de zro). Nombre de phnomnes physiques linaires entrant en compte, souvent connu intuitivement. Ce nombre est plus important en cas de (faibles) non-linarits (voir paragraphe suivant).

Les moindres carrs, cas non linaire

3.1. Cas o on peut par des transformations se ramener des fonctions linaires: Si les variables x1,...,xn sont sparables, on peut, aprs les avoir transformes, utiliser les mthodes de rgression linaire:

y = f ( x1 ,..., x k )
1 1 1 bk bk y = a0 + a 1 f 1 ( x1 ) + a12 f 1 2 ( x1 ) +...+a 1 2 f 2 ( x 2 ) +... a k f k ( x k )

Il suffit alors de transformer les variables pour l'talonnage comme pour la prdiction:
1 1 1 bk bk y = a0 + a1 X1 + a12 X 12 +...+ a 1 2 X 2 +... a k X n

14

Cas particulier classique: la rgression polynomiale: une seule variable x remplace par n variables x1...xn:

y = a0 + a1 x + a 2 x 2 +...+a n x n y = a0 + a1 X + a 2 X 2 +...+a n X n
Cette mthode peut sappliquer aussi aux Yvariables. 3.2. PLS peut modliser des phnomnes non linaires : Bien que cela puisse paratre paradoxal pour une mthode base sur lalgbre linaire, PLS (tout comme PCR) peut modliser des phnomnes non linaires. En pratique, si diffrentes Xvariables ont des non-linarits diffrentes dans leur relation avec les Yvariables, alors la modlisation PLS peut implicitement combiner ces diffrentes non-linarits afin dexprimer une relation linaire entre X et Y, et cela sans terme supplmentaire non linaire . Mais si toutes les relations entre X et Yvariables ont le mme type de non-linarit alors la modlisation rigoureuse est impossible. Il est souvent possible de sen rapprocher en ajoutant des termes fonctions non linaires des Xvariables comme Xvariables supplmentaires, par consquent linairement indpendantes des anciennes (cest ce qui est fait en rgression polynomiale). Toutefois, cela se fait toujours au prix dune complexification du modle (augmentation du nombre de facteurs), et il est toujours prfrable, lorsque cela est possible, de faire un traitement de linarisation des X et/ou des Yvariables (cest ce que lon fait implicitement en spectrophotomtrie en transformant les intensits lumineuses en absorbances). 3.3. Mthodes itratives, ou mthodes bases sur des optimisations : Ces mthodes, peu utilises en chimiomtrie sortent du cadre de cet ouvrage, une exception notable, les rseaux neuronaux, traits dans le paragraphe suivant.

4.

Rseaux neuronaux

Les rseaux neuronaux peuvent tre considrs comme un algorithme d'analyse multivariable. Cest en fait un modle de comportement universel dans la mesure o il nest plus ncessaire de faire dhypothse mathmatique initiale. Seule la structure du rseau peut changer (nombre et taille des couches intermdiaires, fonctions de transfert).

Variables d'entre

RESEAU

Variables de sortie (= cibles)

15

4.1. Structure gnrale du rseau: Entres


Coef. synaptiques

Sorties

Cibles

W1

W2 couche intermdiaire

Offsets:

B1

Fonction de Transfert non linaire

1, k

+ i W 1,k * E i
i

Le rseau de neurones est compos dune couche dentre correspondant lXvariable transformer, dune couche de sortie fournissant lYvariable modlise et ventuellement dune ou plusieurs couches intermdiaires, de tailles choisies par le modlisateur. Les couches de sortie et intermdiaires sont des combinaisons linaires de la couche qui les prcde, les coefficients Wi,j tant appels coefficients synaptiques . On ajoute parfois un terme constant Bi appel offset . Ce qui fait la richesse des rseau de neurones cest la transformation de cette combinaison linaire par une fonction de transfert gnralement non linaire (souvent une fonction sigmode, ou bien linaire tronque). On peut remarquer que si la fonction de transfert est linaire, alors le rseau est quivalent aux mthodes linaires dcrites prcdemment, les couches intermdiaires correspondant aux facteurs. Seul le mode de calcul des coefficients, itratif et appel apprentissage ici, est diffrent. 4.2. Apprentissage ( = talonnage): On utilise, comme pour toute analyse multivariable, 2 jeux de variables: - Variables d'entre (Xvariables) - Variables cibles (Yvariables). Le but est alors de trouver, par approximations successives les coefficients synaptiques (W) et les offsets (B) tels que les cibles et les sorties soient les plus proches possibles au sens des moindres carrs : On va donc encore optimiser la somme des carrs des erreurs (cart cible sortie) C'est un problme d'optimisation qui se rsout par itrations. Si les fonctions de transfert sont linaires, alors le problme peut se ramener un problme d'analyse multivariable classique (simple ou analyse de facteurs si il y a une couche de neurones intermdiaires). Sinon, le procd d'optimisation le plus utilis est la rtro-propagation: Il consiste propager les erreurs (diffrences entre la sortie et la cible correspondante) de la sortie vers l'entre en modifiant lgrement au passage les coefficients W et B dans le sens dune diminution de lerreur. La mthode est applique avec tout le jeu d'chantillons un grand nombre de fois jusqu' obtention du degr de convergence "souhait" . Il nest pas ncessaire de faire converger le rseau outre mesure: On risque en effet alors de faire de la surmodlisation qui, comme cela a t expliqu dans le paragraphe traitant du linaire, peut tre nfaste pour la prdiction. 16

Il est donc conseill de tester le rseau, en cours de convergence, avec un jeu dchantillons non utiliss pour lapprentissage. 4.3. Prdiction: On peut alors "exciter le rseau (W,B) avec de nouvelles Xvariables d'entre afin de trouver les Yvariables de sortie correspondantes ( priori inconnues). Utilisations: Essentiellement reconnaissance de formes (au sens large): * spectres, courbes (--> chimiomtrie), systmes multicapteurs. * images, caractres * voix, sons... mais aussi: * approximation de fonctions * systmes experts, intelligence artificielle 5. Conclusion

La chimiomtrie, ou analyse multivariable, permet de construire un modle de comportement de phnomnes physico-chimiques afin dexploiter ces phnomnes en instrumentation. Sa principale difficult, une fois les mthodes comprises, consiste adapter la complexit du modle aux qualits mtrologiques des mesures, et donc de trouver un compromis entre prcision et fiabilit de ce modle. Dune faon gnrale, alors que les mthodes danalyse de facteurs semblent plus performantes pour modliser les phnomnes linaires ou peu non linaires, les rseaux neuronaux tirent leur pingle du jeu pour les phnomnes fortement non linaires quils sont capables de modliser de manire moins complexe. 6. Annexe: Rappels d'algbre linaire * On appelle matrice A un ensemble de m*n scalaires disposs en m colonnes de n nombres
1 a1 A= M am 1 1 L an O M = a ik m L an

( ) (

b11 L bl1 B = M O M = bk j b n L b m 1 l

( )

A + A' = a ki + a 'ik A * B = a ki b jk i
Transpose: Soit rsoudre A = C*X, o X est l'inconnue:

) ( )

A = a ik A ' = aik

( )

Si C est une matrice carre, (nombre de lignes = nombre de colonnes), on appelle matrice inverse de C la matrice C-1 telle que:

C *C

1 0 0 = C * C = Id = 0 O 0 0 0 1
1

17

C-1 n'existe que si les colonnes de C sont linairement indpendantes.

alors X = C-1*A
Si C est non carre (n lignes, m colonnes), on peut crire:

C'*A = C'*C*X
C'C est alors carre (n * n) et peut-tre inversible si ses colonnes sont linairement indpendantes ce qui impose que nR m. (Si 2 colonnes de C sont colinaires alors CC ne sera aussi pas inversible). On peut alors crire:

X = (C '*C)-1*C'*A, X est appel pseudo-inverse.


On appelle vecteur une matrice une seule colonne. On appelle vecteur propre d'une matrice C carre (n * n) un vecteur V tel que: C * V a = r a* V a Les diffrentes valeurs scalaires r1...rn sont appels valeurs propres de C. Elles sont uniques alors que le vecteur propre est dfini une constante prs. Une condition ncessaire et suffisante pour que C soit inversible ( = non singulire) est que ses valeurs propres soient toutes diffrentes de 0. On appelle base C1 un ensemble de n 1 vecteurs linairement indpendants pouvant servir de repre dans un espace de dimension n1. Lorsqu' on change de base C1 C2 (n 2<=n 1) , le passage des anciennes coordonnes X1 aux nouvelles coordonnes X2 se fait l'aide d'une matrice de changement de base M qui est la matrice de projection de X1 sur X2:

X2 = M*X1

7.

Bibliographie 1: "Multivariate Calibration" Harald Martens, Tormod Naes ed: John Wiley & sons Chichester 2: " Practical Guide to Chemometrics" Stephen John Haswell ed: Marcel Dekker, Inc New York 3: "Multivariate Statistitcal Methods" A. Primer, Bryan F.J. Manly ed: Chapman & Hall London 4: Techniques de l'ingnieur: optimisation 5: Logiciel MATLAB (distribu par Scientific Software 92 Svres) et modules: - Chemometrics - Optimization - Neural network 6: Logiciel Unscrambler (Camo, Lolav Tryggvasons gt.24, N-7011 Trondheim - Norvge) 7 : La rgression PLS, thorie et pratique M. Tennenhaus ed : Technip, Paris

Sites Internet: Galactic algorithmes : http://www.galactic.com/Algorithms/default.asp Chemometrics World - John Wiley & Sons, Ltd.: http://www.wiley.co.uk/wileychi/chemometrics/ Chemometrics (Martin Huehne) : http://tmec.nectec.or.th/thfi/chemom.htm Homepage of chemometrics info on multivariate calibration data analysis ) : http://www.acc.umu.se/~tnkjtg/chemometrics/index.html Chemo metrics Online (modlisation en ligne avec vos donnes, inscription gratuite) : http://chemometrics.odu.edu

18