Vous êtes sur la page 1sur 4

Chimiomtrie 2002 proceedings

Paris (France), 4-5 December 2002, pp. 25-28

Calibrage chimiomtrique des spectrophotomtres :


slection et validation des variables par modles non-linaires
Nabil Benoudjit1, Etienne Cools2, Marc Meurens2, Michel Verleysen1*
Universit catholique de Louvain,
1
Laboratoire de Microlectronique (DICE), 3 place du Levant, 1348 Louvain-la-Neuve (Belgique)
{benoudjit, verleysen}@dice.ucl.ac.be
2
Laboratoire de Spectrophotomtrie (BNUT), 2(8) place Croix du Sud, 1348 Louvain-la-Neuve
(Belgique)
Rsum. Les donnes acquises par les spectrophotomtres constituent des spectres. Il sagit densemble dun grand nombre
de variables exploitables en analyse chimique quantitative moyennant ltablissement de modles de calibrage par des
mthodes chimiomtriques. Pour tablir ces modles de calibrage qui sont spcifiques chaque paramtre analys, il
convient de slectionner un nombre rduit de variables spectrales. Ce papier prsente une nouvelle mthode incrmentale
(pas--pas) de slection des variables spectrales par calculs de rgression linaire et de rseau neuronal, base sur une
validation objective (externe) du modle de calibrage ; cette validation est effectue sur des ensembles indpendants de
donnes correspondant dautres chantillons (des mmes produits) que ceux utiliss lors du calibrage. Les avantages de
la mthode prsente sont discuts et mis en vidence par rapport aux mthodes de calibrage actuellement utilises en
analyse chimique quantitative par spectrophotomtrie.
MOTS-CLS: PCR (PRINCIPAL

COMPONENT REGRESSION);

PLSR (PARTIAL

LEAST SQUARES REGRESSION);

SMLR (STEPWISE

MULTIPLE LINEAR REGRESSION);

RBFN

(RADIAL BASIS FUNCTIONS NETWORKS); FORWARD SELECTION; BACKWARD SELECTION

1. Calibrage chimiomtrique des spectrophotomtres


Lanalyse chimique par spectrophotomtrie repose sur lacquisition rapide dun grand nombre de donnes
spectrales (plusieurs centaines, voire plusieurs milliers). Lorsque ces donnes ne sont pas condenses dans des
vecteurs propres par lanalyse en composantes principales, seul un petit nombre dentre elles peuvent entrer dans
la constitution de chaque modle de calibrage pour la dtermination dun constituant particulier. Les modles de
calibrage consistent vritablement en des quations de conversion des donnes spectrales (entre) en des valeurs
de composition chimique (sortie). Ltablissement de ces quations suppose lajustement des paramtres
affectant les valeurs dentre pour arriver aux valeurs de sortie les plus proches possibles de la ralit.
Linutilit de certaines donnes spectrales, ainsi que la difficult dajuster des modles comportant un trop
grand nombre dentres rend, leur slection obligatoire.

Michel Verleysen est Matre de Recherches du Fonds National de la Recherche Scientifique belge.

Chimiomtrie 2002 proceedings


Paris (France), 4-5 December 2002, pp. 25-28

Nous prsenterons dabord les techniques habituelles de slection de variables correspondant aux mthodes
de rgression linaire : ce sont les mthodes de calibrage dites SMLR (rgression linaire multiple pas--pas),
PCR (rgression des composantes principales) et PLSR (rgression des moindres carrs partiels). Ensuite, nous
proposerons dincorporer des modles de rgression non-linaires (RBFN Rseaux de neurones Fonctions
Radiales de Base) pour la slection de variables, au travers dune procdure incrmentale bases sur un critre de
validation. Enfin, nous prsenterons une comparaison de rsultats de prdiction de la teneur en alcool obtenus
avec les diffrents modles de calibrages sur des spectres infrarouges (FTIR) de vin.
2. Slection des variables : tat de lart
Les mthodes de slection des variables spectrales par calcul de rgression linaire habituellement utilises
pour calibrer les spectrophotomtres sont les suivantes :

SMLR (rgression linaire multiple pas--pas) : les donnes spectrales sont slectionnes parmi les p
donnes disponibles en respectant un critre doptimisation tel que le test dhypothse bas sur la loi de
Fisher ; celui-ci permet de juger le caractre significatif de lajout ou de la suppression dune variable.
Nous appliquons en gnral une succession dtapes ascendantes (forward), dans lesquelles une donne
spectrale est introduite chaque tape, suivies dtapes descendantes (backward), dans lesquelles la
variable la moins pertinente est limine chaque tape [BER 00][MAS 97].

PCR (rgression en composantes principales) : consiste appliquer tout dabord une analyse en
composantes principales (ACP) sur la matrice des donnes spectrales. LACP permet de remplacer les
donnes spectrales dorigine, fortement redondantes, par des composantes principales (combinaisons
linaires des donnes dorigine), qui contiennent la quasi-totalit de linformation, et qui ont lavantage
dtre non corrles, ou orthogonales entre elles. Les donnes spectrales condenses par lACP peuvent
servir alors de variables de base une rgression linaire multiple [BER 00][GEL 86][WAL 97].

PLSR (rgression des moindres carrs partiels): consiste en une rgression de la caractristique prdire
sur des variables latentes (combinaisons linaires des donnes spectrales). Dans cette mthode, les
variables latentes sont dtermines en tenant compte de la sortie (caractristique prdire) dsire du
modle et des donnes spectrales, alors que dans la PCR, elles sont dtermines sans tenir compte de la
sortie dsire du modle [BER 00][GEL 86].

Il faut noter que, contrairement certains travaux publis, dans tous les cas, le modle devrait tre vrifi sur
un autre ensemble dchantillons que ceux qui ont servi au calibrage proprement dit.
Tous ces modles font lhypothse de lexistence dune relation linaire entre les variables slectionnes ou
construites dune part, et la caractristique prdire dautre part. Ceci peut videmment ne pas tre le cas dans la
ralit de certaines applications. Certains auteurs utilisent des modles non-linaires, mais aprs une projection
de type ACP ne tenant donc pas compte des valeurs dsires de la caractristique prdire [EKL 99]. Enfin, les
mthodes incrmentales de type SMLR font appel un critre de slection calcul sur un ensemble
dapprentissage, et non de validation.
3. Slection et validation des variables par modles non-linaires
Au vu de ces limitations, nous proposons une mthode de slection de variables base sur les principes
suivants :
utilisation dun modle non-linaire de rgression (RBFN) ;
choix des variables bas sur une procdure incrmentale (forward-backward);
variables choisies en fonction du MSE (erreur quadratique moyenne) sur un ensemble de validation.

Chimiomtrie 2002 proceedings


Paris (France), 4-5 December 2002, pp. 25-28

Les RBFN [HAY 99] sont des modles de rgression non-linaire ayant la proprit dapproximation
universelle. Ils se basent sur une combinaison linaire de fonctions gaussiennes, dont les centres et largeurs sont
des paramtres supplmentaires. Pour des performances similaires, les RBFN offrent souvent un apprentissage
plus ais que les plus traditionnels rseaux MLP (perceptrons multi-couches).
Nous proposons une mthode de slection de donnes spectrales base sur un critre de validation MSE dite
forward-backward selection. La slection des donnes spectrales est divise en deux tapes.
La premire tape est la forward selection. Elle commence par la construction des p modles possibles
une variable spectrale seulement. Nous calculons le critre MSE pour chacun de ces modles et nous choisissons
celui qui minimise le critre. Nous fixons ensuite la donne spectrale dj slectionne ; p-1 modles sont alors
construits en ajoutant une seule des variables spectrales restantes. Le critre MSE pour chacun de ces modles
est calcul, et nous choisissons le modle qui minimise ce critre. Nous continuons le processus ci-dessus jusqu'
ce que la valeur du critre MSE augmente.
La deuxime tape est la backward selection. Elle consiste liminer les donnes spectrales les moins
significatives dj slectionnes dans la premire tape. Si q variables spectrales ont t slectionnes lors de la
premire tape, q modles sont construits en enlevant une des variables slectionnes. Le critre MSE est calcul
sur chacun de ces modles, et celui qui minimise le critre est slectionn. Une fois le modle choisi, nous
comparons son critre MSE avec celui du modle obtenu ltape prcdente. Si le nouveau MSE est infrieur
celui de ltape prcdente, alors la donne spectrale limine est non-significative. Le processus est alors rpt
pour les donnes spectrales restantes. Dans le cas contraire, la donne spectrale choisie pour tre limine est
significative, et le processus de backward selection est arrt.
Habituellement, les procdures incrmentales de type SMLR utilisent un critre de slection de type Fisher ou
coefficient de dtermination (R2) de la rgression. Lutilisation du test de Fisher permet de juger la pertinence
dune variable en comparant sa valeur de test un seuil contenu dans une table. Nanmoins, les tables de Fisher
ne sont valables que dans le cas o le critre est valu sur les mmes donnes que celles qui ont permis
lapprentissage du modle. Lutilisation dautre donnes (ensemble de validation) est nanmoins indispensable
pour dtecter et viter le phnomne de sur-apprentissage (overfitting). La solution consiste donc conditionner
le choix dune variable une mesure des performances du modle incluant cette variable sur un ensemble de
validation ; dans notre cas, nous utiliserons le critre MSE.
La combinaison des trois concepts sous-jacents (rgression non-linaire, procdure incrmentale et choix
bas sur un ensemble de validation) permet dune part de profiter du potentiel des mthodes non-linaires pour
prdire un phnomne physique qui nest probablement pas lui-mme linaire, et dautre part dviter le surapprentissage des donnes. Cette procdure de slection de variables offre donc, potentiellement, de meilleures
performances lorsque celles-ci sont mesures sur des donnes indpendantes de lapprentissage. Ceci sera
illustr par un exemple dans la section qui suit.
4. Rsultats
La base de donnes utilise comprend les spectres (256 donnes dabsorbance moyen infrarouge) et les
teneurs en alcool de 124 chantillons de vin. 94 spectres ont t utiliss pour lapprentissage, 30 spectres ont t
utiliss pour la validation du choix des variables. Des expriences similaires ont t effectues sur les spectres
bruts et sur les mmes spectres centrs et rduits.
Mthodes
PCR
PLSR
SMLR
Forward-Backward (Linaire)
Forward-Backward (Non-linaire)
# variables
30
12
14
17
20
MSE
0.0061
0.0106
0.0080
0.0024
0.0019
Table 1 : Erreurs quadratiques moyennes (MSE) obtenues sur un ensemble de validation avec les 5 mthodes
en utilisant les spectres bruts.

Chimiomtrie 2002 proceedings


Paris (France), 4-5 December 2002, pp. 25-28

Mthodes
PCR
PLSR
SMLR
Forward-Backward (Linaire)
Forward-Backward (Non-linaire)
# variables
20
11
14
15
23
MSE
0.0217
0.0238
0.0401
0.0044
0.0033
Table 2 : Erreurs quadratiques moyennes (MSE) obtenues sur un ensemble de validation avec les 5 mthodes
en utilisant les spectres centrs et rduits.

Ces deux tables ncessitent les commentaires suivants :

Malgr des erreurs quadratiques moyennes (MSE) trs bonnes (0.0022 et 0.0009 respectivement pour les
spectres bruts et ceux centrs et rduits) obtenues par la mthode SMLR sur lensemble dapprentissage,
les deux tables 1 et 2 montrent que le mme critre calcul sur un ensemble de validation donne des
erreurs quatre fois plus grandes et mme plus, ce qui illustre bien la ncessit de travailler avec un
ensemble de validation et non dapprentissage.

Le modle forward-backward linaire correspond la procdure dcrite dans la section prcdente, mis
part le fait que le modle de rgression utilis est un modle linaire (et non un RBFN).

Le modle forward-backward non-linaire correspond la procdure dcrite dans la section prcdente.


Le rseau RBF utilis dans les deux dernires expriences des tables 1 et 2 est constitu dune seule
couche cache avec 3 fonctions gaussiennes ; sa procdure dapprentissage est dcrite dans [BEN 02].

5. Conclusion
Nous avons propos une procdure de slection de donnes spectrales base sur la combinaison des trois
mcanismes (rgression non-linaire, procdure incrmentale de slection des variables et utilisation dun
ensemble de validation). Cette procdure permet dune part de profiter du potentiel des mthodes non-linaires
pour prdire une donne chimique qui nest probablement pas en relation tout fait linaire avec le spectre
infrarouge du produit analys, et dautre part dviter le sur-apprentissage des donnes. Les modles nonlinaires, coupls des procdures justifies de slection de variables, devraient permettre lavenir damliorer
les performances de calibrage des spectrophotomtres ; les rsultats obtenus montrent lavantage de notre
approche du problme.
6. Rfrences
[BEN 02] Benoudjit N., Archambeau C., Lendasse A., Lee J., Verleysen M., Width optimization of the Gaussian
kernels in Radial Basis Function Networks, ESANN (2002), April 24-25-26, p. 425-432, Bruges.
[BER 00] Bertrand D., Dufour E., La spectroscopie infrarouge et ses applications analytiques, Editions Tec&
Doc, collection sciences et techniques agroalimentaires, (2000).
[EKL 99] Eklov T, Martensson P., Lundstrom I, Selection of variables for interpreting multivariate gas sensor
data, Analytica Chimica Acta 381 (1999) 221-232.
[GEL 86] Geladi P., Kowalski B. R., Partial least squares regression : A Tutorial, Analytica Chimica Acta, 185
(1986) 1-17.
[HAY 99] Haykin S., Neural Networks a Comprehensive Foundation, Prentice-Hall Inc, second edition, 1999.
[MAS 97] Massart D. L., Vandeginste B. G. M., Buydens L. M. C., De Jong S., Lewi P. J., Smeyers-Verbeke J.,
Handbook of Chemometrics and Qualimetrics : Part A, Elsevier Science, Amsterdam, 1997.
[WAL 97] A. D. Walmsley, Improved variable selection procedure for multivariate linear regression, Analytica
Chimica Acta, 354 (1997) 225-232.

Vous aimerez peut-être aussi