Cours de Metrologie

MÉTROLOGIE ET CHIMIOMÉTRIE
1
Métrologie et chimiométrie
Demande croissante des individus en résultats d’analyse

-Domaine environnemental (eaux, sols, air…)
-Domaine agroalimentaire (sécurité des aliments…)
-Domaine pharmaceutique (contrôle qualité)
-Domaine médicolégal (cf. les experts…)
-Industrie en général (Qualité des résultats)
Mise en place d’un système organisationnel pour répondre à ce

besoin. Temps très important.
Nécessite de pouvoir garantir la fiabilité et la traçabilité des

résultats fournis.
2
Système qualité
Validation
Test de
Qualification Traçabilité Fiabilité conformité
3
CHIMIOMETRIE GÉNÉRALITÉS
La chimiométrie est la science de l’utilisation des
méthodes mathématiques, statistiques et
informatiques qui visent à extraire l’information
utile présente dans des données de mesures
chimiques (Geladi, 1995). Le terme français de
chimiométrie est issu de
l’anglais "chemometrics". La paternité de ce mot
est attribuée au suédois Wold (1974) et à
l’américain Kowalski (1975).
Geladi, P. (1995). An overview of multivariate spectral data analysis.In: Davies AMC,

Williams P. Near infrared spectroscopy : the future waves. NIR publications, Chiichester, UK:
165-173.
Wold, S. (1976). Pattern-Recognition by Means of Disjoint Principal Components Models.
Pattern Recognition, 8(3), 127-139. 4
Kowalski BR. Chemometrics: views and propositions.J. Chem. Inf. Comput. Sci. 1975; 15: 201–
203.
.
Données Traitement Diagnostics

Optimisation Classification
Acquisition
Stockage Calibration
Dosage
Réduction
Validation
Détection Description
5
La métrologie jour plusieurs rôles dans cette
évolution
 A la suite d’accord internationaux, une part
croissante des barrières douanières sont
remplacées par des normes tatillonnes qui
demandent un nombre de plus en plus important
de mesures ( physiques ou chimiques).
 Ces normes permettent d’établir des frontières
entre les industriels indépendamment des états
 A l’intérieur de celles-ci la métrologie est chargée
d’assurer la communication entre les acteurs
6
industriels.
 La métrologie est codifiées par des organismes
internationaux
7
8
VALIDATION DE MÉTHODES
9
 Production des normes
Demande Recherche d’accord Publication
Normes
Consommateur homologuées
Commission de
Pouvoir public normalisation Enquête
Projet probatoire
administrative Fascicules
de Norme
Professionnels
Normes
10
expérimentales
 La métrologie est une des bases de la qualité
Les Normes se répandent dans l’industrie( ISO

9000)
De nos jours la qualité s’attaque à tous les secteurs

d’une entreprise
11
 Il n’existe de méthode simple et générale pour

déterminer la fiabilité des données avec une
certitude absolue.
 L’évaluation des données expérimentales requiert

autant de difficultés que leur acquisition.
 Aucune option n’est parfaite l’expérimentateur

doit porter des jugements sur la qualité des
résultats.
12
 Une des questions à se poser est: Quelle erreur
maximale dois-je tolérer sur ce résultat?
 La réponse détermine le temps requis pour le

travail car personne ne peut se permettre de
perdre du temps à reproduire des données plus
fiables que nécessaire.
13
14
15
Vocabulaire
Analyte
Objet de la méthode d'analyse
Blanc
Essai réalisé en l'absence de matrice (blanc réactif) ou sur une matrice
qui ne contient pas l'analyte (blanc matrice).
Biais
Différence entre l’espérance de résultats d’essai et une valeur acceptée
comme référence.
Incertitude
Liste des sources d’incertitude et de leurs incertitudes types associées,
établie en vue d’évaluer l’incertitude type composée associée à un
résultat de mesure.
16
Calibrage (d’un instrument de mesure) (Gauging en anglais)

Positionnement matériel de chaque repère (éventuellement de certains
repères principaux seulement) d’un instrument de mesure en fonction
de la valeur correspondante du mesurande.
NOTE Ne pas confondre « calibrage » et « étalonnage »Biais

Différence entre l’espérance de résultats d’essai et une valeur acceptée comme référence.
Etalonnage (Calibration en anglais)

Ensemble des opérations établissant dans des conditions spécifiées, la
relation entre les valeurs de la grandeur indiquée par un appareil de
mesure ou un système de mesure, ou les valeurs représentées par une
mesure matérialisée, ou par un matériau de référence, et les valeurs
correspondantes de la grandeur réalisées par des étalons.
17
Matrice
Ensemble des constituants du matériau d’essai autres que l'analyte.
Méthode d'analyse
Procédure écrite décrivant l'ensemble des moyens et modes opératoires nécessaires pour
effectuer l'analyse de l'analyte, c'est-à-dire : domaine d'application, principe et/ou réactions,
définitions, réactifs, appareillage, modes opératoires, expression des résultats, fidélité ,
rapport d'essai.
AVERTISSEMENT Les expressions "méthode de dosage" et "méthode de détermination" sont parfois
employées comme synonymes de l'expression "méthode d'analyse". Ces deux expressions ne doivent pas être
employées dans ce sens.
Méthode d'analyse quantitative

Méthode d'analyse permettant de mesurer la quantité d'analyte présente dans le matériau
d’essai pour laboratoire.
Méthode d'analyse de référence (méthode de type I ou de type II)

Méthode qui donne la valeur de référence acceptée de la grandeur de l’analyte à mesurer.
Méthode d’analyse alternative (non classifiée)

Méthode d'analyse de routine utilisée par le laboratoire et non considérée comme
méthode de référence.
18
Mesurage
Ensemble d’opérations ayant pour but de déterminer une valeur d’une
grandeur.
NOTE Le déroulement des opérations peut être automatique.
Mesurande
Grandeur particulière soumise au mesurage.
Tolérance
Ecart par rapport à la valeur de référence, défini par la laboratoire pour un
niveau donné, dans lequel une valeur mesurée d’un matériau de référence
sera acceptée.
19
Détection des erreurs dues à la méthode

Un protocole d’analyse complet est répété sur 2 à 5
prélèvements d’un échantillon. Les prélèvements
sont de taille similaire et sont tous traités de la
même manière au cours de l’analyse.
Le protocole se justifie par 2 arguments
La valeur centrale d’une analyse est plus fiable
que n’importe quel résultat individuel
La dispersion des données doit fournir une
estimation de l’incertitude associée à la valeur
centrale.
20
 Les résultats obtenus pour six déterminations

successives, dans les mêmes conditions, sur le
même échantillon d'analyte sont :
19.9,19.4, 20.6, 19.8, 19.6, 19.5 ppm
C'est, au sens statistique du terme, un

échantillon de la population de moyenne m
(valeur probable de la concentration) et
d'écart type s.
Comment caractériser cet ensemble de résultats ?
21
Estimation de la moyenne
Estimation de l’écart type
x  19.80ppm
Pour l’échantillon considéré
s  0.434ppm
22
Autres définitions
La médiane: c’est le résultat qui se situe au milieu de l’ensemble des

données classées par ordre de grandeur, il y a autant de données
supérieure à la médiane que de données inférieures. Pour un nombre
impair de résultats la médiane est directement accessible pour un
nombre pair la médiane est égale à la moyenne de la paire centrale.
La précision: elle décrit la reproductibilité des mesures c.a.d. la

proximité des résultats qui ont été obtenus de la même manière. Trois
termes sont couramment utilisés
-l’écart type
- la variation
- le coefficient de variation
23
Autres définitions
L’exactitude: elle indique la proximité entre la mesure et sa valeur

réelle et s’exprime par l’erreur. L’exactitude ne peut jamais être
déterminée exactement car la valeur vraie d’une grandeur ne peut être
connue exactement.
L’exactitude s’exprime en terme d’erreur absolue ou d’erreur relative
- erreur absolue E= Xi-Xr
- erreur relative xt  xr
E  100
xr
24
25
Erreur absolue (xi-xr)% de N
Expérimentateur 1: Bonne précision, bonne exactitude
Expérimentateur 2 : précision médiocre, bonne exactitude
Expérimentateur 3 Très bonne précision mais il existe une erreur

significative sur les données.
Expérimentateur 4: Mauvais résultats à tous les points de vue
26
VALIDATION DE MÉTHODE
Il est clair que l’erreur sur les analyses chimiques peut avoir deux
causes:
-l’erreur aléatoire est la cause de la dispersion des résultats,
elle est plus faible dans les cas 1 et 3. En général l’erreur aléatoire
exprime la précision
-l’erreur systématique est la cause de la différence entre la
moyenne d’une série de données et la valeur présumée cas 3 et 4
27
 L’exactitude est « l’étroitesse d’accord entre des

résultats d’essai indépendants obtenus sous des
conditions stipulées ». La mesure de l’exactitude est
une mesure de la dispersion des mesures et se calcule
à partir d’un écart-type. Une exactitude moindre est
reflétée par un grand écart-type. Les résultats d’essai
sont indépendants s’ils sont obtenus sur le même
matériau d’essai d’une façon non influencée par un
résultat précédent ou similaire.
 la justesse qui mesure « l’étroitesse de l’accord entre

la valeur moyenne obtenue à partir d’une large série
de résultats d’essais et une valeur de référence
acceptée ». La mesure de la justesse est généralement
exprimée en termes de biais ou d’écart à une
moyenne. 28
Les erreurs instrumentales
Chaque instrument possède une quantité inhérente d'incertitude dans sa

mesure. Même l'appareil de mesure le plus précis ne peut pas donner la
valeur réelle parce que cela exigerait un instrument infiniment précis. Une
mesure de l'exactitude d'un instrument est indiquée par son incertitude.
Comme principe de base, l'incertitude d'un appareil de mesure est 50% de
la plus petite mesure possible. Rappelez-vous que l'incertitude est la plus
petite subdivision indiquée sur l'appareil de mesure. L'incertitude de la
mesure devrait être donnée avec la mesure réelle, par exemple, 41.64 ± 0.05
cm.
Voici quelques incertitudes typiques de divers instruments de laboratoire :
Mètre ruban: 50% de la plus petite division, habituellement ± 0.05 cm

Pied à coulisse: ± 0.01 cm
Balance à triple plateau: 50% de la petite division, habituellement ± 0.05 g
29
Eprouvette graduée 50% de la plus petite division
 Les erreurs dues à la méthode

Le comportement chimique non idéal des réactifs
ou des réactions peut être à l’origine d’erreurs
systématiques dans la méthode. Ces erreurs sont
difficiles à détecter et sont les plus gênantes.
Ainsi, tout équipement utilisé pour effectuer des
essais ou des étalonnages doit être étalonné ou
vérifié avant d’être mis en service. Le laboratoire
doit disposer d’un programme et d’une procédure
établis pour l’étalonnage et la vérification de son
équipement, y compris l’utilisation des matériaux
de référence et des étalons de référence
30
 Les erreurs accidentelles : Elles résultent

d'une fausse manœuvre, d'un mauvais emploi ou
de dysfonctionnement de l'appareil. Elles ne sont
généralement pas prises en compte dans la
détermination de la mesure.
31
Les types d'erreurs classiques
L'erreur de zéro (offset) C'est une erreur qui ne dépend

pas de la valeur de la grandeur mesurée Erreur de zéro =
Valeur de x quand X = 0
L'erreur d'échelle (gain)

C'est une erreur qui dépend de façon linéaire de la valeur
de la grandeur mesurée. Erreur de gain (dB) = 20 log( x/ X)
L'erreur de linéarité La caractéristique n'est pas une

droite.
32
L'erreur due au phénomène d'hystérésis

Il y a phénomène d'hystérésis lorsque le résultat de la mesure dépend de la
précédente mesure.
L'erreur de mobilité
La caractéristique est en escalier. Cette erreur est souvent due à une n
numérisation du signal
33
Autres définitions
L’exactitude: elle indique la proximité entre la mesure et sa valeur

réelle et s’exprime par l’erreur. L’exactitude ne peut jamais être
déterminée exactement car la valeur vraie d’une grandeur ne peut être
connue exactement.
L’exactitude s’exprime en terme d’erreur absolue ou d’erreur relative
- erreur absolue E= Xi-Xr
- erreur relative xt  xr
E  100
xr
34
La valeur de référence acceptée (valeur conventionnellement vraie de

l’échantillon) est fournie par consensus à partir des valeurs de mesures
répétées. Cela peut être une valeur théorique ou établie, fondée sur des
principes scientifiques, une valeur assignée ou certifiée, fondée sur les
travaux expérimentaux d’une organisation nationale ou internationale, une
valeur de consensus ou certifiée, fondée sur un travail expérimental en
collaboration et placé sous les auspices d’un groupe scientifique ou technique
ou, encore, la moyenne d’une population spécifiée de mesures.
Cette nécessité de recourir à une valeur de consensus va justifier
l’organisation des analyses interlaboratoires. En effet, la traçabilité des
mesures chimiques ne permet pas de remonter simplement à l’étalon
primaire qu’est la mole. Par contre, comme le prévoit les normes lorsqu’il est
impossible d’établir la traçabilité aux unités de mesure SI, le laboratoire doit
soit participer à un programme approprié de comparaisons interlaboratoires
ou d’essais d’aptitude, soit utiliser des matériaux de référence appropriés ou
certifiés.
35
 Un échantillon est un sous-ensemble d'une population visée.

Quand l'échantillon a été prélevé aléatoirement -ou d'une
manière probabiliste-, on peut penser qu'il est représentatif de
la population.
Cependant, même quand cet échantillon est numériquement
important, on ne peut pas présumer qu'il soit en tout point
conforme à la population quant aux proportions des différentes
catégories.
1. Premiers outils: les tests statistiques
2. D'une manière plus intuitive, on parle d'une marge d'erreur.
3. Aujourd'hui, les chercheurs utilisent de plus en plus le
bootstrap ou bootstrapping qui permet de multiplier des
échantillons et de reproduire par rééchantillonnage l'intervalle
de confiance, et ce peu importe la statistique recherchée.
36
 En statistique on appelle échantillon de données un

nombre fini d’observations expérimentales.
L’échantillons est traité comme une petite fraction d’un
nombre infini d’observations qui pourraient être faites si
on disposait d’un temps infini.
 Les statisticiens appellent le nombre infini et théorique
de données une population, Les lois statistiques ont été
établies pour une population de données
𝑁
𝑁
𝑖=1(𝑥𝑖 − µ)² 𝑖=1(𝑥𝑖
− 𝑥 )²
= 𝑠=
𝑁 𝑁−1
Écart type de la population Écart type de l’échantillon
37
Propriété de la courbe de gauss
38
Les limites de confiance

Comme la valeur vraie d’une mesure n’est jamais connue, les
statistiques permettent de fixer des limites autour de la moyenne
expérimentale, Si une distribution est normale (gaussienne) 95% des
éléments de l’échantillon sont compris dans un intervalle de 2
déviations standards.
39
 L’écart type de l’échantillon est une bonne

approximation de l’écart type de la population
https://celtinvest.com/ecart-type/ 40
 La courbe d’erreurs normales ci-dessous montre que
68,2% de l’aire sous la courbe se situe entre -1 et + 1 .
 95,4% de l’aire se situe entre -2 et + 2 , 99,7 % de l’aire
se situe entre -3 et + 3 
 Ces relations permettent de définir autour d’une mesure,

un domaine de valeurs sans lequel la moyenne réelle a
une certaine probabilité de trouver à condition de
disposer d’une estimation raisonnable .
41
Expression des limites de confiance à 90%
Pour une seule mesure
LC% µ = 𝑥  2
Pour la moyenne de N mesures on utilise / 𝑁
z
D’où µ=𝑥
𝑁
Nombre de mesure z
dans la moyenne
2 0,71
3 0,58
4 0,50
5 0,45
6 0,41
42
10 0,32
 Il arrive que l’on ne puisse pas estimer l’écart
type de la population correctement, Dans ce cas
la série de mesures disponible permet d’estimer
la moyenne et la précision qui lui est associée.
 Dans ce cas les limites de confiances sont

nécessairement étendues. On utilise le t de
student et l’écart de l’échantillon s pour calculer
les limites de confiance
ts
LC% µ=𝑥 𝑁
43
 Valeur de t pour divers degrés de probabilites
44
 Aide statistique à la vérification d’hypothèses
En pratique les résultats expérimentaux sont rarement

en parfait accord avec ceux du modèle théorique.
L’experimentateur doit apprécier si le désaccord est la
fait d’erreurs aléatoires inévitables ou celui d’une
erreur systématique dans la procédure
Certains tests statistiques sont utilisés pour porter de

tels jugements
Ces test utilisent le concept de l’hypothèse nulle. On
suppose que les grandeurs numériques comparées sont
rigoureusement identiques. La probabilité pour que les
écarts proviennent d’une erreur aléatoire est explorée. 45
 Comparaison d’une moyenne expérimentale avec la
valeur vraie
Un moyen usuel pour rechercher une erreur
systématique (ou un biais) dans une méthode
analytique, consiste à analyser par cette méthode un
échantillon dont la composition exacte est connue. La
méthode A n’a pas de biais aussi la moyenne de la
population µA est égale à Xr la valeur réelle. La
méthode B est affectée d’un biais qui vaut
biais= µB-µr
46
Illustration d ’un biais
Biais = m2 m1 si la méthode A n ’a pas de biais 47

 On compare la différence entre les deux moyennes avec la
différence causée par une erreur aléatoire. Si la différence est plus
petite que celle qui est calculée pour un degré de probabilité
donnée, on ne peut pas rejeter l’hypothèse nulle,
 Si la différence observée est plus importante que la valeur
attendue, la différence est réelle et l’erreur systématique est
significative
La valeur critique se calcule à l’aide de l’équation suivante

ts
𝑥 − 𝑥𝑟 =
𝑁
Ou si on dispose d’une bonne approximation de l’écart type de la
population z
𝑥 − 𝑥𝑟 =
𝑁
48
 Comparaison de la précision des mesures
Le test F constitue une méthode simple pour comparer la
précision de deux séries de mesures, Il n’est pas nécessaire
que les séries soient obtenues à partie du même échantillons
à condition que les échantillons soient suffisamment
semblables pour que l’on puisse admettre que les source
d’erreurs aléatoires soient les mêmes.
Ronald Aylmer Fisher (17 février

1890 [Londres] - 29 juillet 1962
[Adelaïde])
49
 Le test de Fisher-Snedecor est un test statistique qui
compare les variances de deux échantillons statistiques.
Hypothèse testée : "VarianceX=VarianceY", avec risque
d'erreur
Déroulement du test :
 On calcule les moyennes observées mX et mY des deux
échantillons :
 On calcule les variances observées non biaisées des deux
échantillons :
 On calcule la variable de test t, après avoir permuté
éventuellement sX et sY de sorte que sX soit le plus grand des
deux :
 On compare avec la valeur critique de la loi de Fisher-
Snedecor à p-1,q-1 degrés de liberté pour le risque a recherché,
Fp-1,q-1. Si t>Fp-1,q-1, on rejette l'hypothèse, sinon on l'accepte.
50
 La détection des erreurs grossières
Lorsqu’une série de données contient un résultat qui diffère
sensiblement de la moyenne, on doit prendre la décision de la
garder ou de la rejeter.
Le choix du critère de rejet est délicat :si on ne rejette pas on

court le risque de fausser la moyenne, si on rejette trop
facilement on peut introduire un biais dans la méthode.
Le test du Q est un test statistique très largement utilisé. Il

consiste à calculer la valeur expérimentale Qexp en divisant
par l’étendue W la valeur absolue de la différence entre le
résultat suspect xq et son plus proche voisin Xn.
𝑥𝑞 − 𝑥𝑛
𝑄𝑒𝑥𝑝 = 51
𝑊
X1 X2 X 3 X4 X5 X6
𝑋6 − 𝑋5
𝑄𝑒𝑥𝑝 =
𝑊
52
53
 Recommandation pour le traitement des valeurs
excentriques
Lorsqu’une série de données contient une valeur suspecte, il est
recommandé de procéder comme suit:
1.Reéxaminer les données ayant conduits au résultat pour détecter
une erreur grossière
2. Estimer si possible la précision attendue de la méthode avant de
rejeter le résultat
3. Répéter l’analyse si on a assez d’échantillon et de temps. Un bon
accord avec les nouvelles données et les données initiales appuie la
décision de rejet.
4. Si on ne peut pas obtenir plus de données effectuer le test du Q²
54
 Recommandation pour le traitement des valeurs
excentriques
5. Si le test du Q² conseille de garder le résultat, travailler avec la
médiane de la série plutôt qu’avec la moyenne. La médiane permet
de tenir compte de toutes les données d’une série sans être
influencée par une valeur excentrique.
55
 Assurance qualité et cartes de contrôle
Lorsque les méthodes analytiques servent à
résoudre des problèmes concrets d ’intérêt général,
il est impératif d’évaluer constamment la qualité
des résultats fournis par l’appareillage et
l’efficacité de ce dernier. Dans tous les processus de
production, nous devons surveiller dans quelle
mesure les produits répondent aux spécifications.
En termes plus généraux, la qualité d'un produit a
deux "ennemis" : (1) les écarts aux spécifications
cibles, et (2) une dispersion excessive autour des
spécifications cibles.
56
 LES CARTES DE CONTRÔLE PAR MESURE

Pour suivre l’évolution du procédé, des prélèvements d’échantillo
ns sont effectués régulièrement
Pour chaque échantillon, la moyenne et l’étendue sont calculées
sur la caractéristique à contrôler.
Ces valeurs sont portées sur un graphique.
Au fur et à mesure qu’elle se remplit, la carte de contrôle permet
la visualisation de l’évolution du processus.
A partir de la valeur moyenne sont définis les différentes limites
les limites inférieures et supérieures de contrôle : Lc1 et Lc2.

les limites inférieures et supérieures de surveillance : Ls1 et Ls2.
57
 Les cartes de contrôle de Shewhart
1) Principe
On prélève à intervalles réguliers des échantillons
d’effectif fixe n. Pour la carte de contrôle de la
moyenne, on calcule pour chaque échantillon la
moyenne des valeurs observées (on peut également
calculer l’étendue ou l’écart-type pour contrôler la
dispersion). La ligne centrale d’une carte de
contrôle correspond à la valeur cible qui doit
correspondre à l’espérance de la statistique
associée aux grandeurs mesurées. Ainsi, pour la
carte de contrôle de la moyenne, la valeur cible est
la moyenne μ de la population considérée
(estimation ou valeur de référence) car E(X)= μ. 58
Définition des limites de surveillance et de

contrôle
 Il faut alors définir :une limite supérieure de
surveillance (LSS) et une limite inférieure de
surveillance (LIS) situées à 2 écarts-types (de
la statistique utilisée) de la valeur cible ;
 une limite supérieure de contrôle (LSC) et
une limite inférieure de contrôle (LIC)
situées à 3 écarts-types de la valeur cible.
59
60
 Utilisation d’une carte de contrôle

Règles de décision en cours de fabrication :
a) Si la valeur est entre les limites de surveillance,
le résultat est satisfaisant.
b) Si la valeur est entre une limite de surveillance et

une limite de contrôle, on procède immédiatement à
une nouvelle prise. Si le résultat ne se trouve pas
entre les limites de surveillance, on procède à un
réglage.
Si la valeur n’est pas entre les limites de contrôle, 61

on procède à un réglage
Actualisation et analyse d’une carte de

contrôle
Régulièrement, il faut s’assurer que la carte de
contrôle mise en place donne des résultats
satisfaisants. Si tel n’est pas le cas (sortie
fréquente des limites), il faut essayer de trouver la
cause d’une éventuelle défaillance ou essayer de
redéfinir les limites de cette carte. On peut signaler
qu’une carte de contrôle peut également être
utilisée pour un contrôle à posteriori en faisant
apparaître par exemple un phénomène de dérive
(plusieurs points consécutifs vers le bas, plusieurs
points consécutifs situés d’un même côté de la cible, 62
..).
 Définitions
 Analyse des données monovariées :une variable
utilisée
 Analyse des données multivariées :plusieurs
variables utilisées
63
 A lire
 Chemometrics and intelligent laboratory systems, an international journal sponsored by
the chemometrics society published since 1987 by Elsevier
 H. Martens, T. Naes, Multivariate calibration, Wiley 1989
 K.R. Beebe, R.J. Pell, M.B. Seasholtz, Chemometrics: a practical guide, Wiley 1998
 D.L. Massart, B.G.M. Vandeginste, S.M. Deming, Y. Michotte, L. Kaufman, Chemometrics:
a textbook, Elsevier 1988
 B.G.M. Vandeginste, D.L. Massart, L.M.C. Buydens, S. De Jong, P.J. Lewi, J. Smeyers-
Verbeke, Hand book of Chemometrics and Qualimetrics: Part A & Part B, Elsevier 1998
 S.D. Brown, R. Tauler, B. Walczak (eds), Comprehensive Chemometrics: chemical and
biochemical data analysis (4 volume set), Elsevier, 2009
 R.G. Brereton, Applied chemometrics for scientists, Wiley 2007
 M. Otto, Chemometrics: statistics and computer application in analytical chemistry, 2nd
Edition, Wiley-VCH 2007
 R. Kramer, Chemometric techniques for quantitative analysis, CRC Press, 1998
 P.J. Gemperline (ed), Practical guide to chemometrics, 2nd Edition, CRC Press 2006
 H. Mark, J. Workman, Chemometrics in spectroscopy, Academic Press-Elsevier, 2007

64
 Résultat de la recherche dans le WOS 2009-2019
chemometric or discriminant analysis or PLS or
SIMCA dans le titre , Résultat: 5934 articles
65
 Répartition (recherche effectuée en Juin 2019 )
66
La Chimiométrie
Quantitative permet de traiter le
Spectroscopy
Analysis résultat des
expériences et est
Chemometrics
ainsi essentielle à
tous les
scientifiques.
Separations Electro
chemistry
67
CHIMIOMETRIE
Pour les applications chimiométriques les spectres sont organisés en matrices,

- Même nombre de points
- Absorbances à une longueur d’onde données en colonne
- Les échantillons en ligne
68
CHIMIOMETRIE
Objectifs de la chimiométrie
 Explorer et Décrire: Analyse en composantes

principales ACP
 Corréler et prédire: Régressions MLR, PCR,

PLS…
 Caractériser et classifier (ou discriminer):

SIMCA, KMM, PLS-DA
69
CHIMIOMETRIE
 Analyse exploratoire ou analyse de la structure
des données: Analyse en composantes principales
(ACP).
Analyse non supervisée, recherche des similitudes et des

différences.
Construction d’un nouveau système de représentation qui
permet de synthétiser l’information
70
CHIMIOMETRIE
 Analyse en composantes principales (ACP).
Nombres d’onde
échantillons
X= S.P+E
La matrice S des scores

comporte autant de lignes
que d’échantillons, la matrice
Composantes principales
P comporte autant de
scores
colonnes que de nombres

d’onde dans les spectres
initiaux 71
METHODOLOGIE
Représentation des premiers vecteurs composantes principales
Direction du premier
vecteur composante principale
Direction du deuxième
vecteur composante principale
La variation qui existe entre les individus peut être représentée par une droite
72
qui passe au milieu du nuage de points. Son orientation est telle que de plus
en plus d’individus sont rencontrés quand on suit la droite
CHIMIOMETRIE
Composante 1 Composante 2
Les 2 axes choisis dans la photo de droite sont

meilleurs que ceux de la photo de gauche car
dans ce cas, on reconnaît le chameau. Par
conséquent, on conserve l’information
principale. En outre, la projection des
échantillons dans un référentiel réduit peut
73
servir à classer ceux-ci en différentes familles.
CHIMIOMETRIE
74
CHIMIOMETRIE
Pour visualiser des données multivariées les distances projetées doivent
être proches des distances réelles dans le repère de départ.
75
CHIMIOMETRIE
 Propriétés des composantes principales
-Nombre L’ACP peut construire autant de variables
principales que de variables originales, c’est
l’analyste qui détermine le nombre de composantes
à retenir
- Orthogonalité: Les composantes principales
définissent des directions de l’espace qui sont
orthogonales deux à deux. L’ACP procède à un
changement de repère orthogonal, les directions
originales sont remplacées par les composantes
principales.
76
CHIMIOMETRIE
 Propriétés des composantes principales
-Décorrelation: Les composantes principales sont
des variables qui s’avèrent deux à deux
décorrélées.
-Ordre et sous espaces optimaux. La propriété des
composantes principales est de pouvoir être
classées par ordre décroissant d’importance. Le
meilleur sous espace à k dimensions dans lequel
projeter les observations est celui engendré par les
k premières composantes
77
CHIMIOMETRIE
 Cercle de corrélation
A chaque point-variable, on associe un point dont la
coordonnée sur un axe factoriel est une mesure de
la corrélation entre cette variable et le facteur.
Dans l’espace de dimension p la distance des
points-variables à l’origine est égale à 1. Donc par
projection sur un plan factoriel les points-
variables s’inscrivent dans un cercle de rayon 1 -
le cercle des corrélations - et sont d’autant plus
proche du bord du cercle que le point variable est
bien représenté par le plan factoriel, c’est-à-dire
que la variable est bien corrélée avec les deux
facteurs constituant ce plan 78
CHIMIOMETRIE
L’angle entre 2 variables, mesuré par son cosinus,
est égal au coefficient de corrélation linéaire
entre les 2 variables: cos(angle) = r(X1,X2)
-si les points sont très proches (angle proche de
0) : cos(angle) = r(X1,X2) = 1 donc X1 et X2 sont
très fortement corrélés positivement
-si l’angle est égal à 90° , cos(angle) = r(X1,X2) =
0 alors pas de corrélation linéaire entre X1 et X2
-si les points sont opposés, a vaut 180°, cos(angle)
= r(X1,X2) = -1 : X1 et X2 sont très fortement
corrélés négativement
79
CHIMIOMETRIE
 Utilisation:
L’ACP fourni des données décrites par des variables
quantitatives , des représentations planes. On projette
les données sur des plans factoriels, chaque plan étant
défini par deux composantes principales. L’examen de
ces représentations permet:
- de localiser des observations aberrantes
- de repérer des groupes « classes » ou « cluster » qui
suggèrent l’existence de sous-populations dans les
données
- d’interpréter les différences 80
APPLICATION
 L’exemple porte sur une analyse d’un certain nombre de
critères sur des magasins situés dans plusieurs villes.
81
APPLICATION
Dans notre exemple, nous pouvons constater

que les points “disponibilité”, “compétence” et
“courtoisie” sont très proches du cercle de
corrélation L’angle plutôt fermé (en partant
de l’origine) que forment les points
“compétence” et “disponibilité” indique que
ces 2 variables sont assez bien corrélées
entre elles. En revanche, l’angle quasi droit
formé par “compétence” et “choix” indique
que ces deux variables sont indépendantes
entre elles.
Le fait que “compétence” soit proche de l’axe 1 indique qu’il est très bien représenté par cet
axe. Comme il est très éloigné de l’axe 2, on peut conclure qu’il est peu représenté par cet
axe.
En ce qui concerne l’axe 2, le point “choix” est très bien correlé avec l’axe. Le point “facilité”
l’est également mais dans une moindre mesure.
De ces observations, nous pouvons conclure que l’axe 1 correspond plutôt à l’appréciation des
vendeurs et notamment de leur compétence alors que l’axe 2 correspond plutôt à 82
l’appréciation du magasin et notamment du choix qu’il propose.
APPLICATION
 Quelles autres conclusions tirer de l’analyse ? En
synthétisant les informations issues des 5 variables
analysées, on peut conclure qu’il y a beaucoup d’efforts à
faire en matière d’accueil et de renseignement des clients
dans les magasins de Nice, Marseille, Amiens et Toulon. Ce
dernier est également très peu apprécié en matière de
choix.
Les magasins de Paris, de Lyon et de Marseille sont
appréciés de la clientèle pour le choix qu’ils proposent et la
facilité pour trouver les produits recherchés.
Lyon se distingue aussi par l’amabilité du personnel et
peut être considéré comme le meilleur magasin parmi ceux
qui ont fait l’objet de l’analyse.
Ces conclusions sont confirmées par l’examen des tableaux
de corrélations et de coordonnées des individus, fournis par
le logiciel d’analyse. 83
L’ACP, approche mathématique
Soit M, la matrice de données (K

lignes et N colonnes), avec K
échantillons (ou individus) et N
variables
Il est possible dans un premier
temps de calculer la matrice des
poids sur les individus. Cela permet
de donner éventuellement plus
d’importance à 1 échantillon qu’à 1
autre.
Ces poids, qui sont des nombres
positifs de somme 1 sont représentés 84
par une matrice diagonale D de taille
K:
CHIMIOMETRIE
 L’importance que prendront les variables dans le calcul des

composantes principales est fonction de leur grandeur
 Une variable ayant un écart type important aura plus de poids

qu’une variable avec un écart type faible
 Des variables de fort écart type construiront les premières

composantes
 C’est pour cela qu’il centrer et parfois réduire les données,
85
CHIMIOMETRIE
Elle peut être aussi réduite :
Le choix de réduire ou non le nuage de

points peut avoir deux effets :
● si on ne réduit pas le nuage : une variable
à forte variance va « tirer » tout l'effet de
l'ACP
● si on réduit le nuage : une variable qui
n'est qu'un bruit va se retrouver avec une
variance apparente égale à une variable
informative.
86
CHIMIOMETRIE
 Pour la matrice de variance co-variance: on tient

compte de la différence des variances entre les
variables. Les valeurs propres sont la variances
des composantes principales.
 La matrice de corrélation on centre et on réduit

les variables de départ, seules sont importantes
les corrélations entre les variables. Les valeurs
propres de cette matrice sont les coefficients des
combinaisons linéaires des variables initiales
donnat des composantes principales.
87
CHIMIOMETRIE
Une fois la matrice M transformée il suffit de

la multiplier par sa transposée pour obtenir:
● la matrice de variance-covariance des X1, …,
XN si M n'est pas réduite
● la matrice de corrélation des X1, …, XN si M
est réduite
Le principe de l'ACP est de trouver une
composante, issue d'une combinaison linéaire
des Xn, telle que la variance du nuage autour
de cet axe soit maximale. 88
CHIMIOMETRIE
ACP schématique
J
i Tableau de données
J
Matrice de
J correlation
Diagonalisation
J J
Valeurs Matrice des
J propres en vecteurs J
diagonale propres
J
Les
Histogramme i composantes 89
Des valeurs principales
propres
CHIMIOMETRIE
 Example1 354 spectres proches infrarouges de 5
composés : essences, gazoles, toluène, cyclohexane,
heptane enregistrés sur 4 appareils différents
Line P lot
0.10
0.05
-0.05
-0.10
-0.15
-0.20
-0.25
-0.30
90
Variables
604 649 691 735 810 844 893 932 962 1000 1037
C95S-07 C95S-13 C95S-15 C95S-15
CHIMIOMETRIE
PC2 Scores
0.20 C95
C95
C95
C95
C95
C95
C95
C95
essences
C95
C95
C95
C95
0.15 C95
C95
C95
C95
C95
C95C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
C95
0.10
0.05
Gazole et heptane
Hep
Hep
Hep
Hep
GO1Hep
GO1
GO1
GO1
GO1
GO1
GO1
GO1
GO1
0
GO1Hep
GO1
Toluène
GO1
GO1
GO1
GO1GO1
GO1
GO1
HepHep
Hep
Hep
GO1
GO1
GO1
GO1
Hep
GO1 Hep
Hep
Hep
Hep
GO1
GO1
GO1
GO1Hep
GO1Hep
Hep
Hep
GO1
GO1
GO1
GO1Hep
GO1
GO1
GO1Hep Cyc
Cyc
Cyc
Hep
Hep Cyc
Cyc
Cyc
-0.05 Tol Hep
Hep
Hep
Hep Cyc
Tol
Tol
Tol
Tol Hep
Hep Cyc
Cyc
Cyc
Cyc
Hep Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Cyc
Hep Cyc
Cyc
Cyc
Tol
TolTol
Tol Cyc
Cyc
Cyc
Cyc
TolTol
Tol
Tol
Tol
Tol
Tol Cyc Cyc
Cyc
Cyc
Cyc
-0.10 Tol
Tol
Tol
Tol
Tol
Cyc
-0.15
Cyclohexane
PC1
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3
RES ULT3, X-expl: 81% ,14%
Les deux premières composantes représentent 81+14% de la 91

variance totale
CHIMIOMETRIE
PC2 Scores
0
-0.02
-0.04
Tol
Tol
Tol
Tol
Tol
Tol
Tol
Tol Tol
Tol
Tol
Tol
Tol
-0.06
-0.08
Spectro 2 Spectro 3
Tol
TolTol Tol
Tol
Tol
Tol
Tol Tol
Tol
Tol
Tol
Tol
Tol Tol
TolTol
Tol
Tol
Tol
Tol
Tol
Tol Tol
Tol
Tol
Tol
Spectro 1
-0.10 TolTol
Tol
Tol
Tol
Tol
Tol
Tol
Tol
Tol Tol
-0.12
Spectro 4
PC1
-0.41 -0.40 -0.39 -0.38 -0.37 -0.36 -0.35 -0.34 -0.33 -0.32 -0.31
RES ULT3, X-expl: 81% ,14%
Existence de sous groupes à l’intérieur de catégories
92
CHIMIOMETRIE
 Example2 40 spectres moyen infrarouges d’huiles
pétrolières de 2 origines géographiques
93
APPLICATION
 Spectres ATR d’huiles pétrolières
94
APPLICATION
 Résultats de l’ACP
95
APPLICATION
Interprétation
Les scores (valeurs propres) sont les coordonnées
des spectres dans l’espace des composantes
principales.
Les maxima et les minima des composantes
principales modélisent les longueurs d’ondes qui
participent à la différence.
96
APPLICATION
 Interprétation.
Positifs: 728, 740 767, 797, 806, 835, 846, 873,
1448, 1496, 1608 cm-1
Négatifs: 719, 1465 cm-1
Positif : Aromatiques
Négatifs: Aliphatiques
97
APPLICATION
Interprétation.
Vapeur d’eau
98
APPLICATION
Interprétation.
Positif: 1081, 916 cm-1
99
CHIMIOMETRIE généralités
Systèmes monocapteurs
X Y
Systèmes multicapteurs
X1 Y1
X2 Y2
X3 Y3
Xn Yn
100
Example 1 Signaux transmis par deux capteurs de gaz
Capteur
de gaz
Capteur
De gaz
101
Example 1 analyse d’un échantillon par colorimétrie
P0 P
Solution absorbante de concentration C
102
Etalonnage ou modélisation Prédiction

Variables X
Variables X Mesurées
Mesurées
Capteur
Capteur
Calcul de Prédicteur
Modélisation
Variables Y
Mesurées
(Chères et difficiles) Estimation
des variables Y
Prédicteur
103
Problème de l’analyse multivariable:

Soient l échantillons dits d'étalonnage, chacun ayant c variables
y (appelées par la suite Yvariables) caractéristiques, non "
facilement " mesurables directement (ex: concentrations
chimiques), mais quand même supposées connues pendant la
phase d'étalonnage:
104
Problème de l’analyse multivariable:

Par contre, n variables x ("Xvariables") sont " facilement "
mesurables (ex: grandeurs physiques):
Est-il possible, à partir de ces échantillons d'étalonnage, de

trouver une fonction F telle que pour tout autre échantillon on
puisse calculer, à partir de X;
Y = F(X) où F est appelé prédicteur ?
105
Méthode générale:
On désire trouver Y=F(X) le "plus précisément possible". On aura
donc, pour les échantillons d'étalonnage:
Y=F(X)+E
où E est la matrice d'erreur sur les variables Y que l'on désire
minimiser
Le concept de minimisation d'une matrice nécessite d'introduire
une distance. On utilise généralement la distance Euclidienne:
(D'où le nom de méthode des "moindres carrés"; en fait, d'autres

types de distances pourraient faire l'affaire, mais alors le cas
106
linéaire n'aurait pas de solution analytique simple)
Supposons, pour simplifier la formulation qu'il n'y ait qu'une variable y.

La forme générale des fonctions f est supposée connue. On doit donc trouver les
constantes a1,...,aq,...,ap qui les caractérisent quantitativement, et donc telles que:
107
Donc, pour tout q, =0
Soit, pour tout
q,
On obtient donc p équations à p inconnues dont la résolution littérale est
impossible dans le cas général.
108
Les relations entre les X et les Y sont linéaires et les ap forment

une matrice A: Y=XA + E
soit:
Remarque: : Chaque ligne représentera un échantillon (ou
expérience) et chaque colonne, une variable.On peut montrer
facilement que l'équation (1) du paragraphe précédent est
équivalente à un système de c équations à n inconnues ak dont
la solution, au sens "moindres carrés", est:
A = (X'X)-1 X'Y
(X, à priori non carrée n'est pas inversible, alors que XtX, carrée,
peut l'être, c >= b étant une condition nécessaire.)
A est le prédicteur ou matrice de prédiction. On dit que l'on a 109
fait une régression de Y sur X
ici, 1 Xvariable (ici, A=absorbance),

1 Yvariable (ici, C=concentration),
N échantillons (expériences).
Y
Régression de x sur y
x=Ay +B + x
X
110
ici, 1 Xvariable (ici, A=absorbance),

1 Yvariable (ici, C=concentration),
N échantillons (expériences).
Régression de y sur x
y=Ax +B + y
x 111
ici, 2 variables (X ou Y), N échantillons
Les variables ne sont pas

Les variables sont
indépendantes indépendantes
112
Dimension = nombre d'échantillons

•ici, 3 variables absorbances et 1 variable concentration,
•3 échantillons.
•2 variables (= vecteurs) indépendants sont orthogonales
113
Principe de la régression linéaire multivariée:

Supposons que l'on ait 3 échantillons d'étalonnage caractérisés
par 2 variables x1, x2 et une variable y. On peut représenter ces
variables dans "l'espace des échantillons" (où dimension du
repère représente un échantillon, on a donc ici un espace de
dimension 3), par des vecteurs:
114
Le centrage des variables:

On suppose dans les calculs qui suivent que le modèle s'écrit:
Y=A*X
Que se passe-t-il si l'on a en fait: Y=A*X + Y0 ?(terme d'offset)
Ce cas peut se résoudre directement par la méthode des

moindres carrés, mais on préfère généralement prendre les
variables dites centrées:
On a alors:
115
La normalisation des variables: Les variables y1...yj ne sont pas

forcément du même ordre de grandeur, ni même homogènes: on doit donc
les normaliser avant l’étalonnage, c'est à dire les diviser par la racine
carrée de la moyenne de leur carré :
Il est donc préférable normaliser toutes les variables (A et C) avant

calibrage et un éventuel centrage. Après la prédiction, les variables C
calculées devront donc être dénormalisées puis éventuellement
décentrées avec les valeurs de moyenne et de norme obtenues lors du
calibrage.
116
La matrice de covariance
La matrice X'X que l'on est amené à inverser s'écrit, si les
variables xik sont centrées
Cette matrice symétrique, qui comporte les variances des Xvariables

sur la diagonale et les covariances ailleurs, est appelée matrice des
covariances.
Rappel: la covariance est une mesure du degré d'indépendance de 2
variables: de 1 (en valeur absolue) pour 2 variables proportionnelles
à 0 pour 2 variables indépendantes.
Si 2 colonnes de X sont colinéaires, c'est à dire si pour tous les
117
échantillons 2 variables xk ont des valeurs proportionnelles, la
matrice de covariance ne sera pas inversible.
CHIMIOMETRIE EN
SPECTROSCOPIE INFRAROUGE
But : - Reconnaissance (matières premières)

- Estimation d'une qualité (produits finis)
118
METHODOLOGIE
 Caractéristiques de l’échantillon
échantillonnage
 Spécificité des informations
 Reproductibilité
 Choix des traitements spectraux
dérivée
lissage
correction de la diffusion
119
METHODOLOGIE
Techniques d’échantillonnage
120
METHODOLOGIE
 Caractéristiques de l’échantillon
échantillonnage
 Spécificité des informations
 Reproductibilité
 Choix des traitements spectraux
dérivée
lissage
correction de la diffusion
121
METHODOLOGIE
 Méthodes de traitement des données
Non supervisées
Statistiques
Neuronales
Supervisées
Statistiques
Neuronales
122
METHODOLOGIE
 Méthodes de régressions multivariées.
 On cherche à établir une corrélation entre
données spectrales et concentrations par exemple
123
METHODOLOGIE
 Pour un produit pur

 A= KC
124
METHODOLOGIE
 Pour un mélange
1 A1= K1C1 + K2C2
2 A2= K1’C1 + K2’C2

Pour résoudre le problème il faut
au moins résoudre les inconnues K, il faut au moins 2 spectres pour 2 longueurs
d’ondes
125
METHODOLOGIE
 Méthode d’analyse supervisée
Classical Least Square (CLS)
Inverted Least Square (ILS)

ou
Régression multilinéaire (MLR)
126
METHODOLOGIE
Régression sur les composantes principales (PCR)
Régression selon les moindres carrés partiels

(PLS)
127
METHODOLOGIE
 Classical Least Square (CLS)
A partir de Beer-Lambert, on écrit:
A=C.B + EA
On défini C (m,l) matrice des concentrations et A (m,n) la
matrice des spectres. Les coefficients B sont les
coefficients d’extinction molaire.
On pose que toutes les erreurs sont dues aux données spectrales.
128
METHODOLOGIE
Calibration
B= (Ct. C)-1. Ct. A,
On minimise B et on calcule Emin.
Emin= A-C.B
129
METHODOLOGIE
Validation:
Cu=Au. Bt. (B.Bt)-1
Ep= Au-Cu.B
 CtC: on doit donc avoir: nb composés 
nb échantillons.
 BBt: on doit donc avoir: nb composés 
nb longueurs d'onde
130
METHODOLOGIE
Remarque:
On remarque que CtC est la matrice de covariance
des concentrations. Si 2 colonnes de C sont
colinéaires, CtC ne sera pas inversible, d'où des
précautions à prendre pour le choix des
concentrations des échantillons de calibrage. De
même, si 2 colonnes sont presque
colinéaires,(CtC)-1 comprendra de fortes valeurs
et on aura alors des instabilités pendant la
prédiction.
Si il n'y a qu'un seul composé, CtC est un scalaire
égal à la variance des concentrations et le 131
problème ne se pose pas.

METHODOLOGIE
Exemple graphique avec 3 échantillons, 2 longueurs d'onde et 1
composé:
 On déduit des projections de A1 et A2 sur C les coefficients de Beer

Lambert b1 et b2. En fait, si le nombre de longueurs d'onde est
supérieur au nombre de composés (ce qui est généralement le cas),
l'information est redondante: Le prédicteur M est en fait une
"moyenne" des différents opérateurs projection pour les différents Ab,
132
ce qui augmente théoriquement la précision du résultat.
METHODOLOGIE
Avantages de la méthode CLS:
•On peut utiliser théoriquement autant de longueurs d'onde
que l'on veut. Le fait d'en avoir beaucoup donne un effet de
"moyenne" bénéfique au niveau rapport signal / bruit..
•Intéressant au niveau compréhension des phénomènes: la
matrice B donne directement les coefficients de Beer Lambert
Inconvénients de la méthode:
•Le calcul des paramètres de prédiction pour un composé
utilise les concentrations de tous les composés: Tous les
composés ou interférents susceptibles d'être présents en phase
de prédiction devront être introduits pendant le calibrage, et
leur concentration devra être connue.
133
METHODOLOGIE
•Pour des raisons similaires, la méthode ne peut pas tenir

compte de variations non quantifiées ou non quantifiables
(variation de la ligne de base par exemple), ou d'interactions
entre les constituants.
134
METHODOLOGIE
 Multiple Linear Regression (MLR) ou (ILS)
On écrit C= 1.b + Ai,w.Bw,j + Ai,w+1. Bw+1,j + eij
Les valeurs des concentrations sont normées ou normalisées.
Les erreurs sont présumées ne provenir que des
concentrations.
C=A.B + E
On défini Ci,jmatrice des concentrations, Ai,w la matrice des
spectres,Bw,j matrice des paramètres de régression et Eij
matrice des erreurs.
La meilleure façon d’estimer les concentrations consiste à
trouver la combinaison linéaire des variables A qui
minimise les erreurs en reproduisant C. Les valeurs de la
matrice B sont estimées par les moindres carrés. 135
B= (At. A)-1. At. C
METHODOLOGIE
Calibration
B= (At. A)-1. At. C,
On minimise B et on calcule Emin.
Emin= C-A.B
Validation:
Cu=Au. B
Ep= Cu- Au.B
Mais, ce n’est pas une méthode de spectre complet, il
faut choisir les fréquences à utiliser. La matrice A
doit être inversible, elle a une dimension égale au
nombre des fréquences étudiées. Ce nombre ne doit
pas dépasser le nombre de mélanges utilisés pour
l’analyse.
136
METHODOLOGIE
Exemple graphique avec 3 échantillons, 2 longueurs d'onde et
1 composé:
On projette C sur le plan (A1 A2). La matrice de prédiction P est

la matrice de cette projection. E représente la partie de la
concentration dont il n'est pas tenu compte dans le calibrage
(variations non corrélées avec les variations d'absorbance). 137

METHODOLOGIE
Avantage de cette méthode:
Cette méthode ne demande pas de connaître tous les constituants du mélange. On
peut voir facilement que, pendant le calibrage, le calcul des
termes de B concernant le composé j (= colonnes de B) ne
dépendent pas des concentrations des autres composés.
Les composés présents mais de concentration inconnue pendant le
calibrage peuvent être considérés comme des impuretés.
Cette méthode résout donc le problème des impuretés,
mais celles-ci doivent être présentes de façon significative dans
les échantillons de calibrage.
De façon plus générale, il résout le problème des variations dues à
des causes externes, celles-ci n'ont pas à être quantifiées pendant
la phase de calibrage, mais doivent être présentes de façon
"significative". 138
METHODOLOGIE
Inconvénients:
La matrice A'A , qui est la matrice de covariance des absorbances,
doit être inversée:
On doit donc avoir:
nbre d'échantillons > nbre de longueurs d'onde

Il faut donc préparer au moins autant d'échantillons qu'il n'y a de
longueurs d'onde.
De plus, si des absorbances de longueurs d'onde trop voisines sont
"presque" colinéaires (physiquement non inversible), AtA, même si
elle est mathématiquement inversible, aura un déterminant
faible. La matrice B aura alors de forts coefficients (en valeur
absolue) et il y aura des problèmes d'instabilité pendant la
prédiction.
139
METHODOLOGIE
Enfin, retrouve ici le problème de surmodélisation,

commun aux 2 méthodes CLS et ILS, notamment
lorsque le nombre d'échantillons est faible
140
METHODOLOGIE
La surmodélisation
1.Erreur due à l’erreur
de mesure sur X:
Emes= où a
augmente avec la
complexité du modèle
2.Emod Erreur avec les
échantillons de
calibrage: forcément
décroissante.
3.Erreur totale de
prédiction: Etot = Emes +
Emod
4.Erreur de
modélisation (par
rapport au processus
réel)
141
METHODOLOGIE
L'analyse de facteurs:
Matrice B de
changement de base
S T
Dimension n Dimension b<n
Variables corrélées Variables indépendantes
142
METHODOLOGIE
L'analyse de facteurs:
Si h=n, il n'y a pas de réduction de données, le problème est
équivalent au précédent et la méthode a peu d'intérêt.
Il y a plusieurs méthodes pour déterminer la matrice de
changement de base B ("Loadings vecteurs") qui seront explicitées
plus loin.
Matrice B de
changement de base
S T
Dimension n Dimension b<n
Variables corrélées Variables indépendantes
143
METHODOLOGIE
Dans les 2 cas, on réduit le risque d'"overfitting" (surinformation du

système (modélisation du bruit) en réduisant le nombre de variables.
Il existe principalement 2 méthodes d'analyse des facteurs PCR et
PLS
144
METHODOLOGIE
Méthode PCR
Cette méthode utilise la matrice des covariances des
absorbances centrées, AtA. Elle part du principe que pour
choisir une nouvelle base de variables indépendantes, il
suffit, par définition, que les covariances de ces variables
entre elles soient nulles. La matrice de changement de
base est donc la matrice qui va rendre la matrice de
covariance diagonale. Elle est donc construite à partir des
vecteurs propres de AtA. Les valeurs propres représentent
alors la variance des scores, et donc leur contribution à la
modélisation: Pour effectuer la réduction de données, il
suffit alors de ne conserver que les h scores
correspondant aux plus fortes valeurs propres.
145
METHODOLOGIE
 Régression sur les composantes principales
(PCR)
Cette méthode repose sur le calcul des valeurs propres des données
spectrales.
A=T.Pt + E
On calcule les vecteurs propres de At.A, on sélectionne les
vecteurs les plus pertinents pour construire Pt
Puis on calcule T= A.P cette matrice est la projection de A dans le
nouveau repère. C’est un estimateur de A. Ensuite PCR étant
inspirée de ILS, on écrit:
Calibration
C=T. B+E
B= (Tt. T)-1. Tt. C,
On minimise B et on calcule Emin. 146
Emin= C-T.B
METHODOLOGIE
Validation:
T= A.P
A= T.B
E= A-T.B
147
METHODOLOGIE
Régression selon les moindres carrés
partiels
L’algorithme PLS est inspiré de la méthode
d’orthogonalisation de Gram-Schmidt. La
condensation des données s’effectue en calculant
les directions où les variations soit des
concentrations soit des données spectrales sont
maximales. Ces directions sont les éléments d’un
espace latent et sont appelées facteurs latents.
A= Th. Bh + Ea
148
C= Vh. Th + Ec
Bh et Vh sont appelés loadings de A et c
METHODOLOGIE
 Régression selon les moindres carrés partiels
Première étape:
Traitement mathématique des données, on centre les
matrices A et C, on soustrait le spectre de
calibration moyen à chaque spectre et les moyennes
des concentrations sont soustraites à chaque
concentration. Cela réduit la complexité du système.
Deuxième étape: A=C.Kht+ Ea
Kht=At.C(Ct.C)-1
On pose que seules les valeurs du premier constituant
sont connues. Le premier vecteur K1 représente une
première approximation par minimisation par les
moindres carrés du spectre du produit pur du
constituant analysé. 149
METHODOLOGIE
 Régression selon les moindres carrés partiels
Troisième étape:
A=Th.Kht+ Ea
Th= A. Kh
Cette étape revient à calculer une approximation de C par
le vecteur Th
Quatrième étape: Pour éliminer les problèmes de colinéarité
les vecteurs Th doivent être orthogonaux. A=Th.Bh+ Ea
Bh=At.Th(Tht.Th)
Contrairement à PCR ces loadings ne représentent pas
seulement la maximum de la variance des spectres mais le
maximum de la variation ayant le meilleure corrélation
avec les vecteurs Th première approximation de C. Les
vecteurs loading ainsi calculés ne sont pas orthogonaux.
Les fréquences associées aux plus grandes valeurs
positives de Bh indiquent les fréquences ayant la
meilleure dépendance avec les variations de la 150
concentration pour un vecteur Bh particulier.
METHODOLOGIE
 Régression selon les moindres carrés
partiels
Sxième étape:
Ea=A-Th.Bh
Ec= C-Vh. Th
Toutes les variations de la concentration
n’ont pas été prises en compte par le
premier vecteur loading , On recherche les
variations qui n’ont pas été prises en
compte dans la première itération.
On recommence jusqu’à ce que Ec soit très 151
voisin de Zéro.
METHODOLOGIE
*Problème commun aux 2 méthodes: Le choix du nombre de

facteurs:
Nous avons vu qu'il était nécessaire d'arrêter l'étalonnage pour
un nombre de facteurs donnant des résultats de prédiction
optimaux. C'est à dire, dans le cas de PLS, quand les résidus
d'absorbance deviennent du même ordre de grandeur que le bruit
de mesure, l'information utile ayant été extraite.
Le choix du nombre de facteurs permet de régler la complexité du
modèle
152
METHODOLOGIE
*Problème commun aux 2 méthodes: Le choix du nombre de

facteurs:
Il faut donc, pour chaque nouveau facteur, faire des tests afin de
minimiser la variance des erreurs de prédiction. Ces tests ne
doivent en aucun cas être faits avec les échantillons
d'étalonnage sinon on trouverait un nombre de facteurs optimal
égal au nombre maximum de facteurs: On arriverait alors à
retrouver les concentrations d'étalonnage avec précision, le bruit
de mesure modélisé étant reconstitué. Mais avec d'autres
échantillons, les performances seraient mauvaises.
153
METHODOLOGIE
 Les échantillons Lot X + Y
Échantillons X Échantillons Y
Spectres X
+ Calibration PLS
Concentrations
Concentrations Y
Calibration PLS
Erreur
Erreur
 M 
  (C i  C i' ) 2 
 N 
  (C i  C i' ) 2  SEP   i 1 
 M 1 
SEC   i 1   
 N 1 p 
 
  154
 
METHODOLOGIE
Calcul des erreurs de calibration et de prédiction
 M ' 2 
   i
N
 i) 
  (C i  C i' ) 2 
(C C
SEP   i 1 
SEC   i 1   M 1 
 N 1 P   
   
 
155
METHODOLOGIE
Calibration
Modèle
Absorbances Concentration
Résidus
Prédiction
Modèle
Absorbances Concentration
156
Résidus
APPLICATION
 Sur les huiles pétrolières

Les huiles ont deux origines géologiques
possibles. Une roche mère triasique ou une
roche mère carbonifère.
On code l’origine 0 pour Carbonifère (603,
629 et 628) ; 1 pour les autres.
157
APPLICATION
1. On utilise en prédiction un spectre de chaque huile
2. Ici le résultat obtenu avec un facteur p=1
158
APPLICATION
159
APPLICATION
Sample Predicted Reference

at2-c603 -6.688e-02 0.000
at5-c604 1.019 1.000
at3-c601 0.925 1.000
at2-c602 0.931 1.000
AT3-626 1.008 1.000
at32-627 0.976 1.000
at5-628 8.077e-02 0.000
at3-629 -2.606e-02 0.000
at5-630 0.998 1.000
at1-631 0.936 1.000
160
APPLICATION
 Le vecteur de régression obtenu pour un facteur est une
bonne estimation des corrélations.
161
COUCHAGE DE PAPIERS
 Interprétation des liens de plus hauts
poids
162
METHODOLOGIE
 Réseaux de Kohonen apprentissage
non supervisé
neurone j
couche d'entrée
vecteur d'entrée
dim 5
wj1.........wjn
poids
dim 5
résultat scalaire
couche de sortie
modification des poids

neurone vainqueur
163
METHODOLOGIE
 Méthodes de reconnaissance supervisées
Analyse discriminante
SIMCA
164
Soft Independant Modeling of Class Analogy Classification
The SIMCA classification is a method based on disjoint PCA

modeling
realized for each class in the calibration set.
Similiar for all sofwares
A new sample will be recognized as a

member of a class. if it is enough
similar to the other members;
else it will be rejected
165
Different between sofwares
SIMPLISMA
SIMPLISMA
(SIMPLe-to-use Interactive Self-modeling Mixture
Analysis)
Méthode d ’extraction des spectres de

composés purs à partir de spectres de
mélanges
166
SIMPLISMA
Principe
A B
Mélanges
167
SIMPLISMA
168
SIMPLISMA
 Le spectre de pureté est obtenu en divisant
le spectre de déviation standard par la
moyenne pondéré par un offset
169
Couplage ATG-FTIR
Scores
Y -X
0.03
0.02
0.01
-0.01
-0.02
-0.03
0.6
0.4 -0.10
0.2 -0.05
0
0 0.05
0.10
-0.2 0.15
acp, X-expl: 95%,4%,1% 170

COUPLAGE ATG-FTIR
Identification des gaz émis par exploitation
des composantes principales
X-loadings X-loadings
0.3 0.2
B
B
A
0.2 0.1
D
C
A
0.1 0
A+B
B
A
0 -0.1
X-variables X-variables
4000 3000 2000 1000 0
4000 3000 2000 1000 0
acp, PC(X-expl): 2(4%)
acp, PC(X-expl): 1(95%)
X-loadings X-loadings
0.1 0.2
D
C
D
0.1
-0.1 -0.1
X-variables X-variables
4000 3000 2000 1000 0 4000 3000 2000 1000 0

acp, PC(X-expl): 3(1%) acp, PC(X-expl): 4(0%)
171
COUPLAGE ATG-FTIR
Scores
ACP sur les spectres 1500-2300
Y
-0.4
-0.2
0.2
0.06
0.04
0.02 0
-0.02
-0.05 0 0.05 0.10 0.4
0.15
RESULT2, X-expl: 93%,6%,0% 172

COUPLAGE ATG-FTIR
H2O CO2
1 2
0.02
0.04
0.01
0.02
0
0
-0.01
4000 3000 2000 1000 4000 3000 2000 1000
3 x 10
-3 4
0.2 4
0.1 2
0 0
4000 3000 2000 1000 4000 3000 2000 1000
NH3 ligne de base

173
COUPLAGE ATG-FTIR
1 2
1 3
2
0.5
1
0
0
200 400 600 800 200 400 600 800
3 4
0.08
0.06 1
0.04
0.5
0.02
0
0
200 400 600 800 200 400 600 800
174
COUPLAGE ATG-FTIR
CH4 +C2H6 CH3OH
5 x 10
-3 6
20
0.05
10
0
0
-0.05
4000 3000 2000 1000 4000 3000 2000 1000
7 8
0.04 0.03
0.02
0.02
0.01
0 0
-0.01
4000 3000 2000 1000 4000 3000 2000 1000
HCN COS
175
COUPLAGE ATG-FTIR
5 6
0.3
0.2 0.2
0.1 0.1
0
0
200 400 600 800 200 400 600 800
7 8
0.4
0.3 0.3
0.2 0.2
0.1
0.1
0
0
200 400 600 800 200 400 600 800
176
Couplage ATG-FTIR
CH3COOH CO
x 10
-3 9 10
10 0.02
5 0
0
-0.02
-5
4000 3000 2000 1000 4000 3000 2000 1000
9 10
1.5
1 0.2
0.5
0.1
0
0
200 400 600 800 200 400 600 800
177
METHODOLOGIE
MCR-ALS Multivariate Curve résolution-Alternative
Least Squares
R=CST + E (1)
 C(n,N) est la matrice de concentration, elle
décrit l’évolution des constituants
chimiques,
 ST(N,m) est une matrice de données
spectroscopiques qui décrit les spectres de
produits purs
 E(n,m) est une matrice d’erreurs
 On suppose que la relation entre les 178
spectres et les concentrations est linéaire

METHODOLOGIE
MCR-ALS
R=CST + E (1)
L’équation ci-dessus est résolue iterativement en utilisant une
méthode basée sur les moindres carrées alternatifs (ALS)
basée sur les deux équations suivantes:
 C= R(ST)+ (2)
 ST= C+R (3)

Il faut pour cette méthode une première estimation de la
matrice des concentrations soit par ACP soit par SIMPLISMA.
179
APPLICATION
Essai sur les huiles pétrolières
On obtient une estimation des spectres des
fractions et une profil de concentration
estimé.
180
APPLICATION
x10 -3
15
10
1 5
800 1000 1200 1400 1600
x10 -3
15
2
10
800 1000 1200 1400 1600
3
x10 -3
1467.1
12
10
1387.8
8
6
730.1
1094.4
4
0
181
800 1000 1200 1400 1600
APPLICATION
x10 -3
1467.0
4
1386.0
10
736.0
3
750.0
777.0
2
817.8
1504.0
841.9
855.1
1
1616.0
5 10 15 20 25 30 35 40
800 1000 1200 1400 1600
x10 -3
1469.0
5
15
1386.0
4
10
730.0
3
1616.0
5 10 15 20 25 30 35 40 0
800 1000 1200 1400 1600
x10 -3
1469.0
12
1.2
10
1.0
1386.0
730.0
8
0.8
1093.0
1078.0
0.6 6
0.4
4
1309.0
182
0.2
0.0
5 10 15 20 25 30 35 40
0
800 1000 1200 1400 1600

0.2
0.4
0.6
0.8
1.0
600
603.6
617.1
632.5
659.5
682.7
725.1
771.4
800
804.2
825.4
864.0
912.2
939.2
970.0
1000
1010.5
1029.8
1080.0
1110.8
1149.4
1176.4
1201.5
1200
1224.6
1249.7
1259.3
Acenaphtylène
1276.7
1303.7
1334.5
1357.7
1386.6
1400
APPLICATION
1425.2
1456.0
1477.2
1600
1800
183

Cours de Metrologie

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Metrologie

Transféré par

Droits d'auteur :

Formats disponibles

MÉTROLOGIE ET CHIMIOMÉTRIE

Demande croissante des individus en résultats d’analyse

Mise en place d’un système organisationnel pour répondre à ce

Nécessite de pouvoir garantir la fiabilité et la traçabilité des

Geladi, P. (1995). An overview of multivariate spectral data analysis.In: Davies AMC,

Données Traitement Diagnostics

Demande Recherche d’accord Publication

 La métrologie est une des bases de la qualité

Les Normes se répandent dans l’industrie( ISO

De nos jours la qualité s’attaque à tous les secteurs

 Il n’existe de méthode simple et générale pour

 L’évaluation des données expérimentales requiert

 Aucune option n’est parfaite l’expérimentateur

 La réponse détermine le temps requis pour le

Calibrage (d’un instrument de mesure) (Gauging en anglais)

NOTE Ne pas confondre « calibrage » et « étalonnage »Biais

Etalonnage (Calibration en anglais)

Méthode d'analyse quantitative

Méthode d'analyse de référence (méthode de type I ou de type II)

Méthode d’analyse alternative (non classifiée)

Détection des erreurs dues à la méthode

 Les résultats obtenus pour six déterminations

C'est, au sens statistique du terme, un

Estimation de l’écart type

La médiane: c’est le résultat qui se situe au milieu de l’ensemble des

La précision: elle décrit la reproductibilité des mesures c.a.d. la

L’exactitude: elle indique la proximité entre la mesure et sa valeur

- erreur absolue E= Xi-Xr

Expérimentateur 1: Bonne précision, bonne exactitude

Expérimentateur 2 : précision médiocre, bonne exactitude

Expérimentateur 3 Très bonne précision mais il existe une erreur

Expérimentateur 4: Mauvais résultats à tous les points de vue

 L’exactitude est « l’étroitesse d’accord entre des

 la justesse qui mesure « l’étroitesse de l’accord entre

Les erreurs instrumentales

Chaque instrument possède une quantité inhérente d'incertitude dans sa

Mètre ruban: 50% de la plus petite division, habituellement ± 0.05 cm

 Les erreurs dues à la méthode

 Les erreurs accidentelles : Elles résultent

L'erreur de zéro (offset) C'est une erreur qui ne dépend

L'erreur d'échelle (gain)

L'erreur de linéarité La caractéristique n'est pas une

L'erreur due au phénomène d'hystérésis

L’exactitude: elle indique la proximité entre la mesure et sa valeur

- erreur absolue E= Xi-Xr

La valeur de référence acceptée (valeur conventionnellement vraie de

 Un échantillon est un sous-ensemble d'une population visée.

 En statistique on appelle échantillon de données un

Les limites de confiance

 L’écart type de l’échantillon est une bonne

 Ces relations permettent de définir autour d’une mesure,

 Dans ce cas les limites de confiances sont

En pratique les résultats expérimentaux sont rarement

Certains tests statistiques sont utilisés pour porter de

Illustration d ’un biais

Biais = m2 m1 si la méthode A n ’a pas de biais 47

La valeur critique se calcule à l’aide de l’équation suivante

Ronald Aylmer Fisher (17 février

Le choix du critère de rejet est délicat :si on ne rejette pas on

Le test du Q est un test statistique très largement utilisé. Il

 LES CARTES DE CONTRÔLE PAR MESURE

les limites inférieures et supérieures de contrôle : Lc1 et Lc2.

Définition des limites de surveillance et de

 Utilisation d’une carte de contrôle