Vous êtes sur la page 1sur 22

Chemometrics

What is Chemometrics?
La chimiométrie est une discipline scientifique qui
combine la chimie, les mathématiques et les
statistiques pour extraire des informations
significatives à partir de données chimiques. Il
implique l'application de diverses techniques
mathématiques et statistiques pour concevoir des
expériences, analyser des données et construire
des modèles pour un large éventail de problèmes
chimiques.
Why is Chemometrics Important?
Concevoir des expériences efficaces : La chimio-métrie aide à optimiser les procédures
expérimentales, réduisant le nombre d'expériences nécessaires et économisant du temps et
des ressources.
Analyse des données complexes : Les données chimiques impliquent souvent de nombreuses
variables et des relations complexes. La chimio-métrie fournit des outils pour extraire des
modèles et des connaissances significatifs à partir de ces données.
Construire des modèles prédictifs : La chimio-métrie permet de développer des modules qui
peuvent prédire les propriétés de nouveaux échantillons ou le comportement des systèmes
chimiques.
Applications of Chemometrics :
Chimie analytique : La chimio-métrie est utilisée pour améliorer l'exactitude et la précision des
mesures analytiques, identifier et quantifier les composants chimiques dans les mélanges, et
développer de nouvelles méthodes d'analyse.
Chimie environnementale : La chimio-métrie est employée pour surveiller la pollution de
l'environnement, évaluer les risques environnementaux et suivre le sort des polluants dans l'
environnement.
Chimie pharmaceutique : La chimio-métrie joue un rôle dans la découverte de médicaments, le
développement de formulations et le contrôle de la qualité des produits pharmaceutiques.
Chimie industrielle : La chimio-métrie est utilisée pour optimiser les processus industriels,
améliorer la qualité des produits et résoudre les problèmes de production.
Common Chemometrics Techniques :
Analyse des composants principaux (PCA) : PCA est une technique non supervisée utilisée pour
réduire la dimensionnalité des données et identifier les modèles et les relations entre les
variables.
Régression partielle au minimum des carrés (PLSR): PLSR est une technique supervisée utilisée
pour construire des modèles prédictifs pour relier des données chimiques à une variable de
propriété ou de réponse.
Analyse de groupes-: L'analyse de groupe est utilisée pour regrouper des échantillons ou des
variables en fonction des similitudes dans leurs caractéristiques.
Analyse discriminante : L'analyse discriminante est utilisée pour classer les échantillons en
catégories prédéfinies en fonction de leurs profils chimiques.

The reference Y
1. Rôle des valeurs de référence (Y):
En chimio-métrie, lorsqu'on travaille avec la régression ou la classification (analyse des
relations ou des catégories), il est crucial d'avoir des valeurs de référence (Y).
De bonnes données (X) seules ne suffisent pas ; nous avons besoin de corrélations fiables entre
X et Y à travers un modèle.
Les valeurs de référence (Y) sont obtenues de différentes manières en fonction de l'objectif de
l'expérience.

2. Valeurs de référence pour la régression :


Dans les modèles de régression, les valeurs de référence proviennent généralement de
procédures analytiques normalisées approuvées.
Elles peuvent également être la procédure la plus acceptée dans la communauté analytique.
Les valeurs de référence présentent des erreurs analytiques, une plage d'étalonnage et des
limites de détection et de quantification liées aux données X.

3. Erreur dans les valeurs de référence :


Les valeurs de référence comportent des erreurs, mais parfois les erreurs des données X sont
plus significatives, rendant l'erreur de référence négligeable.
Cependant, supposer cela sans vérification peut conduire à des interprétations erronées.
4. Vérification de l'erreur des valeurs de référence :
Pour vérifier les erreurs des valeurs de référence, des mesures répétées du même échantillon
sont effectuées.
La variance (écart-type) entre les réplicats devrait se situer dans certains niveaux de confiance.
Ces concepts de vérification proviennent des procédures classiques de la chimie analytique.

5. Défis de la vérification:
Élaborer des protocoles de vérification peut être long ou limité par des contraintes
budgétaires.
Parfois, il peut ne pas y avoir suffisamment de ressources pour effectuer autant de mesures
que souhaité.
En essence, la chimiométrie repose non seulement sur de bonnes données, mais aussi sur des
valeurs de référence précises. Assurer la fiabilité de ces valeurs de référence est essentiel pour
des interprétations et des résultats fiables dans diverses analyses chimiques.

Categorical Discrete Data:


1. Classification et Valeurs de Référence :
- La classification implique d'attribuer un échantillon à une ou plusieurs classes en fonction
d'une stratégie spécifique.
- Les valeurs de référence pour la classification sont généralement catégoriques, ce qui
signifie qu'elles impliquent des catégories ou des classes.
- Ces catégories sont indexées dans Y, et il existe une attente d'intercorrélation entre
différentes colonnes de Y.
2. Imposition de Classes avec des Seuils :
- Dans de nombreux cas, l'attribution de classe se fait en fixant des seuils sur des variables
continues.
- Par exemple, une température < 20 pourrait être classée comme froide, 21-30 comme
modérée et > 30 comme chaude.
3. Définition des Données Discrètes Catégoriques :
- Les données discrètes catégoriques fournissent un point d'information unique pour un
échantillon à partir d'un ensemble limité de possibilités.
- Les exemples comprennent le groupe sanguin, les préférences musicales et les résultats de
lancer de dés.
4. Indépendance dans les Données Discrètes Catégoriques :
- Chaque élément d'information obtenu est indépendant pour un échantillon.
- Il y a normalement une indépendance dans les colonnes, ce qui signifie que l'information
pour un échantillon ne dépend pas d'un autre.
5. Utilisation des Données Discrètes Catégoriques :
- Les informations provenant de données discrètes catégoriques peuvent être utilisées à la
fois dans la matrice de données et/ou dans la matrice d'indépendance Y.
6. Codage des Variables pour l'Indépendance :
- Assurer l'indépendance entre différents niveaux (catégories) est crucial.
- Le nombre de colonnes devrait correspondre au nombre de niveaux, et coder les variables
de manière appropriée est essentiel.
- Le codage par variable factice est une méthode pour représenter les variables catégoriques
tout en maintenant l'indépendance.
En essence, lorsqu'on traite des données discrètes catégoriques en chimiométrie, l'objectif est
d'attribuer avec précision des échantillons à des classes en fonction de critères spécifiques.
Cela implique de garantir l'indépendance des données, un codage approprié des variables et
l'utilisation de l'information de manière conforme à la stratégie de classification.

Clustering:
En chimio-métrie, Clustering(=regroupement) fait référence au processus de regroupement
d'observations ou d'échantillons similaires en fonction de leurs propriétés chimiques ou
analytiques. L'objectif du regroupement est d'identifier des motifs naturels ou des sous-
groupes au sein d'un ensemble de données sans étiquettes de classe prédéfinies. Le
regroupement est une technique utile lorsque vous souhaitez explorer la structure inhérente
de vos données et découvrir des relations ou des similitudes entre différents échantillons.
Voici quelques points clés sur le regroupement en chimio-métrie :
1. Regroupement d'échantillons similaires :
- Le regroupement vise à regrouper des échantillons similaires les uns aux autres en fonction
de certaines caractéristiques.
- La similarité est souvent mesurée à l'aide de métriques de distance, où les échantillons plus
proches dans l'espace des caractéristiques sont considérés comme plus similaires.
2. Apprentissage non supervisé :
- Le regroupement est généralement considéré comme une méthode d'apprentissage non
supervisé car il ne dépend pas d'étiquettes de classe prédéfinies.
- L'algorithme identifie des motifs dans les données sans être guidé par des informations
préalables sur les catégories d'échantillons.
3. Types de regroupement :
- Il existe divers algorithmes de regroupement, et le choix de l'algorithme dépend de la
nature des données et des objectifs de l'analyse.
- Les algorithmes de regroupement courants comprennent le regroupement hiérarchique, le
regroupement k-means et le DBSCAN (Density-Based Spatial Clustering of Applications with
Noise).
4. Applications en chimio-métrie :
- Le regroupement est appliqué en chimio-métrie à diverses fins, telles que l'identification de
profils chimiques ou de classes différentes au sein d'un ensemble d'échantillons.
- Il peut aider dans le contrôle qualité en identifiant des lots ou des échantillons ayant des
caractéristiques similaires.
5. Interprétation des groupes :
- Une fois que le regroupement est effectué, les groupes doivent être interprétés pour
comprendre les motifs ou les relations sous-jacents.
- Des outils de visualisation, tels que des graphiques de regroupement ou des
dendrogrammes, sont souvent utilisés pour représenter les résultats des analyses de
regroupement.
6. Prétraitement des données :
- Avant le regroupement, des étapes de prétraitement des données peuvent être nécessaires
pour traiter des problèmes tels que l'échelle, la normalisation ou la gestion des valeurs
manquantes.
En résumé, le regroupement en chimiométrie est un outil précieux pour explorer la structure
naturelle au sein des ensembles de données de mesures chimiques ou analytiques. Il aide à
identifier des groupes d'échantillons similaires, révélant potentiellement des motifs ou des
tendances qui pourraient ne pas être immédiatement apparents.
Scores and Loadings:
En chimio-métrie, les termes "scores" (notations) et "loadings" (chargements) sont associés à
l'analyse en composantes principales (ACP), qui est une technique statistique multivariée
largement utilisée. L'ACP est utilisée pour analyser les motifs dans les données, réduire la
dimensionnalité et identifier les caractéristiques les plus importantes contribuant à la
variabilité dans l'ensemble de données. Voici une explication des "scores" et des "loadings"
dans le contexte de l'ACP :
1. Scores :
- Définition : Les "scores" représentent les valeurs transformées des points de données
d'origine dans un nouveau système de coordonnées défini par les composantes principales.
- Interprétation : Chaque "score" correspond à un échantillon dans l'ensemble de données et
représente son emplacement dans l'espace de dimension réduite défini par les composantes
principales.
- Utilisation : Les "scores" aident à visualiser la distribution des échantillons dans l'espace
réduit et à identifier des motifs ou des tendances dans les données.
2. Loadings :
- Définition : Les "loadings" sont les coefficients qui définissent la combinaison linéaire des
variables d'origine utilisée pour créer les composantes principales.
- Interprétation : Chaque "loading" correspond à une variable dans l'ensemble de données
d'origine et indique la contribution de cette variable à la composante principale.
- Utilisation : Les "loadings" fournissent des informations sur les variables qui ont le plus
d'influence sur les composantes principales. Ils aident à identifier quelles caractéristiques sont
responsables des motifs observés dans les données.
En résumé :
- Scores : Représentent les valeurs transformées des points de données d'origine dans l'espace
de dimension réduite.
- Loadings : Représentent les coefficients qui définissent la combinaison linéaire des variables
d'origine utilisée pour créer les composantes principales.
Pendant une analyse en composantes principales, les "scores" et les "loadings" sont calculés de
manière à ce que les premières composantes principales capturent la variance maximale dans
les données. L'interprétation des "scores" et des "loadings" est cruciale pour comprendre la
structure et les relations au sein de l'ensemble de données, faisant de l'ACP un outil puissant
en chimiométrie pour l'exploration des données et la réduction de la dimensionnalité.

Threshold:
En chimiométrie, Threshold(=un seuil) fait référence à une valeur spécifique ou à une limite
définie pour une variable, généralement en tant que critère pour prendre des décisions ou
effectuer des classifications. Le concept de seuil est couramment utilisé dans diverses
techniques et méthodes analytiques pour catégoriser ou interpréter des données. Voici
quelques contextes dans lesquels les seuils sont couramment utilisés en chimiométrie :
1. Classification et prise de décision :
- Dans les problèmes de classification, des seuils sont souvent définis pour déterminer
l'attribution d'échantillons à différentes classes ou catégories. Par exemple, si vous classez des
échantillons en fonction d'une certaine propriété (par exemple, les niveaux de concentration),
vous pourriez définir des seuils pour définir différentes classes (par exemple, faible, moyen,
élevé).
2. Contrôle qualité :
- Les seuils sont fréquemment utilisés en contrôle qualité pour identifier quand une mesure
ou un échantillon s'écarte des normes acceptables. Par exemple, si un paramètre mesuré
dépasse un certain seuil, cela peut signaler la nécessité d'une enquête approfondie ou d'une
action corrective.
3. Filtrage des données :
- Dans les étapes de prétraitement, des seuils peuvent être appliqués pour filtrer les points
de données qui se situent en dessous ou au-dessus d'un certain niveau. Cela peut aider à
éliminer le bruit ou les valeurs aberrantes du jeu de données.
4. Sélection de variables :
- Dans les processus de sélection de caractéristiques ou de variables, des seuils peuvent être
utilisés pour inclure ou exclure des variables en fonction de critères spécifiques. Cela est
souvent fait pour se concentrer sur les variables les plus pertinentes dans un contexte de
modélisation ou d'analyse.
5. Transformation des données :
- Les seuils peuvent être utilisés dans les transformations de données. Par exemple, en
convertissant des variables continues en catégorielles, vous pourriez définir des seuils pour
définir les limites entre différentes catégories.
6. Détection des valeurs aberrantes :
- Les seuils sont couramment utilisés dans les méthodes de détection des valeurs aberrantes.
Les points de données qui se situent en dehors des valeurs de seuil prédéfinies peuvent être
considérés comme des valeurs aberrantes et traités en conséquence.
Dans chacun de ces cas, le choix du seuil est souvent basé sur les exigences spécifiques de
l'analyse ou les caractéristiques des données. Il implique un équilibre entre la sensibilité (la
capacité à détecter de vrais positifs) et la spécificité (la capacité à éviter de faux positifs). La
détermination des seuils appropriés nécessite une bonne compréhension des données sous-
jacentes et des objectifs de l'analyse en chimio-métrie.

Latent Variable :
En chimio-métrie, une variable latente fait référence à une variable non observable qui n'est
pas directement mesurée mais est déduite ou estimée à partir d'autres variables observables.
Ces variables latentes sont souvent utilisées pour représenter des motifs ou des structures
sous-jacents dans les données. Le terme "latent" signifie cacher ou non directement observé.
Dans le contexte de la chimio-métrie, les variables latentes sont couramment utilisées dans des
techniques telles que l'Analyse en Composantes Principales (ACP), les Moindres Carrés Partiels
(PLS) et d'autres méthodes statistiques multivariées. Voici une brève explication de la manière
dont les variables latentes sont utilisées :
1. Analyse en Composantes Principales (ACP) :
- Dans l'ACP, les variables latentes, appelées composantes principales, sont des combinaisons
linéaires des variables d'origine qui capturent la variance maximale dans les données. Ces
composantes ne sont pas directement mesurées mais sont déduites pour représenter les
principales sources de variabilité.
2. Moindres Carrés Partiels (PLS) :
- Dans le PLS, les variables latentes sont utilisées pour modéliser les relations entre les
variables indépendantes (X) et les variables dépendantes (Y). En PLS décompose à la fois X et Y
en variables latentes, et ces variables latentes sont utilisées pour établir des modèles
prédictifs.
3. Analyse Factorielle :
- L'Analyse Factorielle est une autre technique dans laquelle des facteurs latents sont utilisés
pour expliquer les corrélations entre les variables observées. Ces facteurs représentent des
constructions sous-jacentes qui contribuent aux motifs observés dans les données.
4. Modèles de Markov Cachés (HMM) en Spectroscopie :
- En spectroscopie, les variables latentes peuvent représenter des propriétés chimiques ou
physiques sous-jacentes qui contribuent aux spectres observés. Les HMM sont utilisés pour
modéliser ces variables latentes.
En résumé, les variables latentes en chimiométrie servent à capturer des motifs ou des
structures cachées dans les données. Elles sont déduites des variables observées par diverses
méthodes statistiques, et leur utilisation permet une représentation plus compacte et
significative d'ensembles de données complexes. L'extraction et l'interprétation des variables
latentes contribuent à la compréhension et à la modélisation des processus sous-jacents dans
les ensembles de données chimiques et analytiques.

How Does PCA Find the PC’s?


1. PC1 (Première Composante Principale) :
- La première composante principale traverse l'origine et est alignée dans la direction de la
plus grande variance des données.
- En d'autres termes, PC1 capture la direction le long de laquelle les données varient le plus.
2. PC2 (Deuxième Composante Principale) :
- La deuxième composante principale est orthogonale (perpendiculaire ou indépendante) à
PC1.
- Elle est alignée dans la direction de la deuxième plus grande variance des données.
3. PC3 (Troisième Composante Principale) :
- Le processus se poursuit avec PC3, qui est orthogonal à PC1 et PC2.
- PC3 capture la troisième plus grande variance des données.
4. Continuation du Processus :
- Ce processus se poursuit jusqu'à ce que le nombre de nouvelles composantes principales
soit égal au nombre d'anciennes variables.
- En d'autres termes, chaque composante principale successivement ajoutée capture la
variance restante non encore expliquée par les composantes précédentes.
5. Nombre de Nouvelles PCs :
- Le nombre de nouvelles composantes principales est généralement limité par le plus petit
des deux nombres : le nombre d'échantillons (samples) ou le nombre de variables.
- Mathématiquement, le nombre de nouvelles PCs ne peut pas dépasser le rang
mathématique des données, qui est déterminé par le nombre d'échantillons et le nombre de
variables.
En résumé, la PCA cherche à représenter les données en identifiant les directions le long
desquelles la variance est maximale. Chaque nouvelle composante principale est ajoutée de
manière à être orthogonale aux précédentes et à capturer la variance restante. Le processus se
poursuit jusqu'à ce que le nombre de nouvelles composantes principales atteigne un maximum
défini par le nombre d'échantillons ou le nombre de variables, en respectant le rang
mathématique des données.

What Does PCA Give Me?


1.Concentration de l'Information dans les Premières Composantes Principales (PC) :
- La plupart de la variance (information) des données est concentrée dans les premières
composantes principales.
- En d'autres termes, un petit nombre des premières composantes principales capture la
majeure partie de l'information contenue dans les données.
2. Pertinence des Premières Composantes Principales :
- Certaines des premières composantes principales peuvent être pertinentes pour le
problème d'intérêt.
- Ces composantes peuvent représenter des schémas ou des tendances significatifs dans les
données.
3. Filtrage des Petits Bruits Aléatoires :
- Les petites variations aléatoires (bruits) dans les données sont généralement capturées par
les composantes principales ultérieures.
- Ces composantes peuvent être ignorées (jetées) dans un processus de filtrage des données,
car elles ne contribuent pas de manière significative à la structure globale des données.
4. Utilisation dans une Analyse des Résidus :
- Les composantes principales ultérieures, qui capturent le bruit résiduel, peuvent être
utilisées dans une analyse des résidus.
- Cela permet de comprendre la variance non expliquée par les premières composantes
principales et d'identifier des modèles potentiels dans le bruit résiduel.
5. Assomption Importante - Rapport Signal/Bruit > 1 :
- Une hypothèse sous-jacente est que le rapport signal/bruit (la variance due au signal par
rapport à celle due au bruit) est supérieur à 1.
- Cela signifie que la majeure partie de la variance dans les données provient de sources
autres que le bruit aléatoire.
Aussi :
• Loadings : Compositions des nouveaux axes PC en termes d’anciens variables. Peut être
capable d'interpréter les charges en termes chimiques.
• Scores : La position des échantillons dans le nouveau système de coordonnées PC. Plus les
échantillons sont proches l'un de l'autre dans les premiers espaces PC, plus ils sont semblables.
• Valeurs propres - La variance stockée dans chacune des composantes principales
• Les valeurs propres peuvent ensuite être utilisées pour calculer le % des informations
stockées dans chaque PC.
En résumé, la PCA permet de condenser l'information des données en identifiant les directions
(composantes principales) dans lesquelles la variance est maximale. Les premières
composantes principales sont souvent les plus informatives, tandis que les suivantes capturent
des variations moins significatives, telles que le bruit aléatoire. L'application de la PCA peut
aider à simplifier les données, à identifier des motifs importants et à effectuer une analyse des
résidus pour comprendre la part de variance non expliquée.

Corrélation :
- Une corrélation positive signifie que les valeurs de deux variables augmentent ou diminuent
ensemble. Une corrélation négative signifie que les valeurs de deux variables augmentent ou
diminuent dans des directions opposées.
RESUME IMPORTANT SUR FONCTIONNEMENT DU
PCA :

PCA

Matrice X de départ Matrice T réduite


1. Information sur les individus 1. Information sur les individus
(coordonnées cartésiennes) (scores)
2. Information sur les Variables 2. Information sur les variables
3. Bruits (erreurs) (loadings)
4. Variables corrélées 3. Pas de bruit
(non orthogonales) 4. Orthogonalité PC1-PC2
5. Visualisation des données ? 5. Exploration graphique des
données

PCA. in practice
How PCA searches for the Principal Components? REALLY IMPORTANT!
1º PC1 is the one that explains the maximum variability of the data  BUT
2º PC2 searches for explaining the maximum variability that the PC1 has
not explained If PC1 explains 60% of the variance, PC2 will search as many
as possible from the 40% that was not explained  NESTED SOLUTION!
3º We will need as many PCs as we need, as long as the explained
variance is higher than the noise of the data.

4º We can calculate as many PCs as the minimum dimension of X X


(30 x 20) 20 X (15 x 20) 15
NORMALISATION:
- Base du prétraitement. Le PCA en dépend.
- Normalisation=projection des données dans l'espace de variables mais à la même échelle
dans les 2 axes.
- Si les échelles sont grandes, ceci induit une erreur dans le logiciel car les différences d'échelle
seront considérées (le logiciel prend le saut d’échelle comme si c’était une variabilité
pertinente au système).
- Il considère que la variable avec le plus de différences dans l'échelle est celle qui explique le
max de variabilité, ce qui n’est pas toujours vrai.
- Ya pas que les unités que posent un problème, mais aussi la magnitude de chaque variable.
- La normalisation ramène toutes les variables au même niveau.
- +++ éch à moyennes diff mais aussi une variabilité diff (écarts types très diff).
- Centrer =donner la même moyenne 0 à tous les éch (Xi’= Xi – moy) c'est uniquement en
centrant qu'on peut tracer un bon PCA.
- Scaling = réduire. Chaque valeur de la variable est divisée par l'écart-type. Xi’=Xi/écart-type.
Tous les éléments sont ramenés à la même variabilité →Même importance Donc si on
retrouve une variabilité, c'est par rapport à l'information de la matrice pas juste les échelles.
- Auto-scaling =centrer +réduire. Même échelle, même moy. Toutes les variables ont la même
importance mais sans perdre l'information d'origine.
- !!!!Pour une variable indep -→ Auto-scaling !!!!
- Si on fait un PCA sur une base de données qu’on connait a priori, on peut confirmer notre
théorie. Mais elle peut aussi nous révéler des infos sur une base de données sur laquelle on ne
connaît rien.
- Le couple de PC sur les quelle en construit est le couple qui explique le max.
- Dans l’exemple, la Russie est celle qui est "bizarre". Elle s’éloigne le plus du centre.
- France et Czech sont anti-corrélé sur PC2.
- De même pour les variables, on trouve celles qui sont corrélés et anti-corrélées.
- I l faut toujours penser à la projection sur chaque PC.
- Bi-plot = superposition des espaces (PC1, PC2) des variables et des individus.
- la limite est la matrice de départ.
-PC1 et PC2 révèlent des variables latentes (dans notre cas c'est l’espérance de vie et teneur
d'alcool).
____________________________________________
La normalisation en chimio-métrie, et en particulier dans le contexte de l'analyse en
composantes principales (PCA), est une étape importante pour garantir la validité des résultats
obtenus. La normalisation vise à éliminer les effets liés à l'échelle des variables, ce qui peut
être crucial dans le cas où les variables ont des unités différentes ou des ordres de grandeur
distincts.

En chimio-métrie, on travaille souvent avec des ensembles de données comprenant un grand


nombre de variables (par exemple, des mesures spectrales en spectroscopie, des
concentrations en chimie analytique, etc.). Ces variables peuvent avoir des unités différentes,
des échelles de mesure variées, et des variances très inégales. La normalisation est utilisée
pour standardiser ces variables, en ajustant leurs échelles afin qu'elles aient une moyenne
nulle et une variance unitaire.

La normalisation peut se faire de différentes manières, mais deux méthodes couramment


utilisées sont la z-normalisation (ou standardisation) et la normalisation par l'amplitude
(Min/Max).

- Z-normalisation : Pour chaque variable, on soustrait la moyenne et on divise par l'écart-type.


Cela donne à chaque variable une moyenne de zéro et une variance de un.

où Xij* est la valeur normalisée de la variable Xij, Xj(bar) est la moyenne de la variable Xj, Sj
est l'écart-type de la variable Xj.

- Normalisation par l'amplitude (MinMax) : On ajuste linéairement les valeurs de chaque


variable pour qu'elles soient comprises entre 0 et 1.

PCA (Analyse en Composantes Principales) : La PCA est une technique de réduction de


dimensionnalité largement utilisée en chimio-métrie. Elle repose sur la décomposition de la
matrice de covariance des variables d'origine en vecteurs propres et valeurs propres. La
normalisation est souvent recommandée avant d'appliquer la PCA pour s'assurer que toutes
les variables contribuent de manière égale à l'analyse, indépendamment de leurs échelles
d'unités respectives.
En normalisant les données avant la PCA, on s'assure que les variables ne dominent pas
l'analyse simplement en raison de leurs échelles respectives. Cela peut conduire à une
meilleure représentation des structures sous-jacentes des données, en mettant en évidence
les variations relatives plutôt que les variations absolues.
En résumé, la normalisation en chimio-métrie, en particulier avant l'application de techniques
comme la PCA, est une étape cruciale pour garantir la pertinence et l'interprétabilité des
résultats obtenus. Elle permet de traiter équitablement toutes les variables, indépendamment
de leurs unités ou échelles d'origine, et contribue à une meilleure compréhension des
structures sous-jacentes des données.
PCA Example I: The Wine Data Set
- On peut remarquer que la
Russie a la plus forte
consommation d'alcool, la plus
faible consommation de bière,
l'espérance de vie la plus basse
et le taux le plus élevé de
maladies cardiaques.
- Les variables ont des unités
différentes : litres/an, années
et cas/personne-année. De
plus, est-ce que boire un litre
de spiritueux équivaut à boire
un litre de bière ? Probablement pas. Cela suggère que l'auto-mise à l'échelle serait un bon
choix.

 Wine consumption:
• France, Italy, Switz ( High)
• Rus, Czech, Jap, Mex ( Low)
 Beer consumption:
• Czech ( High)
• Italy, Russia ( Low)
 Liquor consumption:
• Russia ( High)
• Itally, Czech, Mex ( Low)

- On peut noter que la consommation d'alcool est corrélée à la durée de vie et au risque de
maladie cardiaque Les pays qui consomment le plus d'alcool ont une durée de vie
plus courte et un risque plus élevé de maladie cardiaque.
 Heart Disease Rate  Life Expectancy
• Japan Low • Japan High
• Russia High • Russia Low

Dans ce cas on peut dire que, il y a anti-corrélation. Une augmentation de la consommation


d'alcool est associée à une diminution de la durée de vie.
Une corrélation positive signifie que les valeurs de deux variables augmentent ou
diminuent ensemble. Une corrélation négative signifie que les valeurs de deux variables
augmentent ou diminuent dans des directions opposées.
RMSECV et RMSEC sont deux mesures de la précision d'un modèle de régression. Elles
mesurent la distance moyenne entre les valeurs prédites par le modèle et les valeurs réelles.
Se sont :
 RMSECV : signifie racine-carrée de l'erreur quadratique moyenne de validation croisée.
Elle est calculée en utilisant une méthode de validation croisée, qui consiste à diviser les
données en deux ensembles : un ensemble d'entraînement et un ensemble de test. Le
modèle est entraîné sur l'ensemble d'entraînement et ses performances sont évaluées
sur l'ensemble de test. RMSECV est la racine carrée de la moyenne des erreurs
quadratiques entre les valeurs prédites par le modèle et les valeurs réelles de l'ensemble
de test.
 RMSEC : signifie racine-carrée de l'erreur quadratique moyenne d'étalonnage. Elle est
calculée en utilisant les données d'entraînement. RMSEC est la racine carrée de la
moyenne des erreurs quadratiques entre les valeurs prédites par le modèle et les valeurs
réelles des données d'entraînement.
 Les deux mesures sont similaires, mais RMSECV est généralement considérée comme
une mesure plus robuste de la précision d'un modèle de régression. C'est parce que
RMSECV est calculée sur des données qui n'ont pas été utilisées pour entraîner le
modèle, ce qui donne une meilleure indication de ses performances sur des données
nouvelles.
 On peut voir que RMSECV est généralement plus élevé que RMSEC. Cela est dû au fait
que RMSECV est calculé sur des données plus difficiles, qui ne sont pas utilisées pour
entraîner le modèle.
 En général, un modèle de régression avec un RMSECV ou un RMSEC faible est considéré
comme précis.
_________________________________
 Le graphique est un graphique de la
variance cumulée capturée. La variance
cumulée capturée est une mesure de la
proportion de la variance totale des
données qui est expliquée par les
premières composantes principales.
 La courbe d'inertie cumulée sur le
graphique représente la variance
cumulée capturée. La courbe commence
à 0 % et augmente jusqu'à 100 %.
 Sur ce graphique, la courbe d'inertie
cumulée atteint 90 % après la deuxième composante principale. Cela signifie que les
deux premières composantes principales expliquent 90 % de la variance totale des
données.
 Les composantes principales sont des combinaisons linéaires des variables originales.
Elles sont conçues pour maximiser la variance.
 Dans ce cas, les deux premières composantes principales sont probablement les
variables les plus importantes pour expliquer la variance des données. Elles peuvent
être utilisées pour résumer les données de manière très efficace.
 Voici une explication des différentes composantes du graphique :
- L'axe X représente le nombre de composantes principales.
- L'axe Y représente la variance cumulée capturée.
- La courbe d'inertie cumulée représente la proportion de la variance totale
des données qui est expliquée par les premières composantes principales.
La courbe d'inertie cumulée est une mesure importante à considérer lors du choix du nombre
de composantes principales à conserver dans une analyse en composantes principales. Si
l'objectif est de résumer les données, il est généralement recommandé de conserver le
nombre de composantes principales qui expliquent au moins 90 % de la variance.
_______________________________________________________
 Le graphique de PC1 pour
l’ensemble de données de 10
pays. Les données représentent
le score de satisfaction de la
qualité de vie dans chaque pays.
 PC1 semble être un bon
indicateur de la satisfaction de la
qualité de vie dans un pays. Les
pays avec des scores PC1 élevés
ont tendance à avoir des scores
de satisfaction de la qualité de
vie élevés.
 Russia is low on PC1.

 Graphique de PC1 et PC2 pour un


ensemble de données de 10 pays.
Les données représentent le score
de satisfaction de la qualité de vie
dans chaque pays.
 Il faut toujours voir les extrêmes.
 Les valeurs au centre n’ont pas
beaucoup de poids.
 Les composantes principales 1 et 2
(PC1 et PC2) sont des
combinaisons linéaires des variables originales des données. Elles sont conçues pour
maximiser la variance.
 Ce graphe est la base des scores.
 Switz, Italy et France sont corrélés par rapport à PC1.

 Heart Disease rate and Liquor Consumption are correlated.


 Wine and Life expectancy are correlated.
 Heart Disease rate and Liquor Consumption are anti-correlated with Wine and Life
expectancy.
 Graphique que vous avez envoyé
est un biplot de la composante
principale 1 (PC1) et de la
composante principale 2 (PC2)
pour un ensemble de données
de 10 pays. Les données
représentent le score de
satisfaction de la qualité de vie
dans chaque pays.
 Biplot= Variables et individus au
même temps.
 Le biplot est un type de
graphique qui combine les deux
axes de la composante
principale avec les scores des variables originales. Cela permet de visualiser la relation
entre les variables originales et les composantes principales.
 Le biplot est une représentation graphique utilisée dans l'Analyse en Composantes
Principales (ACP) pour afficher simultanément les observations et les variables d'un
ensemble de données multivariées. C'est une méthode visuelle qui permet de mieux
comprendre la structure des données en projetant les variables et les individus sur un
même graphique.
 Dans un biplot PCA, chaque point représente à la fois une observation (par exemple, une
ligne de données) et une variable (une flèche). Les angles et les distances entre les
flèches et les points dans le biplot reflètent les relations entre les variables et les
observations.
 what it is that makes Russia unique ?.
• Heart D and Beer : Othogonal
• Russia is the most unusual, why? Tends to be high in Liquor
and HeartD and Low in Beer and LifeEx.
• Trend frome France to Czech, why?
France relatively high in wine an low in Beer, and HeartD
Czech relatively High in Beer and HeartD, and low in wine
This is confirmed by the original data table.

Vous aimerez peut-être aussi