Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Ce module propose de découvrir comment faire pour se mettre à la chimiométrie sans trop
linéaire de type PLS et PCR. Vous apprendrez également à visualiser vos données très
2
Sommaire
TP N° 1 : Application de l’ACP ................................................................................................... 4
Partie A : Détermination de la relation entre les oxydes métalliques des roches et
l’origine géologique de l’ile. .................................................................................................. 4
Partie B : PCA (Données environnementales). Lacs d’Europe .............................................. 5
Partie C : Etude de la qualité d’huile lubrifiante pour moteur des Engins du parc OCP ..... 6
Partie 1 : Application de l’ACP sur les caractéristiques physico-chimiques : ................... 6
Partie 2 : Application de l’ACP sur les spectres Infrarouge : ............................................. 7
TP N° 2 : Application de la PCR et PLS pour la prédiction de la teneur en polyphénols des
huiles .......................................................................................................................................... 8
1. Modèle PCR .................................................................................................................... 8
2. Modèle PLS ..................................................................................................................... 9
TP N° 3 : Application de l’analyse discriminante PLS-DA ....................................................... 10
1. Etape 1 : Elaboration du modèle de calibration. ......................................................... 10
2. Etape 2 : Prédiction de la qualité des nouveaux échantillons ( validation externe). 11
A- Projection de nouveaux échantillons sur le modèle PLS-DA. .................................... 11
B- Validation externe : Prédictions d’appartenance de nouveaux échantillons. .......... 11
TP N° 4 : Challenge…………………………………..……………………...………………12
3
TP N° 1 : Application de l’ACP
Partie A : Détermination de la relation entre les oxydes métalliques des roches et
l’origine géologique de l’ile.
Les échantillons sont des roches de chypre. On les apprit de différent région de l’ile, et on
veut voir si le contenu en oxydes métalliques dis quelque chose à propos de l’origine
géologique de l’ile.
Taille de la matrice (143×10), 143 échantillons, 10 variables.
V1. SiO2, V2. TiO2, V3. Al2O3, V4. FeO, V5. MnO, V6. MgO, V7. CaO, V8. Na2O, V9.
K2O, V10. P2O5.
Fichier des donnés: Troodos.
1. Ouvrir le fichier. File, Open. Troodos
2. Calculer les statistiques de la table (Moyennes, écart type, médiane, IRQ). Task,
Descriptive Statistics.
3. Faire la PCA avec le prétraitement approprié. Task, PCA,
3.1. Données brutes. Décliquer center data. Au dialogue variable, weight 1.0.
3.2. Données centrées. Center data. Au dialogue variable, weight 1.0.
3.3. Données centrées normées. Center data. Au dialogue variables, Weight 1/ Sdev.
A. Regardez les scores. Est-ce qu’on voit des échantillons potentiellement atypiques ?
Confirmez cela avec le graphique d’influence (pour cela il faut modifier le nombre
de PC utilisés (faites plot, Residuals, Influence, Components 1).
B. Regardez les loadings (est-ce qu’on peut identifier pourquoi les échantillons sont
atypiques ? Quelles sont les variables qui expliquent le comportement différent de
ces échantillons ? Est-ce qu’on voit une structure au reste de données ?
4. Répéter la PCA en enlevant les échantillons 65 et 66. Au dialogue, Task, PCA, au sous-
menu variable, introduisez : keep out of calculation : 65,66. Y a-t-il encore
d’échantillons atypiques ?
5. Répéter la PCA en enlevant les échantillons 65, 66, 129 et 130. Est-ce qu’on voit
maintenant une structure sur les données ? Est-ce qu’il y a des groupes d’échantillons ?
Quelle est la relation entre variables ? Comment est-ce qu’on peut expliquer la nature
des groupes d’échantillons ?
4
Partie B : PCA (Données environnementales). Lacs d’Europe
On veut étudier la contamination dans les différents lacs en utilisant les variables
[contaminants]. On veut que toutes les variables aient la même importance dans l’analyse.
1. Étudier les statistiques des variables. Est-ce qu’il faut faire un prétraitement?
2. Faire une analyse ACP sur les données centrées normées. Est-ce qu’il y a quelques lacs
qui sont très différents? Pourquoi? Peut-on savoir quels sont les lacs plus ou moins
contaminés (en général)? Quelles sont les variables plus corrélées entre elles?
3. Enlever les échantillons plus différents. Qu’est-ce qu’on voit par rapport à la corrélation
des variables?
PCA toutes variables
Faites un PCA avec toutes les variables (all). Est-ce qu’on peut trouver des relations entre
variables géographiques et contaminants? Quels sont les contaminants qui ont plus d’affinité
pour les lipides des organismes?
5
Partie C : Etude de la qualité d’huile lubrifiante pour moteur des Engins et machines
du parc OCP
Le but de cette étude est de développer une méthode d’analyse de donnée basée sur
l’analyse en composante principale pour la détermination de la qualité des huiles lubrifiantes.
Sélectionnez Task - PCA. Spécifiez les paramètres suivants dans la boîte de dialogue
Analyse en Composantes Principales:
✓ Samples: All Sam [50]
✓ Variables: physic-chimiques [8]
✓ Validation method: Cross Validation
1. Interpréter le graphique des scores en tenant compte des trois groupes de conformité ?
2. Interpréter le graphique de laoding ?
3. Interpréter le graphique de biplot ?
4. Interpréter le graphique de variance ?
6
II- Partie 2 : Application de l’ACP sur les spectres Infrarouge :
Sélectionnez Task - PCA. Spécifiez les paramètres suivants dans la boîte de dialogue
Analyse en Composantes Principales:
✓ Samples: All Sam [50]
✓ Variables: spectra [1764]
1) méthode de Validation: validation croisée
A : faire un modèle ACP sans prétraitement des données brutes
Interpréter les graphiques obtenues ?
B : faire un modèle ACP sur les données centrés-normées
Interpréter les graphiques obtenues ?
C : faire un modèle ACP sur les données dérivées (méthode de savitsky golay) :
Interpréter les graphiques obtenues ?
7
TP N° 2 : Application de la PCR et PLS
Dans cette étude, on cherche à développer une méthode d’analyse quantitative basée sur la
spectroscopie moyenne infrarouge combinée avec la PLS et la PCR pour quantifier la teneur
en polyphénols totaux d’une huile d’olive vierge. Cette approche représente un moyen facile
et pratique pour le suivi de la qualité de l'huile d'olive.
100 échantillons d’huiles d’olives vierges ont été quantitativement étudiés. Tous les
échantillons ont été prélevés de la région de Beni Mellal (centre du Maroc) entre décembre
2013 et janvier 2014. La gamme de concentration des polyphénols totaux étudiés ont varié
entre 1,04 et 10,33 g/L. Les échantillons sont analysés juste après extraction par spectroscopie
moyen infrarouge et par méthode de référence de dosage des polyphénols. Ensuite, ces
échantillons ont été divisés au hasard, en deux groupes : un groupe de 70 échantillons pour
développer le modèle d’étalonnage et l’autre de 30 échantillons pour la validation externe du
modèle préétabli.
1. Modèle PCR :
Faire une analyse PCR pour modeler la relation entre la teneur en polyphénols et les
spectres infrarouge des huiles.
• Sélectionner Task—Analyze-PCR-Regression. Spécifiez les paramètres suivants :
✓ Method: PCR
✓ Samples: Calibration Sam [70]
✓ X-variables: spectra
✓ Y-variables: polyphenols
✓ Validation method: Full Cross Validation
✓ Prétraitement de derivation de Savitsky et Golay
1. Regardez le graphique des scores y-a-t-il des outliers ? si oui enlevez-les ?
2. Combien de VLs sont nécessaires pour construire le modèle? Pourquoi? Quelle est la
variance exprimée (X et Y) des différents VLs? (Regardez le graphique inférieur à gauche
et utilisez les icônes du menu qui disent Cal, Val, X, Y)?
3. Évaluez la qualité du modèle en utilisant le graphique Predicted vs. Measured. Interpréter
le Rsquare et RMSE de calibration et validation interne.
4. Sauvegardez le modèle PCR en faisant File-Save sur la fenêtre graphique des résultats
PCR.
8
5. Utiliser le modèle réalisé avec un prétraitement de dérivation pour la prédiction de la
teneur en polyphénols dans les 30 échantillons de validation externe. . (Sur la table de
données principale, faites Task-Predict-Regression, choisissez le nom du fichier du
modèle, la taille du modèle (nombre de VLs) et les échantillons que vous voulez prédire
(menu Samples : Prediction).
6. Interpréter les résultats obtenus.
2. Modèle PLS :
Faire une analyse PLS pour modeler la relation entre la teneur en polyphénols et les
spectres infrarouge des huiles.
Sélectionner Task—Analyze-PLS-Regression. Spécifiez les paramètres suivants :
✓ Method: PLS1
✓ Samples: Calibration Sam [70]
✓ X-variables: spectra
✓ Y-variables: polyphenols
✓ Validation method: Full Cross Validation
✓ Prétraitement de derivation de Savitsky et Golay
1. Regardez le graphique des scores y-a-t-il des outliers ? si oui enlevez-les ?
2. Combien de VLs sont nécessaires pour construire le modèle? Pourquoi? Quelle est la
variance exprimée (X et Y) des différents VLs? (Regardez le graphique inférieur à gauche
et utilisez les icônes du menu qui disent Cal, Val, X, Y)?
3. Évaluez la qualité du modèle en utilisant le graphique Predicted vs. Measured. Interpréter
le Rsquare et RMSE de calibration et validation interne.
4. Sauvegardez le modèle PLS en faisant File-Save sur la fenêtre graphique des résultats
PLS.
5. Utiliser le modèle réalisé avec un prétraitement de dérivation pour la prédiction de la
teneur en polyphénols dans les 30 échantillons de validation externe. . (Sur la table de
données principale, faites Task-Predict-Regression, choisissez le nom du fichier du
modèle, la taille du modèle (nombre de VLs) et les échantillons que vous voulez prédire
(menu Samples : Prediction).
6. Interpréter les résultats obtenus.
Conclusion : Comparer les deux méthodes de modélisations utilisées ?
9
TP N° 3 : Application de l’analyse discriminante PLS-DA
Le but de cette étude est la prédiction de la qualité des huiles d’olives par application de la
régression des moindres carrés partiels discriminants (PLS-DA).
On a une série d’échantillons des huiles d’olives vierges séparer en 4 groupes selon la
qualité (Groupe de qualité vierge extra(EV) , Groupe de qualité vierge(V) , Groupe de
qualité vierge courante(OV) et Groupe de qualité vierge lampante (LV)) en se basant sur
leur caractéristiques physicochimiques.
Une table de données avec 70 échantillons (50 échantillons pour étalonnage et 20
échantillons pour validation du modèle) et 3400 variables (les absorbances dans l’intervalle
de 600-4000 cm-1 du moyen infrarouge).
1. Etape 1 : Elaboration du modèle PLS-DA.
Le modèle PLS2-DA a été construit en considérant les spectres FTIR comme variables X,
alors que les variables Y ont été associées avec les quatre classes de qualités différentes (une
variable y différente pour chaque classe de qualité, avec 1 ou 0 selon l’appartenance ou non
au groupe de données prises en compte).
Le fichier oil quality répertorie, pour chaque échantillon son spectre moyen infrarouge.
Sélectionnez Task - PCA. Spécifiez les paramètres suivants dans la boîte de dialogue PLS-
DA:
✓ Samples: Calibration [50]
✓ Variables X: spectra [1764]
✓ Variables Y: y variables
✓ Validation method: Cross Validation
1. Interpréter le graphique des scores en tenant compte des 4 groupes de qualité ?
2. Interpréter le graphique de variance ?
3. Interpréter les paramètres statistiques du modèle préétablit ?
4. Sauvegardez le modèle PLS-DA de la cross validation en faisant File-Save sur la
fenêtre graphique des résultats PLS-DA ?
10
2. Etape 2 : Prédiction de la qualité des 20 nouveaux échantillons :
Dans cette partie, on va utiliser le modèle sauvegardé pour prédire la qualité des
échantillons de test (validation externe) :
A- Projection de nouveaux échantillons sur le modèle PLS-DA.
Sélectionnez Task-Projection, choisissez le nom du fichier du modèle, la taille du modèle
(nombre de VLs) et les échantillons que vous voulez projeter (menu Samples : Prediction)
a. Interpréter le graphique des scores après projection des nouveaux
échantillons ?
b. Est-ce-que les échantillons sont bien classés ?
c. Conclure ?
Utilisez le modèle réalisé pour prédire les valeurs de la variable Y des échantillons
inconnus. (Sur la table de données principale, faites Task-Predict-Regression, choisissez le
nom du fichier du modèle, la taille du modèle (nombre de VLs) et les échantillons que vous
voulez prédire (menu Samples : Prediction).
Remarque :
Dans cette étape, un échantillon est considéré appartenant à une classe lorsque la variable
Y fixée pour chaque classe est comprise entre 0,55 et 1,5.
11
TP N° 4 : Challenge
Présentation du Challenge
L'objectif du Challenge est de mettre en oeuvre les principales méthodes vues au cours de
ce module (visualisation des données, prétraitements, détection d'outliers, régression,
discrimination ...) de manière autonome.
En partant d'un jeu de données de spectres proche infrarouge et de valeurs de références,
vous devrez développer un modèle de discrimination et un modèle de régression, puis
vous aurez à appliquer ces modèles sur des spectres dont vous ne connaissez pas les
valeurs de référence.
Votre travail sera jugé sur la précision et la justesse de la prédiction que vous fournirez.
Données de travail
Une matrice de 126 spectres PIR acquis en réflectance sur des grains entiers de blé (fichier
"spectre_ble_etalonnage"). Ces spectres ont ensuite été transformés en absorbance par
application d'un logarithme. Ces 126 spectres sont associés :
✓ à 126 teneurs en protéine, mesurées par une méthode de référence (fichier
"Proteines_etalonnage") .
✓ à 126 codes d'appartenance à deux classes d'espèces : 1 (blé dur) et 2 (blé tendre)
(fichier "classes_etalonnage").
✓ Enfin la matrice des 59 spectres de test, sur lesquels vous appliquerez vos modèles, se
trouve dans le fichier "spectres_ble_test".
Les valeurs de classes et de teneurs en protéines prédites par vos modèles, devront être
concaténées dans un fichier réponse, avec la structure suivante :
✓ colonne 1 : identifiant de l'individu (v1 à v59). Il faut répéter 59 fois l'identifiant
✓ colonne 2 : teneur en protéines prédite (en % massique)
✓ colonne 3 : classe prédite (1 ou 2)
Un fichier réponse vide ("reponses_challenge"), à remplir avec les valeurs prédites, vous
est fourni avec les données du challenge .
BON COURAGE ! Que la force de chimiométrie soit avec vous !
12