Académique Documents
Professionnel Documents
Culture Documents
• Los factores de estudio son los llamados factores de riesgo, variables independientes o variables
explicativas.
• El resultado estudiado es el evento, la variable dependiente o la variable respuesta.
1
Nuestra pregunta
tiene intención.
Explicativas Descriptivas
¿Qué estamos
¿Cuantos criterios interesados en
hemos medido? reducir?
Métricas No métricas
Correlación
1 Canónica.
Manova
“La Quimiometría es la parte de la química que se sirve de las matemáticas,
estadística y lógica formal para diseñar o seleccionar procedimientos experimentales
óptimos, proporcionar información química relevante a partir del análisis de señales
analíticas y, finalmente, adquirir conocimiento de los sistemas químicos”.
D. L. Massart
1
Interés de las personas por la Quimiometría
Es una técnica para reducir la cantidad de datos cuando esta presenta correlación, permitiendo así
condensar la variabilidad presente en una matriz de datos en unos pocos parámetros representativos,
denominados componentes principales (PC) o variables latentes.
1
Por lo tanto, si la matriz de datos original es de dimensiones I × J, no se pueden calcular más de J PC (distintos de cero).
Si el número de PC está indicado por A, este número no puede ser mayor de J. A es el numero de PC.
1
Datos A B C D E
Variable 1 10 7 2 1 8
Variable 2 3 1 8 9 10
1
1
1
1
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠
𝑃𝐶 1 =
𝑛−1
𝑃𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑙𝑎𝑠 𝑑𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎𝑠
𝑃𝐶 2 =
𝑛−1
𝑃𝐶1
%𝑃𝐶 1 =
𝑃𝐶1 + 𝑃𝐶2
𝑃𝐶2
%𝑃𝐶 2 =
𝑃𝐶1 + 𝑃𝐶2
1
Ejercicio 1: Analizar la siguiente matriz de datos por medio de un PCA e identificar el numero de componentes, la
función que cumple los score plots, loading plots y bi-plots.
Mc Donald's Energy (kJ/g) Protein (%) Carbohydrates(%) Fat (%) Saturated Fat (%)
1
El pre-processing es una parte muy importante del análisis quimiométrico de los datos y no es mas que
un arreglo matemático de la data a priori que se usara en el análisis primario. Esto es usado para
remover o reducir la fuente de variación (ya sea al azar o sistemática).
1
Smoothing: es un arreglo matemático que reduce el ruido al azar con el objetivo de aumentar la relación señal/ruido. El
smoothing usa un ancho de ventana que se mueve a lo largo de la región de influencia, se determina el valor central de
dicha ventana y posteriormente ese ancho de ventana es afectado por varios algoritmos.
1
Base Line: se dice que un vector muestra (r) está compuesto por la siguiente relación:
𝑟 = 𝑓(𝑥) -> 𝑟 = 𝑟ҧ + 𝛼 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 , donde 𝑟ҧ es la señal de interés mas un polinomio de línea base
característico (si existe). Lo que hace este pre-processing es transformar el vector muestra en uno donde
el arreglo polinomial no exista o sea reducido a 0. 𝑟 = 𝑟ҧ + 𝛼.
1
Derivadas: otra forma de eliminar la línea base es usando derivadas respecto a un número. Es mucho
más útil que base line ya que esta se emplea cuando es difícil identificar la línea base en un vector
muestra.
𝑟 = 𝑟ҧ + 𝛼 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 vector muestra.
𝑟′ = 𝑟ҧ + 0 + 𝛽𝑥 + 𝛾𝑥 2 + 𝛿𝑥 3 primera derivada
𝑟′ = 𝑟ҧ + 0 + 0 + 𝛾𝑥 2 + 𝛿𝑥 3 segunda derivada
𝑟′ = 𝑟ҧ + 0 + 0 + 𝑜 + 𝛿𝑥 3 tercera derivada y así sucesivamente.
1
Savitzky-Golay Derivative: es el algoritmo de derivadas mas empleado y se basa en el uso de smoothing y un orden polinomial
1st derivative:
• 5 a 9 puntos de smoothing.
• Orden polinomial 11 a 13.
2nd derivative:
• 7 a 11 puntos de smoothing.
• Orden polinomial de 11 a 13.
1
Multiplicative Scatter Correction (MSC): es un pre-processing
usado para corregir las dispersiones de luz por problemas de
reflectancia. Cuando se usa MSC, uno asume que el numero de
variables dependen de la dispersión de la línea base de una
señal y esta es independiente a la información química.
Mean Center: En términos matemáticos, se puede considerar que el centrado proyecta los datos en un espacio
donde se elimina el desplazamiento común representado por el promedio de la columna..
1
En algunos casos es no es conveniente usar el centrado debido a pueden existir vectores de muestras sin datos y al
réstarles el promedio daría valores negativos o vectores de orden 0. Por otro lado se tiene que tener en cuenta un
aspecto importante y es que a menudo las muestras pertenecen a diferentes condiciones, como por ejemplo un
alimento muestreado por distintos productores o en diferentes lugares o diferentes épocas del año.
1
Standard Normal Variate (SNV): consiste en ajustar un polinomio de un orden dado a todo el rango de señal. Como
este algoritmo se adapta al polinomio de todos los puntos, línea de base y señal, tiende a funcionar solo cuando la
mayor fuente de variabilidad en cada muestra es la interferencia de referencia / fondo, como en las señales NIR; esto
significa que puede eliminar variaciones que son interesantes de modelar siempre que la variación de interés sea una
porción razonablemente significativa de la varianza global.
1
Raw Data Base Line + Mean Center Mean Smoother
1
Raw Data Base Line + Mean Center Mean Smoother
1
1
6