Vous êtes sur la page 1sur 80

ESTADSTICA

EN QUMICA ANALTICA

IMPORTANCIA DE LA ESTADSTICA Y
LA QUIMIOMETRA EN LA QUMICA ANALTICA

Durante la realizacin de una anlisis


cuantitativo es muy importante tomar en
cuenta todas las variables que pueden
afectar nuestro resultado, dentro de estos
estn los factores provocados por los
instrumentos utilizados y los errores
provocados por quien maneja el material.

IMPORTANCIA DE LA ESTADSTICA Y
LA QUIMIOMETRA EN LA QUMICA ANALTICA

En el reporte de cualquier anlisis


qumico, es importante tomar en cuenta
este tipo de errores , hacer un anlisis
de los resultados y as se podr concluir
sobre l.

Qu es estadstica?
La estadstica es una coleccin de mtodos
para planificar y realizar experimentos, obtener
datos y luego analizar, interpretar, y formular
una conclusin basada en esos datos. Es la
ciencia encargada de recopilar, organizar,
analizar e interpretar informacin numrica o
cualitativa, de manera que pueda llevar a
conclusiones vlidas.

La Estadstica se utiliza como tecnologa al


servicio de las ciencias donde la variabilidad y la
incertidumbre forman parte de su naturaleza.
La Estadstica es la Ciencia de la
iv
t
ip
r
sc
e
D

Sistematizacin, recoleccin, ordenacin y


presentacin de los datos referentes a un
fenmeno
que
presenta
variabilidad
o
incertidumbre para su estudio metdico, con objeto
de

d
a
lid
i
deducir las leyes que rigen esos fenmenos,
ab
b
o
r
P
ia
c
y poder de esa forma hacer previsiones sobre los
en
r
mismos,
tomar
decisiones
u
obtener
fe
n
I

conclusiones.

Medidas de
tendencia central

Medidas de
dispersin

Media aritmtica
Mediana
Moda
Percentiles (posicin)

Rango (amplitud)
Rango intercuartlico
Varianza
Coef. de variacin

Mediana
En una serie de datos ordenados (creciente
o decreciente) es la puntuacin o valor
central de la distribucin estadstica
Datos no agrupados
Si el n de datos es impar: valor central
Si el n de datos es par: media aritmtica de los 2
puntos centrales

Mediana

Caractersticas
Menos sensible que la media a la
variacin de las puntuaciones.
Se puede calcular aunque algn
intervalo carezca de lmite.
Ms representativa que la media cuando
puntuaciones muy extremas.

Moda
Valor de la variable que ms veces se repite
en una serie estadstica (mxima frecuencia)
Distribuciones: Unimodales o multimodales
Marca de clase (en intervalos)

Caractersticas:
Sencilla de calcular
Se puede calcular si algn intervalo no tiene lmites
Poco representativa

Media

Suma de todos los valores de


una variable dividida por el
nmero total de valores
Slo en variables cuantitativas

X = xi / N

Media. Clculo

Datos no agrupados: aplicar frmula


Datos agrupados
En tabla de frecuencia: Suma de todos los valores
multiplicados por sus frecuencias y dividido por el n
total.

X = xi fi / N

Media
Caractersticas
La media es sensible a la variacin de las
puntuaciones.
No se puede calcular si algn intervalo es de
lmite abierto.
No es recomendable si valores muy extremos

Reflejan la dispersin, oscilacin de los


datos, respecto al fenmeno estudiado.

Complementan las de tendencia central


para la descripcin de una distribucin

Amplitud o rango
Diferencia entre el valor ms alto y ms bajo de la
distribucin.
Ofrece poca informacin sobre la agrupacin de los
datos.
Indica el campo de variabilidad.
Suele acompaar a la moda.

Varianza
Junto a la desviacin tpica, la que mejor
expresa la variabilidad del fenmeno
Media de los cuadrados de las diferencias
entre cada valor de la variable y la media
aritmtica

S2 = (xi x)2 / N

S2 = xi2 / N x2

Para datos agrupados:

S2 = fi(xi x) 2 / N

S2 = fixi2 / N x2

Desviacin tpica
Es la raz cuadrada de la varianza

S2 =

xi2 / N x2

Para datos agrupados:

S2 =

fixi2 / N x2

Varianza y desviacin tpica


Caractersticas
Ambas toman siempre valores positivos.
Si todos los datos de una distribucin son
iguales entre s, toman el valor 0.
Slo son aplicables a variables cuantitativas

La que ms se suele usar es la desviacin tpica.


Si los datos estn muy dispersos, la desviacin
tpica ser muy grande.

Coeficiente de variacin de Pearson


Para poder comparar la dispersin entre 2
ms variables entre s, o una misma variable
en 2 ms grupos estudiados
Es una medida relativa: Relaciona la media
con la desviacin tpica

CV = S / X . 100

En una distribucin de datos estos pueden estar o


no agrupados.

DATOS AGRUPADOS EN INTERVALOS:

DATOS NO AGRUPADOS EN
INTERVALOS:

ni Xi
n

Xi
4
3
2
1
0
Xi
4
3
2
1
0

SUPUESTO DE CONCENTRACION EN
EL PUNTO MEDIO (Xi):

ni
1
3
7
6
3
ni
1
3
7
6
3

mitjana=

Xi*ni
4
9
14
6
0
33
33/5=

6,6

Xi
18 20
15 17
12 14
9 11
6 8
3 5

ni Xi
n

ni
20
30
60
40
30
20

P. M.
19
16
13
10
7
4
mitjanna=

Xi
18-20
15-17
12-14
9-11
6-8
3-5
PM*ni
380
480
780
400
210
80
2330
2330/200=

ni
20
30
60
40
30
20

11,65

CUANDO ELEGIR LA MEDIANA EN LUGAR DE LA MEDIA?:

1. CUANDO LA VARIABLE ESTE MEDIDA EN UNA ESCALA


ORDINAL.
2. CUANDO HAYA VALORES EXTREMOS, PUES ESTOS DISTORSIONAN LA
INTERPRETACION DE LA MEDIA. EJEMPLO: 3,4,8,5,6,124 Media=25

LA MEDIA ES MUY SENSIBLE A LAS PUNTUACIONES EXTREMAS

3. CUANDO HAYA INTERVALOS ABIERTOS, YA QUE ESTOS


CARECEN DE PUNTO MEDIO.

LAS TRES MEDIDAS DE TENDENCIA CENTRAL COINCIDEN CUANDO


LA DISTRIBUCION ES UNIMODAL Y SIMETRICA (EJEMPLO:
DISTRIBUCION NORMAL).

CUANTO MAS ASIMETRIA, MAS DIFERENCIAS ENTRE ELLAS.

f(X)

Media
Mediana
Moda

Datos simtricos: coinciden la media, la


mediana y la moda

El rea bajo la curva aproximado del promedio


a ms o menos una desviacin estndar (1)
es de 0.68, a ms o menos 2 es de .0 95 y a
ms o menos 3 es de 0.99.

(Las propiedades continuan en la prxima lmina)

La forma de la campana de Gauss depende de los parmetros


y .
Tiene una nica moda que coincide con su media y su mediana.
La curva normal es asinttica al eje de X.
Es simtrica con respecto a su media . Segn esto, para este
tipo de variables existe una probabilidad de un 50% de observar
un dato mayor que la media, y un 50% de observar un dato menor.

Podemos concluir que hay una familia de


distribuciones
con
una
forma
comn,
diferenciadas por los valores de su media y su
varianza.
La desviacin estndar ( ) determina el grado
de apuntamiento de la curva. Cuanto mayor sea
el valor de , ms se dispersarn los datos en
torno a la media y la curva ser ms plana.
La media indica la posicin de la campana, de
modo que para diferentes valores de la grfica
es desplazada a lo largo del eje horizontal.
De entre todas ellas, la ms utilizada es la
distribucin
normal
estndar,
que
corresponde a una distribucin de media 0 y
varianza 1.

Es imposible efectuar anlisis qumicos


totalmente
libres
de
errores
o
incertidumbres.
La fiabilidad de un resultado se analiza de
diferentes maneras
Se
analizan patrones de composicin
conocida
Se aplican pruebas estadsticas a los datos

En ciencias e ingeniera, el concepto de error tiene un


significado diferente del uso habitual de este trmino.
Coloquialmente, es usual el empleo del trmino error como
anlogo o equivalente a equivocacin.
En ciencia e ingeniera, el error, est ms bien asociado
al concepto de INCERTEZA, INCERTIDUMBRE, en la
determinacin del resultado de una medicin.

ERROR: es la medida del sesgo en el resultado de


una medicin.
INCERTIDUMBRE: es el intervalo o rango de los valores
posibles de una medida. Incluye tanto los errores
sistemticos como aleatorios.
La incertidumbre de un resultado es bien diferente de
la precisin, sta da una medida del error aleatorio.

Errores
Groseros o accidentales
Son errores que son tan
importantes que no existe alternativa
real que abandonar el experimento y
empezar de nuevo por completo.

Aleatorio
Estos provocan que
los resultados
individuales difieran uno
del otro de manera
que caigan a ambos lados
del valor medio.
Estos errores
afectan la precisin
de un experimento.
Este tipo de errores son
los que comete el operador
del instrumento utilizado.

Sistemticos
Provocan que todos los
resultados
sean errneos en el mismo
sentido, son demasiado
grandes, y se denomina tambin
sesgo de la medida. Este tipo
de error es
responsabilidad
del material empleado
y de su origen y presin
de fabricacin.

Error absoluto.- Nos indica si medimos u


obtuvimos mas o menos que el valor experimental,
y en qu cantidad excedimos del valor real o qu
cantidad nos falt; esto segn el signo de la
sustraccin.
EA = valor experimental valor terico

Error relativo.- Es una forma de conocer el porcentaje


de error que obtuvimos en nuestros resultados.
ER = (valor experimental valor terico) x 100
(valor terico)

Los errores presentes en un estudio analtico modifican:


Precisin
Es el grado de confianza con que se puede repetir un
experimento y este puede dar los mismo resultados. Es
utilizado como sinnimo de repetitibilidad.
Exactitud
Es el grado de concordancia entre el resultado de un
ensayo y el valor de referencia aceptado.

Media, Media aritmtica y promedio (X) son


trminos sinnimos. Es la medida de
tendencia central mas utilizada .Se obtiene
dividiendo la suma de los valores de una serie
y dividiendo por el numero de medidas del
conjunto.

Mediana es el resultado alrededor del cual se


reparten los dems por igual. Si la serie es un
numero impar la mediana es el numero de la
mitad. Si la serie es un numero par se toma el
promedio del par central despus de haber
ordenado la serie de menor a mayor.

Ejemplo: calcular la media y la mediana de


10.06, 10.20, 10.08, 10.10.

Media = X =10.06+10.20+10.08+10.10 = 10.11

Mediana = 10.08 +10.10 = 10.09


2

Es

el numero necesario de dgitos


para expresar los resultados de
una medicin congruente con la
precisin de medida.
237 :
2 centenas, 3 decenas y
7 unidades

El numero de cifras significativas incluye


todos los dgitos que se conocen mas el
primer digito incierto.

El
numero
de
cifras
significativas
en
una
medicin
es
independiente
de
la
colocacin
del
punto
decimal.
Por ejemplo el numero 92.067:
Por ejemplo el numero 92.067:
Este numero tiene cinco cifras
significativas independiente
dondese coloque el punto
decimal. En este caso el cero si
es una cifra significativa.

En el numero 727.0 el cero no se


usa para localizar el punto
decimal es significativo

Ejemplos:

0.216
90.7
800.0
0.0670

Tres Cifras significativas.


Tres cifras significativas.
Cuatro cifras significativas.
Tres cifras significativas

Precisin.

El trmino precisin describe la reproducibilidad


de los resultados y se puede definir como la
concordancia que hay entre los valores
numricos de dos o ms mediciones que se han
realizado de idntica manera.
La precisin slo depende
de la distribucin
de los errores aleatorios
y no se relaciona
con el valor verdadero ni
con el valor especificado.

Para describir la precisin de un conjunto de


datos repetidos se utilizan tres trminos
muy conocidos:
La desviacin estndar, la varianza y el
coeficiente de variacin.

La desviacin estndar (DS/DE) es una


medida de dispersin usada en estadstica
que nos dice cunto tienden a alejarse los
valores puntuales del promedio en una
distribucin.

Asi la varianza es la media de los cuadrados de las


diferencias entre cada valor de la variable y la
media aritmtica de la distribucin. Aunque esta
frmula es correcta, en la prctica interesa realizar
inferencias poblacionales, por lo que en el
denominador en vez de n, se usa n-1

METODOS ABSOLUTOS PARA EXPRESAR LA PRECISION

Desviacin estndar

Desviacin respecto a la media

Varianza:

Coeficiente de variacin. C.V = S/Media *100

es la diferencia
numrica entre un valor experimental y la media

EXACTITUD : El trmino denota el grado de


coincidencia
del
resultado
de
una
medicin con el valor verdadero o
aceptado de la misma y se expresa en
funcin del error. La exactitud implica una
comparacin con el valor verdadero o
aceptado como tal.
Cuando no se conoce el valor verdadero
se debe usar un valor aceptado.

METODOS PARA MEDIR LA EXACTITUD


Error absoluto: Es la diferencia entre el
valor experimental y el valor real.
Error relativo: Es el error absoluto dividido
por la cantidad medida.
Ejemplo:
Una muestra tiene 20.34% de Fe y un
analista encuentra que es 20.44%.
Error Absoluto = 20.44-20.34 = 0.10%
Error relativo = 0.1/20.34 = 0.0049 = 4.9
partes por mil

En trminos generales la exactitud supone


una comparacin con un valor verdadero o
aceptado como tal, la precisin indica la
concordancia entre las medidas que han
sido realizadas de una misma forma.

Esquema grfico para comprender la


relacin entre exactitud y precisin

En C existe buena precisin, pero no buena exactitud; en A


buena exactitud y precisin, y en B mala exactitud y precisin.

FUENTES DE ERRORES SISTEMTICOS

Errores instrumentales: Calibraciones


deficientes

Errores del mtodo: Dificiles de identificar

Errores personales: Descuido, Falta de atencin

Los errores sistemticos pueden ser constantes o


proporcionales

En los errores constantes el error absoluto es


invariable con el tamao de la muestra ,mientras
el error relativo cambia al modificar dicho
tamao.

Los
errores
proporcionales
aumentan
o
disminuyen segn el tamao de la muestra. Con
los errores proporcionales el error absoluto varia
con el tamao de la muestra, en cambio el error
relativo permanece constante.

Los errores sistemticos


constantes o proporcionales.

pueden

ser

En los errores constantes, el error absoluto


es invariable con el tamao de la muestra,
mientras en el error relativo cambia al
modificar el tamao de la muestra.

Los errores proporcionales aumentan o


disminuyen segn el tamao de la muestra;
con estos errores el error absoluto varia con
el tamao de la muestra en cambio el error
relativo permanece constante.

Son la principal fuente de incertidumbre en


una determinacin.
Muchas variables no controladas y de no
fcil
identificacin
causan
errores
aleatorios.
El efecto acumulativo de las incertidumbres,
aunque estas sean muy pequeas, hace
que las mediciones por duplicado de una
serie flucten al azar.

Gloria Mara Meja

Los errores aleatorios obedecen una curva


normal de error o curva de gauss.

Al iniciar el anlisis estadstico de una serie


de datos, y despus de la etapa de
deteccin y correccin de errores, un primer
paso consiste en describir la distribucin de
las variables estudiadas y, en particular, de
los datos numricos.

Un modo es con la curva de distribucin


normal que muestra la frecuencia con que
se repiten los datos.

Los
mtodos
estadsticos
permiten
categorizar y caracterizar los datos, y tomar
decisiones objetivas en cuanto a su calidad
e interpretacin.
Hay que diferenciar entre muestra y
poblacin o universo. ( caso del anlisis de
Ca en agua. La poblacin seria un numero
de medidas muy grande cercano al infinito).
Las leyes de la estadstica se dedujeron
para usarlas en poblaciones. Para aplicarlas
a muestras se debe hacer ajustes.

Ejemplo 2. La N de una solucin se calculo con 4


titulaciones por separado y los resultados fueron
0.2041, 0.2049, 0.2039, y 0.2043. Calcular la X, la
Mediana, El rango , La S. la desviacin relativa y el
C.V.
X = (0.2041+0.2049+0.2039+0.2043)/4 = 0.2043
Mediana M= (0.2041+0.2043)/2 = 0.2042
Rango R = 0.2049-0.2039 = 0.001
La desviacin relativa= Sumatoria de (Xi-X)/4=0.0003
S= 0.0004
C.V = (0.0004/0.2043)*100 = 0.2%

Siempre es necesario indicar el nivel de


confianza de los datos.
Es un rango de valores en los que con una
probabilidad determinada est un valor
verdadero poblacional.
Generalmente son del 95% o 99%.
La probabilidad de equivocarnos se llama
nivel de significancia y se simboliza

Se utiliza para comparar el resultado de un


anlisis
realizado
por
dos
mtodos
diferentes. Se trabaja con las X
Se aplica el T de student. Plantea la
hiptesis de que las dos X son iguales. La
prueba T da una respuesta si o no a la
hiptesis nula con cierta exactitud como del
95 o 99%

Si t calculado es mayor que t de la tabla


entonces los dos mtodos son iguales
Para poder calcular t hay que calcular
primero la s de cada serie de datos

Cmo determina si un valor es realmente un valor


atpico y cmo decide si debe continuar o no con el
anlisis de datos?
Uno de los problemas en el anlisis de datos es manejar los
valores atpicos dentro de un grupo de datos.
Un valor atpico es una observacin con un valor que no
parece corresponderse con el resto de los valores en el
grupo de datos.
Por lo general surgen dos preguntas:
1) Es este valor realmente un valor atpico?
2) Puedo eliminar este valor y continuar con el anlisis de
datos?

Con respecto a la pregunta 2, debe saberse


que las pruebas estadsticas se utilizan para
identificar
valores
atpicos,
no
para
retirarlos del grupo de datos.
Tcnicamente, una observacin no debe
retirarse a menos que una investigacin
halle una causa probable para justificar esta
accin

Si en la investigacin no se encuentra una


causa probable, qu debe hacerse?
Un enfoque sera realizar un anlisis de
datos con el valor atpico y sin l. Si las
conclusiones son diferentes, entonces se
considera que el valor atpico tiene
influencia y esto debera indicarse en el
informe.
Otra
opcin
es
utilizar
estimadores
rigurosos para caracterizar los grupos de
datos, tal como la mediana de la muestra
en lugar de la media.

Dos de las pruebas estadsticas utilizadas


con mayor frecuencia en un grupo de datos
son la prueba de Dixon y la prueba de
Grubbs.
La prueba de Dixon utiliza relaciones de las
diferencias entre datos que parecen
atpicos comparados con los valores del
grupo de datos.

Estas tcnicas estn diseadas para


detectar un nico valor atpico en un
grupo de datos, y por lo tanto no son
adecuadas para la deteccin de mltiples
valores atpicos.
Una
tcnica rigurosa y amplia para
identificar eficazmente mltiples valores
atpicos es el procedimiento para muchos
valores
atpicos
con
generalizacin
extrema de la desviacin de Student.

Por ejemplo, tomemos los datos 5.3, 3.1,


4.9, 3.9, 7.8, 4.7 y 4.3
Ordenando los datos:
3.1, 3.9, 4.3, 4.7, 4.9, 5.3, 7.8
El tamao de la muestra es 7, y la relacin utilizada es el espacio
entre el valor atpico (7.8) y su vecino ms prximo (5.3) dividido
por el espacio entre los valores ms grandes y ms pequeos en
el grupo.
Por lo tanto, el ndice de Dixon es:
(7.8 5.3)/(7.8 3.1) = 2.5/4.7 = 0.532

Este valor se compara con un valor crtico de una


tabla, y el valor se declara valor atpico si supera
ese valor crtico.
Si Dcalculado>Dtabulado se rechaza el dato
El valor tabulado depende del tamao de la
muestra, n, y de un nivel de confianza elegido,
que es el riesgo de rechazar una observacin
vlida. La tabla por lo general utiliza niveles de
baja confianza tal como 1% o 5%.
Para un n = 7 y un riesgo del 5%, el valor en la
tabla es 0.507. El ndice de Dixon 0.532 excede
este valor crtico, indicando que el valor 7.8 es un
valor atpico.

La prueba de Dixon se usa en un nmero


pequeo de observaciones (menor a 26) y
detecta elementos que se encuentren
sesgados o que son extremos.
Para aplicar la prueba de Dixon
se requiere de un nmero de
observaciones igual o mayor a
10. En el caso que las
observaciones sean menores a
10 se utiliza como valor esperado
el valor de preparacin.

La prueba de Grubbs utiliza una estadstica


de prueba, T, que es la diferencia absoluta
entre el valor atpico, XO, y el promedio de la
muestra (X)
dividida por la desviacin
estndar de la muestra, s.
Para el ejemplo anterior, el promedio de la
muestra es = 4.86 y la desviacin estndar
de la muestra es = 1.48. La estadstica
calculada de la prueba es:

Para un n = 7 y un riesgo del 5%, el valor


tabulado es 1.938 y el TCalculado = 1.99
excede este valor crtico, indicando que el
valor 7.8 es un valor atpico.

Un indicador de la calidad de los datos es la


utilizacin de las cifras significativas.
Cifras significativas: Son todos los dgitos
que se conocen con certeza y el primer
digito incierto. Por ejemplo 30.24 tiene 4
cifras significativas (4, el ultimo digito, es
incierto)

El cero puede ser significativo o no segn su


ubicacin en el numero. Un cero rodeado
por otros dgitos siempre es significativo.
Los
ceros al final pueden o no ser
significativos.
2.0
tiene
dos
cifras
significativas.
2000
tiene
una
cifra
significativa. 2x103 tiene una.

Para las sumas y las restas el resultado


debe tener el mismo numero de
decimales que el numero que tiene
menos decimales.
Cuando se suman o restan nmeros con
notacin cientfica se debe expresar el
resultado en la misma potencia de 10.
En la multiplicacin y la divisin se
debe expresar el resultado con las
cifras significativas del numero que
tenga menor cifras significativas.

Redondeo de datos:
Se debe aproximar al numero mayor si el
ultimo es mayor de 5 y al menor si el
ultimo es menor de 5.
61.555 se aproxima al numero par mas
cercano . Queda 61.56
De todas maneras el resultado debe
expresarse con la desviacin estndar
calculada.

Estadsticamente los objetivos del proceso


de muestreo son:
1. Obtener el valor medio
2. Obtener una varianza que sea una
estimacin de la varianza poblacional con
limites de confianza validos para la media.

Calidad de resultados

Selectividad Analito en medio de interferencias


Limite de deteccin Promedio de bcos +3(desviacin)
Limite de cuantificacin 5 10 L.D.
Intervalo de trabajo Rango en que el mtodo es exacto y
preciso.

Rango lineal
Exactitud. Valor de referencia
Precisin Desviacin y CV

Sensibilidad Pendiente
% Recuperacin. Adicin de cantidades

conocidas

GRFICOS DE CONTROL.

Gloria Mara Meja Z

Curvas de calibracin
Linealidad
Pendiente
Sensibilidad
Residuales
Coeficiente de correlacin

Gloria Mara Meja Z

Curvas de calibracin: Mnimos Cuadrados


Modelo de regresin: Y=mx+b

Cuanto mas cercanos estn los datos a la


lnea que se obtiene del anlisis por
mnimos cuadrados, menores son los
residuales

Gloria Mara Meja Z

Variables transformadas.
Transformaciones para linearizar las
funciones.

Gloria Mara Meja Z

Vous aimerez peut-être aussi