Académique Documents
Professionnel Documents
Culture Documents
de datos
De la medicin a
la toma de decisin
1
2
3
4
5
Medicin
Dato
Informacin
Conocimiento
Toma de decisin
Disciplinas relacionadas
con el anlisis de datos
Estadstica
Muestreo
Probabilidades
Diseo de
experimentos
Procesos
estocsticos
Control de
procesos
Series de
tiempo
Teora de
la seal
Cronoestadstica
Minera
de datos
Geoestadstica
Contenidos
El curso se divide en cinco lecciones
Parte 1: Anlisis estadstico de datos
Definicin de la estadstica
La estadstica es un conjunto de
procedimientos, herramientas y
tcnicas usadas para recolectar,
presentar, analizar y modelar
datos.
Sus objetivos son ya sea explicar
o interpretar un fenmeno, o bien
ayudar en la toma de decisin en
una situacin de incertidumbre o
frente a informacin incompleta,
cuando no se puede conocer la
realidad en forma exhaustiva.
Definicin de la estadstica
El modelamiento estadstico permite organizar nuestras elecciones y decisiones,
pero no permite legitimar estas elecciones de manera absoluta.
Definicin de la estadstica
Se distingue la estadstica matemtica y la estadstica aplicada, la cual se
subdivide en descriptiva e inductiva.
La estadstica descriptiva se refiere a la recopilacin, presentacin y descripcin
de un grupo de datos, resumindolo con unos pocos elementos de informacin
que caracterizan la totalidad del grupo.
La estadstica inductiva o inferencial es el proceso para lograr generalizaciones
acerca del todo (llamado la poblacin) examinando una parte (llamada la
muestra). Permite darse una idea de cmo est la poblacin (estimacin de
caractersticas), responder preguntas o confirmar comportamientos (prueba de
hiptesis) as como generar modelos y predicciones (regresin, minera de datos y
anlisis multivariable).
Ejemplos de aplicacin
Control de estndares de calidad en la toma, preparacin y anlisis de muestras
en mina (por ejemplo, para clculo de recursos/reservas, control de leyes,
reconciliacin), en planta (para monitoreo y control de procesos, control
granulomtrico), en pilas de lixiviacin y relaves (gestin ambiental)
Ejemplos de aplicacin
Gestin de operaciones: determinar el promedio de vida y la dispersin de vida
de un equipo; modelar la distribucin del rendimiento de un equipo; analizar las
caractersticas del mineral procesado (densidad, granulometra,)
Ejemplos de aplicacin
Comparacin de las caractersticas de insumos de
distintos abastecedores (aceros para perforacin,
explosivos para tronadura, reactivos para plantas de
flotacin, etc.)
Ejemplos de aplicacin
Modelos de dependencias entre variables
productividad vs. variables operacionales
(nmero de camiones, disponibilidad de
equipos, tipo de material extrado, tipo de
equipos) en vista a mejorar la planificacin
y cumplir con los planes de produccin
Ejemplos de aplicacin
Diseo de pruebas y experimentos e
interpretacin de resultados:
perforacin
tronadura
acondicionamiento del macizo rocoso
fenomenologa del flujo gravitacional
automatizacin de cargadores frontales
Fundamentos de
estadstica matemtica
Conceptos bsicos
Individuo
Poblacin
Muestra, muestreo
Variables
cuantitativas (numricas)
cualitativas (codificadas)
Tabla de datos
Conceptos bsicos
Dos aspectos importantes a la hora de tomar una muestra:
Conceptos bsicos
Variabilidad y aleatoriedad
En la naturaleza y en todo proceso, existe variabilidad, la cual origina cierta
incertidumbre en los valores de los individuos de la poblacin que no forman
parte de la muestra.
Conceptos bsicos
Ejemplo (series de tiempo)
Se realizan 9 mediciones de dos variables en distintas fechas
Fecha
Variable 1
Variable 2
Conceptos bsicos
Una propiedad deseable para
una serie de tiempo es que
las distribuciones de
frecuencia no cambian con
el tiempo (estacionaridad).
As, se puede suponer que
las observaciones provienen
de una misma poblacin
estadstica.
Conceptos bsicos
Distribucin de frecuencia
La distribucin de frecuencia fracciona los datos en grupos o clases y muestra
ya sea el nmero de observaciones en cada clase, o bien el nmero de
observaciones en cada clase dividido por el nmero total de observaciones.
Conceptos bsicos
Ejemplo: distribucin de las leyes de cobre total, medidas en 2376 muestras de
sondajes de exploracin
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
Nmero de
Clase
observaciones
0
1.6
0
1.7
15
1.8
75
1.9
132
2
178
2.1
152
2.2
187
2.3
192
2.4
185
2.5
177
2.6
174
2.7
144
2.8
132
2.9
119
3
95
y mayor...
Nmero de
observaciones
77
64
45
42
48
34
19
14
13
9
10
10
3
2
4
25
Histograma
250
Nmero de observaciones
Clase
200
150
100
50
Conceptos bsicos
Distribucin de frecuencia acumulada
La distribucin de frecuencia acumulada muestra, para cada clase, el nmero
total de observaciones en todas las clases inferiores y en la clase en cuestin,
dividido eventualmente por el nmero total de observaciones.
Conceptos bsicos
Ejemplo: granulometra
El histograma acumulado muestra la fraccin acumulada bajo un tamao
determinado.
Clase de tamao Malla superior Malla inferior Proporcin en clase Proporcin acumulada
de partcula
(cm)
(cm)
L0
---5.000
0.0204
0.0204
L1
5.000
3.800
0.0597
0.0801
L2
3.800
3.200
0.0597
0.1398
L3
3.200
2.500
0.0759
0.2157
L4
2.500
1.900
0.1383
0.3540
L5
1.900
1.300
0.1622
0.5162
L6
1.300
1.000
0.0813
0.5975
L7
1.000
0.600
0.0962
0.6937
L8
0.600
0.055
0.2412
0.9349
L9
0.055
0.000
0.0651
1.0000
Conceptos bsicos
Distribucin granulomtrica
Proporcin acumulada
1.0000
0.8000
0.6000
0.4000
0.2000
0.0000
1
Clase de tamao
10
Conceptos bsicos
Variable aleatoria
Se trata de una variable X cuyo valor depende del azar.
Ejemplos
cara o sello (representado por 0 1)
lanzamiento de un dado
lotera
variable en cuyos valores se tiene incertidumbre
Distribucin de probabilidad
Una variable aleatoria X se caracteriza por una distribucin de probabilidad, la
cual se representa por medio de:
una funcin de distribucin:
x R, P(x) = Prob(X < x)
una densidad de probabilidad (variable continua):
x R, p(x) = dP(x)/dx
una masa de probabilidad (variable discreta, por ejemplo, entera):
n N, p(n) = Prob(X = n)
Distribucin de probabilidad
Vnculo entre probabilidad y frecuencia emprica
Al sortear numerosos valores independientes de X, la distribucin de frecuencia
de los valores sorteados (llamados realizaciones) debe tender a la distribucin
de probabilidad.
Ejemplos
cara o sello
dado (falso?)
Esperanza y varianza
Se suele considerar parmetros sintticos (llamados momentos) para describir
la distribucin de probabilidad:
esperanza o valor esperado: representa el valor promedio de la distribucin
E ( X ) x p( x) dx
R
n p ( n)
nN
Esperanza y varianza
Ejemplo: lanzamiento de un dado no falso
valor esperado
1
1
1
1
1
1
1 2 3 4 5 6 3.5
6
6
6
6
6
6
varianza
1
1
2 (1 3.5) 2 ... (6 3.5) 2 2.9167
6
6
Esperanza y varianza
Dado un conjunto de n realizaciones de X, se puede definir los siguientes
estimadores de la esperanza y la varianza:
media experimental
1 n
X Xi
n i1
varianza experimental
1 n
S
( X i X )2
n 1 i1
2
Esperanza y varianza
Ejercicio: lanzamiento de un dado. Se realiza 10 lanzamientos, obteniendo los
siguientes valores:
2 5 3 6 1 5 3 4 2 4
Esperanza y varianza
Los estimadores de la esperanza y de la varianza tienen las siguientes propiedades
insesgo: el error de estimacin tiene un valor esperado nulo
E (X )
E (S 2 ) 2
1
n 3 4
var(S 2 ) E{( X ) 4 }
n
n 1
S 2 n
2
Distribuciones de
probabilidad
Cuatro distribuciones fundamentales en anlisis de datos y diseo de
experimentos:
Distribucin normal o Gaussiana
Distribucin de Student
Distribucin del chi cuadrado
Distribucin de Fisher
Distribucin normal
Densidad de probabilidad normal o Gaussiana:
( x ) 2
1
xR, p( x)
exp
2
2
2
Distribucin normal
La distribucin normal estndar corresponde al caso donde = 0 y = 1.
Se denota usualmente como N(0,1). Su funcin de distribucin es:
xR, P( x)
p(t ) dt
con t
1
1 0.33267 x
Distribucin normal
Teorema del lmite central
Si una variable aleatoria X tiene una esperanza finita y una varianza finita 2,
entonces
X
N (0,1) si n
/ n
Distribucin normal
Aplicacin
Se tiene 9 muestras con ensayos de ley de cobre total (en %):
0.52
0.63
0.70
0.47
0.39
0.12
0.21
0.55
1.38
X i2
2
n
i 1
2
La esperanza de n es igual a n y su varianza a 2n.
2
n 1
(n 1) S 2
Distribucin de Student
Tn1 X
n 1
2n1
William Sealy Gosset,
alias Student
Distribucin de Student
En particular, sea {Xi, i = 1 n} un conjunto de variables aleatorias normales
independientes de misma esperanza y varianza 2, X su media experimental y
S2 su varianza experimental. La variable
Tn1
X
n
S
Distribucin de Student
Aplicacin
0.63
0.70
0.47
0.39
0.12
0.21
0.55
1.38
Distribucin de Fisher
La razn de dos variables independientes
del chi cuadrado divididas por sus grados de
libertad respectivos, es una variable de
Fisher, cuya distribucin depende de dos
grados de libertad:
F (n1 , n2 )
2n1 / n1
2n2 / n2
Ronald Aylmer Fisher
Otras distribuciones
Distribucin uniforme
La densidad de probabilidad es constante en un intervalo [a,b].
Distribucin lognormal
Otras distribuciones
Otras distribuciones
Distribucin de Bernoulli
Esta distribucin slo tiene dos valores: 1 (con probabilidad p) y 0 (con
probabilidad 1 p).
Distribucin de Poisson
Distribucin binomial
Otras distribuciones
Otras distribuciones
Ejemplos comunes de uso
Distribuciones bivariables
Consiste en asociar a cada experimento dos variables aleatorias X e Y (no
necesariamente independientes).
Ejemplos
Distribuciones bivariables
Para describir cmo se distribuyen y cmo se relacionan las dos variables X e Y, se
generaliza la definicin de la funcin de distribucin al caso bivariable:
P( x, y) Prob( X x,Y y)
Distribuciones bivariables
Ejemplo 1: distribucin bigaussiana o binormal
x
X
2
2 (1 ) X
1
p ( x, y )
1
2 X Y 1
donde es el coeficiente de
correlacin entre X e Y
y Y
Y
x X
2
y Y
Y
Distribuciones bivariables
Ejemplo 2: distribucin bigamma
1
x y x y
p ( x, y )
exp
() (1 )
1
donde
> 0 es el coeficiente de correlacin
entre X e Y
> 0 es un parmetro de forma
I-1 es la funcin de Bessel modificada
de primer tipo de orden 1
( 1) / 2
x y
I 1 2
1
Distribuciones bivariables
X e Y son independientes si su funcin de distribucin bivariable se factoriza
P( x, y) PX ( x) PY ( y)
En este caso, el conocer una variable no altera la distribucin de la otra variable.
Distribuciones bivariables
Experimentalmente, la distribucin bivariable entre X e Y se puede representar con
un diagrama de dispersin (tambin conocido como nube de dispersin o nube de
correlacin), el cual consiste en la nube de puntos {(xi,yi), i = 1 n}. En caso de
existir una relacin potencial de causa y efecto entre las variables, este diagrama
sirve para entender la naturaleza estadstica de la causalidad.
Distribuciones marginales
Las distribuciones a priori de las variables X e Y se definen por
sus funciones de distribucin
PX ( x) Prob( X x) P( x,)
PY ( y ) Prob(Y y ) P(, y )
pY ( y )
p ( x, y ) dy
p ( x, y ) dx
p (, j ) Prob(Y j ) p (i,j )
iN
Distribuciones marginales
Distribuciones marginales
Distribuciones condicionales
Se define la distribucin de Y condicional a X = x
P( y | x) Prob(Y y | X x)
p( y | x)
P( y | x) p( x, y )
y
p( x)
Distribuciones condicionales
Aplicaciones
distribucin granulomtrica de una partcula, dado que su tamao es menor
que 2.5cm
distribucin de la ley de cobre total de una muestra, dado que su mineraloga
es de tipo lixiviado
distribucin de la ley de cobre soluble de una muestra, dada su ley de cobre total
Distribuciones condicionales
Ejemplo 1: distribucin bigaussiana
La distribucin de Y condicional a X = x todava es Gaussiana
Distribuciones condicionales
Ejemplo 2: distribucin bigamma
Distribuciones de Y condicional a X = 0.5 y de X condicional a Y = 0.5
Covarianza y correlacin
La covarianza entre X e Y se define como:
cov( X ,Y ) E[( X X ) (Y Y )] E ( XY ) X Y
Se tiene:
cov( X , X ) var( X )
cov(aX ,bY ) ab cov( X ,Y )
Covarianza y correlacin
El coeficiente de correlacin lineal (o correlacin de Pearson) entre X e Y se
define como:
cov( X ,Y )
X Y
Se tiene:
1 1
Covarianza y correlacin
Ilustracin
Covarianza y correlacin
Dado un conjunto de n realizaciones independientes del par (X,Y), se puede
estimar la covarianza y la correlacin por
la covarianza experimental
S XY
1 n
( X i X ) (Yi Y )
n 1 i 1
S XY
S X2 SY2
Covarianza y correlacin
El coeficiente de correlacin de rango, o de Spearman, se define al reemplazar
los valores de cada variable, por sus rangos:
...
valor mximo rango = n
Distribuciones multivariables
Para describir cmo se distribuyen conjuntamente varias variables X1, XM, se
define la funcin de distribucin multivariable:
P( x1 ,...xM ) Prob( X 1 x1 ,... X M xM )
Distribuciones multivariables
Ejemplo: distribucin multigaussiana o multinormal
p( x )
1
( 2 ) M
exp ( x )t C1 ( x )
det(C)
2