Vous êtes sur la page 1sur 50

Anlisis exploratorio

de datos.
Qu es?
Introduccin
Existe algn tipo de estructura (normalidad, multimodalidad,
asimetra, curtosis, linealidad, homogeneidad entre grupos,
homocedasticidad, etc.) en los datos que voy a analizar?

Existe algn sesgo en los datos recogidos?

Hay errores en la codificacin de los datos?

Cmo se sintetiza y presenta la informacin contenida en un


conjunto de datos?

Existen datos atpicos (outliers)? Cules son? Cmo tratarlos?


Objetivos y alcances

Estudiar (mediante herramientas estadsticas simples) la cantidad, calidad y


ubicacin de los datos disponibles para analizar una variable regionalizada

Definir la(s) zona(s) de estudio


Obtener un conocimiento bsico de los datos y de las relaciones entre las
variables

Anticipar dificultades o problemas que puedan surgir en la fase de estimacin


local o de simulacin.
Herramientas de anlisis exploratorio de
datos
Ejemplo 1: modelo litolgico

dos secciones modelo tridimensional


Ejemplo 2: yacimiento de tipo prfido cuprfero (2376 muestras de longitud 12m)
ANLISIS ESTADSTICO UNIDIMENSIONAL

Una vez organizados los datos, el segundo paso de un A.E.D.


consiste en realizar una anlisis estadstico grfico y numrico
de las variables del problema con el fin de tener una idea inicial
de la informacin contenida en el conjunto de datos as como
detectar la existencia de posibles errores en la codificacin de
los mismos.
Que tipos de grficos se deben usar?

Histogramas.
Grafico de cajas.
Grafico de probabilidad normal (campana de Gauss).
Grafico intercuartiles (Q Q).
Para que nos sirve cada uno de estos grficos)
Histogramas

Funcin de distribucin normal


(campana de Gauss)
No normalizada Normalizada
(Lo que se busca)
Diagramas de cajas

Tercer cuartil Primer cuartil mediana

Simtrico asimtrico
Diagrama intercuartiles Q-Q
Dist. No normal Dist. normal
Un ejemplo:
Mtodos matemticos para la prueba de la normalidad

La prueba mas usada es la prueba de bondad de ajuste de


Kolmogorov Smirnov (KS).
Hiptesis a contrastar:

H0: Los datos analizados siguen una distribucin M.


H1: Los datos analizados no siguen una distribucin M.

Estadstico de contraste:
donde:
xi es el i-simo valor observado en la muestra (cuyos
valores se han ordenado previamente de menor a mayor).
Fn( x i)es un estimador de la probabilidad de observar
valores menores o iguales que xi.
F0 (x) es la probabilidad de observar valores menores o
iguales que xi cuando H0 es cierta.
donde el valor D se elige de tal manera que:

siendo el nivel de significacin del contraste.


donde c y k(n) se encuentran en las tablas siguientes:
Ejemplo 1:
Determinar si los valores de la primera columna se conforman a una
distribucin normal:
Tipos mas comunes de distribuciones en minera:

Normal: muy poco frecuente.

Log normal. Se da con mas frecuencia.


Grficos de probabilidad normal y log normal

Estos grficos sirven para comparar una distribucin experimental con una
distribucin de referencia que es normal o lognormal.

En caso de identidad con una distribucin normal o lognormal, el grfico


de probabilidad correspondiente dibuja una recta.
ANLISIS ESTADSTICO BIDIMENSIONAL

Una vez realizado el estudio unidimensional de cada variable


por separado, el siguiente paso consiste en analizar la
existencia de posibles relaciones entre ellas. Dicho estudio
puede realizarse desde una ptica bidimensional o
multidimensional.
Un ejemplo de esto es analizar muestras de oro en relacin a
otras de cobre existentes en un yacimiento. Es decir hacer una
prediccin del oro a partir de el cobre siempre y cuando estas
guarden relacin o estn correlacionadas.
Tres situaciones que pueden darse:
1) Ambas variables son cualitativas.

2) Ambas variables son cuantitativas.

3) Una variable es cuantitativa y la otra cualitativa.


Anlisis de dos variables cuantitativas:

La distribucin conjunta de dos variables puede expresarse


grficamente mediante un diagrama de dispersin que
proporciona una buena descripcin de la relacin entre las
dos variables.

La relacin entre las variables tambin puede expresarse de


forma numrica. Mediante el coeficiente de correlacin
lineal. Si este se acerca a uno (en valor absoluto) hay relacin y
si acerca a cero no la hay.
Heterogeneidad

Lo que se busca es que los datos sean homogeneos


Linealidad

La linealidad es un supuesto implcito de todas las tcnicas


multivalentes basadas en medidas de correlacin, tales como
la regresin mltiple, regresin logstica, anlisis factorial y
los modelos de ecuaciones estructurales. Es, adems, una
forma indirecta de contrastar la normalidad conjunta de dos
variables dado que si dicha hiptesis es cierta la relacin
existente entre ellas deber ser lineal.
La relacin lineal es fuerte con un coeficiente de determinacin del 79% y viene dada por la ecuacin:
Log(Salario Actual) = 0.7+ Log(Salario Inicial) Por lo tanto, los salarios han crecido, en media,
un 100(exp(0.7)-1) = 101.37% respecto al salario inicial.
Homocedasticidad

La homocedasticidad es una hiptesis muy habitual en algunas


tcnicas estadsticas como el Anlisis de la Varianza, el Anlisis
Discriminante y el Anlisis de Regresin.
Dicha hiptesis se refiere a suponer la igualdad de varianzas de las
variables dependientes.
Datos Atpicos (outliers)

Son observaciones con caractersticas diferentes a las


dems.

Su principal problema radica en que son


elementos que pueden no ser representativos de la
poblacin pudiendo distorsionar
seriamente el comportamiento de los contrastes
estadsticos.
Tipos de outliers

1. Por error de procedimiento.


2. Cuando ocurre por acontecimiento
extraordinario pero no representa ningn
segmento de la poblacin y puede ser
eliminado.
3. Cuando las observaciones estn dentro del
rango de valores pero son nicos.
4. Casos sin explicacin que deben analizarse para
luego ser interpretados.
Depuracin de outliers.

El mtodo mas practico es eliminar los outliers mediante


Grficos de cajas aun que este no es el nico mtodo es el mas
practico y consiste en eliminar a aquellos datos que estn muy
alejados del rango intercuartilico.

Los outliers pueden ser dbiles o extremos, los primeros son


los que distan del cuartil mas cercano 1.5 veces el recorrido
intercuartilico.
Ejemplo
Adems de la evaluacin univariante, pueden analizarse conjuntamente pares de
variables mediante un grfico de dispersin. Casos que caigan manifiestamente
fuera del rango del resto de las observaciones pueden identificarse como puntos
aislados en el grfico de dispersin. Para ayudar a determinar el rango esperado de
las observaciones, se puede superponer sobre el grfico de dispersin una elipse
que represente un intervalo de confianza especificado para una distribucin normal
bivariante.
Compositacin

Creacin de compsitos a partir de testigos:

Vous aimerez peut-être aussi