Vous êtes sur la page 1sur 38

ANLISIS EXPLORATORIO Y

ESTRUCTURAL
Modelacin y Simulacin de Yacimientos
2017-I
Anlisis Exploratorio de Datos (AED)
Tiene como objetivo identificar el modelo terico ms
adecuado para representar la poblacin de la cual proceden
los datos mustrales. Dicho anlisis se basa en grficos y
estadsticos que permiten explorar la distribucin
identificando caractersticas tales como: valores atpicos o
outliers, saltos o discontinuidades, concentraciones de
valores, forma de la distribucin, etc.
Etapas AED

Realizar un examen
Realizar un examen Evaluar, si fuera
grfico de la naturaleza Evaluar, si fuera
grfico de las relaciones necesario, algunos Identificar los posibles
de las variables necesario, el impacto
Preparar los datos para entre las variables supuestos bsicos casos atpicos (outliers) y
individuales a analizar y potencial que pueden
hacerlos accesibles a analizadas y un anlisis subyacentes a muchas evaluar el impacto
un anlisis descriptivo tener los datos ausentes
cualquier tcnica descriptivo numrico tcnicas estadsticas potencial que puedan
numrico que permita (missing) sobre la
estadstica. que cuantifique el grado como, por ejemplo, la ejercer en anlisis
cuantificar algunos representatividad de los
de interrelacin normalidad, linealidad y estadsticos posteriores.
aspectos grficos de los datos analizados.
existente entre ellas. homocedasticidad.
datos.
Tipos de variables

1. Variables cualitativas: Describen


cualidades o atributos (ej. color del
pelo).

2. Variables cuantitativas discretas:


Toman un nmero pequeo de
valores, normalmente enteros (ej.
nmero de hijos).

3. Variables cuantitativas continuas:


Toman valores en un intervalo (ej.
tiempo hasta que llega un
autobs).
Aspectos interesantes de una distribucin

Su dispersin: el grado de Su forma: por ejemplo, la


Su posicin: en torno a qu concentracin de los simetra, es decir, si los
valor central toma valores valores que toma la variable valores se reparten de la
la variable. alrededor de su posicin misma forma a uno y otro
central. lado del centro.
Histogramas
Se divide el rango de los
datos en un nmero
adecuado de intervalos.
Sobre cada intervalo se
dibuja un rectngulo cuya
rea es proporcional a la
frecuencia (relativa o
absoluta) de datos en el
intervalo.
Histogramas

Normalmente la base de
Identificar si se han
todos los rectngulos es
usado frecuencias Hay algn dato atpico
la misma por lo que la
absolutas o relativas. en relacin al resto?
altura es proporcional a
Cuntas modas hay?
la frecuencia.

Es simtrica la
distribucin? I En caso En torno a qu valor Estn muy dispersos los
de asimetra, es aproximado estn datos en torno a este
asimtrica a la izquierda centrados los datos? centro?
o a la derecha
Tipos de Simetra
Medidas numricas de posicin
1. La media aritmtica: Promedio de los datos.

Propiedades:
La suma de las desviaciones a la media siempre es igual a cero: (x1
)+ (x2 ) + + (xn ) = 0.
Si la distribucin es muy asimtrica, la media puede distorsionar
nuestra percepcin de cmo son los datos.
La media es muy sensible a la existencia de datos atpicos en los
datos.
Medidas numricas de posicin
2. La mediana: representa el valor de la variable de posicin central en
un conjunto de datos ordenados.

Para calcular la mediana:


Se ordenan los datos de menor a mayor.
Si el nmero de datos es impar, la mediana es el dato que ocupa la
posicin central.
Si el nmero de datos es par, la mediana es la media de los dos datos
centrales.
Medidas de dispersin: El rango y los cuartiles

El rango o recorrido de los datos: el valor mximo menos el mnimo,


depende de los datos extremos por lo que no es muy conveniente.

1. El primer cuartil, Q1, es la mediana de los datos menores que la


mediana.
2. El tercer cuartil, Q3, es la mediana de los datos mayores que la
mediana.
3. El rango, recorrido o amplitud intercuartlica es la diferencia entre
los dos cuartiles anteriores: Q3 Q1.
Medidas de dispersin: la varianza y la
desviacin tpica
La varianza es el promedio de las desviaciones al cuadrado de los
datos a su media.

Se suele usar ms la (cuasi)varianza:


Medidas de dispersin: la varianza y la
desviacin tpica
La (cuasi) desviacin tpica es la raz cuadrada de 2 :

Para comparar la dispersin de variables de magnitudes muy distintas a


veces se usa el coeficiente de variacin:
Diagrama de cajas
Los diagramas de cajas son
especialmente tiles para comparar
varios conjuntos de datos.

Adems, proporcionan informacin


sobre:
La posicin (mediana) y la
dispersin (rango intercuartlico) de
los datos.
La simetra de la distribucin
(comparamos el tamao de las
cajas).
La existencia de datos que se
desvan del patrn general (datos
atpicos).
Relaciona cada histograma con su diagrama
de cajas
Diagrama de Dispersin
Permite analizar si existe algn tipo de relacin entre dos variables. Por
ejemplo, puede ocurrir que dos variables estn relacionadas de manera
que al aumentar el valor de una, se incremente el de la otra.
Interpretacin de un diagrama de dispersin
Es importante fijarse en las unidades de cada eje

Se observa alguna asociacin entre las variables?

Cmo es de estrecha la asociacin entre las variables?

Cul es la direccin de la asociacin entre las variables?

Hay algn punto o coleccin de puntos que no siga el patrn general del resto?

Si hay una tercera variable cualitativa, resulta conveniente utilizar smbolos o colores diferentes para cada valor de
esta tercera variable.
Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1, y1), . . . ,(xn, yn).
El objetivo es definir una medida numrica para cuantificar el grado de
relacin lineal que hay entre x e y: Para ello se usa la covarianza entre x
e y:
Coeficiente de correlacin
Resulta conveniente disponer de una medida de relacin lineal que no
dependa de las unidades. Para ello, se normaliza Sxy dividiendo por el
producto de desviaciones tpicas, lo que lleva al coeficiente de correlacin:

Propiedades:
1. No depende de las unidades.
2. Siempre toma valores entre -1 y 1.
3. Su signo se interpreta igual que el de la covarianza.
4. Slo vale 1 -1 cuando los puntos estn perfectamente alineados.
Transformacin de datos logaritmo Neperiano
Si las observaciones xi son positivas, a veces es conveniente trabajar
con sus logaritmos log xi en lugar de con las variables originales.
Estandarizacin o tipificacin
Consiste en restarle a cada observacin la media de todos los datos y
dividir por la desviacin tpica:
Definiciones
Anlisis estructural
Consiste en estimar y modelar una funcin Semivariograma
que refleje la correlacin espacial de la Es una herramienta que permite analizar el
variable regionalizada a partir de la adopcin comportamiento espacial de una
razonada de la hiptesis ms adecuada acerca propiedad o variable sobre una zona dada.
de su variabilidad.

Geoestadistica
Ciencia que estudia los fenmenos que fluctan en el espacio y/o
tiempo, ofreciendo una coleccin de herramientas estadsticas para
la descripcin y modelacin de la variabilidad espacial (y temporal).
Anlisis Estructural

El clculo del Semivariograma


experimental.
Compuesto El ajuste del Semivariograma
por: experimental emprico a un
modelo terico conocido.
Validacin Cruzada
Semivariograma

Funciones
Detectar direcciones de anisotropa
Zonas de influencia y su extensin
(correlacin espacial)
Variabilidad con la distancia
Elementos del Semivariograma
Rango:
Distancia a la cual el
variograma se estabiliza

Sill :
Valor constante que toma el
variograma en distancias
mayores al rango
Si Z (x ) es estacionaria o intrnseca

1
(h) Var [ Z ( x) Z ( x h)]
2
xR , hR
n n

1
E[ Z ( x) Z ( x h)] 2

2
Anisotropas
Geomtrica Zonal Hdrida
Igual Sill, Igual rango, Rangos
diferente Rango. diferente Sill. diferentes y
distintos Sill.
Modelos de Semivariograma
1. Efecto Pepita total
Representa a un fenmeno S
completamente aleatorio, en

Variograma
el cual no hay correlacin
espacial.
No importa cun cerca se
encuentren los valores de las
variables, siempre sern no Distancia

correlacionados.
0 si h 0
h

s si h 0

Modelos de Semivariograma
2. Modelo Esfrico
Representa fenmenos

Variograma
continuos pero no
diferenciables.
Comportamiento lineal en el
origen, de los ms utilizados.
Pendiente igual a 1.5 s / a Distancia

3
3 h 1 h
s si h a Rango a y sill s
2 a 2 a3


h


s si h a



Modelos de Semivariograma
3. Modelo Exponencial

Variograma
Representa fenmenos continuos
pero no diferenciables.
Comportamiento lineal en el origen.
Rango aparente igual a a, Rango
experimental igual a 3a Distancia

Pendiente igual a 3 s / a

h
h s1 exp Rango a y sill s

a
Modelos de Semivariograma
4. Modelo Gaussiano
Representa fenmenos continuos
infinitamente diferenciables

Variograma
(sumamente continuos).
Sill s que alcanza asintticamente.
Rango aparente igual a a

Rango experimental igual a 3 a Distancia

Comportamiento cuadrtico en el origen.


h 2
h s1 exp 2 Rango a y sill s
a

Modelos de Semivariograma
5. Modelo Cbico
Representa fenmenos bastante
continuos.

Variograma
Comportamiento cuadrtico en el
origen.

Distancia

2 3 5 7
h h h h
s 7 8.75 3 3.5 5 0.75 7 si h a

a2 a a a

h Rango a y sill s

s si h a




Modelos de Semivariograma
6. Modelo Lineal

h Co bh Donde C0 es el nugget y b la pendiente de la recta.


Modelacin Isatis (Ol Shale)
1. Cargue de datos
1.1. Data
1. Cargue de datos
1.2. Faults
2. Anlisis exploratorio de datos
Thickness (Espesor) Base map
3. Variografa
3.1. V. Experimental
3. Variografa
3.2. V. Terico (Ajuste)

Vous aimerez peut-être aussi