Vous êtes sur la page 1sur 75

TCNICAS MULTIVARIANTES

1. Introduccin
2. Clasificacin de las tcnicas
3. Etapas de anlisis
4. Supuestos bsicos
5. Valores perdidos y anmalos
Definicin.
- Conjunto de mtodos estadsticos cuya finalidad es analizar
simultneamente conjuntos de datos multivariantes: hay
varias variables medidas para cada caso.
- Permiten un mejor entendimiento del fenmeno objeto de
estudio, obteniendo informacin que los mtodos univariantes
y bivariantes son incapaces de conseguir.
Objetivos.
- Proporcionar mtodos para estudiar datos multivariantes
que el anlisis estadstico uni y bidimensional es incapaz de
conseguir.
- Ayudar al investigador a tomar decisiones ptimas en el
contexto en el que se encuentre teniendo en cuenta la
informacin disponible por el conjunto de datos analizado.
introduccin
3 grupos:
- Mtodos de dependencia
- Mtodos de interdependencia
- Mtodos estructurales
Mtodos de dependencia:
- Suponen que las variables analizadas estn divididas en dos
grupos: las variables dependientes y las variables
independientes.
- El objetivo consiste en determinar si el conjunto de variables
independientes afecta al conjunto de variables
dependientes y de qu forma.
clasificacin
Mtodos de interdependencia:
- No distinguen entre variables dependientes e independientes
y su objetivo consiste en identificar qu variables estn
relacionadas, cmo lo estn y por qu.
Mtodos estructurales:
- Suponen que las variables estn divididas en dos grupos: el
de las variables dependientes y el de las independientes.
- El objetivo es analizar como las variables independientes
afectan a las variables dependientes y las relaciones de
las variables de los dos grupos entre s.
clasificacin
Regresin
Supervivencia
MANOVA
Correlacin cannica
Discriminante
Regresin logstica
Conjoint
Componentes principales
Factorial
Cluster
Escalas multidimensionales
Correspondencias
Modelos log-lineales
Cluster
Escalas multidimensionales
clasificacin
Mtrica
No mtrica
Mtrica
No mtrica
Dependencia
Interdependencia
Modelos estructurales
La investigacin responde a un problema de dependencia
entre variables o de interdependencia de las mismas?
Cmo estn medidas las variables: mtricas o no mtricas?
Si es un problema de dependencias,
cuntas variables dependientes existen?
clasificacin
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
Regresin lineal mltiple:
- Relacin entre 1 variable dependiente mtrica y varias
variables independientes mtricas o no mtricas.
Y
1
(X
1
, X
2
, X
3
, .... X
m
)
- Por ejemplo: Determinar si existe o no relacin entre el
resultado neto y la superficie, dimensin e inversin
inicial.
Y si el resultado neto est codificado en Prdidas=1,
Equilibrio=2 y Ganancias=3?
clasificacin
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
- Anlisis discriminante. Proporciona reglas de clasificacin
ptimas de nuevas observaciones de las que se desconoce
su grupo de procedencia basndose en la informacin
proporcionada los valores que en ella toman las variables
independientes.
- Modelos de regresin logstica. Se utilizan como una
alternativa al anlisis discriminante cuando no hay
normalidad.
clasificacin
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
Anlisis de correlacin cannica:
Y
1
(X
1
, X
2
, X
3
, .... X
m
) regresin, discriminante y log
(Y
1
, Y
2
, Y
3
, .... Y
m
) (X
1
, X
2
, X
3
, .... X
m
) correlacin cannica
- Asociacin lineal entre un conjunto de variables dependientes y otro
de variables independientes.
- Si la dependencia es no mtrica
- Si la dependencia es mtrica slo si la independencia
tambin lo es
- Por ejemplo:
- Determinar si existe o no relacin entre el resultado neto y la
produccin de contaminantes de una explotacin con la
superficie, dimensin e inversin inicial. Corr. cannica
- Determinar la misma relacin pero con el gnero del ganadero
y el tipo de explotacin (intensivo, extensivo) MANOVA
clasificacin
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
clasificacin
Ecuaciones estructurales:
- Varias relaciones: estructuras de la covarianza y anlisis
factorial confirmatorio
Y
1
(X
11
, X
12
, X
13
, .... X
1m
)
Y
2
(X
21
, X
22
, X
23
, .... X
2m
)
Y
3
(X
31
, X
32
, X
33
, .... X
3m
)
Anlisis de dependencias
clasificacin
ecuaciones
estructurales
regresin
mltiple
anlisis
discriminante
Regresin
logstica
MANOVA
correlacin
cannica
varias
relaciones
una
relacin
1 variable
dependiente
> 1 variable
dependiente
dependencia
mtrica
dependencia
no mtrica
dependencia
mtrica
dependencia
no mtrica
independencia
no mtrica
independencia
mtrica
Anlisis de interdependencia.
- Las variables no se pueden separar en dependientes e
independientes.
- Objetivo: determinar cmo y por qu las variables estn
correlacionadas.
clasificacin
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis de componentes principales.
- Tcnica de reduccin de datos.
- Objetivo: construir combinaciones lineales de las variables
iniciales que expliquen la mayor parte de la informacin
contenida en esas variables.
- Esas combinaciones se denominan Componentes
Principales, estn incorrelacionados y cada componente
sucesivo explica menos varianza.
- Por ejemplo: para comparar 10 explotaciones, es mejor
utilizar 5 Componentes Principales que 150 variables
clasificacin
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis factorial.
- Tcnica de reduccin de datos.
- Objetivo: establecer qu causas latentes (factores) causan la
correlacin entre las variables observadas.
- Por ejemplo: el desarrollo de un animal no se puede medir
directamente, pero s es posible medir algunos de sus
indicadores:
- El peso y su incremento
- La alzada y sus incrementos (cruz, palomillas, etc.)
- Las dimensiones de algunas regiones corporales y su
relacin respecto a otras
- El anlisis factorial establecera que el factor
desarrollo explica todas estas variables y cmo
se relaciona cada variable con el factor
clasificacin
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis de correspondencias.
- Permite visualizar grficamente tablas de contingencia.
- Por ejemplo: Si existe relacin entre la formacin del
ganadero y el tipo de gestin
- Formacin: sin formacin, primaria, bachillerato,
universidad, formacin profesional, mdulos, escuela
de capataces o sus combinaciones
- Tipo de gestin: ninguna, asesor fiscal, veterinario
clnico, agrnomo, veterinario asesor o sus
combinaciones
clasificacin
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis de escalamiento multidimensional.
- Permite aflorar los criterios que utilizan los individuos para
considerar que distintos objetos son parecidos o
distintos.
- Por ejemplo: Estudios de preferencia del jamn curado
clasificacin
Anlisis de interdependencias
clasificacin
componentes
principales
anlisis
factorial
anlisis
correspondencias
anlisis
cluster
escalamiento
multidimensional
Relacin
entre
variables
Mtricas No mtricas
Relacin
entre
casos
Relacin
entre
objetos
Anlisis de conglomerados (cluster).
- A diferencia del factorial que agrupa variables, pretende
agrupar observaciones.
- De tal modo que las observaciones dentro de los grupos
sean parecidas respecto a las variables utilizadas para
agrupar.
- Y que las observaciones entre los grupos sean lo ms
diferentes posibles respecto a las mismas variables.
- Por ejemplo, para hacer grupos de animales en un programa
de mejora gentica, o de explotaciones de cara a optimizar su
gestin.
clasificacin
Proceso de aplicacin de la tcnica multivariante.
1. Definir el problema que se est investigando (modelo
conceptual)
- Anlisis conceptual de su objeto de estudio
- Identificar las relaciones fundamentales que se van a
abordar
- Eleccin de la tcnica a aplicar
etapas del anlisis
Proceso de aplicacin de la tcnica multivariante.
Por ejemplo:
Analizar la gestin de los sectores ecolgicos
- Variables y sectores
- Relaciones entre las variables y los casos:
- Comparar unos sectores con otros: AF/ACP + ANOVA
- Nos da igual el sector: AF/ACP + CLUSTER
- Correlacin cannica
etapas del anlisis
2. Desarrollo del plan de anlisis
- Tamao muestral mnimo para la tcnica concreta
- Las escalas de las variables a analizar son correctas
3. Condiciones de aplicabilidad de la tcnica elegida
4. Desarrollo de la tcnica, incorporando o eliminando
variables segn la bondad de ajuste
etapas del anlisis
5. Interpretacin de los resultados
- Interpretar el modelo global
- Analizar las variables individuales: cargas factoriales,
coeficientes, varianzas, etc.
- La interpretacin retroalimenta al paso 4
6. Validacin del modelo. Tcnicas de diagnstico que
permitan generalizar los resultados a la poblacin.
etapas del anlisis
Supuestos bsicos.
- Normalidad
- Homocedasticidad
- Linealidad
- Independencia
supuestos bsicos
Normalidad (uni y multivariante).
- Cuando se pretende comprobar una hiptesis se pueden
cometer 2 errores:
- Error tipo 1 (): probabilidad de equivocarnos al rechazar
la hiptesis (normalmente se elige 0,05)
- Error tipo 2 (): probabilidad de equivocarnos al aceptar
la hiptesis (1- : potencia del contraste)
- El investigador quiere pruebas potentes y valores
pequeos.
Si las variables no son normales multivariantes el error tipo 1
se incrementa.
supuestos bsicos
Normalidad univariante.
- La normalidad univariante de todas las variables no implica
normalidad multivariante, aunque es difcil que no lo sea.
- Si no se detecta normalidad multivariante habra que estudiar
cada variable y detectar cul es la problemtica.
- Anlisis de la normalidad univariante:
supuestos bsicos
- Estudiar la asimetra y curtosis de la variable (si la variable
est tipificada, la asimetra es cero y la curtosis 3)
- Exploracin grfica con grficos Q-Q
- Contrastes de normalidad
supuestos bsicos
0
3
Contrastes de normalidad:
- Todos tienen como hiptesis nula la normalidad de la
distribucin
- Cada uno tiene su utilidad
- Shapiro Wilk funciona bien con muestras pequeas
- El ms habitual es Kolmogorov-Smirnov
- En muestras pequeas es mejor ser conservador con el
nivel de significacin
supuestos bsicos
Con Statgraphics:
supuestos bsicos
Computed Chi-Square goodness-of-fit statistic = 116,48
P-Value = 1,92957E-12
Shapiro-Wilks W statistic = 0,937943
P-Value = 5,58428E-10
Z score for skewness = 1,91137
P-Value = 0,0559571
Z score for kurtosis = 0,326301
P-Value = 0,744192
Exploracin grfica Q-Q: (slo para ms de 20 casos)
supuestos bsicos
Quantile-Quantile Plot
0 30 60 90 120 150
Normal distribution
0
30
60
90
120
150
N
H
T
Exploracin grfica Q-Q: (slo para ms de 20 casos)
supuestos bsicos
Quantile-Quantile Plot
-1 -0,6 -0,2 0,2 0,6 1
(X 100000)
Normal distribution
-1
-0,6
-0,2
0,2
0,6
1
(X 100000)
R
N
Anlisis multivariante de la normalidad.
- Existen pocos contrastes (Mardia-curtosis y Mardia-
apuntalamiento) y no se conoce bien su distribucin
- Tambin el grfico chi-cuadrado:
- Se calculan las distancias de Mahanalobis (D)
- Su cuadrado se ordenan de menor a mayor (D
2
)
- En cada distancia se calcula su percentil (j-0,5)/n
- Se calculan los valores X
2
de los percentiles de una
distribucin X
2
con p grados de libertad (p=nmero de
variables estudiadas)
- Se representan D
2
y X
2
- Con Statgraphics se utiliza Multivariate Control Chart
- La variable o variables problemticas se pueden
transformar o eliminar
supuestos bsicos
Homoscedasticidad (univariante):
- En datos agrupados, la homoscedasticidad significa que la
varianza de la variable continua es estadsticamente la
misma en todos los grupos que la variable no mtrica
delimita los grupos.
- El contraste es si la varianza es la misma
- Por ejemplo:
- Variable continua: superficie (ha)
- Variable no mtrica: especie (0=ovino, 1=caprino)
- Dentro de los grupos 0 y 1, la varianza de la superficie
debe ser estadsticamente la misma
Homoscedasticidad (multivariante):
- Se contrasta si la matriz varianzas-covarianzas es la
misma
supuestos bsicos
Homoscedasticidad (univariante):
- Contraste de Levene (hiptesis nula: la varianza de la
variable X es igual en todos los niveles que forma la variable
Z)
Homoscedasticidad (multivariante):
- Contraste M de Box
- Es muy sensible (se recomienda que p<0,001)
- Es necesaria normalidad multivariante para el contraste
supuestos bsicos
Por ejemplo:
- Estudiar si los ganaderos son conscientes de que la
produccin intensiva perjudica el medio ambiente
- O por el contrario, los ganaderos intensivos lo son
porque no son conscientes de esto
- Si esto es as, los ganaderos intensivos estaran
significativamente ms en desacuerdo con la afirmacin
que los extensivos
supuestos bsicos
Por ejemplo:
- Esto es un problema de anlisis discriminante:
- Una variable dependiente no mtrica (intensivo o
extensivo)
- Varias variables independientes mtricas:
- Y1: Opinin (1 a 5): la g.intensiva perjudica el m.
ambiente
- Y2: Opinin (1 a 5): no permitir g.intensiva en
espacios protegidos y naturales
- Y3: Opinin (1 a 5): reducir ayudas a g.intensiva U.E.
- Y4: Opinin (1 a 5): debe informarse ms sobre los
efectos de la g. Intensiva a la opinin pblica
supuestos bsicos
Por ejemplo:
- Debe comprobarse la hiptesis nula, que la matriz de
varianzas-covarianzas de las variables Y es a misma para los
niveles de X (intensivo-extensivo).
- Contraste M de Box.
supuestos bsicos
Linealidad:
- Fundamental en todas las tcnicas que se centren en el
anlisis de las matrices de correlaciones o de covarianzas
- Porque el coeficiente de correlacin de Pearson slo puede
captar relaciones lineales
- Para la regresin lineal mltiple se analizan los residuos
- Para el resto de los casos: grficos de dispersin
bivariante
- Por ejemplo:
consumo inc. Peso inc. Dim. Digest
Consumo MS (kg/animal) 1 0,87 0,91 -0,66
Incremento de Peso 0,87 1 0,79 0,81
Incremento de Dimetro 0,91 0,79 1 0,92
Digestibilidad MS (%) -0,66 0,81 0,92 1
supuestos bsicos
supuestos bsicos
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
20
40
60
80
100
0 20 40 60
consumo inc. Peso inc. Dim. Digestibilidad
Consumo
Inc Peso
Inc Diam
Diges
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
20
40
60
80
100
0 20 40 60
0
10
20
30
40
0 20 40 60
0
10
20
30
40
0 20 40 60
0
20
40
60
80
100
0 20 40 60
Independencia:
- Los valores que toman las variables en un caso no estn
influidos por los valores que toman en otro caso
- Si no se est seguro de esto, habra que incrementar el
nivel de significacin de los contrastes 10 veces (de
p<0,05 a p<0,005)
- La independencia se asegura en el diseo experimental
supuestos bsicos
Valores perdidos y anmalos:
fiabilidad de los datos de partida
valores perdidos y outliers
Valores perdidos:
- La existencia de valores perdidos es inevitable si se trabaja
con encuestas.
- El ganadero no quiere declarar si tiene prstamo
- Se anota una cantidad en una casilla equivocada
- La cuanta de las ayudas an no se conoce para el
ejercicio en concreto, etc.
- La consecuencia depende de su patrn de distribucin, de
la cantidad de valores y de la causa de prdida.
- Lo ms importante es su distribucin: si es aleatoria no
causar muchos daos, si tiene un patrn ser muy daino.
valores perdidos y outliers
Por ejemplo:
Opinin de los ganaderos sobre las polticas sectoriales:
V1 = las ayudas perjudican el libre comercio
V2 = no deben aplicarse aranceles europeos
V3 = a la UE le interesa poco el medio ambiente
V4 = deben disminuir las ayudas
V5 = ganadero ecolgico (1) o convencional (2)
valores perdidos y outliers
valores perdidos y outliers
Caso V1 V2 V3 V4 V4* V5 V6
1 5 5 4 5 5 2
2 5 5 4 4 4 5 2
3 5 5 4 2 2 5 2
4 5 4 3 3 4 2
5 5 5 2 5 5 5 2
6 5 5 5 5 5 5 1
7 5 5 1 4 1
8 5 4 3 3 3 5 2
9 4 4 4 1 1 5 2
10 5 2 3 3 1
11 5 5 3 3 3 5 2
12 5 4 2 4 4 5 2
13 5 3 4 2 2 4 2
14 5 4 5 1 1 3 1
15 5 5 5 3 3 4 2
16 5 3 2 5 1
17 5 5 1 3 1
18 5 4 4 3 1
19 5 4 2 4 4 4 2
20 1 5 3 4 4 5 2
21 5 4 3 4 4 5 2
22 5 5 3 4 4 5 2
23 5 4 5 4 4 5 1
24 5 3 1 5 5 5 1
25 5 3 5 1 1 3 1
26 4 5 1 5 2
27 2 3 5 1 3 2
28 4 4 5 2 5 2
29 5 4 4 5 5 1
30 5 5 5 5 5 5 2
valores perdidos y outliers
V4 = deben disminuir las ayudas
N Min Max Med D.E.
V4 24 1 5 2,92 1,53
V4* 23 1 5 3,43 1,37
Diagnstico de aleatoriedad de los valores perdidos:
- Procedimiento basado en la lgica de la investigacin:
- Si el patrn es sistemtico (no aleatorio), el
comportamiento de la variable con valores perdidos
debe ser diferente respecto a otras variables sin valores
perdidos.
- El investigador deber comprobar qu variables se
comportan de manera distinta a posteriori.
- Si no existen variables distintas a posteriori, hay que
asumir la aleatoriedad de los valores perdidos.
valores perdidos y outliers
- Se realiza una prueba t para muestras independientes:
- A partir de la variable a analizar se crea otra
ficticia, codificada con 0=hay dato; 1=dato
faltante
- Se desarrolla la prueba t con otra variable sin
datos faltantes segn la variable ficticia
- Si las medias son significativamente diferentes,
la distribucin sigue un patrn sistemtico
valores perdidos y outliers
En el ejemplo: Prueba t con V2
valores perdidos y outliers
Caso V1 V2 V3 V4 V4* V5 V6
1 5 5 4 5 5 2
2 5 5 4 4 4 5 2
3 5 5 4 2 2 5 2
4 5 4 3 3 4 2
5 5 5 2 5 5 5 2
6 5 5 5 5 5 5 1
7 5 5 1 4 1
8 5 4 3 3 3 5 2
9 4 4 4 1 1 5 2
10 5 2 3 3 1
11 5 5 3 3 3 5 2
12 5 4 2 4 4 5 2
13 5 3 4 2 2 4 2
14 5 4 5 1 1 3 1
15 5 5 5 3 3 4 2
16 5 3 2 5 1
17 5 5 1 3 1
18 5 4 4 3 1
19 5 4 2 4 4 4 2
20 1 5 3 4 4 5 2
21 5 4 3 4 4 5 2
22 5 5 3 4 4 5 2
23 5 4 5 4 4 5 1
24 5 3 1 5 5 5 1
25 5 3 5 1 1 3 1
26 4 5 1 5 2
27 2 3 5 1 3 2
28 4 4 5 2 5 2
29 5 4 4 5 5 1
30 5 5 5 5 5 5 2
V4(COD) V4*(COD)
0 1
1 1
1 1
0 1
1 1
1 1
1 0
1 1
1 1
0 0
1 1
1 1
1 1
1 1
1 1
1 0
1 0
0 0
1 1
1 1
1 1
1 1
1 1
1 1
1 1
1 0
1 0
0 1
0 1
1 1
En el ejemplo: Prueba t con V2
V4(COD) V4*(COD)
1 0 t 1 0 t
V2(media) 3,96 3,83 0,23 4,30 2,71 -3,95*
Luego, la distribucin de los valores perdidos de V4 es
aleatoria, mientras que V4* sigue un patrn sistemtico
valores perdidos y outliers
Diagnstico de aleatoriedad de los valores perdidos:
- Prueba de las correlaciones dicotomizadas:
- Procedimiento basado en la coincidencia significativa
entre los casos concretos en que las variables toman un
valor perdido.
- Las variables con casos perdidos se transforman en
variables ficticias codificadas: 0=valor perdido, 1=hay
dato
- Se calcula la matriz de correlaciones
- Si hay correlacin significativa entre las variables
ficticias estamos ante un posible patrn significativo
valores perdidos y outliers
En el ejemplo:
V4(COD) V4*(COD) V2(COD)
V4(COD) 1 0,118 (0,53) -0,19 (0,29)
V4*(COD) 0,18 (0,53) 1 0,71 (0,00)*
V2(COD) -0,19 (0,29) 0,71 (0,00)* 1
Luego, la distribucin de los valores perdidos de V4 es
aleatoria, mientras que V4* sigue un patrn sistemtico
valores perdidos y outliers
Tratamiento de los valores perdidos:
- Si los valores siguen un patrn:
- Grave problema
- No hay medios estadsticos conocidos para reducir el
nmero de valores perdidos
- No es posible generalizar los resultados
- Si los valores son aleatorios:
- Problema menor con dos opciones:
- Eliminar todos los casos con un valor perdido
- Imputar un valor estimado
valores perdidos y outliers
- Eliminar todos los casos con un valor perdido:
- Procedimiento por defecto en los programas
estadsticos
- Se corre el riesgo de perder mucha informacin
- Especial cuidado en los anlisis basados en anlisis de
varianzas-covarianzas, correlaciones
- Se puede eliminar selectivamente en cada anlisis
slo los casos con datos faltantes en una de las
variables implicadas
- Aunque esto genera problemas por el continuo
cambio de tamao muestral
valores perdidos y outliers
- Imputar valores en los datos perdidos:
- Lo ms utilizado es imputar la media:
- Procedimiento conservador
- La media no cambia pero la varianza se reduce
valores perdidos y outliers
- Imputar valores en los datos perdidos:
- Como mtodo alternativo, la regresin:
- Como variable dependiente se usa la variable
con datos perdidos y como variables
independientes se usan el resto de las variables
con todos los datos
- Deben ser todas variables mtricas
- Mtodo ms razonable que la media, aunque:
- Las estimaciones sern ms coherentes con
las variables independientes que los valores
reales
- La varianza tambin se reduce
- Slo si las estimaciones pertenecen al rango
de la variable (por ejemplo, V4 no puede ser 7)
valores perdidos y outliers
Valores atpicos (outliers):
- Aquellos casos que una, dos o ms variables toman valores
extremos que difieren del comportamiento del resto de la
muestra y hacen sospechar de que han sido generados por
mecanismos distintos.
- Consecuencias:
- Distorsionan los resultados
- Suelen afectar a la normalidad
valores perdidos y outliers
Valores atpicos (outliers):
- Causas:
- Errores en los datos (recogida e introduccin)
- Errores intencionados por parte del encuestado
- Errores de muestreo (introducir en la muestra un
individuo que no pertenece a la poblacin)
- Outliers verdaderos: casos que pertenecen a la
poblacin objeto de estudio y que realmente
difieren del resto por la variabilidad inherente
valores perdidos y outliers
Deteccin de valores atpicos
- Univariante
- Bivariante
- Multivariante
valores perdidos y outliers
Deteccin univariante de valores atpicos
- Considerar atpicos aquellos casos cuyos valores
estandarizados (media = 0 y desviacin tpica = 1) superen el
siguiente umbral (k):
- N < 80 2,5
- N > 80 3 o 4
- Si la variable sigue una distribucin normal 3
(x) = (x
i
x)/S
x
x < x + kS
x
- Test de Grubbs
valores perdidos y outliers
valores perdidos y outliers
-2
-1,5
-1
-0,5
0
0,5
1
1,5
2
2,5
3
3,5
123456789
1
0
1
1
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
2
6
2
7
2
8
2
9
3
0
3
1
3
2
3
3
3
4
Si el mismo caso es atpico en varias variables, habra que
pensar en que es un outlier multivariante
Deteccin bivariante de valores atpicos
- Tiene utilidad cuando se va a utilizar como dependiente
alguna de las variables
- Se regresa la posible variable dependiente con las dems
independientes:
- Se analiza la dispersin de los datos con los intervalos de
confianza (95%)
- Si los valores que quedan fuera son sistemticamente
los mismos, habra que pensar en outlier
valores perdidos y outliers
Por ejemplo: resultado neto, produccin leche, UTH y
antigedad de la actividad
valores perdidos y outliers
Plot of Fitted Model
Produccion leche
R
N
0 2 4 6 8 10
(X 1000)
0
2
4
6
8
(X 10000)
Plot of Fitted Model
Antiguedad
R
N
0 10 20 30 40 50 60
0
2
4
6
8
(X 10000)
Plot of Fitted Model
UTH
R
N
0 1 2 3 4 5 6
0
2
4
6
8
(X 10000)
Deteccin multivariante de valores atpicos
- Tiene utilidad cuando se van a utilizar tcnicas multivariantes
- Se utiliza la distancia de Mahalanobis (D) como la medida
entre el centroide de cada caso al conjunto de los datos
valores perdidos y outliers
Qu hacer con los valores atpicos?
- Si es un error evidente es conveniente corregirlo o
eliminarlo
- Error en la introduccin de los datos: buscar el original y
corregirlo
- Error en el registro:
- Volver a encuestar el caso en cuestin
- Si no se puede (p.e. la encuesta es annima)
cambiarlo por el valor medio
valores perdidos y outliers
Qu hacer con los valores atpicos?
- Si es un outlier verdadero o no se puede descartar que no lo
sea:
- Algunos autores consideran correcto su eliminacin para
que los anlisis reflejen la tendencia mayoritaria de la
poblacin
- Otros consideran que la eliminacin no se debe hacer:
- Suavizar su influencia con transformaciones
(aunque dificulta la interpretacin de los
resultados)
- Utilizar contrastes no paramtricos (son ms
robustos)
valores perdidos y outliers

Vous aimerez peut-être aussi