Vous êtes sur la page 1sur 75

TCNICAS MULTIVARIANTES

1. Introduccin
2. Clasificacin de las tcnicas
3. Etapas de anlisis
4. Supuestos bsicos
5. Valores perdidos y anmalos

introduccin

Definicin.
-

Conjunto de mtodos estadsticos cuya finalidad es analizar


simultneamente conjuntos de datos multivariantes: hay
varias variables medidas para cada caso.

Permiten un mejor entendimiento del fenmeno objeto de


estudio, obteniendo informacin que los mtodos univariantes
y bivariantes son incapaces de conseguir.

Objetivos.
-

Proporcionar mtodos para estudiar datos multivariantes


que el anlisis estadstico uni y bidimensional es incapaz de
conseguir.

Ayudar al investigador a tomar decisiones ptimas en el


contexto en el que se encuentre teniendo en cuenta la
informacin disponible por el conjunto de datos analizado.

clasificacin

3 grupos:
-

Mtodos de dependencia

Mtodos de interdependencia

Mtodos estructurales

Mtodos de dependencia:
-

Suponen que las variables analizadas estn divididas en dos


grupos: las variables dependientes y las variables
independientes.

El objetivo consiste en determinar si el conjunto de variables


independientes
afecta
al
conjunto
de
variables
dependientes y de qu forma.

clasificacin

Mtodos de interdependencia:
-

No distinguen entre variables dependientes e independientes


y su objetivo consiste en identificar qu variables estn
relacionadas, cmo lo estn y por qu.

Mtodos estructurales:
-

Suponen que las variables estn divididas en dos grupos: el


de las variables dependientes y el de las independientes.

El objetivo es analizar como las variables independientes


afectan a las variables dependientes y las relaciones de
las variables de los dos grupos entre s.

Regresin

clasificacin

Supervivencia
Mtrica

MANOVA
Correlacin cannica

Dependencia

Discriminante
No mtrica

Regresin logstica
Conjoint
Componentes principales
Factorial

Mtrica

Cluster
Escalas multidimensionales

Interdependencia
Correspondencias
No mtrica

Modelos log-lineales
Cluster
Escalas multidimensionales

Modelos estructurales

clasificacin

La investigacin responde a un problema de dependencia


entre variables o de interdependencia de las mismas?
Cmo estn medidas las variables: mtricas o no mtricas?
Si es un problema de dependencias,
cuntas variables dependientes existen?

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Regresin lineal mltiple:


-

Relacin entre 1 variable dependiente mtrica y varias


variables independientes mtricas o no mtricas.
Y1 (X1, X2, X3, .... Xm)

Por ejemplo: Determinar si existe o no relacin entre el


resultado neto y la superficie, dimensin e inversin
inicial.
Y si el resultado neto est codificado en Prdidas=1,
Equilibrio=2 y Ganancias=3?

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Anlisis discriminante. Proporciona reglas de clasificacin


ptimas de nuevas observaciones de las que se desconoce
su grupo de procedencia basndose en la informacin
proporcionada los valores que en ella toman las variables
independientes.

Modelos de regresin logstica. Se utilizan como una


alternativa al anlisis discriminante cuando no hay
normalidad.

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

Anlisis de correlacin cannica:

clasificacin

Y1 (X1, X2, X3, .... Xm) regresin, discriminante y log


(Y1, Y2, Y3, .... Ym) (X1, X2, X3, .... Xm) correlacin cannica
-

Asociacin lineal entre un conjunto de variables dependientes y otro


de variables independientes.
-

Si la dependencia es no mtrica

Si la dependencia es mtrica slo si la independencia


tambin lo es

Por ejemplo:
-

Determinar si existe o no relacin entre el resultado neto y la


produccin de contaminantes de una explotacin con la
superficie, dimensin e inversin inicial. Corr. cannica

Determinar la misma relacin pero con el gnero del ganadero


y el tipo de explotacin (intensivo, extensivo) MANOVA

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Ecuaciones estructurales:

Varias relaciones: estructuras de la covarianza y anlisis


factorial confirmatorio
Y1 (X11, X12, X13, .... X1m)
Y2 (X21, X22, X23, .... X2m)
Y3 (X31, X32, X33, .... X3m)

clasificacin

Anlisis de dependencias
varias
relaciones

una
relacin

1 variable
dependiente

dependencia
mtrica

ecuaciones
estructurales

regresin
mltiple

> 1 variable
dependiente

dependencia
no mtrica

anlisis
discriminante

dependencia
mtrica

dependencia
no mtrica

independencia

independencia

no mtrica

mtrica

Regresin
logstica

MANOVA

correlacin
cannica

clasificacin

Anlisis de interdependencia.
-

Las variables no se pueden separar en dependientes e


independientes.

Objetivo: determinar cmo y por qu las variables estn


correlacionadas.

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

clasificacin

Anlisis de componentes principales.


-

Tcnica de reduccin de datos.

Objetivo: construir combinaciones lineales de las variables


iniciales que expliquen la mayor parte de la informacin
contenida en esas variables.

Esas
combinaciones
se
denominan
Componentes
Principales, estn incorrelacionados y cada componente
sucesivo explica menos varianza.

Por ejemplo: para comparar 10 explotaciones, es mejor


utilizar 5 Componentes Principales que 150 variables

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

Anlisis factorial.

clasificacin

Tcnica de reduccin de datos.

Objetivo: establecer qu causas latentes (factores) causan la


correlacin entre las variables observadas.

Por ejemplo: el desarrollo de un animal no se puede medir


directamente, pero s es posible medir algunos de sus
indicadores:
-

El peso y su incremento

La alzada y sus incrementos (cruz, palomillas, etc.)

Las dimensiones de algunas regiones corporales y su


relacin respecto a otras

El anlisis factorial establecera que el factor


desarrollo explica todas estas variables y cmo
se relaciona cada variable con el factor

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

clasificacin

Anlisis de correspondencias.
-

Permite visualizar grficamente tablas de contingencia.

Por ejemplo: Si existe relacin entre la formacin del


ganadero y el tipo de gestin
-

Formacin: sin formacin, primaria, bachillerato,


universidad, formacin profesional, mdulos, escuela
de capataces o sus combinaciones

Tipo de gestin: ninguna, asesor fiscal, veterinario


clnico, agrnomo, veterinario asesor o sus
combinaciones

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

clasificacin

Anlisis de escalamiento multidimensional.


-

Permite aflorar los criterios que utilizan los individuos para


considerar que distintos objetos son parecidos o
distintos.

Por ejemplo: Estudios de preferencia del jamn curado

clasificacin

Anlisis de interdependencias
Relacin
entre
variables

Mtricas

componentes
principales

Relacin
entre
casos

Relacin
entre
objetos

anlisis
cluster

escalamiento
multidimensional

No mtricas

anlisis
factorial

anlisis
correspondencias

clasificacin

Anlisis de conglomerados (cluster).


-

A diferencia del factorial que agrupa variables, pretende


agrupar observaciones.

De tal modo que las observaciones dentro de los grupos


sean parecidas respecto a las variables utilizadas para
agrupar.

Y que las observaciones entre los grupos sean lo ms


diferentes posibles respecto a las mismas variables.

Por ejemplo, para hacer grupos de animales en un programa


de mejora gentica, o de explotaciones de cara a optimizar su
gestin.

etapas del anlisis

Proceso de aplicacin de la tcnica multivariante.


1. Definir el problema que se est investigando (modelo
conceptual)
-

Anlisis conceptual de su objeto de estudio

Identificar las relaciones fundamentales que se van a


abordar

Eleccin de la tcnica a aplicar

Proceso de aplicacin de la tcnica multivariante.

etapas del anlisis

Por ejemplo:
Analizar la gestin de los sectores ecolgicos
-

Variables y sectores

Relaciones entre las variables y los casos:


-

Comparar unos sectores con otros: AF/ACP + ANOVA

Nos da igual el sector: AF/ACP + CLUSTER

Correlacin cannica

etapas del anlisis

2. Desarrollo del plan de anlisis


-

Tamao muestral mnimo para la tcnica concreta

Las escalas de las variables a analizar son correctas

3. Condiciones de aplicabilidad de la tcnica elegida


4. Desarrollo de la tcnica, incorporando o eliminando
variables segn la bondad de ajuste

etapas del anlisis

5. Interpretacin de los resultados


-

Interpretar el modelo global

Analizar las variables individuales: cargas factoriales,


coeficientes, varianzas, etc.

La interpretacin retroalimenta al paso 4

6. Validacin del modelo. Tcnicas de diagnstico que


permitan generalizar los resultados a la poblacin.

supuestos bsicos

Supuestos bsicos.
-

Normalidad

Homocedasticidad

Linealidad

Independencia

supuestos bsicos

Normalidad (uni y multivariante).


-

Cuando se pretende comprobar una hiptesis se pueden


cometer 2 errores:
-

Error tipo 1 (): probabilidad de equivocarnos al rechazar


la hiptesis (normalmente se elige 0,05)

Error tipo 2 (): probabilidad de equivocarnos al aceptar


la hiptesis (1- : potencia del contraste)

El investigador quiere pruebas potentes y valores


pequeos.

Si las variables no son normales multivariantes el error tipo 1


se incrementa.

supuestos bsicos

Normalidad univariante.
-

La normalidad univariante de todas las variables no implica


normalidad multivariante, aunque es difcil que no lo sea.

Si no se detecta normalidad multivariante habra que estudiar


cada variable y detectar cul es la problemtica.

Anlisis de la normalidad univariante:

supuestos bsicos

Estudiar la asimetra y curtosis de la variable (si la variable


est tipificada, la asimetra es cero y la curtosis 3)

Exploracin grfica con grficos Q-Q

Contrastes de normalidad

supuestos bsicos

Contrastes de normalidad:
-

Todos tienen como hiptesis nula la normalidad de la


distribucin

Cada uno tiene su utilidad

Shapiro Wilk funciona bien con muestras pequeas

El ms habitual es Kolmogorov-Smirnov

En muestras pequeas es mejor ser conservador con el


nivel de significacin

supuestos bsicos

Con Statgraphics:

Computed Chi-Square goodness-of-fit statistic = 116,48


P-Value = 1,92957E-12
Shapiro-Wilks W statistic = 0,937943
P-Value = 5,58428E-10
Z score for skewness = 1,91137
P-Value = 0,0559571
Z score for kurtosis = 0,326301
P-Value = 0,744192

supuestos bsicos

Exploracin grfica Q-Q: (slo para ms de 20 casos)

Quantile-Quantile Plot
150

NHT

120
90
60
30
0
0

30

60

90

120

Normal distribution

150

supuestos bsicos

Exploracin grfica Q-Q: (slo para ms de 20 casos)

Quantile-Quantile Plot
(X 100000)
1

RN

0,6
0,2
-0,2
-0,6
-1
-1

-0,6

-0,2

0,2

0,6

Normal distribution

1
(X 100000)

supuestos bsicos

Anlisis multivariante de la normalidad.


-

Existen pocos contrastes (Mardia-curtosis y Mardiaapuntalamiento) y no se conoce bien su distribucin

Tambin el grfico chi-cuadrado:


-

Se calculan las distancias de Mahanalobis (D)

Su cuadrado se ordenan de menor a mayor (D2)

En cada distancia se calcula su percentil (j-0,5)/n

Se calculan los valores X2 de los percentiles de una


distribucin X2 con p grados de libertad (p=nmero de
variables estudiadas)

Se representan D2 y X2

Con Statgraphics se utiliza Multivariate Control Chart

La variable o variables
transformar o eliminar

problemticas

se

pueden

Homoscedasticidad (univariante):

supuestos bsicos

En datos agrupados, la homoscedasticidad significa que la


varianza de la variable continua es estadsticamente la
misma en todos los grupos que la variable no mtrica
delimita los grupos.

El contraste es si la varianza es la misma

Por ejemplo:
-

Variable continua: superficie (ha)

Variable no mtrica: especie (0=ovino, 1=caprino)

Dentro de los grupos 0 y 1, la varianza de la superficie


debe ser estadsticamente la misma

Homoscedasticidad (multivariante):
-

Se contrasta si la matriz varianzas-covarianzas es la


misma

supuestos bsicos

Homoscedasticidad (univariante):
-

Contraste de Levene (hiptesis nula: la varianza de la


variable X es igual en todos los niveles que forma la variable
Z)

Homoscedasticidad (multivariante):
-

Contraste M de Box
-

Es muy sensible (se recomienda que p<0,001)

Es necesaria normalidad multivariante para el contraste

Por ejemplo:

supuestos bsicos

Estudiar si los ganaderos son conscientes de que la


produccin intensiva perjudica el medio ambiente

O por el contrario, los ganaderos intensivos lo son


porque no son conscientes de esto

Si esto es as, los ganaderos intensivos estaran


significativamente ms en desacuerdo con la afirmacin
que los extensivos

Por ejemplo:
-

supuestos bsicos

Esto es un problema de anlisis discriminante:


-

Una variable dependiente no mtrica (intensivo o


extensivo)

Varias variables independientes mtricas:


-

Y1: Opinin (1 a 5): la g.intensiva perjudica el m.


ambiente

Y2: Opinin (1 a 5): no permitir g.intensiva en


espacios protegidos y naturales

Y3: Opinin (1 a 5): reducir ayudas a g.intensiva U.E.

Y4: Opinin (1 a 5): debe informarse ms sobre los


efectos de la g. Intensiva a la opinin pblica

Por ejemplo:

supuestos bsicos

Debe comprobarse la hiptesis nula, que la matriz de


varianzas-covarianzas de las variables Y es a misma para los
niveles de X (intensivo-extensivo).

Contraste M de Box.

supuestos bsicos

Linealidad:
-

Fundamental en todas las tcnicas que se centren en el


anlisis de las matrices de correlaciones o de covarianzas

Porque el coeficiente de correlacin de Pearson slo puede


captar relaciones lineales

Para la regresin lineal mltiple se analizan los residuos

Para el resto de los casos: grficos de dispersin


bivariante

Por ejemplo:
consumo inc. Peso inc. Dim.

Digest

Consumo MS (kg/animal)

0,87

0,91

-0,66

Incremento de Peso

0,87

0,79

0,81

Incremento de Dimetro

0,91

0,79

0,92

Digestibilidad MS (%)

-0,66

0,81

0,92

supuestos bsicos

consumo

inc. Peso

Consumo

inc. Dim.

40

40

30

30

20

20

10

10

0
0

20

40

40

Inc Peso

30
20
10
0
0

Inc Diam

20

40

60
40
20
0
20

40

60

40

80

30

60

20

40

40

30

30

20

20

10

10

20

40

60

100

20

40

60

20

40

60

20

40

60

40
30
20

40

10

20

10
0

20

40

60

20

40

60

100

40

40

80

30

30

20

20

10

10

60
40
20

0
0

80

60

Diges

100

60

Digestibilidad

20

40

60

0
0

20

40

60

20

40

60

supuestos bsicos

Independencia:
-

Los valores que toman las variables en un caso no estn


influidos por los valores que toman en otro caso

Si no se est seguro de esto, habra que incrementar el


nivel de significacin de los contrastes 10 veces (de
p<0,05 a p<0,005)

La independencia se asegura en el diseo experimental

valores perdidos y outliers

Valores perdidos y anmalos:


fiabilidad de los datos de partida

valores perdidos y outliers

Valores perdidos:
-

La existencia de valores perdidos es inevitable si se trabaja


con encuestas.
-

El ganadero no quiere declarar si tiene prstamo

Se anota una cantidad en una casilla equivocada

La cuanta de las ayudas an no se conoce para el


ejercicio en concreto, etc.

La consecuencia depende de su patrn de distribucin, de


la cantidad de valores y de la causa de prdida.

Lo ms importante es su distribucin: si es aleatoria no


causar muchos daos, si tiene un patrn ser muy daino.

valores perdidos y outliers

Por ejemplo:

Opinin de los ganaderos sobre las polticas sectoriales:


V1 = las ayudas perjudican el libre comercio
V2 = no deben aplicarse aranceles europeos
V3 = a la UE le interesa poco el medio ambiente
V4 = deben disminuir las ayudas
V5 = ganadero ecolgico (1) o convencional (2)

Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

V1
5
5
5
5
5
5
5
5
4
5
5
5
5
5
5
5
5
5
5
1
5
5
5
5
5
4
2
4
5
5

V2
5
5
5
4
5
5
4
4
2
5
4
3
4
5

4
4
5
4
5
4
3
3
3
4
4
5

V3
4
4
4
3
2
5
5
3
4
3
3
2
4
5
5
3
5
4
2
3
3
3
5
1
5
5
5
5
4
5

V4
4
2
5
5
1
3
1

V4*
5
4
2
3
5
5
3
1

3
4
2
1
3
2
1

3
4
2
1
3

4
4
4
4
4
5
1
1
1

4
4
4
4
4
5
1

2
5
5

V5
5
5
5
4
5
5
4
5
5
3
5
5
4
3
4
5
3
3
4
5
5
5
5
5
3
5
3
5
5
5

V6
2
2
2
2
2
1
1
2
2
1
2
2
2
1
2
1
1
1
2
2
2
2
1
1
1
2
2
2
1
2

valores perdidos y outliers

valores perdidos y outliers

V4 = deben disminuir las ayudas


N

Min

Max

Med

D.E.

V4

24

2,92

1,53

V4*

23

3,43

1,37

valores perdidos y outliers

Diagnstico de aleatoriedad de los valores perdidos:


-

Procedimiento basado en la lgica de la investigacin:


-

Si el patrn es sistemtico (no aleatorio), el


comportamiento de la variable con valores perdidos
debe ser diferente respecto a otras variables sin valores
perdidos.

El investigador deber comprobar qu variables se


comportan de manera distinta a posteriori.

Si no existen variables distintas a posteriori, hay que


asumir la aleatoriedad de los valores perdidos.

valores perdidos y outliers

Se realiza una prueba t para muestras independientes:


-

A partir de la variable a analizar se crea otra


ficticia, codificada con 0=hay dato; 1=dato
faltante

Se desarrolla la prueba t con otra variable sin


datos faltantes segn la variable ficticia

Si las medias son significativamente diferentes,


la distribucin sigue un patrn sistemtico

valores perdidos y outliers

En el ejemplo:
Caso
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

V1
5
5
5
5
5
5
5
5
4
5
5
5
5
5
5
5
5
5
5
1
5
5
5
5
5
4
2
4
5
5

V2
5
5
5
4
5
5
4
4
2
5
4
3
4
5

4
4
5
4
5
4
3
3
3
4
4
5

Prueba t con V2
V3
4
4
4
3
2
5
5
3
4
3
3
2
4
5
5
3
5
4
2
3
3
3
5
1
5
5
5
5
4
5

V4
4
2
5
5
1
3
1

V4*
5
4
2
3
5
5
3
1

3
4
2
1
3
2
1

3
4
2
1
3

4
4
4
4
4
5
1
1
1

4
4
4
4
4
5
1

2
5
5

V5
5
5
5
4
5
5
4
5
5
3
5
5
4
3
4
5
3
3
4
5
5
5
5
5
3
5
3
5
5
5

V6
2
2
2
2
2
1
1
2
2
1
2
2
2
1
2
1
1
1
2
2
2
2
1
1
1
2
2
2
1
2

V4(COD)

V4*(COD)
0
1
1
0
1
1
1
1
1
0
1
1
1
1
1
1
1
0
1
1
1
1
1
1
1
1
1
0
0
1

1
1
1
1
1
1
0
1
1
0
1
1
1
1
1
0
0
0
1
1
1
1
1
1
1
0
0
1
1
1

valores perdidos y outliers

En el ejemplo:

Prueba t con V2
V4(COD)

V2(media)

V4*(COD)

3,96

3,83

0,23

4,30

2,71

-3,95*

Luego, la distribucin de los valores perdidos de V4 es


aleatoria, mientras que V4* sigue un patrn sistemtico

valores perdidos y outliers

Diagnstico de aleatoriedad de los valores perdidos:


-

Prueba de las correlaciones dicotomizadas:


-

Procedimiento basado en la coincidencia significativa


entre los casos concretos en que las variables toman un
valor perdido.

Las variables con casos perdidos se transforman en


variables ficticias codificadas: 0=valor perdido, 1=hay
dato

Se calcula la matriz de correlaciones


-

Si hay correlacin significativa entre las variables


ficticias estamos ante un posible patrn significativo

valores perdidos y outliers

En el ejemplo:
V4(COD)

V4*(COD)

V2(COD)

V4(COD)

0,118 (0,53)

-0,19 (0,29)

V4*(COD)

0,18 (0,53)

0,71 (0,00)*

V2(COD)

-0,19 (0,29)

0,71 (0,00)*

Luego, la distribucin de los valores perdidos de V4 es


aleatoria, mientras que V4* sigue un patrn sistemtico

valores perdidos y outliers

Tratamiento de los valores perdidos:


-

Si los valores siguen un patrn:


-

Grave problema

No hay medios estadsticos conocidos para reducir el


nmero de valores perdidos

No es posible generalizar los resultados

Si los valores son aleatorios:


-

Problema menor con dos opciones:


-

Eliminar todos los casos con un valor perdido

Imputar un valor estimado

valores perdidos y outliers

Eliminar todos los casos con un valor perdido:


-

Procedimiento
estadsticos

Se corre el riesgo de perder mucha informacin

Especial cuidado en los anlisis basados en anlisis de


varianzas-covarianzas, correlaciones

Se puede eliminar selectivamente en cada anlisis


slo los casos con datos faltantes en una de las
variables implicadas
-

por

defecto

en

los

programas

Aunque esto genera problemas por el continuo


cambio de tamao muestral

valores perdidos y outliers

Imputar valores en los datos perdidos:


-

Lo ms utilizado es imputar la media:


-

Procedimiento conservador

La media no cambia pero la varianza se reduce

valores perdidos y outliers

Imputar valores en los datos perdidos:


-

Como mtodo alternativo, la regresin:


-

Como variable dependiente se usa la variable


con datos perdidos y como variables
independientes se usan el resto de las variables
con todos los datos

Deben ser todas variables mtricas

Mtodo ms razonable que la media, aunque:


-

Las estimaciones sern ms coherentes con


las variables independientes que los valores
reales

La varianza tambin se reduce

Slo si las estimaciones pertenecen al rango


de la variable (por ejemplo, V4 no puede ser 7)

valores perdidos y outliers

Valores atpicos (outliers):


-

Aquellos casos que una, dos o ms variables toman valores


extremos que difieren del comportamiento del resto de la
muestra y hacen sospechar de que han sido generados por
mecanismos distintos.

Consecuencias:
-

Distorsionan los resultados

Suelen afectar a la normalidad

valores perdidos y outliers

Valores atpicos (outliers):


-

Causas:
-

Errores en los datos (recogida e introduccin)

Errores intencionados por parte del encuestado

Errores de muestreo (introducir en la muestra un


individuo que no pertenece a la poblacin)

Outliers verdaderos: casos que pertenecen a la


poblacin objeto de estudio y que realmente
difieren del resto por la variabilidad inherente

valores perdidos y outliers

Deteccin de valores atpicos


-

Univariante

Bivariante

Multivariante

valores perdidos y outliers

Deteccin univariante de valores atpicos


-

Considerar atpicos aquellos casos cuyos valores


estandarizados (media = 0 y desviacin tpica = 1) superen el
siguiente umbral (k):
-

N < 80 2,5

N > 80 3 o 4

Si la variable sigue una distribucin normal 3


(x) = (xi x)/Sx
x < x + kSx

Test de Grubbs

valores perdidos y outliers

Si el mismo caso es atpico en varias variables, habra que


pensar en que es un outlier multivariante
3,5
3
2,5
2
1,5
1
0,5
0
-0,5

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

-1
-1,5
-2

valores perdidos y outliers

Deteccin bivariante de valores atpicos


-

Tiene utilidad cuando se va a utilizar como dependiente


alguna de las variables

Se regresa la posible variable dependiente con las dems


independientes:
-

Se analiza la dispersin de los datos con los intervalos de


confianza (95%)

Si los valores que quedan fuera son sistemticamente


los mismos, habra que pensar en outlier

valores perdidos y outliers

Por ejemplo: resultado neto,


antigedad de la actividad

produccin

UTH

Plot of Fitted Model

Plot of Fitted Model


(X 10000)
8

RN

(X 10000)
8

0
0

10
(X 1000)

Produccion leche

Plot of Fitted Model

6
4
2
0
0

10

UTH

(X 10000)
8

RN

RN

leche,

20

30

40

Antiguedad

50

60

valores perdidos y outliers

Deteccin multivariante de valores atpicos


-

Tiene utilidad cuando se van a utilizar tcnicas multivariantes

Se utiliza la distancia de Mahalanobis (D) como la medida


entre el centroide de cada caso al conjunto de los datos

valores perdidos y outliers

Qu hacer con los valores atpicos?


-

Si es un error evidente es conveniente corregirlo o


eliminarlo
-

Error en la introduccin de los datos: buscar el original y


corregirlo

Error en el registro:
-

Volver a encuestar el caso en cuestin

Si no se puede (p.e. la encuesta es annima)


cambiarlo por el valor medio

valores perdidos y outliers

Qu hacer con los valores atpicos?


-

Si es un outlier verdadero o no se puede descartar que no lo


sea:
-

Algunos autores consideran correcto su eliminacin para


que los anlisis reflejen la tendencia mayoritaria de la
poblacin

Otros consideran que la eliminacin no se debe hacer:


-

Suavizar su influencia con transformaciones


(aunque dificulta la interpretacin de los
resultados)

Utilizar contrastes no paramtricos (son ms


robustos)