Académique Documents
Professionnel Documents
Culture Documents
1.1 Introducción
Las técnicas multivariantes ofrecen al investigador una herramienta analítica muy potente, pero
es imprescindible asegurarse antes de usar cualquier técnica de que se cumplen los requisitos
tanto teóricos como estadísticos relativos a la técnica multivariante elegida.
Antes de ver una clasificación de las técnicas multivariantes, teniendo en cuenta que dicha
clasificación se basa en las escala de medida de las variables que intervienen en el análisis
repasaremos rápidamente las diferentes escalas de medida, que se supone son conocidas de
cursos anteriores.
Medición es el proceso por el que se asignan números a las observaciones de una variable.
1
Una medida es fiable si al repetir la medición en circunstancias similares se obtiene el mismo
resultado.
Para representar a las variables se suelen emplear las últimas letras del alfabeto: X, Y, Z ...
El símbolo X representa una variable medible, pero si escribimos X i estamos representando el
valor que toma la variable X en una observación concreta (la observación i ).
2
Las tablas de frecuencias son útiles cuando el número de datos es elevado (N).
Xi ni Ni fi Fi
X i es el valor de la variable, o si los datos están agrupados el punto medio del intervalo (marca
de clase).
n i frecuencia de X i en N (número total de observaciones disponibles)
Ni frecuencia acumulada N i = n i
j<i
f i frecuencia relativa .......................... f i = n i /N
F i frecuencia relativa acumulada
La distribución de una variable describe los valores que toma una variable y la
frecuencia de los mismos.
La forma, el centro y la dispersión sirven para conocer la distribución de las variables.
3
Histogramas.
Las variables cuantitativas a veces toman muchos valores diferentes, por lo que se suelen
agrupar los valores próximos. Los Histogramas son representaciones gráficas por áreas. Sobre
el eje de abcisas se marcan los extremos de los intervalos de clase y se levantan rectángulos
de base los intervalos y de altura tal que el área del rectángulo sea igual o proporcional a la
frecuencia correspondiente.
Marca de clase es el punto medio de cada intervalo
Polígono de frecuencias: se obtiene uniendo los puntos medios de los lados superiores de los
rectángulos levantados en el histograma de frecuencias.
2 7 5 5 0 8 2 05578
3 3 1 7 6 4 3 13467
4 4 4 4
5 0 9 5 09
6 6
7 7
8 6 5 8 56
4
GRAFICOS DE CAJA
a b c d e
a y e = valores mínimo y máximo de la distribución; b= primer cuartil de la distribución
c= mediana de la distribución ; d= tercer cuartil de la distribución
h i+1
Mo = Li + ------------------ ai
h i-1 + h i+1
Me = mediana Mo = moda
Li = extremo inferior del intervalo que contiene a la mediana (moda)
N = número de casos
Ni-1=Frecuencia absoluta acumulada anterior al intervalo que contiene a la mediana
ni = Frecuencia absoluta del intervalo que contiene a la mediana
ai = amplitud del intervalo que contiene a la mediana (moda)
hi = ni / ai (altura del intervalo modal)
hi-1 altura del intervalo anterior al modal
hi+1 altura del intervalo posterior al modal
Medidas de dispersión:
Rango: diferencia entre el valor mayor y el menor de la distribución
Varianza: media de los cuadrados de las desviaciones de los datos respecto de la media
n (x
i - )2
i n (x )
i i
2
-------------------- o ---------------- -- 2
N N
El denominador es (N-1) cuando trabajamos con muestras, en ese caso sólo sirve la
primera fórmula
Desviación típica: raíz cuadrada de la varianza
Coeficiente de variación: sirve para comparar dispersiones de diversas variables. Es el
cociente entre la desviación típica y la media
Medidas de asimetría.: La asimetría de la distribución se puede ver en el histograma, para
cuantificarla se usan :
Primer coeficiente de asimetría de Pearson: Se divide la diferencia entre la media y la moda
entre la desviación típica.
Segundo coeficiente de asimetría de Pearson: se divide el triple de la diferencia entre la
media y la mediana entre la desviación típica.
Si dan positivo, la asimetría se da a la derecha. Si es nulo no hay asimetría
Si es negativo hay asimetría a la izquierda. Pueden tener distinto signo
5
Tercer Coeficiente de asimetría : g1 = (1/N) ni (xi - x)3 /(D.típica) 3
Apuntamiento o curtosis C= (1/N) n i ( xi - x )4 / (D.típica) 4
Horas frecuencia
10-14 8
15-19 28
20-24 27
25-29 12
30-34 4
35-39 1
Las variables continuas cuyos valores dependen de un gran número de factores independientes
y cuyas influencias se compensan entre sí haciendo que prevalezca el tipo medio, suelen seguir
la distribución Normal. La distribución Normal es idónea para explicar :
comportamientos sociales (aceptación de normas, gusto por la costumbres, etc.)
actitudes económicas(consumo, impacto de un producto etc.)
aptitudes psicológicas(cociente intelectual, etc.)
medidas antropométricas (estatura, peso, etc.)
medidas morfológicas (tamaño de los frutos de un árbol, etc.)
errores cometidos en las mediciones
6
La distribución Normal Estándar N(0,1).
Cuando una distribución normal tiene su media igual a 0 y su desviación típica igual a 1, se la
conoce como distribución Normal Estándar. La variable que sigue esta distribución se llama
tipificada y se la representa con Z.
La áreas bajo la curva normal tipificada se calculan usando las tablas de la curva normal.
Las tablas dan el área bajo la curva desde -∞ a K. El valor del área se encuentra en el cruce
de la columna que contiene las unidades y décimas de K con la fila de las centésimas.
Propiedades de la distribución Normal
Su campo de existencia es la recta real R.
Es simétrica respecto de su media μ .
Tiene un máximo que coincide con su media, moda y mediana
En μ+σ y μ-σ tiene los puntos de inflexión.
El área bajo la curva es 1 y entre los puntos:
μ+ σ y μ- σ es 0,6826
μ+2σ y μ-2σ es 0,9544
μ+3σ y μ-3σ es 0,9972
Tipificación
Si la variable estudiada X, sigue una distribución N (μ,σ), para trabajar con las tablas de la
Curva normal tipificada, es necesario tipificar la variable X, para ello definimos la variable Z
X-μ
Z= ---------
σ
Si la variable no está tipificada, por ejemplo N(5,3), se la tipifica antes de buscar en las tablas.
P(X≤8)= P((X - 5) / 3≤ (8 - 5 ) / 3)=P(Z ≤ 1) = 0,8413
Población: conjunto de todos los individuos objeto de estudio. (Pueden no ser personas)
Muestra: parte de la población en la que se miden las características estudiadas
Muestreo: proceso seguido para extraer una muestra
Razones para trabajar con muestras: imposibilidad física o económica de acceder a la
población, destrucción del objeto estudiado.
TIPOS DE MUESTREO
7
Tablas de Números aleatorios: son tablas confeccionadas con números elegidos aleatoriamente
que aparecen en muchos libros de estadística. Ahora muchos programas de ordenador traen
rutinas que generan números aleatorios.
Muestreo sistemático:
Muestreos no aleatorios:
Por itinerarios: cuando se facilita al encuestador el itinerario a seguir para encontrar a las
personas a entrevistar.
INFERENCIA ESTADÍSTICA
8
Las mismas medidas calculadas sobre las muestras se llaman ESTADÍSTICOS y se
representas con letras latinas.
A partir del conocimiento de los ESTADISTICOS se intenta llegar a conocer el valor de los
PARÁMETROS. A los valores obtenidos en este proceso se les llama ESTIMADORES
PUNTUALES.
Los estimadores puntuales dependen de la muestra elegida, por lo que es arriesgado trabajar
con ellos.
En una población de N elementos, el número de muestras de tamaño n es
Nn o N según que la muestra se elija con reemplazamiento o sin reemplazamiento
n
Si estudiamos la media:
Con los elementos de cada muestra obtenemos un valor para la media. El conjunto de todas
esas medias muestrales recibe el nombre de distribución muestral de la media.
Propiedades:
1. La media de las medias muestrales coincide con la media de la Población.
2. La desviación típica de las medias muestrales es la desviación típica de la población dividida
entre n
La distribución de las medias muestrales de tamaño n (no demasiado pequeño)se ajusta a
N( μ, σ /n )
En el estudio de la proporción de una población que posee un cierto atributo (tener trabajo, ser
mujer, etc.), si p es la proporción en una muestra de tener ese atributo (probabilidad de éxito) 1-
p = q será la proporción de no tenerlo (probabilidad de fracaso)
La proporción en la población se estima a partir de la proporción en las muestras.
Las proporciones muestrales de muestras de tamaño n, se ajustan a una distribución
N (p,pq/ n )
9
ESTIMACIÓN POR INTERVALOS: Intervalos de confianza
Los estimadores puntuales sólo dan una idea aproximada del verdadero valor del parámetro a
estimar, pero nunca se sabe cómo de buena es la aproximación obtenida. Recordar que cada
muestra da lugar a un estimador puntual.
Se cumple que
_
P( – zα/2 (X - μ) /(σ /n) + zα/2 ) = 1 – α
Multiplicando por (σ /n) llegaremos a
_
P( – zα/2(σ /n) (X - μ) + zα/2 (σ /n) = 1 – α
Sumando ( μ ) se obtiene
_
P( μ – zα/2 (σ /n) X μ + zα/2 (σ /n) ) = 1 – α
10
A s/n se le llama error típico o error estándar de la media
Error admitido (E) y tamaño de la muestra (n)
El radio del intervalo de confianza es zα/2 σ/n y esta cantidad es el máximo error admitido
E=zα/2 σ/n
De aquí se puede obtener el tamaño de la muestra para errores prefijados
n = zα/2 σ/E ⇒ n = ( zα/2 σ/E )2
De forma similar se pueden definir intervalos de confianza para otros parámetros estadísticos.
El intervalo de confianza para la proporción es
( p - zα/2 pq/n , p zα/2 +pq/n ); el error es E = zα/2 pq/n
E2 = ( zα/2 )2 pq/n ⇒ n = ( zα/2 )2 (pq/E2 )
11
Test de Hipótesis
Ya hemos visto que la media muestral suele ser diferente de la media poblacional,
frecuentemente esas diferencias son pequeñas y se deben al azar, pero puede que esas
diferencias ocurran por otros motivos. Los test de hipótesis son los instrumentos estadísticos
que permiten decidir si esas diferencias se deben al azar o son de tal magnitud que precisan
una explicación. Los test de hipótesis son una continuación de los intervalos de confianza.
12
Hipótesis Nula (H0) e Hipótesis Alternativa (H1)
Llamamos hipótesis nula a la Hipótesis que se quiere contrastar y que puede ser rechazada
como consecuencia de los resultados proporcionados por los datos de la muestra. Si
rechazamos la hipótesis nula (H0) estamos implícitamente aceptando la hipótesis alternativa
(H1)
Cuando se decide aceptar o rechazar una hipótesis nula se pueden cometer dos tipos de
errores: rechazarla siendo cierta (error de tipo I) aceptarla siendo falsa (error tipo II).
Se llama nivel de significación (α) de un contraste de hipótesis a la probabilidad de cometer un
error del tipo I. El nivel de significación lo fija el investigador antes de realizar el contraste. En
ciencias sociales α suele ser 0,05 o 0,01
Para realizar un contraste de Hipótesis se suele definir una medida de discrepancia entre los
datos muestrales y la hipótesis nula. Esta discrepancia dependerá de la diferencia entre el valor
del parámetro especificado por H0 y el valor del estimador calculado en la muestra y para que
esta diferencia no dependa de las unidades de medida se le suele dividir por su valor promedio,
que es el error típico de la estimación del parámetro.
1) Una empresa está interesada en conocer el tiempo medio que sus trabajadores permanecen
en ella, antes de irse a otra empresa. Pare ello toma una muestra de 64 trabajadores y en
ella el tiempo medio es 5 años y la desviación típica 4 años. Considerando un nivel de
significación de 0,05. ¿Sirven estos datos para afirmar que el tiempo medio de empleo en
esa empresa está por debajo de 6 años?. Se supone que la distribución es normal.
Paso 1. H0 : μ > 6 H1 : μ < 6
Paso 2. La prueba es de una sola dirección (unilateral), para un nivel de significación de =,05 le
corresponderá un valor crítico Z α = -1,645, que separa las regiones de aceptación y
rechazo.
13
Pasos 3 y 4. La distribución de referencia es normal por lo que tipificando:
_ _
Z = (x - μ ) / σ , siendo x = 5, μ = 6 y σ x =(4 / √64)=0,5
Z= (5-6)/0,5 = -2
Paso 5. Como La abcisa -1,645 define la zona de rechazo y -2 está en esa zona de rechazo
habrá que rechazar la hipótesis nula y aceptar la hipótesis alternativa: "el tiempo medio de
permanencia en la empresa es inferior a los 6 años.
Esta decisión también se puede tomar en términos de probabilidad. Puesto que la probabilidad
de encontrar un z inferior a -2 o inferior es:
P(z < -2) = 0,0228 y como 0,0228 < 0,05, esto es la probabilidad calculada es menor que el
nivel de significación, habrá que rechazar la hipótesis nula.
Y
X d1 d2 d3 .... dm-1 dm
c1 n11 n12 n13 n1 m-1 n1 m
14
c2 n21 n22 n23 n2 m-1 n2 m
... ... ... ... ... ... ...
... ... ... ... ... ... ...
ck-1 nk-1 1 n k-1 2 nk-1 3 ... nk-1 m-1 nk-1 m
ck nk 1 nk 2 nk 3 ... nk m-1 nkm
N
En la primera columna aparecen las clases de la primera variable a las que denominamos:
c1, c 2 ... c k-1 , c k En cada celda de la tabla aparece la frecuencia conjunta n i j donde i indica la
categoría de la primera variable y j la de la segunda
Y
X d1 d2 d3 .... Dm-1 dm
c1 f11 f12 f13 f1 m-1 f1 m
c2 f21 f22 f23 f2 m-1 f2 m
... ... ... ... ... ... ...
... ... ... ... ... ... ...
ck-1 fk-1 1 fk-1 2 fk-1 3 ... fk-1 m-1 fk-1 m
ck fk 1 fk 2 fk 3 ... fk m-1 fk m
N
Distribuciones marginales
Además de la distribución conjunta, cada una de las dos variables cualitativas tiene su propia
distribución. Se calculan a partir de la tabla de la distribución conjunta sumando por filas y
columnas y colocando estos valores en las casillas libres de la última fila o columna de la tabla
Las distribuciones de cada una de las dos variables que se ponen en los márgenes de la tabla,
reciben el nombre de distribuciones marginales.
La distribución marginal de la primera variable se representa por f i. , el punto indica que hemos
sumado los valores de la segunda variable manteniendo fijo el valor i de la primera
Con f .j se representa la marginal de la segunda variable y ahora el punto indica que hemos
sumado los valores de primera variable manteniendo fijo el valor j de la primera.
15
m k
fi . = f i j f.j = fij
j=1 i=1
Ejemplo de distribución de frecuencias absolutas
EDC
Sitprof 1 2 3 4 5 6
1 2 2 17 1 0 1 23
2 2 9 31 1 1 4 48
3 1 0 0 0 0 0 1
4 0 1 1 1 0 0 3
5 12 49 3 1 5 75
EDC
Sitprof 1 2 3 4 5 6
1 0,027 0,027 0,227 0,013 0 0,013 0,307
2 0,013 0,12 0,413 0,013 0,013 0,053 0,64
3 0,013 0 0 0 0 0 0,013
4 0 0,013 0,013 0,013 0 0 0,040
0,067 0,160 0,653 0,040 0,013 0,067 1
Distribuciones condicionadas
16
Frecuencias de EDC (Educación) condicionadas por la situación profesional (1) patrono o
profesional con empleados
EDC 1(patrono) f 1 /j
1 2 2/23=0,087
2 2 2/23=0,087
3 17 17/23=0,739
4 1 1/23= 0,043
5 0 0/23=0
6 1 1/23=0,043
∑ 23 1
La distribución conjunta es la que contiene toda la información sobre las dos variables, pero las
distribuciones condicionadas resultan útiles para estudiar la relación entre las dos variables. Un
caso interesante es cuando las distribuciones de una variable condicionadas por los diferentes
valores de la otra son iguales y además coinciden con la distribución marginal. Este hecho
indica que las variables no están relacionadas, son independientes.
Supongamos queremos ver si hay relación entre los resultados de un test de inteligencia y el
rendimiento en un trabajo después de haber realizado un curso de capacitación.
La tabla siguiente da las frecuencias observadas de las variables CI (coeficiente de
inteligencia) y RT (rendimiento en el trabajo)
RT
Mal Regular Bien Total
CI Bajo 67 64 25 156
(46,4) (63,6) (46)
Medio 42 76 56 174
Alto 10 23 37 70
Total 119 163 118 400
Si se supone que las variables no están relacionadas se pueden calcular las frecuencias
esperadas. Con la siguiente regla: La frecuencia esperada de una celda cualquiera se calcula
multiplicando el total de su fila por el total de su columna y dividiendo el resultado entre el total de
toda la tabla. Así salen los números entre paréntesis
n (Obs i - Esp i ) 2
2 = ∑ -------------
i =1 Esp i
Con este valor calculado de 2 y teniendo en cuenta los grados de libertad de la tabla que si
es de dimensión f x c serán : ( f-1) x (c -1)
17
Y habiendo prefijado previamente el nivel de significación (que equivale a la probabilidad de
equivocarnos al rechazar la hipótesis nula que afirma que las variables son independientes)
Cuando trabajamos con el SPSS y antes de realizar el test fijaremos el nivel de significación
que estimamos necesario para que los resultados sean aceptables, por ejemplo :O,05 ó 0,01. Si
el nivel prefijado es 0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que
rechazar la Hipótesis nula (la que afirma que las variables son independientes)
Significación < 0,05 rechazamos H0 y concluimos que las variables son dependientes entre sí
Significación > 0,05 aceptamos H0 y concluimos que las variables son independientes entre sí.
Con 2 podemos conocer si dos variables están asociadas estadísticamente o no. Pero si el
resultado es afirmativo, no se conoce la fuerza de la asociación.
Para saber si la asociación es fuerte o débil se emplean otros estadísticos que veremos en la
hoja de explicación sobre SPSS.
Problemas de 2
1. Un sociólogo noruego quiere saber si la composición étnica de una ciudad ha cambiado en los
últimos diez años. Los datos de la población de hace 10 años afirman que el 53% eran noruegos, el
32% suecos, el 8% irlandeses, el 5% alemanes y el 2% italianos (no incluimos nacionalidades con
porcentaje menor al 2). Para comprobar si ha habido cambios con una significación de 0,05 el
sociólogo obtiene una muestra aleatoria de 750 habitantes de la ciudad, y encuentra 399 noruegos,
193 suecos, 63 irlandeses, 82 alemanes y 13 italianos. ¿Cuál es la hipótesis nula? ¿cuál es la
conclusión?
2. Estamos interesados en conocer si hay relación entre el nivel educativo de los padres y el número de
hijos que tienen. Se realiza una encuesta y se obtienen los siguientes resultados:
Nivel educativo / número de Dos o menos hijos Mas de dos hijos
hijos
Educación universitaria 53 22
Sólo bachillerato 37 38
3. Se pregunta a los estudiantes de tres carreras si para una tarde del sábado prefieren a) ir al cine, b)
salir con amigos c) leer un libro. Los resultados se dan en la siguiente tabla. Queremos saber si hay
diferencias los gustos de los estudiantes de las tres carreras con un nivel de significación de 0´05.
Carreras / actividad Ir al cine Salir con amigos Leer un libro
A 26 55 19
B 24 118 58
C 20 112 68
4. Para evitar arbitrariedades se ha decidido que cada examen de una asignatura sea corregido por 4
profesores diferentes y ninguno de ellos hace anotaciones en los exámenes. Los resultados obtenidos
son:
Profesores / notas Aprobados Suspensos
A 68 57
B 90 60
18
C 70 30
D 120 30
AL nivel de significación del 0`05 podemos concluir que existe una diferencia significativa en el sistema
de calificación de estos profesores?
5. Queremos saber si las notas obtenidas por alumnos y alumnas son significativamente diferentes al
nivel 5%. Los datos son:
6. En una facultad se ha preguntado a los estudiantes de los distintos cursos las horas que dedican al
estudio cada día cuando no es época de exámenes y los resultados se muestran en la siguiente
tabla:
Tiempo/curso 1º 2º 3º 4º 5º
Menos de 1 hora 18 20 32 77 96
Entre 1 hora y 3 horas 22 35 90 83 50
Más de 3 horas 60 70 80 60 14
Se pide contrastar la hipótesis de independencia del curso y el tiempo dedicado al estudio al nivel 0´05.
19
Nubes de puntos
Un DIAGRAMA DE DISPERSIÓN sirve para mostrar las relaciones entre dos variables
cuantitativas medidas para los mismos individuos. Cada individuo viene representado mediante
un punto del plano, cuyas coordenadas son los valores que toma el individuo para cada una de
las variables. En el eje X se suele representar la v. Independiente y en el eje Y la dependiente.
El aspecto general del DIAGRAMA DE DISPERSIÓN debe revelar la dirección, la forma y la
fuerza de la relación.
Dos variables están asociadas positivamente (relación directa) cuando valores superiores
(inferiores) al promedio de una de ellas tienden a acompañar a valores superiores (inferiores)
de la otra.
Dos variables están asociadas negativamente (relación inversa) cuando valores superiores
(inferiores) al promedio de una de ellas tienden a acompañar a valores inferiores (superiores)
de la otra.
Relación lineal
Valores grandes de sxy advierten que la relación entre las variables puede ser fuerte.
La covarianza depende de las unidades de medida, para evitar este problema se usa el
coeficiente de correlación lineal
COEFICIENTE DE DETERMINACIÓN
20
Cuando r es cercano a +1 o a –1 la correlación lineal es fuerte. Los cambios en la variable Y se
explican en gran medida por los cambios de la variable X. Se pueden estimar valores de Y a
partir de la X. Una medida de la fiabilidad de esta estimación es el coeficiente de
determinación r2 . El valor de r2 indica la proporción de la variación de la variable Y que puede
ser explicada por la variación de la variable X.
Si se multiplica r2 por 100 se obtiene el porcentaje de cambio de la variable Y explicado por la
variable X.
Regresión lineal
La recta de regresión mínimo cuadrática es la que mejor se ajusta a la nube de puntos.
La recta de regresión de Y sobre X es:
_ Sxy
y – y = -------------- (x - )
S2x
Que exista una fuerte asociación entre dos variables no es suficiente para sacar conclusiones
sobre las relaciones causa-efecto
Ejemplo: existe fuerte correlación entre el número de bomberos que actúan en un incendio
y la importancia del daño ocasionado por el mismo.
EJERCICIOS.
El número de horas de estudio de una asignatura y la calificación obtenida en el examen
correspondiente fue para siete personas, la siguiente:
Horas 5 8 10 12 15 17 18
Calificación 3 6 5 6 9 7 9
21
a) Dibuja la nube de puntos y traza, aproximadamente, la recta de regresión asociada.
b) Indica como parece ser la correlación.
Solución:La correlación parece ser directa y fuerte
Calcula el coeficiente de correlación y las rectas de regresión asociadas a los datos del
problema anterior. Representa las dos rectas de regresión sobre la nube de puntos.
Solución: Coeficiente de correlación= r= 0´88
Rectas de regresión: y = 0´39 x + 1´7 ; x = 1´97 y - 0´52
La tabla siguiente muestra para los años que se indican, la natalidad por cada 1000 habitantes
de una ciudad española.
22
1.7 Clasificaciones de las variables.
Ya hemos estudiado las escalas de medida de las variables, ahora veamos algunas
clasificaciones de las variables según diversos criterios:
Las variables independientes son las características en las que difieren los objetos de estudio
(sexo, edad, etc.) (en estudios de encuesta y en estudios observacionales) mientras que en
estudios experimentales son las diferentes condiciones a las que exponemos a los objetos de
estudio.
También se les llama variables explicativas o predictoras.
b) Clasificación de las variables por los valores que pueden tomar. La clasificación de las
escalas de medida no siempre deja las cosas claras, por eso frecuentemente en el análisis de
datos se divide a las variables en dos grandes grupos:
Variables no métricas o cualitativas (escalas nominal y ordinal)
Variables métricas o cuantitativas ( escalas de intervalo o de razón)
O también:
1. Variable continua es una variable cuantitativa que por su naturaleza puede adoptar
cualquier valor numérico (dentro de un intervalo). Para todo par de valores siempre se puede
encontrar un valor intermedio, la precisión la da el instrumento de medida. (peso, estatura..)
2. Variable discreta : variable cualitativa o cuantitativa que sólo puede adoptar un número
finito de valores distintos. En las cuantitativas entre dos valores continuos no hay uno
intermedio. (número de hijos)
3. Variable dicotómica o binaria : Es aquella que sólo puede tomar dos valores. Por
ejemplo Sexo, tener o no una enfermedad. Si a sus valores se les pone 0 y 1 se le llama
binaria
4. Variable ficticia (dummy). Las variables cualitativas (nominales y ordinales) a veces se
convierten en numéricas usando variables ficticias. En ellas el 1 indica presencia de una
categoría y el 0 ausencia de la misma. Para convertir una variable cualitativa en dummy hacen
falta tantas variables como niveles de la variable cualitativa menos uno. Para sexo sería
suficiente con una (varón=0, mujer=1) Para Estudios (Eso, Bachillerato y FP) harían falta dos:
V1: eso=1, Bach y FP=0, V2: Bach=1, eso y Fp =0, FP queda definida por ser 0 en las otras
dos.
23
Puntuaciones directas o brutas, son las obtenidas directamente y se suelen representar con
letras mayúsculas (X,Y, ...) y tienen Medias (, , ...) y desviaciones típicas (s x , s y ...)
Las puntuaciones típicas están libres de escala y siempre tiene media 0 y desviación típica 1.
V = w1 X1 + w2 X2 + ... w p Xk
En cuanto al número de variables que interesa incluir en un análisis multivariante como regla
general se debe observar la parsimonia científica, es decir obtener la mejor solución con el
menor número posible de variables.
A) Matrices de datos
Los datos son un conjunto de valores que representan las puntuaciones de n unidades de
análisis sobre p variables. En las variables cuantitativas, los valores son puntuaciones
numéricas, en las cualitativas, códigos numéricos que representan niveles diferentes de la
variable categórica (soltero, casado, viudo, etc.)
Estos valores de colocan en una matriz X i j , i=1...n , j=1... p
X 11 X 12 .. X 1 j ... X 1 p
X= X 21 X 22 .. X 2 j ... X 2 p
..........................
X i1 X i2 .. X i j ... X i p
....... ........
X n1 X n2 .. X n j ... X n p
24
Estos datos son los que se introducen en el ordenador y serán procesados por el programa
SPSS u otro similar
1.9 Matrices
1 2 3 -4 3 2 1,2
0 -1 5 0.3 2 1 3
5 -4 0
Transponer una matriz es una operación que consiste en obtener una nueva matriz en la que
hemos cambiado filas por columnas en la matriz dada.
Ejemplo de una matriz y su transpuesta:
2 3 2 1 -2
1 7 3 7 4
-2 4
25
Matrices especiales: Además de las matrices cuadradas, fila y columna que ya hemos
mencionado son importantes las Matrices simétricas, aquellas que son iguales a su transpuesta
(no cambian al cambiar filas por columnas)
1 3 2
3 0 6
2 6 3
Matrices diagonales, aquellas cuyos únicos elementos distintos de cero son los de la diagonal
principal (la que va de arriba izquierda a abajo derecha) o los de la diagonal secundaria (la que va
de arriba derecha a abajo izquierda). Si todos los elementos de la diagonal principal son unos, en
lugar de matriz diagonal se la llama matriz unidad.
Matriz triangular es una matriz que tiene nulos todos los elementos que están situados encima (o
debajo) de la diagonal principal.
Suma de matrices.
Sumar dos matrices es obtener una nueva matriz en la que cada elemento es la suma de los
elementos correspondientes de las matrices que estamos sumando. Para que dos matrices se
puedan sumar es preciso que ambas tengan la misma dimensión.
(aij) + (bij) = (aij + bij) =(cij)
2 1 3 0 5 1
0 -3 + 1 4 = 1 1
-8 2 4 -2 -4 0
Producto de matrices.
Multiplicar dos matrices es obtener una tercera en la que cada elemento se obtiene según la
formula que exponemos a continuación.
(aij) * (bij) = (cij)
Para que dos matrices sean multiplicables es necesario que el número de columnas de la primera
coincida con el número de filas de la segunda. Ejemplo:
8 1 3 5 2 9 1 65 32 82 29
2 -6 4 1 7 4 3 = 36 -26 2 8
8 3 2 6
Las dimensiones de las matrices anteriores son
2x3 3x4 2x4
El elemento c11 cuyo valor es 65 se obtiene como resultado de multiplicar los elementos
correspondientes de la primera fila con los de la primera columna: 8x5 + 1x1 + 3x8 =65
De la misma forma se calculan todos los otros elementos de la matriz producto.
La varianza de la variable x i,
n
(x i - )2
i =1
s i = -------------
n -1
La covarianza entre las variables x 1 y x2
n
(x i1 - 1) (x i2 - 2)
i =1
s12 = s21 = ------------------------------------
n -1
1 1 2 4 -1 -3
3 4 - 2 4 = 1 0 = xd
2 7 2 4 0 3
La transpuesta de x d será -1 1 0
-3 0 3 = x dT
El producto x dT x d (dividiendo todos sus términos por n -1) dará la matriz buscada de
varianzas-covarianzas
A X = X => A X - X = 0 => ( A - I) X = 0
donde 0 es una matriz de dimensión nxn con todos sus elementos nulos e I es la matriz unidad
(con unos en la diagonal y ceros en los demás lugares)
27
Para calcular los autovalores se resuelve la ecuación
A - I = 0 donde la incógnita es
Cada autovalor tiene asociado un autovector. Para calcular los autovectores se sustituye el valor
del autovalor en ( A - I) X = 0 y se resuelve respecto de X.
Ejemplo: calcular los autovalores y autovectores de la matriz
3 1
A= 2 2
A-I =0
3 1 1 0 3 - 1
- = 0 => =0
2 2 0 1 2 2-
(3 - )(2 - ) - 2 = 6 - 3 - 2 + 2 - 2 = 0
3 1 1 0 x1 2 1 x1 0
- = =
2 2 0 1 x2 2 1 x2 0
2x1 + x2 = 0
2x1 + x2 = 0 Sistema compatible indeterminado
28
2 1 da autovalores 5 y 1,
3 4 para el 1 el autovector es (k, -k)'
para el 5 el autovector es (k, 3k)' o (1/3 k , k)'
Los elementos externos a la diagonal principal son los productos cruzados de las variables
centradas o diferenciadas, esto es:
n _ _
Suma de productos cruzados ( X j , X k ) = Σ (X i j - X j ) (X i k - X k ) donde j,k = 1,2...p, j k
i= 1
Hay que observar que la matriz será cuadrada y simétrica y además su dimensión coincide
con el número de variables.
C) Matriz de correlaciones R
29
Al igual que S y C, la matriz de correlaciones es cuadrada y simétrica y tiene unos en la
diagonal principal y los elementos externos a la diagonal son las correlaciones entre las
variables indicadas por la fila y columna correspondiente. Realmente una correlación no es mas
que una covarianza entre puntuaciones típicas, que como ya se sabe tienen varianza unidad
(los unos de la diagonal principal) y además la media es cero.
La distancia de Manhatan
r
dij (r) = Σ ╽X ia - X ja ╽r
La distancia de Mahalanobis
(X i - X j )´ C -1 (X i - X j)
LOS RESIDUOS
30
La diferencia entre los valores reproducidos y los valores observados se llama residuo y su
conjunto es una medida de la mayor o menor eficacia del modelo. Cuanto menores sean los
residuos mejor ajuste proporcionará el modelo.
En la mayor parte de los análisis la suma de los residuos de toda la muestra es cero, ya que los
valores obtenidos mediante el modelo a veces serán superiores a los valores reales y otras
veces serán menores, por lo que el promedio es cero. Por ello se suele trabajar con los valores
de los residuos al cuadrado (residuos al cuadrado). Cuando los valores reales son cercanos a
los valores pronosticados, la predicción es buena y los errores al cuadrado son pequeños.
Veremos que en algunas técnicas multivariantes la distribución de los residuos tiene un papel
importante para evaluar si se cumplen algunos de los requisitos requeridos para usar la técnica.
Es razonable que antes de aplicar una compleja técnica multivariante, el investigador conozca
la distribución de cada variable independientemente.
El estudio inicial de los datos puede tener varios objetivos: detección de observaciones aisladas
(outliers), tratamiento de los casos perdidos (missing data) así como la comprobación de los
supestos que han de cumplir los datos para poder aplicar la técnica multivariable en cuestión.
Los casos aislados son observaciones con valores extremos en una variable o en una
combinación de variables y se le reconoce porque son muy diferentes de las restantes
observaciones. No todos los casos aislados son necesariamente problemáticos en el análisis
estadístico, pero a veces pueden ser observaciones influyentes que distorsionan los
resultados. El investigador tiene que detectar la presencia de estos casos cuidadosamente.
El problema es que pueden dar lugar a resultados no generalizables por estar muy influidos con
la presencia de estos datos.
Los casos aislados de tipo univariante se caracterizan por tener puntuaciones típicas muy
extremas: fuera del rango (-3 , +3). Pero en muestras grandes no es raro que se presenten
unos cuantos casos con estas puntuaciones.
31
Con el SPSS se pueden tipificar las variables y estudiar si las puntuaciones típicas caen fuera
del rango (-3 , +3). Para ello se elige:
Por cada variable señalada tendremos una nueva variable en nuestro fichero de datos con el
mismo nombre pero con una z delante: la variable p401 tipificada se llama zp401 y como la
etiqueta de la p401 es simpatía norteafricana, el SPSS pone la etiqueta a la variable tipificada
como: puntúa simpatía norteafricana.
Para ver los valores de la variable tipificada mas alejados de 3 desviaciones típicas se puede ir
al fichero de datos y explorar visualmente la columna de sus datos o usar Analizar ->
frecuencias con estas variables.
La opción Explorar del SPSS proporciona gráficos especialmente útiles como los de caja con
el que veremos las distribución intercuartílica o el de tallo y hoja.
Para detectar los casos aislados multivariantes se suele emplear la Distancia de Mahalanobis
Que es una medida de cuánto difieren los valores de un caso en las variables independientes
respecto al promedio para todos los casos. Una distancia de Mahalanobis grande identificará a
un caso que tenga valores extremos en una o más de las variables independientes.
DATOS PERDIDOS
Uno de los problemas mas frecuentes del análisis multivariante es la presencia de datos
ausentes. En el caso de la investigación mediante cuestionario son consecuencia de la no
respuesta de los encuestados a ciertas preguntas de la encuesta. Su gravedad depende del
numero de casos perdidos y de la razón de su existencia. Se puede dejar una pregunta sin
respuesta por despiste o porque el/la encuestado/a tiene razones para no contestar. El contar
con el resto de las respuestas de una encuesta incompleta puede afectar a la posible
generalización de los resultados. Habría que hacerse algunas preguntas. Como: ¿difieren estos
sujetos de los que contestan a todas las preguntas? ¿Tienen estas diferencias impacto sobre
los resultados de la investigación?.
La mayoría de los autores consideran que hay dos razones para la presencia de datos
ausentes:
- los procesos sistemáticos externos a los sujetos, como son problemas de recogida de datos
o errores de transcripción o grabación.
- La acción del sujeto que responde de dejar de hacerlo a ciertas preguntas.
Los del primer tipo se suelen poder corregir, pero los segundos presentan mayor dificultad y se
deberían estudiar cuidadosamente.
Si los datos ausentes siguen una distribución aleatoria en la matriz de datos, normalmente no
son un grave problema, pero si el patrón no es aleatorio pueden afectar notablemente a los
resultados. Los procedimientos para estudiar la aleatoriedad de la distribución de los datos
ausentes se suelen clasificar en tres tipos:
32
1. Se divide al conjunto de todos los datos en dos grupos los que tienen datos completos y los
que no los tienen, y se estudian las diferencias existentes en las variables de interés. Si
estas diferencias son significativas no hay distribución aleatoria de los datos. Para esta
comparación se puede usar el contraste t de Student para variables cuantitativas o
contrastes de independencia basados en la 2 de Pearson (chi-cuadrado) para variables
categóricas.
2. Otro procedimiento usa correlaciones para parejas de variables dicotomizadas entre la
presencia o no de datos perdidos. Se crea una variable ficticia (dummy) en la que 1 significa
que hay valor definido y 0 significa que hay un valor ausente. Las correlaciones resultantes
indican la correlación que existe entre los valores ausentes en las dos variables y se puede
estudiar la significación de estas correlaciones.
3. Por último se puede realizar un examen global de la aleatoriedad sobre la matriz de datos
por inspección visual.
La opción más simple es eliminar los casos incompletos y trabajar sólo con los casos con datos
completos. Es la opción que asumen por defecto los programas de ordenador. Cuando el patrón
de reparto de los datos perdidos es completamente aleatorio y los datos perdidos se reparten
por toda las variables, esta opción puede tener como consecuencia una reducción importante
del tamaño de la muestra con lo que no sería posible realizar análisis multivariantes.
Por otra parte si el patrón de reparto de los datos perdidos no es aleatorio, eliminar los casos
con datos perdidos puede introducir sesgos notables en los resultados.
Suele ser mas recomendable realizar la imputación de los datos sobre el fichero de datos
disponible y emplear los datos imputados en los cálculos posteriores. Casi todos los programas
de ordenador proporcionan alguna opción en este sentido. El SPSS, dentro del menú
TRANSFORMAR DATOS permite imputar datos ausentes según varias opciones
1. Media de la serie. Se sustituye el valor perdido por la media calculada con todos los datos
válidos de la variable.
2. Media de puntos adyacentes. Se sustituye el valor perdido por la media de los valores
adyacentes válidos. (desde el anterior caso perdido al posterior )
3. Mediana de los puntos adyacentes. Como el caso dos pero mediana en vez de media.
4. Interpolación lineal. Se interpola linealmente entre el valor previo al perdido y el posterior.
5. Tendencia lineal en el punto. Se sustituyen los valores perdidos de la serie por la tendencia
lineal en ese punto haciendo una regresión lineal de los datos de la variable sobre una
variable Indice definida de 1 a n.
33
Cálculo de matrices de varianzas-covarianzas o correlaciones con valores perdidos
Los programas de ordenador duelen ofrecer tres opciones y el usuario puede decidir cual le
parece mas conveniente así como comprobar las diferencias en los resultados al emplear las
diferentes posibilidades.
1. Excluir casos según lista (listwise), se usan sólo los casos con todos los datos
2. Excluir casos según pareja (pairwise),se usan para cada par de variables los casos
completos en las dos variables para las que se calcula la covarianza o la correlación.
3. Reemplazar por la media, se utilizan todos los casos del fichero pero se sustituyen los
valores ausentes por la media de a variable correspondiente.
La opción segunda es útil en muchas ocasiones, pero cada covarianza o correlación estará
calculada a partir de un conjunto de diferentes casos. EL usar esta opción puede ocasionar
problemas al calcular las matrices inversas y los autovalores. A veces se puede llegar a
autovalores negativos que provocan matrices no definidas positivas, y éste es un supuesto
básico en algunas técnicas multivariantes.
La opción tercera es recomendable cuando hay pocos datos ausentes, pero si hay muchos el
sustituirlos por la media reducirá la variabilidad real de las variables lo que normalmente tiene
como consecuencia una reducción de las correlaciones estimadas.
Tanto la opción 2 como la 3 deben emplearse con cautela y es conveniente comparar las
matrices obtenidas con estas opciones con la que se obtiene con los datos completos para ver
su similaridad
Normalidad.
El supuesto fundamental del análisis multivariante es la normalidad de los datos. Casi siempre se exige
que la distribución de los datos de al menos una variable métrica sea normal. Si la variación respecto de
la distribución normal es suficientemente amplia, los resultados de los test estadísticos resultantes no
serán válidos. La normalidad univariante es fácil de contrastar. La norma más sencilla es mediante la
comprobación visual del histograma que compare los valores de los datos observados con una
distribución normal. Este método tiene dificultades en muestras pequeñas.
Otra forma de comprobar mediante gráficos la normalidad de una variable consiste en realizar el gráfico
de la probabilidad acumulada de la variable estudiada con los valores de la distribución acumulada bajo
hipótesis de N (0,1). Si la variable estudiada fuera normal, se representaría una nube de puntos muy
próximos a la diagonal principal, recta con pendiente 1.
Los test estadísticos de normalidad que traen los programas estadísticos como el SPSS calculan el
nivel de significación para las diferencias respecto de una distribución normal. Lo mejor es usar tanto la
comparación del gráfico como test estadístico.
El SPSS proporciona interesantes resultados gráficos con la opción explorar, para la normalidad
univariante y también dispone de test estadísticos basados en el contraste Kolmogorov-Smirnov
(corrección de Lilliefors). Los gráficos más empleados son : el histograma, el diagrama de tallo y hojas el
diagrama de cajas y especialmente el q-q plot, que es una linealización de la distribución normal
34
La normalidad multivariante implica que las variables individualmente sean normales y que sus
combinaciones también lo sean. La normalidad multivariante es más difícil de contrastar, aunque existen
varios test para cuando la técnica multivariante exige este supuesto.
Hay soluciones que iremos viendo a lo largo del curso para la no normalidad de los datos, normalmente
consisten en aplicar ciertas transformaciones a los datos que les hacen acercarse a la normalidad.
Homocedasticidad
Es un supuesto relativo básicamente a las relaciones de dependencia entre variables. Se refiere a que
las variables dependientes tengan iguales niveles de varianza a lo largo del rango del predictor de
las variables. Aunque las variables dependientes deben ser métricas, este concepto de igual dispersión
de la varianza también se aplica a variables no métricas.
Para analizar la homogeneidad de las varianzas, se suele hacer la representación gráfica de la nube de
puntos de los residuos tipificados frente a las observaciones tipificadas. Si la varianza de los residuos
fuera constante, la nube de puntos estaría concentrada en una banda, centrada en el cero y paralela al
eje de abcisas. Cuando la dispersión no es constante , se puede hacer una transformación en la variable
que permite estabilizar la varianza. Las transformaciones que se suelen emplear son:
Yp p≠0
T(Y) =
Ln Y p = 0
Este supuesto establece que la relación entre dos o mas variables es lineal. Es un supuesto fundamental
en las técnicas que se basan en el modelo lineal general que establecen combinaciones lineales entre
variables.
En algunas técnicas la no-linealidad se detecta a través de los gráficos de los residuos, pero la forma
mas frecuente para obtener una idea rápida sobre la linealidad entre variables es examinar los
diagramas de dispersión de las parejas de variables. Se recomienda la opción matricial, al definir los
diagramas de dispersión. Si el fichero tiene muchos datos se recomienda hacer antes del gráfico una
selección aleatoria de casos para que la visualización sea aclaratoria.
En muchos análisis se exige que el valor observado en una variable para un individuo no esté
influenciado por los valores de esta variable en otros individuos. Esta exigencia se le suele hacer a los
residuos (diferencia entre valor observado y valor predicho por el modelo). Los residuos no deben tener
ningún patrón sistemático de comportarse respecto a la secuencia de observación. EL estadístico de
Durbin Watson, D, mide la autocorrelación entre el residuo de una observación con la anterior. Si su
valor es cercano a 2 , los residuos no tienen autocorrelación (están incorrelados), si es cercano a 4
estarán autocorrealdos negativamente, y si se aproxima a cero estarán autocorrealdos positivamente .
35
1.11 Las técnicas multivariantes y su clasificación
Las técnicas multivariantes pueden dividirse en tres grandes grupos según el papel que jueguen
en el análisis las variables consideradas:
1) Métodos de dependencia
2) Métodos de interdependencia
3) Métodos estructurales
Los pasos que se han de dar para realizar un análisis multivariable son:
2) Diseñar el análisis
4) Realizar el análisis
1) Métodos de dependencia. Suponen que las variables analizadas están divididas en dos
grupos: las variables dependientes y las variables independientes. El objetivo de los métodos
de dependencia consiste en determinar si el conjunto de variables independientes afecta al
conjunto de variables dependientes y de qué forma.
3) Métodos estructurales. Suponen que las variables están divididas en dos grupos: el de
las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar,
36
no sólo como las variables independientes afectan a las variables dependientes, sino también
cómo están relacionadas las variables de los dos grupos entre sí.
Análisis de regresión
Análisis de supervivencia
Dependiente MANOVA
Métrica Correlación Canónica
Métodos de
Dependencia Análisis Discriminante
Regresión Logística
Dependiente Análisis Conjunto
No métrica
Técnicas
Multivariantes A.Componentes Principales
Análisis Factorial
Datos métricos E. Mulltidimensionales
Métodos de Análisis de conglomerados
Interdependencia
Análisis de Conglomerados
Modelos Log-lineales
Datos no métricos Escalas Multidimensionales
Modelos A. de correspondencias
estructurales
3) Análisis de la varianza : Se utilizan en situaciones en las que la muestra total está dividida
en varios grupos basados en una o varias variables independientes no métricas y las variables
dependientes analizadas son métricas. Su objetivo es averiguar si hay diferencias significativas
entre dichos grupos en cuanto a las variables dependientes se refiere. Por ejemplo, ¿hay
diferencias en el nivel de colesterol por sexos? ¿afecta, también, el tipo de ocupación?.
37
4) Correlación Canónica: Su objetivo es relacionar simultáneamente varias variables métricas
dependientes e independientes calculando combinaciones lineales de cada conjunto de
variables que maximicen la correlación existente entre los dos conjuntos de variables. Por
ejemplo, analizar cómo están relacionadas el tiempo dedicado al trabajo y al ocio de una
persona con su nivel de ingresos, su edad y su nivel de educación
40