Vous êtes sur la page 1sur 16

Pruebas de

Se utiliza para comparar una tabla de frecuencias observadas con otra de frecuencias
hipotticas, para comparar dos tablas de frecuencias observadas o bien para probar la
independencia de dos variables nominales u ordinales.
As se pueden establecer probabilidades de que, las diferencias que se observan en la muestra se
trasladen a la poblacin.
Para poder aplicarlas, es necesario que:
Los datos estn comprendidos en una tabla.
Las variables hayan sido medidas en escala no mtrica o bien estn categorizadas
Los datos estn expresados en frecuencias absolutas.
Cada celda de la tabla debe contener frecuencias mayores o iguales a 5.
3 variantes:
- Prueba de la comparacin de una tabla de frecuencias observadas con una de frecuencias
tericas, hipotticas, supuestas o esperadas.
Por ejemplo:
Objetivo: Determinar si existen diferencias en cuanto a las preferencias por bebidas sin alcohol.
Hiptesis: Existen diferencias entre mujeres y hombres por las preferencias entre los diferentes
tipos de bebidas sin alcohol.
TABLA DE FRECUENCIAS OBSERVADAS:
PREFERENCIAS
COLA
NO COLA
AGUA SABORIZADA
TOTAL

HOMBRES
220 = 33.3%
165 = 25%
275 = 41.7%
660 = 100%

MUJERES
200 = 29.9%
245 = 36.5%
225 = 33.6%
670 = 100%

TOTAL
420
410
500
1330

Variables:
- Sexo
- Preferencia por tipo de bebida
Nivel de medicin:
- Categricas nominales
Datos:
- Expresados en frecuencias absolutas
Hiptesis nula (Ho): No existen diferencias entre mujeres y hombres por las preferencias entre
los diferentes tipos de bebidas sin alcohol.
Con el mismo tamao de muestra deberemos construir una tabla que niegue la Ho.
TABLA DE FRECUENCIAS TERICAS:
Las frecuencias tienen una distribucin tal que no refleja diferencias entre las preferencias de
los tipos de bebidas.
PREFERENCIAS
COLA
NO COLA
AGUA SABORIZADA
TOTAL

HOMBRES
208.42 = 31.58%
203.46 = 30.83%
248.12 = 37.59%
660 = 100%

MUJERES
211.58 = 31.57%
206.54 = 30.83%
251.88 = 37.59%
670 = 100%

TOTAL
420
410
500
1330

Hombres que prefieren bebida cola:


660 x 420 / 1330 = 208.42

Mujeres que prefieren bebida cola:


670 x 420 / 1330 = 211.58

Hombres que prefieren bebida no cola:


660 x 410 / 1330 = 203.46

Mujeres que prefieren bebida no cola:


670 x 410 / 1330 = 206.54

Hombres que prefieren agua saborizada:


660 x 500 / 1330 = 248.12

Mujeres que prefieren agua saborizada:


670 x 500 /1330 = 251.88

Valor del 2
Medida de la discrepancia entre los datos de la muestra que reflejan lo que expresa la hiptesis
de investigacin y los datos de la tabla de frecuencias tericas que construimos que reflejan lo
que dice la Ho.

( fo ft )

ft

( 220 208.42) 2 (165 203.46) 2 ( 275 248.12) 2 ( 200 211.58) 2 (245 206.54) 2 (225 2

208.42
206.46
248.12
211.58
206.54
251
Ese resultado se compara con un valor crtico, pero antes se calcula el nmero de grados de
libertad que tienen nuestros datos.

gl= nmero de datos que pueden variar libremente.


= (n de filas - 1) x (n de columnas 1)
gl (3 1) ( 2 1) 2

TABLA: del 1 al 130 1er columna


Dems columnas
Valores crticos del 2 para diferentes niveles de significancia.
2 crtico = 10.60
NC = 99.5%
NS = 0.5%
El valor de 2 que hemos calculado para a gl supera al valor 2 crtico con un 99.5% de
confianza.
Cuando esto sucede, es decir, cuando 2 supera a 2 crtico con un NC igual o superior al
95%, podemos no aceptar la Ho y decir, en este caso, que existen diferencias entre mujeres y
hombres en cuanto a las preferencias sobre las bebidas sin alcohol
- Prueba de la independencia de dos variables:
El procedimiento es igual al de la primer prueba, lo que cambia es el objetivo, las hiptesis y las
conclusiones.
Objetivo: Determinar si existe relacin entre el tipo de comercio en que realizan las compras y
la condicin del consumidor
Hiptesis: Existe relacin entre el tipo de comercio y la condicin del consumidor (hombre solo,
mujer sola, pareja)
Ho: No existe relacin entre el tipo de comercio y la condicin del consumidor.

Frecuencias observadas:
TIPO DE COMERCIO / COM TRADICIONAL SUPER
HIPER TOTAL
CONDICIN DEL (C)
HOMBRE SOLO
160
360
260
780
MUJER SOLA
140
180
600
920
PAREJA
200
160
340
700
TOTAL
500
700
1200
2400
Se debe probar estadsticamente que exista una relacin entre la hiptesis y las variables.
Frecuencias tericas:
TIPO DE COMERCIO /
CONDICIN DEL (C)
HOMBRE SOLO
MUJER SOLA
PAREJA
TOTAL

( fo ft )

ft

COM TRADICIONAL

SUPER

HIPER

TOTAL

162.5
191.7
145.8
500

227.5
268.3
204.2
700

390
460
350
1200

780
920
700
2400

= 236.16

gl = (3-1) x (3-1) = 4
2 crtico = 14.9
NC = 99.5%

Conclusin: Con un 99.5% de confianza podemos decir que existe relacin entre la condicin
del consumidor y el tipo de comercio.
- Prueba de la comparacin de dos distribuciones de frecuencias:
El procedimiento es similar al de la primer prueba, lo que cambia es que en este caso hay dos
tablas de frecuencias observadas provenientes de dos muestras distintas.
Objetivo: Determinar si hay variaciones significativas en la composicin del alumnado en
cuanto a sexo y nivel de ingresos del hogar.
Hiptesis: Existen variaciones en la composicin del alumnado en cuanto a sexo y nivel de
ingresos del hogar.
Ho: No existen variaciones en la composicin del alumnado en cuanto a sexo y nivel de
ingresos del hogar.
Frecuencias observadas (Capital Federal)
INGRESOS mensuales del
HOGAR
Menos de $1500
De $1500 a $3000
Ms de $3000
TOTAL

HOMBRES

MUJERES

TOTAL

200 = 25%
288 = 36%
312 = 39%
800 = 100%

300 = 25%
500 = 42%
400 = 33%
1200 = 100%

500
788
712
2000

Frecuencias observadas (Ciudad del interior)

INGRESOS mensuales del


HOGAR
Menos de $1500
De $1500 a $3000
Ms de $3000
TOTAL

HOMBRES

MUJERES

TOTAL

25= 21%
37 = 31%
58 = 48%
120 = 100%

25 = 19%
57 = 44%
48 = 37%
130 = 100%

50
94
106
250

HOMBRES

MUJERES

TOTAL

25
36
39
100

37.5
62.5
50
150

62.5
98.5
89
250

TABLA DE FRECUENCIAS TERICAS:


INGRESOS mensuales del
HOGAR
Menos de $1500
De $1500 a $3000
Ms de $3000
TOTAL
X2 = 14.02
gl = 2
X2 crtico = 9.21
No se acepta la hiptesis nula, dado que el valor de x2 rebasa el valor crtico para ese nivel de
confianza.
Se puede concluir que con un 99% de confianza hay diferencias significativas en la
composicin del alumnado en funcin del sexo y el nivel de ingresos del hogar.

Prueba de significancia ANOVA


Es la comparacin de dos o ms medias muestrales. Los datos deben provenir de muestras
diferentes, la investigacin debe darse bajo mtodos experimentales.
Luego se calcula un cociente o razn (razn f) = % de la variabilidad entre las muestras sobre la
variabilidad de los datos dentro de las muestras.
2 variantes:
- Unidireccional: se comparan muestras a partir de una sola variable independiente.
- Bidireccional: se utiliza para determinar los efectos por separado e interactivos que 2 variables
independientes ejercen sobre la variable dependiente.
Deben ser variables independientes no mtricas y la dependiente debe ser mtrica porque se
deben calcular las medias.
Unidireccional:
Objetivo: Determinar cual de 3 etiquetas es la preferida por los
consumidores para poner en el aceite.
3 etiquetas = A, B, C.
3 grupos = 1, 2, 3.
A cada grupo se midi la preferencia.

GRUPOS
1
2
3

ETIQUETAS
A B
C
12 15
7
9 16 11
15 20
9

Hiptesis: Existe preferencia por alguna etiqueta por parte de los consumidores / Una de las 3
etiquetas es preferida por sobre las otras.
Ho: No hay preferencia.
Sacar las medias de las preferencias por cada etiqueta:
X = 12

X = 17

X =9

Tenemos una Variable independiente no mtrica, y una variable dependiente mtrica a la que le
sacamos la media.
Hacemos un anlisis de varianza.
Sacamos la media de todas las medias:
X 12.7

Se calcula la variacin entre columnas y dentro de las columnas


- Variacin entre columnas: medida de la variabilidad entre las medias muestrales (suma de
cuadrados entre columnas)
Nmero de renglones o filas x (sumatoria de (media de c/ columna media de las medias) al
cuadrado)

3 12 12.7 17 12.7 9 12.7 98


Representa la medida de la variacin de los datos debido al efecto etiquetas.
2

- Variacin dentro de las columnas: (suma de cuadrados dentro de las columnas)


Sumatoria de (cada nmero en la tabla la media para la columna de las medias) al cuadrado
(12 12) 2 (9 12) 2 (15 12) 2 (15 17) 2 (16 17) 2 ( 20 17) 2 (7 9) 2 (11 9) 2 (9 9) 2 40
Representa la medida de la variacin de los datos que no podemos explicar por la variable que
estamos manipulando (independiente) por eso se llama variacin no explicada.

- Variacin total de un conjunto de datos:


98+40=138
98=71% correspondiente a etiquetas
40=29% no explicada
- Media cuadrada entre columnas:
Suma de cuadrados entre columnas = 98/2 = 49
V1
Valor de V1: nmero de grados de libertad asociados con el numerador en la razn F
V1 = nmeros de columnas 1 = 3 1 = 2
- Media cuadrada dentro de las columnas:
Suma de cuadrados dentro de las columnas = 40/6 = 6.67
V2
V2 = (nmero de columnas) (nmero de renglones 1) = 3 x (3 1) = 6
- Razn F calculada:
Media cuadrada entre columnas = 49/6.67 = 7.35 compararla con tabla de distribucin F
Media cuadrada dentro de columnas
usar siempre un 95%
Gl numerador =
2
Gl denominador =
6

F crtica = 5.14
Se compara la F calculada con la F crtica, si la 1era no excede el valor crtico se acepta la
hiptesis nula (las diferencias de las medias se deben a una variacin fortuita entre las
muestras), en cambio si no excede el valor crtico se rechaza la hiptesis nula.
En este caso la F calculada es mayor a la F crtica con un nivel de confianza del 95% por lo que
aceptamos la Hiptesis de Investigacin.
Hemos verificado que una de las 3 es la preferida, vamos al cuadro y notamos que es la B ya
que tiene la media ms alta.
Bidireccional:
Esta prueba se utiliza para determinar los efectos por separado e interactivos que dos variables
independientes ejercen sobre la variable dependiente.
Las variables independientes deben ser no mtricas y la dependiente debe ser mtrica.
Primero, se debe analizar o descomponer los datos para saber la mayor fuente de variacin de
estos datos.
Segundo, se debe calcular el cociente o razn (razn F), que se comparar con un valor crtico y
si las razones F superan al crtico se aceptarn los datos con cierto nivel de confianza.
Tamao
Supermercado
Grande
Mediano
Pequeo
Media

Nivel 1

Nivel 2

Nivel 3

Media

55
64
80
66

67
80
85
77

76
85
92
84

66
76
86
76

Variacin Total:

(55 76) 2 (64 76) 2 (80 76) 2 (67 76) 2 (80 76) 2 (85 76) 2 (76 76) 2 (85 76) 2 (92 76) 2
Variacin de renglones:
2
3 66 76 (76 76) 2 (86 76) 2 600 Es la variacin en las ventas respecto al tamao
del supermercado.

Variacin de columnas:
2
3 66 76 (77 76) 2 (84 76) 2 495 Es la variacin en las ventas que se da debido a
la ubicacin del producto en las gndolas.

Variacin no explicada o de interaccin:


1116 - (600 - 495) = 21 Es la variacin en las ventas que no podemos explicar ni por el tamao
del supermercado ni por la ubicacin del producto en la gndola. Puede deberse al efecto
interactivo y conjunto de las dos variables independientes.
CONCLUSIN:

600
495
21
1116

54%
44%
2%
100%

Gl total: (nmero de renglones x nmero de columnas) 1


(3 x 3) 1 = 8
Gl renglones: nmero de renglones 1

31=2
Gl columnas: nmero de columnas 1
31=2
Gl variacin no explicada: Grados de libertad total (Gl Renglones + Gl Columnas)
8 (2 + 2) = 4
Variacin renglones: 600/2 = 300
Variacin columnas: 495/2 = 247.5
Variacin no explicada: 21/4 = 5.25
Razn F renglones: 300/5.25 = 57.14
Razn F columnas: 247.5/5.25 = 47.14
Razn F crtica: 6.94
Cuando las 2 F calculadas superan a la o las F crticas significa que cada una de las variables
independientes tiene efecto por si misma sobre la variable dependiente y no hay variacin de
interaccin.
Cuando una F calculada supera su F crtica y la otra no, aquella variable cuya F supera a la
crtica tiene efecto por si misma sobre la variable dependiente y el resto de la variacin es
variacin de interaccin.
Cuando ninguna de las 2 F calculadas supera a la crtica, toda la variacin de los datos es
variacin de interaccin, es decir, ninguna de las dos variables independientes tiene efecto por si
misma sobre la dependiente.
Conclusin: Si vendemos el producto en el supermercado pequeo, no importa donde est
ubicado el mismo. Si ubicamos el producto en el nivel 3, no importa el tamao del
supermercado.
OTRO EJEMPLO:
Hiptesis de investigacin: las ventas de anteojos dependen de los diferentes niveles de precio
de los distintos niveles de publicidad
Donde:
- Variable independiente o experimental: niveles de precios = $15 $17 $19 y $21
- Variable independiente o experimental: niveles de publicidad = alta, media y baja.
- Variable dependiente: ventas de anteojos.
El experimento consisti en distribuir en diecisis pticas con caractersticas similares, con las
que se formaron cuatro grupos, anteojos que deban venderse a los precios establecidos.
A la vez se emiti publicidad en tres niveles, para las distintas pticas que renan expuestos los
anteojos a cada nivel de precio:
a) publicidad en revistas, radio y folletos. considerada alta,
b) publicidad en revistas y folletos. considerada media y,
c) publicidad slo en folletos. considerada baja.
Luego de 10 das, se midieron las ventas, en unidades, con el resultado siguiente:
Ventas de anteojos segn niveles de publicidad y precio.
Precio

Total unidades

Media

vendidas
Publicidad
Alta

$15
30

$17
32

$19
30

$21
28

120

Media

28

29

27

25

109

Baja

29

33

25

20

107

87

94

82

73

336

29

31.3

27.3

24.3

Total unidades
vendidas
Media

30
27.
3
26.
8
28

Una vez recabados los datos se debe determinar cul es el efecto de los distintos niveles de
precios sobre las ventas, cual es el efecto de los distintos niveles de publicidad y si existe
interaccin entre ambos.
Cabe aclarar que cuando se trata de verificar datos a partir de un diseo de investigacin con
dos factores o tratamientos (variables independientes), la hiptesis subyacente (a verificar)
supone igualdad de las medias del tratamiento para cada uno de los factores, as como respecto
de su interaccin.
El primer paso consiste en estimar la media de unidades vendidas a los distintos precios (media
de columnas) y con distintos niveles de publicidad (media de filas o renglones) y luego calcular
la media total o gran media ( ).
Luego se calcula la variacin total de los datos.
Variacin total =

(cada valor - ) 2

En este caso:
Variacin total =
(30 28) 2 (28 28) 2 (29 28) 2 (32 28) 2 (29 28) 2 (33 28) 2
(30 28) 2 (27 28) 2 (25 28) 2 (28 28) 2 (25 28) 2 (20 28) 2 134

La variacin total de los datos es 134


El siguiente paso consiste en calcular la variacin de renglones, la variacin de columnas y la
variacin no explicada o de interaccin.
Variacin de renglones = C ( renglones ) 2
Donde C es el nmero de columnas. Reemplazado por sus valores:

Variacin de renglones = 4 (30 28) 2 ( 27.3 28) 2 (26.8 28) 2


Variacin de renglones = 23.72

La variacin de renglones, tambin denominada efecto principal de la publicidad (en este caso),
indica que hay variacin en los datos debido a los distintos niveles de publicidad.

Variacin de columnas = R ( columnas ) 2


Donde R es el nmero de renglones. Reemplazado por sus valores:

Variacin de columnas = 3 (29 28) 2 (31.3 28) 2 (27.3 28) 2 (24.3 28) 2
Variacin de columnas = 78.21

La variacin de columnas o efecto principal del precio, indica que hay variacin en los datos
debido a los diferentes niveles de precios.
Variacin no explicada o de interaccin = Variacin total (Variacin de renglones + Variacin
de columnas)
Es decir:
Variacin no explicada o de interaccin = 134 (23.72 78.21) 32.07
Indica que hay variacin en los datos, pero esta variacin no es debida al efecto de ninguna de
las dos variables en forma individual. Por lo tanto, es una variacin no explicada por ninguna de
las dos variables independientes o factores por s sola, sino que puede deberse al efecto
interactivo de ambas, esto es, a las combinaciones de los diferentes niveles de precios con los
diversos niveles de publicidad o a otras variables no controlables por el investigador.
Posteriormente se debe calcular el nmero de grados de libertad:
Grados de libertad total:
gl total: (R x C) 1 = (3 x 4) -1 = 11
Grado de libertad de renglones:
gl renglones = R 1 = 3 1 = 2
Grados de libertad de columnas:
gl columnas = C 1 = 4 1 = 3
Grados de libertad de la variacin no explicada:
= gl total (gl renglones x gl columnas)
= 11 (2 + 3) = 6
Luego se calcula la Varianza estimada = Variacin / gl
Varianza estimada para renglones = Variacin de renglones / gl renglones =

23.72
11.86
2

Varianza estimada para columnas = Variacin de columnas / gl columnas =

78.21
26.07
3

Varianza no explicada = variacin no explicada / gl variacin no explicada =

32.07
5.35
6

Con estos datos podemos calcular la Razn F. En este cado habr dos razones F, que habr que
comparar con los valores crticos, una correspondiente a renglones (diferentes niveles de
publicidad) y otra correspondiente a columnas (diferentes niveles de precios).
Razn F renglones = Varianza estimada renglones / Varianza no explicada =

11.86
2.2
5.35

Razn F columnas = Varianza estimada columnas / Varianza no explicada =

26.07
4.9
5.35

Se determina el nivel de confianza (por ejemplo 95%, es decir, nivel de significancia 0.05) y se
busca en la TABLA DE DISTRIBUCIN F.

Para comparar la Razn F calculada de renglones = 2.2 para 2 y 6 grados de libertad, asociados
con el numerador y denominador respectivamente de la Razn F el valor crtico, segn la tabla
es 5.14
F calculada renglones = 2.2
Por lo tanto
No Rho

F crtica = 5.14

Dado que el valor de la Razn F crtica supera en este caso el valor calculado (2.2) con un 95%
de confianza, no hay suficiente evidencia estadstica como para concluir que la publicidad
influye en las ventas.
Para comparar la Razn F calculada de columnas = 4.9 para 3 y 6 grados de libertad la Razn F
crtica es 4.76
En este caso la Razn F crtica es inferior a la razn F calculada. En consecuencia, con un 95%
de confianza s hay suficiente evidencia estadstica como para considerar que los distintos
niveles de precios influyen en las ventas.

Correlacin y Regresin
En esta prueba las variables dependientes e independientes son mtricas.
Correlacin:
Prueba estadstica para analizar la relacin o fuerza de la asociacin entre 2 variables mtricas
(medidas por intervalo o razn).
- Diagrama de dispersin: Representaciones grficas de las relaciones entre variables.
- Correlacin positiva: los valores de una variable se vinculan con los valores
altos de otra (por ejemplo: mayor calidad, mayor venta).
- Correlacin negativa: los valores bajos de una variable se vinculan con los
valores altos de otra (por ejemplo: menor precio, mayor venta).
Coeficiente de correlacin: Vara de (+ 1.00) a (- 1.00)
(+ 1.00) = Correlacin positiva perfecta entre variables.
(0.00) = Correlacin nula entre variables.
(- 1.00) = Correlacin negativa perfecta entre variables.

(Yi Y )( Xi X )

(Yi Y ) 2 ( Xi X ) 2

Regresin:
Prueba para predecir o estimar el valor de una variable dependiente para un valor determinado
de la variable independiente.
- Diagrama de dispersin: Se resume en una lnea, producto de la media de las puntuaciones de
X e Y.
Lnea de regresin: lnea con mejor ajuste, que resume los valores medios de todas las unidades
de una muestra en las variables analizadas durante la regresin. Procedimiento de los cuadrados
mnimos (minimiza las distancias verticales de todos los puntos desde la lnea).

Conociendo la lnea y la tendencia: Prediccin de los valores de la variable dependiente (Y)


para los valores de la variable independiente (X)
Ecuacin de regresin
Y a bX

Y: valor de la variable dependiente


a: ordenada en el origen, coeficiente, punto donde la lnea de regresin corta al eje de la variable
independiente.
b: pendiente o inclinacin, coeficiente multiplicador de la variable independiente.
X: variable independiente.
Estimacin del coeficiente b:

n( Xi Yi ) ( Xi )( Yi )
n ( Xi ) 2 ( Xi ) 2

Estimacin coeficiente a:
Y bX
Y a bX

EVALUACIN ECUACIN DE REGRECIN:


(Coeficiente de determinacin R 2 )

R 2 Cunto de la variacin de la variable dependiente es explicada por la variacin de la

variable independiente. Asume un valor entre 0 y 1.


Si es igual a 0, nada de la variacin de la variable dependiente es explicado por la variacin de
la independiente.
Si es igual a 1, el 100% de la variacin de la variable dependiente es explicada por la variacin
independiente.

R 2 = (Variancia total en la variable dependiente Variancia no explicada por la ecuacin de

regresin) / Variancia total en la variable dependiente

R2

(Yi Y ) 2 (Yi Y ) 2
(Yi Y ) 2

Regresin Mltiple
Describe o predice el valor de una variable dependiente a partir de varias variables
independientes.
- Describe la naturaleza de una regresin lineal entre una variable dependiente y varias
variables independientes.
- Predice el valor de la variable dependiente a partir de los valores conocidos de varias
variables independientes.

Y a bX 1 cX 2 dX 3
Pizzera: (son 8 slo para el ejemplo, deben ser x lo menos 25)

Establecimiento
1
2
3
4
5
6
7
8 25

Nmero de cliente
180
120
150
60
90
20
50
60

Precio
5
6
5.80
6.50
7.80
7.40
8
5.20

Cupo
50
34
42
42
45
22
30
24

La ecuacin del mejor ajuste es Y = 110 - 22.42X1 + 3.49X2, donde Y es el nmero de clientes
observados en uno de los ltimos viernes por la noche. La ecuacin de regresin adopta la
forma de una superficie bidimensional que pasa por los datos.

a 110

b 22.42

c 3.49

Y 110 22.42 X 1 3.49 X 2


Y 110 22.42(5) 3.49(50) 172.4
Y 172.4

R 2 0.76 Coeficiente de determinacin


r 0.76 0.87 Coeficiente de correlacin, se ve la magnitud, representa en este caso una
relacin fuerte entre variables pero no se determina si es positiva o negativa.
R2
0.76
(
)
(
)
nVIndep
2
F
F

38
1 0.76
1 R2
(
)
(
)
n nVIndep 1
25 2 1
gl = 2
gl = 22
F crtica = 3.44
NC = 95%
p = 0.05
Se debe aplicar el anlisis de varianza. Se debe calcular la razn F para lo que se formula una
Ho.
Ho: Las variables independientes son malas prediciendo la variacin de la variable dependiente.

Anlisis Factorial
- Simplificacin de un conjunto de datos reduciendo el nmero de variables.
- Identificacin de la estructura subyacente o dimensionalidad de los datos.
Genera nuevas variables FACTORES: combinacin lineal de las variables originales,
coeficientes de cada combinacin lineal CARGAS DE FACTORES (medida en que un factor
se ajusta a las respuestas)
Mtodo de los componentes principales para un conjunto de factores sin correlacin (sus ejes
son perpendiculares entre s).

1er Factor: aquel a lo largo del cual los datos se hallan ms dispersos, explica la mxima
variacin posible de los datos.
2do Factor: es perpendicular al 1er Factor, concentra la variabilidad restante de los datos. Todo
lo que no explica el 1er Factor es explicado por el 2do que surge de la combinacin lineal de las
mismas variables que el 1ero.
Otros Factores: Si quedase variacin en los datos sin explicar surgiran otros factores, se
seleccionan hasta que la cantidad de variacin no explicada se encuentre por debajo de un lmite
aceptable.
Rotacin de Factores: Generar factores que tengan algunas variables muy correlacionadas y
otras poco correlacionadas.
Comunalidades: Proporcin de la variabilidad de una variable que se explica mediante todos los
factores indicados que surgieron del anlisis.

h 2 : suma del cuadrado de las correlaciones de las variables (enunciado) y de los factores. =
Cfac 2 X 1
El resultado multiplicado por 100 dar el porcentaje de la variabilidad del enunciado que es
explicada por todos los factores.
Valores caractersticos propios o nicos (EIGENVALOR):
Es la suma del cuadrado de las cargas factoriales de cada factor para todas las variables,
dividiendo ese valor por el nmero de variables (enunciados) se obtiene la proporcin de la
variabilidad total (varianza) explicada por ese factor.

Resultado de aplicar el anlisis factorial de componentes principales a una serie de 23


enunciados administrados a una muestra de consumidores. Despus de terminada la rotacin de
factores, cada enunciado tiene una gran carga de uno de los factores y una carga ligera de los
otros dos. Con el anlisis factorial se ha conseguido reducir los 23 enunciados originales a tres
dimensiones, o factores, latentes. Los trminos de esta tabla son comunes a la generalidad de las
soluciones del anlisis factorial, y se describen en el texto.

1
2
3
4
5

ENUNCIADOS
Me gusta ser el que use la ropa de ltima moda en
la escuela o en el trabajo
Me gusta ser el que use la ropa de ltima moda en
las fiestas
Vestir con elegancia es parte importante de mi
vida
Paso mucho tiempo hablando con mis amigos
acerca de la moda
Casi siempre tengo uno o dos trajes del estilo ms

FACTORES
II

III

COMUNALIDADES

.80

.21

.03

.69

.77

.13

.08

.62

.65

.32

.12

.55

.64

-.21

.22

.50

.63

.20

.04

.44

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

reciente
A menudo estreno nuevos estilos antes que mis
amigos o vecinos los usen
Prefiero tratar con personas que compran y usan
ropa de ltima moda
Mis amigos y vecinos a menudo me buscan para
pedirme consejo sobre las modas
Con frecuencia ensayo nuevos estilos de peinado
conforma stos cambian
Me gusta usar ropa de ltima moda en casa
Me gusta usar ropa de ltima moda cuando compro
comestibles o artculos para el hogar
Leo las revistas relativas a la moda con ms
regularidad que la generalidad de la gente
A veces compro ropa de moda simplemente por
que un nuevo estilo me entusiasma
Cuando debo escoger entre dos tipos de ropa,
normalmente prefiero la elegancia a la comodidad.
Creo tener mayor seguridad en mi mismo que la
mayora de las personas
Me gusta que me consideren un lder
La gente acude ms a mi que yo a ella en busca de
informacin.
Creo poseer una gran habilidad personal
Con frecuencia acudo a mis amigos en busca de
consejo sobre la ropa que debo comprar
Generalmente me fijo en los anuncios de ropa en
busca de rebajas
Podemos ahorrar mucho dinero si aprovechamos
las baratas
Cuando compro busco baratas de ropa
Siempre que voy a una tienda elegante me fijo los
precios, as se trate de un artculo barato
Valores caractersticos:
Porcentaje de variancia explicada:
Porcentaje acumulativo de variancia explicativa:
Factores:

.62

.30

-.04

.48

.62

-.16

.04

.41

.61

.27

.14

.46

.57

.08

-.04

.33

.57

.09

.08

.34

.57

.01

.19

.36

.55

.04

.07

.31

.54

.08

-.15

.32

.54

.11

-.17

.33

.10

.73

.17

.57

.33

.68

.00

.57

.14

.64

.13

.45

.20

.58

.08

.38

.29

-.39

.11

.25

.19

-.05

.71

.54

-.18

.33

.71

.65

.32

.23

.67

.60

-.08

.00

.61

.38

5.9
25.7%
25.7%

2.53
11.0%
36.7%

2.10
9.1%
45.8%

I MODA
II EGOCENTRISMO
III PRECIO

Como se puede observar, en el enunciado 1, de un 100% solo se pudo explicar el 69%, el 31%
no fue explicado por estos factores. As sucede en los dems enunciados. Pueden existir ms
factores pero si no representan una dimensin deben ser eliminados del cuadro.

Anlisis de Conglomerados (de agrupamiento o CLUSTER)


Considera a todas las variables como independientes, estas deben estar medidas en escala
mtrica.
= Tcnica Multivariada:
- Clasifica objetos o casos en grupos relativamente homogneos, CONGLOMERADOS.
- Objetos o unidades de la muestra de cada grupo:
similares entre si,
diferentes a los objetos de otros grupos/conglomerados.
Utilizacin:

Segmentacin de mercado Segmentacin por beneficios.


Comprensin del comportamiento Grupos de consumidores homogneos.
Agrupacin de mercas y productos Marcas y productos que compiten entre s.
Seleccin de mercados de prueba Ciudades.

Mtodos de conglomerados:
Seleccionar una medida de similitud o semejanza.
- Mtodo jerrquico:
Consiste en establecer una medida de similitud o semejanza que requiere la formacin de
conglomerados en distintos niveles de agregacin.
- 1er Nivel: cada objeto se considera su propio conglomerado
- 2do Nivel: los objetos ms parecidos se combinan para formar un nuevo conglomerado.
- Siguientes Niveles: un punto se une a otro o bien a un conglomerado.
Estrategia de Arriba hacia Abajo (mtodo jerrquico en direccin contraria):
Es exactamente al revs que el jerrquico, se debe establecer una medida de diferencia o
disimilitud.
- 1er Nivel: los objetos pertenecen slo a uno o dos conglomerados muy numerosos.
- 2do Nivel: se extraen objetos para formar otros conglomerados ms pequeos.
Las unidades que estn ms alejadas del centroide de su grupo, de acuerdo a la medida de
diferencia que se haya establecido, son expulsadas y van formando pequeos grupos (como
satlites del gran grupo) o quedan aisladas. Al expulsarse algunas unidades, se modifica el
centroide del grupo y se ajustan las medidas, las unidades ms alejadas del centroide quedan
aisladas.
Antes de la conglomeracin se ven todas las unidades de forma aislada.
Se establece una medida de similitud y las unidades que estn ms cercanas entre s, teniendo en
cuenta esa medida, se unen y forman un conglomerado.
Centroide: Medida multidimencional, media de cada grupo en todas las variables que se
incluyeron en el anlisis.
Aquellas unidades que quedan aisladas o an otros grupos que estn ahora a la suficiente
distancia de alguno de los grupos, en este caso se incorporarn al grupo cuyo centroide est ms
cerca.
Cuando una nueva unidad se incorpora al grupo, el centroide de este tambin se modifica,
otorgndole a este, la posibilidad de que otras unidades se integren al grupo y as
sucesivamente.
No es conveniente que los grupos queden demasiado desbalanceados entre s.

Anlisis Discriminante
Se busca una funcin lineal de todas las variables independientes que discrimina entre los
diferentes grupos de consumidores. Cuando encontramos la funcin discriminante, podemos
predecir a qu grupos pertenecern los nuevos consumidores de acuerdo a las puntuaciones que
obtengan en las variables independientes que incluimos en el anlisis.
Tcnica de anlisis multivariado:
Clasifica las observaciones en grupos predeterminados, que estn establecidos antes del anlisis.

Para aplicarlo las variables independientes deben estar medidas en forma mtrica y la
dependiente en forma nominal.
Finalidades: Clasificacin de los objetos en grupos, mediante la determinacin de variables que
permiten mayor diferenciacin (discriminantes)
Identificacin de las variables descriptivas que mejor determinan (discriminan) la pertenencia al
grupo.
Anlisis discriminante lineal:
Determina una ecuacin lineal de ptimo ajuste
K aX 1 bX 2 cX 3 ...
K: combinacin lineal (suma ponderada) de las puntuaciones de las variables independientes.
Cada punto de dato se proyecta matemticamente hacia el EJE DISCRIMINATORIO, eje a lo
largo del cual los grupos estn separados. Segn su puntuacin en la ecuacin discriminatoria se
predecir que un individuo pertenece a uno u otro grupo.
Centroide: en cada grupo hay un punto correspondiente a las medias de las variables
independientes. Es una media multidimensional, cada centroide se proyecta al eje
discriminatorio.
Lnea discriminatoria:
Lnea perpendicular al Eje Discriminatorio que sirve para predecir la pertenencia al grupo.
Segn las puntuaciones del individuo en las variables independientes puede caer en uno u otro
lado de la lnea.
El anlisis discriminante es vlido cuando al menos el 75% de las unidades de la muestra fueron
clasificadas correctamente.
Una vez que se traza el Eje Discriminatorio se establece un centroide (media de un grupo).
En el punto medio de la proyeccin de ambos centroides y perpendicular al Eje se traza
imaginariamente la lnea discriminante que separa a los grupos, cortando al Eje Discriminante
en un punto o valor y este es el valor lmite entre los grupos. A partir de este se puede predecir a
qu grupo pertenecern nuevos integrantes dependiendo de los valores que obtengan las
variables independientes que se midieron.

Vous aimerez peut-être aussi