Vous êtes sur la page 1sur 82

INSTITUTO TENOLOGICO DE LA PAZ.

Memoria de estadstica
inferencial I
Desarrollo de las unidades del curso.
Hirales Geraldo Jorge.
10/12/2013

Portada.

Nombre: Hirales Geraldo Jorge.

Carrera: Ingeniera industrial.

Maestro: Leiva Arango Isidro Jos

Escuela: Instituto tecnolgico de la paz.

Grado y grupo: 3-B

La paz B.C.S.

ndice.

Unidad 1. Distribuciones fundamentales para el


muestreo.

Unidad 2Estimaciones.

Unidad 3.. Pruebas de hiptesis.

Unidad 4.. Prueba de bondad de ajuste.

Unidad 5.. Regresin lineal simple y mltiple.

UNIDAD 1
Conceptos bsicos:
Estadstica descriptiva: recopila, ordena, agrupa, analiza y representa datos.
Estadstica Inferencial: infiere en muestras en base a N para la toma de
decisiones.
Parmetro: medida para describir cualquier caracterstica con respecto a la
poblacin.
Estadstico: medida para describir cualquier caracterstica con respecto a la
muestra.
Parmetro
=media poblacional
=Desviacin poblacional
2 =Varianza poblacional

Estadstico
x =media muestral
s =desviacin muestral
s 2 =varianza muestral

TIPOS DE MUESTREO
Muestreo probabilstico
Los mtodos de muestreo probabilsticos son aquellos que se basan en el
principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra
y, consiguientemente, todas las posibles muestras de tamao n tienen la
misma probabilidad de ser seleccionadas. Slo estos mtodos de muestreo
probabilsticos nos aseguran la representatividad de la muestra extrada y son,
por tanto, los ms recomendables. Dentro de los mtodos de muestreo
probabilsticos encontramos los siguientes
Tipos:
1.- Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada
individuo de la
poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa,
tablas de nmeros aleatorios, nmeros aleatorios generados con una
calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario
para completar el tamao de muestra requerido. Este procedimiento, atractivo
por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que
estamos manejando es muy grande.
2.- Muestreo aleatorio sistemtico:
Este procedimiento exige, como el anterior, numerar todos los elementos de la
poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se
parte de ese nmero aleatorio, que es un nmero elegido al azar, y los
elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k,
i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el
resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k=
N/n. El nmero i que empleamos como punto de partida ser un nmero al azar
entre 1 y k. El riesgo este tipo de muestreo est en los casos en que se dan
periodicidades en la poblacin ya que al elegir a los miembros de la muestra
con una periodicidad constante (k) podemos introducir una homogeneidad que
no se da en la poblacin. Imaginemos que estamos seleccionando una muestra
sobre listas de 10 individuos en los que los 5 primeros son varones y los 5
ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10
siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una
representacin de los dos sexos.
3.- Muestreo aleatorio estratificado:
Trata de obviar las dificultades que presentan los anteriores ya que simplifican
los procesos y suelen reducir el error muestral para un tamao dado de la
muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos)
que poseen gran homogeneidad respecto a alguna caracterstica (se puede

estratificar, por ejemplo, segn la profesin, el municipio de residencia, el sexo,


el estado civil, etc.). Lo que se pretende con este tipo de muestreo es
asegurarse de que todos los estratos de inters estarn representados
adecuadamente en la muestra. Cada estrato funciona independientemente,
pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el
estratificado para elegir los elementos concretos que formarn parte de la
muestra. En ocasiones las dificultades que plantean son demasiado grandes,
pues exige un conocimiento detallado de la poblacin. (Tamao geogrfico,
sexos, edades,...). La distribucin de la muestra en funcin de los diferentes
estratos se denomina afijacin, y puede ser de diferentes tipos: Afijacin
Simple: A cada estrato le corresponde igual nmero de elementos mustrales.
Afijacin Proporcional: La distribucin se hace de acuerdo con el peso (tamao)
de la poblacin en cada estrato. Afijacin ptima: Se tiene en cuenta la
previsible dispersin de los resultados, de modo que se considera la proporcin
y la desviacin tpica. Tiene poca aplicacin ya que no se suele conocer la
desviacin.
4.- Muestreo aleatorio por conglomerados:
Los mtodos presentados hasta ahora estn pensados para seleccionar
directamente los elementos de la poblacin, es decir, que las unidades
mustrales son los elementos de la poblacin. En el muestreo por
conglomerados la unidad muestral es un grupo de elementos de la poblacin
que forman una unidad, a la que llamamos conglomerado. Las unidades
hospitalarias,

DIFERENCIAS ENTRE PROPORCIONES POBLACIONALES VS


PROPORCIONES MUESTRALES
Formulas factor de continuidad y correccin:
P

x
N
Pq
n

( P1 P) 2

P1q1 P2 q2

n1
n2

N n
N 1

Proporcin muestral:
p

x
n

Cota de error de la produccin:

E P
2

Pq
n

Pq
2

E2

Problemas.
1. Estudios realizados demuestran que el uso de gasolina para autos
compactos vendidos en estados unidos esta normalmente distribuidos con una
media de 25 y una varianza de 4.5
Qu porcentaje de autos compactos recorre 30 millas por galn o ms?
P=?
Formula:
xM
Z

0.5

30 25.5
1
4.5

0.5
30

M 25.5

A(Z ) A(1) 0.5 0.3413 0.158

68%
0.341

Z 1

0.341

Z 1

Z 1

2. Se toma como muestra aleatoria de n=36 de una distribucin de con una


M=75 y con una =12.
a) La distribucin muestral de la media x ser aproximadamente _80__
con una M=_75__ y = __2___
b) Para hallar la probabilidad de que la media muestral x exceda de 80,
anote el evento de inters__0.62%___

USO DE t DE ESTUDENT.
Formulas:
Con 2 conocida con conocida.
x

n 30 Z

Con 2 desconocida con desconocida.

n 30 t

x
s
s
x
n

(x )

n 1

n 1 =grados de libertad (gl,D,v, df)

DISTRIBUCIN MUESTRAL DE LA PROPORCIN MUESTRAL.


Formulas:

N n
N 1

np npq 2 npq
Z

pP
pq
p
n

N n
N 1

Problemas:
1. Muestras aleatorias de tamao n se seleccionaron en poblaciones
binomiales con parmetros P poblacionales dados aqu. Encuentre la media y
la desviacin estndar de la distribucin muestral p en cada caso para n=100 y
P=0.3; n=400 y P=0.1

? ?

np 100(0.3) 30 (400)(0.1) 40

npq (100)(0.3)(0.7) 4.56 (400)(0.1)(0.9) 6

DEFINICIN DE LA DISTRIBUCIN DE LA MEDIA MUESTRAL.


Supongamos que cada una de nuestras muestras consta de 10 ingenieros
industriales de 25 aos de edad que viven en una ciudad de 100 mil habitantes
(una poblacin infinita, de acuerdo con nuestro tratamiento). Al calcular la altura
media y la desviacin estndar de esa altura, para que cada uno de estos
ingenieros, rpidamente observaran que la media y la desviacin estndar de
la muestra serian diferentes. Una distribucin de probabilidad de todas las
medias posibles de las muestras, es una distribucin de las medias de las
muestras. Los estadsticos la conocen como distribucin de muestreo de la
media.
Sugerencia
El conocimiento de la distribucin de muestreo permite a los estadsticos
planear muestras de tal forma que los resultados sean significativos. Como
sabemos que resulta caro recabar y analizar muestras grandes, por eso
nosotros como ingenieros siempre procuramos obtener las muestras ms
pequeas que proporcionen un resultado confiable.

Problemas:
1. La hall corporation fabrica grandes sistemas de computo y siempre se
ocupado con la confiabilidad de sus unidades de procesamiento centros de
sistemas 666. De hecho la experiencia pasada ha mostrado que el tiempo
improductivo mensual de los CPU 666 promedio 41min. Con la desviacin
estndar de 8 min. El centro de cmputo de una gran universidad estatal
mantiene una instalacin formada por 6 CPU del sistema 666 James Kitchen, el
director del centro siente que se proporciona un nivel satisfactorio de servicio a
la comunidad universitaria si el tiempo improductivo promedio de las 6 CPU es
menor de 50 min. Al mes. Dado cualquier mes cual es la probabilidad se
sienta satisfecho con la red de servicio?

41m 8 min n 6 p( x 50 )
Z

50 41
2.755 area 0.497 0.5 0.997 99 .7%
8
6

2. El costo de las prescripciones de


patentes se fija para dar apoyo a
investigaciones yn desarrollo de estos medicamentos, que se pueden tardar
hasta 20 aos. Sin embargo una mayora de personas de cierto pas dice que
los costos de medicamento de patentes (66%), los costos de hospital (64%) y
las visitas de mdicos (55%) son irracionalmente altos. Suponga que se toma
una muestra aleatoria de 1000 adultos. Se la p (proporcin muestral) la
proporcin de adultos que dicen que los precios de medicinas con recetas son
irracionalmente altos.
Cul es la probabilidad de que p exceda de 68%? p ( p 0.68 )
Datos:

n 1000 p =660 (66%)


Z

P=680

pP
660 680

1.335
pq
(680)(320)
n
1000

3. Utilizar las tablas de reas bajo la curva normal entre los valores dados:
Z 0.3 y Z 1.56
=0.1179

=0.4406----------0.4406-0.1179=0.3227= 32.27%

Z 1.3 y Z 1.74
=0.4032
=0.4591-----------0.4032+0.4591=0.8623=86.23%
4. Se diseo un nuevo sistema para el control de inventario de un pequeo
fabricante, con el propsito de reducir el mismo para un motor elctrico en
particular, a menos de 3 000 motores por da. Se llevo a cabo un muestreo de
inventario en reserva al final de cada uno de 8 das, seleccionados
aleatoriamente; los resultados son los que se muestran en la siguiente tabla.
Numero de motores
2905

2895

2725

3005

2835

2835

3065

2605

Utilizando la distribucin de muestreo respectivo seale o indique mediante una


grafica si hay evidencia que seale el promedio del numero de motores en el
inventario es menor que 3 000 utilizando un coeficiente de confianza de 95% y
un nivel de significancia de 5%
Datos:

n 8 0.05

0.025 3000 gl n 1 7
2

Condicin: p( x 3000 ) x 2858 .75 2859 s 146 .76

x 2859 3000

2.7172
s
146 .76
n
8

Aumento la confianza y disminuyo la significancia, si hay suficiente evidencia a la


pregunta.

0.05

t 1.9
t 2.7172

5. Los costos variables, principalmente de la mano de obra, hacen que los


precios de la construccin varen de una con respecto a otra.
Un constructor necesita tener una ganancia media arriba de 8500 DLL para
alcanzar una ganancia mensual establecida como meta. Las ganancias por
cada una de las 5 construcciones ms recientes del constructor, son de 8760
DLL, 6370 DLL, 9620 DLL, 8200DLL y 10350DLL, respectivamente.
Proporcionan los datos evidencia que indique que el constructor estaba
trabajando al nivel de ganancia deseado con un nivel de significancia de
0.05 ?
Datos:
n 5 0.05 8500 gl n 1 5 1 4
Condicin: p( x 8500 )

x 8660 s 1520 .148

x 8660 8500

0.2353
s
1520 .148
n
5

0.95

El nivel de significancia
t 2.13

Se encuentra entre 40% y 45%


t 0.2353

DISTRIBUCIN DE MUESTREO DE LA DIFERENCIA DE MEDIAS.

Formulas:
Z

x1 x 2

12
n1

22

n2

x x
2

S1
S2
2
n1 n2

Para muestras pequeas:


t

x1 x2

n1

n2

x1 x2
x1 x2

1 1
1 1

n1 n2
n1 n2

= Estimador ponderativo de la desviacin:

(n1 1) s (n2 1) s
n1 n2 2
2
1

2
2

i 1

i 1

n1 1

i 1

n1 n2 2
n

( xi x1 ) 2

( xi x1 ) 2 ( xi x 2 ) 2

( xi x 2 ) 2

i 1

n2 1

Problemas:

1. Se seleccionaron dos muestras aleatorias independientes de las


poblaciones:
n1 80
n2 80
Los parmetros de las poblaciones y las medias mustrales as como las
variables de 2 mustrales se indican en la tabla:
Poblacin
Parmetros y estadsticos
1
2
2
1
Media poblacional
2
1
Varianza poblacional
Tamao de la muestra
80
80
Media muestral
11.6
9.7
Varianza muestral
27.9
38.4

Observe los datos y por intuicin diga si los datos proporcionan Suficiente evidencia
para que M 1 M 2 y realice la prueba utilizando un nivel de significacin de 0.10 y
sacar conclusiones:
Condicin: 1 2

x x
2

S1 S 22

n1 n2

11 .6 9.7
27 .9 38 .4

80
80

2.087

0.90

z 1.29
z 2.08

Conclusin: si existe suficiente evidencia de que si hay un incremento de la madia


poblacional 1 con respecto a la 2. Con nivel de significancia de 0.10

DISTRIBUCIN DE MUESTREO CON RESPECTO A 2 PROPORCIONES


POBLACIONALES.
p1 p 2

p1

p1 q1 p2 q2

n1
n2

x1 x2
n1 n2

x1
n1

p2

x2
n2

p1 p 2
1
1
p q
n1 n2

Problemas:
1. El administrador de un hospital conjetura que el porcentaje de cuentas
hospitalarias no pagadas, aumento durante el ao anterior; los registros del
hospital muestran que las cuentas de 48 de 1284 personas admitidas en el mes
de abril no haban liquidado despus de 90 das; este nmero es similar a las
34 cuentas de 1002 pacientes admitidas durante el mismo mes del ao anterior
con estos datos hay suficiente evidencia que indique un incremento en el
porcentaje de cuentas liquidadas despus de ms de 90 das? Utilice nivel de
significancia de 0.10
Datos:
n1 1284 n2 1002
x1 48 x2 48

p1

x1
48
x
34

0.037 p2 2
0.034 q 1 p 0.965
n1 1284
n2 1002

x1 x2
48 34

0.035
n1 n2 1284 1002

0.037 0.034
1
1
(0.035)(0.965)

1284 1002

0.387

0.037 0.034
(0.037)(0.965) (0.034)(0.966)

1284
1002

0.385

Z 0.385

0.90

Z 1.29

La significancia aumento, por lo tanto los datos no son suficientes para indicar
que la proporcin de cuentas excede al % correspondiente al ao anterior.

2. Un fabricante modifico una lnea de produccin para reducir el promedio de


la fraccin de defectuosos. Para determinar si la modificacin fue efectiva, el
fabricante saco una muerta aleatoria de 400 artculos antes de la modificacin
de la lnea de produccin, y otra muestra aleatoria de 400 artculos despus de
tal cambio. Los porcentajes de defectuosos en las muestras eran: antes 5.25%,
despus 3.5%, lleve a cabo la prueba y saque sus conclusiones, si la
modificacin no pudiera incrementar la fraccin de defectuosos, utilice un nivel
de significancia de 0.05.
Datos:
n1 400 n2 400
x1 21 x2 14

0.90
Z 1.65

p1 0.0525 p2 0.035

x1 x2
21 14

0.04375 q 0.95625
n1 n2 400 400
0.0525 0.035
1.2
(0.0525 )( 0.9475 ) (0.035 )( 0.965 )

400
400

Nuestra significancia aument.

Z 1.2

DISTRIBUCIN DE MUESTREO PARA LA PROPORCIN POBLACIONAL.

Parte de Z

p p
pq
n

Problemas:
1. Aproximadamente uno de cada 10 favorece el refresco de cola de marca A.
Despus de una campaa de promocin en una regin de ventas dadas, se
seleccionaron aleatoriamente 200 bebedores de ese producto, de los
consumidores en el rea del mercado, y se les entrevisto para determinar la
efectividad de la campaa. El resultado de la encuesta mostro que un total de
26 personas expresaron su preferencia a la bebida de la marca A.
Son los datos suficientes para indicar un aumento en la aceptacin de la
marca en la regin? Nivel de significancia de 0.10:
Datos:
n1 200

26
0.13
200

p1

1
0.10
10

p p

pq
n

0.13 0.10
1.4121
(0.10)(0.10)
200

Conclusin:
Significancia disminuyo:
Hay suficiente evidencia.

Z 1.29

Z 1.4142

DISTRIBUCIN DE MUESTRA PARA UNA VARIANZA PROPORCIONAL


(CHI-CUADRADA) X 2
Problemas:

1. Un fabricante de cemento afirmo que el concreto preparado con su producto


tendra una resistencia a la compresin relativamente estable y que, medida en
KNC 2 se ubicara en una amplitud de 40. Una muestra de 10 mediciones arrojo

una media x 312 y una varianza 2 195 .


Son suficientes los datos para rechazar la afirmacin del fabricante?
Datos:
n1 10 gl n 1 9 2 10

c2

(10 1)(95)
17.55
100

Regla de decisin:

16.91

17 .55 16 .91 Si, aumento confiabilidad y disminuyo significancia.


2
c

PRUEBAS DE LA RAZN DE VARIANZA:


DISTRIBUCIN DE MUESTREO (ENTRE DOS VARIANZAS) f DE FISHER.
Problemas.
1. La variabilidad en la cantidad de impurezas presentes en un lote de
productos qumicos, utilizado para un proceso particular, depende del tiempo
que tarda el proceso.
Un fabricante que emplea 2 lneas de produccin 1 y 2 hizo un pequeo ajuste
al proceso 2 con la esperanza de reducir la variabilidad, as como la cantidad
media de impurezas en los productos qumicos. Muestras de n1 25 y n2 25 ,
mediciones de 2 lotes produjeron los siguientes medias y varianzas.

x1 3.2 y S12 1.04

x2 3.0 y S22 0.51

Presentan los datos evidencia suficiente para indicar que las variaciones de
proceso son menores para el 2? Nivel de significacin 0.10

Formulas: Fc

s12
(razn de varianzas)
s22

2
2
(numerador) s1 s2

(numerador)

s22 s12

v1 gl n1 1
v2 gl n2 1
Fc

gl 25
gl 24

1.70 (Terica)

1.04
2.03
0.05

Se redujo el nivel de significancia


f 1.70
fc 2.03

UNIDAD 2.
Intervalos.
Formulas:
Intervalo de confianza para cuando y 2 conocido n 30
x Z

x Z
2

S
S
x Z
n
n
2

x Z

Intervalo de confianza para cuando y 2 desconocidos


S
S
x t
n
n
2

x t
2

Intervalo de confianza para proporcin poblacional

p Z
2

pq
P p Z
n
2

pq
n

pq
P p t
n
2

p t
2

pq
n

Diferencias de 1 2 (Muestras) poblacionales

x1 x 2 Z
2

x1 x 2 t
2

12
n1

22
n2

1 2 x1 x 2 Z
2

12
n1

22
n2

S12 S22
S2 S2

1 2 x1 x 2 t 1 2
n1 n2
n1 n2
2

1 1
x1 x 2 t Sp 1 2 x1 x 2 t Sp
n1 n2
2
2

Estimador ponderativo------ Sp

1 1

n1 n2

Varianza diferente

Varianza igual

(n1 1) s12 (n2 1) s22


n1 n2 2

Diferencias entre proporciones poblacionales


p q
p q2
P1 P2 p1 p 2 t Sp
p1 p 2 t Sp 1 1 2
n
n
1
2

2
2

n 1S 2
X 2h sup erior

n 1S 2
X 21h inf erior

Para la varianza

p1 q1 p 2 q 2

n
n
1
2

n 1S 2 n 1S 2
2
2
X

Para la desviacin

1hi

S12 1
12 S12

fV V
S22 fV1V2 22 S22 1 2

Para la razn de varianza

Cota del Error mximo permisible

E Z

E Z
2

Pq
n

Determinacin del tamao de la muestra

Z 2
2

E2

Determinacin del tamao de la muestra para proporciones


n

Z 2h Pq
E2

INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL.


Problemas:
1. Encuentre un intervalo de confianza (1 ) 100% para una media
poblacional en los siguientes casos:
a) Cuando 0.01 n 38 x 34 s 2 12 s 3.42
Al 99% con rea de 0.4950

z 2.58
2

x Z
2

34 (2.58 )

x Z

3.46
3.46
34 (2.58 )
32 .55 35 .44
38
38

b) 0.10 n 65 x 1049 s 2 51
Al 90% con rea de 0.45

z 1.65
2

1049 (1.65 )

7.1414
7.1414
1049 (1.65 )
1047 .49 1050 .5
61
61

2. Una muestra aleatoria de n=6 observaciones de una poblacin normal


gener los siguientes datos: 3.7, 6.4, 8.1, 8.8, 4.9, 5.0

0.10 n 6 x 6.15 s 2 3.95 s 1.98 gl n 1 6 1 5


a. Encontrar un intervalo de confianza al 90% para
x t
2

S
S
x t
n
n
2

6.15 (2.02 )

1.98
1.98
6.15 (2.02 )
6
6

4.5 7.78

0.90
t 2.02
2

t 2.02
2

3. Se encuentra que la concentracin promedio de Zinc que se saca del agua a


partir de una muestra de mediciones de zinc en 36 sitios diferentes es de
2.6g/ml, encuentre los intervalos de confianza de 95% y 99% para la
concentracin media de zinc en el sitio. Su pngase que 0.3
a. 0.3
b. Qu tan grande se requiere una muestra si queremos tener 95% de
confianza de que nuestra estimacin de difiera al menos de 0.05
Datos:

n 36 x 2.6 g / ml 2 0.09 0.3

x Z

x Z
2

0.95
z 1.96

Al 95% con rea de 0.475

z 1.96
2
0.3
0.3
2.6 (1.96 )
2.6 (1.96 )
2.50 2.69
36
36

z 1.96
2

Al 99% z 2.58
2

2.6 (2.58 )

z 2.58

Para determinar la muestra:


Calcular: E Z
2

De: E Z
2

1.96

0.3
0.098
0.098
0.5
36
pero al ser intervalo-- 2

n 2
n despejar
E

1.96 (0.3) 2
36

0
.
098

Para obtener muestra mxima al 95%:


2

Z S 2
2

E2

0.99

0.3
0.3
2.6 (2.58 )
2.47 2.73
36
36

(1.96 ) 2 (0.3) 2
138
(0.5) 2

z 2.58
2

INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS.


Problemas:
1.Los siguientes datos representan el nmero de artculos producidos por el
mtodo 1 y mtodo 2.
Mtodo 1
103

94

Mtodo 2
97
82

110

87

123

92

98

175

88

118

Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos
de proporcin de duracin promedio de los 2 mtodos.
Metodo 1 Metodo 2
n1 5
n2 7

gl 7 5 12
x 110.7
gl 12 2 10
S 2 32.18

x 98.4
S1 8.73

2
1

76.21 21 103.5
2

x1 x 2 t
2

S12 S 22

1 2 x 1 x 2 t
n1 n2
2

S12 S 22

n1 n2

98 .4 110 .7 1.81 76 .21 1035 .55 1 2 98 .4 110 .7 1.81 76 .21 1035 .55
5

12.3 23.13 1 2 12.3 23.12


35.42 1 2 10.8

INTERVALO DE CONFIANZA PARA LA PROPORCIN POBLACIONAL.


Problemas:
Problemas:
1. En una muestra aleatoria de 500 familias que se tienen televisiones en una
ciudad x se encuentran que 340 estn suscritas en mega cable, se encuentra
un intervalo de confianza de 99% para la proporcin real en familias que estn
suscritas a mega cable.

n 500
x 300
x 340
p
0.68
n 500
99%

pZ

0.680.32
pq
p 0.68 2.58
n
500

0.626 p 0.7338

Qu tan grande se sugiere que sea una muestra si queremos tener un 99%
de confianza de que muestra estimacin P este entre 0.02?
Z 2 p q 2.58 2 0.68 0.32
2
n

3621
E2
0.02 2

E Z

pq
2.58
n

0.68 0.32 0.05


500

0.05
0.2
2

INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES.


Problemas:
1.Encontrar el intervalo de confianza para la diferencia entre dos proporciones
poblacionales con un coeficiente de confianza de 0.95.

p 0.73

n
x

1
1

0.73

p 0.67

n
620.5 x

1
1

850
569.5

p q
p q2
P1 P2 p1 p 2 t Sp
p1 p 2 t Sp 1 1 2
n
n
1
2

2
2

.73 .67 1.96

0.73 0.27 0.67 0.33


0.73 0.27 0.67 0.33

P1 P2 .73 .67 1.96

850
850
850
850

0.016 p1 p2 0.104

0.16

p1 q1 p 2 q 2

n
n
1
2

0.104

0.67

0.73

INTERVALOS DE CONFIANZA PARA LA RAZN DE VARIANZAS.


Problemas:
Dados los siguientes datos obtener un intervalo de confianza para la razn de
varianzas:

n
n

1
2

10
8

v n 1 10 1 9
v n 1 8 1 7
1.04

90%

S
S

2
1
2
2

0.51

0.05

S12 1
12 S12

fV V
S 22 f V1V2 22 S 22 1 2

0.95

2
1.04 1 1 1.04

3.29 0.5541
2
0.51 3.68 2 0.51

6.70

INTERVALOS DE CONFIANZA PARA LA VARIANZA.


Problema:
Dados los siguientes datos, obtener un intervalo de confianza para la varianza
con la distribucin de Chi 2

n 10 gl 9 s 2 195 0.05
Al 95% X 2 19
2

n 1S 2
X 2h sup erior

0.99

n 1S 2
X 21h inf erior

10 1195 2 10 1195 92.3 2 650


19

2.7

(1 )
2

2.7

X 2 2 19

UNIDAD 3
Prueba de hiptesis.
Ho: Hipotesis nula
Ha: Hipotesis alternativa
No existe
No hay riesgo
No hay verificacin
0.95

I (B)
Regin

Si hay evidencia
aceptada

Si hay significacin
-1.96

(-)

+1.96

Regin de rechazo

Si hay riesgo

(+)

Error de tipo I () Rechazar (Ho)


Error de tipo II (B) Aceptacin (Ho)
Prueba unilateral o de una cola pero superior

1ra

2do

0.95

0.95
I ()

0.5000

=0.05

0.4500

0.4500
1.65
(+)

0.5000

-1.65
I (-)

Prueba unilateral o de una cola pero superior


Una hiptesis estadstica
Una hiptesis estadstica: es una aseveracin o conjetura con respecto a una o
ms poblaciones.

La verdad o falsedad de una hiptesis estadstica nunca se sabe con absoluta


incertidumbre a menos que examinemos toda la poblacin. Esto, por supuesto,
sera poco prctico en l mayora de las situaciones. En su lugar, tomamos una
muestra aleatoria de la poblacin de inters y utilizamos los datos contenidos
en esta muestra para proporcionar evidencia que apoye o no la hiptesis. La
evidencia de la muestra que es inconsistente con la hiptesis que se establece
conduce al rechazo de esta, mientras que la evidencia que la apoya conduce a
su aceptacin.
Debe quedar claro que el diseo de un procedimiento que decisin se debe
hacer con la idea en mente de la probabilidad de una conclusin errnea.
Debemos acostumbrarnos a comprender Que la aceptacin de una hiptesis
simplemente implica que los datos no dan suficiente evidencia para
rechazarla. Por otro lado, el rechazo implica que la evidencia muestra la
recluta. Dicho de otra forma el rechazo significa que hay una pequea
probabilidad de obtener la informacin muestra observada cuando, la hiptesis
es verdadera.
Hiptesis Nula: Esta se refiere a cualquier hiptesis que deseamos probar y se
denota (Ho). El rechazo de la hiptesis nula conduce a la aceptacin de una
hiptesis alternativa, que se denota (HA). Una hiptesis nula con respecto a un
parmetro poblacional siempre se establecer de modo que especifique un
valor exacto del parmetro mientras que la hiptesis alternativa permite la
probabilidad de varios valores.
PRUEBA DE HIPOTESIS PARA LA MEDIA CUANDO 2 ES CONOCIDA. n
30=

Ho: M=Mo
02
Analiza si es una prueba

Desconocidas 0
t= estudent

Dos extremos

Un extremo

Ho: M=Mo

Ho: MMo

HA: MMo

HA: M>Mo , HA: M<Mo

Establecer tu nivel de significancia


HA: M<Mo

(1)

(2)

-/2

+/2

Estadstico de prueba.
X M
=
O
n
t
=

(3)

-/2

/2

X M
S
n

Regla de decisin / Regin de Rechazo

Dos extremos

Un extremo

c>/2

c>/2

tc>t/2
c</2
tc<t/2

tc>t/2
gl= n-1

HA: M>Mo

c</2
tc<t/2

Problemas:
Problemas:
1. Una empresa elctrica fabrica focos que tienen una duracin que se
distribuyen de forma aproximadamente con una media de 800 hrs, 0=40 hrs.
Pruebe la hiptesis de que la Mo= 800 contra la M800 si una muestra
aleatoria de 30 focos tiene una duracin promedio de 788 hrs. Utilice un nivel
de significancia de =.04
Datos
M: 800 hrs

media poblacional

O: 40 hrs
Ho: M=800
HA: M800
n: 30

X : 788 media muestral


= 0.04

Ho: M=800

HA= M800

Un Extremo

Dos Extremo

0.96
=

=0.02

=
0.4800

0.4800

=-0.02
c=-1.64

2.06
1.64

=0.02

X M 788 800
=
= -1.64
40
O
n
30

Zc=

Regla de decisin
Zc> Z

2
1.64 >2.06

NO

Zc< Z

2
-1.64<-2.06
NO
Se acepta Ho

3. Proporciona los datos evidencias suficiente que seale una diferencia en el


incremento medio diagnostico para PNB, hechas por ejecutivos de
corporaciones y analistas del mercado accionario realice la prueba con =0.10
obtenga el valor de P aproximado para la prueba interprete. Encuentre un
intervalo de confianza de 90% para la diferencia entre las predicciones del
producto nacional Bruto (PNB) promedio de los ejecutivos de corporaciones y
analistas de mercado accionario.
n1=5
n1=5
=3.44
X =3.44
S=0.41
S=0.41
S2= 0.1681
S2= 0.1681
=0.10
gl= n1+n2-2

t=1.40

gl= 5+5-2

Porque nada ms es una


cola

gl= 8
-

Ho: M1-M2 =Do

HA: HA M1-M2<Do
Sp

n 1S12 n2 1S12
n1 n 2 2

5 10.1681 5 10.0961

Sp

552

Sp= 0.36

X 1 X 2 Do 3.44 3.68 0

t=

Regla de decisin regin de rechazo

1
1
Sp

n1 n2

tc<t
-1.05<-1.40 NO
Se acepta Ho

gl=8
1.40

1 1
0.36

5 5

= 1.05

No se rechaza

0.20
.889

P= 0.889
B) 0.10<P<0.20
C) X 1 X 2 t

1
1

Sp

M1 M 2 X1 X 2 t
2
n1 n2
2

3.44-3.68-(1.86)(0.36)
-0.66<M1-M2<0.18

1
1

n1 n 2

1 1
<M1-M2<3.44-3.68+(1.86)
5 5

(0.36)

1 1

5 5

PRUEBA DE HIPOTESIS PARA UN PROPORCIN POBLACIONAL.


1.- establece tu hipotesis o Ho: P=Po
1. Ho: P=Po
Un extremo

2 colas

Unilateral

Bilateral

2.- HA: P>Po HA: PPo


HA: P<Po
3.-

/2

ESTADISTICO DE PRUEBA
4.- =

tc=

P Po
Poqo
n
P Po
Poqo
n

5.- REGIN DE RECHAZO O REGLA DE DECISIN


Un extremo
Zc> Z
Tc > t
Zc< -Z

Dos colas

/2

Problemas:
1. Aproximadamente uno de cada 10 consumidores favorecen el refresco de
colo marca A. Despus de una campaa de promocin en una regin de ventas
dada, se seleccionaron aleatoriamente bebedores de ese producto de los
consumidores en el rea del mercado, y se les entrevisto para determinar la
efectividad de la campaa. El resultado de la encuesta mostro que un total de
26 personas expreso su preferencia para la bebida marca A. Son los datos
suficientes para indicar un aumento en la aceptacin de la marca A en la
regin.
Datos
n= 200
1
0.10
10

P=

P=

26
0.13
200

= 0.05

0.95
=0.05
0.5000

0.4500
1.65

Ho: P=0.10 un extremo


HA: P>.10
P Po
0.13 0.10

1.41

Po qo
(0.10 )( 0.90 )
n
200

REGLA DE DECISION
Zc > Z
1.41 > 1.65 No
Se Acepta Ho

0.92

0.5000

0.4200

= 0.08

Z= 1.41

2. Una muestra aleatoria de n=1400 observaciones de una poblacin binomial


produjo 529.
a) Que escoger como Ho (hiptesis nula) y como HA (hiptesis alternativa).
Si la hiptesis de investigacin es que P difiere de 0.4
P0.4
b) Implica la hiptesis alternativa del inciso anterior una prueba de un
extremo o 2 extremos.
c) Es esta evidencia suficiente para indicar que P difiere de 0.4. realice la
prueba con
Datos
N= 1400
X= 529

529
0.37
1400
p 2 0 .4
p

0.90

0.10

0.05

0.05

-1.65

Zc

p p
p0 q0
n

Zc Z

0.37 0.4
2.3
0.40.62
1400

2 Zc 1.65 Se rechaza hiptesis nula


2.3 1.65

1.65

PRUEBA DE UNA HIPTESIS PARA UNA DIFERENCIA DE


PROPORCIONES POBLACIONALES.
Ho : (P1 P2) = Do
HA : (P1 P2) > Do
HA : (P1 P2) < Do

Se seleccionaron muestras aleatorias independientes n1 = 140


observaciones de 2 poblaciones binomiales, respectivamente. El numero
de xitos en las muestras y los parmetros poblacionales se muestran
en la tabla siguiente y parmetros.
Estadstico y parmetro
Tamao de la muestra
No exitosos
Parmetro Binomial

1
140
74
P1

2
140
81
P2

a) Supngase que no tiene una medida preconcedida acerca de cul de los


parmetros P1 o bien P2 es el mayor, y que solamente quiere detectar
una diferencia entre los dos parmetros si existe.
Qu tendra que escoger como HA para una prueba estadstica?
Qu para la Ho?
b) Implica su HA en el inciso a) una prueba de 1 o de 2 colas
c) Lleve a cabo la prueba y saque conclusiones 0.05
n1 = 140

n2 = 140

X1 = 74

X2 = 81

0.52 0.57 0
0.52 0.48 0.57 0.43
140
0.025

140

0.84

-1.96

1.96
Regla de decisin

Se acepto hiptesis nula

-0.84

0.84

UNIDAD 4

PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO


PARAMTRICAS
PRUEBA DE X2PARA BONDAD DE AJUSTE

La hiptesis ms sencilla acerca de las probabilidades multinomiales de las


celdas es la que especifica los valores numricos para cada una de ellas.
Por ejemplo: Si en el experimento multinomial intervienen K= 4 celdas,
podramos querer probar la hiptesis nula como:
Ho:P1=0.2
Ho:P2=0.4
Ho:P3=0.1Ho:P4=0.3
Contra la hiptesis alternativa de que por lo menos 2 de las probabilidades de
las celdas difieren de los valores especificados de la hiptesis nula.
Teorema
Una prueba de bondad de ajuste entre las frecuencias observadas y esperadas
se basa en la cantidad de las 5 frecuencias observadas menos las observadas
al cuadrado.

Donde
es un valor de una variable aleatoria, cuya distribucin muestral se
aproxima muy de cerca con la distribucin
.
La prueba se basa en que tan buen ajuste tenemos entre la frecuencia de
ocurrencia de las observaciones en una muestra observada y las frecuencias
esperadas que se obtienen a partir de la distribucin hipottica.

Ejemplo: supngase que los clientes pueden escoger entre 3 marcas de leche
en un supermercado. En un estudio para determinar si hay preferencia para
una marca, se registran los resultados de una muestra de n=300 compras de
leche. Se muestran los datos en la tabla siguiente:

Marca 1

Marca 2

Marca 3

Fo

Fe

Fo

Fo

78

100

117

Fe
100

105

Fe
100

Con los datos hay evidencia suficiente que indique preferencia por una a ms
marcas?
Ho:P1= P2 = P3
HA:P1 P2
FE=np =

( )
0.95

=np
0.05

P=
5.99

Se acepta Ho
*Si existe suficiente evidencia que indique a un nivel de significancia de 0.95.
Concluimos que las 3 marcas de leche no tienen la misma preferencia.

Ejercicio: Los funcionarios de una comunidad en particular, buscan un


programa federal con el cual esperan que aumenten los niveles de ingresos
locales. Como justificacin, los pobladores de la ciudad afirman que la
distribucin de los ingresos locales difiere sustancialmente de la distribucin
nacional y que los ingresos tienden a ser menores de lo esperado. Se
clasificaron y se compararon los ingresos de una muestra aleatoria de 2000
familias, con los porcentajes nacionales que se muestran en la tabla siguiente:
Datos de los Ingresos

Ingreso

Porcentajes Nacionales

Salario en la ciudad

Ms de $50,000

27

$25,000 hasta $50,000

16

193

$20,000 hasta $25,000

13

234

$15,000 hasta $20,000

19

322

$10,000 hasta $15,000

20

568

$5,000 hasta $10,000

19

482

Menos de $5,000

11

174

Total

100

2000

Es esta suficiente evidencia para indicar que la distribucin de los ingresos por
familia de la ciudad difieren e la distribucin nacional. =0.05
Ho:P1= P2 = P3=P4= P5= P6= P7
HA:P1 P3

Se rechaza Ho
Si existe suficiente evidencia a=0.05 que los ingresos difieren de los de la
ciudad.

A= 0.5

12.6

ANLISIS JI-CUADRADA
PRUEBA DE INDEPENDENCIA
ji-cuadrado
En una prueba de independencia el nico nmero que el investigador controla
directamente es el tamao total de la muestra. Se extrae una muestra de
tamao n de la poblacin y cada objeto se clasifica segn las dos variables que
se estudian. Ni las frecuencias de cada celda, ni los totales de fila y columna se
conocen de antemano.
El investigador no fija previamente ningn conjunto, es decir, son aleatorios.
El planteamiento de las Hiptesis ser:
H 0 : A y B son independientes
H 1 : A y B no son independientes

Independencia significa que el conocimiento del nivel de clasificacin de un


objeto respecto a la caracterstica A no tiene nada que ver con su nivel
respecto a la caracterstica B. Para expresar esta idea matemticamente
utilizamos las probabilidades dadas en la siguiente tabla:
Tabla 2. Tabla de contingencia 2 x 2 con proporciones o probabilidades
Variable 1 (A)
Si
No Total
Variable 2
Si p 11 p 12 p 1.
No p 21 p 22 p 2.
(B)
Total p .1 p .2
1

Se sabe que, para que dos sucesos sean independientes, la probabilidad de


que ocurran ambos a la vez debe ser igual al producto de las probabilidades de
que cada suceso ocurra individualmente.
P[A y B] = P[A]P[B]
O
p 11 = p .1 p 1.

La relacin debe cumplirse para cada celda. Por tanto, la hiptesis nula de
independencia se expresa matemticamente como
i = 1, 2
H 0 : p ij = p i. P .j
j = 1, 2
i = 1, 2
H 1 : p ij ? p i. P .j
j = 1, 2
Comparamos el nmero de observaciones en cada celda con el nmero
esperado, si H 0 es cierta. Si estos nmeros difieren poco, no hay razn para
rechazar H 0 ; si hay una gran discrepancia entre los valores observados y
esperados, entendemos esto como evidencia de que H 0 no es
cierta. Entonces se calcula el valor esperado as:
E ij = np ij

11 =

n 1. n .1
________________________
n

total fila marginal x total comlumna marginal


_________________________
tamao de la muestra

La pregunta es la siguiente: son estas diferencias demasiado grandes como


para que se deban nicamente al azar?
Para responderla necesitamos un estadstico cuya distribucin de probabilidad
sea conocida bajo la hiptesis de que H0 es cierta. El estadstico en cuestin
es:

Prefijamos un nivel de significancia en 0.05


Si el valor p es pequeo (es menor de 0.05); podemos rechazar H 0
Para que las pruebas de Ji-cuadrado sean vlidas, es necesario que las
muestras sean grandes. Es decir que las frecuencias esperadas no sean
menores de 5. Si esto no se cumple, puede utilizarse una prueba para
pequeas muestras llamada prueba exacta de Fischer para contrastar
independencia.
EJEMPLO
Se realiza una investigacin para determinar si hay
alguna asociacin aparente entre la altura de los estudiantes de posgrado y el

xito en sus clases, a juicio de sus profesores. Se selecciona una muestra


aleatoria consistente en 500 estudiantes. Se clasifica a cada estudiante de
acuerdo a dos criterios, la altura y el xito. La tabla de contingencia generada
es la siguiente:
Mayor altura que el promedio poblacional

Exito

Si
No

Si
162
38
200

No
263 425
37 75
300 500

Comparamos el nmero de observaciones en cada celda con el nmero


esperado, si H 0 es cierta:

Datos utilizados para contrastar asociacin entre altura y xito en las clases.
Las frecuencias esperadas aparecen entre parntesis :

Mayor altura que el promedio poblacional

Exito

Si
No

Si
162 (170)
38 (30)
200

No
263 (255)
37 (45)
300

425
75
500

Para saber si las diferencias entre valores halladoz y valores esperados es


significativa entonces aplicamos el estadistico ji-cuadrado:

A partir de la tabla Ji-cuadrado vemos que:


y
Como 4.18 est entre 3.84 y 5.02, el valor p est entre 0.025 (0.975) 0.05
(0.950). El valor p es pequeo, es menor de 0.05. Podemos rechazar H 0 y
concluir que la sobretalla y el xito en las clases no son independientes.

TABLAS DE CONTINGENCIA

El trmino tabla de contingencia se refiere a que las tablas construidas se


usan para contrastar una asociacin o relacin entre dos variables. Las tablas
de contingencia son una forma de presentar datos categricos, con dos o mas
niveles.
Las tablas de contingencia 2 x 2, aparecen cuando cada una de las dos
variables se estudia en dos niveles. Cada observacin del conjunto de datos
cae exactamente en una celda. El anlisis de datos se basa en el examen del
nmero de observaciones que caen dentro de cada categora . Tambin son
llamadas tablas tetracricas, o tablas de conteo.

Variable 1
Si

No

Total

Si

n 11 n 12 n 1.

No

n 21 n 22 n 2.

Variable 2
Total n .1 n .2 n

La notacin cuando estamos en frente de un conteo de frecuencias es:


n 11 = nmero de observaciones dentro de la celda en la fila 1 y la columna 1.
n 12 = nmero de observaciones dentro de la celda en la fila 1 y la columna 2.
n 21 = nmero de observaciones dentro de la celda en la fila 2 y la columna 1.

n 22 = nmero de observaciones dentro de la celda en la fila 2 y la columna 2.


n 1. = n 11 + n 12 = nmero de observaciones en la fila 1
n 2. = n 21 + n 22 = nmero de observaciones en la fila 1
n .1 = n 11 + n 21 = nmero de observaciones en la fila 1
n .2 = n 12 + n 22 = nmero de observaciones en la fila 1
n = nmero total de observaciones

PRUEBAS NO PARAMTRICAS
Se denominan pruebas no paramtricas aquellas que no presuponen una
distribucin de probabilidad para los datos, por ello se conocen tambin como
de distribucin libre (distribution free). En la mayor parte de ellas los resultados
estadsticos se derivan nicamente a partir de procedimientos de ordenacin y
recuento, por lo que su base lgica es de fcil comprensin. Cuando
trabajamos con muestras pequeas (n < 10) en las que se desconoce si es
vlido suponer la normalidad de los datos, conviene utilizar pruebas no
paramtricas, al menos para corroborar los resultados obtenidos a partir de la
utilizacin de la teora basada en la normal.
En estos casos se emplea como parmetro de centralizacin la mediana, que
es aquel punto para el que el valor de X est el 50% de las veces por debajo y
el 50% por encima.

PRUEBA DE KOLMOGOROV-SMIRNOV.
El uso de la Estadstica es de gran importancia en la investigacin cientfica.
Casi todas las investigaciones aplicadas requieren algn tipo
de anlisis estadstico para que sea posible evaluar sus resultados. En algunos
casos, para resolver un problema de carcter emprico, es preciso llevar a cabo
un anlisis bastante complejo; otras veces, basta con efectuar un anlisis muy
simple y directo. La eleccin de uno u otro tipo de anlisis estadstico depende
del problema que se plantee en el estudio as como de la naturaleza de
los datos. Desde este punto de vista, la Estadstica constituye un instrumento
de investigacin y no un producto final de esta ltima.
El trabajo coherente, las acciones integradas, la no extrapolacin de elementos
de un lugar a otro, el verdadero diagnstico de la realidad han de ser prcticas
permanentes en el accionar del investigador y el estadstico aplicado.
Dentro de la estadstica se aplican en la investigacin los tests o dcimas
paramtricos y no paramtricos, el presente trabajo esta dedicado al estudio de
dos pruebas no paramtricas que por su importancia merecen ser tratadas de
forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y
dos muestras.
Entre los tests no paramtricos que comnmente se utilizan para verificar si
una distribucin se ajusta o no a una distribucin esperada, en particular a la
distribucin normal se encuentran el test de Kolmogorov-Smirnov. El test de

Kolmogorov-Smirnov es bastante potente con muestras grandes. El nivel


de medicin de la variable y su distribucin son elementos que intervienen en
la seleccin del test que se utilizar en el procesamiento posterior. De hecho, si
la variable es continua con distribucin normal, se podrn
aplicar tcnicas paramtricas. Si es una variable discreta o continua no normal,
solo son aplicables tcnicas no paramtricas pues aplicar las primeras arrojara
resultados de dudosa validez.
Desarrollo
DCIMA DE UNA MUESTRA DE KOLMOGOROV-SMIRNOV.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren al
menos en una escala de intervalo. Se necesita que la medicin considerada
sea bsicamente continua. Adems dicha prueba es aplicable cualquiera sea el
tamao de la muestra.
Potencia-Eficiencia
La prueba de una muestra de K-S puede en todos los casos en que se aplique
ser ms poderosa que su prueba alternativa, la prueba de c 2 ( ji-cuadrado.
Caractersticas de la dcima
La prueba de K-S de una muestra es una dcima de bondad de ajuste. Esto es,
se interesa en el grado de acuerdo entre la distribucin de un conjunto
de valores de la muestra y alguna distribucin terica especfica. Determina si
razonablemente puede pensarse que las mediciones mustrales provengan de
una poblacin que tenga esa distribucin terica. En la prueba se compara la
distribucin de frecuencia acumulativa de la distribucin terica con la
distribucin de frecuencia acumulativa observada. Se determina el punto en el
que estas dos distribuciones muestran la mayor divergencia.
Hiptesis
Ho: La distribucin observada se ajusta a la distribucin terica.
F(x) = Ft(x) para todo x.
H1: La distribucin observada no se ajusta a la distribucin terica.
Tambin:
F(x) Ft(x) para algn x
F(x): es funcin desconocida

Ft(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con
cierta media y varianzas conocidas.
Estadgrafo y distribucin muestral
D = mxima
Sn(x): es la funcin de distribucin emprica.
Ejemplo
El entrenador de salto de un grupo de atletas, desea conocer con vistas al
procesamiento de los datos por el obtenidos sobre salto de una muestra
aleatoria de atletas de esa especialidad en un CVD, si las mediciones
realizadas por l estn distribuidas normalmente. Los datos son los siguientes:
Salto_Largo
1 1.60
2 1.65 Ho: Los datos estn distribuidos normalmente
3 1 .55 H1: Los datos no estn distribuidos normalmente.
4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70
Salidas de la dcima

Conclusiones:
No se rechaza a Ho, por tanto la distribucin de los datos es normal.
Tcnicas adicionales a la dcima
Tabla de frecuencias
Histograma.
Estadgrafos que deben acompaar a los estadgrafos de la dcima
1-Tabla de frecuencias.
Tcnicas auxiliares para respaldar los resultados obtenidos en la
conclusin.
1-Histogramas.

Dcima de Kolmogorov-Smirnov para dos muestras independientes.


Estructura de la base de datos
Normalmente la estructura que tiene la base de datos es la de utilizar una
variable para entrar los resultados de la medicin y la otra donde se particione
a estos resultados en los dos grupos.
Premisas
La nica premisa que se necesita es que las mediciones se encuentren al
menos en una escala ordinal. Adicionalmente se necesita que la medicin
considerada sea bsicamente continua.
Potencia-Eficiencia
Comparada ante la alternativa paramtrica de la t de student para dos
muestras independientes (o el modelo de Anlisis de Varianza clasificacin
simple para dos muestras), cuando las premisas paramtricas se cumplen,
tiene una potencia eficiencia de cerca del 96%, que tiende a decrecer
ligeramente a medida que se aumentan los tamaos de muestra.
Existen autores que plantean1 "que la dcima de Kolmogorov-Smirnov, para
muestras muy pequeas es ms potente que la dcima de la U de MannWhitney, pero que para muestras de tamao grande ocurre lo contrario.
Caractersticas de la dcima
La dcima de Kolmogorov-Smirnov est construida, teniendo como base
detectar las discrepancias existentes entre las frecuencias relativas
acumuladas de las dos muestras objeto de estudio. Lo anterior propicia que
esta dcima pueda advertir diferencias no tan solo entre los promedios, sino
que stas sean debidas a la dispersin, o la simetra o la oblicuidad. Esta
caracterstica la hace distintiva de aquellas en que solamente se ocupan de
analizar las diferencias entre los promedios.
La dcima admite que los tamaos de las muestras no sean iguales.
Hiptesis
Las hiptesis de esta dcima, expresadas en palabras son:
Ho: Las distribuciones poblacionales son iguales.
H1: Las distribuciones poblacionales son distintas.

Ahora bien se recomienda en general hacer el enunciado de las hiptesis de


forma tal que indique en un mayor grado la caracterstica que va a ser
docimada.
Estadgrafo y distribucin muestral.
Designemos por T1 y por T2 las tablas de distribucin de frecuencias relativas
acumuladas, particionadas en k categoras. Donde el primer subndice
corresponde al nmero de la muestra y el segundo al orden de la clase.
TABLA1

TABLA2

DIFERENCIAS

Clase Frecuencia relativa


acumulada

Frecuencia relativa
acumulada

Diferencia de las

p11

p21

p11-p21

p12

p22

p12-p21

...

...

...

...

p1i

p2i

p1i-p2i

...

...

...

...

p1k

p2k

p1k-p2k

Frecuencias

Se analiza entonces en la columna de las diferencias de las frecuencias, en


qu clases se obtiene el valor mximo. Se tendr entonces en smbolos:
El estadgrafo de esta dcima se
designa por 2 y para tamaos de muestra suficientemente grandes, est
distribuido segn chi-cuadrado con dos grados los de libertad. En smbolos:

Goodman , ha demostrado que si los tamaos de muestra


son pequeos la dcima se comporta conservadoramente.
Salidas de la dcima

Las salidas usuales de la dcima son tres:

Mxima diferencia negativa. Donde se muestra cul es la mayor


diferencia negativa alcanzada.

Mxima diferencia positiva. Donde se muestra la mayor diferencia


positiva alcanzada.

Valor de la probabilidad para dos colas.

Es necesario sealar que las dos primeras opciones suministran informacin en


los casos en que sea conveniente realizar una dcima unilateral, adems de
reflejar informacin acerca de lo que est ocurriendo en la dcima.
Tcnicas adicionales a la dcima
Existe un grupo de tcnicas adicionales a la dcima, las que hemos dividido en
los siguientes grupos.
Estadgrafos que deben acompaar a los estadgrafos de la dcima.
Entre ellos se encuentran:

Tamaos en cada una de las muestras (casos vlidos en el anlisis)

Media aritmtica de cada una de las muestras.

Desviacin estndar de cada una de las muestras.

Tcnicas auxiliares para respaldar los resultados obtenidos en la conclusin

Diagrama de caja y bigotes de cada una de las muestras.

Histograma de cada una de las muestras.

Ejemplo
Se muestran las prdidas en peso (medidos en kilogramos), de dos grupos de
personas que han sido sometidas a dos tipos diferentes de medicamentos,
designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la
siguiente tabla:
GRUPO1 (n1=10) GRUPO2 (n2=12
5.49

3.76

3.08

4.22

4.13

4.17

5.03

5.03

4.85

6.03

2.09

4.45

4.45

5.13

3.58

4.26

3.86

4.62

4.13
4.4
2.81

Salida de la dcima
La salida bsica de la dcima muestra los valores mximos positivos, mximos
negativos y el valor de probabilidad, los que se muestran a continuacin.

medicin

mxima
diferencia
negativa

mxima
diferencia
positiva

valor de probabilidad

perdida de peso

0.4666667

p > .10

Segn podemos observar, no existen diferencias significativas entre los


resultados de la medicin realizada a los dos grupos.
Estadgrafos que deben acompaar a los estadgrafos de la dcima.
Resulta conveniente incluir tambin, adems de los mencionados en la tabla
anterior, el tamao en cada una de las muestras, as como la media aritmtica
de cada una de ellas y su desviacin estndar. Las que se muestran en la
siguiente tabla.
Tamaos de muestra Media aritmtica Desviacin. Estndar
GRUPO 1 10

4.73900

.8235661

GRUPO 2 12

3.945834

.8235661

Tcnicas auxiliares para respaldar los resultados obtenidos en la


conclusin
Las tcnicas que ha continuacin se mencionan es conveniente su utilizacin:

Diagramas de Caja y Bigotes.


El siguiente diagrama muestra los resultados obtenidos tomando como
promedio la mediana, el rango intercuartlico para la caja y el mximo-mnimo
para los bigotes.

En este diagrama observamos que aunque en la segunda muestra ha existido


una disminucin en el valor mediano, las diferencias no son significativas.
Obsrvese que en la segunda muestra se ha producido una disminucin en la
dispersin y los mximos y mnimos han sido reducidos.
Histogramas
A continuacin se muestran los histogramas de las dos muestras. Los que
pueden proporcionar una mayor idea del proceso ocurrido.

PRUEBA ANDERSON-DARLING

La prueba de Anderson-Darling es una prueba no paramtrica sobre si los


datos de una muestra provienen de una distribucin especfica. La frmula para
el estadstico A determina si los datos
(observar que los
datos se deben ordenar) vienen de una distribucin con funcin acumulativa

donde

El estadstico de la prueba se puede entonces comparar contra las


distribuciones del estadstico de prueba (dependiendo que
se utiliza) para

ar el P-valor.
La prueba de Anderson-Darling es una prueba estadstica que permite
determinar si una muestra de datos se extrae de una distribucin de
probabilidad. En su forma bsica, la prueba asume que no existen parmetros

a estimar en la distribucin que se est probando, en cuyo caso la prueba y su


conjunto de valores crticos siguen una distribucin libre. Sin embargo, la
prueba se utiliza con mayor frecuencia en contextos en los que se est
probando una familia de distribuciones, en cuyo caso deben ser estimados los
parmetros de esa familia y debe tenerse estos en cuenta a la hora de ajustar
la prueba estadstica y sus valores crticos. Cuando se aplica para probar si
una distribucin normal describe adecuadamente un conjunto de datos, es una
de las herramientas estadsticas ms potentes para la deteccin de la mayora
de las desviaciones de la normalidad.

UNIDAD 5

REGRESIN LINEAL SIMPLE Y MLTIPLE

La regresin lineal o ajuste lineal es un mtodo matemtico que modela la


relacin entre una variable dependiente Y, las variables independientes Xi y un
trmino aleatorio . Este modelo puede ser expresado como:

: variable dependiente, explicada o regresando.

: variables explicativas, independientes o regresores.


: parmetros, miden la influencia que las variables
explicativas tienen sobre el regresando.
donde
es la interseccin o trmino "constante", las
son los
parmetros respectivos a cada variable independiente, y es el nmero de
parmetros independientes a tener en cuenta en la regresin. La regresin
lineal puede ser contrastada con la regresin no lineal.

REGRESIN LINEAL SIMPLE


Slo se maneja una variable independiente, por lo que slo cuenta con
dos parmetros. Son de la forma:

Donde

es el error asociado a la medicin del valor

supuestos de modo que


igual a un y
con

y siguen los

(media cero, varianza constante e


).

Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor
esperado) del valor Y, se obtiene:

Derivando respecto a

e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la


siguiente solucin para ambos parmetros:

La interpretacin del parmetro


Yi incrementar en

es que un incremento en Xi de una unidad,

PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE


Para probar hiptesis acerca de la pendiente y la ordenada en el origen del
modelo de regresin, debe hacerse la suposicin adicional de que el termino
del error i esta normalmente distribuido. Por lo tanto, se supone que los
errores i son NID (0,2). Despus se pueden probar estas suposiciones
mediante el anlisis de residuos.
Supongamos que el experimentador desea probar la hiptesis de que la
pendiente es igual a un cierto valor, por ejemplo 1,0. Las hiptesis apropiadas
son:

(1-22)
En donde se ha especificado la hiptesis alterna de dos extremos. Ahora
bien, como las i son NID(0,2) se concluye que las yi son NID(0 + 1xj, 2).
Por lo tanto,

es una combinacin lineal de variables aleatorias

independientes normalmente distribuidas. En consecuencia,

es N(1,

2/Sxx). Adems
es independiente de MSE. Entonces, como resultado de la
suposicin de normalidad, la estadstica:

(1-23)
Tiene una distribucin t con n 2 grados de libertad si H0: 1 = 1,0 es
verdadera. Se rechaza H0:1 = 1,0 si:

(1-24)
En donde t0 se calcula usando la Ecuacin (1-23).
Puede utilizarse un procedimiento similar para probar hiptesis acerca de la
ordenada en el origen. Para probar:
H0: 0 = 0,0
H1: 0 0,0
Se usa el estadstico:

(1-25)

(1-26)
Y se rechaza la hiptesis nula si
.
Un caso especial muy importante de la hiptesis (1-22) es:
H0: 1 = 0
H1: 1 0

(1-27)

Esta hiptesis se relaciona con la significacin de la regresin. No rechazar H0:


1 = 0 equivale a concluir que no existe una relacin lineal entrex y y. En otras
palabras, el mejor estimador de yi para cualquier valor de xj es j = . En
muchos casos esto puede indicar que no hay una relacin causal entre x y y, o
que la relacin real no es lineal. El procedimiento para probar H01 = 0 se
puede deducir usando dos enfoques. El primero consiste en descomponer la
suma total de cuadrados corregida de y:

(1-28)
Los dos componentes de Syy miden, respectivamente, la variabilidad
de yi explicada por la recta de regresin y la variacin residual, no explicada
por la recta de regresin.

se conoce como la suma de

cuadrados del error o residual y


se denomina suma de
cuadrados de regresin. Por lo tanto, la Ecuacin (1-28) se transforma en:
Syy = SSR + SSE
De la Ecuacin
calcular SSR es:

(1-29)

se obtiene que la frmula para

(1-30)
Tabla 1-2 Anlisis de variancia para probar la significancia de la regresin
Grados de
Libertad

Media de
Cuadrados

F0

Regresin

MSR

MSR/MSE

Error o residual

n2

MSE

Fuente de
Variacin

Total

Suma de
cuadrados

Syy

n 1

Syy tiene n 1 grados de liberta, y SSR y SSE tienen, respectivamente 1 y n


2 grados de libertad.
Es posible mostrar que
, que
,y
que SSE y SSR son independientes. Por lo tanto, si H01 = 0 es verdadera, la
estadstica

(1-31)
Tiene una distribucin
y se rechaza H0 si F0 >
. Usualmente el
procedimiento para realizar la prueba se acomoda en una tabla de anlisis de
variancia, tal como aparece en la Tabla 1-2.
La prueba de significancia de la regresin tambin puede deducirse a partir de
la Ecuacin 1-23 con 1,0 = 0, es decir:

(1-32)
Elevando al cuadrado esta ecuacin se obtiene:

(1-33)
Ntese que
en la Ecuacin 1-33 es igual a F0 en la Ecuacin 1-31. En
general, el cuadrado de una variable aleatoria t con f grados de libertad tiene

una distribucin F con 1, y f grados de libertad en el numerador y denominador,


respectivamente. Por lo tanto, la prueba usando t0 equivale a la prueba basada
en F0.
Ejemplo 1-2:
Se prueba la significancia de la regresin del Ejemplo 1-1. El modelo ajustado
es i = - 0.2879 + 0.4566x y Syy se calcula con:

La suma de cuadrados de regresin es:

Tabla 1-3 Anlisis de variancia para el Ejemplo 1-2


Suma de
cuadrados

Grados de
Libertad

Media de
Cuadrados

F0

Regresin

119.26

119.26

140.80

Error

8.47

10

0.847

Total

127.73

11

Fuente de
Variacin

Por lo tanto, la suma de cuadrados del error es:

El anlisis de variancia para probar H0:1 = 0 se presenta en la Tabla 1-3.


Puesto que F.01,1,10 = 10.0, se rechaza H0 y se concluye que 1 0. Ntese
que la media de cuadrados del error de la Tabla 1-3 proporciona estimacin
para 2 de acuerdo con la Ecuacin 1-21.
Anlisis de Residuos

Al ajustar cualquier modelo lineal, el anlisis de residuos del modelo de


regresin es necesario para determinar la idoneidad del ajuste por mnimos
cuadrados.
Resulta til examinar una grfica de probabilidad normal, una grfica de los
residuos contra los valores ajustados y una grfica de los residuos contra cada
variable de regresin. Adems, los residuos deben graficarse contra variables
potencialmente importantes que no fueron incluidas en el modelo. Cualquier
estructura en dicha grfica indicara que el modelo puede mejorarse agregando
este factor.
En la Fig. 1-2 se muestra una grfica de probabilidad normal de los residuos
del modelo de regresin lineal simple del Ejemplo 1-1. Esta grfica no indica
alguna violacin seria a la suposicin de normalidad. En las Figs. 1-3 y 1-4
aparecen las grficas de los residuos contra los valores ajustados j y contra
los niveles de la variable de regresin, rapidez de mezclado xj,
respectivamente.
Ests grficas no revelan mayor dificultad, por lo que se concluye que el
modelo de regresin lineal simple es adecuado para ajustar los datos de la
impureza de la pintura.

Figura 1-2. Grfica de probabilidad normal para los residuos del Ejemplo 1-1.

Figura 1-3. Grfica de los residuos contra j para el Ejemplo 1-1.

Figura 1-4. Grfica de los residuos contra xj para el Ejemplo 1-1

CALIDAD DEL AJUSTE EN REGRESIN LINEAL SIMPLE


A menudo, los modelos de regresin se adecan a los datos cuando no se
conoce la relacin funcional real. Naturalmente, es importante saber si el orden
del modelo tentativamente supuesto es correcto. En esta seccin se describe
una prueba para la validez de esta suposicin.
En la Figura 1-5 se ilustra el peligro de usar un modelo de regresin que no se
ajusta adecuadamente a la relacin funcional real. Obviamente, en esta
situacin hipottica debe utilizarse un polinomio de grado mayor o igual a dos.
Como resultado se ha obtenido un modelo muy deficiente.

Figura 1-5. Un modelo de regresin en el que se observa falta de ajuste.


A continuacin, se presenta una prueba de bondad de ajuste del modelo de
regresin. A pesar de que se usa una sola variable independiente, la
generalizacin para k variables de regresin es directa. Las hiptesis que se
desea probar son:
H0: El modelo se ajusta adecuadamente a los datos
H1: El modelo no se ajusta a los datos
La prueba consiste en descomponer la suma de cuadrados del error o residual
en los siguientes dos componentes:
SSE = SSPE + SSLOF
En donde SSPE es la suma de cuadrados atribuibles un error experimental
puro y SSLOF es la suma de cuadrados atribuibles a la falta de ajuste del
modelo. Para calcular SSPE se necesitan varias observaciones de y para al
menos un nivel de x. Supongamos que se tienen n observaciones, tal que:

Se observa que existen m niveles distintos de x. La contribucin a la suma de


cuadrados del error puro, por ejemplo en xi, es:

(1-34)
La suma total de cuadrados del error puro se obtiene sumando la Ecuacin 134 sobre todos los niveles de x:

Hay
grados de libertad asociados con la suma de
cuadrados del error puro. La suma de cuadrados de la falta de ajuste
simplemente es:

Con n 2 ne = m 2 grados de libertad. La estadstica para probar la falta


de ajuste resulta ser:

(1-35)
Y se rechaza la hiptesis de idoneidad del modelo H0 si F0 > F,m 2,n m.
Esta prueba puede introducirse fcilmente en el anlisis de variancia dirigida a
la significacin de la regresin. Si la hiptesis nula de la adecuacin del modelo
se rechaza, el modelo debe ser abandonado y buscarse otro que resulte ms
apropiado. Si H0 no se rechaza, no existe una razn aparente para dudar de la
adecuacin del modelo y, a menudo, MSPE y MSLOF se combinan
para estimar 2.

Ejemplo 1-3:
Supongamos que se tienen los siguientes datos:
x

1.0

1.0

2.0

3.3

3.3

4.0

4.0

4.0

4.7

5.0

2.3

1.8

2.8

1.8

3.7

2.6

2.6

2.2

3.2

2.0

5.6

5.6

5.6

6.0

6.0

6.5

6.9

3.5

2.8

2.1

3.4

3.2

3.4

5.0

Se calculan las cantidades Syy = 10.97, Sxy = 13.62, Sxx = 52.53, = 2.847
y = 4.382. El modelo de regresin es = 1.708 + 0.260x, y la suma de
cuadrados de regresin es SSR = Sxy = (0.260)(13.62) = 3.541. La suma de
cuadrados del error puro se calcula como sigue:

Nivel de x

(yi -

)2

Grados de libertad

1.0

0.1250

3.3

1.8050

4.0

0.1066

5.6

0.9800

6.0

0.0200

Totales

3.0366

El anlisis de variancia se presenta en la siguiente Tabla 1-4. No es posible


rechazar la hiptesis de que el modelo tentativo describe adecuadamente los
datos porque F.25,8,7 = 1.70. Se ponderan las medias de cuadrados del error
puro y de la falta de ajuste para formar la media de cuadrados del denominador
con el fin de probar la significacin de la regresin. Se debe concluir que 1 = 0
porque F.05,1,15 4.54.

Tabla 1-4 Anlisis de variancia para el Ejemplo 15-4


Suma de
Cuadrados

Grados de
Libertad

Medias de
Cuadrados

F0

Regresin

3.541

3.541

7.15

Residuo

7.429

15

0.4952

(Falta de ajuste)

4.3924

0.5491

(Error Puro)

3.0366

0.4338

Total

10.970

16

Fuente de
Variacin

1.27

Una buena prctica consiste en usar el modelo de menor orden que describa
adecuadamente los datos, al ajustar un modelo de regresin a los datos
experimentales. La prueba de falta de ajuste te puede ser til en este aspecto.
Sin embargo, siempre es posible ajustar un modelo de orden n 1 cuando se
tienen n puntos muestrales. El experimentador no debe considerar el uso de un
modelo que est saturado, o sea, aquel que prcticamente tiene el mismo
nmero de variables de regresin y observaciones de y.
Coeficiente de Determinacin

(1-36)
La cantidad se conoce como coeficiente de determinacin y se usa mucho para
juzgar la adecuacin del modelo de regresin. Es evidente que 0 < R2 1. A
menudo se menciona informalmente a R2 como la proporcin de variabilidad
de los datos explicada por el modelo de regresin. Si la variable de
regresin x es aleatoria, de manera, que x y y puedan considerarse variables
aleatorias conjuntamente distribuidas, entonces Rconstituye la correlacin
simple entre x y y. Sin embargo, el concepto de correlacin entre x e y no est
definido si x no es una variable aleatoria. Para los datos del Ejemplo 1-1 se
tiene que R2 = SSR/Syy = 119.26/127.73 =0.9337. As, 93.37% de la
variabilidad de los datos es explicada por el modelo.

La estadstica R2 debe usarse con cuidado porque siempre es posible hacerla


igual a uno agregando, simplemente, el suficiente nmero de trminos al
modelo. Por ejemplo, es posible obtener un ajuste perfecto de n puntos
ajustando un polinomio de grado n 1. Asimismo, R2siempre aumenta si se
agrega una variable al modelo, aunque esto no significa que necesariamente el
nuevo modelo sea superior al anterior. A menos que la suma de cuadrados del
error del nuevo modelo se reduzca en una cantidad igual que la media de
cuadrados del error original, el nuevo modelo tendr una media de cuadrados
del error mayor que el original. Esto es consecuencia de la prdida de un grado
de libertad residual. Por lo tanto, el nuevo modelo ser en realidad peor que el
original.

ESTIMACIN Y PREDICCIN POR INTERVALO EN REGRESIN LINEAL


SIMPLE
Adems de los estimadores puntuales de la pendiente y la ordenada en el
origen, es posible obtener estimaciones por intervalos de estos parmetros. Si
las i son independientes y normalmente distribuidas, entonces:

y
Tienen distribucin t con n 2 grados de libertad. As, un intervalo de confianza
del 100(1 ) % sobre 1 est dado por:

(1-37)
Similarmente, un intervalo de confianza del 100(1 ) % para 1 est dado
por:

(1-38)
Como ilustracin, se obtiene un intervalo de confianza de 95% para 1 con los
datos del Ejemplo 1-1 usando la Ecuacin 1-37.

O bien,

Por lo tanto, este intervalo es 0.3709 1 0.5423.


Se puede construir un intervalo de confianza para la respuesta meida a un
valor especfico x = x0. ste es un intervalo de confianza para E(y | x0) y a
menudo se le conoce como intervalo de confianza para la recta de regresin.
Como E(y x0) =
+ 1 (x0 - ), puede obtenerse un estimador puntual de
E(y x0) del modelo ajustado mediante:

Resulta claro que


Adems:

Porque Cov

porque

son insesgados.

. Asimismo, 0 tiene distribucin normal

porque
y
tambin lo estn. Por lo tanto, un intervalo de confianza del
100(1 ) %para la recta de regresin real en x = x0, puede calcularse
mediante:

(1-39)
Ntese que la amplitud del intervalo de confianza para E(y | x0) es funcin de
x0. La amplitud es mnima en

y se hace ms grande a medida que

aumenta.
Ejemplo 1-3:
Se desea construir un intervalo de confianza de 95% para la recta de regresin
de los datos del Ejemplo 1-1. Ya que = -0.2879 + 0.4566x0, el intervalo de
confianza de 95% es:

Los valores predichos y los lmites de confianza del 95% para x0 = xi, i = 1, 2, .
. ., 12 aparecen en la siguiente Tabla 1-5. Para mostrar el uso de esta tabla, el
intervalo de confianza del 95% para la recta de regresin real en x0 =26 es:

O bien:

Tabla 1-5 Lmites de confianza para el Ejemplo 1-3

Lmites del intervalo de


confianza de 95%

20

8.8441

1.11

22

9.7573

0.97

24

10.6705

0.84

26

11.5837

0.73

28

12.4967

0.65

30

13.4101

0.60

32

14.3233

0.60

34

15.2365

0.65

36

16.1497

0.73

38

17.0629

0.84

x0

40

17.9761

0.97

42

18.8893

1.11

El modelo ajustado y el intervalo de confianza del 95% de la recta de regresin


real se presentan en la Fig. 1-6.

Figura 1-6. Modelo ajustado e intervalo de confianza de 95% para el Ejemplo 13.
Otro concepto til en la regresin en la regresin lineal simple es el de intervalo
de prediccin. sta es una estimacin por intervalo del promedio
de k observaciones futuras a un valor particular de x = x0. Para ilustrar este
concepto, supongamos que el analista del Ejemplo 1-1 desea construir una
estimacin por intervalo de la impureza promedio de los
siguientes cuatro lotes de pintura procesada con una rapidez x0 = 34. Es
inadecuado usar un intervalo de confianza porque hace referencia a la
impureza media real (una constante desconocida) y no a futuras observaciones
de la variable aleatoria.
Sea y0j la j-simas observacin futura de la respuesta en x0. El promedio de
estos valores es:

Ntese que se predice una sola observacin futura si k = 1. El mejor predictor


del valor futuro

es

. La variable aleatoria:

Tiene distribucin normal con media cero y variancia:

Porque
es independiente de 0. Por lo tanto, el intervalo de prediccin del
100(1 ) % para la media de k observaciones futuras en x0 es:

(1-40)
Notemos que el intervalo de prediccin tiene una amplitud mnima en x0 =

aumenta a medida que


se incrementa. Adems, si k = 1, la Ecuacin 140 proporciona un intervalo de prediccin para una sola observacin futura
en x0.
Comparando las Ecuaciones 1-39 y 1-40 se observa que el intervalo de
prediccin en x0 es siempre ms ancho que el intervalo de confianza enx0.
Esto es consecuencia de que el intervalo de prediccin depende tanto del error
propio del modelo ajustado como del error asociado con las futuras
observaciones.
Se pueden usar los datos del Ejemplo 1-1 para ilustrar la construccin de un
intervalo de prediccin. El intervalo de prediccin del 95% de la impureza
promedio de los siguientes dos lotes de pintura producida en x0 = 34 es:

Este clculo produce

. Por lo tanto, el intervalo de prediccin

del 95% para k = 2 en x0 = 34 es 13.6495

16.8235.

REGRESIN LINEAL MLTIPLE


La regresin lineal permite trabajar con una variable a nivel de intervalo o
razn. De la misma manera, es posible analizar la relacin entre dos o ms
variables a travs de ecuaciones, lo que se denomina regresin
mltiple o regresin lineal mltiple.
Constantemente en la prctica de la investigacin estadstica, se encuentran
variables que de alguna manera estn relacionadas entre s, por lo que es
posible que una de las variables puedan relacionarse matemticamente en
funcin de otra u otras variables.
Maneja varias variables independientes. Cuenta con varios parmetros. Se
expresan de la forma:6
(13)
Donde

es el error asociado a la medicin del valor

supuestos de modo que


igual a un y
con

y siguen los

(media cero, varianza constante e


).

PRUEBA DE HIPTESIS EN REGRESIN LINEAL MLTIPLE


A menudo el experimentador desea probar hiptesis que se refieren a los
parmetros del modelo de regresin lineal mltiple. Esto requiere la suposicin
adicional de que los errores sean NID(0,2). Una consecuencia directa de esta
suposicin es que las observaciones yj son

Consideremos probar si la regresin es significativa. En la regresin lineal


mltiple esto se logra probando las hiptesis:

Al menos una i

(1-55)

El rechazo de H0 en esta ecuacin implica que al menos una variable en el


modelo contribuye significativamente al ajuste. El procedimiento para probar la
Ecuacin 1-55 es una generalizacin del procedimiento usado para probar la
regresin lineal simple. La suma total de cuadrados Syyse descompone en la
suma de cuadrados de regresin y en la suma de cuadrados del error:

Y si H0:i = 0 es verdadera,
~
, en donde el nmero de grados de
libertad para 2 es igual al nmero de variables de regresin en el modelo.
Tambin se puede mostrar que
~
y que SSE y SSR son
independientes. Por lo tanto el procedimiento para probarH0:i = 0 consiste en
calcular:

(1-56)
Y rechazar H0 si F0 > F,k,n-k-1. Usualmente el procedimiento se resume en
una tabla de anlisis de variancia como la que aparece en la Tabla 1-9.
A continuacin, se obtiene la frmula para calcular la suma de cuadrados de
regresin SSR.

Tabla 1-9 Anlisis de variancia para la significancia de la regresin lineal


mltiple
Suma de
Cuadrados

Grados de
Libertad

Media de
Cuadrados

F0

Regresin

SSR

MSR

MSR/MSE

Error o
residuo

SSE

nk1

MSE

Total

Syy

n1

Fuente de
Variacin

As, puesto que Syy = SSE + SSR, se observa que la suma de cuadrados de
regresin es:
(1-57)
Ejemplo 1-5:
Considere los datos del ejemplo 1-4. El modelo ajustado es = 30.866667 +
0.877203(x1 18) + 0.455918(x2 28). A partir de Xy se observa que S1y =
345 y que S2y = 63. La suma total de cuadrados es:

Y usando la Ecuacin 1-47 la suma de cuadrados de regresin es:

En la Tabla 1.10 aparece el anlisis de variancia. Se concluye que al menos


una variable contribuye significativamente a la regresin porqueF.01,2,12 =
6.93.
Tabla 1-10 Anlisis de variancia para la significancia de la regresin del
Ejemplo 1-5
Suma de
cuadrados

Grados de
libertad

Media de
cuadrados

F0

Regresin

331.36

165.68

16.80

Error

118.37

12

9.86

Total

449.73

14

Fuente de
variacin

Con frecuencia es importante probar hiptesis con respecto a los coeficientes


de regresin individuales. Tales pruebas son tiles para valorar cada variable
de regresin en el modelo. Por ejemplo, el modelo puede ser ms efectivo si se
le introducen variables adicionales o, quiz, si se desecha una o ms variables
que se encuentran en el mismo.
Introducir variables al modelo de regresin siempre provoca que la suma de
cuadrados de regresin aumente y que la del error disminuya. Debemos decidir
si el incremento en la suma de cuadrados de regresin es suficiente para
garantizar el uso de la variable adicional en el modelo. Adems si se agrega

una variable poco importante al modelo, puede incluso aumentar la media de


cuadrados del error disminuyendo as la utilidad del modelo.
El estimador de mnimos cuadrados
distribucin de:

es una variable aleatoria. Adems, la

~
Es porque es una comprobacin lineal de las observaciones yj. Por lo tanto, la
variancia del coeficiente de regresin
es igual a 2 veces el (i + 1)-simo
elemento de la diagonal de (XX)-1, es decir, Cii. As, cada coeficiente de
regresin tiene la propiedad distribucional.
~

Las hiptesis para probar la significancia de cualquier coeficiente individual, por


ejemplo i, son:
(1-58)
La estadstica apropiada para probar la Ecuacin 1-58 es:

(1-59)
Y H0:i =0 se rechaza si
engaosa porque usualmente las

. Sin embargo, esta prueba puede ser


, no son independientes. En otras palabras,

por lo regular habr elementos Cij que no sean cero. Esto implica que las
no
son independientes y, en consecuencia, las pruebas t de la Ecuacin 1-59
tampoco lo sern.
El resultado puede ser que i aparenta ser significativo solo porque su
estimador
no es independiente de , y i, en realidad es significativo. Se
requiere un procedimiento en el que pueda determinarse la contribucin a la
suma de cuadrados de regresin de un parmetro (por ejemplo,
otros parmetros

), dado que

(j = i) ya se encuentran en el modelo.

En otras palabras, se desea valorar la introduccin de una variable de


regresin xi al modelo que originalmente no inclua dicho trmino. Puede
usarse la prueba de significacin de regresin general para lograr esto.

Aunque antes se estudio la prueba de significacin de regresin general, a


continuacin, se presenta para el contexto actual. Supongamos que el modelo
es y = X + , y que el vector puede descomponerse como se muestra a
continuacin:

En donde 1 es un vector (r x 1) y 2 es un vector [(p r)]. Se desea probar la


hiptesis:
H0: 1 = 0
H1: 1 0

(1-60)

El modelo puede expresarse mediante:

(1-61)
En donde X1, representa las columnas de X asociadas con 1 y X2 presenta
las columnas de X asociadas con 2.
Se sabe que en el modelo completo (el que incluye tanto a 1 como
a 2)
Tambin:

(p grados de libertad)
Y:

SSR( ) se conoce como suma de cuadrados de regresin debida a . Para


determinar la contribucin de los trminos de 1 a la regresin, debe ajustarse
el modelo suponiendo que la hiptesis Ho: 1 = 0 es verdadera. El
modelo reducido se determina usando la Ecuacin 1-61 en la forma:
(1-62)

El estimador de mnimos cuadrados de 2 es


(p r grados de libertad)

y
(1-63)

La suma de cuadrados de regresin debida a 1, ajustado por la presencia


de 2 que ya se encuentra en el modelo, es:
(1-64)
Esta suma de cuadrados tiene r grados de libertad. A menudo, se denomina
suma de cuadrados extra debida a 1. Ahora bien,
es
independiente de MSE, y la hiptesis nula 1 = 0 puede probarse mediante la
estadstica:

(165)
Si F0 > F,r,np se debe rechazar H0 y concluir que al menos uno de los
parmetros en 1 no es cero. Este procedimiento es extremadamente til. Si ya
se tienen algunas variables en un modelo de regresin, la introduccin de , al
modelo ms reciente puede valorarse calculando:

Ejemplo 1-6:
Se usan los datos del Ejemplo 1-5 para ilustrar la prueba de significacin de
regresin general. El modelo de regresin es:
= 30.86667 + 0.877203(x1 18) + 0.455918(x2 18)
Se desea probar la hiptesis nula H0: 1 = 0 contra H1: 1 = 0. Usando la
notacin de la prueba de significacin de regresin general esto implica que:

Observe que 1 = 1 es un vector (1 x 1) (por lo tanto r = 1 y 2 es un vector (2


x 1). La suma de cuadrados de regresin del modelo completo es:

Ntese que este resultado no es igual a la suma de cuadrados de regresin


calculada en el Ejemplo 1.5 porque SSR () incluye la contribucin a la
regresin debida a la ordenada en el origen. Asimismo, SSR () tiene p = 3
grados de libertad. La media de cuadrados del error con n p = 15 3 = 12
grados de libertad es:

Para probar H0: 1 = 0 es necesario determinar

sta se determina ajustando el modelo reducido


. Se
encuentra que = 30.866667 + 0.114964 (x2 28) y, como resultado,

Con p r = 2 grados de libertad. Por lo tanto, la suma de cuadrados para 1


ajustado por 2 es:

Con r 1 grados de libertad. Usando la Ecuacin 1.65 la estadstica para


realizar la prueba es:

Y se concluye que 1 = 0 porque F.01,1,12 = 9.33. Por lo tanto, xi contribuye


significativamente al modelo.

C:\Users\Belinda\Documents\Libro1.xlsx
C:\Users\Belinda\Documents\Libro1 (Autoguardado) casa.xlsx
C:\Users\Belinda\Documents\Problema 1.xlsx
C:\Users\Belinda\Documents\problema 2.xlsx
C:\Users\Belinda\Documents\Regrecion lineal.xlsx

Vous aimerez peut-être aussi