Académique Documents
Professionnel Documents
Culture Documents
Memoria de estadstica
inferencial I
Desarrollo de las unidades del curso.
Hirales Geraldo Jorge.
10/12/2013
Portada.
La paz B.C.S.
ndice.
Unidad 2Estimaciones.
UNIDAD 1
Conceptos bsicos:
Estadstica descriptiva: recopila, ordena, agrupa, analiza y representa datos.
Estadstica Inferencial: infiere en muestras en base a N para la toma de
decisiones.
Parmetro: medida para describir cualquier caracterstica con respecto a la
poblacin.
Estadstico: medida para describir cualquier caracterstica con respecto a la
muestra.
Parmetro
=media poblacional
=Desviacin poblacional
2 =Varianza poblacional
Estadstico
x =media muestral
s =desviacin muestral
s 2 =varianza muestral
TIPOS DE MUESTREO
Muestreo probabilstico
Los mtodos de muestreo probabilsticos son aquellos que se basan en el
principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos
tienen la misma probabilidad de ser elegidos para formar parte de una muestra
y, consiguientemente, todas las posibles muestras de tamao n tienen la
misma probabilidad de ser seleccionadas. Slo estos mtodos de muestreo
probabilsticos nos aseguran la representatividad de la muestra extrada y son,
por tanto, los ms recomendables. Dentro de los mtodos de muestreo
probabilsticos encontramos los siguientes
Tipos:
1.- Muestreo aleatorio simple:
El procedimiento empleado es el siguiente: 1) se asigna un nmero a cada
individuo de la
poblacin y 2) a travs de algn medio mecnico (bolas dentro de una bolsa,
tablas de nmeros aleatorios, nmeros aleatorios generados con una
calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario
para completar el tamao de muestra requerido. Este procedimiento, atractivo
por su simpleza, tiene poca o nula utilidad prctica cuando la poblacin que
estamos manejando es muy grande.
2.- Muestreo aleatorio sistemtico:
Este procedimiento exige, como el anterior, numerar todos los elementos de la
poblacin, pero en lugar de extraer n nmeros aleatorios slo se extrae uno. Se
parte de ese nmero aleatorio, que es un nmero elegido al azar, y los
elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k,
i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el
resultado de dividir el tamao de la poblacin entre el tamao de la muestra: k=
N/n. El nmero i que empleamos como punto de partida ser un nmero al azar
entre 1 y k. El riesgo este tipo de muestreo est en los casos en que se dan
periodicidades en la poblacin ya que al elegir a los miembros de la muestra
con una periodicidad constante (k) podemos introducir una homogeneidad que
no se da en la poblacin. Imaginemos que estamos seleccionando una muestra
sobre listas de 10 individuos en los que los 5 primeros son varones y los 5
ltimos mujeres, si empleamos un muestreo aleatorio sistemtico con k=10
siempre seleccionaramos o slo hombres o slo mujeres, no podra haber una
representacin de los dos sexos.
3.- Muestreo aleatorio estratificado:
Trata de obviar las dificultades que presentan los anteriores ya que simplifican
los procesos y suelen reducir el error muestral para un tamao dado de la
muestra. Consiste en considerar categoras tpicas diferentes entre s (estratos)
que poseen gran homogeneidad respecto a alguna caracterstica (se puede
x
N
Pq
n
( P1 P) 2
P1q1 P2 q2
n1
n2
N n
N 1
Proporcin muestral:
p
x
n
E P
2
Pq
n
Pq
2
E2
Problemas.
1. Estudios realizados demuestran que el uso de gasolina para autos
compactos vendidos en estados unidos esta normalmente distribuidos con una
media de 25 y una varianza de 4.5
Qu porcentaje de autos compactos recorre 30 millas por galn o ms?
P=?
Formula:
xM
Z
0.5
30 25.5
1
4.5
0.5
30
M 25.5
68%
0.341
Z 1
0.341
Z 1
Z 1
USO DE t DE ESTUDENT.
Formulas:
Con 2 conocida con conocida.
x
n 30 Z
n 30 t
x
s
s
x
n
(x )
n 1
N n
N 1
np npq 2 npq
Z
pP
pq
p
n
N n
N 1
Problemas:
1. Muestras aleatorias de tamao n se seleccionaron en poblaciones
binomiales con parmetros P poblacionales dados aqu. Encuentre la media y
la desviacin estndar de la distribucin muestral p en cada caso para n=100 y
P=0.3; n=400 y P=0.1
? ?
np 100(0.3) 30 (400)(0.1) 40
Problemas:
1. La hall corporation fabrica grandes sistemas de computo y siempre se
ocupado con la confiabilidad de sus unidades de procesamiento centros de
sistemas 666. De hecho la experiencia pasada ha mostrado que el tiempo
improductivo mensual de los CPU 666 promedio 41min. Con la desviacin
estndar de 8 min. El centro de cmputo de una gran universidad estatal
mantiene una instalacin formada por 6 CPU del sistema 666 James Kitchen, el
director del centro siente que se proporciona un nivel satisfactorio de servicio a
la comunidad universitaria si el tiempo improductivo promedio de las 6 CPU es
menor de 50 min. Al mes. Dado cualquier mes cual es la probabilidad se
sienta satisfecho con la red de servicio?
41m 8 min n 6 p( x 50 )
Z
50 41
2.755 area 0.497 0.5 0.997 99 .7%
8
6
P=680
pP
660 680
1.335
pq
(680)(320)
n
1000
3. Utilizar las tablas de reas bajo la curva normal entre los valores dados:
Z 0.3 y Z 1.56
=0.1179
=0.4406----------0.4406-0.1179=0.3227= 32.27%
Z 1.3 y Z 1.74
=0.4032
=0.4591-----------0.4032+0.4591=0.8623=86.23%
4. Se diseo un nuevo sistema para el control de inventario de un pequeo
fabricante, con el propsito de reducir el mismo para un motor elctrico en
particular, a menos de 3 000 motores por da. Se llevo a cabo un muestreo de
inventario en reserva al final de cada uno de 8 das, seleccionados
aleatoriamente; los resultados son los que se muestran en la siguiente tabla.
Numero de motores
2905
2895
2725
3005
2835
2835
3065
2605
n 8 0.05
0.025 3000 gl n 1 7
2
x 2859 3000
2.7172
s
146 .76
n
8
0.05
t 1.9
t 2.7172
x 8660 8500
0.2353
s
1520 .148
n
5
0.95
El nivel de significancia
t 2.13
Formulas:
Z
x1 x 2
12
n1
22
n2
x x
2
S1
S2
2
n1 n2
x1 x2
n1
n2
x1 x2
x1 x2
1 1
1 1
n1 n2
n1 n2
(n1 1) s (n2 1) s
n1 n2 2
2
1
2
2
i 1
i 1
n1 1
i 1
n1 n2 2
n
( xi x1 ) 2
( xi x1 ) 2 ( xi x 2 ) 2
( xi x 2 ) 2
i 1
n2 1
Problemas:
Observe los datos y por intuicin diga si los datos proporcionan Suficiente evidencia
para que M 1 M 2 y realice la prueba utilizando un nivel de significacin de 0.10 y
sacar conclusiones:
Condicin: 1 2
x x
2
S1 S 22
n1 n2
11 .6 9.7
27 .9 38 .4
80
80
2.087
0.90
z 1.29
z 2.08
p1
p1 q1 p2 q2
n1
n2
x1 x2
n1 n2
x1
n1
p2
x2
n2
p1 p 2
1
1
p q
n1 n2
Problemas:
1. El administrador de un hospital conjetura que el porcentaje de cuentas
hospitalarias no pagadas, aumento durante el ao anterior; los registros del
hospital muestran que las cuentas de 48 de 1284 personas admitidas en el mes
de abril no haban liquidado despus de 90 das; este nmero es similar a las
34 cuentas de 1002 pacientes admitidas durante el mismo mes del ao anterior
con estos datos hay suficiente evidencia que indique un incremento en el
porcentaje de cuentas liquidadas despus de ms de 90 das? Utilice nivel de
significancia de 0.10
Datos:
n1 1284 n2 1002
x1 48 x2 48
p1
x1
48
x
34
0.037 p2 2
0.034 q 1 p 0.965
n1 1284
n2 1002
x1 x2
48 34
0.035
n1 n2 1284 1002
0.037 0.034
1
1
(0.035)(0.965)
1284 1002
0.387
0.037 0.034
(0.037)(0.965) (0.034)(0.966)
1284
1002
0.385
Z 0.385
0.90
Z 1.29
La significancia aumento, por lo tanto los datos no son suficientes para indicar
que la proporcin de cuentas excede al % correspondiente al ao anterior.
0.90
Z 1.65
p1 0.0525 p2 0.035
x1 x2
21 14
0.04375 q 0.95625
n1 n2 400 400
0.0525 0.035
1.2
(0.0525 )( 0.9475 ) (0.035 )( 0.965 )
400
400
Z 1.2
Parte de Z
p p
pq
n
Problemas:
1. Aproximadamente uno de cada 10 favorece el refresco de cola de marca A.
Despus de una campaa de promocin en una regin de ventas dadas, se
seleccionaron aleatoriamente 200 bebedores de ese producto, de los
consumidores en el rea del mercado, y se les entrevisto para determinar la
efectividad de la campaa. El resultado de la encuesta mostro que un total de
26 personas expresaron su preferencia a la bebida de la marca A.
Son los datos suficientes para indicar un aumento en la aceptacin de la
marca en la regin? Nivel de significancia de 0.10:
Datos:
n1 200
26
0.13
200
p1
1
0.10
10
p p
pq
n
0.13 0.10
1.4121
(0.10)(0.10)
200
Conclusin:
Significancia disminuyo:
Hay suficiente evidencia.
Z 1.29
Z 1.4142
c2
(10 1)(95)
17.55
100
Regla de decisin:
16.91
Presentan los datos evidencia suficiente para indicar que las variaciones de
proceso son menores para el 2? Nivel de significacin 0.10
Formulas: Fc
s12
(razn de varianzas)
s22
2
2
(numerador) s1 s2
(numerador)
s22 s12
v1 gl n1 1
v2 gl n2 1
Fc
gl 25
gl 24
1.70 (Terica)
1.04
2.03
0.05
UNIDAD 2.
Intervalos.
Formulas:
Intervalo de confianza para cuando y 2 conocido n 30
x Z
x Z
2
S
S
x Z
n
n
2
x Z
x t
2
p Z
2
pq
P p Z
n
2
pq
n
pq
P p t
n
2
p t
2
pq
n
x1 x 2 Z
2
x1 x 2 t
2
12
n1
22
n2
1 2 x1 x 2 Z
2
12
n1
22
n2
S12 S22
S2 S2
1 2 x1 x 2 t 1 2
n1 n2
n1 n2
2
1 1
x1 x 2 t Sp 1 2 x1 x 2 t Sp
n1 n2
2
2
Estimador ponderativo------ Sp
1 1
n1 n2
Varianza diferente
Varianza igual
2
2
n 1S 2
X 2h sup erior
n 1S 2
X 21h inf erior
Para la varianza
p1 q1 p 2 q 2
n
n
1
2
n 1S 2 n 1S 2
2
2
X
Para la desviacin
1hi
S12 1
12 S12
fV V
S22 fV1V2 22 S22 1 2
E Z
E Z
2
Pq
n
Z 2
2
E2
Z 2h Pq
E2
z 2.58
2
x Z
2
34 (2.58 )
x Z
3.46
3.46
34 (2.58 )
32 .55 35 .44
38
38
b) 0.10 n 65 x 1049 s 2 51
Al 90% con rea de 0.45
z 1.65
2
1049 (1.65 )
7.1414
7.1414
1049 (1.65 )
1047 .49 1050 .5
61
61
S
S
x t
n
n
2
6.15 (2.02 )
1.98
1.98
6.15 (2.02 )
6
6
4.5 7.78
0.90
t 2.02
2
t 2.02
2
x Z
x Z
2
0.95
z 1.96
z 1.96
2
0.3
0.3
2.6 (1.96 )
2.6 (1.96 )
2.50 2.69
36
36
z 1.96
2
Al 99% z 2.58
2
2.6 (2.58 )
z 2.58
De: E Z
2
1.96
0.3
0.098
0.098
0.5
36
pero al ser intervalo-- 2
n 2
n despejar
E
1.96 (0.3) 2
36
0
.
098
Z S 2
2
E2
0.99
0.3
0.3
2.6 (2.58 )
2.47 2.73
36
36
(1.96 ) 2 (0.3) 2
138
(0.5) 2
z 2.58
2
94
Mtodo 2
97
82
110
87
123
92
98
175
88
118
Calcule un intervalo de confianza del 90% para la diferencia entre los tiempos
de proporcin de duracin promedio de los 2 mtodos.
Metodo 1 Metodo 2
n1 5
n2 7
gl 7 5 12
x 110.7
gl 12 2 10
S 2 32.18
x 98.4
S1 8.73
2
1
76.21 21 103.5
2
x1 x 2 t
2
S12 S 22
1 2 x 1 x 2 t
n1 n2
2
S12 S 22
n1 n2
98 .4 110 .7 1.81 76 .21 1035 .55 1 2 98 .4 110 .7 1.81 76 .21 1035 .55
5
n 500
x 300
x 340
p
0.68
n 500
99%
pZ
0.680.32
pq
p 0.68 2.58
n
500
0.626 p 0.7338
Qu tan grande se sugiere que sea una muestra si queremos tener un 99%
de confianza de que muestra estimacin P este entre 0.02?
Z 2 p q 2.58 2 0.68 0.32
2
n
3621
E2
0.02 2
E Z
pq
2.58
n
0.05
0.2
2
p 0.73
n
x
1
1
0.73
p 0.67
n
620.5 x
1
1
850
569.5
p q
p q2
P1 P2 p1 p 2 t Sp
p1 p 2 t Sp 1 1 2
n
n
1
2
2
2
850
850
850
850
0.016 p1 p2 0.104
0.16
p1 q1 p 2 q 2
n
n
1
2
0.104
0.67
0.73
n
n
1
2
10
8
v n 1 10 1 9
v n 1 8 1 7
1.04
90%
S
S
2
1
2
2
0.51
0.05
S12 1
12 S12
fV V
S 22 f V1V2 22 S 22 1 2
0.95
2
1.04 1 1 1.04
3.29 0.5541
2
0.51 3.68 2 0.51
6.70
n 10 gl 9 s 2 195 0.05
Al 95% X 2 19
2
n 1S 2
X 2h sup erior
0.99
n 1S 2
X 21h inf erior
2.7
(1 )
2
2.7
X 2 2 19
UNIDAD 3
Prueba de hiptesis.
Ho: Hipotesis nula
Ha: Hipotesis alternativa
No existe
No hay riesgo
No hay verificacin
0.95
I (B)
Regin
Si hay evidencia
aceptada
Si hay significacin
-1.96
(-)
+1.96
Regin de rechazo
Si hay riesgo
(+)
1ra
2do
0.95
0.95
I ()
0.5000
=0.05
0.4500
0.4500
1.65
(+)
0.5000
-1.65
I (-)
Ho: M=Mo
02
Analiza si es una prueba
Desconocidas 0
t= estudent
Dos extremos
Un extremo
Ho: M=Mo
Ho: MMo
HA: MMo
(1)
(2)
-/2
+/2
Estadstico de prueba.
X M
=
O
n
t
=
(3)
-/2
/2
X M
S
n
Dos extremos
Un extremo
c>/2
c>/2
tc>t/2
c</2
tc<t/2
tc>t/2
gl= n-1
HA: M>Mo
c</2
tc<t/2
Problemas:
Problemas:
1. Una empresa elctrica fabrica focos que tienen una duracin que se
distribuyen de forma aproximadamente con una media de 800 hrs, 0=40 hrs.
Pruebe la hiptesis de que la Mo= 800 contra la M800 si una muestra
aleatoria de 30 focos tiene una duracin promedio de 788 hrs. Utilice un nivel
de significancia de =.04
Datos
M: 800 hrs
media poblacional
O: 40 hrs
Ho: M=800
HA: M800
n: 30
Ho: M=800
HA= M800
Un Extremo
Dos Extremo
0.96
=
=0.02
=
0.4800
0.4800
=-0.02
c=-1.64
2.06
1.64
=0.02
X M 788 800
=
= -1.64
40
O
n
30
Zc=
Regla de decisin
Zc> Z
2
1.64 >2.06
NO
Zc< Z
2
-1.64<-2.06
NO
Se acepta Ho
t=1.40
gl= 5+5-2
gl= 8
-
HA: HA M1-M2<Do
Sp
n 1S12 n2 1S12
n1 n 2 2
5 10.1681 5 10.0961
Sp
552
Sp= 0.36
X 1 X 2 Do 3.44 3.68 0
t=
1
1
Sp
n1 n2
tc<t
-1.05<-1.40 NO
Se acepta Ho
gl=8
1.40
1 1
0.36
5 5
= 1.05
No se rechaza
0.20
.889
P= 0.889
B) 0.10<P<0.20
C) X 1 X 2 t
1
1
Sp
M1 M 2 X1 X 2 t
2
n1 n2
2
3.44-3.68-(1.86)(0.36)
-0.66<M1-M2<0.18
1
1
n1 n 2
1 1
<M1-M2<3.44-3.68+(1.86)
5 5
(0.36)
1 1
5 5
2 colas
Unilateral
Bilateral
/2
ESTADISTICO DE PRUEBA
4.- =
tc=
P Po
Poqo
n
P Po
Poqo
n
Dos colas
/2
Problemas:
1. Aproximadamente uno de cada 10 consumidores favorecen el refresco de
colo marca A. Despus de una campaa de promocin en una regin de ventas
dada, se seleccionaron aleatoriamente bebedores de ese producto de los
consumidores en el rea del mercado, y se les entrevisto para determinar la
efectividad de la campaa. El resultado de la encuesta mostro que un total de
26 personas expreso su preferencia para la bebida marca A. Son los datos
suficientes para indicar un aumento en la aceptacin de la marca A en la
regin.
Datos
n= 200
1
0.10
10
P=
P=
26
0.13
200
= 0.05
0.95
=0.05
0.5000
0.4500
1.65
1.41
Po qo
(0.10 )( 0.90 )
n
200
REGLA DE DECISION
Zc > Z
1.41 > 1.65 No
Se Acepta Ho
0.92
0.5000
0.4200
= 0.08
Z= 1.41
529
0.37
1400
p 2 0 .4
p
0.90
0.10
0.05
0.05
-1.65
Zc
p p
p0 q0
n
Zc Z
0.37 0.4
2.3
0.40.62
1400
1.65
1
140
74
P1
2
140
81
P2
n2 = 140
X1 = 74
X2 = 81
0.52 0.57 0
0.52 0.48 0.57 0.43
140
0.025
140
0.84
-1.96
1.96
Regla de decisin
-0.84
0.84
UNIDAD 4
Donde
es un valor de una variable aleatoria, cuya distribucin muestral se
aproxima muy de cerca con la distribucin
.
La prueba se basa en que tan buen ajuste tenemos entre la frecuencia de
ocurrencia de las observaciones en una muestra observada y las frecuencias
esperadas que se obtienen a partir de la distribucin hipottica.
Ejemplo: supngase que los clientes pueden escoger entre 3 marcas de leche
en un supermercado. En un estudio para determinar si hay preferencia para
una marca, se registran los resultados de una muestra de n=300 compras de
leche. Se muestran los datos en la tabla siguiente:
Marca 1
Marca 2
Marca 3
Fo
Fe
Fo
Fo
78
100
117
Fe
100
105
Fe
100
Con los datos hay evidencia suficiente que indique preferencia por una a ms
marcas?
Ho:P1= P2 = P3
HA:P1 P2
FE=np =
( )
0.95
=np
0.05
P=
5.99
Se acepta Ho
*Si existe suficiente evidencia que indique a un nivel de significancia de 0.95.
Concluimos que las 3 marcas de leche no tienen la misma preferencia.
Ingreso
Porcentajes Nacionales
Salario en la ciudad
Ms de $50,000
27
16
193
13
234
19
322
20
568
19
482
Menos de $5,000
11
174
Total
100
2000
Es esta suficiente evidencia para indicar que la distribucin de los ingresos por
familia de la ciudad difieren e la distribucin nacional. =0.05
Ho:P1= P2 = P3=P4= P5= P6= P7
HA:P1 P3
Se rechaza Ho
Si existe suficiente evidencia a=0.05 que los ingresos difieren de los de la
ciudad.
A= 0.5
12.6
ANLISIS JI-CUADRADA
PRUEBA DE INDEPENDENCIA
ji-cuadrado
En una prueba de independencia el nico nmero que el investigador controla
directamente es el tamao total de la muestra. Se extrae una muestra de
tamao n de la poblacin y cada objeto se clasifica segn las dos variables que
se estudian. Ni las frecuencias de cada celda, ni los totales de fila y columna se
conocen de antemano.
El investigador no fija previamente ningn conjunto, es decir, son aleatorios.
El planteamiento de las Hiptesis ser:
H 0 : A y B son independientes
H 1 : A y B no son independientes
La relacin debe cumplirse para cada celda. Por tanto, la hiptesis nula de
independencia se expresa matemticamente como
i = 1, 2
H 0 : p ij = p i. P .j
j = 1, 2
i = 1, 2
H 1 : p ij ? p i. P .j
j = 1, 2
Comparamos el nmero de observaciones en cada celda con el nmero
esperado, si H 0 es cierta. Si estos nmeros difieren poco, no hay razn para
rechazar H 0 ; si hay una gran discrepancia entre los valores observados y
esperados, entendemos esto como evidencia de que H 0 no es
cierta. Entonces se calcula el valor esperado as:
E ij = np ij
11 =
n 1. n .1
________________________
n
Exito
Si
No
Si
162
38
200
No
263 425
37 75
300 500
Datos utilizados para contrastar asociacin entre altura y xito en las clases.
Las frecuencias esperadas aparecen entre parntesis :
Exito
Si
No
Si
162 (170)
38 (30)
200
No
263 (255)
37 (45)
300
425
75
500
TABLAS DE CONTINGENCIA
Variable 1
Si
No
Total
Si
n 11 n 12 n 1.
No
n 21 n 22 n 2.
Variable 2
Total n .1 n .2 n
PRUEBAS NO PARAMTRICAS
Se denominan pruebas no paramtricas aquellas que no presuponen una
distribucin de probabilidad para los datos, por ello se conocen tambin como
de distribucin libre (distribution free). En la mayor parte de ellas los resultados
estadsticos se derivan nicamente a partir de procedimientos de ordenacin y
recuento, por lo que su base lgica es de fcil comprensin. Cuando
trabajamos con muestras pequeas (n < 10) en las que se desconoce si es
vlido suponer la normalidad de los datos, conviene utilizar pruebas no
paramtricas, al menos para corroborar los resultados obtenidos a partir de la
utilizacin de la teora basada en la normal.
En estos casos se emplea como parmetro de centralizacin la mediana, que
es aquel punto para el que el valor de X est el 50% de las veces por debajo y
el 50% por encima.
PRUEBA DE KOLMOGOROV-SMIRNOV.
El uso de la Estadstica es de gran importancia en la investigacin cientfica.
Casi todas las investigaciones aplicadas requieren algn tipo
de anlisis estadstico para que sea posible evaluar sus resultados. En algunos
casos, para resolver un problema de carcter emprico, es preciso llevar a cabo
un anlisis bastante complejo; otras veces, basta con efectuar un anlisis muy
simple y directo. La eleccin de uno u otro tipo de anlisis estadstico depende
del problema que se plantee en el estudio as como de la naturaleza de
los datos. Desde este punto de vista, la Estadstica constituye un instrumento
de investigacin y no un producto final de esta ltima.
El trabajo coherente, las acciones integradas, la no extrapolacin de elementos
de un lugar a otro, el verdadero diagnstico de la realidad han de ser prcticas
permanentes en el accionar del investigador y el estadstico aplicado.
Dentro de la estadstica se aplican en la investigacin los tests o dcimas
paramtricos y no paramtricos, el presente trabajo esta dedicado al estudio de
dos pruebas no paramtricas que por su importancia merecen ser tratadas de
forma independiente, ellas son las pruebas de Kolmogorov-Smirnov para una y
dos muestras.
Entre los tests no paramtricos que comnmente se utilizan para verificar si
una distribucin se ajusta o no a una distribucin esperada, en particular a la
distribucin normal se encuentran el test de Kolmogorov-Smirnov. El test de
Ft(x): es la funcin terica. Esta puede ser por ejemplo la funcin normal con
cierta media y varianzas conocidas.
Estadgrafo y distribucin muestral
D = mxima
Sn(x): es la funcin de distribucin emprica.
Ejemplo
El entrenador de salto de un grupo de atletas, desea conocer con vistas al
procesamiento de los datos por el obtenidos sobre salto de una muestra
aleatoria de atletas de esa especialidad en un CVD, si las mediciones
realizadas por l estn distribuidas normalmente. Los datos son los siguientes:
Salto_Largo
1 1.60
2 1.65 Ho: Los datos estn distribuidos normalmente
3 1 .55 H1: Los datos no estn distribuidos normalmente.
4 1.62
5 1.64
6 1.70
7 1.71
8 1.68
9 1.66
10 1.67
11 1.65
12 1.68
13 1.69
14 1.70
Salidas de la dcima
Conclusiones:
No se rechaza a Ho, por tanto la distribucin de los datos es normal.
Tcnicas adicionales a la dcima
Tabla de frecuencias
Histograma.
Estadgrafos que deben acompaar a los estadgrafos de la dcima
1-Tabla de frecuencias.
Tcnicas auxiliares para respaldar los resultados obtenidos en la
conclusin.
1-Histogramas.
TABLA2
DIFERENCIAS
Frecuencia relativa
acumulada
Diferencia de las
p11
p21
p11-p21
p12
p22
p12-p21
...
...
...
...
p1i
p2i
p1i-p2i
...
...
...
...
p1k
p2k
p1k-p2k
Frecuencias
Ejemplo
Se muestran las prdidas en peso (medidos en kilogramos), de dos grupos de
personas que han sido sometidas a dos tipos diferentes de medicamentos,
designado por Grupo1 y Grupo2. Los resultados obtenidos se muestran en la
siguiente tabla:
GRUPO1 (n1=10) GRUPO2 (n2=12
5.49
3.76
3.08
4.22
4.13
4.17
5.03
5.03
4.85
6.03
2.09
4.45
4.45
5.13
3.58
4.26
3.86
4.62
4.13
4.4
2.81
Salida de la dcima
La salida bsica de la dcima muestra los valores mximos positivos, mximos
negativos y el valor de probabilidad, los que se muestran a continuacin.
medicin
mxima
diferencia
negativa
mxima
diferencia
positiva
valor de probabilidad
perdida de peso
0.4666667
p > .10
4.73900
.8235661
GRUPO 2 12
3.945834
.8235661
PRUEBA ANDERSON-DARLING
donde
ar el P-valor.
La prueba de Anderson-Darling es una prueba estadstica que permite
determinar si una muestra de datos se extrae de una distribucin de
probabilidad. En su forma bsica, la prueba asume que no existen parmetros
UNIDAD 5
Donde
y siguen los
Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor
esperado) del valor Y, se obtiene:
Derivando respecto a
(1-22)
En donde se ha especificado la hiptesis alterna de dos extremos. Ahora
bien, como las i son NID(0,2) se concluye que las yi son NID(0 + 1xj, 2).
Por lo tanto,
es N(1,
2/Sxx). Adems
es independiente de MSE. Entonces, como resultado de la
suposicin de normalidad, la estadstica:
(1-23)
Tiene una distribucin t con n 2 grados de libertad si H0: 1 = 1,0 es
verdadera. Se rechaza H0:1 = 1,0 si:
(1-24)
En donde t0 se calcula usando la Ecuacin (1-23).
Puede utilizarse un procedimiento similar para probar hiptesis acerca de la
ordenada en el origen. Para probar:
H0: 0 = 0,0
H1: 0 0,0
Se usa el estadstico:
(1-25)
(1-26)
Y se rechaza la hiptesis nula si
.
Un caso especial muy importante de la hiptesis (1-22) es:
H0: 1 = 0
H1: 1 0
(1-27)
(1-28)
Los dos componentes de Syy miden, respectivamente, la variabilidad
de yi explicada por la recta de regresin y la variacin residual, no explicada
por la recta de regresin.
(1-29)
(1-30)
Tabla 1-2 Anlisis de variancia para probar la significancia de la regresin
Grados de
Libertad
Media de
Cuadrados
F0
Regresin
MSR
MSR/MSE
Error o residual
n2
MSE
Fuente de
Variacin
Total
Suma de
cuadrados
Syy
n 1
(1-31)
Tiene una distribucin
y se rechaza H0 si F0 >
. Usualmente el
procedimiento para realizar la prueba se acomoda en una tabla de anlisis de
variancia, tal como aparece en la Tabla 1-2.
La prueba de significancia de la regresin tambin puede deducirse a partir de
la Ecuacin 1-23 con 1,0 = 0, es decir:
(1-32)
Elevando al cuadrado esta ecuacin se obtiene:
(1-33)
Ntese que
en la Ecuacin 1-33 es igual a F0 en la Ecuacin 1-31. En
general, el cuadrado de una variable aleatoria t con f grados de libertad tiene
Grados de
Libertad
Media de
Cuadrados
F0
Regresin
119.26
119.26
140.80
Error
8.47
10
0.847
Total
127.73
11
Fuente de
Variacin
Figura 1-2. Grfica de probabilidad normal para los residuos del Ejemplo 1-1.
(1-34)
La suma total de cuadrados del error puro se obtiene sumando la Ecuacin 134 sobre todos los niveles de x:
Hay
grados de libertad asociados con la suma de
cuadrados del error puro. La suma de cuadrados de la falta de ajuste
simplemente es:
(1-35)
Y se rechaza la hiptesis de idoneidad del modelo H0 si F0 > F,m 2,n m.
Esta prueba puede introducirse fcilmente en el anlisis de variancia dirigida a
la significacin de la regresin. Si la hiptesis nula de la adecuacin del modelo
se rechaza, el modelo debe ser abandonado y buscarse otro que resulte ms
apropiado. Si H0 no se rechaza, no existe una razn aparente para dudar de la
adecuacin del modelo y, a menudo, MSPE y MSLOF se combinan
para estimar 2.
Ejemplo 1-3:
Supongamos que se tienen los siguientes datos:
x
1.0
1.0
2.0
3.3
3.3
4.0
4.0
4.0
4.7
5.0
2.3
1.8
2.8
1.8
3.7
2.6
2.6
2.2
3.2
2.0
5.6
5.6
5.6
6.0
6.0
6.5
6.9
3.5
2.8
2.1
3.4
3.2
3.4
5.0
Se calculan las cantidades Syy = 10.97, Sxy = 13.62, Sxx = 52.53, = 2.847
y = 4.382. El modelo de regresin es = 1.708 + 0.260x, y la suma de
cuadrados de regresin es SSR = Sxy = (0.260)(13.62) = 3.541. La suma de
cuadrados del error puro se calcula como sigue:
Nivel de x
(yi -
)2
Grados de libertad
1.0
0.1250
3.3
1.8050
4.0
0.1066
5.6
0.9800
6.0
0.0200
Totales
3.0366
Grados de
Libertad
Medias de
Cuadrados
F0
Regresin
3.541
3.541
7.15
Residuo
7.429
15
0.4952
(Falta de ajuste)
4.3924
0.5491
(Error Puro)
3.0366
0.4338
Total
10.970
16
Fuente de
Variacin
1.27
Una buena prctica consiste en usar el modelo de menor orden que describa
adecuadamente los datos, al ajustar un modelo de regresin a los datos
experimentales. La prueba de falta de ajuste te puede ser til en este aspecto.
Sin embargo, siempre es posible ajustar un modelo de orden n 1 cuando se
tienen n puntos muestrales. El experimentador no debe considerar el uso de un
modelo que est saturado, o sea, aquel que prcticamente tiene el mismo
nmero de variables de regresin y observaciones de y.
Coeficiente de Determinacin
(1-36)
La cantidad se conoce como coeficiente de determinacin y se usa mucho para
juzgar la adecuacin del modelo de regresin. Es evidente que 0 < R2 1. A
menudo se menciona informalmente a R2 como la proporcin de variabilidad
de los datos explicada por el modelo de regresin. Si la variable de
regresin x es aleatoria, de manera, que x y y puedan considerarse variables
aleatorias conjuntamente distribuidas, entonces Rconstituye la correlacin
simple entre x y y. Sin embargo, el concepto de correlacin entre x e y no est
definido si x no es una variable aleatoria. Para los datos del Ejemplo 1-1 se
tiene que R2 = SSR/Syy = 119.26/127.73 =0.9337. As, 93.37% de la
variabilidad de los datos es explicada por el modelo.
y
Tienen distribucin t con n 2 grados de libertad. As, un intervalo de confianza
del 100(1 ) % sobre 1 est dado por:
(1-37)
Similarmente, un intervalo de confianza del 100(1 ) % para 1 est dado
por:
(1-38)
Como ilustracin, se obtiene un intervalo de confianza de 95% para 1 con los
datos del Ejemplo 1-1 usando la Ecuacin 1-37.
O bien,
Porque Cov
porque
son insesgados.
porque
y
tambin lo estn. Por lo tanto, un intervalo de confianza del
100(1 ) %para la recta de regresin real en x = x0, puede calcularse
mediante:
(1-39)
Ntese que la amplitud del intervalo de confianza para E(y | x0) es funcin de
x0. La amplitud es mnima en
aumenta.
Ejemplo 1-3:
Se desea construir un intervalo de confianza de 95% para la recta de regresin
de los datos del Ejemplo 1-1. Ya que = -0.2879 + 0.4566x0, el intervalo de
confianza de 95% es:
Los valores predichos y los lmites de confianza del 95% para x0 = xi, i = 1, 2, .
. ., 12 aparecen en la siguiente Tabla 1-5. Para mostrar el uso de esta tabla, el
intervalo de confianza del 95% para la recta de regresin real en x0 =26 es:
O bien:
20
8.8441
1.11
22
9.7573
0.97
24
10.6705
0.84
26
11.5837
0.73
28
12.4967
0.65
30
13.4101
0.60
32
14.3233
0.60
34
15.2365
0.65
36
16.1497
0.73
38
17.0629
0.84
x0
40
17.9761
0.97
42
18.8893
1.11
Figura 1-6. Modelo ajustado e intervalo de confianza de 95% para el Ejemplo 13.
Otro concepto til en la regresin en la regresin lineal simple es el de intervalo
de prediccin. sta es una estimacin por intervalo del promedio
de k observaciones futuras a un valor particular de x = x0. Para ilustrar este
concepto, supongamos que el analista del Ejemplo 1-1 desea construir una
estimacin por intervalo de la impureza promedio de los
siguientes cuatro lotes de pintura procesada con una rapidez x0 = 34. Es
inadecuado usar un intervalo de confianza porque hace referencia a la
impureza media real (una constante desconocida) y no a futuras observaciones
de la variable aleatoria.
Sea y0j la j-simas observacin futura de la respuesta en x0. El promedio de
estos valores es:
es
. La variable aleatoria:
Porque
es independiente de 0. Por lo tanto, el intervalo de prediccin del
100(1 ) % para la media de k observaciones futuras en x0 es:
(1-40)
Notemos que el intervalo de prediccin tiene una amplitud mnima en x0 =
16.8235.
y siguen los
Al menos una i
(1-55)
Y si H0:i = 0 es verdadera,
~
, en donde el nmero de grados de
libertad para 2 es igual al nmero de variables de regresin en el modelo.
Tambin se puede mostrar que
~
y que SSE y SSR son
independientes. Por lo tanto el procedimiento para probarH0:i = 0 consiste en
calcular:
(1-56)
Y rechazar H0 si F0 > F,k,n-k-1. Usualmente el procedimiento se resume en
una tabla de anlisis de variancia como la que aparece en la Tabla 1-9.
A continuacin, se obtiene la frmula para calcular la suma de cuadrados de
regresin SSR.
Grados de
Libertad
Media de
Cuadrados
F0
Regresin
SSR
MSR
MSR/MSE
Error o
residuo
SSE
nk1
MSE
Total
Syy
n1
Fuente de
Variacin
As, puesto que Syy = SSE + SSR, se observa que la suma de cuadrados de
regresin es:
(1-57)
Ejemplo 1-5:
Considere los datos del ejemplo 1-4. El modelo ajustado es = 30.866667 +
0.877203(x1 18) + 0.455918(x2 28). A partir de Xy se observa que S1y =
345 y que S2y = 63. La suma total de cuadrados es:
Grados de
libertad
Media de
cuadrados
F0
Regresin
331.36
165.68
16.80
Error
118.37
12
9.86
Total
449.73
14
Fuente de
variacin
~
Es porque es una comprobacin lineal de las observaciones yj. Por lo tanto, la
variancia del coeficiente de regresin
es igual a 2 veces el (i + 1)-simo
elemento de la diagonal de (XX)-1, es decir, Cii. As, cada coeficiente de
regresin tiene la propiedad distribucional.
~
(1-59)
Y H0:i =0 se rechaza si
engaosa porque usualmente las
por lo regular habr elementos Cij que no sean cero. Esto implica que las
no
son independientes y, en consecuencia, las pruebas t de la Ecuacin 1-59
tampoco lo sern.
El resultado puede ser que i aparenta ser significativo solo porque su
estimador
no es independiente de , y i, en realidad es significativo. Se
requiere un procedimiento en el que pueda determinarse la contribucin a la
suma de cuadrados de regresin de un parmetro (por ejemplo,
otros parmetros
), dado que
(j = i) ya se encuentran en el modelo.
(1-60)
(1-61)
En donde X1, representa las columnas de X asociadas con 1 y X2 presenta
las columnas de X asociadas con 2.
Se sabe que en el modelo completo (el que incluye tanto a 1 como
a 2)
Tambin:
(p grados de libertad)
Y:
y
(1-63)
(165)
Si F0 > F,r,np se debe rechazar H0 y concluir que al menos uno de los
parmetros en 1 no es cero. Este procedimiento es extremadamente til. Si ya
se tienen algunas variables en un modelo de regresin, la introduccin de , al
modelo ms reciente puede valorarse calculando:
Ejemplo 1-6:
Se usan los datos del Ejemplo 1-5 para ilustrar la prueba de significacin de
regresin general. El modelo de regresin es:
= 30.86667 + 0.877203(x1 18) + 0.455918(x2 18)
Se desea probar la hiptesis nula H0: 1 = 0 contra H1: 1 = 0. Usando la
notacin de la prueba de significacin de regresin general esto implica que:
C:\Users\Belinda\Documents\Libro1.xlsx
C:\Users\Belinda\Documents\Libro1 (Autoguardado) casa.xlsx
C:\Users\Belinda\Documents\Problema 1.xlsx
C:\Users\Belinda\Documents\problema 2.xlsx
C:\Users\Belinda\Documents\Regrecion lineal.xlsx