Vous êtes sur la page 1sur 15

Prcticas de Estadstica con R

Prctica 3. Inferencia: Intervalos de Confianza y Contraste de Hiptesis


INTER!"#$ %E C#N&I!N'!
Para poder realizar el clculo de los intervalos de confianza, as como de los contrastes de hiptesis referentes
a las distribuciones de probabilidad para representar el comportamiento estadstico de poblaciones, se supone
que la muestra de datos recogida es representativa del comportamiento de la poblacin, y una de las formas
ms usuales de garantizar esa representatividad es mediante muestras aleatorias simples.
Intervalo de confianza de la (edia po)lacional
Vamos a comenzar por hallar el intervalo de confianza para la (edia po)lacional. Eisten dos tipos de
estimacin, la puntual se halla calculando la media de la muestra, y es de clculo sencillo, pero es difcil que
esta estimacin coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error
que cometemos. !tra forma es la estimacin por intervalos que consiste en calcular a partir de la muestra, un
intervalo con una probabilidad dada "nivel de confianza#, de contener el valor de la media poblacional,
informndonos del error.
E*e(plo: $ueremos estudiar la altura media de todos los individuos con un nivel de confianza de

%&.&'.
(tilizamos como con)unto de datos activo el de Pulso. *o hemos asociado al data.frame Pulsea+.
Caso de desconocida:
Para calcular el intervalo de confianza empleamos la secuencia,se hace la secuencia,
+Estadsticos +,edias +Test t para -na (-estra.
Para el intervalo de confianza bilateral hay que marcar
En -iptesis alternativa ./edia poblacional % &,
0unque hay un error y debera mostrar el teto /edia poblacional 1. &, como hiptesis alternativa.
-ay que elegir la Variable -eight para altura, y dar un nivel de confianza, aqu del 2'3
*a instruccin 4 generada,
> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.9!
One Sample t-test
data: Pulsea1$Height
t = 180.1207, df = 91, p-alue ! 2.2e-1"
alte#natie h$p%thesis: t#ue mean is n%t e&ual t% 0
9 "ercent confidence interval#
'$%.99% $9.&%'1!
sam"le estimates#
mean of ( $).%1%*9 Esti(ador p-nt-al
5i se pusiera mu%'.6, el intervalo calculado sera el mismo, siempre que indiquemos alternative%7t8o.sided7
"9ilateral#.
El clculo anterior se basa en la distribucin t de 5tudent para un estadstico asociado a la media muestral, que
es el ms adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula,
m t"n:+, +:;<=# s< n ,
+<+'
con s la cuasi:desviacin tpica muestral, m la media muestral, t"n:+, +:;<=# el valor tal que Pr"t
n:+
1% t"n:+, +:
;<=## % +: ;<=, esto es, el valor de la variable t
n:+
de 5tudent de "n:+# grados de libertad que de)a a su izquierda
un rea de valor "+: ;<=# ba)o la funcin de densidad, o sea el cuantil "+: ;<=# de la t de 5tudent con "n:+# g.l.
*a funcin sd calcula la cuasi desviacin tpica de la muestra. > la siguiente secuencia de instrucciones 4 , los
etremos del intervalo de confianza buscado,
( n=length'Pulsea1$Height)-sum'is.na'Pulsea1$Height))
( s=sd'Pulsea1$Height, na.#m = *+,-)
(e.t#/0&=mean'Pulsea1$Height,na.#m=*+,-)-&t'1'0.972), df=n-1, l%3e#.tail=*+,-)4s5s&#t'n)
(e.t#6e#=mean'Pulsea1$Height,na.#m=*+,-)7&t'1'0.972), df=n-1, l%3e#.tail=*+,-)4s5s&#t'n)
(e.t#/0&8e.t#6e#
+1, $%.99%
+1, $9.&%'1
5e ha utilizado la funcin is.na'), que vale ?4(E o @0*5E al aplicarse a una secuencia de datos. Es muy
Atil cuando faltan algunos datos que aparecen refle)ados en el con)unto de ellos con el valor BC0D. Co ocurre
aqu, pero en previsin de que ocurra, se ofrece la anterior programacin. Eon los datos de Pulsos, podemos
ver que para la variable 0ctivity falta + dato, en la fila 'F del data.frame de Pulsos,
( sum'is.na'Pulsea1$91tiit$))
:1; 1
*a funcin is.na"# devuelve aqu un vector con + componente @0*5E y 2+ componentes ?4(E. 0l aplicar la
funcin sum"# a este vector de valores lgicos "con un valor igual a + y 2+ valores nulos#, da la suma de los
+Gs, que es +.
Caso de conocida:
5i se conociese la varianza de la poblacin de alturas, se podra construir un intervalo de confianza bilateral
basndose en la distribucin normal,
4ecuHrdese que el intervalo de confianza al 2'3 es
n
I

= < +
z m
, con xm la media muestral y el cuantil
+:;<= de la variable normal C"&,+#. "+: ; <=%+:&.&='%&.2J'#.
Eon el mismo e)emplo, suponiendo que la desviacin tpica poblacional es =*.% , la siguiente secuencia de
instruccions 4 nos da los etremos del intervalo de confianza,
( sigma=<.78n=length'Pulsea1$Height)-sum'is.na'Pulsea1$Height))
( e.t#/0&= mean'Pulsea1$Height,na.#m=*+,-) - &n%#m'1'0.972), mean=0, sd=1,
l%3e#.tail=*+,-)4sigma5s&#t'n)
( e.t#6e#= mean'Pulsea1$Height,na.#m=*+,-) 7 &n%#m'1'0.972), mean=0, sd=1,
l%3e#.tail=*+,-)4sigma5s&#t'n)
( e.t#/0&8e.t#6e#
:1; "7.9"1<<
:1; "9.=7<=2
?amaKo de la muestra para estimar cuando es conocida.
Euando la es conocida, se puede calcular el tamaKo de muestra aleatoria simple necesario para obtener un
intervalo de confianza con un margen de error dado.
5e llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.
Para el intervalo de confianza bilateral de la media, el margen de error es, E%
+
=
I
n
z

, y despe)ando de aqu el
tamaKo muestral,
+
=
= =
=
z LI
n
E

=
Vamos a hacer una pequeKa tabla que reco)a la variacin del tamaKo de la muestra para un con)unto de valores
del margen de error , cuando sigma%M.J. Eonsiderando un nivel de confianza del 2'3, z
+:;<=
% z
&,2J'
% +,2N .
4ecordemos cmo obtener con 4 el valor z
&.2J'
%apro +.2N,
( &n%#m'1'0.972), mean=0, sd=1, l%3e#.tail=*+,-)
:1; 1.9299"=
=<+'
Ealcularemos una pequeKa tabla para diferentes valores de E, desde el valor inicial &.' al valor final ' a
incrementos de &.', estarn contenidos en un vector de nombre Evector
(na secuencia de valores equidistantes se puede hacer con 4:
( 2.<:8
:1; 2.< <.< =.< 2.< ".< 7.<
( -e1t%#=se&'0.2,2, >$=0.2)8-e1t%#
:1; 0.2 1.0 1.2 2.0 2.2 <.0 <.2 =.0 =.2 2.0
( -l%ngi=se&'length=12,f#%m=0.2, >$=0.2)8-l%ngi
:1; 0.2 0.7 0.9 1.1 1.< 1.2 1.7 1.9 2.1 2.< 2.2 2.7
*a siguiente secuencia de instrucciones da la tabla de tamaKos de muestra buscada,
( sigma=<.78
( 1uantil=&n%#m'1'0.972), mean=0, sd=1, l%3e#.tail=*+,-)81uantil
:1; 1.9299"=
> -vector=se.(0.,, /0=0.!1-vector
+1, 0. 1.0 1. '.0 '. *.0 *. &.0 &. .0
( ne1t%#=1uantil?24sigma?25-e1t%#?28ne1t%#8ceiling(nvector!
:1; 210.<28282 22.289271 2<.<7<1=< 1<.1=7<9< 8.=1=<<1 2.8=<28" =.29<02"
:8; <.28"8=8 2.29701" 2.10<28<
+1, '11 * '& 1& 9 $ & * *
*os Altimos valores son los enteros para n en correspondencia con las componentes del vector Evector "la
funcin ceiling "# da el entero mayor inmediato al valor del argumento.
0s obtenemos cada ?amaKo de la muestra con su correspondiente /argen de Error. Para tener menor /argen
de error se ha de aumentar la muestra, como es natural.
?amaKo de la muestra para estimar cuando es desconocida.
El /argen de error o semiamplitud del intervalo de confianza es en el caso de es desconocida ,
E% t"n:+, +:;<=# s< n .
0qu no se puede despe)ar el tamaKo muestral n cuando se quiere elegir uno de antemano para garantizar un
error dado con un cierto nivel de confianza, pues s, cuasi desviacin tpica muestral. no es conocida a priori de
la etraccin de la muestra. Pero se podra hacer una tabla relacionando n y E, para diversos valores de s
considerando estimaciones de s que seas sensatas.
E*e(plos de !plicacin de los Intervalos de Confianza para contrastar /iptesis
E*e(plo: Eon el con)unto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente,
por medio de un intervalo de confianza al nivel de significacin

%&.&', o de confianza del 2'3, y utilizarlo


para contrastar la hiptesis de si la altura media de los hombres es de +J+ cms. Vamos a generar un con)unto
de datos con las alturas de los hombres.
En principio debemos filtrar la altura por medio del OHnero para separar los hombres de las mu)eres con la
secuencia,,
+%atos +Con*-nto de datos activos+&iltrar datos.
Eomo marcamos Pncluir todas las variables, va a generar un
Qata.frame con todos los datos referidos
slo a -ombres, Oender%%D/aleD
El nuevo con)unto de datos activo, que tiene siempre el tipo
data.frame, se llamar 0lturahombres
El intervalo de confianza para la media de altiras ,
Emplando el 4 Eommander, lo producen los menAs,
M<+'
+Estadsticos + ,edias +Test para -na (-estra..
4esultando en la Ventana de resultados de 4 Eommander
One Sample t-test
data: 9ltu#ah%m>#es$Height
t = 20".822=, df = 2", p-alue ! 2.2e-1"
alte#natie h$p%thesis:
t#ue mean is n%t e&ual t% 0
9 "ercent confidence interval#
%0.0$90) %1.&*9$9
sample estimates:
mean %f .
70.72=<9
9asndonos en el intervalo de confianza para la media de alturas de hombres, "J&.&N2&6 J+.FM2N2#
consideremos ahora el contraste de hiptesis sobre que la altura media es +J+ cms. Pasando esta altura media a
pulgadas, que es la informacin etrada de la tabla, +J+<=.'F% NJ.M==6 pulgadas.
Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.322 pul!adas no
est" contenido en el inter#alo de confianza calculado.
E*e(plo, Ealcular el intervalo de confianza de la media del pulse+ de los hombres que fuman en los datos de
Pulsos. Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que reco)a la variable Pulse+
con la restriccin de que se refiera a -ombres "B/aleD# que @uman."B5moReD# . *a secuencia de filtradoS
+ %atos +Con*-nto de datos activo + &iltrar con*-nto de datos activo.
*lamamos al con)unto de dato activo resultante,
Pulso+-ombres@uman,
que tiene + sola Variable "columna# con Pulse+,
con tantos datos como hombres fumadores.
*a instruccin 4 asociada al filtrado,
( Puls%1H%m>#es@uman !-
su>set'Pulsea1,
su>set='Aende#==BCaleB)D'Sm%Ees==BSm%EeB),
sele1t=1'Pulse1))
Con el (en-. + Estadsticos + ,edias + Test t para -na (-estra.
se genera la instrucin 4 y el resultado con el intervalo de confianza bilateral de la
media de pulsos con el 2'3 de confianza,,
( t.test'Puls%1H%m>#es@uman$Pulse1, alte#natie=Ft3%.sidedF, mu=0.0, 1%nf.leel=.92)
Ventana de resultados de 4 Eommander,
data: Puls%1H%m>#es@uman$Pulse1
t = 22.777, df = 19, p-alue = <.02"e-1"
alte#natie h$p%thesis: t#ue mean is n%t e&ual t% 0
9 "ercent confidence interval#
$.&1)% %$.9)1'
sample estimates:
mean %f .
71.2
F<+'


E*e(plo, 5e espera que la resistencia en Rg<cm
=
de cierto material suministrado por un proveedor se distribuya
normalmente, con media ==& y desviacin tpica J.J'. 5e toma unaa muestra de 2 elementos y se obtiene, =&M,
==2, =+', ==&, ==M, =MM, =&6, ==6, =&2. 5e pide, -allar el intervalo de confianza del 2'3 para la media y
contrastar la hiptesis de %==&, sin considerar conocida la desviacin tpica poblacional..
Vamos a interpretar el resultado del test de hiptesis con
hiptesis nula mu%==&, y alternativa que mu1. ==&
*as instrucciones 4 asociadas,
( t.test'+esisten1ia$+esis,
alte#natie=Ft3%.sidedF, mu=220,
1%nf.leel=.92)
One Sample t-test
data: +esisten1ia$+esis
t = -0.<801, df = 8, p-alue = 0.71<8
alte#natie h$p%thesis: t#ue mean is n%t e&ual t% 220
9 "ercent confidence interval#
('10.%%& ''$.%$0!
sample estimates:
mean of (# '1).$$$% -ste es el estimador "untual
Eomo el valor p:value%&.J+M6 es mayor que %&.&', nivel de significacin, no rechazamos la hiptesis nula.
!bservando por otro lado el intervalo de confianza al 2'3, como el valor ==& est en el intervalo, no
rechazamos que la resistencia media es ==&.
E*e(plos prop-estos:
01.2Ealcular el intervalo de confianza para el peso medio de las mu)eres con

%&.&'.
31.:Estudios recientes afirman que la altura media de las mu)eres de esta poblacin es

%+NJcms. 0 la vista
de los datos Tpodemos aceptar dicha hiptesisU
31.:Ealcular el intervalo de confianza para el Pulse+ medio de las mu)eres que no fuman con

%&.&'
Intervalo de confianza para -na proporcin
E)emplo, En los datos de Pulsos, calcular el intervalo de confianza para la proporcin de los individuos que no
fuman, con un nivel de confianza del 2'3, "nivel de significacin

%&.&'#
El programa realiza el intervalo de la proporcin de los individuos con un valor del factor atendiendo al orden
alfabHtico de la denominacin de los niveles del factor. 0qu realizar el anlisis sobre los Con5moRer y no
sobre los 5moRe. 5i quisiHramos calcular el intervalo de los fumadores, tendramos que cambiar el nombre a
los campos, 5moRe%@umador, Con5moRer% Cofumador. *a secuencia de menAs es,
+ Estadsticos + Proporciones +Test de proporciones para -na (-estra.
Para hace rl intervalo bilateral, se marca
Proporcin de la poblacin%p&,
"4 debera escribir 1. "distinto# en vez de % "igual#
El valor para la -iptesis nula, p%&.' por defecto,
no importa para intervalo de confianza, pero s para test.
5e elige 0proimacin normal si se considera admisible. 5e generan las siguientes instrucciones y respuestas
'<+'
en que incluimos nuestros comentarios,
GAene#a una ta>la de f#e1uen1ias
( .*a>le !- .ta>s'H Sm%Ees , data= Pulsea1 )
( .*a>le
Sm%Ees
2on3mo4er Sm%Ee
"= 28
G Ia fun1ti%n #>ind ag#upa la fila numJ#i1a "= 28 1%m% iun e1t%# fila pa#a apli1a#le la
G fun1iKn p#%p.test pa#a test de p#%p%#1i%nes.
( p#%p.test'#>ind'.*a>le), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92, 1%##e1t=@9IS-)
1-sample p#%p%#ti%ns test without continuit0 correction
data: #>ind'.*a>le), null p#%>a>ilit$ 0.2
L-s&ua#ed = 1=.087, df = 1, "5value = 0.0001%&$
alte#natie h$p%thesis: t#ue p is n%t e&ual t% 0.2
9 "ercent confidence interval#
0.9*%* 0.%)0'$*1
sample estimates:
p 0.$9$'' estimador "untual
: Con correccin de contin-idad, intervalo con el 2'3 de confianza, 4.5678454 4.8654343
( p#%p.test'#>ind'.*a>le), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92, 1%##e1t=*+,-)
: Con la distri)-cin )ino(ial e9acta, con el 2'3 de confianza, 4.5747::7 4.868338:
( >in%m.test'#>ind'.*a>le), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92)
E*e(plo: Ealcular el intervalo de confianza para la proporcin de las mu)eres que no fuman, con un nivel de
confianza del 2'3 "nivel de significacin

%&.&'#
Vamos a actuar utilizando slo instrucciones 4, la siguiente secuencia de instrucciones y respuestas que
apoortan al intervalo de confianza buscado,
V 5e seleccionan los datos
( Sm%EesmuMe# !- su>set'Pulsea1, su>set=Aende#==B@emaleB)
G Se gene#a una a#ia>le Ci*a>la 1%n las f#e1uen1ias %>se#adas
( Ci*a>la !- .ta>s'H Sm%Ees , data= Sm%EesmuMe# )
G Se muest#a el 1%ntenid% de Ci*a>la
( Ci*a>la
Sm%Ees
N%nSm%Ee# Sm%Ee
27 8
G 9pli1a# p#%p.test') fun1ti%n &ue da el inte#al% de1%nfian0a,
G ap#%.ima1iKn n%#mal, sin 1%##e11iKn de 1%ntinuidad
( p#%p.test'#>ind'Ci*a>la),7 alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92,
7 1%##e1t=@9IS-)
1-sample p#%p%#ti%ns test 3ith%ut 1%ntinuit$ 1%##e1ti%n
data: #>ind'Ci*a>la), null p#%>a>ilit$ 0.2
L-s&ua#ed = 10.<1=<, df = 1, p-alue = 0.001<2
alte#natie h$p%thesis: t#ue p is n%t e&ual t% 0.2
92 pe#1ent 1%nfiden1e inte#al:
0."0982"8 0.879<=12
sample estimates:
p
0.771=28"
Eon aproimacin normal y correccin de continuidad,
92 pe#1ent 1%nfiden1e inte#al:
0.29==798 0.88922"0
N<+'
Eon modelo 9inomial eacto,
( >in%m.test'#>ind'Ci*a>la), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92)
-.a1t >in%mial test
92 pe#1ent 1%nfiden1e inte#al:
0.298"<"7 0.892789"
E*e(plo, Eon los datos de Pulsos, calcular el intervalo de confianza para la proporcin de no fumadoras entre
las mu)eres de ba)a actividad fsica. Es un caso en que el con)unto de datos que resulta es muy reducido. 5e
puede obtener desde el 4 Eommander utilizando el proceso de filtrado de datos, conservando la variable
5moRes y seleccionando los individuos con la restriccin "Oender%%G@emaleG# W" 0ctivity%%D5lightD#
0l seleccionar el proceso para el
intervalo con el 4 Eommander, aparece
el siguiente aviso en los mensa)es de
error, indicando que los datos;
por s- escasez; no son adec-ados
para este tipo de anlisis basado en el modelo normal,
9O637# 8arning in "ro".test(r/ind(.9a/le!,
alternative = :two.sided:, " = 0., #
;hi5s.uared a""ro(imation ma0 /e incorrect
1-sample p#%p%#ti%ns test 3ith%ut 1%ntinuit$ 1%##e1ti%n
data: #>ind'.*a>le), null p#%>a>ilit$ 0.2
L-s&ua#ed = 1, df = 1, p-alue = 0.<17<
alte#natie h$p%thesis: t#ue p is n%t e&ual t% 0.2
9 "ercent confidence interval#
0.*00$&1) 0.9&&1'%
sample estimates:
p
0.72
LLL *o que procede hacer es utilizar la distribucin binomial eacta, resultando,
( .*a>le !- .ta>s'H Sm%Ees , data= @1 )
( .*a>le
Sm%Ees
N%nSm%Ee# Sm%Ee
< 1
( >in%m.test'#>ind'.*a>le), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92)
-(act /inomial test
data: #>ind'.*a>le)
num>e# %f su11esses = <, num>e# %f t#ials = =, p-alue = 0."22
alte#natie h$p%thesis: t#ue p#%>a>ilit$ %f su11ess is n%t e&ual t% 0.2
9 "ercent confidence interval#
0.19&1'0& 0.99*$90
sample estimates:
p#%>a>ilit$ %f su11ess
0.72
!bsHrvese que el proceso binomial eacto da como intervalo de confianza al 2'3, "&.+2F+=&F &.22MN2&'#,
que es muy poco informativo por la escasez de datos.
E*e(plo de proporcin con datos n-(<ricos "*ibro *uceKoWOonzlez, pg MM2#.: Eon ob)eto de estudiar la
resistencia a compresin de un determinado hormign, se han realizado +& probetas que posteriormente han
sido sometidas a un ensayo de rotura, habiHndose observado las siguientes resistencias "medidas en Xg<cm
=
#
MF6.M, MJ6.2, M=2.N, MJ2.M, MF6.6, MNJ.J, M'6.F, MJ6.=, MJJ.2, MF+.6
$e pide:
Estimar puntualmente y mediante intervalos de confianza, a niveles de confianza &,2' y &.22 , la proporcin de
probetas cuya resistencia supera M'& Rg<cm
=
J<+'
Proceso con instr-cciones R:
( +esis=1'<=8.<,<78.9,<29.",<79.<,<=8.8,<"7.7,<28.=,<78.2,<77.9,<=1.8)
( N=length'+esis)
( .=sum'as.nume#i1'+esis(<20))
( >in%m.test'.,N,alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92)
-.a1t >in%mial test
= %a el intervalo con la distri) &; e9presin 8.6; li)ro "-ce>o?@onzlez; p 308
data: . and N
num>e# %f su11esses = ", num>e# %f t#ials = 10, p-alue = 0.72<9
alte#natie h$p%thesis: t#ue p#%>a>ilit$ %f su11ess is n%t e&ual t% 0.2
9 "ercent confidence interval#
0.'$'*%)1 0.)%)&&%%
sample estimates:
p#%>a>ilit$ %f su11ess
0."
*o comprobamos hallando dicho intervalo con la citada e9presin 8.6:
( i0=.5'.7'N71-.)4&f'1'0.972), df1=24N72-24., df2=24., l%3e#.tail=*+,-))8i0
:1; 0.'$'*%)1
( de#='.71)5'.717'N-.)5&f'1'0.972), df1=24.72, df2=24N-24., l%3e#.tail=*+,-))8de#
:1; 0.)%)&&%%
5i se emplea la aproimacin normal de la binomial sin correccin de continuidad y la epresin "J.J#,
*uceKoWOlez, pM+N ,
( +esis=1'<=8.<, <78.9, <29.", <79.<, <=8.8, <"7.7, <28.=,
<78.2, <77.9, <=1.8)
( .=sum'as.nume#i1'+esis(<20))
( N=length'+esis)
( p#%p.test'.,N,alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92, 1%##e1t=@9IS-)
1-sample p#%p%#ti%ns test 3ith%ut 1%ntinuit$ 1%##e1ti%n
data: . %ut %f N, null p#%>a>ilit$ 0.2
L-s&ua#ed = 0.=, df = 1, p-alue = 0.2271
alte#natie h$p%thesis: t#ue p is n%t e&ual t% 0.2
9 "ercent confidence interval#
0.*1'$%*) 0.)*1)19%
sample estimates:
p
0."
Eomprobamos la epresin "J.J#, *uceKoWOlez, pM+N ,
( 0=&n%#m'1'0.972), mean=0, sd=1, l%3e#.tail=*+,-)
( p=.5N8
( i077='p70?25'24N)-04s&#t'p4'1-p)5N70?25'=4N?2)))5'170?25N)8i077
:1; 0.*1'$%*)
( de#77='p70?25'24N)704s&#t'p4'1-p)5N70?25'=4N?2)))5'170?25N)8de#77
:1; 0.)*1)19%
Si se t#a>aMa 1%n la ap#%.ima1iKn n%#mal de p#%p.test de +, $ PON 1%##e11iKn de
1%ntinuidad:
( p#%p.test'.,N,alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92, 1%##e1t=*+,-)
1-sample p#%p%#ti%ns test 3ith 1%ntinuit$ 1%##e1ti%n
data: . %ut %f N, null p#%>a>ilit$ 0.2
L-s&ua#ed = 0.1, df = 1, p-alue = 0.7218
alte#natie h$p%thesis: t#ue p is n%t e&ual t% 0.2
92 pe#1ent 1%nfiden1e inte#al:
0.27<""97 0.8"<0"9=
sample estimates:
p
0."
6<+'
5i se traba)a con el intervalo epr. J.N *uceKoWOlez, pM+N, que no es adecuado en este caso, por ser
C:%+&:N%F , $(E E5 /EC!4 ! PO(0* $(E ', veamos que sale de aplicar la citada epresin,
programndola en 4,
( i07"=p-04s&#t'p4'1-p)5N)8i07"
:1; 0.29"<"<7
( de#7"=p704s&#t'p4'1-p)5N)8de#7"
:1; 0.90<"<"<
Eon nivel de confianza del 223, intervalo con la distribucin @ basado en la binomial eacta,
( >in%m.test'.,N,alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.99)
-.a1t >in%mial test
data: . and N
num>e# %f su11esses = ", num>e# %f t#ials = 10, p-alue = 0.72<9
alte#natie h$p%thesis: t#ue p#%>a>ilit$ %f su11ess is n%t e&ual t% 0.2
99 pe#1ent 1%nfiden1e inte#al:
0.19091"< 0.92<2<18
sample estimates:
p#%>a>ilit$ %f su11ess
0."
5e observa que el intervalo es ms ancho, al eigir mayor confianza.
Proceso con RCo((ander:
5e introducen los datos como activos en el data.frame 4esiProp, bien a travHs del gestor interactivo de tablas
de 4Eommander o mediante,
+esiP#%p=data.f#ame'+esis)
> seleccionando dede el botn Eon)unto de datos el data.frame 4esiprop, 0Kadimos una columna a esta tabla,
+%atos+,odificar varia)les del con*-nto de datos activo+Recodificar varia)les.
> ya en esta situacin,
+ Estadsticos +Proporciones +Test de proporciones para -na (-estra.
con la columna que tiene estructura de variable factor, con el binomial eacto el nivel de confianza 2'3
( .*a>le !- .ta>s'H +esis<20 , data= +esiP#%p )
( .*a>le
+esis<20
A#ande Pe&ue
" =
( >in%m.test'#>ind'.*a>le), alte#natie=Ft3%.sidedF, p=.2, 1%nf.leel=.92)
-.a1t >in%mial test
data: #>ind'.*a>le)
num>e# %f su11esses = ", num>e# %f t#ials = 10, p-alue = 0.72<9
alte#natie h$p%thesis: t#ue p#%>a>ilit$ %f su11ess is n%t e&ual t% 0.2
2<+'
92 pe#1ent 1%nfiden1e inte#al:
0.2"2<781 0.878==77
sample estimates:
p#%>a>ilit$ %f su11ess
0."
0l nivel del factor que se considera BHitoD y cuya proporcin se estudia, debe drsele un valor que
alfabHticamente estH antes que el no deseado, para que 4 haga el clculo adecuado. 0qu se ha elegido
BOrandeD, que est antes que BPequeD.
Ta(a>o de (-estra Aaleatoria si(pleB para esti(ar -na proporcin
*lamamos error E al semiancho del intervalo de confianza para la proporcin. 9asndose en la validez de la
aproimacin normal de la variable binomial, si se tiene idea del posible valor de la proporcin poblacional p
"con base en un muestreo previo, por e)emplo#, el tamaKo de la muestra es, n
=
=
=
;
+
E
p# Yp"+ z
=

5i no se sabe nada de la magnitud de p, se elige una muestra de tamaKo,


n
=
=
=
;
+
E L F
z

=
puesto que el valor p"+:p# es siempre no mayor que +<F .
!bsHrvese que a menor error E que se desee, el tamaKo de la muestra debe ser mayor. > a mayor nivel de
confianza " o menor nivel de significacin#, el tamaKo tambiHn crece.
E*e(plo: $uH tamaKo de muestra hay que elegir para estimar una proporcin de modo que el error en la
estimacin sea menor o igual que &,&', con un nivel de confianza del 2'3U "Emplear la aproimacin normal
con el criterio ms desfavorable#.
( 0=&n%#m'1'0.972), mean=0, sd=1, l%3e#.tail=*+,-)80
:1; 1.9299"=
( -=0.028 n=1eiling'0?25'=4-?2))8n
:1; <82
T$uH tamaKo resultara en el caso de que se emplee una primera estimacin de la proporcin de valor &.+J U
( p=0.17
( n=1eiling'0?24p4'1-p)5-?2)8n
:1; 217
Caturalmente, con ms informacin, se reduce el tamaKo de la muestra necesaria.
Intervalo de confianza para la varianza
4 no da con un menA especfico el intervalo de confianza para la varianza, aunque permite comparar varianzas
de dos poblaciones a partir de sendas muestras de cada una.
0dmitiendo la hiptesis de normalidad en la poblacin de partida, se puede calcular el intervalo de confianza
para la varianza,
Z"n:+#Ls
=
<[
=
"n:+, +:;<=# \ "n:+#Ls
=
<[
=
"n:+, ;<=# ], calculando cada componente de las frmulas.
E*e(plo.: Para el caso de las +& probetas de hormign sometidas a un ensayo de rotura, con los datos de
resistencia en el vector columna 4esis del data.frame 4esiProp, se obtienen el intervalo de confianza de nivel
2'3 para la varianza y el de la desviacin tpica "los etremos son raz cuadrada de los de la varianza#, como
sigue,
( n=length'+esiP#%p$+esis)8s=sd'+esiP#%p$+esis)8s
+&<+'



:1; 18.11<87
( 1hiQi0=&1his&'1'0.972), df=n-1, l%3e#.tail=*+,-)
( 1hiQde#=&1his&'1'0.022), df=n-1, l%3e#.tail=*+,-)
( i0='n-1)4s?251hiQi08de#='n-1)4s?251hiQde#8i08de#
:1; 122.2<22
:1; 109<.2=9
( i06tipi1a=s&#t'i0)8
( de#6tipi1a=s&#t'de#)8i06tipi1a8de#6tipi1a
:1; 12.=29<2
:1; <<.0"88"
( p#int'1'i0,de#))8p#int'1'i06tipi1a,de#6tipi1a))
:1; 122.2<22 109<.2=9<
:1; 12.=29<2 <<.0"88"
Para valorar la normalidad de los datos,
podemos utilizar la grfica de comparacin de
cuantiles con el modelo normal, al 2'3 de
confianza, que nos seKala que es admisible.
?ambiHn^podemos valorar la normalidad de los datos mediante el test de 5hapiro:_ilR,
+Estadsticos + ResC(enes + Test de nor(alidad de $/apiro2DilE.
( shapi#%.test'+esiP#%p$+esis)
Shapi#%-RilE n%#malit$ test
data: +esiP#%p$+esis
R = 0.88<<, p-alue = 0.1=22
Eomo el valor de p:value es mayor que el nivel de significacin &.&' por e)emplo, se puede admitir la
normalidad de los datos con un nivel de confianza del 2'3.
Intervalos de confianza y contraste para la diferencia de dos (edias.
5e puede realizar la comparacin del comportamiento de dos variables aleatorias "de una caracterstica
cuantitativa presente en dos poblaciones diferentes#, basndose en comparar sus medias a partir de los datos.
Puede ocurrir que se parta de dos muestras aleatorias simples de cada una, obtenidas independientemente una
de otra. Es el caso de %!T#$ IN%EPEN%IENTE$, como las alturas "-eight# de mu)eres y hombres en los
datos de Pulsos.
!tro caso es que los %!T#$ estHn E,P!REF!%#$ o !P!RE!%#$, y aunque la obtencin de cada pare)a
es independiente de la obtencin de las otras, los dos datos de cada pare)a s estn relacionados y hay una
dependencia entre ellos.
E*e(plo0, $ueremos saber ahora si hay diferencia significativa entre la altura media de hombres y mu)eres con un nivel
de significacin

%&.&'.
*a secuencia a seguir sera,
+Estadsticos +,edias +Test t para (-estras independientes.
Qe)amos por defecto la opcin de contraste bilateral y
++<+'
de no suponer varianzas iguales,
entana de res-ltados:
( t.test'HeightHAende#, alte#natie=Ft3%.sidedF, 1%nf.leel=.92, a#.e&ual=@9IS-,
data=Puls%s)
Rel1h *3% Sample t-test
data: Height >$ Aende#
t = -9.7007, df = 72.21=, "5value = 9.%%)e51
alte#natie h$p%thesis: t#ue diffe#en1e in means is n%t e&ual t% 0
9 "ercent confidence interval#
5$.&&9 5&.'&'1*
sample estimates:
mean in g#%up @emale mean in g#%up Cale
"2.=0000 70.72=<9
Concl-sin: El p:value 7.886e205 es ms pequeKo que

%&.&' que habamos fi)ado, luego no se acepta la


igualdad de alturas, la misma conclusin que hubiHramos tenido si nos fi)amos en el intervalo de confianza que
nos dice que la =` media es mayor que la primera. ?Hngase en cuenta que 4 que ha hecho la diferencia de
medias entre @emale "/u)eres# y /ale "-ombres#, atendiendo al orden alfabHtico del factor Oender de los
datos.
E*e(plo 3; %atos E(pare*ados,
Para comparar dos materiales 0 y 9 para suela de zapatos deportivos, se eligen +& niKos al azar, y a cada uno
se le proporciona un par de zapatos, uno con la suela del material 0 y el otro con la suela del material 9. 0 fin
de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignacin de
orden dentro de cada par se hace al azar. 0l cabo de M meses se mide una caracterstica en cada zapato que
refle)a su comportamiento ante el uso, que se interpreta con que si la caracterstica medida tiene mayor valor
es porque ese tipo de material ofrece me)or calidad. 0s resulta,
NiS% Cat9 CatT
1 1<,2 1=,0
2 8,2 8,8
< 10,9 11,2
= 1=,< 1=,2
2 10,7 11,8
" "," ",=
7 9,2 9,8
8 10,8 11,<
9 8,8 9,<
10 1<,< 1<,"
Eonsiderando los datos de los desgastes en +& pares de zapatos segAn el material 0 y 9, efectuamos la
comparacin.
( t.test'Uapatillas$Cat9, Uapatillas$CatT,
alte#natie=Ft3%.sidedF,
1%nf.leel=.92, pai#ed=*+,-)
Pai#ed t-test
data: Uapatillas$Cat9 and Uapatillas$CatT
t = -<.<=89, df = 9, p-alue = 0.0082<9
alte#natie h$p%thesis:
t#ue diffe#en1e in means is n%t e&ual t% 0
9 "ercent confidence interval#
50.$)$9*9 50.1**0&$1
sample estimates:
mean %f the diffe#en1es
-0.=1
El intervalo de confianza "nivel del 2'3# para la diferencia de medias en el /aterial 0 y en el 9 es
+=<+'

":&,N6J\ :&,+MM#,
lo que indica que el valor de la caracterstica de uso "por tanto la satisfaccin# es mayor con el /aterial 9 que
con el 0. Qesde la visin de contraste de hiptesis, el reducido valor del p:valor, &,&&2, indica que la hiptesis
de igualdad de medias se rechazara con un nivel de significacin del '3, frente a la hiptesis de que los dos
materiales son igualmente satisfactorios.
Vamos a tratar los datos, errneamente respecto al diseKo del eperimento, comparando como si fuesen
independientes. Eon 4 es necesario apilar el valor de la variable que mide la Ealidad en una sola columna o
variable, e introducir otra columna que indica el tipo de /aterial. 5e opera con los menAs,
+%atos+Con*-nto de datos activo+!pilar varia)les del con*-nto de dats activo., con instrucciones 4,
( Uapatillas9pilad%s !- sta1E'Uapatillas:, 1'BCat9B,BCatTB);)
( names'Uapatillas9pilad%s) !- 1'BPalidadB, BCate#ialB)
0l aplicar el test de diferencia de medias de Ealidad con datos independientes, resulta,
( t.test'PalidadHCate#ial, alte#natie=Ft3%.sidedF,
1%nf.leel=.92, a#.e&ual=@9IS-, data=Uapatillas9pilad%s)
Rel1h *3% Sample t-test
data: Palidad >$ Cate#ial
t = -0.<"89, df = 17.987, p-alue = 0.71"2
alte#natie h$p%thesis:
t#ue diffe#en1e in means is n%t e&ual t% 0
92 pe#1ent 1%nfiden1e inte#al:
-2.7=20=" 1.9220="
sample estimates:
mean in g#%up Cat9 mean in g#%up CatT
10."< 11.0=
!bsHrvese que el intervalo de confianza del 2'3, ":=.JF'&FN +.2='&FN#
Pncluye el valor aceroG, es decir, no se puede afirmar que
un material es de ms calidad que el otro.
El realizar el eperimento con datos apareados aumenta la sensibilidad
del contraste, detectando me)or las diferencias entre los datos.
Intervalo de confianza y contraste para la diferencia de dos proporciones.
5e puede realizar la comparacin del comportamiento de dos variables aleatorias "de una caracterstica
E(0*P?0?PV0 presente en dos poblaciones diferentes#, basndose en comparar sus proporciones a partir de
los datos.
$ueremos determinar en los datos de Pulsos si hay diferencia significativa entre la proporcin de mu)eres y
hombres que no fuman con un nivel del

%&.&'. *a secuencia para el caso sera,


!bservar en la ventana de dilogo que aparece
Qiferencia, @emale b /ale,
es decir, se va a considerar diferencia de proporciones
entre mu)eres y hombres en relacin con
+M<+'
la variable 5moRes "@umar#
*a secuencia de instrucciones 4 y respuestas es,
( .*a>le !- .ta>s'HAende#7Sm%Ees, data=Pulsea1)
( #%3Pe#1ents'.*a>le)
Sm%Ees
Aende# N%nSm%Ee# Sm%Ee *%tal P%unt
@emale 77.1 22.9 100 <2
Cale "=.9 <2.1 100 27
( p#%p.test'.*a>le, alte#natie=Ft3%.sidedF, 1%nf.leel=.92, 1%##e1t=@9IS-)
2-sample test f%# e&ualit$ %f p#%p%#ti%ns 3ith%ut 1%ntinuit$
1%##e1ti%n
data: .*a>le
L-s&ua#ed = 1.2<21, df = 1, "5value = 0.'1)
alte#natie h$p%thesis: t3%.sided
9 "ercent confidence interval#
50.0$*9)0)% 0.*0)9'&0
sample estimates:
p#%p 1 p#%p 2
0.771=28" 0."=91228
( #em%e'.*a>le)
"a diferencia Aprop 0 2 prop 3B ser el esti(ador p-nt-al de la diferencia de proporciones:
+ =
c c p p
G &.JJ+F=6N: &.NF2+==6%4.0333456
!bservar que 4 ha calculado la diferencia entre proporciones de /u)eres y -ombres que C! @(/0C
"Con5moRer#, dando prioridad al nivel Con5moRer que est alfabHticamente antes que 5moRe. 5i se quisiera
estudiar la diferencia de proporciones de fumadores , habra que asignar otros valores a los niveles Con5moRer
y 5moRe, de manera que estH alfabHticamente antes el de @umador, por e)emplo, @uma y Co@uma. Esto se
puede hacer con el 4Eommander con el menA 4ecodificar variables... /s sencillo desde los resultados
anteriores, cambiar el signo de los etremos del intervalo y complementar a + las proporciones calculadas.
*a salida en la ventana de resultados nos muestra que el p2val-e G 4.3056 es mayor que el que nos habamos
fi)ado, &.&', luego aceptamos la igualdad de proporciones. 0 su vez llegamos a la misma conclusin si nos
fi)amos que el intervalo de confianza "24.4:376468; 4.346573H4B contiene a la /iptesis n-la H
o
: p
0
2p
3
G 4
!bservar que si se realiza el proceso con un nivel de confianza del 6&3, el intervalo que sale es .
"0proimacin normal sin correccin de continuidad#,
( .*a>le !- .ta>s'HAende#7Sm%Ees, data=Pulsea1)
( #%3Pe#1ents'.*a>le)
Sm%Ees
Aende# N%nSm%Ee# Sm%Ee *%tal P%unt
@emale 77.1 22.9 100 <2
Cale "=.9 <2.1 100 27
( p#%p.test'.*a>le, alte#natie=Ft3%.sidedF, 1%nf.leel=.80, 1%##e1t=@9IS-)
2-sample test f%# e&ualit$ %f p#%p%#ti%ns 3ith%ut
1%ntinuit$ 1%##e1ti%n
data: .*a>le
L-s&ua#ed = 1.2<21, df = 1, p-alue = 0.2128
alte#natie h$p%thesis: t3%.sided
80 pe#1ent 1%nfiden1e inte#al:
0.000=99=808 0.2==1120=80
sample estimates:
p#%p 1 p#%p 2
0.771=28" 0."=91228
( #em%e'.*a>le)
Es decir, que con ese nivel de confianza, la evidencia que aporta la muestra indica que las mu)eres fuman ms
de los hombres.
+F<+'
Intervalo de confianza para el cociente de dos varianzas Adatos independientesB
En este proceso, que es muy sensible a la hiptesis de normalidad de los datos, se quiere valorar si las
varianzas de dos poblaciones son iguales o no a partir de la evidencia de dos muestras.
*lamando teta%+
=
<=
=
, se puede calcular un intervalo de este cociente de varianzas empleando la
distribucin @ de 5nedecor, haciHndose notar que el proceso es poco robusto, es decir, muy sensible a la
hiptesis de normalidad d e los datos. "*uceKoWOonzlez, epresin J.=&, pg M=6#. El intervalo es,
"teta<@"n+:+,n=:+,+:

<=#, tetaL@"n=:+,n+:+,+:

<=#
siendo teta el cociente de cuasivarianzas muestrales.
5e calcula con las intrucciones 4,
( 11=sd'Pulsea1$Height:Pulsea1$Aende#==B@emaleB;)?28
( 12=sd'Pulsea1$Height:Pulsea1$Aende#==BCaleB;)?2
( alfa=0.02
( n1=sum'Pulsea1$Aende#==B@emaleB)8n2=sum'Pulsea1$Aende#==BCaleB)
( p#int'1'n1,n2))8p#int'1'11,12))
:1; <2 27
:1; ".2""912 "."707<9
( teta=115128
( @i0=&f'1'1-alfa52), df1=n1-1, df2=n2-1, l%3e#.tail=*+,-)8
( @de#=&f'1'0.972), df1=n2-1, df2=n1-1, l%3e#.tail=*+,-)
( i0=teta5@i08de#=teta4@de#8p#int'1'i0,de#))
+1, 0.&$%0'1 1.)$1%$1 < este es el intervalo de confian=a
Por otra parte, con el menu de 4Eommander, + Estadsticos + arianzas + Test & para 3 varianzas.
( tappl$'Pulsea1$Height, Pulsea1$Aende#,
a#, na.#m=*+,-) G1al1ula a#ian0as de dat%s
@emale Cale
".2""912 "."707<9
( a#.test'Height H Aende#,
alte#natie=Ft3%.sidedF,
1%nf.leel=.92, data=Pulsea1)
@ test t% 1%mpa#e t3% a#ian1es
data: Height >$ Aende#
@ = 0.98==, num df = <=,
den%m df = 2", p-alue = 0.979"
alte#natie h$p%thesis:
t#ue #ati% %f a#ian1es is n%t e&ual t% 1
9 "ercent confidence interval#
0.&$%0'1 1.)$1%$1
sample estimates:
#ati% %f a#ian1es
0.98==<2=
*a conclusin es que se acepta la igualdad de varianzas, pues el valor a+G est en el intervalo.
?ambiHn se puede aplicar el test de *evene de igualdad de varianzas, que es ms robusto que el de 9artlett,
> -stad>sticos > ?arian=as > 9est de @eveneA
( leene.test'Pulsea1$Height, Pulsea1$Aende#)
IeeneFs *est f%# H%m%geneit$ %f Oa#ian1e
6f @ alue P#'(@)
g#%up 1 0.009 0.92=7
90
Eomo Pr".@#%&.2=FJ, mayor que &.&'., se acepta la igualdad de varianzas al nivel del 2'3
-abra que contrastar la hiptesis normalidad de la altura de hombres y de mu)eres.
+'<+'

Vous aimerez peut-être aussi