Académique Documents
Professionnel Documents
Culture Documents
Para Antropólogos Físicos
José Luis Castrejón y Diana Troncoso
[Seleccionar fecha]
Notas para el curso de Bioestadística impartido en el segundo semestre de la licenciatura en
Antropología Física de la Escuela Nacional de Antropología e Historia. Versión preliminar.
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNIDAD I
Introducción
1. ESTIMACIÓN:
a) Puntual: En la cual, a partir de los datos de una muestra y la distribución
probabilística de la variable, se estima un valor para el parámetro.
b) Por intervalos: A través de la cual, partiendo de la información de la muestra y
la distribución probabilística de la variable, se define un rango de valores entre
los cuales probablemente se encuentra el del parámetro.
ESTIMACIÓN PUNTUAL
Sea θ la letra con la que se denota un parámetro poblacional. Si se toma una muestra
aleatoria de tamaño n ( X 1 , X 2 , X 3 ,..., X n ) , θˆ es una función de los valores de la
muestra: θˆ = f ( X 1 , X 2 , X 3 ,..., X n ) ; es decir, θˆ es un estimador puntual de θ .
2
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Si X 1 , X 2 , X 3 ,..., X n son los datos de una muestra aleatoria que se obtuvo de cierta
población cuya función de probabilidad es P ( x ) , la función de verosimilitud de la
muestra es L( X 1 , X 2 , X 3 ,..., X n ) = P( X 1 )P( X 2 )P( X 3 )...P( X n ) . Por ello, este método
de estimación consiste en encontrar el valor del parámetro θ donde la función
L( X 1 , X 2 , X 3 ,..., X n ) alcance su máximo; es decir, hay que calcular la derivada de
dL
, igualarla a cero y despejar θ . Veamos, algunos ejemplos de esto:
dθ
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población donde la variable X tiene distribución poisson con parámetro λ [X~P( λ )].
¿Cuál es el mejor estimador de éste parámetro?
∑ xi
e −λn ⋅ λ i =1
L=
π ⋅ xi !
n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1
3
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ xi ⎞
n
⎜ − λn ∑ ⎟
e ⋅λ i =1
ln L = ln⎜ ⎟
⎜ π ⋅ xi ! ⎟
⎜ ⎟
⎝ ⎠
⎛a⎞
Como: ln⎜ ⎟ = ln a − ln b
⎝b⎠
⎛ xi ⎞
n
⎜ ∑ ⎟
ln L = ln⎜ e −λn ⋅ λ i =1 ⎟ − ln (π ⋅ xi !)
⎜ ⎟
⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b :
⎛ ∑ xi ⎞
n
ln L = ln (e ) + ln⎜⎜ λ i =1 ⎟
⎟⎟ − ln (π ⋅ xi !)
− λn
⎜
⎝ ⎠
Como: ln e x = x ln x y = y ln x
n
ln L = −λn + ∑ xi ⋅ ln λ − ln (π ⋅ xi !)
i =1
• Y obtener la derivada:
d ln L dλ n d ln λ d ln (π ⋅ xi !)
= −n + ∑ xi −
dλ dλ i =1 dλ dλ
dcf ( x ) cdf ( x ) d ln x 1 dc
Como: = = =0
dx dx dx x dx
n
dL 1
= − n + ∑ xi − 0
dλ i =1 λ
∑x i
−n+ i =1
=0
λˆ
n n
∑ xi ∑x
n
= nλ̂ ∑x i
x = λ̂
i =1
=n i =1
i i =1
= λ̂
λ̂ n
Y así sabemos que al tener una variable aleatoria con distribución poisson [X~P( λ )],
el estimador de máxima verosimilitud del parámetro λ es la media muestral x .
4
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población, donde la variable X tiene distribución bernoulli con parámetro p
[X~Be( p )]. ¿Cuál es el mejor estimador de éste parámetro?
∑ xi n
∑ xi
L= p i =1
(1 − p ) n−
i =1
n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1
• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ ∑ xi ⎞
n
⎜ n − xi ⎟
n
ln L = ln⎜ p i =1 (1 − p ) ∑ i =1
⎟⎟
⎜
⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b
n
∑ xi ∑ xi
n
+ ln (1 − p )
n−
ln L = ln p i =1
i =1
Como: ln x = y ln x
y
n
⎛ n
⎞
ln L = ∑ xi ln p + ⎜ n − ∑ xi ⎟ ln(1 − p )
i =1 ⎝ i =1 ⎠
• Y obtener la derivada:
d ln L n
1 ⎛ n
⎞ 1
= ∑ xi ⋅ + ⎜ n − ∑ x i ⎟ ⋅
dp i =1 p ⎝ i =1 ⎠ (1 − p )
5
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎛n n
⎞
∑ xi ⎜ n − ∑ xi ⎟
+⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
Y se multiplica por menos 1, por ende
⎛ n n
⎞
⎜ n − ∑ xi ⎟
∑ xi
−⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
• Igualando a cero, el parámetro p se convierte en estimador p̂ y resta despejarlo:
n
⎛ n
⎞
∑ xi ⎜ n − ∑ xi ⎟
i =1
−⎝ i =1 ⎠ =0
pˆ (1 − pˆ )
n
⎛ n
⎞
∑ xi ⎜ n − ∑ xi ⎟
=⎝ ⎠
i =1 i =1
pˆ (1 − pˆ )
(1 − pˆ )∑ xi = pˆ ⎛⎜ n − ∑ xi ⎞⎟
n n
i =1 ⎝ i =1 ⎠
n n n
∑x
i =1
i − pˆ ∑ xi = pˆ n − pˆ ∑ xi
i =1 i =1
n
∑x
n
= pˆ n ∑x i
x = pˆ
i =1
i i =1
= pˆ
n
Y así también descubrimos que al tener una variable aleatoria con distribución
bernoulli [X~Be( p )], el estimador de máxima verosimilitud del parámetro p es la
media muestral x .
a) INSESGAMIENTO
Si θˆ es un estimador del parámetro poblacional θ , se dice que θˆ es insegado si
()
E θˆ = θ . Por el contrario, si θˆ es un estimador sesgado de θ , se define el sesgo
()
de θˆ como Sesgo θˆ = E θˆ − θ .()
b) SUFICIENCIA
Se dice que un estimador θˆ de θ es suficiente cuando su cálculo involucra toda la
información de una muestra.
c) MÍNIMA VARIANZA
Se dice que θˆ1 es un estimador de mínima varianza de θ si para cualquier otro
estimador θˆ2 se cumple que la varianza del primero es menor que la del segundo:
Var (θˆ1 ) < Var (θˆ2 ) .
6
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
d) EFICIENCIA
Siendo θˆ1 y θˆ3 dos estimadores insesgados de θ , se dice que θˆ1 es más eficiente
( )
si su varianza es menor a la de θˆ3 : Var θˆ1 < Var θˆ3 . ( )
e) CONSISTENCIA
Se dice que un estimador θˆ de θ es consistente si, cuando n es grande
( )
(n → N ) , θˆ tenderá a θ θˆ → θ , siendo su diferencia muy pequeña. Esto debido
a que si E > 0 , E es muy pequeño y Lim P(θˆ − θ
n→ N
)
< E = 1.
∑X i
µ= i =1
x1 + x 2 + x3 x1 + x n x1 + x 2 + x3 + ... + x n
µˆ 1 = µˆ 2 = µˆ 3 =
2 2 n
igual a E (µˆ 1 ) =
3
µ . El sesgo de este estimador es:
2
µ
Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ = Sesgo(θˆ ) =
3 3 2 1
SESGO
2 2 2 2 2
PROPIEDAD ESTIMADOR µ̂ 2
7
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎛ x + xn ⎞
E (µˆ 2 ) = E ⎜ 1 ⎟ = E ( x1 + x n ) =
1
INSESGAMIENTO ⎝ 2 ⎠ 2
E (θˆ ) = θ 1
[E (x1 ) + E (x n )] = 1 [µ + µ ] = 1 [2µ ] = 2µ = µ
2 2 2 2
µ̂ 2 es un estimador insesgado de µ porque su esperanza es E (µˆ 2 ) = µ .
SUFICIENCIA x +x
( X 1 + X 2 + X 3 + ... + X )n µˆ 2 = 1 n
2
µ̂ 2 no es un estimador suficiente, pues su cálculo sólo echa mano de sólo 2 datos de
la muestra aleatoria y no del resto de la información obtenida.
PROPIEDAD ESTIMADOR µ̂ 3
⎛ x + x 2 + x3 + ... + x n ⎞
E (µˆ 3 ) = E ⎜ 1 ⎟
⎝ n ⎠
= E ( x1 + x 2 + x3 + ... + x n )
1
n
INSESGAMIENTO
= [E ( x1 ) + E (x 2 ) + E ( x3 ) + ... + E ( x n )]
1
E (θˆ ) = θ n
= [µ + µ + µ + ... + µ ]
1
n
nµ
= [nµ ] =
1
=µ
n n
µ̂ 3 es un estimador insesgado de µ pues su esperanza es E (µˆ 3 ) = µ .
SUFICIENCIA X 1 + X 2 + X 3 + ... + X n
( X 1 + X 2 + X 3 + ... + X )n µˆ 3 =
n
Asimismo, µ̂ 3 es un estimador suficiente ya que utiliza todos los datos de la muestra
aleatoria.
σ3 σ2
σ1
8
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Siendo los dos insesgados, la varianza del estimador θˆ1 es menor que la del
estimador θˆ3 , razón por la cual θˆ1 cumple con las propiedades de mínima varianza y
eficiencia.
PARÁMETRO ESTIMADOR
N n
MEDIA ∑ Xi MEDIA ∑X i
POBLACIONAL µ= i =1 MUESTRAL x= i =1
N n
N n
VARIANZA ∑ (x i − µ)
2
VARIANZA ∑ (x i − x)
2
POBLACIONAL σ2 = i =1 MUESTRAL s2 = i =1
N n −1
n
Pues este
estimador es
∑ (x i − x)
2
sesgado: s2 = i =1
n
PROPORCIÓN p=M PROPORCIÓN pˆ = m
POBLACIONAL N MUESTRAL n
A. INTERVALOS DE CONFIANZA
B. CONTRASTE DE HIPÓTESIS
Sin duda alguna, ésta es una de las metodologías que más utiliza la estadística para
contrastar cualquier hipótesis que el investigador haya planteado sobre los parámetros
de una o más poblaciones, o bien, sobre relaciones entre variables.
B.1) FUNDAMENTOS
9
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Dada una hipótesis nula H 0 que puede ser verdadera o falsa (no lo sabemos), el
procedimiento de contraste de hipótesis nos lleva a rechazarla o no. Sin duda alguna,
como investigadores quisiéramos rechazar una hipótesis nula H 0 falsa y no rechazar
una hipótesis nula H 0 verdadera, pero existen las posibilidades contrarias, a las
cuales se denominan errores:
α = P (error tipo I)
α = P (rechazar H 0 | H 0 es verdadera )
PROBABILIDAD DE
VALOR DE α RAMA DE USO MÁS COMÚN
ERROR TIPO I
α = 0.001 0 .1 % Medicina y campo experimental.
α = 0.01 1 .0 % Antropología física.
α = 0.05 5 .0 % Antropología física.
α = 0 .1 10.0% Ciencias sociales.
10
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
A diferencia de α , el valor de β está fuera del control del investigador y sólo puede
reducírsele aumentando el tamaño de la muestra. Por ello es que, como veremos más
adelante, se sabe que las pruebas no paramétricas son menos potentes que las
pruebas paramétricas, cuyo valor de β es más pequeño.
A. INTERVALO DE CONFIANZA
x−µ
Z= ~ N (0,1)
σ
n
11
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
1-α
α/2 α/2
Partiendo de esto tenemos que la probabilidad del valor del parámetro estandarizado
Z está entre − Z 1−α y Z 1−α :
2 2
⎛ ⎞
⎜ ⎟
− µ
P⎛⎜ − Z 1−α < Z < Z 1−α ⎞⎟ = 1 − α
x
QUE P⎜ − Z 1−α < < Z 1−α ⎟ = 1 − α
⎝ 2 2 ⎠ IMPLICA ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠
⎛ ⎞
⎜ ⎟
⎜ xi − µ
Expresión de probabilidad para el P − Z 1−α < < Z 1−α ⎟
intervalo de confianza. ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠
Se deja sola a X y µ al pasar ⎛ σ σ ⎞
P⎜ − Z 1−α ⋅ < xi − µ < Z 1−α ⋅ ⎟
multiplicando su divisor. ⎝ 2 n 2 n⎠
⎛ σ σ ⎞
Se despeja µ al mover a X. P⎜ − xi − Z 1−α ⋅ < − µ < − xi + Z 1−α ⋅ ⎟
⎝ 2 n 2 n⎠
Se multiplica por -1 para hacer ⎛ σ σ ⎞
positivo el valor de µ, lo cual P⎜ xi + Z 1−α ⋅ > µ > xi − Z 1−α ⋅ ⎟
invierte la desigualdad a “mayor ⎝ 2 n 2 n⎠
que”.
Se invierten los valores de límites ⎛ σ σ ⎞
para recuperar una desigualdad P⎜ xi − Z 1−α ⋅ < µ < xi + Z 1−α ⋅ ⎟
“menor que”. ⎝ 2 n 2 n⎠
⎛ σ ⎞
Se abrevia la expresión. P⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
⎛ σ ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
12
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
∑ (x − µ)
2
i
σ= i =1
∑ (x − x)
2
i
s= i =1
n −1
Pero ese simple detalle, cuando la población es pequeña (n < 30 ) , implica también un
cambio en la distribución, que deja de ser normal y se convierte en t de student con
n − 1 grados de libertad (g.l.):
x − µ (n-1)
t= ~t
s
n
13
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
con 1 − α
2
tamaño de la muestra.
¿Es posible concluir que la media µ de la población es menor a 165 cm? Construir un
intervalo de confianza para µ al 95%.
DATOS GENERALES
X~N(µ,σ) n = 18 x = 160.47 s = 7.52
HIPÓTESIS
H inv : µ < 165
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t .17975 = 2.1098
2 2
⎛ 7.52 ⎞
APLICACIÓN µ ∈ ⎜160.47 ∓ 2.1098 ⋅ ⎟ = µ ∈ (156.73,164.21)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (156.73,164.21) vs. H inv : µ < 165
HIPÓTESIS
, De acuerdo a la muestra obtenida y con un nivel de confianza del 95% se puede
afirmar que la estatura promedio de las mujeres estudiantes de la ENAH está entre
156.73 y 164.21 centímetros. Por lo tanto, se tiene evidencia estadística que indica,
con un error del 5%, que la media de la estatura en esta población es menor a 165
cm.
120 30 60 75 120 11 30 80
15 75 80 15 20 80 40 75
14
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
X~N(µ,σ) n = 16 x = 63.44 s = 34.96
HIPÓTESIS
H inv : µ > 60
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (16 − 1) = 15 g.l. t1(−nα−1) = t .15975 = 2.1315
2 2
⎛ 34.96 ⎞
APLICACIÓN µ ∈ ⎜ 63.44 ∓ 2.1315 ⋅ ⎟ = µ ∈ (44.81,82.07 )
⎝ 16 ⎠
COMPARACIÓN
CON LA µ ∈ (44.81,82.07 ) vs. H inv : µ > 60
HIPÓTESIS
a) , Con un 95% de confianza se puede afirmar que la media del “tiempo de
recorrido de los estudiantes de la ENAH a casa” se halla entre los 44.81 y los 82.07
minutos.
b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la
muestra no hay evidencia estadística que permita inferir, con un 5% de error, que la
hipótesis del investigador sea verdadera.
Suponiendo que la población tiene una distribución normal, ¿es posible afirmar que la
media sea menor a 35 cm? Comprobar esta hipótesis construyendo un intervalo al
90% de confianza.
DATOS GENERALES
X~N(µ,σ) n = 15 x = 33.80 s = 0.63
HIPÓTESIS
H inv : µ < 35
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.10 α 2 = 0.05 1 − α 2 = 0.95
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t.1495 = 1.7613
2 2
15
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎛ 0.63 ⎞
APLICACIÓN µ ∈ ⎜ 33.80 ∓ 1.7613 ⋅ ⎟ = µ ∈ (33.51,34.09)
⎝ 15 ⎠
COMPARACIÓN
CON LA µ ∈ (33.51,34.09 ) vs. H inv : µ < 35
HIPÓTESIS
, Se puede afirmar, con un 90% de confianza, que la media de la circunferencia
craneal de los niños de esta población está entre los 33.51 y los 34.09 centímetros;
motivo por el cual se acepta, con un 10% de error, que la media de esta variable es
menor a 35 cm.
B. CONTRASTE DE HIPÓTESIS
HIPÓTESIS
H inv : µ ≠ µ 0 H 0 : µ = µ0 H a : µ ≠ µ0
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t / Z1−α t / Z1−α
2 2
PRUEBA
UNILATERAL REGIÓN DE
1-α
O DE UNA RECHAZO DE
COLA H0 α
1−α
− t / Z1−α
H inv : µ > µ 0 H 0 : µ ≤ µ0 H a : µ > µ0
16
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE 1-α
RECHAZO DE
α
H0
t / Z1−α
17
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
40 75 60 120 70 90 180
80 60 5 30 5 60 45
15 75 100 45 85 40 100
Ante un problema así, lo primero que debemos hacer es hacer explícitas las hipótesis:
HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90
DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
Recordando cuando encontramos intervalos de confianza para µ , sabemos que una
expresión que relaciona los datos de la media poblacional, la media muestral, la
desviación estándar de la muestra y que se aplica para poblaciones con distribución
normal es:
x − µ (n-1)
t= ~t
s
n
x − µ0
EXPRESIÓN PARA EL ESTADÍSTICO tc =
DE PRUEBA t c
s
n
65.71 − 90
tc = = −2.73
APLICACIÓN 40.75
21
Ya con ese dato, falta encontrar la región de rechazo de la hipótesis nula H 0 para
contrastarlos:
18
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE RECHAZO DE H 0 : µ ≥ 90
α = 0.05 1 − α = 0.95 − t1(−nα−1) = −t1(−210.−051) = −t 0(.2095) = −1.7247
Por último, hay que ubicar el estadístico de prueba t c con respecto a esta región de
rechazo y concluir:
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
Ahora bien, resta establecer el intervalo de confianza para la media de esta variable y
confirmar el resultado:
DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (21 − 1) = 20 g.l. t1(−nα−1) = t .20
975 = 2.0860
2 2
⎛ 40.75 ⎞
APLICACIÓN µ ∈ ⎜ 65.71 ∓ 2.0860 ⋅ ⎟ = µ ∈ (47.16,84.26)
⎝ 21 ⎠
COMPARACIÓN
CON LA µ ∈ (47.16,84.26 ) vs. H inv : µ < 90
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del tiempo que hacen
los estudiantes de su casa a la ENAH está entre los 47.16 y los 84.26 minutos, lo cual
confirma, como señaló el investigador y la prueba de hipótesis, que la media de esta
19
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
100 50 35 40 60 25 20 15 30
70 20 75 30 12 50 35 40 30
a) ¿Es posible afirmar que el “gasto diario” es mayor de $70.00? Considérese una
significancia de 0.05.
b) Encuentre el intervalo al 95% de confianza para la media de la población.
DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70
REGIÓN DE RECHAZO DE H 0
α = 0.05 1 − α = 0.95 t1(−nα−1) = t1(−180−.051) = t 0(17
.95 = 1.7396
)
xi − µ 0
EXPRESIÓN PARA EL tc =
ESTADÍSTICO DE PRUEBA t c
s
n
40.94 − 70
CÁLCULO DEL tc = = −5.33
23.13
ESTADÍSTICO DE PRUEBA t c
18
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70
20
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t1(−180−.025
1)
= t 0(17
.975 = 2.1098
)
2 2
⎛ 23.13 ⎞
APLICACIÓN µ ∈ ⎜ 40.94 ∓ 2.1098 ⋅ ⎟ = µ ∈ (29.44,52.44)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (29.44,52.44 ) vs. H inv : µ > 70
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del “gasto diario” de la
población de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con
un 5% de error, puede afirmarse que la hipótesis del investigador era incorrecta al
decir que el promedio de este gasto era superior a los $70.00.
PRUEBA DE NORMALIDAD
A. PRUEBA DE SHAPIRO-WILKS
A.1) TEORÍA
Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los estadísticos de prueba
X (1) , X (2 ) , X (3 ) ,..., X (n ) .
DATOS
Número total de datos de la
n s2 Varianza de la muestra.
muestra.
Número total de sumandos que se harán en el estadístico de prueba Wc .
h
Datos que se calcula de la siguiente forma:
21
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
n n −1
Si n es un número par: h = Si n es un número non: h =
2 2
2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
Wc =
EXPRESIÓN PARA EL
(n − 1)s ⎣ j =1 ⎦
ESTADÍSTICO DE PRUEBA Donde
Wc a j ,n es un valor en tablas de Coeficiente a n −i +1
y
X (n − j +1) y X ( j ) son los estadísticos de orden.
A.2) EJEMPLO
22
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H o : La muestra procede de una población con distribución normal.
H a : La muestra no procede de una población con distribución normal.
ESTADÍSTICOS DE ORDEN
X (1) = 28.5 X (4 ) = 65.2 X (7 ) = 75.9
X (2 ) = 29.1 X (5 ) = 72.0 X (8 ) = 95.6
X (3 ) = 42.4 X (6 ) = 75.5 X (9 ) = 98.5
DATOS
n=9 9 −1 8
s 2 = 683.30 / 683.49 h= = =4
(impar) 2 2
2
1 ⎡ 4 ⎤
Wc = a (X (10− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(8)s ⎣ j =1 ⎦
Wc =
1
(8)s 2
{
[a1,9 (X (9 ) − X (1) ) + a2,9 (X (8) − X (2 ) ) + a3,9 (X (7 ) − X (3) ) + a4,9 (X (6 ) − X (4 ) )]2 }
Wc =
1
(8)s 2
{[
0.5888(X (9 ) − X (1) ) + 0.3244(X (8 ) − X (2 ) ) + 0.1976(X (7 ) − X (3 ) ) + 0.0947(X (6 ) − X (4 ) )
2
]}
Wc =
1
(8)s 2
{[0.5888(98.5 − 28.5) + 0.3244(95.6 − 29.1) + 0.1976(75.9 − 42.4) + 0.0947(75.5 − 65.2)]2 }
Wc =
1
{4953.85}
(8)s 2
4953.85
Wc =
(8)s 2
4953.85 4953.85
Wc = = 0.906 Wc = = 0.906
5466.40 5467.92
CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS H o H o : La muestra procede de una población con
23
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.906 W09.05 = 0.829
CONTRASTAR
, Como el valor del estadístico de prueba Wc = 0.83 no es menor a W09.05 = 0.829 sino
mayor, la hipótesis nula H o : La muestra procede de una población con distribución
normal no se rechaza y se puede asumir que la población de la que fue tomada esta
muestra tiene una distribución normal.
A.1) TEORÍA
Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es calcular sus diferencias d i con respecto al valor hipotético µ 0 mediante la
siguiente fórmula: d i = ( X i − µ 0 ) :
Xi di = (X i − µ0 ) + -
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )
Hecho esto, y descontando los d i cuyo valor fue cero, hay que distinguir los d i que
salieron con valor negativo de los que tuvieron valor positivo para obtener los
siguientes datos:
DATOS
24
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
n′ n′ n′
EXPRESIÓN PARA EL 2 ∑ n′ C i ∑ n′ Ci ∑ n′ Ci
ESTADÍSTICO DE PRUEBA i = n∗ i=n+ i=n−
p p= p= p=
2 n′ 2n′ 2n′
En todos los casos, si el valor resultante del estadístico de prueba p es menor a la
significancia α determinada por el investigador ( p < α ), la hipótesis nula H o se
rechaza. Es decir:
TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
H o SE RECHAZA SI: (p < α )
A.2) EJEMPLO
HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12
Xi di = (X i − µ0 ) n+ n−
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 9
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 9
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 9
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 9
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 9
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 9
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 9
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 9
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 9
25
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS
+
n =5 −
n =9 n ∗ {5,9} = 9 n ′ = 5 + 9 = 14
CONTRASTE DE HIPÓTESIS
TIPO DE
H o : µ ≥ 12
HIPÓTESIS H o
EXPRESIÓN n′
PARA CALCULAR ∑ n′ Ci
EL ESTADÍSTICO p= i=n−
DE PRUEBA p 2n′
14
∑ 14 Ci
p= i =9
CÁLCULO DE p 214
C+ C + C + C + C + C 3473
p = 14 9 14 10 14 11 14 12 14 13 14 14 = = 0.21
16384 16384
EXPRESIÓN
PARA
CONTRASTE DE
(p < α )
HIPÓTESIS
VALORES
FINALES A p = 0.21 α = 0.05
CONTRASTAR
Prueba no paramétrica cuyo contraste de hipótesis es más potente que la del signo, ya
que no sólo toma en cuenta las diferencias del valor de cada dato de la muestra con el
valor hipotético, sino también considera los rangos asignados al valor absoluto de tales
diferencias.
B.1) TEORÍA
Al igual que en la prueba del signo, teniendo una muestra de tamaño n con datos
X 1 , X 2 , X 3 ,..., X n , lo primero que debe hacerse aquí es calcular las diferencias d i de
estos datos con respecto al valor hipotético µ 0 a través de la fórmula d i = ( X i − µ 0 ) .
26
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Xi di = (X i − µ0 ) d i signo
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )
EJEMPLO
Valor Rangos de d i Rangos de d i
d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo
1+ 0
3+ 1+ 1 1 1
3- 2- 2 2.5 2.5
0 2+ 3 2.5 2.5
4- 3+ 4 5 5
2- 3- 5 5 5
3+ 3+ 6 5 5
2+ 4- 7 7 7
DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo
TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
n
Tα Tαn Tαn
T DE TABLAS 2
CORRESPONDIENTE PARA Donde n es el número total de d i ≠ 0
ESTADÍSTICO DE PRUEBA
y
27
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
α o α 2 es el valor de la significancia
H o : µ ≤ µ0 −
T ≤ Tα n
H o : µ ≥ µ0 T + ≤ Tαn
B.2) EJEMPLO
HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12
Xi di = (X i − µ0 ) d i signo
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 0.6 -
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 0.2 -
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 0.3 -
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 0.2 +
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 0.1 -
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 1.0 -
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 0.5 +
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 0.1 +
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 0.1 -
X 11 = 10.9 d11 = (10.9 − 12 ) = −1.1 1.1 -
X 12 = 12.3 d12 = (12.3 − 12 ) = 0.3 0.3 +
28
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS
+
T = 33.5 −
T = 71.50 T ∗ {33.5,71.50} = 33.5 n = 14
CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS
H o : µ ≥ 12
Ho
T DE TABLAS
CORRESPONDIENTE
Tαn
PARA ESTADÍSTICO
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T + ≤ Tαn
HIPÓTESIS
VALORES FINALES
T + = 33.5 Tαn = T014.05 = 26
A CONTRASTAR
29
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
A. FUNDAMENTOS
Cuando se tiene una variable cualitativa que toma dos valores ( x = {0,1}) y que se
repite n veces en una población de tamaño N , M es el número de eventos que
presentan la característica de interés (x = 1) . Por ende, dividiendo M entre N
obtenemos la proporción poblacional: p = M
N
No obstante, la proporción poblacional p , como el resto de los parámetros, es un
valor desconocido, razón por la cual a menudo es de interés estimar su valor mediante
un intervalo de confianza y una prueba de hipótesis contra un valor hipotético p 0 .
C. INTERVALO DE CONFIANZA
D. CONTRASTE DE HIPÓTESIS
30
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv : p ≠ p 0 H 0 : p = p0 H a : p ≠ p0
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2
REGIÓN DE
1-α
RECHAZO DE
H0 α
PRUEBA
UNILATERAL
− Z1−α
O DE UNA
COLA H inv : p > p 0 H 0 : p ≤ p0 H a : p > p0
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
Z1−α
31
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
D.3) P-VALOR
E. EJEMPLOS DE ESTIMACIÓN
DATOS GENERALES
n = 591 m = 204 pˆ = 204 = 0.35 1 − pˆ = 1 − 0.35 = 0.65
591
32
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv : p > 0.30 H 0 : p ≤ 0.30 H a : µ > 0.30
pˆ − p0
Zc =
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA Z c p 0 (1 − p 0 )
n
0.35 − 0.30 0.35 − 0.30
Zc = = Zc = = 2.65
APLICACIÓN 0.30(1 − 0.30 ) 0.30(0.70 )
591 591
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Z c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
33
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Por último, hay que construir el intervalo de confianza para la proporción poblacional:
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
EXPRESIÓN ⎛ pˆ (1 − pˆ ) ⎞
PARA p ∈ ⎜⎜ pˆ ∓ Z 1−α ⋅ ⎟
⎟
INTERVALO ⎝ 2 n ⎠
VALOR DE Z 1−α Z 1−α = Z 1−0.025 = Z 0.975 = 1.96
2 2
⎛ 0.35(0.65) ⎞
APLICACIÓN p ∈ ⎜⎜ 0.35 ∓ 1.96 ⋅ ⎟ = p ∈ (0.31,0.39 )
⎟
⎝ 591 ⎠
COMPARACIÓN
CON LA p ∈ (0.31,0.39 ) vs. H inv : p > 0.30
HIPÓTESIS
c) , Con un 95% de confiabilidad es posible inferir que la proporción poblacional de
personas internadas que alguna vez fumaron marihuana está entre 0.31 y 0.39. Tal
intervalo da sustento estadístico a la hipótesis del investigador, que la estima en un
valor mayor a 0.30.
A. FUNDAMENTOS
Cuando en una población se tiene una variable continua con distribución normal y se
desea estimar su variabilidad, es posible también estimar un intervalo de confianza y
hacer un contraste de hipótesis sobre la varianza y la desviación estándar.
B. INTERVALO DE CONFIANZA
34
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Nótese que en estas expresiones los valores mínimo y máximo del intervalo no se
encuentran simplemente restando o sumando el valor que se halla en tablas, sino que
hay que buscar cada uno.
C. CONTRASTE DE HIPÓTESIS
Igual que en las estimaciones anteriores, las hipótesis posibles para contrastar el valor
de la varianza poblacional σ 2 son:
HIPÓTESIS
H inv : σ ≠ σ
2 2
0 H 0 : σ 2 = σ 02 H a : σ 2 ≠ σ 02
PRUEBA
BILATERAL O REGIÓN DE
DE DOS RECHAZO DE
COLAS H0
α/2 1-α/2
2 ( n −1) 2 ( n −1)
χα χ 1−α
2 2
PRUEBA REGIÓN DE
UNILATERAL RECHAZO DE
O DE UNA H0
COLA α
χα2(n −1)
35
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE
RECHAZO DE
H0
1-α
χ12−(αn −1)
Puede verse aquí, al igual que en una parte de la expresión para el intervalo de
confianza de la varianza σ 2 , que las áreas de la significancia no son iguales. Ello se
debe, como se verá en el siguiente punto, a que el estadístico de prueba tiene una
distribución ji-cuadrada χ 2 , cuya gráfica no tiene una curva simétrica. Por tal motivo,
es necesario consultar en esas tablas los valores de χ α2 (n −1) y χ 12−(αn −1) si la prueba es
2 2
2 ( n −1) 2 ( n −1)
bilateral y χ α o χ si es unilateral. Como en otras ocasiones, esto implica
1−α
buscar los grados de libertad e intersectar este renglón con la columna de la
significancia o confiabilidad requerida.
NORMAL
D. EJEMPLOS DE ESTIMACIÓN
DATOS GENERALES
36
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
X~N(µ,σ) n = 27 x = 80.5 s = 4 .6
Sabiendo que la población cumple con una distribución normal, planteemos las
hipótesis a contrastar:
HIPÓTESIS
H inv : σ < 27
2
H 0 : σ 2 ≥ 27 H a : σ 2 < 27
χ c2 =
(n − 1)s 2
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA χ c2
σ 02
APLICACIÓN χ c2 =
(27 − 1)4.6 2 = 20.38
27
Una vez obtenido este valor, falta el de la región de rechazo de la hipótesis nula H 0 :
REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 27
α = 0.05
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
⎛ ⎞
EXPRESIÓN (n − 1)s 2 (n − 1)s 2
σ ∈ ⎜⎜ 2(n −1) , 2(n −1)
2 ⎟
PARA ⎟⎟
INTERVALO ⎜ χ 1−α χα
⎝ 2 2 ⎠
37
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Estaturas de supermodelos
71 71 70 69 69.5 70.5 71 72 70
70 69 69.5 69 70 70 66.5 70 71
DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
Varianza de población femenina general σ 2 = (2.5)2 = 6.25
HIPÓTESIS
H inv : σ 2 < 6.25 H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 6.25
α = 0.05 χ 02.(05n −1) = χ 02.(0518−1) = χ 02.(0517 ) = 8.672
EXPRESIÓN PARA
χ c2 =
(n − 1)s 2
ESTADÍSTICO DE PRUEBA χ c2 σ 02
CÁLCULO DEL
χ c2 =
(18 − 1)1.41 = 3.84
ESTADÍSTICO DE PRUEBA χ c2 6.25
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
38
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
HIPÓTESIS
H inv : σ < 6.25
2
H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
⎛ 2 ⎞
EXPRESIÓN ⎜ (n − 1)s (n − 1)s ⎟
2
PARA σ ∈ ⎜ 2(n −1) , 2(n −1) ⎟
2
INTERVALO ⎜ χ 1−α χα ⎟
⎝ 2 2 ⎠
2 ( n −1) 2 (18−1) 2 (17 )
VALORES DE χ 1−α = χ 1−0.025 = χ 0.975 = 30.191
2
χ α2(n −1) y χ 12−(αn −1) χα2 ( n −1)
= χ 02.(025
18−1)
= χ 02.(025
17 )
= 7.564
2 2
2
39
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
H 0 : µ = µ0 vs. H a : µ ≠ µ0
H 0 : µ ≥ µ0 vs. H a : µ < µ0
H 0 : µ ≤ µ0 vs. H a : µ > µ0
⎛ s ⎞
µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
¿La población ⎝ 2 n⎠
tiene
distribución
x − µ0
normal? tc =
s
n
⎛ s ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
¿La muestra es
mayor a 30?
(TCL) x − µ0
Zc =
s
n
PRUEBAS NO
PARAMÉTRICAS
a) Signo b) Wilcoxon
40
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
d x−µ
= =Z
σ σ Que gráficamente es:
n n
d
> Z 1−α
σ 2
d
> Z 1−α
Si tenemos σ 2
n
Aplicamos la ley n ⋅d
de los extremos
> Z 1−α
σ 2
Z 1−α
Dejamos sola a n n> 2
⋅σ
d
Y para despejarla Z 12−α ⋅ σ 2
la elevamos al n> 2
cuadrado d2
A ello debemos la siguiente expresión:
41
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
La cual nos indica que para conocer el tamaño n de la muestra requerida necesitamos
fijar una confiabilidad 1 − α de estimación y encontrar el valor de Z que le
corresponde; además, establecer una magnitud de error de estimación d 2 y conocer
el valor de σ 2 , que puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro está que, por su relación, a mayor confianza 1 − α , una mayor
muestra se necesitará; mientras que a mayor error de estimación d 2 , menor será la
muestra requerida.
Por último, si lo que se desea es calcular el tamaño de muestra necesario para estimar
proporciones de una población cuyo tamaño N se conoce, se utiliza la siguiente
expresión:
42
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
C. EJEMPLO DE APLICACIÓN
1. Jayr desea hacer una encuesta sobre las preferencias que existen en la
escuela para las próximas elecciones de director de la ENAH y ha planeado realizar su
estimación con un 95% de confianza y un 5% de error. Sabiendo que p (1 − p ) es
máximo cuando p = 0.5 y hay tres candidatos, supone una proporción de p = 0.33 .
DATOS GENERALES
1 − α = 0.95 α = 0.05 α = 0.025 1 − α = 0.975
2 2
Z 1−α = 1.96 d = 0.05 p = 0.33 1 − p = 0.67
2
a) ¿Qué tamaño de muestra necesitará Jayr para hacer estimaciones sobre las
proporciones de este fenómeno?
n>
(1.96 ) (0.33 ⋅ 0.67 )
2
= 339.75
APLICACIÓN
(0.05)2
, Para realizar una estimación sobre las proporciones de preferencia sobre el
próximo director de la ENAH, Jayr necesita una muestra mayor a 339.75; lo cual,
hablando de personas, implica encuestar alrededor de 340 personas.
b) Previendo los costos y tiempo que se llevará encuestar a 340 personas, Jayr decide
encuestar sólo a los estudiantes. Sabiendo que hay aproximadamente 2000 alumnos
en la ENAH, ¿es que con este cambio reducirá su muestra?, ¿a cuánto?.
EJERCICIOS DE REPASO
I. Define los siguientes conceptos:
1. Hipótesis 2. Hipótesis estadística 3. Error tipo I
4. Error tipo II 5. Significancia estadística 6. Región de rechazo
7. Estadístico 8. Parámetro 9. ¿Qué es x ? ¿qué es
de prueba µ?
10. ¿Qué es σ ? 11. ¿Qué es p̂ ? 12. Potencia de la prueba
¿Qué es s? ¿Qué es p ?
43
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
a) ¿Proporcionan estos datos evidencia para afirmar que la población tiene una
estatura sentado menor de 70 cm.? Sea α=0.05
1
Herrera Bautista, Rebeca y López Alonso Sergio (1995) “Distribución de talla y peso en población
infantil de la región de la sierra norte de Puebla, México” Estudios de antropología bilológica V Coloquio
de Antropología Física “Juan Comas”, México, IIA, UNAM.
2
VILLANUEVA MARÍA, SAÉNZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y
desarrollo en escolares de la Villa de las Margaritas, Chiapas México. En II Coloquío de Antropología
Física “Juan Comas”, IIA, UNAM. pp. 427-452
44
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
5. ¿Se puede asumir distribución normal en altura de rodilla en mujeres del turno
vespertino?
10. ¿La proporción de mujeres que han tenido relaciones sexuales es mayor de 0.65?
13. El siguiente cuestionario fue respondido por una muestra de 250 ginecólogos. Los
números de la derecha son las frecuencias de respuesta de cada opción:
1. ¿Ha revisado durante el año pasado a una o más mujeres
embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175
b) No 75
2. ¿Acostumbra como rutina poner al tanto a sus pacientes embarazadas
de que el fumar es riesgoso para el feto?
a) Si 238
b) No 12
a) ¿Es posible concluir que, de la población muestreada menos del 15% de los
ginecólogos ha atendido a una o más mujeres embarazadas con altas
concentraciones de plomo en la sangre? Sea α=0.01. Construir intervalo al 99%
de confianza para la proporción poblacional.
b) ¿es posible concluir que más del 90% de los médicos pone al tanto a sus
pacientes de que fumar es riesgoso para el feto? Sea α=0.05. Construir
intervalo al 95% de confianza para la proporción poblacional.
45
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
17. La productividad de un sistema que fabrica discos compactos vírgenes es, según
los empresarios más de 150 discos por hora. De resultar cierto esto, una compañía
disquera comprará dicho sistema. Tomando el sistema a prueba, lo activan en 28
horas (cada hora es una muestra) y obtienen una media de 155.8 con una
desviación estándar de 7.18. ¿Comprarán el sistema en cuestión? Responder esta
pregunta suponiendo distribución normal en la población, con las dos metodologías
de inferencia:
46
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNIDAD II
COMPARACIÓN DE DOS MEDIAS POBLACIONALES
1) PRUEBA DE LEVEANE
Se trata de una prueba para comparar las varianzas σ 12 y σ 22 de una variable con
distribución normal en dos poblaciones de tamaño N 1 y N 2 , con medias µ1 y µ 2 .
47
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Una vez que se concluye si las varianzas de ambas poblaciones son estadísticamente
iguales o diferentes, se tienen elementos construir intervalos de confianza y hacer
pruebas sobre sus medias.
2) INTERVALOS DE CONFIANZA
3) PRUEBA t
Cubiertos los anteriores requisitos, es está la prueba que debe utilizarse para
comparar dos poblaciones a través de sus medias:
48
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα1 + n2 − 2) t1(−nα1 + n2 − 2 )
2 2
REGIÓN DE
1-α
RECHAZO DE
H0 α
PRUEBA − t1(−nα1 + n2 − 2)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
t1(−nα1 + n2 − 2 )
3
Como puede verse, los grados de libertad es igual a la suma de los dos tamaños de muestra menos dos.
49
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
3) EJEMPLOS DE APLICACIÓN
MUJERES
157 181 158 152 160 160 163 155
156 153 170 152 160 170 170 158
HOMBRES
173 182 165 165 176 173 180
50
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
MUJERES n = 16 x = 160.94 s = 8.05 , Población 1
HOMBRES n=7 x = 173.43 s = 6.65 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−160.−051, 7 −1) = F0(.15
95
,6)
= 3.94
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 −2 ) = −t1(−160.+057 −2 ) = −t 0(.2195) = −1.7207
51
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
EXPRESIÓN PARA tc =
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2
Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp
Sp =
(16 − 1)(8.05)2 + (7 − 1)(6.65)2 = 7.68
16 + 7 − 2
160.94 − 173.43
CÁLCULO DEL tc = = −3.59
ESTADÍSTICO DE PRUEBA t c 1 1
7.86 +
16 7
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−160.+025
7 −2)
= t 0(.21975) = 2.0796
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦
⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢160.94 − 173.43 ∓ 2.0796 ⋅ 7.86 + ⎥
APLICACIÓN ⎣ 16 7 ⎦
µ1 − µ 2 ∈ [− 19.79,−5.19]
INTERPRETACIÓN Valores negativos µ1 < µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que la estatura media
femenina es menor que la masculina en las poblaciones de estudiantes de la ENAH.
52
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
NO FUMADORES
18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9
FUMADORES
16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3
18.6 12.0 24.1 16.5 21.8 16.3 23.4 18.8
DATOS GENERALES
NO
n=9 x = 12.43 s = 4.85 , Población 1
FUMADORES
FUMADORES n = 16 x = 17.54 s = 4.48 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−90−.05
1,16 −1)
= F0(.895,15) = 2.64
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
53
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 − 2 ) = −t1(−90+.1605− 2) = −t 0(.2395) = −1.7139
RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
EXPRESIÓN PARA tc =
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2
Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp
Sp =
(9 − 1)(4.85)2 + (16 − 1)(4.48)2 = 4.61
9 + 16 − 2
12.43 − 17.54
CÁLCULO DEL tc = = −2.66
ESTADÍSTICO DE PRUEBA t c 1 1
4.61 +
9 16
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−90+.16025− 2 ) = t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦
54
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢12.43 − 17.54 ∓ 2.0687 ⋅ 4.61 + ⎥
APLICACIÓN ⎣ 9 16 ⎦
= µ1 − µ 2 ∈ [− 9.08,−1.14]
INTERPRETACIÓN Valores negativos µ1 < µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que la destrucción
pulmonar es más grande en personas mayores fumadoras.
HOMBRES
351 365 339 330 335 354
350 356 350 322 331
MUJERES
331 317 330 321 335 329
340 332 320 345 327 335
330 320
Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en el perímetro craneal de estas poblaciones?
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
EXPRESIÓN PARA EL 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
ESTADÍSTICO DE Wc =
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦
2
1 ⎡ 5 ⎤
Wc = a (X (11− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(10)s ⎣ j =1 ⎦
Wc =
1
[1677.08] Wc =
1677.08
= 0.952
(10)176.09 1760.93
55
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.952 W011.05 = 0.850
CONTRASTAR
, El estadístico de prueba Wc = 0.948 no es menor a W011.05 = 0.850 . Por tal motivo, la
hipótesis nula no se rechaza y se infiere que, en la población masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribución normal.
EXPRESIÓN PARA EL 2
⎡ h ⎤
ESTADÍSTICO DE Wc =
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )
⎦
2
1 ⎡7 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(13)s 2 ⎣ j =1 j , n (14 − j ) ( j )
⎦
1 ⎢
Wc = + 0.1802(335 − 321) + 0.1240(332 − 327 ) + 0.0727(331 − 329 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(330 − 330 ) ⎥⎦
Wc =
1
[801.85] Wc =
801.85
= 0.959
(13)64.32 813.17
CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.959 W014.05 = 0.874
CONTRASTAR
, El estadístico de prueba Wc = 0.961 no es menor a W014.05 = 0.874 . Por tal motivo, la
hipótesis nula no se rechaza y se infiere que, en la población femenina de la cual
procede esta muestra, la variable perímetro craneal tiene una distribución normal.
56
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Comprobado que ambas poblaciones tienen distribución normal para esta variable,
hacemos la prueba de Leveane:
DATOS GENERALES
HOMBRES n = 11 x = 343.91 s = 13.27 , Población 1
MUJERES n = 14 x = 329.42 s = 8.01 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−110.−051,14−1) = F0(.10
95
,13)
= 2.67
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1= µ 2
1−α t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
α = 0.05 = 0.975 = t 0( .23975) = 2.0687
2 2
57
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
RESULTADO P. LEVEANE H a : σ 12 ≠ σ 22
x1 − x 2
EXPRESIÓN PARA tc =
ESTADÍSTICO DE PRUEBA t c s12 s 22
+
n1 n2
343.91 − 329.42
CÁLCULO DEL tc = = 3.19
ESTADÍSTICO DE PRUEBA t c 13.27 2 8.012
+
11 14
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
RESULTADO P.
H a : σ 12 ≠ σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
= t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ s12 s 22 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
DE CONFIANZA ⎢⎣ 2 n1 n2 ⎥⎦
⎡ 13.27 2 8.012 ⎤
µ1 − µ 2 ∈ ⎢343.91 − 329.42 ∓ 2.0687 ⋅ + ⎥
APLICACIÓN ⎣⎢ 11 14 ⎥⎦
= µ1 − µ 2 ∈ [5.10,23.88]
INTERPRETACIÓN Valores positivos µ1 > µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que el perímetro craneal
de hombres es mayor que el de mujeres entre los neonatos de esa localidad.
58
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Como es posible ver, el estadístico de prueba es una Z c , el cual tiene una distribución
normal estándar. Debido a ello es que se recurre, una vez más, a las tablas de
distribución normal para obtener los valores correspondientes a la significancia y
confiabilidad de la prueba.
Como en otras ocasiones, existen 3 hipótesis nulas posibles para comparar las
medianas de dos poblaciones:
HIPÓTESIS DEL HIPÓTESIS
HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
H inv :M 1< M 2 H 0 :M 1≥ M 2 H a :M 1< M 2
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
PRUEBA
BILATERAL O
DE DOS REGIÓN DE
COLAS RECHAZO DE
1−α H0
2 α/2 1-α/2
U α(n1 ,n2 ) U 1(−nα1 ,n2 )
2 2
59
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNILATERAL
O DE UNA
COLA
1−α REGIÓN DE
RECHAZO DE
H0
α
U α(n1 ,n2 )
REGIÓN DE
RECHAZO DE
H0
1-α
U 1(−nα1 ,n2 )
DATOS
60
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
n1 Tamaño de la muestra 1.
n2 Tamaño de la muestra 2.
R1 Suma de los rangos de la muestra 1.
R2 Suma de los rangos de la muestra 2.
c) Ejemplos de aplicación
HIPÓTESIS
61
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
2
DISTRIBUCIÓN DESCONOCIDA
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 9(9 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 104 − = 59
2
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
62
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
53 12.5 51 9.5
48 5 R2 37
47 3.5 n2 = 7
54 14
R1 116
n1 = 10
HIPÓTESIS
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(10
.05
,7 )
= 18 U 1−α = U 0(10
.95
,7 )
= 10 ⋅ 7 − 18 = 52
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 10(10 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 116 − = 61
2
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
HOMBRES
102 117 111 104 121 100 115 112
122 100 109 105 120 114
MUJERES
105 111 110 103 110 116 105 112
105 115 109 93 110 105 90 105
63
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en la anchura biacromial de estas poblaciones?
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
Pero como no sabemos si hay distribución normal en ambas poblaciones, las hipótesis
también podrían ser:
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks
para saber qué prueba aplicar:
EXPRESIÓN PARA EL 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
ESTADÍSTICO DE Wc =
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦
2
1 ⎡7 ⎤
Wc = a (X (14− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(13)s ⎣ j =1 ⎦
1 ⎢
Wc = + 0.1802(117 − 104 ) + 0.1240(115 − 105) + 0.0727(114 − 109 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(112 − 111) ⎥⎦
Wc =
1
[724.58] Wc =
724.58
= 0.935
(13)59.60 774.80
CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.935 W014.05 = 0.874
CONTRASTAR
64
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EXPRESIÓN PARA EL 2
⎡ h ⎤
ESTADÍSTICO DE Wc =
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )
⎦
2
1 ⎡8 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(15)s 2 ⎣ j =1 j , n (16 − j ) ( j )
⎦
Wc =
1
[646.01] Wc =
646.01
= 0.879
(15)49 735
CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.879 W016.05 = 0.887
CONTRASTAR
, El estadístico de prueba Wc = 0.879 es menor a W016.05 = 0.887 . Por tal motivo, la
hipótesis nula se rechaza y se infiere que, en la población fenemina de la cual
procede esta muestra, la variable anchura biacromial no tiene una distribución normal.
65
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
REGIÓN DE RECHAZO DE H 0 :M 1= M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(14 ,16 )
.025 = 65 U 1−α (14 ,16 )
= U 0.975 = 14 ⋅ 16 − 65 = 159
2 2
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 14(14 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 246.5 − = 141.5
2
66
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
U 0(14 ,16 )
.975 = 159 . Por ende, está fuera de las regiones de rechazo y la hipótesis nula
67
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
H 0 :µ 1= µ 2 vs. H a :µ 1≠ µ 2
H 0 :µ 1≥ µ 2 vs. H a :µ 1< µ 2
H 0 :µ 1≤ µ 2 vs. H a :µ 1> µ 2
⎡ 1 1 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n −2 ) ⋅ Sp
1 2
+ ⎥
⎣ 2 n1 n2 ⎦
PRUEBA
¿La población DE ¿ H0 :σ = σ ? 2
1
2
2
tiene distribución LEVEANE
normal?
x1 − x2
tc =
1 1
Sp +
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
⎣⎢ n1 n 2 ⎥⎦
2
x1 − x 2
tc =
s12 s 22
+
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ Z 1−α ⋅ + ⎥
⎣⎢ n1 n2 ⎦⎥
2
¿Ambas muestras
son mayores
a 20?
x1 − x 2
Zc =
s12 s 22
+
n1 n2
PRUEBA NO PARAMÉTRICA
U de Mann-Whitney
68
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Con el afán de comparar las muestras pareadas, las hipótesis que pueden
plantearse son:
4
Debe observarse que el tamaño n de ambas muestras tiene que ser igual.
69
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα−1) t1(−nα−1)
2 2
REGIÓN DE
1-α
RECHAZO DE
H0 α
PRUEBA − t1(−nα−1)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
t1(−nα−1)
70
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
a) Con una significancia de α = 0.05 , ¿es posible inferir que la estatura estimada a
partir de la longitud del fémur izquierdo es mayor que la estimada con el derecho?.
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPÓTESIS
H inv :µ x < µ y H 0 :µ x ≥ µ y H a :µ x < µ y
71
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE RECHAZO DE H 0 :µ x ≥ µ y
α = 0.05 − t1(−nα−1) = −t1(−150−.051) = −t 0(14
.95 = −1.7613
)
d
EXPRESIÓN PARA tc =
Sd
ESTADÍSTICO DE PRUEBA t c
n
− 30
CÁLCULO DEL tc = = −2.61
44.60
ESTADÍSTICO DE PRUEBA t c
15
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
( n −1)
VALOR DE t1−α (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t .14975 = 2.1448
2 2
⎛ 44.60 ⎞
APLICACIÓN µ x − µ y ∈ ⎜ − 30 ∓ 2.1448 ⋅ ⎟ = (− 54.70,−5.30)
⎝ 15 ⎠
INTERPRETACIÓN Valores negativos µx < µy
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur izquierdo es mayor que la media de la estatura estimada con el
derecho.
72
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
a) Con una significancia de α = 0.05 , ¿es posible inferir también diferencias entre la
estatura estimada dependiendo del fémur que sea utilizado?
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPÓTESIS
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y
REGIÓN DE RECHAZO DE H 0 :µ x = µ y
d
EXPRESIÓN PARA tc =
Sd
ESTADÍSTICO DE PRUEBA t c
n
1.82
CÁLCULO DEL tc = = 0.16
37.66
ESTADÍSTICO DE PRUEBA t c
11
73
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (11 − 1) = 10 g.l. t1(−nα−1) = t .10975 = 2.2281
2 2
⎛ 3766 ⎞
APLICACIÓN µ x − µ y ∈ ⎜1.82 ∓ 2.2281 ⋅ ⎟ = (− 23.48,27.12)
⎝ 11 ⎠
Valores negativo y positivo µx = µy
INTERPRETACIÓN
(incluye al cero)
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur derecho es igual que la media de la estatura estimada con el
izquierdo.
B.1) TEORÍA
Al igual que en la versión que vimos con anterioridad, en esta prueba hay que calcular
las diferencias d i de los datos, pero en vez de restar al dato un valor hipotético, los
valores se restan entre ellos (como en la prueba para poblaciones con distribución
normal): xi − y i : [(d 1 = x1 − y1 ), (d 2 = x 2 − y 2 ), (d 3 = x3 − y 3 ),..., (d n = x n − y n )].
Una vez que se tiene esto, tal y como lo hicimos en la prueba de Wilcoxon, hay que
obtener el valor absoluto d i de cada d i , marcando si su origen fue positivo o
negativo y eliminando las diferencias que sean igual a cero del total de n .
Xi Yi d i = ( X i − Yi ) d i signo
X1 Y1 d1 = ( X 1 − X 1 )
X2 Y2 d 2 = (X 2 − X 2 )
74
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
X3 Y3 d3 = (X 3 − X 3 )
(...) (...) (...)
Xn Yn d n = (X n − X n )
Como en la prueba normal de Wilcoxon, son esas diferencias en valor absoluto a las
que se asigna un rango:
Dependiendo si el d i del que provienen era positivo o negativo, los rangos de cada
d i se distinguen para obtener los siguientes datos:
DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo
Ahora bien, De acuerdo al tipo de hipótesis nula H o es que se utilizará una de estas
T y se le comparará con una T de las tablas de Wilcoxon.
TIPO DE HIPÓTESIS H o H 0 :µ x = µ y H 0 :µ x ≥ µ y H 0 :µ x ≤ µ y
n
Tα Tαn Tαn
2
T DE TABLAS Donde n es el número total de d i ≠ 0
CORRESPONDIENTE PARA
ESTADÍSTICO DE PRUEBA y
α o α 2 es el valor de la significancia
H 0 :µ x ≤ µ y −
T ≤ Tα n
H 0 :µ x ≥ µ y T + ≤ Tαn
75
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
obtuvo por medición. Suponiendo que esta población no tiene distribución normal y
con una significancia de α = 0.05 , ¿es posible afirmar que existen diferencias entre la
estatura reportada y la medida?
HIPÓTESIS
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y
DATOS
+
T = 34 −
T = 44 T ∗ {34,44} = 34 n = 12
CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS
H 0 :µ x = µ y
Ho
76
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
T DE TABLAS
CORRESPONDIENTE Tαn
PARA ESTADÍSTICO 2
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T ∗ ≤ Tαn
2
HIPÓTESIS
VALORES FINALES Tαn = T012.025 = 14
A CONTRASTAR T ∗ = 34 2
1) PRUEBA ANOVA
Como sus siglas en inglés lo dicen (Analysis Of Variance), la prueba ANOVA consiste
en comparar la varianza que se da entre poblaciones con la que se da dentro de cada
población.
Con tal fin, lo primero que debe hacerse es organizar los datos de las k muestras
(aquí estipulados con dos subíndices, el primero de la muestra de la cual proviene X i
y el segundo del número de dato X j ) y obtener los siguientes datos:
MUESTRA X i
k 1 2 3 … K
X 11 X 21 X 31 … X k1
X 12 X 22 X 32 … X k2
DATO
Xj X 13 X 23 X 33 … X k3
… … … … …
X 1k X 2k X 3k … X knk
TOTALES n n n n
T1 = ∑ X 1 j T2 = ∑ X 2 j T3 = ∑ X 3 j … Tk = ∑ X kj
Ti i =1 i =1 i =1 i =1
TAMAÑO
n1 n2 n3 … n nk
MUESTRA
n = n1 + n2 + n3 + ... + nk
77
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Como podemos ver, n es aquí igual al número total de elementos de todas las
muestras y cada total Ti es igual a la suma de los datos de cada muestra.
Si bien obtener estos datos es relativamente sencillo, faltan aún dos datos que se
necesitarán para el estadístico de prueba:
DATOS GENERALES
Valor que es igual al de la suma de los totales de cada muestra
∑∑ X ij
(∑ )
Ti y que puede obtenerse ingresando en el modo estadístico
de la calculadora todos los datos y apretando la tecla ∑x.
Valor que se obtiene igual que el anterior pero mediante la tecla
∑∑ X 2
ij
∑ x2 .
Es la desviación estándar que obtiene la calculadora de todos los
s
datos ingresados.
a) Hipótesis nula, estadístico de prueba y región de rechazo
Como las medias de las k poblaciones son µ1 , µ 2 , µ 3 ,..., µ k , las hipótesis a
contrastar son:
Total (n − 1) SCt = ∑ ∑ X ij
2
−
(∑ ∑ X )
ij
2
78
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎡ (∑ x )2 ⎤
total: ⎢ ⎥.
⎢⎣ n ⎥⎦
Si bien esta dato puede obtenerse en la calculadora
restando al valor de ∑
x 2 el valor de ∑
x , elevado al
(∑ ∑ X ) 2 ⎡ (∑ x) ⎤
2
SCt = ∑ ∑ X ij
2
− ij
cuadrado y dividido entre la n total: ⎢∑ x −
2
⎥,
n ⎢⎣ n ⎥
⎦
es más fácil calcularlo con la siguiente expresión:
SC t = (n − 1)s 2 5.
Como se ve en la tabla, los cuadrados medios entre
CM e =
SCe
CM d =
SCd muestras y dentro de ellas son fáciles de calcular, pues
(k − 1) (n − k ) simplemente se divide su respectiva suma de
cuadrados entre sus grados de libertad.
CM e Finalmente, el estadístico de prueba se obtiene
Fc = dividiendo los cuadrados medios entre muestras entre
CM d los cuadrados medios dentro de las muestras.
Este estadístico de prueba tiene una distribución F de Fisher, por lo cual el valor
de inicio de la región de rechazo para la hipótesis nula se encuentra mediante la
expresión F1(−kα−1,n − k ) , donde los grados de libertad son (k − 1) en el numerador y
(n − k ) en el denominador.
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = ... = µ k
F1(−kα−1,n − k )
2) PRUEBA DE TUKEY
5
Porque s =
2
∑∑ SC t .
79
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Por último, la forma más metódica de comprobar esto es organizando los datos
en una tabla como la que se muestra a continuación:
H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c
80
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
3) EJEMPLOS DE APLICACIÓN
60-64 AÑOS
7 2 1 8 5 5 1 8 5 3 5
70-74 AÑOS
9 9 5 5 2 10 7
80-84 AÑOS
6 6 10 5 6 10 4 8 1 8
MUESTRA X i
k =3 1. 60-64 AÑOS 2. 70-74 AÑOS 3. 80-84 AÑOS
7 9 6
2 9 6
1 5 10
8 5 5
DATO 5 2 6
Xj 5 10 10
1 7 4
8 8
5 1
3 8
5
TOTALES
T1 = 50 T2 = 47 T3 = 64
Ti
TAMAÑO n3 = 10
n1 = 11 n2 = 7
MUESTRA
n = 11 + 7 + 10 = 28
DATOS GENERALES
∑∑ X ij = 161 ∑∑ X 2
ij = 1135 s = 2.78
81
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
SC t = (28 − 1)2.78 2
Total (28 − 1) = 27
= 208.67
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 05 = F0.95
F1−( 20,.25 ) ( 2 , 25 )
= 3.39
4000 a.C.
131 138 125 129 132 135 132
1850 a.C.
129 134 136 137 137 129 136 138 134
150 d.C.
128 138 136 139 141 142 145 137
MUESTRA X i
k =3 1. 4000 a.C. 2. 1850 a.C. 3. 150 d.C.
DATO 131 129 128
82
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
∑∑ X ij = 3238 ∑∑ X 2
ij = 437396 s = 4.83
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 05 = F0.95
F1(−20,.25 ) ( 2 , 21)
= 3.47
83
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Por tal motivo, para distinguir qué medias son diferentes es necesario aplicar la prueba
de Tukey. Establezcamos primero los datos que obtuvimos de las muestras:
TOTAL TAMAÑO DE
MUESTRA MEDIA MUESTRAL
Ti MUESTRA
1. 4000 a.C. T1 = 922 n1 = 7 X 1 = 922 = 131.71
7
2. 1850 a.C. T2 = 1210 n2 = 9 X 2 = 1210 = 134.44
9
3. 150 d.C. T3 = 1106 n3 = 8 X 3 = 1106 = 138.25
8
k =3 n = 24
VALOR DE COEFICIENTE qα ,k ,n − k
α = 0.05 = 5% k =3 (n − k ) = (24 − 3) = 21 qα ,k ,n − k = q 0.05,3, 21 = 3.58
Ahora contrastemos las hipótesis necesarias:
H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c
n* = {7,9} = 7
17.80
H 0 : µ1 = µ 2 131.71 − 134.44 = 2.73 3.58 = 5.71 2.73 < 5.71
7
n* = {7,8} = 7
17.80
H 0 : µ1 = µ 3 131.71 − 138.25 = 6.54 3.58 = 5.71 6.54 > 5.71
7
n* = {9,8} = 8
17.80
H 0 : µ2 = µ3 134.44 − 138.25 = 3.81 3.58 = 5.34 3.81 < 5.34
8
, Al contrario de las hipótesis H 0 : µ1 = µ 2 y H 0 : µ 2 = µ 3 , la hipótesis nula H 0 : µ1 = µ 3 sí se
rechaza, por lo cual existe una diferencia significativa ( p < 0.05) entre las medias de la primera
y la tercera población. Ello indica que no pueden percibirse cambios entre poblaciones
continuas, pero sí entre la población más antigua y la más reciente.
1) PRUEBA DE KRUSKAL-WALLIS
84
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
χ 12−(αk −1)
Dado el caso que la hipótesis nula se rechace en esta prueba y haya que distinguir
qué medias difieren, la prueba para comparar medias poblacionales por parejas es la
U de Mann-Whitney.
2) PRUEBA U DE MANN-WHITNEY
3) EJEMPLOS DE APLICACIÓN
Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible inferir diferencias en el grado de las heridas respecto al tipo de
automóvil?
85
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = µ 4
α = 0.05 χ 12−(αk −1) = χ12−(04.−051) = χ 02.(953 ) = 7.815
86
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible afirmar que esta poblaciones muestran diferencias de acuerdo a
la escala de Zung?
EXPRESIÓN PARA
CALCULAR EL
ESTADÍSTICO DE
12 ⎛ R12 R22 R32 Rk2 ⎞
PRUEBA H c EN Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
POBLACIONES SIN
DISTRIBUCIÓN
NORMAL
⎛ 259 2 137.5 2 38.5 2 ⎞
⎟⎟ − 3(29 + 1) = 13.07
12
APLICACIÓN Hc = ⎜ + +
29(29 + 1) ⎜⎝ 13 9 7 ⎠
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 χ 12−(αk −1) = χ 12−(03.−051) = χ 02.(952 ) = 5.991
87
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1= µ 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,9 )
.05 = 34 U 1−α = U 0(13 ,9 )
.95 = 13 ⋅ 9 − 34 = 83
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 13(13 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 170.5 − = 79.5
2
88
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
HIPÓTESIS
H 0 :µ 1= µ 3 H a :µ 1≠ µ 3
REGIÓN DE RECHAZO DE H 0 :µ 1= µ 3
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,7 )
.05 = 25 U 1−α = U 0(13 ,7 )
.95 = 13 ⋅ 7 − 25 = 66
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 13(13 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 179.5 − = 88.5
2
89
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
HIPÓTESIS
H 0 :µ 2 = µ 3 H a :µ 2 ≠ µ 3
REGIÓN DE RECHAZO DE H 0 :µ 2 = µ 3
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 9(9 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 100 − = 55
2
90
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
A.1) FUNDAMENTOS
Como en ocasiones anteriores, los siguientes métodos sirven para comparar una
variable cualitativa, pero que ahora se presenta en dos poblaciones (N 1 , N 2 ) ,
obteniendo proporciones p1 =
M1 y p2 =
M2 que buscan compararse.
N1 N2
EXPRESIÓN PARA
ENCONTRAR UN INTERVALO
AL (1 − α ) POR CIENTO DE
⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
CONFIANZA PARA p1 − p 2 ⎝ 2 n1 n2 ⎠
CUANDO LA POBLACIÓN
91
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
TIENE DISTRIBUCIÓN
APROXIMADAMENTE
NORMAL ESTÁNDAR
n1 ⋅ p1 + n 2 ⋅ p 2 m1 + m2
DONDE p= =
n1 + n 2 n1 + n 2
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2
92
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNILATERAL
O DE UNA
COLA
1−α REGIÓN DE
1-α
RECHAZO DE
H0 α
− Z1−α
H inv : p1 > p 2 H 0 : p1 ≤ p 2 H a : p1 > p 2
REGIÓN DE 1-α
RECHAZO DE
α
H0
Z1−α
Por tanto, no hace falta repetir cómo hallar el valor de inicio de la región de
rechazo con base en las tablas de la distribución normal estándar.
b) Procedimiento para el contraste de hipótesis
93
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
94
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Y no está de más volver a comprobar que la suma del contenido sea igual a los
marginales. Una vez construida la tabla de contingencia de datos esperados se
estipulan las hipótesis a contrastar y se calcula el estadístico de prueba:
χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
El cual simplemente consiste en sumar los resultados obtenidos de restar a cada valor
observado su respectivo valor esperado, elevarlo al cuadrado y dividirlo entre el valor
esperado.
Obviamente, tal estadístico de prueba tiene una distribución ji cuadrada con un
número de grados de libertad igual al producto de los renglones de la tabla menos uno
por las columnas de la tabla menos uno: χ 12−[α(r −1)(c −1)] , que con una significancia de
1 − α establece una región de rechazo en la sección superior del eje de las X .
REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones
1-α
Se trata de una medida que determina la intensidad de asociación entre dos variables
cualitativas. Al ser una prueba que se aplica a posterior a la χ 2 , su cálculo implica la
siguiente expresión:
95
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
C. EJEMPLOS DE APLICACIÓN
DATOS GENERALES
n1 = 45 m1 = 37 pˆ 1 = 37 = 0.82 1 − pˆ 1 = 1 − 0.82 = 0.18
45
n 2 = 36 m2 = 30 pˆ 2 = 30 = 0.83 1 − pˆ 1 = 1 − 0.83 = 0.17
36
m1 + m2 37 + 30
p= = = 0.83 1 − p = 1 − 0.83 = 0.17
n1 + n2 45 + 36
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.82 − 0.83
Zc = = −0.12
APLICACIÓN 0.83(0.17 ) 0.83(0.17 )
+
45 36
96
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
REGIÓN DE RECHAZO DE H 0 : p1 = p 2
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
Para comprobar este resultado hay que construir el intervalo de confianza para la
diferencia de proporciones:
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995
EXPRESIÓN ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
PARA INTERVALO n1 n2
⎝ 2
⎠
VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2
⎛ 0.83(0.17 ) 0.83(0.17 ) ⎞
APLICACIÓN p1 − p 2 ∈ ⎜⎜ 0.82 − 0.83 ∓ 2.575 ⋅ + ⎟ = (− 0.23,0.21)
⎟
⎝ 45 36 ⎠
Valores negativos y positivos
INTERPRETACIÓN p1 = p 2
(que incluyen al cero)
, Como el intervalo para la diferencia de proporciones contiene al cero, es posible afirmar con
un 99% de confiabilidad que la proporción de cráneos masculinos y femeninos con el orificio
auditivo elíptico es igual en las poblaciones de la Cueva de La Candelaria.
97
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
APLICACIÓN
χ =
2 (37 − 37.22) 2
+
(8 − 7.78)
2
+
(30 − 29.78)
2
+
(6 − 6.22)
2
= 0.02
c
37.22 7.78 29.78 6.22
REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones
98
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
Por último, mediante el coeficiente de Cramer comprobamos que esta afirmación sea
significativa:
DATOS GENERALES
n1 = 93 m1 = 50 pˆ 1 = 50 = 0.54 1 − pˆ 1 = 1 − 0.54 = 0.46
93
n 2 = 207 m2 = 63 pˆ 2 = 63 = 0.30 1 − pˆ 1 = 1 − 0.30 = 0.70
207
m1 + m2 50 + 63
p= = = 0.38 1 − p = 1 − 0.38 = 0.62
n1 + n 2 93 + 207
99
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.54 − 0.30
Zc = = 3.96
APLICACIÓN 0.38(0.62 ) 0.38(0.62 )
+
93 207
REGIÓN DE RECHAZO DE H 0 : p1 = p 2
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995
100
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EXPRESIÓN PARA ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
INTERVALO n1 n2
⎝ 2
⎠
VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2
⎛ 0.38(0.62 ) 0.38(0.62 ) ⎞
p1 − p 2 ∈ ⎜⎜ 0.54 − 0.30 ∓ 2.575 ⋅ + ⎟ = (0.08,0.40 )
⎟
⎝ 93 207 ⎠
INTERPRETACIÓN Valores positivos p1 > p 2
, Como el intervalo para la diferencia de proporciones sólo contiene valores
positivos, es posible afirmar con un 99% de confiabilidad que la proporción de
alcohólicos que cometió delitos relacionados con la piromanía es mayor que la
proporción de alcohólicos que cometió fraude.
χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
APLICACIÓN
χ =
2 (50 − 35.03) 2
+
(63 − 77.97 )
2
+
(43 − 57.97 )
2
+
(144 − 129.03)
2
= 14.87
c
35.03 77.97 57.97 129.03
REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones
101
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
102
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EJERCICIOS DE REPASO
103
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
104
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
25. Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas
interesadas en bajar de peso, registrándose el peso de cada persona antes y
después del tratamiento, presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
Con los datos obtenidos ¿se puede afirmar que la dieta es adecuada? Sea α=0.05
a) Resolver suponiendo distribución normal.
b) Resolver suponiendo que no existe distribución normal
26.Un equipo de antropólogos está estudiando el grado de integración cultural de
dos comunidades indígenas, una al sur y otra del norte del país. Uno de los
indicadores empleados en el estudio es la variable aleatoria “número de distintas
palabras en español usadas por cada miembro de la comunidad”; se selecciona
una muestra aleatoria en cada comunidad y se llega a:
Comunidad I (Sur) Comunidad II (Norte)
n1 = 32 x1 = 325 s1 = 60 n2 = 35 x2 = 228 s2 = 30
¿Esta información proporciona evidencia suficiente para afirmar que si hay
elementos de integración cultural en ambas comunidades?
a) Inferir mediante una prueba de hipótesis con α=0.05.
b) Inferir mediante un intervalo al 95% de confianza.
27. Un estudio sobre planificación familiar en una zona del Estado de Hidalgo
realizado por Castilleja y Zavala6 clasifico a una muestra de mujeres de acuerdo
a dos características: uso de anticonceptivos y escolaridad*. Los datos se
presentan en la siguiente tabla:
Escolaridad
Anticoncepción Baja Alta
Usuarias 81 22
Total 114 30
* Escolaridad baja: escolaridad nula, saben leer y escribir y primaria
incompleta. Escolaridad alta: primaria completa y posprimaria.
¿Existe diferencia entre la proporción de usuarias de anticonceptivos en las
poblaciones definidas por la escolaridad?
a) Resolver con prueba de hipótesis. Sea α=0.091
b) Inferir mediante un intervalo al 93% de confianza.
28. Acaban de descubrir dos nuevas zonas arqueológicas geográficamente muy
cercanas entre sí. Como no coinciden del todo las características y la antigüedad
de los restos de ambas zonas, se va a corroborar si se trata de una sola o de dos
diferentes culturas precolombinas: se selecciona una muestra de 15 objetos de
una zona y una muestra de 18 objetos localizados en la segunda zona. Los
resultados del fechamiento en años de los restos son:
6
CASTILLEJA AÍDA y ZAVALA CARLOS (1982) Respuesta al programa nacional de planificación
familiar en el sureste del Estado de Hidalgo: un renglón para la Antropología Física. En II Coloquio de
Antropología Física “Juan Comas”, IIA, UNAM. pp. 501-531
105
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Zona I Zona II
x1 = 570 s12
= 1518 x2 = 682 s22 = 1625
¿Con estos datos muestrales puede concluirse que la cultura de la zona II es más
antigua? Suponga distribución normal. Sea α=0.05
29. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Sea α=0.05
a) Suponga distribución normal en las poblaciones.
b) Suponga que no hay distribución normal en las poblaciones.
30. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de Laguna
Verde, tienen un efecto significativo sobre la fauna marina en la región. Se
dividieron al azar cuatro grupos de especimenes recién nacidos de cierta especie
de peces. Se colocaron los grupos en medios ambientes separados que simulan el
océano, completamente idénticos, con excepción de la temperatura del agua.
Seis meses después se pesaron los especimenes. Los resultados (en libras) se dan
en la tabla siguiente: Pesos de los especimenes
38ºF 42ºF 46ºF 50ºF
22 15 14 17
24 21 28 18
16 26 21 13
18 16 19 20
19 25 24 21
17 23
a) Suponga distribución normal en las poblaciones. Sea α=0.01
b) Suponga que no hay distribución normal en las poblaciones.
106
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-24 41 34
25-24 53 52
35-49 39 58
¿Existe relación entre la edad y el uso de anticonceptivos?
32. En un curso para pilotos se probaron tres métodos de enseñanza: con casetes de
audio, videocasetes y clase en el aula. Se obtuvieron los siguientes resultados en
la prueba final:
Casete de audio 74 88 82 93 55 70
Videocasete 78 80 65 57 89
Clase en aula 68 83 50 91 84 77 94 81 92
¿Existen diferencias entre los puntajes obtenidos en los diferentes métodos? Sea
α=0.05
33. La siguiente tabla se obtuvo de una investigación en restos óseos de la época
colonial en una región de Tlaxcala al cruzar dos patologías observadas:
¿Existe asociación entre las dos variables? Sea α=0.10
Criba Orbitaría Hiperostosis Porótica
Ausencia Presencia
Ausencia 15 11
Presencia 20 32
34. En cierta escuela un grupo de estudiantes ha planteado la posibilidad de que la
cafetería de la institución este a cargo de la comunidad estudiantil. Un profesor
considera que existe asociación en las posiciones de los alumnos respecto a la
licenciatura en la que estudian. Se toma una muestra y se observan los siguientes
resultados:
Licenciatura Posición respecto a la
propuesta
A favor En contra
AF 23 25
AS 17 19
ARQ 20 34
ETH 32 15
ETN 24 30
LIN 12 16
HIS 30 14
¿Qué se puede decir al respecto? Sea α=0.05
107
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNIDAD III
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
ANÁLISIS DE CORRELACIÓN
Cuando se tienen dos variables, la forma más sencilla para comprobar si existe una
relación lineal entre ellas es construyendo un diagrama de dispersión con base en
coordenadas ( X , Y ) . Empero, como veremos a continuación, la estadística cuenta con
estimadores y pruebas más precisas (acordes al tipo y la distribución probabilística de
las variables) para determinar si existe una asociación significativa o no.
PARÁMETRO ESTIMADOR
∑ (xi − µ x )(yi − µ y )
N n
∑ (x i − x )( y i − y )
ρ= i =1
r= i =1
N ⋅σ x ⋅σ y (n − 1) ⋅ s x ⋅ s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresión del numerador de este estimador:
∑ (x y
i =1
i i − xi y − x y i + x y )
• Repartimos la sumatoria:
n n n n
∑ x y − ∑ x y − ∑ xy + ∑ xy
i =1
i i
i =1
i
i =1
i
i =1
• Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamaño de la muestra:
n n n
∑ xi yi − y ∑ xi − x ∑ yi + nx y
i =1 i =1 i =1
∑x y
i =1
i i − y ⋅ nx − x ⋅ ny + nx y
n n
Porque:
∑x i n ∑y i n
x= i =1
⇒ ∑ xi = x ⋅ n y= i =1
⇒ ∑ yi = y ⋅ n
n i =1 n i =1
108
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
∑x y
i =1
i i − nx y
2) PRUEBA DE HIPÓTESIS t
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
Como podemos observar, este estadístico de prueba es del tipo t c ; es decir, tiene una
distribución t de student —pero ahora, por ser dos variables, con (n − 2 ) grados de
7
Si bien esta es la forma más sencilla para calcular manualmente el coeficiente de correlación de Pearson,
cabe mencionar que muchas calculadoras científicas lo pueden arrojar directamente al ingresar los datos
de ambas variables en el modo estadístico de regresión lineal; este dato tendrá un valor muy parecido al
que se obtiene haciendo los cálculos manualmente con 4 decimales.
109
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
libertad— y se compara, como en toda prueba bilateral de esta distribución, con las
regiones de rechazo de la hipótesis nula:
REGIÓN DE 1-α
RECHAZO DE
H0 : ρ = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
Cuando las dos variables son al menos de tipo ordinal y/o no se pueda asumir
distribución normal en ellas, existen alternativas no paramétricas para determinar su
asociación.
Habiendo asignado rangos a los datos de cada variable, debe obtenerse, para cada
caso, la diferencia d i = Rxi − Ry i y elevarse al cuadrado:
110
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
2) PRUEBAS DE HIPÓTESIS
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
a) Muestras grandes
REGIÓN DE 1-α
RECHAZO DE
H0 : ρs = 0 α/2 α/2
− Z 1−α Z 1−α
2 2
111
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
b) Muestras pequeñas
REGIÓN DE
RECHAZO DE
H0 : ρs = 0
α/2 α/2
− rα rα
2 2
C. EJEMPLOS DE APLICACIÓN
HÚMERO FÉMUR
329 444
311 426
297 449
323 427
323 428
290 427
297 417
287 414
333 417
336 440
313 416
322 408
321 420
315 443
309 472
304 466
300 422
Suponiendo distribución normal en estas variables, con una significancia α = 0.05 ¿es
posible afirmar que existe una relación lineal entre la longitud del húmero y del fémur?
112
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
480
470
460
450
Fémur
440
430
420
410
400
280 290 300 310 320 330 340
Húmero
, En esta gráfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de
estadística. En este primer ejemplo desarrollaremos todos los datos necesarios para
calcular manualmente el coeficiente de correlación; no obstante, el los próximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HÚMERO FÉMUR X i Yi
329 444 146076
311 426 132486
297 449 133353
323 427 137921
323 428 138244
290 427 123830
297 417 123849
287 414 118818
333 417 138861
336 440 147840
313 416 130208
322 408 131376
321 420 134820
315 443 139545
309 472 145848
304 466 141664
300 422 126600
TOTAL 2291339
DATOS GENERALES
n = 17 x = 312.3529 y = 431.5294 s x = 14.8195 s y = 18.2384
113
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EXPRESIÓN DEL n
COEFICIENTE DE ∑x y i i − nx y
CORRELACIÓN r= i =1
DE PEARSON (n − 1) ⋅ s x ⋅ s y
CÁLCULO 2291339 − 17(312.3529 ⋅ 431.5294)
r= = −0.0189
MANUAL (17 − 1)14.8195 ⋅ 18.2384
VALOR EN
r = −0.0190
CALCULADORA
, El signo negativo indica que la asociación entre la longitud del húmero y la del
fémur sería inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociación entre estas variables es casi nula.
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
puede afirmarse que no existe asociación significativa entre la longitud del húmero y la
del fémur en los restos óseos de esta población.
114
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
1740
1720
1700
1680
Estatura
1660
1640
1620
1600
1580
710 720 730 740 750 760 770 780
, Aunque existe dispersión en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociación.
115
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
n = 15 r = 0.5310
, El valor del coeficiente de correlación de Pearson nos indica una asociación lineal
directa considerable.
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
afirmarse que había asociación significativa entre la longitud del miembro superior y la
estatura en la población juvenil masculina de Cholula, Puebla.
116
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
440 361
416 372
408 358
420 358
443 384
472 381
466 388
422 355
419 368
462 351
452 380
454 349
468 405
449 363
442 412
472 366
451 364
438 346
440 361
483 384
451 388
429 353
Con una significancia α = 0.05 , ¿es posible afirmar que existe relación entre ellas?
440
420
Longitud tibia derecha
400
380
360
340
400 420 440 460 480 500
, En este diagrama los puntos se ven muy dispersos, por lo que se duda exista una
relación lineal entre las longitudes de estos huesos largos.
117
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
n
n = 31 ∑d
i =1
i
2
= 4593
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2
6(4593)
rs = 1 − = 0.0740
31(312 − 1)
CÁLCULO
118
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
EXPRESIÓN PARA rs
Zc =
ESTADÍSTICO DE PRUEBA t c (n − 1)
0.0740
CÁLCULO DE t c Zc = = 0.0135
(31 − 1)
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
119
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
100
Porcentaje de alfabetas
90
80
70
0 2 4 6 8 10 12 14
Porcentaje de emigrantes
120
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
DATOS GENERALES
n
n = 16 ∑d
i =1
i
2
= 504.50
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2
6(504.50 )
rs = 1 − = 0.2581
CÁLCULO
(
16 16 2 − 1 )
, El valor del coeficiente de correlación de Spearman nos indica una asociación
lineal directa muy débil entre la emigración y el alfabetismo.
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs
FLUORURO 1 3 4 9 8 7 10 6 5 2
CFO 8 9 7 3 2 4 1 5 6 10
Compruebe si existe una relación lineal entre la concentración de fluoruro y los dientes
CFO en estas comunidades (α = 0.05) .
121
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
12
10
Dientes CFO 6
0
0 2 4 6 8 10 12
Concentración de fluoruro
RANGOS CONCENTRACIÓN
RANGOS DIENTES CFO
FLUORURO
d i = Rxi − Ry i d i2
8 1 8 −1 = 7 49
9 3 9−3= 6 36
7 4 7−4=3 9
3 9 3 − 9 = −6 36
2 8 2 − 8 = −6 36
4 7 4 − 7 = −3 9
1 10 1 − 10 = −9 81
5 6 5 − 6 = −1 1
6 5 6−5 =1 1
10 2 10 − 2 = 8 64
TOTAL 322
DATOS GENERALES
n
n = 10 ∑d
i =1
i
2
= 322
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n 2 − 1)
6(322)
rs = 1 − = −0.9515
CÁLCULO
(
10 10 2 − 1 )
, El valor del coeficiente de correlación de Spearman nos indica una asociación
lineal inversa muy fuerte entre el número de dientes CFO y la concentración de
fluoruro en el suministro de agua.
122
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs
26
A. FUNDAMENTOS
24
123
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
26
24
Como podemos ver, cuando la relación
entre dos variables es clara y constante,
modelos basados en la forma y = a + bx
22
Y
son de gran utilidad para expresar y
20
describir con precisión su asociación.
18
16
12 14 16 18 20 22
124
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Conociendo la forma del modelo de regresión lineal que la estadística utiliza para
describir la relación entre dos variables, es ahora necesario saber cómo ajustarlo; es
decir, cómo partiendo de los datos X i , Yi de una muestra de tamaño n , calcular la
ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo
sean mínimos (razón por la cual ocuparemos el procedimiento de mínimos cuadrados).
i =1 i =1
n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2
i =1
• Por lo cual hay que encontrar la forma en que esta función sea mínima. El punto
es que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la función.
i =1
df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− 1)
dβ 0 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
i =1
125
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
− 2∑ ( y i − βˆ0 − βˆ1 xi ) = 0
n
i =1
∑ (y − βˆ 0 − βˆ1 xi ) = 0
n
i =1
i −2
Como 0 =0
#
∑ (y − βˆ0 − βˆ1 xi ) = 0
n
i
i =1
∑ yi − ∑ βˆ0 − ∑ βˆ1 xi = 0
i =1 i =1 i =1
Porque
∑ yi n ∑x i n
∑ C = nC
y= i =1
⇒ ∑ y i = yn x= i =1
⇒ ∑ xi = x n
n i =1 n i =1
i =1
df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− xi )
dβ 1 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
• Igualamos a cero:
i =1
126
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
( )
n
− 2∑ xi y i − βˆ0 xi − βˆ1 xi2 = 0
i =1
∑ (x y )
n
− βˆ0 xi − βˆ1 xi2 = 0
i =1
i i −2
i =1 i =1
n
127
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
∑x y i i − nx y
βˆ1 = i =1
n
∑x
i =1
2
i − nx 2
∑x
i =1
2
i − nx 2
Si bien ambos datos son fundamentales para construir el modelo de regresión lineal, el
valor de βˆ0 sólo indica el punto donde la recta corta el eje de las Y ; esto es, el valor
de Y cuando X = 0 . Mientras tanto, el valor de β̂ 1 resulta mucho más significativo
para la interpretación ya que, dependiendo de su signo y magnitud, indica el cambio
en la variable Y cuando X cambia una unidad. Por ejemplo:
Por tanto:
Más allá de encontrar la ecuación de la recta que se ajuste a los datos, el objetivo
principal de los modelos de regresión lineal es predecir el valor de Y dada una X .
Ante fenómenos aleatorios, la estadística sólo puede estimar; pero antes de hacerlo
8
Igual que en el caso del coeficiente de correlación de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los cálculos, pues son ya muchas las
calculadoras científicas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo
estadístico de regresión lineal.
128
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
debe verificar que el modelo cumpla con cuatro criterios para determinar que en
verdad sea adecuado al describir el fenómeno.
Consiste en verificar que exista una asociación lineal significativa entre las dos
variables a través de una prueba de hipótesis. En el caso de variables con distribución
normal, la prueba que en el tema anterior vimos se aplica es la t , basada en el
coeficiente de correlación de Pearson (r ) :
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
EXPRESIÓN PARA CALCULAR EL
ESTADÍSTICO DE PRUEBA SOBRE EL n−2
tc = r
COEFICIENTE DE CORRELACIÓN DE 1− r2
PEARSON.
REGIÓN DE
RECHAZO DE 1-α
H0 : ρ = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
150
Media
140
V. estimado estatura
Altura de rodilla
V. real estatura
130 Altura de rodilla
40 42 44 46 48 50
129
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
La diferencia entre los valores reales y su media es conocida como desviación total
de los valores con respecto a la media, la cual está compuesta por dos
desviaciones más: 1) la que hay entre los valores estimados y la media de los
originales, debida al modelo de regresión, y 2) la que hay entre los valores reales y
los valores estimados, que no justifica el modelo de regresión y es considerada como
error de estimación o residuo. Esto es:
y i − y = yˆ i − y + y i − yˆ i
Desviación no explicada
Desviación total de valores Desviación debida al
por el modelo , Error o
con respecto a la media modelo de regresión lineal.
residuo.
Como hemos venido diciendo, lo que se busca lograr con el modelo de regresión es
que el error al describir el fenómeno sea lo más pequeño posible, motivo por el cual la
suma de residuos (al cuadrado, para evitar signos) debe ser mínima:
n n n
∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
i =1
i
2
i =1
i
2
i =1
i i
2
Variabilidad debida al
Variabilidad no explicada
Variabilidad total: modelo de regresión
por el modelo:
Suma de cuadrados lineal:
Suma de cuadrados de los
totales (SC t ) Suma de cuadrados de la
errores (SC e )
regresión (SC r )
De ahí partimos para decir que, si no hubiera diferencias entre los valores reales y los
estimados, el error de estimación sería nulo y no existiría una variabilidad inexplicada:
n
y i − yˆ i ≈ 0 ⇒ ∑ ( y i − yˆ i ) ≈ 0
2
i =1
i =1 i =1
∑ ( yˆ − y )
2
i
1= i =1
n
∑ (y − y)
2
i
i =1
130
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
¿Qué pasa, sin embargo, cuando en la práctica existen errores de estimación? Pues
que el cociente de esta comparación es menor a uno, ya que parte de la variabilidad
se debe a los residuales. La estadística define entonces al resultado como coeficiente
( )
de determinación R 2 , cuyo valor está entre cero y uno 0 ≤ R 2 ≤ 1 y al ser ( )
multiplicado por cien revela el porcentaje de la variabilidad de Y que el modelo de
regresión lineal explica.
Si bien su valor puede calcularse a través de la fórmula ya descrita, se ha comprobado
que para obtener el coeficiente de determinación basta con elevar al cuadrado el
coeficiente de correlación:
∑ ( yˆ − y )
2
i
COEFICIENTE DE R2 = i =1
DETERMINACIÓN n R2 = r 2
∑ (y − y)
2
i
i =1
Por último: aunque lo ideal sería que, como vimos, el valor del coeficiente de
determinación fuera o se acercara a 1 (100%), esto pocas veces sucede. Por ende, a
falta de criterios estrictos sobre el valor que debe tener R 2 para considerar al modelo
de regresión lineal adecuado, simplemente hemos de sugerir que rebase el 50%,
justificando que así la mayor parte de la variabilidad de Y se deberá al modelo y no a
lo errores.
C.3) CRITERIOS SOBRE LOS PARÁMETROS DEL MODELO.
1. Para poder estimar, los valores de la variable independiente deben ser fijos y
los de la dependiente aleatorios. Es decir, para cada dato de X que el
investigador recabe encontrará diversos valores de Y .
2. Los errores ei son independientes. Esto es, el valor de cada uno no depende
del valor de los otros.
∑ (r − ri − 1 )
2
i
EXPRESIÓN PARA LA PRUEBA DE DW = i=2
DURVIN-WATSON n
∑r
2
i
i=2
VALOR DE DW INTERPRETACIÓN
131
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
3. El valor esperado de cualquier error es cero: E (ei ) = 0 , por ende, basta con
comprobar que la media de los errores sea cero.
4. La varianza de cada error es Var (ei ) = σ 2 ; razón por la cual todos lo errores
tienen la misma varianza (fenómeno denominado homosedasticidad).
5. Los errores tienen distribución normal, al igual que los valores de Y :
(
y i ~ N β 0 , β 1 xi , σ 2 )
El hecho de que los errores tengan una distribución normal, sean independientes,
estén idénticamente distribuidos, tengan media cero y varianza σ 2 , puede resumirse
en unas cuantas siglas: ei ~ NIID 0, σ 2 . ( )
C.3.2) Prueba ANOVA
HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0
Grados
Fuente de Cuadrados medios Estadístico
de Suma de cuadrados
variabilidad (varianza) de prueba
libertad
n
∑ ( yˆ − y )
n
SC r = ∑ ( yˆ i − y )
Debida al 2 2
i
modelo de 1
regresión
i =1
CM r = i =1
= SC r
1 CM r
n
Fc =
∑ (y − yˆ i )
n CM e
SC e = ∑ ( y i − yˆ i )
2 2
Inexplicada
(por error)
(n − 2) i =1 CM e = i =1
i
= S y2 x
(n − 2)
n
∑ (y − y)
n
SC t = ∑ ( y i − y )
2 2
Total (n − 1) i =1 CM t = i =1
i
= S y2
(n − 1)
El cual tiene una distribución F de Fisher con 1 grado de libertad en el numerador y
(n − 2) grados de libertad en el denominador y se compara con la correspondiente
región de rechazo cuya confiabilidad es (1 − α ) :
REGIÓN DE RECHAZO DE H 0 : β o = β1 = 0
132
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
F1(−1α, n − 2 )
HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0
∑ ( yi − yˆ i ) ∑ (y − y)
2 2
i
S y2 x = i =1
S y2 = i =1
(n − 2) (n − 1)
• Fórmulas de las cuales despejaremos las sumas de cuadrados para obtener
expresiones que denominaremos como 1 y 2:
1 2
n n
∑ ( yi − yˆ i ) = (n − 2)S y2 x ∑ (y − y ) = (n − 1)S y2
2 2
i
i =1 i =1
133
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
n n n
∑ ( yi − y ) = ∑ ( yˆ i − y ) + ∑ ( yi − yˆ i )
2 2 2
i =1 i =1 i =1
∑ ( yˆ − y )
2
n n n i
∑ ( yˆ − y ) = ∑ ( y − y ) − ∑ ( y i − yˆ i ) R2 = r 2 = i =1
2 2 2
i i n
i =1 i =1 i =1
∑ (y − y)
2
i
i =1
• Si las combinamos por medio de sus elementos comunes tenemos que otra
forma de calcular el coeficiente de determinación es:
n n
∑ ( yi − y ) − ∑ ( yi − yˆ i )
2 2
R2 = r 2 = i =1
n
i =1
∑ (y
i =1
i − y)
2
• Que se simplifica a:
n
∑ (y − yˆ i )
2
i
R2 = r 2 = 1− i =1
n
∑ (y
i =1
i − y)
2
a+c a c
Porque = +
b b b
• Sustituyamos ahora sus componentes con las expresiones que dedujimos con el
número 1 y 2:
(n − 2)S y2 x
r 2
= 1−
(n − 1)S y2
134
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Una vez que se obtenga el valor de S y x resta sustituir el resto de los elementos
(βˆ , (n − 1), S ) para calcular es estadístico de prueba t
1 x c y compararlo con la región
de rechazo correspondiente:
REGIÓN DE
RECHAZO DE 1-α
H 0 : β1 = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
Una vez se haya comprobado que el modelo ajustado yˆ = βˆ0 + βˆ1 x es adecuado,
pueden realizarse estimaciones sobre el valor de Y dado un valor de X , siempre y
cuando éste se encuentre en el rango que esta variable haya mostrado; es decir, que
no rebase su mínimo ni su máximo.
Es decir, el valor estimado para esta Y puede calcularse sustituyendo los valores de
βˆ0 , β̂1 y x0 .9
9
Aunque la operación no es tan complicada, las calculadoras científicas pueden obtener el valor estimado
con más precisión, habiendo ingresado los datos de ambas variables en la función estadística de regresión
lineal y aplicando la función ( ŷ ) o ( y ′)
135
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Como en todo intervalo, obtendremos dos valores límites (mínimo y máximo del
rango). He aquí graficados, como ejemplo, dichos valores de Y respecto a los valores
de xi :
170
160
150
140
V. máx. estatura
Altura de rodilla
V. real estatura
120 Altura de rodilla
40 42 44 46 48 50
160
Altura de rodilla
Por otro lado, se conoce como INTERVALO DE CONFIANZA al rango en el que, con
cierto grado de error, puede encontrarse la media de las Y cuando X = x 0 ; es decir:
µy x :
0
Como puede verse, tal expresión no difiere más que por un 1 con respecto a la
expresión para construir intervalos de predicción. Sin embargo, ello es suficiente los
intervalos de µ y x0 :
136
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
160 160
150
150
Estatura
140
170 160
160
150
V. máx. estatura
150
Altura de rodilla
V. mín. estatura
Altura de rodilla
140 140
V. máx. media estat
Altura de rodilla
Estatura
E. EJEMPLOS DE APLICACIÓN
ESTATURA PESO
1649 49.5
1635 57.5
1611 50.0
1622 53.5
1583 43.0
1613 57.5
1636 50.5
1650 56.0
1579 50.0
1568 50.0
1522 44.5
1554 48.0
1627 51.0
1535 46.0
137
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
1565 49.5
Comprobemos entonces si existe asociación lineal entre estas variables por medio de
un diagrama de dispersión y el coeficiente de correlación.
58
56
54
Peso jóvenes adultos
52
50
48
46
44
42
1520 1540 1560 1580 1600 1620 1640 1660
a.1) , Si bien en los valores más pequeños de la estatura puede verse una
asociación lineal clara con respecto al peso, conforme la estatura aumenta este
patrón no es tan claro
COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlación de Pearson nos indica una asociación
lineal directa considerable entre la estatura y el peso de esta población.
A continuación saquemos los datos necesarios para calcular los estimadores β̂ 1 y βˆ0
a fin de establecer el modelo de regresión.
DATOS GENERALES
n = 15 x = 1596.6000 y = 50.4333 s x = 41.5379 s y = 4.3006
n n
∑x y
i =1
i i = 1209525.000 ∑x
i =1
2
i = 38261129.00
138
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EXPRESIÓN PARA n
CALCULAR ∑x y i i − nx y
EL ESTIMADOR βˆ1 = i =1
n
β̂1 EXPRESIÓN ∑x 2
i − nx 2
PARA i =1
MODELO TEÓRICO y = β 0 + β1 x + e
MODELO AJUSTADO peso = −61.7390 + 0.0703estatura
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Ahora bien, para comprobar que el modelo ajustado es adecuado hay que verificar si
cumple con los criterios y supuestos:
139
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
afirmarse que sí existe una asociación significativa entre la estatura y el peso de los
jóvenes adultos de Cholula.
Veamos ahora un ejemplo muy parecido donde podamos aplicar el resto de los
criterios:
ESTATURA PESO
1674 58.5
1672 53.5
1710 58.0
1651 57.0
1702 58.0
1656 58.0
1672 56.5
1590 51.5
1612 56.0
1652 57.5
1594 51.5
1566 47.0
1645 54.5
1678 54.0
1740 62.0
140
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
d) Si es posible, realice una estimación puntual y por intervalos cuando la estatura del
adolescente es de 1700 mm.
64
62
60
Peso adolescentes
58
56
54
52
50
48
46
1500 1600 1700 1800
Estatura adolescentes
a.1) , Pese a la dispersión de algunos datos puede verse una asociación lineal entre
la estatura y el peso, así como se define una pendiente bastante grande.
COEFICIENTE DE PEARSON
r = 0.8382
a.2) , El coeficiente de correlación de Pearson señala una asociación lineal directa
fuerte entre la estatura y el peso de los adolescentes de Cholula.
141
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
que existe una asociación significativa entre la estatura y el peso de los adolescentes
de Cholula.
Y antes de verificar los otros dos criterios es necesario revisar si se cumplen los
supuestos sobre los errores:
SUPUESTOS
Valores fijos para X y Teóricamente sabemos que aunque dos personas
valores aleatorios para Y midan lo mismo, su peso puede diferir. En este caso
particular basta con señalar que existen dos
individuos con una estatura de 1672 milímetros, pero
mientras uno pesa 53.5 kilos, el otro pesa 56.5 kg.
Errores independientes Al aplicar la prueba de Durbin-Watson en el SPSS
obtenemos un valor de 1.922. Estando esté tan cerca
del 2 (DW ≈ 2 ) , podemos afirmar que los errores son
independientes.
Esperanza de los errores Según el SPSS, la media de los residuales no
estandarizados es cero; por tanto E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Peso adolescentes
1.00
Errores esperados acumulados
.75
.50
.25
0.00
0.00 .25 .50 .75 1.00
142
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Ahora sí pueden verificarse los criterios sobre los parámetros. Si bien aquí se aplicará
tanto la prueba ANOVA (mediante SPSS) como la prueba sobre la pendiente; debido a
la complejidad de la primera, en los siguientes ejemplos y en la práctica será suficiente
aplicar la segunda, ya que es en ella donde se comprueba si la variable independiente
es significativa para explicar la variabilidad de la dependiente.
3. PRUEBA ANOVA
HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0
Fuente de Grados Suma de cuadrados Cuadrados medios Estadístico
variabilidad de (varianza) de prueba
libertad
Debida al 1 SC r = 132.734 CM r = 132.734 Fc = 30.704
modelo de
regresión
Inexplicada 13 SC e = 56.199 CM e = 4.323
(por error)
Total 14 SC t = 189.933 CM t = 13.4953
REGIÓN DE RECHAZO DE H 0 : β o = β 1 = 0 Y UBICACIÓN DEL ESTADÍSTICO
4. PRUEBA DE LA PENDIENTE
HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2
143
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Por último resta hacer estimaciones, por ejemplo, para un individuo que pesa 1700
milímetros:
144
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎡ 1 (1700 − 1654.2667 ) ⎤
2
y 0 ∈ ⎢58.5232 ∓ 2.1614 ⋅ 2.0792 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 15 (15 − 1)(47.6302)2 ⎥⎦
y 0 ∈ [53.7429,63.3033]
, En esta población, el peso promedio de individuos una estatura de 1700 milímetros
está entre los 53.7 y los 63.3 kilogramos.
64
62
60
Peso adolescentes
58
56
54
52
50
48
46
1500 1600 1700 1800
Estatura adolescentes
145
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
1220
1200
1180
1160
Estatura total
1140
1120
1100
1080
1060
580 600 620 640 660 680
Estatura sentado
a.1) , Aunque existe una dispersión considerable, puede entreverse una asociación
lineal entre la estatura sentado y la estatura total de los niños.
COEFICIENTE DE PEARSON
r = 0.7344
a.2) , El valor del coeficiente de correlación de Pearson también indica una
asociación lineal directa entre estas variables.
146
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
afirmarse que sí hay una asociación significativa entre la estatura sentado y la estatura
total.
SUPUESTOS
Valores fijos para X y
valores aleatorios para Y
Errores independientes La prueba Durbin-Watson de SPSS arroja un valor de
1.928 (DW ≈ 2 ) , por tanto, los errores son
independientes.
Esperanza de los errores El SPSS señala que la media de los residuales no
estandarizados es cero; por lo cual se cumple que
E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Estatura total
1.00
Errores esperados acumulados
.75
.50
.25
0.00
0.00 .25 .50 .75 1.00
3. PRUEBA DE LA PENDIENTE
HIPÓTESIS
147
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−140−.025
2)
= ∓t 0(12
.975 = ∓2.1788
)
2 2 2
afirmar que la variable estatura sentado es significativa para explicar la estatura total
de los niños entre 6.7 y 7.6 años en esta población.
148
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1127.5461,1160.6063]
, Si un niño de esta población tuviera una estatura sentado de 630 milímetros, su
estatura total estaría entre los 1127.5461 y los 1160.6063 milímetros.
⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1080.1408,1208.0116]
, En esta población, la estatura total promedio de niños con una estatura sentado de
630 milímetros estaría entre los 1080.1408 y los 1208.0116 milímetros.
1220
1200
1180
1160
Estatura total
1140
1120
1100
1080
1060
580 600 620 640 660 680
Estatura sentado
149
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
EJERCICIOS DE REPASO
Altura de
42.5 43.2 50.0 48.0 49.3 44.9 45.7 50.4 46.0 45.0 43.4 37.5
rodilla
Estatura 145.0136.0 151.2 140.2 143.0 138.1 139.7 153.9 142.0 137.0 140.0 124.5
fuerza (kg.) 23 25 26 28 23 25 26 29 24 25 27 26 24 26 28
Resistencia 0.8 0.9 2.0 2.7 1.2 1.5 2.4 3.0 0.8 1.9 2.0 1.7 1.2 1.1 1.5
(min.)
Cigüeñas 39 50 25 36 18 31 27
150
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Niños 30 41 14 27 10 26 15
Padres 165.10 160.02 170.18 162.56 172.72 157.48 177.80 167.64 172.72 170.18 175.26 180.34
Hijos 172.72 167.64 172.72 165.10 175.26 167.64 172.72 165.10 180.34 170.18 172.72 177.80
X 12.5 15.3 17.4 16.9 16.3 18.3 20.2 20.7 13.8 12.7
Y 16.165 19.329 21.702 21.137 20.459 22.719 24.866 25.431 17.634 16.391
151
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Edad 56 42 72 36 63 47 55 49 38 42 68 60
Presión
sanguínea 147 125 160 118 149 128 150 145 115 140 152 155
X 3.2 4.6 7.5 8.4 6.3 2.4 7.2 3.9 4.7 9.1
Y 5.656 7.238 10.515 11.532 9.159 4.752 10.176 6.447 7.351 12.323
152
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
70 410 160
77 389 153
76 302 139
153
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Bioestadística
Práctica 1: Pruebas de Hipótesis
Se trabaja con la base de datos contenida en el archivo antropometria.sav la cual
contiene información sobre algunas características somatológicas de los alumnos de
Antropología Física de primer semestre en el ciclo 2003-1. Se presentan ejemplos y
actividades para que realicen los alumnos.
I. Una muestra. Suponiendo que los datos representan una muestra representativa de
los estudiantes de la ENAH de primer semestre en ese ciclo, ¿Es posible afirmar que la
edad promedio de los alumnos de este ciclo es menor de 21 años?
La hipótesis a contrastar es: Hinv : µ < 21 , por lo tanto las hipótesis estadísticas son:
H o : µ ≥ 21 vs. H a : µ < 21 . En SPSS se deberá seguir los siguientes pasos:
1. En el menú Analyze,
seleccionar Compare
Means y seleccionar One-
Sample T Test... como se
muestra en la figura.
2. En el cuadro de diálogo
introducir la variable edad y
el valor 21 como se muestra
en la figura y dar Ok.
154
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
para la diferencia µ − 21 viendo que el intervalo contiene sólo valores son positivos.
Por lo tanto se infiere que µ − 21 > 0 ⇒ µ > 21 . Por lo tanto, la hipótesis de
investigación no es correcta, ya que la media estadísticamente (p=.000) es mayor a 21.
T-Test
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
Edad exacta 62 22.8446 3.70024 .46993
One-Sample Test
Test Value = 21
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Edad exacta 3.925 61 .000 1.8446 .9049 2.7843
II. Ejercicio ¿Se puede inferir que los ingresos familiares promedio en la población de
estudio es mayor a $10,000?
III. Dos muestras independientes. ¿Es posible inferir que existen diferencias
significativas en las edades de los alumnos respecto al turno?. La hipótesis a contrastar
es:
H o : µ1 = µ2 vs. H a : µ1 ≠ µ 2
1. En el menú Analyze,
seleccionar Compare
Means y seleccionar
Independent-Samples T
Test...
2. En el cuadro de diálogo
introducir la variable edad
en el cuadro de variables a
contrastar. Se introduce la
variable turno en el cuadro
Grouping Variable. Dar
clic en botón Define
Groups. Como el grupo
matutino esta codificado
como 5 y el vespertino
como 8, se introducen estos
valores como
identificadores de los grupos 155
1 y respectivamente. Dar
clic en Continue y en Ok.
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Std. Error
Turno N Mean Std. Deviation Mean
Edad exacta Matutino 36 21.7368 3.41613 .56936
Vespertino 26 24.3785 3.58548 .70317
1. En el menú Analyze,
seleccionar Compare Means y
seleccionar Paired-Samples T
Test...
156
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
2. En el cuadro de variables
seleccionar las dos
circunferencias del brazo e
introducirlas al cudro
Paired_Variables: en Ok.
Std. Error
Mean N Std. Deviation Mean
Pair Circunferencia del
274.188 64 34.6817 4.3352
1 brazo relajado
Circunferencia del
286.063 64 37.9937 4.7492
brazo contraído
157
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
N Correlation Sig.
Pair Circunferencia del brazo
1 relajado & Circunferencia 64 .840 .000
del brazo contraído
Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair Circunferencia del brazo
1 relajado - Circunferencia -11.875 20.7865 2.5983 -17.067 -6.683 -4.570 63 .000
del brazo contraído
158
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
VII. Prueba ANOVA: Se desea saber si entre las mujeres existen diferencias
significativas en la estatura total respecto a la variable que agrupa la edad. Como se
tienen tres niveles de agrupación la hipótesis a probar es: H o : µ1 = µ2 = µ3 . En primer
lugar en SPSS seleccionaremos las mujeres, grupo codificado con el número 1 en la
variable sexo. De la opción Data damos click en la opción Select Cases y activamos la
opción If condition is satisfied, como se muestra en la pantalla siguiente:
En el cuadro Dependent
List: insertar la variable
estatura. En el cuadro
Factor: introducir la
variable grupo de edad.
Como resultado se
obtiene la tabla ANOVA, donde se observa que sig. = p = .231 > α = .05 , por lo tanto
no se rechaza la hipótesis nula, es decir las medias de la estatura en los tres grupos de
edad no son estadísticamente diferentes.
Oneway
ANOVA
Estatura Total
Sum of
Squares df Mean Square F Sig.
Between Groups 6887.515 2 3443.758 1.540 .231
Within Groups 67096.000 30 2236.533
Total 73983.515 32
160
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Si se hubiera rechazado la
hipótesis nula, tendríamos
que repetir la prueba
ANOVA y agregar la
prueba de contrastes
múltiples, , dando click en
el botón Post Hoc...,
seleccionar la prueba de
Tukey, dar click en
Continue y Ok.
VIII. Ejercicio
Resolver los problemas:
3. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Suponga
distribución normal en las poblaciones. Sea α=0.05
4. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de
Laguna Verde, tienen un efecto significativo sobre la fauna marina en la
región. Se dividieron al azar cuatro grupos de especimenes recién
nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el océano, completamente idénticos,
con excepción de la temperatura del agua. Seis meses después se
pesaron los especimenes. Los resultados (en libras) se dan en la tabla
siguiente:
Pesos de los especimenes
161
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
162
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Bioestadística
Práctica 2: Pruebas No paramétricas.
I. Con los datos del archivo antropometria. sav, aplicar la prueba χ 2 para ver
si existe relación entre el turno y el sexo de los estudiantes de primer año de
la licenciatura en Antropología Física.
1. En el menú Analyze se
selecciona la opción
Descrpitive Statistics,
escogiendo Crosstabs.
3. Se da clic en el botón
Statistics...
5. Dar Continue y Ok
163
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Cases
Valid Missing Total
N Percent N Percent N Percent
Sexo del Individuo * Turno 64 100.0% 0 .0% 64 100.0%
Count Tabla de
Turno contingencia o
Matutino Vespertino Total cruzada
Sexo del Individuo Femenino 24 9 33
Masculino 12 19 31
Total 36 28 64
Chi-Square Tests
Symmetric Measures
164
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
II. Prueba χ cuando se tienen los datos en una tabla de contingencia. En un estudio
2
sobre planificación familiar en el Estado de Hidalgo se aplico una encuesta para analizar los
posibles factores que influyen en el uso de anticonceptivos. En la siguiente tabla se
presentan las frecuencias observadas de las mujeres encuestadas en relación a su edad y si
usan algún método anticonceptivo
Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-19 8 11
20-24 33 23
25-29 31 30
30-34 22 22
35-39 25 18
40-49 14 40
¿Existe relación entre la edad y el uso de anticonceptivos?
III. Ejercicio: Existe relación entre la edad de los alumnos (grupo de edad) y el turno
de estudio, de la base antropometría.sav.
2. Introducir la variable
Ingresos familiares en el
cuadro Test Variable List.
Verifica que este activada la
opción Normal en Test
Distribution
Dar clic en OK.
166
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
V. Ejercicio: Usando el comando Split File, verificar si la variable estatura total tiene
distribución normal en hombres y mujeres por separado.
VI. Prueba del signo y Wilcoxon. . A 16 estudiantes se les aplicó un examen sobre estadística
elemental en un día caluroso. Ocho de ellos, seleccionados aleatoriamente, tomaron la prueba
en un salón sin aire acondicionado. Posteriormente, después de un intermedio corto,
terminaron un examen en un salón con aire acondicionado. Con los otros ocho estudiantes se
invirtió este procedimiento:
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Sin aire 52 90 63 74 87 77 92 72 77 94 67 86 78 84 57 55
Con aire 49 94 60 78 93 77 93 74 78 93 78 89 92 83 49 68
¿Proporciona la muestra razón suficiente para concluir que la utilización del aire
acondicionado en un día caluroso influye sobre las calificaciones del examen?
1. Capturamos la información en dos variables de SPSS llamadas Sin Aire y Con Aire.
Sign Test
168
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Frequencies
N
Sin Aire - Con Aire Negative Differencesa 5
Positive Differencesb 10
Ties c 1
Total 16
a. Sin Aire < Con Aire
b. Sin Aire > Con Aire
c. Con Aire = Sin Aire
VI. Ejercicio: Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas interesadas en bajar
de peso, registrándose el peso de cada persona antes y después del tratamiento,
presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
Usar las pruebas del signo y de Wilcoxon para inferir si es que hubo una disminución
significativa en el peso de las personas.
169
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
2. Introducir la variable
Panículo del Tríceps en
el cuadro Test Variable
List. Introducir la
variable sexo al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 2.
Verificar que este
activado la opción
Mann-Whitney U
Dar clic en OK
Test Statisticsa
170
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
1. Como queremos
realizar el análisis en
cada sexo, usamos la
opción Split del
menú Data, e
introducimos la
variable sexo
activando la opción
indicada.
2. Introducir la variable
Estatura total en el
cuadro Test Variable
List. Introducir la
variable gedad al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 3.
Verificar que este 171
activado la opción
Kruskal-Wallis H.
Dar clic en OK
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Test Statisticsa,b,c
Estatura Total
En Mujeres se encuentra un valor de
Chi-Square 2.186 p=.335>0.05, lo cual implica que no se
df 2 rechaza la hipótesis nula. Es decir, no
Asymp. Sig. .335 existe diferencia en la estatura respecto
a. Kruskal Wallis Test a la edad.
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Femenino
Test Statisticsa,b,c
En Hombres se encuentra un valor de
Estatura Total p=.142>0.05, lo cual implica que no se
Chi-Square 3.905 rechaza la hipótesis nula. Es decir, no
df 2 existe diferencia en la estatura respecto
Asymp. Sig. .142
a la edad.
a. Kruskal Wallis Test
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Masculino
172
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
173
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Bioestadística
Práctica 3: Análisis de Regresión
2. Introducir la
sentencia sexo=1 en
el cuadro de dialogo
y dar clic en
Continue y luego
en Ok. Los casos de
hombres aparecen
tachados.
3. Investigaciones en
somatología postulan
que existe asociación
lineal entre estatura y
altura a la rodilla.
Ajustaremos un
174
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
modelo con los datos de los alumnos de primer año de antropología física. Del menú
Analyze seleccionar Regression y después Linear.
4. Introducir la variable
Estatura Total en el
cuadro Dependent: y
Altura de Rodilla en
Independent
Variables Variables
Model Entered Removed Method
1 Altura de
a . Enter
Rodilla
a. All requested variables entered.
b. Dependent Variable: Estatura Total
Coeficiente de
Model Summary Correlación
Adjusted Std. Error of
Model R R Square R Square the Estimate Coeficiente de
1 .883a .781 .773 22.5010 Determinación
a. Predictors: (Constant), Altura de Rodilla
175
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
ANOVAb
Sum of
Probando la
Model Squares df Mean Square F Sig.
1 Regression 54009.207 1 54009.207 106.676 .000a hipótesis:
Residual 15188.793 30 506.293 H 0 : β 0 = β1 = 0
Total 69198.000 31
a. Predictors: (Constant), Altura de Rodilla
b. Dependent Variable: Estatura Total
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients Probando la
Model B Std. Error Beta t Sig. hipótesis
1 (Constant) 687.316 87.997 7.811 .000 H 0 : β1 = 0
Altura de Rodilla 1.833 .177 .883 10.328 .000
a. Dependent Variable: Estatura Total
6. Introducimos las
variables Estatura
Total y Altura de
Rodilla en el cuadro
de diálogo, damos
Ok
176
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Correlations
Altura de
Estatura Total Rodilla
Estatura Total Pearson Correlation 1 .883** Valor de r.
Sig. (2-tailed) . .000 Probando la hipótesis
N 33 32 H0 : ρ = 0
Altura de Rodilla Pearson Correlation .883** 1
Sig. (2-tailed) .000 .
N 32 32
**. Correlation is significant at the 0.01 level (2-tailed).
6. Repetimos el paso
4, pero ahora antes de
dar clic en Ok, damos
en Plots...
7. Activamos la gráfica
de probabilidad normal e
introducimos la variable
dependiente y los errores
estandarizados
.50
deberán estar
sobre la recta. Se
observan
.25
pequeñas
desviaciones de la
0.00 normalidad, sin
0.00 .25 .50 .75 1.00 embargo se puede
considerar como
Observed Cum Prob valido este
supuesto.
177
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
comportarse de
2 manera aleatoria en
un rango en el eje
1 Y de -3 a 3, tal
como se observa en
0
la gráfica. Por lo
tanto se puede dar
como válido el
-1
supuesto.
-2
1500 1600 1700 1800
Estatura Total
1. Con la misma base de datos y con las mujeres seleccionados ajustaremos un modelo
considerando como variable dependiente el peso y como independiente la estatura total,
el panículo del tríceps, la circunferencia del brazo relajado y el perímetro de la cintura.
2. En el menú de
Linear Regresión
Linear introducir las
variables como se
muestra en el cuadro.
3. Seleccionar en
Method la opción
Stepwise (paso a
paso) de selección de
variables.
4. En el menú Plots...
seleccionar las
gráficas como en el
caso del modelo de
regresión lineal
simple. Dar Ok.
178
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
179
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Model Summaryd
ANOVAd
Sum of
Model Squares df Mean Square F Sig.
1 Regression 2756.042 1 2756.042 89.107 .000a
Residual 927.888 30 30.930
Total 3683.930 31
2 Regression 3056.169 2 1528.085 70.591 .000b La prueba
Residual 627.760 29 21.647 de que
Total 3683.930 31
3 Regression 3221.128 3 1073.709 64.961 .000c
todos los
Residual 462.802 28 16.529 β ’s son
Total 3683.930 31 cero.
a. Predictors: (Constant), Perímetro de Cintura H 0 : β 0 = β1 = β 2 = β3 = 0
b. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -18.969 8.339 -2.275 .030
Perímetro de Cintura .103 .011 .865 9.440 .000
2 (Constant) -31.011 7.690 -4.033 .000
Perímetro de Cintura 6.334E-02 .014 .533 4.531 .000
Circunferencia del
.161 .043 .438 3.724 .001
brazo relajado
3 (Constant) -107.149 25.020 -4.283 .000
Perímetro de Cintura 5.158E-02 .013 .434 4.039 .000 Los coeficientes
Circunferencia del
.146 .038 .397 3.832 .001
estimados
brazo relajado
Estatura Total 5.586E-02 .018 .250 3.159 .004
βˆ0 , βˆ1, βˆ2 , βˆ3
a. Dependent Variable: Peso Corporal
180
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Excluded Variablesd
Collinearity
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
Variables
1 Estatura Total .288a 3.023 .005 .490 .729 excluidas en
Panículo del Tríceps .144a 1.398 .173 .251 .764 cada paso.
Circunferencia del a
.438 3.724 .001 .569 .425
brazo relajado
2 Estatura Total .250b 3.159 .004 .513 .718
Panículo del Tríceps -.166b -1.370 .182 -.251 .389
3 Panículo del Tríceps -.128c -1.191 .244 -.223 .384
a. Predictors in the Model: (Constant), Perímetro de Cintura
b. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal
Residuals Statisticsa
Charts
Normal P-P Plot of Regression Stand
Dependent Variable: Peso Corporal
1.00
.75
Expected Cum Prob
.50
.25
0.00
0.00 .25 .50 .75 1.00
181
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
Scatterplot
Dependent Variable: Peso Corporal
3
Regression Standardized Residual
-1
-2
-3
40 50 60 70 80 90 100
Peso Corporal
182
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
183