Vous êtes sur la page 1sur 183

BIOESTADÍSTICA 

Para Antropólogos Físicos 
 
José Luis Castrejón y Diana Troncoso 
[Seleccionar fecha] 

Notas para el curso de Bioestadística impartido en el segundo semestre de la licenciatura en 
Antropología Física de la Escuela Nacional de Antropología e Historia. Versión preliminar. 
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UNIDAD I
Introducción

Como su nombre lo dice, el objetivo principal de la ESTADÍSTICA INFERENCIAL es


inferir los PARÁMETROS POBLACIONALES; es decir, a partir de una muestra
aleatoria, establecer con la mayor probabilidad posible los valores desconocidos de la
población estudiada; por ejemplo; la media µ , proporción p o varianza σ 2 .
Generalmente, el investigador puede plantear hipótesis sobre los parámetros; por
ejemplo:

HIPÓTESIS LITERAL HIPÓTESIS ESTADÍSTICA


DEL INVESTIGADOR DEL INVESTIGADOR
La proporción de personas en la ENAH que usan H inv : p < 0.20
lentes es menor a 0.2
La proporción de personas que acostumbran H inv : p = 0.60
consumir comida rápida es de 0.60.
La proporción de personas con obesidad en la
delegación Benito Juárez es mayor que en la H inv : p BJ > p MA
delegación Milpa Alta.
La media de la estatura en las mujeres estudiantes de H inv : µ < 165
la ENAH es menor a 165 cm.
La media del “número de minutos diarios que se usa
el automóvil” en la Ciudad de México es mayor que H inv : µ DF > µ Mer
en la ciudad de Mérida.

Empero, es tarea de la estadística inferencial determinar si estas hipótesis son válidas


o no, mediante alguna de las siguientes técnicas:

1. ESTIMACIÓN:
a) Puntual: En la cual, a partir de los datos de una muestra y la distribución
probabilística de la variable, se estima un valor para el parámetro.
b) Por intervalos: A través de la cual, partiendo de la información de la muestra y
la distribución probabilística de la variable, se define un rango de valores entre
los cuales probablemente se encuentra el del parámetro.

2. PRUEBAS O CONTRASTES DE HIPÓTESIS: Estrategia que, utilizando los datos


de la muestra y la distribución probabilística de la variable, define la probabilidad
de cometer un error en la estimación y se determina una región de rechazo para la
hipótesis.

ESTIMACIÓN PUNTUAL

Sea θ la letra con la que se denota un parámetro poblacional. Si se toma una muestra
aleatoria de tamaño n ( X 1 , X 2 , X 3 ,..., X n ) , θˆ es una función de los valores de la
muestra: θˆ = f ( X 1 , X 2 , X 3 ,..., X n ) ; es decir, θˆ es un estimador puntual de θ .

A. MÉTODO PARA HALLAR ESTIMADORES PUNTUALES

Existen diversos procedimientos para encontrar estimadores puntuales θˆ de los


parámetros poblacionales θ ; por ejemplo: el método de momentos, el de mínimos

2
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

cuadrados y el de función de verosimilitud. Por el momento, revisemos sólo éste


último:

A.1) MÉTODO DE FUNCIÓN DE VEROSIMILITUD

Si X 1 , X 2 , X 3 ,..., X n son los datos de una muestra aleatoria que se obtuvo de cierta
población cuya función de probabilidad es P ( x ) , la función de verosimilitud de la
muestra es L( X 1 , X 2 , X 3 ,..., X n ) = P( X 1 )P( X 2 )P( X 3 )...P( X n ) . Por ello, este método
de estimación consiste en encontrar el valor del parámetro θ donde la función
L( X 1 , X 2 , X 3 ,..., X n ) alcance su máximo; es decir, hay que calcular la derivada de
dL
, igualarla a cero y despejar θ . Veamos, algunos ejemplos de esto:

A.1.1) Estimador del parámetro λ

Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población donde la variable X tiene distribución poisson con parámetro λ [X~P( λ )].
¿Cuál es el mejor estimador de éste parámetro?

• Sabemos que la distribución de la variable X es:


e −λ λx
P(x ) =
x!

• Por ende, cada X i tiene tal distribución:


−λ
e − λ λx1 P ( x ) = e λ
x2
e − λ λx 3 e − λ λx n
P(x1 ) = , 2 , P ( x3 ) = ,…, P ( xn ) =
x1! x2! x3! xn!

• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la


función de verosimilitud de esta variable es:
e − λ λx1 e − λ λx 2 e − λ λx3 e − λ λx n
L( X 1 , X 2 , X 3 ,..., X n ) = ⋅ ⋅ ⋅
x1! x2! x3! xn !

• Lo cual puede abreviarse a:


e − λn ⋅ λ x1 + x2 + x3 +...+ xn
L=
x1 ⋅ x 2 ⋅ x3 ⋅ ... ⋅ x n !

• Y ello reducirse en:


n

∑ xi
e −λn ⋅ λ i =1
L=
π ⋅ xi !
n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1

3
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ xi ⎞
n

⎜ − λn ∑ ⎟
e ⋅λ i =1

ln L = ln⎜ ⎟
⎜ π ⋅ xi ! ⎟
⎜ ⎟
⎝ ⎠
⎛a⎞
Como: ln⎜ ⎟ = ln a − ln b
⎝b⎠
⎛ xi ⎞
n

⎜ ∑ ⎟
ln L = ln⎜ e −λn ⋅ λ i =1 ⎟ − ln (π ⋅ xi !)
⎜ ⎟
⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b :
⎛ ∑ xi ⎞
n

ln L = ln (e ) + ln⎜⎜ λ i =1 ⎟
⎟⎟ − ln (π ⋅ xi !)
− λn


⎝ ⎠
Como: ln e x = x ln x y = y ln x
n
ln L = −λn + ∑ xi ⋅ ln λ − ln (π ⋅ xi !)
i =1

• Y obtener la derivada:
d ln L dλ n d ln λ d ln (π ⋅ xi !)
= −n + ∑ xi −
dλ dλ i =1 dλ dλ
dcf ( x ) cdf ( x ) d ln x 1 dc
Como: = = =0
dx dx dx x dx
n
dL 1
= − n + ∑ xi − 0
dλ i =1 λ

• Igualando a cero, el parámetro λ se convierte en estimador λ̂ y resta despejarlo:


n

∑x i
−n+ i =1
=0
λˆ
n n

∑ xi ∑x
n
= nλ̂ ∑x i
x = λ̂
i =1
=n i =1
i i =1
= λ̂
λ̂ n

Y así sabemos que al tener una variable aleatoria con distribución poisson [X~P( λ )],
el estimador de máxima verosimilitud del parámetro λ es la media muestral x .

4
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

A.1.2) Estimador del parámetro p

Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población, donde la variable X tiene distribución bernoulli con parámetro p
[X~Be( p )]. ¿Cuál es el mejor estimador de éste parámetro?

• Sabemos que la distribución de la variable X es:


P(x ) = p x (1 − p )
1− x
; x = 0,1

• Por ende, cada X i tiene tal distribución:


P( x1 ) = p x1 (1 − p ) , P(x 2 ) = p (1 − p )1− x , P ( x3 ) = p (1 − p )1− x ,… P( x n ) = p (1 − p )1− x
1− x1 x2 2 x3 3 xn n

• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la


función de verosimilitud de esta variable es:
L = P(x1 ) = p x1 (1 − p ) ⋅ P( x 2 ) = p x2 (1 − p ) ⋅ P( x3 ) = p x3 (1 − p ) ⋅ P( x n ) = p xn (1 − p )
1− x1 1− x2 1− x3 1− xn

• Lo cual puede abreviarse a:


(1 − p )1− x +1− x +1− x +...+1− x
x1+ x2 + x3 +...+ xn
L= p 1 2 3 n

• Y ello reducirse en:


n

∑ xi n

∑ xi
L= p i =1
(1 − p ) n−
i =1

n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1

• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ ∑ xi ⎞
n

⎜ n − xi ⎟
n

ln L = ln⎜ p i =1 (1 − p ) ∑ i =1
⎟⎟

⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b
n

∑ xi ∑ xi
n

+ ln (1 − p )
n−
ln L = ln p i =1
i =1

Como: ln x = y ln x
y

n
⎛ n

ln L = ∑ xi ln p + ⎜ n − ∑ xi ⎟ ln(1 − p )
i =1 ⎝ i =1 ⎠

• Y obtener la derivada:
d ln L n
1 ⎛ n
⎞ 1
= ∑ xi ⋅ + ⎜ n − ∑ x i ⎟ ⋅
dp i =1 p ⎝ i =1 ⎠ (1 − p )

5
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎛n n

∑ xi ⎜ n − ∑ xi ⎟
+⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
Y se multiplica por menos 1, por ende
⎛ n n

⎜ n − ∑ xi ⎟
∑ xi
−⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
• Igualando a cero, el parámetro p se convierte en estimador p̂ y resta despejarlo:
n
⎛ n

∑ xi ⎜ n − ∑ xi ⎟
i =1
−⎝ i =1 ⎠ =0
pˆ (1 − pˆ )
n
⎛ n

∑ xi ⎜ n − ∑ xi ⎟
=⎝ ⎠
i =1 i =1

pˆ (1 − pˆ )
(1 − pˆ )∑ xi = pˆ ⎛⎜ n − ∑ xi ⎞⎟
n n

i =1 ⎝ i =1 ⎠
n n n

∑x
i =1
i − pˆ ∑ xi = pˆ n − pˆ ∑ xi
i =1 i =1
n

∑x
n
= pˆ n ∑x i
x = pˆ
i =1
i i =1
= pˆ
n

Y así también descubrimos que al tener una variable aleatoria con distribución
bernoulli [X~Be( p )], el estimador de máxima verosimilitud del parámetro p es la
media muestral x .

B. PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR

B.1) PROPIEDADES GENERALES

a) INSESGAMIENTO
Si θˆ es un estimador del parámetro poblacional θ , se dice que θˆ es insegado si
()
E θˆ = θ . Por el contrario, si θˆ es un estimador sesgado de θ , se define el sesgo
()
de θˆ como Sesgo θˆ = E θˆ − θ .()
b) SUFICIENCIA
Se dice que un estimador θˆ de θ es suficiente cuando su cálculo involucra toda la
información de una muestra.

c) MÍNIMA VARIANZA
Se dice que θˆ1 es un estimador de mínima varianza de θ si para cualquier otro
estimador θˆ2 se cumple que la varianza del primero es menor que la del segundo:
Var (θˆ1 ) < Var (θˆ2 ) .

6
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

d) EFICIENCIA
Siendo θˆ1 y θˆ3 dos estimadores insesgados de θ , se dice que θˆ1 es más eficiente
( )
si su varianza es menor a la de θˆ3 : Var θˆ1 < Var θˆ3 . ( )
e) CONSISTENCIA
Se dice que un estimador θˆ de θ es consistente si, cuando n es grande
( )
(n → N ) , θˆ tenderá a θ θˆ → θ , siendo su diferencia muy pequeña. Esto debido
a que si E > 0 , E es muy pequeño y Lim P(θˆ − θ
n→ N
)
< E = 1.

B.2) COMPROBACIÓN DE LAS PROPIEDADES

Veamos entonces, mediante algunos ejemplos, cómo se comprueba si un estimador


cumple con estas propiedades y el porqué son tan importantes:

La media poblacional µ es un parámetro que se calcula con la siguiente expresión:

∑X i
µ= i =1

Si X 1 , X 2 , X 3 ,..., X n es una muestra aleatoria y E ( xi ) = µ , tres estimadores posibles


para aproximarse a su valor serían:

x1 + x 2 + x3 x1 + x n x1 + x 2 + x3 + ... + x n
µˆ 1 = µˆ 2 = µˆ 3 =
2 2 n

¿Cumplen estos tres estimadores con las propiedades antes mencionadas?

PROPIEDAD ESTIMADOR µ̂1


⎛ x + x 2 + x3 ⎞
E (µˆ 1 ) = E ⎜ 1 ⎟ = E ( x1 + x 2 + x3 )
1
⎝ 2 ⎠ 2
INSESGAMIENTO
= [E ( x1 ) + E ( x 2 ) + E ( x3 )] = [µ + µ + µ ]
1 1
E (θˆ ) = θ 2 2
3µ 3
= [3µ ] =
1
= µ
2 2 2
Como podemos ver, el estimador µ̂1 no es insesgado, puesto que su esperanza es

igual a E (µˆ 1 ) =
3
µ . El sesgo de este estimador es:
2
µ
Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ = Sesgo(θˆ ) =
3 3 2 1
SESGO
2 2 2 2 2

PROPIEDAD ESTIMADOR µ̂ 2

7
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎛ x + xn ⎞
E (µˆ 2 ) = E ⎜ 1 ⎟ = E ( x1 + x n ) =
1
INSESGAMIENTO ⎝ 2 ⎠ 2
E (θˆ ) = θ 1
[E (x1 ) + E (x n )] = 1 [µ + µ ] = 1 [2µ ] = 2µ = µ
2 2 2 2
µ̂ 2 es un estimador insesgado de µ porque su esperanza es E (µˆ 2 ) = µ .
SUFICIENCIA x +x
( X 1 + X 2 + X 3 + ... + X )n µˆ 2 = 1 n
2
µ̂ 2 no es un estimador suficiente, pues su cálculo sólo echa mano de sólo 2 datos de
la muestra aleatoria y no del resto de la información obtenida.

PROPIEDAD ESTIMADOR µ̂ 3
⎛ x + x 2 + x3 + ... + x n ⎞
E (µˆ 3 ) = E ⎜ 1 ⎟
⎝ n ⎠
= E ( x1 + x 2 + x3 + ... + x n )
1
n
INSESGAMIENTO
= [E ( x1 ) + E (x 2 ) + E ( x3 ) + ... + E ( x n )]
1
E (θˆ ) = θ n
= [µ + µ + µ + ... + µ ]
1
n

= [nµ ] =
1

n n
µ̂ 3 es un estimador insesgado de µ pues su esperanza es E (µˆ 3 ) = µ .
SUFICIENCIA X 1 + X 2 + X 3 + ... + X n
( X 1 + X 2 + X 3 + ... + X )n µˆ 3 =
n
Asimismo, µ̂ 3 es un estimador suficiente ya que utiliza todos los datos de la muestra
aleatoria.

Ahora bien, comparemos algunas varianzas de tres parámetros:

σ3 σ2

σ1

PROPIEDAD VARIANZA DE ESTIMADORES


MÍNIMA VARIANZA Var (θˆ1 ) < Var (θˆ2 )
La varianza del estimador θˆ1 es menor que la del estimador θˆ2 , razón por la cual θˆ1
tiene una mínima varianza.
EFICIENCIA Var (θˆ1 ) < Var (θˆ3 )

8
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Siendo los dos insesgados, la varianza del estimador θˆ1 es menor que la del
estimador θˆ3 , razón por la cual θˆ1 cumple con las propiedades de mínima varianza y
eficiencia.

C. ESTIMADORES APROPIADOS MÁS COMUNES

Aunque es recomendable encontrar el estimador adecuado a través de un método y


comprobar que cumpla con todas las propiedades, la teoría estadística afirma que los
mejores estimadores para los siguientes parámetros son:

PARÁMETRO ESTIMADOR
N n

MEDIA ∑ Xi MEDIA ∑X i
POBLACIONAL µ= i =1 MUESTRAL x= i =1

N n
N n

VARIANZA ∑ (x i − µ)
2
VARIANZA ∑ (x i − x)
2

POBLACIONAL σ2 = i =1 MUESTRAL s2 = i =1

N n −1
n
Pues este
estimador es
∑ (x i − x)
2

sesgado: s2 = i =1

n
PROPORCIÓN p=M PROPORCIÓN pˆ = m
POBLACIONAL N MUESTRAL n

INTERVALOS DE CONFIANZA y CONTRASTE DE HIPÓTESIS

A. INTERVALOS DE CONFIANZA

A comparación de la estimación puntual, la construcción de intervalos es una técnica


que permite al investigador proponer un rango de valores entre los cuales puede
hallarse, con cierto grado de confianza (y por ende, de error) el del parámetro
poblacional θ .
Otra ventaja de esta metodología es que, para calcular los valores L1 y L2 del intervalo
L1 < θ < L2 , la expresión para su construcción echa mano del tipo de distribución que
tiene la variable en la población y de algunos datos obtenidos de la muestra, como
( )
son: su tamaño (n ) , desviación estándar (s ) o varianza s 2 y, según el caso, su
media (x ) o proporción ( p̂ )

B. CONTRASTE DE HIPÓTESIS

Sin duda alguna, ésta es una de las metodologías que más utiliza la estadística para
contrastar cualquier hipótesis que el investigador haya planteado sobre los parámetros
de una o más poblaciones, o bien, sobre relaciones entre variables.

B.1) FUNDAMENTOS

Habiendo planteado el valor hipotético µ 0 en la hipótesis del investigador H inv , se


plantean dos hipótesis más: la HIPÓTESIS ALTERNATIVA H a y la HIPÓTESIS

9
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

NULA H 0 , que siempre incluye en su planteamiento algún signo de igualdad (=, ≤, ≥ )


y que es casi siempre opuesta a lo que plantea la hipótesis del investigador H inv :

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : θ ≠ θ 0 H 0 :θ = θ0 H a :θ ≠ θ0
H inv : θ < θ 0 H 0 :θ ≥ θ0 H a :θ < θ0
H inv : θ > θ 0 H 0 :θ ≤ θ0 H a :θ > θ0

Si bien en los intervalos de confianza basta comparar el valor hipotético µ 0 propuesto


en la hipótesis del investigador H inv contra el intervalo de confianza obtenido con
(1 − α ) por ciento de confianza, la técnica de contraste de hipótesis consiste, ya no en
confirmar o no la hipótesis del investigador H inv , sino en contrastar el resultado con la
hipótesis nula H 0 .

B.2) ERRORES POSIBLES Y SU CONTROL

Dada una hipótesis nula H 0 que puede ser verdadera o falsa (no lo sabemos), el
procedimiento de contraste de hipótesis nos lleva a rechazarla o no. Sin duda alguna,
como investigadores quisiéramos rechazar una hipótesis nula H 0 falsa y no rechazar
una hipótesis nula H 0 verdadera, pero existen las posibilidades contrarias, a las
cuales se denominan errores:

HIPÓTESIS NULA H 0 VERDADERA FALSA


SE RECHAZA ERROR TIPO I 9
NO SE RECHAZA 9 ERROR TIPO II

La probabilidad de cometer el ERROR TIPO I es conocido como la SIGNIFICANCIA


de la prueba y se denota por α . A partir de ello tenemos que:

α = P (error tipo I)

α = P (rechazar H 0 dado que H 0 es verdadera )

α = P (rechazar H 0 | H 0 es verdadera )

En general, la significancia α es desconocida, así que el investigador la fija. Como de


ella depende la probabilidad de cometer el error tipo I, se busca que sea pequeña; de
ahí que los valores más comunes para la significancia α sean:

PROBABILIDAD DE
VALOR DE α RAMA DE USO MÁS COMÚN
ERROR TIPO I
α = 0.001 0 .1 % Medicina y campo experimental.
α = 0.01 1 .0 % Antropología física.
α = 0.05 5 .0 % Antropología física.
α = 0 .1 10.0% Ciencias sociales.

10
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Ahora bien, se define al ERROR TIPO II como la POTENCIA de la prueba y se le


denota con la letra β , según lo cual:

β = P (error tipo II)

β = P (no rechazar H 0 dado que H 0 es falsa )

β = P (no rechazar H 0 | H 0 es falsa )

A diferencia de α , el valor de β está fuera del control del investigador y sólo puede
reducírsele aumentando el tamaño de la muestra. Por ello es que, como veremos más
adelante, se sabe que las pruebas no paramétricas son menos potentes que las
pruebas paramétricas, cuyo valor de β es más pequeño.

B.3) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO

Con respecto a la significancia α , cabe mencionar que su valor también determina la


región de rechazo de la hipótesis nula H 0 . Si ésta incluye una igualdad H 0 : µ = µ 0 ,
la región de rechazo, como en los intervalos de confianza, se divide en dos, motivo por
el cual se le denomina prueba de dos colas o bilateral. Por el contrario, si la hipótesis
nula H 0 contiene los signos ≤ o ≥ , ( H 0 : µ ≤ µ 0 , H 0 : µ ≥ µ 0 ), la región de rechazo
queda sólo de un lado, contrario al que señala el signo de mayor o menor:

ESTIMACIÓN DE LA MEDIA POBLACIONAL µ

A. INTERVALO DE CONFIANZA

A.1) EN POBLACIONES CON DISTRIBUCIÓN NORMAL

Si la variable aleatoria tiene una distribución normal con media µ y varianza σ 2 ,


sabemos que la expresión para estandarizarla es:

x−µ
Z= ~ N (0,1)
σ
n

De acuerdo a esta fórmula, el intervalo estaría entre dos valores: − Z y Z , rodeados


por un área, denotada por α , que delimita la confianza del intervalo.
Si 1 es el área debajo de la curva, entonces el intervalo de confianza puede
especificarse como 1 − α y el α de cada cola es igual a α .
2

11
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

1-α

α/2 α/2

Partiendo de esto tenemos que la probabilidad del valor del parámetro estandarizado
Z está entre − Z 1−α y Z 1−α :
2 2

⎛ ⎞
⎜ ⎟
− µ
P⎛⎜ − Z 1−α < Z < Z 1−α ⎞⎟ = 1 − α
x
QUE P⎜ − Z 1−α < < Z 1−α ⎟ = 1 − α
⎝ 2 2 ⎠ IMPLICA ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠

Pero no olvidemos que el punto es encontrar un intervalo de confianza al (1 − α ) por


ciento de confianza para la media µ , por lo cual hay que despejar su valor de la
anterior expresión:

⎛ ⎞
⎜ ⎟
⎜ xi − µ
Expresión de probabilidad para el P − Z 1−α < < Z 1−α ⎟
intervalo de confianza. ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠
Se deja sola a X y µ al pasar ⎛ σ σ ⎞
P⎜ − Z 1−α ⋅ < xi − µ < Z 1−α ⋅ ⎟
multiplicando su divisor. ⎝ 2 n 2 n⎠
⎛ σ σ ⎞
Se despeja µ al mover a X. P⎜ − xi − Z 1−α ⋅ < − µ < − xi + Z 1−α ⋅ ⎟
⎝ 2 n 2 n⎠
Se multiplica por -1 para hacer ⎛ σ σ ⎞
positivo el valor de µ, lo cual P⎜ xi + Z 1−α ⋅ > µ > xi − Z 1−α ⋅ ⎟
invierte la desigualdad a “mayor ⎝ 2 n 2 n⎠
que”.
Se invierten los valores de límites ⎛ σ σ ⎞
para recuperar una desigualdad P⎜ xi − Z 1−α ⋅ < µ < xi + Z 1−α ⋅ ⎟
“menor que”. ⎝ 2 n 2 n⎠
⎛ σ ⎞
Se abrevia la expresión. P⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠

De esta forma tenemos que, el intervalo al (1 − α ) por ciento de confianza para µ


cuando la población tiene distribución normal es:

⎛ σ ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠

12
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

El problema de esta expresión para determinar el intervalo de µ es que supone


conocer σ ; valor cuyo cálculo, por sí mismo, requiere el dato de µ que estamos
estimando:
N

∑ (x − µ)
2
i
σ= i =1

Ante esta incoherencia, la opción es sustituir σ por su estimador puntual s :

∑ (x − x)
2
i
s= i =1

n −1

Pero ese simple detalle, cuando la población es pequeña (n < 30 ) , implica también un
cambio en la distribución, que deja de ser normal y se convierte en t de student con
n − 1 grados de libertad (g.l.):
x − µ (n-1)
t= ~t
s
n

Por tal motivo, la expresión para encontrar el intervalo al (1 − α ) por ciento de


confianza para µ cuando la población tiene distribución normal queda como:

EXPRESIÓN PARA ENCONTRAR UN INTERVALO AL


⎛ s ⎞
(1 − α ) POR CIENTO DE CONFIANZA PARA µ CUANDO µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
LA POBLACIÓN TIENE DISTRIBUCIÓN NORMAL. ⎝ 2 n⎠
Donde x es la media muestral, t1(−nα−1) es el valor en tablas de la t de student con

(1 − α 2 ) por ciento de confianza y


2

n − 1 grados de libertad (g.l.), s la desviación


estándar de la muestra y n es el tamaño de la muestra.

A.2) EN POBLACIONES CON DISTRIBUCIÓN DESCONOCIDA

Si se desconoce la distribución de variable aleatoria con media µ y varianza σ 2 , pero


se tiene una muestra grande (n > 30 ) , de acuerdo al Teorema Central de Límite puede
asumirse que la variable tiene una distribución aproximadamente normal. Debido a
ello, la expresión para calcular el intervalo al (1 − α ) por ciento de confianza para µ
cuando se tiene una muestra grande de una población con distribución desconocida
es:

EXPRESIÓN PARA ENCONTRAR UN INTERVALO AL


(1 − α ) POR CIENTO DE CONFIANZA PARA µ CUANDO ⎛
µ ∈ ⎜ xi ∓ Z 1−α ⋅
s ⎞

LA POBLACIÓN TIENE DISTRIBUCIÓN DESCONOCIDA ⎝ 2 n⎠
PERO n > 30

13
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Donde x es la media muestral, Z 1−α es el valor en tablas de la distribución normal

( ) por ciento de confianza, s la desviación estándar de la muestra y n es el


2

con 1 − α
2
tamaño de la muestra.

A.3) EJEMPLOS DE ESTIMACIÓN

1. Supongamos que la variable “estatura” de las mujeres estudiantes de la ENAH


sigue una distribución aproximadamente normal. Los siguientes datos (en centímetros)
corresponden a una muestra aleatoria de la población:

160.5 181 158 152 170 164 160 167 160


152 160 153 157 155 155 156 170 158

¿Es posible concluir que la media µ de la población es menor a 165 cm? Construir un
intervalo de confianza para µ al 95%.

DATOS GENERALES
X~N(µ,σ) n = 18 x = 160.47 s = 7.52
HIPÓTESIS
H inv : µ < 165
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975

EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t .17975 = 2.1098
2 2

⎛ 7.52 ⎞
APLICACIÓN µ ∈ ⎜160.47 ∓ 2.1098 ⋅ ⎟ = µ ∈ (156.73,164.21)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (156.73,164.21) vs. H inv : µ < 165
HIPÓTESIS
, De acuerdo a la muestra obtenida y con un nivel de confianza del 95% se puede
afirmar que la estatura promedio de las mujeres estudiantes de la ENAH está entre
156.73 y 164.21 centímetros. Por lo tanto, se tiene evidencia estadística que indica,
con un error del 5%, que la media de la estatura en esta población es menor a 165
cm.

2. Un investigador considera que la media del “tiempo de recorrido de los


estudiantes de la ENAH a casa” es mayor a 60 minutos. Supongamos que los
siguientes valores son datos de una muestra aleatoria de esta población:

120 30 60 75 120 11 30 80
15 75 80 15 20 80 40 75

Suponiendo que la población tiene una distribución normal:


a) Construir un intervalo al 95% de confianza para la media µ .

14
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

b) Contestar: ¿Qué se puede concluir respecto a la hipótesis?

DATOS GENERALES
X~N(µ,σ) n = 16 x = 63.44 s = 34.96
HIPÓTESIS
H inv : µ > 60
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975

EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (16 − 1) = 15 g.l. t1(−nα−1) = t .15975 = 2.1315
2 2

⎛ 34.96 ⎞
APLICACIÓN µ ∈ ⎜ 63.44 ∓ 2.1315 ⋅ ⎟ = µ ∈ (44.81,82.07 )
⎝ 16 ⎠
COMPARACIÓN
CON LA µ ∈ (44.81,82.07 ) vs. H inv : µ > 60
HIPÓTESIS
a) , Con un 95% de confianza se puede afirmar que la media del “tiempo de
recorrido de los estudiantes de la ENAH a casa” se halla entre los 44.81 y los 82.07
minutos.
b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la
muestra no hay evidencia estadística que permita inferir, con un 5% de error, que la
hipótesis del investigador sea verdadera.

3. Los siguientes datos corresponden a la circunferencia craneal en centímetros


de 15 niños recién nacidos:

33.38 34.34 33.46 32.15 33.95 34.13 33.99 33.85


34.45 34.10 34.23 34.19 33.97 32.73 34.05

Suponiendo que la población tiene una distribución normal, ¿es posible afirmar que la
media sea menor a 35 cm? Comprobar esta hipótesis construyendo un intervalo al
90% de confianza.

DATOS GENERALES
X~N(µ,σ) n = 15 x = 33.80 s = 0.63
HIPÓTESIS
H inv : µ < 35
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.10 α 2 = 0.05 1 − α 2 = 0.95

EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t.1495 = 1.7613
2 2

15
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎛ 0.63 ⎞
APLICACIÓN µ ∈ ⎜ 33.80 ∓ 1.7613 ⋅ ⎟ = µ ∈ (33.51,34.09)
⎝ 15 ⎠
COMPARACIÓN
CON LA µ ∈ (33.51,34.09 ) vs. H inv : µ < 35
HIPÓTESIS
, Se puede afirmar, con un 90% de confianza, que la media de la circunferencia
craneal de los niños de esta población está entre los 33.51 y los 34.09 centímetros;
motivo por el cual se acepta, con un 10% de error, que la media de esta variable es
menor a 35 cm.

B. CONTRASTE DE HIPÓTESIS

B.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO

Cuando se quiere estimar el valor de la media poblacional µ se pueden plantear las


siguientes hipótesis:

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : µ ≠ µ 0 H 0 : µ = µ0 H a : µ ≠ µ0
H inv : µ < µ 0 H 0 : µ ≥ µ0 H a : µ < µ0
H inv : µ > µ 0 H 0 : µ ≤ µ0 H a : µ > µ0

Según sea el caso y de acuerdo a la significancia α , la región de rechazo para la


hipótesis nula H 0 será:

HIPÓTESIS
H inv : µ ≠ µ 0 H 0 : µ = µ0 H a : µ ≠ µ0

PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t / Z1−α t / Z1−α
2 2

H inv : µ < µ 0 H 0 : µ ≥ µ0 H a : µ < µ0

PRUEBA
UNILATERAL REGIÓN DE
1-α
O DE UNA RECHAZO DE
COLA H0 α
1−α
− t / Z1−α
H inv : µ > µ 0 H 0 : µ ≤ µ0 H a : µ > µ0

16
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

REGIÓN DE 1-α
RECHAZO DE
α
H0

t / Z1−α

Pero saber dónde se encuentra la región de rechazo no basta; es necesario conocer el


valor de donde parte. Este dato se obtiene reconociendo el tipo de distribución
probabilística de la población y hallando en sus tablas el valor que comprenda tal
confiabilidad.
Para una población con distribución normal, el valor de la región de rechazo se busca
en las tablas para la distribución t mediante la expresión t1(−nα−1) si la prueba es bilateral
2
( n −1)
o t1−α si es unilateral. Basta buscar en las tablas de la distribución t los grados de
libertad e intersectarlo con la confiabilidad, que depende del tipo de prueba.
Finalmente, se agrega un signo negativo si la región de rechazo (o una parte) se
encuentra en la sección inferior del eje de las X .
Mientras tanto, para poblaciones cuya distribución es desconocida pero el tamaño de
la muestra es grande (n > 30 ) , el valor donde inicia la región de rechazo depende de
las expresiones Z 1−α (pruebas bilaterales) o Z 1−α (pruebas unilaterales). Por ende, en
2
este caso hay que acudir a las tablas de distribución normal y buscar el valor de Z
que tenga la probabilidad que indica la confianza de la prueba y agregar un signo
negativo si la región de rechazo está en la sección inferior del eje de las X .

B.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS

1. Teniendo la hipótesis del investigador H inv , plantear la hipótesis nula H 0 y la


hipótesis alternativa H a .
2. Reconocer la distribución probabilística de la variable de interés.
3. Determinar el ESTADÍSTICO DE PRUEBA y su distribución probabilística. Es
decir, encontrar la expresión que contiene la comparación del estadístico
muestral o estimador del parámetro con el valor hipotético y la variabilidad
muestral.

EXPRESIÓN PARA EL ESTADÍSTICO x − µ0


tc =
DE PRUEBA t c EN POBLACIONES s
CON DISTRIBUCIÓN NORMAL n
EXPRESIÓN PARA EL ESTADÍSTICO x − µ0
DE PRUEBA Z c EN POBLACIONES Zc =
s
CON DISTRIBUCIÓN DESCONOCIDA n
PERO n > 30

4. Calcular el estadístico de prueba.


5. Determinar el nivel de significancia α de la prueba, así como la ubicación y el
valor de la región de rechazo de la hipótesis nula H 0 .

17
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

6. Ubicar el estadístico de prueba con respecto a la región de rechazo de la


hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

B.3) EJEMPLOS DE CONTRASTE DE HIPÓTESIS

1. En una investigación sobre el rendimiento académico de los estudiantes de la


ENAH, una variable de interés fue el tiempo que tardan los alumnos para trasladarse
de su casa a la escuela, el cual se calcula menor a 90 minutos. Suponiendo que la
población tiene una distribución normal y a partir de los siguientes datos que se
tomaron de una muestra aleatoria:

40 75 60 120 70 90 180
80 60 5 30 5 60 45
15 75 100 45 85 40 100

a) Contrastar la hipótesis con un nivel de significancia de 0.05.


b) Construir un intervalo al 95% de confianza para la media de la población.

Ante un problema así, lo primero que debemos hacer es hacer explícitas las hipótesis:

HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90

Posteriormente, reconocemos la distribución probabilística de la población y los datos


generales de la muestra:

DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
Recordando cuando encontramos intervalos de confianza para µ , sabemos que una
expresión que relaciona los datos de la media poblacional, la media muestral, la
desviación estándar de la muestra y que se aplica para poblaciones con distribución
normal es:
x − µ (n-1)
t= ~t
s
n

Donde la variable t tiene una distribución t de student con n − 1 grados de libertad


(g.l.). Por tal motivo, esta expresión nos servirá para calcular nuestro estadístico de
prueba:

x − µ0
EXPRESIÓN PARA EL ESTADÍSTICO tc =
DE PRUEBA t c
s
n
65.71 − 90
tc = = −2.73
APLICACIÓN 40.75
21

Ya con ese dato, falta encontrar la región de rechazo de la hipótesis nula H 0 para
contrastarlos:

18
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

REGIÓN DE RECHAZO DE H 0 : µ ≥ 90
α = 0.05 1 − α = 0.95 − t1(−nα−1) = −t1(−210.−051) = −t 0(.2095) = −1.7247

Por último, hay que ubicar el estadístico de prueba t c con respecto a esta región de
rechazo y concluir:

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , Como podemos ver, el estadístico de prueba t c = −2.73 se encuentra dentro de


la región de rechazo. Por ende, la hipótesis nula H 0 : µ ≥ 90 se rechaza y puede
afirmarse que existe evidencia estadística que indica que la media del tiempo que
hacen los estudiantes de su casa a la ENAH es significativamente ( p < 0.05) menor a
90 minutos, según lo afirmaba la hipótesis del investigador.

Ahora bien, resta establecer el intervalo de confianza para la media de esta variable y
confirmar el resultado:

DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α = 0.025 1−α = 0.975
2 2

EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (21 − 1) = 20 g.l. t1(−nα−1) = t .20
975 = 2.0860
2 2

⎛ 40.75 ⎞
APLICACIÓN µ ∈ ⎜ 65.71 ∓ 2.0860 ⋅ ⎟ = µ ∈ (47.16,84.26)
⎝ 21 ⎠
COMPARACIÓN
CON LA µ ∈ (47.16,84.26 ) vs. H inv : µ < 90
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del tiempo que hacen
los estudiantes de su casa a la ENAH está entre los 47.16 y los 84.26 minutos, lo cual
confirma, como señaló el investigador y la prueba de hipótesis, que la media de esta

19
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

variable es menor a 90.

2. Asumamos que la variable “gasto diario en relación a estudios” de la población


estudiantil de la ENAH es una variable que sigue una distribución aproximadamente
normal. Si suponemos que los siguientes datos corresponden a una muestra aleatoria
de estudiantes del turno vespertino:

100 50 35 40 60 25 20 15 30
70 20 75 30 12 50 35 40 30

a) ¿Es posible afirmar que el “gasto diario” es mayor de $70.00? Considérese una
significancia de 0.05.
b) Encuentre el intervalo al 95% de confianza para la media de la población.

DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70
REGIÓN DE RECHAZO DE H 0
α = 0.05 1 − α = 0.95 t1(−nα−1) = t1(−180−.051) = t 0(17
.95 = 1.7396
)

xi − µ 0
EXPRESIÓN PARA EL tc =
ESTADÍSTICO DE PRUEBA t c
s
n
40.94 − 70
CÁLCULO DEL tc = = −5.33
23.13
ESTADÍSTICO DE PRUEBA t c
18

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , El estadístico de prueba t c = −5.33 se halla fuera de la región de rechazo, motivo


por el cual la hipótesis nula H 0 : µ ≤ 70 no se rechaza. De esta forma, no se tiene
evidencia estadística que soporte la afirmación del investigador de que la media del
“gasto diario” estudiantil sea significativamente ( p > 0.05) mayor a $70.00.

DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70

20
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α = 0.025 1−α = 0.975
2 2

EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t1(−180−.025
1)
= t 0(17
.975 = 2.1098
)
2 2

⎛ 23.13 ⎞
APLICACIÓN µ ∈ ⎜ 40.94 ∓ 2.1098 ⋅ ⎟ = µ ∈ (29.44,52.44)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (29.44,52.44 ) vs. H inv : µ > 70
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del “gasto diario” de la
población de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con
un 5% de error, puede afirmarse que la hipótesis del investigador era incorrecta al
decir que el promedio de este gasto era superior a los $70.00.

PRUEBA DE NORMALIDAD

A fin de comprobar si la población estudiada de la cual se ha obtenido una muestra


tiene distribución normal, existen varios métodos para contrastar las siguientes
hipótesis:

H o : La muestra procede de una población con distribución normal.


H a : La muestra no procede de una población con distribución normal.

Dos de las más utilizadas son la prueba de Kolmogorov-Smirnofv y la prueba de


Shapiro-Wilks, pero aquí sólo revisaremos la segunda ya que es más potente.

A. PRUEBA DE SHAPIRO-WILKS

El procedimiento de esta prueba consiste en obtener los estadísticos de orden


X (1) , X (2 ) , X (3 ) ,..., X (n )

A.1) TEORÍA

Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los estadísticos de prueba
X (1) , X (2 ) , X (3 ) ,..., X (n ) .

Realizado esto, se obtienen los siguientes datos:

DATOS
Número total de datos de la
n s2 Varianza de la muestra.
muestra.
Número total de sumandos que se harán en el estadístico de prueba Wc .
h
Datos que se calcula de la siguiente forma:

21
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

n n −1
Si n es un número par: h = Si n es un número non: h =
2 2

Ahora bien, se calcula el estadístico de prueba Wc

2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
Wc =
EXPRESIÓN PARA EL
(n − 1)s ⎣ j =1 ⎦
ESTADÍSTICO DE PRUEBA Donde
Wc a j ,n es un valor en tablas de Coeficiente a n −i +1
y
X (n − j +1) y X ( j ) son los estadísticos de orden.

Como puede verse en la expresión, la sumatoria empieza con el j = 1 , por lo cual el


primer X ( j ) corresponde al primer estadístico de orden, el segundo X ( j ) al segundo
estadístico de orden y así sucesivamente. Mientras tanto, el primer valor de
corresponde al último estadístico de orden, el segundo al penúltimo, etc. Por tal
[ ]
motivo, lo que se hace en cada expresión X (n − j +1) − X ( j ) es restar los opuestos
2

estadísticos de orden y elevarlos al cuadrado.

Siguiendo la expresión, tales valores se multiplican después por el a j ,n que se


encontrará intersectando la fila con el número de j que se utilizó en ese sumando
contra la columna que tiene el valor de la n muestral en las tablas de Coeficiente
a n −i +1 .

Por último, la suma de esos productos se divide entre producto de la varianza de la


muestra s 2 por (n − 1) .

Si el estadístico de prueba Wc es menor a Wαn que se encuentra intersectando el dato


de n contra la significancia α en las tablas de Percentiles para W , la hipótesis nula
H o se rechaza. Esto es:

TIPO DE HIPÓTESIS H o H o SE RECHAZA SI:

H o : La muestra procede de una


Wc < Wαn
población con distribución normal.

A.2) EJEMPLO

Dados los siguientes datos encontrados:

X 1 = 95.6 X 4 = 65.2 X 7 = 75.5


X 2 = 29.1 X 5 = 75.9 X 8 = 72.0

22
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

X 3 = 28.5 X 6 = 98.5 X 9 = 42.4

Decir si la población de donde proviene esta muestra tiene o no distribución normal


con una significancia α de 0.05.

HIPÓTESIS
H o : La muestra procede de una población con distribución normal.
H a : La muestra no procede de una población con distribución normal.

ESTADÍSTICOS DE ORDEN
X (1) = 28.5 X (4 ) = 65.2 X (7 ) = 75.9
X (2 ) = 29.1 X (5 ) = 72.0 X (8 ) = 95.6
X (3 ) = 42.4 X (6 ) = 75.5 X (9 ) = 98.5

DATOS
n=9 9 −1 8
s 2 = 683.30 / 683.49 h= = =4
(impar) 2 2

Cálculo del estadístico de prueba Wc :

2
1 ⎡ 4 ⎤
Wc = a (X (10− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(8)s ⎣ j =1 ⎦

Wc =
1
(8)s 2
{
[a1,9 (X (9 ) − X (1) ) + a2,9 (X (8) − X (2 ) ) + a3,9 (X (7 ) − X (3) ) + a4,9 (X (6 ) − X (4 ) )]2 }

Wc =
1
(8)s 2
{[
0.5888(X (9 ) − X (1) ) + 0.3244(X (8 ) − X (2 ) ) + 0.1976(X (7 ) − X (3 ) ) + 0.0947(X (6 ) − X (4 ) )
2
]}

Wc =
1
(8)s 2
{[0.5888(98.5 − 28.5) + 0.3244(95.6 − 29.1) + 0.1976(75.9 − 42.4) + 0.0947(75.5 − 65.2)]2 }

Wc =
1
{4953.85}
(8)s 2
4953.85
Wc =
(8)s 2
4953.85 4953.85
Wc = = 0.906 Wc = = 0.906
5466.40 5467.92

CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS H o H o : La muestra procede de una población con

23
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.906 W09.05 = 0.829
CONTRASTAR

, Como el valor del estadístico de prueba Wc = 0.83 no es menor a W09.05 = 0.829 sino
mayor, la hipótesis nula H o : La muestra procede de una población con distribución
normal no se rechaza y se puede asumir que la población de la que fue tomada esta
muestra tiene una distribución normal.

PRUEBAS NO PARAMÉTRICAS PARA LA MEDIA POBLACIONAL

Cuando la población estudiada no tiene distribución normal y la muestra que de ella


hemos obtenido es pequeña (n < 30 ) , para contrastar hipótesis sobre su media (o
mediana) queda la opción de echar mano de las PRUEBAS NO PARAMÉTRICAS.
Cabe decir, sin embargo, que al ser estas pruebas de libre distribución menos
potentes, sólo deben utilizarse como última alternativa.

A. PRUEBA DEL SIGNO

Prueba no paramétrica cuyo contraste de hipótesis se basa en los signos de las


diferencias del valor de cada dato de la muestra con el valor hipotético.

A.1) TEORÍA

Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es calcular sus diferencias d i con respecto al valor hipotético µ 0 mediante la
siguiente fórmula: d i = ( X i − µ 0 ) :

Xi di = (X i − µ0 ) + -
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )

Hecho esto, y descontando los d i cuyo valor fue cero, hay que distinguir los d i que
salieron con valor negativo de los que tuvieron valor positivo para obtener los
siguientes datos:

DATOS

n+ Número total de d i positivos. n∗ Valor mayor entre n + y n − .

n− Número total de d i negativos. n′ Suma de n + y n − .

24
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Teniendo eso, y de acuerdo al tipo de hipótesis nula H o planteada, se aplica la


siguiente fórmula para calcular el estadístico de prueba:

TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
n′ n′ n′
EXPRESIÓN PARA EL 2 ∑ n′ C i ∑ n′ Ci ∑ n′ Ci
ESTADÍSTICO DE PRUEBA i = n∗ i=n+ i=n−
p p= p= p=
2 n′ 2n′ 2n′
En todos los casos, si el valor resultante del estadístico de prueba p es menor a la
significancia α determinada por el investigador ( p < α ), la hipótesis nula H o se
rechaza. Es decir:

TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
H o SE RECHAZA SI: (p < α )

A.2) EJEMPLO

1. Una compañía surte botellas de refresco que se etiquetan con 12 onzas.


Cuando la Procuraduría Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:

X 1 = 11.4 X 4 = 12.2 X 7 = 12.5 X 10 = 11.9 X 13 = 11.5


X 2 = 11.8 X 5 = 11.9 X 8 = 12.0 X 11 = 10.9 X 14 = 11.5
X 3 = 11.7 X 6 = 11.0 X 9 = 12.1 X 12 = 12.3 X 15 = 12.6

Si utilizamos un nivel de significancia de 0.05, ¿existe suficiente evidencia para


documentar la acusación denunciada a la PROFECO de que la compañía
embotelladora está engañando a los consumidores dando cantidades menores de 12
onzas?

HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12

Xi di = (X i − µ0 ) n+ n−
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 9
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 9
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 9
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 9
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 9
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 9
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 9
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 9
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 9

25
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

X 11 = 10.9 d11 = (10.9 − 12 ) = −1.1 9


X 12 = 12.3 d12 = (12.3 − 12 ) = 0.3 9
X 13 = 11.5 d13 = (11.5 − 12) = −0.5 9
X 14 = 11.5 d14 = (11.5 − 12 ) = −0.5 9
X 15 = 12.6 d15 = (12.6 − 12 ) = 0.6 9
TOTALES 5 9

DATOS
+
n =5 −
n =9 n ∗ {5,9} = 9 n ′ = 5 + 9 = 14

CONTRASTE DE HIPÓTESIS
TIPO DE
H o : µ ≥ 12
HIPÓTESIS H o
EXPRESIÓN n′
PARA CALCULAR ∑ n′ Ci
EL ESTADÍSTICO p= i=n−
DE PRUEBA p 2n′
14

∑ 14 Ci
p= i =9
CÁLCULO DE p 214
C+ C + C + C + C + C 3473
p = 14 9 14 10 14 11 14 12 14 13 14 14 = = 0.21
16384 16384
EXPRESIÓN
PARA
CONTRASTE DE
(p < α )
HIPÓTESIS
VALORES
FINALES A p = 0.21 α = 0.05
CONTRASTAR

, Como vemos, el estadístico de prueba p = 0.21 no es menor a la significancia


α = 0.05 ; por ende, la hipótesis nula H o : µ ≥ 12 no se rechaza. Ello quiere decir que
el contenido promedio envasado por la embotelladora no es significativamente
( p > 0.05) menor a 12 onzas, así que las demandas interpuestas ante la PROFECO
no tienen sustento.

B. PRUEBA DE RANGOS DE WILCOXON

Prueba no paramétrica cuyo contraste de hipótesis es más potente que la del signo, ya
que no sólo toma en cuenta las diferencias del valor de cada dato de la muestra con el
valor hipotético, sino también considera los rangos asignados al valor absoluto de tales
diferencias.

B.1) TEORÍA

Al igual que en la prueba del signo, teniendo una muestra de tamaño n con datos
X 1 , X 2 , X 3 ,..., X n , lo primero que debe hacerse aquí es calcular las diferencias d i de
estos datos con respecto al valor hipotético µ 0 a través de la fórmula d i = ( X i − µ 0 ) .

26
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

De ello se obtiene el valor absoluto d i de cada d i , pero se marca si su origen fue


positivo o negativo.

Xi di = (X i − µ0 ) d i signo
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )

A continuación, tales valores se ordenan de menor a mayor. Asimismo, descontando


los d i cuyo valor fue cero, se empieza a numerar el resto de los datos para
asignarles un lugar y un rango, el cual se deduce del lugar que tiene (si hay sólo un
dato con tal valor) o promediando los lugares que ocupan los datos con igual valor.

EJEMPLO
Valor Rangos de d i Rangos de d i
d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo
1+ 0
3+ 1+ 1 1 1
3- 2- 2 2.5 2.5
0 2+ 3 2.5 2.5
4- 3+ 4 5 5
2- 3- 5 5 5
3+ 3+ 6 5 5
2+ 4- 7 7 7

Posteriormente, se distinguen los rangos de d i que provienen de d i positivo o


negativo a fin de poder obtener todos los siguientes datos:

DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo

T− Suma de los valores de los rangos de d i que provienen de d i negativo.


T ∗
Valor menor entre T + y T − .

De acuerdo al tipo de hipótesis nula H o es que se utilizará una de estas T y se le


comparará con una T de las tablas de Wilcoxon.

TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
n
Tα Tαn Tαn
T DE TABLAS 2
CORRESPONDIENTE PARA Donde n es el número total de d i ≠ 0
ESTADÍSTICO DE PRUEBA
y

27
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

α o α 2 es el valor de la significancia

En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hipótesis


nula H o se rechaza. En otras palabras:

TIPO DE HIPÓTESIS H o H o SE RECHAZA SI:


H o : µ = µ0 T ∗ ≤ Tαn
2

H o : µ ≤ µ0 −
T ≤ Tα n

H o : µ ≥ µ0 T + ≤ Tαn

B.2) EJEMPLO

1. Una compañía surte botellas de refresco que se etiquetan con 12 onzas.


Cuando la Procuraduría Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:

X 1 = 11.4 X 4 = 12.2 X 7 = 12.5 X 10 = 11.9 X 13 = 11.5


X 2 = 11.8 X 5 = 11.9 X 8 = 12.0 X 11 = 10.9 X 14 = 11.5
X 3 = 11.7 X 6 = 11.0 X 9 = 12.1 X 12 = 12.3 X 15 = 12.6

Si utilizamos un nivel de significancia de 0.05, ¿existe suficiente evidencia para


documentar la acusación denunciada a la PROFECO de que la compañía
embotelladora está engañando a los consumidores dando cantidades menores de 12
onzas?

HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12

Xi di = (X i − µ0 ) d i signo
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 0.6 -
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 0.2 -
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 0.3 -
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 0.2 +
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 0.1 -
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 1.0 -
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 0.5 +
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 0.1 +
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 0.1 -
X 11 = 10.9 d11 = (10.9 − 12 ) = −1.1 1.1 -
X 12 = 12.3 d12 = (12.3 − 12 ) = 0.3 0.3 +

28
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

X 13 = 11.5 d13 = (11.5 − 12) = −0.5 0.5 -


X 14 = 11.5 d14 = (11.5 − 12 ) = −0.5 0.5 -
X 15 = 12.6 d15 = (12.6 − 12 ) = 0.6 0.6 +

Valor Rangos de d i Rangos de d i


d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo
0.6 - 0
0.2 - 0.1 - 1 2.0
0.3 - 0.1 + 2 2.0 2.0
0.2 + 0.1 - 3 2.0
0.1 - 0.2 - 4 4.5
4.5
1.0 - 0.2 + 5 4.5
0.5 + 0.3 - 6 6.5
6.5
0 0.3 + 7 6.5
0.1 + 0.5 + 8 9
0.1 - 0.5 - 9 9.0 9
1.1 - 0.5 - 10 9
0.3 + 0.6 - 11 11.5
11.5
0.5 - 0.6 + 12 11.5
0.5 - 1.0 - 13 13 13
0.6 + 1.1 - 14 14 14

DATOS
+
T = 33.5 −
T = 71.50 T ∗ {33.5,71.50} = 33.5 n = 14

CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS
H o : µ ≥ 12
Ho
T DE TABLAS
CORRESPONDIENTE
Tαn
PARA ESTADÍSTICO
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T + ≤ Tαn
HIPÓTESIS
VALORES FINALES
T + = 33.5 Tαn = T014.05 = 26
A CONTRASTAR

, Para este caso, el valor de T + = 33.5 no es menor a la T de tablas T014.05 = 26 ,


motivo por el cual la hipótesis nula H o : µ ≥ 12 no se rechaza. Debido a ello
corroboramos la conclusión obtenida con la prueba del signo: no siendo el contenido
promedio envasado por la embotelladora significativamente ( p > 0.05) menor a 12
onzas, se puede afirmar que las demandas interpuestas ante la PROFECO no tienen
sustento.

29
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL p

A. FUNDAMENTOS

Cuando se tiene una variable cualitativa que toma dos valores ( x = {0,1}) y que se
repite n veces en una población de tamaño N , M es el número de eventos que
presentan la característica de interés (x = 1) . Por ende, dividiendo M entre N
obtenemos la proporción poblacional: p = M
N
No obstante, la proporción poblacional p , como el resto de los parámetros, es un
valor desconocido, razón por la cual a menudo es de interés estimar su valor mediante
un intervalo de confianza y una prueba de hipótesis contra un valor hipotético p 0 .

B. CONDICIONES PARA SU ESTIMACIÓN

Se puede aplicar una prueba de hipótesis sobre la proporción muestral p̂ siempre y


cuando —acorde al Teorma Central de Límite— se tenga una muestra de tamaño n
con una proporción muestral pˆ = m que cumpla con los siguientes tres supuestos:
n

1. npˆ = m > 5 2. n(1 − pˆ ) = n − m > 5 3. n > 30

Cuando tales condiciones no se cumplen, es necesario tomar una muestra más


grande.

C. INTERVALO DE CONFIANZA

La expresión para encontrar el intervalo de confianza para la proporción poblacional


p es:

EXPRESIÓN PARA ENCONTRAR UN INTERVALO


AL (1 − α ) POR CIENTO DE CONFIANZA PARA ⎛ pˆ (1 − pˆ ) ⎞
p ∈ ⎜⎜ pˆ ∓ Z 1−α ⋅ ⎟

p CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN ⎝ 2 n ⎠
APROXIMADAMENTE NORMAL ESTÁNDAR

D. CONTRASTE DE HIPÓTESIS

D.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO

Cuando se quiere estimar el valor de la proporción poblacional p se pueden plantear


las siguientes hipótesis:

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : p ≠ p 0 H 0 : p = p0 H a : p ≠ p0
H inv : p < p 0 H 0 : p ≥ p0 H a : p < p0
H inv : p > p 0 H 0 : p ≤ p0 H a : p > p0

Según sea el caso y de acuerdo a la significancia α , la región de rechazo para la


hipótesis nula H 0 será:

30
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS
H inv : p ≠ p 0 H 0 : p = p0 H a : p ≠ p0

PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2

H inv : p < p 0 H 0 : p ≥ p0 H a : p < p0

REGIÓN DE
1-α
RECHAZO DE
H0 α

PRUEBA
UNILATERAL
− Z1−α
O DE UNA
COLA H inv : p > p 0 H 0 : p ≤ p0 H a : p > p0
1−α

REGIÓN DE 1-α
RECHAZO DE
α
H0

Z1−α

Cabe mencionar que, al igual que en el contraste de hipótesis sobre µ , en esta


prueba es necesario encontrar el valor donde inicia la región de rechazo. Al depender
del Teorema Central de Límite, los valores para esta prueba dependen de una
distribución aproximadamente normal estándar y se encontrarán en su respectiva tabla
mediante las expresiones Z 1−α o Z 1−α , según sea la prueba (bilateral o unilateral).
2
Esto es, hay que buscar el valor de Z que tenga la probabilidad que indica la
confianza de la prueba y agregar un signo negativo si la región de rechazo está en la
sección inferior del eje de las X .

D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS

7. Comprobar los supuestos de la muestra para verificar la factibilidad de la


prueba.
8. Si tales condiciones se cumplen, explicitar la hipótesis del investigador H inv , la
hipótesis nula H 0 y la hipótesis alternativa H a .
9. Calcular el estadístico de prueba que compara el estimador con el valor
hipotético y su variabilidad:

31
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA CALCULAR EL ESTADÍSTICO DE pˆ − p0


Zc =
PRUEBA Z c EN POBLACIONES CON DISTRIBUCIÓN p 0 (1 − p 0 )
APROXIMADAMENTE NORMAL ESTÁNDAR n

10. Determinar el nivel de significancia α de la prueba, así como la ubicación y el


valor de la región de rechazo de la hipótesis nula H 0 .
11. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

D.3) P-VALOR

Calculado como “significancia” en el software estadístico, el P-VALOR es al área bajo


la curva delimitada por el estadístico de prueba Z c con la misma dirección que la
región de rechazo de la hipótesis nula H 0 . Esta área o probabilidad se obtiene
también mediante los datos en tablas y si su valor es menor a la significancia α de la
prueba de hipótesis, la hipótesis nula H 0 se rechaza.

He aquí la forma para encontrar su valor:

ÁREA DEL PROBABILIDAD BÚSQUEDA DE


P-VALOR DE P-VALOR P-VALOR
P(− Z < Z c < Z ) ⇒ P(Z > Z c ) + P(− Z < Z c )
= P(Z < − Z c ) + P(− Z < Z c )
− ∞ < Zc < ∞ P(− Z < Z c < Z )
Se suman la probabilidad de los
valores de − Z c y Z c .
P(Z < Z c )
De − ∞ a Z c P (Z < Z c )
Se busca la probabilidad del valor de Z c .
P (Z > Z c ) ⇒ P (Z < − Z c )
De Z c a ∞ P (Z > Z c )
Se busca la probabilidad del valor de − Z c

E. EJEMPLOS DE ESTIMACIÓN

1. En una muestra de 591 pacientes internados en un hospital psiquiátrico, 204


admitieron que consumieron marihuana al menos una vez durante su vida. ¿Es posible
inferir que la proporción de individuos que consumieron marihuana en la población de
estudio es mayor de 0.30?
c) Realizar una prueba de hipótesis con un nivel de significancia α = 0.05
d) Encontrar el p-valor o significancia de la prueba.
e) Construir un intervalo al 95% de confianza para la proporción poblacional.

DATOS GENERALES
n = 591 m = 204 pˆ = 204 = 0.35 1 − pˆ = 1 − 0.35 = 0.65
591

Según el procedimiento para el contraste de hipótesis, lo primero que debemos hacer


es comprobar que los tres supuestos se cumplan:

32
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

1. npˆ > 5 2. n(1 − pˆ ) > 5 3. n > 30


(591)(0.35) = 206.85 591(0.65) = 384.15 n = 591
206.85 > 5 384.15 > 5 591 > 30

Comprobado ello, podemos plantear las hipótesis para contrastar:

HIPÓTESIS
H inv : p > 0.30 H 0 : p ≤ 0.30 H a : µ > 0.30

Ahora bien, hay que calcular el estadístico de prueba:

pˆ − p0
Zc =
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA Z c p 0 (1 − p 0 )
n
0.35 − 0.30 0.35 − 0.30
Zc = = Zc = = 2.65
APLICACIÓN 0.30(1 − 0.30 ) 0.30(0.70 )
591 591

Teniendo ese dato, falta reconocer la significancia α , su valor en tablas y la región de


rechazo que delimita:

REGIÓN DE RECHAZO DE H 0 : p ≤ 0.30


α = 0.05 1 − α = 0.95 Z 1−α = Z 0.95 = 1.645

Para concluir el contraste de hipótesis resta ubicar el estadístico de prueba Z c con


respecto a esta región de rechazo y concluir:

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Z c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , El estadístico de prueba Z c = 2.65 cae dentro de la región de rechazo, razón


por la cual la hipótesis nula H 0 : p ≤ 0.30 se rechaza y se infiere que la proporción
poblacional de internos que usaron marihuana es significativamente ( p < 0.05) mayor
a 0.30.

Calculemos ahora el p-valor para comprobar este resultado:

33
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

ÁREA DEL PROBABILIDAD BÚSQUEDA DE


P-VALOR DE P-VALOR P-VALOR
De P(Z c > 2.65) ⇒ P(Z c < −2.65)
Z c = 2.65 P(Z c > 2.65)
P(Z c < −2.65) = 0.0040
a ∞

VALORES A COMPARAR p − valor = 0.0040 α = 0.05


b) , El p − valor = 0.0040 es menor a la significancia α = 0.05 , motivo por el cual la
hipótesis nula H 0 : p ≤ 0.30 se vuelve a rechazar.

Por último, hay que construir el intervalo de confianza para la proporción poblacional:

CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975

EXPRESIÓN ⎛ pˆ (1 − pˆ ) ⎞
PARA p ∈ ⎜⎜ pˆ ∓ Z 1−α ⋅ ⎟

INTERVALO ⎝ 2 n ⎠
VALOR DE Z 1−α Z 1−α = Z 1−0.025 = Z 0.975 = 1.96
2 2

⎛ 0.35(0.65) ⎞
APLICACIÓN p ∈ ⎜⎜ 0.35 ∓ 1.96 ⋅ ⎟ = p ∈ (0.31,0.39 )

⎝ 591 ⎠
COMPARACIÓN
CON LA p ∈ (0.31,0.39 ) vs. H inv : p > 0.30
HIPÓTESIS
c) , Con un 95% de confiabilidad es posible inferir que la proporción poblacional de
personas internadas que alguna vez fumaron marihuana está entre 0.31 y 0.39. Tal
intervalo da sustento estadístico a la hipótesis del investigador, que la estima en un
valor mayor a 0.30.

ESTIMACIÓN DE LA VARIANZA POBLACIONAL σ 2

A. FUNDAMENTOS

Cuando en una población se tiene una variable continua con distribución normal y se
desea estimar su variabilidad, es posible también estimar un intervalo de confianza y
hacer un contraste de hipótesis sobre la varianza y la desviación estándar.

B. INTERVALO DE CONFIANZA

A continuación se presenta la expresión para encontrar el intervalo de confianza de la


varianza y la desviación estándar de una población:

EXPRESIÓN PARA ENCONTRAR UN INTERVALO



AL (1 − α ) POR CIENTO DE CONFIANZA PARA σ 2 σ 2 ∈ ⎜⎜
(n − 1)s 2 , (n − 1)s 2 ⎞⎟
CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN
2 ( n −1)
⎜ χ 1−α χ α2(n −1) ⎟⎟
NORMAL ⎝ 2 2 ⎠

34
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA ENCONTRAR UN INTERVALO ⎛


AL (1 − α ) POR CIENTO DE CONFIANZA PARA σ ⎜
σ ∈⎜
(n − 1)s 2 , (n − 1)s 2 ⎞⎟
CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN ⎜ χ 12−(αn −1) χ α2(n −1) ⎟⎟
NORMAL ⎝ 2 2 ⎠

Nótese que en estas expresiones los valores mínimo y máximo del intervalo no se
encuentran simplemente restando o sumando el valor que se halla en tablas, sino que
hay que buscar cada uno.

C. CONTRASTE DE HIPÓTESIS

C.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO

Igual que en las estimaciones anteriores, las hipótesis posibles para contrastar el valor
de la varianza poblacional σ 2 son:

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : σ 2 ≠ σ 02 H 0 : σ 2 = σ 02 H a : σ 2 ≠ σ 02
H inv : σ 2 < σ 02 H 0 : σ 2 ≥ σ 02 H a : σ 2 < σ 02
H inv : σ 2 > σ 02 H 0 : σ 2 ≤ σ 02 H a : σ 2 > σ 02

Según sea el caso y de acuerdo a la significancia α , la región de rechazo para la


hipótesis nula H 0 será:

HIPÓTESIS
H inv : σ ≠ σ
2 2
0 H 0 : σ 2 = σ 02 H a : σ 2 ≠ σ 02

PRUEBA
BILATERAL O REGIÓN DE
DE DOS RECHAZO DE
COLAS H0
α/2 1-α/2
2 ( n −1) 2 ( n −1)
χα χ 1−α
2 2

H inv : σ 2 < σ 02 H 0 : σ 2 ≥ σ 02 H a : σ 2 < σ 02

PRUEBA REGIÓN DE
UNILATERAL RECHAZO DE
O DE UNA H0
COLA α

χα2(n −1)

H inv : σ 2 > σ 02 H 0 : σ 2 ≤ σ 02 H a : σ 2 > σ 02

35
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

REGIÓN DE
RECHAZO DE
H0
1-α
χ12−(αn −1)

Puede verse aquí, al igual que en una parte de la expresión para el intervalo de
confianza de la varianza σ 2 , que las áreas de la significancia no son iguales. Ello se
debe, como se verá en el siguiente punto, a que el estadístico de prueba tiene una
distribución ji-cuadrada χ 2 , cuya gráfica no tiene una curva simétrica. Por tal motivo,
es necesario consultar en esas tablas los valores de χ α2 (n −1) y χ 12−(αn −1) si la prueba es
2 2
2 ( n −1) 2 ( n −1)
bilateral y χ α o χ si es unilateral. Como en otras ocasiones, esto implica
1−α
buscar los grados de libertad e intersectar este renglón con la columna de la
significancia o confiabilidad requerida.

C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS

12. Comprobar que la variable tenga una distribución normal.


13. Dado el caso, hacer explícitas la hipótesis del investigador H inv , la hipótesis
nula H 0 y la hipótesis alternativa H a .
14. Calcular el estadístico de prueba que compara el estimador con el valor
hipotético y su variabilidad:

EXPRESIÓN PARA CALCULAR EL ESTADÍSTICO DE


χ =
2 (n − 1)s 2
PRUEBA χ c2 EN POBLACIONES CON DISTRIBUCIÓN c
σ0
2

NORMAL

15. Determinar el nivel de significancia α de la prueba, así como la ubicación y el


valor de la región de rechazo de la hipótesis nula H 0 .
16. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

D. EJEMPLOS DE ESTIMACIÓN

1. Los siguientes datos corresponden a las edades de conductores que ocupan el


carril para rebasar mientras conducen a 25 millas por hora con la luz intermitente
direccional izquierda funcionando. Suponga distribución normal en esta población.

f) ¿Es posible inferir que la varianza de esta población es menor a 27 años2?


Realizar una prueba de hipótesis con una significancia α = 0.05 .
g) Estimar el intervalo para la varianza con una confianza de 95%.

DATOS GENERALES

36
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

X~N(µ,σ) n = 27 x = 80.5 s = 4 .6

Sabiendo que la población cumple con una distribución normal, planteemos las
hipótesis a contrastar:

HIPÓTESIS
H inv : σ < 27
2
H 0 : σ 2 ≥ 27 H a : σ 2 < 27

Y calculemos el estadístico de prueba:

χ c2 =
(n − 1)s 2
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA χ c2
σ 02

APLICACIÓN χ c2 =
(27 − 1)4.6 2 = 20.38
27

Una vez obtenido este valor, falta el de la región de rechazo de la hipótesis nula H 0 :

REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 27
α = 0.05

χ 02.(05n −1) = χ 02.(0527 −1) = χ 02.(0526 ) = 15.379

Y comparar sus ubicaciones:

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , El estadístico de prueba χ c2 = 20.38 no se encuentra dentro de la región de


rechazo de la hipótesis nula H 0 : σ 2 ≥ 27 , por lo cual puede inferirse que la varianza
de esta población de conductores no es significativamente ( p > 0.05) menor a 27
años2.

Ahora bien, encontremos el intervalo de confianza para la varianza de esta población:

CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975

⎛ ⎞
EXPRESIÓN (n − 1)s 2 (n − 1)s 2
σ ∈ ⎜⎜ 2(n −1) , 2(n −1)
2 ⎟
PARA ⎟⎟
INTERVALO ⎜ χ 1−α χα
⎝ 2 2 ⎠

37
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

VALORES DE χ 12−(αn −1) = χ 12−(027.025


−1)
= χ 02.(975
26 )
= 41.923
2
χ α2(n −1) y χ 12−(αn −1) χα2 ( n −1)
= χ 02.(025
27 −1)
= χ 02.(025
26 )
= 13.844
2 2
2

⎛ (27 − 1)4.6 2 (27 − 1)4.6 2 ⎞


APLICACIÓN σ 2 ∈ ⎜⎜ , ⎟⎟ = σ 2 ∈ (13.12,39.70 )
⎝ 41.923 13.844 ⎠
COMPARACIÓN
CON LA σ 2 ∈ (13.12,39.70) vs. H inv : σ 2 < 27
HIPÓTESIS
b) , Con un 95% de confianza es posible afirmar que la varianza de esta población
de conductores se encuentra en el intervalo demarcado por los valores 13.12 y 39.70.
Como tal intervalo contiene valores mayores a 27, no hay evidencia estadística que
sustente la hipótesis del investigador, pero tampoco la hipótesis nula.

2. Utilice un nivel de significancia α = 0.05 para probar la aseveración de que la


estatura de mujeres supermodelos varía menos que la estatura de las mujeres en
general, sabiendo que ambas poblaciones tienen distribución normal y que la
desviación estándar de la estatura de la segunda población es de 2.5 pulgadas.

Estaturas de supermodelos
71 71 70 69 69.5 70.5 71 72 70
70 69 69.5 69 70 70 66.5 70 71

DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
Varianza de población femenina general σ 2 = (2.5)2 = 6.25
HIPÓTESIS
H inv : σ 2 < 6.25 H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 6.25
α = 0.05 χ 02.(05n −1) = χ 02.(0518−1) = χ 02.(0517 ) = 8.672

EXPRESIÓN PARA
χ c2 =
(n − 1)s 2
ESTADÍSTICO DE PRUEBA χ c2 σ 02
CÁLCULO DEL
χ c2 =
(18 − 1)1.41 = 3.84
ESTADÍSTICO DE PRUEBA χ c2 6.25

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

38
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

, Como el estadístico de prueba χ c2 = 3.84 cae en la región de rechazo de la


hipótesis nula H 0 : σ 2 ≥ 6.25 , ésta se rechaza y puede inferirse que la varianza de
las mujeres supermodelos es significativamente ( p < 0.05) menor a la de las mujeres
en general.

DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
HIPÓTESIS
H inv : σ < 6.25
2
H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
⎛ 2 ⎞
EXPRESIÓN ⎜ (n − 1)s (n − 1)s ⎟
2
PARA σ ∈ ⎜ 2(n −1) , 2(n −1) ⎟
2

INTERVALO ⎜ χ 1−α χα ⎟
⎝ 2 2 ⎠
2 ( n −1) 2 (18−1) 2 (17 )
VALORES DE χ 1−α = χ 1−0.025 = χ 0.975 = 30.191
2
χ α2(n −1) y χ 12−(αn −1) χα2 ( n −1)
= χ 02.(025
18−1)
= χ 02.(025
17 )
= 7.564
2 2
2

⎛ (18 − 1)1.41 (18 − 1)1.41 ⎞


σ 2 ∈⎜ ⎟ = σ ∈ (0.79,3.17 )
2
APLICACIÓN ,
⎝ 30.191 7.564 ⎠
COMPARACIÓN
CON LA σ 2 ∈ (0.79,3.17 ) vs. H inv : σ 2 < 6.25
HIPÓTESIS
, La estatura de las mujeres supermodelos tiene una varianza entre 0.79 y 3.17, así
que, con un 95% de confianza, puede sustentarse la afirmación del investigador de
que esta variabilidad es menor a la varianza de 6.25 de la población femenina
general.

39
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

ESQUEMA FINAL PARA REALIZAR INFERENCIAS SOBRE LA


MEDIA POBLACIONAL

H 0 : µ = µ0 vs. H a : µ ≠ µ0
H 0 : µ ≥ µ0 vs. H a : µ < µ0
H 0 : µ ≤ µ0 vs. H a : µ > µ0

⎛ s ⎞
µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
¿La población ⎝ 2 n⎠
tiene
distribución
x − µ0
normal? tc =
s
n

⎛ s ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
¿La muestra es
mayor a 30?
(TCL) x − µ0
Zc =
s
n

PRUEBAS NO
PARAMÉTRICAS

a) Signo b) Wilcoxon

40
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

TAMAÑO DE MUESTRA REQUERIDO PARA ESTIMACIÓN

Cuando deseamos contrastar hipótesis sobre un parámetro poblacional que tiene


distribución normal, una cuestión fundamental es conocer el tamaño de la muestra
necesario para realizar tal procedimiento.
Sabiendo que el mejor estimador puntual de µ es x , definiremos como d el error
muestral:

PARA MEDIAS PARA PROPORCIONES


d = x−µ d = pˆ − p

A. TAMAÑO DE MUESTRA PARA ESTIMAR MEDIAS POBLACIONALES

A.1) POBLACIONES CUYO TAMAÑO TOTAL N ES DESCONOCIDO

Como la variable tiene distribución normal, podemos estandarizarlo de la siguiente


forma:

d x−µ
= =Z
σ σ Que gráficamente es:
n n

Y como deseamos que el error de muestreo sea pequeño, si α delimita la región de


d
rechazo de la hipótesis nula H 0 , para que se encuentre en esta área se debe
σ
n
concluir que:

d
> Z 1−α
σ 2

Por ende, para saber el tamaño de la muestra, de ello es necesario despejar n :

d
> Z 1−α
Si tenemos σ 2

n
Aplicamos la ley n ⋅d
de los extremos
> Z 1−α
σ 2

Z 1−α
Dejamos sola a n n> 2
⋅σ
d
Y para despejarla Z 12−α ⋅ σ 2
la elevamos al n> 2
cuadrado d2
A ello debemos la siguiente expresión:

41
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA CALCULAR EL


TAMAÑO DE MUESTRA PARA Z 12−α ⋅ σ 2
ESTIMAR MEDIAS DE POBLACIONES n> 2

CON TAMAÑO DESCONOCIDO


d2

La cual nos indica que para conocer el tamaño n de la muestra requerida necesitamos
fijar una confiabilidad 1 − α de estimación y encontrar el valor de Z que le
corresponde; además, establecer una magnitud de error de estimación d 2 y conocer
el valor de σ 2 , que puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro está que, por su relación, a mayor confianza 1 − α , una mayor
muestra se necesitará; mientras que a mayor error de estimación d 2 , menor será la
muestra requerida.

A.2) POBLACIONES CUYO TAMAÑO TOTAL N ES CONOCIDO

A diferencia de la expresión anterior, si el tamaño total N de la población es conocido,


la expresión para calcular el tamaño de muestra requerido es:

EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ σ 2


TAMAÑO DE MUESTRA PARA n> 2
ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ σ 2
2

CUYO TAMAÑO SE CONOCE 2

B. TAMAÑO DE MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES

B.1) POBLACIONES CUYO TAMAÑO TOTAL N ES DESCONOCIDO

Como en proporciones la varianza equivale a σ 2 = p (1 − p ) , la expresión para calcular


el tamaño de muestra requerido es:

EXPRESIÓN PARA CALCULAR EL


TAMAÑO DE MUESTRA PARA Z 12−α ⋅ p(1 − p )
ESTIMAR PROPORCIONES DE n> 2
POBLACIONES d2
CON TAMAÑO DESCONOCIDO

B.2) POBLACIONES CUYO TAMAÑO TOTAL N ES CONOCIDO

Por último, si lo que se desea es calcular el tamaño de muestra necesario para estimar
proporciones de una población cuyo tamaño N se conoce, se utiliza la siguiente
expresión:

EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ p(1 − p )


TAMAÑO DE MUESTRA PARA n> 2
ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ p(1 − p )
2

CUYO TAMAÑO SE CONOCE 2

42
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

C. EJEMPLO DE APLICACIÓN

1. Jayr desea hacer una encuesta sobre las preferencias que existen en la
escuela para las próximas elecciones de director de la ENAH y ha planeado realizar su
estimación con un 95% de confianza y un 5% de error. Sabiendo que p (1 − p ) es
máximo cuando p = 0.5 y hay tres candidatos, supone una proporción de p = 0.33 .

DATOS GENERALES
1 − α = 0.95 α = 0.05 α = 0.025 1 − α = 0.975
2 2
Z 1−α = 1.96 d = 0.05 p = 0.33 1 − p = 0.67
2

a) ¿Qué tamaño de muestra necesitará Jayr para hacer estimaciones sobre las
proporciones de este fenómeno?

EXPRESIÓN PARA CALCULAR EL


TAMAÑO DE MUESTRA PARA Z 12−α ⋅ p(1 − p )
ESTIMAR PROPORCIONES DE n> 2
POBLACIONES d2
CON TAMAÑO DESCONOCIDO

n>
(1.96 ) (0.33 ⋅ 0.67 )
2
= 339.75
APLICACIÓN
(0.05)2
, Para realizar una estimación sobre las proporciones de preferencia sobre el
próximo director de la ENAH, Jayr necesita una muestra mayor a 339.75; lo cual,
hablando de personas, implica encuestar alrededor de 340 personas.

b) Previendo los costos y tiempo que se llevará encuestar a 340 personas, Jayr decide
encuestar sólo a los estudiantes. Sabiendo que hay aproximadamente 2000 alumnos
en la ENAH, ¿es que con este cambio reducirá su muestra?, ¿a cuánto?.

EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ p(1 − p )


TAMAÑO DE MUESTRA PARA n> 2
ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ p(1 − p )
2

CUYO TAMAÑO SE CONOCE 2

2000 ⋅ (1.96) (0.33 ⋅ 0.67 )


2

APLICACIÓN n> = 290.54


(0.05) (2000 − 1) + (1.96)2 (0.33 ⋅ 0.67 )
2

, Si sólo encuestara alumnos, el tamaño de la muestra que Jayr requeriría para


hacer estimaciones sobre las preferencias para director de la ENAH sería de 290.54;
es decir, 251 estudiantes.

EJERCICIOS DE REPASO
I. Define los siguientes conceptos:
1. Hipótesis 2. Hipótesis estadística 3. Error tipo I
4. Error tipo II 5. Significancia estadística 6. Región de rechazo
7. Estadístico 8. Parámetro 9. ¿Qué es x ? ¿qué es
de prueba µ?
10. ¿Qué es σ ? 11. ¿Qué es p̂ ? 12. Potencia de la prueba
¿Qué es s? ¿Qué es p ?

43
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

II. Resolver los siguientes problemas, interpretando los resultados encontrados.

1. En un estudio realizado por Herrera y López1 sobre una población infantil de la


región de la sierra norte de Puebla se obtuvo, entre otros resultados, que la
estatura promedio de 25 hombres de 13 años en Zacapoaxtla, Puebla fue de
140.38 cm. con una desviación estándar de 7.89cm. Suponiendo distribución
normal en la población

a) ¿Existe evidencia para afirmar que la estatura de la población de niños de 13


años en esta región es menor de 143 cm.? Sea α=0.1

b) Encontrar un intervalo al 90% de confianza para la media de estatura de la


población.

2. En un estudio sobre crecimiento y desarrollo realizado por Villanueva, Saénz y


Serrano2 entre otras medidas, se consideró la estatura sentado de niños entre 9 y
12 años en la comunidad de La Villa de las Margaritas, Chiapas. En 34 niños que
estaban en el rango de 11.6 y 12.5 años de edad se obtuvo una media de 72.31
cm. y una desviación estándar de 37.6.

a) ¿Proporcionan estos datos evidencia para afirmar que la población tiene una
estatura sentado menor de 70 cm.? Sea α=0.05

b) Estimar por intervalo al 95% de confianza la media de la estatura sentado en


la población.

3. En un departamento de carnes de una cadena de supermercados se empaca


carne molida de res en recipientes que se supone contiene un kilogramo. Una
muestra aleatoria de 42 paquetes dio peso promedio de 1.09 kilos con una
desviación estándar de 0.18 kilos.

a) Si usted fuera el gerente de control de calidad y quisiera tener la certeza de


que la cantidad promedio de carne molida es en verdad de 1 kilogramo, ¿qué
hipótesis probaría?

b) Determine el valor de p para la prueba del inciso a)

c) Establecer un intervalo al 95% de confianza para la media de la población.

d) ¿De qué manera daría a conocer los resultados de su estudio a un grupo de


consumidores interesados?

Los problemas 4 al 10 se refieren a los datos sobre percepción, iniciación sexual y


antropometría que fueron recolectados en el grupo (si ya no los tienes puedes bajarlos
en la dirección: http://enah.cursos.estadistica.googlepages.com/home. Contrastar la
hipótesis correspondiente y elaborar un intervalo de confianza donde sea pertinente.
En todos los casos considerar α=0.05 e intervalos al 95% de confianza e interpretar
todos los resultados.

1
Herrera Bautista, Rebeca y López Alonso Sergio (1995) “Distribución de talla y peso en población
infantil de la región de la sierra norte de Puebla, México” Estudios de antropología bilológica V Coloquio
de Antropología Física “Juan Comas”, México, IIA, UNAM.
2
VILLANUEVA MARÍA, SAÉNZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y
desarrollo en escolares de la Villa de las Margaritas, Chiapas México. En II Coloquío de Antropología
Física “Juan Comas”, IIA, UNAM. pp. 427-452

44
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

4. ¿Se puede suponer distribución normal en la estatura antropométrica de hombres?

5. ¿Se puede asumir distribución normal en altura de rodilla en mujeres del turno
vespertino?

6. Suponiendo que la variable perímetro de cintura en mujeres no se distribuye


normal, ¿es posible inferir que toma un valor mayor de 800 mm.?

7. ¿La media de estatura en la población de hombres es menor de 1650 mm.?

8. ¿La media de la altura de la rodilla de mujeres es diferente de 500mm.?

9. ¿La varianza poblacional de la estatura total en mujeres es de 2500 mm² ?

10. ¿La proporción de mujeres que han tenido relaciones sexuales es mayor de 0.65?

11. ¿la proporción de mujeres que se autopercibieron como la figura 6 es menor de


0.15?

12. Las autoridades de una universidad consideran que el nivel de acreditación


debería ser mayor al 65%. En un curso de bioestadística tomado por 35 alumnos
28 acreditan.

a) Proporcionan estos datos para confirmar que el curso se encuentra de


acuerdo con lo pronosticado por las autoridades. Sea α=0.05.

b) Determinar un intervalo al 95% de confianza para la proporción de alumnos


que acreditan.

13. El siguiente cuestionario fue respondido por una muestra de 250 ginecólogos. Los
números de la derecha son las frecuencias de respuesta de cada opción:
1. ¿Ha revisado durante el año pasado a una o más mujeres
embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175
b) No 75
2. ¿Acostumbra como rutina poner al tanto a sus pacientes embarazadas
de que el fumar es riesgoso para el feto?
a) Si 238
b) No 12

a) ¿Es posible concluir que, de la población muestreada menos del 15% de los
ginecólogos ha atendido a una o más mujeres embarazadas con altas
concentraciones de plomo en la sangre? Sea α=0.01. Construir intervalo al 99%
de confianza para la proporción poblacional.

b) ¿es posible concluir que más del 90% de los médicos pone al tanto a sus
pacientes de que fumar es riesgoso para el feto? Sea α=0.05. Construir
intervalo al 95% de confianza para la proporción poblacional.

14. En una escuela se está planeando la construcción de canchas de basketball pues


se cree que más de 2/3 de la población estudiantil lo practican. Una encuesta
realizada detectó que, de 48 alumnos elegidos al azar, 33 preferían como deporte
el basketball. ¿Se puede inferir lo planteado? Sea α=0.05. Con 95% de
confiabilidad calcular un intervalo para estimar la proporción de alumnos de toda la
escuela que prefieren basketball. Interprete su resultado.

45
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

15. Un antropólogo físico ha medido la capacidad del cráneo de 38 fósiles de adultos


de un tipo androide ya extinto. Obtuvo una media muestral de 820 cm3 con s = 90
cm3. Calcule un intervalo de confianza a nivel 95% para la capacidad promedio del
cráneo de este antropoide.

16. Datos de la Encuesta Nacional de Alimentación y Nutrición en el medio rural 1996


muestran que el estado de Guerrero presenta la mayor proporción de niños
desnutridos del país en medios rurales según el peso para la edad con un valor de
0.63. Si la muestra considerada fue de 390 niños en el estado.

a) ¿se puede afirmar que la proporción de niños en Guerrero es mayor de


0.60? Sea α=0.0895

b) Construir un intervalo al 90% de confianza para la proporción poblacional.

17. La productividad de un sistema que fabrica discos compactos vírgenes es, según
los empresarios más de 150 discos por hora. De resultar cierto esto, una compañía
disquera comprará dicho sistema. Tomando el sistema a prueba, lo activan en 28
horas (cada hora es una muestra) y obtienen una media de 155.8 con una
desviación estándar de 7.18. ¿Comprarán el sistema en cuestión? Responder esta
pregunta suponiendo distribución normal en la población, con las dos metodologías
de inferencia:

a) Mediante una prueba de hipótesis con α=0.1.

b) Con un intervalo al 90% de confianza.

18. En un estudio sobre los efectos de la contaminación ambiental se midieron las


concentraciones de hemoglobina en 15 personas que habitan en la zona
colindante con la zona industrial de Naucalpan, obteniendo los siguientes valores:
15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.6 y
12.8. Suponiendo que la población de la cual se extrae la muestra no se distribuye
aproximadamente normal, ¿es posible concluir que la concentración de
hemoglobina en esta región es mayor de 16?

46
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UNIDAD II
COMPARACIÓN DE DOS MEDIAS POBLACIONALES

Cuando lo que se desea es comparar dos poblaciones a través de su media, lo


primero que debe reconocerse es si la variable a comparar tiene o no distribución
normal aplicando la prueba de Shapiro-Wilks.

A. COMPARACIÓN EN POBLACIONES CON DISTRIBUCIÓN NORMAL

Si bien es posible suponer distribución normal en la variable de ambas poblaciones,


las expresiones para construir intervalos de confianza y comparar las medias
dependen aún de otro requisito: si puede asumirse que sus varianzas son iguales o
no, lo cual se verifica a través de la prueba de Leveane.

1) PRUEBA DE LEVEANE

Se trata de una prueba para comparar las varianzas σ 12 y σ 22 de una variable con
distribución normal en dos poblaciones de tamaño N 1 y N 2 , con medias µ1 y µ 2 .

a) Hipótesis nula y región de rechazo

Como el fin es simplemente inferir si las varianzas de ambas poblaciones son


estadísticamente iguales o no, las hipótesis de esta prueba son:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H0 :σ = σ
2
1
2
2 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO

F1(−nα1 −1, n2 −1)

El valor donde comienza la región de rechazo se encuentra acudiendo a las


( n −1, n −1)
tablas F de Fisher mediante la expresión F1−α1 2 , donde los grados de
libertad son (n1 − 1) en el numerador y (n 2 − 1) en el denominador.

b) Procedimiento para el contraste de hipótesis

1. Tomar una muestra de cada población y obtener sus varianzas muestrales.


2. Definir a la muestra con varianza mayor con el número 1 y a la menor con el
número dos; es decir, la muestra n1 tiene una varianza s12 , que es mayor que la
varianza s 22 de la muestra n2 .
3. Gracias a ello, puede calcularse el estadístico de prueba:

47
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA CALCULAR EL


ESTADÍSTICO DE PRUEBA Fc EN s12
Fc =
POBLACIONES CON DISTRIBUCIÓN s 22
NORMAL

donde el numerador es siempre mayor que el denominador y el resultado tiene


una distribución F de Fisher con (n1 − 1) grados de libertad en el numerador y
(n2 − 1) grados de libertad en el denominador.
4. Determinar el nivel de significancia α de la prueba, así como la ubicación y el
valor de la región de rechazo de la hipótesis nula H 0 .
5. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

Una vez que se concluye si las varianzas de ambas poblaciones son estadísticamente
iguales o diferentes, se tienen elementos construir intervalos de confianza y hacer
pruebas sobre sus medias.

2) INTERVALOS DE CONFIANZA

Como ya se ha dicho, la expresión para construir un intervalo de confianza para la


diferencia entre las medias de dos poblaciones depende del resultado de la prueba de
Leveane. De acuerdo a ella:

VARIANZAS IGUALES VARIANZAS DIFERENTES


σ 12 = σ 22 σ 12 ≠ σ 22
⎡ 1 1 ⎤ ⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα1 + n2 − 2 ) ⋅ Sp + ⎥ ( n1 + n2 − 2 )
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1−α ⋅ + ⎥
⎣ n1 n2 ⎦
⎣⎢ n1 n2 ⎥⎦
2 2

Y sus resultados se interpretan de la siguiente forma:

VALORES RESULTANTES INTERPRETACIÓN


Valores negativos µ1 < µ 2
Valores positivos µ1 > µ 2
Valores negativos y positivos
µ1 = µ 2
(que incluyen al cero)

3) PRUEBA t

Cubiertos los anteriores requisitos, es está la prueba que debe utilizarse para
comparar dos poblaciones a través de sus medias:

a) Hipótesis nula y región de rechazo

La comparación de medias poblacionales que esta prueba realiza permite no


sólo establecer si son diferentes, sino también si alguna es mayor que otra,
motivo por el cual las hipótesis que pueden plantearse son:

48
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2

Según sea el caso y de acuerdo a la significancia α , la región de rechazo para


la hipótesis nula H 0 será:

HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα1 + n2 − 2) t1(−nα1 + n2 − 2 )
2 2

H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2

REGIÓN DE
1-α
RECHAZO DE
H0 α

PRUEBA − t1(−nα1 + n2 − 2)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α

REGIÓN DE 1-α
RECHAZO DE
α
H0

t1(−nα1 + n2 − 2 )

El valor en donde inicia la región de rechazo se obtiene mediante las expresiones


t1(−nα1 + n2 − 2 ) si es bilateral o t1(−nα1 + n2 − 2 ) si es unilateral. Para encontrarlo, se busca en
2
las tablas de la distribución t los grados de libertad3 y se intersecta con la
confiabilidad buscada, que depende del tipo de prueba. Finalmente, se agrega un
signo negativo si la región de rechazo (o una parte) se encuentra en la sección
inferior del eje de las X .

3
Como puede verse, los grados de libertad es igual a la suma de los dos tamaños de muestra menos dos.

49
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

b) Procedimiento para el contraste de hipótesis

1. Teniendo las muestras de tamaño n1 y n 2 , obtener sus medias muestrales x1


y x2 .
2. Dependiendo del resultado de la prueba de Leveane, calcular el estadístico de
prueba:

VARIANZAS IGUALES VARIANZAS DIFERENTES


σ =σ
2
1
2
2 σ 12 ≠ σ 22
x1 − x 2
tc =
1 1
Sp +
n1 n2
Donde Sp es un promedio de las x1 − x 2
tc =
varianzas muestrales s12 y s 22 , ponderado s12 s 22
+
por los tamaños de las muestras n1 y n2 n1 n2
que se calcula de la siguiente forma:
(n1 − 1)s12 + (n2 − 1)s 22
Sp =
n1 + n2 − 2

que tiene una distribución t de student con n1 + n2 − 2 grados de libertad.


3. Determinar el nivel de significancia α de la prueba, así como la ubicación y el
valor de la región de rechazo de la hipótesis nula H 0 .
4. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

3) EJEMPLOS DE APLICACIÓN

1. Los siguientes datos de estatura en centímetros pertenecen a dos muestras


aleatorias (femenina y masculina) de estudiantes de la ENAH. Suponga distribución
normal en sus poblaciones.

MUJERES
157 181 158 152 160 160 163 155
156 153 170 152 160 170 170 158
HOMBRES
173 182 165 165 176 173 180

Con una significancia de α = 0.05 :

a) ¿es posible inferir que la varianza de estatura femenina es diferente a la masculina


en los estudiantes de la ENAH?
b) ¿es posible concluir que la estatura media femenina es menor que la masculina en
estas poblaciones?
c) construir un intervalo para la diferencia de medias al 95% de confianza.

50
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

DATOS GENERALES
MUJERES n = 16 x = 160.94 s = 8.05 , Población 1
HOMBRES n=7 x = 173.43 s = 6.65 , Población 2

HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22

REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−160.−051, 7 −1) = F0(.15
95
,6)
= 3.94

EXPRESIÓN PARA s12


Fc = 2
ESTADÍSTICO DE PRUEBA Fc s2
CÁLCULO DEL
Fc =
(8.05)2 = 1.47
ESTADÍSTICO DE PRUEBA Fc (6.65)2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , Como el estadístico de prueba Fc = 1.47 está fuera de la región de rechazo que

975 = 5.27 , la hipótesis nula H 0 : σ 1 = σ 2 no se rechaza y puede inferirse


inicia en F0(.15 ,6) 2 2

que la varianza de la estatura en estas dos poblaciones no es significativamente


( p > 0.05) diferente.
Teniendo el resultado de la prueba de Leveane, es posible comparar las medias con la
prueba t :

HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2

REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 −2 ) = −t1(−160.+057 −2 ) = −t 0(.2195) = −1.7207

51
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
EXPRESIÓN PARA tc =
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2

Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp

Sp =
(16 − 1)(8.05)2 + (7 − 1)(6.65)2 = 7.68
16 + 7 − 2
160.94 − 173.43
CÁLCULO DEL tc = = −3.59
ESTADÍSTICO DE PRUEBA t c 1 1
7.86 +
16 7

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

b) , Como el estadístico de prueba t c = −3.59 cae en la región de rechazo que parte

95 = −1.7207 , la hipótesis nula H 0 :µ 1≥ µ 2 se rechaza y puede inferirse que


de − t 0(.21)

estatura femenina es significativamente ( p < 0.05) menor a la masculina en las


poblaciones de estudiantes de la ENAH.

Finalmente, podemos construir el intervalo de confianza para la diferencia de las


medias:

RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−160.+025
7 −2)
= t 0(.21975) = 2.0796
t1(−nα1 + n2 − 2 ) 2
2

EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦
⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢160.94 − 173.43 ∓ 2.0796 ⋅ 7.86 + ⎥
APLICACIÓN ⎣ 16 7 ⎦
µ1 − µ 2 ∈ [− 19.79,−5.19]
INTERPRETACIÓN Valores negativos µ1 < µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que la estatura media
femenina es menor que la masculina en las poblaciones de estudiantes de la ENAH.

52
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

2. Los siguientes datos pertenecen a dos muestras aleatorias de personas


mayores, fumadores y no fumadores, e indican el índice de destrucción de pulmón que
presentaron al morir (el cual es más grande a mayor deterioro pulmonar).

NO FUMADORES
18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9
FUMADORES
16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3
18.6 12.0 24.1 16.5 21.8 16.3 23.4 18.8

Suponga distribución normal y conteste:


a) ¿Es posible inferir que las varianzas poblacionales son diferentes?
b) ¿Es posible afirmar que la destrucción pulmonar es mayor en personas mayores
fumadoras?
c) Construya un intervalo al 95% de confianza para la diferencia de medias.

DATOS GENERALES
NO
n=9 x = 12.43 s = 4.85 , Población 1
FUMADORES
FUMADORES n = 16 x = 17.54 s = 4.48 , Población 2

HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22

REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−90−.05
1,16 −1)
= F0(.895,15) = 2.64

EXPRESIÓN PARA s12


Fc =
ESTADÍSTICO DE PRUEBA Fc s 22
CÁLCULO DEL
Fc =
(4.85)2 = 1.17
ESTADÍSTICO DE PRUEBA Fc (4.48)2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , Como el estadístico de prueba Fc = 1.17 está fuera de la región de rechazo que


inicia en F0(.8975
,15 )
= 3.20 , la hipótesis nula H 0 : σ 12 = σ 22 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.

53
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2

REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 − 2 ) = −t1(−90+.1605− 2) = −t 0(.2395) = −1.7139

RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
EXPRESIÓN PARA tc =
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2

Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp

Sp =
(9 − 1)(4.85)2 + (16 − 1)(4.48)2 = 4.61
9 + 16 − 2
12.43 − 17.54
CÁLCULO DEL tc = = −2.66
ESTADÍSTICO DE PRUEBA t c 1 1
4.61 +
9 16

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

b) , Como el estadístico de prueba t c = −2.66 cae en la región de rechazo que parte

95 = −1.7139 , la hipótesis nula H 0 :µ 1≥ µ 2 se rechaza y puede inferirse que la


de − t 0(.23 )

destrucción pulmonar es significativamente ( p < 0.05) mayor en personas fumadoras.

RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−90+.16025− 2 ) = t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2

EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦

54
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢12.43 − 17.54 ∓ 2.0687 ⋅ 4.61 + ⎥
APLICACIÓN ⎣ 9 16 ⎦
= µ1 − µ 2 ∈ [− 9.08,−1.14]
INTERPRETACIÓN Valores negativos µ1 < µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que la destrucción
pulmonar es más grande en personas mayores fumadoras.

3. Los siguientes de datos de perímetro craneal (mm.) en neonatos (0-24 horas)


fueron obtenidos durante una investigación (1968-1970) en el Valle de Cholula:

HOMBRES
351 365 339 330 335 354
350 356 350 322 331
MUJERES
331 317 330 321 335 329
340 332 320 345 327 335
330 320

Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en el perímetro craneal de estas poblaciones?

HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

HOMBRES: ESTADÍSTICOS DE ORDEN.


X (1) = 322 X (2 ) = 330 X (3) = 331 X (4 ) = 335 X (5 ) = 339 X (6 ) = 350
X (7 ) = 350 X (8 ) = 351 X (9 ) = 354 X (10 ) = 356 X (11) = 365
n = 11 11 − 1
DATOS x = 343.91 s = 13.27 s 2 = 176.09 h= =5
(impar) 2

EXPRESIÓN PARA EL 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
ESTADÍSTICO DE Wc =
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦

2
1 ⎡ 5 ⎤
Wc = a (X (11− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(10)s ⎣ j =1 ⎦

⎡0.5601(365 − 322 ) + 0.3315(356 − 330 ) + 0.2260(354 − 331)⎤


2
1
Wc = ⎢+ 0.1429(351 − 335) + 0.0695(350 − 339 ) ⎥
(10)s 2 ⎣ ⎦

Wc =
1
[1677.08] Wc =
1677.08
= 0.952
(10)176.09 1760.93

55
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.952 W011.05 = 0.850
CONTRASTAR
, El estadístico de prueba Wc = 0.948 no es menor a W011.05 = 0.850 . Por tal motivo, la
hipótesis nula no se rechaza y se infiere que, en la población masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribución normal.

MUJERES: ESTADÍSTICOS DE ORDEN.


X (1) = 317 X (2 ) = 320 X (3 ) = 320 X (4 ) = 321 X (5 ) = 327
X (6 ) = 329 X (7 ) = 330 X (8 ) = 330 X (9 ) = 331 X (10 ) = 332
X (11) = 335 X (12 ) = 335 X (13 ) = 340 X (14 ) = 345
n = 14 h=
14
=7
DATOS x = 329.42 s = 8.02 s 2 = 64.32 (par) 2

EXPRESIÓN PARA EL 2
⎡ h ⎤
ESTADÍSTICO DE Wc =
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )

2
1 ⎡7 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(13)s 2 ⎣ j =1 j , n (14 − j ) ( j )

⎡0.5251(345 − 317 ) + 0.3318(340 − 320 ) + 0.2460(335 − 320 ) ⎤


2

1 ⎢
Wc = + 0.1802(335 − 321) + 0.1240(332 − 327 ) + 0.0727(331 − 329 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(330 − 330 ) ⎥⎦

Wc =
1
[801.85] Wc =
801.85
= 0.959
(13)64.32 813.17

CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.959 W014.05 = 0.874
CONTRASTAR
, El estadístico de prueba Wc = 0.961 no es menor a W014.05 = 0.874 . Por tal motivo, la
hipótesis nula no se rechaza y se infiere que, en la población femenina de la cual
procede esta muestra, la variable perímetro craneal tiene una distribución normal.

56
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Comprobado que ambas poblaciones tienen distribución normal para esta variable,
hacemos la prueba de Leveane:

DATOS GENERALES
HOMBRES n = 11 x = 343.91 s = 13.27 , Población 1
MUJERES n = 14 x = 329.42 s = 8.01 , Población 2

HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22

REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−110.−051,14−1) = F0(.10
95
,13)
= 2.67

EXPRESIÓN PARA s12


Fc =
ESTADÍSTICO DE PRUEBA Fc s 22
CÁLCULO DEL
Fc =
(13.27 )
2
= 2.74
ESTADÍSTICO DE PRUEBA Fc (8.01)2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA Fc CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, Como el estadístico de prueba Fc = 2.74 cae en la región de rechazo que inicia en


F0(.10
95
,13)
= 2.67 . Por tal motivo, la hipótesis nula H 0 : σ 12 = σ 22 se rechaza y puede
inferirse que la varianza del perímetro craneal en estas dos poblaciones es
significativamente ( p < 0.05) diferente.

HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

REGIÓN DE RECHAZO DE H 0 :µ 1= µ 2
1−α t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
α = 0.05 = 0.975 = t 0( .23975) = 2.0687
2 2

57
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

RESULTADO P. LEVEANE H a : σ 12 ≠ σ 22
x1 − x 2
EXPRESIÓN PARA tc =
ESTADÍSTICO DE PRUEBA t c s12 s 22
+
n1 n2
343.91 − 329.42
CÁLCULO DEL tc = = 3.19
ESTADÍSTICO DE PRUEBA t c 13.27 2 8.012
+
11 14

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

b) , Como el estadístico de prueba t c = 3.19 cae en la región de rechazo que parte

975 = 2.0687 , la hipótesis nula H 0 :µ 1= µ 2 se rechaza y puede inferirse que


de t 0(.23 )

existen diferencias significativas ( p < 0.05) por sexo en el perímetro craneal de


neonatos de las poblaciones del Valle de Cholula.

RESULTADO P.
H a : σ 12 ≠ σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
= t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2

EXPRESIÓN ⎡ s12 s 22 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
DE CONFIANZA ⎢⎣ 2 n1 n2 ⎥⎦
⎡ 13.27 2 8.012 ⎤
µ1 − µ 2 ∈ ⎢343.91 − 329.42 ∓ 2.0687 ⋅ + ⎥
APLICACIÓN ⎣⎢ 11 14 ⎥⎦
= µ1 − µ 2 ∈ [5.10,23.88]
INTERPRETACIÓN Valores positivos µ1 > µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que el perímetro craneal
de hombres es mayor que el de mujeres entre los neonatos de esa localidad.

B. COMPARACIÓN EN POBLACIONES CON DISTRIBUCIÓN DESCONOCIDA

B.1) UTILIZANDO DOS MUESTRAS GRANDES

Si de acuerdo a la prueba de Shapiro Wilks no es posible suponer distribución normal


en al menos una de las dos poblaciones, pero las muestras obtenidas de ellas son
mayores a 20 (n1 > 20, n2 > 20 ) , gracias al Teorema Central de Límite pueden
utilizarse las siguientes expresiones para construir intervalos de confianza y comparar
sus medias:

58
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA ENCONTRAR UN


INTERVALO AL (1 − α ) POR CIENTO
DE CONFIANZA PARA µ1 − µ 2 ⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ Z 1−α ⋅ + ⎥
CUANDO LA POBLACIÓN TIENE ⎢⎣ 2 n1 n2 ⎥⎦
DISTRIBUCIÓN DESCONOCIDA PERO
(n1 > 20, n2 > 20)
EXPRESIÓN PARA EL ESTADÍSTICO x1 − x 2
DE PRUEBA Z c EN POBLACIONES Zc =
s12 s 22
CON DISTRIBUCIÓN DESCONOCIDA +
PERO (n1 > 20, n 2 > 20 ) n1 n2

Como es posible ver, el estadístico de prueba es una Z c , el cual tiene una distribución
normal estándar. Debido a ello es que se recurre, una vez más, a las tablas de
distribución normal para obtener los valores correspondientes a la significancia y
confiabilidad de la prueba.

B.2) UTILIZANDO DOS MUESTRAS PEQUEÑAS

En caso de que al menos una de las muestras no sea suficientemente grande


(n < 20) para aplicar el Teorema Central de Límite, la última alternativa es utilizar la
prueba no paramétrica U DE MANN-WHITNEY. Aunque el único requisito para
emplearla es que la variable involucrada sea al menos ordinal, esta prueba no sólo es
menos potente, sino que además es sobre las medianas de las poblaciones y no sobre
sus medias.

a) Hipótesis nula y región de rechazo

Como en otras ocasiones, existen 3 hipótesis nulas posibles para comparar las
medianas de dos poblaciones:
HIPÓTESIS DEL HIPÓTESIS
HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
H inv :M 1< M 2 H 0 :M 1≥ M 2 H a :M 1< M 2
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2

Cuyas regiones de rechazo, respectivamente, son las siguientes:

HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2

PRUEBA
BILATERAL O
DE DOS REGIÓN DE
COLAS RECHAZO DE
1−α H0
2 α/2 1-α/2
U α(n1 ,n2 ) U 1(−nα1 ,n2 )
2 2

PRUEBA H inv :M 1< M 2 H 0 :M 1≥ M 2 H a :M 1< M 2

59
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UNILATERAL
O DE UNA
COLA
1−α REGIÓN DE
RECHAZO DE
H0
α

U α(n1 ,n2 )

H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2

REGIÓN DE
RECHAZO DE
H0
1-α

U 1(−nα1 ,n2 )

Debe dejarse en claro que la forma de la gráfica de esta distribución no es


específicamente tal y acercarse de ella sólo puede afirmarse que no es simétrica.
Los valores que delimitan tales regiones, empero, pueden encontrarse utilizando
(n ,n )
las tablas para la prueba de Mann-Whitney mediante las expresiones U α 1 2 y
2
( n1 , n2 ) ( n1 ,n2 ) ( n1 , n2 )
U 1−α si la prueba es bilateral y con ayuda de U α o U 1−α si la prueba es
2
unilateral. Los valores que tienen una alfa directa se encuentran buscando en los
renglones de n el valor de n1 , posteriormente la significancia de la prueba y por
último intersectar ello con la columna de m, que es el valor de n 2 .
Empero, los que implican encontrar la región de rechazo a la derecha
(1 − α ,1 − α 2 ) deben calcularse a partir de los anteriores mediante la siguiente
fórmula:

EXPRESIÓN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO


EN EL EJE SUPERIOR DE LAS X
PRUEBAS BILATERALES U 1(−nα1 ,n2 ) = n1 ⋅ n2 − U α(n1 ,n2 )
2 2
( n1 , n2 ) ( n1 , n2 )
PRUEBAS UNILATERALES U 1−α = n1 ⋅ n2 − U α

b) Procedimiento de contraste de hipótesis

1. Teniendo los datos X 1 , X 2 , X 3 ,..., X n como muestra de la población 1 y a los


datos Y1 , Y2 , Y3 ,..., Yn como muestra de la población 2, se asignan rangos a todos
los datos considerando como sólo una a ambas muestras.
2. A partir de ello se obtienen los siguientes datos:

DATOS

60
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

n1 Tamaño de la muestra 1.
n2 Tamaño de la muestra 2.
R1 Suma de los rangos de la muestra 1.
R2 Suma de los rangos de la muestra 2.

3. Teniendo eso se calcula el estadístico de prueba:

EXPRESIÓN PARA EL ESTADÍSTICO


DE PRUEBA U c EN POBLACIONES n1 (n1 + 1)
U c = R1 −
CON DISTRIBUCIÓN DESCONOCIDA 2
PERO Y MUESTRAS PEQUEÑAS

4. El valor obtenido se compara con la región de rechazo delimitada por el valor


de U que se obtuvo en las tablas de Mann-Whitney y que depende de la
significancia y los tamaños de las muestras.
5. Finalmente se ubica el estadístico de prueba con respecto a la región de
rechazo de la hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula
H 0 . Si está fuera, concluir con qué significancia o confiabilidad no se rechaza.

c) Ejemplos de aplicación

1. Los siguientes datos corresponden a la altura basion-bregma de cráneos


masculinos y femeninos pertenecientes a los restos óseos hallados en la Cueva de la
Candelaria, Coahuila.

CRÁNEOS MASCULINOS (POBLACIÓN 1)


139 135 146 143 137 147 134 137 142
CRÁNEOS FEMENINOS (POBLACIÓN 2)
131 129 133 127 123 138 129

Si ninguna de las poblaciones tiene distribución normal y utilizamos una significancia


de α = 0.05 , ¿es posible inferir que la altura basion-bregma es menor en los cráneos
femeninos?

CRÁNEOS MASCULINOS RANGO CRÁNEOS FEMENINOS RANGO


139 12 131 5
135 8 129 3.5
146 15 133 6
143 14 127 2
137 9.5 123 1
147 16 138 11
134 7 129 3.5
137 9.5 R2 32
142 13 n2 = 7
R1 104
n1 = 9

HIPÓTESIS

61
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2

REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
2
DISTRIBUCIÓN DESCONOCIDA
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 9(9 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 104 − = 59
2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 59 cae en la región de rechazo que parte de


U 0(9.95,7 ) = 47 . Por ende, la hipótesis nula H 0 :M 1≤ M 2 se rechaza y puede inferirse que
la altura basion-bregma es significativamente ( p < 0.05) menor en los cráneos
femeninos.

2. Siguiendo su estudio, el investigador de los restos óseos de la Cueva de la


Candelaria está interesado en saber si la altura de la nariz presenta un dimorfismo.
Con respecto a esta variable, las poblaciones tampoco tienen una distribución normal.
Con una significancia de α = 0.05 , el investigador se pregunta entonces: ¿es posible
inferir que la altura de la nariz es menor en las mujeres?

CRÁNEOS MASCULINOS (POBLACIÓN 1)


55 51 52 55 53 54.5 53 48 47 54
CRÁNEOS FEMENINOS (POBLACIÓN 2)
48.5 42 46.5 49 47 50 51

CRÁNEOS MASCULINOS RANGO CRÁNEOS FEMENINOS RANGO


55 16.5 48.5 6
51 9.5 42 1
52 11 46.5 2
55 16.5 49 7
53 12.5 47 3.5
54.5 15 50 8

62
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

53 12.5 51 9.5
48 5 R2 37
47 3.5 n2 = 7
54 14
R1 116
n1 = 10

HIPÓTESIS
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2

REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(10
.05
,7 )
= 18 U 1−α = U 0(10
.95
,7 )
= 10 ⋅ 7 − 18 = 52

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 10(10 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 116 − = 61
2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 61 cae en la región de rechazo que parte de


U 0(10
.95
,7 )
= 52 . Por ende, la hipótesis nula H 0 :M 1≤ M 2 se rechaza y puede inferirse que
la altura de la nariz es significativamente ( p < 0.05) menor en los cráneos femeninos.

3. Los siguientes de datos de anchura biacromial en neonatos (0-24 horas) fueron


obtenidos durante una investigación (1968-1970) en el Valle de Cholula.

HOMBRES
102 117 111 104 121 100 115 112
122 100 109 105 120 114
MUJERES
105 111 110 103 110 116 105 112
105 115 109 93 110 105 90 105

63
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en la anchura biacromial de estas poblaciones?

HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

Pero como no sabemos si hay distribución normal en ambas poblaciones, las hipótesis
también podrían ser:

H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2

Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks
para saber qué prueba aplicar:

HOMBRES: ESTADÍSTICOS DE ORDEN.


X (1) = 100 X (2 ) = 100 X (3 ) = 102 X (4 ) = 104 X (5 ) = 105
X (6 ) = 109 X (7 ) = 111 X (8 ) = 112 X (9 ) = 114 X (10 ) = 115
X (11) = 117 X (12 ) = 120 X (13 ) = 121 X (14 ) = 122
n = 14 h=
14
=7
DATOS x = 110.86 s = 7.72 s 2 = 59.60 (par) 2

EXPRESIÓN PARA EL 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
ESTADÍSTICO DE Wc =
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦

2
1 ⎡7 ⎤
Wc = a (X (14− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(13)s ⎣ j =1 ⎦

⎡0.5251(122 − 100 ) + 0.3318(121 − 100 ) + 0.2460(120 − 102 ) ⎤


2

1 ⎢
Wc = + 0.1802(117 − 104 ) + 0.1240(115 − 105) + 0.0727(114 − 109 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(112 − 111) ⎥⎦

Wc =
1
[724.58] Wc =
724.58
= 0.935
(13)59.60 774.80

CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.935 W014.05 = 0.874
CONTRASTAR

64
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

, El estadístico de prueba Wc = 0.935 no es menor a W014.05 = 0.874 . Por tal motivo, la


hipótesis nula no se rechaza y se infiere que, en la población masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribución normal.

MUJERES: ESTADÍSTICOS DE ORDEN.


X (1) = 90 X (2 ) = 93 X (3) = 103 X (4 ) = 105
X (5 ) = 105 X (6 ) = 105 X (7 ) = 105 X (8 ) = 105
X (9 ) = 109 X (10 ) = 110 X (11) = 110 X (12 ) = 110
X (13 ) = 111 X (14 ) = 112 X (15 ) = 115 X (16 ) = 116
n = 16 h=
16
=8
DATOS x = 106.5 s=7 s 2 = 49 (par) 2

EXPRESIÓN PARA EL 2
⎡ h ⎤
ESTADÍSTICO DE Wc =
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )

2
1 ⎡8 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(15)s 2 ⎣ j =1 j , n (16 − j ) ( j )

⎡0.5056(116 − 90) + 0.3290(115 − 93) + 0.2521(112 − 103)


2

1 ⎢
Wc = + 0.1939(111 − 105) + 0.1447(110 − 105) + 0.1005(110 − 105)⎥⎥
2 ⎢
(15)s ⎢
⎣+ 0.0593(110 − 105) + 0.0196(109 − 105) ⎥⎦

Wc =
1
[646.01] Wc =
646.01
= 0.879
(15)49 735

CONTRASTE DE HIPÓTESIS
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.879 W016.05 = 0.887
CONTRASTAR
, El estadístico de prueba Wc = 0.879 es menor a W016.05 = 0.887 . Por tal motivo, la
hipótesis nula se rechaza y se infiere que, en la población fenemina de la cual
procede esta muestra, la variable anchura biacromial no tiene una distribución normal.

Como una de las poblaciones no cumple con el requisito de distribución normal, la


opción para compararlas es la prueba U de Mann-Whitney.

65
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

CRÁNEOS MASCULINOS RANGO CRÁNEOS FEMENINOS RANGO


X (1) = 100 3.5 X (1) = 90 1
X (2 ) = 100 3.5 X (2 ) = 93 2
X (3 ) = 102 5 X (3) = 103 6
X (4 ) = 104 7 X (4 ) = 105 10.5
X (5 ) = 105 10.5 X (5 ) = 105 10.5
X (6 ) = 109 14.5 X (6 ) = 105 10.5
X (7 ) = 111 19.5 X (7 ) = 105 10.5
X (8 ) = 112 21.5 X (8 ) = 105 10.5
X (9 ) = 114 23 X (9 ) = 109 14.5
X (10 ) = 115 24.5 X (10 ) = 110 17
X (11) = 117 27 X (11) = 110 17
X (12 ) = 120 28 X (12 ) = 110 17
X (13 ) = 121 29 X (13 ) = 111 19.5
X (14 ) = 122 30 X (14 ) = 112 21.5
R1 246.5 X (15 ) = 115 24.5
n1 = 14 X (16 ) = 116 26
R2 218.5
n 2 = 16

HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2

REGIÓN DE RECHAZO DE H 0 :M 1= M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(14 ,16 )
.025 = 65 U 1−α (14 ,16 )
= U 0.975 = 14 ⋅ 16 − 65 = 159
2 2

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 14(14 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 246.5 − = 141.5
2

66
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 141.5 no es menor a U 0(14 ,16 )


.025 = 65 , ni mayor a

U 0(14 ,16 )
.975 = 159 . Por ende, está fuera de las regiones de rechazo y la hipótesis nula

H 0 :M 1= M 2 no se rechaza. De esta forma puede inferirse que no existe diferencia


sexual significativa ( p > 0.05) entre la anchura biacromial de neonatos del Valle de
Cholula.

67
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Esquema para inferir sobre la comparación de dos medias


poblacionales

H 0 :µ 1= µ 2 vs. H a :µ 1≠ µ 2
H 0 :µ 1≥ µ 2 vs. H a :µ 1< µ 2
H 0 :µ 1≤ µ 2 vs. H a :µ 1> µ 2

⎡ 1 1 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n −2 ) ⋅ Sp
1 2
+ ⎥
⎣ 2 n1 n2 ⎦
PRUEBA
¿La población DE ¿ H0 :σ = σ ? 2
1
2
2
tiene distribución LEVEANE
normal?
x1 − x2
tc =
1 1
Sp +
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
⎣⎢ n1 n 2 ⎥⎦
2

x1 − x 2
tc =
s12 s 22
+
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ Z 1−α ⋅ + ⎥
⎣⎢ n1 n2 ⎦⎥
2

¿Ambas muestras
son mayores
a 20?
x1 − x 2
Zc =
s12 s 22
+
n1 n2

PRUEBA NO PARAMÉTRICA

U de Mann-Whitney

68
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

COMPARACIÓN DE DOS MUESTRAS PAREADAS

Cuando en una muestra de individuos de tamaño n se mide una característica dos


veces o de dos lados, se dice que se obtienen dos MUESTRAS PAREADAS, siendo
X 1 , X 2 , X 3 ,..., X n los datos de la primera medición y Y1 , Y2 , Y3 ,..., Yn 4 los datos de la
segunda, cuyas respectivas medias poblacionales son µ x y µ y .

A. MUESTRAS PAREADAS DE POBLACIÓN CON DISTRIBUCIÓN NORMAL

A.1) INTERVALO DE CONFIANZA

La expresión para encontrar el intervalo de confianza para la diferencia µ x − µ y es:

EXPRESIÓN PARA ENCONTRAR UN


INTERVALO AL (1 − α ) POR CIENTO DE
⎛ Sd ⎞
CONFIANZA PARA µ x − µ y CUANDO LA µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
⎝ 2 n⎠
POBLACIÓN TIENE DISTRIBUCIÓN
NORMAL

Y sus resultados se interpretan de la siguiente forma:

VALORES RESULTANTES INTERPRETACIÓN


Valores negativos µx < µy
Valores positivos µx > µy
Valores negativos y positivos µx = µy
(que incluyen al cero)

A.2) CONTRASTE DE HIPÓTESIS

a) Hipótesis nula y región de rechazo

Con el afán de comparar las muestras pareadas, las hipótesis que pueden
plantearse son:

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y
H inv :µ x < µ y H 0 :µ x ≥ µ y H a :µ x < µ y
H inv :µ x > µ y H 0 :µ x ≤ µ y H a :µ x > µ y

Según sea el caso y de acuerdo a la significancia α , la región de rechazo para


la hipótesis nula H 0 será:

4
Debe observarse que el tamaño n de ambas muestras tiene que ser igual.

69
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα−1) t1(−nα−1)
2 2

H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2

REGIÓN DE
1-α
RECHAZO DE
H0 α

PRUEBA − t1(−nα−1)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α

REGIÓN DE 1-α
RECHAZO DE
α
H0

t1(−nα−1)

Como en otras poblaciones con distribución normal, el valor en donde inicia la


región de rechazo se obtiene en las tablas para la distribución t mediante las
expresiones t1(−nα−1) o t1(−nα−1) , de acuerdo al tipo de prueba, la significancia y sección
2
en que se encuentra la región de rechazo.

b) Procedimiento para el contraste de hipótesis

1. Teniendo las muestras pareadas de tamaño n , obtener la diferencia d i de


cada par xi − y i : [(d1 = x1 − y1 ), (d 2 = x2 − y 2 ), (d 3 = x3 − y3 ),..., (d n = xn − y n )]
2. Ingresar los resultados en la calculadora como datos y obtener la media d de
las diferencias d i y su desviación estándar Sd .
3. Hecho esto, calcular el estadístico de prueba:

EXPRESIÓN DEL ESTADÍSTICO DE PRUEBA t c PARA LA d


tc =
DIFERENCIA DE MUESTRAS PAREADAS DE UNA Sd
POBLACIÓN CON DISTRIBUCIÓN NORMAL. n
que tiene una distribución t de student con n − 1 grados de libertad.

70
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

4. Determinar el nivel de significancia α de la prueba, así como la ubicación y el


valor de la región de rechazo de la hipótesis nula H 0 .
5. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

A.3) EJEMPLOS DE APLICACIÓN

1. Los siguientes datos corresponden a la estatura estimada a partir de la longitud


del fémur izquierdo y derecho de restos óseos masculinos de la Cueva de La
Candelaria.

ESTATURA A PARTIR DE FÉMUR DERECHO


1648 1614 1657 1616 1618 1616 1597 1591
1597 1640 1595 1580 1603 1646 1700
ESTATURA A PARTIR DE FÉMUR IZQUIERDO
1614 1676 1719 1655 1657 1704 1659 1644
1680 1655 1635 1621 1599 1593 1657

a) Con una significancia de α = 0.05 , ¿es posible inferir que la estatura estimada a
partir de la longitud del fémur izquierdo es mayor que la estimada con el derecho?.
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.

HIPÓTESIS
H inv :µ x < µ y H 0 :µ x ≥ µ y H a :µ x < µ y

DERECHO X i IZQUIERDO Yi DIFERENCIA d i = X i − Yi


X 1 = 1648 Y1 = 1614 d1 = (1648 − 1614 ) = 34
X 2 = 1614 Y2 = 1646 d 2 = (1614 − 1646) = −62
X 3 = 1657 Y3 = 1719 d 3 = (1657 − 1719) = −62
X 4 = 1616 Y4 = 1655 d 4 = (1616 − 1655) = −39
X 5 = 1618 Y5 = 1657 d 5 = (1618 − 1657 ) = −39
X 6 = 1616 Y6 = 1704 d 6 = (1616 − 1704 ) = −88
X 7 = 1597 Y7 = 1659 d 7 = (1597 − 1659) = −62
X 8 = 1591 Y8 = 1644 d 8 = (1591 − 1644 ) = −53
X 9 = 1597 Y9 = 1680 d 9 = (1597 − 1680) = −83
X 10 = 1640 Y10 = 1655 d10 = (1640 − 1655) = −15
X 11 = 1595 Y11 = 1635 d11 = (1595 − 1635) = −40
X 12 = 1580 Y12 = 1621 d12 = (1580 − 1621) = −41
X 13 = 1603 Y13 = 1599 d13 = (1603 − 1599) = 4
X 14 = 1646 Y14 = 1593 d14 = (1646 − 1593) = 53
X 15 = 1700 Y15 = 1657 d15 = (1700 − 1657 ) = 43

DATOS d = −30 Sd = 44.60 n = 15

71
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

REGIÓN DE RECHAZO DE H 0 :µ x ≥ µ y
α = 0.05 − t1(−nα−1) = −t1(−150−.051) = −t 0(14
.95 = −1.7613
)

d
EXPRESIÓN PARA tc =
Sd
ESTADÍSTICO DE PRUEBA t c
n
− 30
CÁLCULO DEL tc = = −2.61
44.60
ESTADÍSTICO DE PRUEBA t c
15

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , Como el estadístico de prueba t c = −2.61 cae en la región de rechazo que inicia

.95 = −1.7613 , la hipótesis nula H 0 :µ x ≥ µ y se rechaza y puede inferirse que la


en − t 0(14 )

estatura estimada a partir de la longitud del fémur izquierdo es significativamente


( p < 0.05) mayor que la estimada con el derecho.

CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
( n −1)
VALOR DE t1−α (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t .14975 = 2.1448
2 2

⎛ 44.60 ⎞
APLICACIÓN µ x − µ y ∈ ⎜ − 30 ∓ 2.1448 ⋅ ⎟ = (− 54.70,−5.30)
⎝ 15 ⎠
INTERPRETACIÓN Valores negativos µx < µy
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur izquierdo es mayor que la media de la estatura estimada con el
derecho.

2. Los siguientes datos corresponden también a la estatura estimada a partir de la


longitud del fémur izquierdo y derecho, pero es de restos óseos femeninos de la
Cueva de La Candelaria.

72
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

ESTATURA A PARTIR DE FÉMUR DERECHO


1538 1569 1557 1504 1580 1510
1573 1617 1510 1563 1549
ESTATURA A PARTIR DE FÉMUR IZQUIERDO
1565 1553 1559 1540 1534 1559
1573 1586 1559 1516 1506

a) Con una significancia de α = 0.05 , ¿es posible inferir también diferencias entre la
estatura estimada dependiendo del fémur que sea utilizado?
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.

HIPÓTESIS
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y

DERECHO X i IZQUIERDO Yi DIFERENCIA d i = X i − Yi


X 1 = 1538 Y1 = 1565 d1 = (1538 − 1565) = −27
X 2 = 1569 Y2 = 1553 d 2 = (1569 − 1553) = 16
X 3 = 1557 Y3 = 1559 d 3 = (1557 − 1559) = −2
X 4 = 1504 Y4 = 1540 d 4 = (1504 − 1540 ) = −36
X 5 = 1580 Y5 = 1534 d 5 = (1580 − 1534 ) = 46
X 6 = 1510 Y6 = 1559 d 6 = (1510 − 1559) = −49
X 7 = 1573 Y7 = 1573 d 7 = (1573 − 1573) = 0
X 8 = 1617 Y8 = 1586 d 8 = (1617 − 1586) = 31
X 9 = 1510 Y9 = 1559 d 9 = (1510 − 1559) = −49
X 10 = 1563 Y10 = 1516 d10 = (1563 − 1516) = 47
X 11 = 1549 Y11 = 1506 d11 = (1549 − 1506 ) = 43

DATOS d = 1.82 Sd = 37.66 n = 11

REGIÓN DE RECHAZO DE H 0 :µ x = µ y

α = 0.05 t1(−nα−1) = t1(−110−.025


1)
= t 0(10
.975 = 2.2281
)
2

d
EXPRESIÓN PARA tc =
Sd
ESTADÍSTICO DE PRUEBA t c
n
1.82
CÁLCULO DEL tc = = 0.16
37.66
ESTADÍSTICO DE PRUEBA t c
11

73
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

a) , Como el estadístico de prueba t c = 0.16 está fuera de las dos regiones de


rechazo, la hipótesis nula H 0 :µ x = µ y no se rechaza y puede inferirse que, sin
importar qué fémur se ocupe (a diferencia de los hombres), la estatura estimada es
significativamente ( p > 0.05) igual en las mujeres.

CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (11 − 1) = 10 g.l. t1(−nα−1) = t .10975 = 2.2281
2 2

⎛ 3766 ⎞
APLICACIÓN µ x − µ y ∈ ⎜1.82 ∓ 2.2281 ⋅ ⎟ = (− 23.48,27.12)
⎝ 11 ⎠
Valores negativo y positivo µx = µy
INTERPRETACIÓN
(incluye al cero)
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur derecho es igual que la media de la estatura estimada con el
izquierdo.

B. MUESTRAS PAREADAS DE POBLACIÓN SIN DISTRIBUCIÓN NORMAL

Si no es posible asumir distribución normal en las dos mediciones, la alternativa es


aplicar una versión de la prueba de Wilcoxon para comparar las muestras pareadas.

B.1) TEORÍA

Al igual que en la versión que vimos con anterioridad, en esta prueba hay que calcular
las diferencias d i de los datos, pero en vez de restar al dato un valor hipotético, los
valores se restan entre ellos (como en la prueba para poblaciones con distribución
normal): xi − y i : [(d 1 = x1 − y1 ), (d 2 = x 2 − y 2 ), (d 3 = x3 − y 3 ),..., (d n = x n − y n )].
Una vez que se tiene esto, tal y como lo hicimos en la prueba de Wilcoxon, hay que
obtener el valor absoluto d i de cada d i , marcando si su origen fue positivo o
negativo y eliminando las diferencias que sean igual a cero del total de n .

Xi Yi d i = ( X i − Yi ) d i signo
X1 Y1 d1 = ( X 1 − X 1 )
X2 Y2 d 2 = (X 2 − X 2 )

74
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

X3 Y3 d3 = (X 3 − X 3 )
(...) (...) (...)
Xn Yn d n = (X n − X n )

Como en la prueba normal de Wilcoxon, son esas diferencias en valor absoluto a las
que se asigna un rango:

Valor Rangos de d i Rangos de d i


d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo

Dependiendo si el d i del que provienen era positivo o negativo, los rangos de cada
d i se distinguen para obtener los siguientes datos:

DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo

T− Suma de los valores de los rangos de d i que provienen de d i negativo.


T∗ Valor menor entre T + y T − .

Ahora bien, De acuerdo al tipo de hipótesis nula H o es que se utilizará una de estas
T y se le comparará con una T de las tablas de Wilcoxon.

TIPO DE HIPÓTESIS H o H 0 :µ x = µ y H 0 :µ x ≥ µ y H 0 :µ x ≤ µ y
n
Tα Tαn Tαn
2
T DE TABLAS Donde n es el número total de d i ≠ 0
CORRESPONDIENTE PARA
ESTADÍSTICO DE PRUEBA y
α o α 2 es el valor de la significancia

En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hipótesis


nula H o se rechaza. En otras palabras:

TIPO DE HIPÓTESIS H o H o SE RECHAZA SI:


H 0 :µ x = µ y T ∗ ≤ Tαn
2

H 0 :µ x ≤ µ y −
T ≤ Tα n

H 0 :µ x ≥ µ y T + ≤ Tαn

B.2) EJEMPLOS DE APLICACIÓN

1. En un estudio realizado en hombres de 12 a 16 años por la NHCS se registró,


primero, la estatura que los sujetos afirmaban tener (reportadas) y, después, la que se

75
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

obtuvo por medición. Suponiendo que esta población no tiene distribución normal y
con una significancia de α = 0.05 , ¿es posible afirmar que existen diferencias entre la
estatura reportada y la medida?

HIPÓTESIS
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y

Reportadas X i Medidas Yi d i = ( X i − Yi ) d i signo


X 1 = 68 Y1 = 67.9 d1 = (68 − 67.9 ) = 0.1 0.1+
X 2 = 71 Y2 = 69.9 d 2 = (71 − 69.9) = 1.1 1.1+
X 3 = 63 Y3 = 64.9 d 3 = (63 − 64.9 ) = −1.9 1.9-
X 4 = 70 Y4 = 68.3 d 4 = (70 − 68.3) = 1.7 1.7+
X 5 = 71 Y5 = 70.3 d 5 = (71 − 70.3) = 0.7 0.7+
X 6 = 60 Y6 = 60.6 d 6 = (60 − 60.6) = −0.6 0.6-
X 7 = 65 Y7 = 64.5 d 7 = (65 − 64.5) = 0.5 0.5+
X 8 = 64 Y8 = 67 d 8 = (64 − 67 ) = −3.0 3.0-
X 9 = 54 Y9 = 55.6 d 9 = (54 − 55.6) = −1.6 1.6-
X 10 = 63 Y10 = 74.2 d10 = (63 − 74.2) = −11.2 11.2-
X 11 = 66 Y11 = 65 d11 = (66 − 65) = 1 1+
X 12 = 72 Y12 = 70.8 d12 = (72 − 70.8) = 1.2 1.2+

Valor Rangos de d i Rangos de d i


d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo
0.1+ 0.1+ 1 1 1
1.1+ 0.5+ 2 2 2
1.9- 0.6- 3 3 3
1.7+ 0.7+ 4 4 4
0.7+ 1+ 5 5 5
0.6- 1.1+ 6 6 6
0.5+ 1.2+ 7 7 7
3.0- 1.6- 8 8 8
1.6- 1.7+ 9 9 9
11.2- 1.9- 10 10 10
1+ 3.0- 11 11 11
1.2+ 11.2- 12 12 12

DATOS
+
T = 34 −
T = 44 T ∗ {34,44} = 34 n = 12

CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS
H 0 :µ x = µ y
Ho

76
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

T DE TABLAS
CORRESPONDIENTE Tαn
PARA ESTADÍSTICO 2
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T ∗ ≤ Tαn
2
HIPÓTESIS
VALORES FINALES Tαn = T012.025 = 14
A CONTRASTAR T ∗ = 34 2

, Para este caso, el valor de T ∗ = 34 no es menor a la T de tablas T012.025 = 14 , motivo


por el cual la hipótesis nula H 0 :µ x = µ y no se rechaza y puede inferirse que no
existen diferencias significativas ( p > 0.05) entre la estatura reportada y la medida en
esta investigación.

COMPARACIÓN DE MÁS DE DOS MEDIAS POBLACIONALES

Cuando lo que se necesita es comparar más de dos poblaciones, veremos que lo


primero que debe hacerse es una prueba para averiguar si sus medias poblacionales
son iguales. En caso de que no, se aplica otro contraste de hipótesis para distinguir las
que son diferentes.

A. POBLACIONES CON DISTRIBUCIÓN NORMAL

1) PRUEBA ANOVA

Como sus siglas en inglés lo dicen (Analysis Of Variance), la prueba ANOVA consiste
en comparar la varianza que se da entre poblaciones con la que se da dentro de cada
población.
Con tal fin, lo primero que debe hacerse es organizar los datos de las k muestras
(aquí estipulados con dos subíndices, el primero de la muestra de la cual proviene X i
y el segundo del número de dato X j ) y obtener los siguientes datos:

MUESTRA X i
k 1 2 3 … K
X 11 X 21 X 31 … X k1
X 12 X 22 X 32 … X k2
DATO
Xj X 13 X 23 X 33 … X k3
… … … … …
X 1k X 2k X 3k … X knk
TOTALES n n n n
T1 = ∑ X 1 j T2 = ∑ X 2 j T3 = ∑ X 3 j … Tk = ∑ X kj
Ti i =1 i =1 i =1 i =1
TAMAÑO
n1 n2 n3 … n nk
MUESTRA
n = n1 + n2 + n3 + ... + nk

77
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Como podemos ver, n es aquí igual al número total de elementos de todas las
muestras y cada total Ti es igual a la suma de los datos de cada muestra.
Si bien obtener estos datos es relativamente sencillo, faltan aún dos datos que se
necesitarán para el estadístico de prueba:

DATOS GENERALES
Valor que es igual al de la suma de los totales de cada muestra
∑∑ X ij
(∑ )
Ti y que puede obtenerse ingresando en el modo estadístico
de la calculadora todos los datos y apretando la tecla ∑x.
Valor que se obtiene igual que el anterior pero mediante la tecla
∑∑ X 2
ij
∑ x2 .
Es la desviación estándar que obtiene la calculadora de todos los
s
datos ingresados.
a) Hipótesis nula, estadístico de prueba y región de rechazo
Como las medias de las k poblaciones son µ1 , µ 2 , µ 3 ,..., µ k , las hipótesis a
contrastar son:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 = ... = µ k H a : Al menos una µ i es diferente

El punto es que, debido a la naturaleza de esta prueba, el estadístico para el


contraste de hipótesis es más complejo que en pruebas anteriores, pues se
construye a partir de la siguiente tabla de análisis de varianza:

TABLA DE ANÁLISIS DE VARIANZA


Grados Cuadrados
Fuente de Estadístico
de Suma de cuadrados medios
variabilidad de prueba
libertad (varianza)
T 2 (∑ ∑ X ij )
2
Entre
(k − 1)
k SC e
SCt = ∑ i − CM e =
muestras (k − 1) CM e
i =1 ni n Fc =
Dentro de
muestras
(n − k ) SC d = SC t − SC e CM d =
SCd
(n − k )
CM d

Total (n − 1) SCt = ∑ ∑ X ij
2

(∑ ∑ X )
ij
2

Definamos cómo establecer los términos de algunas expresiones y su desarrollo:


DATOS CÁLCULO
(k − 1) Se obtiene restando
muestras/poblaciones.
uno al número de

(n − 1) Se calcula restando uno al número total de elementos


de todas las muestras.
(n − k ) Se obtiene restando (n − 1) - (k − 1)
k
Ti 2 Cada total Ti de muestra se eleva al
∑ cuadrado y se divide entre su tamaño
Ti 2 (∑∑ X ij ) i =1 ni
2
k
muestral.
SCt = ∑ − …esos resultados se suman y a ello se le resta…
i =1 ni n
(∑∑ X ij )2 El valor obtenido con la tecla x, ∑
n elevado al cuadrado y dividido entre la n

78
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎡ (∑ x )2 ⎤
total: ⎢ ⎥.
⎢⎣ n ⎥⎦
Si bien esta dato puede obtenerse en la calculadora
restando al valor de ∑
x 2 el valor de ∑
x , elevado al

(∑ ∑ X ) 2 ⎡ (∑ x) ⎤
2

SCt = ∑ ∑ X ij
2
− ij
cuadrado y dividido entre la n total: ⎢∑ x −
2
⎥,
n ⎢⎣ n ⎥

es más fácil calcularlo con la siguiente expresión:
SC t = (n − 1)s 2 5.
Como se ve en la tabla, los cuadrados medios entre
CM e =
SCe
CM d =
SCd muestras y dentro de ellas son fáciles de calcular, pues
(k − 1) (n − k ) simplemente se divide su respectiva suma de
cuadrados entre sus grados de libertad.
CM e Finalmente, el estadístico de prueba se obtiene
Fc = dividiendo los cuadrados medios entre muestras entre
CM d los cuadrados medios dentro de las muestras.

Este estadístico de prueba tiene una distribución F de Fisher, por lo cual el valor
de inicio de la región de rechazo para la hipótesis nula se encuentra mediante la
expresión F1(−kα−1,n − k ) , donde los grados de libertad son (k − 1) en el numerador y
(n − k ) en el denominador.
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = ... = µ k

F1(−kα−1,n − k )

Cuando en la prueba ANOVA se ha rechazado la hipótesis nula de que todas las


medias poblacionales son iguales (H 0 : µ1 = µ 2 = µ 3 = ... = µ k ) , existen varias
pruebas de contraste múltiple que se aplican a posteriori para encontrar las
medias que difieren; por ejemplo, la prueba de Sheffé, la de Duncan, de Bon
Ferroni y la de Tukey, que veremos a continuación.

2) PRUEBA DE TUKEY

Como ya se dijo, esta es una prueba post-hoc de contraste múltiple en la cual se va


comparando parejas de medias poblacionales.

a) Hipótesis nula estadístico de prueba y rechazo.

5
Porque s =
2
∑∑ SC t .

79
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Teniendo k poblaciones, se establece una hipótesis nula y su alternativa para ir


comparando parejas hasta contrastarlas todas:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µi = µ j H a : µi ≠ µ j

Esto implica que el número de pruebas a realizar es igual a la combinación de


k C 2 , por ejemplo:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 H a : µ1 ≠ µ 2
H 0 : µ1 = µ 3 H 0 : µ1 ≠ µ 3
H 0 : µ1 = µ k H 0 : µ1 ≠ µ k
Al usarse una prueba post-hoc, el contraste de estas hipótesis depende de un
estadístico de prueba de DIFERENCIAS VERDADERAMENTE
SIGNIFICATIVAS, llamado DVS c , el cual depende de un dato de la prueba
ANOVA:

EXPRESIÓN PARA CALCULAR EL


ESTADÍSTICO DE PRUEBA DVS c EN CM d
DVS c = qα ,k ,n − k
POBLACIONES CON DISTRIBUCIÓN n*
NORMAL

Donde qα ,k ,n − k es un dato que se halla en las tablas de Tukey o de “Puntos


porcentuales del rango corregido de Student para 2 a 20 tratamientos”, donde la
significancia α son los puntos superiores [(α = 0.05 = 5% ), (α = 0.01 = 1% )] , k
son el número de muestras/poblaciones y (n − k ) los grados de libertad que
encontramos dentro de las muestras en la prueba ANOVA.
Por su parte CM d son también los varianzas (cuadrados medios) dentro de las
muestras (o el número de elementos totales menos el número de poblaciones) y
n * es el valor mínimo entre los dos tamaños de muestra comparadas
( {
n* = mínimo ni , n j . })
Si el valor del DVS c es mayor a la diferencia absoluta de las medias de las dos
muestras comparadas, la hipótesis nula se rechaza. Es decir:

H 0 : µi = µ j Se rechaza si X i − X j > DVS c

Por último, la forma más metódica de comprobar esto es organizando los datos
en una tabla como la que se muestra a continuación:

H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c

H 0 : µi = µ j (n* = mínimo{n , n })i j Xi − X j qα , k , n − k


CM d
= DVS c </>
n*

80
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

3) EJEMPLOS DE APLICACIÓN

1. Los siguientes datos corresponden, en una escala del 0 al 10, a la


autopercepción de discriminación en 3 grupos de personas de edad mayor.
Suponiendo distribución normal en todas las poblaciones y con una significancia de
α = 0.05 , ¿es posible afirmar que la percepción de discriminación es diferente según
el grupo de edad?

60-64 AÑOS
7 2 1 8 5 5 1 8 5 3 5
70-74 AÑOS
9 9 5 5 2 10 7
80-84 AÑOS
6 6 10 5 6 10 4 8 1 8

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 H a : Al menos una µ i es diferente

Organicemos los datos:

MUESTRA X i
k =3 1. 60-64 AÑOS 2. 70-74 AÑOS 3. 80-84 AÑOS
7 9 6
2 9 6
1 5 10
8 5 5
DATO 5 2 6
Xj 5 10 10
1 7 4
8 8
5 1
3 8
5
TOTALES
T1 = 50 T2 = 47 T3 = 64
Ti
TAMAÑO n3 = 10
n1 = 11 n2 = 7
MUESTRA
n = 11 + 7 + 10 = 28

DATOS GENERALES
∑∑ X ij = 161 ∑∑ X 2
ij = 1135 s = 2.78

Y calculemos el estadístico de prueba:

81
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

TABLA DE ANÁLISIS DE VARIANZA


Fuente de Cuadrados
Grados de Estadístico
variabilida Suma de cuadrados medios
libertad de prueba
d (varianza)
50 2 47 2 64 2
SC e = + + 26.69
CM e =
Entre
muestras
(3 − 1) = 2 2
11 7 10
2
161
− = 26.69 = 13.35 Fc =
13.35
28 7.28
181.98 = 1.83
SC d = 208.67 − 26.69 CM d =
Dentro de
muestras
(27 − 2) = 25 25
= 181.98 = 7.28

SC t = (28 − 1)2.78 2
Total (28 − 1) = 27
= 208.67

REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 05 = F0.95
F1−( 20,.25 ) ( 2 , 25 )
= 3.39

, El estadístico de prueba Fc = 1.83 está fuera de la región de rechazo que inicia en


F0(.95
2 , 25 )
= 3.39 . Por tal motivo, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 no se rechaza y
puede afirmarse que no existen diferencias en la percepción de discriminación entre
estos grupos de personas de edad mayor.
2. Los siguientes valores corresponden al diámetro transverso máximo de
cráneos de hombres egipcios de distintas épocas. Si los cambios en la forma de la
cabeza a lo largo del tiempo sugieren mestizaje, suponiendo distribución normal en las
poblaciones y con una significancia de α = 0.05 , ¿es posible comprobar que hubo
mestizaje en estas poblaciones?

4000 a.C.
131 138 125 129 132 135 132
1850 a.C.
129 134 136 137 137 129 136 138 134
150 d.C.
128 138 136 139 141 142 145 137

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 H a : Al menos una µ i es diferente

MUESTRA X i
k =3 1. 4000 a.C. 2. 1850 a.C. 3. 150 d.C.
DATO 131 129 128

82
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Xj 138 134 138


125 136 136
129 137 139
132 137 141
135 129 142
132 136 145
138 137
134
TOTALES
T1 = 922 T2 = 1210 T3 = 1106
Ti
TAMAÑO n3 = 8
n1 = 7 n2 = 9
MUESTRA
n = 7 + 9 + 8 = 24

DATOS GENERALES
∑∑ X ij = 3238 ∑∑ X 2
ij = 437396 s = 4.83

TABLA DE ANÁLISIS DE VARIANZA


Fuente de Cuadrados
Grados de Estadístico
variabilida Suma de cuadrados medios
libertad de prueba
d (varianza)
922 2 1210 2 1106 2
SC e = + + 162.68
7 9 8 CM e =
Entre
muestras
(3 − 1) = 2 3238 2
2
− = 162.68 = 81.34 81.34
24 Fc =
17.80
373.88 = 4.57
CM d =
Dentro de (23 − 2) = 21 SC d = 536 . 56 − 162 . 68 25
muestras = 373.88 = 17.80

(24 − 1) = 23 SC t = (24 − 1)4.83 2


Total
= 536.56

REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 05 = F0.95
F1(−20,.25 ) ( 2 , 21)
= 3.47

, El estadístico de prueba Fc = 4.57 cae en la región de rechazo que inicia en


F0(.95
2 , 21)
= 3.47 . Por tal motivo, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 se rechaza y puede
afirmarse que existen diferencias entre las medias del diámetro transverso máximo de
los cráneos de estas tres poblaciones y que hubo mestizaje.

83
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Por tal motivo, para distinguir qué medias son diferentes es necesario aplicar la prueba
de Tukey. Establezcamos primero los datos que obtuvimos de las muestras:

TOTAL TAMAÑO DE
MUESTRA MEDIA MUESTRAL
Ti MUESTRA
1. 4000 a.C. T1 = 922 n1 = 7 X 1 = 922 = 131.71
7
2. 1850 a.C. T2 = 1210 n2 = 9 X 2 = 1210 = 134.44
9
3. 150 d.C. T3 = 1106 n3 = 8 X 3 = 1106 = 138.25
8
k =3 n = 24

Y ahora el valor constante que tendrá el coeficiente para calcular el DVS c :

VALOR DE COEFICIENTE qα ,k ,n − k
α = 0.05 = 5% k =3 (n − k ) = (24 − 3) = 21 qα ,k ,n − k = q 0.05,3, 21 = 3.58
Ahora contrastemos las hipótesis necesarias:

H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c

n* = {7,9} = 7
17.80
H 0 : µ1 = µ 2 131.71 − 134.44 = 2.73 3.58 = 5.71 2.73 < 5.71
7

n* = {7,8} = 7
17.80
H 0 : µ1 = µ 3 131.71 − 138.25 = 6.54 3.58 = 5.71 6.54 > 5.71
7

n* = {9,8} = 8
17.80
H 0 : µ2 = µ3 134.44 − 138.25 = 3.81 3.58 = 5.34 3.81 < 5.34
8
, Al contrario de las hipótesis H 0 : µ1 = µ 2 y H 0 : µ 2 = µ 3 , la hipótesis nula H 0 : µ1 = µ 3 sí se
rechaza, por lo cual existe una diferencia significativa ( p < 0.05) entre las medias de la primera
y la tercera población. Ello indica que no pueden percibirse cambios entre poblaciones
continuas, pero sí entre la población más antigua y la más reciente.

B. POBLACIONES SIN DISTRIBUCIÓN NORMAL

1) PRUEBA DE KRUSKAL-WALLIS

Cuando el supuesto de normalidad no se cumple en al menos una de las poblaciones,


ésta es la alternativa a la prueba ANOVA.

a) Hipótesis nula, estadístico de prueba y región de rechazo

Igual que en la prueba ANOVA, las hipótesis a contrastar son:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 = ... = µ k H a : Al menos una µ i es diferente

84
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Empero, el estadístico de prueba aquí es mucho más sencillo, pues para su


cálculo requiere tan sólo de los tamaños muestrales (ni ) , el número total de
elementos (n ) y los rangos asignados a todos los datos como si fueran una sola
muestra (Ri ) :

EXPRESIÓN PARA CALCULAR


EL ESTADÍSTICO DE PRUEBA 12 ⎛ R12 R22 R32 Rk2 ⎞
Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
H c EN POBLACIONES SIN n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
DISTRIBUCIÓN NORMAL

Como este estadístico de prueba tiene una distribución ji-cuadrada, el valor de


inicio de la región de rechazo de la hipótesis nula se encuentra en las respectivas
tablas mediante la expresión χ 12−(αk −1) , donde (k − 1) son los grados de libertad:
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = ... = µ k

χ 12−(αk −1)

Dado el caso que la hipótesis nula se rechace en esta prueba y haya que distinguir
qué medias difieren, la prueba para comparar medias poblacionales por parejas es la
U de Mann-Whitney.

2) PRUEBA U DE MANN-WHITNEY

Si bien la prueba U de Mann-Whitney se aplica exactamente igual a como lo vimos en


el tema de “Comparación de 2 medias poblacionales”, lo único que es importante
mencionar es que las hipótesis son sobre medias y que los rangos deben asignarse
cada vez para que se compare una pareja de muestras. Veremos de cualquier forma
un ejemplo.

3) EJEMPLOS DE APLICACIÓN

1. Los siguientes datos corresponden al grado de las heridas en la cabeza que se


registraron en 4 categorías de automóviles:

Sub-compacto 681 428 917 898


Compacto 643 655 442 514 525
Mediano 469 727 525 454 259
Grande 384 656 602 687

Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible inferir diferencias en el grado de las heridas respecto al tipo de
automóvil?

85
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 = µ 4 H a : Al menos una µ i es diferente

Saquemos entonces los datos necesarios:

Subcom. Rango Compacto Rango Mediano Rango Grande Rango


681 14 643 11 469 6 384 2
428 3 655 12 727 16 656 13
917 18 442 4 525 8.5 602 10
898 17 514 7 454 5 687 15
525 8.5 259 1
R1 52 R2 42.5 R3 36.5 R4 40
n1 4 n2 5 n3 5 n4 4
k=4 n = 4 + 5 + 5 + 4 = 18
EXPRESIÓN PARA
CALCULAR EL
ESTADÍSTICO DE
12 ⎛ R12 R22 R32 Rk2 ⎞
PRUEBA H c EN Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
POBLACIONES SIN
DISTRIBUCIÓN
NORMAL
⎛ 52 2 42.5 2 36.5 2 40 2 ⎞
⎟ − 3(18 + 1) = 2.78
12
APLICACIÓN Hc = ⎜ + + +
18(18 + 1) ⎜⎝ 4 5 5 4 ⎟⎠

REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = µ 4
α = 0.05 χ 12−(αk −1) = χ12−(04.−051) = χ 02.(953 ) = 7.815

, El estadístico de prueba H c = 2.78 está fuera de la región de rechazo que inicia


en χ 02.(953 ) = 7.815 ; por ende, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 = µ 4 no se rechaza y
puede inferirse que no existen diferencias significativas ( p > 0.05) en las heridas en
la cabeza que se registran en distintos tipos de automóviles.

2. En un grupo de hombres con lesiones cerebrales se hizo un estudio de


síntomas de fatiga, evaluando sus niveles con la escala de Zung (un instrumento para
medir depresión). Teniendo tres muestras: una muestra de hombres con fatiga, otra
sin fatiga y una de control (todos de la misma edad), se registraron los siguientes
resultados:

MUESTRA CON LESIÓN CEREBRAL Y FATIGA


46 61 51 36 51 45 54
51 69 54 51 38 64

86
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

MUESTRA CON LESIÓN CEREBRAL SIN FATIGA


39 44 58 29 40 48 65 41 46
MUESTRA CONTROL
36 34 41 29 31 26 33

Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible afirmar que esta poblaciones muestran diferencias de acuerdo a
la escala de Zung?

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : µ1 = µ 2 = µ 3 H a : Al menos una µ i es diferente

LC c/fatiga Rango LC s/fatiga Rango Control Rango


46 16.5 39 10 36 7.5
61 26 44 14 34 6
51 20.5 58 25 41 12.5
36 7.5 29 2.5 29 2.5
51 20.5 40 11 31 4
45 15 48 18 26 1
54 23.5 65 28 33 5
51 20.5 41 12.5
69 29 46 16.5
54 23.5
51 20.5
38 9
64 27
R1 259 R2 137.5 R3 38.5
n1 13 n2 9 n3 7
k =3 n = 13 + 9 + 7 = 29

EXPRESIÓN PARA
CALCULAR EL
ESTADÍSTICO DE
12 ⎛ R12 R22 R32 Rk2 ⎞
PRUEBA H c EN Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
POBLACIONES SIN
DISTRIBUCIÓN
NORMAL
⎛ 259 2 137.5 2 38.5 2 ⎞
⎟⎟ − 3(29 + 1) = 13.07
12
APLICACIÓN Hc = ⎜ + +
29(29 + 1) ⎜⎝ 13 9 7 ⎠

REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 χ 12−(αk −1) = χ 12−(03.−051) = χ 02.(952 ) = 5.991

87
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

, El estadístico de prueba H c = 13.07 cae en la región de rechazo que inicia en


χ 02.(952 ) = 5.991 ; por tal motivo la hipótesis nula H 0 : µ1 = µ 2 = µ 3 se rechaza y puede
inferirse que existen diferencias significativas ( p < 0.05) en los resultados de los
grupos de acuerdo a la escala de Zung.

Para encontrar qué medias difieren, apliquemos la prueba U de Mann-Whitney. En ella


los datos serán acomodados ascendentemente para facilitar la asignación de rangos.

HIPÓTESIS
H 0 :µ 1= µ 2 H a :µ 1≠ µ 2

LC C/FATIGA RANGO LC S/FATIGA RANGO


36 2 29 1
38 3 39 4
45 8 40 5
46 9.5 41 6
51 13.5 44 7
51 13.5 46 9.5
51 13.5 48 11
51 13.5 58 18
54 16.5 65 21
54 16.5 R2 82.5
61 19 n2 9
64 20
69 22
R1 170.5
n1 13

REGIÓN DE RECHAZO DE H 0 :µ 1= µ 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,9 )
.05 = 34 U 1−α = U 0(13 ,9 )
.95 = 13 ⋅ 9 − 34 = 83

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 13(13 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 170.5 − = 79.5
2

88
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 79.5 está fuera de la región de rechazo. Por ende, la


hipótesis nula H 0 :µ 1= µ 2 no se rechaza y puede inferirse que no existen diferencias
significativas ( p > 0.05) entre las dos poblaciones con lesiones cerebrales.

HIPÓTESIS
H 0 :µ 1= µ 3 H a :µ 1≠ µ 3

LC C/FATIGA RANGO CONTROL RANGO


36 6.5 26 1
38 8 29 2
45 10 31 3
46 11 33 4
51 13.5 34 5
51 13.5 36 6.5
51 13.5 41 9
51 13.5 R2 30.5
54 16.5 n2 7
54 16.5
61 18
64 19
69 20
R1 179.5
n1 13

REGIÓN DE RECHAZO DE H 0 :µ 1= µ 3
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,7 )
.05 = 25 U 1−α = U 0(13 ,7 )
.95 = 13 ⋅ 7 − 25 = 66

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 13(13 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 179.5 − = 88.5
2

89
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 88.5 cae en la región de rechazo. Por ende, la


hipótesis nula H 0 :µ 1= µ 3 se rechaza y puede inferirse que, según la escala de Zung,
existen diferencias significativas ( p < 0.05) entre los hombres con lesión cerebral que
sufren fatiga y la muestra control.

HIPÓTESIS
H 0 :µ 2 = µ 3 H a :µ 2 ≠ µ 3

LC S/FATIGA RANGO CONTROL RANGO


29 2.5 26 1
39 8 29 2.5
40 9 31 4
41 10.5 33 5
44 12.5 34 6
44 12.5 36 7
58 14 41 10.5
65 15 R2 36
68 16 n2 7
R1 100
n1 9

REGIÓN DE RECHAZO DE H 0 :µ 2 = µ 3
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47

EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
DISTRIBUCIÓN DESCONOCIDA
2
PERO Y MUESTRAS PEQUEÑAS
CÁLCULO DEL 9(9 + 1)
ESTADÍSTICO DE PRUEBA t c
U c = 100 − = 55
2

90
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA U c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba U c = 55 cae en la región de rechazo. Por ende, la


hipótesis nula H 0 :µ 2 = µ 3 se rechaza y también puede inferirse que, según la escala
de Zung, existen diferencias significativas ( p < 0.05) entre los hombres con lesión
cerebral que no tienen fatiga y la muestra control.

, De esta forma podemos comprobar que, de acuerdo a la escala de Zung, no existen


diferencias entre los hombres con lesiones cerebrales que manifiestan fatiga y los que
no, pero estas dos poblaciones si son diferentes a los hombres que no poseen
ninguna lesión cerebral.

COMPARACIÓN DE PROPORCIONES POBLACIONALES

A. COMPARACIÓN DE DOS PROPORCIONES POBLACIONALES

A.1) FUNDAMENTOS

Como en ocasiones anteriores, los siguientes métodos sirven para comparar una
variable cualitativa, pero que ahora se presenta en dos poblaciones (N 1 , N 2 ) ,

obteniendo proporciones p1 =
M1 y p2 =
M2 que buscan compararse.
N1 N2

A.2) CONDICIONES PARA SU COMPARACIÓN

Se puede aplicar una prueba de hipótesis para comparar 2 proporciones poblacionales


siempre y cuando —acorde al Teorema Central de Límite— las muestras y sus
proporciones cumplan con los siguientes supuestos:

1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5


4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5

Cuando tales condiciones no se cumplen, es necesario tomar una muestra más


grande.

A.3) INTERVALO DE CONFIANZA

La expresión para encontrar el intervalo de confianza para la diferencia de 2


proporciones poblacionales p1 − p 2 es:

EXPRESIÓN PARA
ENCONTRAR UN INTERVALO
AL (1 − α ) POR CIENTO DE
⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
CONFIANZA PARA p1 − p 2 ⎝ 2 n1 n2 ⎠
CUANDO LA POBLACIÓN

91
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

TIENE DISTRIBUCIÓN
APROXIMADAMENTE
NORMAL ESTÁNDAR
n1 ⋅ p1 + n 2 ⋅ p 2 m1 + m2
DONDE p= =
n1 + n 2 n1 + n 2

Igual que en otras diferencias, los resultados se interpretan de la siguiente forma:

VALORES RESULTANTES INTERPRETACIÓN


Valores negativos p1 < p 2
Valores positivos p1 > p 2
Valores negativos y positivos
p1 = p 2
(que incluyen al cero)

A.4) CONTRASTE DE HIPÓTESIS

a) Hipótesis nulas y su región de rechazo

Al buscarse comparar dos proporciones poblacionales, las hipótesis a contrastar


son:

HIPÓTESIS DEL HIPÓTESIS


HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
H inv : p1 < p 2 H 0 : p1 ≥ p 2 H a : p1 < p 2
H inv : p1 > p 2 H 0 : p1 ≤ p 2 H a : p1 > p 2

Como dependen de una distribución aproximadamente normal estándar, como


siempre, según sea el caso y de acuerdo a la significancia α , la región de
rechazo para la hipótesis nula H 0 será:

HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2

PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2

PRUEBA H inv : p1 < p 2 H 0 : p1 ≥ p 2 H a : p1 < p 2

92
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UNILATERAL
O DE UNA
COLA
1−α REGIÓN DE
1-α
RECHAZO DE
H0 α

− Z1−α
H inv : p1 > p 2 H 0 : p1 ≤ p 2 H a : p1 > p 2

REGIÓN DE 1-α
RECHAZO DE
α
H0

Z1−α

Por tanto, no hace falta repetir cómo hallar el valor de inicio de la región de
rechazo con base en las tablas de la distribución normal estándar.
b) Procedimiento para el contraste de hipótesis

1. Comprobar los supuestos de la muestra para verificar la factibilidad de la


prueba.
2. Si tales condiciones se cumplen, explicitar la hipótesis del investigador H inv , la
hipótesis nula H 0 y la hipótesis alternativa H a .
3. Calcular el estadístico de prueba que compara el estimador con el valor
hipotético y su variabilidad:

EXPRESIÓN PARA CALCULAR EL pˆ 1 − pˆ 2


Zc =
ESTADÍSTICO DE PRUEBA Z c EN p (1 − p ) p (1 − p )
POBLACIONES CON DISTRIBUCIÓN +
n1 n2
APROXIMADAMENTE NORMAL
ESTÁNDAR
que tiene una distribución aproximadamente normal estándar.
4. Determinar el nivel de significancia α de la prueba, así como la ubicación y el
valor de la región de rechazo de la hipótesis nula H 0 .
5. Ubicar el estadístico de prueba con respecto a la región de rechazo de la
hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.

B. COMPARACIÓN DE DOS O MÁS PROPORCIONES POBLACIONALES:


ASOCIACIÓN DE VARIABLES CUALITATIVAS

Una forma de comparar dos o más proporciones poblacionales es la prueba ji-


cuadrada χ 2 ; basada en los resultados de tablas de contingencia (también llamadas
tablas de dos entradas).

93
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

B.1) CONTRASTE DE HIPÓTESIS


Por ende, para realizar este contraste de hipótesis primero hay que vaciar los datos
que se tienen en una primera tabla de contingencia: la de los datos observados.

DATOS OBSERVADOS Oij


VARIABLE CUALITATIVA ( j )
(Número de elementos) MARGINALES
C S
(con la característica) (sin la característica)
1 O11 = m1 O12 = n1 − m1 n1
VARIABLE 2 O21 = m2 O22 = n2 − m2 n2
CUALITATIVA 3 O31 = m3 O32 = n3 − m3 n3
(i ) (i ) Oi1 = mi Oi 2 = ni − mi ni
k Ok 1 = m k Ok 2 = n k − m k nk
n = n1 + n2 + n3 + ... + nK
MARGINALES C = O11 + O21 + O31 + ... + Ok1 S = O12 + O22 + O32 + ... + Ok 2
n=C+S

Es muy importante calcular el valor de los marginales en cada columna y renglón,


asegurándose que la suma de C + S sea igual al valor de n .
Teniendo los datos marginales, podremos obtener el contenido para la tabla de
contingencia de los datos esperados mediante cualquiera de las siguientes fórmulas:

EXPRESIONES PARA OBTENER EL CONTENIDO DE LA TABLA DE


CONTINGENCIA DE DATOS ESPERADOS
⎛C/S ⎞ ⎛n ⎞
Oij = ni ⎜ ⎟ Oij = C / S ⎜ i ⎟
⎝ n ⎠ ⎝n⎠

Lo cual, por ejemplo, implicaría lo siguiente:

DATOS ESPERADOS eij


VARIABLE CUALITATIVA ( j )
(Número de elementos) MARGINALES
C S
(con la característica) (sin la característica)
⎛C ⎞ ⎛S⎞
1 e11 = n1 ⎜ ⎟ e12 = n1 ⎜ ⎟ n1
⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
2 e21 = n2 ⎜ ⎟ e22 = n2 ⎜ ⎟ n2
⎝n⎠ ⎝n⎠
VARIABLE
⎛C ⎞ ⎛S⎞
CUALITATIVA 3 e31 = n3 ⎜ ⎟ e32 = n3 ⎜ ⎟ n3
(i ) ⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
(i ) ei1 = ni ⎜ ⎟ ei 2 = n i ⎜ ⎟ ni
⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
k ekj = n K ⎜ ⎟ ekj = nk ⎜ ⎟ nk
⎝n⎠ ⎝n⎠
n = n1 + n2 + n3 + ... + nK
MARGINALES C = O11 + O21 + O31 + ... + Ok1 S = O12 + O22 + O32 + ... + Ok 2
n=C+S

94
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Y no está de más volver a comprobar que la suma del contenido sea igual a los
marginales. Una vez construida la tabla de contingencia de datos esperados se
estipulan las hipótesis a contrastar y se calcula el estadístico de prueba:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : No hay asociación H a : Existe asociación
entre las variables. entre las variables.

EXPRESIÓN PARA CALCULAR EL r c (O − eij )


2

χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij

El cual simplemente consiste en sumar los resultados obtenidos de restar a cada valor
observado su respectivo valor esperado, elevarlo al cuadrado y dividirlo entre el valor
esperado.
Obviamente, tal estadístico de prueba tiene una distribución ji cuadrada con un
número de grados de libertad igual al producto de los renglones de la tabla menos uno
por las columnas de la tabla menos uno: χ 12−[α(r −1)(c −1)] , que con una significancia de
1 − α establece una región de rechazo en la sección superior del eje de las X .

REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones

1-α

χ 12−[α(r −1)(c −1)]

Como siempre, si la hipótesis nula H 0 : No hay asociación entre la variable y las


poblaciones se rechaza, existe asociación entre las variables de interés. Por tal
motivo, resulta importante averiguar el grado de asociación que existe en ello.
B.2) COEFICIENTE V DE CRAMER

Se trata de una medida que determina la intensidad de asociación entre dos variables
cualitativas. Al ser una prueba que se aplica a posterior a la χ 2 , su cálculo implica la
siguiente expresión:

EXPRESIÓN PARA CALCULAR EL χ c2


Vc =
COEFICIENTE DE CRAMER Vc n(mínimo{r − 1, c − 1})

Donde χ c2 es el estadístico de prueba que calculamos anteriormente, n es la número


de elementos totales que hay en los marginales de las tablas de contingencia y el
mínimo se refiere al valor menor entre los datos por renglón menos uno y los datos de
columna menos uno.

95
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

El resultado del coeficiente de Cramer Vc puede estar entre 0 y 1 (0 ≤ Vc ≤ 1) , y su


valor se interpreta de la siguiente forma:

Vc ≈ 0 La asociación entre las variables es muy débil.


Vc ≈ 1 La asociación entre las variables es muy fuerte.

C. EJEMPLOS DE APLICACIÓN

1. Se desea establecer si existen diferencias en la proporción de agujeros


auditivos con forma elíptica inclinada que presentan los restos óseos masculinos y
femeninos de la Cueva de la Candelaria. Según los datos del profesor Romano, 37 de
45 hombres presentaron esta característica y 30 de 36 mujeres también. Con una
significancia de α = 0.01 contrastar la hipótesis planteada y construir un intervalo de
confianza al 99% para la diferencia de proporciones.

DATOS GENERALES
n1 = 45 m1 = 37 pˆ 1 = 37 = 0.82 1 − pˆ 1 = 1 − 0.82 = 0.18
45
n 2 = 36 m2 = 30 pˆ 2 = 30 = 0.83 1 − pˆ 1 = 1 − 0.83 = 0.17
36
m1 + m2 37 + 30
p= = = 0.83 1 − p = 1 − 0.83 = 0.17
n1 + n2 45 + 36

Según el procedimiento para el contraste de hipótesis, lo primero que debemos hacer


es comprobar que los supuestos se cumplan:

1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5


45 > 20 37 > 5 45 − 37 = 8 > 5
4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5
36 > 20 30 > 5 36 − 30 = 6 > 5

Comprobado ello, podemos plantear las hipótesis para contrastar:

HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2

Ahora bien, hay que calcular el estadístico de prueba:

pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.82 − 0.83
Zc = = −0.12
APLICACIÓN 0.83(0.17 ) 0.83(0.17 )
+
45 36

Teniendo ese dato, falta reconocer la significancia α , su valor en tablas y la región de


rechazo que delimita:

96
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

REGIÓN DE RECHAZO DE H 0 : p1 = p 2

α = 0.01 α = 0.005 1 − α = 0.995 Z 1−α = Z 0.995 = 2.575


2 2 2

Para concluir el contraste de hipótesis resta ubicar el estadístico de prueba Z c con


respecto a esta región de rechazo y concluir:

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba Z c = −0.12 está fuera de la región de rechazo, razón por la


cual la hipótesis nula H 0 : p1 = p 2 no se rechaza. Por tanto, no es posible inferir
diferencias significativas ( p > 0.01) entre las proporciones de cráneos masculinos y
femeninos con orificio elíptico inclinado en los restos de la Cueva de La Candelaria.

Para comprobar este resultado hay que construir el intervalo de confianza para la
diferencia de proporciones:

CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995

EXPRESIÓN ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
PARA INTERVALO n1 n2
⎝ 2

VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2

⎛ 0.83(0.17 ) 0.83(0.17 ) ⎞
APLICACIÓN p1 − p 2 ∈ ⎜⎜ 0.82 − 0.83 ∓ 2.575 ⋅ + ⎟ = (− 0.23,0.21)

⎝ 45 36 ⎠
Valores negativos y positivos
INTERPRETACIÓN p1 = p 2
(que incluyen al cero)
, Como el intervalo para la diferencia de proporciones contiene al cero, es posible afirmar con
un 99% de confiabilidad que la proporción de cráneos masculinos y femeninos con el orificio
auditivo elíptico es igual en las poblaciones de la Cueva de La Candelaria.

97
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Aún sabiendo que las proporciones de esta característica es igual en estas


poblaciones, aplicaremos la prueba ji-cuadrada para ver su aplicación. Organicemos
entonces los datos observados:

DATOS OBSERVADOS Oij


FORMA ORIFICIO AUDITIVO ( j )
(Número de elementos) MARGINALES
ELÍPTICA INCLINADA OTRA
(con la característica) (sin la característica)
POBLACIÓN 1 O11 = 37 O12 = 45 − 37 = 8 45
(i ) 2 O21 = 30 O22 = 36 − 30 = 6 36
MARGINALES C = 37 + 30 = 67 S = 8 + 6 = 14 67 + 14 = 81 = 45 + 36

Y calculemos los esperados:

DATOS ESPERADOS eij


FORMA ORIFICIO AUDITIVO ( j )
(Número de elementos) MARGINALES
ELÍPTICA INCLINADA OTRA
(con la característica) (sin la característica)
45
⎛ 67 ⎞ ⎛ 14 ⎞
1 e11 = 45⎜ ⎟ = 37.22 e12 = 45⎜ ⎟ = 7.78 = 37.22 + 7.78
POBLACIÓN ⎝ 81 ⎠ ⎝ 81 ⎠
(i ) 36
⎛ 67 ⎞ ⎛ 14 ⎞
2 e21 = 36⎜ ⎟ = 29.78 e22 = 36⎜ ⎟ = 6.22 = 29.78 + 6.22
⎝ 81 ⎠ ⎝ 81 ⎠
MARGINALES 67 = 37.22 + 29.78 14 = 7.78 + 6.22 81

Teniendo eso, hagamos el contraste de hipótesis:

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : No hay asociación H a : Existe asociación
entre las variables. entre las variables.

Calculemos el estadístico de prueba:

EXPRESIÓN PARA CALCULAR EL r c (O − eij )


2

χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
APLICACIÓN

χ =
2 (37 − 37.22) 2
+
(8 − 7.78)
2
+
(30 − 29.78)
2
+
(6 − 6.22)
2
= 0.02
c
37.22 7.78 29.78 6.22

Y ubiquemos la región de rechazo para comparar ambos datos:

REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones

98
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

α = 0.01 1 − α = 0.99 χ 12−[0(2.99−1)(2−1)] = χ 12−[10].99 = 6.635

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba χ c2 = 0.02 está fuera de la región de rechazo, razón por la


cual la hipótesis nula no se rechaza ( p > 0.01) y se infiere que no hay asociación
entre las variables sexo y forma del orificio auditivo.

Por último, mediante el coeficiente de Cramer comprobamos que esta afirmación sea
significativa:

EXPRESIÓN PARA CALCULAR EL χ c2


Vc =
COEFICIENTE DE CRAMER Vc n(mínimo{r − 1, c − 1})
0.02
APLICACIÓN Vc = = 0.02
81(1)
INTERPRETACIÓN Vc ≈ 0
, Siendo el valor del coeficiente de Cramer Vc = 0.02 , confirmamos que la
asociación entre las variables es muy débil, por eso habíamos concluido que no hay
asociación.
2. Se quiere determinar si existen diferencias entre la proporción de alcohólicos
que cometieron delitos relacionados con la piromanía y la proporción de alcohólicos
que realizaron fraudes en 1909. De aquellos convictos por provocar incendios, 50 eran
bebedores y 43 abstemios; mientras tanto, de los que cometieron fraude, 63 eran
bebedores y 144 abstemios. Con una significancia de α = 0.01 contrastar la hipótesis
planteada y construir un intervalo de confianza al 99% para la diferencia de
proporciones.

DATOS GENERALES
n1 = 93 m1 = 50 pˆ 1 = 50 = 0.54 1 − pˆ 1 = 1 − 0.54 = 0.46
93
n 2 = 207 m2 = 63 pˆ 2 = 63 = 0.30 1 − pˆ 1 = 1 − 0.30 = 0.70
207
m1 + m2 50 + 63
p= = = 0.38 1 − p = 1 − 0.38 = 0.62
n1 + n 2 93 + 207

99
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5


93 > 20 50 > 5 43 > 5
4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5
207 > 20 63 > 5 144 > 5

HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2

pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.54 − 0.30
Zc = = 3.96
APLICACIÓN 0.38(0.62 ) 0.38(0.62 )
+
93 207

REGIÓN DE RECHAZO DE H 0 : p1 = p 2

α = 0.01 α = 0.005 1 − α = 0.995 Z 1−α = Z 0.995 = 2.575


2 2 2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba Z c = 3.96 cae en la región de rechazo, razón por la cual la


hipótesis nula H 0 : p1 = p 2 se rechaza. Por ende, existen diferencias significativas
( p < 0.01) entre las proporciones de alcohólicos que cometieron delitos relacionados
con la piromanía y los que cometieron fraude.

CONFIABILIDAD Y SIGNIFICANCIA
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995

100
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
INTERVALO n1 n2
⎝ 2

VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2

⎛ 0.38(0.62 ) 0.38(0.62 ) ⎞
p1 − p 2 ∈ ⎜⎜ 0.54 − 0.30 ∓ 2.575 ⋅ + ⎟ = (0.08,0.40 )

⎝ 93 207 ⎠
INTERPRETACIÓN Valores positivos p1 > p 2
, Como el intervalo para la diferencia de proporciones sólo contiene valores
positivos, es posible afirmar con un 99% de confiabilidad que la proporción de
alcohólicos que cometió delitos relacionados con la piromanía es mayor que la
proporción de alcohólicos que cometió fraude.

DATOS OBSERVADOS Oij


DELITO ( j )
(Número de elementos) MARGINALES
PIROMANÍA FRAUDE
ESTADO Alcohólico O11 = 50 O12 = 63 113
(i ) Abstemio O21 = 43 O22 = 144 187
MARGINALES C = 50 + 43 = 93 S = 63 + 144 = 207 93 + 207 = 300 = 113 + 187

DATOS ESPERADOS eij


DELITO ( j )
(Número de elementos) MARGINALES
PIROMANÍA FRAUDE
⎛ 93 ⎞ ⎛ 207 ⎞ 113
e11 = 113⎜ ⎟ e12 = 113⎜ ⎟
Alcohólico ⎝ 300 ⎠ ⎝ 300 ⎠ = 35.03 + 77.97
ESTADO = 35.03 = 77.97
(i ) ⎛ 93 ⎞ ⎛ 207 ⎞ 187
e21 = 187⎜ ⎟ e22 = 187⎜ ⎟
Abstemio ⎝ 300 ⎠ ⎝ 300 ⎠ = 57.97 + 129.03
= 57.97 = 129.03
MARGINALES 93 = 35.03 + 57.97 207 = 77.97 + 129.03 300

HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA


H 0 : No hay asociación H a : Existe asociación
entre las variables. entre las variables.

EXPRESIÓN PARA CALCULAR EL r c (O − eij )


2

χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
APLICACIÓN

χ =
2 (50 − 35.03) 2
+
(63 − 77.97 )
2
+
(43 − 57.97 )
2
+
(144 − 129.03)
2
= 14.87
c
35.03 77.97 57.97 129.03

REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones

101
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

α = 0.01 1 − α = 0.99 χ 12−[0(2.99−1)(2−1)] = χ 12−[10].99 = 6.635

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA χ c2 CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba χ c2 = 14.87 cae en la región de rechazo. Debido a ello la


hipótesis nula se rechaza ( p < 0.01) y se infiere que hay asociación entre las
variables estado y delito cometido.

EXPRESIÓN PARA CALCULAR EL χ c2


Vc =
COEFICIENTE DE CRAMER Vc n(mínimo{r − 1, c − 1})
14.87
APLICACIÓN Vc = = 0.22
300(1)
INTERPRETACIÓN Vc ≈ 0
, Siendo el valor del coeficiente de Cramer Vc = 0.22 descubrimos que la asociación
entre las variables estado y delito cometido es débil.

102
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EJERCICIOS DE REPASO

En todos los problemas realizar la prueba de hipótesis correspondiente y donde sea


pertinente calcular el intervalo de confianza e interpretar todos los resultados. En
donde no se indique utilizar una significancia de 0.05 y una confianza de acuerdo
al valor de significancia.
Los siguientes datos corresponden a una muestra osteológica colonial procedente de un
sitio en azcapotzalco (excavaciones línea 8 del metro).
Diámetro
Inserción
Longitud transverso Longitud Longitud
del
máxima de a la 1/2 de máxima de máxima de
Caso Sexo músculo
fémur la diáfisis la tibia la tibia
dorsal
izquierdo del fémur izquierda derecha
ancho
izquierdo
1 Masculino . 26 . . Ausencia
2 Masculino 390 25 346 339 Ausencia
3 Masculino 398 27 340 339 Ausencia
4 Masculino 428 25 360 360 Ausencia
5 Masculino 425 27 . . Ausencia
6 Masculino 405 24 . 352 Ausencia
7 Masculino 405 24 362 360 Ausencia
8 Masculino 404 26 347 345 Ausencia
9 Masculino 390 23 314 . Ausencia
10 Masculino . 23 . . Ausencia
11 Masculino 428 22 354 . Presencia
12 Masculino 402 25 349 353 Presencia
13 Masculino 436 27 377 381 Presencia
14 Masculino 462 26 377 377 Presencia
15 Masculino . 23 345 348 Presencia
16 Masculino 415 25 354 . Presencia
17 Masculino 420 27 . 366 Presencia
18 Masculino 438 28 388 387 Presencia
19 Femenino 423 25 348 . Ausencia
20 Femenino 410 25 339 335 Ausencia
21 Femenino 450 26 378 375 Ausencia
22 Femenino 408 29 341 . Ausencia
23 Femenino 412 25 343 342 Ausencia
24 Femenino 373 23 . 299 Ausencia
25 Femenino 403 24 339 . Ausencia
26 Femenino 419 25 346 341 Ausencia
27 Femenino 388 24 . 314 Ausencia
28 Femenino 394 22 330 330 Ausencia
29 Femenino . 26 . . Ausencia
30 Femenino 432 22 . 367 Ausencia
31 Femenino 403 23 338 333 Ausencia
32 Femenino 376 23 311 312 Ausencia
33 Femenino 420 21 346 344 Ausencia
34 Femenino 406 25 . 334 Ausencia
35 Femenino 401 23 340 340 Ausencia
36 Femenino 382 26 . 342 Ausencia
37 Femenino 397 26 328 328 Ausencia

103
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

38 Femenino 415 25 . 324 Ausencia


39 Femenino 387 25 324 327 Ausencia
40 Femenino 387 21 320 315 Ausencia
41 Femenino . 21 361 . Ausencia
42 Femenino 413 25 . 343 Presencia
43 Femenino 398 26 . . Presencia
44 Femenino . 25 . . Presencia
45 Femenino 390 27 . 331 Presencia
46 Femenino 411 25 . 339 Presencia
47 Femenino . 23 . . Presencia
48 Femenino . 22 . 310 Presencia
49 Femenino . 25 . . Presencia
50 Femenino 378 22 323 321 Presencia
51 Femenino 385 24 308 312 Presencia

19.¿Es posible inferir que la longitud máxima de fémur izquierdo es mayor en


hombres? Suponer distribución normal en las dos poblaciones.
20.¿Es diferente el diámetro transverso a la 1/2 de la diáfisis del fémur izquierdo en
hombres respecto al de mujeres? Suponga que no hay distribución normal en las
poblaciones.
21. ¿Existe diferencia entre la longitud máxima de la tibia izquierda y la longitud
máxima de la tibia derecha?
a) Suponga distribución normal en las poblaciones
b) Suponga que no hay distribución normal en las poblaciones
22.¿Existe asociación entre el sexo de los individuos y la inserción del músculo
dorsal ancho?
23.Se diseño un estudio para contrastar la hipótesis de que los hombres tienen
mayor presión sanguínea sistólica que las mujeres. Los datos muestrales son:
Hombres:
76 76 74 70 80 68 90 70
90 72 76 80 68 72 96 80
Mujeres: 76 70 82 90 68 60 62 68
80 74 60 62 72
Presentan estos datos evidencia suficiente que confirme la hipótesis del
investigador? Sea α=0.05.
a) Suponer distribución normal en las poblaciones, para probar la hipótesis.
b) Suponga que no hay distribución normal en las poblaciones.
c) Suponer distribución normal, realizando la inferencia utilizando un intervalo al
90% de confianza para la diferencia de medias poblacionales.
24.En un estudio sobre mujeres otomíes de una cierta comunidad se obtuvo una
muestra para medir la posible asociación entre la proporción de analfabetismo y
el tipo de trabajo que realizan. Se obtuvo que el 11.4% de 44 mujeres obreras
son analfabetas, mientras que 12.8% de 50 mujeres amas de casa son
analfabetas. ¿Proporcionan estos datos evidencias para afirmar que son
diferentes las proporciones de mujeres otomíes de la comunidad analfabetas que
trabajan con respecto a las que son amas de casa?
a) Resolver el problema mediante pruebas de hipótesis. Sea α=0.08
b) Inferir mediante intervalo al 92% de confianza para la diferencia de
proporciones.

104
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

25. Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas
interesadas en bajar de peso, registrándose el peso de cada persona antes y
después del tratamiento, presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44

Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3

Con los datos obtenidos ¿se puede afirmar que la dieta es adecuada? Sea α=0.05
a) Resolver suponiendo distribución normal.
b) Resolver suponiendo que no existe distribución normal
26.Un equipo de antropólogos está estudiando el grado de integración cultural de
dos comunidades indígenas, una al sur y otra del norte del país. Uno de los
indicadores empleados en el estudio es la variable aleatoria “número de distintas
palabras en español usadas por cada miembro de la comunidad”; se selecciona
una muestra aleatoria en cada comunidad y se llega a:
Comunidad I (Sur) Comunidad II (Norte)
n1 = 32 x1 = 325 s1 = 60 n2 = 35 x2 = 228 s2 = 30
¿Esta información proporciona evidencia suficiente para afirmar que si hay
elementos de integración cultural en ambas comunidades?
a) Inferir mediante una prueba de hipótesis con α=0.05.
b) Inferir mediante un intervalo al 95% de confianza.
27. Un estudio sobre planificación familiar en una zona del Estado de Hidalgo
realizado por Castilleja y Zavala6 clasifico a una muestra de mujeres de acuerdo
a dos características: uso de anticonceptivos y escolaridad*. Los datos se
presentan en la siguiente tabla:
Escolaridad
Anticoncepción Baja Alta
Usuarias 81 22
Total 114 30
* Escolaridad baja: escolaridad nula, saben leer y escribir y primaria
incompleta. Escolaridad alta: primaria completa y posprimaria.
¿Existe diferencia entre la proporción de usuarias de anticonceptivos en las
poblaciones definidas por la escolaridad?
a) Resolver con prueba de hipótesis. Sea α=0.091
b) Inferir mediante un intervalo al 93% de confianza.
28. Acaban de descubrir dos nuevas zonas arqueológicas geográficamente muy
cercanas entre sí. Como no coinciden del todo las características y la antigüedad
de los restos de ambas zonas, se va a corroborar si se trata de una sola o de dos
diferentes culturas precolombinas: se selecciona una muestra de 15 objetos de
una zona y una muestra de 18 objetos localizados en la segunda zona. Los
resultados del fechamiento en años de los restos son:

6
CASTILLEJA AÍDA y ZAVALA CARLOS (1982) Respuesta al programa nacional de planificación
familiar en el sureste del Estado de Hidalgo: un renglón para la Antropología Física. En II Coloquio de
Antropología Física “Juan Comas”, IIA, UNAM. pp. 501-531

105
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Zona I Zona II
x1 = 570 s12
= 1518 x2 = 682 s22 = 1625
¿Con estos datos muestrales puede concluirse que la cultura de la zona II es más
antigua? Suponga distribución normal. Sea α=0.05
29. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Sea α=0.05
a) Suponga distribución normal en las poblaciones.
b) Suponga que no hay distribución normal en las poblaciones.
30. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de Laguna
Verde, tienen un efecto significativo sobre la fauna marina en la región. Se
dividieron al azar cuatro grupos de especimenes recién nacidos de cierta especie
de peces. Se colocaron los grupos en medios ambientes separados que simulan el
océano, completamente idénticos, con excepción de la temperatura del agua.
Seis meses después se pesaron los especimenes. Los resultados (en libras) se dan
en la tabla siguiente: Pesos de los especimenes
38ºF 42ºF 46ºF 50ºF
22 15 14 17
24 21 28 18
16 26 21 13
18 16 19 20
19 25 24 21
17 23
a) Suponga distribución normal en las poblaciones. Sea α=0.01
b) Suponga que no hay distribución normal en las poblaciones.

106
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

31. En un estudio sobre planificación familiar en el Estado de Hidalgo se aplico una


encuesta para analizar los posibles factores que influyen en el uso de
anticonceptivos. En la siguiente tabla se presentan las frecuencias observadas de
las mujeres encuestadas en relación a su edad y si usan algún método
anticonceptivo

Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-24 41 34
25-24 53 52
35-49 39 58
¿Existe relación entre la edad y el uso de anticonceptivos?
32. En un curso para pilotos se probaron tres métodos de enseñanza: con casetes de
audio, videocasetes y clase en el aula. Se obtuvieron los siguientes resultados en
la prueba final:
Casete de audio 74 88 82 93 55 70
Videocasete 78 80 65 57 89
Clase en aula 68 83 50 91 84 77 94 81 92
¿Existen diferencias entre los puntajes obtenidos en los diferentes métodos? Sea
α=0.05
33. La siguiente tabla se obtuvo de una investigación en restos óseos de la época
colonial en una región de Tlaxcala al cruzar dos patologías observadas:
¿Existe asociación entre las dos variables? Sea α=0.10
Criba Orbitaría Hiperostosis Porótica
Ausencia Presencia
Ausencia 15 11
Presencia 20 32
34. En cierta escuela un grupo de estudiantes ha planteado la posibilidad de que la
cafetería de la institución este a cargo de la comunidad estudiantil. Un profesor
considera que existe asociación en las posiciones de los alumnos respecto a la
licenciatura en la que estudian. Se toma una muestra y se observan los siguientes
resultados:
Licenciatura Posición respecto a la
propuesta
A favor En contra
AF 23 25
AS 17 19
ARQ 20 34
ETH 32 15
ETN 24 30
LIN 12 16
HIS 30 14
¿Qué se puede decir al respecto? Sea α=0.05

107
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UNIDAD III
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
ANÁLISIS DE CORRELACIÓN
Cuando se tienen dos variables, la forma más sencilla para comprobar si existe una
relación lineal entre ellas es construyendo un diagrama de dispersión con base en
coordenadas ( X , Y ) . Empero, como veremos a continuación, la estadística cuenta con
estimadores y pruebas más precisas (acordes al tipo y la distribución probabilística de
las variables) para determinar si existe una asociación significativa o no.

A. VARIABLES CUANTITATIVAS CON DISTRIBUCIÓN NORMAL

1) COEFICIENTE DE CORRELACIÓN DE PEARSON

Medida sobre la asociación entre dos variables continuas ( X , Y ) , cuyas expresiones


para calcularlo en poblaciones y muestras son:

PARÁMETRO ESTIMADOR

∑ (xi − µ x )(yi − µ y )
N n

∑ (x i − x )( y i − y )
ρ= i =1
r= i =1

N ⋅σ x ⋅σ y (n − 1) ⋅ s x ⋅ s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresión del numerador de este estimador:

• Desarrollamos primero el binomio:


n

∑ (x y
i =1
i i − xi y − x y i + x y )

• Repartimos la sumatoria:
n n n n

∑ x y − ∑ x y − ∑ xy + ∑ xy
i =1
i i
i =1
i
i =1
i
i =1

• Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamaño de la muestra:
n n n

∑ xi yi − y ∑ xi − x ∑ yi + nx y
i =1 i =1 i =1

• Lo cual puede abreviarse a:


n

∑x y
i =1
i i − y ⋅ nx − x ⋅ ny + nx y
n n

Porque:
∑x i n ∑y i n
x= i =1
⇒ ∑ xi = x ⋅ n y= i =1
⇒ ∑ yi = y ⋅ n
n i =1 n i =1

108
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

• Y eliminando los términos en común obtenemos:


n

∑x y
i =1
i i − nx y

• Con lo cual la expresión queda así:

EXPRESIÓN PARA CALCULAR EL n


ESTIMADOR DEL COEFICIENTE DE
CORRELACIÓN DE PEARSON PARA
∑x y i i − nx y
r= i =1
VARIABLES CUANTITATIVAS CON (n − 1) ⋅ s x ⋅ s y
DISTRIBUCIÓN NORMAL7.

Imprescindible resulta mencionar que el valor de este coeficiente sólo puede


encontrarse en el rango (− 1 < r < 1) y de acuerdo a ello debe interpretarse:

VALOR DEL COEFICIENTE INTERPRETACIÓN


(r ≈ −1) Existe asociación lineal inversa entre las variables.
(r ≈ 0) No existe asociación entre las variables.
(r ≈ 1) Existe asociación lineal directa entre las variables.

Esta conclusión, sin embargo, no es suficiente; pues en el caso de que haya


asociación entre las variables, falta comprobar que ésta sea estadísticamente
significativa.

2) PRUEBA DE HIPÓTESIS t

Teniendo el estimador del coeficiente de correlación de Pearson (r ) , con esta prueba


se puede definir si su parámetro (ρ ) también es diferente a cero y, por ende, existe
asociación significativa entre las variables. Para ello, se estipulan las siguientes
hipótesis:

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0

Las cuales se contrastan mediante el siguiente estadístico de prueba:

EXPRESIÓN PARA CALCULAR EL


ESTADÍSTICO DE PRUEBA SOBRE EL n−2
tc = r
COEFICIENTE DE CORRELACIÓN DE 1− r2
PEARSON.

Como podemos observar, este estadístico de prueba es del tipo t c ; es decir, tiene una
distribución t de student —pero ahora, por ser dos variables, con (n − 2 ) grados de

7
Si bien esta es la forma más sencilla para calcular manualmente el coeficiente de correlación de Pearson,
cabe mencionar que muchas calculadoras científicas lo pueden arrojar directamente al ingresar los datos
de ambas variables en el modo estadístico de regresión lineal; este dato tendrá un valor muy parecido al
que se obtiene haciendo los cálculos manualmente con 4 decimales.

109
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

libertad— y se compara, como en toda prueba bilateral de esta distribución, con las
regiones de rechazo de la hipótesis nula:

REGIÓN DE 1-α
RECHAZO DE
H0 : ρ = 0 α/2 α/2

− t1(−nα− 2 ) t1(−nα− 2)
2 2

B. VARIABLES NO CUANTITATIVAS Y/O SIN DISTRIBUCIÓN NORMAL

Cuando las dos variables son al menos de tipo ordinal y/o no se pueda asumir
distribución normal en ellas, existen alternativas no paramétricas para determinar su
asociación.

1) COEFICIENTE DE CORRELACIÓN DE SPEARMAN (ρ s )

A diferencia del coeficiente de Pearson (y como en muchas pruebas no paramétricas),


el coeficiente de Spearman no se basa en los datos de las variables obtenidas en la
muestra, sino en sus rangos, los cuales se determinan —para cada variable— de la
manera acostumbrada (de menor a mayor, fijando empates para valores iguales); por
ejemplo:

CASO VARIABLE RANGO VARIABLE RANGO


(i ) X Rxi Y Ry i
1 3 Rx1 = 4 4 Ry1 = 4
2 2 Rx 2 = 2.5 1 Ry 2 = 1
3 1 Rx3 = 1 2 Ry 3 = 2

n 2 Rx n = 2.5 3 Ry n = 3

Habiendo asignado rangos a los datos de cada variable, debe obtenerse, para cada
caso, la diferencia d i = Rxi − Ry i y elevarse al cuadrado:

CASO VARIABLE RANGO VARIABLE RANGO


d i = Rxi − Ry i d i2
(i ) X Rxi Y Ryi
1 3 Rx1 = 4 4 Ry1 = 4 d1 = 4 − 4 = 0 0
2 2 Rx 2 = 2.5 1 Ry 2 = 1 d 2 = 2 .5 − 1 = 1 .5 2.25
3 1 Rx3 = 1 2 Ry 3 = 2 d 3 = 1 − 2 = −1 1
… … … … … …
n 2 Rx n = 2.5 3 Ry n = 3 d n = 2.5 − 3 = −0.5 0.25

Es esta diferencia absoluta entre los rangos d i2 la que podremos encontrar en la


expresión para calcular el coeficiente de correlación de Spearman:

110
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA CALCULAR EL n


ESTIMADOR DEL COEFICIENTE DE 6∑ d i2
CORRELACIÓN DE SPEARMAN PARA
rs = 1 − i =1
VARIABLES AL MENOS ORDINALES n(n 2 − 1)
Y/O SIN DISTRIBUCIÓN NORMAL.

El cual se interpreta de la misma forma que el anterior:

VALOR DEL COEFICIENTE INTERPRETACIÓN


(r ≈ −1) Existe asociación lineal inversa entre las variables.
(r ≈ 0) No existe asociación entre las variables.
(r ≈ 1) Existe asociación lineal directa entre las variables.

2) PRUEBAS DE HIPÓTESIS

El coeficiente de correlación de Spearman, al igual que el de Pearson, puede utilizarse


para realizar una prueba sobre la significancia de la asociación con el mismo tipo de
hipótesis que lo igualan o diferencian de cero:

HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0

Empero, el estadístico de prueba para contrastar estas hipótesis cambia dependiendo


del tamaño de la muestra utilizada:

a) Muestras grandes

Si el tamaño de la muestra sobrepasa los 30 elementos (n > 30 ) , puede


aplicarse el Teorema Central de Límite y usar el siguiente estadístico de
prueba:

EXPRESIÓN PARA CALCULAR EL


ESTADÍSTICO DE PRUEBA SOBRE EL rs
Zc =
COEFICIENTE DE CORRELACIÓN DE (n − 1)
SPEARMAN CUANDO (n > 30 ) .

El cual se distribuye de manera aproximadamente normal estándar y por ello se


le compara con la región de rechazo típica para esta distribución:

REGIÓN DE 1-α
RECHAZO DE
H0 : ρs = 0 α/2 α/2

− Z 1−α Z 1−α
2 2

111
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

b) Muestras pequeñas

Si el tamaño de la muestra es pequeño (n ≤ 30 ) , en vez de un estadístico de


prueba, es el propio coeficiente de correlación de Spearman el que se compara
con la región de rechazo de la hipótesis nula, determinada por los valores
críticos rs∗ para la prueba que lleva el mismo nombre (y que involucran el
tamaño de la muestra n y la significancia α )

REGIÓN DE
RECHAZO DE
H0 : ρs = 0
α/2 α/2
− rα rα
2 2

Es decir, la hipótesis nula se rechaza si rs < − rα pero también si rs > rα .


2 2

C. EJEMPLOS DE APLICACIÓN

1. Los siguientes datos corresponden las longitudes de húmero y fémur de restos


óseos masculinos de la Cueva de La Candelaria, Coahuila.

HÚMERO FÉMUR
329 444
311 426
297 449
323 427
323 428
290 427
297 417
287 414
333 417
336 440
313 416
322 408
321 420
315 443
309 472
304 466
300 422

Suponiendo distribución normal en estas variables, con una significancia α = 0.05 ¿es
posible afirmar que existe una relación lineal entre la longitud del húmero y del fémur?

112
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Hagamos una primera conclusión a partir del diagrama de dispersión correspondiente:

480

470

460

450
Fémur

440

430

420

410

400
280 290 300 310 320 330 340

Húmero

, En esta gráfica podemos observar que no existe una linealidad clara entre las
variables.

Pero es necesario comprobar lo que los sentidos nos dicen con un poco de
estadística. En este primer ejemplo desarrollaremos todos los datos necesarios para
calcular manualmente el coeficiente de correlación; no obstante, el los próximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.

HÚMERO FÉMUR X i Yi
329 444 146076
311 426 132486
297 449 133353
323 427 137921
323 428 138244
290 427 123830
297 417 123849
287 414 118818
333 417 138861
336 440 147840
313 416 130208
322 408 131376
321 420 134820
315 443 139545
309 472 145848
304 466 141664
300 422 126600
TOTAL 2291339

DATOS GENERALES
n = 17 x = 312.3529 y = 431.5294 s x = 14.8195 s y = 18.2384

113
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN DEL n

COEFICIENTE DE ∑x y i i − nx y
CORRELACIÓN r= i =1

DE PEARSON (n − 1) ⋅ s x ⋅ s y
CÁLCULO 2291339 − 17(312.3529 ⋅ 431.5294)
r= = −0.0189
MANUAL (17 − 1)14.8195 ⋅ 18.2384
VALOR EN
r = −0.0190
CALCULADORA
, El signo negativo indica que la asociación entre la longitud del húmero y la del
fémur sería inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociación entre estas variables es casi nula.

Finalmente nos resta comprobar que tal afirmación sea significativa.

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0

α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−170.−025


2)
= ∓t 0(15
.975 = ∓2.1315
)
2 2 2

EXPRESIÓN PARA n−2


ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
17 − 2
CÁLCULO DE t c t c = −0.0190 = −0.0736
1 − (− 0.0190)
2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba t c = −0.0736 cae fuera de la región de rechazo delimitada

.975 = ∓2.1315 , razón por la cual la hipótesis nula H 0 : ρ = 0 no se rechaza y


por ∓ t 0(15 )

puede afirmarse que no existe asociación significativa entre la longitud del húmero y la
del fémur en los restos óseos de esta población.

114
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

2. Los siguientes datos corresponden a la población juvenil masculina de Cholula,


Puebla (recopilados entre 1968-1970).

LONGITUD MIEMBRO SUPERIOR ESTATURA


771 1715
740 1701
743 1652
775 1691
745 1611
722 1620
764 1701
711 1655
756 1734
721 1635
728 1598
727 1635
756 1684
768 1622
735 1674

Suponiendo distribución normal en ambas variables, ¿puede afirmarse que existe


asociación entre la longitud del miembro superior y la estatura con una significancia
α = 0.05 ?

1740

1720

1700

1680
Estatura

1660

1640

1620

1600

1580
710 720 730 740 750 760 770 780

Longitud miembro superior

, Aunque existe dispersión en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociación.

115
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

DATOS GENERALES
n = 15 r = 0.5310
, El valor del coeficiente de correlación de Pearson nos indica una asociación lineal
directa considerable.

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0

α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025


2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

EXPRESIÓN PARA n−2


ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
15 − 2
CÁLCULO DE t c t c = 0.5310 = 2.2592
1 − (0.5310)
2

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba t c = 2.2592 cae en la región de rechazo delimitada por

.975 = 2.1604 , razón por la cual la hipótesis nula H 0 : ρ = 0 se rechaza y puede


t 0(13 )

afirmarse que había asociación significativa entre la longitud del miembro superior y la
estatura en la población juvenil masculina de Cholula, Puebla.

3. Los siguientes fueron obtenidos también de los restos óseos masculinos de la


Cueva de la Candelaria, pero esta vez son las longitudes de fémur y tibias derechos;
variables que no mostraron distribución normal.

LONGITUD FÉMUR DERECHO LONGITUD TIBIA DERECHA


444 401
426 358
449 417
427 375
428 424
427 392
417 391
414 388
417 394

116
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

440 361
416 372
408 358
420 358
443 384
472 381
466 388
422 355
419 368
462 351
452 380
454 349
468 405
449 363
442 412
472 366
451 364
438 346
440 361
483 384
451 388
429 353

Con una significancia α = 0.05 , ¿es posible afirmar que existe relación entre ellas?

440

420
Longitud tibia derecha

400

380

360

340
400 420 440 460 480 500

Longitud fémur derecho

, En este diagrama los puntos se ven muy dispersos, por lo que se duda exista una
relación lineal entre las longitudes de estos huesos largos.

117
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

FÉMUR RANGOS TIBIA RANGOS di d i2


444 10.5 401 25.0 -14.50 210.25
426 4.5 358 24.0 -19.50 380.25
449 2.0 417 22.0 -20.00 400.00
427 4.5 375 26.0 -21.50 462.25
428 15.5 424 9.5 6.00 36.00
427 3.0 392 15.0 -12.00 144.00
417 1.0 391 7.0 -6.00 36.00
414 7.0 388 7.0 .00 .00
417 18.0 394 19.5 -1.50 2.25
440 29.5 361 18.0 11.50 132.25
416 27.0 372 22.0 5.00 25.00
408 8.0 358 5.0 3.00 9.00
420 6.0 358 14.0 -8.00 64.00
443 26.0 384 3.0 23.00 529.00
472 24.0 381 17.0 7.00 49.00
466 25.0 388 2.0 23.00 529.00
422 28.0 355 28.0 .00 .00
419 20.5 368 11.0 9.50 90.25
462 17.0 351 29.0 -12.00 144.00
452 29.5 380 13.0 16.50 272.25
454 22.5 349 12.0 10.50 110.25
468 14.0 405 1.0 13.00 169.00
449 15.5 363 9.5 6.00 36.00
442 31.0 412 19.5 11.50 132.25
472 22.5 366 22.0 .50 .25
451 13.0 364 4.0 9.00 81.00
438 10.5 346 25.0 -14.50 210.25
440 4.5 361 24.0 -19.50 380.25
483 2.0 384 22.0 -20.00 400.00
451 4.5 388 26.0 -21.50 462.25
429 15.5 353 9.5 6.00 36.00
TOTAL 4593.00

DATOS GENERALES
n
n = 31 ∑d
i =1
i
2
= 4593
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2

6(4593)
rs = 1 − = 0.0740
31(312 − 1)
CÁLCULO

, El valor del coeficiente de correlación de Spearman nos indica una asociación


lineal directa muy débil entre la longitud del fémur y la de la tibia.

118
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0

α = 0.05 α = 0.025 1 − α = 0.975 ∓ Z 1−α = ∓ Z 1−0.025 = ∓ Z 0.975 = ∓1.96


2 2 2

EXPRESIÓN PARA rs
Zc =
ESTADÍSTICO DE PRUEBA t c (n − 1)
0.0740
CÁLCULO DE t c Zc = = 0.0135
(31 − 1)

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

, El estadístico de prueba Z c = 0.0135 está fuera de la región de rechazo delimitada


por ∓ Z 0.975 = ∓1.96 . Por tal motivo, la hipótesis nula H 0 : ρ s = 0 no se rechaza y
puede afirmarse que no existe asociación significativa entre la longitud del fémur y la
longitud de la tibia masculinas en la población de la Cueva de Candelaria.

4. Un investigador desea saber si existe relación entre la migración México-EEUU


y el analfabetismo. Para averiguarlo obtiene de los reportes de la CONAPO los
siguientes datos sobre el porcentaje de personas (por entidad federativa —algunas—)
que emigraron hasta el año 2005 y el porcentaje de personas alfabetas mayores de 15
años:

ENTIDAD FEDERATIVA EMIGRANTES (%) ALFABETAS (%)


Aguascalientes 1.3 95.2
Chiapas 0.4 77.1
Distrito Federal 4.2 97.1
Estado de México 6.2 93.6
Guanajuato 8.7 88.0
Guerrero 2.9 78.4
Hidalgo 2.0 85.1
Jalisco 13.4 93.5
Michoacán 10.0 86.1
Oaxaca 2.4 78.5
Puebla 3.2 85.4
Querétaro 1.0 90.2
San Luis Potosí 3.7 88.7

119
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Tabasco 0.1 90.3


Veracruz 2.9 85.1
Yucatán 0.5 87.7

Sabiendo que estas variables no poseen distribución normal, grafique el diagrama de


dispersión, determine el coeficiente de correlación y realice una prueba de hipótesis
para averiguar si existe asociación significativa entre las variables ( α = 0.05 ).

100
Porcentaje de alfabetas

90

80

70
0 2 4 6 8 10 12 14

Porcentaje de emigrantes

, En el diagrama no se observa una relación lineal entre las variables emigración-


alfabetismo; de hecho hay una conglomeración relativa de puntos en una zona.

ESTADO EMIGRANTES RANGO ALFABETAS RANGO


d i = Rxi − Ry i d i2
Aguascalientes 1.3 5.0 95.2 15.0 5 − 15 = −10 100.00
Chiapas 0.4 2.0 77.1 1.0 2 −1 = 1 1.00
Distrito Federal 4.2 12.0 97.1 16.0 12 − 16 = −4 16.00
Estado de
México
6.2 13.0 93.6 14.0 13 − 14 = −1 1.00
Guanajuato 8.7 14.0 88.0 9.0 14 − 9 = 5 25.00
Guerrero 2.9 8.5 78.4 2.0 8 .5 − 2 = 6 .5 42.25
Hidalgo 2.0 6.0 85.1 4.5 6 − 4.5 = 1.5 2.25
Jalisco 13.4 16.0 93.5 13.0 16 − 13 = 3 9.00
Michoacán 10.0 15.0 86.1 7.0 15 − 7 = 8 64.00
Oaxaca 2.4 7.0 78.5 3.0 7−3 = 4 16.00
Puebla 3.2 10.0 85.4 6.0 10 − 6 = 4 16.00
Querétaro 1.0 4.0 90.2 11.0 4 − 11 = −7 49.00
San Luis Potosí 3.7 11.0 88.7 10.0 11 − 10 = 1 1.00
Tabasco 0.1 1.0 90.3 12.0 1 − 12 = −11 121.00
Veracruz 2.9 8.5 85.1 4.5 8 .5 − 4 .5 = 4 16.00
Yucatán 0.5 3.0 87.7 8.0 3 − 8 = −5 25.00
TOTAL 504.50

120
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

DATOS GENERALES
n
n = 16 ∑d
i =1
i
2
= 504.50
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2

6(504.50 )
rs = 1 − = 0.2581
CÁLCULO
(
16 16 2 − 1 )
, El valor del coeficiente de correlación de Spearman nos indica una asociación
lineal directa muy débil entre la emigración y el alfabetismo.

HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs

α = 0.05 α = 0.025 ∓ r016.025 = ∓0.5000 rs = 0.2581


2

, El valor del coeficiente de correlación de Spearman rs = 0.2581 está fuera de la


región de rechazo delimitada por ∓ r016.025 = ∓0.5000 , por lo que la hipótesis nula
H 0 : ρ s = 0 no se rechaza y puede afirmarse que no hay asociación significativa entre
la emigración y el alfabetismo; por ende, tampoco con el analfabetismo.

5. Un estudio realizado en diferentes comunidades recabo datos sobre la


concentración de fluoruro (partículas por millón) en el suministro del agua de la
población y también investigó el número de dientes con caries, faltas u obturados
(CFO) que había por cada cien niños Los siguientes valores, empero, no son los datos
obtenidos, sino el rango obtenido por cada comunidad para cada variable.

FLUORURO 1 3 4 9 8 7 10 6 5 2
CFO 8 9 7 3 2 4 1 5 6 10

Compruebe si existe una relación lineal entre la concentración de fluoruro y los dientes
CFO en estas comunidades (α = 0.05) .

121
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

12

10

Dientes CFO 6

0
0 2 4 6 8 10 12

Concentración de fluoruro

, En la gráfica se observa una clara relación lineal entre la concentración de fluoruro


en el agua y la presencia de dientes CFO. Exceptuando algunos casos, se ve que
mientras crece la concentración de fluoruro, decrece la presencia de dientes CFO.

RANGOS CONCENTRACIÓN
RANGOS DIENTES CFO
FLUORURO
d i = Rxi − Ry i d i2
8 1 8 −1 = 7 49
9 3 9−3= 6 36
7 4 7−4=3 9
3 9 3 − 9 = −6 36
2 8 2 − 8 = −6 36
4 7 4 − 7 = −3 9
1 10 1 − 10 = −9 81
5 6 5 − 6 = −1 1
6 5 6−5 =1 1
10 2 10 − 2 = 8 64
TOTAL 322

DATOS GENERALES
n
n = 10 ∑d
i =1
i
2
= 322
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n 2 − 1)
6(322)
rs = 1 − = −0.9515
CÁLCULO
(
10 10 2 − 1 )
, El valor del coeficiente de correlación de Spearman nos indica una asociación
lineal inversa muy fuerte entre el número de dientes CFO y la concentración de
fluoruro en el suministro de agua.

122
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs

α = 0.05 α = 0.025 ∓ r010.025 = ∓0.6364 rs = −0.9515


2

, El valor del coeficiente de correlación de Spearman rs = −0.9515 cae en la región


de rechazo delimitada por − r010.025 = −0.6364 , por lo que la hipótesis nula H 0 : ρ s = 0
se rechaza y puede afirmarse que hay relación inversa significativa entre la
concentración del fluoruro en el agua y la presencia de dientes con CFO en estas
poblaciones. Es decir, a mayor fluoruro tiene el agua, menos dientes con caries,
faltantes u obturados presentan los infantes.

ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

En contraste con la correlación lineal —procedimiento para hallar la existencia e


intensidad de una asociación entre dos variables—, el análisis de regresión lineal
consiste en aplicar una serie de técnicas para encontrar si hay causalidad entre ellas;
es decir, si el valor de una variable (Y ) depende y puede explicarse a partir de otra
variable ( X ) , que se postula como independiente.

26

A. FUNDAMENTOS
24

La regresión es un método que permite 22

encontrar relaciones lineales entre las


Y

variables de un fenómeno. Por ende, 20


primero debemos revisar cómo, a partir
de una serie de datos (como los a 18
continuación que se grafican) podemos
encontrar la recta que los define: 16
12 14 16 18 20 22

Se toman dos coordenadas [(x1 , y1 ), (x 2 , y 2 )]


y 2 − y1
Se calcula la pendiente m=
x 2 − x1
Teniendo ese valor y el de un punto, se puede
y − y1 = m( x − x1 )
aplicar la ecuación punto-pendiente
Que se desarrolla de la siguiente forma y − y1 = mx − mx1

123
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Como el objetivo es encontrar la ordenada al


origen; es decir, el valor de Y cuando X es igual a y = y1 + mx − mx1
cero, despejamos Y
y = y1 + m(0 ) − mx1
Y damos a X el valor de cero

Por lo que el valor de la ordenada al origen (b ) es b = y1 − mx1


Y teniendo esos valores podemos establecer la y = mx + b
ecuación de la recta
También denotada por la expresión y = a + bx

26

24
Como podemos ver, cuando la relación
entre dos variables es clara y constante,
modelos basados en la forma y = a + bx
22

Y
son de gran utilidad para expresar y
20
describir con precisión su asociación.
18

16
12 14 16 18 20 22

Los datos de fenómenos relacionados al


ser humano, empero, no son tan fáciles de
trabajar, ya que la diversidad y variabilidad
bio-psico-socio-cultural que estos reflejan
impide hallar una ecuación concreta que
generalice sus resultados.

Echando mano de la probabilidad, la


estadística se arriesga entonces a suponer
que la mejor recta para describir un
fenómeno de este tipo es la que une las
medias de los valores posibles de Y para
( )
cada X i µ y x ; sin dejar de reconocer
como error en este modelo la desviación
que cada dato Yi pueda tener con
respecto a la recta µ y x .

De esta forma, para su análisis, la


estadística no sólo se apropia de los
modelos de regresión lineal y les cambia

124
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

las letras con que se denota a la ordenada al origen (b, a ⇒ β 0 ) y a la pendiente


(m, b ⇒ β1 ) , sino también los adapta para manifestar el nivel de incertidumbre o error
(e ) presente en ellos:
MODELO TEÓRICO DE REGRESIÓN y = β 0 + β1 x + e
LINEAL SIMPLE EN ESTADÍSTICA

B. AJUSTE DEL MODELO DE REGRESIÓN LINEAL SIMPLE

Conociendo la forma del modelo de regresión lineal que la estadística utiliza para
describir la relación entre dos variables, es ahora necesario saber cómo ajustarlo; es
decir, cómo partiendo de los datos X i , Yi de una muestra de tamaño n , calcular la
ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo
sean mínimos (razón por la cual ocuparemos el procedimiento de mínimos cuadrados).

• Para hallar los valores β 0 y β 1 , tomamos un punto ( X i , Yi ) :


y i = β 0 + β 1 x i + ei

• Y despejamos lo que nos importa: el error


ei = y i − β 0 − β 1 x i

• Que en una muestra de tamaño n esperamos su suma de cuadrados sea


mínima; lo cual depende de β 0 y β 1 .
n n
ei2 = ( y i − β 0 − β 1 xi ) ∑ ei2 = ∑ ( yi − β 0 − β1 xi )
2 2

i =1 i =1
n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2

i =1

• Por lo cual hay que encontrar la forma en que esta función sea mínima. El punto
es que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la función.

Empecemos por derivar la función respecto a β 0 :


n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2

i =1

df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− 1)
dβ 0 i =1

d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx

• Y al igualar a cero, β 0 y β 1 se convierten en estimadores βˆ0 , βˆ1 que son los ( )


valores donde la función es mínima:

2∑ ( y i − βˆ0 − βˆ1 xi )(− 1) = 0


n

i =1

125
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

• Sinteticemos ahora lo ajeno a la sumatoria y despejémosla:

− 2∑ ( y i − βˆ0 − βˆ1 xi ) = 0
n

i =1

∑ (y − βˆ 0 − βˆ1 xi ) = 0
n

i =1
i −2

Como 0 =0
#

∑ (y − βˆ0 − βˆ1 xi ) = 0
n

i
i =1

• Ahora repartamos la sumatoria:


n n n

∑ yi − ∑ βˆ0 − ∑ βˆ1 xi = 0
i =1 i =1 i =1

• Expresión que también puede denotarse como:


ny − nβˆ 0 − βˆ1 nx = 0
n n

Porque
∑ yi n ∑x i n
∑ C = nC
y= i =1
⇒ ∑ y i = yn x= i =1
⇒ ∑ xi = x n
n i =1 n i =1

• Y al dividir eso entre n resulta:


ny nβˆ 0 βˆ1 nx
− − =0 y − βˆ0 − βˆ1 x = 0
n n n

• Ecuación de la cual ya podemos despejar βˆ0 :


βˆ0 = y − βˆ1 x

Ahora bien, resta hacer lo mismo con β 1 :

• Derivamos la función respecto a β 1 :


n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2

i =1

df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− xi )
dβ 1 i =1

d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx

• Igualamos a cero:

2∑ ( y i − βˆ0 − βˆ1 xi )(− xi ) = 0


n

i =1

126
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

• Desarrollamos y despejamos la sumatoria:

( )
n
− 2∑ xi y i − βˆ0 xi − βˆ1 xi2 = 0
i =1

∑ (x y )
n
− βˆ0 xi − βˆ1 xi2 = 0
i =1
i i −2

• Ahora la repartimos y liberamos a las constantes:


n n n

∑ xi yi − ∑ βˆ0 xi − ∑ βˆ1 xi2 = 0


i =1 i =1 i =1
n n n

∑ xi yi − βˆ0 ∑ xi − βˆ1 ∑ xi2 = 0


i =1 i =1 i =1

• Despejemos el término que incluye a β̂ 1 :


n n n
βˆ1 ∑ xi2 = ∑ xi y i − βˆ0 ∑ xi
i =1 i =1 i =1

• Que puede denotarse como:

βˆ1 ∑ xi2 = ∑ xi y i − ( y − βˆ1 x )(nx )


n n

i =1 i =1
n

Porque βˆ0 = y − βˆ1 x ∑x i n


x= i =1
⇒ ∑ xi = x n
n i =1

• Lo cual se desarrolla de la siguiente manera:


n n
βˆ1 ∑ xi2 = ∑ xi y i − nx y + βˆ1 nx 2
i =1 i =1

• Así que queda otro término con β̂1 por despejar:


n n
βˆ1 ∑ xi2 − βˆ1 nx 2 = ∑ xi y i − nx y
i =1 i =1

• Lo cual se puede simplificar como:


⎛ n
⎞ n
βˆ1 ⎜ ∑ xi2 − nx 2 ⎟ = ∑ xi y i − nx y
⎝ i =1 ⎠ i =1

• Y a partir de ello despejar completamente el término β̂ 1 :

127
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

∑x y i i − nx y
βˆ1 = i =1
n

∑x
i =1
2
i − nx 2

Puede decirse entonces que, para encontrar el modelo de regresión lineal


y i = β 0 + β 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamaño
n , basta calcular los estimadores de β 0 y β 1 8 que por mínimos cuadrados se definen
como:

EXPRESIÓN PARA CALCULAR


βˆ0 = y − βˆ1 x
EL ESTIMADOR βˆ0
n

EXPRESIÓN PARA CALCULAR


∑x y i i − nx y
βˆ1 = i =1
EL ESTIMADOR β̂ 1 n

∑x
i =1
2
i − nx 2

Si bien ambos datos son fundamentales para construir el modelo de regresión lineal, el
valor de βˆ0 sólo indica el punto donde la recta corta el eje de las Y ; esto es, el valor
de Y cuando X = 0 . Mientras tanto, el valor de β̂ 1 resulta mucho más significativo
para la interpretación ya que, dependiendo de su signo y magnitud, indica el cambio
en la variable Y cuando X cambia una unidad. Por ejemplo:

Si X disminuye una unidad Si X aumenta una unidad


y = βˆ0 + βˆ1 ( x − 1) y = βˆ0 + βˆ1 ( x + 1)
y = βˆ0 + βˆ1 x
y = βˆ0 + βˆ1 x − βˆ1 y = βˆ0 + βˆ1 x + βˆ1
y = βˆ0 − βˆ1 ( x − 1) y = βˆ0 − βˆ1 ( x + 1)
y = βˆ0 − βˆ1 x
y = βˆ0 − βˆ1 x + βˆ1 y = βˆ0 − βˆ1 x − βˆ1

Por tanto:

Si la pendiente es: y X disminuye una unidad: y X aumenta una unidad:


( )
positiva β̂ 1 Y disminuye β̂1 unidades Y aumenta β̂1 unidades
negativa (− β̂ ) 1 Y aumenta β̂ 1 unidades Y disminuye β̂1 unidades

C. CRITERIOS PARA ESTABLECER QUÉ TAN ADECUADO ES EL MODELO.

Más allá de encontrar la ecuación de la recta que se ajuste a los datos, el objetivo
principal de los modelos de regresión lineal es predecir el valor de Y dada una X .
Ante fenómenos aleatorios, la estadística sólo puede estimar; pero antes de hacerlo

8
Igual que en el caso del coeficiente de correlación de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los cálculos, pues son ya muchas las
calculadoras científicas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo
estadístico de regresión lineal.

128
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

debe verificar que el modelo cumpla con cuatro criterios para determinar que en
verdad sea adecuado al describir el fenómeno.

C.1) CRITERIO DEL COEFICIENTE DE CORRELACIÓN LINEAL

Consiste en verificar que exista una asociación lineal significativa entre las dos
variables a través de una prueba de hipótesis. En el caso de variables con distribución
normal, la prueba que en el tema anterior vimos se aplica es la t , basada en el
coeficiente de correlación de Pearson (r ) :

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
EXPRESIÓN PARA CALCULAR EL
ESTADÍSTICO DE PRUEBA SOBRE EL n−2
tc = r
COEFICIENTE DE CORRELACIÓN DE 1− r2
PEARSON.

REGIÓN DE
RECHAZO DE 1-α
H0 : ρ = 0 α/2 α/2

− t1(−nα− 2 ) t1(−nα− 2)
2 2

Si se rechaza H 0 : ρ = 0 , el modelo es adecuado porque


INTERPRETACIÓN
existe una asociación significativa entre las variables.

C.2) CRITERIO DEL COEFICIENTE DE DETERMINACIÓN R 2

Incluso ajustando el modelo de regresión, cuando graficamos los valores estimados


( ŷi ) y los comparamos con los valores reales ( yi ) y su media ( y ) , podremos
encontrar algunas discrepancias.
160

150

Media

140

V. estimado estatura
Altura de rodilla

V. real estatura
130 Altura de rodilla
40 42 44 46 48 50

129
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

La diferencia entre los valores reales y su media es conocida como desviación total
de los valores con respecto a la media, la cual está compuesta por dos
desviaciones más: 1) la que hay entre los valores estimados y la media de los
originales, debida al modelo de regresión, y 2) la que hay entre los valores reales y
los valores estimados, que no justifica el modelo de regresión y es considerada como
error de estimación o residuo. Esto es:

y i − y = yˆ i − y + y i − yˆ i
Desviación no explicada
Desviación total de valores Desviación debida al
por el modelo , Error o
con respecto a la media modelo de regresión lineal.
residuo.

Como hemos venido diciendo, lo que se busca lograr con el modelo de regresión es
que el error al describir el fenómeno sea lo más pequeño posible, motivo por el cual la
suma de residuos (al cuadrado, para evitar signos) debe ser mínima:

n n n

∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
i =1
i
2

i =1
i
2

i =1
i i
2

Variabilidad debida al
Variabilidad no explicada
Variabilidad total: modelo de regresión
por el modelo:
Suma de cuadrados lineal:
Suma de cuadrados de los
totales (SC t ) Suma de cuadrados de la
errores (SC e )
regresión (SC r )

De ahí partimos para decir que, si no hubiera diferencias entre los valores reales y los
estimados, el error de estimación sería nulo y no existiría una variabilidad inexplicada:
n
y i − yˆ i ≈ 0 ⇒ ∑ ( y i − yˆ i ) ≈ 0
2

i =1

Por lo que la variabilidad total sería igual a la variabilidad debida al modelo de


regresión lineal:
n n
SC t = SC r ⇒ ∑ ( y i − y ) = ∑ ( yˆ i − y )
2 2

i =1 i =1

Y al compararlas (por división), daría un conciente de 1:


n

∑ ( yˆ − y )
2
i
1= i =1
n

∑ (y − y)
2
i
i =1

130
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

¿Qué pasa, sin embargo, cuando en la práctica existen errores de estimación? Pues
que el cociente de esta comparación es menor a uno, ya que parte de la variabilidad
se debe a los residuales. La estadística define entonces al resultado como coeficiente
( )
de determinación R 2 , cuyo valor está entre cero y uno 0 ≤ R 2 ≤ 1 y al ser ( )
multiplicado por cien revela el porcentaje de la variabilidad de Y que el modelo de
regresión lineal explica.
Si bien su valor puede calcularse a través de la fórmula ya descrita, se ha comprobado
que para obtener el coeficiente de determinación basta con elevar al cuadrado el
coeficiente de correlación:

∑ ( yˆ − y )
2
i
COEFICIENTE DE R2 = i =1
DETERMINACIÓN n R2 = r 2
∑ (y − y)
2
i
i =1

Por último: aunque lo ideal sería que, como vimos, el valor del coeficiente de
determinación fuera o se acercara a 1 (100%), esto pocas veces sucede. Por ende, a
falta de criterios estrictos sobre el valor que debe tener R 2 para considerar al modelo
de regresión lineal adecuado, simplemente hemos de sugerir que rebase el 50%,
justificando que así la mayor parte de la variabilidad de Y se deberá al modelo y no a
lo errores.
C.3) CRITERIOS SOBRE LOS PARÁMETROS DEL MODELO.

En los modelos de tipo y = β 0 + β 1 x + e la variable independiente X se asocia a β 1 .


Debido a eso, si el valor de este parámetro fuera igual o muy parecido a cero (β 1 ≈ 0 ) ,
la variable X desaparecería y y = β 0 , lo cual indicaría que la variable independiente
no afecta ni tiene relación con la variable dependiente; es decir, el modelo de
regresión lineal planteado estaría errado.
A fin de comprobar que éste no sea el caso, debe revisarse que algunos supuestos se
cumplan para poder aplicar dos tipos de pruebas.

C.3.1) Supuestos del modelo clásico de regresión lineal simple

1. Para poder estimar, los valores de la variable independiente deben ser fijos y
los de la dependiente aleatorios. Es decir, para cada dato de X que el
investigador recabe encontrará diversos valores de Y .
2. Los errores ei son independientes. Esto es, el valor de cada uno no depende
del valor de los otros.

Ello puede comprobarse mediante la prueba de Durbin-Watson:

∑ (r − ri − 1 )
2
i
EXPRESIÓN PARA LA PRUEBA DE DW = i=2
DURVIN-WATSON n

∑r
2
i
i=2

Cuyo resultado de se interpreta de la siguiente forma:

VALOR DE DW INTERPRETACIÓN

131
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

DW ≈ 0 Los errores muestran una autocorrelación perfecta positiva.


DW ≈ 2 Los errores son independientes.
DW ≈ 4 Los errores muestran una autocorrelación perfecta negativa.

3. El valor esperado de cualquier error es cero: E (ei ) = 0 , por ende, basta con
comprobar que la media de los errores sea cero.
4. La varianza de cada error es Var (ei ) = σ 2 ; razón por la cual todos lo errores
tienen la misma varianza (fenómeno denominado homosedasticidad).
5. Los errores tienen distribución normal, al igual que los valores de Y :
(
y i ~ N β 0 , β 1 xi , σ 2 )
El hecho de que los errores tengan una distribución normal, sean independientes,
estén idénticamente distribuidos, tengan media cero y varianza σ 2 , puede resumirse
en unas cuantas siglas: ei ~ NIID 0, σ 2 . ( )
C.3.2) Prueba ANOVA

Prueba fundamentada en el análisis de varianza que postula las siguientes hipótesis:

HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0

Las cuales se contrastan construyendo el siguiente estadístico de prueba:

Grados
Fuente de Cuadrados medios Estadístico
de Suma de cuadrados
variabilidad (varianza) de prueba
libertad
n

∑ ( yˆ − y )
n
SC r = ∑ ( yˆ i − y )
Debida al 2 2
i
modelo de 1
regresión
i =1
CM r = i =1
= SC r
1 CM r
n
Fc =
∑ (y − yˆ i )
n CM e
SC e = ∑ ( y i − yˆ i )
2 2
Inexplicada
(por error)
(n − 2) i =1 CM e = i =1
i
= S y2 x
(n − 2)
n

∑ (y − y)
n
SC t = ∑ ( y i − y )
2 2

Total (n − 1) i =1 CM t = i =1
i
= S y2
(n − 1)
El cual tiene una distribución F de Fisher con 1 grado de libertad en el numerador y
(n − 2) grados de libertad en el denominador y se compara con la correspondiente
región de rechazo cuya confiabilidad es (1 − α ) :

REGIÓN DE RECHAZO DE H 0 : β o = β1 = 0

132
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

F1(−1α, n − 2 )

Si la hipótesis nula se rechaza se infiere que el modelo de regresión lineal es


adecuado. No obstante, se recomienda realizar la siguiente prueba de hipótesis para
comprobar si la variable X es significativa.

C.3.3) Prueba de la pendiente

Prueba que, para comprobar si la variable independiente explica los valores de la


variable dependiente, plantea las siguientes hipótesis:

HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0

Y les contrasta mediante un estadístico de prueba que tiene una distribución t de


student con (n − 2 ) grados de libertad:

EXPRESIÓN PARA βˆ1


CALCULAR EL tc =
Sy x
ESTADÍSTICO DE
PRUEBA t c (n − 1) ⋅ S x
Los elementos de esta expresión nos son ya conocidos, exceptuando el de S y x , que
junto al resto del denominador conforma un estimador de la desviación estándar de los
valores de Y .
Hagamos entonces una deducción para llegar a la expresión con la que S y x debe
calcularse:

• Basándonos en la prueba ANOVA sabemos que:


n n

∑ ( yi − yˆ i ) ∑ (y − y)
2 2
i
S y2 x = i =1
S y2 = i =1

(n − 2) (n − 1)
• Fórmulas de las cuales despejaremos las sumas de cuadrados para obtener
expresiones que denominaremos como 1 y 2:
1 2
n n

∑ ( yi − yˆ i ) = (n − 2)S y2 x ∑ (y − y ) = (n − 1)S y2
2 2
i
i =1 i =1

• Por otro lado, recordemos que la variabilidad total de Y es igual a la suma de la


variabilidad debida al modelo y la variabilidad no explicada (debida a los errores).

133
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

n n n

∑ ( yi − y ) = ∑ ( yˆ i − y ) + ∑ ( yi − yˆ i )
2 2 2

i =1 i =1 i =1

• Para determinar la variabilidad de Y debida al modelo podemos entonces ocupar


cualquiera de las siguientes expresiones:
n

∑ ( yˆ − y )
2
n n n i

∑ ( yˆ − y ) = ∑ ( y − y ) − ∑ ( y i − yˆ i ) R2 = r 2 = i =1
2 2 2
i i n
i =1 i =1 i =1
∑ (y − y)
2
i
i =1

• Si las combinamos por medio de sus elementos comunes tenemos que otra
forma de calcular el coeficiente de determinación es:
n n

∑ ( yi − y ) − ∑ ( yi − yˆ i )
2 2

R2 = r 2 = i =1
n
i =1

∑ (y
i =1
i − y)
2

• Que se simplifica a:
n

∑ (y − yˆ i )
2
i
R2 = r 2 = 1− i =1
n

∑ (y
i =1
i − y)
2

a+c a c
Porque = +
b b b

• Sustituyamos ahora sus componentes con las expresiones que dedujimos con el
número 1 y 2:
(n − 2)S y2 x
r 2
= 1−
(n − 1)S y2

• Y realicemos los cambios necesarios para aislar al elemento S y2 x :

Despejamos toda la comparación (n − 2)S y2 x


= 1− r2
(división) (n − 1)S y2
Pasamos dividiendo lo que le 1− r2
multiplica y multiplicando lo que le S y2 x =
(n − 2)
(
(n − 1)S y2 )
divide
1 − r 2 (n − 1)
Y finalmente sacamos raíz cuadrada Sy x = ⋅ Sy
(n − 2)
Con lo cual tenemos que la fórmula para calcular S y x es:

EXPRESIÓN PARA CALCULAR S y x


1 − r 2 (n − 1)
Sy x = Sy
(n − 2)

134
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Una vez que se obtenga el valor de S y x resta sustituir el resto de los elementos
(βˆ , (n − 1), S ) para calcular es estadístico de prueba t
1 x c y compararlo con la región
de rechazo correspondiente:

REGIÓN DE
RECHAZO DE 1-α
H 0 : β1 = 0 α/2 α/2

− t1(−nα− 2 ) t1(−nα− 2)
2 2

Claro está que si H 0 : β 1 = 0 se rechaza, el modelo de regresión es adecuado, porque


la variable independiente no sólo afecta los valores de la independiente, si no que
además resulta significativa para explicarlos.

D. USO DEL MODELO DE REGRESIÓN LINEAL SIMPLE

Una vez se haya comprobado que el modelo ajustado yˆ = βˆ0 + βˆ1 x es adecuado,
pueden realizarse estimaciones sobre el valor de Y dado un valor de X , siempre y
cuando éste se encuentre en el rango que esta variable haya mostrado; es decir, que
no rebase su mínimo ni su máximo.

D.1) ESTIMACIÓN PUNTUAL

Si y 0 es el valor desconocido que toma la variable dependiente cuando X = x0 , una


estimación puntual de su valor puede obtenerse de la siguiente forma:

EXPRESIÓN PARA ESTIMAR


PUNTUALMENTE EL VALOR DE y 0
yˆ 0 = βˆ0 + βˆ1 x0

Es decir, el valor estimado para esta Y puede calcularse sustituyendo los valores de
βˆ0 , β̂1 y x0 .9

D.2) ESTIMACIÓN POR INTERVALOS

A diferencia de otras ocasiones, se llama INTERVALO DE PREDICCIÓN al rango en


el que, con cierto grado de confianza, se estima está el valor hipotético de y 0 cuando
X = x 0 . Para su construcción basta utilizar la siguiente expresión:

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
(n − 2 )
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦

9
Aunque la operación no es tan complicada, las calculadoras científicas pueden obtener el valor estimado
con más precisión, habiendo ingresado los datos de ambas variables en la función estadística de regresión
lineal y aplicando la función ( ŷ ) o ( y ′)

135
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Como en todo intervalo, obtendremos dos valores límites (mínimo y máximo del
rango). He aquí graficados, como ejemplo, dichos valores de Y respecto a los valores
de xi :
170

160

150

140
V. máx. estatura
Altura de rodilla

130 V. min. estatura


Altura de rodilla

V. real estatura
120 Altura de rodilla
40 42 44 46 48 50

160

Para evitar tal saturación, los


programas de estadística 150
permiten graficar la línea del
Estatura

modelo de regresión (central), así


como dos líneas (exteriores) que
delimitan continuamente los 140

intervalos de predicción para


cada x0 .
130
40 42 44 46 48 50

Altura de rodilla

Por otro lado, se conoce como INTERVALO DE CONFIANZA al rango en el que, con
cierto grado de error, puede encontrarse la media de las Y cuando X = x 0 ; es decir:
µy x :
0

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
(n −2 )
INTERVALO DE CONFIANZA SOBRE µy x ∈ ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0
0
⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦

Como puede verse, tal expresión no difiere más que por un 1 con respecto a la
expresión para construir intervalos de predicción. Sin embargo, ello es suficiente los
intervalos de µ y x0 :

136
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

160 160

150
150

Estatura
140

140 V. máx. media estat


Altura de rodilla

V. mín. media estat


Altura de rodilla
130
V. real estatura 40 42 44 46 48 50
130 Altura de rodilla
40 42 44 46 48 50 Altura de rodilla

Y de hecho, puede comprobarse la gran diferencia entre ellos:

170 160

160

150

V. máx. estatura
150
Altura de rodilla

V. mín. estatura
Altura de rodilla
140 140
V. máx. media estat
Altura de rodilla
Estatura

130 V. mín. media estat


Altura de rodilla
130
V. real estatura 40 42 44 46 48 50
120 Altura de rodilla
40 42 44 46 48 50 Altura de rodilla

E. EJEMPLOS DE APLICACIÓN

1. Los siguientes datos de altura y peso en jóvenes adultos son parte de la


muestra recolectada durante la investigación en Cholula, Puebla (1968-1970).

ESTATURA PESO
1649 49.5
1635 57.5
1611 50.0
1622 53.5
1583 43.0
1613 57.5
1636 50.5
1650 56.0
1579 50.0
1568 50.0
1522 44.5
1554 48.0
1627 51.0
1535 46.0

137
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

1565 49.5

Suponiendo distribución normal en ambas variables:


a) ¿Puede afirmarse que existe asociación lineal entre estas variables?
b) Dado el caso, ajuste el modelo de regresión lineal.
c) Compruebe si el modelo ajustado es adecuado con una significancia α = 0.05
d) Si es el caso, realice una estimación puntual y por intervalos cuando la estatura del
joven es de 1600 mm.

Comprobemos entonces si existe asociación lineal entre estas variables por medio de
un diagrama de dispersión y el coeficiente de correlación.

58

56

54
Peso jóvenes adultos

52

50

48

46

44

42
1520 1540 1560 1580 1600 1620 1640 1660

Estatura jóvenes adultos

a.1) , Si bien en los valores más pequeños de la estatura puede verse una
asociación lineal clara con respecto al peso, conforme la estatura aumenta este
patrón no es tan claro

COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlación de Pearson nos indica una asociación
lineal directa considerable entre la estatura y el peso de esta población.

A continuación saquemos los datos necesarios para calcular los estimadores β̂ 1 y βˆ0
a fin de establecer el modelo de regresión.

DATOS GENERALES
n = 15 x = 1596.6000 y = 50.4333 s x = 41.5379 s y = 4.3006
n n

∑x y
i =1
i i = 1209525.000 ∑x
i =1
2
i = 38261129.00

Si bien en esta ocasión se mostrará el cálculo explícito, después se mostrará


únicamente el obtenido directamente con ayuda de la calculadora.

138
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA n

CALCULAR ∑x y i i − nx y
EL ESTIMADOR βˆ1 = i =1
n
β̂1 EXPRESIÓN ∑x 2
i − nx 2
PARA i =1

CÁLCULO 1209525.000 − 15(1596.6000)(50.4333)


βˆ1 = = 0.0703
MANUAL 38261129.00 − 15(1596.6000 )
2

CALCULADORA βˆ1 = 0.0703


CALCULAR
βˆ0 = y − βˆ1 x
EL ESTIMADOR βˆ0
CÁLCULO
βˆ0 = 50.4333 − 0.0703(1596.6000) = −61.8077
MANUAL
CALCULADORA βˆ0 = −61.7390

Por lo que el modelo de regresión lineal ajustado queda como:

MODELO TEÓRICO y = β 0 + β1 x + e
MODELO AJUSTADO peso = −61.7390 + 0.0703estatura
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.

Ahora bien, para comprobar que el modelo ajustado es adecuado hay que verificar si
cumple con los criterios y supuestos:

1. CRITERIO DEL COEFICIENTE DE CORRELACIÓN


HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

EXPRESIÓN PARA n−2


ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
CÁLCULO DE t c 15 − 2
t c = 0.6786 = 3.3310
1 − (0.6786)
2

139
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

c.1) , El estadístico de prueba t c = 3.3310 cae en la región de rechazo delimitada por

.975 = 2.1604 . Por tal motivo, la hipótesis nula H 0 : ρ = 0 se rechaza y puede


t 0(13 )

afirmarse que sí existe una asociación significativa entre la estatura y el peso de los
jóvenes adultos de Cholula.

2. CRITERIO DEL COEFICIENTE DE DETERMINACIÓN


COEFICIENTE DE DETERMINACIÓN R2 = r 2
R 2 = (0.6786) = 0.4605
2
CÁLCULO
c.2) , El valor del coeficiente de determinación indica el modelo ajustado explica sólo
el 46.05% de la variabilidad total del peso.

d) , Al no cumplir con el criterio del coeficiente de determinación cabe concluir que el


modelo ajustado no es realmente adecuado para explicar el fenómeno; por ende, no
es recomendable realizar estimaciones.

Veamos ahora un ejemplo muy parecido donde podamos aplicar el resto de los
criterios:

2. Los siguientes datos de altura y peso también son parte de la muestra


recolectada durante la investigación en Cholula, Puebla (1968-1970), pero pertenecen
a adolescentes hombres:

ESTATURA PESO
1674 58.5
1672 53.5
1710 58.0
1651 57.0
1702 58.0
1656 58.0
1672 56.5
1590 51.5
1612 56.0
1652 57.5
1594 51.5
1566 47.0
1645 54.5
1678 54.0
1740 62.0

Suponiendo distribución normal en ambas variables:


a) ¿Existe asociación lineal entre estas variables?
b) En caso afirmativo, ajuste el modelo de regresión lineal.
c) Compruebe que el modelo ajustado sea adecuado utilizando una significancia
α = 0.05

140
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

d) Si es posible, realice una estimación puntual y por intervalos cuando la estatura del
adolescente es de 1700 mm.

64

62

60

Peso adolescentes
58

56

54

52

50

48

46
1500 1600 1700 1800

Estatura adolescentes

a.1) , Pese a la dispersión de algunos datos puede verse una asociación lineal entre
la estatura y el peso, así como se define una pendiente bastante grande.

COEFICIENTE DE PEARSON
r = 0.8382
a.2) , El coeficiente de correlación de Pearson señala una asociación lineal directa
fuerte entre la estatura y el peso de los adolescentes de Cholula.

ESTIMADORES Y AJUSTE DEL MODELO


βˆ1 = 0.0646 βˆ0 = −51.3759
peso = −51.3759 + 0.0646estatura
b) , De acuerdo al modelo ajustado, por cada milímetro que cambia la estatura, el
peso cambia 0.0646 kilogramos.

1. CRITERIO DEL COEFICIENTE DE CORRELACIÓN


HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

EXPRESIÓN PARA n−2


ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
CÁLCULO DE t c 15 − 2
t c = 0.8382 = 5.5411
1 − (0.8382)
2

141
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

c.1) , El estadístico de prueba t c = 5.5411 cae en la región de rechazo delimitada por

.975 = 2.1604 . Por ende, la hipótesis nula H 0 : ρ = 0 se rechaza y puede afirmarse


t 0(13 )

que existe una asociación significativa entre la estatura y el peso de los adolescentes
de Cholula.

2. CRITERIO DEL COEFICIENTE DE DETERMINACIÓN


COEFICIENTE DE DETERMINACIÓN R2 = r 2
R 2 = (0.8382) = 0.7025
2
CÁLCULO
c.2) , Según este coeficiente, el modelo ajustado explica el 70.25% de la variabilidad
total del peso; lo cual sugiere que sólo un menor porcentaje se debe a los residuales.

Y antes de verificar los otros dos criterios es necesario revisar si se cumplen los
supuestos sobre los errores:

SUPUESTOS
Valores fijos para X y Teóricamente sabemos que aunque dos personas
valores aleatorios para Y midan lo mismo, su peso puede diferir. En este caso
particular basta con señalar que existen dos
individuos con una estatura de 1672 milímetros, pero
mientras uno pesa 53.5 kilos, el otro pesa 56.5 kg.
Errores independientes Al aplicar la prueba de Durbin-Watson en el SPSS
obtenemos un valor de 1.922. Estando esté tan cerca
del 2 (DW ≈ 2 ) , podemos afirmar que los errores son
independientes.
Esperanza de los errores Según el SPSS, la media de los residuales no
estandarizados es cero; por tanto E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Peso adolescentes
1.00
Errores esperados acumulados

.75

.50

.25

0.00
0.00 .25 .50 .75 1.00

Errores observados acumulados

, Todos los supuestos sobre los errores se cumplen.

142
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Ahora sí pueden verificarse los criterios sobre los parámetros. Si bien aquí se aplicará
tanto la prueba ANOVA (mediante SPSS) como la prueba sobre la pendiente; debido a
la complejidad de la primera, en los siguientes ejemplos y en la práctica será suficiente
aplicar la segunda, ya que es en ella donde se comprueba si la variable independiente
es significativa para explicar la variabilidad de la dependiente.

3. PRUEBA ANOVA
HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0
Fuente de Grados Suma de cuadrados Cuadrados medios Estadístico
variabilidad de (varianza) de prueba
libertad
Debida al 1 SC r = 132.734 CM r = 132.734 Fc = 30.704
modelo de
regresión
Inexplicada 13 SC e = 56.199 CM e = 4.323
(por error)
Total 14 SC t = 189.933 CM t = 13.4953
REGIÓN DE RECHAZO DE H 0 : β o = β 1 = 0 Y UBICACIÓN DEL ESTADÍSTICO

c.3) , El estadístico de prueba Fc = 30.704 cae en la región de rechazo delimitada


por F0(.195,13 ) = 4.67 . Debido a ello puede concluirse que ninguno de los dos parámetros
es igual a cero.

4. PRUEBA DE LA PENDIENTE
HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

EXPRESIÓN PARA CALCULAR S y x 1 − r 2 (n − 1)


Sy x = Sy
(n − 2)
CÁLCULO
S y x = 3.6736
(1 − 0.8382)2 (15 − 1) = 2.0792
(15 − 2)

143
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EXPRESIÓN PARA CALCULAR EL βˆ1


ESTADÍSTICO DE PRUEBA t c tc =
Sy x
(n − 1) ⋅ S x
CÁLCULO 0.0646
tc = = 5.5411
2.0792
(15 − 1) ⋅ 47.6302
UBICACIÓN DEL ESTADÍSTICO DE PRUEBA t c CON RESPECTO A REGIÓN DE
RECHAZO DE H 0

c.4) , El estadístico de prueba t c = 5.5411 cae en la región de rechazo delimitada

.975 = 2.1604 , debido a lo que la hipótesis nula H 0 : β 1 = 0 se rechaza y puede


por t 0(13 )

afirmarse que la variable estatura es significativa para explicar el peso de los


individuos de esta población.

Por último resta hacer estimaciones, por ejemplo, para un individuo que pesa 1700
milímetros:

EXPRESIÓN PARA ESTIMAR


PUNTUALMENTE EL VALOR DE y 0
yˆ 0 = βˆ0 + βˆ1 x0

CÁLCULO MANUAL yˆ 0 = −51.3759 + 0.0646(1700) = 58.5240


CALCULADORA 1700′ = 58.5232
, A partir del modelo de regresión podemos estimar puntualmente que, en esta
población, un individuo con una estatura de 1700 milímetros pesa 58.5232
kilogramos.

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 + t1(−nα− 2 ) ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
⎡ 1 (1700 − 1654.2667 ) ⎤
2
y 0 ∈ ⎢58.5232 ∓ 2.1614 ⋅ 2.0792 ⋅ + ⎥
CÁLCULO ⎢⎣ 15 (15 − 1)(47.6302)2 ⎥⎦
y 0 ∈ [56.8880,60.1584]
, El peso de un individuo cuya estatura es de 1700 milímetros está entre los 56.9 y
los 60.2 kilogramos.

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
(n −2 )
INTERVALO DE CONFIANZA SOBRE µ y x0 ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦

144
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎡ 1 (1700 − 1654.2667 ) ⎤
2
y 0 ∈ ⎢58.5232 ∓ 2.1614 ⋅ 2.0792 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 15 (15 − 1)(47.6302)2 ⎥⎦
y 0 ∈ [53.7429,63.3033]
, En esta población, el peso promedio de individuos una estatura de 1700 milímetros
está entre los 53.7 y los 63.3 kilogramos.

64

62

60
Peso adolescentes

58

56

54

52

50

48

46
1500 1600 1700 1800

Estatura adolescentes

2. A continuación se presentan los datos de estatura sentado y estatura total de


un grupo de niños cuyas edades oscilan entre los 6.7 y 7.6 años.

ESTATURA SENTADO ESTATURA TOTAL


631 1100
593 1100
617 1133
615 1163
660 1213
672 1155
628 1130
621 1111
636 1155
637 1165
651 1197
590 1062
606 1144
642 1163

Suponiendo distribución normal en ambas variables:


a) Compruebe si existe asociación lineal entre las variables.
b) Si es el caso, ajuste el modelo de regresión lineal.
c) Verifique que el modelo sea adecuado a una significancia α = 0.05
d) Realice una estimación puntual y por intervalos para cuando la estatura sentado del
niño fuera de 630 mm.

145
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

1220

1200

1180

1160

Estatura total
1140

1120

1100

1080

1060
580 600 620 640 660 680

Estatura sentado

a.1) , Aunque existe una dispersión considerable, puede entreverse una asociación
lineal entre la estatura sentado y la estatura total de los niños.

COEFICIENTE DE PEARSON
r = 0.7344
a.2) , El valor del coeficiente de correlación de Pearson también indica una
asociación lineal directa entre estas variables.

ESTIMADORES Y AJUSTE DEL MODELO


βˆ1 = 1.2413 βˆ0 = 362.0680
Estatura total = 362.06809 + 1.2413 estatura sentado
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura sentado,
la estatura total cambia 1.2413 milímetros.

1. CRITERIO DEL COEFICIENTE DE CORRELACIÓN


HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−140−.025
2)
= ∓t 0(12
.975 = ∓2.1788
)
2 2 2

EXPRESIÓN PARA n−2


ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
CÁLCULO DE t c 14 − 2
t c = 0.7344 = 3.7484
1 − (0.7344)
2

146
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0

c.1) , El estadístico de prueba t c = 3.7484 cae en la región de rechazo delimitada por

.975 = 2.1788 . Debido a ello la hipótesis nula H 0 : ρ = 0 se rechaza y puede


t 0(12 )

afirmarse que sí hay una asociación significativa entre la estatura sentado y la estatura
total.

2. CRITERIO DEL COEFICIENTE DE DETERMINACIÓN


COEFICIENTE DE DETERMINACIÓN R2 = r 2
R 2 = (0.7344) = 0.5394
2
CÁLCULO
c.2) , De acuerdo al coeficiente, el modelo ajustado explica el 53.94% de la
variabilidad total de la estatura total. Dicho valor está muy próximo a la variabilidad
debida a los residuales, motivo por el cual será importante verificar que el modelo
cumpla con otros criterios antes de utilizarlo para estimar.

SUPUESTOS
Valores fijos para X y
valores aleatorios para Y
Errores independientes La prueba Durbin-Watson de SPSS arroja un valor de
1.928 (DW ≈ 2 ) , por tanto, los errores son
independientes.
Esperanza de los errores El SPSS señala que la media de los residuales no
estandarizados es cero; por lo cual se cumple que
E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Estatura total
1.00
Errores esperados acumulados

.75

.50

.25

0.00
0.00 .25 .50 .75 1.00

Errores observados acumulados

, Todos los supuestos sobre los errores se cumplen.

3. PRUEBA DE LA PENDIENTE
HIPÓTESIS

147
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−140−.025
2)
= ∓t 0(12
.975 = ∓2.1788
)
2 2 2

EXPRESIÓN PARA CALCULAR S y x 1 − r 2 (n − 1)


Sy x = Sy
(n − 2)
CÁLCULO
S y x = 40.1271
(1 − 0.7344)2 (14 − 1) = 28.3466
(14 − 2)
EXPRESIÓN PARA CALCULAR EL βˆ1
ESTADÍSTICO DE PRUEBA t c tc =
Sy x
(n − 1) ⋅ S x
CÁLCULO 1.2413
tc = = 3.7485
28.3466
(14 − 1) ⋅ 23.7414
UBICACIÓN DEL ESTADÍSTICO DE PRUEBA t c CON RESPECTO A REGIÓN DE
RECHAZO DE H 0

c.4) , El estadístico de prueba t c = 3.7485 cae en la región de rechazo delimitada

.975 = 2.1788 . Por tal motivo la hipótesis nula H 0 : β 1 = 0 se rechaza y podemos


por t 0(12 )

afirmar que la variable estatura sentado es significativa para explicar la estatura total
de los niños entre 6.7 y 7.6 años en esta población.

EXPRESIÓN PARA ESTIMAR


PUNTUALMENTE EL VALOR DE y 0
yˆ 0 = βˆ0 + βˆ1 x0
CÁLCULO 630′ = 1144.0762
, Gracias al modelo de regresión lineal podemos estimar que un niño con 630
milímetros de estatura sentado tendría una estatura total de 1144.0762 milímetros.

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 + t1(−nα− 2 ) ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦

148
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1127.5461,1160.6063]
, Si un niño de esta población tuviera una estatura sentado de 630 milímetros, su
estatura total estaría entre los 1127.5461 y los 1160.6063 milímetros.

EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤


2
INTERVALO DE CONFIANZA SOBRE µ y x ⎢ yˆ 0 ∓ t1(−nα−2 ) ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0
0
⎢⎣ n (n − 1) ⋅ S x2 ⎥

2

⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1080.1408,1208.0116]
, En esta población, la estatura total promedio de niños con una estatura sentado de
630 milímetros estaría entre los 1080.1408 y los 1208.0116 milímetros.

1220

1200

1180

1160
Estatura total

1140

1120

1100

1080

1060
580 600 620 640 660 680

Estatura sentado

149
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

EJERCICIOS DE REPASO

1. Uno de los principales problemas en la antropometría de ancianos es la


determinación de la estatura total. Una manera indirecta es construir modelos de
regresión con otras medidas antropométricas. Una de las más usadas es la altura
de lo rodilla, pues se cree que existe una fuerte relación lineal con la estatura. Los
siguientes datos corresponden a una muestra de ancianos del sexo femenino de
un asilo de ancianos de la ciudad de México:
Altura
de 40.8 48.3 46.5 43.3 47.5 45.6 49.9 44.7 46.7 46.2 47.4 40.4 46.9 47.3
rodilla
Estatura 137.5 142.0 142.0 144.4 144.8 141.8 156.2 144.0 149.7 144.0 151.8 134.1 143.9 140.5

Altura de
42.5 43.2 50.0 48.0 49.3 44.9 45.7 50.4 46.0 45.0 43.4 37.5
rodilla
Estatura 145.0136.0 151.2 140.2 143.0 138.1 139.7 153.9 142.0 137.0 140.0 124.5

a) Dibujar en un diagrama de dispersión los datos.


b) Calcula la recta de regresión correspondiente y graficarla.
c) Determina si el modelo es adecuado, es decir calcular coeficiente de
correlación, coeficiente de determinación y realizar la prueba de hipótesis sobre
la pendiente de la recta.
d) Si es el caso, realizar una estimación puntual y por intervalo para la estatura de
una anciana cuya altura de la rodilla sea de 45.8 cm, tanto del valor individual
como para el valor promedio.
2. Se desea saber si es posible encontrar un modelo de regresión lineal entre la
fuerza muscular medida en kilos con un dinamómetro y la resistencia para
sostener un peso determinado al aire y con el brazo extendido, medida en minutos
y décimas de minutos. Todo realizado con la mano derecha, en una muestra de
15 individuos adultos. Los valores obtenidos son los siguientes:

fuerza (kg.) 23 25 26 28 23 25 26 29 24 25 27 26 24 26 28
Resistencia 0.8 0.9 2.0 2.7 1.2 1.5 2.4 3.0 0.8 1.9 2.0 1.7 1.2 1.1 1.5
(min.)

a) Graficar los datos en un diagrama de dispersión.


b) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.05
d) Obtener los coeficientes de correlación y determinación. Interprete estos
valores.
e) ¿Qué puede concluir sobre el modelo encontrado?
f) Si una persona tiene una fuerza de 24.5 kg.
f.1) Encontrar un intervalo de confianza, al 95%, para el valor de la
resistencia
f.2) Encontrar un intervalo de confianza, al 95%, para el valor medio de
la resistencia.
3. Una fundación para la preservación de fauna desea demostrar que, en contra de
la opinión de la mayoría, las cigüeñas si traen niños. Le gustaría probar esto con
estadísticas. Han reunido datos sobre el número de cigüeñas y de niños (ambos
en miles) en algunas ciudades de Europa.

Cigüeñas 39 50 25 36 18 31 27

150
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Niños 30 41 14 27 10 26 15

a) Graficar los datos en un diagrama de dispersión.


b) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.1
d) Obtener los coeficientes de correlación y determinación. Interprete estos
valores.
e) ¿Qué puede concluir sobre el modelo encontrado?

4. Los siguientes datos se refieren a la edad cronológica exacta y la altura sinfisial


de una muestra de niños de Milpa Alta.

a) Dibujar en un diagrama de dispersión los datos.


Altura
b) Calcula la recta de regresión correspondiente y
Edad sinfisial
graficarla.
4.81 460 c) Determina si el modelo es adecuado, es decir
5.05 536 calcular coeficiente de correlación, coeficiente de
5.26 530 determinación y realizar la prueba de hipótesis
5.19 586 sobre la pendiente de la recta y verificar supuestos
5.24 481 sobre los errores.
4.78 446 d) Si es el caso, realizar una estimación puntual y por
5.33 512 intervalo para la edad de un niño cuya altura
5.38 518 sinfisial sea de 515 mm., para el valor individual
5. Los
4.64siguientes
560 datos como por
corresponden a la intervalo.
estatura de padres e hijos

Padres 165.10 160.02 170.18 162.56 172.72 157.48 177.80 167.64 172.72 170.18 175.26 180.34
Hijos 172.72 167.64 172.72 165.10 175.26 167.64 172.72 165.10 180.34 170.18 172.72 177.80

a) Graficar los datos en un diagrama de dispersión.


b) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c) Obtener el coeficiente de correlación. Interprete este valor.
d) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.95
e) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 90%, el valor de la estatura de un hijo cuando la
estatura de su padre es de 169 cm. Interpretar.
g) Estimar puntualmente la estatura de un hijo si la estatura de su padre es de
195 cm. ¿qué puede decir de este valor estimado?

6. Considera los siguientes valores:

X 12.5 15.3 17.4 16.9 16.3 18.3 20.2 20.7 13.8 12.7
Y 16.165 19.329 21.702 21.137 20.459 22.719 24.866 25.431 17.634 16.391

Graficar los datos en un diagrama de dispersión.


a) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
b) Obtener el coeficiente de correlación. Interprete este valor.

151
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

c) ¿La pendiente de la recta de regresión poblacional es diferente de cero?


Considerar una significancia de 0.95
d) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.

7. Los siguientes datos corresponden a la edad y presión sanguínea de 12 personas


aparentemente sanas.

Edad 56 42 72 36 63 47 55 49 38 42 68 60
Presión
sanguínea 147 125 160 118 149 128 150 145 115 140 152 155

a) Graficar los datos en un diagrama de dispersión.


b) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c) Obtener el coeficiente de correlación. Interprete este valor.
d) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.95
e) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 95%, el valor de la presión sanguínea cuando la
edad es de 50 años. Interpretar.
g) Estimar puntualmente la presión sanguínea cuando la edad es de 80 años.
¿Qué puede decir de este valor estimado?

8. Considera los siguientes datos:

X 3.2 4.6 7.5 8.4 6.3 2.4 7.2 3.9 4.7 9.1
Y 5.656 7.238 10.515 11.532 9.159 4.752 10.176 6.447 7.351 12.323

a)Graficar los datos en un diagrama de dispersión.


b)Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c)Obtener el coeficiente de correlación. Interprete este valor.
d)¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.95
e) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
9. Los siguientes datos corresponden al peso y el nivel total de colesterol y
triglicéridos en 15 personas:
Peso Colesterol Triglicéridos
Total (mg/100 ml) (mg/100 ml)
76 302 139
97 336 101
83 220 57
52 300 56
70 382 113
67 379 42
75 331 84
78 332 186
70 426 164
99 399 205
75 279 230
78 332 186

152
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

70 410 160
77 389 153
76 302 139

a) Ajustar el modelo de regresión lineal múltiple


b) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
d) Verificar supuestos sobre los errores.
e) ¿El modelo estimado es correcto?

10. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12 y 18


años (todas las mediciones están en centímetros):
Estatura Longitud Longitud
del radio del fémur
149.0 21.00 42.50
152.0 21.79 43.70
155.7 22.40 44.75
159.0 23.00 46.00
163.3 23.70 47.00
166.0 24.30 47.90
169.0 24.92 48.95
172.0 25.50 49.90
174.5 25.80 50.30
176.1 26.01 50.90
176.5 26.15 50.85
179.0 26.30 51.10
a) Ajustar el modelo de regresión lineal múltiple
b) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
d) Verificar supuestos sobre los errores.
e) ¿El modelo estimado es correcto?

153
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Bioestadística
Práctica 1: Pruebas de Hipótesis
Se trabaja con la base de datos contenida en el archivo antropometria.sav la cual
contiene información sobre algunas características somatológicas de los alumnos de
Antropología Física de primer semestre en el ciclo 2003-1. Se presentan ejemplos y
actividades para que realicen los alumnos.
I. Una muestra. Suponiendo que los datos representan una muestra representativa de
los estudiantes de la ENAH de primer semestre en ese ciclo, ¿Es posible afirmar que la
edad promedio de los alumnos de este ciclo es menor de 21 años?
La hipótesis a contrastar es: Hinv : µ < 21 , por lo tanto las hipótesis estadísticas son:
H o : µ ≥ 21 vs. H a : µ < 21 . En SPSS se deberá seguir los siguientes pasos:

1. En el menú Analyze,
seleccionar Compare
Means y seleccionar One-
Sample T Test... como se
muestra en la figura.

2. En el cuadro de diálogo
introducir la variable edad y
el valor 21 como se muestra
en la figura y dar Ok.

3. Se obtienen los siguientes resultados en dos tablas, en la primera se presenta el


tamaño de muestra, la media aritmética, la desviación estándar y el error estándar de la
s
media , . En el segundo cuadro se observa el valor del estadístico de prueba, los
n
grados de libertad, la significancia encontrada (el p-valor), la diferencia de medias
( x − µ0 ) y el intervalo al 95% de confianza para ( µ − µ0 ). La hipótesis nula que
contrasta el programa siempre es la de dos colas, H o : µ = µ0 . En el caso del ejemplo
como Sig. = p = .000 <α , se rechaza la hipótesis H o : µ = 21 , por lo cual o es menor o
es mayor a 21 años. Si observamos los valores descriptivos tenemos que la media
muestra x = 22.8446 , por lo tanto tenemos evidencias estadísticas que nos indican que
la media es mayor a 21. Otra forma de ver esto es observar el intervalo de confianza

154
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

para la diferencia µ − 21 viendo que el intervalo contiene sólo valores son positivos.
Por lo tanto se infiere que µ − 21 > 0 ⇒ µ > 21 . Por lo tanto, la hipótesis de
investigación no es correcta, ya que la media estadísticamente (p=.000) es mayor a 21.
T-Test
One-Sample Statistics

Std. Error
N Mean Std. Deviation Mean
Edad exacta 62 22.8446 3.70024 .46993

One-Sample Test

Test Value = 21
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Edad exacta 3.925 61 .000 1.8446 .9049 2.7843

II. Ejercicio ¿Se puede inferir que los ingresos familiares promedio en la población de
estudio es mayor a $10,000?

III. Dos muestras independientes. ¿Es posible inferir que existen diferencias
significativas en las edades de los alumnos respecto al turno?. La hipótesis a contrastar
es:
H o : µ1 = µ2 vs. H a : µ1 ≠ µ 2

1. En el menú Analyze,
seleccionar Compare
Means y seleccionar
Independent-Samples T
Test...

2. En el cuadro de diálogo
introducir la variable edad
en el cuadro de variables a
contrastar. Se introduce la
variable turno en el cuadro
Grouping Variable. Dar
clic en botón Define
Groups. Como el grupo
matutino esta codificado
como 5 y el vespertino
como 8, se introducen estos
valores como
identificadores de los grupos 155
1 y respectivamente. Dar
clic en Continue y en Ok.
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

3. Los resultados se presentan en dos tablas, la primera contiene las estadísticas


descriptivas por turno. En la segunda se observa en primer lugar, los resultados de la
prueba de Levene sobre la igualdad de varianzas: H o : σ12 = σ 22 . Se observa que
Sig . = .308 > α , por lo tanto no se rechaza la hipótesis nula, por lo que se puede asumir
la igualdad de varianzas. Esto implica que los resultados donde debemos prestar
atención son los del primer renglón. En caso de rechazar la hipótesis nula, debemos ver
los resultados del segundo renglón.
T-Test
Group Statistics

Std. Error
Turno N Mean Std. Deviation Mean
Edad exacta Matutino 36 21.7368 3.41613 .56936
Vespertino 26 24.3785 3.58548 .70317

Independent Samples Test

Levene's Test for


Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
Edad exacta Equal variances
1.057 .308 -2.943 60 .005 -2.6417 .89763 -4.43727 -.84622
assumed
Equal variances
-2.920 52.429 .005 -2.6417 .90477 -4.45695 -.82654
not assumed

Los resultados indican un estadístico de prueba de -2.943, 60 grados de libertad y


sig. = .005 < α = .05 , lo cual indica que se rechaza la hipótesis nula H o : µ1 = µ2 . Es
decir, se puede afirmar que las medias de edad entre turnos son significativamente
diferentes (p=.005), siendo mayor en alumnos del turno vespertino. Se presenta
también el valor de la diferencia de medias muestral, su error estándar y el intervalo al
95% de confianza.
IV. Ejercicio: ¿Existe dimorfismo sexual en las variables antropométricas recolectadas:
estatura, peso, perímetro de cadera, circunferencia del brazo relajado, circunferencia del
brazo contraído, estatura sentado, perímetro de cintura y altura de la rodilla?

V. Dos muestras pareadas. Se desea saber si existe diferencia significativa en la


magnitud de la circunferencia del brazo relajado respecto a la circunferencia del brazo
contraído. Si µ1 y µ2 son las medias de cada magnitud y si µ d = µ1 − µ 2 entonces, la
hipótesis a contrastar es:
H o : µ d = 0 vs. H a : µd ≠ 0 . En
SPSS tenemos:

1. En el menú Analyze,
seleccionar Compare Means y
seleccionar Paired-Samples T
Test...
156
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

2. En el cuadro de variables
seleccionar las dos
circunferencias del brazo e
introducirlas al cudro
Paired_Variables: en Ok.

3. Aparecen tres tablas, la


primera contiene las estadísticas descriptivas de cada variable. La segunda tabla
presenta el coeficiente de correlación lineal (r) entre las dos variables, y la significancia
del contraste de hipótesis H o : ρ = 0 , donde ρ es el coeficiente de correlación lineal
poblacional. En el ejemplo se observa que r ≈ 1 , lo cual nos indica asociación lineal
fuerte entre las dos variables, y como sig . = p = .000 < .05 = α se rechaza la hipótesis
nula, lo cual nos indica una asociación lineal significativa entre las variables. La tercera
s
tabla contiene los valores de d , sd , d , el intervalo al 95% de confianza para µd , el
n
valor del estadístico de prueba, los grados de libertad y la significancia o p-valor
determinados por los datos. Como p = .000 < .05 = α , rechazamos la hipótesis nula, por
lo cual se infieren diferencias significativas en las dos medias poblacionales, teniendo
un valor mayor la circunferencia del brazo contraído.
T-Test
Paired Samples Statistics

Std. Error
Mean N Std. Deviation Mean
Pair Circunferencia del
274.188 64 34.6817 4.3352
1 brazo relajado
Circunferencia del
286.063 64 37.9937 4.7492
brazo contraído

157
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Paired Samples Correlations

N Correlation Sig.
Pair Circunferencia del brazo
1 relajado & Circunferencia 64 .840 .000
del brazo contraído

Paired Samples Test

Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair Circunferencia del brazo
1 relajado - Circunferencia -11.875 20.7865 2.5983 -17.067 -6.683 -4.570 63 .000
del brazo contraído

VI. Ejercicio: Resolver los problemas:


1. Son muchos los argumentos a favor de la suposición de que las secretarias
escriben más rápidamente en una computadora que en una máquina de
escribir. Por ejemplo, las egresadas de una escuela técnica afirman que
escriben en la computadora 30 palabras más por minuto. Para concertar
esta afirmación a un grupo de 10 secretarias se les pone a trabajar
diariamente en una computadora y se evalúa al final su velocidad; en la
siguiente semana se les pone a trabajar exclusivamente en máquina
eléctrica de escribir y se evalúa su velocidad en término de número de
palabras escritas por minuto. Los resultados son los siguientes:

Secretaria Con computadora Con máquina eléctrica


1 93 71
2 85 53
3 98 63
4 79 61
5 82 44
6 95 75
7 89 51
8 85 60
9 84 54
10 92 71
¿Con esta información se confirma la afirmación de las secretarias? Sea α=0.1
2. Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de
las personas para la cual se seleccionó una muestra aleatoria de 16
personas interesadas en bajar de peso, registrándose el peso de cada

158
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

persona antes y después del tratamiento, presentándose los resultados


en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44

Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3

VII. Prueba ANOVA: Se desea saber si entre las mujeres existen diferencias
significativas en la estatura total respecto a la variable que agrupa la edad. Como se
tienen tres niveles de agrupación la hipótesis a probar es: H o : µ1 = µ2 = µ3 . En primer
lugar en SPSS seleccionaremos las mujeres, grupo codificado con el número 1 en la
variable sexo. De la opción Data damos click en la opción Select Cases y activamos la
opción If condition is satisfied, como se muestra en la pantalla siguiente:

Al dar click en el botón If...


aparece el cuadro que se
presenta a la derecha.
Pasamos la variable sexo y 159
agregamos la igualdad con 1.
Damos clic en Continue y
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Para la prueba de hipótesis en la


opción Analyze, seleccionar
Compare Means y después One-
Way ANOVA....

En el cuadro Dependent
List: insertar la variable
estatura. En el cuadro
Factor: introducir la
variable grupo de edad.

Como resultado se
obtiene la tabla ANOVA, donde se observa que sig. = p = .231 > α = .05 , por lo tanto
no se rechaza la hipótesis nula, es decir las medias de la estatura en los tres grupos de
edad no son estadísticamente diferentes.

Oneway
ANOVA

Estatura Total
Sum of
Squares df Mean Square F Sig.
Between Groups 6887.515 2 3443.758 1.540 .231
Within Groups 67096.000 30 2236.533
Total 73983.515 32

Si se hubiera rechazado la hipótesis nula, tendríamos que repetir la prueba ANOVA y


agregar la prueba de contrastes múltiples

160
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Si se hubiera rechazado la
hipótesis nula, tendríamos
que repetir la prueba
ANOVA y agregar la
prueba de contrastes
múltiples, , dando click en
el botón Post Hoc...,
seleccionar la prueba de
Tukey, dar click en
Continue y Ok.

VIII. Ejercicio
Resolver los problemas:
3. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Suponga
distribución normal en las poblaciones. Sea α=0.05
4. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de
Laguna Verde, tienen un efecto significativo sobre la fauna marina en la
región. Se dividieron al azar cuatro grupos de especimenes recién
nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el océano, completamente idénticos,
con excepción de la temperatura del agua. Seis meses después se
pesaron los especimenes. Los resultados (en libras) se dan en la tabla
siguiente:
Pesos de los especimenes

161
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

38ºF 42ºF 46ºF 50ºF


22 15 14 17
24 21 28 18
16 26 21 13
18 16 19 20
19 25 24 21
17 23

162
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Bioestadística
Práctica 2: Pruebas No paramétricas.

I. Con los datos del archivo antropometria. sav, aplicar la prueba χ 2 para ver
si existe relación entre el turno y el sexo de los estudiantes de primer año de
la licenciatura en Antropología Física.

1. En el menú Analyze se
selecciona la opción
Descrpitive Statistics,
escogiendo Crosstabs.

2. Se introduce la variable Sexo


como renglón y la variable
Turno como columna.

3. Se da clic en el botón
Statistics...

4. Se seleccionan las opciones:


Chi-square
y Phi and Cramér´s V

5. Dar Continue y Ok

163
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Se obtienen los resultados de la siguiente manera:


Crosstabs
Case Processing Summary

Cases
Valid Missing Total
N Percent N Percent N Percent
Sexo del Individuo * Turno 64 100.0% 0 .0% 64 100.0%

Sexo del Individuo * Turno Crosstabulation

Count Tabla de
Turno contingencia o
Matutino Vespertino Total cruzada
Sexo del Individuo Femenino 24 9 33
Masculino 12 19 31
Total 36 28 64

Chi-Square Tests

Asymp. Sig. Exact Sig. Exact Sig.


Value df (2-sided) (2-sided) (1-sided)
Valor de χ c2 y p.
Pearson Chi-Square 7.516b 1 .006 p< α = 0.05 , por
Continuity Correctiona 6.198 1 .013 tanto se rechaza
Likelihood Ratio 7.667 1 .006 H o : no existe
Fisher's Exact Test .011 .006 relación entre sexo
Linear-by-Linear
7.399 1 .007 y turno
Association
N of Valid Cases 64
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
13.56.

Symmetric Measures

Value Approx. Sig. Aunque la prueba χ 2


Nominal by Phi .343 .006 indica asociación entre las
Nominal Cramer's V .343 .006 variables , se puede inferir
N of Valid Cases 64 que es débil, por el valor
a. Not assuming the null hypothesis. de V de Cramer
b. Using the asymptotic standard error assuming the null
hypothesis.

164
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

II. Prueba χ cuando se tienen los datos en una tabla de contingencia. En un estudio
2

sobre planificación familiar en el Estado de Hidalgo se aplico una encuesta para analizar los
posibles factores que influyen en el uso de anticonceptivos. En la siguiente tabla se
presentan las frecuencias observadas de las mujeres encuestadas en relación a su edad y si
usan algún método anticonceptivo

Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-19 8 11
20-24 33 23
25-29 31 30
30-34 22 22
35-39 25 18
40-49 14 40
¿Existe relación entre la edad y el uso de anticonceptivos?

1. Crear una base de datos con


tres variables: grupo de edad
(edad), anticonceptivos
(anticons) y frecuencias
observadas (fo). Recuerda que
edad y anticons, utilizan
Values para definir las
categorías.

2. Del menú Data seleccionar la


opción Weight Cases...

3. Activar la opción Weight


cases by e introducir la
variable Frecuencias
observadas (fo) en el
cuadro Frecuency Variable:.
Dar clic en ok.

4. Del menú Analyze


seleccionar Descriptive
Statistics, y Crosstabs.
Introducir Edad en renglón
y Anticonceptivos en
columna.
5. Seguir los pasos 3, 4 y 5
del ejercicio anterior. 165
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

III. Ejercicio: Existe relación entre la edad de los alumnos (grupo de edad) y el turno
de estudio, de la base antropometría.sav.

IV. Prueba de Normalidad de


Kolmogorov-Smirnov. Se desea saber si
la variable ingresos familiares
contenida en la base de datos
antropometría.sav tiene distribución
normal. La hipótesis es: H o : La variable
ingresos familiares tiene distribución
normal.
1. Del menú Analyze seleccionar
Nonparametric Tests y escoger la opción
1-Sample K-S...

2. Introducir la variable
Ingresos familiares en el
cuadro Test Variable List.
Verifica que este activada la
opción Normal en Test
Distribution
Dar clic en OK.

3. Los resultados que se obtienen son:


NPar Tests

166
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

One-Sample Kolmogorov-Smirnov Test

Ingresos El estadístico de prueba es:


Familiares
N 50
Dc = .247
Normal Parameters a,b Mean 11065.0000
Std. Deviation 11139.030
Most Extreme Absolute .247 Como p=.005, se rechaza
Differences Positive .247 H o . La variable no se
Negative -.218 distribuye normal.
Kolmogorov-Smirnov Z 1.743
Asymp. Sig. (2-tailed) .005
a. Test distribution is Normal.
b. Calculated from data.

V. Ejercicio: Usando el comando Split File, verificar si la variable estatura total tiene
distribución normal en hombres y mujeres por separado.

VI. Prueba del signo y Wilcoxon. . A 16 estudiantes se les aplicó un examen sobre estadística
elemental en un día caluroso. Ocho de ellos, seleccionados aleatoriamente, tomaron la prueba
en un salón sin aire acondicionado. Posteriormente, después de un intermedio corto,
terminaron un examen en un salón con aire acondicionado. Con los otros ocho estudiantes se
invirtió este procedimiento:
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Sin aire 52 90 63 74 87 77 92 72 77 94 67 86 78 84 57 55
Con aire 49 94 60 78 93 77 93 74 78 93 78 89 92 83 49 68
¿Proporciona la muestra razón suficiente para concluir que la utilización del aire
acondicionado en un día caluroso influye sobre las calificaciones del examen?

1. Capturamos la información en dos variables de SPSS llamadas Sin Aire y Con Aire.

2. Del menú Analyze


seleccionar
Nonparametric Test y
2 Related Samples.

3. Seleccionar las dos


variables e
introducirlas de
manera simultánea en
el cuadro167
Test Pair(s)
List.
Verificar que estén
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

4. Los resultados que se obtienen son:


NPar Tests
Wilcoxon Signed Ranks Test
Ranks

N Mean Rank Sum of Ranks


Sin Aire - Con Aire Negative Ranks 5a 6.20 31.00
Positive Ranks 10b 8.90 89.00
Ties 1c
Total 16
a. Sin Aire < Con Aire
b. Sin Aire > Con Aire
c. Con Aire = Sin Aire

Test Statisticsb Con la prueba de Wilcoxon, no se


rechaza la hipótesis nula de
Sin Aire -
Con Aire igualdad de medianas, ya que
Z -1.652a p=.099>0.05.
Asymp. Sig. (2-tailed) .099
a. Based on negative ranks.
b. Wilcoxon Signed Ranks Test

Sign Test

168
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Frequencies

N
Sin Aire - Con Aire Negative Differencesa 5
Positive Differencesb 10
Ties c 1
Total 16
a. Sin Aire < Con Aire
b. Sin Aire > Con Aire
c. Con Aire = Sin Aire

Test Statisticsb De manera similar, en la prueba del


signo no se rechaza la hipótesis
Sin Aire - nula de igualdad de medianas, ya
Con Aire
Exact Sig. (2-tailed) .302a
que p=..302>0.05. Con ambas
a. Binomial distribution used.
pruebas no es posible inferir
diferencias en las puntuaciones de
b. Sign Test
los alumnos debido a las
condiciones de aplicación del
examen.

VI. Ejercicio: Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas interesadas en bajar
de peso, registrándose el peso de cada persona antes y después del tratamiento,
presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44

Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
Usar las pruebas del signo y de Wilcoxon para inferir si es que hubo una disminución
significativa en el peso de las personas.

VII. Prueba U de Mann-Whitney para comparar dos muestras independientes:


Se desea saber si existe diferencia en el panículo del tríceps entre hombres y
mujeres con base en la muestra de
alumnos de primer año de la ENAH,
contenida en el archivo
antropometria.sav, suponiendo que
las poblaciones no se distribuyen
normal. H 0 : θ1 = θ 2 .

1. Del menú Analyze


seleccionar Nonparametric
Test y luego 2 Independent
Samples

169
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

2. Introducir la variable
Panículo del Tríceps en
el cuadro Test Variable
List. Introducir la
variable sexo al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 2.
Verificar que este
activado la opción
Mann-Whitney U
Dar clic en OK

Los resultados son los siguientes:


Mann-Whitney Test
Ranks

Sexo del Individuo N Mean Rank Sum of Ranks


Panículo del Tríceps Femenino 32 39.08 1250.50
Masculino 31 24.69 765.50
Total 63

Test Statisticsa

Panículo El estadístico de prueba U c = 269.5 .


del Tríceps
Mann-Whitney U 269.500 La significancia encontrada p=.002.
Wilcoxon W 765.500 Se rechaza Ho. Es mayor el panículo del
Z -3.115 tríceps en mujeres.
Asymp. Sig. (2-tailed) .002
a. Grouping Variable: Sexo del Individuo

170
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

VIII. Ejercicio: Se desea comprobar si la gente de la ciudad tiene hábitos diferentes en


cuanto al cuidado de su salud respecto a la de una zona rural. Se tomaron muestras
aleatorias en una ciudad y en un pueblo rural, obteniéndose los siguientes resultados
respecto a cuántas veces se acude a visitar al médico general al año:
Ciudad: 4 5 8 13 2 9 11 7 6
Pueblo: 3 6 4 5 10 1
¿Puede deducirse que ambas poblaciones son diferentes?

IX. Prueba de Kruskal-Wallis. Se desea saber si la estatura total en hombres y


mujeres es diferente respecto a la edad. Para realizar esta prueba se crearon tres grupos
de edad en la base de datos del archivo antropometría.sav. La hipótesis a contrastar es:
H 0 : θ1 = θ 2 = θ 3 .

1. Como queremos
realizar el análisis en
cada sexo, usamos la
opción Split del
menú Data, e
introducimos la
variable sexo
activando la opción
indicada.

1. Del menú Analyze


seleccionar Nonparametric
Test y luego K Independent
Samples...

2. Introducir la variable
Estatura total en el
cuadro Test Variable
List. Introducir la
variable gedad al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 3.
Verificar que este 171
activado la opción
Kruskal-Wallis H.
Dar clic en OK
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Los resultados obtenidos son los siguientes:


NPar Tests
Sexo del Individuo = Femenino
Kruskal-Wallis Test
Ranksa

Grupo de edad N Mean Rank


Estatura Total [17,22) 23 15.52
[22,27) 6 22.00
[27,33) 4 18.00
Total 33
a. Sexo del Individuo = Femenino

Test Statisticsa,b,c

Estatura Total
En Mujeres se encuentra un valor de
Chi-Square 2.186 p=.335>0.05, lo cual implica que no se
df 2 rechaza la hipótesis nula. Es decir, no
Asymp. Sig. .335 existe diferencia en la estatura respecto
a. Kruskal Wallis Test a la edad.
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Femenino

Sexo del Individuo = Masculino


Kruskal-Wallis Test
Ranksa

Grupo de edad N Mean Rank


Estatura Total [17,22) 12 11.50
[22,27) 11 16.45
[27,33) 6 19.33
Total 29
a. Sexo del Individuo = Masculino

Test Statisticsa,b,c
En Hombres se encuentra un valor de
Estatura Total p=.142>0.05, lo cual implica que no se
Chi-Square 3.905 rechaza la hipótesis nula. Es decir, no
df 2 existe diferencia en la estatura respecto
Asymp. Sig. .142
a la edad.
a. Kruskal Wallis Test
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Masculino

X. Ejercicio: En la ENAH se desea saber si los estudiantes de cuatro carreras difieren


en la frecuencia con que asisten a eventos culturales organizados por la institución. Para
ello se toman muestras de estudiantes y se les pregunta si asisten a dichos eventos nunca
(0), rara vez (1), pocas veces (2), frecuentemente (3), muy frecuentemente (4) o siempre

172
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

(5). Los resultados de las encuestas se presentan a continuación. Realice la prueba de


hipótesis correspondiente.
AF 3 1 0 4
ARQ 1 0 0 4 2
AS 5 5 3
HIS 5 4 3 2 2

173
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Bioestadística
Práctica 3: Análisis de Regresión

1.En la base de datos


contenida en el archivo
antropometria.sav,
seleccionar sólo a las
mujeres mediante el
comando Data Select
seleccionar la opción if
condition is satisfied y dar
clic en el botón if...

2. Introducir la
sentencia sexo=1 en
el cuadro de dialogo
y dar clic en
Continue y luego
en Ok. Los casos de
hombres aparecen
tachados.

3. Investigaciones en
somatología postulan
que existe asociación
lineal entre estatura y
altura a la rodilla.
Ajustaremos un

174
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

modelo con los datos de los alumnos de primer año de antropología física. Del menú
Analyze seleccionar Regression y después Linear.

4. Introducir la variable
Estatura Total en el
cuadro Dependent: y
Altura de Rodilla en
Independent

Se obtiene la siguiente salida:


Regression
Variables Entered/Removedb

Variables Variables
Model Entered Removed Method
1 Altura de
a . Enter
Rodilla
a. All requested variables entered.
b. Dependent Variable: Estatura Total
Coeficiente de
Model Summary Correlación
Adjusted Std. Error of
Model R R Square R Square the Estimate Coeficiente de
1 .883a .781 .773 22.5010 Determinación
a. Predictors: (Constant), Altura de Rodilla

175
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

ANOVAb

Sum of
Probando la
Model Squares df Mean Square F Sig.
1 Regression 54009.207 1 54009.207 106.676 .000a hipótesis:
Residual 15188.793 30 506.293 H 0 : β 0 = β1 = 0
Total 69198.000 31
a. Predictors: (Constant), Altura de Rodilla
b. Dependent Variable: Estatura Total

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients Probando la
Model B Std. Error Beta t Sig. hipótesis
1 (Constant) 687.316 87.997 7.811 .000 H 0 : β1 = 0
Altura de Rodilla 1.833 .177 .883 10.328 .000
a. Dependent Variable: Estatura Total

β̂ 0 β̂1 Probando la hipótesis H 0 : β 0 = 0

5. Para saber si existe


correlación significativa,
del menú Analyze,
seleccionamos Correlate y
después Bivariate

6. Introducimos las
variables Estatura
Total y Altura de
Rodilla en el cuadro
de diálogo, damos
Ok

Se obtienen los siguientes resultados:


Correlations

176
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Correlations

Altura de
Estatura Total Rodilla
Estatura Total Pearson Correlation 1 .883** Valor de r.
Sig. (2-tailed) . .000 Probando la hipótesis
N 33 32 H0 : ρ = 0
Altura de Rodilla Pearson Correlation .883** 1
Sig. (2-tailed) .000 .
N 32 32
**. Correlation is significant at the 0.01 level (2-tailed).

Todo indica que el modelo: Estatura total = 687.316+1.833Altura de rodilla


es adecuado.
Veremos ahora los supuestos del modelo.

6. Repetimos el paso
4, pero ahora antes de
dar clic en Ok, damos
en Plots...

7. Activamos la gráfica
de probabilidad normal e
introducimos la variable
dependiente y los errores
estandarizados

Además de los resultados


que se obtuvieron en el
punto anterior se presentan las siguientes gráficas:
Con esta gráfica
Normal P-P Plot of Regression Standardized Resi se esta evaluando
el supuesto de
Dependent Variable: Estatura Total normalidad de los
1.00 errores. Si fuera
exactamente
normal la
.75
distribución de
los errores, todos
los puntos
Expected Cum Prob

.50
deberán estar
sobre la recta. Se
observan
.25
pequeñas
desviaciones de la
0.00 normalidad, sin
0.00 .25 .50 .75 1.00 embargo se puede
considerar como
Observed Cum Prob valido este
supuesto.

177
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Con esta gráfica se


Scatterplot analiza el supuesto
de homogeneidad
Dependent Variable: Estatura Total de varianzas. Los
3 puntos deben
Regression Standardized Residual

comportarse de
2 manera aleatoria en
un rango en el eje
1 Y de -3 a 3, tal
como se observa en
0
la gráfica. Por lo
tanto se puede dar
como válido el
-1
supuesto.
-2
1500 1600 1700 1800

Estatura Total

De acuerdo a lo anterior el modelo encontrado puede considerarse adecuado para


predecir valores de la estatura a partir de la altura a la rodilla.

Ejercicio. Ajustar un modelo de regresión considerando la variable estatura total como


dependiente y estatura sentado como independiente.

Modelo de Regresión Lineal Múltiple

1. Con la misma base de datos y con las mujeres seleccionados ajustaremos un modelo
considerando como variable dependiente el peso y como independiente la estatura total,
el panículo del tríceps, la circunferencia del brazo relajado y el perímetro de la cintura.

2. En el menú de
Linear Regresión
Linear introducir las
variables como se
muestra en el cuadro.
3. Seleccionar en
Method la opción
Stepwise (paso a
paso) de selección de
variables.
4. En el menú Plots...
seleccionar las
gráficas como en el
caso del modelo de
regresión lineal
simple. Dar Ok.

178
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Se obtienen los siguientes resultados:


Regression
Variables Entered/Removeda

Variables Variables Indica las variables que


Model Entered Removed Method entraron en el modelo. Note
1 Stepwise
que la variable panículo del
(Criteria:
Probabilit triceps nunca entro en el
y-of-F-to-e modelo.
Perímetro nter <=
.
de Cintura .050,
Probabilit
y-of-F-to-r
emove >=
.100).
2 Stepwise
(Criteria:
Probabilit
Circunfere y-of-F-to-e
ncia del nter <=
.
brazo .050,
relajado Probabilit
y-of-F-to-r
emove >=
.100).
3 Stepwise
(Criteria:
Probabilit
y-of-F-to-e
Estatura nter <=
.
Total .050,
Probabilit
y-of-F-to-r
emove >=
.100).
a. Dependent Variable: Peso Corporal

179
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Model Summaryd

Adjusted Std. Error of


Model R R Square R Square the Estimate
Los cambios en los valores
1 .865a .748 .740 5.56144 de r y R2. El último es el del
2 .911 b .830 .818 4.65262 modelo ajustado.
3 .935c .874 .861 4.06554
a. Predictors: (Constant), Perímetro de Cintura
b. Predictors: (Constant), Perímetro de Cintura,
Circunferencia del brazo relajado
c. Predictors: (Constant), Perímetro de Cintura,
Circunferencia del brazo relajado, Estatura Total
d. Dependent Variable: Peso Corporal

ANOVAd

Sum of
Model Squares df Mean Square F Sig.
1 Regression 2756.042 1 2756.042 89.107 .000a
Residual 927.888 30 30.930
Total 3683.930 31
2 Regression 3056.169 2 1528.085 70.591 .000b La prueba
Residual 627.760 29 21.647 de que
Total 3683.930 31
3 Regression 3221.128 3 1073.709 64.961 .000c
todos los
Residual 462.802 28 16.529 β ’s son
Total 3683.930 31 cero.
a. Predictors: (Constant), Perímetro de Cintura H 0 : β 0 = β1 = β 2 = β3 = 0
b. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -18.969 8.339 -2.275 .030
Perímetro de Cintura .103 .011 .865 9.440 .000
2 (Constant) -31.011 7.690 -4.033 .000
Perímetro de Cintura 6.334E-02 .014 .533 4.531 .000
Circunferencia del
.161 .043 .438 3.724 .001
brazo relajado
3 (Constant) -107.149 25.020 -4.283 .000
Perímetro de Cintura 5.158E-02 .013 .434 4.039 .000 Los coeficientes
Circunferencia del
.146 .038 .397 3.832 .001
estimados
brazo relajado
Estatura Total 5.586E-02 .018 .250 3.159 .004
βˆ0 , βˆ1, βˆ2 , βˆ3
a. Dependent Variable: Peso Corporal

180
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Excluded Variablesd

Collinearity
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
Variables
1 Estatura Total .288a 3.023 .005 .490 .729 excluidas en
Panículo del Tríceps .144a 1.398 .173 .251 .764 cada paso.
Circunferencia del a
.438 3.724 .001 .569 .425
brazo relajado
2 Estatura Total .250b 3.159 .004 .513 .718
Panículo del Tríceps -.166b -1.370 .182 -.251 .389
3 Panículo del Tríceps -.128c -1.191 .244 -.223 .384
a. Predictors in the Model: (Constant), Perímetro de Cintura
b. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
d. Dependent Variable: Peso Corporal

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N


Predicted Value 40.8726 88.6271 59.1669 10.03511 33
Residual -8.4559 8.0791 .0300 3.80688 33
Std. Predicted Value -1.798 2.887 -.004 .984 33
Std. Residual -2.080 1.987 .007 .936 33
a. Dependent Variable: Peso Corporal

Charts
Normal P-P Plot of Regression Stand
Dependent Variable: Peso Corporal
1.00

.75
Expected Cum Prob

.50

.25

0.00
0.00 .25 .50 .75 1.00

Observed Cum Prob

181
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

Scatterplot
Dependent Variable: Peso Corporal
3
Regression Standardized Residual

-1

-2

-3
40 50 60 70 80 90 100

Peso Corporal

Ejercicio. Los siguientes datos corresponden al peso y el nivel total de colesterol y


triglicéridos en 15 personas:
Peso Colesterol Triglicéridos
Total (mg/100 ml) (mg/100 ml)
76 302 139
97 336 101
83 220 57
52 300 56
70 382 113
67 379 42
75 331 84
78 332 186
70 426 164
99 399 205
75 279 230
78 332 186
70 410 160
77 389 153
76 302 139

f) Ajustar el modelo de regresión lineal múltiple


g) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
h) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
i) Verificar supuestos sobre los errores.
j) ¿El modelo estimado es correcto?

Ejercicio. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12


y 18 años (todas las mediciones están en centímetros):
Estatura Longitud Longitud
del radio del fémur
149.0 21.00 42.50
152.0 21.79 43.70

182
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH

155.7 22.40 44.75


159.0 23.00 46.00
163.3 23.70 47.00
166.0 24.30 47.90
169.0 24.92 48.95
172.0 25.50 49.90
174.5 25.80 50.30
176.1 26.01 50.90
176.5 26.15 50.85
179.0 26.30 51.10
f) Ajustar el modelo de regresión lineal múltiple
g) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
h) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
i) Verificar supuestos sobre los errores.
j) ¿El modelo estimado es correcto?

183

Vous aimerez peut-être aussi