Bioestadisticanotascurso PDF

BIOESTADÍSTICA
Para Antropólogos Físicos

José Luis Castrejón y Diana Troncoso
[Seleccionar fecha]
Notas para el curso de Bioestadística impartido en el segundo semestre de la licenciatura en
Antropología Física de la Escuela Nacional de Antropología e Historia. Versión preliminar.
Bioestadística: material preliminarJL Castrejón, DL Troncoso Antropología Física-ENAH
UNIDAD I
Introducción
Como su nombre lo dice, el objetivo principal de la ESTADÍSTICA INFERENCIAL es

inferir los PARÁMETROS POBLACIONALES; es decir, a partir de una muestra
aleatoria, establecer con la mayor probabilidad posible los valores desconocidos de la
población estudiada; por ejemplo; la media µ , proporción p o varianza σ 2 .
Generalmente, el investigador puede plantear hipótesis sobre los parámetros; por
ejemplo:
HIPÓTESIS LITERAL HIPÓTESIS ESTADÍSTICA

DEL INVESTIGADOR DEL INVESTIGADOR
La proporción de personas en la ENAH que usan H inv : p < 0.20
lentes es menor a 0.2
La proporción de personas que acostumbran H inv : p = 0.60
consumir comida rápida es de 0.60.
La proporción de personas con obesidad en la
delegación Benito Juárez es mayor que en la H inv : p BJ > p MA
delegación Milpa Alta.
La media de la estatura en las mujeres estudiantes de H inv : µ < 165
la ENAH es menor a 165 cm.
La media del “número de minutos diarios que se usa
el automóvil” en la Ciudad de México es mayor que H inv : µ DF > µ Mer
en la ciudad de Mérida.
Empero, es tarea de la estadística inferencial determinar si estas hipótesis son válidas

o no, mediante alguna de las siguientes técnicas:
1. ESTIMACIÓN:
a) Puntual: En la cual, a partir de los datos de una muestra y la distribución
probabilística de la variable, se estima un valor para el parámetro.
b) Por intervalos: A través de la cual, partiendo de la información de la muestra y
la distribución probabilística de la variable, se define un rango de valores entre
los cuales probablemente se encuentra el del parámetro.
2. PRUEBAS O CONTRASTES DE HIPÓTESIS: Estrategia que, utilizando los datos

de la muestra y la distribución probabilística de la variable, define la probabilidad
de cometer un error en la estimación y se determina una región de rechazo para la
hipótesis.
ESTIMACIÓN PUNTUAL
Sea θ la letra con la que se denota un parámetro poblacional. Si se toma una muestra
aleatoria de tamaño n ( X 1 , X 2 , X 3 ,..., X n ) , θˆ es una función de los valores de la
muestra: θˆ = f ( X 1 , X 2 , X 3 ,..., X n ) ; es decir, θˆ es un estimador puntual de θ .
A. MÉTODO PARA HALLAR ESTIMADORES PUNTUALES
Existen diversos procedimientos para encontrar estimadores puntuales θˆ de los

parámetros poblacionales θ ; por ejemplo: el método de momentos, el de mínimos
2
cuadrados y el de función de verosimilitud. Por el momento, revisemos sólo éste

último:
A.1) MÉTODO DE FUNCIÓN DE VEROSIMILITUD
Si X 1 , X 2 , X 3 ,..., X n son los datos de una muestra aleatoria que se obtuvo de cierta
población cuya función de probabilidad es P ( x ) , la función de verosimilitud de la
muestra es L( X 1 , X 2 , X 3 ,..., X n ) = P( X 1 )P( X 2 )P( X 3 )...P( X n ) . Por ello, este método
de estimación consiste en encontrar el valor del parámetro θ donde la función
L( X 1 , X 2 , X 3 ,..., X n ) alcance su máximo; es decir, hay que calcular la derivada de
dL
, igualarla a cero y despejar θ . Veamos, algunos ejemplos de esto:
dθ
A.1.1) Estimador del parámetro λ
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población donde la variable X tiene distribución poisson con parámetro λ [X~P( λ )].
¿Cuál es el mejor estimador de éste parámetro?
• Sabemos que la distribución de la variable X es:

e −λ λx
P(x ) =
x!
• Por ende, cada X i tiene tal distribución:

−λ
e − λ λx1 P ( x ) = e λ
x2
e − λ λx 3 e − λ λx n
P(x1 ) = , 2 , P ( x3 ) = ,…, P ( xn ) =
x1! x2! x3! xn!
• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la

función de verosimilitud de esta variable es:
e − λ λx1 e − λ λx 2 e − λ λx3 e − λ λx n
L( X 1 , X 2 , X 3 ,..., X n ) = ⋅ ⋅ ⋅
x1! x2! x3! xn !
• Lo cual puede abreviarse a:

e − λn ⋅ λ x1 + x2 + x3 +...+ xn
L=
x1 ⋅ x 2 ⋅ x3 ⋅ ... ⋅ x n !
• Y ello reducirse en:

n
∑ xi
e −λn ⋅ λ i =1
L=
π ⋅ xi !
n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1
3
• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ xi ⎞
n
⎜ − λn ∑ ⎟
e ⋅λ i =1
ln L = ln⎜ ⎟
⎜ π ⋅ xi ! ⎟
⎜ ⎟
⎝ ⎠
⎛a⎞
Como: ln⎜ ⎟ = ln a − ln b
⎝b⎠
⎛ xi ⎞
n
⎜ ∑ ⎟
ln L = ln⎜ e −λn ⋅ λ i =1 ⎟ − ln (π ⋅ xi !)
⎜ ⎟
⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b :
⎛ ∑ xi ⎞
n
ln L = ln (e ) + ln⎜⎜ λ i =1 ⎟
⎟⎟ − ln (π ⋅ xi !)
− λn
⎜
⎝ ⎠
Como: ln e x = x ln x y = y ln x
n
ln L = −λn + ∑ xi ⋅ ln λ − ln (π ⋅ xi !)
i =1
• Y obtener la derivada:
d ln L dλ n d ln λ d ln (π ⋅ xi !)
= −n + ∑ xi −
dλ dλ i =1 dλ dλ
dcf ( x ) cdf ( x ) d ln x 1 dc
Como: = = =0
dx dx dx x dx
n
dL 1
= − n + ∑ xi − 0
dλ i =1 λ
• Igualando a cero, el parámetro λ se convierte en estimador λ̂ y resta despejarlo:

n
∑x i
−n+ i =1
=0
λˆ
n n
∑ xi ∑x
n
= nλ̂ ∑x i
x = λ̂
i =1
=n i =1
i i =1
= λ̂
λ̂ n
Y así sabemos que al tener una variable aleatoria con distribución poisson [X~P( λ )],
el estimador de máxima verosimilitud del parámetro λ es la media muestral x .
4
A.1.2) Estimador del parámetro p
Sean X 1 , X 2 , X 3 ,..., X n los datos de una muestra aleatoria que se obtuvo de cierta
población, donde la variable X tiene distribución bernoulli con parámetro p
[X~Be( p )]. ¿Cuál es el mejor estimador de éste parámetro?
• Sabemos que la distribución de la variable X es:

P(x ) = p x (1 − p )
1− x
; x = 0,1
• Por ende, cada X i tiene tal distribución:

P( x1 ) = p x1 (1 − p ) , P(x 2 ) = p (1 − p )1− x , P ( x3 ) = p (1 − p )1− x ,… P( x n ) = p (1 − p )1− x
1− x1 x2 2 x3 3 xn n
• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la

función de verosimilitud de esta variable es:
L = P(x1 ) = p x1 (1 − p ) ⋅ P( x 2 ) = p x2 (1 − p ) ⋅ P( x3 ) = p x3 (1 − p ) ⋅ P( x n ) = p xn (1 − p )
1− x1 1− x2 1− x3 1− xn

(1 − p )1− x +1− x +1− x +...+1− x
x1+ x2 + x3 +...+ xn
L= p 1 2 3 n
• Y ello reducirse en:

n
∑ xi n
∑ xi
L= p i =1
(1 − p ) n−
i =1
n
Porque X 1 + X 2 + X 3 + ... + X n = ∑ xi X 1 ⋅ X 2 ⋅ X 3 ⋅ ... ⋅ X n = π ⋅ xi
i =1
• Ahora hay que maximizar la función. Si ésta es una función cualquiera, los
puntos críticos de f ( x ) son los mismos que los valores críticos del logaritmo
d ln f ( x )
natural f ( x ) : =0
dx
⎛ ∑ xi ⎞
n
⎜ n − xi ⎟
n
ln L = ln⎜ p i =1 (1 − p ) ∑ i =1
⎟⎟
⎜
⎝ ⎠
Como: ln (a ⋅ b ) = ln a + ln b
n
∑ xi ∑ xi
n
+ ln (1 − p )
n−
ln L = ln p i =1
i =1
Como: ln x = y ln x
y
n
⎛ n
⎞
ln L = ∑ xi ln p + ⎜ n − ∑ xi ⎟ ln(1 − p )
i =1 ⎝ i =1 ⎠
• Y obtener la derivada:
d ln L n
1 ⎛ n
⎞ 1
= ∑ xi ⋅ + ⎜ n − ∑ x i ⎟ ⋅
dp i =1 p ⎝ i =1 ⎠ (1 − p )
5
⎛n n
⎞
∑ xi ⎜ n − ∑ xi ⎟
+⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
Y se multiplica por menos 1, por ende
⎛ n n
⎞
⎜ n − ∑ xi ⎟
∑ xi
−⎝ ⎠
d ln L i =1 i =1
=
dp p (1 − p )
• Igualando a cero, el parámetro p se convierte en estimador p̂ y resta despejarlo:
n
⎛ n
⎞
∑ xi ⎜ n − ∑ xi ⎟
i =1
−⎝ i =1 ⎠ =0
pˆ (1 − pˆ )
n
⎛ n
⎞
∑ xi ⎜ n − ∑ xi ⎟
=⎝ ⎠
i =1 i =1
pˆ (1 − pˆ )
(1 − pˆ )∑ xi = pˆ ⎛⎜ n − ∑ xi ⎞⎟
n n
i =1 ⎝ i =1 ⎠
n n n
∑x
i =1
i − pˆ ∑ xi = pˆ n − pˆ ∑ xi
i =1 i =1
n
∑x
n
= pˆ n ∑x i
x = pˆ
i =1
i i =1
= pˆ
n
Y así también descubrimos que al tener una variable aleatoria con distribución
bernoulli [X~Be( p )], el estimador de máxima verosimilitud del parámetro p es la
media muestral x .
B. PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR
B.1) PROPIEDADES GENERALES
a) INSESGAMIENTO
Si θˆ es un estimador del parámetro poblacional θ , se dice que θˆ es insegado si
()
E θˆ = θ . Por el contrario, si θˆ es un estimador sesgado de θ , se define el sesgo
()
de θˆ como Sesgo θˆ = E θˆ − θ .()
b) SUFICIENCIA
Se dice que un estimador θˆ de θ es suficiente cuando su cálculo involucra toda la
información de una muestra.
c) MÍNIMA VARIANZA
Se dice que θˆ1 es un estimador de mínima varianza de θ si para cualquier otro
estimador θˆ2 se cumple que la varianza del primero es menor que la del segundo:
Var (θˆ1 ) < Var (θˆ2 ) .
6
d) EFICIENCIA
Siendo θˆ1 y θˆ3 dos estimadores insesgados de θ , se dice que θˆ1 es más eficiente
( )
si su varianza es menor a la de θˆ3 : Var θˆ1 < Var θˆ3 . ( )
e) CONSISTENCIA
Se dice que un estimador θˆ de θ es consistente si, cuando n es grande
( )
(n → N ) , θˆ tenderá a θ θˆ → θ , siendo su diferencia muy pequeña. Esto debido
a que si E > 0 , E es muy pequeño y Lim P(θˆ − θ
n→ N
)
< E = 1.
B.2) COMPROBACIÓN DE LAS PROPIEDADES
Veamos entonces, mediante algunos ejemplos, cómo se comprueba si un estimador

cumple con estas propiedades y el porqué son tan importantes:
La media poblacional µ es un parámetro que se calcula con la siguiente expresión:
∑X i
µ= i =1
Si X 1 , X 2 , X 3 ,..., X n es una muestra aleatoria y E ( xi ) = µ , tres estimadores posibles

para aproximarse a su valor serían:
x1 + x 2 + x3 x1 + x n x1 + x 2 + x3 + ... + x n
µˆ 1 = µˆ 2 = µˆ 3 =
2 2 n
¿Cumplen estos tres estimadores con las propiedades antes mencionadas?
PROPIEDAD ESTIMADOR µ̂1

⎛ x + x 2 + x3 ⎞
E (µˆ 1 ) = E ⎜ 1 ⎟ = E ( x1 + x 2 + x3 )
1
⎝ 2 ⎠ 2
INSESGAMIENTO
= [E ( x1 ) + E ( x 2 ) + E ( x3 )] = [µ + µ + µ ]
1 1
E (θˆ ) = θ 2 2
3µ 3
= [3µ ] =
1
= µ
2 2 2
Como podemos ver, el estimador µ̂1 no es insesgado, puesto que su esperanza es
igual a E (µˆ 1 ) =
3
µ . El sesgo de este estimador es:
2
µ
Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ − µ = Sesgo(θˆ ) = µ = Sesgo(θˆ ) =
3 3 2 1
SESGO
2 2 2 2 2
PROPIEDAD ESTIMADOR µ̂ 2
7
⎛ x + xn ⎞
E (µˆ 2 ) = E ⎜ 1 ⎟ = E ( x1 + x n ) =
1
INSESGAMIENTO ⎝ 2 ⎠ 2
E (θˆ ) = θ 1
[E (x1 ) + E (x n )] = 1 [µ + µ ] = 1 [2µ ] = 2µ = µ
2 2 2 2
µ̂ 2 es un estimador insesgado de µ porque su esperanza es E (µˆ 2 ) = µ .
SUFICIENCIA x +x
( X 1 + X 2 + X 3 + ... + X )n µˆ 2 = 1 n
2
µ̂ 2 no es un estimador suficiente, pues su cálculo sólo echa mano de sólo 2 datos de
la muestra aleatoria y no del resto de la información obtenida.
PROPIEDAD ESTIMADOR µ̂ 3
⎛ x + x 2 + x3 + ... + x n ⎞
E (µˆ 3 ) = E ⎜ 1 ⎟
⎝ n ⎠
= E ( x1 + x 2 + x3 + ... + x n )
1
n
INSESGAMIENTO
= [E ( x1 ) + E (x 2 ) + E ( x3 ) + ... + E ( x n )]
1
E (θˆ ) = θ n
= [µ + µ + µ + ... + µ ]
1
n
nµ
= [nµ ] =
1
=µ
n n
µ̂ 3 es un estimador insesgado de µ pues su esperanza es E (µˆ 3 ) = µ .
SUFICIENCIA X 1 + X 2 + X 3 + ... + X n
( X 1 + X 2 + X 3 + ... + X )n µˆ 3 =
n
Asimismo, µ̂ 3 es un estimador suficiente ya que utiliza todos los datos de la muestra
aleatoria.
Ahora bien, comparemos algunas varianzas de tres parámetros:
σ3 σ2
σ1
PROPIEDAD VARIANZA DE ESTIMADORES

MÍNIMA VARIANZA Var (θˆ1 ) < Var (θˆ2 )
La varianza del estimador θˆ1 es menor que la del estimador θˆ2 , razón por la cual θˆ1
tiene una mínima varianza.
EFICIENCIA Var (θˆ1 ) < Var (θˆ3 )
8
Siendo los dos insesgados, la varianza del estimador θˆ1 es menor que la del
estimador θˆ3 , razón por la cual θˆ1 cumple con las propiedades de mínima varianza y
eficiencia.
C. ESTIMADORES APROPIADOS MÁS COMUNES
Aunque es recomendable encontrar el estimador adecuado a través de un método y

comprobar que cumpla con todas las propiedades, la teoría estadística afirma que los
mejores estimadores para los siguientes parámetros son:
PARÁMETRO ESTIMADOR
N n
MEDIA ∑ Xi MEDIA ∑X i
POBLACIONAL µ= i =1 MUESTRAL x= i =1
N n
N n
VARIANZA ∑ (x i − µ)
2
VARIANZA ∑ (x i − x)
2
POBLACIONAL σ2 = i =1 MUESTRAL s2 = i =1
N n −1
n
Pues este
estimador es
∑ (x i − x)
2
sesgado: s2 = i =1
n
PROPORCIÓN p=M PROPORCIÓN pˆ = m
POBLACIONAL N MUESTRAL n
INTERVALOS DE CONFIANZA y CONTRASTE DE HIPÓTESIS
A. INTERVALOS DE CONFIANZA
A comparación de la estimación puntual, la construcción de intervalos es una técnica

que permite al investigador proponer un rango de valores entre los cuales puede
hallarse, con cierto grado de confianza (y por ende, de error) el del parámetro
poblacional θ .
Otra ventaja de esta metodología es que, para calcular los valores L1 y L2 del intervalo
L1 < θ < L2 , la expresión para su construcción echa mano del tipo de distribución que
tiene la variable en la población y de algunos datos obtenidos de la muestra, como
( )
son: su tamaño (n ) , desviación estándar (s ) o varianza s 2 y, según el caso, su
media (x ) o proporción ( p̂ )
B. CONTRASTE DE HIPÓTESIS
Sin duda alguna, ésta es una de las metodologías que más utiliza la estadística para
contrastar cualquier hipótesis que el investigador haya planteado sobre los parámetros
de una o más poblaciones, o bien, sobre relaciones entre variables.
B.1) FUNDAMENTOS
Habiendo planteado el valor hipotético µ 0 en la hipótesis del investigador H inv , se

plantean dos hipótesis más: la HIPÓTESIS ALTERNATIVA H a y la HIPÓTESIS
9
NULA H 0 , que siempre incluye en su planteamiento algún signo de igualdad (=, ≤, ≥ )

y que es casi siempre opuesta a lo que plantea la hipótesis del investigador H inv :
HIPÓTESIS DEL HIPÓTESIS

HIPÓTESIS NULA
INVESTIGADOR ALTERNATIVA
H inv : θ ≠ θ 0 H 0 :θ = θ0 H a :θ ≠ θ0
H inv : θ < θ 0 H 0 :θ ≥ θ0 H a :θ < θ0
H inv : θ > θ 0 H 0 :θ ≤ θ0 H a :θ > θ0
Si bien en los intervalos de confianza basta comparar el valor hipotético µ 0 propuesto

en la hipótesis del investigador H inv contra el intervalo de confianza obtenido con
(1 − α ) por ciento de confianza, la técnica de contraste de hipótesis consiste, ya no en
confirmar o no la hipótesis del investigador H inv , sino en contrastar el resultado con la
hipótesis nula H 0 .
B.2) ERRORES POSIBLES Y SU CONTROL
Dada una hipótesis nula H 0 que puede ser verdadera o falsa (no lo sabemos), el
procedimiento de contraste de hipótesis nos lleva a rechazarla o no. Sin duda alguna,
como investigadores quisiéramos rechazar una hipótesis nula H 0 falsa y no rechazar
una hipótesis nula H 0 verdadera, pero existen las posibilidades contrarias, a las
cuales se denominan errores:
HIPÓTESIS NULA H 0 VERDADERA FALSA

SE RECHAZA ERROR TIPO I 9
NO SE RECHAZA 9 ERROR TIPO II
La probabilidad de cometer el ERROR TIPO I es conocido como la SIGNIFICANCIA

de la prueba y se denota por α . A partir de ello tenemos que:
α = P (error tipo I)
α = P (rechazar H 0 dado que H 0 es verdadera )
α = P (rechazar H 0 | H 0 es verdadera )
En general, la significancia α es desconocida, así que el investigador la fija. Como de

ella depende la probabilidad de cometer el error tipo I, se busca que sea pequeña; de
ahí que los valores más comunes para la significancia α sean:
PROBABILIDAD DE
VALOR DE α RAMA DE USO MÁS COMÚN
ERROR TIPO I
α = 0.001 0 .1 % Medicina y campo experimental.
α = 0.01 1 .0 % Antropología física.
α = 0.05 5 .0 % Antropología física.
α = 0 .1 10.0% Ciencias sociales.
10
Ahora bien, se define al ERROR TIPO II como la POTENCIA de la prueba y se le

denota con la letra β , según lo cual:
β = P (error tipo II)
β = P (no rechazar H 0 dado que H 0 es falsa )
β = P (no rechazar H 0 | H 0 es falsa )
A diferencia de α , el valor de β está fuera del control del investigador y sólo puede
reducírsele aumentando el tamaño de la muestra. Por ello es que, como veremos más
adelante, se sabe que las pruebas no paramétricas son menos potentes que las
pruebas paramétricas, cuyo valor de β es más pequeño.
B.3) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO
Con respecto a la significancia α , cabe mencionar que su valor también determina la

región de rechazo de la hipótesis nula H 0 . Si ésta incluye una igualdad H 0 : µ = µ 0 ,
la región de rechazo, como en los intervalos de confianza, se divide en dos, motivo por
el cual se le denomina prueba de dos colas o bilateral. Por el contrario, si la hipótesis
nula H 0 contiene los signos ≤ o ≥ , ( H 0 : µ ≤ µ 0 , H 0 : µ ≥ µ 0 ), la región de rechazo
queda sólo de un lado, contrario al que señala el signo de mayor o menor:
ESTIMACIÓN DE LA MEDIA POBLACIONAL µ
A. INTERVALO DE CONFIANZA
A.1) EN POBLACIONES CON DISTRIBUCIÓN NORMAL
Si la variable aleatoria tiene una distribución normal con media µ y varianza σ 2 ,

sabemos que la expresión para estandarizarla es:
x−µ
Z= ~ N (0,1)
σ
n
De acuerdo a esta fórmula, el intervalo estaría entre dos valores: − Z y Z , rodeados

por un área, denotada por α , que delimita la confianza del intervalo.
Si 1 es el área debajo de la curva, entonces el intervalo de confianza puede
especificarse como 1 − α y el α de cada cola es igual a α .
2
11
1-α
α/2 α/2
Partiendo de esto tenemos que la probabilidad del valor del parámetro estandarizado
Z está entre − Z 1−α y Z 1−α :
2 2
⎛ ⎞
⎜ ⎟
− µ
P⎛⎜ − Z 1−α < Z < Z 1−α ⎞⎟ = 1 − α
x
QUE P⎜ − Z 1−α < < Z 1−α ⎟ = 1 − α
⎝ 2 2 ⎠ IMPLICA ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠
Pero no olvidemos que el punto es encontrar un intervalo de confianza al (1 − α ) por

ciento de confianza para la media µ , por lo cual hay que despejar su valor de la
anterior expresión:
⎛ ⎞
⎜ ⎟
⎜ xi − µ
Expresión de probabilidad para el P − Z 1−α < < Z 1−α ⎟
intervalo de confianza. ⎜ 2 σ 2 ⎟
⎜ ⎟
⎝ n ⎠
Se deja sola a X y µ al pasar ⎛ σ σ ⎞
P⎜ − Z 1−α ⋅ < xi − µ < Z 1−α ⋅ ⎟
multiplicando su divisor. ⎝ 2 n 2 n⎠
⎛ σ σ ⎞
Se despeja µ al mover a X. P⎜ − xi − Z 1−α ⋅ < − µ < − xi + Z 1−α ⋅ ⎟
⎝ 2 n 2 n⎠
Se multiplica por -1 para hacer ⎛ σ σ ⎞
positivo el valor de µ, lo cual P⎜ xi + Z 1−α ⋅ > µ > xi − Z 1−α ⋅ ⎟
invierte la desigualdad a “mayor ⎝ 2 n 2 n⎠
que”.
Se invierten los valores de límites ⎛ σ σ ⎞
para recuperar una desigualdad P⎜ xi − Z 1−α ⋅ < µ < xi + Z 1−α ⋅ ⎟
“menor que”. ⎝ 2 n 2 n⎠
⎛ σ ⎞
Se abrevia la expresión. P⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
De esta forma tenemos que, el intervalo al (1 − α ) por ciento de confianza para µ

cuando la población tiene distribución normal es:
⎛ σ ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
12
El problema de esta expresión para determinar el intervalo de µ es que supone

conocer σ ; valor cuyo cálculo, por sí mismo, requiere el dato de µ que estamos
estimando:
N
∑ (x − µ)
2
i
σ= i =1
Ante esta incoherencia, la opción es sustituir σ por su estimador puntual s :
∑ (x − x)
2
i
s= i =1
n −1
Pero ese simple detalle, cuando la población es pequeña (n < 30 ) , implica también un
cambio en la distribución, que deja de ser normal y se convierte en t de student con
n − 1 grados de libertad (g.l.):
x − µ (n-1)
t= ~t
s
n
Por tal motivo, la expresión para encontrar el intervalo al (1 − α ) por ciento de

confianza para µ cuando la población tiene distribución normal queda como:
EXPRESIÓN PARA ENCONTRAR UN INTERVALO AL

⎛ s ⎞
(1 − α ) POR CIENTO DE CONFIANZA PARA µ CUANDO µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
LA POBLACIÓN TIENE DISTRIBUCIÓN NORMAL. ⎝ 2 n⎠
Donde x es la media muestral, t1(−nα−1) es el valor en tablas de la t de student con
(1 − α 2 ) por ciento de confianza y

2
n − 1 grados de libertad (g.l.), s la desviación

estándar de la muestra y n es el tamaño de la muestra.
A.2) EN POBLACIONES CON DISTRIBUCIÓN DESCONOCIDA
Si se desconoce la distribución de variable aleatoria con media µ y varianza σ 2 , pero

se tiene una muestra grande (n > 30 ) , de acuerdo al Teorema Central de Límite puede
asumirse que la variable tiene una distribución aproximadamente normal. Debido a
ello, la expresión para calcular el intervalo al (1 − α ) por ciento de confianza para µ
cuando se tiene una muestra grande de una población con distribución desconocida
es:
EXPRESIÓN PARA ENCONTRAR UN INTERVALO AL

(1 − α ) POR CIENTO DE CONFIANZA PARA µ CUANDO ⎛
µ ∈ ⎜ xi ∓ Z 1−α ⋅
s ⎞
⎟
LA POBLACIÓN TIENE DISTRIBUCIÓN DESCONOCIDA ⎝ 2 n⎠
PERO n > 30
13
Donde x es la media muestral, Z 1−α es el valor en tablas de la distribución normal
( ) por ciento de confianza, s la desviación estándar de la muestra y n es el

2
con 1 − α
2
tamaño de la muestra.
A.3) EJEMPLOS DE ESTIMACIÓN
1. Supongamos que la variable “estatura” de las mujeres estudiantes de la ENAH

sigue una distribución aproximadamente normal. Los siguientes datos (en centímetros)
corresponden a una muestra aleatoria de la población:
160.5 181 158 152 170 164 160 167 160

152 160 153 157 155 155 156 170 158
¿Es posible concluir que la media µ de la población es menor a 165 cm? Construir un
intervalo de confianza para µ al 95%.
DATOS GENERALES
X~N(µ,σ) n = 18 x = 160.47 s = 7.52
HIPÓTESIS
H inv : µ < 165
CONFIABILIDAD Y SIGNIFICANCIA
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
EXPRESIÓN ⎛ s ⎞
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
INTERVALO ⎝ 2 n⎠
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t .17975 = 2.1098
2 2
⎛ 7.52 ⎞
APLICACIÓN µ ∈ ⎜160.47 ∓ 2.1098 ⋅ ⎟ = µ ∈ (156.73,164.21)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (156.73,164.21) vs. H inv : µ < 165
HIPÓTESIS
, De acuerdo a la muestra obtenida y con un nivel de confianza del 95% se puede
afirmar que la estatura promedio de las mujeres estudiantes de la ENAH está entre
156.73 y 164.21 centímetros. Por lo tanto, se tiene evidencia estadística que indica,
con un error del 5%, que la media de la estatura en esta población es menor a 165
cm.
2. Un investigador considera que la media del “tiempo de recorrido de los

estudiantes de la ENAH a casa” es mayor a 60 minutos. Supongamos que los
siguientes valores son datos de una muestra aleatoria de esta población:
120 30 60 75 120 11 30 80
15 75 80 15 20 80 40 75
Suponiendo que la población tiene una distribución normal:

a) Construir un intervalo al 95% de confianza para la media µ .
14
b) Contestar: ¿Qué se puede concluir respecto a la hipótesis?
DATOS GENERALES
X~N(µ,σ) n = 16 x = 63.44 s = 34.96
HIPÓTESIS
H inv : µ > 60
α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
2 2
⎛ 34.96 ⎞
APLICACIÓN µ ∈ ⎜ 63.44 ∓ 2.1315 ⋅ ⎟ = µ ∈ (44.81,82.07 )
⎝ 16 ⎠
COMPARACIÓN
CON LA µ ∈ (44.81,82.07 ) vs. H inv : µ > 60
HIPÓTESIS
a) , Con un 95% de confianza se puede afirmar que la media del “tiempo de
recorrido de los estudiantes de la ENAH a casa” se halla entre los 44.81 y los 82.07
minutos.
b) , Como este intervalo contiene valores menores a los 60 minutos, de acuerdo a la
muestra no hay evidencia estadística que permita inferir, con un 5% de error, que la
hipótesis del investigador sea verdadera.
3. Los siguientes datos corresponden a la circunferencia craneal en centímetros

de 15 niños recién nacidos:
33.38 34.34 33.46 32.15 33.95 34.13 33.99 33.85

34.45 34.10 34.23 34.19 33.97 32.73 34.05
Suponiendo que la población tiene una distribución normal, ¿es posible afirmar que la
media sea menor a 35 cm? Comprobar esta hipótesis construyendo un intervalo al
90% de confianza.
DATOS GENERALES
X~N(µ,σ) n = 15 x = 33.80 s = 0.63
HIPÓTESIS
H inv : µ < 35
α = 0.10 α 2 = 0.05 1 − α 2 = 0.95
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
VALOR DE t1(−nα−1) (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t.1495 = 1.7613
2 2
15
⎛ 0.63 ⎞
APLICACIÓN µ ∈ ⎜ 33.80 ∓ 1.7613 ⋅ ⎟ = µ ∈ (33.51,34.09)
⎝ 15 ⎠
COMPARACIÓN
CON LA µ ∈ (33.51,34.09 ) vs. H inv : µ < 35
HIPÓTESIS
, Se puede afirmar, con un 90% de confianza, que la media de la circunferencia
craneal de los niños de esta población está entre los 33.51 y los 34.09 centímetros;
motivo por el cual se acepta, con un 10% de error, que la media de esta variable es
menor a 35 cm.
B. CONTRASTE DE HIPÓTESIS
B.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO
Cuando se quiere estimar el valor de la media poblacional µ se pueden plantear las

siguientes hipótesis:

HIPÓTESIS NULA
H inv : µ ≠ µ 0 H 0 : µ = µ0 H a : µ ≠ µ0
H inv : µ < µ 0 H 0 : µ ≥ µ0 H a : µ < µ0
H inv : µ > µ 0 H 0 : µ ≤ µ0 H a : µ > µ0
Según sea el caso y de acuerdo a la significancia α , la región de rechazo para la

hipótesis nula H 0 será:
HIPÓTESIS
H inv : µ ≠ µ 0 H 0 : µ = µ0 H a : µ ≠ µ0
PRUEBA
BILATERAL O
DE DOS REGIÓN DE 1-α
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t / Z1−α t / Z1−α
2 2
H inv : µ < µ 0 H 0 : µ ≥ µ0 H a : µ < µ0
PRUEBA
UNILATERAL REGIÓN DE
1-α
O DE UNA RECHAZO DE
COLA H0 α
1−α
− t / Z1−α
H inv : µ > µ 0 H 0 : µ ≤ µ0 H a : µ > µ0
16
REGIÓN DE 1-α
RECHAZO DE
α
H0
t / Z1−α
Pero saber dónde se encuentra la región de rechazo no basta; es necesario conocer el

valor de donde parte. Este dato se obtiene reconociendo el tipo de distribución
probabilística de la población y hallando en sus tablas el valor que comprenda tal
confiabilidad.
Para una población con distribución normal, el valor de la región de rechazo se busca
en las tablas para la distribución t mediante la expresión t1(−nα−1) si la prueba es bilateral
2
( n −1)
o t1−α si es unilateral. Basta buscar en las tablas de la distribución t los grados de
libertad e intersectarlo con la confiabilidad, que depende del tipo de prueba.
Finalmente, se agrega un signo negativo si la región de rechazo (o una parte) se
encuentra en la sección inferior del eje de las X .
Mientras tanto, para poblaciones cuya distribución es desconocida pero el tamaño de
la muestra es grande (n > 30 ) , el valor donde inicia la región de rechazo depende de
las expresiones Z 1−α (pruebas bilaterales) o Z 1−α (pruebas unilaterales). Por ende, en
2
este caso hay que acudir a las tablas de distribución normal y buscar el valor de Z
que tenga la probabilidad que indica la confianza de la prueba y agregar un signo
negativo si la región de rechazo está en la sección inferior del eje de las X .
B.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS
1. Teniendo la hipótesis del investigador H inv , plantear la hipótesis nula H 0 y la

hipótesis alternativa H a .
2. Reconocer la distribución probabilística de la variable de interés.
3. Determinar el ESTADÍSTICO DE PRUEBA y su distribución probabilística. Es
decir, encontrar la expresión que contiene la comparación del estadístico
muestral o estimador del parámetro con el valor hipotético y la variabilidad
muestral.
EXPRESIÓN PARA EL ESTADÍSTICO x − µ0

tc =
DE PRUEBA t c EN POBLACIONES s
CON DISTRIBUCIÓN NORMAL n
EXPRESIÓN PARA EL ESTADÍSTICO x − µ0
DE PRUEBA Z c EN POBLACIONES Zc =
s
CON DISTRIBUCIÓN DESCONOCIDA n
PERO n > 30
4. Calcular el estadístico de prueba.

5. Determinar el nivel de significancia α de la prueba, así como la ubicación y el
valor de la región de rechazo de la hipótesis nula H 0 .
17
6. Ubicar el estadístico de prueba con respecto a la región de rechazo de la

hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula H 0 . Si está
fuera, concluir con qué significancia o confiabilidad no se rechaza.
B.3) EJEMPLOS DE CONTRASTE DE HIPÓTESIS
1. En una investigación sobre el rendimiento académico de los estudiantes de la

ENAH, una variable de interés fue el tiempo que tardan los alumnos para trasladarse
de su casa a la escuela, el cual se calcula menor a 90 minutos. Suponiendo que la
población tiene una distribución normal y a partir de los siguientes datos que se
tomaron de una muestra aleatoria:
40 75 60 120 70 90 180
80 60 5 30 5 60 45
15 75 100 45 85 40 100
a) Contrastar la hipótesis con un nivel de significancia de 0.05.

b) Construir un intervalo al 95% de confianza para la media de la población.
Ante un problema así, lo primero que debemos hacer es hacer explícitas las hipótesis:
HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90
Posteriormente, reconocemos la distribución probabilística de la población y los datos

generales de la muestra:
DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
Recordando cuando encontramos intervalos de confianza para µ , sabemos que una
expresión que relaciona los datos de la media poblacional, la media muestral, la
desviación estándar de la muestra y que se aplica para poblaciones con distribución
normal es:
x − µ (n-1)
t= ~t
s
n
Donde la variable t tiene una distribución t de student con n − 1 grados de libertad

(g.l.). Por tal motivo, esta expresión nos servirá para calcular nuestro estadístico de
prueba:
x − µ0
EXPRESIÓN PARA EL ESTADÍSTICO tc =
DE PRUEBA t c
s
n
65.71 − 90
tc = = −2.73
APLICACIÓN 40.75
21
Ya con ese dato, falta encontrar la región de rechazo de la hipótesis nula H 0 para
contrastarlos:
18
REGIÓN DE RECHAZO DE H 0 : µ ≥ 90
α = 0.05 1 − α = 0.95 − t1(−nα−1) = −t1(−210.−051) = −t 0(.2095) = −1.7247
Por último, hay que ubicar el estadístico de prueba t c con respecto a esta región de
rechazo y concluir:
UBICACIÓN DE ESTADÍSTICO DE
PRUEBA t c CON RESPECTO A
REGIÓN DE RECHAZO DE H 0
a) , Como podemos ver, el estadístico de prueba t c = −2.73 se encuentra dentro de

la región de rechazo. Por ende, la hipótesis nula H 0 : µ ≥ 90 se rechaza y puede
afirmarse que existe evidencia estadística que indica que la media del tiempo que
hacen los estudiantes de su casa a la ENAH es significativamente ( p < 0.05) menor a
90 minutos, según lo afirmaba la hipótesis del investigador.
Ahora bien, resta establecer el intervalo de confianza para la media de esta variable y
confirmar el resultado:
DATOS GENERALES
X~N(µ,σ) n = 21 x = 65.71 s = 40.75
HIPÓTESIS
H inv : µ < 90 H 0 : µ ≥ 90 H a : µ < 90
α = 0.05 α = 0.025 1−α = 0.975
2 2
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
VALOR DE t1(−nα−1) (n − 1)g.l. = (21 − 1) = 20 g.l. t1(−nα−1) = t .20
975 = 2.0860
2 2
⎛ 40.75 ⎞
APLICACIÓN µ ∈ ⎜ 65.71 ∓ 2.0860 ⋅ ⎟ = µ ∈ (47.16,84.26)
⎝ 21 ⎠
COMPARACIÓN
CON LA µ ∈ (47.16,84.26 ) vs. H inv : µ < 90
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del tiempo que hacen
los estudiantes de su casa a la ENAH está entre los 47.16 y los 84.26 minutos, lo cual
confirma, como señaló el investigador y la prueba de hipótesis, que la media de esta
19
variable es menor a 90.
2. Asumamos que la variable “gasto diario en relación a estudios” de la población

estudiantil de la ENAH es una variable que sigue una distribución aproximadamente
normal. Si suponemos que los siguientes datos corresponden a una muestra aleatoria
de estudiantes del turno vespertino:
100 50 35 40 60 25 20 15 30
70 20 75 30 12 50 35 40 30
a) ¿Es posible afirmar que el “gasto diario” es mayor de $70.00? Considérese una
significancia de 0.05.
b) Encuentre el intervalo al 95% de confianza para la media de la población.
DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70
α = 0.05 1 − α = 0.95 t1(−nα−1) = t1(−180−.051) = t 0(17
.95 = 1.7396
)
xi − µ 0
EXPRESIÓN PARA EL tc =
ESTADÍSTICO DE PRUEBA t c
s
n
40.94 − 70
CÁLCULO DEL tc = = −5.33
23.13
18
a) , El estadístico de prueba t c = −5.33 se halla fuera de la región de rechazo, motivo

por el cual la hipótesis nula H 0 : µ ≤ 70 no se rechaza. De esta forma, no se tiene
evidencia estadística que soporte la afirmación del investigador de que la media del
“gasto diario” estudiantil sea significativamente ( p > 0.05) mayor a $70.00.
DATOS GENERALES
X~N(µ,σ) n = 18 x = 40.94 s = 23.13
HIPÓTESIS
H inv : µ > 70 H 0 : µ ≤ 70 H a : µ > 70
20
α = 0.05 α = 0.025 1−α = 0.975
2 2
PARA µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
VALOR DE t1(−nα−1) (n − 1)g.l. = (18 − 1) = 17 g.l. t1(−nα−1) = t1(−180−.025
1)
= t 0(17
.975 = 2.1098
)
2 2
⎛ 23.13 ⎞
APLICACIÓN µ ∈ ⎜ 40.94 ∓ 2.1098 ⋅ ⎟ = µ ∈ (29.44,52.44)
⎝ 18 ⎠
COMPARACIÓN
CON LA µ ∈ (29.44,52.44 ) vs. H inv : µ > 70
HIPÓTESIS
b) , Con un 95% de confianza se puede inferir que la media del “gasto diario” de la
población de la ENAH se encuentra entre los 29.44 y 52.44 pesos. Debido a ello, con
un 5% de error, puede afirmarse que la hipótesis del investigador era incorrecta al
decir que el promedio de este gasto era superior a los $70.00.
PRUEBA DE NORMALIDAD
A fin de comprobar si la población estudiada de la cual se ha obtenido una muestra

tiene distribución normal, existen varios métodos para contrastar las siguientes
hipótesis:
H o : La muestra procede de una población con distribución normal.

H a : La muestra no procede de una población con distribución normal.
Dos de las más utilizadas son la prueba de Kolmogorov-Smirnofv y la prueba de

Shapiro-Wilks, pero aquí sólo revisaremos la segunda ya que es más potente.
A. PRUEBA DE SHAPIRO-WILKS
El procedimiento de esta prueba consiste en obtener los estadísticos de orden

X (1) , X (2 ) , X (3 ) ,..., X (n )
A.1) TEORÍA
Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es ordenarlos en forma ascendente para ubicar los estadísticos de prueba
X (1) , X (2 ) , X (3 ) ,..., X (n ) .
Realizado esto, se obtienen los siguientes datos:
DATOS
Número total de datos de la
n s2 Varianza de la muestra.
muestra.
Número total de sumandos que se harán en el estadístico de prueba Wc .
h
Datos que se calcula de la siguiente forma:
21
n n −1
Si n es un número par: h = Si n es un número non: h =
2 2
Ahora bien, se calcula el estadístico de prueba Wc
2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
Wc =
EXPRESIÓN PARA EL
(n − 1)s ⎣ j =1 ⎦
ESTADÍSTICO DE PRUEBA Donde
Wc a j ,n es un valor en tablas de Coeficiente a n −i +1
y
X (n − j +1) y X ( j ) son los estadísticos de orden.
Como puede verse en la expresión, la sumatoria empieza con el j = 1 , por lo cual el

primer X ( j ) corresponde al primer estadístico de orden, el segundo X ( j ) al segundo
estadístico de orden y así sucesivamente. Mientras tanto, el primer valor de
corresponde al último estadístico de orden, el segundo al penúltimo, etc. Por tal
[ ]
motivo, lo que se hace en cada expresión X (n − j +1) − X ( j ) es restar los opuestos
2
estadísticos de orden y elevarlos al cuadrado.
Siguiendo la expresión, tales valores se multiplican después por el a j ,n que se

encontrará intersectando la fila con el número de j que se utilizó en ese sumando
contra la columna que tiene el valor de la n muestral en las tablas de Coeficiente
a n −i +1 .
Por último, la suma de esos productos se divide entre producto de la varianza de la

muestra s 2 por (n − 1) .
Si el estadístico de prueba Wc es menor a Wαn que se encuentra intersectando el dato

de n contra la significancia α en las tablas de Percentiles para W , la hipótesis nula
H o se rechaza. Esto es:
TIPO DE HIPÓTESIS H o H o SE RECHAZA SI:
H o : La muestra procede de una

Wc < Wαn
población con distribución normal.
A.2) EJEMPLO
Dados los siguientes datos encontrados:
X 1 = 95.6 X 4 = 65.2 X 7 = 75.5

X 2 = 29.1 X 5 = 75.9 X 8 = 72.0
22
X 3 = 28.5 X 6 = 98.5 X 9 = 42.4
Decir si la población de donde proviene esta muestra tiene o no distribución normal

con una significancia α de 0.05.
HIPÓTESIS
H o : La muestra procede de una población con distribución normal.
H a : La muestra no procede de una población con distribución normal.
ESTADÍSTICOS DE ORDEN
X (1) = 28.5 X (4 ) = 65.2 X (7 ) = 75.9
X (2 ) = 29.1 X (5 ) = 72.0 X (8 ) = 95.6
X (3 ) = 42.4 X (6 ) = 75.5 X (9 ) = 98.5
DATOS
n=9 9 −1 8
s 2 = 683.30 / 683.49 h= = =4
(impar) 2 2
Cálculo del estadístico de prueba Wc :
2
1 ⎡ 4 ⎤
Wc = a (X (10− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(8)s ⎣ j =1 ⎦
Wc =
1
(8)s 2
{
[a1,9 (X (9 ) − X (1) ) + a2,9 (X (8) − X (2 ) ) + a3,9 (X (7 ) − X (3) ) + a4,9 (X (6 ) − X (4 ) )]2 }
Wc =
1
(8)s 2
{[
0.5888(X (9 ) − X (1) ) + 0.3244(X (8 ) − X (2 ) ) + 0.1976(X (7 ) − X (3 ) ) + 0.0947(X (6 ) − X (4 ) )
2
]}
Wc =
1
(8)s 2
{[0.5888(98.5 − 28.5) + 0.3244(95.6 − 29.1) + 0.1976(75.9 − 42.4) + 0.0947(75.5 − 65.2)]2 }
Wc =
1
{4953.85}
(8)s 2
4953.85
Wc =
(8)s 2
4953.85 4953.85
Wc = = 0.906 Wc = = 0.906
5466.40 5467.92
CONTRASTE DE HIPÓTESIS
TIPO DE HIPÓTESIS H o H o : La muestra procede de una población con
23
distribución normal.
EXPRESIÓN PARA
CONTRASTE DE Wc < Wαn
HIPÓTESIS
VALORES FINALES A Wc = 0.906 W09.05 = 0.829
CONTRASTAR
, Como el valor del estadístico de prueba Wc = 0.83 no es menor a W09.05 = 0.829 sino
mayor, la hipótesis nula H o : La muestra procede de una población con distribución
normal no se rechaza y se puede asumir que la población de la que fue tomada esta
muestra tiene una distribución normal.
PRUEBAS NO PARAMÉTRICAS PARA LA MEDIA POBLACIONAL
Cuando la población estudiada no tiene distribución normal y la muestra que de ella

hemos obtenido es pequeña (n < 30 ) , para contrastar hipótesis sobre su media (o
mediana) queda la opción de echar mano de las PRUEBAS NO PARAMÉTRICAS.
Cabe decir, sin embargo, que al ser estas pruebas de libre distribución menos
potentes, sólo deben utilizarse como última alternativa.
A. PRUEBA DEL SIGNO
Prueba no paramétrica cuyo contraste de hipótesis se basa en los signos de las

diferencias del valor de cada dato de la muestra con el valor hipotético.
A.1) TEORÍA
Teniendo una muestra de tamaño n con datos X 1 , X 2 , X 3 ,..., X n , lo primero que debe
hacerse es calcular sus diferencias d i con respecto al valor hipotético µ 0 mediante la
siguiente fórmula: d i = ( X i − µ 0 ) :
Xi di = (X i − µ0 ) + -
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )
Hecho esto, y descontando los d i cuyo valor fue cero, hay que distinguir los d i que
salieron con valor negativo de los que tuvieron valor positivo para obtener los
siguientes datos:
DATOS
n+ Número total de d i positivos. n∗ Valor mayor entre n + y n − .
n− Número total de d i negativos. n′ Suma de n + y n − .
24
Teniendo eso, y de acuerdo al tipo de hipótesis nula H o planteada, se aplica la

siguiente fórmula para calcular el estadístico de prueba:
TIPO DE HIPÓTESIS H o H o : µ = µ0 H o : µ ≤ µ0 H o : µ ≥ µ0
n′ n′ n′
EXPRESIÓN PARA EL 2 ∑ n′ C i ∑ n′ Ci ∑ n′ Ci
ESTADÍSTICO DE PRUEBA i = n∗ i=n+ i=n−
p p= p= p=
2 n′ 2n′ 2n′
En todos los casos, si el valor resultante del estadístico de prueba p es menor a la
significancia α determinada por el investigador ( p < α ), la hipótesis nula H o se
rechaza. Es decir:
H o SE RECHAZA SI: (p < α )
A.2) EJEMPLO
1. Una compañía surte botellas de refresco que se etiquetan con 12 onzas.

Cuando la Procuraduría Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:
X 1 = 11.4 X 4 = 12.2 X 7 = 12.5 X 10 = 11.9 X 13 = 11.5

X 2 = 11.8 X 5 = 11.9 X 8 = 12.0 X 11 = 10.9 X 14 = 11.5
X 3 = 11.7 X 6 = 11.0 X 9 = 12.1 X 12 = 12.3 X 15 = 12.6
Si utilizamos un nivel de significancia de 0.05, ¿existe suficiente evidencia para

documentar la acusación denunciada a la PROFECO de que la compañía
embotelladora está engañando a los consumidores dando cantidades menores de 12
onzas?
HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12
Xi di = (X i − µ0 ) n+ n−
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 9
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 9
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 9
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 9
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 9
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 9
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 9
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 9
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 9
25
X 11 = 10.9 d11 = (10.9 − 12 ) = −1.1 9

X 12 = 12.3 d12 = (12.3 − 12 ) = 0.3 9
X 13 = 11.5 d13 = (11.5 − 12) = −0.5 9
X 14 = 11.5 d14 = (11.5 − 12 ) = −0.5 9
X 15 = 12.6 d15 = (12.6 − 12 ) = 0.6 9
TOTALES 5 9
DATOS
+
n =5 −
n =9 n ∗ {5,9} = 9 n ′ = 5 + 9 = 14
TIPO DE
H o : µ ≥ 12
HIPÓTESIS H o
EXPRESIÓN n′
PARA CALCULAR ∑ n′ Ci
EL ESTADÍSTICO p= i=n−
DE PRUEBA p 2n′
14
∑ 14 Ci
p= i =9
CÁLCULO DE p 214
C+ C + C + C + C + C 3473
p = 14 9 14 10 14 11 14 12 14 13 14 14 = = 0.21
16384 16384
EXPRESIÓN
PARA
CONTRASTE DE
(p < α )
HIPÓTESIS
VALORES
FINALES A p = 0.21 α = 0.05
CONTRASTAR
, Como vemos, el estadístico de prueba p = 0.21 no es menor a la significancia

α = 0.05 ; por ende, la hipótesis nula H o : µ ≥ 12 no se rechaza. Ello quiere decir que
el contenido promedio envasado por la embotelladora no es significativamente
( p > 0.05) menor a 12 onzas, así que las demandas interpuestas ante la PROFECO
no tienen sustento.
B. PRUEBA DE RANGOS DE WILCOXON
Prueba no paramétrica cuyo contraste de hipótesis es más potente que la del signo, ya
que no sólo toma en cuenta las diferencias del valor de cada dato de la muestra con el
valor hipotético, sino también considera los rangos asignados al valor absoluto de tales
diferencias.
B.1) TEORÍA
Al igual que en la prueba del signo, teniendo una muestra de tamaño n con datos
X 1 , X 2 , X 3 ,..., X n , lo primero que debe hacerse aquí es calcular las diferencias d i de
estos datos con respecto al valor hipotético µ 0 a través de la fórmula d i = ( X i − µ 0 ) .
26
De ello se obtiene el valor absoluto d i de cada d i , pero se marca si su origen fue

positivo o negativo.
Xi di = (X i − µ0 ) d i signo
X1 d1 = ( X 1 − µ 0 )
X2 d 2 = (X 2 − µ0 )
X3 d3 = (X 3 − µ0 )
(...) (...)
Xn dn = (X n − µ0 )
A continuación, tales valores se ordenan de menor a mayor. Asimismo, descontando

los d i cuyo valor fue cero, se empieza a numerar el resto de los datos para
asignarles un lugar y un rango, el cual se deduce del lugar que tiene (si hay sólo un
dato con tal valor) o promediando los lugares que ocupan los datos con igual valor.
EJEMPLO
Valor Rangos de d i Rangos de d i
d i ordenados
di Lugar de que provienen de que provienen de
ascendentemente rango d i positivo d i negativo
1+ 0
3+ 1+ 1 1 1
3- 2- 2 2.5 2.5
0 2+ 3 2.5 2.5
4- 3+ 4 5 5
2- 3- 5 5 5
3+ 3+ 6 5 5
2+ 4- 7 7 7
Posteriormente, se distinguen los rangos de d i que provienen de d i positivo o

negativo a fin de poder obtener todos los siguientes datos:
DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo
T− Suma de los valores de los rangos de d i que provienen de d i negativo.

T ∗
Valor menor entre T + y T − .
De acuerdo al tipo de hipótesis nula H o es que se utilizará una de estas T y se le

comparará con una T de las tablas de Wilcoxon.
n
Tα Tαn Tαn
T DE TABLAS 2
CORRESPONDIENTE PARA Donde n es el número total de d i ≠ 0
ESTADÍSTICO DE PRUEBA
y
27
α o α 2 es el valor de la significancia
En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hipótesis

nula H o se rechaza. En otras palabras:

H o : µ = µ0 T ∗ ≤ Tαn
2
H o : µ ≤ µ0 −
T ≤ Tα n
H o : µ ≥ µ0 T + ≤ Tαn
B.2) EJEMPLO
1. Una compañía surte botellas de refresco que se etiquetan con 12 onzas.

Cuando la Procuraduría Federal del Consumidor (PROFECO) prueba una muestra
aleatoria de botellas, obtiene las siguientes cantidades:
X 1 = 11.4 X 4 = 12.2 X 7 = 12.5 X 10 = 11.9 X 13 = 11.5

X 2 = 11.8 X 5 = 11.9 X 8 = 12.0 X 11 = 10.9 X 14 = 11.5
X 3 = 11.7 X 6 = 11.0 X 9 = 12.1 X 12 = 12.3 X 15 = 12.6
Si utilizamos un nivel de significancia de 0.05, ¿existe suficiente evidencia para

documentar la acusación denunciada a la PROFECO de que la compañía
embotelladora está engañando a los consumidores dando cantidades menores de 12
onzas?
HIPÓTESIS
H inv : µ < 12 H o : µ ≥ 12 H a : µ < 12
Xi di = (X i − µ0 ) d i signo
X 1 = 11.4 d1 = (11.4 − 12 ) = −0.6 0.6 -
X 2 = 11.8 d 2 = (11.8 − 12 ) = −0.2 0.2 -
X 3 = 11.7 d 3 = (11.7 − 12 ) = −0.3 0.3 -
X 4 = 12.2 d 4 = (12.2 − 12 ) = 0.2 0.2 +
X 5 = 11.9 d 5 = (11.9 − 12 ) = −0.1 0.1 -
X 6 = 11.0 d 6 = (11.0 − 12) = −1.0 1.0 -
X 7 = 12.5 d 7 = (12.5 − 12 ) = 0.5 0.5 +
X 8 = 12.0 d 8 = (12.0 − 12 ) = 0 0
X 9 = 12.1 d 9 = (12.1 − 12 ) = 0.1 0.1 +
X 10 = 11.9 d10 = (11.9 − 12) = −0.1 0.1 -
X 11 = 10.9 d11 = (10.9 − 12 ) = −1.1 1.1 -
X 12 = 12.3 d12 = (12.3 − 12 ) = 0.3 0.3 +
28
X 13 = 11.5 d13 = (11.5 − 12) = −0.5 0.5 -

X 14 = 11.5 d14 = (11.5 − 12 ) = −0.5 0.5 -
X 15 = 12.6 d15 = (12.6 − 12 ) = 0.6 0.6 +

d i ordenados
0.6 - 0
0.2 - 0.1 - 1 2.0
0.3 - 0.1 + 2 2.0 2.0
0.2 + 0.1 - 3 2.0
0.1 - 0.2 - 4 4.5
4.5
1.0 - 0.2 + 5 4.5
0.5 + 0.3 - 6 6.5
6.5
0 0.3 + 7 6.5
0.1 + 0.5 + 8 9
0.1 - 0.5 - 9 9.0 9
1.1 - 0.5 - 10 9
0.3 + 0.6 - 11 11.5
11.5
0.5 - 0.6 + 12 11.5
0.5 - 1.0 - 13 13 13
0.6 + 1.1 - 14 14 14
DATOS
+
T = 33.5 −
T = 71.50 T ∗ {33.5,71.50} = 33.5 n = 14
TIPO DE HIPÓTESIS
H o : µ ≥ 12
Ho
T DE TABLAS
CORRESPONDIENTE
Tαn
PARA ESTADÍSTICO
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T + ≤ Tαn
HIPÓTESIS
VALORES FINALES
T + = 33.5 Tαn = T014.05 = 26
A CONTRASTAR
, Para este caso, el valor de T + = 33.5 no es menor a la T de tablas T014.05 = 26 ,

motivo por el cual la hipótesis nula H o : µ ≥ 12 no se rechaza. Debido a ello
corroboramos la conclusión obtenida con la prueba del signo: no siendo el contenido
promedio envasado por la embotelladora significativamente ( p > 0.05) menor a 12
onzas, se puede afirmar que las demandas interpuestas ante la PROFECO no tienen
sustento.
29
ESTIMACIÓN DE LA PROPORCIÓN POBLACIONAL p
A. FUNDAMENTOS
Cuando se tiene una variable cualitativa que toma dos valores ( x = {0,1}) y que se
repite n veces en una población de tamaño N , M es el número de eventos que
presentan la característica de interés (x = 1) . Por ende, dividiendo M entre N
obtenemos la proporción poblacional: p = M
N
No obstante, la proporción poblacional p , como el resto de los parámetros, es un
valor desconocido, razón por la cual a menudo es de interés estimar su valor mediante
un intervalo de confianza y una prueba de hipótesis contra un valor hipotético p 0 .
B. CONDICIONES PARA SU ESTIMACIÓN
Se puede aplicar una prueba de hipótesis sobre la proporción muestral p̂ siempre y

cuando —acorde al Teorma Central de Límite— se tenga una muestra de tamaño n
con una proporción muestral pˆ = m que cumpla con los siguientes tres supuestos:
n
1. npˆ = m > 5 2. n(1 − pˆ ) = n − m > 5 3. n > 30
Cuando tales condiciones no se cumplen, es necesario tomar una muestra más

grande.
C. INTERVALO DE CONFIANZA
La expresión para encontrar el intervalo de confianza para la proporción poblacional

p es:
EXPRESIÓN PARA ENCONTRAR UN INTERVALO

AL (1 − α ) POR CIENTO DE CONFIANZA PARA ⎛ pˆ (1 − pˆ ) ⎞
p ∈ ⎜⎜ pˆ ∓ Z 1−α ⋅ ⎟
⎟
p CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN ⎝ 2 n ⎠
APROXIMADAMENTE NORMAL ESTÁNDAR
D. CONTRASTE DE HIPÓTESIS
D.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO
Cuando se quiere estimar el valor de la proporción poblacional p se pueden plantear

las siguientes hipótesis:

HIPÓTESIS NULA
H inv : p ≠ p 0 H 0 : p = p0 H a : p ≠ p0
H inv : p p 0 H 0 : p ≤ p0 H a : p > p0

30
HIPÓTESIS
H inv : p ≠ p 0 H 0 : p = p0 H a : p ≠ p0
PRUEBA
BILATERAL O
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2
H inv : p p 0 H 0 : p ≤ p0 H a : p > p0
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
Z1−α
Cabe mencionar que, al igual que en el contraste de hipótesis sobre µ , en esta

prueba es necesario encontrar el valor donde inicia la región de rechazo. Al depender
del Teorema Central de Límite, los valores para esta prueba dependen de una
distribución aproximadamente normal estándar y se encontrarán en su respectiva tabla
mediante las expresiones Z 1−α o Z 1−α , según sea la prueba (bilateral o unilateral).
2
Esto es, hay que buscar el valor de Z que tenga la probabilidad que indica la
confianza de la prueba y agregar un signo negativo si la región de rechazo está en la
sección inferior del eje de las X .
D.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS
7. Comprobar los supuestos de la muestra para verificar la factibilidad de la

prueba.
8. Si tales condiciones se cumplen, explicitar la hipótesis del investigador H inv , la
hipótesis nula H 0 y la hipótesis alternativa H a .
9. Calcular el estadístico de prueba que compara el estimador con el valor
hipotético y su variabilidad:
31
EXPRESIÓN PARA CALCULAR EL ESTADÍSTICO DE pˆ − p0

Zc =
PRUEBA Z c EN POBLACIONES CON DISTRIBUCIÓN p 0 (1 − p 0 )
APROXIMADAMENTE NORMAL ESTÁNDAR n

D.3) P-VALOR
Calculado como “significancia” en el software estadístico, el P-VALOR es al área bajo

la curva delimitada por el estadístico de prueba Z c con la misma dirección que la
región de rechazo de la hipótesis nula H 0 . Esta área o probabilidad se obtiene
también mediante los datos en tablas y si su valor es menor a la significancia α de la
prueba de hipótesis, la hipótesis nula H 0 se rechaza.
He aquí la forma para encontrar su valor:
ÁREA DEL PROBABILIDAD BÚSQUEDA DE

P-VALOR DE P-VALOR P-VALOR
P(− Z < Z c < Z ) ⇒ P(Z > Z c ) + P(− Z < Z c )
= P(Z < − Z c ) + P(− Z < Z c )
− ∞ < Zc < ∞ P(− Z < Z c < Z )
Se suman la probabilidad de los
valores de − Z c y Z c .
P(Z < Z c )
De − ∞ a Z c P (Z < Z c )
Se busca la probabilidad del valor de Z c .
P (Z > Z c ) ⇒ P (Z < − Z c )
De Z c a ∞ P (Z > Z c )
Se busca la probabilidad del valor de − Z c
E. EJEMPLOS DE ESTIMACIÓN
1. En una muestra de 591 pacientes internados en un hospital psiquiátrico, 204

admitieron que consumieron marihuana al menos una vez durante su vida. ¿Es posible
inferir que la proporción de individuos que consumieron marihuana en la población de
estudio es mayor de 0.30?
c) Realizar una prueba de hipótesis con un nivel de significancia α = 0.05
d) Encontrar el p-valor o significancia de la prueba.
e) Construir un intervalo al 95% de confianza para la proporción poblacional.
DATOS GENERALES
n = 591 m = 204 pˆ = 204 = 0.35 1 − pˆ = 1 − 0.35 = 0.65
591
Según el procedimiento para el contraste de hipótesis, lo primero que debemos hacer

es comprobar que los tres supuestos se cumplan:
32
1. npˆ > 5 2. n(1 − pˆ ) > 5 3. n > 30

(591)(0.35) = 206.85 591(0.65) = 384.15 n = 591
206.85 > 5 384.15 > 5 591 > 30
Comprobado ello, podemos plantear las hipótesis para contrastar:
HIPÓTESIS
H inv : p > 0.30 H 0 : p ≤ 0.30 H a : µ > 0.30
Ahora bien, hay que calcular el estadístico de prueba:
pˆ − p0
Zc =
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA Z c p 0 (1 − p 0 )
n
0.35 − 0.30 0.35 − 0.30
Zc = = Zc = = 2.65
APLICACIÓN 0.30(1 − 0.30 ) 0.30(0.70 )
591 591
Teniendo ese dato, falta reconocer la significancia α , su valor en tablas y la región de

rechazo que delimita:
REGIÓN DE RECHAZO DE H 0 : p ≤ 0.30

α = 0.05 1 − α = 0.95 Z 1−α = Z 0.95 = 1.645
Para concluir el contraste de hipótesis resta ubicar el estadístico de prueba Z c con

respecto a esta región de rechazo y concluir:
PRUEBA Z c CON RESPECTO A
a) , El estadístico de prueba Z c = 2.65 cae dentro de la región de rechazo, razón

por la cual la hipótesis nula H 0 : p ≤ 0.30 se rechaza y se infiere que la proporción
poblacional de internos que usaron marihuana es significativamente ( p < 0.05) mayor
a 0.30.
Calculemos ahora el p-valor para comprobar este resultado:
33
ÁREA DEL PROBABILIDAD BÚSQUEDA DE

P-VALOR DE P-VALOR P-VALOR
De P(Z c > 2.65) ⇒ P(Z c < −2.65)
Z c = 2.65 P(Z c > 2.65)
P(Z c < −2.65) = 0.0040
a ∞
VALORES A COMPARAR p − valor = 0.0040 α = 0.05

b) , El p − valor = 0.0040 es menor a la significancia α = 0.05 , motivo por el cual la
hipótesis nula H 0 : p ≤ 0.30 se vuelve a rechazar.
Por último, hay que construir el intervalo de confianza para la proporción poblacional:
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
EXPRESIÓN ⎛ pˆ (1 − pˆ ) ⎞
PARA p ∈ ⎜⎜ pˆ ∓ Z 1−α ⋅ ⎟
⎟
INTERVALO ⎝ 2 n ⎠
VALOR DE Z 1−α Z 1−α = Z 1−0.025 = Z 0.975 = 1.96
2 2
⎛ 0.35(0.65) ⎞
APLICACIÓN p ∈ ⎜⎜ 0.35 ∓ 1.96 ⋅ ⎟ = p ∈ (0.31,0.39 )
⎟
⎝ 591 ⎠
COMPARACIÓN
CON LA p ∈ (0.31,0.39 ) vs. H inv : p > 0.30
HIPÓTESIS
c) , Con un 95% de confiabilidad es posible inferir que la proporción poblacional de
personas internadas que alguna vez fumaron marihuana está entre 0.31 y 0.39. Tal
intervalo da sustento estadístico a la hipótesis del investigador, que la estima en un
valor mayor a 0.30.
ESTIMACIÓN DE LA VARIANZA POBLACIONAL σ 2
A. FUNDAMENTOS
Cuando en una población se tiene una variable continua con distribución normal y se
desea estimar su variabilidad, es posible también estimar un intervalo de confianza y
hacer un contraste de hipótesis sobre la varianza y la desviación estándar.
B. INTERVALO DE CONFIANZA
A continuación se presenta la expresión para encontrar el intervalo de confianza de la

varianza y la desviación estándar de una población:
EXPRESIÓN PARA ENCONTRAR UN INTERVALO

⎛
AL (1 − α ) POR CIENTO DE CONFIANZA PARA σ 2 σ 2 ∈ ⎜⎜
(n − 1)s 2 , (n − 1)s 2 ⎞⎟
CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN
2 ( n −1)
⎜ χ 1−α χ α2(n −1) ⎟⎟
NORMAL ⎝ 2 2 ⎠
34
EXPRESIÓN PARA ENCONTRAR UN INTERVALO ⎛

AL (1 − α ) POR CIENTO DE CONFIANZA PARA σ ⎜
σ ∈⎜
(n − 1)s 2 , (n − 1)s 2 ⎞⎟
CUANDO LA POBLACIÓN TIENE DISTRIBUCIÓN ⎜ χ 12−(αn −1) χ α2(n −1) ⎟⎟
NORMAL ⎝ 2 2 ⎠
Nótese que en estas expresiones los valores mínimo y máximo del intervalo no se
encuentran simplemente restando o sumando el valor que se halla en tablas, sino que
hay que buscar cada uno.
C. CONTRASTE DE HIPÓTESIS
C.1) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO
Igual que en las estimaciones anteriores, las hipótesis posibles para contrastar el valor
de la varianza poblacional σ 2 son:

HIPÓTESIS NULA
H inv : σ 2 ≠ σ 02 H 0 : σ 2 = σ 02 H a : σ 2 ≠ σ 02
H inv : σ 2 < σ 02 H 0 : σ 2 ≥ σ 02 H a : σ 2 < σ 02
H inv : σ 2 > σ 02 H 0 : σ 2 ≤ σ 02 H a : σ 2 > σ 02

HIPÓTESIS
H inv : σ ≠ σ
2 2
0 H 0 : σ 2 = σ 02 H a : σ 2 ≠ σ 02
PRUEBA
BILATERAL O REGIÓN DE
DE DOS RECHAZO DE
COLAS H0
α/2 1-α/2
2 ( n −1) 2 ( n −1)
χα χ 1−α
2 2
H inv : σ 2 < σ 02 H 0 : σ 2 ≥ σ 02 H a : σ 2 < σ 02
PRUEBA REGIÓN DE
UNILATERAL RECHAZO DE
O DE UNA H0
COLA α
χα2(n −1)
H inv : σ 2 > σ 02 H 0 : σ 2 ≤ σ 02 H a : σ 2 > σ 02
35
REGIÓN DE
RECHAZO DE
H0
1-α
χ12−(αn −1)
Puede verse aquí, al igual que en una parte de la expresión para el intervalo de
confianza de la varianza σ 2 , que las áreas de la significancia no son iguales. Ello se
debe, como se verá en el siguiente punto, a que el estadístico de prueba tiene una
distribución ji-cuadrada χ 2 , cuya gráfica no tiene una curva simétrica. Por tal motivo,
es necesario consultar en esas tablas los valores de χ α2 (n −1) y χ 12−(αn −1) si la prueba es
2 2
2 ( n −1) 2 ( n −1)
bilateral y χ α o χ si es unilateral. Como en otras ocasiones, esto implica
1−α
buscar los grados de libertad e intersectar este renglón con la columna de la
significancia o confiabilidad requerida.
C.2) PROCEDIMIENTO PARA EL CONTRASTE DE HIPÓTESIS
12. Comprobar que la variable tenga una distribución normal.

13. Dado el caso, hacer explícitas la hipótesis del investigador H inv , la hipótesis
nula H 0 y la hipótesis alternativa H a .
EXPRESIÓN PARA CALCULAR EL ESTADÍSTICO DE

χ =
2 (n − 1)s 2
PRUEBA χ c2 EN POBLACIONES CON DISTRIBUCIÓN c
σ0
2
NORMAL

D. EJEMPLOS DE ESTIMACIÓN
1. Los siguientes datos corresponden a las edades de conductores que ocupan el

carril para rebasar mientras conducen a 25 millas por hora con la luz intermitente
direccional izquierda funcionando. Suponga distribución normal en esta población.
f) ¿Es posible inferir que la varianza de esta población es menor a 27 años2?

Realizar una prueba de hipótesis con una significancia α = 0.05 .
g) Estimar el intervalo para la varianza con una confianza de 95%.
DATOS GENERALES
36
X~N(µ,σ) n = 27 x = 80.5 s = 4 .6
Sabiendo que la población cumple con una distribución normal, planteemos las
hipótesis a contrastar:
HIPÓTESIS
H inv : σ < 27
2
H 0 : σ 2 ≥ 27 H a : σ 2 < 27
Y calculemos el estadístico de prueba:
χ c2 =
(n − 1)s 2
EXPRESIÓN PARA EL ESTADÍSTICO DE PRUEBA χ c2
σ 02
APLICACIÓN χ c2 =
(27 − 1)4.6 2 = 20.38
27
Una vez obtenido este valor, falta el de la región de rechazo de la hipótesis nula H 0 :
REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 27
α = 0.05
χ 02.(05n −1) = χ 02.(0527 −1) = χ 02.(0526 ) = 15.379
Y comparar sus ubicaciones:
PRUEBA χ c2 CON RESPECTO A
a) , El estadístico de prueba χ c2 = 20.38 no se encuentra dentro de la región de

rechazo de la hipótesis nula H 0 : σ 2 ≥ 27 , por lo cual puede inferirse que la varianza
de esta población de conductores no es significativamente ( p > 0.05) menor a 27
años2.
Ahora bien, encontremos el intervalo de confianza para la varianza de esta población:
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
⎛ ⎞
EXPRESIÓN (n − 1)s 2 (n − 1)s 2
σ ∈ ⎜⎜ 2(n −1) , 2(n −1)
2 ⎟
PARA ⎟⎟
INTERVALO ⎜ χ 1−α χα
⎝ 2 2 ⎠
37
VALORES DE χ 12−(αn −1) = χ 12−(027.025

−1)
= χ 02.(975
26 )
= 41.923
2
χ α2(n −1) y χ 12−(αn −1) χα2 ( n −1)
= χ 02.(025
27 −1)
= χ 02.(025
26 )
= 13.844
2 2
2
⎛ (27 − 1)4.6 2 (27 − 1)4.6 2 ⎞

APLICACIÓN σ 2 ∈ ⎜⎜ , ⎟⎟ = σ 2 ∈ (13.12,39.70 )
⎝ 41.923 13.844 ⎠
COMPARACIÓN
CON LA σ 2 ∈ (13.12,39.70) vs. H inv : σ 2 < 27
HIPÓTESIS
b) , Con un 95% de confianza es posible afirmar que la varianza de esta población
de conductores se encuentra en el intervalo demarcado por los valores 13.12 y 39.70.
Como tal intervalo contiene valores mayores a 27, no hay evidencia estadística que
sustente la hipótesis del investigador, pero tampoco la hipótesis nula.
2. Utilice un nivel de significancia α = 0.05 para probar la aseveración de que la

estatura de mujeres supermodelos varía menos que la estatura de las mujeres en
general, sabiendo que ambas poblaciones tienen distribución normal y que la
desviación estándar de la estatura de la segunda población es de 2.5 pulgadas.
Estaturas de supermodelos
71 71 70 69 69.5 70.5 71 72 70
70 69 69.5 69 70 70 66.5 70 71
DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
Varianza de población femenina general σ 2 = (2.5)2 = 6.25
HIPÓTESIS
H inv : σ 2 < 6.25 H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
REGIÓN DE RECHAZO DE H 0 : σ 2 ≥ 6.25
α = 0.05 χ 02.(05n −1) = χ 02.(0518−1) = χ 02.(0517 ) = 8.672
EXPRESIÓN PARA
χ c2 =
(n − 1)s 2
ESTADÍSTICO DE PRUEBA χ c2 σ 02
CÁLCULO DEL
χ c2 =
(18 − 1)1.41 = 3.84
ESTADÍSTICO DE PRUEBA χ c2 6.25
38
, Como el estadístico de prueba χ c2 = 3.84 cae en la región de rechazo de la

hipótesis nula H 0 : σ 2 ≥ 6.25 , ésta se rechaza y puede inferirse que la varianza de
las mujeres supermodelos es significativamente ( p < 0.05) menor a la de las mujeres
en general.
DATOS GENERALES
X~N(µ,σ) n = 18 s = 1.19 s 2 = 1.41
HIPÓTESIS
H inv : σ < 6.25
2
H 0 : σ 2 ≥ 6.25 H a : σ 2 < 6.25
1 − α = 0.95 α = 0.05 α 2 = 0.025 1 − α 2 = 0.975
⎛ 2 ⎞
EXPRESIÓN ⎜ (n − 1)s (n − 1)s ⎟
2
PARA σ ∈ ⎜ 2(n −1) , 2(n −1) ⎟
2
INTERVALO ⎜ χ 1−α χα ⎟
⎝ 2 2 ⎠
2 ( n −1) 2 (18−1) 2 (17 )
VALORES DE χ 1−α = χ 1−0.025 = χ 0.975 = 30.191
2
χ α2(n −1) y χ 12−(αn −1) χα2 ( n −1)
= χ 02.(025
18−1)
= χ 02.(025
17 )
= 7.564
2 2
2
⎛ (18 − 1)1.41 (18 − 1)1.41 ⎞

σ 2 ∈⎜ ⎟ = σ ∈ (0.79,3.17 )
2
APLICACIÓN ,
⎝ 30.191 7.564 ⎠
COMPARACIÓN
CON LA σ 2 ∈ (0.79,3.17 ) vs. H inv : σ 2 < 6.25
HIPÓTESIS
, La estatura de las mujeres supermodelos tiene una varianza entre 0.79 y 3.17, así
que, con un 95% de confianza, puede sustentarse la afirmación del investigador de
que esta variabilidad es menor a la varianza de 6.25 de la población femenina
general.
39
ESQUEMA FINAL PARA REALIZAR INFERENCIAS SOBRE LA

MEDIA POBLACIONAL
H 0 : µ = µ0 vs. H a : µ ≠ µ0
H 0 : µ ≥ µ0 vs. H a : µ < µ0
H 0 : µ ≤ µ0 vs. H a : µ > µ0
⎛ s ⎞
µ ∈ ⎜ xi ∓ t1(−nα−1) ⋅ ⎟
¿La población ⎝ 2 n⎠
tiene
distribución
x − µ0
normal? tc =
s
n
⎛ s ⎞
µ ∈ ⎜ xi ∓ Z 1−α ⋅ ⎟
⎝ 2 n⎠
¿La muestra es
mayor a 30?
(TCL) x − µ0
Zc =
s
n
PRUEBAS NO
PARAMÉTRICAS
a) Signo b) Wilcoxon
40
TAMAÑO DE MUESTRA REQUERIDO PARA ESTIMACIÓN
Cuando deseamos contrastar hipótesis sobre un parámetro poblacional que tiene

distribución normal, una cuestión fundamental es conocer el tamaño de la muestra
necesario para realizar tal procedimiento.
Sabiendo que el mejor estimador puntual de µ es x , definiremos como d el error
muestral:
PARA MEDIAS PARA PROPORCIONES

d = x−µ d = pˆ − p
A. TAMAÑO DE MUESTRA PARA ESTIMAR MEDIAS POBLACIONALES
A.1) POBLACIONES CUYO TAMAÑO TOTAL N ES DESCONOCIDO
Como la variable tiene distribución normal, podemos estandarizarlo de la siguiente

forma:
d x−µ
= =Z
σ σ Que gráficamente es:
n n
Y como deseamos que el error de muestreo sea pequeño, si α delimita la región de

d
rechazo de la hipótesis nula H 0 , para que se encuentre en esta área se debe
σ
n
concluir que:
d
> Z 1−α
σ 2
Por ende, para saber el tamaño de la muestra, de ello es necesario despejar n :
d
> Z 1−α
Si tenemos σ 2
n
Aplicamos la ley n ⋅d
de los extremos
> Z 1−α
σ 2
Z 1−α
Dejamos sola a n n> 2
⋅σ
d
Y para despejarla Z 12−α ⋅ σ 2
la elevamos al n> 2
cuadrado d2
A ello debemos la siguiente expresión:
41
EXPRESIÓN PARA CALCULAR EL

TAMAÑO DE MUESTRA PARA Z 12−α ⋅ σ 2
ESTIMAR MEDIAS DE POBLACIONES n> 2
CON TAMAÑO DESCONOCIDO

d2
La cual nos indica que para conocer el tamaño n de la muestra requerida necesitamos
fijar una confiabilidad 1 − α de estimación y encontrar el valor de Z que le
corresponde; además, establecer una magnitud de error de estimación d 2 y conocer
el valor de σ 2 , que puede estimarse con ayuda de investigaciones previas o mediante
muestras piloto. Claro está que, por su relación, a mayor confianza 1 − α , una mayor
muestra se necesitará; mientras que a mayor error de estimación d 2 , menor será la
muestra requerida.
A.2) POBLACIONES CUYO TAMAÑO TOTAL N ES CONOCIDO
A diferencia de la expresión anterior, si el tamaño total N de la población es conocido,

la expresión para calcular el tamaño de muestra requerido es:
EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ σ 2

TAMAÑO DE MUESTRA PARA n> 2
ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ σ 2
2
CUYO TAMAÑO SE CONOCE 2
B. TAMAÑO DE MUESTRA PARA ESTIMAR PROPORCIONES POBLACIONALES
B.1) POBLACIONES CUYO TAMAÑO TOTAL N ES DESCONOCIDO
Como en proporciones la varianza equivale a σ 2 = p (1 − p ) , la expresión para calcular

el tamaño de muestra requerido es:

TAMAÑO DE MUESTRA PARA Z 12−α ⋅ p(1 − p )
ESTIMAR PROPORCIONES DE n> 2
POBLACIONES d2
B.2) POBLACIONES CUYO TAMAÑO TOTAL N ES CONOCIDO
Por último, si lo que se desea es calcular el tamaño de muestra necesario para estimar
proporciones de una población cuyo tamaño N se conoce, se utiliza la siguiente
expresión:
EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ p(1 − p )

ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ p(1 − p )
2
42
C. EJEMPLO DE APLICACIÓN
1. Jayr desea hacer una encuesta sobre las preferencias que existen en la
escuela para las próximas elecciones de director de la ENAH y ha planeado realizar su
estimación con un 95% de confianza y un 5% de error. Sabiendo que p (1 − p ) es
máximo cuando p = 0.5 y hay tres candidatos, supone una proporción de p = 0.33 .
DATOS GENERALES
1 − α = 0.95 α = 0.05 α = 0.025 1 − α = 0.975
2 2
Z 1−α = 1.96 d = 0.05 p = 0.33 1 − p = 0.67
2
a) ¿Qué tamaño de muestra necesitará Jayr para hacer estimaciones sobre las
proporciones de este fenómeno?

TAMAÑO DE MUESTRA PARA Z 12−α ⋅ p(1 − p )
ESTIMAR PROPORCIONES DE n> 2
POBLACIONES d2
n>
(1.96 ) (0.33 ⋅ 0.67 )
2
= 339.75
APLICACIÓN
(0.05)2
, Para realizar una estimación sobre las proporciones de preferencia sobre el
próximo director de la ENAH, Jayr necesita una muestra mayor a 339.75; lo cual,
hablando de personas, implica encuestar alrededor de 340 personas.
b) Previendo los costos y tiempo que se llevará encuestar a 340 personas, Jayr decide
encuestar sólo a los estudiantes. Sabiendo que hay aproximadamente 2000 alumnos
en la ENAH, ¿es que con este cambio reducirá su muestra?, ¿a cuánto?.
EXPRESIÓN PARA CALCULAR EL N ⋅ Z 12−α ⋅ p(1 − p )

ESTIMAR MEDIAS DE POBLACIONES d (N − 1) + Z 12−α ⋅ p(1 − p )
2
2000 ⋅ (1.96) (0.33 ⋅ 0.67 )

2
APLICACIÓN n> = 290.54

(0.05) (2000 − 1) + (1.96)2 (0.33 ⋅ 0.67 )
2
, Si sólo encuestara alumnos, el tamaño de la muestra que Jayr requeriría para

hacer estimaciones sobre las preferencias para director de la ENAH sería de 290.54;
es decir, 251 estudiantes.
EJERCICIOS DE REPASO
I. Define los siguientes conceptos:
1. Hipótesis 2. Hipótesis estadística 3. Error tipo I
4. Error tipo II 5. Significancia estadística 6. Región de rechazo
7. Estadístico 8. Parámetro 9. ¿Qué es x ? ¿qué es
de prueba µ?
10. ¿Qué es σ ? 11. ¿Qué es p̂ ? 12. Potencia de la prueba
¿Qué es s? ¿Qué es p ?
43
II. Resolver los siguientes problemas, interpretando los resultados encontrados.
1. En un estudio realizado por Herrera y López1 sobre una población infantil de la

región de la sierra norte de Puebla se obtuvo, entre otros resultados, que la
estatura promedio de 25 hombres de 13 años en Zacapoaxtla, Puebla fue de
140.38 cm. con una desviación estándar de 7.89cm. Suponiendo distribución
normal en la población
a) ¿Existe evidencia para afirmar que la estatura de la población de niños de 13

años en esta región es menor de 143 cm.? Sea α=0.1
b) Encontrar un intervalo al 90% de confianza para la media de estatura de la

población.
2. En un estudio sobre crecimiento y desarrollo realizado por Villanueva, Saénz y

Serrano2 entre otras medidas, se consideró la estatura sentado de niños entre 9 y
12 años en la comunidad de La Villa de las Margaritas, Chiapas. En 34 niños que
estaban en el rango de 11.6 y 12.5 años de edad se obtuvo una media de 72.31
cm. y una desviación estándar de 37.6.
a) ¿Proporcionan estos datos evidencia para afirmar que la población tiene una
estatura sentado menor de 70 cm.? Sea α=0.05
b) Estimar por intervalo al 95% de confianza la media de la estatura sentado en

la población.
3. En un departamento de carnes de una cadena de supermercados se empaca

carne molida de res en recipientes que se supone contiene un kilogramo. Una
muestra aleatoria de 42 paquetes dio peso promedio de 1.09 kilos con una
desviación estándar de 0.18 kilos.
a) Si usted fuera el gerente de control de calidad y quisiera tener la certeza de

que la cantidad promedio de carne molida es en verdad de 1 kilogramo, ¿qué
hipótesis probaría?
b) Determine el valor de p para la prueba del inciso a)
c) Establecer un intervalo al 95% de confianza para la media de la población.
d) ¿De qué manera daría a conocer los resultados de su estudio a un grupo de

consumidores interesados?
Los problemas 4 al 10 se refieren a los datos sobre percepción, iniciación sexual y

antropometría que fueron recolectados en el grupo (si ya no los tienes puedes bajarlos
en la dirección: http://enah.cursos.estadistica.googlepages.com/home. Contrastar la
hipótesis correspondiente y elaborar un intervalo de confianza donde sea pertinente.
En todos los casos considerar α=0.05 e intervalos al 95% de confianza e interpretar
todos los resultados.
1
Herrera Bautista, Rebeca y López Alonso Sergio (1995) “Distribución de talla y peso en población
infantil de la región de la sierra norte de Puebla, México” Estudios de antropología bilológica V Coloquio
de Antropología Física “Juan Comas”, México, IIA, UNAM.
2
VILLANUEVA MARÍA, SAÉNZ MA. ELENA Y SERRANO CARLOS. (1982) Crecimiento y
desarrollo en escolares de la Villa de las Margaritas, Chiapas México. En II Coloquío de Antropología
Física “Juan Comas”, IIA, UNAM. pp. 427-452
44
4. ¿Se puede suponer distribución normal en la estatura antropométrica de hombres?
5. ¿Se puede asumir distribución normal en altura de rodilla en mujeres del turno
vespertino?
6. Suponiendo que la variable perímetro de cintura en mujeres no se distribuye

normal, ¿es posible inferir que toma un valor mayor de 800 mm.?
7. ¿La media de estatura en la población de hombres es menor de 1650 mm.?
8. ¿La media de la altura de la rodilla de mujeres es diferente de 500mm.?
9. ¿La varianza poblacional de la estatura total en mujeres es de 2500 mm² ?
10. ¿La proporción de mujeres que han tenido relaciones sexuales es mayor de 0.65?
11. ¿la proporción de mujeres que se autopercibieron como la figura 6 es menor de

0.15?
12. Las autoridades de una universidad consideran que el nivel de acreditación

debería ser mayor al 65%. En un curso de bioestadística tomado por 35 alumnos
28 acreditan.
a) Proporcionan estos datos para confirmar que el curso se encuentra de

acuerdo con lo pronosticado por las autoridades. Sea α=0.05.
b) Determinar un intervalo al 95% de confianza para la proporción de alumnos

que acreditan.
13. El siguiente cuestionario fue respondido por una muestra de 250 ginecólogos. Los
números de la derecha son las frecuencias de respuesta de cada opción:
1. ¿Ha revisado durante el año pasado a una o más mujeres
embarazadas con altas concentraciones de plomo en la sangre?
a) Si 175
b) No 75
2. ¿Acostumbra como rutina poner al tanto a sus pacientes embarazadas
de que el fumar es riesgoso para el feto?
a) Si 238
b) No 12
a) ¿Es posible concluir que, de la población muestreada menos del 15% de los
ginecólogos ha atendido a una o más mujeres embarazadas con altas
concentraciones de plomo en la sangre? Sea α=0.01. Construir intervalo al 99%
de confianza para la proporción poblacional.
b) ¿es posible concluir que más del 90% de los médicos pone al tanto a sus
pacientes de que fumar es riesgoso para el feto? Sea α=0.05. Construir
intervalo al 95% de confianza para la proporción poblacional.
14. En una escuela se está planeando la construcción de canchas de basketball pues

se cree que más de 2/3 de la población estudiantil lo practican. Una encuesta
realizada detectó que, de 48 alumnos elegidos al azar, 33 preferían como deporte
el basketball. ¿Se puede inferir lo planteado? Sea α=0.05. Con 95% de
confiabilidad calcular un intervalo para estimar la proporción de alumnos de toda la
escuela que prefieren basketball. Interprete su resultado.
45
15. Un antropólogo físico ha medido la capacidad del cráneo de 38 fósiles de adultos

de un tipo androide ya extinto. Obtuvo una media muestral de 820 cm3 con s = 90
cm3. Calcule un intervalo de confianza a nivel 95% para la capacidad promedio del
cráneo de este antropoide.
16. Datos de la Encuesta Nacional de Alimentación y Nutrición en el medio rural 1996

muestran que el estado de Guerrero presenta la mayor proporción de niños
desnutridos del país en medios rurales según el peso para la edad con un valor de
0.63. Si la muestra considerada fue de 390 niños en el estado.
a) ¿se puede afirmar que la proporción de niños en Guerrero es mayor de

0.60? Sea α=0.0895
b) Construir un intervalo al 90% de confianza para la proporción poblacional.
17. La productividad de un sistema que fabrica discos compactos vírgenes es, según
los empresarios más de 150 discos por hora. De resultar cierto esto, una compañía
disquera comprará dicho sistema. Tomando el sistema a prueba, lo activan en 28
horas (cada hora es una muestra) y obtienen una media de 155.8 con una
desviación estándar de 7.18. ¿Comprarán el sistema en cuestión? Responder esta
pregunta suponiendo distribución normal en la población, con las dos metodologías
de inferencia:
a) Mediante una prueba de hipótesis con α=0.1.
b) Con un intervalo al 90% de confianza.
18. En un estudio sobre los efectos de la contaminación ambiental se midieron las

concentraciones de hemoglobina en 15 personas que habitan en la zona
colindante con la zona industrial de Naucalpan, obteniendo los siguientes valores:
15.6, 14.8, 14.4, 16.6, 13.8, 14.0, 17.3, 18.6, 16.2, 14.7, 15.7, 16.4, 13.9, 14.6 y
12.8. Suponiendo que la población de la cual se extrae la muestra no se distribuye
aproximadamente normal, ¿es posible concluir que la concentración de
hemoglobina en esta región es mayor de 16?
46
UNIDAD II
COMPARACIÓN DE DOS MEDIAS POBLACIONALES
Cuando lo que se desea es comparar dos poblaciones a través de su media, lo

primero que debe reconocerse es si la variable a comparar tiene o no distribución
normal aplicando la prueba de Shapiro-Wilks.
A. COMPARACIÓN EN POBLACIONES CON DISTRIBUCIÓN NORMAL
Si bien es posible suponer distribución normal en la variable de ambas poblaciones,

las expresiones para construir intervalos de confianza y comparar las medias
dependen aún de otro requisito: si puede asumirse que sus varianzas son iguales o
no, lo cual se verifica a través de la prueba de Leveane.
1) PRUEBA DE LEVEANE
Se trata de una prueba para comparar las varianzas σ 12 y σ 22 de una variable con
distribución normal en dos poblaciones de tamaño N 1 y N 2 , con medias µ1 y µ 2 .
a) Hipótesis nula y región de rechazo
Como el fin es simplemente inferir si las varianzas de ambas poblaciones son

estadísticamente iguales o no, las hipótesis de esta prueba son:
HIPÓTESIS NULA HIPÓTESIS ALTERNATIVA

H0 :σ = σ
2
1
2
2 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO
F1(−nα1 −1, n2 −1)
El valor donde comienza la región de rechazo se encuentra acudiendo a las

( n −1, n −1)
tablas F de Fisher mediante la expresión F1−α1 2 , donde los grados de
libertad son (n1 − 1) en el numerador y (n 2 − 1) en el denominador.
b) Procedimiento para el contraste de hipótesis
1. Tomar una muestra de cada población y obtener sus varianzas muestrales.

2. Definir a la muestra con varianza mayor con el número 1 y a la menor con el
número dos; es decir, la muestra n1 tiene una varianza s12 , que es mayor que la
varianza s 22 de la muestra n2 .
3. Gracias a ello, puede calcularse el estadístico de prueba:
47

ESTADÍSTICO DE PRUEBA Fc EN s12
Fc =
POBLACIONES CON DISTRIBUCIÓN s 22
NORMAL
donde el numerador es siempre mayor que el denominador y el resultado tiene

una distribución F de Fisher con (n1 − 1) grados de libertad en el numerador y
(n2 − 1) grados de libertad en el denominador.
Una vez que se concluye si las varianzas de ambas poblaciones son estadísticamente
iguales o diferentes, se tienen elementos construir intervalos de confianza y hacer
pruebas sobre sus medias.
2) INTERVALOS DE CONFIANZA
Como ya se ha dicho, la expresión para construir un intervalo de confianza para la

diferencia entre las medias de dos poblaciones depende del resultado de la prueba de
Leveane. De acuerdo a ella:
VARIANZAS IGUALES VARIANZAS DIFERENTES

σ 12 = σ 22 σ 12 ≠ σ 22
⎡ 1 1 ⎤ ⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα1 + n2 − 2 ) ⋅ Sp + ⎥ ( n1 + n2 − 2 )
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1−α ⋅ + ⎥
⎣ n1 n2 ⎦
⎣⎢ n1 n2 ⎥⎦
2 2
Y sus resultados se interpretan de la siguiente forma:
VALORES RESULTANTES INTERPRETACIÓN

Valores negativos µ1 < µ 2
Valores positivos µ1 > µ 2
Valores negativos y positivos
µ1 = µ 2
(que incluyen al cero)
3) PRUEBA t
Cubiertos los anteriores requisitos, es está la prueba que debe utilizarse para
comparar dos poblaciones a través de sus medias:
La comparación de medias poblacionales que esta prueba realiza permite no

sólo establecer si son diferentes, sino también si alguna es mayor que otra,
motivo por el cual las hipótesis que pueden plantearse son:
48

HIPÓTESIS NULA
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
Según sea el caso y de acuerdo a la significancia α , la región de rechazo para

la hipótesis nula H 0 será:
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
PRUEBA
BILATERAL O
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα1 + n2 − 2) t1(−nα1 + n2 − 2 )
2 2
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE
1-α
RECHAZO DE
H0 α
PRUEBA − t1(−nα1 + n2 − 2)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
t1(−nα1 + n2 − 2 )
El valor en donde inicia la región de rechazo se obtiene mediante las expresiones

t1(−nα1 + n2 − 2 ) si es bilateral o t1(−nα1 + n2 − 2 ) si es unilateral. Para encontrarlo, se busca en
2
las tablas de la distribución t los grados de libertad3 y se intersecta con la
confiabilidad buscada, que depende del tipo de prueba. Finalmente, se agrega un
signo negativo si la región de rechazo (o una parte) se encuentra en la sección
inferior del eje de las X .
3
Como puede verse, los grados de libertad es igual a la suma de los dos tamaños de muestra menos dos.
49
1. Teniendo las muestras de tamaño n1 y n 2 , obtener sus medias muestrales x1

y x2 .
2. Dependiendo del resultado de la prueba de Leveane, calcular el estadístico de
prueba:
VARIANZAS IGUALES VARIANZAS DIFERENTES

σ =σ
2
1
2
2 σ 12 ≠ σ 22
x1 − x 2
tc =
1 1
Sp +
n1 n2
Donde Sp es un promedio de las x1 − x 2
tc =
varianzas muestrales s12 y s 22 , ponderado s12 s 22
+
por los tamaños de las muestras n1 y n2 n1 n2
que se calcula de la siguiente forma:
(n1 − 1)s12 + (n2 − 1)s 22
Sp =
n1 + n2 − 2
que tiene una distribución t de student con n1 + n2 − 2 grados de libertad.

3) EJEMPLOS DE APLICACIÓN
1. Los siguientes datos de estatura en centímetros pertenecen a dos muestras

aleatorias (femenina y masculina) de estudiantes de la ENAH. Suponga distribución
normal en sus poblaciones.
MUJERES
157 181 158 152 160 160 163 155
156 153 170 152 160 170 170 158
HOMBRES
173 182 165 165 176 173 180
Con una significancia de α = 0.05 :
a) ¿es posible inferir que la varianza de estatura femenina es diferente a la masculina

en los estudiantes de la ENAH?
b) ¿es posible concluir que la estatura media femenina es menor que la masculina en
estas poblaciones?
c) construir un intervalo para la diferencia de medias al 95% de confianza.
50
DATOS GENERALES
MUJERES n = 16 x = 160.94 s = 8.05 , Población 1
HOMBRES n=7 x = 173.43 s = 6.65 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
REGIÓN DE RECHAZO DE H 0 : σ 12 = σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−160.−051, 7 −1) = F0(.15
95
,6)
= 3.94
EXPRESIÓN PARA s12

Fc = 2
ESTADÍSTICO DE PRUEBA Fc s2
CÁLCULO DEL
Fc =
(8.05)2 = 1.47
ESTADÍSTICO DE PRUEBA Fc (6.65)2
PRUEBA Fc CON RESPECTO A
a) , Como el estadístico de prueba Fc = 1.47 está fuera de la región de rechazo que
975 = 5.27 , la hipótesis nula H 0 : σ 1 = σ 2 no se rechaza y puede inferirse

inicia en F0(.15 ,6) 2 2
que la varianza de la estatura en estas dos poblaciones no es significativamente

( p > 0.05) diferente.
Teniendo el resultado de la prueba de Leveane, es posible comparar las medias con la
prueba t :
HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 −2 ) = −t1(−160.+057 −2 ) = −t 0(.2195) = −1.7207
51
RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
EXPRESIÓN PARA tc =
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2
Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp
Sp =
(16 − 1)(8.05)2 + (7 − 1)(6.65)2 = 7.68
16 + 7 − 2
160.94 − 173.43
ESTADÍSTICO DE PRUEBA t c 1 1
7.86 +
16 7
b) , Como el estadístico de prueba t c = −3.59 cae en la región de rechazo que parte
95 = −1.7207 , la hipótesis nula H 0 :µ 1≥ µ 2 se rechaza y puede inferirse que

de − t 0(.21)
estatura femenina es significativamente ( p < 0.05) menor a la masculina en las

poblaciones de estudiantes de la ENAH.
Finalmente, podemos construir el intervalo de confianza para la diferencia de las

medias:
RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
CONFIABILIDAD 1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−160.+025
7 −2)
= t 0(.21975) = 2.0796
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦
⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢160.94 − 173.43 ∓ 2.0796 ⋅ 7.86 + ⎥
APLICACIÓN ⎣ 16 7 ⎦
µ1 − µ 2 ∈ [− 19.79,−5.19]
INTERPRETACIÓN Valores negativos µ1 < µ 2
c) , Con un 95% de confianza es posible inferir que la media de la población 1 es
menor que la de la población 2; por lo cual se puede afirmar que la estatura media
femenina es menor que la masculina en las poblaciones de estudiantes de la ENAH.
52
2. Los siguientes datos pertenecen a dos muestras aleatorias de personas

mayores, fumadores y no fumadores, e indican el índice de destrucción de pulmón que
presentaron al morir (el cual es más grande a mayor deterioro pulmonar).
NO FUMADORES
18.1 6.0 10.8 11.0 7.7 17.9 8.5 13.0 18.9
FUMADORES
16.6 13.9 11.3 26.5 17.4 15.3 15.8 12.3
18.6 12.0 24.1 16.5 21.8 16.3 23.4 18.8
Suponga distribución normal y conteste:

a) ¿Es posible inferir que las varianzas poblacionales son diferentes?
b) ¿Es posible afirmar que la destrucción pulmonar es mayor en personas mayores
fumadoras?
c) Construya un intervalo al 95% de confianza para la diferencia de medias.
DATOS GENERALES
NO
n=9 x = 12.43 s = 4.85 , Población 1
FUMADORES
FUMADORES n = 16 x = 17.54 s = 4.48 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−90−.05
1,16 −1)
= F0(.895,15) = 2.64
EXPRESIÓN PARA s12

Fc =
ESTADÍSTICO DE PRUEBA Fc s 22
CÁLCULO DEL
Fc =
(4.85)2 = 1.17
a) , Como el estadístico de prueba Fc = 1.17 está fuera de la región de rechazo que

inicia en F0(.8975
,15 )
= 3.20 , la hipótesis nula H 0 : σ 12 = σ 22 no se rechaza y puede inferirse
que la varianza de la estatura en estas dos poblaciones no es significativamente
( p > 0.05) diferente.
53
HIPÓTESIS
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1≥ µ 2
α = 0.05 1 − α = 0.95 − t1(−nα1 + n2 − 2 ) = −t1(−90+.1605− 2) = −t 0(.2395) = −1.7139
RESULTADO P. LEVEANE H 0 : σ 12 = σ 22
x1 − x 2
1 1
ESTADÍSTICO DE PRUEBA t c Sp +
n1 n2
Sp =
(n1 − 1)s12 + (n2 − 1)s 22
n1 + n2 − 2
CÁLCULO DE Sp
Sp =
(9 − 1)(4.85)2 + (16 − 1)(4.48)2 = 4.61
9 + 16 − 2
12.43 − 17.54
ESTADÍSTICO DE PRUEBA t c 1 1
4.61 +
9 16
b) , Como el estadístico de prueba t c = −2.66 cae en la región de rechazo que parte
95 = −1.7139 , la hipótesis nula H 0 :µ 1≥ µ 2 se rechaza y puede inferirse que la

de − t 0(.23 )
destrucción pulmonar es significativamente ( p < 0.05) mayor en personas fumadoras.
RESULTADO P.
H 0 : σ 12 = σ 22
LEVEANE
2 2
VALOR DE
t1(−nα1 + n2 − 2 ) = t1(−90+.16025− 2 ) = t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ 1 1 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅ Sp
1 2
+ ⎥
DE CONFIANZA ⎣ 2 n1 n2 ⎦
54
⎡ 1 1⎤
µ1 − µ 2 ∈ ⎢12.43 − 17.54 ∓ 2.0687 ⋅ 4.61 + ⎥
APLICACIÓN ⎣ 9 16 ⎦
= µ1 − µ 2 ∈ [− 9.08,−1.14]
INTERPRETACIÓN Valores negativos µ1 < µ 2
menor que la de la población 2; por lo cual se puede afirmar que la destrucción
pulmonar es más grande en personas mayores fumadoras.
3. Los siguientes de datos de perímetro craneal (mm.) en neonatos (0-24 horas)

fueron obtenidos durante una investigación (1968-1970) en el Valle de Cholula:
HOMBRES
351 365 339 330 335 354
350 356 350 322 331
MUJERES
331 317 330 321 335 329
340 332 320 345 327 335
330 320
Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en el perímetro craneal de estas poblaciones?
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
HOMBRES: ESTADÍSTICOS DE ORDEN.

X (1) = 322 X (2 ) = 330 X (3) = 331 X (4 ) = 335 X (5 ) = 339 X (6 ) = 350
X (7 ) = 350 X (8 ) = 351 X (9 ) = 354 X (10 ) = 356 X (11) = 365
n = 11 11 − 1
DATOS x = 343.91 s = 13.27 s 2 = 176.09 h= =5
(impar) 2
EXPRESIÓN PARA EL 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
ESTADÍSTICO DE Wc =
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦
2
1 ⎡ 5 ⎤
Wc = a (X (11− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(10)s ⎣ j =1 ⎦
⎡0.5601(365 − 322 ) + 0.3315(356 − 330 ) + 0.2260(354 − 331)⎤

2
1
Wc = ⎢+ 0.1429(351 − 335) + 0.0695(350 − 339 ) ⎥
(10)s 2 ⎣ ⎦
Wc =
1
[1677.08] Wc =
1677.08
= 0.952
(10)176.09 1760.93
55
H o : La muestra procede de una población con
TIPO DE HIPÓTESIS H o
EXPRESIÓN PARA
HIPÓTESIS
CONTRASTAR
, El estadístico de prueba Wc = 0.948 no es menor a W011.05 = 0.850 . Por tal motivo, la
hipótesis nula no se rechaza y se infiere que, en la población masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribución normal.
MUJERES: ESTADÍSTICOS DE ORDEN.

X (1) = 317 X (2 ) = 320 X (3 ) = 320 X (4 ) = 321 X (5 ) = 327
X (6 ) = 329 X (7 ) = 330 X (8 ) = 330 X (9 ) = 331 X (10 ) = 332
X (11) = 335 X (12 ) = 335 X (13 ) = 340 X (14 ) = 345
n = 14 h=
14
=7
DATOS x = 329.42 s = 8.02 s 2 = 64.32 (par) 2
⎡ h ⎤
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )
⎦
2
1 ⎡7 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(13)s 2 ⎣ j =1 j , n (14 − j ) ( j )
⎦
⎡0.5251(345 − 317 ) + 0.3318(340 − 320 ) + 0.2460(335 − 320 ) ⎤

2
1 ⎢
Wc = + 0.1802(335 − 321) + 0.1240(332 − 327 ) + 0.0727(331 − 329 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(330 − 330 ) ⎥⎦
Wc =
1
[801.85] Wc =
801.85
= 0.959
(13)64.32 813.17
EXPRESIÓN PARA
HIPÓTESIS
CONTRASTAR
hipótesis nula no se rechaza y se infiere que, en la población femenina de la cual
procede esta muestra, la variable perímetro craneal tiene una distribución normal.
56
Comprobado que ambas poblaciones tienen distribución normal para esta variable,
hacemos la prueba de Leveane:
DATOS GENERALES
HOMBRES n = 11 x = 343.91 s = 13.27 , Población 1
MUJERES n = 14 x = 329.42 s = 8.01 , Población 2
HIPÓTESIS
H inv : σ ≠ σ
2
1
2
2 H 0 : σ 12 = σ 22 H a : σ 12 ≠ σ 22
α = 0.05 F1(−nα1 −1,n2 −1) = F1(−110.−051,14−1) = F0(.10
95
,13)
= 2.67
EXPRESIÓN PARA s12

Fc =
ESTADÍSTICO DE PRUEBA Fc s 22
CÁLCULO DEL
Fc =
(13.27 )
2
= 2.74
, Como el estadístico de prueba Fc = 2.74 cae en la región de rechazo que inicia en

F0(.10
95
,13)
= 2.67 . Por tal motivo, la hipótesis nula H 0 : σ 12 = σ 22 se rechaza y puede
inferirse que la varianza del perímetro craneal en estas dos poblaciones es
significativamente ( p < 0.05) diferente.
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
REGIÓN DE RECHAZO DE H 0 :µ 1= µ 2
1−α t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
α = 0.05 = 0.975 = t 0( .23975) = 2.0687
2 2
57
RESULTADO P. LEVEANE H a : σ 12 ≠ σ 22
x1 − x 2
ESTADÍSTICO DE PRUEBA t c s12 s 22
+
n1 n2
343.91 − 329.42
CÁLCULO DEL tc = = 3.19
ESTADÍSTICO DE PRUEBA t c 13.27 2 8.012
+
11 14
b) , Como el estadístico de prueba t c = 3.19 cae en la región de rechazo que parte
975 = 2.0687 , la hipótesis nula H 0 :µ 1= µ 2 se rechaza y puede inferirse que

de t 0(.23 )
existen diferencias significativas ( p < 0.05) por sexo en el perímetro craneal de

neonatos de las poblaciones del Valle de Cholula.
RESULTADO P.
H a : σ 12 ≠ σ 22
LEVEANE
2 2
VALOR DE
t1(−nα1 + n2 − 2) = t1(−110+.025
14 − 2 )
= t 0(.23975) = 2.0687
t1(−nα1 + n2 − 2 ) 2
2
EXPRESIÓN ⎡ s12 s 22 ⎤
PARA INTERVALO µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
DE CONFIANZA ⎢⎣ 2 n1 n2 ⎥⎦
⎡ 13.27 2 8.012 ⎤
µ1 − µ 2 ∈ ⎢343.91 − 329.42 ∓ 2.0687 ⋅ + ⎥
APLICACIÓN ⎣⎢ 11 14 ⎥⎦
= µ1 − µ 2 ∈ [5.10,23.88]
INTERPRETACIÓN Valores positivos µ1 > µ 2
menor que la de la población 2; por lo cual se puede afirmar que el perímetro craneal
de hombres es mayor que el de mujeres entre los neonatos de esa localidad.
B. COMPARACIÓN EN POBLACIONES CON DISTRIBUCIÓN DESCONOCIDA
B.1) UTILIZANDO DOS MUESTRAS GRANDES
Si de acuerdo a la prueba de Shapiro Wilks no es posible suponer distribución normal

en al menos una de las dos poblaciones, pero las muestras obtenidas de ellas son
mayores a 20 (n1 > 20, n2 > 20 ) , gracias al Teorema Central de Límite pueden
utilizarse las siguientes expresiones para construir intervalos de confianza y comparar
sus medias:
58
EXPRESIÓN PARA ENCONTRAR UN

INTERVALO AL (1 − α ) POR CIENTO
DE CONFIANZA PARA µ1 − µ 2 ⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ Z 1−α ⋅ + ⎥
CUANDO LA POBLACIÓN TIENE ⎢⎣ 2 n1 n2 ⎥⎦
DISTRIBUCIÓN DESCONOCIDA PERO
(n1 > 20, n2 > 20)
EXPRESIÓN PARA EL ESTADÍSTICO x1 − x 2
DE PRUEBA Z c EN POBLACIONES Zc =
s12 s 22
CON DISTRIBUCIÓN DESCONOCIDA +
PERO (n1 > 20, n 2 > 20 ) n1 n2
Como es posible ver, el estadístico de prueba es una Z c , el cual tiene una distribución
normal estándar. Debido a ello es que se recurre, una vez más, a las tablas de
distribución normal para obtener los valores correspondientes a la significancia y
confiabilidad de la prueba.
B.2) UTILIZANDO DOS MUESTRAS PEQUEÑAS
En caso de que al menos una de las muestras no sea suficientemente grande

(n < 20) para aplicar el Teorema Central de Límite, la última alternativa es utilizar la
prueba no paramétrica U DE MANN-WHITNEY. Aunque el único requisito para
emplearla es que la variable involucrada sea al menos ordinal, esta prueba no sólo es
menos potente, sino que además es sobre las medianas de las poblaciones y no sobre
sus medias.
Como en otras ocasiones, existen 3 hipótesis nulas posibles para comparar las
medianas de dos poblaciones:
HIPÓTESIS NULA
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
H inv :M 1< M 2 H 0 :M 1≥ M 2 H a :M 1< M 2
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
Cuyas regiones de rechazo, respectivamente, son las siguientes:
HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
PRUEBA
BILATERAL O
DE DOS REGIÓN DE
COLAS RECHAZO DE
1−α H0
2 α/2 1-α/2
U α(n1 ,n2 ) U 1(−nα1 ,n2 )
2 2
PRUEBA H inv :M 1< M 2 H 0 :M 1≥ M 2 H a :M 1< M 2
59
UNILATERAL
O DE UNA
COLA
1−α REGIÓN DE
RECHAZO DE
H0
α
U α(n1 ,n2 )
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
REGIÓN DE
RECHAZO DE
H0
1-α
U 1(−nα1 ,n2 )
Debe dejarse en claro que la forma de la gráfica de esta distribución no es

específicamente tal y acercarse de ella sólo puede afirmarse que no es simétrica.
Los valores que delimitan tales regiones, empero, pueden encontrarse utilizando
(n ,n )
las tablas para la prueba de Mann-Whitney mediante las expresiones U α 1 2 y
2
( n1 , n2 ) ( n1 ,n2 ) ( n1 , n2 )
U 1−α si la prueba es bilateral y con ayuda de U α o U 1−α si la prueba es
2
unilateral. Los valores que tienen una alfa directa se encuentran buscando en los
renglones de n el valor de n1 , posteriormente la significancia de la prueba y por
último intersectar ello con la columna de m, que es el valor de n 2 .
Empero, los que implican encontrar la región de rechazo a la derecha
(1 − α ,1 − α 2 ) deben calcularse a partir de los anteriores mediante la siguiente
fórmula:
EXPRESIÓN PARA HALLAR EL VALOR DE INICIO DE REGIONES DE RECHAZO

EN EL EJE SUPERIOR DE LAS X
PRUEBAS BILATERALES U 1(−nα1 ,n2 ) = n1 ⋅ n2 − U α(n1 ,n2 )
2 2
( n1 , n2 ) ( n1 , n2 )
PRUEBAS UNILATERALES U 1−α = n1 ⋅ n2 − U α
b) Procedimiento de contraste de hipótesis
1. Teniendo los datos X 1 , X 2 , X 3 ,..., X n como muestra de la población 1 y a los

datos Y1 , Y2 , Y3 ,..., Yn como muestra de la población 2, se asignan rangos a todos
los datos considerando como sólo una a ambas muestras.
2. A partir de ello se obtienen los siguientes datos:
DATOS
60
n1 Tamaño de la muestra 1.
n2 Tamaño de la muestra 2.
R1 Suma de los rangos de la muestra 1.
R2 Suma de los rangos de la muestra 2.
3. Teniendo eso se calcula el estadístico de prueba:
EXPRESIÓN PARA EL ESTADÍSTICO

DE PRUEBA U c EN POBLACIONES n1 (n1 + 1)
U c = R1 −
CON DISTRIBUCIÓN DESCONOCIDA 2
PERO Y MUESTRAS PEQUEÑAS
4. El valor obtenido se compara con la región de rechazo delimitada por el valor

de U que se obtuvo en las tablas de Mann-Whitney y que depende de la
significancia y los tamaños de las muestras.
5. Finalmente se ubica el estadístico de prueba con respecto a la región de
rechazo de la hipótesis nula H 0 ; si está dentro de ella, rechazar la hipótesis nula
H 0 . Si está fuera, concluir con qué significancia o confiabilidad no se rechaza.
c) Ejemplos de aplicación
1. Los siguientes datos corresponden a la altura basion-bregma de cráneos

masculinos y femeninos pertenecientes a los restos óseos hallados en la Cueva de la
Candelaria, Coahuila.
CRÁNEOS MASCULINOS (POBLACIÓN 1)

139 135 146 143 137 147 134 137 142
CRÁNEOS FEMENINOS (POBLACIÓN 2)
131 129 133 127 123 138 129
Si ninguna de las poblaciones tiene distribución normal y utilizamos una significancia

de α = 0.05 , ¿es posible inferir que la altura basion-bregma es menor en los cráneos
femeninos?
CRÁNEOS MASCULINOS RANGO CRÁNEOS FEMENINOS RANGO

139 12 131 5
135 8 129 3.5
146 15 133 6
143 14 127 2
137 9.5 123 1
147 16 138 11
134 7 129 3.5
137 9.5 R2 32
142 13 n2 = 7
R1 104
n1 = 9
HIPÓTESIS
61
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47
EXPRESIÓN PARA EL
ESTADÍSTICO DE PRUEBA U c EN
n1 (n1 + 1)
POBLACIONES CON U c = R1 −
2
DISTRIBUCIÓN DESCONOCIDA
CÁLCULO DEL 9(9 + 1)
U c = 104 − = 59
2
PRUEBA U c CON RESPECTO A
, El estadístico de prueba U c = 59 cae en la región de rechazo que parte de

U 0(9.95,7 ) = 47 . Por ende, la hipótesis nula H 0 :M 1≤ M 2 se rechaza y puede inferirse que
la altura basion-bregma es significativamente ( p < 0.05) menor en los cráneos
femeninos.
2. Siguiendo su estudio, el investigador de los restos óseos de la Cueva de la

Candelaria está interesado en saber si la altura de la nariz presenta un dimorfismo.
Con respecto a esta variable, las poblaciones tampoco tienen una distribución normal.
Con una significancia de α = 0.05 , el investigador se pregunta entonces: ¿es posible
inferir que la altura de la nariz es menor en las mujeres?
CRÁNEOS MASCULINOS (POBLACIÓN 1)

55 51 52 55 53 54.5 53 48 47 54
CRÁNEOS FEMENINOS (POBLACIÓN 2)
48.5 42 46.5 49 47 50 51

55 16.5 48.5 6
51 9.5 42 1
52 11 46.5 2
55 16.5 49 7
53 12.5 47 3.5
54.5 15 50 8
62
53 12.5 51 9.5
48 5 R2 37
47 3.5 n2 = 7
54 14
R1 116
n1 = 10
HIPÓTESIS
H inv :M 1> M 2 H 0 :M 1≤ M 2 H a :M 1> M 2
REGIÓN DE RECHAZO DE H 0 :M 1≤ M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(10
.05
,7 )
= 18 U 1−α = U 0(10
.95
,7 )
= 10 ⋅ 7 − 18 = 52
EXPRESIÓN PARA EL
n1 (n1 + 1)
2
U c = 116 − = 61
2
, El estadístico de prueba U c = 61 cae en la región de rechazo que parte de

U 0(10
.95
,7 )
= 52 . Por ende, la hipótesis nula H 0 :M 1≤ M 2 se rechaza y puede inferirse que
la altura de la nariz es significativamente ( p < 0.05) menor en los cráneos femeninos.
3. Los siguientes de datos de anchura biacromial en neonatos (0-24 horas) fueron

obtenidos durante una investigación (1968-1970) en el Valle de Cholula.
HOMBRES
102 117 111 104 121 100 115 112
122 100 109 105 120 114
MUJERES
105 111 110 103 110 116 105 112
105 115 109 93 110 105 90 105
63
Con una significancia de α = 0.05 , ¿es posible inferir que existen diferencias por sexo
en la anchura biacromial de estas poblaciones?
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
Pero como no sabemos si hay distribución normal en ambas poblaciones, las hipótesis
también podrían ser:
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
Por ende, primero hay que comprobar eso con ayuda de la prueba de Shapiro-Wilks
para saber qué prueba aplicar:
HOMBRES: ESTADÍSTICOS DE ORDEN.

X (1) = 100 X (2 ) = 100 X (3 ) = 102 X (4 ) = 104 X (5 ) = 105
X (6 ) = 109 X (7 ) = 111 X (8 ) = 112 X (9 ) = 114 X (10 ) = 115
X (11) = 117 X (12 ) = 120 X (13 ) = 121 X (14 ) = 122
n = 14 h=
14
=7
DATOS x = 110.86 s = 7.72 s 2 = 59.60 (par) 2
⎡ h ⎤
a (X (n − j +1) − X ( j ) )⎥
1
2 ⎢∑ j , n
PRUEBA Wc (n − 1)s ⎣ j =1 ⎦
2
1 ⎡7 ⎤
Wc = a (X (14− j ) − X ( j ) )⎥
2 ⎢∑ j , n
(13)s ⎣ j =1 ⎦
⎡0.5251(122 − 100 ) + 0.3318(121 − 100 ) + 0.2460(120 − 102 ) ⎤

2
1 ⎢
Wc = + 0.1802(117 − 104 ) + 0.1240(115 − 105) + 0.0727(114 − 109 )⎥⎥
2 ⎢
(13)s ⎢
⎣+ 0.0240(112 − 111) ⎥⎦
Wc =
1
[724.58] Wc =
724.58
= 0.935
(13)59.60 774.80
EXPRESIÓN PARA
HIPÓTESIS
CONTRASTAR
64

hipótesis nula no se rechaza y se infiere que, en la población masculina de la cual
procede esta muestra, la variable anchura biacromial tiene una distribución normal.
MUJERES: ESTADÍSTICOS DE ORDEN.

X (1) = 90 X (2 ) = 93 X (3) = 103 X (4 ) = 105
X (5 ) = 105 X (6 ) = 105 X (7 ) = 105 X (8 ) = 105
X (9 ) = 109 X (10 ) = 110 X (11) = 110 X (12 ) = 110
X (13 ) = 111 X (14 ) = 112 X (15 ) = 115 X (16 ) = 116
n = 16 h=
16
=8
DATOS x = 106.5 s=7 s 2 = 49 (par) 2
⎡ h ⎤
1
⎢ ∑ a ( X − X )⎥
PRUEBA Wc (n − 1)s 2 ⎣ j =1 j , n ( n − j +1 ) ( j )
⎦
2
1 ⎡8 ⎤
Wc = ⎢ ∑ a ( X − X )⎥
(15)s 2 ⎣ j =1 j , n (16 − j ) ( j )
⎦
⎡0.5056(116 − 90) + 0.3290(115 − 93) + 0.2521(112 − 103)

2
⎤
1 ⎢
Wc = + 0.1939(111 − 105) + 0.1447(110 − 105) + 0.1005(110 − 105)⎥⎥
2 ⎢
(15)s ⎢
⎣+ 0.0593(110 − 105) + 0.0196(109 − 105) ⎥⎦
Wc =
1
[646.01] Wc =
646.01
= 0.879
(15)49 735
EXPRESIÓN PARA
HIPÓTESIS
CONTRASTAR
, El estadístico de prueba Wc = 0.879 es menor a W016.05 = 0.887 . Por tal motivo, la
hipótesis nula se rechaza y se infiere que, en la población fenemina de la cual
procede esta muestra, la variable anchura biacromial no tiene una distribución normal.
Como una de las poblaciones no cumple con el requisito de distribución normal, la

opción para compararlas es la prueba U de Mann-Whitney.
65

X (1) = 100 3.5 X (1) = 90 1
X (2 ) = 100 3.5 X (2 ) = 93 2
X (3 ) = 102 5 X (3) = 103 6
X (4 ) = 104 7 X (4 ) = 105 10.5
X (5 ) = 105 10.5 X (5 ) = 105 10.5
X (6 ) = 109 14.5 X (6 ) = 105 10.5
X (7 ) = 111 19.5 X (7 ) = 105 10.5
X (8 ) = 112 21.5 X (8 ) = 105 10.5
X (9 ) = 114 23 X (9 ) = 109 14.5
X (10 ) = 115 24.5 X (10 ) = 110 17
X (11) = 117 27 X (11) = 110 17
X (12 ) = 120 28 X (12 ) = 110 17
X (13 ) = 121 29 X (13 ) = 111 19.5
X (14 ) = 122 30 X (14 ) = 112 21.5
R1 246.5 X (15 ) = 115 24.5
n1 = 14 X (16 ) = 116 26
R2 218.5
n 2 = 16
HIPÓTESIS
H inv :M 1≠ M 2 H 0 :M 1= M 2 H a :M 1≠ M 2
REGIÓN DE RECHAZO DE H 0 :M 1= M 2
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(14 ,16 )
.025 = 65 U 1−α (14 ,16 )
= U 0.975 = 14 ⋅ 16 − 65 = 159
2 2
EXPRESIÓN PARA EL
n1 (n1 + 1)
2
U c = 246.5 − = 141.5
2
66
, El estadístico de prueba U c = 141.5 no es menor a U 0(14 ,16 )

.025 = 65 , ni mayor a
U 0(14 ,16 )
.975 = 159 . Por ende, está fuera de las regiones de rechazo y la hipótesis nula
H 0 :M 1= M 2 no se rechaza. De esta forma puede inferirse que no existe diferencia

sexual significativa ( p > 0.05) entre la anchura biacromial de neonatos del Valle de
Cholula.
67
Esquema para inferir sobre la comparación de dos medias

poblacionales
H 0 :µ 1= µ 2 vs. H a :µ 1≠ µ 2
H 0 :µ 1≥ µ 2 vs. H a :µ 1< µ 2
H 0 :µ 1≤ µ 2 vs. H a :µ 1> µ 2
⎡ 1 1 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n −2 ) ⋅ Sp
1 2
+ ⎥
⎣ 2 n1 n2 ⎦
PRUEBA
¿La población DE ¿ H0 :σ = σ ? 2
1
2
2
tiene distribución LEVEANE
normal?
x1 − x2
tc =
1 1
Sp +
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ t1(−nα+ n − 2 ) ⋅
1 2
+ ⎥
⎣⎢ n1 n 2 ⎥⎦
2
x1 − x 2
tc =
s12 s 22
+
n1 n2
⎡ s12 s 22 ⎤
µ1 − µ 2 ∈ ⎢ x1 − x 2 ∓ Z 1−α ⋅ + ⎥
⎣⎢ n1 n2 ⎦⎥
2
¿Ambas muestras
son mayores
a 20?
x1 − x 2
Zc =
s12 s 22
+
n1 n2
PRUEBA NO PARAMÉTRICA
U de Mann-Whitney
68
COMPARACIÓN DE DOS MUESTRAS PAREADAS
Cuando en una muestra de individuos de tamaño n se mide una característica dos

veces o de dos lados, se dice que se obtienen dos MUESTRAS PAREADAS, siendo
X 1 , X 2 , X 3 ,..., X n los datos de la primera medición y Y1 , Y2 , Y3 ,..., Yn 4 los datos de la
segunda, cuyas respectivas medias poblacionales son µ x y µ y .
A. MUESTRAS PAREADAS DE POBLACIÓN CON DISTRIBUCIÓN NORMAL
A.1) INTERVALO DE CONFIANZA
La expresión para encontrar el intervalo de confianza para la diferencia µ x − µ y es:
EXPRESIÓN PARA ENCONTRAR UN

INTERVALO AL (1 − α ) POR CIENTO DE
⎛ Sd ⎞
CONFIANZA PARA µ x − µ y CUANDO LA µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
⎝ 2 n⎠
POBLACIÓN TIENE DISTRIBUCIÓN
NORMAL
Y sus resultados se interpretan de la siguiente forma:

Valores negativos µx < µy
Valores positivos µx > µy
Valores negativos y positivos µx = µy
A.2) CONTRASTE DE HIPÓTESIS
Con el afán de comparar las muestras pareadas, las hipótesis que pueden
plantearse son:

HIPÓTESIS NULA
H inv :µ x ≠ µ y H 0 :µ x = µ y H a :µ x ≠ µ y
H inv :µ x < µ y H 0 :µ x ≥ µ y H a :µ x < µ y
H inv :µ x > µ y H 0 :µ x ≤ µ y H a :µ x > µ y
Según sea el caso y de acuerdo a la significancia α , la región de rechazo para

la hipótesis nula H 0 será:
4
Debe observarse que el tamaño n de ambas muestras tiene que ser igual.
69
HIPÓTESIS
H inv :µ 1≠ µ 2 H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
PRUEBA
BILATERAL O
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− t1(−nα−1) t1(−nα−1)
2 2
H inv :µ 1< µ 2 H 0 :µ 1≥ µ 2 H a :µ 1< µ 2
REGIÓN DE
1-α
RECHAZO DE
H0 α
PRUEBA − t1(−nα−1)
UNILATERAL
O DE UNA
COLA H inv :µ 1> µ 2 H 0 :µ 1≤ µ 2 H a :µ 1> µ 2
1−α
REGIÓN DE 1-α
RECHAZO DE
α
H0
t1(−nα−1)
Como en otras poblaciones con distribución normal, el valor en donde inicia la

región de rechazo se obtiene en las tablas para la distribución t mediante las
expresiones t1(−nα−1) o t1(−nα−1) , de acuerdo al tipo de prueba, la significancia y sección
2
en que se encuentra la región de rechazo.
1. Teniendo las muestras pareadas de tamaño n , obtener la diferencia d i de

cada par xi − y i : [(d1 = x1 − y1 ), (d 2 = x2 − y 2 ), (d 3 = x3 − y3 ),..., (d n = xn − y n )]
2. Ingresar los resultados en la calculadora como datos y obtener la media d de
las diferencias d i y su desviación estándar Sd .
3. Hecho esto, calcular el estadístico de prueba:
EXPRESIÓN DEL ESTADÍSTICO DE PRUEBA t c PARA LA d

tc =
DIFERENCIA DE MUESTRAS PAREADAS DE UNA Sd
POBLACIÓN CON DISTRIBUCIÓN NORMAL. n
que tiene una distribución t de student con n − 1 grados de libertad.
70

A.3) EJEMPLOS DE APLICACIÓN
1. Los siguientes datos corresponden a la estatura estimada a partir de la longitud

del fémur izquierdo y derecho de restos óseos masculinos de la Cueva de La
Candelaria.
ESTATURA A PARTIR DE FÉMUR DERECHO

1648 1614 1657 1616 1618 1616 1597 1591
1597 1640 1595 1580 1603 1646 1700
ESTATURA A PARTIR DE FÉMUR IZQUIERDO
1614 1676 1719 1655 1657 1704 1659 1644
1680 1655 1635 1621 1599 1593 1657
a) Con una significancia de α = 0.05 , ¿es posible inferir que la estatura estimada a
partir de la longitud del fémur izquierdo es mayor que la estimada con el derecho?.
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPÓTESIS
H inv :µ x < µ y H 0 :µ x ≥ µ y H a :µ x < µ y
DERECHO X i IZQUIERDO Yi DIFERENCIA d i = X i − Yi

X 1 = 1648 Y1 = 1614 d1 = (1648 − 1614 ) = 34
X 2 = 1614 Y2 = 1646 d 2 = (1614 − 1646) = −62
X 3 = 1657 Y3 = 1719 d 3 = (1657 − 1719) = −62
X 4 = 1616 Y4 = 1655 d 4 = (1616 − 1655) = −39
X 5 = 1618 Y5 = 1657 d 5 = (1618 − 1657 ) = −39
X 6 = 1616 Y6 = 1704 d 6 = (1616 − 1704 ) = −88
X 7 = 1597 Y7 = 1659 d 7 = (1597 − 1659) = −62
X 8 = 1591 Y8 = 1644 d 8 = (1591 − 1644 ) = −53
X 9 = 1597 Y9 = 1680 d 9 = (1597 − 1680) = −83
X 10 = 1640 Y10 = 1655 d10 = (1640 − 1655) = −15
X 11 = 1595 Y11 = 1635 d11 = (1595 − 1635) = −40
X 12 = 1580 Y12 = 1621 d12 = (1580 − 1621) = −41
X 13 = 1603 Y13 = 1599 d13 = (1603 − 1599) = 4
X 14 = 1646 Y14 = 1593 d14 = (1646 − 1593) = 53
X 15 = 1700 Y15 = 1657 d15 = (1700 − 1657 ) = 43
DATOS d = −30 Sd = 44.60 n = 15
71
REGIÓN DE RECHAZO DE H 0 :µ x ≥ µ y
α = 0.05 − t1(−nα−1) = −t1(−150−.051) = −t 0(14
.95 = −1.7613
)
d
Sd
n
− 30
44.60
15
a) , Como el estadístico de prueba t c = −2.61 cae en la región de rechazo que inicia
.95 = −1.7613 , la hipótesis nula H 0 :µ x ≥ µ y se rechaza y puede inferirse que la

en − t 0(14 )
estatura estimada a partir de la longitud del fémur izquierdo es significativamente

( p < 0.05) mayor que la estimada con el derecho.
CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
( n −1)
VALOR DE t1−α (n − 1)g.l. = (15 − 1) = 14 g.l. t1(−nα−1) = t .14975 = 2.1448
2 2
⎛ 44.60 ⎞
APLICACIÓN µ x − µ y ∈ ⎜ − 30 ∓ 2.1448 ⋅ ⎟ = (− 54.70,−5.30)
⎝ 15 ⎠
INTERPRETACIÓN Valores negativos µx < µy
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur izquierdo es mayor que la media de la estatura estimada con el
derecho.
2. Los siguientes datos corresponden también a la estatura estimada a partir de la

longitud del fémur izquierdo y derecho, pero es de restos óseos femeninos de la
Cueva de La Candelaria.
72
ESTATURA A PARTIR DE FÉMUR DERECHO

1538 1569 1557 1504 1580 1510
1573 1617 1510 1563 1549
ESTATURA A PARTIR DE FÉMUR IZQUIERDO
1565 1553 1559 1540 1534 1559
1573 1586 1559 1516 1506
a) Con una significancia de α = 0.05 , ¿es posible inferir también diferencias entre la
estatura estimada dependiendo del fémur que sea utilizado?
b) Construya un intervalo de confianza al 95% para la diferencia de las medias.
HIPÓTESIS
DERECHO X i IZQUIERDO Yi DIFERENCIA d i = X i − Yi

X 1 = 1538 Y1 = 1565 d1 = (1538 − 1565) = −27
X 2 = 1569 Y2 = 1553 d 2 = (1569 − 1553) = 16
X 3 = 1557 Y3 = 1559 d 3 = (1557 − 1559) = −2
X 4 = 1504 Y4 = 1540 d 4 = (1504 − 1540 ) = −36
X 5 = 1580 Y5 = 1534 d 5 = (1580 − 1534 ) = 46
X 6 = 1510 Y6 = 1559 d 6 = (1510 − 1559) = −49
X 7 = 1573 Y7 = 1573 d 7 = (1573 − 1573) = 0
X 8 = 1617 Y8 = 1586 d 8 = (1617 − 1586) = 31
X 9 = 1510 Y9 = 1559 d 9 = (1510 − 1559) = −49
X 10 = 1563 Y10 = 1516 d10 = (1563 − 1516) = 47
X 11 = 1549 Y11 = 1506 d11 = (1549 − 1506 ) = 43
DATOS d = 1.82 Sd = 37.66 n = 11
REGIÓN DE RECHAZO DE H 0 :µ x = µ y
α = 0.05 t1(−nα−1) = t1(−110−.025

1)
= t 0(10
.975 = 2.2281
)
2
d
Sd
n
1.82
CÁLCULO DEL tc = = 0.16
37.66
11
73
a) , Como el estadístico de prueba t c = 0.16 está fuera de las dos regiones de

rechazo, la hipótesis nula H 0 :µ x = µ y no se rechaza y puede inferirse que, sin
importar qué fémur se ocupe (a diferencia de los hombres), la estatura estimada es
significativamente ( p > 0.05) igual en las mujeres.
CONFIABILIDAD
1 − α = 0.95 α = 0.05 α = 0.025 1−α = 0.975
2 2
EXPRESIÓN ⎛ Sd ⎞
µ x − µ y ∈ ⎜ d ∓ t1(−nα−1) ⋅ ⎟
PARA INTERVALO ⎝ 2 n⎠
2 2
⎛ 3766 ⎞
APLICACIÓN µ x − µ y ∈ ⎜1.82 ∓ 2.2281 ⋅ ⎟ = (− 23.48,27.12)
⎝ 11 ⎠
Valores negativo y positivo µx = µy
INTERPRETACIÓN
(incluye al cero)
b) , Con un 95% de confianza es posible inferir que la media de la estatura estimada
a partir del fémur derecho es igual que la media de la estatura estimada con el
izquierdo.
B. MUESTRAS PAREADAS DE POBLACIÓN SIN DISTRIBUCIÓN NORMAL
Si no es posible asumir distribución normal en las dos mediciones, la alternativa es

aplicar una versión de la prueba de Wilcoxon para comparar las muestras pareadas.
B.1) TEORÍA
Al igual que en la versión que vimos con anterioridad, en esta prueba hay que calcular
las diferencias d i de los datos, pero en vez de restar al dato un valor hipotético, los
valores se restan entre ellos (como en la prueba para poblaciones con distribución
normal): xi − y i : [(d 1 = x1 − y1 ), (d 2 = x 2 − y 2 ), (d 3 = x3 − y 3 ),..., (d n = x n − y n )].
Una vez que se tiene esto, tal y como lo hicimos en la prueba de Wilcoxon, hay que
obtener el valor absoluto d i de cada d i , marcando si su origen fue positivo o
negativo y eliminando las diferencias que sean igual a cero del total de n .
Xi Yi d i = ( X i − Yi ) d i signo
X1 Y1 d1 = ( X 1 − X 1 )
X2 Y2 d 2 = (X 2 − X 2 )
74
X3 Y3 d3 = (X 3 − X 3 )
(...) (...) (...)
Xn Yn d n = (X n − X n )
Como en la prueba normal de Wilcoxon, son esas diferencias en valor absoluto a las
que se asigna un rango:

d i ordenados
Dependiendo si el d i del que provienen era positivo o negativo, los rangos de cada
d i se distinguen para obtener los siguientes datos:
DATOS
T+ Suma de los valores de los rangos de d i que provienen de d i positivo
T− Suma de los valores de los rangos de d i que provienen de d i negativo.

T∗ Valor menor entre T + y T − .
Ahora bien, De acuerdo al tipo de hipótesis nula H o es que se utilizará una de estas
T y se le comparará con una T de las tablas de Wilcoxon.
TIPO DE HIPÓTESIS H o H 0 :µ x = µ y H 0 :µ x ≥ µ y H 0 :µ x ≤ µ y
n
Tα Tαn Tαn
2
T DE TABLAS Donde n es el número total de d i ≠ 0
CORRESPONDIENTE PARA
ESTADÍSTICO DE PRUEBA y
α o α 2 es el valor de la significancia
En todos los casos, si la T de los datos es menor o igual a la T de tablas, la hipótesis

nula H o se rechaza. En otras palabras:

H 0 :µ x = µ y T ∗ ≤ Tαn
2
H 0 :µ x ≤ µ y −
T ≤ Tα n
H 0 :µ x ≥ µ y T + ≤ Tαn
B.2) EJEMPLOS DE APLICACIÓN
1. En un estudio realizado en hombres de 12 a 16 años por la NHCS se registró,

primero, la estatura que los sujetos afirmaban tener (reportadas) y, después, la que se
75
obtuvo por medición. Suponiendo que esta población no tiene distribución normal y
con una significancia de α = 0.05 , ¿es posible afirmar que existen diferencias entre la
estatura reportada y la medida?
HIPÓTESIS
Reportadas X i Medidas Yi d i = ( X i − Yi ) d i signo

X 1 = 68 Y1 = 67.9 d1 = (68 − 67.9 ) = 0.1 0.1+
X 2 = 71 Y2 = 69.9 d 2 = (71 − 69.9) = 1.1 1.1+
X 3 = 63 Y3 = 64.9 d 3 = (63 − 64.9 ) = −1.9 1.9-
X 4 = 70 Y4 = 68.3 d 4 = (70 − 68.3) = 1.7 1.7+
X 5 = 71 Y5 = 70.3 d 5 = (71 − 70.3) = 0.7 0.7+
X 6 = 60 Y6 = 60.6 d 6 = (60 − 60.6) = −0.6 0.6-
X 7 = 65 Y7 = 64.5 d 7 = (65 − 64.5) = 0.5 0.5+
X 8 = 64 Y8 = 67 d 8 = (64 − 67 ) = −3.0 3.0-
X 9 = 54 Y9 = 55.6 d 9 = (54 − 55.6) = −1.6 1.6-
X 10 = 63 Y10 = 74.2 d10 = (63 − 74.2) = −11.2 11.2-
X 11 = 66 Y11 = 65 d11 = (66 − 65) = 1 1+
X 12 = 72 Y12 = 70.8 d12 = (72 − 70.8) = 1.2 1.2+

d i ordenados
0.1+ 0.1+ 1 1 1
1.1+ 0.5+ 2 2 2
1.9- 0.6- 3 3 3
1.7+ 0.7+ 4 4 4
0.7+ 1+ 5 5 5
0.6- 1.1+ 6 6 6
0.5+ 1.2+ 7 7 7
3.0- 1.6- 8 8 8
1.6- 1.7+ 9 9 9
11.2- 1.9- 10 10 10
1+ 3.0- 11 11 11
1.2+ 11.2- 12 12 12
DATOS
+
T = 34 −
T = 44 T ∗ {34,44} = 34 n = 12
TIPO DE HIPÓTESIS
H 0 :µ x = µ y
Ho
76
T DE TABLAS
CORRESPONDIENTE Tαn
PARA ESTADÍSTICO 2
DE PRUEBA
EXPRESIÓN PARA
CONTRASTE DE T ∗ ≤ Tαn
2
HIPÓTESIS
VALORES FINALES Tαn = T012.025 = 14
A CONTRASTAR T ∗ = 34 2
, Para este caso, el valor de T ∗ = 34 no es menor a la T de tablas T012.025 = 14 , motivo

por el cual la hipótesis nula H 0 :µ x = µ y no se rechaza y puede inferirse que no
existen diferencias significativas ( p > 0.05) entre la estatura reportada y la medida en
esta investigación.
COMPARACIÓN DE MÁS DE DOS MEDIAS POBLACIONALES
Cuando lo que se necesita es comparar más de dos poblaciones, veremos que lo

primero que debe hacerse es una prueba para averiguar si sus medias poblacionales
son iguales. En caso de que no, se aplica otro contraste de hipótesis para distinguir las
que son diferentes.
A. POBLACIONES CON DISTRIBUCIÓN NORMAL
1) PRUEBA ANOVA
Como sus siglas en inglés lo dicen (Analysis Of Variance), la prueba ANOVA consiste
en comparar la varianza que se da entre poblaciones con la que se da dentro de cada
población.
Con tal fin, lo primero que debe hacerse es organizar los datos de las k muestras
(aquí estipulados con dos subíndices, el primero de la muestra de la cual proviene X i
y el segundo del número de dato X j ) y obtener los siguientes datos:
MUESTRA X i
k 1 2 3 … K
X 11 X 21 X 31 … X k1
X 12 X 22 X 32 … X k2
DATO
Xj X 13 X 23 X 33 … X k3
… … … … …
X 1k X 2k X 3k … X knk
TOTALES n n n n
T1 = ∑ X 1 j T2 = ∑ X 2 j T3 = ∑ X 3 j … Tk = ∑ X kj
Ti i =1 i =1 i =1 i =1
TAMAÑO
n1 n2 n3 … n nk
MUESTRA
n = n1 + n2 + n3 + ... + nk
77
Como podemos ver, n es aquí igual al número total de elementos de todas las
muestras y cada total Ti es igual a la suma de los datos de cada muestra.
Si bien obtener estos datos es relativamente sencillo, faltan aún dos datos que se
necesitarán para el estadístico de prueba:
DATOS GENERALES
Valor que es igual al de la suma de los totales de cada muestra
∑∑ X ij
(∑ )
Ti y que puede obtenerse ingresando en el modo estadístico
de la calculadora todos los datos y apretando la tecla ∑x.
Valor que se obtiene igual que el anterior pero mediante la tecla
∑∑ X 2
ij
∑ x2 .
Es la desviación estándar que obtiene la calculadora de todos los
s
datos ingresados.
a) Hipótesis nula, estadístico de prueba y región de rechazo
Como las medias de las k poblaciones son µ1 , µ 2 , µ 3 ,..., µ k , las hipótesis a
contrastar son:

H 0 : µ1 = µ 2 = µ 3 = ... = µ k H a : Al menos una µ i es diferente
El punto es que, debido a la naturaleza de esta prueba, el estadístico para el

contraste de hipótesis es más complejo que en pruebas anteriores, pues se
construye a partir de la siguiente tabla de análisis de varianza:
TABLA DE ANÁLISIS DE VARIANZA

Grados Cuadrados
Fuente de Estadístico
de Suma de cuadrados medios
variabilidad de prueba
libertad (varianza)
T 2 (∑ ∑ X ij )
2
Entre
(k − 1)
k SC e
SCt = ∑ i − CM e =
muestras (k − 1) CM e
i =1 ni n Fc =
Dentro de
muestras
(n − k ) SC d = SC t − SC e CM d =
SCd
(n − k )
CM d
Total (n − 1) SCt = ∑ ∑ X ij
2
−
(∑ ∑ X )
ij
2
Definamos cómo establecer los términos de algunas expresiones y su desarrollo:

DATOS CÁLCULO
(k − 1) Se obtiene restando
muestras/poblaciones.
uno al número de
(n − 1) Se calcula restando uno al número total de elementos

de todas las muestras.
(n − k ) Se obtiene restando (n − 1) - (k − 1)
k
Ti 2 Cada total Ti de muestra se eleva al
∑ cuadrado y se divide entre su tamaño
Ti 2 (∑∑ X ij ) i =1 ni
2
k
muestral.
SCt = ∑ − …esos resultados se suman y a ello se le resta…
i =1 ni n
(∑∑ X ij )2 El valor obtenido con la tecla x, ∑
n elevado al cuadrado y dividido entre la n
78
⎡ (∑ x )2 ⎤
total: ⎢ ⎥.
⎢⎣ n ⎥⎦
Si bien esta dato puede obtenerse en la calculadora
restando al valor de ∑
x 2 el valor de ∑
x , elevado al
(∑ ∑ X ) 2 ⎡ (∑ x) ⎤
2
SCt = ∑ ∑ X ij
2
− ij
cuadrado y dividido entre la n total: ⎢∑ x −
2
⎥,
n ⎢⎣ n ⎥
⎦
es más fácil calcularlo con la siguiente expresión:
SC t = (n − 1)s 2 5.
Como se ve en la tabla, los cuadrados medios entre
CM e =
SCe
CM d =
SCd muestras y dentro de ellas son fáciles de calcular, pues
(k − 1) (n − k ) simplemente se divide su respectiva suma de
cuadrados entre sus grados de libertad.
CM e Finalmente, el estadístico de prueba se obtiene
Fc = dividiendo los cuadrados medios entre muestras entre
CM d los cuadrados medios dentro de las muestras.
Este estadístico de prueba tiene una distribución F de Fisher, por lo cual el valor
de inicio de la región de rechazo para la hipótesis nula se encuentra mediante la
expresión F1(−kα−1,n − k ) , donde los grados de libertad son (k − 1) en el numerador y
(n − k ) en el denominador.
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = ... = µ k
F1(−kα−1,n − k )
Cuando en la prueba ANOVA se ha rechazado la hipótesis nula de que todas las

medias poblacionales son iguales (H 0 : µ1 = µ 2 = µ 3 = ... = µ k ) , existen varias
pruebas de contraste múltiple que se aplican a posteriori para encontrar las
medias que difieren; por ejemplo, la prueba de Sheffé, la de Duncan, de Bon
Ferroni y la de Tukey, que veremos a continuación.
2) PRUEBA DE TUKEY
Como ya se dijo, esta es una prueba post-hoc de contraste múltiple en la cual se va

comparando parejas de medias poblacionales.
a) Hipótesis nula estadístico de prueba y rechazo.
5
Porque s =
2
∑∑ SC t .
79
Teniendo k poblaciones, se establece una hipótesis nula y su alternativa para ir

comparando parejas hasta contrastarlas todas:

H 0 : µi = µ j H a : µi ≠ µ j
Esto implica que el número de pruebas a realizar es igual a la combinación de

k C 2 , por ejemplo:

H 0 : µ1 = µ 2 H a : µ1 ≠ µ 2
H 0 : µ1 = µ 3 H 0 : µ1 ≠ µ 3
H 0 : µ1 = µ k H 0 : µ1 ≠ µ k
Al usarse una prueba post-hoc, el contraste de estas hipótesis depende de un
estadístico de prueba de DIFERENCIAS VERDADERAMENTE
SIGNIFICATIVAS, llamado DVS c , el cual depende de un dato de la prueba
ANOVA:

ESTADÍSTICO DE PRUEBA DVS c EN CM d
DVS c = qα ,k ,n − k
POBLACIONES CON DISTRIBUCIÓN n*
NORMAL
Donde qα ,k ,n − k es un dato que se halla en las tablas de Tukey o de “Puntos

porcentuales del rango corregido de Student para 2 a 20 tratamientos”, donde la
significancia α son los puntos superiores [(α = 0.05 = 5% ), (α = 0.01 = 1% )] , k
son el número de muestras/poblaciones y (n − k ) los grados de libertad que
encontramos dentro de las muestras en la prueba ANOVA.
Por su parte CM d son también los varianzas (cuadrados medios) dentro de las
muestras (o el número de elementos totales menos el número de poblaciones) y
n * es el valor mínimo entre los dos tamaños de muestra comparadas
( {
n* = mínimo ni , n j . })
Si el valor del DVS c es mayor a la diferencia absoluta de las medias de las dos
muestras comparadas, la hipótesis nula se rechaza. Es decir:
H 0 : µi = µ j Se rechaza si X i − X j > DVS c
Por último, la forma más metódica de comprobar esto es organizando los datos
en una tabla como la que se muestra a continuación:
H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c
H 0 : µi = µ j (n* = mínimo{n , n })i j Xi − X j qα , k , n − k

CM d
= DVS c </>
n*
80
1. Los siguientes datos corresponden, en una escala del 0 al 10, a la

autopercepción de discriminación en 3 grupos de personas de edad mayor.
Suponiendo distribución normal en todas las poblaciones y con una significancia de
α = 0.05 , ¿es posible afirmar que la percepción de discriminación es diferente según
el grupo de edad?
60-64 AÑOS
7 2 1 8 5 5 1 8 5 3 5
70-74 AÑOS
9 9 5 5 2 10 7
80-84 AÑOS
6 6 10 5 6 10 4 8 1 8

H 0 : µ1 = µ 2 = µ 3 H a : Al menos una µ i es diferente
Organicemos los datos:
MUESTRA X i
k =3 1. 60-64 AÑOS 2. 70-74 AÑOS 3. 80-84 AÑOS
7 9 6
2 9 6
1 5 10
8 5 5
DATO 5 2 6
Xj 5 10 10
1 7 4
8 8
5 1
3 8
5
TOTALES
T1 = 50 T2 = 47 T3 = 64
Ti
TAMAÑO n3 = 10
n1 = 11 n2 = 7
MUESTRA
n = 11 + 7 + 10 = 28
DATOS GENERALES
∑∑ X ij = 161 ∑∑ X 2
ij = 1135 s = 2.78
Y calculemos el estadístico de prueba:
81

Fuente de Cuadrados
Grados de Estadístico
variabilida Suma de cuadrados medios
libertad de prueba
d (varianza)
50 2 47 2 64 2
SC e = + + 26.69
CM e =
Entre
muestras
(3 − 1) = 2 2
11 7 10
2
161
− = 26.69 = 13.35 Fc =
13.35
28 7.28
181.98 = 1.83
SC d = 208.67 − 26.69 CM d =
Dentro de
muestras
(27 − 2) = 25 25
= 181.98 = 7.28
SC t = (28 − 1)2.78 2
Total (28 − 1) = 27
= 208.67
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3
α = 0.05 05 = F0.95
F1−( 20,.25 ) ( 2 , 25 )
= 3.39
, El estadístico de prueba Fc = 1.83 está fuera de la región de rechazo que inicia en

F0(.95
2 , 25 )
= 3.39 . Por tal motivo, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 no se rechaza y
puede afirmarse que no existen diferencias en la percepción de discriminación entre
estos grupos de personas de edad mayor.
2. Los siguientes valores corresponden al diámetro transverso máximo de
cráneos de hombres egipcios de distintas épocas. Si los cambios en la forma de la
cabeza a lo largo del tiempo sugieren mestizaje, suponiendo distribución normal en las
poblaciones y con una significancia de α = 0.05 , ¿es posible comprobar que hubo
mestizaje en estas poblaciones?
4000 a.C.
131 138 125 129 132 135 132
1850 a.C.
129 134 136 137 137 129 136 138 134
150 d.C.
128 138 136 139 141 142 145 137

MUESTRA X i
k =3 1. 4000 a.C. 2. 1850 a.C. 3. 150 d.C.
DATO 131 129 128
82
Xj 138 134 138

125 136 136
129 137 139
132 137 141
135 129 142
132 136 145
138 137
134
TOTALES
T1 = 922 T2 = 1210 T3 = 1106
Ti
TAMAÑO n3 = 8
n1 = 7 n2 = 9
MUESTRA
n = 7 + 9 + 8 = 24
DATOS GENERALES
∑∑ X ij = 3238 ∑∑ X 2
ij = 437396 s = 4.83

Fuente de Cuadrados
Grados de Estadístico
variabilida Suma de cuadrados medios
libertad de prueba
d (varianza)
922 2 1210 2 1106 2
SC e = + + 162.68
7 9 8 CM e =
Entre
muestras
(3 − 1) = 2 3238 2
2
− = 162.68 = 81.34 81.34
24 Fc =
17.80
373.88 = 4.57
CM d =
Dentro de (23 − 2) = 21 SC d = 536 . 56 − 162 . 68 25
muestras = 373.88 = 17.80
(24 − 1) = 23 SC t = (24 − 1)4.83 2

Total
= 536.56
α = 0.05 05 = F0.95
F1(−20,.25 ) ( 2 , 21)
= 3.47
, El estadístico de prueba Fc = 4.57 cae en la región de rechazo que inicia en

F0(.95
2 , 21)
= 3.47 . Por tal motivo, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 se rechaza y puede
afirmarse que existen diferencias entre las medias del diámetro transverso máximo de
los cráneos de estas tres poblaciones y que hubo mestizaje.
83
Por tal motivo, para distinguir qué medias son diferentes es necesario aplicar la prueba
de Tukey. Establezcamos primero los datos que obtuvimos de las muestras:
TOTAL TAMAÑO DE
MUESTRA MEDIA MUESTRAL
Ti MUESTRA
1. 4000 a.C. T1 = 922 n1 = 7 X 1 = 922 = 131.71
7
2. 1850 a.C. T2 = 1210 n2 = 9 X 2 = 1210 = 134.44
9
3. 150 d.C. T3 = 1106 n3 = 8 X 3 = 1106 = 138.25
8
k =3 n = 24
Y ahora el valor constante que tendrá el coeficiente para calcular el DVS c :
VALOR DE COEFICIENTE qα ,k ,n − k
α = 0.05 = 5% k =3 (n − k ) = (24 − 3) = 21 qα ,k ,n − k = q 0.05,3, 21 = 3.58
Ahora contrastemos las hipótesis necesarias:
H 0 : µi = µ j
HIPÓTESIS n* Xi − X j DVS c se rechaza si
X i − X j > DVS c
n* = {7,9} = 7
17.80
H 0 : µ1 = µ 2 131.71 − 134.44 = 2.73 3.58 = 5.71 2.73 < 5.71
7
n* = {7,8} = 7
17.80
H 0 : µ1 = µ 3 131.71 − 138.25 = 6.54 3.58 = 5.71 6.54 > 5.71
7
n* = {9,8} = 8
17.80
H 0 : µ2 = µ3 134.44 − 138.25 = 3.81 3.58 = 5.34 3.81 < 5.34
8
, Al contrario de las hipótesis H 0 : µ1 = µ 2 y H 0 : µ 2 = µ 3 , la hipótesis nula H 0 : µ1 = µ 3 sí se
rechaza, por lo cual existe una diferencia significativa ( p < 0.05) entre las medias de la primera
y la tercera población. Ello indica que no pueden percibirse cambios entre poblaciones
continuas, pero sí entre la población más antigua y la más reciente.
B. POBLACIONES SIN DISTRIBUCIÓN NORMAL
1) PRUEBA DE KRUSKAL-WALLIS
Cuando el supuesto de normalidad no se cumple en al menos una de las poblaciones,

ésta es la alternativa a la prueba ANOVA.
a) Hipótesis nula, estadístico de prueba y región de rechazo
Igual que en la prueba ANOVA, las hipótesis a contrastar son:

H 0 : µ1 = µ 2 = µ 3 = ... = µ k H a : Al menos una µ i es diferente
84
Empero, el estadístico de prueba aquí es mucho más sencillo, pues para su

cálculo requiere tan sólo de los tamaños muestrales (ni ) , el número total de
elementos (n ) y los rangos asignados a todos los datos como si fueran una sola
muestra (Ri ) :
EXPRESIÓN PARA CALCULAR

EL ESTADÍSTICO DE PRUEBA 12 ⎛ R12 R22 R32 Rk2 ⎞
Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
H c EN POBLACIONES SIN n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
DISTRIBUCIÓN NORMAL
Como este estadístico de prueba tiene una distribución ji-cuadrada, el valor de

inicio de la región de rechazo de la hipótesis nula se encuentra en las respectivas
tablas mediante la expresión χ 12−(αk −1) , donde (k − 1) son los grados de libertad:
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = ... = µ k
χ 12−(αk −1)
Dado el caso que la hipótesis nula se rechace en esta prueba y haya que distinguir
qué medias difieren, la prueba para comparar medias poblacionales por parejas es la
U de Mann-Whitney.
2) PRUEBA U DE MANN-WHITNEY
Si bien la prueba U de Mann-Whitney se aplica exactamente igual a como lo vimos en

el tema de “Comparación de 2 medias poblacionales”, lo único que es importante
mencionar es que las hipótesis son sobre medias y que los rangos deben asignarse
cada vez para que se compare una pareja de muestras. Veremos de cualquier forma
un ejemplo.
1. Los siguientes datos corresponden al grado de las heridas en la cabeza que se

registraron en 4 categorías de automóviles:
Sub-compacto 681 428 917 898

Compacto 643 655 442 514 525
Mediano 469 727 525 454 259
Grande 384 656 602 687
Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible inferir diferencias en el grado de las heridas respecto al tipo de
automóvil?
85

H 0 : µ1 = µ 2 = µ 3 = µ 4 H a : Al menos una µ i es diferente
Saquemos entonces los datos necesarios:
Subcom. Rango Compacto Rango Mediano Rango Grande Rango

681 14 643 11 469 6 384 2
428 3 655 12 727 16 656 13
917 18 442 4 525 8.5 602 10
898 17 514 7 454 5 687 15
525 8.5 259 1
R1 52 R2 42.5 R3 36.5 R4 40
n1 4 n2 5 n3 5 n4 4
k=4 n = 4 + 5 + 5 + 4 = 18
EXPRESIÓN PARA
CALCULAR EL
ESTADÍSTICO DE
12 ⎛ R12 R22 R32 Rk2 ⎞
PRUEBA H c EN Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
POBLACIONES SIN
DISTRIBUCIÓN
NORMAL
⎛ 52 2 42.5 2 36.5 2 40 2 ⎞
⎟ − 3(18 + 1) = 2.78
12
APLICACIÓN Hc = ⎜ + + +
18(18 + 1) ⎜⎝ 4 5 5 4 ⎟⎠
REGIÓN DE RECHAZO DE H 0 : µ1 = µ 2 = µ 3 = µ 4
α = 0.05 χ 12−(αk −1) = χ12−(04.−051) = χ 02.(953 ) = 7.815
, El estadístico de prueba H c = 2.78 está fuera de la región de rechazo que inicia

en χ 02.(953 ) = 7.815 ; por ende, la hipótesis nula H 0 : µ1 = µ 2 = µ 3 = µ 4 no se rechaza y
puede inferirse que no existen diferencias significativas ( p > 0.05) en las heridas en
la cabeza que se registran en distintos tipos de automóviles.
2. En un grupo de hombres con lesiones cerebrales se hizo un estudio de

síntomas de fatiga, evaluando sus niveles con la escala de Zung (un instrumento para
medir depresión). Teniendo tres muestras: una muestra de hombres con fatiga, otra
sin fatiga y una de control (todos de la misma edad), se registraron los siguientes
resultados:
MUESTRA CON LESIÓN CEREBRAL Y FATIGA

46 61 51 36 51 45 54
51 69 54 51 38 64
86
MUESTRA CON LESIÓN CEREBRAL SIN FATIGA

39 44 58 29 40 48 65 41 46
MUESTRA CONTROL
36 34 41 29 31 26 33
Suponiendo que las poblaciones no tienen distribución normal; con una significancia
α = 0.05 ¿es posible afirmar que esta poblaciones muestran diferencias de acuerdo a
la escala de Zung?

LC c/fatiga Rango LC s/fatiga Rango Control Rango

46 16.5 39 10 36 7.5
61 26 44 14 34 6
51 20.5 58 25 41 12.5
36 7.5 29 2.5 29 2.5
51 20.5 40 11 31 4
45 15 48 18 26 1
54 23.5 65 28 33 5
51 20.5 41 12.5
69 29 46 16.5
54 23.5
51 20.5
38 9
64 27
R1 259 R2 137.5 R3 38.5
n1 13 n2 9 n3 7
k =3 n = 13 + 9 + 7 = 29
EXPRESIÓN PARA
CALCULAR EL
ESTADÍSTICO DE
12 ⎛ R12 R22 R32 Rk2 ⎞
PRUEBA H c EN Hc = ⎜ + + + ... + ⎟ − 3(n + 1)
n(n + 1) ⎜⎝ n1 n 2 n3 n k ⎟⎠
POBLACIONES SIN
DISTRIBUCIÓN
NORMAL
⎛ 259 2 137.5 2 38.5 2 ⎞
⎟⎟ − 3(29 + 1) = 13.07
12
APLICACIÓN Hc = ⎜ + +
29(29 + 1) ⎜⎝ 13 9 7 ⎠
α = 0.05 χ 12−(αk −1) = χ 12−(03.−051) = χ 02.(952 ) = 5.991
87
, El estadístico de prueba H c = 13.07 cae en la región de rechazo que inicia en

χ 02.(952 ) = 5.991 ; por tal motivo la hipótesis nula H 0 : µ1 = µ 2 = µ 3 se rechaza y puede
inferirse que existen diferencias significativas ( p < 0.05) en los resultados de los
grupos de acuerdo a la escala de Zung.
Para encontrar qué medias difieren, apliquemos la prueba U de Mann-Whitney. En ella

los datos serán acomodados ascendentemente para facilitar la asignación de rangos.
HIPÓTESIS
H 0 :µ 1= µ 2 H a :µ 1≠ µ 2
LC C/FATIGA RANGO LC S/FATIGA RANGO

36 2 29 1
38 3 39 4
45 8 40 5
46 9.5 41 6
51 13.5 44 7
51 13.5 46 9.5
51 13.5 48 11
51 13.5 58 18
54 16.5 65 21
54 16.5 R2 82.5
61 19 n2 9
64 20
69 22
R1 170.5
n1 13
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,9 )
.05 = 34 U 1−α = U 0(13 ,9 )
.95 = 13 ⋅ 9 − 34 = 83
EXPRESIÓN PARA EL
n1 (n1 + 1)
2
U c = 170.5 − = 79.5
2
88
, El estadístico de prueba U c = 79.5 está fuera de la región de rechazo. Por ende, la

hipótesis nula H 0 :µ 1= µ 2 no se rechaza y puede inferirse que no existen diferencias
significativas ( p > 0.05) entre las dos poblaciones con lesiones cerebrales.
HIPÓTESIS
H 0 :µ 1= µ 3 H a :µ 1≠ µ 3
LC C/FATIGA RANGO CONTROL RANGO

36 6.5 26 1
38 8 29 2
45 10 31 3
46 11 33 4
51 13.5 34 5
51 13.5 36 6.5
51 13.5 41 9
51 13.5 R2 30.5
54 16.5 n2 7
54 16.5
61 18
64 19
69 20
R1 179.5
n1 13
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(13 ,7 )
.05 = 25 U 1−α = U 0(13 ,7 )
.95 = 13 ⋅ 7 − 25 = 66
EXPRESIÓN PARA EL
n1 (n1 + 1)
2
U c = 179.5 − = 88.5
2
89
, El estadístico de prueba U c = 88.5 cae en la región de rechazo. Por ende, la

hipótesis nula H 0 :µ 1= µ 3 se rechaza y puede inferirse que, según la escala de Zung,
existen diferencias significativas ( p < 0.05) entre los hombres con lesión cerebral que
sufren fatiga y la muestra control.
HIPÓTESIS
H 0 :µ 2 = µ 3 H a :µ 2 ≠ µ 3
LC S/FATIGA RANGO CONTROL RANGO

29 2.5 26 1
39 8 29 2.5
40 9 31 4
41 10.5 33 5
44 12.5 34 6
44 12.5 36 7
58 14 41 10.5
65 15 R2 36
68 16 n2 7
R1 100
n1 9
REGIÓN DE RECHAZO DE H 0 :µ 2 = µ 3
α = 0.05 1 − α = 0.95
( n1 , n2 ) ( n1 , n2 )
Uα = U 0(9.05,7 ) = 16 U 1−α = U 0(9.95,7 ) = 9 ⋅ 7 − 16 = 47
EXPRESIÓN PARA EL
n1 (n1 + 1)
2
U c = 100 − = 55
2
90
, El estadístico de prueba U c = 55 cae en la región de rechazo. Por ende, la

hipótesis nula H 0 :µ 2 = µ 3 se rechaza y también puede inferirse que, según la escala
de Zung, existen diferencias significativas ( p < 0.05) entre los hombres con lesión
cerebral que no tienen fatiga y la muestra control.
, De esta forma podemos comprobar que, de acuerdo a la escala de Zung, no existen

diferencias entre los hombres con lesiones cerebrales que manifiestan fatiga y los que
no, pero estas dos poblaciones si son diferentes a los hombres que no poseen
ninguna lesión cerebral.
COMPARACIÓN DE PROPORCIONES POBLACIONALES
A. COMPARACIÓN DE DOS PROPORCIONES POBLACIONALES
A.1) FUNDAMENTOS
Como en ocasiones anteriores, los siguientes métodos sirven para comparar una
variable cualitativa, pero que ahora se presenta en dos poblaciones (N 1 , N 2 ) ,
obteniendo proporciones p1 =
M1 y p2 =
M2 que buscan compararse.
N1 N2
A.2) CONDICIONES PARA SU COMPARACIÓN
Se puede aplicar una prueba de hipótesis para comparar 2 proporciones poblacionales

siempre y cuando —acorde al Teorema Central de Límite— las muestras y sus
proporciones cumplan con los siguientes supuestos:
1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5

4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5
Cuando tales condiciones no se cumplen, es necesario tomar una muestra más

grande.
A.3) INTERVALO DE CONFIANZA
La expresión para encontrar el intervalo de confianza para la diferencia de 2

proporciones poblacionales p1 − p 2 es:
EXPRESIÓN PARA
ENCONTRAR UN INTERVALO
AL (1 − α ) POR CIENTO DE
⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
CONFIANZA PARA p1 − p 2 ⎝ 2 n1 n2 ⎠
CUANDO LA POBLACIÓN
91
TIENE DISTRIBUCIÓN
APROXIMADAMENTE
NORMAL ESTÁNDAR
n1 ⋅ p1 + n 2 ⋅ p 2 m1 + m2
DONDE p= =
n1 + n 2 n1 + n 2
Igual que en otras diferencias, los resultados se interpretan de la siguiente forma:

Valores negativos p1 p 2
p1 = p 2
A.4) CONTRASTE DE HIPÓTESIS
a) Hipótesis nulas y su región de rechazo
Al buscarse comparar dos proporciones poblacionales, las hipótesis a contrastar

son:

HIPÓTESIS NULA
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
H inv : p1 p 2 H 0 : p1 ≤ p 2 H a : p1 > p 2
Como dependen de una distribución aproximadamente normal estándar, como

siempre, según sea el caso y de acuerdo a la significancia α , la región de
rechazo para la hipótesis nula H 0 será:
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
PRUEBA
BILATERAL O
COLAS RECHAZO DE
α/2 α/2
1−α H0
2
− Z1−α Z1−α
2 2
PRUEBA H inv : p1 p 2 H 0 : p1 ≤ p 2 H a : p1 > p 2
REGIÓN DE 1-α
RECHAZO DE
α
H0
Z1−α
Por tanto, no hace falta repetir cómo hallar el valor de inicio de la región de
rechazo con base en las tablas de la distribución normal estándar.
1. Comprobar los supuestos de la muestra para verificar la factibilidad de la

prueba.
2. Si tales condiciones se cumplen, explicitar la hipótesis del investigador H inv , la
hipótesis nula H 0 y la hipótesis alternativa H a .
EXPRESIÓN PARA CALCULAR EL pˆ 1 − pˆ 2

Zc =
ESTADÍSTICO DE PRUEBA Z c EN p (1 − p ) p (1 − p )
POBLACIONES CON DISTRIBUCIÓN +
n1 n2
APROXIMADAMENTE NORMAL
ESTÁNDAR
que tiene una distribución aproximadamente normal estándar.
B. COMPARACIÓN DE DOS O MÁS PROPORCIONES POBLACIONALES:

ASOCIACIÓN DE VARIABLES CUALITATIVAS
Una forma de comparar dos o más proporciones poblacionales es la prueba ji-

cuadrada χ 2 ; basada en los resultados de tablas de contingencia (también llamadas
tablas de dos entradas).
93
B.1) CONTRASTE DE HIPÓTESIS

Por ende, para realizar este contraste de hipótesis primero hay que vaciar los datos
que se tienen en una primera tabla de contingencia: la de los datos observados.
DATOS OBSERVADOS Oij

VARIABLE CUALITATIVA ( j )
(Número de elementos) MARGINALES
C S
(con la característica) (sin la característica)
1 O11 = m1 O12 = n1 − m1 n1
VARIABLE 2 O21 = m2 O22 = n2 − m2 n2
CUALITATIVA 3 O31 = m3 O32 = n3 − m3 n3
(i ) (i ) Oi1 = mi Oi 2 = ni − mi ni
k Ok 1 = m k Ok 2 = n k − m k nk
n = n1 + n2 + n3 + ... + nK
MARGINALES C = O11 + O21 + O31 + ... + Ok1 S = O12 + O22 + O32 + ... + Ok 2
n=C+S
Es muy importante calcular el valor de los marginales en cada columna y renglón,

asegurándose que la suma de C + S sea igual al valor de n .
Teniendo los datos marginales, podremos obtener el contenido para la tabla de
contingencia de los datos esperados mediante cualquiera de las siguientes fórmulas:
EXPRESIONES PARA OBTENER EL CONTENIDO DE LA TABLA DE

CONTINGENCIA DE DATOS ESPERADOS
⎛C/S ⎞ ⎛n ⎞
Oij = ni ⎜ ⎟ Oij = C / S ⎜ i ⎟
⎝ n ⎠ ⎝n⎠
Lo cual, por ejemplo, implicaría lo siguiente:
DATOS ESPERADOS eij

VARIABLE CUALITATIVA ( j )
C S
⎛C ⎞ ⎛S⎞
1 e11 = n1 ⎜ ⎟ e12 = n1 ⎜ ⎟ n1
⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
2 e21 = n2 ⎜ ⎟ e22 = n2 ⎜ ⎟ n2
⎝n⎠ ⎝n⎠
VARIABLE
⎛C ⎞ ⎛S⎞
CUALITATIVA 3 e31 = n3 ⎜ ⎟ e32 = n3 ⎜ ⎟ n3
(i ) ⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
(i ) ei1 = ni ⎜ ⎟ ei 2 = n i ⎜ ⎟ ni
⎝n⎠ ⎝n⎠
⎛C ⎞ ⎛S⎞
k ekj = n K ⎜ ⎟ ekj = nk ⎜ ⎟ nk
⎝n⎠ ⎝n⎠
n = n1 + n2 + n3 + ... + nK
MARGINALES C = O11 + O21 + O31 + ... + Ok1 S = O12 + O22 + O32 + ... + Ok 2
n=C+S
94
Y no está de más volver a comprobar que la suma del contenido sea igual a los
marginales. Una vez construida la tabla de contingencia de datos esperados se
estipulan las hipótesis a contrastar y se calcula el estadístico de prueba:

H 0 : No hay asociación H a : Existe asociación
entre las variables. entre las variables.
EXPRESIÓN PARA CALCULAR EL r c (O − eij )

2
χ = ∑∑
2 ij
ESTADÍSTICO DE PRUEBA χ c2 c
i =1 j =1 eij
El cual simplemente consiste en sumar los resultados obtenidos de restar a cada valor
observado su respectivo valor esperado, elevarlo al cuadrado y dividirlo entre el valor
esperado.
Obviamente, tal estadístico de prueba tiene una distribución ji cuadrada con un
número de grados de libertad igual al producto de los renglones de la tabla menos uno
por las columnas de la tabla menos uno: χ 12−[α(r −1)(c −1)] , que con una significancia de
1 − α establece una región de rechazo en la sección superior del eje de las X .
REGIÓN DE RECHAZO DE
H 0 : No hay asociación entre la variable y las poblaciones
1-α
χ 12−[α(r −1)(c −1)]
Como siempre, si la hipótesis nula H 0 : No hay asociación entre la variable y las

poblaciones se rechaza, existe asociación entre las variables de interés. Por tal
motivo, resulta importante averiguar el grado de asociación que existe en ello.
B.2) COEFICIENTE V DE CRAMER
Se trata de una medida que determina la intensidad de asociación entre dos variables
cualitativas. Al ser una prueba que se aplica a posterior a la χ 2 , su cálculo implica la
siguiente expresión:
EXPRESIÓN PARA CALCULAR EL χ c2

Vc =
COEFICIENTE DE CRAMER Vc n(mínimo{r − 1, c − 1})
Donde χ c2 es el estadístico de prueba que calculamos anteriormente, n es la número

de elementos totales que hay en los marginales de las tablas de contingencia y el
mínimo se refiere al valor menor entre los datos por renglón menos uno y los datos de
columna menos uno.
95
El resultado del coeficiente de Cramer Vc puede estar entre 0 y 1 (0 ≤ Vc ≤ 1) , y su

valor se interpreta de la siguiente forma:
Vc ≈ 0 La asociación entre las variables es muy débil.

Vc ≈ 1 La asociación entre las variables es muy fuerte.
C. EJEMPLOS DE APLICACIÓN
1. Se desea establecer si existen diferencias en la proporción de agujeros

auditivos con forma elíptica inclinada que presentan los restos óseos masculinos y
femeninos de la Cueva de la Candelaria. Según los datos del profesor Romano, 37 de
45 hombres presentaron esta característica y 30 de 36 mujeres también. Con una
significancia de α = 0.01 contrastar la hipótesis planteada y construir un intervalo de
confianza al 99% para la diferencia de proporciones.
DATOS GENERALES
n1 = 45 m1 = 37 pˆ 1 = 37 = 0.82 1 − pˆ 1 = 1 − 0.82 = 0.18
45
n 2 = 36 m2 = 30 pˆ 2 = 30 = 0.83 1 − pˆ 1 = 1 − 0.83 = 0.17
36
m1 + m2 37 + 30
p= = = 0.83 1 − p = 1 − 0.83 = 0.17
n1 + n2 45 + 36
Según el procedimiento para el contraste de hipótesis, lo primero que debemos hacer

es comprobar que los supuestos se cumplan:
1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5

45 > 20 37 > 5 45 − 37 = 8 > 5
4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5
36 > 20 30 > 5 36 − 30 = 6 > 5
Comprobado ello, podemos plantear las hipótesis para contrastar:
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
Ahora bien, hay que calcular el estadístico de prueba:
pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.82 − 0.83
Zc = = −0.12
APLICACIÓN 0.83(0.17 ) 0.83(0.17 )
+
45 36
Teniendo ese dato, falta reconocer la significancia α , su valor en tablas y la región de

rechazo que delimita:
96
REGIÓN DE RECHAZO DE H 0 : p1 = p 2
α = 0.01 α = 0.005 1 − α = 0.995 Z 1−α = Z 0.995 = 2.575

2 2 2
Para concluir el contraste de hipótesis resta ubicar el estadístico de prueba Z c con

respecto a esta región de rechazo y concluir:
, El estadístico de prueba Z c = −0.12 está fuera de la región de rechazo, razón por la

cual la hipótesis nula H 0 : p1 = p 2 no se rechaza. Por tanto, no es posible inferir
diferencias significativas ( p > 0.01) entre las proporciones de cráneos masculinos y
femeninos con orificio elíptico inclinado en los restos de la Cueva de La Candelaria.
Para comprobar este resultado hay que construir el intervalo de confianza para la
diferencia de proporciones:
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995
EXPRESIÓN ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
PARA INTERVALO n1 n2
⎝ 2
⎠
VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2
⎛ 0.83(0.17 ) 0.83(0.17 ) ⎞
APLICACIÓN p1 − p 2 ∈ ⎜⎜ 0.82 − 0.83 ∓ 2.575 ⋅ + ⎟ = (− 0.23,0.21)
⎟
⎝ 45 36 ⎠
INTERPRETACIÓN p1 = p 2
, Como el intervalo para la diferencia de proporciones contiene al cero, es posible afirmar con
un 99% de confiabilidad que la proporción de cráneos masculinos y femeninos con el orificio
auditivo elíptico es igual en las poblaciones de la Cueva de La Candelaria.
97
Aún sabiendo que las proporciones de esta característica es igual en estas

poblaciones, aplicaremos la prueba ji-cuadrada para ver su aplicación. Organicemos
entonces los datos observados:

FORMA ORIFICIO AUDITIVO ( j )
ELÍPTICA INCLINADA OTRA
POBLACIÓN 1 O11 = 37 O12 = 45 − 37 = 8 45
(i ) 2 O21 = 30 O22 = 36 − 30 = 6 36
MARGINALES C = 37 + 30 = 67 S = 8 + 6 = 14 67 + 14 = 81 = 45 + 36
Y calculemos los esperados:
DATOS ESPERADOS eij

FORMA ORIFICIO AUDITIVO ( j )
ELÍPTICA INCLINADA OTRA
45
⎛ 67 ⎞ ⎛ 14 ⎞
1 e11 = 45⎜ ⎟ = 37.22 e12 = 45⎜ ⎟ = 7.78 = 37.22 + 7.78
POBLACIÓN ⎝ 81 ⎠ ⎝ 81 ⎠
(i ) 36
⎛ 67 ⎞ ⎛ 14 ⎞
2 e21 = 36⎜ ⎟ = 29.78 e22 = 36⎜ ⎟ = 6.22 = 29.78 + 6.22
⎝ 81 ⎠ ⎝ 81 ⎠
MARGINALES 67 = 37.22 + 29.78 14 = 7.78 + 6.22 81
Teniendo eso, hagamos el contraste de hipótesis:

Calculemos el estadístico de prueba:

2
χ = ∑∑
2 ij
i =1 j =1 eij
APLICACIÓN
χ =
2 (37 − 37.22) 2
+
(8 − 7.78)
2
+
(30 − 29.78)
2
+
(6 − 6.22)
2
= 0.02
c
37.22 7.78 29.78 6.22
Y ubiquemos la región de rechazo para comparar ambos datos:
98
α = 0.01 1 − α = 0.99 χ 12−[0(2.99−1)(2−1)] = χ 12−[10].99 = 6.635
, El estadístico de prueba χ c2 = 0.02 está fuera de la región de rechazo, razón por la

cual la hipótesis nula no se rechaza ( p > 0.01) y se infiere que no hay asociación
entre las variables sexo y forma del orificio auditivo.
Por último, mediante el coeficiente de Cramer comprobamos que esta afirmación sea
significativa:

Vc =
0.02
APLICACIÓN Vc = = 0.02
81(1)
INTERPRETACIÓN Vc ≈ 0
, Siendo el valor del coeficiente de Cramer Vc = 0.02 , confirmamos que la
asociación entre las variables es muy débil, por eso habíamos concluido que no hay
asociación.
2. Se quiere determinar si existen diferencias entre la proporción de alcohólicos
que cometieron delitos relacionados con la piromanía y la proporción de alcohólicos
que realizaron fraudes en 1909. De aquellos convictos por provocar incendios, 50 eran
bebedores y 43 abstemios; mientras tanto, de los que cometieron fraude, 63 eran
bebedores y 144 abstemios. Con una significancia de α = 0.01 contrastar la hipótesis
planteada y construir un intervalo de confianza al 99% para la diferencia de
proporciones.
DATOS GENERALES
n1 = 93 m1 = 50 pˆ 1 = 50 = 0.54 1 − pˆ 1 = 1 − 0.54 = 0.46
93
n 2 = 207 m2 = 63 pˆ 2 = 63 = 0.30 1 − pˆ 1 = 1 − 0.30 = 0.70
207
m1 + m2 50 + 63
p= = = 0.38 1 − p = 1 − 0.38 = 0.62
n1 + n 2 93 + 207
99
1. n1 > 20 2. n1 pˆ 1 = m1 > 5 3. n1 (1 − pˆ 1 ) = n1 − m1 > 5

93 > 20 50 > 5 43 > 5
4. n 2 > 20 5. n 2 pˆ 2 = m2 > 5 6. n 2 (1 − pˆ 2 ) = n 2 − m2 > 5
207 > 20 63 > 5 144 > 5
HIPÓTESIS
H inv : p1 ≠ p 2 H 0 : p1 = p 2 H a : p1 ≠ p 2
pˆ 1 − pˆ 2
EXPRESIÓN PARA EL Zc =
p (1 − p ) p (1 − p )
ESTADÍSTICO DE PRUEBA Z c +
n1 n2
0.54 − 0.30
Zc = = 3.96
APLICACIÓN 0.38(0.62 ) 0.38(0.62 )
+
93 207
REGIÓN DE RECHAZO DE H 0 : p1 = p 2
α = 0.01 α = 0.005 1 − α = 0.995 Z 1−α = Z 0.995 = 2.575

2 2 2
, El estadístico de prueba Z c = 3.96 cae en la región de rechazo, razón por la cual la

hipótesis nula H 0 : p1 = p 2 se rechaza. Por ende, existen diferencias significativas
( p < 0.01) entre las proporciones de alcohólicos que cometieron delitos relacionados
con la piromanía y los que cometieron fraude.
1 − α = 0.99 α = 0.01 α 2 = 0.005 1 − α 2 = 0.995
100
EXPRESIÓN PARA ⎛ p (1 − p ) p (1 − p ) ⎞⎟
p1 − p 2 ∈ ⎜⎜ pˆ 1 − pˆ 2 ∓ Z 1−α ⋅ + ⎟
INTERVALO n1 n2
⎝ 2
⎠
VALOR DE Z 1−α Z 1−α = Z 0.995 = 2.575
2 2
⎛ 0.38(0.62 ) 0.38(0.62 ) ⎞
p1 − p 2 ∈ ⎜⎜ 0.54 − 0.30 ∓ 2.575 ⋅ + ⎟ = (0.08,0.40 )
⎟
⎝ 93 207 ⎠
INTERPRETACIÓN Valores positivos p1 > p 2
, Como el intervalo para la diferencia de proporciones sólo contiene valores
positivos, es posible afirmar con un 99% de confiabilidad que la proporción de
alcohólicos que cometió delitos relacionados con la piromanía es mayor que la
proporción de alcohólicos que cometió fraude.

DELITO ( j )
PIROMANÍA FRAUDE
ESTADO Alcohólico O11 = 50 O12 = 63 113
(i ) Abstemio O21 = 43 O22 = 144 187
MARGINALES C = 50 + 43 = 93 S = 63 + 144 = 207 93 + 207 = 300 = 113 + 187
DATOS ESPERADOS eij

DELITO ( j )
PIROMANÍA FRAUDE
⎛ 93 ⎞ ⎛ 207 ⎞ 113
e11 = 113⎜ ⎟ e12 = 113⎜ ⎟
Alcohólico ⎝ 300 ⎠ ⎝ 300 ⎠ = 35.03 + 77.97
ESTADO = 35.03 = 77.97
(i ) ⎛ 93 ⎞ ⎛ 207 ⎞ 187
e21 = 187⎜ ⎟ e22 = 187⎜ ⎟
Abstemio ⎝ 300 ⎠ ⎝ 300 ⎠ = 57.97 + 129.03
= 57.97 = 129.03
MARGINALES 93 = 35.03 + 57.97 207 = 77.97 + 129.03 300


2
χ = ∑∑
2 ij
i =1 j =1 eij
APLICACIÓN
χ =
2 (50 − 35.03) 2
+
(63 − 77.97 )
2
+
(43 − 57.97 )
2
+
(144 − 129.03)
2
= 14.87
c
35.03 77.97 57.97 129.03
101
α = 0.01 1 − α = 0.99 χ 12−[0(2.99−1)(2−1)] = χ 12−[10].99 = 6.635
, El estadístico de prueba χ c2 = 14.87 cae en la región de rechazo. Debido a ello la

hipótesis nula se rechaza ( p < 0.01) y se infiere que hay asociación entre las
variables estado y delito cometido.

Vc =
14.87
APLICACIÓN Vc = = 0.22
300(1)
INTERPRETACIÓN Vc ≈ 0
, Siendo el valor del coeficiente de Cramer Vc = 0.22 descubrimos que la asociación
entre las variables estado y delito cometido es débil.
102
En todos los problemas realizar la prueba de hipótesis correspondiente y donde sea

pertinente calcular el intervalo de confianza e interpretar todos los resultados. En
donde no se indique utilizar una significancia de 0.05 y una confianza de acuerdo
al valor de significancia.
Los siguientes datos corresponden a una muestra osteológica colonial procedente de un
sitio en azcapotzalco (excavaciones línea 8 del metro).
Diámetro
Inserción
Longitud transverso Longitud Longitud
del
máxima de a la 1/2 de máxima de máxima de
Caso Sexo músculo
fémur la diáfisis la tibia la tibia
dorsal
izquierdo del fémur izquierda derecha
ancho
izquierdo
1 Masculino . 26 . . Ausencia
2 Masculino 390 25 346 339 Ausencia
5 Masculino 425 27 . . Ausencia
6 Masculino 405 24 . 352 Ausencia
9 Masculino 390 23 314 . Ausencia
10 Masculino . 23 . . Ausencia
11 Masculino 428 22 354 . Presencia
12 Masculino 402 25 349 353 Presencia
15 Masculino . 23 345 348 Presencia
16 Masculino 415 25 354 . Presencia
17 Masculino 420 27 . 366 Presencia
19 Femenino 423 25 348 . Ausencia
20 Femenino 410 25 339 335 Ausencia
24 Femenino 373 23 . 299 Ausencia
29 Femenino . 26 . . Ausencia
103

41 Femenino . 21 361 . Ausencia
42 Femenino 413 25 . 343 Presencia
43 Femenino 398 26 . . Presencia
44 Femenino . 25 . . Presencia
48 Femenino . 22 . 310 Presencia
50 Femenino 378 22 323 321 Presencia
51 Femenino 385 24 308 312 Presencia
19.¿Es posible inferir que la longitud máxima de fémur izquierdo es mayor en

hombres? Suponer distribución normal en las dos poblaciones.
20.¿Es diferente el diámetro transverso a la 1/2 de la diáfisis del fémur izquierdo en
hombres respecto al de mujeres? Suponga que no hay distribución normal en las
poblaciones.
21. ¿Existe diferencia entre la longitud máxima de la tibia izquierda y la longitud
máxima de la tibia derecha?
a) Suponga distribución normal en las poblaciones
b) Suponga que no hay distribución normal en las poblaciones
22.¿Existe asociación entre el sexo de los individuos y la inserción del músculo
dorsal ancho?
23.Se diseño un estudio para contrastar la hipótesis de que los hombres tienen
mayor presión sanguínea sistólica que las mujeres. Los datos muestrales son:
Hombres:
76 76 74 70 80 68 90 70
90 72 76 80 68 72 96 80
Mujeres: 76 70 82 90 68 60 62 68
80 74 60 62 72
Presentan estos datos evidencia suficiente que confirme la hipótesis del
investigador? Sea α=0.05.
a) Suponer distribución normal en las poblaciones, para probar la hipótesis.
b) Suponga que no hay distribución normal en las poblaciones.
c) Suponer distribución normal, realizando la inferencia utilizando un intervalo al
90% de confianza para la diferencia de medias poblacionales.
24.En un estudio sobre mujeres otomíes de una cierta comunidad se obtuvo una
muestra para medir la posible asociación entre la proporción de analfabetismo y
el tipo de trabajo que realizan. Se obtuvo que el 11.4% de 44 mujeres obreras
son analfabetas, mientras que 12.8% de 50 mujeres amas de casa son
analfabetas. ¿Proporcionan estos datos evidencias para afirmar que son
diferentes las proporciones de mujeres otomíes de la comunidad analfabetas que
trabajan con respecto a las que son amas de casa?
a) Resolver el problema mediante pruebas de hipótesis. Sea α=0.08
b) Inferir mediante intervalo al 92% de confianza para la diferencia de
proporciones.
104
25. Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas
interesadas en bajar de peso, registrándose el peso de cada persona antes y
después del tratamiento, presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
Con los datos obtenidos ¿se puede afirmar que la dieta es adecuada? Sea α=0.05
a) Resolver suponiendo distribución normal.
b) Resolver suponiendo que no existe distribución normal
26.Un equipo de antropólogos está estudiando el grado de integración cultural de
dos comunidades indígenas, una al sur y otra del norte del país. Uno de los
indicadores empleados en el estudio es la variable aleatoria “número de distintas
palabras en español usadas por cada miembro de la comunidad”; se selecciona
una muestra aleatoria en cada comunidad y se llega a:
Comunidad I (Sur) Comunidad II (Norte)
n1 = 32 x1 = 325 s1 = 60 n2 = 35 x2 = 228 s2 = 30
¿Esta información proporciona evidencia suficiente para afirmar que si hay
elementos de integración cultural en ambas comunidades?
a) Inferir mediante una prueba de hipótesis con α=0.05.
b) Inferir mediante un intervalo al 95% de confianza.
27. Un estudio sobre planificación familiar en una zona del Estado de Hidalgo
realizado por Castilleja y Zavala6 clasifico a una muestra de mujeres de acuerdo
a dos características: uso de anticonceptivos y escolaridad*. Los datos se
presentan en la siguiente tabla:
Escolaridad
Anticoncepción Baja Alta
Usuarias 81 22
Total 114 30
* Escolaridad baja: escolaridad nula, saben leer y escribir y primaria
incompleta. Escolaridad alta: primaria completa y posprimaria.
¿Existe diferencia entre la proporción de usuarias de anticonceptivos en las
poblaciones definidas por la escolaridad?
a) Resolver con prueba de hipótesis. Sea α=0.091
b) Inferir mediante un intervalo al 93% de confianza.
28. Acaban de descubrir dos nuevas zonas arqueológicas geográficamente muy
cercanas entre sí. Como no coinciden del todo las características y la antigüedad
de los restos de ambas zonas, se va a corroborar si se trata de una sola o de dos
diferentes culturas precolombinas: se selecciona una muestra de 15 objetos de
una zona y una muestra de 18 objetos localizados en la segunda zona. Los
resultados del fechamiento en años de los restos son:
6
CASTILLEJA AÍDA y ZAVALA CARLOS (1982) Respuesta al programa nacional de planificación
familiar en el sureste del Estado de Hidalgo: un renglón para la Antropología Física. En II Coloquio de
Antropología Física “Juan Comas”, IIA, UNAM. pp. 501-531
105
Zona I Zona II
x1 = 570 s12
= 1518 x2 = 682 s22 = 1625
¿Con estos datos muestrales puede concluirse que la cultura de la zona II es más
antigua? Suponga distribución normal. Sea α=0.05
29. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Sea α=0.05
a) Suponga distribución normal en las poblaciones.
30. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de Laguna
Verde, tienen un efecto significativo sobre la fauna marina en la región. Se
dividieron al azar cuatro grupos de especimenes recién nacidos de cierta especie
de peces. Se colocaron los grupos en medios ambientes separados que simulan el
océano, completamente idénticos, con excepción de la temperatura del agua.
Seis meses después se pesaron los especimenes. Los resultados (en libras) se dan
en la tabla siguiente: Pesos de los especimenes
38ºF 42ºF 46ºF 50ºF
22 15 14 17
24 21 28 18
16 26 21 13
18 16 19 20
19 25 24 21
17 23
a) Suponga distribución normal en las poblaciones. Sea α=0.01
106
31. En un estudio sobre planificación familiar en el Estado de Hidalgo se aplico una

encuesta para analizar los posibles factores que influyen en el uso de
anticonceptivos. En la siguiente tabla se presentan las frecuencias observadas de
las mujeres encuestadas en relación a su edad y si usan algún método
anticonceptivo
Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-24 41 34
25-24 53 52
35-49 39 58
¿Existe relación entre la edad y el uso de anticonceptivos?
32. En un curso para pilotos se probaron tres métodos de enseñanza: con casetes de
audio, videocasetes y clase en el aula. Se obtuvieron los siguientes resultados en
la prueba final:
Casete de audio 74 88 82 93 55 70
Videocasete 78 80 65 57 89
Clase en aula 68 83 50 91 84 77 94 81 92
¿Existen diferencias entre los puntajes obtenidos en los diferentes métodos? Sea
α=0.05
33. La siguiente tabla se obtuvo de una investigación en restos óseos de la época
colonial en una región de Tlaxcala al cruzar dos patologías observadas:
¿Existe asociación entre las dos variables? Sea α=0.10
Criba Orbitaría Hiperostosis Porótica
Ausencia Presencia
Ausencia 15 11
Presencia 20 32
34. En cierta escuela un grupo de estudiantes ha planteado la posibilidad de que la
cafetería de la institución este a cargo de la comunidad estudiantil. Un profesor
considera que existe asociación en las posiciones de los alumnos respecto a la
licenciatura en la que estudian. Se toma una muestra y se observan los siguientes
resultados:
Licenciatura Posición respecto a la
propuesta
A favor En contra
AF 23 25
AS 17 19
ARQ 20 34
ETH 32 15
ETN 24 30
LIN 12 16
HIS 30 14
¿Qué se puede decir al respecto? Sea α=0.05
107
UNIDAD III
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN LINEAL
ANÁLISIS DE CORRELACIÓN
Cuando se tienen dos variables, la forma más sencilla para comprobar si existe una
relación lineal entre ellas es construyendo un diagrama de dispersión con base en
coordenadas ( X , Y ) . Empero, como veremos a continuación, la estadística cuenta con
estimadores y pruebas más precisas (acordes al tipo y la distribución probabilística de
las variables) para determinar si existe una asociación significativa o no.
A. VARIABLES CUANTITATIVAS CON DISTRIBUCIÓN NORMAL
1) COEFICIENTE DE CORRELACIÓN DE PEARSON
Medida sobre la asociación entre dos variables continuas ( X , Y ) , cuyas expresiones

para calcularlo en poblaciones y muestras son:
PARÁMETRO ESTIMADOR
∑ (xi − µ x )(yi − µ y )
N n
∑ (x i − x )( y i − y )
ρ= i =1
r= i =1
N ⋅σ x ⋅σ y (n − 1) ⋅ s x ⋅ s y
No obstante, para reducir la labor que implica restar a cada dato su media
correspondiente, podemos simplificar la expresión del numerador de este estimador:
• Desarrollamos primero el binomio:

n
∑ (x y
i =1
i i − xi y − x y i + x y )
• Repartimos la sumatoria:
n n n n
∑ x y − ∑ x y − ∑ xy + ∑ xy
i =1
i i
i =1
i
i =1
i
i =1
• Donde las medias son constantes y por ello pueden multiplicar a las sumatorias y
multiplicarse por el tamaño de la muestra:
n n n
∑ xi yi − y ∑ xi − x ∑ yi + nx y
i =1 i =1 i =1

n
∑x y
i =1
i i − y ⋅ nx − x ⋅ ny + nx y
n n
Porque:
∑x i n ∑y i n
x= i =1
⇒ ∑ xi = x ⋅ n y= i =1
⇒ ∑ yi = y ⋅ n
n i =1 n i =1
108
• Y eliminando los términos en común obtenemos:

n
∑x y
i =1
i i − nx y
• Con lo cual la expresión queda así:
EXPRESIÓN PARA CALCULAR EL n

ESTIMADOR DEL COEFICIENTE DE
CORRELACIÓN DE PEARSON PARA
∑x y i i − nx y
r= i =1
VARIABLES CUANTITATIVAS CON (n − 1) ⋅ s x ⋅ s y
DISTRIBUCIÓN NORMAL7.
Imprescindible resulta mencionar que el valor de este coeficiente sólo puede

encontrarse en el rango (− 1 < r < 1) y de acuerdo a ello debe interpretarse:
VALOR DEL COEFICIENTE INTERPRETACIÓN

(r ≈ −1) Existe asociación lineal inversa entre las variables.
(r ≈ 0) No existe asociación entre las variables.
(r ≈ 1) Existe asociación lineal directa entre las variables.
Esta conclusión, sin embargo, no es suficiente; pues en el caso de que haya

asociación entre las variables, falta comprobar que ésta sea estadísticamente
significativa.
2) PRUEBA DE HIPÓTESIS t
Teniendo el estimador del coeficiente de correlación de Pearson (r ) , con esta prueba

se puede definir si su parámetro (ρ ) también es diferente a cero y, por ende, existe
asociación significativa entre las variables. Para ello, se estipulan las siguientes
hipótesis:
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
Las cuales se contrastan mediante el siguiente estadístico de prueba:

ESTADÍSTICO DE PRUEBA SOBRE EL n−2
tc = r
COEFICIENTE DE CORRELACIÓN DE 1− r2
PEARSON.
Como podemos observar, este estadístico de prueba es del tipo t c ; es decir, tiene una
distribución t de student —pero ahora, por ser dos variables, con (n − 2 ) grados de
7
Si bien esta es la forma más sencilla para calcular manualmente el coeficiente de correlación de Pearson,
cabe mencionar que muchas calculadoras científicas lo pueden arrojar directamente al ingresar los datos
de ambas variables en el modo estadístico de regresión lineal; este dato tendrá un valor muy parecido al
que se obtiene haciendo los cálculos manualmente con 4 decimales.
109
libertad— y se compara, como en toda prueba bilateral de esta distribución, con las
regiones de rechazo de la hipótesis nula:
REGIÓN DE 1-α
RECHAZO DE
H0 : ρ = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
B. VARIABLES NO CUANTITATIVAS Y/O SIN DISTRIBUCIÓN NORMAL
Cuando las dos variables son al menos de tipo ordinal y/o no se pueda asumir
distribución normal en ellas, existen alternativas no paramétricas para determinar su
asociación.
1) COEFICIENTE DE CORRELACIÓN DE SPEARMAN (ρ s )
A diferencia del coeficiente de Pearson (y como en muchas pruebas no paramétricas),

el coeficiente de Spearman no se basa en los datos de las variables obtenidas en la
muestra, sino en sus rangos, los cuales se determinan —para cada variable— de la
manera acostumbrada (de menor a mayor, fijando empates para valores iguales); por
ejemplo:
CASO VARIABLE RANGO VARIABLE RANGO

(i ) X Rxi Y Ry i
1 3 Rx1 = 4 4 Ry1 = 4
2 2 Rx 2 = 2.5 1 Ry 2 = 1
3 1 Rx3 = 1 2 Ry 3 = 2
…
n 2 Rx n = 2.5 3 Ry n = 3
Habiendo asignado rangos a los datos de cada variable, debe obtenerse, para cada
caso, la diferencia d i = Rxi − Ry i y elevarse al cuadrado:
CASO VARIABLE RANGO VARIABLE RANGO

d i = Rxi − Ry i d i2
(i ) X Rxi Y Ryi
1 3 Rx1 = 4 4 Ry1 = 4 d1 = 4 − 4 = 0 0
2 2 Rx 2 = 2.5 1 Ry 2 = 1 d 2 = 2 .5 − 1 = 1 .5 2.25
3 1 Rx3 = 1 2 Ry 3 = 2 d 3 = 1 − 2 = −1 1
… … … … … …
n 2 Rx n = 2.5 3 Ry n = 3 d n = 2.5 − 3 = −0.5 0.25
Es esta diferencia absoluta entre los rangos d i2 la que podremos encontrar en la

expresión para calcular el coeficiente de correlación de Spearman:
110
EXPRESIÓN PARA CALCULAR EL n

ESTIMADOR DEL COEFICIENTE DE 6∑ d i2
CORRELACIÓN DE SPEARMAN PARA
rs = 1 − i =1
VARIABLES AL MENOS ORDINALES n(n 2 − 1)
Y/O SIN DISTRIBUCIÓN NORMAL.
El cual se interpreta de la misma forma que el anterior:
VALOR DEL COEFICIENTE INTERPRETACIÓN

(r ≈ −1) Existe asociación lineal inversa entre las variables.
(r ≈ 0) No existe asociación entre las variables.
(r ≈ 1) Existe asociación lineal directa entre las variables.
2) PRUEBAS DE HIPÓTESIS
El coeficiente de correlación de Spearman, al igual que el de Pearson, puede utilizarse

para realizar una prueba sobre la significancia de la asociación con el mismo tipo de
hipótesis que lo igualan o diferencian de cero:
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
Empero, el estadístico de prueba para contrastar estas hipótesis cambia dependiendo

del tamaño de la muestra utilizada:
a) Muestras grandes
Si el tamaño de la muestra sobrepasa los 30 elementos (n > 30 ) , puede

aplicarse el Teorema Central de Límite y usar el siguiente estadístico de
prueba:

ESTADÍSTICO DE PRUEBA SOBRE EL rs
Zc =
COEFICIENTE DE CORRELACIÓN DE (n − 1)
SPEARMAN CUANDO (n > 30 ) .
El cual se distribuye de manera aproximadamente normal estándar y por ello se

le compara con la región de rechazo típica para esta distribución:
REGIÓN DE 1-α
RECHAZO DE
H0 : ρs = 0 α/2 α/2
− Z 1−α Z 1−α
2 2
111
b) Muestras pequeñas
Si el tamaño de la muestra es pequeño (n ≤ 30 ) , en vez de un estadístico de

prueba, es el propio coeficiente de correlación de Spearman el que se compara
con la región de rechazo de la hipótesis nula, determinada por los valores
críticos rs∗ para la prueba que lleva el mismo nombre (y que involucran el
tamaño de la muestra n y la significancia α )
REGIÓN DE
RECHAZO DE
H0 : ρs = 0
α/2 α/2
− rα rα
2 2
Es decir, la hipótesis nula se rechaza si rs < − rα pero también si rs > rα .

2 2
C. EJEMPLOS DE APLICACIÓN
1. Los siguientes datos corresponden las longitudes de húmero y fémur de restos

óseos masculinos de la Cueva de La Candelaria, Coahuila.
HÚMERO FÉMUR
329 444
311 426
297 449
323 427
323 428
290 427
297 417
287 414
333 417
336 440
313 416
322 408
321 420
315 443
309 472
304 466
300 422
Suponiendo distribución normal en estas variables, con una significancia α = 0.05 ¿es
posible afirmar que existe una relación lineal entre la longitud del húmero y del fémur?
112
Hagamos una primera conclusión a partir del diagrama de dispersión correspondiente:
480
470
460
450
Fémur
440
430
420
410
400
280 290 300 310 320 330 340
Húmero
, En esta gráfica podemos observar que no existe una linealidad clara entre las
variables.
Pero es necesario comprobar lo que los sentidos nos dicen con un poco de
estadística. En este primer ejemplo desarrollaremos todos los datos necesarios para
calcular manualmente el coeficiente de correlación; no obstante, el los próximos casos
recurriremos simplemente a los valores obtenidos con ayuda de una calculadora.
HÚMERO FÉMUR X i Yi
329 444 146076
311 426 132486
297 449 133353
323 427 137921
323 428 138244
290 427 123830
297 417 123849
287 414 118818
333 417 138861
336 440 147840
313 416 130208
322 408 131376
321 420 134820
315 443 139545
309 472 145848
304 466 141664
300 422 126600
TOTAL 2291339
DATOS GENERALES
n = 17 x = 312.3529 y = 431.5294 s x = 14.8195 s y = 18.2384
113
EXPRESIÓN DEL n
COEFICIENTE DE ∑x y i i − nx y
CORRELACIÓN r= i =1
DE PEARSON (n − 1) ⋅ s x ⋅ s y
CÁLCULO 2291339 − 17(312.3529 ⋅ 431.5294)
r= = −0.0189
MANUAL (17 − 1)14.8195 ⋅ 18.2384
VALOR EN
r = −0.0190
CALCULADORA
, El signo negativo indica que la asociación entre la longitud del húmero y la del
fémur sería inversa, pero su cercano valor a cero nos da una segunda prueba para
afirmar que la asociación entre estas variables es casi nula.
Finalmente nos resta comprobar que tal afirmación sea significativa.
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ = 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−170.−025

2)
= ∓t 0(15
.975 = ∓2.1315
)
2 2 2
EXPRESIÓN PARA n−2

ESTADÍSTICO DE PRUEBA t c tc = r
1− r2
17 − 2
CÁLCULO DE t c t c = −0.0190 = −0.0736
1 − (− 0.0190)
2
, El estadístico de prueba t c = −0.0736 cae fuera de la región de rechazo delimitada
.975 = ∓2.1315 , razón por la cual la hipótesis nula H 0 : ρ = 0 no se rechaza y

por ∓ t 0(15 )
puede afirmarse que no existe asociación significativa entre la longitud del húmero y la
del fémur en los restos óseos de esta población.
114
2. Los siguientes datos corresponden a la población juvenil masculina de Cholula,

Puebla (recopilados entre 1968-1970).
LONGITUD MIEMBRO SUPERIOR ESTATURA

771 1715
740 1701
743 1652
775 1691
745 1611
722 1620
764 1701
711 1655
756 1734
721 1635
728 1598
727 1635
756 1684
768 1622
735 1674
Suponiendo distribución normal en ambas variables, ¿puede afirmarse que existe

asociación entre la longitud del miembro superior y la estatura con una significancia
α = 0.05 ?
1740
1720
1700
1680
Estatura
1660
1640
1620
1600
1580
710 720 730 740 750 760 770 780
Longitud miembro superior
, Aunque existe dispersión en los datos, puede entre verse una linealidad entre estas
variables y, por ende, una posible asociación.
115
DATOS GENERALES
n = 15 r = 0.5310
, El valor del coeficiente de correlación de Pearson nos indica una asociación lineal
directa considerable.
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025

2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

1− r2
15 − 2
CÁLCULO DE t c t c = 0.5310 = 2.2592
1 − (0.5310)
2
, El estadístico de prueba t c = 2.2592 cae en la región de rechazo delimitada por
.975 = 2.1604 , razón por la cual la hipótesis nula H 0 : ρ = 0 se rechaza y puede

t 0(13 )
afirmarse que había asociación significativa entre la longitud del miembro superior y la
estatura en la población juvenil masculina de Cholula, Puebla.
3. Los siguientes fueron obtenidos también de los restos óseos masculinos de la

Cueva de la Candelaria, pero esta vez son las longitudes de fémur y tibias derechos;
variables que no mostraron distribución normal.
LONGITUD FÉMUR DERECHO LONGITUD TIBIA DERECHA

444 401
426 358
449 417
427 375
428 424
427 392
417 391
414 388
417 394
116
440 361
416 372
408 358
420 358
443 384
472 381
466 388
422 355
419 368
462 351
452 380
454 349
468 405
449 363
442 412
472 366
451 364
438 346
440 361
483 384
451 388
429 353
Con una significancia α = 0.05 , ¿es posible afirmar que existe relación entre ellas?
440
420
Longitud tibia derecha
400
380
360
340
400 420 440 460 480 500
Longitud fémur derecho
, En este diagrama los puntos se ven muy dispersos, por lo que se duda exista una
relación lineal entre las longitudes de estos huesos largos.
117
FÉMUR RANGOS TIBIA RANGOS di d i2

444 10.5 401 25.0 -14.50 210.25
426 4.5 358 24.0 -19.50 380.25
449 2.0 417 22.0 -20.00 400.00
427 4.5 375 26.0 -21.50 462.25
428 15.5 424 9.5 6.00 36.00
427 3.0 392 15.0 -12.00 144.00
417 1.0 391 7.0 -6.00 36.00
414 7.0 388 7.0 .00 .00
417 18.0 394 19.5 -1.50 2.25
440 29.5 361 18.0 11.50 132.25
416 27.0 372 22.0 5.00 25.00
408 8.0 358 5.0 3.00 9.00
420 6.0 358 14.0 -8.00 64.00
443 26.0 384 3.0 23.00 529.00
472 24.0 381 17.0 7.00 49.00
466 25.0 388 2.0 23.00 529.00
422 28.0 355 28.0 .00 .00
419 20.5 368 11.0 9.50 90.25
462 17.0 351 29.0 -12.00 144.00
452 29.5 380 13.0 16.50 272.25
454 22.5 349 12.0 10.50 110.25
468 14.0 405 1.0 13.00 169.00
449 15.5 363 9.5 6.00 36.00
442 31.0 412 19.5 11.50 132.25
472 22.5 366 22.0 .50 .25
451 13.0 364 4.0 9.00 81.00
438 10.5 346 25.0 -14.50 210.25
440 4.5 361 24.0 -19.50 380.25
483 2.0 384 22.0 -20.00 400.00
451 4.5 388 26.0 -21.50 462.25
429 15.5 353 9.5 6.00 36.00
TOTAL 4593.00
DATOS GENERALES
n
n = 31 ∑d
i =1
i
2
= 4593
n
EXPRESIÓN DEL 6∑ d i2
COEFICIENTE DE CORRELACIÓN
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2
6(4593)
rs = 1 − = 0.0740
31(312 − 1)
CÁLCULO
, El valor del coeficiente de correlación de Spearman nos indica una asociación

lineal directa muy débil entre la longitud del fémur y la de la tibia.
118
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ Z 1−α = ∓ Z 1−0.025 = ∓ Z 0.975 = ∓1.96

2 2 2
EXPRESIÓN PARA rs
Zc =
ESTADÍSTICO DE PRUEBA t c (n − 1)
0.0740
CÁLCULO DE t c Zc = = 0.0135
(31 − 1)
, El estadístico de prueba Z c = 0.0135 está fuera de la región de rechazo delimitada

por ∓ Z 0.975 = ∓1.96 . Por tal motivo, la hipótesis nula H 0 : ρ s = 0 no se rechaza y
puede afirmarse que no existe asociación significativa entre la longitud del fémur y la
longitud de la tibia masculinas en la población de la Cueva de Candelaria.
4. Un investigador desea saber si existe relación entre la migración México-EEUU

y el analfabetismo. Para averiguarlo obtiene de los reportes de la CONAPO los
siguientes datos sobre el porcentaje de personas (por entidad federativa —algunas—)
que emigraron hasta el año 2005 y el porcentaje de personas alfabetas mayores de 15
años:
ENTIDAD FEDERATIVA EMIGRANTES (%) ALFABETAS (%)

Aguascalientes 1.3 95.2
Chiapas 0.4 77.1
Distrito Federal 4.2 97.1
Estado de México 6.2 93.6
Guanajuato 8.7 88.0
Guerrero 2.9 78.4
Hidalgo 2.0 85.1
Jalisco 13.4 93.5
Michoacán 10.0 86.1
Oaxaca 2.4 78.5
Puebla 3.2 85.4
Querétaro 1.0 90.2
San Luis Potosí 3.7 88.7
119
Tabasco 0.1 90.3

Veracruz 2.9 85.1
Yucatán 0.5 87.7
Sabiendo que estas variables no poseen distribución normal, grafique el diagrama de

dispersión, determine el coeficiente de correlación y realice una prueba de hipótesis
para averiguar si existe asociación significativa entre las variables ( α = 0.05 ).
100
Porcentaje de alfabetas
90
80
70
0 2 4 6 8 10 12 14
Porcentaje de emigrantes
, En el diagrama no se observa una relación lineal entre las variables emigración-

alfabetismo; de hecho hay una conglomeración relativa de puntos en una zona.
ESTADO EMIGRANTES RANGO ALFABETAS RANGO

Aguascalientes 1.3 5.0 95.2 15.0 5 − 15 = −10 100.00
Chiapas 0.4 2.0 77.1 1.0 2 −1 = 1 1.00
Distrito Federal 4.2 12.0 97.1 16.0 12 − 16 = −4 16.00
Estado de
México
6.2 13.0 93.6 14.0 13 − 14 = −1 1.00
Guanajuato 8.7 14.0 88.0 9.0 14 − 9 = 5 25.00
Guerrero 2.9 8.5 78.4 2.0 8 .5 − 2 = 6 .5 42.25
Hidalgo 2.0 6.0 85.1 4.5 6 − 4.5 = 1.5 2.25
Jalisco 13.4 16.0 93.5 13.0 16 − 13 = 3 9.00
Michoacán 10.0 15.0 86.1 7.0 15 − 7 = 8 64.00
Oaxaca 2.4 7.0 78.5 3.0 7−3 = 4 16.00
Puebla 3.2 10.0 85.4 6.0 10 − 6 = 4 16.00
Querétaro 1.0 4.0 90.2 11.0 4 − 11 = −7 49.00
San Luis Potosí 3.7 11.0 88.7 10.0 11 − 10 = 1 1.00
Tabasco 0.1 1.0 90.3 12.0 1 − 12 = −11 121.00
Veracruz 2.9 8.5 85.1 4.5 8 .5 − 4 .5 = 4 16.00
Yucatán 0.5 3.0 87.7 8.0 3 − 8 = −5 25.00
TOTAL 504.50
120
DATOS GENERALES
n
n = 16 ∑d
i =1
i
2
= 504.50
n
rs = 1 − i =1
DE SPEARMAN. n(n − 1) 2
6(504.50 )
rs = 1 − = 0.2581
CÁLCULO
(
16 16 2 − 1 )
lineal directa muy débil entre la emigración y el alfabetismo.
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs
α = 0.05 α = 0.025 ∓ r016.025 = ∓0.5000 rs = 0.2581

2
, El valor del coeficiente de correlación de Spearman rs = 0.2581 está fuera de la

región de rechazo delimitada por ∓ r016.025 = ∓0.5000 , por lo que la hipótesis nula
H 0 : ρ s = 0 no se rechaza y puede afirmarse que no hay asociación significativa entre
la emigración y el alfabetismo; por ende, tampoco con el analfabetismo.
5. Un estudio realizado en diferentes comunidades recabo datos sobre la

concentración de fluoruro (partículas por millón) en el suministro del agua de la
población y también investigó el número de dientes con caries, faltas u obturados
(CFO) que había por cada cien niños Los siguientes valores, empero, no son los datos
obtenidos, sino el rango obtenido por cada comunidad para cada variable.
FLUORURO 1 3 4 9 8 7 10 6 5 2
CFO 8 9 7 3 2 4 1 5 6 10
Compruebe si existe una relación lineal entre la concentración de fluoruro y los dientes
CFO en estas comunidades (α = 0.05) .
121
12
10
Dientes CFO 6
0
0 2 4 6 8 10 12
Concentración de fluoruro
, En la gráfica se observa una clara relación lineal entre la concentración de fluoruro

en el agua y la presencia de dientes CFO. Exceptuando algunos casos, se ve que
mientras crece la concentración de fluoruro, decrece la presencia de dientes CFO.
RANGOS CONCENTRACIÓN
RANGOS DIENTES CFO
FLUORURO
8 1 8 −1 = 7 49
9 3 9−3= 6 36
7 4 7−4=3 9
3 9 3 − 9 = −6 36
2 8 2 − 8 = −6 36
4 7 4 − 7 = −3 9
1 10 1 − 10 = −9 81
5 6 5 − 6 = −1 1
6 5 6−5 =1 1
10 2 10 − 2 = 8 64
TOTAL 322
DATOS GENERALES
n
n = 10 ∑d
i =1
i
2
= 322
n
rs = 1 − i =1
DE SPEARMAN. n(n 2 − 1)
6(322)
rs = 1 − = −0.9515
CÁLCULO
(
10 10 2 − 1 )
lineal inversa muy fuerte entre el número de dientes CFO y la concentración de
fluoruro en el suministro de agua.
122
HIPÓTESIS
H0 : ρs = 0 H a : ρs ≠ 0
REGIÓN DE RECHAZO DE H 0 : ρ s = 0 Y UBICACIÓN DEL COEFICIENTE rs
α = 0.05 α = 0.025 ∓ r010.025 = ∓0.6364 rs = −0.9515

2
, El valor del coeficiente de correlación de Spearman rs = −0.9515 cae en la región

de rechazo delimitada por − r010.025 = −0.6364 , por lo que la hipótesis nula H 0 : ρ s = 0
se rechaza y puede afirmarse que hay relación inversa significativa entre la
concentración del fluoruro en el agua y la presencia de dientes con CFO en estas
poblaciones. Es decir, a mayor fluoruro tiene el agua, menos dientes con caries,
faltantes u obturados presentan los infantes.
ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
En contraste con la correlación lineal —procedimiento para hallar la existencia e

intensidad de una asociación entre dos variables—, el análisis de regresión lineal
consiste en aplicar una serie de técnicas para encontrar si hay causalidad entre ellas;
es decir, si el valor de una variable (Y ) depende y puede explicarse a partir de otra
variable ( X ) , que se postula como independiente.
26
A. FUNDAMENTOS
24
La regresión es un método que permite 22
encontrar relaciones lineales entre las

Y
variables de un fenómeno. Por ende, 20

primero debemos revisar cómo, a partir
de una serie de datos (como los a 18
continuación que se grafican) podemos
encontrar la recta que los define: 16
12 14 16 18 20 22
Se toman dos coordenadas [(x1 , y1 ), (x 2 , y 2 )]

y 2 − y1
Se calcula la pendiente m=
x 2 − x1
Teniendo ese valor y el de un punto, se puede
y − y1 = m( x − x1 )
aplicar la ecuación punto-pendiente
Que se desarrolla de la siguiente forma y − y1 = mx − mx1
123
Como el objetivo es encontrar la ordenada al

origen; es decir, el valor de Y cuando X es igual a y = y1 + mx − mx1
cero, despejamos Y
y = y1 + m(0 ) − mx1
Y damos a X el valor de cero
Por lo que el valor de la ordenada al origen (b ) es b = y1 − mx1

Y teniendo esos valores podemos establecer la y = mx + b
ecuación de la recta
También denotada por la expresión y = a + bx
26
24
Como podemos ver, cuando la relación
entre dos variables es clara y constante,
modelos basados en la forma y = a + bx
22
Y
son de gran utilidad para expresar y
20
describir con precisión su asociación.
18
16
12 14 16 18 20 22
Los datos de fenómenos relacionados al

ser humano, empero, no son tan fáciles de
trabajar, ya que la diversidad y variabilidad
bio-psico-socio-cultural que estos reflejan
impide hallar una ecuación concreta que
generalice sus resultados.
Echando mano de la probabilidad, la

estadística se arriesga entonces a suponer
que la mejor recta para describir un
fenómeno de este tipo es la que une las
medias de los valores posibles de Y para
( )
cada X i µ y x ; sin dejar de reconocer
como error en este modelo la desviación
que cada dato Yi pueda tener con
respecto a la recta µ y x .
De esta forma, para su análisis, la

estadística no sólo se apropia de los
modelos de regresión lineal y les cambia
124
las letras con que se denota a la ordenada al origen (b, a ⇒ β 0 ) y a la pendiente

(m, b ⇒ β1 ) , sino también los adapta para manifestar el nivel de incertidumbre o error
(e ) presente en ellos:
MODELO TEÓRICO DE REGRESIÓN y = β 0 + β1 x + e
LINEAL SIMPLE EN ESTADÍSTICA
B. AJUSTE DEL MODELO DE REGRESIÓN LINEAL SIMPLE
Conociendo la forma del modelo de regresión lineal que la estadística utiliza para
describir la relación entre dos variables, es ahora necesario saber cómo ajustarlo; es
decir, cómo partiendo de los datos X i , Yi de una muestra de tamaño n , calcular la
ordenada al origen y la pendiente de la recta, logrando que los errores ei del modelo
sean mínimos (razón por la cual ocuparemos el procedimiento de mínimos cuadrados).
• Para hallar los valores β 0 y β 1 , tomamos un punto ( X i , Yi ) :

y i = β 0 + β 1 x i + ei
• Y despejamos lo que nos importa: el error

ei = y i − β 0 − β 1 x i
• Que en una muestra de tamaño n esperamos su suma de cuadrados sea

mínima; lo cual depende de β 0 y β 1 .
n n
ei2 = ( y i − β 0 − β 1 xi ) ∑ ei2 = ∑ ( yi − β 0 − β1 xi )
2 2
i =1 i =1
n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2
i =1
• Por lo cual hay que encontrar la forma en que esta función sea mínima. El punto
es que, al haber dos variables, mantendremos a la vez una constante; esto es,
haremos derivadas parciales de la función.
Empecemos por derivar la función respecto a β 0 :

n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2
i =1
df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− 1)
dβ 0 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
• Y al igualar a cero, β 0 y β 1 se convierten en estimadores βˆ0 , βˆ1 que son los ( )

valores donde la función es mínima:
2∑ ( y i − βˆ0 − βˆ1 xi )(− 1) = 0

n
i =1
125
• Sinteticemos ahora lo ajeno a la sumatoria y despejémosla:
− 2∑ ( y i − βˆ0 − βˆ1 xi ) = 0
n
i =1
∑ (y − βˆ 0 − βˆ1 xi ) = 0
n
i =1
i −2
Como 0 =0
#
∑ (y − βˆ0 − βˆ1 xi ) = 0
n
i
i =1
• Ahora repartamos la sumatoria:

n n n
∑ yi − ∑ βˆ0 − ∑ βˆ1 xi = 0
i =1 i =1 i =1
• Expresión que también puede denotarse como:

ny − nβˆ 0 − βˆ1 nx = 0
n n
Porque
∑ yi n ∑x i n
∑ C = nC
y= i =1
⇒ ∑ y i = yn x= i =1
⇒ ∑ xi = x n
n i =1 n i =1
• Y al dividir eso entre n resulta:

ny nβˆ 0 βˆ1 nx
− − =0 y − βˆ0 − βˆ1 x = 0
n n n
• Ecuación de la cual ya podemos despejar βˆ0 :

βˆ0 = y − βˆ1 x
Ahora bien, resta hacer lo mismo con β 1 :
• Derivamos la función respecto a β 1 :

n
f (β 0 , β 1 ) = ∑ ( y i − β 0 − β 1 x i )
2
i =1
df (β 0 , β 1 ) n
= 2∑ ( y i − β 0 − β 1 xi )(− xi )
dβ 1 i =1
d [ f ( x )]
n
= n[ f ( x )] ⋅ f ( x )
n −1
Porque
dx
• Igualamos a cero:
2∑ ( y i − βˆ0 − βˆ1 xi )(− xi ) = 0

n
i =1
126
• Desarrollamos y despejamos la sumatoria:
( )
n
− 2∑ xi y i − βˆ0 xi − βˆ1 xi2 = 0
i =1
∑ (x y )
n
− βˆ0 xi − βˆ1 xi2 = 0
i =1
i i −2
• Ahora la repartimos y liberamos a las constantes:

n n n
∑ xi yi − ∑ βˆ0 xi − ∑ βˆ1 xi2 = 0

i =1 i =1 i =1
n n n
∑ xi yi − βˆ0 ∑ xi − βˆ1 ∑ xi2 = 0

i =1 i =1 i =1
• Despejemos el término que incluye a β̂ 1 :

n n n
βˆ1 ∑ xi2 = ∑ xi y i − βˆ0 ∑ xi
i =1 i =1 i =1
• Que puede denotarse como:
βˆ1 ∑ xi2 = ∑ xi y i − ( y − βˆ1 x )(nx )

n n
i =1 i =1
n
Porque βˆ0 = y − βˆ1 x ∑x i n

x= i =1
⇒ ∑ xi = x n
n i =1
• Lo cual se desarrolla de la siguiente manera:

n n
βˆ1 ∑ xi2 = ∑ xi y i − nx y + βˆ1 nx 2
i =1 i =1
• Así que queda otro término con β̂1 por despejar:

n n
βˆ1 ∑ xi2 − βˆ1 nx 2 = ∑ xi y i − nx y
i =1 i =1
• Lo cual se puede simplificar como:

⎛ n
⎞ n
βˆ1 ⎜ ∑ xi2 − nx 2 ⎟ = ∑ xi y i − nx y
⎝ i =1 ⎠ i =1
• Y a partir de ello despejar completamente el término β̂ 1 :
127
∑x y i i − nx y
βˆ1 = i =1
n
∑x
i =1
2
i − nx 2
Puede decirse entonces que, para encontrar el modelo de regresión lineal

y i = β 0 + β 1 xi + ei que mejor se ajusta a los datos X i , Yi de una muestra de tamaño
n , basta calcular los estimadores de β 0 y β 1 8 que por mínimos cuadrados se definen
como:

EL ESTIMADOR βˆ0
n

∑x y i i − nx y
βˆ1 = i =1
EL ESTIMADOR β̂ 1 n
∑x
i =1
2
i − nx 2
Si bien ambos datos son fundamentales para construir el modelo de regresión lineal, el
valor de βˆ0 sólo indica el punto donde la recta corta el eje de las Y ; esto es, el valor
de Y cuando X = 0 . Mientras tanto, el valor de β̂ 1 resulta mucho más significativo
para la interpretación ya que, dependiendo de su signo y magnitud, indica el cambio
en la variable Y cuando X cambia una unidad. Por ejemplo:
Si X disminuye una unidad Si X aumenta una unidad

y = βˆ0 + βˆ1 ( x − 1) y = βˆ0 + βˆ1 ( x + 1)
y = βˆ0 + βˆ1 x
y = βˆ0 + βˆ1 x − βˆ1 y = βˆ0 + βˆ1 x + βˆ1
y = βˆ0 − βˆ1 ( x − 1) y = βˆ0 − βˆ1 ( x + 1)
y = βˆ0 − βˆ1 x
y = βˆ0 − βˆ1 x + βˆ1 y = βˆ0 − βˆ1 x − βˆ1
Por tanto:
Si la pendiente es: y X disminuye una unidad: y X aumenta una unidad:

( )
positiva β̂ 1 Y disminuye β̂1 unidades Y aumenta β̂1 unidades
negativa (− β̂ ) 1 Y aumenta β̂ 1 unidades Y disminuye β̂1 unidades
C. CRITERIOS PARA ESTABLECER QUÉ TAN ADECUADO ES EL MODELO.
Más allá de encontrar la ecuación de la recta que se ajuste a los datos, el objetivo
principal de los modelos de regresión lineal es predecir el valor de Y dada una X .
Ante fenómenos aleatorios, la estadística sólo puede estimar; pero antes de hacerlo
8
Igual que en el caso del coeficiente de correlación de Pearson, el valor de la ordenada a la origen y la
pendiente de la recta pueden obtenerse sin hacer manualmente los cálculos, pues son ya muchas las
calculadoras científicas que arrojan sus valores (a,b) al ingresar los datos de la muestra en el modo
estadístico de regresión lineal.
128
debe verificar que el modelo cumpla con cuatro criterios para determinar que en
verdad sea adecuado al describir el fenómeno.
C.1) CRITERIO DEL COEFICIENTE DE CORRELACIÓN LINEAL
Consiste en verificar que exista una asociación lineal significativa entre las dos
variables a través de una prueba de hipótesis. En el caso de variables con distribución
normal, la prueba que en el tema anterior vimos se aplica es la t , basada en el
coeficiente de correlación de Pearson (r ) :
HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
ESTADÍSTICO DE PRUEBA SOBRE EL n−2
tc = r
COEFICIENTE DE CORRELACIÓN DE 1− r2
PEARSON.
REGIÓN DE
RECHAZO DE 1-α
H0 : ρ = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
Si se rechaza H 0 : ρ = 0 , el modelo es adecuado porque

INTERPRETACIÓN
existe una asociación significativa entre las variables.
C.2) CRITERIO DEL COEFICIENTE DE DETERMINACIÓN R 2
Incluso ajustando el modelo de regresión, cuando graficamos los valores estimados

( ŷi ) y los comparamos con los valores reales ( yi ) y su media ( y ) , podremos
encontrar algunas discrepancias.
160
150
Media
140
V. estimado estatura
Altura de rodilla
V. real estatura
130 Altura de rodilla
40 42 44 46 48 50
129
La diferencia entre los valores reales y su media es conocida como desviación total
de los valores con respecto a la media, la cual está compuesta por dos
desviaciones más: 1) la que hay entre los valores estimados y la media de los
originales, debida al modelo de regresión, y 2) la que hay entre los valores reales y
los valores estimados, que no justifica el modelo de regresión y es considerada como
error de estimación o residuo. Esto es:
y i − y = yˆ i − y + y i − yˆ i
Desviación no explicada
Desviación total de valores Desviación debida al
por el modelo , Error o
con respecto a la media modelo de regresión lineal.
residuo.
Como hemos venido diciendo, lo que se busca lograr con el modelo de regresión es
que el error al describir el fenómeno sea lo más pequeño posible, motivo por el cual la
suma de residuos (al cuadrado, para evitar signos) debe ser mínima:
n n n
∑ ( y − y ) = ∑ ( yˆ − y ) + ∑ ( y − yˆ )
i =1
i
2
i =1
i
2
i =1
i i
2
Variabilidad debida al
Variabilidad no explicada
Variabilidad total: modelo de regresión
por el modelo:
Suma de cuadrados lineal:
Suma de cuadrados de los
totales (SC t ) Suma de cuadrados de la
errores (SC e )
regresión (SC r )
De ahí partimos para decir que, si no hubiera diferencias entre los valores reales y los
estimados, el error de estimación sería nulo y no existiría una variabilidad inexplicada:
n
y i − yˆ i ≈ 0 ⇒ ∑ ( y i − yˆ i ) ≈ 0
2
i =1
Por lo que la variabilidad total sería igual a la variabilidad debida al modelo de

regresión lineal:
n n
SC t = SC r ⇒ ∑ ( y i − y ) = ∑ ( yˆ i − y )
2 2
i =1 i =1
Y al compararlas (por división), daría un conciente de 1:

n
∑ ( yˆ − y )
2
i
1= i =1
n
∑ (y − y)
2
i
i =1
130
¿Qué pasa, sin embargo, cuando en la práctica existen errores de estimación? Pues
que el cociente de esta comparación es menor a uno, ya que parte de la variabilidad
se debe a los residuales. La estadística define entonces al resultado como coeficiente
( )
de determinación R 2 , cuyo valor está entre cero y uno 0 ≤ R 2 ≤ 1 y al ser ( )
multiplicado por cien revela el porcentaje de la variabilidad de Y que el modelo de
regresión lineal explica.
Si bien su valor puede calcularse a través de la fórmula ya descrita, se ha comprobado
que para obtener el coeficiente de determinación basta con elevar al cuadrado el
coeficiente de correlación:
∑ ( yˆ − y )
2
i
COEFICIENTE DE R2 = i =1
DETERMINACIÓN n R2 = r 2
∑ (y − y)
2
i
i =1
Por último: aunque lo ideal sería que, como vimos, el valor del coeficiente de
determinación fuera o se acercara a 1 (100%), esto pocas veces sucede. Por ende, a
falta de criterios estrictos sobre el valor que debe tener R 2 para considerar al modelo
de regresión lineal adecuado, simplemente hemos de sugerir que rebase el 50%,
justificando que así la mayor parte de la variabilidad de Y se deberá al modelo y no a
lo errores.
C.3) CRITERIOS SOBRE LOS PARÁMETROS DEL MODELO.
En los modelos de tipo y = β 0 + β 1 x + e la variable independiente X se asocia a β 1 .

Debido a eso, si el valor de este parámetro fuera igual o muy parecido a cero (β 1 ≈ 0 ) ,
la variable X desaparecería y y = β 0 , lo cual indicaría que la variable independiente
no afecta ni tiene relación con la variable dependiente; es decir, el modelo de
regresión lineal planteado estaría errado.
A fin de comprobar que éste no sea el caso, debe revisarse que algunos supuestos se
cumplan para poder aplicar dos tipos de pruebas.
C.3.1) Supuestos del modelo clásico de regresión lineal simple
1. Para poder estimar, los valores de la variable independiente deben ser fijos y
los de la dependiente aleatorios. Es decir, para cada dato de X que el
investigador recabe encontrará diversos valores de Y .
2. Los errores ei son independientes. Esto es, el valor de cada uno no depende
del valor de los otros.
Ello puede comprobarse mediante la prueba de Durbin-Watson:
∑ (r − ri − 1 )
2
i
EXPRESIÓN PARA LA PRUEBA DE DW = i=2
DURVIN-WATSON n
∑r
2
i
i=2
Cuyo resultado de se interpreta de la siguiente forma:
VALOR DE DW INTERPRETACIÓN
131
DW ≈ 0 Los errores muestran una autocorrelación perfecta positiva.

DW ≈ 2 Los errores son independientes.
DW ≈ 4 Los errores muestran una autocorrelación perfecta negativa.
3. El valor esperado de cualquier error es cero: E (ei ) = 0 , por ende, basta con
comprobar que la media de los errores sea cero.
4. La varianza de cada error es Var (ei ) = σ 2 ; razón por la cual todos lo errores
tienen la misma varianza (fenómeno denominado homosedasticidad).
5. Los errores tienen distribución normal, al igual que los valores de Y :
(
y i ~ N β 0 , β 1 xi , σ 2 )
El hecho de que los errores tengan una distribución normal, sean independientes,
estén idénticamente distribuidos, tengan media cero y varianza σ 2 , puede resumirse
en unas cuantas siglas: ei ~ NIID 0, σ 2 . ( )
C.3.2) Prueba ANOVA
Prueba fundamentada en el análisis de varianza que postula las siguientes hipótesis:
HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0
Las cuales se contrastan construyendo el siguiente estadístico de prueba:
Grados
Fuente de Cuadrados medios Estadístico
de Suma de cuadrados
variabilidad (varianza) de prueba
libertad
n
∑ ( yˆ − y )
n
SC r = ∑ ( yˆ i − y )
Debida al 2 2
i
modelo de 1
regresión
i =1
CM r = i =1
= SC r
1 CM r
n
Fc =
∑ (y − yˆ i )
n CM e
SC e = ∑ ( y i − yˆ i )
2 2
Inexplicada
(por error)
(n − 2) i =1 CM e = i =1
i
= S y2 x
(n − 2)
n
∑ (y − y)
n
SC t = ∑ ( y i − y )
2 2
Total (n − 1) i =1 CM t = i =1
i
= S y2
(n − 1)
El cual tiene una distribución F de Fisher con 1 grado de libertad en el numerador y
(n − 2) grados de libertad en el denominador y se compara con la correspondiente
región de rechazo cuya confiabilidad es (1 − α ) :
REGIÓN DE RECHAZO DE H 0 : β o = β1 = 0
132
F1(−1α, n − 2 )
Si la hipótesis nula se rechaza se infiere que el modelo de regresión lineal es

adecuado. No obstante, se recomienda realizar la siguiente prueba de hipótesis para
comprobar si la variable X es significativa.
C.3.3) Prueba de la pendiente
Prueba que, para comprobar si la variable independiente explica los valores de la

variable dependiente, plantea las siguientes hipótesis:
HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0
Y les contrasta mediante un estadístico de prueba que tiene una distribución t de

student con (n − 2 ) grados de libertad:
EXPRESIÓN PARA βˆ1

CALCULAR EL tc =
Sy x
ESTADÍSTICO DE
PRUEBA t c (n − 1) ⋅ S x
Los elementos de esta expresión nos son ya conocidos, exceptuando el de S y x , que
junto al resto del denominador conforma un estimador de la desviación estándar de los
valores de Y .
Hagamos entonces una deducción para llegar a la expresión con la que S y x debe
calcularse:
• Basándonos en la prueba ANOVA sabemos que:

n n
∑ ( yi − yˆ i ) ∑ (y − y)
2 2
i
S y2 x = i =1
S y2 = i =1
(n − 2) (n − 1)
• Fórmulas de las cuales despejaremos las sumas de cuadrados para obtener
expresiones que denominaremos como 1 y 2:
1 2
n n
∑ ( yi − yˆ i ) = (n − 2)S y2 x ∑ (y − y ) = (n − 1)S y2
2 2
i
i =1 i =1
• Por otro lado, recordemos que la variabilidad total de Y es igual a la suma de la

variabilidad debida al modelo y la variabilidad no explicada (debida a los errores).
133
n n n
∑ ( yi − y ) = ∑ ( yˆ i − y ) + ∑ ( yi − yˆ i )
2 2 2
i =1 i =1 i =1
• Para determinar la variabilidad de Y debida al modelo podemos entonces ocupar

cualquiera de las siguientes expresiones:
n
∑ ( yˆ − y )
2
n n n i
∑ ( yˆ − y ) = ∑ ( y − y ) − ∑ ( y i − yˆ i ) R2 = r 2 = i =1
2 2 2
i i n
i =1 i =1 i =1
∑ (y − y)
2
i
i =1
• Si las combinamos por medio de sus elementos comunes tenemos que otra
forma de calcular el coeficiente de determinación es:
n n
∑ ( yi − y ) − ∑ ( yi − yˆ i )
2 2
R2 = r 2 = i =1
n
i =1
∑ (y
i =1
i − y)
2
• Que se simplifica a:
n
∑ (y − yˆ i )
2
i
R2 = r 2 = 1− i =1
n
∑ (y
i =1
i − y)
2
a+c a c
Porque = +
b b b
• Sustituyamos ahora sus componentes con las expresiones que dedujimos con el
número 1 y 2:
(n − 2)S y2 x
r 2
= 1−
(n − 1)S y2
• Y realicemos los cambios necesarios para aislar al elemento S y2 x :
Despejamos toda la comparación (n − 2)S y2 x

= 1− r2
(división) (n − 1)S y2
Pasamos dividiendo lo que le 1− r2
multiplica y multiplicando lo que le S y2 x =
(n − 2)
(
(n − 1)S y2 )
divide
1 − r 2 (n − 1)
Y finalmente sacamos raíz cuadrada Sy x = ⋅ Sy
(n − 2)
Con lo cual tenemos que la fórmula para calcular S y x es:
EXPRESIÓN PARA CALCULAR S y x

1 − r 2 (n − 1)
Sy x = Sy
(n − 2)
134
Una vez que se obtenga el valor de S y x resta sustituir el resto de los elementos
(βˆ , (n − 1), S ) para calcular es estadístico de prueba t
1 x c y compararlo con la región
de rechazo correspondiente:
REGIÓN DE
RECHAZO DE 1-α
H 0 : β1 = 0 α/2 α/2
− t1(−nα− 2 ) t1(−nα− 2)
2 2
Claro está que si H 0 : β 1 = 0 se rechaza, el modelo de regresión es adecuado, porque

la variable independiente no sólo afecta los valores de la independiente, si no que
además resulta significativa para explicarlos.
D. USO DEL MODELO DE REGRESIÓN LINEAL SIMPLE
Una vez se haya comprobado que el modelo ajustado yˆ = βˆ0 + βˆ1 x es adecuado,
pueden realizarse estimaciones sobre el valor de Y dado un valor de X , siempre y
cuando éste se encuentre en el rango que esta variable haya mostrado; es decir, que
no rebase su mínimo ni su máximo.
D.1) ESTIMACIÓN PUNTUAL
Si y 0 es el valor desconocido que toma la variable dependiente cuando X = x0 , una

estimación puntual de su valor puede obtenerse de la siguiente forma:
EXPRESIÓN PARA ESTIMAR

PUNTUALMENTE EL VALOR DE y 0
yˆ 0 = βˆ0 + βˆ1 x0
Es decir, el valor estimado para esta Y puede calcularse sustituyendo los valores de
βˆ0 , β̂1 y x0 .9
D.2) ESTIMACIÓN POR INTERVALOS
A diferencia de otras ocasiones, se llama INTERVALO DE PREDICCIÓN al rango en

el que, con cierto grado de confianza, se estima está el valor hipotético de y 0 cuando
X = x 0 . Para su construcción basta utilizar la siguiente expresión:
EXPRESIÓN PARA CONSTRUIR UN ⎡ 1 (x0 − x ) ⎤

2
(n − 2 )
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
9
Aunque la operación no es tan complicada, las calculadoras científicas pueden obtener el valor estimado
con más precisión, habiendo ingresado los datos de ambas variables en la función estadística de regresión
lineal y aplicando la función ( ŷ ) o ( y ′)
135
Como en todo intervalo, obtendremos dos valores límites (mínimo y máximo del
rango). He aquí graficados, como ejemplo, dichos valores de Y respecto a los valores
de xi :
170
160
150
140
V. máx. estatura
Altura de rodilla
130 V. min. estatura

Altura de rodilla
V. real estatura
40 42 44 46 48 50
160
Para evitar tal saturación, los

programas de estadística 150
permiten graficar la línea del
Estatura
modelo de regresión (central), así

como dos líneas (exteriores) que
delimitan continuamente los 140
intervalos de predicción para

cada x0 .
130
40 42 44 46 48 50
Altura de rodilla
Por otro lado, se conoce como INTERVALO DE CONFIANZA al rango en el que, con
cierto grado de error, puede encontrarse la media de las Y cuando X = x 0 ; es decir:
µy x :
0

2
(n −2 )
INTERVALO DE CONFIANZA SOBRE µy x ∈ ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0
0
⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
Como puede verse, tal expresión no difiere más que por un 1 con respecto a la
expresión para construir intervalos de predicción. Sin embargo, ello es suficiente los
intervalos de µ y x0 :
136
160 160
150
150
Estatura
140
140 V. máx. media estat

Altura de rodilla
V. mín. media estat

Altura de rodilla
130
V. real estatura 40 42 44 46 48 50
40 42 44 46 48 50 Altura de rodilla
Y de hecho, puede comprobarse la gran diferencia entre ellos:
170 160
160
150
V. máx. estatura
150
Altura de rodilla
V. mín. estatura
Altura de rodilla
140 140
V. máx. media estat
Altura de rodilla
Estatura
130 V. mín. media estat

Altura de rodilla
130
V. real estatura 40 42 44 46 48 50
40 42 44 46 48 50 Altura de rodilla
E. EJEMPLOS DE APLICACIÓN
1. Los siguientes datos de altura y peso en jóvenes adultos son parte de la

muestra recolectada durante la investigación en Cholula, Puebla (1968-1970).
ESTATURA PESO
1649 49.5
1635 57.5
1611 50.0
1622 53.5
1583 43.0
1613 57.5
1636 50.5
1650 56.0
1579 50.0
1568 50.0
1522 44.5
1554 48.0
1627 51.0
1535 46.0
137
1565 49.5
Suponiendo distribución normal en ambas variables:

a) ¿Puede afirmarse que existe asociación lineal entre estas variables?
b) Dado el caso, ajuste el modelo de regresión lineal.
c) Compruebe si el modelo ajustado es adecuado con una significancia α = 0.05
d) Si es el caso, realice una estimación puntual y por intervalos cuando la estatura del
joven es de 1600 mm.
Comprobemos entonces si existe asociación lineal entre estas variables por medio de
un diagrama de dispersión y el coeficiente de correlación.
58
56
54
Peso jóvenes adultos
52
50
48
46
44
42
1520 1540 1560 1580 1600 1620 1640 1660
Estatura jóvenes adultos
a.1) , Si bien en los valores más pequeños de la estatura puede verse una
asociación lineal clara con respecto al peso, conforme la estatura aumenta este
patrón no es tan claro
COEFICIENTE DE PEARSON
r = 0.6786
a.2) , El valor del coeficiente de correlación de Pearson nos indica una asociación
lineal directa considerable entre la estatura y el peso de esta población.
A continuación saquemos los datos necesarios para calcular los estimadores β̂ 1 y βˆ0
a fin de establecer el modelo de regresión.
DATOS GENERALES
n = 15 x = 1596.6000 y = 50.4333 s x = 41.5379 s y = 4.3006
n n
∑x y
i =1
i i = 1209525.000 ∑x
i =1
2
i = 38261129.00
Si bien en esta ocasión se mostrará el cálculo explícito, después se mostrará

únicamente el obtenido directamente con ayuda de la calculadora.
138
EXPRESIÓN PARA n
CALCULAR ∑x y i i − nx y
EL ESTIMADOR βˆ1 = i =1
n
β̂1 EXPRESIÓN ∑x 2
i − nx 2
PARA i =1
CÁLCULO 1209525.000 − 15(1596.6000)(50.4333)

βˆ1 = = 0.0703
MANUAL 38261129.00 − 15(1596.6000 )
2
CALCULADORA βˆ1 = 0.0703

CALCULAR
EL ESTIMADOR βˆ0
CÁLCULO
βˆ0 = 50.4333 − 0.0703(1596.6000) = −61.8077
MANUAL
CALCULADORA βˆ0 = −61.7390
Por lo que el modelo de regresión lineal ajustado queda como:
MODELO TEÓRICO y = β 0 + β1 x + e
MODELO AJUSTADO peso = −61.7390 + 0.0703estatura
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura, el peso
cambia 0.0703 kilogramos.
Ahora bien, para comprobar que el modelo ajustado es adecuado hay que verificar si
cumple con los criterios y supuestos:
1. CRITERIO DEL COEFICIENTE DE CORRELACIÓN

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

1− r2
CÁLCULO DE t c 15 − 2
t c = 0.6786 = 3.3310
1 − (0.6786)
2
139
c.1) , El estadístico de prueba t c = 3.3310 cae en la región de rechazo delimitada por
.975 = 2.1604 . Por tal motivo, la hipótesis nula H 0 : ρ = 0 se rechaza y puede

t 0(13 )
afirmarse que sí existe una asociación significativa entre la estatura y el peso de los
jóvenes adultos de Cholula.
2. CRITERIO DEL COEFICIENTE DE DETERMINACIÓN

COEFICIENTE DE DETERMINACIÓN R2 = r 2
R 2 = (0.6786) = 0.4605
2
CÁLCULO
c.2) , El valor del coeficiente de determinación indica el modelo ajustado explica sólo
el 46.05% de la variabilidad total del peso.
d) , Al no cumplir con el criterio del coeficiente de determinación cabe concluir que el

modelo ajustado no es realmente adecuado para explicar el fenómeno; por ende, no
es recomendable realizar estimaciones.
Veamos ahora un ejemplo muy parecido donde podamos aplicar el resto de los
criterios:
2. Los siguientes datos de altura y peso también son parte de la muestra

recolectada durante la investigación en Cholula, Puebla (1968-1970), pero pertenecen
a adolescentes hombres:
ESTATURA PESO
1674 58.5
1672 53.5
1710 58.0
1651 57.0
1702 58.0
1656 58.0
1672 56.5
1590 51.5
1612 56.0
1652 57.5
1594 51.5
1566 47.0
1645 54.5
1678 54.0
1740 62.0

a) ¿Existe asociación lineal entre estas variables?
b) En caso afirmativo, ajuste el modelo de regresión lineal.
c) Compruebe que el modelo ajustado sea adecuado utilizando una significancia
α = 0.05
140
d) Si es posible, realice una estimación puntual y por intervalos cuando la estatura del
adolescente es de 1700 mm.
64
62
60
Peso adolescentes
58
56
54
52
50
48
46
1500 1600 1700 1800
Estatura adolescentes
a.1) , Pese a la dispersión de algunos datos puede verse una asociación lineal entre
la estatura y el peso, así como se define una pendiente bastante grande.
r = 0.8382
a.2) , El coeficiente de correlación de Pearson señala una asociación lineal directa
fuerte entre la estatura y el peso de los adolescentes de Cholula.
ESTIMADORES Y AJUSTE DEL MODELO

βˆ1 = 0.0646 βˆ0 = −51.3759
peso = −51.3759 + 0.0646estatura
b) , De acuerdo al modelo ajustado, por cada milímetro que cambia la estatura, el
peso cambia 0.0646 kilogramos.

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2

1− r2
t c = 0.8382 = 5.5411
1 − (0.8382)
2
141
.975 = 2.1604 . Por ende, la hipótesis nula H 0 : ρ = 0 se rechaza y puede afirmarse

t 0(13 )
que existe una asociación significativa entre la estatura y el peso de los adolescentes
de Cholula.

R 2 = (0.8382) = 0.7025
2
CÁLCULO
c.2) , Según este coeficiente, el modelo ajustado explica el 70.25% de la variabilidad
total del peso; lo cual sugiere que sólo un menor porcentaje se debe a los residuales.
Y antes de verificar los otros dos criterios es necesario revisar si se cumplen los
supuestos sobre los errores:
SUPUESTOS
Valores fijos para X y Teóricamente sabemos que aunque dos personas
valores aleatorios para Y midan lo mismo, su peso puede diferir. En este caso
particular basta con señalar que existen dos
individuos con una estatura de 1672 milímetros, pero
mientras uno pesa 53.5 kilos, el otro pesa 56.5 kg.
Errores independientes Al aplicar la prueba de Durbin-Watson en el SPSS
obtenemos un valor de 1.922. Estando esté tan cerca
del 2 (DW ≈ 2 ) , podemos afirmar que los errores son
independientes.
Esperanza de los errores Según el SPSS, la media de los residuales no
estandarizados es cero; por tanto E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Peso adolescentes
1.00
Errores esperados acumulados
.75
.50
.25
0.00
0.00 .25 .50 .75 1.00
Errores observados acumulados
, Todos los supuestos sobre los errores se cumplen.
142
Ahora sí pueden verificarse los criterios sobre los parámetros. Si bien aquí se aplicará
tanto la prueba ANOVA (mediante SPSS) como la prueba sobre la pendiente; debido a
la complejidad de la primera, en los siguientes ejemplos y en la práctica será suficiente
aplicar la segunda, ya que es en ella donde se comprueba si la variable independiente
es significativa para explicar la variabilidad de la dependiente.
3. PRUEBA ANOVA
HIPÓTESIS
H 0 : β o = β1 = 0 H a : β o ≠ 0, β1 ≠ 0
Fuente de Grados Suma de cuadrados Cuadrados medios Estadístico
variabilidad de (varianza) de prueba
libertad
Debida al 1 SC r = 132.734 CM r = 132.734 Fc = 30.704
modelo de
regresión
Inexplicada 13 SC e = 56.199 CM e = 4.323
(por error)
Total 14 SC t = 189.933 CM t = 13.4953
REGIÓN DE RECHAZO DE H 0 : β o = β 1 = 0 Y UBICACIÓN DEL ESTADÍSTICO
c.3) , El estadístico de prueba Fc = 30.704 cae en la región de rechazo delimitada

por F0(.195,13 ) = 4.67 . Debido a ello puede concluirse que ninguno de los dos parámetros
es igual a cero.
4. PRUEBA DE LA PENDIENTE
HIPÓTESIS
H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−150−.025
2)
= ∓t 0(13
.975 = ∓2.1604
)
2 2 2
EXPRESIÓN PARA CALCULAR S y x 1 − r 2 (n − 1)

Sy x = Sy
(n − 2)
CÁLCULO
S y x = 3.6736
(1 − 0.8382)2 (15 − 1) = 2.0792
(15 − 2)
143
EXPRESIÓN PARA CALCULAR EL βˆ1

ESTADÍSTICO DE PRUEBA t c tc =
Sy x
(n − 1) ⋅ S x
CÁLCULO 0.0646
tc = = 5.5411
2.0792
(15 − 1) ⋅ 47.6302
UBICACIÓN DEL ESTADÍSTICO DE PRUEBA t c CON RESPECTO A REGIÓN DE
RECHAZO DE H 0
c.4) , El estadístico de prueba t c = 5.5411 cae en la región de rechazo delimitada
.975 = 2.1604 , debido a lo que la hipótesis nula H 0 : β 1 = 0 se rechaza y puede

por t 0(13 )
afirmarse que la variable estatura es significativa para explicar el peso de los

individuos de esta población.
Por último resta hacer estimaciones, por ejemplo, para un individuo que pesa 1700
milímetros:

yˆ 0 = βˆ0 + βˆ1 x0
CÁLCULO MANUAL yˆ 0 = −51.3759 + 0.0646(1700) = 58.5240

CALCULADORA 1700′ = 58.5232
, A partir del modelo de regresión podemos estimar puntualmente que, en esta
población, un individuo con una estatura de 1700 milímetros pesa 58.5232
kilogramos.

2
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 + t1(−nα− 2 ) ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
⎡ 1 (1700 − 1654.2667 ) ⎤
2
y 0 ∈ ⎢58.5232 ∓ 2.1614 ⋅ 2.0792 ⋅ + ⎥
CÁLCULO ⎢⎣ 15 (15 − 1)(47.6302)2 ⎥⎦
y 0 ∈ [56.8880,60.1584]
, El peso de un individuo cuya estatura es de 1700 milímetros está entre los 56.9 y
los 60.2 kilogramos.

2
(n −2 )
INTERVALO DE CONFIANZA SOBRE µ y x0 ⎢ yˆ 0 ∓ t1−α ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
144
⎡ 1 (1700 − 1654.2667 ) ⎤
2
y 0 ∈ ⎢58.5232 ∓ 2.1614 ⋅ 2.0792 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 15 (15 − 1)(47.6302)2 ⎥⎦
y 0 ∈ [53.7429,63.3033]
, En esta población, el peso promedio de individuos una estatura de 1700 milímetros
está entre los 53.7 y los 63.3 kilogramos.
64
62
60
Peso adolescentes
58
56
54
52
50
48
46
1500 1600 1700 1800
Estatura adolescentes
2. A continuación se presentan los datos de estatura sentado y estatura total de

un grupo de niños cuyas edades oscilan entre los 6.7 y 7.6 años.
ESTATURA SENTADO ESTATURA TOTAL

631 1100
593 1100
617 1133
615 1163
660 1213
672 1155
628 1130
621 1111
636 1155
637 1165
651 1197
590 1062
606 1144
642 1163

a) Compruebe si existe asociación lineal entre las variables.
b) Si es el caso, ajuste el modelo de regresión lineal.
c) Verifique que el modelo sea adecuado a una significancia α = 0.05
d) Realice una estimación puntual y por intervalos para cuando la estatura sentado del
niño fuera de 630 mm.
145
1220
1200
1180
1160
Estatura total
1140
1120
1100
1080
1060
580 600 620 640 660 680
Estatura sentado
a.1) , Aunque existe una dispersión considerable, puede entreverse una asociación
lineal entre la estatura sentado y la estatura total de los niños.
r = 0.7344
a.2) , El valor del coeficiente de correlación de Pearson también indica una
asociación lineal directa entre estas variables.
ESTIMADORES Y AJUSTE DEL MODELO

βˆ1 = 1.2413 βˆ0 = 362.0680
Estatura total = 362.06809 + 1.2413 estatura sentado
b) , Según el modelo ajustado, por cada milímetro que cambia la estatura sentado,
la estatura total cambia 1.2413 milímetros.

HIPÓTESIS
H0 : ρ = 0 Ha : ρ ≠ 0
α = 0.05 α = 0.025 1 − α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−140−.025
2)
= ∓t 0(12
.975 = ∓2.1788
)
2 2 2

1− r2
t c = 0.7344 = 3.7484
1 − (0.7344)
2
146
.975 = 2.1788 . Debido a ello la hipótesis nula H 0 : ρ = 0 se rechaza y puede

t 0(12 )
afirmarse que sí hay una asociación significativa entre la estatura sentado y la estatura
total.

R 2 = (0.7344) = 0.5394
2
CÁLCULO
c.2) , De acuerdo al coeficiente, el modelo ajustado explica el 53.94% de la
variabilidad total de la estatura total. Dicho valor está muy próximo a la variabilidad
debida a los residuales, motivo por el cual será importante verificar que el modelo
cumpla con otros criterios antes de utilizarlo para estimar.
SUPUESTOS
Valores fijos para X y
valores aleatorios para Y
Errores independientes La prueba Durbin-Watson de SPSS arroja un valor de
1.928 (DW ≈ 2 ) , por tanto, los errores son
independientes.
Esperanza de los errores El SPSS señala que la media de los residuales no
estandarizados es cero; por lo cual se cumple que
E (ei ) = 0 .
Homosedasticidad
en los errores
Distribución normal GRÁFICA DE PAPEL
en los errores
Estatura total
1.00
Errores esperados acumulados
.75
.50
.25
0.00
0.00 .25 .50 .75 1.00
Errores observados acumulados
, Todos los supuestos sobre los errores se cumplen.
3. PRUEBA DE LA PENDIENTE
HIPÓTESIS
147
H 0 : β1 = 0 H a : β1 ≠ 0
REGIÓN DE RECHAZO DE H 0 : β 1 = 0
α = 0.05 α = 0.025 1−α = 0.975 ∓ t1(−nα− 2 ) = ∓t1(−140−.025
2)
= ∓t 0(12
.975 = ∓2.1788
)
2 2 2
EXPRESIÓN PARA CALCULAR S y x 1 − r 2 (n − 1)

Sy x = Sy
(n − 2)
CÁLCULO
S y x = 40.1271
(1 − 0.7344)2 (14 − 1) = 28.3466
(14 − 2)
EXPRESIÓN PARA CALCULAR EL βˆ1
ESTADÍSTICO DE PRUEBA t c tc =
Sy x
(n − 1) ⋅ S x
CÁLCULO 1.2413
tc = = 3.7485
28.3466
(14 − 1) ⋅ 23.7414
UBICACIÓN DEL ESTADÍSTICO DE PRUEBA t c CON RESPECTO A REGIÓN DE
RECHAZO DE H 0
c.4) , El estadístico de prueba t c = 3.7485 cae en la región de rechazo delimitada
.975 = 2.1788 . Por tal motivo la hipótesis nula H 0 : β 1 = 0 se rechaza y podemos

por t 0(12 )
afirmar que la variable estatura sentado es significativa para explicar la estatura total
de los niños entre 6.7 y 7.6 años en esta población.

yˆ 0 = βˆ0 + βˆ1 x0
CÁLCULO 630′ = 1144.0762
, Gracias al modelo de regresión lineal podemos estimar que un niño con 630
milímetros de estatura sentado tendría una estatura total de 1144.0762 milímetros.

2
INTERVALO DE PREDICCIÓN SOBRE y 0 ∈ ⎢ yˆ 0 + t1(−nα− 2 ) ⋅ S y x ⋅ + ⎥
EL VALOR DE y 0 ⎢⎣ 2 n (n − 1) ⋅ S x2 ⎥⎦
148
⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1127.5461,1160.6063]
, Si un niño de esta población tuviera una estatura sentado de 630 milímetros, su
estatura total estaría entre los 1127.5461 y los 1160.6063 milímetros.

2
INTERVALO DE CONFIANZA SOBRE µ y x ⎢ yˆ 0 ∓ t1(−nα−2 ) ⋅ S y x ⋅ 1 + + ⎥
EL VALOR DE µ y x0
0
⎢⎣ n (n − 1) ⋅ S x2 ⎥
⎦
2
⎡ 1 (630 − 628.5000 ) ⎤
2
y 0 ∈ ⎢1144.0762 ∓ 2.1755 ⋅ 28.3466 ⋅ 1 + + ⎥
CÁLCULO ⎣⎢ 14 (14 − 1)(23.7414 )2 ⎥⎦
y 0 ∈ [1080.1408,1208.0116]
, En esta población, la estatura total promedio de niños con una estatura sentado de
630 milímetros estaría entre los 1080.1408 y los 1208.0116 milímetros.
1220
1200
1180
1160
Estatura total
1140
1120
1100
1080
1060
580 600 620 640 660 680
Estatura sentado
149
1. Uno de los principales problemas en la antropometría de ancianos es la

determinación de la estatura total. Una manera indirecta es construir modelos de
regresión con otras medidas antropométricas. Una de las más usadas es la altura
de lo rodilla, pues se cree que existe una fuerte relación lineal con la estatura. Los
siguientes datos corresponden a una muestra de ancianos del sexo femenino de
un asilo de ancianos de la ciudad de México:
Altura
de 40.8 48.3 46.5 43.3 47.5 45.6 49.9 44.7 46.7 46.2 47.4 40.4 46.9 47.3
rodilla
Estatura 137.5 142.0 142.0 144.4 144.8 141.8 156.2 144.0 149.7 144.0 151.8 134.1 143.9 140.5
Altura de
42.5 43.2 50.0 48.0 49.3 44.9 45.7 50.4 46.0 45.0 43.4 37.5
rodilla
Estatura 145.0136.0 151.2 140.2 143.0 138.1 139.7 153.9 142.0 137.0 140.0 124.5
a) Dibujar en un diagrama de dispersión los datos.

b) Calcula la recta de regresión correspondiente y graficarla.
c) Determina si el modelo es adecuado, es decir calcular coeficiente de
correlación, coeficiente de determinación y realizar la prueba de hipótesis sobre
la pendiente de la recta.
d) Si es el caso, realizar una estimación puntual y por intervalo para la estatura de
una anciana cuya altura de la rodilla sea de 45.8 cm, tanto del valor individual
como para el valor promedio.
2. Se desea saber si es posible encontrar un modelo de regresión lineal entre la
fuerza muscular medida en kilos con un dinamómetro y la resistencia para
sostener un peso determinado al aire y con el brazo extendido, medida en minutos
y décimas de minutos. Todo realizado con la mano derecha, en una muestra de
15 individuos adultos. Los valores obtenidos son los siguientes:
fuerza (kg.) 23 25 26 28 23 25 26 29 24 25 27 26 24 26 28
Resistencia 0.8 0.9 2.0 2.7 1.2 1.5 2.4 3.0 0.8 1.9 2.0 1.7 1.2 1.1 1.5
(min.)
a) Graficar los datos en un diagrama de dispersión.

b) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
Considerar una significancia de 0.05
d) Obtener los coeficientes de correlación y determinación. Interprete estos
valores.
e) ¿Qué puede concluir sobre el modelo encontrado?
f) Si una persona tiene una fuerza de 24.5 kg.
f.1) Encontrar un intervalo de confianza, al 95%, para el valor de la
resistencia
f.2) Encontrar un intervalo de confianza, al 95%, para el valor medio de
la resistencia.
3. Una fundación para la preservación de fauna desea demostrar que, en contra de
la opinión de la mayoría, las cigüeñas si traen niños. Le gustaría probar esto con
estadísticas. Han reunido datos sobre el número de cigüeñas y de niños (ambos
en miles) en algunas ciudades de Europa.
Cigüeñas 39 50 25 36 18 31 27
150
Niños 30 41 14 27 10 26 15

d) Obtener los coeficientes de correlación y determinación. Interprete estos
valores.
e) ¿Qué puede concluir sobre el modelo encontrado?
4. Los siguientes datos se refieren a la edad cronológica exacta y la altura sinfisial

de una muestra de niños de Milpa Alta.
a) Dibujar en un diagrama de dispersión los datos.

Altura
b) Calcula la recta de regresión correspondiente y
Edad sinfisial
graficarla.
4.81 460 c) Determina si el modelo es adecuado, es decir
5.05 536 calcular coeficiente de correlación, coeficiente de
5.26 530 determinación y realizar la prueba de hipótesis
5.19 586 sobre la pendiente de la recta y verificar supuestos
5.24 481 sobre los errores.
4.78 446 d) Si es el caso, realizar una estimación puntual y por
5.33 512 intervalo para la edad de un niño cuya altura
5.38 518 sinfisial sea de 515 mm., para el valor individual
5. Los
4.64siguientes
560 datos como por
corresponden a la intervalo.
estatura de padres e hijos
Padres 165.10 160.02 170.18 162.56 172.72 157.48 177.80 167.64 172.72 170.18 175.26 180.34
Hijos 172.72 167.64 172.72 165.10 175.26 167.64 172.72 165.10 180.34 170.18 172.72 177.80

c) Obtener el coeficiente de correlación. Interprete este valor.
d) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
e) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 90%, el valor de la estatura de un hijo cuando la
estatura de su padre es de 169 cm. Interpretar.
g) Estimar puntualmente la estatura de un hijo si la estatura de su padre es de
195 cm. ¿qué puede decir de este valor estimado?
6. Considera los siguientes valores:
X 12.5 15.3 17.4 16.9 16.3 18.3 20.2 20.7 13.8 12.7
Y 16.165 19.329 21.702 21.137 20.459 22.719 24.866 25.431 17.634 16.391
Graficar los datos en un diagrama de dispersión.

a) Obtener la recta de regresión y graficarla en el diagrama de dispersión.
b) Obtener el coeficiente de correlación. Interprete este valor.
151

d) ¿Qué puede concluir sobre el modelo encontrado? Verificar supuestos
sobre los errores.
7. Los siguientes datos corresponden a la edad y presión sanguínea de 12 personas

aparentemente sanas.
Edad 56 42 72 36 63 47 55 49 38 42 68 60
Presión
sanguínea 147 125 160 118 149 128 150 145 115 140 152 155

c) Obtener el coeficiente de correlación. Interprete este valor.
d) ¿La pendiente de la recta de regresión poblacional es diferente de cero?
sobre los errores.
f) Si el modelo es adecuado, estimar, puntualmente y por medio de un
intervalo de confianza, al 95%, el valor de la presión sanguínea cuando la
edad es de 50 años. Interpretar.
g) Estimar puntualmente la presión sanguínea cuando la edad es de 80 años.
¿Qué puede decir de este valor estimado?
8. Considera los siguientes datos:
X 3.2 4.6 7.5 8.4 6.3 2.4 7.2 3.9 4.7 9.1
Y 5.656 7.238 10.515 11.532 9.159 4.752 10.176 6.447 7.351 12.323
a)Graficar los datos en un diagrama de dispersión.

b)Obtener la recta de regresión y graficarla en el diagrama de dispersión.
c)Obtener el coeficiente de correlación. Interprete este valor.
d)¿La pendiente de la recta de regresión poblacional es diferente de cero?
sobre los errores.
9. Los siguientes datos corresponden al peso y el nivel total de colesterol y
triglicéridos en 15 personas:
Peso Colesterol Triglicéridos
Total (mg/100 ml) (mg/100 ml)
76 302 139
97 336 101
83 220 57
52 300 56
70 382 113
67 379 42
75 331 84
78 332 186
70 426 164
99 399 205
75 279 230
78 332 186
152
70 410 160
77 389 153
76 302 139
a) Ajustar el modelo de regresión lineal múltiple

b) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
d) Verificar supuestos sobre los errores.
e) ¿El modelo estimado es correcto?
10. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12 y 18

años (todas las mediciones están en centímetros):
Estatura Longitud Longitud
del radio del fémur
149.0 21.00 42.50
152.0 21.79 43.70
155.7 22.40 44.75
159.0 23.00 46.00
163.3 23.70 47.00
166.0 24.30 47.90
169.0 24.92 48.95
172.0 25.50 49.90
174.5 25.80 50.30
176.1 26.01 50.90
176.5 26.15 50.85
179.0 26.30 51.10
a) Ajustar el modelo de regresión lineal múltiple
b) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
c) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
d) Verificar supuestos sobre los errores.
e) ¿El modelo estimado es correcto?
153
Bioestadística
Práctica 1: Pruebas de Hipótesis
Se trabaja con la base de datos contenida en el archivo antropometria.sav la cual
contiene información sobre algunas características somatológicas de los alumnos de
Antropología Física de primer semestre en el ciclo 2003-1. Se presentan ejemplos y
actividades para que realicen los alumnos.
I. Una muestra. Suponiendo que los datos representan una muestra representativa de
los estudiantes de la ENAH de primer semestre en ese ciclo, ¿Es posible afirmar que la
edad promedio de los alumnos de este ciclo es menor de 21 años?
La hipótesis a contrastar es: Hinv : µ < 21 , por lo tanto las hipótesis estadísticas son:
H o : µ ≥ 21 vs. H a : µ < 21 . En SPSS se deberá seguir los siguientes pasos:
1. En el menú Analyze,
seleccionar Compare
Means y seleccionar One-
Sample T Test... como se
muestra en la figura.
2. En el cuadro de diálogo
introducir la variable edad y
el valor 21 como se muestra
en la figura y dar Ok.
3. Se obtienen los siguientes resultados en dos tablas, en la primera se presenta el

tamaño de muestra, la media aritmética, la desviación estándar y el error estándar de la
s
media , . En el segundo cuadro se observa el valor del estadístico de prueba, los
n
grados de libertad, la significancia encontrada (el p-valor), la diferencia de medias
( x − µ0 ) y el intervalo al 95% de confianza para ( µ − µ0 ). La hipótesis nula que
contrasta el programa siempre es la de dos colas, H o : µ = µ0 . En el caso del ejemplo
como Sig. = p = .000 <α , se rechaza la hipótesis H o : µ = 21 , por lo cual o es menor o
es mayor a 21 años. Si observamos los valores descriptivos tenemos que la media
muestra x = 22.8446 , por lo tanto tenemos evidencias estadísticas que nos indican que
la media es mayor a 21. Otra forma de ver esto es observar el intervalo de confianza
154
para la diferencia µ − 21 viendo que el intervalo contiene sólo valores son positivos.
Por lo tanto se infiere que µ − 21 > 0 ⇒ µ > 21 . Por lo tanto, la hipótesis de
investigación no es correcta, ya que la media estadísticamente (p=.000) es mayor a 21.
T-Test
One-Sample Statistics
Std. Error
N Mean Std. Deviation Mean
Edad exacta 62 22.8446 3.70024 .46993
One-Sample Test
Test Value = 21
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
Edad exacta 3.925 61 .000 1.8446 .9049 2.7843
II. Ejercicio ¿Se puede inferir que los ingresos familiares promedio en la población de
estudio es mayor a $10,000?
III. Dos muestras independientes. ¿Es posible inferir que existen diferencias
significativas en las edades de los alumnos respecto al turno?. La hipótesis a contrastar
es:
H o : µ1 = µ2 vs. H a : µ1 ≠ µ 2
seleccionar Compare
Means y seleccionar
Independent-Samples T
Test...
2. En el cuadro de diálogo
introducir la variable edad
en el cuadro de variables a
contrastar. Se introduce la
variable turno en el cuadro
Grouping Variable. Dar
clic en botón Define
Groups. Como el grupo
matutino esta codificado
como 5 y el vespertino
como 8, se introducen estos
valores como
identificadores de los grupos 155
1 y respectivamente. Dar
clic en Continue y en Ok.
3. Los resultados se presentan en dos tablas, la primera contiene las estadísticas

descriptivas por turno. En la segunda se observa en primer lugar, los resultados de la
prueba de Levene sobre la igualdad de varianzas: H o : σ12 = σ 22 . Se observa que
Sig . = .308 > α , por lo tanto no se rechaza la hipótesis nula, por lo que se puede asumir
la igualdad de varianzas. Esto implica que los resultados donde debemos prestar
atención son los del primer renglón. En caso de rechazar la hipótesis nula, debemos ver
los resultados del segundo renglón.
T-Test
Group Statistics
Std. Error
Turno N Mean Std. Deviation Mean
Edad exacta Matutino 36 21.7368 3.41613 .56936
Vespertino 26 24.3785 3.58548 .70317
Independent Samples Test
Levene's Test for

Equality of Variances t-test for Equality of Means
95% Confidence
Interval of the
Mean Std. Error Difference
F Sig. t df Sig. (2-tailed) Difference Difference Lower Upper
Edad exacta Equal variances
1.057 .308 -2.943 60 .005 -2.6417 .89763 -4.43727 -.84622
assumed
Equal variances
-2.920 52.429 .005 -2.6417 .90477 -4.45695 -.82654
not assumed
Los resultados indican un estadístico de prueba de -2.943, 60 grados de libertad y

sig. = .005 < α = .05 , lo cual indica que se rechaza la hipótesis nula H o : µ1 = µ2 . Es
decir, se puede afirmar que las medias de edad entre turnos son significativamente
diferentes (p=.005), siendo mayor en alumnos del turno vespertino. Se presenta
también el valor de la diferencia de medias muestral, su error estándar y el intervalo al
95% de confianza.
IV. Ejercicio: ¿Existe dimorfismo sexual en las variables antropométricas recolectadas:
estatura, peso, perímetro de cadera, circunferencia del brazo relajado, circunferencia del
brazo contraído, estatura sentado, perímetro de cintura y altura de la rodilla?
V. Dos muestras pareadas. Se desea saber si existe diferencia significativa en la

magnitud de la circunferencia del brazo relajado respecto a la circunferencia del brazo
contraído. Si µ1 y µ2 son las medias de cada magnitud y si µ d = µ1 − µ 2 entonces, la
hipótesis a contrastar es:
H o : µ d = 0 vs. H a : µd ≠ 0 . En
SPSS tenemos:
seleccionar Compare Means y
seleccionar Paired-Samples T
Test...
156
2. En el cuadro de variables
seleccionar las dos
circunferencias del brazo e
introducirlas al cudro
Paired_Variables: en Ok.
3. Aparecen tres tablas, la

primera contiene las estadísticas descriptivas de cada variable. La segunda tabla
presenta el coeficiente de correlación lineal (r) entre las dos variables, y la significancia
del contraste de hipótesis H o : ρ = 0 , donde ρ es el coeficiente de correlación lineal
poblacional. En el ejemplo se observa que r ≈ 1 , lo cual nos indica asociación lineal
fuerte entre las dos variables, y como sig . = p = .000 < .05 = α se rechaza la hipótesis
nula, lo cual nos indica una asociación lineal significativa entre las variables. La tercera
s
tabla contiene los valores de d , sd , d , el intervalo al 95% de confianza para µd , el
n
valor del estadístico de prueba, los grados de libertad y la significancia o p-valor
determinados por los datos. Como p = .000 < .05 = α , rechazamos la hipótesis nula, por
lo cual se infieren diferencias significativas en las dos medias poblacionales, teniendo
un valor mayor la circunferencia del brazo contraído.
T-Test
Paired Samples Statistics
Std. Error
Mean N Std. Deviation Mean
Pair Circunferencia del
274.188 64 34.6817 4.3352
1 brazo relajado
Circunferencia del
286.063 64 37.9937 4.7492
brazo contraído
157
Paired Samples Correlations
N Correlation Sig.
Pair Circunferencia del brazo
1 relajado & Circunferencia 64 .840 .000
del brazo contraído
Paired Samples Test
Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair Circunferencia del brazo
1 relajado - Circunferencia -11.875 20.7865 2.5983 -17.067 -6.683 -4.570 63 .000
del brazo contraído
VI. Ejercicio: Resolver los problemas:

1. Son muchos los argumentos a favor de la suposición de que las secretarias
escriben más rápidamente en una computadora que en una máquina de
escribir. Por ejemplo, las egresadas de una escuela técnica afirman que
escriben en la computadora 30 palabras más por minuto. Para concertar
esta afirmación a un grupo de 10 secretarias se les pone a trabajar
diariamente en una computadora y se evalúa al final su velocidad; en la
siguiente semana se les pone a trabajar exclusivamente en máquina
eléctrica de escribir y se evalúa su velocidad en término de número de
palabras escritas por minuto. Los resultados son los siguientes:
Secretaria Con computadora Con máquina eléctrica

1 93 71
2 85 53
3 98 63
4 79 61
5 82 44
6 95 75
7 89 51
8 85 60
9 84 54
10 92 71
¿Con esta información se confirma la afirmación de las secretarias? Sea α=0.1
2. Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de
las personas para la cual se seleccionó una muestra aleatoria de 16
personas interesadas en bajar de peso, registrándose el peso de cada
158
persona antes y después del tratamiento, presentándose los resultados

en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
VII. Prueba ANOVA: Se desea saber si entre las mujeres existen diferencias
significativas en la estatura total respecto a la variable que agrupa la edad. Como se
tienen tres niveles de agrupación la hipótesis a probar es: H o : µ1 = µ2 = µ3 . En primer
lugar en SPSS seleccionaremos las mujeres, grupo codificado con el número 1 en la
variable sexo. De la opción Data damos click en la opción Select Cases y activamos la
opción If condition is satisfied, como se muestra en la pantalla siguiente:
Al dar click en el botón If...

aparece el cuadro que se
presenta a la derecha.
Pasamos la variable sexo y 159
agregamos la igualdad con 1.
Damos clic en Continue y
Para la prueba de hipótesis en la

opción Analyze, seleccionar
Compare Means y después One-
Way ANOVA....
En el cuadro Dependent
List: insertar la variable
estatura. En el cuadro
Factor: introducir la
variable grupo de edad.
Como resultado se
obtiene la tabla ANOVA, donde se observa que sig. = p = .231 > α = .05 , por lo tanto
no se rechaza la hipótesis nula, es decir las medias de la estatura en los tres grupos de
edad no son estadísticamente diferentes.
Oneway
ANOVA
Estatura Total
Sum of
Squares df Mean Square F Sig.
Between Groups 6887.515 2 3443.758 1.540 .231
Within Groups 67096.000 30 2236.533
Total 73983.515 32
Si se hubiera rechazado la hipótesis nula, tendríamos que repetir la prueba ANOVA y

agregar la prueba de contrastes múltiples
160
Si se hubiera rechazado la
hipótesis nula, tendríamos
que repetir la prueba
ANOVA y agregar la
prueba de contrastes
múltiples, , dando click en
el botón Post Hoc...,
seleccionar la prueba de
Tukey, dar click en
Continue y Ok.
VIII. Ejercicio
Resolver los problemas:
3. Una empresa editorial está haciendo un estudio de mercado para sacar el perfil
de los lectores de periódicos en un país determinado; consideran que el grado de
escolaridad (entendido como el total de años aprobados en su trayectoria
escolar) es un factor determinante en la caracterización de los lectores; la
empresa ha clasificado a los periódicos en cuatro categorías: los diarios que se
especializan o ponen énfasis en la nota roja (A); los orientados a la información
deportiva (B); los que enfatizan aspectos económicos (C) y los que se centran en
aspectos políticos y sociales (D). Los resultados obtenidos de la variable de
interés son los siguientes:
A B C D
9 6 10 6 17 12 11 20
6 6 6 4 12 21 15 12
3 5 9 5 19 16 9
12 9 6 6 9 17 6
6 6 12 9 12 19 12
9 12 5 6 17 12
1 14 6 7 16 6
4 6 17 2 26 17
15 15 9 20 12
9 2 9 17 17
¿Con estos datos hay evidencia suficiente para asegurar que la escolaridad de los
lectores es un factor de variación entre los lectores de periódicos? Suponga
distribución normal en las poblaciones. Sea α=0.05
4. La Secretaría del Medio Ambiente quiere determinar si los cambios en la
temperatura del agua del Golfo de México, causados por la planta de
Laguna Verde, tienen un efecto significativo sobre la fauna marina en la
región. Se dividieron al azar cuatro grupos de especimenes recién
nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el océano, completamente idénticos,
con excepción de la temperatura del agua. Seis meses después se
pesaron los especimenes. Los resultados (en libras) se dan en la tabla
siguiente:
Pesos de los especimenes
161
38ºF 42ºF 46ºF 50ºF

22 15 14 17
24 21 28 18
16 26 21 13
18 16 19 20
19 25 24 21
17 23
162
Bioestadística
Práctica 2: Pruebas No paramétricas.
I. Con los datos del archivo antropometria. sav, aplicar la prueba χ 2 para ver
si existe relación entre el turno y el sexo de los estudiantes de primer año de
la licenciatura en Antropología Física.
1. En el menú Analyze se
selecciona la opción
Descrpitive Statistics,
escogiendo Crosstabs.
2. Se introduce la variable Sexo

como renglón y la variable
Turno como columna.
3. Se da clic en el botón
Statistics...
4. Se seleccionan las opciones:

Chi-square
y Phi and Cramér´s V
5. Dar Continue y Ok
163
Se obtienen los resultados de la siguiente manera:

Crosstabs
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent
Sexo del Individuo * Turno 64 100.0% 0 .0% 64 100.0%
Sexo del Individuo * Turno Crosstabulation
Count Tabla de
Turno contingencia o
Matutino Vespertino Total cruzada
Sexo del Individuo Femenino 24 9 33
Masculino 12 19 31
Total 36 28 64
Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.

Value df (2-sided) (2-sided) (1-sided)
Valor de χ c2 y p.
Pearson Chi-Square 7.516b 1 .006 p< α = 0.05 , por
Continuity Correctiona 6.198 1 .013 tanto se rechaza
Likelihood Ratio 7.667 1 .006 H o : no existe
Fisher's Exact Test .011 .006 relación entre sexo
Linear-by-Linear
7.399 1 .007 y turno
Association
N of Valid Cases 64
a. Computed only for a 2x2 table
b. 0 cells (.0%) have expected count less than 5. The minimum expected count is
13.56.
Symmetric Measures
Value Approx. Sig. Aunque la prueba χ 2

Nominal by Phi .343 .006 indica asociación entre las
Nominal Cramer's V .343 .006 variables , se puede inferir
N of Valid Cases 64 que es débil, por el valor
a. Not assuming the null hypothesis. de V de Cramer
b. Using the asymptotic standard error assuming the null
hypothesis.
164
II. Prueba χ cuando se tienen los datos en una tabla de contingencia. En un estudio
2
sobre planificación familiar en el Estado de Hidalgo se aplico una encuesta para analizar los
posibles factores que influyen en el uso de anticonceptivos. En la siguiente tabla se
presentan las frecuencias observadas de las mujeres encuestadas en relación a su edad y si
usan algún método anticonceptivo
Uso de anticonceptivos
Edad Usuarias No
(años) Usuarias
15-19 8 11
20-24 33 23
25-29 31 30
30-34 22 22
35-39 25 18
40-49 14 40
¿Existe relación entre la edad y el uso de anticonceptivos?
1. Crear una base de datos con

tres variables: grupo de edad
(edad), anticonceptivos
(anticons) y frecuencias
observadas (fo). Recuerda que
edad y anticons, utilizan
Values para definir las
categorías.
2. Del menú Data seleccionar la

opción Weight Cases...
3. Activar la opción Weight

cases by e introducir la
variable Frecuencias
observadas (fo) en el
cuadro Frecuency Variable:.
Dar clic en ok.
4. Del menú Analyze

seleccionar Descriptive
Statistics, y Crosstabs.
Introducir Edad en renglón
y Anticonceptivos en
columna.
5. Seguir los pasos 3, 4 y 5
del ejercicio anterior. 165
III. Ejercicio: Existe relación entre la edad de los alumnos (grupo de edad) y el turno
de estudio, de la base antropometría.sav.
IV. Prueba de Normalidad de

Kolmogorov-Smirnov. Se desea saber si
la variable ingresos familiares
contenida en la base de datos
antropometría.sav tiene distribución
normal. La hipótesis es: H o : La variable
ingresos familiares tiene distribución
normal.
1. Del menú Analyze seleccionar
Nonparametric Tests y escoger la opción
1-Sample K-S...
2. Introducir la variable
Ingresos familiares en el
cuadro Test Variable List.
Verifica que este activada la
opción Normal en Test
Distribution
Dar clic en OK.
3. Los resultados que se obtienen son:

NPar Tests
166
One-Sample Kolmogorov-Smirnov Test
Ingresos El estadístico de prueba es:

Familiares
N 50
Dc = .247
Normal Parameters a,b Mean 11065.0000
Std. Deviation 11139.030
Most Extreme Absolute .247 Como p=.005, se rechaza
Differences Positive .247 H o . La variable no se
Negative -.218 distribuye normal.
Kolmogorov-Smirnov Z 1.743
Asymp. Sig. (2-tailed) .005
a. Test distribution is Normal.
b. Calculated from data.
V. Ejercicio: Usando el comando Split File, verificar si la variable estatura total tiene
distribución normal en hombres y mujeres por separado.
VI. Prueba del signo y Wilcoxon. . A 16 estudiantes se les aplicó un examen sobre estadística
elemental en un día caluroso. Ocho de ellos, seleccionados aleatoriamente, tomaron la prueba
en un salón sin aire acondicionado. Posteriormente, después de un intermedio corto,
terminaron un examen en un salón con aire acondicionado. Con los otros ocho estudiantes se
invirtió este procedimiento:
Estudiante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Sin aire 52 90 63 74 87 77 92 72 77 94 67 86 78 84 57 55
Con aire 49 94 60 78 93 77 93 74 78 93 78 89 92 83 49 68
¿Proporciona la muestra razón suficiente para concluir que la utilización del aire
acondicionado en un día caluroso influye sobre las calificaciones del examen?
1. Capturamos la información en dos variables de SPSS llamadas Sin Aire y Con Aire.

seleccionar
Nonparametric Test y
2 Related Samples.
3. Seleccionar las dos

variables e
introducirlas de
manera simultánea en
el cuadro167
Test Pair(s)
List.
Verificar que estén
4. Los resultados que se obtienen son:

NPar Tests
Wilcoxon Signed Ranks Test
Ranks
N Mean Rank Sum of Ranks

Sin Aire - Con Aire Negative Ranks 5a 6.20 31.00
Positive Ranks 10b 8.90 89.00
Ties 1c
Total 16
a. Sin Aire < Con Aire
b. Sin Aire > Con Aire
c. Con Aire = Sin Aire
Test Statisticsb Con la prueba de Wilcoxon, no se

rechaza la hipótesis nula de
Sin Aire -
Con Aire igualdad de medianas, ya que
Z -1.652a p=.099>0.05.
a. Based on negative ranks.
b. Wilcoxon Signed Ranks Test
Sign Test
168
Frequencies
N
Sin Aire - Con Aire Negative Differencesa 5
Positive Differencesb 10
Ties c 1
Total 16
a. Sin Aire < Con Aire
b. Sin Aire > Con Aire
c. Con Aire = Sin Aire
Test Statisticsb De manera similar, en la prueba del

signo no se rechaza la hipótesis
Sin Aire - nula de igualdad de medianas, ya
Con Aire
Exact Sig. (2-tailed) .302a
que p=..302>0.05. Con ambas
a. Binomial distribution used.
pruebas no es posible inferir
diferencias en las puntuaciones de
b. Sign Test
los alumnos debido a las
condiciones de aplicación del
examen.
VI. Ejercicio: Se desea conocer qué tan eficaz resulta una dieta para reducir el peso de las
personas para la cual se seleccionó una muestra aleatoria de 16 personas interesadas en bajar
de peso, registrándose el peso de cada persona antes y después del tratamiento,
presentándose los resultados en la tabla siguiente:
Persona 1 2 3 4 5 6 7 8 9 10
Antes 96.9 89.11 105.7 112 93.45 99.1 108.32 88.87 91.0 95.76
Después 93.1 83.0 101.9 105.87 89.14 95.0 106.56 83.9 85.64 90.44
Persona 11 12 13 14 15 16
Antes 103.05 111.89 83.2 94.74 99.15 126.3
Después 97.47 107.6 80.81 89.9 97.66 123.3
Usar las pruebas del signo y de Wilcoxon para inferir si es que hubo una disminución
significativa en el peso de las personas.
VII. Prueba U de Mann-Whitney para comparar dos muestras independientes:

Se desea saber si existe diferencia en el panículo del tríceps entre hombres y
mujeres con base en la muestra de
alumnos de primer año de la ENAH,
contenida en el archivo
antropometria.sav, suponiendo que
las poblaciones no se distribuyen
normal. H 0 : θ1 = θ 2 .

seleccionar Nonparametric
Test y luego 2 Independent
Samples
169
Panículo del Tríceps en
el cuadro Test Variable
List. Introducir la
variable sexo al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 2.
Verificar que este
activado la opción
Mann-Whitney U
Dar clic en OK
Los resultados son los siguientes:

Mann-Whitney Test
Ranks
Sexo del Individuo N Mean Rank Sum of Ranks

Panículo del Tríceps Femenino 32 39.08 1250.50
Masculino 31 24.69 765.50
Total 63
Test Statisticsa
Panículo El estadístico de prueba U c = 269.5 .

del Tríceps
Mann-Whitney U 269.500 La significancia encontrada p=.002.
Wilcoxon W 765.500 Se rechaza Ho. Es mayor el panículo del
Z -3.115 tríceps en mujeres.
a. Grouping Variable: Sexo del Individuo
170
VIII. Ejercicio: Se desea comprobar si la gente de la ciudad tiene hábitos diferentes en

cuanto al cuidado de su salud respecto a la de una zona rural. Se tomaron muestras
aleatorias en una ciudad y en un pueblo rural, obteniéndose los siguientes resultados
respecto a cuántas veces se acude a visitar al médico general al año:
Ciudad: 4 5 8 13 2 9 11 7 6
Pueblo: 3 6 4 5 10 1
¿Puede deducirse que ambas poblaciones son diferentes?
IX. Prueba de Kruskal-Wallis. Se desea saber si la estatura total en hombres y

mujeres es diferente respecto a la edad. Para realizar esta prueba se crearon tres grupos
de edad en la base de datos del archivo antropometría.sav. La hipótesis a contrastar es:
H 0 : θ1 = θ 2 = θ 3 .
1. Como queremos
realizar el análisis en
cada sexo, usamos la
opción Split del
menú Data, e
introducimos la
variable sexo
activando la opción
indicada.

seleccionar Nonparametric
Test y luego K Independent
Samples...
Estatura total en el
cuadro Test Variable
List. Introducir la
variable gedad al cuadro
Grouping Variable y dar
clic en Define
Groups...Escribir 1 y 3.
Verificar que este 171
activado la opción
Kruskal-Wallis H.
Dar clic en OK
Los resultados obtenidos son los siguientes:

NPar Tests
Sexo del Individuo = Femenino
Kruskal-Wallis Test
Ranksa
Grupo de edad N Mean Rank

Estatura Total [17,22) 23 15.52
[22,27) 6 22.00
[27,33) 4 18.00
Total 33
a. Sexo del Individuo = Femenino
Test Statisticsa,b,c
Estatura Total
En Mujeres se encuentra un valor de
Chi-Square 2.186 p=.335>0.05, lo cual implica que no se
df 2 rechaza la hipótesis nula. Es decir, no
Asymp. Sig. .335 existe diferencia en la estatura respecto
a. Kruskal Wallis Test a la edad.
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Femenino
Sexo del Individuo = Masculino

Kruskal-Wallis Test
Ranksa
Grupo de edad N Mean Rank

Estatura Total [17,22) 12 11.50
[22,27) 11 16.45
[27,33) 6 19.33
Total 29
a. Sexo del Individuo = Masculino
Test Statisticsa,b,c
En Hombres se encuentra un valor de
Estatura Total p=.142>0.05, lo cual implica que no se
Chi-Square 3.905 rechaza la hipótesis nula. Es decir, no
df 2 existe diferencia en la estatura respecto
Asymp. Sig. .142
a la edad.
a. Kruskal Wallis Test
b. Grouping Variable: Grupo de edad
c. Sexo del Individuo = Masculino
X. Ejercicio: En la ENAH se desea saber si los estudiantes de cuatro carreras difieren

en la frecuencia con que asisten a eventos culturales organizados por la institución. Para
ello se toman muestras de estudiantes y se les pregunta si asisten a dichos eventos nunca
(0), rara vez (1), pocas veces (2), frecuentemente (3), muy frecuentemente (4) o siempre
172
(5). Los resultados de las encuestas se presentan a continuación. Realice la prueba de

hipótesis correspondiente.
AF 3 1 0 4
ARQ 1 0 0 4 2
AS 5 5 3
HIS 5 4 3 2 2
173
Bioestadística
Práctica 3: Análisis de Regresión
1.En la base de datos

contenida en el archivo
antropometria.sav,
seleccionar sólo a las
mujeres mediante el
comando Data Select
seleccionar la opción if
condition is satisfied y dar
clic en el botón if...
2. Introducir la
sentencia sexo=1 en
el cuadro de dialogo
y dar clic en
Continue y luego
en Ok. Los casos de
hombres aparecen
tachados.
3. Investigaciones en
somatología postulan
que existe asociación
lineal entre estatura y
altura a la rodilla.
Ajustaremos un
174
modelo con los datos de los alumnos de primer año de antropología física. Del menú
Analyze seleccionar Regression y después Linear.
Estatura Total en el
cuadro Dependent: y
Altura de Rodilla en
Independent
Se obtiene la siguiente salida:

Regression
Variables Entered/Removedb
Variables Variables
Model Entered Removed Method
1 Altura de
a . Enter
Rodilla
a. All requested variables entered.
b. Dependent Variable: Estatura Total
Coeficiente de
Model Summary Correlación
Adjusted Std. Error of
Model R R Square R Square the Estimate Coeficiente de
1 .883a .781 .773 22.5010 Determinación
a. Predictors: (Constant), Altura de Rodilla
175
ANOVAb
Sum of
Probando la
Model Squares df Mean Square F Sig.
1 Regression 54009.207 1 54009.207 106.676 .000a hipótesis:
Residual 15188.793 30 506.293 H 0 : β 0 = β1 = 0
Total 69198.000 31
a. Predictors: (Constant), Altura de Rodilla
b. Dependent Variable: Estatura Total
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients Probando la
Model B Std. Error Beta t Sig. hipótesis
1 (Constant) 687.316 87.997 7.811 .000 H 0 : β1 = 0
Altura de Rodilla 1.833 .177 .883 10.328 .000
a. Dependent Variable: Estatura Total
β̂ 0 β̂1 Probando la hipótesis H 0 : β 0 = 0
5. Para saber si existe

correlación significativa,
del menú Analyze,
seleccionamos Correlate y
después Bivariate
6. Introducimos las
variables Estatura
Total y Altura de
Rodilla en el cuadro
de diálogo, damos
Ok
Se obtienen los siguientes resultados:

Correlations
176
Correlations
Altura de
Estatura Total Rodilla
Estatura Total Pearson Correlation 1 .883** Valor de r.
Sig. (2-tailed) . .000 Probando la hipótesis
N 33 32 H0 : ρ = 0
Altura de Rodilla Pearson Correlation .883** 1
Sig. (2-tailed) .000 .
N 32 32
**. Correlation is significant at the 0.01 level (2-tailed).
Todo indica que el modelo: Estatura total = 687.316+1.833Altura de rodilla

es adecuado.
Veremos ahora los supuestos del modelo.
6. Repetimos el paso
4, pero ahora antes de
dar clic en Ok, damos
en Plots...
7. Activamos la gráfica
de probabilidad normal e
introducimos la variable
dependiente y los errores
estandarizados
Además de los resultados

que se obtuvieron en el
punto anterior se presentan las siguientes gráficas:
Con esta gráfica
Normal P-P Plot of Regression Standardized Resi se esta evaluando
el supuesto de
Dependent Variable: Estatura Total normalidad de los
1.00 errores. Si fuera
exactamente
normal la
.75
distribución de
los errores, todos
los puntos
Expected Cum Prob
.50
deberán estar
sobre la recta. Se
observan
.25
pequeñas
desviaciones de la
0.00 normalidad, sin
0.00 .25 .50 .75 1.00 embargo se puede
considerar como
Observed Cum Prob valido este
supuesto.
177
Con esta gráfica se

Scatterplot analiza el supuesto
de homogeneidad
Dependent Variable: Estatura Total de varianzas. Los
3 puntos deben
Regression Standardized Residual
comportarse de
2 manera aleatoria en
un rango en el eje
1 Y de -3 a 3, tal
como se observa en
0
la gráfica. Por lo
tanto se puede dar
como válido el
-1
supuesto.
-2
1500 1600 1700 1800
Estatura Total
De acuerdo a lo anterior el modelo encontrado puede considerarse adecuado para

predecir valores de la estatura a partir de la altura a la rodilla.
Ejercicio. Ajustar un modelo de regresión considerando la variable estatura total como

dependiente y estatura sentado como independiente.
Modelo de Regresión Lineal Múltiple
1. Con la misma base de datos y con las mujeres seleccionados ajustaremos un modelo
considerando como variable dependiente el peso y como independiente la estatura total,
el panículo del tríceps, la circunferencia del brazo relajado y el perímetro de la cintura.
2. En el menú de
Linear Regresión
Linear introducir las
variables como se
muestra en el cuadro.
3. Seleccionar en
Method la opción
Stepwise (paso a
paso) de selección de
variables.
4. En el menú Plots...
seleccionar las
gráficas como en el
caso del modelo de
regresión lineal
simple. Dar Ok.
178
Se obtienen los siguientes resultados:

Regression
Variables Entered/Removeda
Variables Variables Indica las variables que

Model Entered Removed Method entraron en el modelo. Note
1 Stepwise
que la variable panículo del
(Criteria:
Probabilit triceps nunca entro en el
y-of-F-to-e modelo.
Perímetro nter <=
.
de Cintura .050,
Probabilit
y-of-F-to-r
emove >=
.100).
2 Stepwise
(Criteria:
Probabilit
Circunfere y-of-F-to-e
ncia del nter <=
.
brazo .050,
relajado Probabilit
y-of-F-to-r
emove >=
.100).
3 Stepwise
(Criteria:
Probabilit
y-of-F-to-e
Estatura nter <=
.
Total .050,
Probabilit
y-of-F-to-r
emove >=
.100).
a. Dependent Variable: Peso Corporal
179
Model Summaryd
Adjusted Std. Error of

Model R R Square R Square the Estimate
Los cambios en los valores
1 .865a .748 .740 5.56144 de r y R2. El último es el del
2 .911 b .830 .818 4.65262 modelo ajustado.
3 .935c .874 .861 4.06554
a. Predictors: (Constant), Perímetro de Cintura
b. Predictors: (Constant), Perímetro de Cintura,
Circunferencia del brazo relajado
c. Predictors: (Constant), Perímetro de Cintura,
Circunferencia del brazo relajado, Estatura Total
d. Dependent Variable: Peso Corporal
ANOVAd
Sum of
Model Squares df Mean Square F Sig.
1 Regression 2756.042 1 2756.042 89.107 .000a
Residual 927.888 30 30.930
Total 3683.930 31
2 Regression 3056.169 2 1528.085 70.591 .000b La prueba
Residual 627.760 29 21.647 de que
Total 3683.930 31
3 Regression 3221.128 3 1073.709 64.961 .000c
todos los
Residual 462.802 28 16.529 β ’s son
Total 3683.930 31 cero.
a. Predictors: (Constant), Perímetro de Cintura H 0 : β 0 = β1 = β 2 = β3 = 0
b. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -18.969 8.339 -2.275 .030
Perímetro de Cintura .103 .011 .865 9.440 .000
2 (Constant) -31.011 7.690 -4.033 .000
Perímetro de Cintura 6.334E-02 .014 .533 4.531 .000
Circunferencia del
.161 .043 .438 3.724 .001
brazo relajado
3 (Constant) -107.149 25.020 -4.283 .000
Perímetro de Cintura 5.158E-02 .013 .434 4.039 .000 Los coeficientes
Circunferencia del
.146 .038 .397 3.832 .001
estimados
brazo relajado
Estatura Total 5.586E-02 .018 .250 3.159 .004
βˆ0 , βˆ1, βˆ2 , βˆ3
180
Excluded Variablesd
Collinearity
Partial Statistics
Model Beta In t Sig. Correlation Tolerance
Variables
1 Estatura Total .288a 3.023 .005 .490 .729 excluidas en
Panículo del Tríceps .144a 1.398 .173 .251 .764 cada paso.
Circunferencia del a
.438 3.724 .001 .569 .425
brazo relajado
2 Estatura Total .250b 3.159 .004 .513 .718
Panículo del Tríceps -.166b -1.370 .182 -.251 .389
3 Panículo del Tríceps -.128c -1.191 .244 -.223 .384
a. Predictors in the Model: (Constant), Perímetro de Cintura
b. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado
c. Predictors in the Model: (Constant), Perímetro de Cintura, Circunferencia del brazo relajado,
Estatura Total
Residuals Statisticsa
Minimum Maximum Mean Std. Deviation N

Predicted Value 40.8726 88.6271 59.1669 10.03511 33
Residual -8.4559 8.0791 .0300 3.80688 33
Std. Predicted Value -1.798 2.887 -.004 .984 33
Std. Residual -2.080 1.987 .007 .936 33
Charts
Normal P-P Plot of Regression Stand
Dependent Variable: Peso Corporal
1.00
.75
Expected Cum Prob
.50
.25
0.00
0.00 .25 .50 .75 1.00
Observed Cum Prob
181
Scatterplot
Dependent Variable: Peso Corporal
3
Regression Standardized Residual
-1
-2
-3
40 50 60 70 80 90 100
Peso Corporal
Ejercicio. Los siguientes datos corresponden al peso y el nivel total de colesterol y

triglicéridos en 15 personas:
Peso Colesterol Triglicéridos
Total (mg/100 ml) (mg/100 ml)
76 302 139
97 336 101
83 220 57
52 300 56
70 382 113
67 379 42
75 331 84
78 332 186
70 426 164
99 399 205
75 279 230
78 332 186
70 410 160
77 389 153
76 302 139
f) Ajustar el modelo de regresión lineal múltiple

g) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
h) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
i) Verificar supuestos sobre los errores.
j) ¿El modelo estimado es correcto?
Ejercicio. Las siguientes mediciones se obtuvieron en 12 hombres con edades entre 12

y 18 años (todas las mediciones están en centímetros):
Estatura Longitud Longitud
del radio del fémur
149.0 21.00 42.50
152.0 21.79 43.70
182
155.7 22.40 44.75

159.0 23.00 46.00
163.3 23.70 47.00
166.0 24.30 47.90
169.0 24.92 48.95
172.0 25.50 49.90
174.5 25.80 50.30
176.1 26.01 50.90
176.5 26.15 50.85
179.0 26.30 51.10
f) Ajustar el modelo de regresión lineal múltiple
g) Realizar las pruebas de hipótesis sobre los coeficientes de las variables
independientes.
h) Calcular el coeficiente de determinación y el coeficiente de correlación múltiple.
i) Verificar supuestos sobre los errores.
j) ¿El modelo estimado es correcto?
183

Bioestadisticanotascurso PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bioestadisticanotascurso PDF

Transféré par

Droits d'auteur :

Formats disponibles

BIOESTADÍSTICA

Como su nombre lo dice, el objetivo principal de la ESTADÍSTICA INFERENCIAL es

HIPÓTESIS LITERAL HIPÓTESIS ESTADÍSTICA

Empero, es tarea de la estadística inferencial determinar si estas hipótesis son válidas

2. PRUEBAS O CONTRASTES DE HIPÓTESIS: Estrategia que, utilizando los datos

A. MÉTODO PARA HALLAR ESTIMADORES PUNTUALES

Existen diversos procedimientos para encontrar estimadores puntuales θˆ de los

cuadrados y el de función de verosimilitud. Por el momento, revisemos sólo éste

A.1) MÉTODO DE FUNCIÓN DE VEROSIMILITUD

A.1.1) Estimador del parámetro λ

• Sabemos que la distribución de la variable X es:

• Por ende, cada X i tiene tal distribución:

• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la

• Lo cual puede abreviarse a:

• Y ello reducirse en:

• Igualando a cero, el parámetro λ se convierte en estimador λ̂ y resta despejarlo:

A.1.2) Estimador del parámetro p

• Sabemos que la distribución de la variable X es:

• Por ende, cada X i tiene tal distribución:

• Siguiendo la expresión L( X 1 , X 2 , X 3 ,..., X n ) = P ( X 1 )P( X 2 )P( X 3 )...P ( X n ) , la

• Lo cual puede abreviarse a:

• Y ello reducirse en:

B. PROPIEDADES PARA DETERMINAR EL MEJOR ESTIMADOR

B.1) PROPIEDADES GENERALES

B.2) COMPROBACIÓN DE LAS PROPIEDADES

Veamos entonces, mediante algunos ejemplos, cómo se comprueba si un estimador

La media poblacional µ es un parámetro que se calcula con la siguiente expresión:

Si X 1 , X 2 , X 3 ,..., X n es una muestra aleatoria y E ( xi ) = µ , tres estimadores posibles

¿Cumplen estos tres estimadores con las propiedades antes mencionadas?

PROPIEDAD ESTIMADOR µ̂1

Ahora bien, comparemos algunas varianzas de tres parámetros:

PROPIEDAD VARIANZA DE ESTIMADORES

C. ESTIMADORES APROPIADOS MÁS COMUNES

Aunque es recomendable encontrar el estimador adecuado a través de un método y

INTERVALOS DE CONFIANZA y CONTRASTE DE HIPÓTESIS

A comparación de la estimación puntual, la construcción de intervalos es una técnica

Habiendo planteado el valor hipotético µ 0 en la hipótesis del investigador H inv , se

NULA H 0 , que siempre incluye en su planteamiento algún signo de igualdad (=, ≤, ≥ )

HIPÓTESIS DEL HIPÓTESIS

Si bien en los intervalos de confianza basta comparar el valor hipotético µ 0 propuesto

B.2) ERRORES POSIBLES Y SU CONTROL

HIPÓTESIS NULA H 0 VERDADERA FALSA

La probabilidad de cometer el ERROR TIPO I es conocido como la SIGNIFICANCIA

α = P (rechazar H 0 dado que H 0 es verdadera )

En general, la significancia α es desconocida, así que el investigador la fija. Como de

Ahora bien, se define al ERROR TIPO II como la POTENCIA de la prueba y se le

β = P (error tipo II)

β = P (no rechazar H 0 dado que H 0 es falsa )

β = P (no rechazar H 0 | H 0 es falsa )

B.3) HIPÓTESIS NULAS Y SU REGIÓN DE RECHAZO

Con respecto a la significancia α , cabe mencionar que su valor también determina la

ESTIMACIÓN DE LA MEDIA POBLACIONAL µ

A.1) EN POBLACIONES CON DISTRIBUCIÓN NORMAL

Si la variable aleatoria tiene una distribución normal con media µ y varianza σ 2 ,

De acuerdo a esta fórmula, el intervalo estaría entre dos valores: − Z y Z , rodeados

Pero no olvidemos que el punto es encontrar un intervalo de confianza al (1 − α ) por

De esta forma tenemos que, el intervalo al (1 − α ) por ciento de confianza para µ

El problema de esta expresión para determinar el intervalo de µ es que supone

Ante esta incoherencia, la opción es sustituir σ por su estimador puntual s :

Por tal motivo, la expresión para encontrar el intervalo al (1 − α ) por ciento de

EXPRESIÓN PARA ENCONTRAR UN INTERVALO AL

(1 − α 2 ) por ciento de confianza y

n − 1 grados de libertad (g.l.), s la desviación