Vous êtes sur la page 1sur 68

DISTRIBUCION DE

PROBABILIDADES
Variables Aleatorias Discretas y Continuas

Comprende la Variable aleatoria discreta y su distribución


de probabilidad. Y las principales Distribuciones.

Ing. Fléli Ricardo Jara Claudio


20/05/2016
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

DISTRIBUCION DE PROBABILIDADES

VARIABLES ALEATORIAS

Es una variable (casi siempre representada por X) que tiene un solo valor
numérico (determinado al azar) para cada resultado de un experimento. Es una
variable asociada a un experimento aleatorio.

Ejemplos:

x= el número de accidentes de combi de entre siete accidentes de transito


registrados al azar.

x = el número de mujeres entre 10 empleados recién contratados.

x = el número de estudiantes que faltaron hoy a la clase de estadística.

x = la estatura (en cm) de una mujer escogida al azar.

Usamos el término de variable aleatoria para describir el valor que corresponde


al resultado de un experimento dado. Usamos la palabra aleatoria para
acordarnos de que no conocemos ese valor antes de llevar a cabo el experimento.

Una variable aleatoria discreta tiene un número finito de valores o un número de


valores susceptibles de contarse.

Ejemplo:

 El computo del número de alumnos por aula.


 El número de cursos desaprobados por un alumno.
 El número de revistas vendidas en un día.

Una variable aleatoria continua tiene un número infinito de valores posibles,


éstos pertenecen a un intervalo, y dichos valores pueden asociarse a mediciones
en una escala continua de tal manera que no haya espacios vacíos.

Ejemplos:

 La medida de voltaje del medidor eléctrico.


 La medida de peso de un grupo de vacas.
 La medida de estatura de un grupo de recién nacidos.

Si conocemos todos los valores de una variable aleatoria junto con sus
correspondientes probabilidades, tenemos una distribución de probabilidad, que se
define así:

Ing. Fléli R. Jara Claudio


DOCENTE Página 1
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

VARIABLE ALEATORIA DISCRETA Y SU DISTRIBUCIÓN DE PROBABILIDAD

La distribución de probabilidad de una VARIABLE ALEATORIA DISCRETA X, es


el conjunto de pares [X, p(x)]; donde:

x representa a un valor observado de la variable aleatoria y p(x) = P(X=x)


representa la correspondiente probabilidad y es la fracción de veces que puede
esperarse que x ocurra y, cumple con las siguientes propiedades:

i) 0≤ p(x) ≤ 1
ii) ∑p(x) = 1

Ejemplo

Una biblioteca que cuenta con un total de 4270 libros, clasifica estos libros según el
número de hojas deterioradas, siendo 12 el número máximo de hojas deterioradas.
La variable aleatoria en estudio es X.
X= Número de hojas deterioradas encontradas en un libro.
Esto es una variable discreta y el rango de posibles valores de X puede
ser:
Rx = { 0,1,2,3,………..12}
Encontremos la distribución de probabilidad de número de hojas deterioradas.

Número de hojas deterioradas (X) Número de libros (fi) P(X=x)


0 1394 0.3265
1 1369 0.3206
2 803 0.1881
3 357 0.0836
4 201 0.0471
5 71 0.0166
6 36 0.0084
7 18 0.0042
8 9 0.0021
9 5 0.0012
10 3 0.0007
11 3 0.0007
12 1 0.0002
4270

Ing. Fléli R. Jara Claudio


DOCENTE Página 2
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

FUNCION DE DISTRIBUCIÓN

La función de distribución está definida como la probabilidad de que la variable


aleatoria X tome un valor inferior o igual a x, es decir:

F(X) = P (X≤x)

A continuación se presenta la función de distribución:

Número de hojas
f(x)=p(X≤x)
deterioradas (X)
0 0.3265 F(X) = f(0) = P(X≤0) = 0.3265
1 0.6471 F(X) = f(1) = P(X≤1) = 0.6471
2 0.8351 F(X) = f(2) = P(X≤2) = 0.8351
3 0.9187 F(X) = f(3) = P(X≤3) = 0.9187
4 0.9658 F(X) = f(4) = P(X≤4) = 0.9658
5 0.9824 F(X) = f(5) = P(X≤5) = 0.9824
6 0.9909 F(X) = f(6) = P(X≤6) = 0.9909
7 0.9951 F(X) = f(7) = P(X≤7) = 0.9951
8 0.9972 F(X) = f(8) = P(X≤8) = 0.9972
9 0.9984 F(X) = f(9) = P(X≤9) = 0.9984
10 0.9991 F(X) = f(10) = P(X≤10) = 0.9991
11 0.9998 F(X) = f(11) = P(X≤11) = 0.9998
12 1.0000 F(X) = f(12) = P(X≤12) = 1.0000

La función de distribución es expresada de la siguiente forma:

0.0000 x<0
0.3265 0≤X<1
0.6471 1≤X<2 F(X) es también
0.8351 2≤X<3 llamado función
F(X) = P (X≤x) = 0.9187 3≤X<4 escalera.
0.9658 4≤X<5
0.9824 5≤X<6
0.9909 6≤X<7
0.9951 7≤X<8
0.9972 8≤X<9
0.9984 9≤X<10
0.9991 10≤X<11
0.9998 11≤X<12
1.0000 X≤12

Ing. Fléli R. Jara Claudio


DOCENTE Página 3
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

En base a la distribución de probabilidad encontrada responda las siguientes


preguntas:

i) ¿Cuál es la probabilidad de que un libro seleccionado aleatoriamente a lo


más contenga dos hojas deterioradas? Respuesta: 0.8351.
ii) ¿Cuál es la probabilidad de que un libro seleccionado aleatoriamente tenga
entre 4 y 7 hojas deterioradas inclusive? Respuesta: 0.0764.

VARIABLES ALEATORIAS DISCRETAS

LA MEDIA, VARIANZA Y DESVIACIÓN ESTANDAR

La media de una variable aleatoria discreta X (media de la distribución) se define


por:

µ = E(x) = ∑ x*p(x)

La varianza de una variable aleatoria discreta X (varianza de la distribución) se


define por:

2 = Var(x) = ∑ (X - µ)2; 2 = ∑X2*p(x) - [∑ x*p(x)]2

La desviación estándar es la raíz cuadrada de la varianza

 = 2√𝑉𝐴𝑅(𝑋) = √[(𝑋 − µ)2

Ejemplo:

Número de hojas deterioradas (X) Número de libros (fi) P(X=x) X2*p(x)


0 1394 0.3265 0.0000
1 1369 0.3206 0.3206
2 803 0.1881 0.7522
3 357 0.0836 0.7525
4 201 0.0471 0.7532
5 71 0.0166 0.4157
6 36 0.0084 0.3035
7 18 0.0042 0.2066
8 9 0.0021 0.1349
9 5 0.0012 0.0948
10 3 0.0007 0.0703
11 3 0.0007 0.0850
12 1 0.0002 0.0337
4270 3.9230

Ing. Fléli R. Jara Claudio


DOCENTE Página 4
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Obtener del presente cuadro la media, varianza y desviación estándar:

Solución.

Hallando la media (µ)


12

𝜇 = ∑[𝑋 ∗ 𝑝(𝑥 )] = 0 ∗ 0.3265 + 1 ∗ 0.3206 + ⋯ + 12 ∗ 0.0002 = 1.3435


𝑥=0

12

𝜇 = ∑[𝑋 ∗ 𝑝(𝑥)] = 1.3435


𝑥=0

Y se puede decir que el número promedio es de una hoja deteriorada.

Hallando VARIANZA (2)

𝜎 2 = 𝑉𝑎𝑟(𝑥 ) = ∑(𝑥 − 𝜇)2 ; 𝜎 2 = ∑ 𝑋 2 ∗ 𝑝(𝑥 ) − [∑ 𝑥 ∗ 𝑝(𝑥)]2

𝜎 2 = 3.9230 − [1.3435]2 = 2.1180

Hallando DESVIACIÓN ESTANDAR ()

= √𝑉𝐴𝑅(𝑋) = √2.1180 = 1.4553


2

Ing. Fléli R. Jara Claudio


DOCENTE Página 5
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

DISTRIBUCIONES

DISCRETA CONTINUA

Binomial
Normal

Poisson
Uniforme

Bernoulli
Chi cuadrado

Geométrica
t de student

Pascal Fisher y Snedecor

DISTRIBUCIONES DISCRETAS

DISTRIBUCION BINOMIAL

Un experimento binomial es uno que satisface todos los siguientes requisitos:

1. El experimento debe tener un número fijo de ensayos.


2. Los ensayos deben ser independientes (el resultado de cualquier
ensayo individual no afecta las probabilidades de los otros ensayos).
3. Todos los resultados de cada ensayo se deben clasificar en dos
categorías (éxito y fracaso).
4. Las probabilidades deben mantenerse constantes para cada ensayo.

Si realizamos un experimento binomial, la distribución de la variable


aleatoria X se denomina distribución de probabilidad binomial (o distribución
binomial). Suele utilizarse la notación siguiente:
E Y F (éxito y fracaso) denotan las dos posibles categorías de los
resultados; p y q denotan las probabilidades de E y F, respectivamente, de modo
que:
P (E) = p P (F) = 1 – p = q
n = denota el número fijo de ensayos.
x = denota un número específico de éxitos en n ensayos, así que x
puede ser cualquier número entre 0 y n, inclusive.
Ing. Fléli R. Jara Claudio
DOCENTE Página 6
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

p = denota la probabilidad de tener éxito en uno de los n ensayos.


q = denota la probabilidad de fracasar en uno de los n ensayos.
P(x) = denota la probabilidad de lograr exactamente x éxitos en los n
ensayos.

NOTA: Al muestrear sin reemplazo, los sucesos se pueden considerar


independientes; si el tamaño de la muestra no es más del 5% del
tamaño de la población (es decir, n ≤ 0.05N).

¿Cómo calcular probabilidades en un experimento binomial?

1. Ley de probabilidad: la distribución de probabilidad binomial está


dada por la siguiente función:

p(x) = P (X= x) = 𝐶𝑥𝑛 . px.qn-x; x = 0, 1, 2, 3,……………………,n

𝑛!
Donde 𝐶𝑥𝑛 =(𝑛−𝑥)!∗𝑥!
Los parámetros de la distribución binomial son n y p. Si la x tiene
distribución binomial se denota así: X~B(n, p)
2. Usando la tabla de probabilidades binomiales.
3. Uso de Programas Informáticos.

MEDIA Y VARIANZA DE LA DISTRIBUCIÓN BINOMIAL

La media y la varianza de la DISTRIBUCIÓN BINOMIAL

LA MEDIA (Esperanza matemática)

𝜇 = 𝐸 (𝑋 ) = 𝑛 ∗ 𝑝

LA VARIANZA

𝜎 2 = 𝑉𝐴𝑅 (𝑋) = 𝑛 ∗ 𝑝 ∗ 𝑞

Ing. Fléli R. Jara Claudio


DOCENTE Página 7
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

La función de distribución acumulativa de probabilidades de la distribución


binomial está dada por:

𝐹 (𝑋) = 𝑃(𝑋 ≤ 𝑥 ) = ∑ 𝑃(𝑋 = 𝑥𝑖 ) = ∑ 𝐶𝑥𝑛𝑖 ∗ 𝑝 𝑥𝑖 ∗ 𝑞 𝑛−𝑥𝑖 𝑒𝑛 𝑎𝑚𝑏𝑜𝑠 𝑐𝑎𝑠𝑜𝑠 𝑥𝑖 ≤ 𝑥.

EJEMPLOS:

1. Se lanza una moneda correcta 5 veces. Sea x=el número de caras


obtenidas. Calcule la probabilidad de obtener:
a) 3 caras. Respuesta: 0.3125
b) A lo más 2 caras. Respuesta: 0.5000
c) La distribución de probabilidades.
d) La función de distribución acumulativa.
X 0 1 2 3 4 5
P(X=x) 0.03125 0.15625 0.31250 0.31250 0.15625 0.03125
P(X≤ 𝒙) 0.03130 0.18750 0.50000 0.81250 0.96880 1.00000

2. Supongamos que Aero Cóndor opera el 20% de los vuelos, y que todos los
vuelos tienen la misma probabilidad de tener un accidente. Si
representamos con la variable aleatoria X el número de accidentes de Aero
Cóndor de entre siete vuelos seleccionados al azar, calcule la probabilidad
que, entre siete accidentes, tres sean de Aero Cóndor. Respuesta:
0.114688
3. Históricamente, la probabilidad de que un alumno de maestría en
Educación desapruebe el curso de metodología de la investigación es p =
0.45. Se obtiene una muestra aleatoria de 6 estudiantes de maestría que
llevan el curso de metodología de la investigación y se pide encontrar:
a) El número esperado de alumnos que desaprueban el curso.
Respuesta: 2.7 ≅ 𝟑.
b) La probabilidad de que exactamente tres alumnos desaprueban el
curso. Respuesta: 0.30321844.
c) La probabilidad que a lo más dos alumnos desaprueben el curso.
Respuesta: 0.44151766.
d) Por lo menos cinco alumnos desaprueben el curso. Respuesta:
0.069198047.

Ing. Fléli R. Jara Claudio


DOCENTE Página 8
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

DISTRIBUCIÓN DE POISSON

Si alguna vez ha hecho cola para pagar la cuenta de la luz, es probable


que su comportamiento haya sido analizado con la distribución de Poisson, que
es una distribución de probabilidad que a menudo se usa como modelo
matemático para describir las llegadas de personas a una fila. Otras aplicaciones
incluyen el estudio de choques de vehículos, compradores que llegan a un
mostrador con un cajero, automóviles que llegan a una gasolinera y usuarios de
computadoras que se conectan a Internet. La distribución de Poisson se define
como se indica.

La distribución de Poisson es una distribución de probabilidad discreta que


se aplica a ocurrencias de algún suceso dentro de un intervalo especificado. La
variable aleatoria x es el número de ocurrencias del suceso en un intervalo. El
intervalo puede ser tiempo, distancia, área, volumen o alguna unidad similar.

La probabilidad de que el suceso ocurra x veces dentro de un intervalo


está dada por la fórmula:

𝜇 𝑥 ∗ 𝑒 −𝜇
𝑃(𝑋) =
𝑥!
Como ejemplo de variable aleatoria en una distribución de Poisson
podemos citar:

 El número de automóviles que llegan a una gasolinera durante un minuto.


 El número de piezas defectuosas que se cambian a un computador durante el
primer año de la garantía.
 El número de asaltos a mano armada durante una semana.

La distribución de Poisson tiene los requisitos siguientes:

 La variable aleatoria x es el número de ocurrencias de un suceso durante


cierto intervalo.
 Las ocurrencias deben ser aleatorias.
 Las ocurrencias deben ser independientes unas de otras.
 Las ocurrencias deben estar uniformemente distribuidas dentro del intervalo
empleado.
La distribución de Poisson tiene los siguientes parámetros:
La media es µ = n*p
La desviación estándar es µ = √µ

Ing. Fléli R. Jara Claudio


DOCENTE Página 9
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

La distribución Poisson se deduce como un límite de la distribución binomial y


como un proceso Poisson.
Como un límite de la distribución binomial, se toma con media a 𝜆 = n*p
asumiendo p pequeño (p→0) y n grande (n→∞). La distribución de
probabilidades de la variable aleatoria discreta de Poisson x = número de
éxitos viene dada por:

𝜆𝑥∗𝑒 −𝜆
p(x) = P(X=x) = = ; x = 0, 1, 2, 3………………..
𝑥!

El parámetro de la distribución Poisson es 𝜆. Si una variable X tiene distribución


Poisson, se le denota así X ~ P(𝜆) y la ley de probabilidades es la antes indicada.

Media y Varianza de la distribución Poisson

La media y la varianza de la distribución Poisson es la misma e igual a 𝜆.

µ = E(X) = 2 = Var (X) = 𝜆

La función de distribución acumulativa de probabilidades


Está dada por:

𝑥
𝜆 𝑖 ∗ 𝑒− 𝜆
𝐹 (𝑥 ) = 𝑃 (𝑋 ≤ x) = ∑ 𝑃 (𝑋 = 𝑥 ) = ∑
𝑥𝑖≤𝑥 𝑥𝑖≤𝑥
𝑥𝑖 !

Ejemplos

1. Un conmutador recibe en promedio 5 llamadas sobre autos extraviados por


hora. ¿Cuál es la probabilidad de que en una hora tomada al azar reciba?
a) Ninguna llamada. Respuesta: 0.006737947.
b) Exactamente 3 llamadas. Respuesta: 0.140373896
c) No más de 3 llamadas. Respuesta: 0.265025915.
2. Una compañía constructora tiene un promedio semanal de 0.32 accidentes
que requieren atención médica. Calcule la probabilidad que, en una semana
seleccionada al azar el número de accidentes que requieren atención
médica sea 2. Respuesta: 0.037178831.
3. El promedio de llamadas recibidas por una central telefónica en un minuto
es igual a 2. Calcule la probabilidad de que en 2 minutos se reciban:
a) 3 llamadas. Respuesta: 0.195366815.
b) A lo más 2 llamadas. Respuesta: 0.238103306.

Ing. Fléli R. Jara Claudio


DOCENTE Página 10
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

c) La distribución de probabilidades
d) La función de distribución acumulativa de probabilidades.

X 0 1 2 3
P(X=x) 0.018315639 0.07326256 0.14652511 0.19536681
P(X≤ 𝒙) 0.018315639 0.09157819 0.23810331 0.43347012

DISTRIBUCIÓN DE PROBABILIDAD DE UNA VARIABLE CONTINUA

Una variable aleatoria continua es aquella que puede asumir cualquier valor en un
intervalo específico de valores.

En consecuencia, entre dos valores cualesquiera asumidos por la variable


aleatoria continua existe un número INFINITO DE VALORES.

DEFINICIÓN

La distribución NORMAL es el modelo de probabilidad de mayor uso, es una


distribución teórica de variable ALEATORIA CONTINUA, que puede expresarse en
la forma general o ESTANDARIZADA.

Tiene simetría perfecta, en forma de una campana UNIMODAL, LA MEDIA Y LA


MODA son iguales.

En la práctica es frecuente que la mayoría de las distribuciones, para un número


grande de casos se distribuyen como una CURVA NORMAL o CURVA DE
GAUSS.

Ing. Fléli R. Jara Claudio


DOCENTE Página 11
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
Normal, Media=9.8, Desv.Est.=0.53
0.8

0.7

0.6

0.5
Densidad

0.4

0.3

0.2

0.1

0.0
8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5
X

La Distribución Normal cuya función de DENSIDAD O DE DISTRIBUCIÓN está


dad por la expresión:

1 2 /2𝜎2
N (µ, ) = = ∗ 𝑒 − (𝑥−𝜇 )
√2𝜋

Donde: -∞ ≤x≤+∞ -∞ <x<∞

-∞ < µ <∞

>0

µ = media poblacional

 = desviación estándar

𝑒 = 2.7183

π = 3.1416

Ing. Fléli R. Jara Claudio


DOCENTE Página 12
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Como función de probabilidad, se asume que el área encerrada por la curva y el


eje X, es igual a uno. Además se puede determinar áreas bajo la curva
comprendida entre 2 ordenadas levantadas por ejemplo en los puntos a y b.

Esta área estaría definiendo la probabilidad de la variable comprendida entre los


extremos a y b. es decir p (a≤x≤b) = área entre a y b.

La forma general de la distribución normal

1 2 /2𝜎2
N (µ,) = = ∗ 𝑒 − (𝑥−𝜇 ) ; -∞ <x<∞
√2𝜋

Se puede simplificar cuando se hace un cambio de variable, es decir, transformar


la variable original X en una nueva variable Z, mediante la relación:

𝑋− 𝜇
𝑍=
𝜎
En estas condiciones;

N (µ,) -----------------------------------------------N (0, 1)

X Z

𝑋− 𝜇
𝑍=
𝜎
µ≠0 µ=0

>0 =1

Esto constituye la ESTANDARIZACIÓN DE LA CURVA NORMAL, por lo tanto da


origen a lo que se denomina la CURVA NORMAL ESTANDARIZADA O
TIPIFICADA, cuya expresión es ahora.
1 2
1
N (µ, ) = ∗ 𝑒 −2∗𝑍 ; -∞ ≤Z≤+∞
√2𝜋

NOTACIÓN: X~N (µ, 𝜎 2 )

Ing. Fléli R. Jara Claudio


DOCENTE Página 13
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

En esta curva, las áreas comprendidas entre dos puntos cualesquiera (Z1, Z2)
también se encuentran tabuladas en las tablas de áreas bajo la curva normal
tipificada o estándar de 0 a Z. (VER TABLA)

CARACTERÍSTICAS

1. La curva f(x) es de forma acampanada y tiene como asíntota el eje de las


abscisas.
2. Es simétrica respecto a la recta vertical X= µ
3. Presenta una relación entre media “µ” y desviación estándar 𝜎:
Si µ = 1, 𝜎 2 = 1; entonces la variable tiene una distribución normal estándar.

DISTRIBUCIONES MUESTRALES

Uno de los objetivos de la estadística es conocer acerca del


comportamiento de parámetros poblaciones como: la media (𝜇), la variancia (𝜎 2 ) o
la proporción (p). Para ello se extrae una muestra aleatoria de la población y se
calcula el valor de un estadístico correspondiente, por ejemplo, la media muestral
(𝑥̅ ), la varianza muestral (S2) o la proporción muestral (ṗ). El valor del estadístico
es aleatorio porque depende de los elementos elegidos en la muestra
seleccionada y, por lo tanto, el estadístico tiene una distribución de probabilidad la
cual es llamada la Distribución Muestral del estadístico.

DISTRIBUCIÓN DE LA MEDIA MUESTRAL CUANDO LA POBLACIÓN ES


NORMAL

Si se extraen muestras aleatorias de tamaño n de una población infinita que


tiene media poblacional 𝜇 y varianza 𝜎 2 , entonces se tiene que:
i) La media de las medias muestrales es igual a la media poblacional.
Es decir: 𝜇𝑥̅ = 𝜇.
ii) La varianza de las medias muestrales es igual a la varianza
poblacional dividida por n. en consecuencia la desviación estándar de las medias
muestrales (llamada también el error estándar de la media muestral), es igual a la
desviación estándar poblacional dividida por la raíz cuadrada de n, es decir 𝜎𝑥̅ =
𝜎
√𝑛

Ing. Fléli R. Jara Claudio


DOCENTE Página 14
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Si la población fuera finita de tamaño N, entonces se aplica el factor de

𝑁−𝑛
corrección √𝑁−1 al error estándar de la media muestral. Pero en la práctica este

factor es omitido a menos que la muestra sea lo suficientemente grande


comparada con la población.

Si además la población se distribuye normalmente, entonces la media


muestral también tiene una distribución normal con la media y varianza
anteriormente indicadas. Pero si la población no es normal solamente se cumple i)
y ii). Cuando la muestra es grande se aplica el TEOREMA DEL LIMITE CENTRAL
para la distribución de la media muestral.

TEOREMA DEL LIMITE CENTRAL

Un importante resultado en Probabilidades y Estadística es el llamado


Teorema del límite Central que dice que si de una población infinita con media
𝜇 y varianza 𝜎 2 se extraen muestras aleatorias de tamaño n, entonces la media
muestral se comporta aproximadamente como una variable aleatoria normal con
media igual a la media poblacional y con varianza igual a la varianza poblacional
dividida por el tamaño de la muestra, siempre que n sea grande. Lo importante de
este resultado es que es independiente de la forma de la distribución de la
población. Es decir,

𝜎2
𝑥̅ ~ N (µ, 𝑛
)

Cuando n es grande. Estandarizado, esto es equivalente a:

𝑥̅ − 𝜇
𝑍= 𝜎 ~ N (0,1)
√𝑛

Si la población es bastante simétrica entonces, un tamaño de muestra n de


aproximadamente 30 es suficiente para una buena aproximación a la normal. Si la
población es bastante asimétrica, entonces el tamaño de muestra debe ser mucho
más grande.
Luego de aplicar estandarización, las siguientes fórmulas se cumplen,
aproximadamente si la población no es normal y exactamente si lo es.

𝑎−𝜇
i) P(𝑥̅ < 𝑎) = P(Z< 𝜎
√𝑛

Ing. Fléli R. Jara Claudio


DOCENTE Página 15
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

𝑎−𝜇 𝑏−𝜇
ii) P(a<𝑥̅ < 𝑏) = P( 𝜎 <Z< 𝜎 )
√𝑛 √𝑛

𝑏−𝜇
iii) P(𝑥̅ > 𝑏) = P(Z> 𝜎 )
√𝑛

USO DE LA TABLA DE AREAS DE LA CURVA NORMAL ESTANDARIZADA

A partir de la distribución norma, calcular la probabilidad de un suceso, cuya


variable estandarizada (Z) está comprendida entre los siguientes valores (en todos
los casos se ha sombreado el área que corresponde a la probabilidad que se
desea determinar).

PRIMER CASO SEGUNDO CASO


Entre Z=0 y Z=1,3 Entre Z= -0.72 y z=0
P (0≤ZV1.3) = 0.4032 p (-0.72≤Z≤0) = p ((0≥Z≥0.72) = 0.2642
Este valor se busca en la tabla Este valor se busca en la tabla
para el valor Z=1.3 para el valor Z=-0.72

Gráfica de distribución Gráfica de distribución


Normal, Media=0, Desv.Est.=1 Normal, Media=0, Desv.Est.=1

0.4 0.4
0.2642

0.4032
0.3 0.3
Densidad

Densidad

0.2 0.2

0.1 0.1

0.0 0.0
0 1.3 -0.72 0
X X

TERCER CASO CUARTO CASO

Entre Z=-0.48 y Z= 2.15 Entre Z = 0.80 y Z = 1.94


Por el gráfico se trata de la suma de dos Aquí al área (0; 1.94) se le resta el
Áreas. el área (0; 0.80)
A (0; -0.48) y A’ (0; 2.15) p (0.80≤Z≤1.94)=p (0≤Z≤1.94) - p (0≤Z≤0.80)
p (-0.48≤Z≤2.15) = p (-0.48≤Z≤0)+ p (0≤Z≤2.15) 0.4738 – 0.2881 = 0.1857
p (-0.48≤Z≤2.15) = 0.4842 + 0.1844 = 0.6686

Ing. Fléli R. Jara Claudio


DOCENTE Página 16
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución Gráfica de distribución


Normal, Media=0, Desv.Est.=1 Normal, Media=0, Desv.Est.=1

0.4 0.4

0.3 0.6686 0.3


Densidad

Densidad
0.2 0.2
0.1857

0.1 0.1

0.0 0.0
-0.48 0 2.15 0 0.8 1.94
X X

QUINTO CASO SEXTO CASO

Entre Z = -2.30 y Z = - 0.82 A izquierda o menores de Z = -0.90


Se calcula las áreas por simetría p (-∞≤Z≤-0.90) = p (Z≤-0.90)

p (-2.30≤Z≤-0.82) = p (0≤Z≤-2.30) - p (0≤Z≤-0.82) p (-∞≤Z≤-0.90) = 0.5000 – 0.3159 = 0.1841


p (-2.30≤Z≤-0.82) = 0.4893 – 0.2939 = 0.1954
Gráfica de distribución Gráfica de distribución
Normal, Media=0, Desv.Est.=1 Normal, Media=0, Desv.Est.=1

0.4 0.4

0.3 0.3
Densidad

Densidad

0.2 0.2

0.1954
0.1 0.1
0.1841

0.0 0.0
-2.3 -0.82 0 -0.9 0
X X

SEPTIMO CASO OCTAVO CASO

A la derecha o mayor de Z = 1.72 A la derecha de Z = -1.25 o mayor


p (1.72≤Z≤20) = p (Z≥1.72) de Z = -1.25
p (Z≥1.72) = 0.5000 – 0.4573 = 0.0427 p (Z≥-1.25) = 1 – (0.5000 + 0.3944) = 0.894

Gráfica de distribución
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
Normal, Media=0, Desv.Est.=1
0.4
0.4

0.3 0.3
0.8944
Densidad
Densidad

0.2 0.2

0.1 0.1

0.04272
0.0 0.0
0 1.72 -1.25 0
X X

Ing. Fléli R. Jara Claudio


DOCENTE Página 17
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

NOVENO CASO

Que Z sea menor que -1.96 o mayor que 1.96


p (Z<-1.96) o Z>1.96)
p (Z<-1.96) = 0.500 – p (-1.96<Z<0)
p (Z<-1.96) = 0.5000 – 0.4750 = 0.0250
Por la simetría que tiene el gráfico:
p (Z<-1.96) o Z>1.96) = p (Z<-1.96) + p (Z>1.96)
p (Z<-1.96) o Z>1.96) = 0.0250 + 0.0250 = 0.0500

Gráfica de distribución
Normal, Media=0, Desv.Est.=1

0.4

0.3
Densidad

0.2

0.1

0.02500 0.02500
0.0
-1.96 0 1.96
X

También se puede resolver así:

p (Z<-1.96) o Z>1.96) = 1 – [p (Z<-1.96) + p (Z>1.96)]


p (Z<-1.96) o Z>1.96) = 1 – [0.4750 + 0.4750] = 0.0500

DECIMO CASO
A la derecha de Z = 2.06 y a la izquierda de Z= -1.48 también significa que
Z > 2.06 o Z < -1.48
p (Z > 2.06 o Z < -1.48) = 1 – ((Z < 2.06 + Z > -1.48)
p (Z > 2.06 o Z < -1.48) = 1 – (0.4803+ 0.4306)
p (Z > 2.06 o Z < -1.48) = 1 – 0.91098.91 = 0.0891

Ing. Fléli R. Jara Claudio


DOCENTE Página 18
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
Normal, Media=0, Desv.Est.=1

0.4

0.3
Densidad

0.2

0.4306 0.4803
0.1

0.0
-1.48 0 2.06
X

LA DISTRIBUCIÓN NORMAL ESTANDAR

Si una variable X~N (µ, 𝜎 2 ) y se define la variable 𝑍=


𝑋− 𝜇
𝜎
entonces la variable
aleatoria Z tiene distribución normal estándar = N(0,1) y su función de densidad de
probabilidades está dado por:
1 2
1
f(z) = ∗ 𝑒 − 2∗𝑍 ; -∞ ≤Z≤+∞
√2𝜋

La función de distribución acumulada de la distribución normal estándar se denota


y define así:
𝑧 1 2
1
D (z) = P (Z≤z) = ∫−∞ ∗ 𝑒 − (2) , dt se cumple que ᶲ (-z) = 1 - ᶲ (z) para Z>0.
√2𝜋

Estas probabilidades han sido calculadas y aparecen en la denominada tabla de la


distribución normal estándar y facilitada por el uso de programas.

ESTANDARIZACIÓN

Es el proceso por el cual una variable aleatoria X~N (µ, 𝜎 2 ) se transforma en otra
𝑋− 𝜇
variable aleatoria 𝑍 = ~ N (0,1); permitiendo el calculo de probabilidades
𝜎
cuando x se encuentra entre dos números reales a y b del siguiente modo.
𝑎− 𝜇 𝑥− 𝜇 𝑏− 𝜇
p (a≤Z≤b) = p [ ≤ ≤ ]
𝜎 𝜎 𝜎

𝑎− 𝜇 𝑏− 𝜇 𝑏− 𝜇 𝑎− 𝜇
=p[ ≤𝑍≤ ]=ᶲ[ - ]
𝜎 𝜎 𝜎 𝜎

Ing. Fléli R. Jara Claudio


DOCENTE Página 19
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

EJEMPLO

Los diámetros de los tubos fabricados por cierta máquina tienen distribución
normal con media de 9.8 mm y desviación estándar (𝜎) de 0.53 mm.

a) ¿Qué proporción de tubos serán rechazados, si no se aceptan diámetros


inferiores a 9 mm?
b) ¿Qué proporción de tubos tiene un diámetro entre 8.5 mm y 11.0 mm?.
c) ¿Por debajo de qué diámetro se encuentra el 95% de los tubos?

Distribución chi-cuadrado

Tablas estadísticas/Distribución chi-cuadrado

La Distribución chi-cuadrado, tiene por función de densidad

Donde el parámetro k de , se denomina grados de libertad de la distribución.

La Distribución chi-cuadrado no tiene sentido para valores negativos de x, como


se puede ver en la figura.

Téngase en cuenta que para k = 1 y k = 2 la función de densidad para x = 0, se


hace infinito:

Para el resto de los valores de k, para x = 0, la función vale 0.

Ing. Fléli R. Jara Claudio


DOCENTE Página 20
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

La Distribución de probabilidad de esta función para valores menores de un x


dado, que representamos por

Donde:

Esta integral no tiene una solución conocida, y solo se conocen métodos


numéricos para calcular sus valores, hay distintos tipos de tablas y algoritmos para
ordenador con los que se pueden calcular sus soluciones, veamos una tabla
distribución chi-cuadrado y su modo de utilización.

La Tabla

Esta tabla presenta la distribución de probabilidad de chi-cuadrado para distintos


valores de k(de 1 a 10) y de x(de 0 a 20 de 0,2 de incremento), presentándolo con
seis cifras decimales, separadas de tres en tres por un espacio en blanco para
facilitar la lectura, en la fila superior están los valores de k, y en la columna de la
izquierda los de x, donde se cruzan la columna de la k buscada y la fila de la x, se
encuentra el valor de la probabilidad acumulada desde 0 a la x buscada.

Ejemplo:

Cual es la Distribución de probabilidad de chi-cuadrado de 4 grados de libertad de


que x< 1,2

Buscando en la tabla la columna del 4 y la fila de 1,2, tenemos:


ó 12.19%.

Ing. Fléli R. Jara Claudio


DOCENTE Página 21
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
Chi-cuadrada, df=4
0.20

0.15

0.1219

Densidad
0.10

0.05

0.00
0 1.2
X

Para otros valores de x

En la tabla podemos encontrar directamente la probabilidad: , pero se


pueden presentar otros casos, veamos algunos.

Para la variable mayor que x

Para calcular , partimos de la expresión:

La probabilidad de que la variable estadística sea menor que x más la probabilidad


de que sea mayor que x es la certeza, de probabilidad 1.

Operando:

Ejemplo

Ing. Fléli R. Jara Claudio


DOCENTE Página 22
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Calcular la distribución de probabilidad de una variable estadística chi-cuadrado,


de 6 grados de libertad sea mayor de 3,4.

Según lo anterior:

Buscando en la tabla tenemos:

Con lo que tenemos:

Operando tenemos:

o 75.72%
Gráfica de distribución
Chi-cuadrada, df=6
0.14

0.12

0.10
Densidad

0.08

0.06

0.04
0.7572
0.02

0.00
0 3.4
X

Que es la respuesta a la pregunta.

Para la variable mayor que x1 y menor que x2

Ing. Fléli R. Jara Claudio


DOCENTE Página 23
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Para calcular la probabilidad de que:

Siendo:

Tenemos que:

Ejemplo

Cual es la probabilidad de que una variable chi-cuadrado de 8 grados de libertad


esté comprendida entre 3,4 y 5,6.

Esto es:

Según la tabla tenemos:

Ing. Fléli R. Jara Claudio


DOCENTE Página 24
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Según lo anterior, tenemos que:

Sustituyendo los valores:

Operando:

Gráfica de distribución
Chi-cuadrada, df=8
0.12

0.2149
0.10

0.08
Densidad

0.06

0.04

0.02

0.00
0 3.4 5.6
X

Con lo que tenemos la respuesta.

Interpolación lineal.

La función chi-cuadrado es continua para x mayor que cero, pero en la tabla solo
se recogen algunos de sus valores, si bien la tabla podría hacerse más extensa el
numero de valores recogidos siempre seria finito, para calcular los valores no
recogidos en la tabla podemos emplear la interpolación lineal.

Ing. Fléli R. Jara Claudio


DOCENTE Página 25
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

La interpolación lineal, parte de unos puntos conocidos de la función, y los valores


intermedios los determina por la recta que une estos dos puntos, este método
siempre añade un cierto error, al sustituir la función: y= f(x) por la recta que une
dos puntos: y= r(x), que siempre será menor que tomar el valor conocido más
próximo de la función, ver la figura, es importante que los puntos tomados estén lo
más próximos entre sí, para que este error sea el mínimo posible.

La expresión:

Determina el valor y de la función para un x dado, partiendo de dos puntos


conocidos y , siendo .

Ejemplo

Cual es la probabilidad de una distribución chi-cuadrado de 5 grados de libertad,


de que x sea menor que 1,75.

Esto es:

El valor 1,75 no esta en la tabla, pero si tenemos que:

Ing. Fléli R. Jara Claudio


DOCENTE Página 26
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Sustituyendo en la expresión:

Tenemos que:

Operando tenemos:

Esto es:

Que resulta:

Que es el resultado buscado:

Ing. Fléli R. Jara Claudio


DOCENTE Página 27
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
Chi-cuadrada, df=5
0.16

0.14

0.12

0.10

Densidad
0.08 0.1175

0.06

0.04

0.02

0.00
0 1.75
X

Tabla inversa de distribución chi-cuadrado

Otra forma de tabla de distribución chi-cuadrado, en la cual los valores de


búsqueda son los grados de libertad y la probabilidad acumulada, dada la
expresión

En este tipo de tablas se parte de los valoras conocidos k y p, y se obtiene x, de


forma inversa a lo visto anteriormente, lo que resulta interesante para responder a
la pregunta:

Para una distribución chi-cuadrado de k grados de libertad, cual es el valor de x


que deja a su izquierda una probabilidad p.

Este tipo de problema en la practica, suele ser más usual, la tabla es más
compacta y también nos permite calcular la probabilidad con la tabla directa.

En la tabla tenemos en la fila superior las probabilidades P, en la columna de la


izquierda los grados de libertad k, donde se cruzan la fila y la columna

Ing. Fléli R. Jara Claudio


DOCENTE Página 28
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

correspondientes el valor de x que en una función chi-cuadrado de k grados de


libertad, deja a su izquierda una probabilidad P.

Ejemplo

Cual es el valor de x, de una distribución chi-cuadrado de 6 grados de libertad, que


deja a su izquierda una probabilidad del 80%

Consultando la tabla tenemos que:

Calculo de la probabilidad con la tabla inversa.

Empleando esta tabla podemos realizar cálculos directos como en la anterior,


normalmente será necesaria recurrir a la interpolación lineal para obtener los
resultados

Ejemplo

¿Cuál es la distribución de probabilidad de chi-cuadrado de 4 grados de libertad


de x < 1,2?

Este es el mismo ejemplo que en la tabla directa, veamos como se haría en este
caso:

La pregunta es:

Este valor no figura en la tabla pero si tenemos en la fila de k= 4, que:

Por la expresión de interpolación lineal:

Ing. Fléli R. Jara Claudio


DOCENTE Página 29
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Sustituyendo los valores de este caso:

Operando:

Esto es:

Que da como resultado:

Esto es:

Como se puede ver hay una diferencia del orden de la tercera cifra decimal,
respecto a la búsqueda directa en la tabla, esta diferencia se produce por la
interpolación lineal, al sustituir la función por la recta que une dos puntos
conocidos, y a la relativamente gran diferencia entre x1 y x2, que es el 60% al
valor de x1.

Para valores de k grandes

Cuando el valor de k es suficientemente grande se tiene en cuenta que:

Ing. Fléli R. Jara Claudio


DOCENTE Página 30
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Con lo que podemos aproximar la distribución Chi-cuadrado por la distribución


normal, de media k y desviación típica raíz de 2k, empleando la tabla distribución
normal tipificada para su calculo

TEORÍA DE PEQUEÑAS MUESTRAS

DISTRIBUCIÓN t DE STUDENT

Muestras de tamaño N>30, llamamos GRANDES MUESTRAS, las


distribuciones muestrales de muchos estadísticos eran aproximadamente
NORMALES, la aproximación era tanto mejor conforme aumentaba N.

Para muestras de tamaño <30, llamadas pequeñas muestras, esta


aproximación no es buena y va siendo peor a medida que N disminuye.

La teoría de pequeñas muestras mejor llamada TEORÍA EXACTA DEL


MUESTREO porque sus resultados son válidos para GRANDES O PEQUEÑAS
MUESTRAS.

Las 2 importantes son: t de STUDENT y distribución CHI – CUADRADO. ( t y


2
𝑋 ).

 Una de las distribuciones que tiene mayor uso en el análisis de datos


provenientes de experimentos científicos es la llamada t de student.
 Fue descubierto por William Sealy Gosset (1876 – 1937), y el hecho se debe
a que GOSSET publicó varios artículos bajo el seudónimo de STUDENT.
 La distribución t es SIMÉTRICA, con media cero y de forma muy semejante a
la NORMAL ESTANDAR.

CARACTERÍSTICAS

1. Para cada grado de libertad hay una curva de probabilidades o de frecuencias.


2. Todas las curvas alcanzan su máxima altura cuando t= 0.
3. Todas las curvas son SIMÉTRICAS con respecto a la línea trazada en t=0,
perpendicular al eje horizontal.

La distribución de t está basada en la siguiente fórmula:

𝑋̅ − 𝜇
𝑡=
𝑆𝑥̅
Ing. Fléli R. Jara Claudio
DOCENTE Página 31
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

La distribución normal está basada en la siguiente fórmula:

𝑋̅ − 𝜇
𝑍=
𝑥̅

4. A la derecha de t=0, los valores de t son positivos y a la izquierda los valores


son negativos.
5. Las curvas de esta distribución se aproximan al eje horizontal menos
rápidamente que la distribución NORMAL, y tanto, menos rápidamente cuanto
menor sea los grados de libertad.
6. A medida que los grados de libertad son más altas, las curvas de esta
distribución se van acercando a la curva respectiva de la Distribución normal.

Consideremos una distribución formada por los promedios de un número muy


elevado de muestras extraídas de una población original, todos ellos de tamaño
n=5, con 4 grados de libertad.
Si de cada una determinásemos su 𝑥̅ y 𝑆𝑥̅ y si conociendo 𝜇 de la población
𝑋̅ − 𝝁
original aplicásemos a todas las muestras la formula , los valores que
𝑺𝒙̅
resultarían los t, los que graficados por frecuencias nos daría la curva de t
correspondientes a 4 grados de libertad, que es lo que se tiene en el gráfico de
arriba.
Y si n no sería 5 sino 9, entonces los grados de libertad serían 8 y tenemos el
gráfico de arriba con negro v = 8.

DISTRIBUCIÓN DE t

1. Las áreas de las curvas de t están dados por la tabla. Por ejemplo: para
muestras de (n – 1) = 4, encontramos en la tabla que el valor de t
correspondiente a la línea 4 y columna 0.05 ( = 0.05) = 2.7765.

Esto quiere decir que entre -2.7765 y + 2.7765 se encuentra el 95% de las ts
de esta curva, y que 2.5% son menores de -2.7765 y 2.5% son mayores que +
2.7765.

Ing. Fléli R. Jara Claudio


DOCENTE Página 32
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
T, df=4
0.4

0.3

Densidad
0.2

0.1

0.025 0.025
0.0
-2.776 0 2.776
X

2. Las muestras de (n – 1) = 8 encontramos que el valor de t correspondiente a la


línea 8 y columna 0.01 ( = 0.01) es 3.3554.
Esto quiere decir que entre -3.3554 y + 3.3554 se encuentra el 99% de los ts
de la curva correspondiente a 8 grados de libertad y que 0.005% son menores
que -3.3554 y 0.005% son mayores de 3.3554.

Gráfica de distribución
T, df=8
0.4

0.3
Densidad

0.2

0.1

0.005 0.005
0.0
-3.355 0 3.355
X

OTRAS CARACTERÍSTICAS DE LA TABLA t SON LOS SIGUIENTES:

1. Para cada nivel de  (0.50; 0.40; 0.30; 0.20; 0.10; 0.05; 0.02; 0.01). Los
valores de t van disminuyendo al aumentar los grados de libertad.
2. Para cada grado de libertad, el valor de t aumenta al disminuir el nivel de .

Ejemplo

Para una muestra de 18 grados de libertad y escogido el nivel de 0.05, en la tabla


le corresponde el valor de 2.101 esto quiere decir:

Ing. Fléli R. Jara Claudio


DOCENTE Página 33
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Que para esas condiciones hay 2.5% de probabilidades de encontrar un valor


calculado de t que sea menor de -2.101 y 2.5% probabilidades de encontrar un
valor mayor de + 2.101; mientras que hay 95% de probabilidades de encontrar un
valor de t comprendido entre -2.101 y + 2.101.

Gráfica de distribución
T, df=18

0.4

0.3
Densidad

0.2

REGION DE ACEPTACIÓN
Valores de t que permite
0.1 aceptar la hipótesis nula
por ser valores corrientes
esta hipótesis es verdadera

0.025 0.025
0.0
-2.101 0 2.101
X

REGION DE RECHAZO
Valores de t que permite
rechazar la hipótesis nula, por ser
valores poco usuales si esta
hipótesis es verdadera.

LIMITES DE CONFIANZA DENTRO DE LOS CUALES SE ENCUENTRA


𝝁 CON DETERMINADO GRADO DE SEGURIDAD
Generalmente de una población original, solo podemos obtener en la
práctica una muestra, y corremos el riesgo de que se promedio (𝑋̅ ) sea bastante
diferente a la 𝜇 de la población por no corresponder a la parte central de
población de 𝑋̅s. Los más optimistas se quedarán satisfechos al observar el gran
número de promedios que se hallan cerca de 𝜇 en el centro de la curva de
frecuencia de 𝑋̅s.

Ing. Fléli R. Jara Claudio


DOCENTE Página 34
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Es por esto que se impone la necesidad de hablar de límites, dentro de los


cuales podemos tener confianza de que encuentra 𝜇, con solo un pequeño
porcentaje de probabilidades de que esté fuera de estos límites.

Mediante un razonamiento deductivo de la parte hacia el todo, es decir de la


muestra hacia la población, es posible deducir dichos límites, hecho que
representa dar un intervalo, (con 𝑋̅ como centro de intervalo), que nos permita
decir que en el intervalo está 𝜇 con una confianza.

EJEMPLO

Se tiene una muestra de 10 vacas como muestra de una población cuya


producción de leche se controló y cuyos resultados fueron: 19; 19; 28; 27; 27; 26;
25; 24; 24 y 21, cuyo 𝑋̅ es 24 litros y S = 3.3. ¿Entre qué limites se encuentra la
producción promedio de toda la población de vacas (𝜇), con 5% de probabilidades
de que no se encuentra entre estos límites.

SOLUCIÓN

Empecemos por buscar en la tabla el valor de t0.05 para (n – 1) = 9 grados


de libertad y encontramos que es 2.2622, podemos decir que la probabilidad de
obtener una t de una muestra de (n – 1) = 9 que está fuera de los límites de
(-2.2622 y +2.2622) es de 0.05 por uno, lo cual simbólicamente expresamos en la
siguiente forma:

p [t < -2.2622; ó t > 2.2622] = 0.05

Y la probabilidad de obtener una t que esté dentro de los límites de (-2.2622


y +2.2622) es de 0.05 por uno, lo cual simbólicamente expresamos de la siguiente
forma:

p [-2.2622 < t < 2.2622] = 0.95

Ing. Fléli R. Jara Claudio


DOCENTE Página 35
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
T, df=9
0.4

0.3
Densidad

0.2

0.1

0.025 0.025
0.0
-2.262 0 2.262
X

Sustituyendo la fórmula en que se basa t tenemos:


𝑋̅ − 𝝁
p [-2.2622 < < 2.2622] = 0.95
𝑺𝒙̅

De donde resulta que:


𝑋̅ − 𝝁
p [-2.2622 (𝑺𝒙̅ ) < < 2.2622 (𝑺𝒙̅) ) ]= 0.95

p [-𝑋̅ -2.2622 (𝑺𝒙̅ ) < - 𝜇 < - 𝑋̅ + 2.2622 (𝑺𝒙̅) ) ]= 0.95

𝑺𝒙̅ = Desviación estándar de medias


𝑺
𝑺𝒙̅ =
√𝒏

Al cambiar signos, tenemos que cambiar también la dirección de los


símbolos, mayor y menor, esto es:

p [𝑋̅ +2.2622 (𝑺𝒙̅ ) > 𝜇 > 𝑋̅ - 2.2622 (𝑺𝒙̅) ) ]= 0.95

Si en ésta ecuación sustituimos 𝑺𝒙̅ por el valor que le corresponde a nuestra


muestra, así como también 𝑋̅, que sabemos que es 24, entonces S=3.3. Para
hallar 𝑺𝒙̅ (desviación estándar de promedios) tenemos:
𝑺 𝟑.𝟑
𝑺𝒙̅ = = 𝑺𝒙̅ = = 1.044
√𝒏 √𝟏𝟎

Ing. Fléli R. Jara Claudio


DOCENTE Página 36
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Sustituyendo los valores tenemos:

p [𝑋̅ +2.2622 (𝑺𝒙̅ ) > 𝜇 > 𝑋̅ - 2.2622 (𝑺𝒙̅) )]= 0.95

p [24 +2.2622 (𝟏. 𝟎𝟒𝟒) > 𝜇> 24 - 2.2622 (𝟏. 𝟎𝟒𝟒) ]= 0.95

p[26.2622> 𝜇 > 21.73] = 0.95


Cambiando el orden tenemos:

21.7300 < 𝝁 < 𝟐𝟔. 𝟐𝟔𝟐𝟐


Estos límites pueden parecer muy amplias, pero ténganse presente que el
tamaño de la muestra es pequeña

Una vez que se han obtenido estos dos límites, se puede decir que la
probabilidad de que 𝜇 de la población se encuentra entre esos dos límites es de
0.95 ó 95 de 100 casos en promedio.

A los límites se les denomina LIMITES FIDUCIALES O DE CONFIANZA,


representándolos simbólicamente por L1 al más bajo y L2 al más alto.

Si en lugar de buscar los límites para 0.05 se desea para 0.01% (99%)
entonces se debe emplear el valor de t 0.01 de la tabla para 9 grados de libertad,
esto es 3.250 en este caso tendremos:

p [24 +3.2500 (𝟏. 𝟎𝟒𝟒) > 𝜇> 24 – 3.2500 (𝟏. 𝟎𝟒𝟒) ]= 0.99

p[27.25> 𝜇 > 20.75] = 0.99


Cambiando el orden tenemos:

20.7500 < 𝝁 < 𝟐𝟕. 𝟐𝟓𝟎𝟎


L1 L2

Para nuestro ejemplo hemos establecido la inferencia de que el promedio


de la población está comprendido entre los límites de 21.7300 y 26.2622 con 5%
de que esté fuera; o entre los límites de 27.2500 y 20.7500 con 1% de
probabilidades de que esté fuera.

Ing. Fléli R. Jara Claudio


DOCENTE Página 37
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Gráfica de distribución
T, df=9
0.4

0.3
Densidad

0.2

0.1

0.005 0.005
0.0
-3.250 0 3.250
X

EJERCICIOS

1. En la figura se muestra el gráfico de una distribución t de student con 9 grados


de libertad. Hallar el valor de t, para lo cual:
a) El área sombreada a la derecha sea 0.05.
b) El área total sombreada sea 0.05.
c) El área total no sombreada sea 0.99.
d) El área sombreada a la izquierda sea 0.01.
e) El área a la izquierda de t sea 0.90.

Gráfica de distribución
T, df=9
0.4

0.3
Densidad

0.2

0.1

0.0
-t 0 t
X

2. Hallar los valores críticos de t para los que el área de la cola de la derecha de
la distribución t sea 0.05 si el número de grados de libertad v es igual a (a) 16;
(b) 27 y (c) 200.

Ing. Fléli R. Jara Claudio


DOCENTE Página 38
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

3. Los coeficientes de confianza del 95% (doble cola) para la distribución normal
son dados por + 1.96. ¿Cuáles son los coeficientes correspondientes para la
distribución t si (a) v =9; (b) v=20; (c) v=30 y (d) v = 60.
4. Una muestra de 10 medidas del diámetro de una esfera dio una media (𝑋̅) =
4.38 pulgadas y una desviación típica S = 0.06 pulgadas. Hallar los límites de
confianza para el diámetro verdadero del: (a) 95% y (b) 99%.

DISTRIBUCIÓN F DE SNEDECOR

¿Cuándo usar esta distribución?

Esta es la distribución de probabilidad de la razón de dos varianzas


provenientes de dos poblaciones diferentes. Por medio de esta distribución es
posible determinar la probabilidad de ocurrencia de una razón específica con
v1=n1-1 y v2=n2-1 grados de libertad en muestras de tamaño n1 y n2

Es la distribución más importante en experimentación pues permite hacer


cálculos sobre varianzas diseminadas determinando si las diferencias mostradas
son significativas y por lo tanto atribuibles a cambios importantes en el
comportamiento de las poblaciones en estudio.

Formulas

La función acumulada está tabulada

Función densidad
v1

v v   v 2
v1
1
 1 2  *  1  * x 2
 2   v2 
f ( x)  v1  v2
x0
v  v  v  2
 1  *  2  *  1 * x  1
 2   2   v2 
Forma de la curva de esta
distribución según V1 y V2.

¿Cómo usar las tablas?

La tabla da valores de probabilidad acumulados de izquierda a derecha. Para


extraer valores de probabilidad de esta tabla se sigue el siguiente procedimiento:

1. Extraer muestras de dos poblaciones y estimar las desviaciones estándar.

2. Determinar los grados de libertad (v1 y v2) tal que v1=n1-1 y v2=n2-1.
Ing. Fléli R. Jara Claudio
DOCENTE Página 39
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

3. Calcular el valor de F=s12/ s22. Si se conocen las varianzas entonces

𝑆1 2 ∗ 2 2
𝐹=
𝑆2 2 ∗ 1 2

5. Localizar en tablas, la probabilidad asociada a los valores de F, v 1 y v2. En


algunos casos se puede interpolar, de lo contrario, se escoge el que más se
aproxime. Por ejemplo, si F es igual 3.28 con v 1=12 y v2=8 grados de libertad,
el valor de la probabilidad menor que él es 0.95, pues se localiza en la segunda
columna a la izquierda tal y como se muestra a continuación.

Gráfica de distribución
F, df1=12, df2=8
0.8

0.7

0.6

0.5
Densidad

0.4

0.3
0.9498
0.2

0.1

0.0
0 3.28
X

Ejemplo
1. En un proceso hay dos máquinas cortadoras diferentes en antigüedad, lo
que hace pensar que las varianzas de corte no son iguales. Se toma una

Ing. Fléli R. Jara Claudio


DOCENTE Página 40
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

muestra de 16 partes de cada máquina, ¿cuál es la probabilidad de que la


razón de varianzas sea:
a. Mayor a 1.97
b. Menor a 3.52
c. ¿Qué valor de F da una probabilidad a la derecha de 0.10 = ()?

SOLUCIÓN
a. P(F ≥ 1.97) = 0.9 la parte sombreada en la tabla
= 1 – 0.9 = 0.1 para V1 = 15 y V2 = 15
La probabilidad de que la razón de varianzas sea mayor a 1.97 es 0.1 ó
10%.
Gráfica de distribución
F, df1=15, df2=15
0.9

0.8

0.7

0.6
Densidad

0.5

0.4

0.3

0.2

0.1
0.1004
0.0
0 1.97
X

b. P(F≤3.52) = 0.99, para V1 = 15 y V2 = 15


La probabilidad de que la razón de varianzas sea menor a 3.52 es 0.99 ó
99%.

Gráfica de distribución
F, df1=15, df2=15
0.9

0.8

0.7

0.6
Densidad

0.5

0.4

0.3
0.9900
0.2

0.1

0.0
0 3.52
X

Ing. Fléli R. Jara Claudio


DOCENTE Página 41
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

c. P (F≤f,V1,V2) = 1 -  = 1 – 0.10 = 0.9, V1=15 y V2=15, en las


probabilidades de la tabla le corresponde el valor de 1.972.

Gráfica de distribución
F, df1=15, df2=15
0.9

0.8

0.7

0.6
Densidad

0.5

0.4

0.3

0.2

0.1
0.1
0.0
0 1.972
X

Ing. Fléli R. Jara Claudio


DOCENTE Página 42
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

PRUEBA DE HIPOTESIS

Como se ha indicado anteriormente, nuestro objetivo al tomar una muestra


es extraer alguna conclusión o inferencia sobre una población. En nuestro interés
es conocer acerca de los parámetros que caracterizan la población en estudio. El
único motivo para examinar muestras es que las poblaciones suelen ser
demasiado grandes y costosas de estudiar.

La prueba de hipótesis es un procedimiento estadístico que comienza con


una suposición que se hace con respecto a un parámetro de población, luego se
recolectan datos de muestra, se producen estadísticas de muestra y se usa esta
información para decidir que tan probable es que sean correctas nuestras
suposiciones acerca del parámetro de población en estudio.

Ejemplos de hipótesis pueden ser.

Se desea:

a. Probar si las ventas diarias de un supermercado son un millón de soles o


no.
b. Probar si la proporción de individuos que compran algún artículo en una
tienda es o no mayor a 0.3.

OBJETIVO DE LA PRUEBA DE HIPOTESIS

 Decidir, basado en una muestra de una población, cuál de dos hipótesis


complementarias es cierta.
 Las dos hipótesis complementarias se denominan hipótesis nula e hipótesis
alternativa.

CONCEPTOS BÁSICOS

Hipótesis nula (H0)

Representa la hipótesis que mantendremos cierta a no ser que los datos indiquen
su falsedad. Esta hipótesis nunca se considera aceptada, en realidad lo que se
quiere decir es que no hay suficiente evidencia estadística para rechazarla por lo
que aceptar H0 no garantiza que H0 sea cierta.

Hipótesis Alternativa (H1)

Hipótesis que se acepta cuando los datos no respaldan la hipótesis nula.

Tipos de pruebas

Ing. Fléli R. Jara Claudio


DOCENTE Página 43
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

a) Pruebas de hipótesis de 2 extremos o bilaterales o de dos colas. Estas


pruebas son del tipo:
H0: a = b
H1: a ≠ b
Gráfica de distribución
Normal, Media=0, Desv.Est.=1

0.4

0.3
Densidad

0.2

Región de rechazo Región de rechazo


0.1

0.0
-Z /2 0 Z /2

b) Prueba de hipótesis de cola derecha:


H0: a ≤ b
H1: a > b

Gráfica de distribución
Normal, Media=0, Desv.Est.=1

0.4

0.3
Densidad

0.2

Región de rechazo

0.1

0.0
0 Z /2

c) Prueba de hipótesis de cola derecha:


H0: a ≥ b
H1: a < b

Ing. Fléli R. Jara Claudio


DOCENTE Página 44
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
Gráfica de distribución
Normal, Media=0, Desv.Est.=1

0.4

0.3

Densidad
0.2

Región de rechazo

0.1

0.0
-z /2 0

H0 = Hipótesis nula H1= Hipótesis alternativa


Ejemplos:
H0 = µ = 1.68 H1, µ ≠ 1.68
H1, µ < 1.68
H1, µ > 1.68

H0 = µ = 4200 H1, µ > 4200


H1, µ < 4200
H1, µ ≠ 4200
Errores tipo I y tipo II

En el proceso de emplear una muestra para formar una decisión


poblacional en una prueba de hipótesis, podemos cometer dos equivocaciones, al
rechazar una hipótesis verdadera o al aceptar una hipótesis falsa; estas
equivocaciones se conocen como:

a) Error tipo I. se comete cuando se rechaza una hipótesis que por ser
verdadera debería ser aceptada.
b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa
debería ser rechazada.

Buen estudiante Mal estudiante


Aprobarlo Decisión correcta ERROR TIPO II
Reprobarlo ERROR TIPO I Decisión correcta

Nivel de significancia y nivel de confianza

Ing. Fléli R. Jara Claudio


DOCENTE Página 45
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

El nivel de significancia se refiere a la probabilidad de cometer error tipo I,


es decir, rechazar una hipótesis verdadera.
El nivel de confianza se refiere a la probabilidad 1 -  de aceptar una
hipótesis verdadera.

H0 Verdadera H1 Falsa
Se acepta H0 Decisión correcta (1 - ) ERROR TIPO II ()
Se rechaza H1 ERROR TIPO I () Decisión correcta (1 - )

Procedimiento para realizar una prueba de hipótesis

1. Del fenómeno estadístico a probar. Se establecen la hipótesis nula H0, y


la hipótesis alternativa H1.
2. Se especifica la probabilidad del error tipo I () como nivel de
significancia y 1 -  como nivel de confianza.
3. Se selecciona el tamaño de la muestra, la función de distribución de
probabilidad y el estadístico muestral que sirva de base para la regla de
decisión conocido como estadístico de prueba.
4. Se determinan los valores críticos que limita la región de aceptación de la
región de rechazo (que dependerá del valor de  y de la hipótesis
alternativa.
5. Si el valor del estadístico muestral cae dentro de la región de rechazo,
rechazamos H0, debido a que la probabilidad de obtener ese valor del
estadístico muestral cuando H0 es cierta o verdadera, es tan pequeño
que no debe atribuirse a errores de muestreo, lo que nos conduce a
deducir que H0 es falsa.
6. Dar conclusión acerca del problema y/o formar una decisión.

Ing. Fléli R. Jara Claudio


DOCENTE Página 46
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

COMPARACIÓN DE MEDIAS Y VARIANZAS

Las pruebas de hipótesis, llamadas también pruebas (o tests o contrastes) de


significación. Una prueba de hipótesis se refiere a una hipótesis H o, que se
denomina hipótesis nula. Ho consiste en la validez de un determinado modelo y,
frecuentemente, se puede reducir a una afirmación sobre los valores de uno o
varios parámetros (por ejemplo, µ = µo, o µ1 = µ2).

La prueba se puede hacer partir de unos límites de confianza o, lo que es más


frecuente, a partir del estadístico de prueba. En lugar de empezar con definiciones
generales, introduciremos aquí estas ideas mediante un ejemplo sencillo.

Ejemplo A. Se calibra un viscosímetro Brookfield con un aceite patrón de 50 mps.


Se determina 10 veces la viscosidad del patrón, obteniendo los valores siguientes:
51.3, 50.3, 51.7, 51.5, 50.9, 50.9, 51.8, 50.7, 50.9 y 51.1.

En este caso, n=10; 𝑿 ̅ = 51.11 y s = 0.47. Con 9 grados de libertad tenemos t0.025
= 2.26, que se puede obtener en Excel haciendo =DISTR.T.INV(0.05;9)=2.26. Por
consiguiente, los límites de confianza del 95% son:
𝟎.𝟒𝟕 𝟎.𝟒𝟕
51.11 + 2.26* = 𝟓𝟏. 𝟒𝟒 o 51.11 - 2.26* = 𝟓𝟎. 𝟕𝟖
√𝟏𝟎 √𝟏𝟎

El razonamiento habitual del usuario es el que sigue. Como el valor patrón no está
comprendido entre estos límites, se puede concluir (con el 95% de seguridad) que
este equipo tiene un error sistemático. De otra forma, se puede decir que el sesgo
hallado, es decir, la diferencia media entre los resultados dados por el equipo y el
valor patrón es significativo (con la normal los límites hubiesen sido 51.40 y 50.82,
siendo la conclusión la misma.

Se puede formalizar este razonamiento, presentándolo como una prueba sobre


Ho: 𝜇 = 50. A partir de los resultados experimentales, rechazamos Ho, concluyendo
que 𝜇 ≠ 50, con un 95% de confianza. Un planteamiento alternativo,
completamente equivalente, se basa en el estadístico

̅ −𝟓𝟎
𝑿
t= 𝒔/√𝒏

que, suponiendo que Ho sea válida, tiene una distribución t(n – 1). Por esta razón,
se dice que es una prueba t. El valor del estadístico se compara con el valor
crítico, correspondiente a un intervalo del 95% (t0.025). Si lo supera, se rechaza Ho,
con un 95% de confianza. Decimos entonces que el valor t es significativo, o que
los resultados experimentales son significativos (en sentido coloquial, significativo

Ing. Fléli R. Jara Claudio


DOCENTE Página 47
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

es lo que permite sacar conclusiones). Aunque el 95% es lo habitual, el nivel de


confianza se puede cambiar si se desea, usando el valor t  para el nivel 1 - 2.

En el ejemplo, el valor

𝟓𝟏.𝟏𝟏−𝟓𝟎
t= = 𝟕. 𝟓𝟎
𝟎.𝟒𝟕/√𝟏𝟎

supera al valor crítico. Se concluye, pues, con 95% de confianza, que 𝜇 ≠ 50.
La disponibilidad de medios electrónicos de cálculo ha ido imponiendo otro
enfoque de las pruebas de hipótesis, totalmente equivalente, basado en el nivel de
significación. El nivel de significación es la probabilidad exacta que corresponde al
valor del estadístico o a un valor más extremo, suponiendo cierta la hipótesis nula.
Se designa, habitualmente, por P (o p). El nivel de significación se interpreta como
una medida de lo significativo que son los resultados experimentales (cuanto
menor sea p, más significativos). Para un nivel de confianza del 95%, se considera
que el valor del estadístico es significativo cuando p<0.05.

Prueba t para dos muestras independientes

La prueba del ejemplo A era una prueba t para una muestra, asociada a una
hipótesis del tipo 𝜇 = 𝜇 o, siendo 𝜇 o un valor previamente establecido. En lo que
resta vamos a ver distintas pruebas para una hipótesis nula Ho: 𝜇 1 = 𝜇 2 , donde 𝜇 1
y 𝜇 2 son las medias de sos distribuciones. En el ejemplo más típico, serán las
medias de una cierta variable en dos subpoblaciones (hombres y mujeres,
fumadores y no fumadores, casos y controles, etc.).

Aquí nos ocuparemos de la prueba t para dos muestras independientes, en la que


𝜇1 y 𝜇 2 son las medias de dos normales independientes X1 y X2. La prueba tiene
dos variantes, según se suponga que la desviación típica es la misma (1 = 2) o
no. Para efectuar la prueba se precisan dos grupos independientes de
observaciones: n1 observaciones de X1 (media 𝑿 ̅ 1 y desviación típica S1) y n2
observaciones de X2 (media 𝑿̅ 2 y desviación típica S2).

En la versión más sencilla de la prueba se supone (1 = 2). E l estadístico es

̅𝟏 − 𝑿
𝑿 ̅𝟐
𝑡=
1 1
𝑠 ∗ √( ) + ( )
n1 n2
Donde s2 es la media ponderada de las varianzas de los dos grupos,
Ing. Fléli R. Jara Claudio
DOCENTE Página 48
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
𝑛1 − 1 𝑛2 − 1
S2 = 𝑆12 + 𝑆2
𝑛1 + 𝑛2 − 2 𝑛1 + 𝑛2 − 2 2

Observa que, si 𝑛1 = 𝑛2 , S 2 es la media ordinaria de 𝑆12 y 𝑆22 . El nivel de


significación es el área de las dos colas de la t de student con 𝑛1 + 𝑛2 − 2 grados
de liberta. Si se considera que el valor de t es significativo, se rechaza H o,
concluyendo que 𝜇1 ≠ 𝜇2 .

NOTA. Cuando se comparan dos subpoblaciones, como en el ejemplo que sigue,


los dos grupos de observaciones corresponden a muestras de individuos extraídos
de una y otra subpoblación. De ahí el nombre de la prueba. Es importante recalcar
que, para que la conclusión sea válida, las muestras se han de extraer de forma
aleatoria. Como en la mayoría de los casos eso es muy difícil de llevar a la
práctica, se debe asegurar que el muestreo no se haga en un segmento de la
población en el que la distribución pueda ser muy distinta. Esto no siempre se
consigue, siendo una de las causas por las que estudios realizados en diferentes
lugares conducen a conclusiones distintas.

Tabla N° 000. Colesterol HDL

HOMBRES
1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1.050
1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1.170
1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0.875
1.455 1.170
MUJERES
1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1.000
0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1.295
1.065 1.020 1.465 1.050 0.790

En el cuadro de arriba hay una muestra de 32 hombres y otra de 25 mujeres. En el


grupo de los hombres,

𝑛1 =32 𝑋̅1=1.378 S1 = 0.330

Y en el de mujeres

𝑛2 =25 𝑋̅2=1.174 S2 = 0.248

Supongamos que la desviación típica es la misma para ambos medios (1 = 2), lo
que no parece entrar en contradicción con los resultados experimentales.
Entonces.

Ing. Fléli R. Jara Claudio


DOCENTE Página 49
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

√31∗0.109+24∗0.061 1.378−1.174
𝑠= = 0.297, t= = 2.571
55 2 1 1
0.297∗ √32+25

El área de las dos colas asociadas al valor t, con 𝑛1 + 𝑛2 − 2 = 55 grados de


libertad, da el nivel de significación P. en Excel se puede calcular haciendo
=DISTR.T(2.571;55;2)=0.013. se puede deducir de estos resultados, con el 95%
de confianza, que la concentración media de colesterol HDL es diferente en los
hombres y las mujeres.

Para que la prueba sea válida se debe asumir que la distribución del colesterol
HDL en la subpoblación de los hombres tiene distribución normal, e igual en el de
las mujeres, con la misma varianza. La comparación de las varianzas puede
hacerse con más objetividad mediante una prueba que veremos más adelante
(Prueba F). La validez de la distribución normal debe examinarse aquí por
separado para hombres y mujeres.

Prueba t sin suponer las varianzas iguales

Hay una segunda variante de la prueba, en la que no se asumen 1 = 2,


(tampoco que sean distintas). El valor de t es ahora,

̅𝟏 − 𝑿
𝑿 ̅𝟐
𝑡=
𝑆2 𝑆2
√( 1 ) + ( 2 )
n 1 n 2

El nivel de significancia se calcula como antes, aunque el número de grados de


libertas es, en este caso, el entero que resulta de redondear:

𝑆12 𝑆22 2
(n + n )
1 2
𝑑𝑓 = 2
(𝑆1 ⁄n1 )2 (𝑆22 ⁄n2 )2
n1 − 1 + n2 − 1
En la práctica, las dos pruebas dan niveles de significación muy parecidos, salvo si
n1 y n2 son muy distintos, lo que es poco habitual.

Ing. Fléli R. Jara Claudio


DOCENTE Página 50
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

En el mismo ejemplo anterior, en la segunda variante de la prueba, el valor t es

1.378−1.174
t= 2 0.109 0.061
= 2.663
√ +
32 25

El número de grados de liberta es 55, resultante de redondear

0.109 0.061 2
( + )
𝑑𝑓 = 32 25
(0.109⁄32)2 (0.061⁄25)2
= 54.92
+
31 24

Ahora, P = 0.0101, siendo la conclusión la misma.

Ejemplo N° 0000. El taxol es un compuesto anticancerígeno de naturaleza


diterpénica sintetizado por todas las especies del género Taxus, que se extrae de
la corteza de estas plantas. Como el proceso de extracción provoca la muerte de
la planta, se han ensayado fuentes alternativas, siendo los cultivos celulares una
vía prometedora. En un estudio realizado en la UB se han probado distintos
medios de cultivo, en los que se han incluido auxinas. Los resultados de la tabla
N° 000A corresponden a dos medios que se diferencian en que, en el medio I, la
auxina es el ácido 2, 4 – diclorofenoxiacético, mientras que en el medio II es el
ácido naftalenacético. Se han hecho 24 cultivos en cada medio, a partir de piezas
de tejido de callo de Taxus baccata con un peso inicial de 0.2 gramos,
determinándose el peso fresco de cada una al cabo de 28 días.

Tabla 000A. Peso de los cultivos a los 28 días.

MEDIO I
0.740 0.920 0.845 0.704 0.907 0.716 0.615 0.740
0.766 0.775 0.650 0.640 0.420 1.030 0.741 1.057
0.509 0.621 0.601 0.969 0.950 1.380 0.932 1.053
MEDIO II
0.915 0.802 0.800 0.730 0.575 0.660 0.840 0.690
0.800 0.780 0.922 0.925 0.778 0.703 0.841 1.045
1.004 0.132 1.275 1.313 0.734 1.032 0.816 1.326

Podemos suponer que el peso de los cultivos en el medio I es independiente del


peso de los del medio II, ya que se trata de especímenes distintos. Hacemos una

Ing. Fléli R. Jara Claudio


DOCENTE Página 51
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

prueba t para ver si la diferencia entre los pesos medios es significativa. En este
caso,

𝑛1 =24 𝑋̅1=0.8034 S1 = 0.2113

𝑛2 =24 𝑋̅2=0.8516 S2 = 0.2513

Suponemos primero que la desviación típica es la misma para ambos medios


(1 = 2), lo que no parece entrar en contradicción con los resultados
experimentales. Entonces

√(0.2113)2 +(0.2513)2 0.8034−0.8516


𝑠= = 0.2322, t= = -0.719
2 2 2
0.2322∗ √24

El área de las dos colas asociadas al valor t, con 𝑛1 + 𝑛2 − 2 = 46 grados de


libertad, da P=0.476. Por consiguiente, no se puede deducir de estos resultados
experimentales, con el 95% de confianza, que el peso medio de los cultivos, a los
28 días, sea distinto en los dos medios ensayados.

En la segunda variante de la prueba, el valor t es el mismo, y P=0.476. El número


de grados de liberta es 45 (redondeando df=44.69).

Prueba t para datos emparejados

Hay una segunda prueba sobre la hipótesis Ho: 𝜇 1 = 𝜇 2. El diseño experimental es


distinto, ya que no se usan dos grupos de observaciones independientes, sino un
solo grupo de diferencias. Supongamos X1 y X2 son dos variables (ahora no se
supone que sean independientes), con medias 𝜇 1 y 𝜇 2, respectivamente.
Entonces X = X1 - X2 tiene media 𝜇 = 𝜇 1 - 𝜇 2, de modo que la hipótesis nula se
puede formular como Ho: 𝜇 = 0. Si X tiene distribución normal, se puede someter
una hipótesis a una prueba t (de una muestra). Si se han realizado n pares de
observaciones conjuntas de X1 y X2, para cada par se calcula la diferencia
X = X1 - X2, lo que da una muestra de n observaciones de X, con la que se calcula

̅
𝑿
t = 𝒔/
√𝒏

y el nivel de significación es el área de dos colas de la t(n – 1). Recuerda que aquí
̅ y s se refieren a la diferencia X1 - X2.
𝑿

Ing. Fléli R. Jara Claudio


DOCENTE Página 52
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Esta prueba, que se aplica siempre a datos que están agrupados por pares de
forma natural, se denomina prueba t para datos emparejados. A veces se
confunde con la de la sección anterior, porque ambas se aplican a la comparación
de medias. La diferencia entre ellas viene del propio diseño experimental, que
invalidad la suposición de la independencia entre los dos grupos de
observaciones. Esta diferencia se percibe mejor en un ejemplo:

Los resultados de la tabla 000B se han obtenido en un estudio sobre la influencia


de la dieta y la raza sobre los espectros de ácidos grasos y triglicéridos en el
cerdo. Son porcentajes (sobre el total de ácidos grasos) de ácido oleico en
muestras de dos tejidos, extraídas de 40 animales.

Tabla 000B

Animal Abdominal Dorsal Diferencia Animal Abdominal Dorsal Diferencia


1 32.7084 36.0667 -3.3583 21 35.7674 37.1147 -1.3473
2 33.8384 37.1387 -3.3003 22 32.7113 34.7340 -2.0227
3 34.9742 39.4628 -4.4886 23 33.2037 40.6269 -7.4232
4 37.0916 39.4989 -2.4073 24 35.5307 40.7179 -5.1873
5 31.8443 34.0613 -2.2169 25 36.7066 41.8163 -5.1097
6 34.6563 38.5656 -3.9092 26 37.5839 40.2428 -2.6589
7 32.9172 37.8381 -4.9209 27 35.7359 34.8008 0.9351
8 34.3413 34.3413 -3.2423 28 31.7980 38.5125 -6.7145
9 31.7786 36.4064 -4.6278 29 35.5791 37.0857 -1.5065
10 33.7529 37.8350 -4.0821 30 34.6878 37.4639 -2.7761
11 33.1405 34.2420 -1.1015 31 34.4472 36.5383 -2.0911
12 35.9041 36.6454 -0.7413 32 34.1776 34.5558 -0.3782
13 34.3247 41.0903 -6.7656 33 32.9537 33.5989 -0.6452
14 32.9629 37.8422 -4.8793 34 34.9072 35.7339 -0.8266
15 34.7158 35.5221 -0.8063 35 41.3134 38.6335 2.6799
16 31.8504 38.9107 -7.0603 36 36.6914 40.3660 -3.6746
17 30.3912 37.1207 -6.7295 37 38.8980 40.2390 -1.3410
18 31.3900 37.3798 -5.9898 38 37.4620 41.9497 -4.4877
19 35.6464 37.6463 -1.9999 39 40.3456 40.7600 -0.4144
20 38.6912 35.8553 -2.8358 40 35.3637 38.1738 -2.8101

̅ = 2.9398 y s = 2.5003. Entonces,


Para la diferencia X = X1 - X2 resulta n = 40; 𝑋

−2.9398
t = 2.5003/ = -7.436 (df = 39, p<0.001)
√40

Se puede concluir, pues, que el porcentaje medio de ácido oleico en los dos
tejidos es diferente. Comparando esta tabla con la tabla 000A se puede ver por
qué hablamos aquí de “datos emparejados”. En la tabla 000B tenemos 40 pares,
siendo el emparejamiento natural, ya que asociamos resultados del mismo
Ing. Fléli R. Jara Claudio
DOCENTE Página 53
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

individuo. ¿Por qué no tratamos los resultados de los dos tejidos como dos
muestras independientes? Porque el nivel de oleico en ambos tejidos depende de
factores genéticos y ambientales, de forma que el individuo que muestre un nivel
alto de oleico en un tejido, probablemente tendrá un nivel alto en el otro. Resulta,
pues, que la distribución de X2 condicionada a un valor de X1 alto que la
condicionada a un valor bajo, de modo que X1 y X2 no son independientes.

Prueba F

La prueba t para dos muestras independientes se usa para comparar medias, es


decir, asociada a la hipótesis 𝜇 1 - 𝜇 2. Hay una prueba similar para comparar
varianzas, con Ho: 1 = 2, que es válida en las mismas condiciones que la prueba
t para dos muestras independientes. Es la prueba F de comparación de varianzas.
La prueba F se usa a veces para examinar si se puede admitir, en la prueba t para
dos muestras independientes, que la desviación típica es la misma. Manteniendo
la notación mencionada anteriormente, el estadístico es

max(𝑆12 , 𝑆22 )
𝐹=
min(𝑆12 , 𝑆22 )
Si 1 = 2, el estadístico tiene una distribución F de Fisher – Snedecor. Al igual que
la t de Student, se trata de una familia de distribuciones de probabilidad, que se
identifican por los grados de liberta. Para una distribución F se necesitan dos
números de grados de libertad, uno para el numerador y otro para el
denominador, que, en la prueba sobre 1 = 2, son los que corresponden a las
varianzas cuyo cociente da el valor F. Una distribución F es positiva y asimétrica.
También aquí se designa por Fα el valor asociado a una cola (derecha) de área α
o, equivalentemente, el valor con probabilidad acumulada 1 – α.

En la prueba F, el nivel de significación es el doble del área de la cola (derecha),


correspondiente al valor F en la distribución F. Si s1>s2, los grados de libertad son
(n1 – 1, n2 – 1), y viceversa. Cuando se considera significativo el valor Fm se
puede concluir 1 ≠ 2.

La formula DISTR.F da la probabilidad de la cola (derecha) de la distribución F. la


sintaxis es muy parecida a la de la fórmula DISTR.T, salvo que no hay que
especificar el número de colas, que aquí es siempre 1, y que hay que especificar
dos números de grados de libertad. También hay una función inversa,
DISTR.F.INV. Al igual que la prueba t, la prueba se puede hacer con la macro
Análisis de Datos.
Ing. Fléli R. Jara Claudio
DOCENTE Página 54
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

En el siguiente ejemplo, utilizaremos la tabla N° 000, para aplicar la prueba F a la


hipótesis de que la desviación típica es la misma para hombres y mujeres. El valor
de F es

(0.330)2
𝐹= = 1.7751
(0.248)2
El área de la cola de la F con (31.24) grados de libertad es

DISTR.F(1.7751;31;24)=0.0756

Por consiguiente, el nivel de significación es P = 0.1512. Así pues, se puede


admitir 1 = 2.

Tabla N° 000. Colesterol HDL

HOMBRES
1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1.050
1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1.170
1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0.875
1.455 1.170
MUJERES
1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1.000
0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1.295
1.065 1.020 1.465 1.050 0.790

Ing. Fléli R. Jara Claudio


DOCENTE Página 55
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Estadística no paramétrica

Prueba CHI - CUADRADO

UNA VARIABLE DOS VARIABLES

Prueba de Bondad Prueba de Prueba de


de Ajuste homogeneidad independencia

El objetivo de esta prueba es el estudio de varias cuestiones en relación con


variables cualitativas o cuantitativas cuyos datos están recogidos en forma de
tabla de frecuencias. El denominador común a to das ellas es que su tratamiento
está basado en la misma distribución teórica: la distribución X2 (chi - cuadrado o ji
- cuadrado). En esencia se van a abordar tres tipos de problemas:

a) Prueba de bondad de ajuste, consiste en determinar si los datos de cierta


muestra corresponden a cierta distribución poblacional. En este caso es
necesario que los valores de la variable en la muestra y sobre la cual
queremos realizar la inferencia esté dividida en clases de ocurrencia, o
equivalentemente, sea cual sea la variable de estudio, deberemos categorizar
los datos asignando sus valores a diferentes clases o grupos.

b) Prueba de homogeneidad de varias muestras cualitativas, consiste en


comprobar si varias muestras de un carácter cualitativo proceden de la misma
población (por ejemplo: ¿estas tres muestras de alumnos provienen de
poblaciones con igual distribución de aprobados?. Es necesario que las dos
variables medibles estén representadas mediante categorías con las cuales
construiremos una tabla de contingencia.

c) Prueba de independencia, consistente en comprobar si dos características


cualitativas están relacionadas entre sí (por ejemplo: ¿el color de ojos está
relacionado con el color de los cabellos?). aunque conceptualmente difiere del
anterior, operativamente proporciona los mismos resultados. Este tipo de
Ing. Fléli R. Jara Claudio
DOCENTE Página 56
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

contrastes se aplica cuando deseamos comparar una variable en dos


situaciones o poblaciones diferentes, i.e., deseamos estudiar si existen
diferencias en las dos poblaciones respecto a la variable de estudio.

PRUEBA DE BONDAD DE AJUSTE

Estamos interesados en determinar si los datos disponibles de una muestra


aleatoria simple de tamaño n corresponden a cierta distribución teórica. El primer
paso a realizar consiste en descomponer el recorrido de la distribución teórica en
un número finito de subconjuntos: A1, A2,….AK. Después, clasificar las
observaciones muestrales, según el subconjunto a que pertenezcan. Y, por ultimo,
comparar las frecuencias observadas de cada A i con las probabilidades que les
corresponderían con la distribución teórica a contrastar.

BONDAD DE AJUSTE I

Supongamos que tenemos un número K de clases en las cuales se han ido


registrando un total de n observaciones (n será pues el tamaño muestral).
Denotaremos las frecuencias observadas en cada clase por O 1, O2,…., OK (Oi es
el número de valores en la clase Ai). Se cumplirá:

E1 + E2 + …+ EK = n

FRECUENCIA OBSERVADA FRECUENCIA ESPERADA


CLASE 1 O1 E1
CLASE 2 O2 E2
……….. ……. ……..
CLASE K OK EK
TOTAL n N

Se tratará ahora de decidir si las frecuencias observadas están o no en


concordancia con las frecuencias esperadas (es decir, si el número de resultados
observados en cada clase corresponde aproximadamente al número esperado).
Para comprobarlo, haremos uso de un contraste de hipótesis usando la
distribución Chi – cuadrado:

El estadístico de contraste será

Ing. Fléli R. Jara Claudio


DOCENTE Página 57
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

𝑘
2
(𝑂𝑖 − 𝐸𝑖)2
𝑋 =∑
𝐸𝑖
𝑖=1

Observar que este valor será la suma de k números no negativos. El


numerador de cada término es la diferencia entre la frecuencia observada y la
frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores
más pequeño será el numerador, y viceversa. El denominador permite relativizar el
tamaño del numerador.

Las ideas anteriores sugieren que, cuanto menor sean el valor del
estadístico X2*, más coherentes serán las observaciones obtenidas con los valores
esperados. Por el contrario, valores grandes de este estadístico indicarán falta de
concordancia entre las observaciones y lo esperado. En este tipo de contraste se
suele rechazar la hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado valor crítico.

Notas:

(1) El valor del estadístico X2* se podrá aproximar por una distribución chi –
cuadrado cuando el tamaño muestral n sea grande (n>30), y todas las
frecuencias esperadas sean iguales o mayores a 5 (en ocasiones
deberemos agrupar varias categorías a fin de que se cumpla este requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de
una población particionada en categorías.

BONDAD DE AJUSTE II

Un experimento multinomial es la generalización de un experimento binomial:

1. Consiste en n pruebas idénticas e independientes.


2. Para cada prueba, hay un número K de resultados posibles.
3. Cada uno de los k posibles resultados tiene una probabilidad de ocurrencia
pi asociada (p1 + p2 + ….pk = 1), la cual permanece constante durante el
desarrollo del experimento.
4. El experimento dará lugar a un conjunto de frecuencias observadas (O 1,
O2,….,OK) para cada resultado. Obviamente, O1 + O2 + ….+ OK = n.

En ocasiones estaremos interesados en comparar los resultados obtenidos al


realizar un experimento multinomial con los resultados esperados (teóricos). Ello

Ing. Fléli R. Jara Claudio


DOCENTE Página 58
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

nos permitirá saber si nuestro modelo teórico se ajusta bien o no a las


observaciones. Para ello, recurriremos a la distribución Chi – cuadrado, la cual nos
permitirá realizar un contraste sobre la bondad de ajuste.

Concretamente, usaremos el estadístico, con k – 1 grados


de libertad.

Podemos calcular cada frecuencia esperada (teórica) multiplicando el número total


de pruebas n por la probabilidad de ocurrencia asociada, es decir:

𝐸𝑖 = 𝑛 ∗ 𝑝𝑖 i = 1, ……,k

EJEMPLO

En cierta máquina Expendedora de Refrescos existen 4 canales que expiden el


mismo tipo de bebida. Estamos interesados en averiguar si la elección de
cualquiera de estos canales se hace de forma aleatoria o por el contrario existe
algún tipo de preferencia en la selección de algunos de ellos por los
consumidores. La siguiente tabla muestra el número de bebidas vendidas en cada
uno de los 4 canales durante una semana. Contrastar la hipótesis de que los
canales son seleccionados al azar a nivel de significación del 5%.

Para realizar el contraste de Bondad de Ajuste debemos calcular las frecuencias


esperadas de cada suceso bajo la hipótesis de uniformidad entre los valores. Si la
selección del canal fuera aleatoria, todos los canales tendrían la misma
probabilidad de selección y por lo tanto la frecuencia esperada de bebidas
vendidas en cada uno de ellos debería ser aproximadamente la misma. Como se
han vendido en total 70 refrescos, la frecuencia esperada en cada canal es

𝐸𝑖 = 𝑛 ∗ 𝑝𝑖 i = 1, ……,k

𝐸𝑖 = 70 ∗ 1 ⁄4 = 17.5

El estadístico del contraste sería:


𝑘
(𝑂𝑖 − 𝐸𝑖)2
𝑋2 = ∑
𝐸𝑖
𝑖=1

Ing. Fléli R. Jara Claudio


DOCENTE Página 59
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

(13−17.5)2 (22−17.5)2 (18−17.5)2 (17−17.5)2


𝑋2 = + + + = 2.3428
17.5 17.5 17.5 17.5

Este valor debemos compararlo con el valor crítico de la distribución 𝑋 2 con (4 – 1)


2 ( )
= 3 grados de libertad. Este valor es: 𝑋0.05 3 = 7.81
Puesto que el valor del estadístico (2.34) es menor que el valor crítico, no
podemos rechazar la hipótesis de que los datos se ajustan a una distribución
uniforme. Es decir, que los canales son seleccionados aleatoriamente entre los
consumidores.

PRUEBA DE HOMOGENEIDAD

Estamos interesados en determinar si los datos correspondientes a dos o más


muestras aleatorias provienen de la misma población. Nuevamente el conjunto de
posibles valores de las observaciones se divide en k conjuntos disjuntos: A 1,
A2,….., AK.; clasificando en ellos las observaciones de cada muestra. Si nij
representa el número de observaciones de la muestra i que pertenecen al conjunto
Aj, los datos pueden tabularse en lo que se denomina una tabla de contingencia.

Muestra A1 A2 ……. AK. Total


1 n11 n12 n1k n1.
2 n21 n22 n2k n2.
……
m nm1 nm2 nmk nm.
Total n.1 n.2 n.k n..

La hipótesis de que las m poblaciones son homogéneas, se traduce en que cada


conjunto Aj debe tener una probabilidad teórica pj, desconocida, pero que no varia
de la población i a la población i’. Esto debe verificarse para todas las categorías,
i.e., las categorías deben ser homogéneas en las diversas muestras.

CONCEPTOS FUNDAMENTALES

Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos
comparar las frecuencias observadas en cada una de las muestras y para cada
categoría con las frecuencias bajo el supuesto de homogeneidad en las
poblaciones. En este caso las frecuencias observadas corresponden al número de
individuos de la muestra i en la clase j, i.e., nij.

Ing. Fléli R. Jara Claudio


DOCENTE Página 60
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

El estadístico de contraste será

𝑛 𝑘
2∗
(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2
𝑋 =∑ ∑
𝑒𝑖𝑗
𝑖=1 𝑗=1

Donde eij es la frecuencia esperada bajo el supuesto de homogeneidad, que


puede representarse como ni pj , es decir, el número de individuos en la muestra i
por la probabilidad de que ocurra la característica j en la población. Para el cálculo
de las probabilidades de pertenecer un individuo a cada una de las categorías
podemos utilizar:

𝑝𝑖 = 𝑛.𝑗 /n

Por lo tanto:

𝑒𝑖𝑗 = 𝑛𝑖. . 𝑛.𝑗 /n

Observar que este valor será la suma de n*k números no negativos. El


numerador de cada término es la diferencia entre la frecuencia observada y la
frecuencia esperada. Por tanto, cuanto más cerca estén entre sí ambos valores
más pequeño será el numerador, y viceversa. El denominador permite relativizar el
tamaño del numerador.

Las ideas anteriores sugieren que, cuanto menor sean el valor del
estadístico χ2∗ más coherentes serán las observaciones obtenidas con los valores
esperados. Por el contrario, valores grandes de este estadístico indicarán falta de
concordancia entre las observaciones y lo esperado. En este tipo de contraste se
suele rechazar la hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado valor crítico.

Notas:

(3) El valor del estadístico 𝑋 2∗ se podrá aproximar por una distribución cuando
el tamaño muestral n sea grande (n>30), y todas las frecuencias esperadas
sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias
categorías a fin de que se cumpla este requisito).

(4) Las observaciones son obtenidas mediante muestreo aleatorio en cada


muestra a partir de una población particionada en categorías.
Ing. Fléli R. Jara Claudio
DOCENTE Página 61
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Concretamente, usaremos el estadístico

𝑘
(𝑂𝑖 − 𝐸𝑖)2
𝑋2 = ∑
𝐸𝑖
𝑖=1

Con (n – 1) (k – 1) grados de libertad.

EJEMPLO

Estamos interesados en estudiar la fiabilidad de cierto componente informático con


relación al distribuidor que nos lo suministra. Para realizar esto, tomamos una
muestra de 100 componentes de cada uno de los 3 distribuidores que nos sirven
el producto comprobando el número de defectuosos en cada lote. La siguiente
tabla muestra el número de defectuosos en para cada uno de los distribuidores.

Componentes Componentes
defectuosos correctos
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
49 251 300

SOLUCIÓN

Debemos realizar un contraste de homogeneidad para concluir si entre los


distribuidores existen diferencias de fiabilidad al mismo componente.

Componentes Componentes
defectuosos correctos
Distribuidor 1 16 (16.33) 94 (83.66) 100
Distribuidor 2 24 (16.33) 76 (83.66) 100
Distribuidor 3 9 (16.33) 81 (83.66) 100
49 251 300

Las frecuencias esperadas bajo homogeneidad son las representadas entre


paréntesis.
El estadístico de contraste será:

(16−16.33)2 (24−16.33)2 (9−16.33)2 (94−83.66)2 (81−16.33)2


𝑋2 = + + + +…+ = 8.9632
16.33 16.33 16.33 83.66 83.66

Ing. Fléli R. Jara Claudio


DOCENTE Página 62
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Este valor del estadístico ji – cuadrado es mayor que el valor para el nivel
de significación del 5%, por lo tanto debemos concluir que no existe
homogeneidad y por lo tanto que hay diferencias entre los tres
2 ( )
distribuidores. 𝑋0.05 2 = 5.99
PRUEBA DE INDEPENDENCIA

Estamos interesados en determinar si dos cualidades o variables referidas a


individuos de una población están relacionadas. Se diferencia de los contrastes
anteriores en que en este caso estamos interesados en ver la relación existente
entre dos variables de una misma población, no queremos contrastar la
distribución teórica de una variable (prueba de bondad de ajuste) ni en comparar
la distribución de una única variable en dos poblaciones (prueba de
homogeneidad).

Prueba de independencia

Supongamos que en n elementos de una población se han observado dos


características X e Y, obteniéndose una muestra aleatoria simple bidimensional
(X1, Y1), (X2, Y2),….., (Xn,Yn). Sobre la base de dichas observaciones se desea
contrastar si las características poblacionales X e Y son independientes o no. Para
ello se dividirá el conjunto de posibles valores de X en K conjuntos disjuntos A 1,
A2,….,Ak; mientras que el conjunto de posibles valores Y será descompuesto en r
conjuntos disjuntos: B1, B2,…,Br. Al clasificar los elementos de la muestra,
aparecerá un cierto número de ellos, nij, en cada una de las k x r clases así
constituidas, dando lugar a una tabla de contingencia de la forma:

Muestra A1 A2 ……. AK. Total


B1 n11 n12 n1k n1.
B2 n21 n22 n2k n2.
……
Br nr1 nr2 nrk nr.
Total n.1 n.2 n.k n..

Al igual que para el Test de homogeneidad, el estadístico del contraste será

𝑟 𝑘
2∗
(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2
𝑋 =∑ ∑
𝑒𝑖𝑗
𝑖=1 𝑗=1

Con (k – 1) (r – 1) grados de libertad.

Ing. Fléli R. Jara Claudio


DOCENTE Página 63
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Donde:
𝑒𝑖𝑗 = 𝑛𝑖. . 𝑛.𝑗 /n

EJEMPLO

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se


seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes
resultados:

Sin depresión Con depresión


Deportista 38 9 47
No deportista 31 22 53
69 31 100

Determinar si existe independencia entre la actividad del sujeto y su estado de


ánimo. Nivel de significación (5%).

SOLUCIÓN

Debemos primero calcular las frecuencias esperadas bajo el supuesto de


independencia. La tabla de frecuencias esperadas sería:

Sin depresión Con depresión


Deportista 38 (32.43) 9 (14.57) 47
No deportista 31 (36.57) 22 (16.43) 53
69 31 100

(38−32.43)2 (9−14.57)2 (31−36.57)2 (22−16.43)2


𝑋2 = + + + = 5.82
32.43 14.57 36.57 16.43

Este valor debemos compararlo con el percentil de distribución 𝑋 2 con (2 – 1) (2


2 ( )
– 1) = 1 grado de libertad. 𝑋0.05 1 = 3.84

Por lo tanto como el valor del estadístico es superior al valor crítico,


concluimos que debemos rechazar la hipótesis de independencia y por
lo tanto a sumir que existe relación entre la depresión y los hábitos
deportistas del individuo.

Ejemplo para desarrollar.

Ing. Fléli R. Jara Claudio


DOCENTE Página 64
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

Un estudio que se realizó con 81 personas referente a la relación entre


la cantidad de violencia vista en la televisión y la edad del televidente
produjo los siguientes resultados.

16 – 34 años 34 – 55 años 55 ó más años


Poca violencia 8 12 21
Mucha violencia 18 15 7

¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 5%?

Ing. Fléli R. Jara Claudio


DOCENTE Página 65
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

DISTRIBUCION BINOMIAL

1. Hallar la probabilidad de obtener 3 caras lanzando una moneda 5 veces.


Rpta. 0.3125
2. Una granja debe trasladar animales de un lugar a otro, la probabilidad de
encontrar un animal con un peso mayor de 80 kilogramos es de 1/3, y la
probabilidad de encontrar un animal con un peso menor de 80 kilogramos
es de 2/3. Los animales de la granja son colocados en camiones en un
número de cinco por camión.
a) ¿Cuál es la probabilidad de encontrar por lo menos 4 animales que
pesen menos de 80 kilogramos? Rpta. 112/234
b) ¿Cuál es el número promedio de animales que pesen menos de 80
kilogramos y se encuentren colocados en el camión? Rpta. 10/3.

Ing. Fléli R. Jara Claudio


DOCENTE Página 66
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”

DISTRIBUCIÓN DE POISSON

En un lote de un número no determinado de tubérculos de papa, se requiere hacer


un control de calidad. Según los especialistas indican que la probabilidad es baja
de obtener un tubérculo infectado, se estima que de 200 tubérculos examinados
se obtenga 2 tubérculos infectados.

¿Cuál es la probabilidad de obtener al menos 1 tubérculo infectado en muestras


de 200 tubérculos?

Rpta. 0.86

Ing. Fléli R. Jara Claudio


DOCENTE Página 67

Vous aimerez peut-être aussi