Académique Documents
Professionnel Documents
Culture Documents
PROBABILIDADES
Variables Aleatorias Discretas y Continuas
DISTRIBUCION DE PROBABILIDADES
VARIABLES ALEATORIAS
Es una variable (casi siempre representada por X) que tiene un solo valor
numérico (determinado al azar) para cada resultado de un experimento. Es una
variable asociada a un experimento aleatorio.
Ejemplos:
Ejemplo:
Ejemplos:
Si conocemos todos los valores de una variable aleatoria junto con sus
correspondientes probabilidades, tenemos una distribución de probabilidad, que se
define así:
i) 0≤ p(x) ≤ 1
ii) ∑p(x) = 1
Ejemplo
Una biblioteca que cuenta con un total de 4270 libros, clasifica estos libros según el
número de hojas deterioradas, siendo 12 el número máximo de hojas deterioradas.
La variable aleatoria en estudio es X.
X= Número de hojas deterioradas encontradas en un libro.
Esto es una variable discreta y el rango de posibles valores de X puede
ser:
Rx = { 0,1,2,3,………..12}
Encontremos la distribución de probabilidad de número de hojas deterioradas.
FUNCION DE DISTRIBUCIÓN
F(X) = P (X≤x)
Número de hojas
f(x)=p(X≤x)
deterioradas (X)
0 0.3265 F(X) = f(0) = P(X≤0) = 0.3265
1 0.6471 F(X) = f(1) = P(X≤1) = 0.6471
2 0.8351 F(X) = f(2) = P(X≤2) = 0.8351
3 0.9187 F(X) = f(3) = P(X≤3) = 0.9187
4 0.9658 F(X) = f(4) = P(X≤4) = 0.9658
5 0.9824 F(X) = f(5) = P(X≤5) = 0.9824
6 0.9909 F(X) = f(6) = P(X≤6) = 0.9909
7 0.9951 F(X) = f(7) = P(X≤7) = 0.9951
8 0.9972 F(X) = f(8) = P(X≤8) = 0.9972
9 0.9984 F(X) = f(9) = P(X≤9) = 0.9984
10 0.9991 F(X) = f(10) = P(X≤10) = 0.9991
11 0.9998 F(X) = f(11) = P(X≤11) = 0.9998
12 1.0000 F(X) = f(12) = P(X≤12) = 1.0000
0.0000 x<0
0.3265 0≤X<1
0.6471 1≤X<2 F(X) es también
0.8351 2≤X<3 llamado función
F(X) = P (X≤x) = 0.9187 3≤X<4 escalera.
0.9658 4≤X<5
0.9824 5≤X<6
0.9909 6≤X<7
0.9951 7≤X<8
0.9972 8≤X<9
0.9984 9≤X<10
0.9991 10≤X<11
0.9998 11≤X<12
1.0000 X≤12
µ = E(x) = ∑ x*p(x)
Ejemplo:
Solución.
12
DISTRIBUCIONES
DISCRETA CONTINUA
Binomial
Normal
Poisson
Uniforme
Bernoulli
Chi cuadrado
Geométrica
t de student
DISTRIBUCIONES DISCRETAS
DISTRIBUCION BINOMIAL
𝑛!
Donde 𝐶𝑥𝑛 =(𝑛−𝑥)!∗𝑥!
Los parámetros de la distribución binomial son n y p. Si la x tiene
distribución binomial se denota así: X~B(n, p)
2. Usando la tabla de probabilidades binomiales.
3. Uso de Programas Informáticos.
𝜇 = 𝐸 (𝑋 ) = 𝑛 ∗ 𝑝
LA VARIANZA
𝜎 2 = 𝑉𝐴𝑅 (𝑋) = 𝑛 ∗ 𝑝 ∗ 𝑞
EJEMPLOS:
2. Supongamos que Aero Cóndor opera el 20% de los vuelos, y que todos los
vuelos tienen la misma probabilidad de tener un accidente. Si
representamos con la variable aleatoria X el número de accidentes de Aero
Cóndor de entre siete vuelos seleccionados al azar, calcule la probabilidad
que, entre siete accidentes, tres sean de Aero Cóndor. Respuesta:
0.114688
3. Históricamente, la probabilidad de que un alumno de maestría en
Educación desapruebe el curso de metodología de la investigación es p =
0.45. Se obtiene una muestra aleatoria de 6 estudiantes de maestría que
llevan el curso de metodología de la investigación y se pide encontrar:
a) El número esperado de alumnos que desaprueban el curso.
Respuesta: 2.7 ≅ 𝟑.
b) La probabilidad de que exactamente tres alumnos desaprueban el
curso. Respuesta: 0.30321844.
c) La probabilidad que a lo más dos alumnos desaprueben el curso.
Respuesta: 0.44151766.
d) Por lo menos cinco alumnos desaprueben el curso. Respuesta:
0.069198047.
DISTRIBUCIÓN DE POISSON
𝜇 𝑥 ∗ 𝑒 −𝜇
𝑃(𝑋) =
𝑥!
Como ejemplo de variable aleatoria en una distribución de Poisson
podemos citar:
𝜆𝑥∗𝑒 −𝜆
p(x) = P(X=x) = = ; x = 0, 1, 2, 3………………..
𝑥!
𝑥
𝜆 𝑖 ∗ 𝑒− 𝜆
𝐹 (𝑥 ) = 𝑃 (𝑋 ≤ x) = ∑ 𝑃 (𝑋 = 𝑥 ) = ∑
𝑥𝑖≤𝑥 𝑥𝑖≤𝑥
𝑥𝑖 !
Ejemplos
c) La distribución de probabilidades
d) La función de distribución acumulativa de probabilidades.
X 0 1 2 3
P(X=x) 0.018315639 0.07326256 0.14652511 0.19536681
P(X≤ 𝒙) 0.018315639 0.09157819 0.23810331 0.43347012
Una variable aleatoria continua es aquella que puede asumir cualquier valor en un
intervalo específico de valores.
DEFINICIÓN
Gráfica de distribución
Normal, Media=9.8, Desv.Est.=0.53
0.8
0.7
0.6
0.5
Densidad
0.4
0.3
0.2
0.1
0.0
8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5
X
1 2 /2𝜎2
N (µ, ) = = ∗ 𝑒 − (𝑥−𝜇 )
√2𝜋
-∞ < µ <∞
>0
µ = media poblacional
= desviación estándar
𝑒 = 2.7183
π = 3.1416
1 2 /2𝜎2
N (µ,) = = ∗ 𝑒 − (𝑥−𝜇 ) ; -∞ <x<∞
√2𝜋
𝑋− 𝜇
𝑍=
𝜎
En estas condiciones;
X Z
𝑋− 𝜇
𝑍=
𝜎
µ≠0 µ=0
>0 =1
En esta curva, las áreas comprendidas entre dos puntos cualesquiera (Z1, Z2)
también se encuentran tabuladas en las tablas de áreas bajo la curva normal
tipificada o estándar de 0 a Z. (VER TABLA)
CARACTERÍSTICAS
DISTRIBUCIONES MUESTRALES
𝑁−𝑛
corrección √𝑁−1 al error estándar de la media muestral. Pero en la práctica este
𝜎2
𝑥̅ ~ N (µ, 𝑛
)
𝑥̅ − 𝜇
𝑍= 𝜎 ~ N (0,1)
√𝑛
𝑎−𝜇
i) P(𝑥̅ < 𝑎) = P(Z< 𝜎
√𝑛
𝑎−𝜇 𝑏−𝜇
ii) P(a<𝑥̅ < 𝑏) = P( 𝜎 <Z< 𝜎 )
√𝑛 √𝑛
𝑏−𝜇
iii) P(𝑥̅ > 𝑏) = P(Z> 𝜎 )
√𝑛
0.4 0.4
0.2642
0.4032
0.3 0.3
Densidad
Densidad
0.2 0.2
0.1 0.1
0.0 0.0
0 1.3 -0.72 0
X X
0.4 0.4
Densidad
0.2 0.2
0.1857
0.1 0.1
0.0 0.0
-0.48 0 2.15 0 0.8 1.94
X X
0.4 0.4
0.3 0.3
Densidad
Densidad
0.2 0.2
0.1954
0.1 0.1
0.1841
0.0 0.0
-2.3 -0.82 0 -0.9 0
X X
Gráfica de distribución
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
Normal, Media=0, Desv.Est.=1
0.4
0.4
0.3 0.3
0.8944
Densidad
Densidad
0.2 0.2
0.1 0.1
0.04272
0.0 0.0
0 1.72 -1.25 0
X X
NOVENO CASO
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.4
0.3
Densidad
0.2
0.1
0.02500 0.02500
0.0
-1.96 0 1.96
X
DECIMO CASO
A la derecha de Z = 2.06 y a la izquierda de Z= -1.48 también significa que
Z > 2.06 o Z < -1.48
p (Z > 2.06 o Z < -1.48) = 1 – ((Z < 2.06 + Z > -1.48)
p (Z > 2.06 o Z < -1.48) = 1 – (0.4803+ 0.4306)
p (Z > 2.06 o Z < -1.48) = 1 – 0.91098.91 = 0.0891
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.4
0.3
Densidad
0.2
0.4306 0.4803
0.1
0.0
-1.48 0 2.06
X
ESTANDARIZACIÓN
Es el proceso por el cual una variable aleatoria X~N (µ, 𝜎 2 ) se transforma en otra
𝑋− 𝜇
variable aleatoria 𝑍 = ~ N (0,1); permitiendo el calculo de probabilidades
𝜎
cuando x se encuentra entre dos números reales a y b del siguiente modo.
𝑎− 𝜇 𝑥− 𝜇 𝑏− 𝜇
p (a≤Z≤b) = p [ ≤ ≤ ]
𝜎 𝜎 𝜎
𝑎− 𝜇 𝑏− 𝜇 𝑏− 𝜇 𝑎− 𝜇
=p[ ≤𝑍≤ ]=ᶲ[ - ]
𝜎 𝜎 𝜎 𝜎
EJEMPLO
Los diámetros de los tubos fabricados por cierta máquina tienen distribución
normal con media de 9.8 mm y desviación estándar (𝜎) de 0.53 mm.
Distribución chi-cuadrado
Donde:
La Tabla
Ejemplo:
Gráfica de distribución
Chi-cuadrada, df=4
0.20
0.15
0.1219
Densidad
0.10
0.05
0.00
0 1.2
X
Operando:
Ejemplo
Según lo anterior:
Operando tenemos:
o 75.72%
Gráfica de distribución
Chi-cuadrada, df=6
0.14
0.12
0.10
Densidad
0.08
0.06
0.04
0.7572
0.02
0.00
0 3.4
X
Siendo:
Tenemos que:
Ejemplo
Esto es:
Operando:
Gráfica de distribución
Chi-cuadrada, df=8
0.12
0.2149
0.10
0.08
Densidad
0.06
0.04
0.02
0.00
0 3.4 5.6
X
Interpolación lineal.
La función chi-cuadrado es continua para x mayor que cero, pero en la tabla solo
se recogen algunos de sus valores, si bien la tabla podría hacerse más extensa el
numero de valores recogidos siempre seria finito, para calcular los valores no
recogidos en la tabla podemos emplear la interpolación lineal.
La expresión:
Ejemplo
Esto es:
Sustituyendo en la expresión:
Tenemos que:
Operando tenemos:
Esto es:
Que resulta:
Gráfica de distribución
Chi-cuadrada, df=5
0.16
0.14
0.12
0.10
Densidad
0.08 0.1175
0.06
0.04
0.02
0.00
0 1.75
X
Este tipo de problema en la practica, suele ser más usual, la tabla es más
compacta y también nos permite calcular la probabilidad con la tabla directa.
Ejemplo
Ejemplo
Este es el mismo ejemplo que en la tabla directa, veamos como se haría en este
caso:
La pregunta es:
Operando:
Esto es:
Esto es:
Como se puede ver hay una diferencia del orden de la tercera cifra decimal,
respecto a la búsqueda directa en la tabla, esta diferencia se produce por la
interpolación lineal, al sustituir la función por la recta que une dos puntos
conocidos, y a la relativamente gran diferencia entre x1 y x2, que es el 60% al
valor de x1.
DISTRIBUCIÓN t DE STUDENT
CARACTERÍSTICAS
𝑋̅ − 𝜇
𝑡=
𝑆𝑥̅
Ing. Fléli R. Jara Claudio
DOCENTE Página 31
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
𝑋̅ − 𝜇
𝑍=
𝑥̅
DISTRIBUCIÓN DE t
1. Las áreas de las curvas de t están dados por la tabla. Por ejemplo: para
muestras de (n – 1) = 4, encontramos en la tabla que el valor de t
correspondiente a la línea 4 y columna 0.05 ( = 0.05) = 2.7765.
Esto quiere decir que entre -2.7765 y + 2.7765 se encuentra el 95% de las ts
de esta curva, y que 2.5% son menores de -2.7765 y 2.5% son mayores que +
2.7765.
Gráfica de distribución
T, df=4
0.4
0.3
Densidad
0.2
0.1
0.025 0.025
0.0
-2.776 0 2.776
X
Gráfica de distribución
T, df=8
0.4
0.3
Densidad
0.2
0.1
0.005 0.005
0.0
-3.355 0 3.355
X
1. Para cada nivel de (0.50; 0.40; 0.30; 0.20; 0.10; 0.05; 0.02; 0.01). Los
valores de t van disminuyendo al aumentar los grados de libertad.
2. Para cada grado de libertad, el valor de t aumenta al disminuir el nivel de .
Ejemplo
Gráfica de distribución
T, df=18
0.4
0.3
Densidad
0.2
REGION DE ACEPTACIÓN
Valores de t que permite
0.1 aceptar la hipótesis nula
por ser valores corrientes
esta hipótesis es verdadera
0.025 0.025
0.0
-2.101 0 2.101
X
REGION DE RECHAZO
Valores de t que permite
rechazar la hipótesis nula, por ser
valores poco usuales si esta
hipótesis es verdadera.
EJEMPLO
SOLUCIÓN
Gráfica de distribución
T, df=9
0.4
0.3
Densidad
0.2
0.1
0.025 0.025
0.0
-2.262 0 2.262
X
p [24 +2.2622 (𝟏. 𝟎𝟒𝟒) > 𝜇> 24 - 2.2622 (𝟏. 𝟎𝟒𝟒) ]= 0.95
Una vez que se han obtenido estos dos límites, se puede decir que la
probabilidad de que 𝜇 de la población se encuentra entre esos dos límites es de
0.95 ó 95 de 100 casos en promedio.
Si en lugar de buscar los límites para 0.05 se desea para 0.01% (99%)
entonces se debe emplear el valor de t 0.01 de la tabla para 9 grados de libertad,
esto es 3.250 en este caso tendremos:
p [24 +3.2500 (𝟏. 𝟎𝟒𝟒) > 𝜇> 24 – 3.2500 (𝟏. 𝟎𝟒𝟒) ]= 0.99
Gráfica de distribución
T, df=9
0.4
0.3
Densidad
0.2
0.1
0.005 0.005
0.0
-3.250 0 3.250
X
EJERCICIOS
Gráfica de distribución
T, df=9
0.4
0.3
Densidad
0.2
0.1
0.0
-t 0 t
X
2. Hallar los valores críticos de t para los que el área de la cola de la derecha de
la distribución t sea 0.05 si el número de grados de libertad v es igual a (a) 16;
(b) 27 y (c) 200.
3. Los coeficientes de confianza del 95% (doble cola) para la distribución normal
son dados por + 1.96. ¿Cuáles son los coeficientes correspondientes para la
distribución t si (a) v =9; (b) v=20; (c) v=30 y (d) v = 60.
4. Una muestra de 10 medidas del diámetro de una esfera dio una media (𝑋̅) =
4.38 pulgadas y una desviación típica S = 0.06 pulgadas. Hallar los límites de
confianza para el diámetro verdadero del: (a) 95% y (b) 99%.
DISTRIBUCIÓN F DE SNEDECOR
Formulas
Función densidad
v1
v v v 2
v1
1
1 2 * 1 * x 2
2 v2
f ( x) v1 v2
x0
v v v 2
1 * 2 * 1 * x 1
2 2 v2
Forma de la curva de esta
distribución según V1 y V2.
2. Determinar los grados de libertad (v1 y v2) tal que v1=n1-1 y v2=n2-1.
Ing. Fléli R. Jara Claudio
DOCENTE Página 39
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
𝑆1 2 ∗ 2 2
𝐹=
𝑆2 2 ∗ 1 2
Gráfica de distribución
F, df1=12, df2=8
0.8
0.7
0.6
0.5
Densidad
0.4
0.3
0.9498
0.2
0.1
0.0
0 3.28
X
Ejemplo
1. En un proceso hay dos máquinas cortadoras diferentes en antigüedad, lo
que hace pensar que las varianzas de corte no son iguales. Se toma una
SOLUCIÓN
a. P(F ≥ 1.97) = 0.9 la parte sombreada en la tabla
= 1 – 0.9 = 0.1 para V1 = 15 y V2 = 15
La probabilidad de que la razón de varianzas sea mayor a 1.97 es 0.1 ó
10%.
Gráfica de distribución
F, df1=15, df2=15
0.9
0.8
0.7
0.6
Densidad
0.5
0.4
0.3
0.2
0.1
0.1004
0.0
0 1.97
X
Gráfica de distribución
F, df1=15, df2=15
0.9
0.8
0.7
0.6
Densidad
0.5
0.4
0.3
0.9900
0.2
0.1
0.0
0 3.52
X
Gráfica de distribución
F, df1=15, df2=15
0.9
0.8
0.7
0.6
Densidad
0.5
0.4
0.3
0.2
0.1
0.1
0.0
0 1.972
X
PRUEBA DE HIPOTESIS
Se desea:
CONCEPTOS BÁSICOS
Representa la hipótesis que mantendremos cierta a no ser que los datos indiquen
su falsedad. Esta hipótesis nunca se considera aceptada, en realidad lo que se
quiere decir es que no hay suficiente evidencia estadística para rechazarla por lo
que aceptar H0 no garantiza que H0 sea cierta.
Tipos de pruebas
0.4
0.3
Densidad
0.2
0.0
-Z /2 0 Z /2
Gráfica de distribución
Normal, Media=0, Desv.Est.=1
0.4
0.3
Densidad
0.2
Región de rechazo
0.1
0.0
0 Z /2
0.4
0.3
Densidad
0.2
Región de rechazo
0.1
0.0
-z /2 0
a) Error tipo I. se comete cuando se rechaza una hipótesis que por ser
verdadera debería ser aceptada.
b) Error tipo II. Se comete cuando se acepta una hipótesis que por ser falsa
debería ser rechazada.
H0 Verdadera H1 Falsa
Se acepta H0 Decisión correcta (1 - ) ERROR TIPO II ()
Se rechaza H1 ERROR TIPO I () Decisión correcta (1 - )
En este caso, n=10; 𝑿 ̅ = 51.11 y s = 0.47. Con 9 grados de libertad tenemos t0.025
= 2.26, que se puede obtener en Excel haciendo =DISTR.T.INV(0.05;9)=2.26. Por
consiguiente, los límites de confianza del 95% son:
𝟎.𝟒𝟕 𝟎.𝟒𝟕
51.11 + 2.26* = 𝟓𝟏. 𝟒𝟒 o 51.11 - 2.26* = 𝟓𝟎. 𝟕𝟖
√𝟏𝟎 √𝟏𝟎
El razonamiento habitual del usuario es el que sigue. Como el valor patrón no está
comprendido entre estos límites, se puede concluir (con el 95% de seguridad) que
este equipo tiene un error sistemático. De otra forma, se puede decir que el sesgo
hallado, es decir, la diferencia media entre los resultados dados por el equipo y el
valor patrón es significativo (con la normal los límites hubiesen sido 51.40 y 50.82,
siendo la conclusión la misma.
̅ −𝟓𝟎
𝑿
t= 𝒔/√𝒏
que, suponiendo que Ho sea válida, tiene una distribución t(n – 1). Por esta razón,
se dice que es una prueba t. El valor del estadístico se compara con el valor
crítico, correspondiente a un intervalo del 95% (t0.025). Si lo supera, se rechaza Ho,
con un 95% de confianza. Decimos entonces que el valor t es significativo, o que
los resultados experimentales son significativos (en sentido coloquial, significativo
En el ejemplo, el valor
𝟓𝟏.𝟏𝟏−𝟓𝟎
t= = 𝟕. 𝟓𝟎
𝟎.𝟒𝟕/√𝟏𝟎
supera al valor crítico. Se concluye, pues, con 95% de confianza, que 𝜇 ≠ 50.
La disponibilidad de medios electrónicos de cálculo ha ido imponiendo otro
enfoque de las pruebas de hipótesis, totalmente equivalente, basado en el nivel de
significación. El nivel de significación es la probabilidad exacta que corresponde al
valor del estadístico o a un valor más extremo, suponiendo cierta la hipótesis nula.
Se designa, habitualmente, por P (o p). El nivel de significación se interpreta como
una medida de lo significativo que son los resultados experimentales (cuanto
menor sea p, más significativos). Para un nivel de confianza del 95%, se considera
que el valor del estadístico es significativo cuando p<0.05.
La prueba del ejemplo A era una prueba t para una muestra, asociada a una
hipótesis del tipo 𝜇 = 𝜇 o, siendo 𝜇 o un valor previamente establecido. En lo que
resta vamos a ver distintas pruebas para una hipótesis nula Ho: 𝜇 1 = 𝜇 2 , donde 𝜇 1
y 𝜇 2 son las medias de sos distribuciones. En el ejemplo más típico, serán las
medias de una cierta variable en dos subpoblaciones (hombres y mujeres,
fumadores y no fumadores, casos y controles, etc.).
̅𝟏 − 𝑿
𝑿 ̅𝟐
𝑡=
1 1
𝑠 ∗ √( ) + ( )
n1 n2
Donde s2 es la media ponderada de las varianzas de los dos grupos,
Ing. Fléli R. Jara Claudio
DOCENTE Página 48
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
𝑛1 − 1 𝑛2 − 1
S2 = 𝑆12 + 𝑆2
𝑛1 + 𝑛2 − 2 𝑛1 + 𝑛2 − 2 2
HOMBRES
1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1.050
1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1.170
1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0.875
1.455 1.170
MUJERES
1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1.000
0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1.295
1.065 1.020 1.465 1.050 0.790
Y en el de mujeres
Supongamos que la desviación típica es la misma para ambos medios (1 = 2), lo
que no parece entrar en contradicción con los resultados experimentales.
Entonces.
√31∗0.109+24∗0.061 1.378−1.174
𝑠= = 0.297, t= = 2.571
55 2 1 1
0.297∗ √32+25
Para que la prueba sea válida se debe asumir que la distribución del colesterol
HDL en la subpoblación de los hombres tiene distribución normal, e igual en el de
las mujeres, con la misma varianza. La comparación de las varianzas puede
hacerse con más objetividad mediante una prueba que veremos más adelante
(Prueba F). La validez de la distribución normal debe examinarse aquí por
separado para hombres y mujeres.
̅𝟏 − 𝑿
𝑿 ̅𝟐
𝑡=
𝑆2 𝑆2
√( 1 ) + ( 2 )
n 1 n 2
𝑆12 𝑆22 2
(n + n )
1 2
𝑑𝑓 = 2
(𝑆1 ⁄n1 )2 (𝑆22 ⁄n2 )2
n1 − 1 + n2 − 1
En la práctica, las dos pruebas dan niveles de significación muy parecidos, salvo si
n1 y n2 son muy distintos, lo que es poco habitual.
1.378−1.174
t= 2 0.109 0.061
= 2.663
√ +
32 25
0.109 0.061 2
( + )
𝑑𝑓 = 32 25
(0.109⁄32)2 (0.061⁄25)2
= 54.92
+
31 24
MEDIO I
0.740 0.920 0.845 0.704 0.907 0.716 0.615 0.740
0.766 0.775 0.650 0.640 0.420 1.030 0.741 1.057
0.509 0.621 0.601 0.969 0.950 1.380 0.932 1.053
MEDIO II
0.915 0.802 0.800 0.730 0.575 0.660 0.840 0.690
0.800 0.780 0.922 0.925 0.778 0.703 0.841 1.045
1.004 0.132 1.275 1.313 0.734 1.032 0.816 1.326
prueba t para ver si la diferencia entre los pesos medios es significativa. En este
caso,
̅
𝑿
t = 𝒔/
√𝒏
y el nivel de significación es el área de dos colas de la t(n – 1). Recuerda que aquí
̅ y s se refieren a la diferencia X1 - X2.
𝑿
Esta prueba, que se aplica siempre a datos que están agrupados por pares de
forma natural, se denomina prueba t para datos emparejados. A veces se
confunde con la de la sección anterior, porque ambas se aplican a la comparación
de medias. La diferencia entre ellas viene del propio diseño experimental, que
invalidad la suposición de la independencia entre los dos grupos de
observaciones. Esta diferencia se percibe mejor en un ejemplo:
Tabla 000B
−2.9398
t = 2.5003/ = -7.436 (df = 39, p<0.001)
√40
Se puede concluir, pues, que el porcentaje medio de ácido oleico en los dos
tejidos es diferente. Comparando esta tabla con la tabla 000A se puede ver por
qué hablamos aquí de “datos emparejados”. En la tabla 000B tenemos 40 pares,
siendo el emparejamiento natural, ya que asociamos resultados del mismo
Ing. Fléli R. Jara Claudio
DOCENTE Página 53
ASIGNATURA: ESTADÍSTICA UNHEVAL 2016
EAP “INGENIERÍA AGROINDUSTRIAL”
individuo. ¿Por qué no tratamos los resultados de los dos tejidos como dos
muestras independientes? Porque el nivel de oleico en ambos tejidos depende de
factores genéticos y ambientales, de forma que el individuo que muestre un nivel
alto de oleico en un tejido, probablemente tendrá un nivel alto en el otro. Resulta,
pues, que la distribución de X2 condicionada a un valor de X1 alto que la
condicionada a un valor bajo, de modo que X1 y X2 no son independientes.
Prueba F
max(𝑆12 , 𝑆22 )
𝐹=
min(𝑆12 , 𝑆22 )
Si 1 = 2, el estadístico tiene una distribución F de Fisher – Snedecor. Al igual que
la t de Student, se trata de una familia de distribuciones de probabilidad, que se
identifican por los grados de liberta. Para una distribución F se necesitan dos
números de grados de libertad, uno para el numerador y otro para el
denominador, que, en la prueba sobre 1 = 2, son los que corresponden a las
varianzas cuyo cociente da el valor F. Una distribución F es positiva y asimétrica.
También aquí se designa por Fα el valor asociado a una cola (derecha) de área α
o, equivalentemente, el valor con probabilidad acumulada 1 – α.
(0.330)2
𝐹= = 1.7751
(0.248)2
El área de la cola de la F con (31.24) grados de libertad es
DISTR.F(1.7751;31;24)=0.0756
HOMBRES
1.910 1.310 1.295 1.120 1.660 1.700 1.630 1.055 0.930 1.050
1.015 0.840 1.680 1.155 1.300 1.815 1.400 1.135 1.245 1.170
1.980 1.535 1.940 1.835 1.485 1.115 1.520 1.660 1.100 0.875
1.455 1.170
MUJERES
1.100 1.290 1.365 1.065 1.150 0.860 1.155 1.225 1.695 1.000
0.910 1.360 0.965 1.660 1.625 0.875 1.225 1.055 1.085 1.295
1.065 1.020 1.465 1.050 0.790
Estadística no paramétrica
BONDAD DE AJUSTE I
E1 + E2 + …+ EK = n
𝑘
2
(𝑂𝑖 − 𝐸𝑖)2
𝑋 =∑
𝐸𝑖
𝑖=1
Las ideas anteriores sugieren que, cuanto menor sean el valor del
estadístico X2*, más coherentes serán las observaciones obtenidas con los valores
esperados. Por el contrario, valores grandes de este estadístico indicarán falta de
concordancia entre las observaciones y lo esperado. En este tipo de contraste se
suele rechazar la hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado valor crítico.
Notas:
(1) El valor del estadístico X2* se podrá aproximar por una distribución chi –
cuadrado cuando el tamaño muestral n sea grande (n>30), y todas las
frecuencias esperadas sean iguales o mayores a 5 (en ocasiones
deberemos agrupar varias categorías a fin de que se cumpla este requisito).
(2) Las observaciones son obtenidas mediante muestreo aleatorio a partir de
una población particionada en categorías.
BONDAD DE AJUSTE II
𝐸𝑖 = 𝑛 ∗ 𝑝𝑖 i = 1, ……,k
EJEMPLO
𝐸𝑖 = 𝑛 ∗ 𝑝𝑖 i = 1, ……,k
𝐸𝑖 = 70 ∗ 1 ⁄4 = 17.5
PRUEBA DE HOMOGENEIDAD
CONCEPTOS FUNDAMENTALES
Del mismo modo que la Prueba de Bondad de Ajuste, en este caso debemos
comparar las frecuencias observadas en cada una de las muestras y para cada
categoría con las frecuencias bajo el supuesto de homogeneidad en las
poblaciones. En este caso las frecuencias observadas corresponden al número de
individuos de la muestra i en la clase j, i.e., nij.
𝑛 𝑘
2∗
(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2
𝑋 =∑ ∑
𝑒𝑖𝑗
𝑖=1 𝑗=1
𝑝𝑖 = 𝑛.𝑗 /n
Por lo tanto:
Las ideas anteriores sugieren que, cuanto menor sean el valor del
estadístico χ2∗ más coherentes serán las observaciones obtenidas con los valores
esperados. Por el contrario, valores grandes de este estadístico indicarán falta de
concordancia entre las observaciones y lo esperado. En este tipo de contraste se
suele rechazar la hipótesis nula (los valores observados son coherentes con los
esperados) cuando el estadístico es mayor que un determinado valor crítico.
Notas:
(3) El valor del estadístico 𝑋 2∗ se podrá aproximar por una distribución cuando
el tamaño muestral n sea grande (n>30), y todas las frecuencias esperadas
sean iguales o mayores a 5 (en ocasiones deberemos agrupar varias
categorías a fin de que se cumpla este requisito).
𝑘
(𝑂𝑖 − 𝐸𝑖)2
𝑋2 = ∑
𝐸𝑖
𝑖=1
EJEMPLO
Componentes Componentes
defectuosos correctos
Distribuidor 1 16 94 100
Distribuidor 2 24 76 100
Distribuidor 3 9 81 100
49 251 300
SOLUCIÓN
Componentes Componentes
defectuosos correctos
Distribuidor 1 16 (16.33) 94 (83.66) 100
Distribuidor 2 24 (16.33) 76 (83.66) 100
Distribuidor 3 9 (16.33) 81 (83.66) 100
49 251 300
Este valor del estadístico ji – cuadrado es mayor que el valor para el nivel
de significación del 5%, por lo tanto debemos concluir que no existe
homogeneidad y por lo tanto que hay diferencias entre los tres
2 ( )
distribuidores. 𝑋0.05 2 = 5.99
PRUEBA DE INDEPENDENCIA
Prueba de independencia
𝑟 𝑘
2∗
(𝑛𝑖𝑗 − 𝑒𝑖𝑗 )2
𝑋 =∑ ∑
𝑒𝑖𝑗
𝑖=1 𝑗=1
Donde:
𝑒𝑖𝑗 = 𝑛𝑖. . 𝑛.𝑗 /n
EJEMPLO
SOLUCIÓN
¿Indican los datos que ver violencia en la televisión depende de la edad del
televidente, a un nivel de significación del 5%?
DISTRIBUCION BINOMIAL
DISTRIBUCIÓN DE POISSON
Rpta. 0.86