Vous êtes sur la page 1sur 45

DISTRIBUCION DE LA MEDIA DE UN MUESTREO

Sea X1, X2, ..., Xn una muestra aleatoria de una distribución con valor medio μ y desviación estándar σ. Entonces:
1. E(X) = μx = μ
2. V(X) = σx ² = σ ²/n y σx = σ/√n
Además, con T0 = X1 + X2 + ... + Xn (la muestra total), E(T0) = n.μ, V(T0) = n.σ ², y σ.T0 = √n.σ.

N: número de muestras.
n: número de muestras en el subconjunto extraído del conjunto madre de N muestras.
μx = μx
σx ² = σ ²/n
σx = σ/√n
A medida que aumentan las muestras, la variabilidad disminuye.
Sea X1, X2, ..., Xn una muestra aleatoria de una distribución normal con valor medio μ y desviación estándar σ.
Entonces, para cualquier n, X está normalmente distribuida (con media μ y desviación estándar σ/√n), como es T0
(con media n.μ desviación estándar √n.σ).
TEOREMA DEL LIMITE CENTRAL
Teorema:
Sea X1, X2, ..., Xn una muestra aleatoria de una distribución con media μ y varianza σ ². Entonces, si n es
suficientemente grande, X tiene aproximadamente una distribución normal con μx = μ y σx ² = σ ²/n, y T0 tiene también
aproximadamente una distribución normal con μT0 = n.μ, σ ²T0 = n.σ ². Cuanto mas grande sea el valor de n, mejor
será la aproximación.
El Teorema del Límite Central garantiza una distribución normal cuando n es suficientemente grande
Si n > 30, se puede usar el TLC.
Si la distribución madre es normal, la distribución de la media muestral también es normal, independientemente del
tamaño.
x ≈ N(μx; σx)  x ≈ N(μx; σx)
Ejemplo 1:
Si se sabe que la dureza Rockwell de pernos de cierto tipo tiene un valor medio de 50 y desviación estándar de 1,5.
a) Si la distribución es normal, ¿cuál es la probabilidad de que la dureza muestral media para una muestra aleatoria
de 9 pernos sea por lo menos 52?
b) ¿Cuál es la probabilidad (aproximada) de que la dureza muestral media para una muestra aleatoria de 40 pernos
sea al menos 52?
x = 50
σ = 1,5
x ≈ N(50; 1,5)
a)
n=9
x = 52
x ≈ N(50; 1,5.√9)
z = (x - μ)/(σ/√n)

La probabilidad de que la media muestral sea superior a 52 es:

P(x ≥ 52) =  P(z ≥ 4) = 0


Con el valor de z obtenido de tablas:
P(x1 ≤ x ≤ x2) =  P(z1 ≤ z ≤ z2) = φ(z)

Tener en cuenta que los valores para:


φ(z) = P(z ≤ z1)
b)
n = 40
Con el valor de z obtenido de tablas:

P(x ≥ 52) =  P(z ≥ 8,4327) = 0

Autor: Ricardo Santiago Netto


INTERVALO DE CONFIANZA
1) Para la media μ de una población normal:
Li/s = x ± zα/2.σ/√n
Tener en cuenta que una confianza del 95% significa:
α/2 = 0,95
p=1–q
p = x/n
2) Para la media X :
Li/s = x ± t(n - 1)(1 - α/2).S/√n
t(α,v) se busca en tabla
3) Para la varianza S2:

X2(α,v) se busca en tabla


4) Para el desvío estándar S:

5) Para muestras grandes:


Un intervalo de confianza 100(1 - α)% para la proporción p de una población, de muestras grandes, es:
p ± zα/2√p.q/n

Dónde p = x/n, n tamaño muestral, x es el número observado de éxitos, y q = 1 - p.


Este intervalo se puede emplear siempre que n.p ≥ 5 y n.q ≥ 5.
Ejemplo:
El gerente financiero de una gran cadena de tiendas seleccionó una muestra aleatoria de 200 de sus clientes que
utilizan tarjetas de crédito, y encontró que 136 habían incurrido en cargos por intereses durante el año anterior debido
a falta de pago de sus saldos.
a) Calcule un intervalo de confianza de 95% para la verdadera proporción de clientes que utilizan tarjetas de crédito,
quienes han incurrido en cargos por intereses durante el año anterior.
b) Si la longitud deseada del intervalo de 90% es 0,05, ¿qué tamaño muestral es necesario para asegurar esto?
c) Calcule el intervalo de confianza de 82% para la verdadera proporción.

n = 200
x = 136
a) Para 1 - α/2 = 0,95
p = x/n
p = 136/200 = 0,68
p=1–qq=1-p
q = 1 - 0,68 = 0,32
Li/s = p ± z(1 - α/2).√p.q/n
Li/s = 0,68 ± z( 0,95).√0,68.0,32/200
De tabla z(0,95) = 1,645
Li/s = 0,68 ± 1,645.0,33
Li/s = 0,68 ± 0,054
(0,626; 0,734)

b)
n = [z(1 - α/2) ².p.q]/L ²
n = 1,645 ².0,5.0,5/(0,25 ²)
Sin sondeo previo tomar p = q = 0,5
n = 10,82 clientes

c) Para el 82%
Li/s = p ± z(1 - α/2).√p.q/n
α = 0,82
1 - α = 0,18
α/2 = 0,09
1 - α/2 = 0,91
De tabla e interpolando z(1 - α/2) = 1,3425
Li/s = 0,68 ± z(0,91).√0,68.0,32/200
De tabla z(0,91) = 1,645
Li/s = 0,68 ± 1,3425.0,33
Li/s = 0,68 ± 0,0443
(0,6357; 0,7243)

Autor: Ricardo Santiago Netto


Fuente: "Probabilidad y estadísticas para ingeniería y ciencias". Jay L. Devore. 1998.
PROBABILIDAD CONDICIONAL
Definición:
Para dos eventos A y B cualesquiera con P(B) > 0, la probabilidad condicional de A dado que B ha ocurrido está
dada por:
P(A/B) = P(A  B)/P(B)

Cuadro de Contingencia
A B

H P(A  H) P(B  H) P(H)


K P(A  K) P(B  K) P(K)

P(A) P(B) 1
Del cuadro:
P(A) = P(A  H) + P(A  K)
P(B) = P(B  H) + P(B  K)
P(H) = P(A  H) + P(B  H)
P(K) = P(A  K) + P(B  K)
P(A) + P(B) = 1
P(H) + P(K) = 1
P(A  H) = P(A/H).P(H)
P(A  H) = P(H/A).P(A)
P(A  K) = P(A/K).P(K)
P(A  K) = P(K/A).P(A)
P(B  H) = P(H/B).P(B)
P(B  H) = P(B/H).P(H)
P(B  K) = P(B/K).P(K)
P(B  K) = P(K/B).P(B)
P(A) ó P(H) = P(A  H) = P(A  K) + P(B  H) - P(A  H) - Para eventos independientes
Teorema de Bayes

Ejemplo:
De 300 estudiantes de Ciencias Económicas, 100 cursan Estadística y 80 cursan Historia Económica I. Estas cifras
incluyen 30 estudiantes que cursan ambas materias.
a) ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente curse Estadística o Historia Económica I?
b) Idem anterior pero que no curse ninguna de esas dos materias.
c) ¿Qué probabilidad hay de que al elegir un estudiante al azar curse Historia Económica I, dado que cursa
Estadística?
d) ¿Qué probabilidad hay de que al elegir un estudiante al azar curse Estadística, dado que cursa Historia
Económica I?
e) Pruebe si el hecho de cursar Estadística es independiente de cursar Historia Económica I.
Lamamos:
E: Estadística.
HE: Historia Económica I.
X: Ni Estadística ni Historia Económica I.
Armamos la tabla:
HE HE

E 30 100
E 200
80 220 300
Completamos los lugares vacíos:
HE HE

E 30 70 100
E 50 150 200
80 220 300
a) Se pide P(E) o P(HE), es decir P(E  HE).
P(E  HE) = P(E) + P(HE) - P(E  HE)
P(E) = 100/300 = 0,333
P(HE) = 80/300 = 0,267
P(E  HE) = 30/300 = 0,100
P(E  HE) = 0,333 + 0,267 - 0,100 = 0,500

b) Se pide P(E  HE).


P(E  HE) = P(E) + P(HE) - P(E  HE)
P(E) = 200/300 = 0,667
P(HE) = 220/300 = 0,733
P(E  HE) = 270/300 = 0,900
P(E  HE) = 0,667 + 0,733 - 0,900 = 0,500

c) Se pide P(HE/E).
P(HE/E) = P(E  HE)/P(E) = 0,100/0,333 = 0,3003

d) Se pide P(E/HE).
P(E/HE) = P(E  HE)/P(HE) = 0,100/0,267 = 0,3745

e) Se pide P(E  HE) = P(E).P(HE).


0,100 ≠ 0,333.0,267 No son independientes

Autor: Ricardo Santiago Netto


CALCULO DE PROBABILIDADES
• La expansión del cultivo de soja en la Argentina es objeto de una fuerte controversia entre quienes aprecian las
ventajas económicas actuales de dicha expansión y quienes alertan sobre problemas de contaminación ambiental,
de empobrecimiento cultural y de fragilidad de la economía asociados con ella. En parte, los problemas
mencionados son característicos del monocultivo y ya han ocurrido en regiones donde el cultivo hegemónico era
otro.
• Nuestro problema será encontrar una manera para evaluar en qué medida la adopción del cultivo de soja está
asociada con la práctica del monocultivo a partir de los datos de una encuesta en la cual se registran los cultivos
realizados en los diferentes establecimientos agrícolas de un área determinada. Para ello utilizaremos las
herramientas conceptuales y metodológicas que la estadística provee para realizar una evaluación de este tipo.
Problema (datos ficticios)
En un estudio de la actividad agrícola en un partido de la Pampa Ondulada se registraron los cultivos estivales de
cosecha realizados en la última campaña en 100 establecimientos elegidos al azar dentro del partido. La planilla que
llevaban los encuestadores permitía registrar las siguientes opciones: Maíz, Girasol, Sorgo, Soja, Cártamo. Entre los
resultados de la encuesta se encontró que en 90 de los 100 establecimientos relevados se había cultivado soja y
que, en 40 de ellos, la soja era el único cultivo estival; además, 2 establecimientos realizaron otro tipo de
monocultura (datos ficticios).
• Identificar la población bajo estudio.
• Identificar la muestra.
• Detallar las 31 diferentes posibilidades para la lista de los cultivos realizados en un establecimiento (los 31
eventos simples que componen el espacio muestral).
• Indicar cuáles eventos simples componen los siguientes eventos compuestos:
• "en el establecimiento se cultivó soja"
• "en el establecimiento de cultivó maíz y girasol"
• "el establecimiento realizó un único cultivo estival"
• "en el establecimiento se realizaron más de 3 cultivos diferentes"
DEFINICIONES
• Probabilidad: Es un valor comprendido entre 0 y 1, incluidos estos dos valores, que describe la posibilidad de
ocurrencia de un evento.
• Experimento: Cualquier proceso que produce un resultado.
• Determinístico: Ante la repetición del mismo se obtiene siempre el mismo resultado.
• Aleatorio: Repitiendo el experimento en idénticas condiciones se obtienen distintos resultados.
• Punto muestral ó Resultado: Es un resultado particular de un experimento.
• Evento: Es una colección de uno o mas resultados de un experimento.
DEFINICIONES EVENTO O SUCESO ALEATORIO
• Evento o Suceso Aleatorio: Es una colección de uno o mas resultados de un experimento.
• E1 = Sacar un 5 al tirar un dado
• E2 = Sacar un número par al tirar un dado.
• E3 = Sacar un número menor que 7 al tirar un dado = EVENTO CIERTO
• E4 = Sacar un número mayor que 6 al tirar un dado = EVENTO IMPOSIBLE
DEFINICIONES SUCESOS COMPUESTOS
• Sucesos mutuamente excluyentes:
• Dos sucesos A y B son mutuamente excluyentes cuando la ocurrencia de uno de ellos impide la ocurrencia del
otro.
• P(AB) = P(AyB) = P(AB) = 0
• Sucesos colectivamente exhaustivos
• Dos sucesos A y B son colectivamente exhaustivos cuando al menos uno de ellos deba ocurrir siempre que se
realiza el experimento.
• Dicho en otras palabras, deberá cumplirse que la suma de las probabilidades de todos los sucesos deberá ser
igual a 1.
DEFINICIONES ESPACIO MUESTRAL
• Espacio muestral: Es el conjunto de todos los posibles resultados de un experimento.
• Suele representarse con la letra S. Puede visualizarse a través de
• Listas
- Conjunto de posibles resultados al tirar un dado = {1;2;3;4;5;6}
• Diagramas de arbol
- Conjunto de posibles resultados al tirar dos monedas
C

C 
S
C

S 
S
• Tablas rejilla
- Conjunto de posibles resultados al tirar un dado rojo y uno azul

11 21 31 41 51 61
12 22 32 42 52 62
13 23 33 43 53 63
14 24 34 44 54 64
15 25 35 45 55 65
16 26 36 46 56 66

• Conjuntos (Diagramas de Venn)


- Se pretende representar a las mujeres, a los universitarios pero es necesario tener en cuenta que existen
mujeres universitarias.

• Tablas de doble entrada


- Cuando se tienen dos o mas variables con dos o mas categorías cada una, por ejemplo hombres y mujeres,
Ingenieros Agrónomos y Licenciados en Economía y Administración Agraria.
Licenciados en
Ingenieros
Economía y
Agrónomos
Administración

M 40 25 65
H 60 30 90
100 55 155
Recordemos cuales son los totales marginales y el gran total.
DEFINICIONES DE PROBABILIDAD
DEFINICION CLASICA
• Se basa en que todos los resultados son
• igualmente probables o equiprobables.
• Mutuamente excluyentes
• Colectivamente exhaustivos
Número de resultados favorables
Probabilidad de un evento =
Número de resultados posibles
DEFINICION FRECUENCIAL
• Cuando los resultados no son equiprobables la probabilidad de ocurrencia de un
evento se determina por observación del número de veces que eventos similares
ocurrieron en el pasado. (frecuencia relativa)
Número de veces que el evento ocurrió en el pasado
Probabilidad de un evento =
Número de observaciones
Ejemplo:
Sea el experimento de estudiar una droga que cura cierta enfermedad en vacunos enfermos. Se aplicó a 1000
vacunos y se curaron 700.
• El espacio muestral será S = {curado; no curado}
• Consideremos el evento de que el vacuno se cure.
• Probabilidad de curado = 700/1000 = 0,7
DEFINICION SUBJETIVA
• Cuando no se tienen datos para ningún tipo de cálculo, ni posibilidad de efectuar repetidamente el experimento,
se recurre a un experto, quien de acuerdo a su buen saber y entender estimará la probabilidad.
Ejemplos:
• Calcular la probabilidad de que un tenista gane un campeonato
• Calcular la probabilidad de que un club de futbol salga campeón
• Calcular la probabilidad de que el precio de las acciones de una compañía se incremente en dos años.
AXIOMAS DE PROBABILIDADES
• Independientemente de que definición de probabilidad utilicemos, siempre se deberán cumplir los siguientes tres
axiomas.
Axiomas:
• Axioma 1: La probabilidad de un evento existe y es un número mayor o igual a cero
0 ≤ P(A)
• Axioma 2: La probabilidad de todo el espacio muestral es 1.
P(S) = 1
• Axioma 3: Si dos eventos A y B son mutuamente excluyentes
P(AB) = P(A) + P(B)
CONSECUENCIAS DE LOS AXIOMAS DE PROBABILIDADES
P(Φ) = 0
Si Ā = suceso complementario de A es decir Ā = S - A, será P(Ā) = 1 - P(A)
Si A1A2, entonces P(A1) ≤ P(A2)
" A se cumple que P(A) ≤ 1
REGLA GENERAL DE LA SUMA
• Si A y B son dos sucesos no mutuamente excluyentes, luego la probabilidad de la unión entre ambos está dada
por la siguiente fórmula.
P(A  B) = P(A) + P(B) - P(A  B)

B
AyB
A

• Si A y B son dos sucesos mutuamente excluyentes, se cumple:


P(A  B) = P(A) + P(B)
Ejemplo:
Un experimento genera un espacio muestral que contiene ocho sucesos E1,...,E8 con p(Ei) = 1/8, i = 1,...,8. Los
sucesos A y B se definen así:
A = {E1,E4,E6}
B = {E3,E4,E5,E6,E7}
Encuentre:
(a) P(A)
(b) P(Ā)
(c) P(A  B)

a) P(A) = 3/8
(b) P(Ā) = 5/8
(c) P(A U B) = P(A) + P(B) - P(AB)
P(A U B) = 3/8 + 5/8 - 2/8 = 6/8 = 0,75
resultado que es muy fácil verificar visualmente en el diagrama.
INDEPENDENCIA
• Dos eventos A y B son independientes cuando se cumple que la probabilidad conjunta es igual al producto de las
probabilidades marginales.
P(A  B) = P(A)*P(B)
PROBABILIDAD CONDICIONAL
• Probabilidad Condicional es la probabilidad de ocurrencia de un evento en particular, dado que otro evento ha
ocurrido. La probabilidad condicional de el evento A dado que el evento B ha ocurrido se escribe P(A|B).
REGLA GENERAL DEL PRODUCTO
• Dados dos eventos A y B la probabilidad conjunta de que ambos sucedan se calcula según la siguiente fórmula:
P(A  B) = P(A)*P(B|A) = P(B  A) = P(B)*P(A|B)
• Si los eventos A y B son independientes la probabilidad conjunta de que ambos sucedan se calcula según la
siguiente fórmula:
P(A  B) = P(B  A) = P(A)*P(B) = P(B)*P(A)
Ejemplo:
Un experimento genera un espacio muestral que contiene ocho sucesos E1,...,E8 con p(Ei) = 1/8, i = 1,...,8. Los
sucesos A y B se definen así:
A = {E1,E4,E6}
B = {E3,E4,E5,E6,E7}
Resolver:
(a) ¿Son los sucesos A y B mutuamente excluyentes? ¿Por qué?
(b) ¿Son los sucesos A y B independientes? ¿Por qué?
(c) P(AB)
(d) P(A/B)

(a) No, porque AB ≠ 0


(b) No, porque P(A)*P(B) ≠ P(AB)
3/8 * 5/8 ≠ 2/8
(c) P(AB) = 2/8 = 0,25
(d) P(A/B) = P(AB) / P(B) = (2/8) / (5/8) = 2/5
Esto puede verse en el diagrama, ya que saber que B ocurrió, reduce nuestro espacio muestral a los cinco
elementos de B. Y de ellos, sólo dos pertenecen a A.
PROBLEMAS A RESOLVER
1) Dos candidatos a los consejos de administración A y B, compiten por el control de una corporación. Las
probabilidades de ganar de estos candidatos son 0,7 y 0,3, respectivamente. Si gana A, la probabilidad de introducir
un nuevo producto es 0,8; si gana B, la correspondiente probabilidad es 0,4. Demuestre que, antes de las
elecciones, la probabilidad de que sea introducido un nuevo producto es 0,68.
Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Considerar todo el espacio muestral
Datos:
P(A) = 0,7
P(N/A) = 0,8
P(B) = 0,3
P(N/B) = 0,4
Solución:
P(N) = P(NA) + P(NB)
P(N) = P(N/A)*P(A) + P(N/B)*P(B)
P(N) = 0,8*0,7 + 0,4*0,3 = 0,68
2) El 34% de los árboles de un bosque tienen más de 15 años. El 54% son de la variedad A. De los de la variedad A,
el 7% tiene más de 15 años. Si se elige un árbol al azar,
a) ¿Cuál es la probabilidad de que tenga más de 15 años y sea de la variedad A?
b) ¿Cuál es la probabilidad de que teniendo menos de 15 años, sea de la variedad A?
Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Considerar tablas de contingencia

Solución:
a) P(+15A) = P(+15/A)*P(A) = 0,07*0,54 = 0,0378
b) P(A/-15) = P(A-15) / P(-15) = 0,5022 / 0,66 = 0,76
3) El 70% del ganado es inyectado con una vacuna para combatir una enfermedad grave. La probabilidad de
recuperarse de la enfermedad es 1 en 20 si no ha habido tratamiento y de 1 en 5 si hubo tratamiento. Si un animal
infectada se recupera, ¿cuál es la probabilidad de que haya recibido la vacuna preventiva?
Sugerencias: Recordar probabilidad condicional y probabilidad conjunta Regla del producto.
Datos:
P( I ) = 0,7
P( R / I ) = 0,2
P( Ī ) = 0,3
P( R / Ī ) = 0,05
Incógnita:
P( I /R )
Autor: Olga Susana Filippini
VARIABLE ALEATORIA
Dado un experimento aleatorio y su correspondiente espacio muestral se denomina variable aleatoria a la función que
asigna a cada elemento del espacio muestral un número real.
X: S  R/X(s) x
Ejemplo: Si se define la variable aleatoria X = número de caras obtenidas al arrojar dos monedas

¿Quá valores puede tomar x?


X(SS) = 0
X(CS) = X(SC) = 1
X(CC) = 2
Se denomina recorrido Rx al conjunto de valores que puede tomar la variable.
VARIABLE ALEATORIA DISCRETA
Una variable aleatoria es discreta cuando toma un número contable de valores.Entonces entre dos valores
consecutivos de una variable aleatoria discreta no hay ningún número que pertenezca al recorrido de la variable
Rx = {X1;X2;...,Xn,...} donde cada Xi es un valor de la v.a.
En general , estos valores no serán igualmente probables, sino que cada X tendrá asignada una probabilidad.
Luego, para caracterizar una variable aleatoria discreta es necesario conocer su recorrido y la probabilidad de cada
elemento del recorrido
Sigamos con el ejemplo X = Cantidad de caras al tirar dos monedas
P(X = 0) = P(SS) = ¼
P(X = 1) = P(SC;CS) = ½
P(X = 2) = P(CC) = ¼
Función de distribución de probanilidad
Propiedades
1) P(Xi) ≥ 0  Xi

2) P(xi) = 1
VARIABLE ALEATORIA CONTINUA
Una variable es continua en un intervalo cuando puede tomar cualquier valor perteneciente al intervalo.
En general definiremos variables aleatorias continuas cuando las experiencias consistan en medir peso, altura,
longitud, tiempo, temperatura, etc.
En este caso se define (en lugar de la función de distribución) una función de densidad de probabilidad que tiene las
siguientes propiedades
1) f(x) ≥ 0  X ε R

2) f(x).dx = 1

3) a < b  P(a ≤ x ≤ b) = f(x).dx


ESPERANZA DE UNA VARIABLE ALEATORIA
La esperanza es un parámetro de la distribución. Es una medida de tendencia central.
Si X es discreta:

μ = E(X) = xi.p(xi)
Si X es continua


μ = E(X) = x.f(x).dx
La esperanza E(x) no es un resultado que esperararíamos cuando X se observa sólo una vez.
Pero si observáramos un gran número de observaciones independientes de X el promedio de esos resultados estará
cerca de E(x).
Ejemplo:
En una operación comercial se puede obtener una utilidad de $1000 o sufrir una pérdida de $500. Si la probabilidad
de una utilidad es de 0,6, demuestre que la utilidad esperada en dicha operación es de $400.
Primero definimos la variable aleatoria
X = utilidad en operación comercial

μ = E(X) = xi.p(xi)
E(X) = 1000*0,6+(-500)*0,4
E(X) = 400
PROPIEDADES DE LA ESPERANZA
Sean X e Y variables aleatorias y c una constante perteneciente a los reales:
1) E (c ) = c
2) E (X+c ) = E(X) + c
3) E (cX) = c E(X)
4) E (X+Y) = E(X) + E(Y)
5) E (X-Y) = E(X) - E(Y)
6) Si X e Y son independientes E (XY) = E(X) * E(Y)
VARIANCIA DE UNA VARIABLE ALEATORIA
La variancia es un parámetro de la distribución. Es una medida de dispersión de los valores de x alrededor de E(X)
Var(X) = σ² = E(X - μ)²
Var(X) = σ² = E(X² - [E(X)]²)
PROPIEDADES DE LA VARIANCIA
Sean X e Y variables aleatorias y c una constante perteneciente a los reales:
1) V (c ) = 0
2) V (X + c ) = V(X)
3) V (cX) = c2 V(X)
4) Si X e Y son independientes V (X + Y) = V(X) + V(Y)
5) Si X e Y son independientes V (X - Y) = V(X) + V(Y)
TEOREMA DE BAYES

REPASANDO CONCEPTOS DE CONTEO


• Permutaciones: Algunos arreglos de r objetos seleccionados de n posibles objetos.
n.Pr = n! / (n - r)
• Nota: El orden de los arreglos es importante en las permutaciones.
• Combinaciones: El número de formas de elegir r objetos de un grupo de n objetos sin considerar el orden.
n.Cr = n! / r!.(n - r)

Distribuciones Discretas y Continuas


Binomial y Normal
La Distribución Binomial
• Llamaremos experimento dicotómico a un experimento aleatorio cuyos resultados posibles son sólo dos, o nos
interesa considerarlos como dos. Por ejemplo:
• 1) Lanzar una moneda y observar si sale cara o cruz.
• 2) Sacar una carta de una baraja y observar si es una figura o no lo es.
• 3) Elegir una ficha de un dominó y observar si el total de sus puntos es un número par o impar.
• En este tipo de experiencias a uno de los dos resultados posibles se le suele llamar "éxito" y a su contrario
"fracaso". A la probabilidad del suceso llamado éxito se la suele representar por p y a la de su contrario por q. Se
verifica, claro está, que p+q = 1 (¿Por qué?) . En los ejemplos anteriores podríamos considerar:
• 1) éxito = "cara", fracaso = "cruz" y, si la moneda no está trucada, p = q = 1/2.
• 2) éxito = "figura", fracaso = "no figura" y, en una baraja española, p = 12/40 y q = 28/40.
• 3) éxito = "suma par", fracaso = "suma impar" ¿Cuánto valdrían p y q?
• Un experimento binomial consiste en repetir una cierta cantidad de veces, y siempre en las mismas condiciones,
un experimento dicotómico. Llamaremos "tirada" a cada una de las veces que repetimos el experimento dicotómico.
Por ejemplo, son experimento binomiales:
• 1) Lanzar una misma moneda repetidas veces y observar el número de caras (éxitos) obtenidas.
• 2) Sacar, con reemplazamiento, varias cartas de una misma baraja y observar el número de figuras (éxitos)
obtenidas.
• 3) Extraer, con reemplazamiento, varias fichas de un dominó y observar la cantidad de veces que obtenemos una
en la que el número total de puntos que aparece es par.
• Vamos a representar por B(n,p) a una binomial con n tiradas y probabilidad de éxito igual a p.
• Puede interesar conocer cual es la probabilidad que de las n pruebas, salgan exactamente x0 casos favorables a
A; o bien calcular la probabilidad que los casos A sean entre x1 y x2, ambos menores que n. Conceptualmente
puede decirse que x es una variable aleatoria discreta que toma valores entre 0 (puede no aparecer nunca el
suceso) y n (puede aparecer siempre) . Es decir que el campo de definición de la variable es: 0 ≤ x ≤ n.
• Bajo estas condiciones Bernoulli desarrolló la distribución de probabilidad denominada Binomial, cuya expresión
matemática, P(x) , está dada por:
P(x) = C n,x.px.qn - x
Donde:
x es la variable aleatoria que varía entre 0 y n.
n y p son los datos o parámetros (*) de la distribución Binomial.
n!
C n,x =
n!.(n - x) !
(Número combinatorio)
Ejemplo de Binomial
De los pinos integrantes de un extenso bosque, un 20 % se encuentra afectado por un hongo parásito. Si se
seleccionan al azar 4 pinos, calcular la probabilidad que los afectados por el hongo sean:
a) Exactamente 2
b) Más de uno
Respuesta:
Análisis de las características del problema:
Se realizan 4 observaciones al azar (n = 4 es un dato)
Ante cada observación, los pinos pueden estar A = afectado (por el hongo) ; = no afectado. Es decir dos resultados
posibles en cada prueba.
No se tienen elementos para decir que la probabilidad de que cada pino observado varíe de uno a otro, es decir: p =
0,2 probabilidad de que cada uno de los pinos esté afectado. Será entonces: q = 0,8 probabilidad de pino no
afectado.
Las preguntas planteadas se refieren a la cantidad de pinos que resultarán estar afectados (x = variable).
Se dan exactamente las condiciones exigidas para utilizar la Distribución Binomial, y para calcular la probabilidades
pedidas, es posible aplicar su función.
a) P(x = 2) = C4,2.0,2².0,8(4 - 2) = 6.0,04.0,64 = 0,1536
b) P(x>1) = ∑ C4,x.0,2x.0,84 - x
Sumatoria desde x = 2 hasta 4.
P(x>1) = 0,1536 + 4.0,008.0,8 + 1.0,0016.1 = 0,1536 + 0,0256 + 0,0016 = 0,1808
También se podría haber calculado como: 1 - P(x < 2).
La Distribución Normal
A lo largo de la historia, matemáticos como De Moivre, Gauss o Galton se sorprendieron por la frecuencia con la que
aparece la llamada curva Normal o de Gauss en estudios estadísticos tan aparentemente distintos como la
distribución de alturas de un grupo de personas, la resistencia de un tipo determinado de piezas, el número total de
caras que obtenemos al lanzar reiteradamente una moneda, y muchos otros.
La curva normal, como cualquier otra curva de probabilidad, verifica que:
• el área total que limita con el eje de abscisas es igual a 1.
• la probabilidad de la variable X tome valores entre a y b coincide con el área limitada por la curva, el eje OX y las
rectas x = a y x = b.
• la probabilidad de que X tome un valor concreto es igual a 0. ¿Por qué?
• No existe una única curva normal; su gráfica, como vas a observar en la siguiente escena, depende de su media,
y de su desviación típica.
Normal
• Distribuciones de probabilidad normales
• La distribución de probabilidad normal (D.P.N.) se considera como la distribución de probabilidad más importante.
Hay una cantidad ilimitada de variables aleatorias continuas que tienen una distribución normal o aproximadamente
normal. La D.P.N. tiene una variable aleatoria continua y usa dos funciones: una para determinar las ordenadas
(valores de y) de la gráfica que representa la distribución, y otra para determinar probabilidades. La siguiente
fórmula expresa la ordenada que corresponde a cada abscisa y de denomina función de distribución de
probabilidad normal:

• para toda x real.


• Cuando se traza una gráfica de tales puntos, aparece la curva normal (en forma de campana) como se muestra
en el siguiente gráfico:
La probabilidad asociada con el intervalo a ≤ x ≤ b está dada por:

P(a ≤ x ≤ b) = f(x).dx
La Distribución Normal Estandard
• Hay un número ilimitado de distribuciones de probabilidad normal, aunque afortunadamente todas están
relacionadas con una distribución, la distribución normal Estandard.
• Propiedades de la Distribución Normal Standard
• El área total bajo la curva normal es igual a 1.
• La distribución tiene forma de campana y es simétrica; se extiende en ambas direcciones y el eje x es su asíntota.
• Tiene media igual a 0 y desviación standard igual a 1.
• La media divide el área en dos mitades.
• Casi toda el área está entre z = -3 y z = +3.
Ejemplo:
En una granja modelo de la Provincia de Entre Ríos, en un momento determinado de su desarrollo, los cerdos que
producen tienen en cuanto a su peso, una distribución Normal con un promedio de 75 kg. y un desvío estándar de 6
kg.
Es decir: x ~ N (75 , 6) a variable Normal Estándar será: z = (x - μ)/σ = (x - 75)/6
Donde: z ~ N (0,1)
Con esa información calcular:
P(μ - k σ < x < μ + k.σ) = P(- k.σ < x - μ < k.σ) = P(- k < (x - μ)/σ < k) =
Dándole valores a k se tiene:
Para k = 1
P(|z| < 1) = P(-1 < z < 1) = F(1) - F(-1) = 0.84134 - 0.15866 = 0,68268
El 68 % de los cerdos tendrán pesos comprendidos entre un desvío estándar en más y en menos de la media (es
decir entre 69 y 81 kg.) (μ ±σ)
Para k = 2
P(|z| < 2) = P(-2 < z < 2) = F(2) - F(-2) = 0.97725 - 0.02275 = 0,9545
El 95 % de los cerdos tendrán pesos comprendidos entre dos desvíos estándar en más y en menos de la media (es
decir entre 63 y 87 kg.) (μ ± 2.σ)
Para k = 3
P(|z| < 3) = P(-3 < z < 3) = F(3) - F(-3) = 0.99865 - 0.00135 = 0,9973
Casi el 100% (99.73%) de los cerdos tendrán pesos entre tres desvíos estándar en más y en menos de la media (es
decir 57 y 93 kg.) (μ ± 3.σ)
b) P(x > 72) = P (z > (x - 75) /6 = -0.50) = 1 - F(-0.50) = 1 - 0.19146 = 0,80854
El 81 % de los cerdos tendrán pesos superiores a 72 kg.
c) P (69 < x < 87) = P (-1 < z < 2) = F(2) - F(-1) = 0.97725 - 0.15866 = 0,81859
El 82 % de los cerdos tendrán pesos comprendidos entre 69 y 87 kg.
d) De 20 cerdos elegidos aleatoriamente, ¿cuántos se esperan que pesen más de 81 kg.? = 20.
P(x > 81) = 20 . P (z > 1) = 20.[1 - F(1)] = 20.(1 - 0,84134) = 20.0,15866 = 3,1732 cerdos
Se espera que tres (o cuatro) cerdos tengan pesos superiores a 81 kg.
e) ¿Cuál es el peso que es superado por el 10 % de los cerdos?: Con las Tablas que se dispone para este Curso, se
tienen algunos valores:
P (x > x0) = ~ 0,10  P (z > z0) = ~ 0,10  z0 = 1,28;
o bien
P (z ≤ z0) = ~ 1 - 0,10  F (z0) = ~ 0,90 no disponible en las Tablas.
Si z = (x - μ) /σ  x = z . σ + μ;
y para x0 será:
x0 = 1,28 . 6 + 75 = 82,68 kg.
El peso de los cerdos que es superado por el 10 % de ellos es 82,68 kg.
f) Determinar el valor de peso que supera al 5 % de los cerdos:
P (x < x0) = P (z < z0) = 0,05; de donde surge que z0 es un valor negativo y simétrico a:
P (z > z0') = 0,05;  z0' = 1,645 y será:
z0 = - 1,645  x0 = - 1,645.6 + 75 = 65,03 kg.
El peso superado por el 5 % de los cerdos e 65 kg.

Análisis de Regresión y Correlación


Introducción
Muchas veces las decisiones se basan en la relación entre dos o más variables.Ejemplos
Dosis de fertilizantes aplicadas y rendimiento del cultivo.
La relación entre la radiación que reciben los sensores con la que se predicen los rendimientos por parcelas con los
rendimientos reales observados en dichas parcelas.
Relación entre tamaño de un lote de producción y horas -hombres utilizadas para realizarlo.
Distinguiremos entre relaciones funcionales y relaciones estadísticas
Relación funcional entre dos variables
Una relación funcional se expresa mediante una función matemática.
Si X es la variable independiente e Y es la variable dependiente, una relación funcional tiene la forma:
Y=f(X)
Ejemplo 1
Parcela Dosis Rendimiento(kg/h)

1 75 150
2 25 50
3 130 260
Figura 1
Relación funcional perfecta entre dosis y rendimientos

Nota: Las observaciones caen exactamente sobre la línea de relación funcional


Relación estadística entre dos variables
A diferencia de la relación funcional, no es una relación perfecta, las observaciones no caen exactamente sobre la
curva de relación entre las variables
Ejemplo 2
Lote de productos Tamaño del lote Horas hombre

1 30 73
2 20 50
3 60 128
4 80 170
5 40 87
Figura 2
Relación estadística entre tamaño del lote y horas hombre

Nota: La mayor parte de los punto no caen directamente sobre la línea de relación estadística.
Esta dispersión de punto alrededor de la línea representa la variación aleatoria
Figura 3
Coordenadas de puntos de control utilizados para corregir la columna de los niveles digitales de una imagen
satelital

Nota: se trata de un terreno rugoso donde varían notablemente las condiciones de observación del sensor, para
corregir errores geométricos de la imagen, se aplican funciones de segundo grado. Los datos sugieren que la
relación estadística es de tipo curvilínea.
Conceptos básicos
Análisis de Regresión: Es un procedimiento estadístico que estudia la relación funcional entre variables.Con el objeto
de predecir una en función de la/s otra/s.
Análisis de Correlación: Un grupo de técnicas estadísticas usadas para medir la intensidad de la relación entre dos
variables
Diagrama de Dispersión: Es un gráfico que muestra la intensidad y el sentido de la relación entre dos variables de
interés.
Variable dependiente (respuesta, predicha, endógena): es la variable que se desea predecir o estimar
Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.
Regresión simple: interviene una sola variable independiente
Regresión múltiple: intervienen dos o más variables independientes.
Regresión lineal: la función es una combinación lineal de los parámetros.
Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal
Gráfico de dispersión
Los diagramas de dispersión no sólo muestran la relación existente entre variables, sino también resaltan las
observaciones individuales que se desvían de la relación general. Estas observaciones son conocidas como outliers o
valores inusitados, que son puntos de los datos que aparecen separados del resto.
Gráfico de dispersión entre Bandas
Coeficiente de correlación lineal
El Coeficiente de Correlación (r) requiere variables medidas en escala de intervalos o de proporciones
- Varía entre -1 y 1.
- Valores de -1 ó 1 indican correlación perfecta.
- Valor igual a 0 indica ausencia de correlación.
- Valores negativos indican una relación lineal inversa y valores positivos indican una relación lineal directa
Correlación Negativa Perfecta

Correlación Positiva Perfecta


Ausencia de Correlación

Correlación Fuerte y Positiva


Fórmula para el coeficente de correlación (r) Pearson

Modelos de Regresión
Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:
- Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera
sistemática
- Una dispersión de las observaciones alrededor de la curva de relación estadística
Estas dos características están implícitas en un modelo de regresión, postulando que:
- En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de
probabilidades de Y para cada nivel de X.
- Las medias de estas distribuciones varían de manera sistemática al variar X.
Representación gráfica del modelo de Regresión Lineal
Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X
Análisis de Regresión
• Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la
o las variables independientes (X).
• Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación;
dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.
Supuestos de Regresión Lineal Clásica
• Cada error está normalmente distribuido con:
- Esperanza de los errores igual a 0
- Variancia de los errores igual a una constante σ².
- Covariancia de los errores nulas para todo i ≠ Ψ
Proceso de estimación de la regresión lineal simple

Modelo de regresión Datos de la muestra


y = β0+ β1x + ε x y
Ecuación de regresión
x1 y1
E(y) = β0+ β1x x2 y2
Parámetros desconocidos . .
. .
β0.β1
. .
xn yn

b0 y b1 Ecuación estimada de regresión


proporcionan estimados y = b0+b1x
β0 y β 1 Estadísticos de la muestra
b0.b1

Líneas posibles de regresión en la regresión lineal simple


Sección A Sección B Sección C
Relación lineal positiva Relación lineal negativa No hay relación

Estimación de la ecuación de Regresión Simple


Y' = a + b.X, donde:
- Y' es el valor estimado de Y para distintos X.
- a es la intersección o el valor estimado de Y cuando X=0
- b es la pendiente de la línea, o el cambio promedio de Y' para cada cambio en una unidad de X
- el principio de mínimos cuadrados es usado para obtener a y b:

a = (∑Y)/n - b.(∑X)/n
Mínimos cuadrados - Supuestos
El modelo de regresión es lineal en los parámetros.
Los valores de X son fijos en muestreo repetido.
El valor medio de la perturbación εi es igual a cero.
Homocedasticidad o igual variancia de εi.
No autocorrelación entre las perturbaciones.
La covariancia entre εi y Xi es cero.
El número de observaciones n debe ser mayor que el número de parámetros a estimar.
Variabilidad en los valores de X.
El modelo de regresión está correctamente especificado.
No hay relaciones lineales perfectas entre las explicativas.
Estimación de la variancia de los términos del error (σ²)
Debe ser estimada por varios motivos
Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.
Para realizar inferencias con respecto a la función de regresión y la predicción de Y.
La lógica del desarrollo de un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea una
sola población
La variancia de cada observación Yi es σ²,la misma que la de cada término del error
Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del
nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yi.
Yi - Ŷi = ei
Por tanto, las desviaciones son los residuales
Y la suma de cuadrados es:

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos
parámetros.
Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios
Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²
Análisis de Variancia en el análisis de regresión
El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad
asociados con la variable respuesta Y.
La variación de los Yi se mide convencionalmente en términos de las desviaciones
(Yi - Yi)
La medida de la variación total SC tot, es la suma de las desviaciones al cuadrado
∑(Yi - Yi)²
Desarrollo formal de la partición
Consideremos la desviación
(Yi - Yi)
Podemos descomponerla en
(Yi - Y) = (Ŷi - Y) + (Yi - Ŷi)
T R E

(T): desviación total


(R): es la desviación del valor ajustado por la regresión con respecto a la media general
(E): es la desviación de la observación con respecto a la línea de regresión
Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen
∑(Yi - Y)² = ∑(Ŷi - Y)² + ∑(Yi - Ŷi)²

SC tot SC reg SCer


(SC tot): Suma de cuadrados total
(SC reg): Suma de cuadrados de la regresión
(SCer): Suma de cuadrados del error
Dividiendo por los grados de libertad, (n-1), (k) y
(n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.
Coeficiente de Determinación
Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es
explicada o contabilizada por la variación en la variable independiente X.
- El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.
Cálculo del R² a través de la siguiente fórmula
R2 = [∑(Ŷc - Y)²]/[∑(Ŷo - Y)²]
Inferencia en Regresión
Los supuestos que establecimos sobre los errores nos permiten hacer inferencia sobre los parámetros de regresión
(prueba de hipótesis e intervalos de confianza), ya que los estimadores de β0 y β1 pueden cambiar su valor si cambia
la muestra.
Por lo tanto debemos conocer la distribución de los estimadores para poder realizar prueba de hipótesis e intervalos
de confianza
Ejemplo
Se desean comparar los rendimientos predichos a partir de la información obtenida por 3 sensores sobre los
rendimientos reales por parcelas de lotes de maíz. Los rendimientos (Y) y el los rindes predichos de 4 sensores se
presentan a continuación
¿Qué sensor refleja mejor el rendimiento de esa zona?
Descripción Gráfica y cuantitativa de la relación entre cada sensor y el rendimiento

Y = 338.71*X - 4.87
R² = 0.32
Y = 155.37*X - 13.25
R² = 0.57

Y = -1004.34*X +112.24
R² = 0.44
Estimadores puntuales y por intervalo de confianza para media y varianza poblacionales
Introducción al tema
• El único método científico para validar conclusiones sobre un grupo de individuos a partir de la información que
nos proporciona un subconjunto más o menos amplio de los mismos es el Método Estadístico.
• En el experimento típico, el objetivo básico es estimar algunas características que describan la población de
interés. Es decir:
• Estimar los parámetros que caracterizan a la función de probabilidad de la variable aleatoria en estudio
Mapa conceptual
Introducción al tema
Veamos el caso de un especialista en producción animal:

Después de alimentar un lote de terneros con una ración alimenticia


particular, necesita expresar numéricamente el aumento
medio de peso de sus animales.
En este caso, suponemos que se dispone de los conocimiento suficientes como para decir:
La variable aleatoria x de nuestro problema, tiene una función de probabilidad conocida: f(X; θ1;θ2; ... ; θp)y depende
de:
Parámetros θ1 hasta θp que son desconocidos.
Podría ocurrir que el aumento de peso de los terneros siguieran una distribución normal con media μ y varianza σ².
En este caso el experimentador persigue como objetivo, estimar a μ y σ².
Lo hará a partir de la manipulación de un conjunto de observaciones que ha de seleccionar de la población y que
constituirán una muestra aleatoria de la misma.
Razonamiento a seguir:
• Pensar como se define la población y la muestra
• Qué tipo de procedimiento utilizar para seleccionar una muestra aleatoria.
• Qué debería calcular para estimar los parámetros de interés. (estadístico)
• Qué función de distribución presentan los estimadores elegidos.
• Cómo validar las estimaciones a partir de la muestra.
Es decir Inferir de la Muestra a la población
Inferencia Estadística
La inferencia estadística es la forma de tomar decisiones basadas en probabilidades y presenta dos aspectos:
1. Estimación de parámetros: - Puntual
- Por intervalos
2. Prueba de Hipótesis con respecto a una función elegida como
modelo.
En esta clase discutiremos estos puntos
Estimación Puntual
• Una estimación puntual del valor de un parámetro poblacional desconocido (como puede ser la media , μ, o la
desviación estándar , σ), es un número que se utiliza para aproximar el verdadero valor de dicho parámetro
poblacional.
• Una estimación puntual es el valor de la estadística de la muestra correspondiente.
Estimadores puntuales de los parámetros de una población normal
Sea una muestra aleatoria simple, X1, X2, ...... , Xn de una población con distribución N(μ, σ²).
-Estimador de la media

La distribución muestral de la media es:


x ≡ N(μ,σ/√n)
Estimadores puntuales de los parámetros de una población normal
S/√n estima a la desviación típica de la media σ/√n y se denomina error estándar de la media muestral, por esta
razón se dice que el error estándar de la media mide la variabilidad de la media en el muestreo.
-Estimador de la Varianza
Varianza muestral

Sea X1, X2, ... , Xn, una muestra aleatoria simple de una población X ≡ N(μ,σ²), entonces la variable aleatoria

sigue una ji-cuadrado con n-1 grados de libertad.


Del resultado anterior se deduce que la variable (n - 1).S²/σ² sigue una distribución ji-cuadrado con n-1 grados de
libertad.
Realizada la estimación de un parámetro cabe preguntarse:
1. ¿Es exacta la estimación?
2. ¿Es probable que la estimación sea alta o baja?
3. ¿Con otra muestra se obtendría el mismo resultado, o bastante diferente?
4. La calidad de un procedimiento de estimación ¿mejora bastante si la estadística de la muestra es menos variable e
insesgada a la vez?
Estimadores y propiedades deseables de los estimadores
• La distancia entre el estimador y el parámetro a estimar puede medirse mediante los que se denomina el error
cuadrático medio, que se define como el valor esperado del cuadrado de la diferencia entre el estimador y el
verdadero parámetro.
ECM ( ) = E( - θ)²
El ECM es importante ya que puede escribirse como
ECM ( ) = AVR ( ) + [θ - E( )]²
una es la varianza del estimador y otra el cuadrado del sesgo.
• -Ausencia de sesgo-
Se dice que un estimador es insesgado (o centrado) si la esperanza del estimador coincide con el parámetro a
estimar E( ) = θ.
• -Consistencia-
Se dice que un estimador es consistente si se aproxima cada vez más al verdadero valor del parámetro a medida que
se aumenta el tamaño muestral.
Pr[( - θ) > ε] 0
n  ∞, ε > 0
La distribución del estimador se concentra más alrededor del verdadero parámetro cuando el tamaño muestral
aumenta.
• -Eficiencia-
Es claro que un estimador será tanto mejor cuanto menor sea su varianza, ya que se concentra más alrededor del
verdadero valor del parámetro. Se dice que un estimador insesgado es eficiente si tiene varianza mínima.
• -Suficiencia-
Un estimador es suficiente si utiliza una cantidad de la información contenida en la muestra de manera que ningún
otro estimador podría extraer información adicional de la muestra sobre el parámetro de la población que se está
estimando.

Métodos de estimación
Hay varios métodos de estimación, el de máxima verosimilitud es el que proporciona estimadores consistentes pero
no siempre insesgados. Los estimadores mencionados en los puntos anteriores (x, S²) eran estimadores máximo
verosimiles. El mismo resultado se puede obtener por el método de los momentos.
El método de mínimos cuadrados se verá cuando se trate regresión.
Estimación por intervalos
Dada una muestra aleatoria X1, X2, ... , Xn , de una población con función de densidad f(x;θ) Un intervalo de confianza,
de extremos Linferior y Lsuperior, para el parámetro θ de la población es un par ordenado de funciones reales de las
n medidas de la muestra
I θ = [L inferior (X1,...,Xn);L superior (X1,..., Xn)]
Construidas de forma que la probabilidad de que los extremos contengan al verdadero valor del parámetro es un
valor prefijado (1 - α). Al número (1 - α) se le denomina "nivel de confianza".
• El nivel de confianza suele ser 0,95 (95%) ó 0,99 (99%). La interpretación práctica es sencilla, por ejemplo si el
nivel de confianza es del 95%, significa que en el 95% de las veces que repitiéramos el experimento, el intervalo de
confianza calculado contendría al verdadero valor del parámetro y en el 5% restante el intervalo no contendría el
verdadero valor.
• Una vez que el intervalo de confianza ha sido calculado para una muestra concreta, el intervalo obtenido contiene
o no contiene al verdadero valor del parámetro, con probabilidad 1, por esa razón, cuando ya tenemos un valor
concreto hablamos de confianza y no de probabilidad. Confiamos en que el intervalo que hemos calculado sea del
95% que contiene el verdadero valor.
Nivel de confianza gráficamente
Figura 2: interpretación del nivel de confianza en un intervalo para la media de una distribución normal.
Intervalo de confianza para la media poblacional, σ conocido
Supongamos que disponemos de una población en la que tenemos una v.a. con distribución N(μ,σ) con σ conocida
(de estudios previos, por ejemplo).
Obtenemos una muestra de tamaño n y deseamos estimar la media μ de la población. El estimador puntual de la
misma es la media muestral cuya distribución muestral es conocida
la cantidad
x ≡ N(μ,σ/√n)
z = (x - μ)/(σ/√n)
tendrá distribución normal estándar
Sobre la distribución N(0, 1) podremos seleccionar dos puntos simétricos -zα/2 y z α/2 , tales que
P(-z α/2≤ Z ≤ z α/2 ) = 1-α

Figura 1: selección de los puntos críticos para el cálculo del intervalo de confianza.
Sustituyendo Z por su valor en este caso particular

Despejando nos queda el intervalo de confianza,


Ejemplo,
• Obtener un I. C. del 95% para el promedio de un lote de 500 novillos, de los cuales se pesa una muestra de 25
animales, obteniéndose un = 390 kg. Se sabe que σ² es de 400 kg².

{382,16 ≤ μ ≤ 397,84}
Recordemos que si la varianza poblacional es desconocida y la variable es normal o se puede aproximar a la
distribución normal por el Teorema central del límite, entonces se usaría la t de Student con n - 1 grados de libertad y
el desvío estándar muestral.
El intervalo de confianza que resulta,

Ejemplo,
En un establecimiento dedicado a la elaboración de alimentos balanceados para aves, se afirma que su producto
aumenta el peso promedio de las aves en 30 g diarios. En una muestra de 9 aves tomadas al azar, se obtuvo un
aumento promedio de 35 g con desviación de 3,04 g. Estimar el intervalo de confianza del 95% para el verdadero
aumento promedio

{32,66 ≤ μ ≤ 37,34}
Determinación del tamaño de muestra n para un grado de precisión dado
z 1 - α/2.(σ/√n) es la mitad del ancho del intervalo de confianza (producto del coeficiente y el error estándar) y se
denomina error máximo de estimación E.
Dado un valor de error y un cierto nivel de confianza, puedo estimar cuál sería el tamaño de la muestra
Z²1 - α.σ²/E² = n
Intervalo de confianza para la varianza poblacional
Sea X una variable aleatoria con distribución normal con μ y σ desconocidos y sea X1, X2, ..., Xn una muestra aleatoria
de tamaño n.
El intervalo de confianza se construye a partir de la variable
² = (n - 1).S²/σ²
Que tiene una distribución ji-cuadrado con n-1 grados de libertad y dos valores tales que delimiten el 100(1 - α)%
Pr {²(n - 1);α/2 ≤ ²(n - 1) ≤ ²(n - 1);α/2}
Reemplazando la variable ² en el intervalo

Despejando el intervalo de confianza queda,

Ejemplo,
Se sembró cierta variedad de trigo en parcela de cierta localidad, se extrajo una muestra al azar de 20 parcelas y se
midió el rendimiento. Se obtuvo un rendimiento de 58 kilogramos por parcela y una desviación típica de 8 kg por
parcela. Estimar la varianza poblacional con un nivel de confianza del 95%, sabiendo que el rendimiento se distribuye
normalmente
{(19).64/32,9 ≤ σ² ≤ (19).64/8,91}
{32,66 ≤ σ² ≤ 37,34}
Autor: Olga Susana Filippini
Análisis de Datos Categóricos
En el análisis de datos, especialmente del área biológica (Cs. Naturales, Medicina, Farmacología, etc.) a menudo
nos encontramos con mediciones de respuestas que son de naturaleza categórica. Éstas respuestas reflejan
información de categorías más que mediciones en escala de intervalos o razón.
Extenderemos los principios básicos de la prueba de hipótesis a situaciones que implican variables categóricas.
Trataremos información que se obtiene del recuento del número de casos que se presentan al estudiar
caracteristicas cualitativas
Para el desarrollo de los contenidos correspondientes a esta presentación se ha considerado un hilo conductor
según se presenta en el mapa conceptual.
La distribución χ² que hemos visto en los capítulos sobre Estimación de Parámetros y de Pruebas de hipótesis con
relación a variancias muestrales, tiene un gran campo de aplicación en el análisis de variables de naturaleza
categórica,

Introducción
Si consideramos la situación más sencilla de esta unidad donde cada observación de una muestra se clasifica como
pertenecientes a un número finito de categorías:
Ejemplo 1
Se observaron 80 nacimientos de un cruzamiento de cerdos de los cuales 42 fueron rojizos, 12 negros y 26 blancos.
Las leyes de la herencia implican que estas tres categorías presentan un modelo genético 9:3:4, es decir que deben
tener probabilidades 9/16; 3/16 y 4/16 de aparecer en cada cruzamiento. ¿Son los datos consistentes con el modelo
teórico propuesto?
Ejemplo 2
En la frontera fitosanitaria de la Patagonia se revisaron cargamentos de frutas de
distinta procedencia para evaluar la posibilidad de introducción de mosca de las frutas
(Ceratitis capitata), una plaga importante de los frutales, en áreas no infestadas. La
información de cargamentos con presencia de la plaga se resume en la siguiente tabla:
Región de procedencia del cargamento
Presencia de la plaga
Cuyo NOA NEA

Con mosca 22 32 33
Sin mosca 67 5 10

¿Existe alguna dependencia entre la región de procedencia y la presencia de la plaga?


Ejemplo 3
Una medicación nueva para tratar cierta enfermedad de vacunos se comparó con la medicación de mayor uso. Para
esto se tomó al azar un grupo de 300 animales que padecían la enfermedad; a la mitad de éstos, tomados al azar,
tradicional. Luego de un tiempo
se los trató con la nueva medicación y a los otros 150, con la medicación
se analizaron nuevamente los animales con el siguiente resultado:
Estado de los animales luego del tratamiento

Empeoró Sin efecto Mejoró Totales


Tratamiento
Nuevo 16 30 104 150
Tradicional 20 42 88 150

Totales 36 72 192 300

¿Considera que estos medicamentos se comportan de manera similar?


Distribución χ²-cuadrado
Para resolver estos problemas utilizaremos la distribución χ²-cuadrado.
La aplicaremos básicamente:
Pruebas con probabilidades de cada categoría completamente especificada
Bondad de Ajuste Bondad de ajuste a una variable discreta
χ²-cuadrado Bondad de ajuste a una variable continua
Pruebas de Homogeneidad
Tablas de contingencia
Pruebas de Independencia
Propiedades χ²-cuadrado
Antes de dar una descripción más detallada de estas pruebas repasemos algunas propiedades de esta distribución:
No toma valores negativos
Tiene una distribución diferente para cada número de grados de libertad
Pruebas de Bondad del Ajuste
(Inferencias acerca del Experimento Multinomial)
Se desea contrastar una distribución de frecuencias observada en una muestra con una distribución de frecuencias
teórica
Verificar si responde a un determinado modelo o situación preconcebida.
Es una generalización del experimento binomial.
Para aplicar la prueba se necesita una tabla donde se encuentren registradas las frecuencias observadas y las
frecuencias teóricas o esperadas según el modelo. El estadístico que se utiliza en estas pruebas es el siguiente:

donde k es el número de categorías y oi y ei son las frecuencia observada y esperada en la i-ésima categoría,
respectivamente.
Características de la multinomial
Consta de n ensayos independientes e idénticos.
El resultado de cada ensayo cae en una de las k categorías posibles (medidas en escala nominal) de la única
variable, donde k>2.
Hay una probabilidad asociada a cada categoria, la cual es constante de un ensayo a otro
Las categorias son exhaustivas y excluyentes, por lo cual la suma de sus probabilidades es 1
Se obtienen frecuencias observadas para cada categoría, siendo su suma igual a n.
El número esperado de intentos que resulten en la categoría i es E(Ni)= n*πi,, donde πi es la probabilidad de que
cualquier observación en particular pertenezca a la categoría i
Prueba de hipotesis para el experimento multinomial
Hipotesis nula H0: π1, π 2, ... , π k poseen valores especificados (iguales o no)

Hipotesis alternativa Ha: alguna probabilidad de las celdas. Difiere de los valores especificados en H0

Estadistico de prueba

donde o y e representan las Frecuencias observadas y esperadas para cada celda

Región de rechazo Esta determinada por la distribución χ² , con un determinado α y k - 1 grados de libertad

Supuesto Las frecuencias esperadas no pueden ser en ningún caso inferiores a 5

Prueba de hipotesis para el experimento multinomial


Bajo la hipótesis nula los ni deben estar razonablemente cerca de n*πi
Cuando los valores de πi difieran marcadamente de lo especificado en la hipótesis nula, los valores observados
diferirán de los esperados.
El procedimiento de prueba implica medir las discrepancias entre ni y n*πi, rechazando la hipótesis nula cuando la
discrepancia sea suficientemente grande
Hay solo k -1 valores de celda determinadas libremente y por lo tanto k -1 grados de libertad.
Dado que grandes discrepancias entre valores observados y esperados conducen a gran valor de ji-cuadrado el
rechazo de H0 es apropiado cuando χ² ≥ χ²α, k –1(unilateral a la derecha)
Veamos un ejemplo utilizado en genética acerca de los experimentos clásicos conducidos por Mendel resuelto en la
guía teórica.
Mendel tenía arvejas con dos tipos de tegumento, rugoso y liso y, según su hipótesis, en cruzamientos realizados
entre ciertos tipos de plantas, el esperaba que aparecieran en la descendencia de dichos cruzamientos, arvejas de
tegumento liso y rugoso en la proporción 3:1, es decir, 3 semillas de tegumento liso por cada semilla de tegumento
rugoso.
Supongamos que en un experimento en el cual se obtiene una descendencia compuesta por 400 semillas, un
genetista encuentra 285 semillas de tegumento liso y 125, de tegumento rugoso. ¿Sería razonable, con α = 0.05,
pensar que esa proporción observada no está demasiado alejada de la proporción 3:1 dictada por la ley de Mendel?
Hipótesis. H0: la proporción es 3:1; H1: la proporción no es 3:1.
Nivel de significación. α = 0.05.
Estadística de la prueba. que se distribuye compuesto que, para esta prueba k = 2 y, por consiguiente, υ = 2 – 1 =
1.
Regla de decisión. Rechazamos H0 si, y solo si, el valor de χ2 calculado es mayor que 3.84. En caso contrario, se
acepta H0.
Cálculos.

Tegumento oi ei oi - ei (oi - ei)²/ei

Liso 285 400.(3/4) = 300 15 0,75


Rugoso 115 400.(1/4) = 100 15 2,25

Total 400 400 - 3,00

• Decisión. Puesto que 3.0 < 3.84 no puede rechazarse H0 con α = 0.05. Los datos de la muestra no constituyen
una prueba suficiente como para dudar de que las proporciones verdaderas son 3:1.
Aún cuando hemos desarrollado la prueba χ²–cuadrado para situaciones donde k>2, también se puede utilizar
cuando k = 2.
La hipótesis nula en este caso se puede expresar como H0: π1= π10.
Estas hipótesis también se pueden probar utilizando una prueba z de dos colas con estadísticos de prueba

De manera sorprendente, los dos procedimientos de prueba son completamente equivalentes. Esto es porque se
puede demostrar que Z²= χ² y (zα/2)= χ²1 α de modo que χ² ≥ χ²α, k –1 si y sólo si Z ≥ zα/2.
Tablas de contingencia con dos criterios de clasificación
En una tabla de contingencia la información está representada por conteos o frecuencias organizadas en i-filas y j-
columnas (dos criterios de clasificación). Se presentan dos situaciones:
Hay i-poblaciones de interés ubicadas cada una en una fila de la tabla y en cada población se describen j-
categorías o atributos. Se toma una muestra de cada población y las frecuencias se anotan en la celda de la tabla.
Hay una sola población de interés, y cada individuo es clasificado respecto a dos factores diferentes (i-categorías
de un factor j-categorías de otro). Se toma una sola muestra y se anota el número de individuos en cada categoría
de ambos factores.
Características de las tablas de contingencia
Consta de n ensayos independientes e identicos
Hay 2 variables en juego y se representa una tabla de doble entrada
El resultado de cada ensayo cae en una de las celdas, las cuales resultan de las combinaciones posibles de
categorias (medidas en escala nominal) de ambas variables
Hay una probabilidad asociada a cada celda, la cual es constante de un ensayo a otro
La probabilidad asociada a cada celda resulta del producto de sus probabilidades marginales
La suma de las probabilidades asociadas a cada celda es 1
Se obtienen frecuencias observadas para cada categoria, siendo su suma igual a n
Caso 1: Prueba de homogeneidad
Ocurre cuando una de las 2 variables es controlada por el investigador, de modo que los totales por fila o por
columna estan predeterminados
El analisis es idéntico al de las tablas de contingencia para independencia
La hipotesis nula que se plantea en este caso consiste en sostener que la distribución de proporciones entre las
categorias de la variable no controlada (por fila o por columna) es la misma para cada categoria de la variable
controlada
Otra manera de abordar el mismo problema es preguntarse si las muestras provienen de la misma población
Prueba de hipótesis para prueba de homogeneidad
Hipótesis. H0: las i-muestras son extraídas de la misma población. H1: son extraídas de diferentes poblaciones.
H0: π1j= π2j= π3j= ...= πij
H1: H0 no es verdadera
Nivel de significación. α = 0.05.
Estadística de la prueba. que se distribuye aproximadamente como. Aquí υ = (i – 1)·(j – 1)
Regla de decisión. Rechazamos H0 si, y solo si, el valor de χ² calculado es mayor que χ² α,(i-1)*(j-1). En caso contrario,
se acepta H0.

El esperado es estimado en cada celda

Ejemplo para prueba de homogeneidad


establecer si las preferencias acerca del envase de dulce de leche son similares
Objetivo:
para hombres y mujeres
Envase lata plastico carton vidrio Total

varones 27 (19,5) 30 (29,5) 19 (22,5) 24 (28,5) 100


mujeres 12 (19,5) 29 (29,5) 26 (22,5) 33 (28,5) 100

Total 39 59 45 57 200

h0: las preferencias (%) acerca del envase de dulce de leche no difieren entre hombres y mujeres
ha: las preferencias (%) acerca del envase de dulce de leche difieren entre hombres y mujeres
Estadistico χ²*: 8,296 χ² tabla (α = 0,05; gl = 3): 7,81
Valor p: 0,0402
Conclusión: se rechaza h0: las preferencias acerca del envase de dulce de leche difieren entre hombres y mujeres
Caso 2: Prueba de independencia
Este tipo de prueba se aplica cuando existe interés en determinar si dos atributos categóricos presentan algún tipo
de asociación entre ellos o, por el contrario, son independientes.
Este tipo de información se suele presentar en tablas de doble entrada.
El estadístico que se utiliza en estas pruebas es el mismo que el empleado en las pruebas de bondad del ajuste y
homogeneidad.
Se estudia la relación entre dos factores diferentes de la misma población
A diferencia de las pruebas de homogeneidad donde en general los totales de filas están fijos por anticipado, en las
pruebas de independencia solo el tamaño muestral es fijo. Por lo tanto los totales de filas como de columnas son
variables aleatorias

Hipotesis nula H0: πij = πi.* π.j las variables son independientes

Hipotesis alternativa Ha: πij ≠ πi.* π.j las variables no son independientes

χ² = ∑ (O - E)²/E
Estadistico de prueba
donde O y E representan las Frecuencias observadas y esperadas para cada celda

Esta determinada por la distribución χ² , con un determinado α y


egión de rechazo
(i -1)(j -1) grados de libertad

Ejemplo para prueba de independencia


Una muestra de 500 estudiantes ingresantes en una universidad participó en un estudio diseñada con el fin de
evaluar el grado de conocimiento en matemáticas. La siguiente tabla muestra los estudiantes clasificados según su
formación secundaria (escuelas técnicas, bachiller y otras) y el nivel de conocimiento en matemáticas
(bueno=aprobó el examen; deficiente = no aprobó el examen):

Bueno Deficiente

Técnicas 20 60
Bachiller 15 150
Otras 25 230

¿Confirman estos datos que la aptitud en matemáticas depende de la orientación de los estudios secundarios?
H0: La aptitud en matemáticas es independiente de la orientación del secundario
H1: La aptitud en matemáticas es dependiente de la orientación del secundario
Estadistico χ²*: 15,289 χ² tabla (α = 0,05; gl = 2): 5.99
Valor p: 0,00047845
Conclusión: se rechaza h0: La aptitud en matemáticas es independiente de la orientación del secundario, por lo tanto
las variables son dependientes.
Precauciones en la interpretación de resultados
Los grados de libertad dependen de la cantidad de categorías de las variables y no del número de casos, de modo
que el valor de tabla no se modifica al aumentar el número de casos
Utilizando muestras grandes, se dice poca cosa al decir que una relación es significativa, ya que es relativamente
fácil establecer significación, aún en el caso de que la relación existente sea muy superficial.
Inferencia Estadística
¿Qué es una Hipótesis?
Hipótesis: Es un suposición acerca del valor de un parámetro de una población con el propósito de discutir su
validez.
Ejemplo de hipótesis acerca de un parámetro de una población son:
- El sueldo promedio de un profesional asciende a $2,625.
- El veinte por ciento de los consumidores utiliza aceite de oliva
¿Qué es una prueba de hipótesis?
Prueba de hipótesis: es un procedimiento, basado en la evidencia de la muestra y en la teoría de las
probabilidades, usado para determinar si la hipótesis es una afirmación razonable y debería no ser rechazada o si
no es razonable debería ser rechazada
Prueba de Hipótesis
Paso 1: Establecer la hipótesis nula y la alternativa

Paso 2: Seleccionar el nivel de significación

Paso 3: Identificar el estadístico de prueba

Paso 4: Formular una regla de decisión

Paso 5: Tomar una muestra, llegar a una decisión
 
No realizar la hipótesis Rechazar la nula y aceptar la alternativa

Definiciones
Hipótesis nula H0: Una afirmación acerca del valor de un parámetro de la población.
Hipótesis Alternativa H1: Una afirmación que es aceptada si la muestra provee la evidencia de que la hipótesis nula
es falsa.
Nivel de significación: La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.
Error tipo I: Rechazar la nula cuando en realida es verdadera
Error tipo II: Aceptar la hipótesis nula cuando en realidad es falsa.
Estadístico de prueba: Es un valor, determinado a partir de la información de la muestra, usado para decidir si
rechazar o no la hipótesis nula.
Valor crítico:El punto que divide la región entre el lugar en el que la hipótesis nula es rechazada y y la región donde
la hipótesis nula es no rechazada.
Hipótesis nula unilateral a derecha
Distribución de muestreo para la estadística z
Una cola - nivel de significación 0.05
Hipótesis nula bilateral
Distribución de muestreo para la estadística z
A dos colas - nivel de significación 0,05

Prueba de hipótesis para la media de una Población, muestras grandes desviación estándar población
conocida
Cuando se plantean hipótesis par la media de la población , a partir de muestras grandes y la desviación estándar
poblacional es conocida, el estadísitco de prueba está dado por:
z = (X - μ)/(σ/√n)
Características de la distribución t-Student
Tiene las siguientes propiedades:
- Es continua, campanular, y simétrica como la distribución z.
- Existe una familia de distribuciones t con media cero, pero con diferentes desviaciones estándar.
- La distribución t es más aplanada y de colas más larga que la z.
- Tiende a la z para tamaños grandes de muestra.
Caso 1:Prueba de hipótesis para la media de una Población
Supongamos que una máquina empacadora de harina produce bolsas con un contenido de 50 kg. Para controlar el
funcionamiento de la máquina se tomó una muestra de 20 bolsas de harina y el peso medio resultó ser de 42 kg. con
un desvío standard de 11 kgs. ¿Está la máquina trabajando correctamente ? ( α = 0.10)
En este caso, se debe considerar que la máquina está trabajando correctamente si produce empaques que no
excedan demasiado el peso promedio, ni por encima ni por debajo de 50 kgs, así que se trata claramente de una
prueba bilateral.
Caso 1: Prueba de hipótesis para la media de una población, tamaño muestral pequeño y desviación estándar
desconocida
La estadística t para el caso de una sola muestra es:
t = (X - μ)/(s/√n)
Resolución
Hipótesis. H0: μ = 50; H1: μ ≠ 50.
Nivel de significación. α = 0.10.
Estadística de prueba.
tn - 1 = (X - μ)/(sn - 1/√n)
Región crítica. Puesto que P(t19 < -1.729  t19 > +1.729) = 0.10, se rechazará H0 si t < -1.729 ó t > +1.729.
Cálculos. n = 20, = 42, = 5 y
t19 = (42 - 50)/(11/√20) = -8/2,460 = - 3,25
Decisión. Dado que el valor del estadístico de prueba cae netamente en la región crítica izquierda, H0 es
rechazada a favor de H1.
Valor P
• Valor p: probabilidad de observar un valor de prueba más extremo que el valor observado, dado que la hipótesi
nula es verdadera.
• Si el valor p es más chico que el nivel de significación la hipótesis nula es rechazada.
• Si el valor p es más grande que el nivel de significación la hipótesis nula no es rechazada.
Prueba de hipótesis para dos medias
• Si un número grande de muestras aleatorias e independientes de dos poblaciones normales es seleccionada, la
distribución de la diferencias entre las medias de ambas también es normal.


Caso 2: Prueba de diferencia entre medias con muestras independientes
Un investigador estaba interesado en comparar el efecto de 2 hormonas (A y B) de
crecimiento sobre la longitud total alcanzada por una leguminosa. Para ello se tomó
una muestra de 20 plantas, asignando al azar 10 a cada hormona. Los resultados en
cm. fueron los siguientes:
Hormona A: 10 10 13 12 10 8 12 11 16 15
Hormona B: 15 11 16 17 18 9 14 12 15 16
a) Determinar si hay diferencias significativas entre los crecimientos producidos por ambas hormonas a un nivel del
5%.
b) Realizar el mismo análisis que en a), pero suponiendo que cada una de las parejas, en el orden dado, tienen la
misma ascendencia genética.

Resolución
Prueba t para dos muestras suponiendo varianzas iguales

Caso 3: Muestras relacionadas


En un estudio para predecir a partir del perímetro torácico el peso de novillos de raza británica sin balanza, se
compararon las evaluaciones hechas mediante una cinta métrica de origen norteamericano con los obtenidos
mediante el pesado por método nacional. Las observaciones para cada animal fueron las siguientes:
a) ¿Qué tipo de análisis sería correcto realizar? ¿Por qué? ¿Por qué cree que el experimento se diseñó de esa
manera? ¿Cómo se debería haber hecho el experimento para que lo correcto fuera otro análisis?
b) ¿Cuáles son las hipótesis que se postulan? ¿Qué significa cada una de ellas?
c) Utilizando un nivel de significación del 5%, ¿cuál es la región de rechazo para el estadístico de prueba?
d) ¿A qué conclusión se llega? ¿En qué se basa dicha conclusión?
e) ¿Qué error se puede estar cometiendo al arribar a la conclusión anterior? ¿En qué consiste dicho error en
términos de este problema?
f) Construya un intervalo del 95% de confianza para estimar la diferencia promedio entre los dos preparados.
g) ¿Era de esperar que el intervalo cubriera o no el valor 0? ¿Por qué?
Prueba t para medias de dos muestras emparejadas
Prueba t para dos muestras suponiendo varianzas iguales

Prueba t para dos muestras suponiendo varianzas desiguales


Prueba z para medias de dos muestras

Análisis de variancia – Caso de una sola variable. Varias Muestras


Una compañía de alimentos envasados desea probar 4 nuevos diseños de empaques para un nuevo cereal para
desayunos. Se seleccionaron 10 negocios con igual volumen de ventas como unidades experimentales. A cada
negocio se le consignó al azar un diseño de empaque. Tres diseños de empaques se asignaron al azar a 3
negocios y el otro diseño fue asignado a dos negocios. Todas las otras condiciones ajenas al empaque, como
precio , cantidad de estantes y localización de los mismos y esfuerzos especiales de promoción, se mantuvieron
constantes (homogéneos) para todos los negocios del experimento. Las ventas, según número de casos, fueron
registradas para el período de estudio y los resultados se presentan en la siguiente tabla:
Número de ventas por negocio para cada uno de los 4 diseños
Análisis de varianza de un factor

Areas de la curva normal estándar


φ(z)
Decimales de z
z
0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010

-2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048

-2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,30 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,20 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183

-1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559

-1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,20 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,10 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,00 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379

-0,90 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,80 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,70 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,60 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,50 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776

-0,40 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,30 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,20 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,10 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,00 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641

0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,20 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,30 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,40 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,50 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,60 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,70 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,80 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,90 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,00 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,10 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,20 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,30 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,60 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,70 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,70 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,80 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,90 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,00 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,10 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,20 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,30 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,40 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

Vous aimerez peut-être aussi