Apuntes Estadistica

1 Apuntes de Estadística
Profesora Homaira Athenea Ramírez Gutiérrez

ESTADISTICA
Introducción
El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino
sobre todo el proceso de interpretación de esa información.
El desarrollo de la teoría de la probabilidad ha aumentado el alcance de las aplicaciones de
la estadística. Muchos conjuntos de datos se pueden aproximar, con gran exactitud, utilizando
determinadas distribuciones probabilísticas; los resultados de éstas se pueden utilizar para
analizar datos estadísticas.
La probabilidad es útil para comprobar la fiabilidad de las inferencias estadísticas y para
predecir el tipo y la cantidad de datos necesarios en un determinado estudio estadístico.
En Química, incluye tareas tan diversas como calcular el promedio aritmético de la cantidad de
sólidos suspendidos en muestras de agua, determinar cuántos compuestos de tres elementos
pueden elaborarse con cinco sustancias, comparar dos métodos de determinación del porcentaje
de calcio, el crecimiento del número de bacterias según días de inoculación.
Definición:
La estadística se define como una rama de las matemáticas que trata de la recopilación, el análisis,
la interpretación y la representación de una gran cantidad de datos numéricos.
 Estadística Descriptiva : Es el conjunto de procedimientos utilizados para organizar

resumir y presentar grupos de datos numéricos
 Estadística Inferencial: Es el conjunto de métodos utilizados para obtener conclusiones

relativas a una población, basándose en el conocimiento de las características de una
muestra.
La población es el conjunto de datos que es el centro de nuestro interés y el subconjunto de ahí

seleccionado representa una muestra.
La estadística es un elemento decisivo en el incremento de la calidad, ya que las técnicas

estadísticas pueden emplearse para describir y comprender los elementos de la variabilidad.
¿Qué es la variabilidad? Es el resultado de cambios en las condiciones bajo las que se hacen las
observaciones. El muestreo también puede ser causa de variabilidad.
El campo de la estadística y la probabilidad consiste de métodos tanto para describir y modelar la
variabilidad, como para tomar decisiones en presencia de esta.
En la estadística inferencial lo que se desea es tomar decisiones acerca de una población en
particular.
Escalas de Medición
Escala Nominal
El término nivel nominal es normalmente usado para referirse a datos que solamente pueden
clasificarse en categorías. Sin embargo, no hay mediciones y no hay escalas involucradas, solo hay
conteo. En este tipo de nivel de medición el orden en que están acomodadas la categorías es
totalmente arbitrario.
2. Escala Ordinal
Este tipo de nivel de medición tiene características similares al nivel nominal con la diferencia de
que en el nivel ordinal las categorías indican que unas son más que las otras.
3. Escala cuantitativa intervalo

En este nivel de medición, las categorías están definidas por intervalos de valores, y están
acomodadas en orden a la magnitud de los valores. El tamaño de los intervalos es el mismo.
4. Escala cuantitativa Racional

En este nivel al igual que en el nivel intervalo, las categorías son del mismo tamaño. La diferencia
es que este nivel tiene un punto cero significativo y el valor de los categorías es en relación a ese
punto.
Clasificación de las variables
 Variable cualitativa: Cuando la variable estudiada es no numérica.

Ejemplo: Lugar de nacimiento, religión, color de ojos.
 Variable Cuantitativa: Cuando la variable estudiada puede expresarse en forma numérica.
Ejemplo: El saldo de una cuenta bancaria, la duración de una batería.
 Variables Discretas: Cada una de las variables puede valer solo un número entero por
ejemplo 1, 2, 3, etc.
Ejemplo: Número de cuartos en una casa, número de carros en el estacionamiento,
número de estudiantes en la clase de estadística.
 Variables Continuas: Las variables continuas pueden asumir todos los valores dentro de
un rango específico.
Ejemplo: Presión del aire en una llanta, el tiempo que se toma en viajar de Puebla a
México. Las variables continuas resultan de medir algo, y lógicamente dependen de la
exactitud del instrumento de medición.
Reglas generales para construcción de distribuciones de frecuencia
1) Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el
rango (diferencia entre ambos).
2) Dividir el rango el rango en un número adecuado de intervalos de clase del mismo
tamaño.
3) Determinar el número de observaciones que corresponden a cada intervalo de clase; es
decir, hallar la frecuencia de clase.
Los histogramas y los polígonos de frecuencia son dos representaciones gráficas de las
distribuciones de frecuencia. Un histograma se construye a partir de la distribución de frecuencias
representado sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio
para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las
frecuencias absolutas (o relativas) de cada intervalo y su área. Los histogramas, son gráficas de
barras verticales, construidos sobre los límites reales de cada clase.
Ejemplo
Por ejemplo, los siguientes datos son los tiempos de ignición de ciertos materiales expuestos al
fuego, dados a la más cercana centésima de segundo:
2,58 5,50 6,75 2,65 7,60 6,25 3,78 4,90 5,21 2,51 6,20 5,92 5,84 7,86 8,79 4,79
3,90 3,75 3,49 4,04 3,87 6,90 4,72 9,45 7,41 2,45 3,24 5,15 3,81 2,50 1,52 4,56
8,80 4,71 5,92 5,33 3,10 6,77 9,20 6,43 1,38 2,46 7,40 6,25 9,64 8,64 6,43 5,62
1,20 1,58
Solución:
Suponga, que se tiene interés de construir cinco clases. Con el arreglo ordenado de los tiempos se
determina que la observación más grande es de 9,65 y la más pequeña, de 1,20. Por tanto, la
amplitud o rango se calcula como:
Rango=9.64-1.20=8.44
y se tiene la aproximación del tamaño del intervalo de clase , dividiendo el rango entre el número
de intervalos que nos piden así obtenemos el
Intervalo de clase=8.44/5=1.688 se aproxima a 1.69
Tiempos Conteo Frecuencia Frecuencia Porcentaje

de ignición Absoluta (fi) relativa %
1,20 – 2,88 //// //// // 10 0.20 20
2,89 – 4,57 //// //// / 9 0.18 18
4,58 – 6,26 //// //// //// //// 16 0.32 32
6,27 – 7,95 //// //// / 9 0.18 18
7,96 – 9,64 //// // 6 0.12 12
Con esta tabla, se pueden calcular los porcentajes por clase al multiplicar por 100 cada frecuencia
relativa. Un 32% de los materiales fueron consumidos por el fuego entre 4,58 y 6,26 centésima de
segundo.
Ejemplo 2
En la tabla que sigue se registran los pesos de 40 estudiantes hombres de una universidad, con
precisión de una libra. Construya una distribución de frecuencias.
164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154
165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 138
Solución
El mayor peso es de 176lb y el menor es de 119lb.
Por lo que el rango es 176-119=57lb
Si se usan 5 intervalos de clase, su tamaño será de 57/12=4.75 aproxima 5
frecuencia
9
8
7
6
5
4
3 frecuencia
2
1
0
Distribución de frecuencias relativas

La frecuencia relativa de una clase es su frecuencia dividida entre la frecuencia total de todas las
clases es 1 es decir 100%.
Por ejemplo la frecuencia relativa de la clase 133-137 es 4/40=.1%.
La suma de todas las frecuencias relativas de las clases es 1 es decir 100%.
Distribución de frecuencia acumulada

La frecuencia total de todos los valores menores que la frontera de clase superior de un intervalo
de clase dado se conoce como frecuencia acumulada hasta ese intervalo de clase inclusive.
Por ejemplo la frecuencia acumulada, incluyendo hasta el intervalo de clase 133-137 es
1+2+2+4=9 lo que significa que 9 estudiantes tienen el peso menor de 137.5
Distribución de frecuencia relativa acumulada

La frecuencia relativa acumulada es la frecuencia acumulada dividida entre la frecuencia total. Así
la frecuencia relativa acumulada de peso menor que 137lb
Es 9/100=0.09% lo que significa que 9% de los estudiantes pesa menos de 137.5lb.
La tabla siguiente muestra la distribución de frecuencia de los salarios semanales de 65 empleados
salario Número de empleados Frecuencia relativa(%)
$250.00-$259.99 8 12.3
$269.00-$268.99 10 15.4
$270.00-$279.99 16 24.6
$280.00-$289.99 14 21.5
$290.00-$299.99 10 15.4
$300.00-$309.99 5 7.7
$310.00-$319.99 2 3.1
Total 65 Total 100%
30
25
20
15
10
5
Series1
0
Construya para la distribución de frecuencia anterior una distribución de frecuencia acumuladas y

una distribución de frecuencias relativas acumuladas.
Dist. De frec. Relativas acumuladas

120
100
80
60
40 Dist. De frec. Relativas
20 acumuladas
0
Menor Menor Menor Menor Menor Menor Menor Menor
que que que que que que que que
$250.00 $260.00 $270.00 $280.00 $290.00 $300.00 $310.00 $320.00
Medidas de localización
Se buscan números que describan la distribución de frecuencia para cualquier conjunto de

mediciones. Se concentrará la obtención en dos tipos de números descriptivos, las medidas de
tendencia central y las medidas de dispersión o variación.
Una característica importante de un conjunto de números es su localización o su tendencia
central, el promedio es un valor típico o representativo de un conjunto de datos, tales valores
suelen ubicarse en el centro del conjunto de datos
 Media aritmética
 Mediana
 Moda
Media muestral
Es un conjunto de n valores, es el resultado de la suma de todos ellos divididos entre n.
x i
x  x1  x2  ...  xn  i 1
Donde x1,x2,…xn, son las observaciones de la muestra y n es el tamaño de la muestra.
La media de la muestra y la media de la población

Las medidas características de una muestra son llamadas estadísticos y las medidas características
de una población se denominan parámetros. La media de la población se calculan de la misma
manera que la media de la muestra, que calculamos arriba, pero tiene diferente notación:
N
x i
 i 1
N
N número de elementos de la población
La media aritmética de datos no agrupados:
Si los números datos x1 ,x2, …xn ocurren f1,f2,…,fn veces respectivamente (es decir , con
frecuencias f1,f2,…,fn )
n
fx i i
La media aritmética es x i 1
n
f
i 1
i
Ejemplo: si 5, 8,6 y 2 ocurren con frecuencia 3,2, 4 y 1, en ese orden, su media

aritmética es:
(3)(5)  (2)(8)  (4)(6)  (1)(2) 15  16  24  2

x   5.7
3  2  4 1 10
La mediana
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media
aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito
usando una medida de tendencia central llamada mediana.
La mediana es el punto medio de los valores de una serie de datos después de haber sido
ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores
en el arreglo de datos.
Ejemplo:
El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de
producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la mediana de las observaciones
muestreadas?
85.4
85.4
85.3--- x%
84.9
84.0
° como la mediana poblacional; esto es, la mitad de la población se encuentra por
Se define 
debajo de la  ° , mientras que la otra mitad está por encima de este valor.
La mediana para datos agrupados
Cuando los datos se encuentran agrupados en una distribución de frecuencia no conocemos los
datos originales, por lo tanto es necesario estimar la mediana mediante los siguientes pasos:
1. Calcular el valor n / 2
2. Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace
encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que
n / 2.
3. Aplicando la siguiente fórmula con los valores del intervalo mediano:
N 
 2  fA 
Mediana  LSR   c
 f mediana 
 
Donde: LSR frontera superior real de la clase de la mediana

N: número de datos
fA: suma de las frecuencias de las clases hasta el intervalo de clase de la mediana.
fmediana: es la frecuencia de la clase de la mediana
C: es el tamaño del intervalo de la clase de la mediana
Ejemplo:
Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de
una muestra de 40 baterías para coche.
duración de las baterías (meses) Número de baterías
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3
1.- n/2=40/2=20
2.- el intervalo mediano es:
LI LS LSR X F FA
15 19 19.5 17 2 2
20 24 24.5 22 1 3
25 29 29.5 27 4 7
intervalo
30 34 34.5 32 15 22
mediano
35 39 39.5 37 10 32
40 44 44.5 42 5 37
45 49 49.5 47 3 40
N= 40
3.- Aplicar la fórmula con los datos del intervalo mediano
N 
 2  fA  (20  22)
Mediana  LSR    c  34.5  (5)  33.8
 f mediana  15
 
Moda
La moda es la observación que se presenta con mayor frecuencia en la muestra.
Es decir, el valor más frecuente. La moda puede no existir e incluso no ser única.
Si los datos son simétricos y hay una sola moda entonces la media la mediana y la moda coinciden.
Generalmente se encuentra que la moda<mediana<media si la distribución está sesgada a la
derecha, mientras que la media<mediana<moda si la distribución está sesgada a la izquierda.
La moda de un conjunto de números es el valor que ocurre con mayor frecuencia
Ejemplo 1: El conjunto 2,2,5,7,9,9,9,10,10,11,12 y 18 tiene moda 9
Ejem2: El conjunto 3,5,8,10,1,15 y 16 carece de moda
Ejem3: El conjunto 2,3,4,4,4,5,5,7,7,7 y 9 cuenta con dos modas 4 y 7 y se le conoce como

bimodal.
La distribución con una sola moda se llama unimodal.
La moda para datos agrupados
Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca
de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos
contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si
hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas
que serás las marcas de clase de dichos intervalos
Ejemplo: Calcular las modas de las siguientes distribuciones de frecuencia:
En general, preferimos la media primero porque se utiliza más adelante con mucho más
frecuencia y segundo porque es más estable que la mediana y la moda, es decir de una muestra a
otra varía menos que la mediana o la moda de valores calculados en la población.
Elegiremos la mediana como medida de tendencia central cuando la distribución sea muy
sesgada, cuando tenga valores muy extremos ya que en estos casos la media se desplaza hacia las
puntuaciones extremas y no así la mediana.
Ejemplos: en la serie 2, 3, 5, 6,8, 8 y 19 la media es7.28 y la mediana es 6, si el 19 fuera un error

tipográfico y fuera 9 en lugar de 19 pues la media seria 5.85 y la mediana seria 6 o en caso de
tener una variable ordinal también elegiríamos la mediana como medida de tendencia central y
por último en caso de tener una distribución de frecuencias con intervalos de clase abiertos, por
ejemplo a la variable “sueldo mensual “ no podemos saber el punto medio del intervalo menos de
50,000 o más de 500000 y no podemos calcular la mediana y tendríamos que recurrir a la moda.
Percentiles y Cuartiles
Sabemos que la mediana de la muestra la divide en dos partes iguales. Cuando se divide un
conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como
cuartiles.
Ejemplo: A continuación se presentan 20 observaciones en orden del tiempo de falla, en horas, de

un material aislante eléctrico:
204 228 252 300 324 444 624 720 816 912 1176 1296 1392
1488 1512 2520 2856 3192 3528 3710
Nótese que la mediana es

912  1176
 q2 
x%  1044
2
De modo que se define a q1 como la media de las observaciones
324  444
q1   384
2
1512  2520
De manera similar el tercer cuartil q3   2016
2
Cuando el conjunto ordenado de datos se divide en cien partes iguales, los puntos de división
reciben el nombre de percentiles.
Definición: el 100k-esimo percentil Pk es un valor tal, que al menos el 100k% de las observaciones
están en el valor o por debajo de él, y al menos el 100(1-k)% están en el valor o por encima de él.
Nótese que el primer cuartil q1=P0.25, el tercel cuartil q3=p0.75, y que la mediana es p0.50. El
procedimiento para encontrar el valor de cualquier percentil pk a partir de datos clasificados, es el
siguiente:
1) Encontrar el número de la posición i del percentil mediante el cálculo de nk. Si nk no es
entero, entonces i es el siguiente entero más grande. Si nk es entero entonces i es igual a
nk+.5
2) si i es entero, cuentese desde la observación más pequeña hasta hallar el i-ésimo valor. Si i
no es entero, entonces contiene una fracción igual a un medio, con lo que el valor de pK es
el promedio de las observaciones ordenadas nk y (nk+1)
Ejemplo
Se desea encontrar los percentiles 10 y 88 de los datos del ejemplo anterior.
Primero queremos calcular p0.10, nk=20(.10)=2 es un entero, el número de la posición es i=2+.5,
el cual es el promedio de las observaciones segunda y tercera. Por tanto, el percentil 10 es
p.010=(228+252)/2=240. El percentil 88 se encuentra de manera similar. Puesto que ahora
k=0.88, nk=20(0.88)=17.6, que no es entero, y el número de la posición es i=18. Por tanto, el
percentil 88 es la observación ordenada número 18, esto es p.88=3192
Ejercicio
Los datos siguientes representan la temperatura del fluido de descarga de una planta para el
tratamiento de aguas negras durante varios días consecutivos
43 47 51 48 52 50 46 49 45 52 46 51
44 49 46 51 49 45 44 50 48 50 49 50
a)Calcule la media muestral y la mediana
b) Calcule la varianza muestral y la desviación estándar muestral
c) Encuentre los percentiles 5 y 95 de la temperatura
****
Cuartiles
Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos
ordenados en cuatro partes iguales.
Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los

datos.
Q2 coincide con la mediana.
Cálculo de los cuartiles
1 Ordenamos los datos de menor a mayor.
2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .
Número impar de datos
2, 5, 3, 6, 7, 4, 9
Número par de datos
2, 5, 3, 4, 6, 7, 1, 9
Cálculo de los cuartiles para datos agrupados
En primer lugar buscamos la clase donde se encuentra , en la tabla de

las frecuencias acumuladas.
Ejercicio de cuartiles
Calcular los cuartiles de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer cuartil
Cálculo del segundo cuartil
Cálculo del tercer cuartil
Deciles
Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales.
Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos.
D5 coincide con la mediana.
Cálculo de los deciles
En primer lugar buscamos la clase donde se encuentra , en la tabla de

las frecuencias acumuladas.
Ejercicio de deciles
Calcular los deciles de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Cálculo del primer decil
Cálculo del segundo decil
Cálculo del tercer decil
Cálculo del cuarto decil
Cálculo del quinto decil
Cálculo del sexto decil
Cálculo del séptimo decil
Cálculo del octavo decil
Cálculo del noveno decil
Percentiles
Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales.
Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos.
P50 coincide con la mediana.
Cálculo de los percentiles
En primer lugar buscamos la clase donde se encuentra , en la tabla
de las frecuencias acumuladas.
Ejercicio de percentiles
Calcular el percentil 35 y 60 de la distribución de la tabla:
fi Fi
[50, 60) 8 8
[60, 70) 10 18
[70, 80) 16 34
[80, 90) 14 48
[90, 100) 10 58
[100, 110) 5 63
[110, 120) 2 65
65
Percentil 35
Percentil 60
MEDIDAS DE DISPERSIÓN O VARIABILIDAD
El rango
La varianza
La desviación estándar
El coeficiente de variación
el rango da aproximadamente tanta información acerca de la variabilidad de las observaciones

como otras medidas de variabilidad, la medida de dispersión más importante es la varianza de la
muestra.
Rango para datos agrupados
Para estimar el rango de una distribución de frecuencia se resta el límite inferior del intervalo de
clase más chico del límite superior del intervalo de clase más grande
Ejemplo:
Una muestra de las edades del público de un concierto se encuentra distribuida de la siguiente
manera:
Rango = mayor límite superior - menor límite inferior = 49 - 15 = 34
Edades Número de personas
15 - 19 2
20 - 24 1
25 - 29 4
30 - 34 15
35 - 39 10
40 - 44 5
45 - 49 3
Varianza
Si x1 , x2 ,..., xn es una muestra de n observaciones, la varianza de la muestra es:

Varianza de una muestra Desviación estándar de la muestra
 x
2
s  s2
x 2

n
s2 
n 1
Las fórmula de la varianza de una población es ligeramente diferente.
Varianza de la población Desviación estándar de la población
 x
2
  2
x 2

N
2 
N 1
La varianza y la desviación estándar sirven para cuantificar la variabilidad de una muestra

midiendo su dispersión alrededor de la media.
Sin embargo si trabajamos con la raíz cuadrada de la varianza esto nos dará una medida de
dispersión expresada en la mismas unidades que la variable original y esto es sacar la desviación
estándar.
Por ejemplo: Considere los datos de resistencia al estallamiento obtenidos de dos muestras de 6
botellas cada una :
Muestra 1 : 230 250 245 258 265 240
Muestra 2: 190 228 305 240 265 260
L a media de ambas muestras es 248. Sin embargo observe que la dispersión de la muestra es 2 es
mucho mayor que la de la muestra 1
Calcule la varianza de la muestra de la resistencia al estallamiento para la segunda muestra.

190 36100
228 51984
305 93025
240 57600
265 70225
260 67600
Suma=1488 Suma=376534
 x
2
x 2

n 376534  1488  / 6
2
s 
2
  1502
n 1 5
Si calculamos la varianza a la muestra 1 vemos que s  158

2
este resultado es
considerablemente más pequeño que el de la muestra 2.
Ejemplo 2
El contenido de cinco botellas de perfume seleccionadas de forma aleatoria de la línea de

producción son (en ml): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la varianza y la desviación estándar
de las observaciones muestreadas?
85.4 7293.16
85.3 7276.09
84.9 7208.01
85.4 7293.16
84.0 7056.00
La varianza es
 x
2
(425) 2
x 2

n
36126.42 
5  .355
s2  
n 1 5 1
La desviación estándar e s  .355  .5958
El coeficiente de variación
El coeficiente de variación es una medida de variabilidad relativa, tal que expresa la magnitud de la
desviación estándar como un porcentaje de la media. Se expresa como porcentaje en vez de las
mismas unidades que los datos. La fórmula de cálculo es,
Sx
CVx  *100
x
El coeficiente de variación se utiliza para comparar variabilidad entre dos o más variables que se
miden en diferentes unidades o cuya media es muy diferente.. Por ejemplo, las siguientes cifras
son las horas de estudio de 10 alumnos para presentar un examen de Química General 1 y las
calificaciones que obtuvieron:
Horas de estudio: 7 5 10 12 10 6 18 15 4 9
Calificación: 60 44 80 75 70 65 90 90 35 65
Sustancia x S2 s CV
Horas de estudio 9,6 19,8222 4,4522 46,4%
Calificación 67,4 323,156 17,9765 26,7%
Un error sería comparar la variabilidad absoluta usando la varianza o la desviación estándar entre
las variables, tal que están medidas en diferentes unidades, con lo cual, podría concluirse que las
calificaciones tienen mayor variabilidad. Se podría decir que entre los alumnos existe una mayor
variabilidad con respecto a las horas de estudio en relación a las calificaciones obtenidas en el
examen de Química General 1.
Medidas de Simetría:
Las medidas de la asimetría, al igual que la curtosis, van a ser medidas de la forma de la
distribución, es frecuente que los valores de una distribución tiendan a ser similares a ambos lados
de las medidas de centralización. La simetría es importante para saber si los valores de la variable
se concentran en una determinada zona del recorrido de la variable.
As<0 As=0 As>0
Asimetría negativa Simétrica Asimetría positiva a la derecha
Para medir la asimetría se puede realizar atendiendo básicamente a dos criterios:

• Comparando la Media y la Moda.
• Comparando los valores de la variable con la media.
Comparando la Media y la Moda:
Si la diferencia x  M 0 es positiva, diremos que hay asimetría positiva o a la derecha, en el caso
de que sea negativa diremos que hay asimetría negativa o a la izquierda. No obstante, esta medida
es poco operativa al no ser una medida relativa, ya que esta influida por la unidad en que se mida
la variable, por lo que se define el coeficiente de Asimetría como:
Esta medida es muy fácil de calcular, pero menos precisa que el coeficiente de asimetría de
Pearson. El coeficiente de asimetría de Pearson, se basa en la comparación con la media de todos
los valores de la variable, así que es una medida que se basará en las diferencias, xi  x
como vimos en el caso de la dispersión si medimos la media de esas desviaciones sería nulas, si las
elevamos al cuadrado, serían siempre positivas por lo que tampoco servirían, por lo tanto
precisamos elevar esas diferencias al cubo.
Para evitar el problema de la unidad, y hacer que sea una medida escalar y por lo tanto
relativa, dividimos por el cubo de su desviación típica. Con lo que resulta la siguiente expresión:
 x  x
3
n fi

i
N
As  i 1
 3
x
donde xi es la marca de clase

N es el número total de datos
n es el número total de marcas de clase
f es la frecuencia de cada marca de clase
Medida de puntamiento, Curtosis:

La curtosis es una medida del puntamiento, que nos indicará si la distribución es muy puntada o
poco puntada
Curtósis negativa Curtosis nula Curtosis positiva
Platicúrtica Mesocúrtica Leptocúrtica
Como podemos observar, el coeficiente de curtosis nos mide el grado puntamiento de la

distribución. Este coeficiente lo vamos a denotar por K y se calcula según la siguiente expresión:
 x  x
4
n fi

i
N
K i 1
3
Apuntes de Estadística  4
25 x
PROBABILIDAD
Introducción
La Probabilidad pertenecen a la rama de la matemática que estudia ciertos experimentos llamados

aleatorios, o sea regidos por el azar, en que se conocen todos los resultados posibles, pero no es
posible tener certeza de cuál será en particular el resultado del experimento. Por ejemplo,
experimentos aleatorios cotidianos son el lanzamiento de una moneda, el lanzamiento de un
dado, extracción de una carta de un mazo de naipes. Más adelante se verá que debemos distinguir
entre los conceptos de probabilidades matemáticas o clásicas de las probabilidades
experimentales o estadísticas.
Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del
que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado
concreto.
Espacio muestral: Es elconjunto de posibles resultados de un experimento aleatorio. ( y se denota
por  )
Punto muestral: elemento del espacio muestral.
Suceso o Evento: cualquier subconjunto del espacio muestral y lo denotamos por E
Ejemplo: Lanzar un dado, su espacio muestral es:   1, 2,3, 4,5,6
Eventos A  obtenerunnumeropar  2, 4,6
B  obtenerunnumeroprimo  2,5
La probabilidad clásica se define como el número de resultados favorables a A, dividido entre el
número total de posibles resultados del experimento aleatorio, o sea:
P[A] =Número de casos favorables A/Número de casos posibles
Una desventaja importante del concepto clásico de probabilidad es su limitada aplicación, ya que
hay muchas situaciones en que las posibilidades que se presentan no pueden considerarse
igualmente probables.
Los elementos básicos de la teoría de probabilidad son los resultados del proceso o fenómeno en
estudio. Cada posible resultado de un experimento se llama evento.
Cada vez que un espacio muestral esté formado por N posibles resultados igualmente probables,
la probabilidad de cada uno de ellos será 1/N.
Probabilidades como conjuntos
1)  : espacio muestral o conjunto de todos los resultados posibles.
2) A B : al menos uno de los eventos A ó B ocurre.
3 A B :ambos eventos ocurren
4) Ac : el evento A no ocurre
Axiomas de Probabilidad
Axioma 1
La probabilidad de que ocurra un evento A cualquiera se encuentra entre cero y uno.
0 < P(E) < 1
Axioma 2
La probabilidad de que ocurra el espacio muestral es 1. (un evento seguro)
P( ) = 1
La probabilidad de un evento imposible es cero
Axioma 3
Si A y B son eventos mutuamente excluyentes, es decir que no tienen elementos en común,
entonces: P(A U B) = P(A) + P(B)
Si se tienen n eventos mutuamente excluyentes A1, A2, A3,.....An, entonces:
P( A1  A2  ...  An ) = P(A1) + P(A2) + ... + P(An)
La probabilidad de que alguno de dos eventos pertenecientes a un mismo espacio muestral se
determina mediante la siguiente ecuación.
P( A  B)  P( A)  P( B)  P( A  B)
P  A  B  C   P( A)  P( B)  P(C)  P( A  B)  P( B  C)  P( A  B  C)
La probabilidad del suceso contrario de A, deber ser P(A)=1-P(Ac)
La probabilidad de que un evento dado ocurra pero no ocurra otro dado
P( A  B)  P( A)  P( A  B)
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado
para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
W1={sss, ssn, sns, nss, snn, nsn, nns, nnn}
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no.
Hay que asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa
como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como
A2={nns, nnn}
Ejemplo: Si el experimento es lanzar un dado una vez, el espacio muestral es: S = { 1, 2, 3, 4, 5, 6 }
Si el evento A es cae un número par A = { 2, 4, 6 }
Si el evento B es cae un número menor de 3 B = { 1, 2 }
¿Cuál será la probabilidad de que suceda alguno de estos dos eventos?
Solución:
Primero identificamos que es lo que queremos, "la probabilidad de que sea par o menor de
tres",es decir, P( A U B ). Ya que identificamos lo que queremos , ahora debemos saber lo que
conocemos la probabilidad de A y la probabilidad de B es: P(A)=3/6=.50 y P(B)=2/6=.33
Para aplicar este teorema es necesario conocer la probabilidad de la intersección de estos dos
eventos A  B  2 entonces P( A  B )=.16
si se quiere conocer la probabilidad de la unión, o de manera inversa, conocer la probabilidad de la
unión para calcular la probabilidad de la intersección.
En este caso queremos saber la unión, entonces es necesario conocer la intersección, que es "
número par y menor de 3". Si aplicamos la regla de adición: P( A U B ) = P( A ) + P( B ) – P( A ∩ B )
P( A U B ) = 0.50 + 0.33 – 0.16 = 0.67
Ejemplo: En el experimento de lanzar un dado y registrar que cara es la de arriba, si el suceso
B=“es menor que 3” es: P(B)=2/6=0.33
P( B)  1  P( B)  1  0.33  .67
¿Cuál es la probabilidad de que no sea ni par ni menor de tres?

En este caso estamos hablando del complemento de la unión de los sucesos A y B, es decir
P( A  B)
Sabemos que P( A  B)  .67
Entonces P( A  B)  1  .67  .33
Ejercicios

1.- Si la P(A)= 0.3, P(B)=0.2 y P  A  B   0.1 Determine P( A ) P  A  B  P  A  B 
c c

2.- Cada pregunta de un examen tiene dos respuestas alternativas de las que solo
Una es correcta. Un alumno contesta al azar un examen de este tipo con 3 preguntas.
a) Construya un espacio muestral adecuado a esta experiencia
P B C
b) Calcule P(B) P,  A  B  , P(C) y siendo
A:”El alumno contesta correctamente la primera pregunta”
B: “El alumno contesta correctamente dos de las 3 preguntas”
C:”El alumno contesta correctamente las 3 preguntas”
3.- Un experimento consiste en lanzar una moneda (perfecta) y un dado (perfecto)
Suponga que los resultados de la moneda son águila o sol. Considere los sig. eventos
A: Observar un águila y un número mayor o igual a 3
B: Observar un número par
Determine P(A), P(B), P  A  B  y P  A  B 
Eventos Independientes
Se refiere a dos o más eventos que podrían presentarse al mismo tiempo.
Si la ocurrencia de uno no afecta la probabilidad que suceda otro evento cualquiera, se dice que
son eventos estadísticamente independientes.
P  A  B   P( A) P(B)
Ejemplo:
Al lanzar un dado tres veces, ¿según las probabilidades, es conveniente apostar a favor o en contra
de obtener al menos una vez el 2? "Al menos una vez el 2" quiere decir "alguna vez se obtiene el
2".Llamando A={alguna vez se obtiene el 2}, su complemento es Ac={ninguna vez se obtiene el 2}
P(Ac)=P(no sale 2 en 1er lanzam.)• P(no sale 2 en 2º lanzam.)•P(no sale 2 en 3er
lanzam.)=(5/6)•(5/6)•(5/6) =125/216 =0,58.
Luego, como P(A)+P(Ac)=1
P(A)=1-0,58=0.42=42%. Por lo tanto, no conviene apostar a favor.
Probabilidad condicional
La dependencia estadística existe cuando la probabilidad de un evento depende o está asociada a
la ocurrencia de otros eventos. La probabilidad conjunta en condiciones de dependencia
estadística:
P  A  B   P( A) P( B A)
Ejemplo: En una tómbola hay dos bolitas blancas y tres bolitas negras, ¿cuál es la probabilidad de
sacar una blanca y después una negra?
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la tómbola.
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a la
tómbola.
Solución:
a) En este caso los eventos son independientes ya que al reponer la bolita la ocurrencia
de un evento no afecta al otro.
Sean los eventos A: "sacar una bolita blanca" y B: "sacar una bolita negra",
entonces, usando P  A  B   P( A) P( B)  (2 / 5)(3/ 5)  6 / 25
b) Si no hay reposición, los eventos son dependientes ya que la bolita no es repuesta a
la tómbola, por lo que ocupamos P  A  B   P( A) P( B A) =2/5·3/4=3/10
Ejercicios:
Repita el problema anterior, pero ahora la pregunta es ¿cuál es la probabilidad de sacar una
blanca y una negra? (note que ahora no importa el orden).
a) Si hay reposición, esto es, después de sacar la primera bolita, ésta se devuelve a la
tómbola
b) Si no hay reposición, esto es, después de sacar la primera bolita, ésta no se devuelve a la
tómbola.
2.- Para obtener licencia para conducir, es necesario aprobar tanto el examen teórico como el
práctico. Se sabe que la prob. que un alumno apruebe la parte teórica es 0,68, la de que apruebe
la parte práctica es 0,72 y la de que haya aprobado alguna de las dos partes es 0,82. Si se elige un
alumno al azar, ¿cuál es la prob. de que apruebe el examen para obtener licencia?
Teorema de Bayes
Si B1 , B2 ,..., Bn son n eventos mutuamente excluyentes, de los cuales uno debe de ocurrir, es

n
decir
i 1
P( Bi )  1 , entonces
P( B j ) P( A B j )
P ( B j A)  n
 P( B ) P( A B )
i 1
i i
Técnicas de Conteo
Regla de producto para pares ordenados
Si el primer elemento y objeto de un par ordenado se puede seleccionar en n1 formas, y por cada
una de las n1 formas se puede seleccionar el segundo elemento del par en n2 formas, entonces el
número de pares es n 1n 2.
Ejemplo: El propietario de una casa desea efectuar algunas remodelaciones y requiere los servicios
de un contratista plomero y un contratista electricista.
Si hay 12 plomeros y 9 electricistas en la zona. ¿De cuantas formas se puede seleccionar los
contratistas? N1=12 y n2=9 asi que el producto es N=(12)(9)=108 formas posibles de escoger los
dos tipos de contratistas.
Permutaciones
Para calcular las probabilidades de varios eventos es necesario contar el número de resultados
posibles de un experimento.
Una permutación es un arreglo en un orden particular, de los objetos que forman un conjunto. Por
ejemplo considere las diferentes formas en que pueden situarse las letra a,b y c.
Para la primera posición puede elegirse una de las 3 letras para la segunda cualquiera de las 2
restantes y para la tercera la letra que quedó.
Así que existe 3x2x1=6 maneras en que pueden arreglarse tres letras y estos
Areglos son: abc, acb, bac, bca, cab, cba.
En general el número de permutaciones de n objetos diferentes es:
n(n-1)(n-2)…(2)(1)=n!
El número de permutaciones de n objetos si se toma r a la vez es:
n(n  1)(n  2)...(n  r  1)(n  r )! n!

P(n, r )  
(n  r )! (n  r )!
Ejemplo En muchos estados de la Unión Americana, las placas de los automóviles , se identifican
por tres letras y tres números. ¿Cuál es el número total si ninguna letra de placas puede usarse
más de una ocasión en la misma placa? ¿Cuál es el número total sin esta restricción?
Solución
Con la restricción, el número total de permutaciones que puede obtenerse con
Las 26 letras tomadas 3 a la vez es: P(26,3)=26!/23!=26x25x24x23!/23!=15600
Combinaciones
Una combinación de los objetos de un conjunto es una selección de estos sin importar el orden. Se
entenderá por el número de combinaciones de r objetos tomados de un conjunto que contiene n
de estos, al número total de selecciones distintas en la que cada una de estas tiene r objetos.
La diferencia entre una permutación y una combinación es que la primera se centra en contar
todas las posibles selecciones y todos los arreglos de éstas. Mientras que la segunda solo recae e
contar el número de selecciones diferentes
Puede obtenerse el número de combinaciones de n objetos tomando r a la vez denotado por
 n  P(n, r ) n!
  
r r! (n  r )!r !
Ejemplo: Supóngase que van a enviarse cinco jueces federales a cierto Estado . El jefe del senado
estatal envía al presidente una lista que contiene los nombres de diez hombres y cuatro mujeres.
Si el presidente decide que de los cinco jueces tres deben de ser hombres y dos mujeres ¿de
cuántas maneras puede lograrse lo anterior empleando a los candidatos de la lista?
El número de maneras distintas en que pueden seleccionarse tres hombres entre diez es:
10  n! 10 x9 x8 x7!
  
 3  (n  r )!r ! 7!3!
Así el número de maneras en que pueden seleccionarse dos mujeres de entre 4 es:
 4 n! 4 x3x 2!
   6
 2  (n  r )!r ! 2!2!
Nota: En una permutación, el orden de los objetos de cada posible resultado es diferente. Si el
orden de los objetos no es importante, cada uno de estos resultados se denomina combinación.
Por ejemplo, si se quiere formar un equipo de trabajo formado por 2 personas seleccionadas de un
grupo de tres (A, B y C). Si en el equipo hay dos funciones diferentes, entonces si importa el orden,
los resultados serán permutaciones. Por el contrario si en el equipo no hay funciones definidas,
entonces no importa el orden y los resultados serán combinaciones. Los resultados en ambos
casos son los siguientes:
Permutaciones: AB, AC, BA, CA, BC, CB
Combinaciones: AB, AC, BC
Combinaciones: Es el número de formas de seleccionar r objetos de un grupo de n objetos sin
importar el orden.
Ejercicios
1.-Tres componentes electrónicos - un transistor, un capacitor, y un diodo - serán ensamblados en
una tablilla de una televisión. Los componentes pueden ser ensamblados en cualquier orden. ¿De
cuantas diferentes maneras pueden ser ensamblados los tres componentes?
2.- En una compañía se quiere establecer un código de colores para identificar cada una de las 42
partes de un producto. Se quiere marcar con 3 colores de un total de 7 cada una de las partes, de
tal suerte que cada una tenga una combinación de 3 colores diferentes.
Definición: Una variable aleatoria Y se dice discreta si solamente puede tomar un conjunto
numerable de valores.
El número de bacterias por unidad de área en el estudio de control de fármacos respecto al
crecimiento bacteriano e una variable aleatoria discreta.
¿Por qué estudiar la teoría de la probabilidad? Necesitamos la probabilidad de una muestra
observada para hacer inferencias acerca de una población.
Dado que cierto tipos de variables aleatorias ocurren con mucha frecuencia en la práctica, es útil
disponer de las posibilidades para cada valor de una variable aleatoria. Este conjunto de
posibilidades se llama distribución de probabilidad.
Se utilizan mayúsculas para denotar variables aleatorias y minúsculas para denotar valores
particulares que puede tomar una variable aleatoria.
Distribuciones de Probabilidad
 Distribuciones aleatorias discretas (Binomial, geométrica, hipergeométrica, de Poisson)
 Distribuciones aleatorias continuas (Uniforme, Exponencial, Normal, t de Student, Ji-
cuadrada y F)
Puede concebirse una distribución de probabilidad como una distribución teórica de frecuencia.
Una distribución teórica de frecuencia es una distribución de probabilidad que describe cómo se
espera que varíen los resultados del experimento
Definición. Sea S un espacio muestral sobre el que se encuentra definida una función de
probabilidad. Sea X una función de valor real definida sobre S, de manera que transforma los
resultados de S en puntos sobre la recta de los reales. Se dice entonces que X es una variable
aleatoria.
Estas dos funciones se usan para predecir el comportamiento de las variables aleatorias y se
denominan función de densidad y función de distribución acumulativa
Definición. Sea X una variable aleatoria discreta. Se llamará a p(x)=P(X=x) función de probabilidad
de la variable aleatoria X, si satisface las siguientes propiedades:
1.- P ( X )  0
2.- x P( X )  1
Definición: (densidad discreta) Sea X una variable aleatoria discreta. La función f de densidad
dada por f(x)=P(X=x)
Condiciones necesarias y suficientes para que una función sea una densidad discreta
1.- P ( X )  0
 f ( x)  1
2.- x
Definición. La función de distribución acumulativa de la variable aleatoria X es la probabilidad de
que X sea menor o igual a un valor específico de x y está dada por:
F ( x)  P( X  x)   P( xi )
xi  x
En general, la función de distribución acumulativa F(X) de una variable aleatoria discreta es una
función no decreciente de los valores de X, de tal manera que
1.- 0  F ( x)  1
2.- F ( xi )  F ( x j ) xi  x j
3.- P( X  x)  1  P( X  x)  1  F ( x)
Además, puede establecerse que para variables aleatorias de valor entero se tiene que
4.- P( X  x)  F ( x)  F ( x  1)
5.- P( xi  X  x j )  F ( x j )  F ( xi  1)
Ejemplo: Considérese la variable aleatoria Y, el número de células expuestas a linfocitos que

contiene antígeno en presencia de poli etilenglicol para obtener la primera fusión se sabe que
bajo estas condiciones la probabilidad de que se fusione una célula dada es de ½. Es razonable
suponer que las células se comportan en forma independiente. Los valores posibles de Y son
{1,2,3,…}. La probabilidad de que la primera célula se fusione es ½. En otras palabras:
P[Y=1]=f(1)=1/2
La probabilidad de que la primera célula no se fusione proporciona un valor de 2 para Y, es:
P[Y=2]=f(2)=P[la primera célula no se fusione]P[la segunda célula si se fusione]=(1/2)(1/2)=1/4
En forma similar P[Y=3]=f(3)=(1/2)(1/2)(1/2)=1/8 es posible identificar una expresión de forma de
la densidad.
(1/ 2) y y=1,2,3,…
En este caso: f ( y)  
0 en cualquier otro caso
Esta es una densidad porque cumple 1) y 2) una vez que se sabe que la función es una densidad,
puede usarse para responder preguntas concernientes al comportamiento de Y
Tabla
y 1 2 3 4 5 6 7
f(y)
Ejemplo
¿Cuál es la probabilidad de que sea necesaria la exposición de cuatro o más células
a linfocitos portadores de antígeno en presencia de de poli etilenglicol para obtener
la primera fusión? En otras palabras ¿Cuál es el valor de la densidad de Y es la del ejemplo
anterior y encontraremos la probabilidad buscada de la siguiente manera:
P[Y  4]  1  P[Y  4]  1  P[Y  3] = 1-(P[Y=1]+P[Y=2]+P[Y=3])=
  1 1 1
2
1 
3
1-(f(1)+f(2)+f(3))=1-(1/2+1/4´1/8)= 1          
 2  =1-7/8=1/8
 2 2 
Distribuciones aleatorias discretas

Distribución de probabilidad binomial
Existen muchos problemas aplicados en los que interesa la probabilidad de que un evento ocurra
“x veces en n ensayos”. En otras palabras, se está interesado en lograr x aciertos y n-x fracasos en
n ensayos.
Una variable discreta tiene distribución binomial cuando cumple con las siguientes condiciones:
1. El experimento consta de n ensayos o pruebas idénticas.
2. Cada ensayo puede tener uno de dos resultados. Un resultado se llama “éxito”, y al otro,
“fracaso”.
3. La probabilidad de un éxito en un ensayo es igual a p y permanece constante de una a otro
ensayo. La probabilidad de un fracaso es q = 1-p.
4. Los ensayos son estadísticamente independientes.
5. Interesa conocer x, el número de éxitos observados en n pruebas.
La fórmula de la distribución binomial es:
n
P( y )    p y q n  y y=0,1,2,…,n
 y
Ejemplo1.
Un agente químico produce la decoloración del 5% de los rollos de papel producido por cierta
compañía. ¿Cuál es probabilidad de que en una muestra aleatoria de 7 rollos de papel, 1 rollo
presente decoloración debido al agente químico?.
Solución
Este problema se puede considerar como un problema de distribución binomial para el cual n=7 y
p=0,05. Por medio de la fórmula la probabilidad de 1 rollo decolorado está dada por,
7 7!
P( y  1)    (0.05)1 (0.95)7 1  (0.05)(0.95) 6  0.257
 
1 6!1!
Por lo tanto, hay una probabilidad de 0,257 de que de los 7 rollos de papel ocurra que uno
presente decoración debido al agente químico.
Ejemplo 2
La experiencia ha demostrado que el 30% de todas las personas afectadas por cierta enfermedad,
se recupera. Una compañía farmacéutica desarrolló una nueva vacuna. Se seleccionaron al azar
10personas con la enfermedad en cuestión y se les administró la vacuna; poco después 9 se
recuperaron. Supóngase que la vacuna es absolutamente eficaz. ¿Cuál es la probabilidad de que al
menos 9 de 10 personas se recuperen?
Solución
Sea y el número de personas que se recuperen. Si la vacuna no funciona la probabilidad de que la
persona se recupere es p=0.3. Si el número de pruebas es n=10, la probabilidad de que
exactamente 9 personas se recuperen es:
10 
P( y  9)    (0.3)9 (0.7)  0.000138
9 
De manera similar la probabilidad de que 10 personas se recuperen es:
10 
P( y  10)    (0.3)10 (0.7) 0  0.000006
10 
Entonces P( y  9)  p(9)  p(10)  0.000138  0.000006  0.000144
Ejercicios
La probabilidad de que un enfermo se recupere de un padecimiento gástrico es 0.8 . Supóngase
que 20 personas han contraído tal afección.
a) ¿Cuál es la probabilidad de que sobrevivan exactamente 14?
b) ¿cuál es la probabilidad de que al menos 10 sobrevivan?
c) ¿cuál es la probabilidad de que al menos 14, pero no más de 18 sobrevivan?
d) ¿cuál es la probabilidad de que a lo más 18 sobrevivan?
Distribución Binomial Negativa

Una distribución binomial negativa puede considerarse como lo inverso de la distribución
binomial.
Propiedades binomiales negativas
1) El experimento consta de una secuencia de ensayos independientes.
2) Cada ensayo puede resultar en un éxito S o o fracaso F (cada ensayo con probabilidad p
de éxito).
3) Los ensayos se observan hasta obtener exactamente r éxitos, donde el experimentador fija
el valor de r.
4) La variable aleatoria X es el número de ensayos necesarios para lograr los r éxitos.
Definición :
Se afirma que una variable aleatoria X tiene distribución binomial negativa, con parámetros p y r,
si su densidad f está dada por:
 x  1 xr r
r=1,2,3,…
f ( x)    (1  p ) p x=r,r+1,r+2
 r 1

Ejemplo: Las fibras de algodón usadas en los propulsores de cohetes son sometidas a un proceso
de nitración, el cual permite que las fibras de algodón entren en solución. Este proceso tiene
efectividad de 90% en cuanto a que el material producido pueda conformarse según se requiera
en una etapa anterior al proceso, con probabilidad de 0.9. ¿Cuál es la probabilidad de que se
produzca exactamente 20 lotes para obtener el tercer lote defectuoso?
Solución
En este caso el éxito es la obtención de un lote defectuoso por lo que p=0.1 y r=3. La probabilidad
de que X=20 está dada por
19 
f (20)    (.9)17 (.1)3
2 
Distribución de probabilidad geométrica
La variable aleatoria que tiene distribución geométrica se define para un experimento que es muy
similar al experimento binomial. También se refiere a pruebas idénticas e independientes, y cada
una puede tener dos resultados, éxito o fracaso. La probabilidad de tener existo es p . Sin embargo
la variable aleatoria geométrica Y es el número de prueba en la cual ocurre el primer éxito, en
lugar del número de éxitos que ocurren en n pruebas.
El espacio muestral S para el experimento contiene el siguiente conjunto infinito
Contable de puntos muestrales.
E1: S
E2:FS
E3:FFS
E4:FFFS
.
.
Ek:FFF…FS. De modo que p(y)=P(Ey)=P(FFFF…FS)
De modo que la distribución de probabilidad geométrica
p( y)  q y 1 p y=1,2,3,… 0  p 1
Ejemplo
Supongamos que la probabilidad de que falle un motor durante cualquier periodo de una hora es
p=0.02. Encuentre la probabilidad de que dicho motor funcione bien durante dos horas.
Solución
Sea Y el número de intervalos de una hora hasta la primera falla, entonces

P(de que funcione bien en dos hora)= P(Y  3)   p( y)
y 3
2
P(de que funcione bien en dos hora)= 1  P(Y  2)  1   p( y) 1  p  qp  1  0.02  (0.98)(0.02)  .9604
y 1
Un explorador de petróleo perforará una serie de pozos en cierta área para encontrar un pozo
productivo. La probabilidad de que tenga éxito en una prueba es 0.2.
a) ¿Cuál es la probabilidad de que el primer pozo productivo sea el tercer pozo
perforado?
b) ¿Cuál es la probabilidad de que el explorador no vaya a encontrar un pozo
productivo si solamente puede perforarse a lo más 10 pozos
Distribución de probabilidad hipergeométrica

Supóngase que una población contiene un número finito N de elementos, cada uno de los cuales
tiene una de dos características. De esta manera r elementos podrían ser rojos y b=N-r negros. Se
selecciona una muestra aleatoria de n elementos de la población y la variable aleatoria de interés
es Y, el número de elementos en la muestra. Esta variable aleatoria tiene una distribución de
probabilidad hipergeométrica.
El número total de puntos muestrales de S será entonces igual al número de formas de seleccionar
N
un subconjunto de n elementos de una población de N elementos, o  n  . La probabilidad para
 
un punto muestral de S es igual a
1
P( Ei )  Ei  S
N para todos
 
n 
Ya que un muestreo aleatorio implica que todos los puntos muestrales son equiprobables.
El número total de puntos muestrales en el evento numérico Y=y sería el número de puntos
muestrales de S que contienen y elementos rojos y (n-y) elementos Negros.
Distribución de probabilidad hipergeométrica
 r  N  r 
   y entero 0,1,2,…,n
y n y 
p ( y )    yr
N
37 Apuntes de Estadística  
 n  Ramírez Gutiérrez
Profesora Homaira Athenea
n y  N r
Ejemplo:
Se seleccionan 10 personas para un trabajo de un grupo de 20 ingenieros con doctorado. ¿Cuál es l
probabilidad de que el grupo de los 10 ingenieros seleccionados incluya a los cinco mejores del
grupo de20?
Solución:
En este ejemplo N=20, n=10 y r=5. Es decir , hay solamente 5 del conjunto de los mejores
ingenieros y buscamos la probabilidad de que Y=5, siendo Y el número de los mejores ingenieros
entre los 10 seleccionados.
 5  15 
  
 15!   10!10! 
p (5)       
5 5 21
   0.0162
 20   5!10!   20!  1292
 
 10 
Ejercicio
En un almacén se tienen 10 impresoras, de las cuales cuatro son defectuosas. Una compañía
selecciona 5 de las máquinas al azar, suponiendo que todas funcionan bien. ¿Cuál es la
probabilidad de que las 5 máquinas sean no defectuosas?
Distribución de probabilidad de Poisson

La distribución de Poisson representa la probabilidad de que un evento aislado (o variable
aleatoria discreta) ocurra un número específico de veces en un intervalo de tiempo, espacio o
distancia, dado un promedio por unidad de medida.
Un rasgo característico de esta distribución es el hecho de que la ocurrencia de un evento puede
ser cuantificada; no así su no-ocurrencia, dada su falta de significado en términos físicos. De este
modo, no puede medirse el número total de eventos n, en consecuencia, no es posible aplicar con
precisión la distribución binomial.
Definición: Se dice que una variable aleatoria X tiene distribución de Poisson con parámetros k si
su densidad f está dada por:
e   x
f ( x) 
x!
Pasos en la solución de un problema de Poisson:
1.-Determinar la unidad de medición básica que se usa
2.-Determinar el número promedio de casos del evento por unidad. Este número se denota con 
3.-Determinar la magnitud o el tamaño del periodo de observación. Se denota por s.
4.-La variable aleatoria X, el número de ocurrencias del evento en el intervalo de tamaño s
corresponde a una distribución de Poisson, con parámetro k   s
Ejemplo1. Supóngase que partículas radiactivas dan en cierto blanco a una tasa promedio de 3
partículas por minuto. ¿Cuál es la probabilidad de que 2 partículas den en el blanco durante un
minuto cualquiera?.
Solución:
Aplicando la fórmula, se puede calcular la probabilidad de exactamente dos partículas:
32 e3
p( x  2)   0.224
2!
Ejemplo2:
El número de glóbulos blancos de un individuo sano puede promediar apenas 6000 células por
milímetro cúbico de sangre. A fin de identificar la deficiencia de glóbulos blancos se toma una gota
de 0.001 milímetros cúbicos de sangre y se cuenta el número de glóbulos blancos, X. ¿Cuántos
glóbulos blancos se esperarían en una persona sana ? Si se identificaron cuando mucho 2, ¿es ello
un signo de deficiencia de glóbulos blancos?
Solución:
El evento discreto de interés es la presencia de glóbulos blancos, y el intervalo continuo, la gota de
sangre, sea la unidad de medición el milímetro cúbico entonces s=0.001 y   6000
¿Cuan frecuente es que haya cuando mucho dos? Es decir P ( X  2)
2 2
e6 6 x e6 60 e6 61 e6 62
P( X  2)   f ( x)     
x 0 x 0 x! 0! 1! 2!
Ejemplo:
Cierto tipo de árboles tiene retoños dispersos de manera aleatoria sobre un área extensa, con una
densidad promedio de retoños de aproximadamente cinco por yarda cuadrada. Encuentre la
probabilidad de que un guardabosques, al escoger al azar 10 porciones de una yarda cuadrada en
esa área, no encuentre retoño alguno en ninguna de las porciones.
Solución.
Si la distribución de un retoño es realmente aleatoria, entonces el número de retoños por región Y
se puede representar por una variable aleatoria de Poisson con   5 (la densidad promedio es
de cinco por yarda cuadrada) Entonces
50 e 5
P(Y  0)  p (0)   e 5
0!
Esperanza Matemática
Un concepto general es la esperanza matemática o el valor esperado, lo que se requiere es el valor
promedio teórico a largo plazo de X.
Definición: Sea Y una variable aleatoria discreta con función de probabilidad P(y). Entonces, el
valor esperado de Y, E(Y), está definido por
E (Y )   yp ( y )
y
Si p(y) es una caracterización exacta de la distribución de frecuencias de la población, entonces

E (Y )   que es la media de la población
Definición Sea g(y) una función de una variable aleatoria discreta Y, que tiene una función de
probabilidad p(y). Entonces el valor esperado de g(y) es:
E[ g (Y )]   g ( y ) p( y )
y
Definición: La varianza de una variable aleatoria Y está definida como el valor esperado de
V (Y )  E[(Y   )2 ]
La desviación estándar de Y es la raíz cuadrada positiva de V(Y)
Ejemplo
Encuentre la media, la varianza y la desviación estándar de la variable aleatoria Y, cuya distribución
de probabilidad se da en la siguiente tabla
Tabla
y P(y)
0 1/8
1 ¼
2 3/8
3 1/4
3
  E (Y )   yp( y)  (0)(1/ 8)  (1)(1/ 4)  2(3/ 8)  (3)(1/ 4)  1.75
y 0
3
  E[(Y   )2 ]   ( y   ) 2 p( y ) 
2
y 0
(0  1.75) 2 (1/ 8)  (1  1.75) 2 (1/ 4)  (2  1.75) 2 (3 / 8)  (3  1.75)2 (1/ 4)  0.9375
   2  0.9375  0.97
Toda variable aleatoria se relaciona con constantes y parámetros que son descriptivos. Se
consideran 3 parámetros a saber, la media, la varianza y la desviación estándar.
Distribución de probabilidad para variables aleatorias continúas

El tipo de variable aleatoria que toma cualquier valor en un intervalo se llama continua. Por
ejemplo la producción de antibiótico en un proceso de fermentación es una variable aleatoria
continua.
Función de densidad de probabilidad
Definición: Sea X una va continua. Entonces, la distribución de probabilidad o función de
densidad de probabilidad de X es una función f(x) tal que para cualesquiera dos números a y b,
con b
P(a  X  b)   f ( x)dx ab
a
Esto es, la probabilidad de que X tome un valor en el intervalo [a,b] es el área bajo la gráfica de la
función de densidad.
Para que f(x) sea una pdf legítima, debe satisfacer las siguientes dos condiciones
1.- f ( x )  0 para toda x

2.- 

f ( x)dx  1 área bajo toda la gráfica de f(x)
Función de distribución acumulada

Def: la función de distribución acumulada F(x) para una va X continua está definida para todo
número x por
x
F ( x)  P( X  x)  

f ( y )dy
Uso de f(x) para calcular probabilidades como lo indica la figura
Proposición: Sea X una va continua con pdf f(x) y cdf F(x). Entonces para cualquier número a,
P( X  a)  1  P( X  a)  1  F (a)
y para cualquiera dos números a y b, tal que a<b,

P(a  X  b)  F (b)  F (a)
Vea las siguientes figuras
Definición: El valor esperado o valor medio de una va X continua con pdf f(x) es

x  E( X )   xf ( x)dx

Definición: La varianza de una va X continua con pdf f(x) y valor medio esperado

  V (X )   (x  ) f ( x)dx  E[( X   ) 2 ]
2 2
x

Proposición: V ( X )  E[ X 2 ]  [ E ( X )]2
La desviación estándar de X es x  V (X )
Distribución de probabilidad uniforme
Def: Se dice que X es una va continua tiene una distribución uniforme en el intervalo [A,B] si la pdf
de X es:
 1 A x B

f ( x; A, B)   B  A
 0
deotro mod o
Ejemplo:
1 3 7
Si 0  x  10 entonces f ( x)  y f(x)=0 en otro caso. Si queremos P   x  
b
10 7 2
recuerde que P ( a  X  b)   f ( x)dx
a
42 Apuntes
 3 de Estadística
7
7/2
1
7/2
2
P   xHomaira
Profesora
7
   Athenea
2 
3/ 2
 x Gutiérrez
f ( x)dxRamírez 
10 3/ 2 10
Así que
Distribución Gamma Exponencial
La distribución gamma es una familia de variables aleatorias llamadas funciones exponenciales

Definición: (Función Ji cuadrada). La función , definida por :

( )   z 1e  z dz
0
Definición:(Distribución gamma). Se dice que una v.a. X con densidad:

1 x
x,  ,   0
f ( x)  
x 1e 
( ) 
Tiene distribución gamma con parámetros  y .
Si   1 la densidad asume la forma de una variable aleatoria exponencial .
Densidad Exponencial
f ( x) 
1
e x /  x,   0

Ejemplo:
Algunas cepas paramecios producen y secretan partículas “asesinas”, que causan al contacto la
muerte de un individuo sensible. Todos los paramecios incapaces de producir dichas partículas son
sensibles. El número medio de partículas asesinas emitido por un paramecio asesino es de cada 5
horas. En la observación de estos paramecios, ¿Cuál es la probabilidad de que se deban esperarse
cando mucho 4 horas antes de que se emita la primera partícula?
Solución
1 1
Tiene una distribución exponencial con    5 . Así que f ( w)  e  w / 5 y la probabilidad
 5
4
1
P W  4    e  w / 5 dw  e
4
w/5 0
que nos interesa es:  1  e 4 / 5  0.5507
0
5
Distribución Ji-cuadrada y F
Definición: (Distribución Ji-cuadrada). Sea X una variable aleatoria gamma con  2 y    / 2 ,
donde  es un entero positivo. Se afirma que X tiene una distribución Ji-cuadrada con 
grados de libertad. Esta variable se denota por 
2
La distribución F de probabilidad tiene dos parámetros, representados por v1 y v2 se llaman

número de grados de libertad del numerador y número de grados de libertad del denominador.
v2
43X1 , XApuntes
2 de Estadística v1
Si son variables aleatorias ji cuadrada independiente con y grados de
libertad respectivamente, entonces se puede demostrar que la variable aleatoria
X 1 / v1
F
X 2 / v2
Distribución Normal
Def: Se dice que una va X continua tiene una distribución normal con parámetros  y 
donde      y 0   si la pdf de X es:
f ( x;  ,  ) 
1
e ( x   ) /(2 )
2 2
  x  
2
Distribución Normal Estándar
La distribución con valores   0 y   1 recibe el nombre de distribución normal estándar.
1
f ( z;0,1)  e z /(2)
2
2
  z  
z
La cdf de X es P( Z  z )  

f ( y;0,1)dy La cual señalamos como  ( z )
Teorema del límite central

Si X1 , X 2 ,..., X n es una muestra aleatoria de tamaño n tomada de una población (finita o
infinita) con media  y varianza finita  y si X es la media muestral, entonces la forma
2
límite de la distribución de
X 
Z
/ n
Cuando n   , es la distribución normal estándar.
Para cambiar de una distribución normal no estándar a estándar
Si X tiene una distribución normal con media  y desviación estándar 

X 
Entonces Z Tiene una distribución normal estándar. Así

a b  b  a 
P ( a  X  b)  P  Z      
         
b  b 
P  X  a     P  X  b  1   
     
Ejemplo 1. Suponga que el tiempo medio de reacción de una sustancia es de 30 segundos y la
desviación estándar de 4 segundos. ¿Cuál es la probabilidad de que en cierto experimento, la
reacción se produzca en menos de 25 segundos?.
Solución:
 25  30 
P( x  25)  P  Z    P( Z  1.25)  0.10565
 4 
La probabilidad que la reacción se produzca en menos de 25 segundos es 0,10565.

Ejemplo 2. Una analista químico realiza un gran número de medidas de una solución con
absorbancia media de 0,435 y una desviación estándar de 0,005. ¿Qué porcentaje de las lecturas
se estima fuera del intervalo 0,425 y 0,445?.
Solución
Los cálculos dan
 0.425  0.435 0.445  0.435 
P(0.425  x  0.445)  P  Z   P(2.00  Z  2.00) 
 0.005 0.005 
0.97725  0.02275  0.9545
Así pues, el porcentaje de lecturas fuera de intervalo 0,425 y 0,445 es 4,55%. Simplemente, se
calcula restando 1-0,9545. Gráficamente, el porcentaje fuera del intervalo es,
Distribución t de Student
El hecho fue reconocido por W. S. Gosset, un químico irlandés que en 1908 publicó, bajo el
pseudónimo de Student, un trabajo titulado “El error probable de una medida”. En parte por
consideraciones teóricas y, en parte, por el uso de muestras aleatorias, obtuvo la distribución
teórica del promedio de tamaños de muestra pequeñas (n≤30), ajustada a una distribución
normal.
La distribución de Student tiene propiedades parecidas a N(0,1):
• Es de media cero, y simétrica con respecto a la misma;
• Es algo más dispersa que la normal, pero la varianza decrece hasta 1 cuando el número de
grados de libertad aumenta
• Para un tamaño de muestra grande se puede aproximar la distribución de Student por la normal.
Estimación
Definición: Un estadístico es una función de las variables aleatorias que se pueden observar en
una muestra y de las constantes conocidas. Los estadísticos se utilizan para hacer inferencias
(estimaciones o decisiones) con respecto a parámetros poblacionales conocidos.
Un estadístico es en si una variable aleatoria, por consiguiente deduciremos su distribución de
probabilidad, que llamaremos distribución muestral.
Hay dos tipos de estimación; puntual y por intervalo. Una estimación puntual utiliza un solo valor
de la muestra para estimar el parámetro de la población de estudio. Por ejemplo, la media de la
muestra x es una estimación puntual de la media μ de la población. La variancia s2 de la
muestra es una estimación puntual de la variancia σ2 de la población.
Consistencia
Cuando el tamaño de la muestra crece, el valor estimado se aproxima al parámetro desconocido.
Insesgado
Un estimador es insesgado cuando su esperanza matemática coincide con el valor del parámetro
poblacional. A efectos de esta aplicación un estimador será insesgado cuando al repetirse el
proceso de muestreo, mediante reiteraciones1, un número suficiente de veces la diferencia entre
el valor medio de estas reiteraciones y el valor objetivo poblacional converja a cero.
Se dice que un estimador $ de un parámetro θ es insesgado si:
E($)  
Definición: El sesgo B de estimador puntual $ está dado por B  E ($)  
Eficiencia
Al estimador, al ser v.a., no puede exigírsele que para una muestra cualquiera se obtenga como
estimación el valor exacto del parámetro. Sin embargo, se puede esperar que su dispersión con
respecto al valor central (varianza) sea tan pequeña como sea posible.
Entonces dado µ 1
y µ 2
de un mismo parámetro  es más eficientes µ1 que µ 2 si:
Var (µ µ
1 )  Var ( 2 )
Una distribución muestral es la distribución de todos los posibles valores del estadístico de la
muestra, que se pueden obtener de la población para un determinado tamaño de muestra.
Estimadores puntuales
• Para µ, el estimador es û= x , la media muestral.

Para  , el estimador es ¶ 2  s 2 , la varianza muestral.
2
•
x
• Para p, el estimador es µp la proporción muestral donde x es el número de objetos
n
en una muestra aleatoria de tamaño n que pertenece a la clase de interés.
• Para 1  2 , el estimador es µ ¶
1  2  x1  x2
, la diferencia entre las medias
muestrales de dos muestras aleatorias independientes.
• Para p1  p2 , el estimador es µ p1  ¶p2 la diferencia entre las proporciones
de las dos muestras, calculadas a partir de dos muestras aleatorias independientes.
Definición: La definición de muestreo de probabilidad de una estadística recibe el nombre de

distribución de muestreo.
X 1  X 2  ...  X n
X
n
    ...  
La distribución de muestreo de la media muestral tiene una distribución normal x 
n
    ...  
2 2 2
 2
y varianza  x2  2

n n
Ejemplo: Una compañía electrónica fabrica resistores que tienen una resistencia promedio de
100 y una desviación estándar de 10 . La distribución de la resistencia es normal.
Encuentre la probabilidad de que al tomar una muestra de n=25 resistores, la resistencia promedio
de estos será menor que 95
Solución
Sabemos que la distribución de muestreo X es normal con media  x  100
 10
y desviación estándar x   2
n 25
95  100
Estandarizando el punto X  95 se tienen que z  2.5
2
95  100
z  2.5
2
Apuntes de Estadística
47
y por lo tanto
Definición: El error estándar de una estadística es la desviación estándar de su distribución de

muestreo. Si el error estándar involucra parámetros desconocidos cuyos valores pueden
estimarse, la sustitución de estas estimaciones en el error estándar da como resultado un error
estimado.
Es decir el error estándar da alguna idea sobre la precisión de la estimación por ejemplo si se
utiliza x como estimador puntual de la media  el error estándar mide cuan preciso x estima
a 
Ejemplo
Un artículo publicado e el Journal describe un nuevo método para medir la conductividad térmica
del hierro Armo, Al utilizar una temperatura de 100F y una potencia de entrada de 550 W, se
obtienen las diez mediciones siguientes de conductividad térmica (Btu/hr-ft-F)
41.60 41.48 42.34 41.95 41.86
42.18 41.72 42.26 41.81 42.04
Una estimación puntual de la conductividad térmica promedio a 100F y 550W es la media

muestral X  41.924
¶ s 0.284
El error estádar de la muestra es  x    .0898
n 10
Nótese que se ha obtenido un error alrededor de 0.2% de la media muestral, lo que implica que se
ha obtenido una estimación puntual relativamente precisa de la conductividad térmica.
Las combinaciones lineales de variables aleatorias normales independientes siguen una

distribución normal puede afirmarse que X1  X 2 es normal con media  x1  x2   x1   x2  1  2
 12  22
y varianza  2 x  x   2 x   2 x  
1 2 1 2
n1 n2
Así que si se tienen dos poblaciones independientes con medias , 1 y  2 y varianzas  1 ,  2
2 2
y X 1 X 2 son las medias muestrales de dos muestras aleatorias independientes de tamaño n1

n2 de estas poblaciones, entonces la distribución de muestreo
X 1  X 2  ( 1  2 )
Z
 12  22

n1 n2
es aproximadamente normal estándar.
Ejemplo:
La vida eficaz de un componente utilizado en la turbina de una aeronave es una v.a. con media
5000 hras. Y desviación estándar de 40 horas. La distribución de la vida eficaz es muy próxima a
X 2  X1
una distribución normal. El fabricante de la turbina introduce una mejora en el proceso de
fabricación de este ccomponente, que aumenta el tiempo de vida útil promedio a 5050 hras y
disminuye la desviación estándar a 30 horas. Supóngase que se toma del proceso antinuguo
n₁=16 componentes y una muestra aleatoria del proceso mejorado de n₂ =25 componentes. ¿cuál
es la probabilidad de que la diferencia entre las dos medias muestrales sea al menos
25 horas?
Solución
1 40
Para X 1 con media 1  5000hras y desviación estándar   10hras
n1 16
2 30
Para X2 con media 2  5050hras y desviación estándar   6hras
n2 25
 25  30 
Así que P( X 2  X 1  25)  P  Z    P( Z  2.14)  0.9838
 136 
Teorema: Sean y1 , y2 ,..., yn una muestra aleatoria de tamaño n de una distribución normal con
 1 n  Yi   
n 2
media y varianza  . Entonces  Z i   

2 2

i 1 n i 1   
tiene una distribución normal con media 

2
con n grados de libertad.
Teorema: Sea y1 , y2 ,..., yn una muestra aleatoria de una distribución normal con media
 y varianza  2 . Entonces 1  n
Yi  Y   (n  1)2 S
2 2
2
 i 1 
tiene una distribución  con (n-1) grados de libertad. Y y S 2 son también variables
2
aleatorias independientes.
Como ejemplo de una v.a. que sigue una distibución ji-cuadrada, supóngase que y1 , y2 ,..., yn es
una muestra de una población normal con media  y varianza  2 . La función de la varianza
( n  1) S 2  n 12
muestral es está distribuida como
2
Si X es el promedio de las n observaciones que contiene una muestra aleatoria, entonces la

distribución de Z es una normal estándar. Supóngase que la varianza de la población es
desconocida. ¿Qué sucede con la distribución si se reemplaza  por S?
Def: Sea Z una variable aleatoria normal estándar y sea 2 una variable aleatoria Ji-cuadrada
con v grados de libertad. Entonces si Z y  2 son independientes
Z
T 
2 /v
Se dice que tiene una distribución t con v grados de libertad.

Haciendo algunos operaciones y tomando que X y S 2 entonces se tiene que
X 
T 
S/ n
tiene una distribución t con n-1 grados de libertad.
Ejemplo:
Al fabricante de un agente propulsor utilizado en sistemas de escape de emergencia de
aeronaves, le gustaría afirmar que su producto tiene una tasa promedio de combustión de 40 in
por minuto. Para investigar esta afirmación, el fabricante prueba 25 granos de propulsor
seleccionados al azar, y si el valor calculado de T cae entre t0.05,24 y t0.05,24 , entonces queda
satisfecho. ¿A que conclusión debe llegar el fabricante si tiene una muestra con una media de
in/min y una desviación estándar s=0.75in/min? Supóngase que la tasa de combustión tiene una
distribución normal.
Solución
t0.05,24  1.711 de modo que t tendrá que caer entre -1.711 y 1.711 para que el fabricante quede
satisfecho, pero si sacamos t obtenemos que T  X    42.5  40  16.67 que es un valor
S/ n 0.75 / 25
que excede por mucho a 1.711.
Definición: Sea 1 y  2 variables aleatorias ji-cuadrada con v1

2 2
y v2 grados de libertad,
12 y  2 son independientes
2
respectivamente. Entonces si
12 / v1
F 
 22 / v2
Se dice que tiene una distribución F con v1 grados de libertad del numerador y v2 grados de
libertad en el denominador.
Teorema del límite central
Sean y1 , y2 ,..., yn variables aleatorias independientes y distribuidas idénticamente con E (Yi )  
y V (Yi )     Definimos U n  n  Y    donde y  1  yi
2 n
  
n i 1
Entonces la función de distribución U n converge a una función de distribución normal

estándar cuando n  
El teorema del límite central establece que, al hacerse más grande la muestra, la distribución de
muestreo de las medias de la muestra tiende hacia la distribución normal, con media aritmética μ
y desviación estándar  / n es (a este valor se le conoce como error estándar de la distribución
muestral). Esta distribución muestral tenderá hacia la normalidad,sin importar la forma de la
distribución de la población de la que se extrajeron los elementos de la muestra.
Hay otro método para hacer una estimación mucho más precisa, la estimación por intervalos de
confianza.
Al procedimiento de encontrar un intervalo de valores dentro del cual se espera que se encuentre
un parámetro poblacional es conocido como estimación por intervalos de confianza.
El nivel de confianza es la probabilidad de que el parámetro poblacional se encuentre dentro del
intervalo. Los niveles de confianza más ampliamente usados son 0.95 y 0.99, sin embargo puede
usarse cualquier probabilidad cercana a 1.
Para entender mejor el concepto de intervalo de confianza vamos a suponer que seleccionamos
100 muestras de una población y calculamos la media de las muestras e intervalos de confianza
del 95% para cada muestra. Descubriremos que cerca de 95 de los 100 intervalos de confianza
contienen la media poblacional.
Pasos para construir un intervalo de confianza.
1. Establecer el nivel de confianza.
2. Determinar el valor de la variable aleatoria estándar.
3. Calcular los estadísticos de la muestra.
4. Calcular el error estándar.
5. Calcular el error máximo de estimación.
6. Determinar los límites del intervalo de confianza e interpretar.
Intervalos de confianza
La estimación por intervalo de confianza consiste en determinar un posible rango de valores o
intervalo, en los que pueda precisarse –con una determinada probabilidad– que el valor de un
parámetro se encuentra dentro de esos límites.
A la probabilidad de acertar al decir que el parámetro estaba contenido en dicho intervalo se la
denomina nivel de confianza.
Intervalos de confianza del 95% para la media de una población media verdadera μ=20
Intervalos de confianza para una distribución normal
 Intervalo de confianza para la media con varianza conocida

x
Si es la media muestral de una muestra aleatoria de tamaño n de una población con varianza
conocida  , un intervalo de confianza para  del 100(1   ) por ciento está dada por
2
 
x  z / 2    x  z / 2
n n
 Intervalo de confianza para la media con varianza desconocida

Si x y s son la media y la desviación estándar de una muestra aleatoria tomada de una
distribución normal con varianza  desconocida , entonces un intervalo de confianza del 100(1   )
2
por ciento está dada por

s s
x  t / 2, n 1    x  t / 2, n 1
n n
Ejemplo
Considérese los datos de conductividad térmica ara el hierro Armco del ejemplo anterior.
Supóngase que se desea encontrar un intervalo de confianza del 95% para conductividad térmica
promedio de este material, y que se sabe que la desviación estándar de la conductividad térmica a
100ºF y 550W es   0.30 Btu/hr-ft-ºF. Si se sabe que la conductividad térmica
Está distribuida de manera normal.
Solución
 
x  z / 2    x  z / 2
n n
41.924  1.96(0.30) / 10    41.924  1.96(0.30) / 10
41.728    42.110
Ejemplo 2
Un artículo publicado en el Journal of Testing and Evaluation presenta las siguientes 20 mediciones
del tiempo de combustión residual ( en según dos ) de especímenes tratados de ropa de dormir
para niños:
9.85 9.93 9.75 9.77 9.67 9.87 9.67 9.94 9.85 9.75
9.83 9.92 9.74 9.99 9.88 9.95 9.95 9.93 9.92 9.89
Solución
La media y la desviación muestrales son: x  9.8525, s  0.0965
Así que los límites de confianza del 95% inferior y superior son:
s
li  x  t / 2, n 1  9.8525  2.093(0.0965) / 20  9.8073seg
n
s
ls  x  t / 2, n 1  9.8525  2.093(0.0965) / 20  9.8977 seg
n
Por consiguiente 9.8073    9.8977
Por lo tanto, se tiene una confianza del 95% de que el tiempo de combustión residual promedio se
encuentra entre 9.8073 y 9.8977
Tamaño de la muestra
Si x se utiliza como estimación de  , entonces puede tenerse una confianza de 100(1   )por
ciento de que el error x   no será mayor que una cantidad específica E cuando el tamaño de
la muestra sea
 z / 2 
2
n 
 E 
Ejemplo: Supóngase que se desea el error en la estimación de la conductividad térmica promedio

del hierro Armco sea menos que 0.05Btu/hr-ft-0F con una confianza del 95%. Puesto que
  0.10 y z0.025  1.96 , así que el tamaño requerido de la muestra es
z  
2 2
 (1.96).10 
n    /2      15.37
 E   .05 
Ejercicios
1.-Un ingeniero civil analiza la resistencia a la comprensión del concreto. La resistencia está
distribuida aproximadamente de manera normal, con una varianza  2  1000( psi) 2 . Al tomar
una muestra aleatoria de 12 especímenes, se tiene que x  3250 psi
a) Construya un intervalo de confianza bilateral del 95% para la resistencia a la compresión

promedio.
b) Construya un intervalo de confianza bilateral del 99% para la resistencia a la compresión
promedio. Compare el ancho de este intervalo con el ancho del intervalo encontrado en el
inciso a)
2.-Supóngase que en el ejercicio anterior se desea estimar la resistencia a la compresión con un
error menor que 15psi para un nivel de confianza del 99%.
¿Qué tamaño de muestra debe emplearse para este fin?
3.-Los resultados siguientes representan las calificaciones de una muestra aleatoria de las
calificaciones de estudiantes en el primer examen de estadística elemental.
Elaborar un intervalo de confianza del 95% para estimar la media poblacional.
23 60 79 32 57 74 52 70 82 36
80 77 81 95 41 65 92 85 55 76
52 10 64 75 78 25 80 98 81 67
41 71 83 54 64 72 88 62 74 43
60 78 89 76 84 48 84 90 15 79
34 67 17 82 69 74 63 80 85 61
Ejemplo:
Un articulo publicado en el journal presenta las siguientes 20 mediciones del tiempo de
combustible residual (en segundos) de especímenes tratados de ropa de dormir para niños
9.85 9.93 9.75 9.77 9.67
9.87 9.67 9.94 9.85 9.75
9.83 9.92 9.74 9.99 9.88
9.95 9.95 9.93 9.92 9.89
Se desea encontrar un intervalo de confianza del 95% para el tiempo de combustible residual
promedio
Intervalos de confianza para la diferencia de medias
 Intervalo de confianza para la diferencia de medias, varianzas conocidas
Si x1 y x2 son las medias de dos muestras aleatorias independientes n1 y n2 tomadas
de poblaciones que tienen varianzas conocidas  1 y  22 respectivamente, entonces un
2
intervalo de confianza de 100(1   ) por ciento para 1  2 es:

 12  22  12  22
x1  x 2  z / 2   1  2  x1  x 2  z / 2 
n1 n2 n1 n2
donde z / 2 es el punto crítico superior que corresponde al porcentaje  / 2 de la distribución

normal estándar.
Ejemplo:
Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros de
aluminio utilizados en la fabricación de alas de aeroplanos comerciales . De la experiencia pasada
con el proceso de fabricación delargueros y del procedimiento de prueba, se supone que las
desviaciones estándar de las resistencias a la tensión son conocidas. Los datos obtenidos aparecen
en la tabla
Clase del larguero Tamaño de la muestra Media muestral de la Desviación estándar

resistencia (kg/mm2)
1 10 87.6 1.0
2 12 74.5 1.5
Selección del tamaño de la muestra

Si se conocen (al menos aproximadamente) las desviaciones estándar  1 y 2 y los tamaños
de las dos muestras son iguales (n1  n2  n) entonces puede determinarse el tamaño de la
muestra de modo que se tenga una confianza de 100(1   ) por ciento n que el error en la
estimación de 1  2 por x1  x2 sea menos que E. El tamaño requerido para la muestra
de cada población. 2
Z 
n    /2 
 E 
 1
2
  22 
HASTA AK SE QUEDARON
 Intervalo de confianza para la diferencia de medias, varianzas desconocidas pero iguales

Es decir tenemos los mismos datos que en el caso anterior con la diferencia de que ahora nos dan
s12 y s22 así que ahora tendríamos el siguiente intervalo
1 1 1 1
x1  x 2  t / 2,n1 n2 2 S p   1  2  x1  x 2  t / 2,n1 n2 2 S p 
n1 n2 n1 n2
Donde S p   n1  1 s1   n2  1 s2  /  n1  n2  2 es el estimador combinado de

2 2
la desviación estándar común de la población y t / 2,n1  n2  2 es el punto crítico

superior que corresponde al porcentaje  / 2 de la distribución t con n1  n2  2 grados
de libertad.
Ejemplo
Un artículo publicado en el Hazardus Waste (Vol. 6 1989) dio a conocer
Resultados de un análisis del peso de calcio en cemento estándar y en cemento contaminado por
plomo. Los niveles bajos de calcio indican que el mecanismo de hidratación del cemento queda
bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al
tomar 10 muestras de cemento estándar se encontró que el precio promedio de calcio es
x1  90.0 , con una desviación estándar s1  5.0 , los resultados obtenidos con 15 muestras de
cemento contaminado con plomo fueron x2  87.0 y s2  4.0 .
Supóngase que el porcentaje de calcio está distribuido de manera normal. Encuéntrese un
intervalo del 95% para la diferencia de 1  2 de los dos tipos de cementos.
Intervalo de confianza para la diferencia de medias, varianzas desconocidas pero desiguales

2
x1 , x2 , s1 y s2 son las medias y las varianzas de dos muestras aleatorias de tamaño
2
Si
n1 y n2 , respectivamente, tomadas de dos poblaciones normales e independientes con
varianzas desconocidas y desiguales, entonces un intervalo de confianza aproximado del
100(1   ) por ciento para la diferencia entre medias 1  2 es
s12 s2 2 s2 s 2
x1  x 2  t / 2,v   1  2  x1  x 2  t / 2,v 1  2
n1 n2 n1 n2
 S1 / n1  S2 / n2   2 y t / 2,v es el punto crítico superior que corresponde
2 2 2
Donde v 2
( S1 / n1 ) 2 ( S 22 / n2 ) 2

n1  1 n2  1
al porcentaje  /2 de la distribución t con v grados de libertad.
Ejercicio
Se piensa que la concentración del ingrediente activo de un detergente líquido para ropa, es
afectada por el tipo de catalizador utilizado en el proceso de fabricación. Se sabe que la desviación
estándar de la concentración activa es de 3g/l, sin importar el tipo de catalizador utilizado. Se
realizan 10 observaciones con cada catalizador, y se obtienen los datos siguientes:
Catalizador 1 57.9 66.2 65.4 65.4 65.2 62.6 67.6 63.7 67.2 71.0
Catalizador 2 66.4 71.7 70.3 69.3 64.8 69.6 68.6 69.4 65.3 68.8
Suponga que la concentración activa está distribuida normalmente, y que la varianza de la
concentración activa de ambos tipos de catalizador es desconocida
a) Encuentre un intervalo de confianza del 95% para la diferencia entre las medias de las
concentraciones activas, suponiendo que ambas varianzas son iguales
b)Encuentre un intervalo de confianza del 95% para la diferencia entre las concentraciones
activas promedio, suponiendo que las varianzas no son iguales. Compare este intervalo con el del
a). ¿Cuán diferentes son los intervalos?
Intervalos de confianza para la varianza de una distribución normal

S X1i , X 2 ,... X n es una muestra aleatoria de tamaño n tomada de una población normal y si s 2
es un estimador puntual razonable de  2 . Se sabe que si la población es normal, la distribución
de muestreo es
(n  1) S
2
X
2
es ji-cuadrada con n-1 grados de libertad. Para desarrollar el intervalo de confianza se nota que
P  12 / 2,n 1  X  2 / 2, n 1   1  
 2 (n  1)S 2 
P  1 / 2,n1   2 / 2,n1   1  
  2

 (n  1) S 2 (n  1) S 2 
P 2 2  2   1  
 
 1 / 2, n 1  / 2, n 1 
Por lo que el intervalo de confianza para la varianza quedaría de la siguiente forma

(n  1) S 2 (n  1) S 2
2 
12 / 2,n 1 2 / 2, n 1
Donde 1 / 2,n1 y  / 2,n1 son los puntos críticos superior e inferior que corresponden al
2 2
porcentaje  / 2 de la distribución ji-cuadrada con n-1 grados de libertad
Respectivamente.
Ejemplo
Un fabricante de detergente líquido está interesado en la uniformidad de detergente líquido está

interesado en la uniformidad de la máquina utilizada para rellenar botellas. De manera específica,
es deseable que la desviación estándar  del proceso de llenado sea menor que 0.5
onzas de líquido; de otro modo, existe un porcentaje mayor del deseable de botellas con un
contenido menor de detergente. Supóngase que la distribución del volumen de llenado es
aproximadamente normal. Al tomar una muestra aleatoria de 20 botellas, se obtiene una
varianzamuestral de s 2  0.0153 (onzas de fluido)₂. Encuentre el intervalo de con-
fianza del 95%
(n  1) S 2 (n  1) S 2
2 
12 / 2,n 1 2 / 2, n 1
(20  1)(0.0153) (20  1)(0.0153)

2 
8.91 32.85
0.03262   2  0.0088
Intervalo de confianza para una proporción

µ X
p
n
Sabemos que es un estimado puntual de la proporción de la población, note que n y p
son parámetros de una distribución binomial, y se sabe que la distribución de muestreo de µ
p es
aproximadamente normal con media p y varianza p(1-p)/n . Por lo tanto la distribución de
µ
p p
Z
µ
p (1  µ
p)
n
Así que para construir el intervalo de confianza para p
P(Z / 2  Z  Z / 2 )  1  
µ
p p
P( Z / 2   Z / 2 )  1  
µ
p(1  µ
p)
n
µ
p(1  µ
p) µ
p(1  µ
p)
P( µ
p  Z / 2  pµ
p  Z / 2 )  1 
n n
µ
p(1  µ
p) µ
p(1  µ
p)
Por lo que el intervalo de confianza es: µ
p  Z / 2  pµ
p  Z / 2
n n
donde Z / 2 es el punto crítico que corresponde al porcentaje  / 2
Ejemplo
En una muestra aleatoria de 85 soportes para el cigüeñal de un motor de automóvil, 10 tienen un

terminado que es más rugoso de lo que las especificaciones permiten. Por consiguiente, una
estimación puntual de la proporción de soportes en la población que excede la especificación de
rugosidad es µ x 10
p   0.12 . Puede calcularse un intervalo de confianza bilateral del 95%
para p. n 85
Solución
µ
p(1  µ
p) µ
p(1  µ
p)
µ
p  Z / 2  pµ
p  Z / 2
n n
0.12(.88) .12(.88)
0.12  1.96  p  0.12  1.96
85 85
Por lo que el intervalo de confianza para la proporción queda
58 0.05  p  0.19
Selección del tamaño de la muestra
µ µ
Puesto que p es el estimador de p, puede definirse el error de estimar p por p como E  p  µ
p
así que el tamaño apropiado de la muestra es:

2
Z 
n    / 2  P(1  p )
 E 
Ejemplo: Considérese la situación del ejemplo anterior ¿Cuán grande debe de ser la muestra si
desea tener una confianza del 95% de que el error al utilizar µ
p por p, se tiene que el tamaño
requerido de la muestra es
2 2
Z   1.96 
n    / 2  P(1  p )    0.12(.88)  163
 E   0.05 
Intervalo de confianza para la diferencia de dos proporciones
Sean X1 el número de observaciones de la primera muestra que pertenece a la clase de interés y

el número de observaciones en la segunda muestra de la población. Entonces estás son X1 y X 2
son v.a. binomiales independientes con parámetros (n1 , p1 ) y (n2 , p2 ) . Ahora bien y
son estimador es independientes de p1 y p2 respectivamente. De modo que la estadística es
µ
p1  µ p 2  ( p1  p2 )
Z
p1 (1  p1 ) p2 (1  p2 )

n1 n2
Esto implica que P(Z / 2  Z  Z / 2 )  1  
De modo que para encontrar el intervalo de confianza aproximado de 100(1   ) por ciento para
p1  p2
µ
p (1  µ
p1 ) µ
p (1  µ
p2 ) µ
p (1  µ
p1 ) µ
p (1  µ
p2 )
µ
p1  µ
p 2  Z / 2 1  2  p1  p2  µ
p1  µ
p 2  Z / 2 1  2
n1 n2 n1 n2
Prueba de hipótesis
Def: Una prueba de hipótesis estadística es una proposición sobre los parámetros de una o más
poblaciones.
La proposición H 0 :   0 se conoce como hipótesis nula.
H 0 :   0
La proposición se conoce como hipótesis alternativa.
Una prueba de cualquier hipótesis tal como

H 0 :   0
H1 :    0
Recibe el nombre del prueba bilateral.
En algunas ocasiones lo que se desea es formular una hipótesis alternativa unilateral es decir:
H 0 :   0 O H 0 :   0
H1 :    0 H1 :    0
Nota: la hipótesis siempre son proposiciones sobre la población , no proposiciones sobre la

muestra. Por lo general, el valor del parámetro dela población especificado en la hipótesis nula e
puede determinar de la experiencia pasada o del conocimiento del proceso, o incluso de pruebas
o experimentos previos entonces el objetivo de la prueba de hipótesis es determinar si ha
cambiado el valor del parámetro.
Def: El error de tipo I se define como el rechazo de la hipótesis nula H 0 cuando esta es
verdadera.
Def: El error tipo II se define como la aceptación de la hipótesis nula cuando esta es falsa.
La probabilidad de cometer un erro tipo I se denota como

  P( ErrortipoI )  P(rechazarH0 H0esverdadera)
  P( ErrortipoII )  P(aceptarH0 H0esfalsa)
Decisión H₀ es verdadera H₀ es falsa
Aceptar H₀ no hay error error tipo II
Rechazar H₀ Error tipo I No hay error
Método de prueba de hipótesis
1.- Formulación de la prueba de hipótesis nula y alternativa.

2.- Determinar el valor observado del estadístico de prueba.
3.-Determinación del valor crítico del estadístico de prueba
4.-Comparación del valor observado del estadístico de prueba con el valor crítico
Prueba de hipótesis sobre la media, varianza conocida
H 0 :   0
H1 :    0
En consecuencia, H₀ debe rechazarse si Z0  Z / 2 o bien
Z0  Z / 2 o Z0  Z / 2
Por otra parte, H₀ no puede rechazarse si
Z / 2  Z0  Z / 2
Regiones críticas para la prueba de hipótesis bilateral
Regiones críticas para la prueba de hipótesis bilateral
Ejemplo
Los sistemas de escape de emergencia para tripulaciones de aeronaves son impulsados por un
combustible sólido. Una de las características importantes de este producto es la rapidez de
combustión. Las especificaciones requieren que la rapidez promedio de combustión sea 50cm/s.
Se sabe que la desviación estándar es   2cm / s . El experimentador decide especificar un nivel
de confianza de   0.05 . Selecciona una muestra aleatoria de n=25 y obtiene una rapidez
promedio muestral de combustión de x  51.3cm / s . ¿A que conclusión debe llegar?
Solución
1.-El parámetro de interés es  , la rapidez promedio de combustión

H 0 :   50cm / s
2.-
H1 :   50cm / s
3.-   0.05
x  0 51.3  50
4.- La estadística de prueba es Z0    3.25
/ n 2 / 25
5.-Rechazar H₀ si z₀>1.96 o si z₀<-1.96.
6.- Dado que z₀=3.25>1.96, se rechaza H₀:   50 con un nivel de significancia de 0.05. Se
concluye que con base en una muestra de 25 mediciones, la rapidez promedio de combustión es
diferente de 50cm/s. De hecho, existe una evidencia fuerte que la rapidez promedio de
combustión es mayor que 50cm/s
De manera similar Supóngase que se especifica la hipótesis

H 0 :   0
H1 :    0
La región crítica debe colocarse en la cola superior de la distribución normal estándar y el rechazo
de H₀ se hará cuando el valor calculado de z₀ sea muy grande. Esto es, H₀ será rechazada si Z0  Z
.
De manera similar, para probar

H 0 :   0
H1 :    0
Se calcula la estadística de prueba Z₀ y se rechaza H₀ si el valor de Z₀ es muy pequeño es decir
H₀ será rechazada si Z 0   Z
Ejemplo
Un investigador desea contrastar la hipótesis que el límite de concentración del isótopo radiactivo
estroncio 90 en la leche es de 5 por litro. Para tal efecto, selecciona aleatoriamente una muestra
de lecherías. La hipótesis nula considera el límite de referencia μ=5, contra la hipótesis alternativa
que es mayor a 5.
Para verificar si las especificaciones se cumplían en cierta región del
país, fueron seleccionadas aleatoriamente 40 lecherías, encontrándose una media aritmética de
5,4 y una desviación estándar de la muestra de 0,493 por litro. ¿Existe una diferencia en la
concentración promedio con el límite tolerable?. Realizar la prueba con un nivel de confianza del
90%.
H0 :   5
H1 :   5
5.4  5 0.4
Z obs    5.13
.493/ 40 0.07795
El valor teórico de la distribución normal al nivel significancia establecido de 0,10, resulta
aproximadamente 1,64. Dado que 5,13 es mayor a 1,64, entonces la decisión sería rechazar la
hipótesis nula H₀.
La conclusión a que se llegaría al nivel de confianza del 90% es que la concentración del isótopo
radiactivo estroncio 90 en todas las lecherías es significativamente mayor al límite tolerable.
Prueba de hipótesis para una media con varianzas desconocida
 Prueba de hipótesis alternativa bilateral
H 0 :   0
H1 :    0
Se rechaza H₀ si t0  t / 2, n 1 o t0  t / 2,n 1
 Prueba de hipótesis alternativa unilateral

H 0 :   0
H1 :    0
Se rechaza H₀ si t0  t , n 1
 Otra alternativa unilateral
Se rechaza H₀ si t0  t ,n 1
H 0 :   20
H1 :   20
x  0 20.7  20 0.7
tobs     3.34
s/ n .469 / 5 0.2097
Dado que el valor teórico determinado con la tabla t de Student para un área de 0,025 en cada
cola de la distribución con 4 grados de libertad es 2,7764, entonces se rechaza H₀ ya que
t₀=3.34>2.77
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas conocidas
 Se desea probar H 0 : 1  2
H1 : 1  2
Para ello se tiene la distribución del siguiente estadístico de prueba calculado bajo el supuesto que
las poblaciones (o variables consideradas en cada población) tienen aproximadamente una
distribución normal y las variancias poblacionales son conocidas
x1  x 2  ( 1  2 )
Z0 
 12  22

n1 n2
 Se desea probar
H 0 : 1  2
65 H1 : 1  2
 Se desea probar
H 0 : 1  2
H1 : 1  2
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas desconocidas
Caso 1:  1   2  
2 2 2
Supóngase que se tienen dos poblaciones normales independientes con medias desconocidas,
varianzas desconocidas pero iguales.
H 0 : 1  2
 Se desea probar
H1 : 1  2
Se calcula el estadístico de prueba T  x1  x 2

0
1 1
Sp 
n1 n2
S 2

 n1  1 s12   n2  1 s22
Donde p
 n1  n2  2 
Por lo que se rechaza H₀ si t0  t / 2,n1  n2  2 o t0  t / 2,n1  n2 2
De manera similar se tratan las alternativas unilaterales
H 0 : 1  2
 Para probar
H1 : 1  2
Se rechaza H₀ si t0  t , n1  n2  2
H 0 : 1  2
 Para probar
H1 : 1  2
Se rechaza H₀ si t0  t , n1  n2  2
Ejemplo
Se analizan dos catalizadores para determinar la forma en afectan el rendimiento promedio de un

proceso químico. De manera específica, el catalizador 1es el que se está empleando en este
momento, pero el catalizador también es aceptable. Debido a que el catalizador 2 es más
económico, este puede adoptarse siempre y cuando no cambie el rendimiento del proceso. Se
hace una prueba en una prueba planta piloto y se obtiene que x1  92.255 , s1  2.36 y
x2  92.733 s2  2.98
, ¿Existe alguna diferencia entre los rendimientos promedio? Utilice
Prueba de hipótesis sobre las medias de dos distribuciones normales, varianzas desconocidas
Caso 1:  12   22
Supóngase que se tienen dos poblaciones normales independientes con medias desconocidas,
varianzas desconocidas pero iguales.
H 0 : 1  2
 Se desea probar
H1 : 1  2
x1  x 2
Se calcula el estadístico de prueba T0* 
S 22 S 22

n1 n2
Tiene una distribución t con grados de libertad dados por
S / n1  S 22 / n2 
2 2
v 2
1
( S12 / n1 ) 2 ( S 22 / n2 ) 2

n1  1 n2  1
Por lo que se rechaza H₀ si t0  t / 2, n1  n2  2 o t0  t / 2,n1  n2 2

H 0 : 1  2
 Para probar
H1 : 1  2
Se rechaza H₀ si t0  t , n1  n2  2
 Para probar H :   
0 1 2
H1 : 1  2
Se rechaza H₀ si t0  t ,n1  n2  2
Ejemplo
Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un

flujo de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes:
Diseño 1: n₁=15 x1  24.2 s12  10

Diseño 2: n₂=10 x 2  23.9 s22  20
Con   0.10 , se desea determinar si existe alguna diferencia significativa en el flujo de
corriente promedio entre los dos diseños, supongamos que  1   2
2 2
Solución
Los parámetros de interés son los flujos de corriente promedio de los circuitos diseños μ₁ y μ₂
H 0 : 1  2
H1 : 1  2
α=0.10
El estadístico de prueba es T *  x1  x 2 24.2  23.9

0   0.18
2 2
S S 10 20
2
 2 
n1 n2 15 10
2
 10 20 
 S / n1  S / n2 
2 2 2
  
v 2
1 2
2   15 10   2  16.17  16
2 2 2
( S1 / n1 ) ( S2 / n2 ) (20 /15) 2 (20 /10) 2
 
n1  1 n2  1 16 11
t / 2,n 1  t0.05,16  1.746
Puesto -1.746<0.18<1.746 no es posible rechazar H₀ con el nivel de significancia de 0.10. Esto es
no hay evidencia fuerte que indique que el flujo de corriente promedio de los dos diseños sea
diferente.
Prueba de hipótesis para la diferencia de medias pareadas
El procedimiento consiste en tomar dos observaciones de un mismo sujeto, en condiciones

homogéneas. Un ejemplo de observaciones pareadas consiste en considerar a un conjunto de n
personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en
la sangre antes (X) y después del mismo (Y).
No es posible considerar a X e Y como variables independientes ya que va a existir una
dependencia clara entre las dos variables. Cuando se quiere contrastar el que los pacientes han
experimentado o no una mejoría con el tratamiento, simbólicamente di es la diferencia entre las
observaciones antes y después del tratamiento.
di  xi  yi
Suponga que la v.a. que define la diferencia entre el antes y después del tratamiento es una v.a.
que se distribuye normalmente, pero cuyas media y varianza son desconocidas.
Luego se contrasta la hipótesis de que el tratamiento ha producido cierto efecto Δ, es decir

D  1  2 , utilizando la media observada de las diferencias pareadas resultantes.
H 0 : D  0
H1 :  D  0
Debe rechazarse H₀ si el valor calculado del estadístico tobs  t / 2,n 1 o tobs  t / 2, n 1 . Las
alternativas unilaterales se tratan igual que en el caso usual de la prueba de t.
Se desea determinar si existe diferencia en los análisis de los laboratorios.
En este caso, Δ=0, donde las hipótesis nula y alternativa pueden expresarse como sigue:
Para estos datos, el promedio de las diferencias es,
La variancia de la diferencia es:
de modo que,
El valor teórico de la distribución t, con 8 grados de libertad y un nivel de significancia del 5% es ±

2,306. Dado que -2,33 < -2,306, se rechaza H₀. Entonces, se concluye que existe una diferencia en
las mediciones entre los laboratorios, a un nivel de confianza del 95%.
Prueba de hipótesis sobre la varianza
Supóngase que se desea probar la hipótesis de que la varianza de una población normal es igual a
un valor específico por ejemplo  0 . Para probar
2
H 0 :  2   02
H1 :  2   02
se utiliza el estadístico de prueba

(n  1) S 2
X 02 
2
2
Donde S es la varianza muestral
Se rechaza H₀ si 0   / 2,n1 o 02  12 / 2,n1

2 2
Para probar H 0 :  2   02
H1 :  2   02
Se rechaza H₀ si 0   ,n1
2 2
Para probar H 0 :  2   02
H1 :  2   02
Se rechaza H₀ si 0  1 ,n1

2 2
Ejemplo
Considérese el ejemplo anterior de la máquina de llenado de botellas que se tomó una muestra de
20 botellas y con una varianza muestral de s 2  0.0153 . Si la varianza del volumen de llenado es
mayor a 0.01, entonces existe una proporción inaceptable de botellas que serán llenadas con una
cantidad menor de líquido. ¿Existe evidencia en los datos muestrales que suefiera que el
fabricante tiene un problema con el llenado de las botellas? Utilícese   0.05
Solución
Prueba de hipótesis para una proporción
Considérese la prueba
H 0 : p  p0
H1 : p  p0
Se calcula el estadístico de prueba
X  np0
Z
np0 (1  p0 )
Y se rechaza H₀ si Z 0  Z / 2 o Z0  Z / 2
Las regiones críticas para las hipótesis alternativas unilaterales se construyen de la manera usual.
Ejemplo.
Una compañía farmacéutica afirma que un antibiótico tiene 80% de efectividad. Se somete a
prueba una muestra aleatoria de 50 casos de estudio y se obtiene una proporción de 75,7%.
¿Presentan los datos suficiente evidencia para refutar la afirmación de la compañía?. Para este
problema, si se selecciona un nivel de significación α de 0,05.
Las hipótesis nula y alternativa para este problema se pueden expresar
como sigue:
Con los datos se tiene que
Al 95% de confianza el valor teórico Z es -1,645; por tanto, la hipótesis nula no se rechazaría
porque el estadístico de prueba(-0,76) no ha caído en la región de rechazo, o simplemente
comparando los valores absolutos, se observa que 1,645 es mayor 0,76. Se llegaría a la conclusión
de que no hay suficiente evidencia para refutar la afirmación de la compañía.
Prueba de hipótesis sobre dos proporciones
Sean X1 el número de observaciones de la primera muestra que pertenece a la clase de interés y X 2

el número de observaciones en la segunda muestra de la población. De modo que los
X µ X2
estimadores de las proporciones poblacionales µ
p1  1 y p 2  n tienen distribuciones
n 2
aproximadamente normales. Ahora bien, si la hipótesis 1nula H₀:p₁=p₂ es verdadera, entonces al
utilizar el hecho de que p₁=p₂=p, la v.a.
µ
p1  µ p 2  ( p1  p2 )
Z
p1 (1  p1 ) p2 (1  p2 )

n1 n2
tiene una distribución N(0,1) aproximadamente. Un estimador del parámetro común p es
µ  X1  X 2
P
n1  n2
El estadístico de prueba es:
µ
p1  µp2
Z 
µ
p1 (1  µ
p1 ) µp (1  µ
p2 )
 2
n1 n2
Entonces se rechaza H₀ si Z 0  Z / 2 o Z0  Z / 2
Ejemplo. Una planta de energía eléctrica operada con carbón ha considerado dos sistemas
diferentes para reducir la contaminación del aire. El primer sistema redujo la emisión de
contaminantes a niveles de 68% del tiempo, según se determinó de 200 muestras de aire. El
segundo sistema, a niveles de 76% de las veces, según quedó determinado en 250 muestras de
aire. ¿Pruebe la hipótesis de que no hay diferencia entre los sistemas, aun nivel de confianza de
97,5%?.
Las hipótesis nula y alternativa para este problema son:
Para los datos en uso:
El valor teórico de la prueba con dos colas según la distribución normal estándar para una
confianza del 97,5% es ±2,24. Resulta que -1,876 >-2,24, por tanto, se toma la decisión de no
rechazar H0. La conclusión es que no hay pruebas de diferencias entre los sistemas en la reducción
de la contaminación del aire, a un nivel de confianza del 95%.
Ejercicio
Se evalúan dos tipos diferentes de soluciones para pulir, para su posible uso en una operación de
pulido en la fabricación de lentes intraoculares utilizados en el ojo humano después de una cirugía
de cataratas. Se pulen 300 lentes con la primera solución y de estos, 253 no presentaron defectos
inducidos por el pulido. Después se pulen otros 300 lentes con la segunda solución, de los cuales
196 resultan satisfactorios. ¿existe alguna razón para creer que las dos soluciones para pulir son
diferentes? Utilícese α=0.01
Regresión lineal simple y correlación

El análisis de regresión es una técnica estadística para el modelado y la investigación de la relación
entre dos o más variables. Por ejemplo, en un proceso químico, supóngase que el rendimiento del
producto está relacionado con la temperatura de operación del proceso. El análisis de regresión
puede emplearse para construir un modelo que permita predecir el rendimiento para una
temperatura dada. Este modelo también puede utilizaras para la optimización del proceso, tal
como hallar la temperatura que maximiza el rendimiento, o para fines de control.
Supóngase que la verdadera relación entre Y y x es una línea recta y que la observación Y en
cada nivel x es una v.a. es el valor esperado de Y para cada valor de x.
E (Y x)  Y x  0  1 x
donde la ordenada al origen  0 y la pendiente 1 son coeficientes desconocidos de la

regresión. Se supone que cada observación Y puede describirse por el modelo
Y=β₀+ β₁x+ε
Donde ε es un error aleatorio con media 0 y varianza  . Supóngase que se tiene n pares de
2
observaciones ( x1 , y1 ),( x2 , y2 ),...,( xn , yn )
La siguiente figura contiene una representación gráfica de la dispersión de los datos observados y
un candidato para la recta de regresión.
Las estimaciones de β₀ y β₁ deben dar como resultado una línea que se ajuste mejor a los datos. El
científico alemán Karl Gauss propuso estimar los parámetros β₀ y β₁ de modo que se minimice la
suma de los cuadrados de las desviaciones verticales de la figura.
Este criterio para estimar los coeficientes de regresión se conoce como el método de mínimo
cuadrados.
Así que las n observaciones de la muestra como

yi  0  1 xi   i i=1,2,…n.
Y la suma de los cuadrados de las desviaciones de las observaciones con respecto a la recta de
regresión es: n n
L    i2    yi   o  1 xi 
2
i 1 i 1
L
 
n
 2 yi  ¶0  
µx  0
 0
1 i
¶0 , µ i 1
1
L
 
n
 2 yi  
¶  µx x  0
1Estadística
0 1 i i
76 Apuntes de ¶ ,
 0
µ
1
i 1

Después de simplificar las ecuaciones anteriores se obtiene
n n
n ¶0  1 i  yi
µ x 
i 1 i 1
n n n
¶0  xi  µ
1  xi   yi xi
2
i 1 i 1 i 1
Las estimaciones de mínimos cuadrados de la ordenada al origen y la pendiente del modelo de

regresión lineal simple son: ¶ µ
 0  y  1 x
 n  n 
  i    xi 
y
yi xi   i 1   i 1 
n
 n ….(*)
µ i 1
1 2
 n

  xi 
xi   i 1 
n

i 1
2
n
n n
Donde y  (1/ n)  yi
i 1
y x  (1/ n) xi
i 1
Por lo tanto la línea de regresión estimada o ajustada es:
¶ 
y
$ µx
0 1
Nótese que cada par de observaciones satisface la relación

¶ 
yi  
$ µx  e i=1,2,…n
0 1 i i
Donde ei  yi  µ
yi recibe el nombre de residuo. El residuo describe el error en el ajuste del
modelo en la i-ésima observación yi .
Renombrando el numerador y denominar de la ecuación * tenemos

2
 n 
  xi 
S xx  xi   i 1 
n
2
i 1 n
 n  n 
  yi   xi 
S xy   yi xi   i 1  i 1 
n
i 1 n
Ejemplo
En el siguiente ejemplo y es la pureza del del oxígeno producido en proceso de destilación
químico, y x es el porcentaje de hidrocarburos presentes en el condensador principal de la unidad
Número de observación Nivel de hidrocarburo x (%) Pureza (%)
de destilación.
1 0.99 90.1
2 1.02 89.05
3 1.15 91.43
4 1.29 93.74
5 1.46 96.73
6 1.36 94.45
7 .87 87.59
8 1.23 91.77
9 1.55 99.42
10 1.40 93.65
11 1.19 93.54
12 1.15 92.52
13 0.98 90.56
14 1.01 89.54
15 1.11 89.85
16 1.20 90.39
17 1.26 93.25
18 1.32 93.41
19 1.43 94.98
20 0.95 87.33
Solución
n=20,
2
 n 
  xi  (23.92)2
S xx   xi   i 1   29.29 
n
2
 0.68
i 1 n 20
 n  n 
  yi   xi 
S xy   yi xi   i 1  i 1  
n
i 1 n
(23.92)(1843.21)
2214.66   10.18
20
S xy 10.18
µ1    14.97
S xx 0.68
¶0  y  µ
1 x  92.16  (14.97)(1.20)  74.20
¶ 
y
$ µx  74.20  14.97 x
0 1
µ
1  14.97 : el cambio promedio de la pureza de hidrocarburo es de 14.97% cuando el nivel de
hidrocarburo se incrementa en una unidad (1%)
102
100
98
y = 14.947x + 74.283
96
94 Series1
92 Linear (Series1)
90
88
86
0 0.5 1 1.5 2
Ejercicio
Un investigador tiene interés de estudiar la elasticidad de cierto plástico(en grados) como una
función de la temperatura(°F) a la que
se produce. Se preparan diez piezas de plástico utilizando distintas temperaturas y los valores
observados de la elasticidad fueron:
Hacer el diagrama de dispersión y encontrar la ecuación de la recta
El error estándar de la estimación puede calcularse por

n n n
 yi2  0  yi  1  xi yi
Se  i 1 i 1 i 1
n2
 0 : es la intersección de la recta
1 : es el coeficiente de regresión
n: es el tamaño de la muestra
Def: En regresión lineal simple, el error estándar estimada dela pendiente es:
µ
2
µ
Se (  ) 
S xx
Y el error estándar de la ordenada al origen es
Donde
2 1 x$ 
2
¶ µ
Se (  0 )     
 n S xx 
µS
S yy  
µ 
2
1 xy
n2
Prueba de hipótesis en la regresión lineal simple
Para probar hipótesis sobre la pendiente y la ordenada al origen del modelo de regresión, debe
hacerse la hipótesis adicional de que componente de error en el modelo, ε tiene una distribución
normal. Supóngase que se desea probar la hipótesis de que la pendiente es igual a una constante,
por ejemplo,
La hipótesis apropiada son:
H 0 : 1  1,0
H1 : 1  1,0
La estadística que se utiliza es:
µ ¶
1  1,0 µ ¶
1  1,0
T0  
µ
2
 
µ
Se 1
S xx
Sigue una distribución t con n-2 grados de libertad.
Puede rechazarse H₀ si t0  t / 2, n  2 o t0  t / 2, n  2
De manera similar para probar la prueba de hipótesis para la ordenada al origen.

H 0 : 0  0,0
H1 : 0  0,0
Se utiliza ¶0  · 0,0 ¶0  · 0,0

T0  
µ2 1
  
x$ 
2

 
Se ¶0
 n S xx 
Se rechaza H₀ si t0  t / 2, n  2 o t0  t / 2, n  2
La hipótesis nula plantea que la pendiente de la recta es cero contra la hipótesis alternativa que es
diferente. Simbólicamente se denota como,
H0:β=0 (no hay relación lineal)
H1:β≠0 (si hay relación lineal)
La hipótesis nula implica que no existe ninguna relación lineal entre las variables. La hipótesis
alternativa es que existe una relación lineal, positiva o negativa. Podríamos decir, que cuando no
se rechaza, entonces indica que la variable independiente no aporta información para predecir la
variabilidad de Y. Para realizar la prueba se utiliza una estadística t con n-2 grados de libertad
Intervalo de confianza alrededor dela respuesta media
Un intervalo de confianza alrededor de la respuesta media del 100(1-α) por ciento para el valor de
x=x₀,  y x0 está dado por
¶ 
Donde  ¶ 
µx se calcula a partir del modelo de regresión ajustado.
yx 0 1 0

   
  
2 2
1 x0  x x x
        0 
2 1
¶ t
 µ2
¶ t µ

yx  / 2, n  2
n S xx  y x0 yx  / 2, n  2
n S xx 
   
Predicción de nuevas observaciones
Una aplicación importante de un modelo de regresión es la predicción de observaciones nuevas y

futuras de Y. Si x₀ es el valor del regresor de interés, entonces
Yµ ¶ µ
0   0  1 x0
Es el estimador puntual del valor nuevo o futuro de la respuesta Y₀.
El intervalo de confianza para una predicción para una observación futura de 100(1-α) por ciento
y₀ en el valor de x₀, está dada por


x0  x   
  
2 2
x0  x
µ µ 
y0  t / 2,n 2  1  
1
2
  y0  y0  t / 2, n2   
µ µ2 1

 n S xx  n S xx 
   
El valor de µ y se calcula a partir del modelo de regresión
0
Yµ ¶ µ
0   0  1 x0
Análisis de correlación lineal
En las anteriores secciones fueron estudiados los aspectos básicos
de la identificación de la naturaleza de una relación lineal ajustada a un conjunto de datos para

dos variables. Así pues, es necesario definir una medida de la relación entre ellas, y que no esté
afectada por los cambios de unidad de medida.
El coeficiente de correlación lineal posee las siguientes propiedades:

• Es invariante para transformaciones lineales (cambio de origen y escala) de las variables.
• Sólo toma valores comprendidos entre –1 y 1,
• Carece de unidades de medida (adimensional).
• Cuando |r| esté próximo a uno, existe una relación lineal muy
fuerte entre las variables.
• Cuando r≅0, puede afirmarse que no existe relación lineal entre
ambas variables.
Tablas

Apuntes Estadistica

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apuntes Estadistica

Transféré par

Droits d'auteur :

Formats disponibles

1 Apuntes de Estadística

Profesora Homaira Athenea Ramírez Gutiérrez

 Estadística Descriptiva : Es el conjunto de procedimientos utilizados para organizar

 Estadística Inferencial: Es el conjunto de métodos utilizados para obtener conclusiones

La población es el conjunto de datos que es el centro de nuestro interés y el subconjunto de ahí

La estadística es un elemento decisivo en el incremento de la calidad, ya que las técnicas

3. Escala cuantitativa intervalo

4. Escala cuantitativa Racional

 Variable cualitativa: Cuando la variable estudiada es no numérica.

Reglas generales para construcción de distribuciones de frecuencia

Tiempos Conteo Frecuencia Frecuencia Porcentaje

Distribución de frecuencias relativas

Distribución de frecuencia acumulada

Distribución de frecuencia relativa acumulada

salario Número de empleados Frecuencia relativa(%)

Construya para la distribución de frecuencia anterior una distribución de frecuencia acumuladas y

Dist. De frec. Relativas acumuladas

Se buscan números que describan la distribución de frecuencia para cualquier conjunto de

Donde x1,x2,…xn, son las observaciones de la muestra y n es el tamaño de la muestra.

La media de la muestra y la media de la población

Ejemplo: si 5, 8,6 y 2 ocurren con frecuencia 3,2, 4 y 1, en ese orden, su media

(3)(5)  (2)(8)  (4)(6)  (1)(2) 15  16  24  2

Donde: LSR frontera superior real de la clase de la mediana

3.- Aplicar la fórmula con los datos del intervalo mediano

La moda de un conjunto de números es el valor que ocurre con mayor frecuencia

Ejemplo 1: El conjunto 2,2,5,7,9,9,9,10,10,11,12 y 18 tiene moda 9

Ejem2: El conjunto 3,5,8,10,1,15 y 16 carece de moda

Ejem3: El conjunto 2,3,4,4,4,5,5,7,7,7 y 9 cuenta con dos modas 4 y 7 y se le conoce como

La distribución con una sola moda se llama unimodal.

La moda para datos agrupados

Ejemplo: Calcular las modas de las siguientes distribuciones de frecuencia:

Ejemplos: en la serie 2, 3, 5, 6,8, 8 y 19 la media es7.28 y la mediana es 6, si el 19 fuera un error

Ejemplo: A continuación se presentan 20 observaciones en orden del tiempo de falla, en horas, de

Nótese que la mediana es

Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los

Q2 coincide con la mediana.

Cálculo de los cuartiles

1 Ordenamos los datos de menor a mayor.

2 Buscamos el lugar que ocupa cada cuartil mediante la expresión .

Número impar de datos

Número par de datos

Cálculo de los cuartiles para datos agrupados

En primer lugar buscamos la clase donde se encuentra , en la tabla de

Calcular los cuartiles de la distribución de la tabla:

Cálculo del primer cuartil

Cálculo del segundo cuartil

Cálculo del tercer cuartil

Cálculo de los deciles

En primer lugar buscamos la clase donde se encuentra , en la tabla de

Calcular los deciles de la distribución de la tabla:

Cálculo del primer decil

Cálculo del tercer decil

Cálculo del cuarto decil

Cálculo del quinto decil

Cálculo del sexto decil

Cálculo del octavo decil

Cálculo del noveno decil

P50 coincide con la mediana.

Cálculo de los percentiles

Calcular el percentil 35 y 60 de la distribución de la tabla:

el rango da aproximadamente tanta información acerca de la variabilidad de las observaciones

Rango para datos agrupados

Rango = mayor límite superior - menor límite inferior = 49 - 15 = 34