Vous êtes sur la page 1sur 35

INTRODUCCION

¿QUE ES LA ESTADISTICA?
El campo de la estadística tiene que ver con la recopilación, análisis y uso de datos para tomar
decisiones y resolver problemas. En el campo de la ingeniería y la ciencia, la estadística es un elemento
decisivo para describir y comprender la variabilidad.
La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen las observaciones o
debido al sistema de medición utilizado.
El campo de la estadística y la probabilidad consiste en métodos tanto para modelar y describir la
variabilidad , como para tomar decisiones en presencia de ésta.
Existen métodos estadísticos que permiten clasificar la estadística en dos áreas: la estadística descriptiva
y la estadística inferencial. La mayor parte del uso moderno de la estadística, particularmente en la
ciencia y la ingeniería, se dirige más hacia la inferencia que a la descripción.
La computadora se ha convertido en una herramienta importante en la presentación y el análisis de
datos.
La mayor parte del análisis estadístico se realiza utilizando una biblioteca de programas. Los paquetes
estadísticos están disponibles tanto para grandes sistemas como para computadoras personales. Entre
los paquetes más utilizados están SAS (Statistical Analysis System), para grandes sistemas y
Statgraphics para computadoras personales.

ESTADISTICA DESCRIPTIVA:
Permite organizar, sintetizar y analizar la información entregada por los datos. La estadística descriptiva
puede dividirse en dos grandes áreas : métodos numéricos y métodos gráficos.

INFERENCIA ESTADISTICA:
Cuando resulta difícil o muy costoso observar los elementos de una población, es preferible estudiar una
muestra representativa de la misma. Los resultados se tratan de extrapolar a toda la población mediante
la inferencia estadística.

ANALISIS DE REGRESION
Se pretende, mediante un conjunto de técnicas gráficas y analíticas, tratar de encontrar la relación entre
una variable respuesta y una o más variables independientes llamadas variables regresoras. Ello con el
objetivo de describir un conjunto de datos y realizar predicciones a partir del modelo propuesto.

DISEÑO EXPERIMENTAL
Se estudian técnicas para el diseño de experimentos, para probar la robustez del modelo frente al no
cumplimiento de algunas hipótesis y la influencia de la eliminación de algunos factores.
Concepto Básico: ANOVA (o ANDEVA).

Comentario:
La elección de Statgraphics se debe, principalmente, a su sencillez en el manejo y a que cubre todos los
aspectos tratados en la asignatura.

Gonzalo Flores Muñoz Página 1


1. ESTADISTICA DESCRIPTIVA
1.1 Definiciones
POBLACION:
Conjunto de elementos de los cuales interesa estudiar alguna característica común (cualitativa o
cuantitativa). Se refiere a TODOS los elementos del universo con respecto al cual se quieren
obtener conclusiones o tomar decisiones.

MUESTRA:
Subconjunto de elementos de la población.

VARIABLE ESTADISTICA UNIDIMENSIONAL:


Aplicación que asigna a cada elemento de la población un número real.

CAMPO DE LA VARIABLE:
Conjunto de valores que puede tomar la variable estadística.

RECORRIDO o RANGO:
Diferencia entre el mayor valor y el menor.

FRECUENCIA ABSOLUTA (ni):


N° de elementos que poseen la característica Ai.

FRECUENCIA RELATIVA (fi):


Cociente entre la frecuencia absoluta y el tamaño de la población.

FRECUENCIA ABSOLUTA ACUMULADA (Ni):


N° de elementos que poseen la característica Ai o alguna de las anteriores.

FRECUENCIA RELATIVA ACUMULADA (Fi):


Cociente entre la frecuencia relativa acumulada y el tamaño de la población.

DISTRIBUCION DE FRECUENCIAS
Conjunto de valores que toma la variable con sus respectivas frecuencias.

• Sin Agrupar: Se utiliza cuando la variable estadística no puede tomar cualquier valor de un
intervalo y el número diferente de valores no es muy grande, 15 o 20 a lo más (DISCRETAS).
• Agrupadas en intervalos: Se utilizan si el n° de valores distintos en mayor de 20 (DISCRETAS
o CONTINUAS).

PRESENTACION DE LOS DATOS

Para tener una visión resumida de los datos es posible presentar la información obtenida (x1, x2,
...,xn) mediante:

1. Tablas Estadísticas
2. Gráficos Estadísticos

1. TABLAS ESTADISTICAS
Toda Tabla Estadística debe tener un Título que responda a las siguientes interrogantes:

- Qué‚ se representa
- Cómo se representa
- Dónde se obtuvo los datos
- Cuándo se obtuvo los datos

Gonzalo Flores Muñoz Página 2


CONSTRUCCION DE UNA TABLA DE FRECUENCIAS PARA VARIABLES DISCRETAS AGRUPADAS
EN INTERVALOS

En el caso de utilizar intervalos, lo primero es determinar el número de intervalos, este no debe


ser menor de 5 ni mayor de 20. Para ello hay dos criterios generalmente aceptados: n y 1+3.3
log n (el entero más próximo), siendo n el tamaño de la población.
Lo segundo es determinar la amplitud del intervalo que se obtiene dividiendo el rango por el
número de intervalos.
La idea es que el primer intervalo contenga al valor mínimo y el último al valor máximo. La
amplitud de cada intervalo debe ser la misma si la distribución de los datos es homogénea, si no,
debe hacerse intervalos más amplios donde hay menos datos y mas estrechos donde hay más.
Cada intervalo tiene un valor mínimo, un valor máximo y una marca de clase, que generalmente
es el punto medio del intervalo.

CONSTRUCCION DE UNA TABLA DE FRECUENCIAS PARA VARIABLES CONTINUAS

En este caso x I ∈ R , si tenemos una muestra X1, X2, .., Xn entonces procederemos como sigue:
1. Ordenar los datos de menor a mayor y obtener el menor Xmin y el mayor Xmax

2. Determinar el rango o el recorrido R = Xmax - Xmin

3. Dividir el rango en el número adecuado de intervalos; este número fluctúa entre 5 y 20; y de esta
forma obtener la amplitud A. Algunos autores recomiendan tomar un número de intervalos igual al
entero más próximo a 1+3.3 Log N, siendo N el tamaño de la población. Otros utilizan el criterio de la
raíz de N.

N° intervalos = 1 + 3.3 Log N

A = R / N° intervalos, y se debe aproximar al número de decimales de los datos.

4. Los intervalos o categorías se obtienen de la siguiente forma:

Intervalo 1 : [X’min ; X’min + A]


Intervalo 2 : (X’min + A ; X’min + 2A]
.
.
.
Intervalo m : (X’min+(m-1)A ; X’min+mA]

X’min puede ser Xmin u otro valor un poco menor que sea “cómodo”. El intervalo 1 debe contener a
Xmin y el m debe contener a Xmax.

5. Se obtiene un representante de cada intervalo que llamaremos marca de clase:

= (lim inf(i) + lim sup(i))/2 (no se puede aproximar)

6. COMPLETAR LA TABLA; obtener ni, fi, Ni, Fi

2. REPRESENTACIONES GRAFICAS MAS COMUNES

Diagrama de Barras
Se utiliza para representar distribuciones de frecuencia sin agrupar. En el eje de las abcisas se colocan
los distintos valores de la variable, y sobre cada uno de ellos se levanta una línea o una barra
perpendicular de altura proporcional a la frecuencia absoluta.

Gonzalo Flores Muñoz Página 3


Histograma
Se utilizan para representar distribuciones de frecuencias agrupadas en intervalos.
El histograma es un conjunto de rectángulos que tienen como base los intervalos de clase y cuyas áreas
son proporcionales a las frecuencias absolutas.

Diagramas de sectores y de rectángulos


Se utilizan para representar distribuciones de frecuencias de caracteres cualitativos.

EJEMPLO 1
Una importadora trae a Antofagasta un contenedor con 10000 cajas de vasos. Cada caja contiene dos
docenas de vasos. Se toma una muestra de 25 cajas, las cuales se revisan y se cuentan los vasos rotos.
Los resultados se entregan en la siguiente tabla:

CAJA N° VASOS ROTOS


1 3
2 2
3 1
4 0
5 3
6 2
7 1
8 8
9 3
10 3
11 2
12 2
13 1
14 2
15 0
16 3
17 1
18 3
19 4
20 2
21 2
22 1
23 5
24 1
25 0

Se desea estudiar la cantidad de vasos rotos por caja.

RECOPILACION DE LA INFORMACION

1. TOMA DE LA MUESTRA
Tabla anterior

2. IDENTIFICACION DE ELEMENTOS

POBLACION:
Total de cajas en el contenedor.

TAMAÑO DE LA POBLACION:
N = 10.000

MUESTRA:
Las 25 cajas de vasos.

Gonzalo Flores Muñoz Página 4


TAMAÑO DE LA MUESTRA:
n = 25

VARIABLE ESTADISTICA:
Característica en estudio (N° de vasos rotos por caja).

CAMPO DE LA VARIABLE:
{0,1,2,...,24}

3. PRESENTACION DE LOS DATOS

TABLA ESTADISTICA PARA EL EJEMPLO:


(DISTRIBUCION DE FRECUENCIAS)

Frecuencia de cajas de vasos según el número de vasos rotos. Importadora "Los Chinos". Agosto
1997.

i Xi ni fi Ni Fi
1 0 3 3/25 3 3/25
2 1 6 6/25 9 9/25
3 2 7 7/25 16 16/25
4 3 6 6/25 22 22/25
5 4 1 1/25 23 23/25
6 5 1 1/25 24 24/25
7 6 0 0 24 24/25
8 7 0 0 24 24/25
9 8 1 1/25 25 1

TIPO DE DISTRIBUCION:
Sin agrupar (n° de valores que toma la variable < 20)

EJEMPLO 2: Los siguientes datos representan los tiempos de ignición de ciertos materiales de
tapicería expuestos al fuego, dados a la más cercana centésima de segundo.

1. Construya una tabla de frecuencia completa para estos datos.


2. Interprete : n3; f4; N5; F3

Gonzalo Flores Muñoz Página 5


Clasificación de 80 mediciones de tiempos de ignición de material de tapicería (segundos )

2.58 2.51 4.04 6.43 1.58 4.32 2.20 4.19


4.79 6.20 1.52 1.38 3.87 4.54 5.12 5.15
5.50 5.92 4.56 2.46 6.90 1.47 2.11 2.32
6.75 5.84 8.80 7.40 4.72 3.62 2.46 8.75
2.65 7.86 4.71 6.25 9.45 12.80 1.42 1.92
7.60 8.79 5.92 9.65 5.09 4.11 6.37 5.40
11.25 3.90 5.33 8.64 7.41 7.95 10.60 3.81
3.78 3.75 3.10 6.43 1.70 6.40 3.24 1.79
4.90 3.49 6.77 5.62 9.70 5.11 4.50 2.50
5.21 1.76 9.20 1.20 6.85 2.80 7.35 11.75

Tabla Ordenada:

1,20 2,11 3,10 4,11 5,09 5,92 6,85 8,79


1,38 2,20 3,24 4,19 5,11 5,92 6,90 8,80
1,42 2,32 3,49 4,32 5,12 6,20 7,35 9,20
1,47 2,46 3,62 4,50 5,15 6,25 7,40 9,45
1,52 2,46 3,75 4,54 5,21 6,37 7,41 9,65
1,58 2,50 3,78 4,56 5,33 6,40 7,60 9,70
1,70 2,51 3,81 4,71 5,40 6,43 7,86 10,60
1,76 2,58 3,87 4,72 5,50 6,43 7,95 11,25
1,79 2,65 3,90 4,79 5,62 6,75 8,64 11,75
1,92 2,80 4,04 4,90 5,84 6,77 8,75 12,80

Solución:

1. Xmin= 1,20 ; Xmax= 12,80


2. Xmin’=1,00 ; Xmáx’= 13,00
3. R = 12,00
4. N° Int. = 1 + 3,3 Log 80 = 1 + 6,28 = 7,28 ≈ 8
5. A=(12/8)=1,5

TITULO: DISTRIBUCION DE MATERIALES SEGÚN TIEMPO DE IGNICION

i DIAMETROS m.clase ni fi Ni Fi
1 1,00 – 2,50 1,75 16 0,200 16 0,200
2 2,50 – 4,00 3,25 13 0,163 29 0,363
3 4,00 – 5,50 4,75 19 0,237 48 0,600
4 5,50 – 7,00 6,25 14 0,175 62 0,775
5 7,00 – 8,50 7,75 6 0,075 68 0,850
6 8,50 –10,00 9,25 8 0,100 76 0,950
7 10,00 –11,50 10,75 2 0,025 78 0,975
8 11,50 –13,00 12,25 2 0,025 80 1,000
80
Interpretación:

n3 = 19 ; 19 materiales de tapicería tienen un tiempo de ignición entre 4,00 y 5,50 seg.

f4 = 0.175 ; el 17,5% de los materiales tienen un tiempo de ignición entre 5,50 y 7,00 seg.

N5 = 68 ; 68 materiales tienen tiempos de ignición de a lo más 8,50 segundos

F3 = 0,600 ; el 60% de los tiempos son a lo más 5,50 seg.

(Ingresar datos y hacer histograma con Statgraphics)

Gonzalo Flores Muñoz Página 6


1.2 Medidas De Centralización
Del mismo modo que las gráficas pueden mejorar la presentación de los datos, las descripciones
numéricas también tienen gran valor. Una característica importante de un conjunto de números es su
localización o tendencia central, lo que da una idea de los valores de la variable estadística alrededor
de los cuales se agrupa la distribución.

Media Aritmética
Si las observaciones de una muestra de tamaño n son x1,x2,..,xn, entonces la media muestral es

1 n
x = 1/n (x1 + x2 + ... + xn) = ∑x
n i =1 i

Mediana
Es el valor del punto donde la muestra, ordenada en orden creciente, se divide en dos partes iguales. Si
el tamaño de la muestra es impar la mediana es el valor central. Si la muestra es de tamaño par, la
mediana es el promedio de los dos valores centrales.
La ventaja de la mediana es que no está muy influenciada por los valores extremos.

Ejemplo : Analizar media y mediana de : 1,3,4,2,7,6,8 y 1,3,4,2,7,2450, 8

Moda
La moda es la observación que se presenta con mayor frecuencia en la muestra. Puede existir más de
una moda.

Ejemplo : Los datos 3,6,9,6,5,8,3,10,4,6,3,1 son bimodales (dos modas : 3 y 6)

Observaciones :
1. Si los datos son simétricos, entonces la moda y la mediana coinciden. Si, además, son unimodales
(una sola moda), entonces la media, la moda y la mediana coinciden.
2. Si los datos están sesgados (esto es, son asimétricos con una larga cola en uno de los extremos),
entonces la media, la moda y la mediana no coinciden.
3. Generalmente se encuentra moda<mediana<media si la distribución está sesgada hacia la derecha,
mientras que moda>mediana>media si lo está hacia la izquierda.
4. Generalmente se prefiere trabajar con la media por las siguientes propiedades : fácil de entender y
fácil de trabajar con ella, además de que es más estable (no cambia mucho de una muestra a otra).
5. No obstante lo anterior, la mediana y la moda se utilizan mucho como medidas descriptivas de los
datos.

1.3 Cuantiles
La mediana, ya sea de una población o de una muestra, divide los datos en dos partes iguales. También
es posible dividir los datos en más de dos partes. Los puntos de división se conocen como cuantiles. Los
siguientes son los cuantiles más usados :

Cuartiles
Son los puntos que dividen los datos ordenados en cuatro partes iguales. El primer cuartil o
cuartil inferior (lower quartil), q1, es un valor que tiene aproximadamente la cuarta parte (25%) de
las observaciones por debajo de él, y el 75% restante, por encima de él. El segundo cuartil, q2,
tiene aproximadamente la mitad (50%) de las observaciones por debajo de él. El segundo cuartil
es exactamente igual a la mediana. El tercer cuartil o cuartil superior (upper quartil),q3, tiene

Gonzalo Flores Muñoz Página 7


aproximadamente las tres cuartas partes (75%) de las observaciones por debajo de él. Al igual
que en el caso de la mediana, es posible que los cuartiles no sean únicos. Por simplicidad, si más
de una observación satisface la definición de un cuartil, entonces se utiliza el promedio de ellas
como cuartil.

Deciles
Son los puntos que dividen los datos ordenados en diez partes iguales. Se denotan como d1,d2,...,
d9. Entre decil y decil se encuentra aproximadamente el 10% de las observaciones.
El quinto decil, d5, es exactamente igual a la mediana.

Percentiles
Son los puntos que dividen un conjunto ordenado de datos en cien partes iguales. En términos
generales, el k-ésimo percentil, pk, es un valor tal, que al menos el k% de las observaciones están
en el valor o por debajo de él, y al menos el (100-k)% están en el valor o por encima de él.
Nótese que la mediana, Me=q2=d5=p50.
El procedimiento para encontrar el valor de un percentil pk a partir de datos ordenados, es el
siguiente : 1) encontrar el número de la posición i del percentil mediante el cálculo de nk/100. Si
nk/100 no es un entero, entonces i es el siguiente entero más grande. Si nk/100 es entero, i es
igual a nk/100 + 0.5 ; 2) si i es un entero, cuéntese desde la observación más pequeña hasta
hallar el i-ésimo valor. Si i no es entero, entonces contiene una fracción igual a un medio, con lo
que el valor de pk es el promedio de las observaciones ordenadas nk/100 y nk/100 +1.

1.4 Medidas De Variabilidad


Estas medidas dan una idea de la mayor o menor concentración de los datos alrededor de alguna medida
de tendencia central. Una medida de centralización será tanto más representativa de la distribución
cuanto menor sea su medida de dispersión asociada. Se definen :
Recorrido o Rango
Es la diferencia entre el mayor y el menor valor de la variable

Rango intercuartílico
Es la diferencia entre el tercer y el primer cuartil

Varianza
Si x1, x2, ..., xn es una muestra de n observaciones, entonces la varianza muestral es :
n

∑ (x i − x )2
i =1
V=
n
Cuasivarianza
La cuasivarianza se define como :

∑ (xi =1
i − x)2
σ2 =
n −1

Desviación típica
Es la raíz cuadrada positiva de la varianza

Cuasidesviación típica
Es la raíz cuadrada positiva de la cuasivarianza

Gonzalo Flores Muñoz Página 8


Desviación media
Se define como :

n xi − M e
Dm = ∑
i =1 n

Coeficiente de variación de Pearson

Se utiliza cuando se quiere comparar las dispersiones de poblaciones diferentes y se define


como :

σ
CV =
x
Coeficiente de variación media

Dm
CVM =
Me

1.5 Medidas De Asimetría


Una distribución es asimétrica si su gráfica (histograma o diagrama de barras) presenta una cola
hacia la derecha o hacia la izquierda.
Si la cola es a la derecha se dice asimétrica a la derecha y si la cola es a la izquierda se dice asimétrica a
la izquierda.

Coeficiente de asimetría de Fisher (Skewness)

k
( xi − x )3 ni
∑ i =1 N
g1 = 3
σ
Si g1 = 0 , la distribución es simétrica; si g1 > 0 , la distribución es asimétrica a la derecha, y si, g1 < 0, la
distribución es asimétrica a la izquierda.

Coeficiente de asimetría de Pearson

3 ( x − Me )
p =
dt
Si p = 0 , la distribución es simétrica, la mediana y la media coinciden; si p > 0 , la distribución es
asimétrica a la derecha, y si p < 0 es asimétrica a la izquierda.

Gonzalo Flores Muñoz Página 9


DISTRIBUCIONES Y FUNCIONES DE PROBABILIDAD

Definición :
La variable que asocia un número con el resultado de un experimento aleatorio se conoce como
variable aleatoria.
Las v.a. pueden ser de dos tipos : discretas y continuas.

Definición :
Una v.a. discreta es una v.a. con un rango finito (o infinito contable).

Definición:
La función fx(x) = P(X = x) que va del conjunto de los valores posibles de una variable aleatoria
discreta X al intervalo [o,1] recibe el nombre de función de probabilidad.
Para una variable aleatoria X, fx(x) satisface las propiedades siguientes :

1. fx(x) = P(X = x)
2. fx(x) >= 0 para toda x

3. ∑f
x
x (x ) = 1

Ejercicio :
Verificar si la siguiente función es una función de probabilidad y calcular las probabilidades
indicadas.
x
f(x) = (8/7)(1/2) , x = 1, 2, 3

a) P(X <= 1)
b) P(X > 1 )
c) P(X > 2)
Definición
La función de distribución acumulada de una v.a. discreta X, denotada por Fx(x) , es
Fx(x) = P(X <= x) = ∑ fx (x i )
xi ≤ x

Para una v.a. discreta X, Fx(x) satisface las siguientes propiedades :

1. Fx(x) = P(X <= x) =


x
∑ ≤ x
fx (x i )
i

2. 0 <= Fx(x) <= 1


3. Si x <= y , entonces Fx(x) <= Fx(y)
Ejercicio :
Determinar la f.d.a. para la variable aleatoria del ejercicio anterior.

Definición :
La media o valor esperado de una v.a. X, denotada por µx o E(X), es

µx = E(X ) = ∑x
x
fx (x)

Ejercicio :
Determinar la E(X) para la v.a. del ejercicio anterior

Gonzalo Flores Muñoz Página 10


Ejercicio :
Se compara el diseño de dos nuevos productos sobre la base de las ganancias esperadas para
cada uno de ellos. El departamento de mercadotecnia considera que la ganancia del diseño A puede
estimarse, con bastante exactitud, en tres millones de dólares. La ganancia del diseño B es más difícil de
evaluar. El departamento de mercadotecnia concluye que existe una probabilidad 0.3 de que la ganancia
del diseño B sea de siete millones de dólares, pero existe una probabilidad 0.7 de que sea sólo de dos
millones. ¿Qué diseño es el que debe preferirse ?

Definición :
Supóngase que la media de X es , y que la función de probabilidad de X es fx(x). La varianza
de una v.a. X, denotada por V(X), es :

σ x2 = V ( X ) = E( X − µx )2 = ∑( X − µx )2 f x ( X )
x

La varianza de una v.a. aleatoria es semejante a la varianza muestral utilizada en estadística


descriptiva para describir la dispersión de los datos de una muestra.

Ejercicio :
Determinar la varianza de la v.a. de los ejercicios anteriores.

Definición :
La desviación estándar de una v.a. X, denotada por σx , es la raíz cuadrada positiva de

σ x2 .

La desviación estándar de una v.a. tiene unidades idénticas a las de la v.a. y difiere de la
desviación estándar muestral debido al promedio ponderado utilizado para calcular la primera.

Algunas de las funciones de distribución discretas más conocidas son : Bernouilli. Binomial, Uniforme,
Geométrica, Binomial negativa, Hipergeométrica, Poisson.

Tarea :
Estudiar las distribuciones Binomial, Uniforme y Poisson.

Definición :
Una función fx(x) es una función de densidad de probabilidad de una v.a. continua X si para
cualquier intervalos de números reales [x1, x2] si:

1. fx(x) >= 0

2.

− ∞
f x ( x )dx = 1

x 2
3. P(x1 <= X <= x2) =

x
f x (u )d u
1

Ejercicio :
Demuestre que la siguiente función es f.d.p. y calcule las probabilidades pedidas :
2
fx(x) = 1.5x para -1 < x < 1

Gonzalo Flores Muñoz Página 11


a) P(0 < X)
b) P(0.5 < X)
c) P(-0.5 <= X <= 0.5)
d) Calcule el valor de x tal que P(x < X) = 0.05

Ejercicio :
Sea la v.a. X la corriente medida en miliamperes, en un conductor delgado de cobre. Supóngase
que el rango de X es [0,20 mA] y que la f.d.p. de X es fx(x) = 0.05, 0<=x<=20. ¿Cuál es la probabilidad de
que una medición de corriente sea menor que 10 miliamperes ?

Definición :
La función de distribución acumulada de una v.a. continua X es
x

Fx (x ) = P ( X ≤ x ) = ∫ f x (u )du
− ∞

Ejemplo :
Para el ejercicio anterior (miliamperes), la f.d.a. de la v.a. X está formada por tres expresiones. Si
x < 0 entonces fx(x) = 0. Por tanto

Fx(x) = 0, para x<0

Fx ( x ) = ∫0
f x ( u ) d u = 0 . 0 5 x , para 0<= x < 20

Finalmente,
x

Fx(x) = ∫
0
f x ( u ) d u = 1 , para 20<= x

Por consiguiente,
0 x < 0

F x ( x ) =  0 .0 5 x 0 ≤ x ≤ 20
1 20 ≤ x

(¿Cómo sería la gráfica ?)

Observación :
La f.d.p. de una v.a. continua puede obtenerse a partir de la f.d.a. mediante la operación de
derivación. Esto es, dada Fx(x), entonces

dFx ( x )
f x (x ) =
dx
siempre y cuando exista la derivada.

Gonzalo Flores Muñoz Página 12


Definición :
Supóngase que X es una v.a. continua con una f.d.p. fx(x), −∞ < x < ∞.
La media de X, denotada por E(X) o µ x , es


E(X) = µx = ∫
−∞
xf x (x )dx

Definición :
La varianza de X, denotada por V(X) o σ x
2
, es


V(X) = σ = ∫ (x − µ
2
x x )2 f x ( x )dx
−∞

Asimismo, la desviación estándar de X es σ x = [V ( X )]1 / 2

Algunas de las distribuciones continuas más notables son : Uniforme, Normal, Exponencial, Erlang,
Gamma, Weibull

Tarea : Estudiar la distribución normal y el teorema del límite central. (*)

Gonzalo Flores Muñoz Página 13


ESTIMACION PUNTUAL
La inferencia estadística tiene que ver con la toma de decisiones sobre una población, con base a
la información contenida en una muestra aleatoria de ésta. Habrá pues, tres aspectos fundamentales : la
obtención de los datos, el análisis de los mismos para obtener la información que se desee y las
inferencias sobre el modelo.

Obtención de los datos. Técnicas de muestreo


Se pueden distinguir dos formas de obtención de datos sobre una población :

Censo : cuando se estudia a toda la población (costoso, en algunos casos carece de sentido).

Muestra : cuando se estudia sólo una parte de la población (mayor sentido práctico)

Para que las conclusiones que se tomen a partir de una muestra tengan cierta garantía, hay que
cuidar especialmente dos aspectos :

i. El tamaño de la muestra (suficientemente grande para que las estimaciones sean fiables, pero no en
exceso para no depilfarrar recursos)
ii. El modo de elegirla (la técnica de muestreo depende de cómo es la población, por ejemplo, si la
muestra es homogénea, puede ser muestreo aleatoria simple, si no, muestreo estratificado u otro)

Análisis de los datos


Conocidos los datos de una muestra, se necesita algún método o función que permita obtener la
información que se desea. Por ejemplo, si se tienen los datos (x1, x2, ..., xn) y se quiere obtener
información sobre la media de la población, se puede elegir la función :

G(x1, x2, ..., xn) = (x1+ x2 ...+ xn) / n


para estimarla.
La función anterior representa la idea de estadístico.

Definición :
Dada una m.a.s. (X1, X2, ..., Xn), se llama estadístico T a cualquier v.a. definida como una
función de dicha muestra , T = T(X1, X2, ..., Xn).
Cuando un estadístico se utiliza para estimar un valor determinado de un parámetro θ de
una v.a. , se dice que es un estimador de θ .

Como cada muestra es distinta de otra, para cada una de ellas se obtendrá una estimación
distinta, por lo cual un estadístico es también una v.a. y tendrá su propia f.d.p.

La f.d.p. de una estadística se conoce como distribución de muestreo


.
Inferencias sobre el modelo
Básicamente, hay dos tipos de inferencia que pueden realizarse una vez obtenida la muestra:

Inferencia paramétrica
Cuando se supone conocido el modelo de distribución y se desea: estimar los parámetros
del modelo (estimación puntual), estimar intervalos (intervalos de confianza) y realizar pruebas de
hipótesis (contrastes paramétricos).

Inferencia no paramétrica
Pretende verificar si las suposiciones hechas son aceptables con cierto grado de incertidumbre.

En adelante se supondrá que la v.a. X sigue una distribución conocida de la que se desconoce el
valor de alguno de sus parámetros.

Gonzalo Flores Muñoz Página 14


Los problemas de estimación se presentan con gran frecuencia en ingeniería. A menudo es
necesario estimar :

• La media µ de una población

• La varianza σ2 (o la desviación estándar σ ) de una población


• La proporción p de objetos de una población que pertenecen a cierta
clase de interés

• La diferencia entre medias de dos poblaciones µ1 − µ 2

• La diferencia entre proporciones de dos poblaciones p1 - p2

Estimadores razonables para estos parámetros son los siguientes :

• Para µ , el estimador es µ$ = x , la media muestral


• Para σ 2 , el estimador es σ$ 2 = s 2 , la varianza muestral

• $ = x / n , la proporción muestral, donde x es el número de objetos en una


Para p, el estimador es p
muestra aleatoria de tamaño n que pertenece a la clase de interés
• De la misma manera, para la diferencia de medias y de proporciones, el estimador es la diferencia de
medias y de proporciones muestrales, respectivamente, calculadas a partir de dos m.a.
independientes.

Pueden tenerse varias opciones para el estimador puntual de un parámetro. Por ejemplo, si se
desea estimar la media de una población, pueden considerarse como estimadores puntuales la media
muestral, la mediana muestral, o quizás el promedio de las observaciones más grande y más pequeña,
entre otros. Para decidir cual es el mejor estimador puntual para un parámetro en particular, es necesario
examinar las propiedades estadísticas de éstos y utilizar criterios de comparación de estimadores.

Propiedades deseables de un estimador

• Un estimador debe ser insesgado , esto es, que sea “próximo” en algún sentido al valor verdadero del
parámetro desconocido. De manera formal en estimador Θ $ es insesgado si el valor esperado de Θ $
es igual a θ .
• Un estimador debe ser consistente, esto es, que a medida que el tamaño de la muestra aumenta,
nos aproximamos cada vez más al verdadero valor del parámetro.
• Un estimador debe ser de varianza mínima, esto es, debe ser el estimador de menor varianza entre
los estimadores insesgados de θ .
• Un estimador debe ser suficiente, esto es, que recoja toda la información que aporta la muestra para
estimar el parámetro.

ESTIMACIÓN DE INTERVALOS (INTERVALOS DE CONFIANZA)

Anteriormente, se han visto las formas de obtención de estimadores puntuales, las propiedades de los
mismos y las diferentes distribuciones en el muestreo. Al ser prácticamente imposible que el valor
obtenido para el estimador coincida con el valor del parámetro estimado, lo que interesa en la práctica es
dar no solamente el valor de la estimación, sino acompañar este de un intervalo en el que con cierta
confianza se pueda afirmar que se encuentra su verdadero valor. El intervalo estimado recibe el nombre
de intervalo de confianza.

Una estimación por intervalos de un parámetro desconocido θ es un intervalo de la forma l ≤θ ≤ u,


donde los puntos extremos l y u dependen del valor numérico de la estadística θ $ para una muestra en

Gonzalo Flores Muñoz Página 15


particular, y de la distribución de muestreo. Puesto que muestras diferentes producen valores distintos de
θ $ y, en consecuencia, valores diferentes de los puntos extremos l y u estos puntos son valores de
variables aleatorias, por ejemplo, L y U, respectivamente. De la distribución de muestreo de θ $ es
posible determinar los valores de L y U tales que la siguiente proposición de probabilidades es
verdadera :

P(L ≤ θ ≤ U ) = 1 − α
donde 0< α <1. Por tanto se tiene una probabilidad de 1- α de seleccionar una muestra que
produzca un intervalo que contiene el verdadero valor de θ .
El intervalo resultante

l≤θ ≤ u
se conoce como intervalo de confianza del 100(1- α ) por ciento para el parámetro desconocido
θ . Los valores l y u reciben el nombre de límites de confianza inferior y superior, respectivamente
y 1- α es el coeficiente de confianza.

La interpretación de un intervalo de confianza es que, si se recopila un número infinito de


muestras aleatorias y se calcula un intervalo de confianza del 100(1- α ) por ciento para θ , para
cada una de las muestras, entonces el 100(1- α ) por ciento de esos intervalos contienen el verdadero
valor de θ .

En la práctica se obtiene una sola muestra aleatoria y se calcula el intervalo de confianza. Puesto que
ese intervalo puede o no contener el verdadero valor de θ , no es razonable asociar un nivel de
probabilidad a ese evento específico. La proposición adecuada es que el intervalo observado [l,u]
contiene el verdadero valor de θ con una confianza de 100(1- α ) por ciento. Esta proposición tiene
una interpretación de frecuencia ; esto es, no se sabe si es correcta para la muestra en particular, pero el
método utilizado para obtener el intervalo [l,u] proporciona proposiciones correctas el 100(1- α ) por
ciento de las veces.

La longitud u - l del intervalo de confianza observado es una medida importante de la calidad de la


información obtenida de la muestra. El semi-intervalo θ - l ó u - θ se conoce como precisión del
estimador.

Entre más grande sea el intervalo de confianza, mayor es la seguridad de que el intervalo en realidad
contenga el valor verdadero de θ . Por otra parte entre más grande sea el intervalo menor información
se tiene acerca del valor verdadero de θ . En una situación ideal, se tiene un intervalo relativamente
pequeño con una confianza grande.

En general, para la construcción de un intervalo de confianza para un parámetro desconocido θ ,


se realizan los siguientes pasos :

1. Se elige un estadístico T = f (θ , X i ) cuya distribución, dependiente del parámetro y de la muestra,


sea conocida.
2. Se fija el nivel de significación α
3. Se obtienen los valores de a y b tales que :

P(a < T < b) = 1 − α


(estos valores se buscan en tablas de la distribución apropiada o bien se utiliza Statgraphics con esta
finalidad).
4. Por último, se hacen las operaciones precisas para despejar θ y se llega al intervalo.

Gonzalo Flores Muñoz Página 16


Ejemplo :
Intervalo de confianza para media µ de una población normal con varianza desconocida.

El estadístico base de la media poblacional es la media muestral, en este caso se sabe que:

( X − µ ) n ~ tn-1
T =
s

Fijado el nivel de significación α , se plantea la elección de a y b tal como indica el paso 3.

t
Se puede demostrar que los intervalos de amplitud mínima se obtienen cuando a=b= α , con lo que la

obtención de las constantes se reduce a la búsqueda de este α , que verifica: t

t t
P(- α <tn-1< α )=1- α

El valor de tα se obtiene a partir de las tablas de la distribución t de Student o bien utilizando


Statgraphics con esta finalidad.

Despejando a continuación el parámetro desconocido, µ , de la expresión

(X − µ ) n
P ( − tα < < tα ) = 1 − α
s
se obtiene

 S S 
 X − tα , X + tα 
 n n 

Intervalo de confianza para la media µ de una población normal con varianza desconocida.

Gonzalo Flores Muñoz Página 17


PRUEBA O CONTRASTE DE HIPOTESIS

Introducción

Anteriormente se ha analizado como estimar un parámetro a partir de los datos contenidos en una
muestra. Puede encontrarse ya sea un solo número (estimación puntual) o un intervalo de valores
posibles (intervalo de confianza). Sin embargo muchos problemas de ingeniería, ciencia y administración,
requieren que se tome una decisión entre aceptar o rechazar una proposición sobre algún parámetro.
Esta proposición recibe el nombre de hipótesis , y el procedimiento de toma de decisión sobre la
hipótesis se conoce como prueba de hipótesis. Este es uno de los aspectos más útiles de la inferencia
estadística, puesto que muchos problemas de toma de decisiones, pruebas o experimentos en el mundo
de la ingeniería, pueden formularse como problemas de prueba de hipótesis. Por ejemplo, puede
aplicarse este enfoque a problemas como : estudiar si una máquina produce piezas de acuerdo con sus
especificaciones, estudiar si el consumo de tabaco es un factor de riesgo para las enfermedades
coronarias, estudiar si un nuevo medicamento es más efectivo que el utilizado actualmente, etc.

Elementos de un contraste

Para formular prueba de hipótesis, se manejan los siguientes conceptos :


• Hipótesis nula e hipótesis alternativa
• Criterio de rechazo
• Medidas de la bondad de un contraste

Hipótesis nula e hipótesis alternativa

Se llama hipótesis nula (Ho) a la hipótesis que se desea probar. Esta hipótesis se aceptará mientras
que los datos muestrales no reflejen claramente que es más verosímil otra hipótesis denominada
hipótesis alternativa (H1).
En el estudio de la prueba de hipótesis, la hipótesis nula siempre se plantea de modo que especifique un
valor exacto del parámetro (hipótesis simple).

La hipótesis alternativa permite que el parámetro tome varios valores (hipótesis compuesta). En las
hipótesis compuestas, las más comunes son las unilaterales (del tipo θ > θ 0 ; θ < θ 0 ) y las
bilaterales ( θ ≠ θ0 ).
La prueba de hipótesis involucra la toma de una muestra aleatoria, el cálculo de un estadístico de
prueba a partir de los datos muestrales, y luego el uso de este estadístico para tomar una decisión sobre
la hipótesis nula.

Criterio de rechazo

Una vez planteadas las hipótesis se ha de determinar el criterio a seguir para aceptar o rechazar Ho a
partir de la información que aporta la muestra.
La idea es elegir un estadístico para obtener la información que da la muestra sobre el parámetro, y
determinar para qué valores del mismo se considera aceptable Ho (región de aceptación, RA), o para
que valores se rechaza (región de crítica, RC).
Las fronteras entre las regiones crítica y de aceptación reciben el nombre de valores críticos.
Como conclusión, la decisión es rechazar Ho en favor de H1 si el estadístico de prueba cae en la región
critica, de lo contrario, se acepta Ho.

Medidas de bondad de un contraste

Para evaluar la bondad de una prueba, hay que tener en cuenta que al elegir un determinado criterio de
rechazo se asumen dos tipos de riesgos o posibles errores :
• Error de tipo I : rechazar Ho siendo cierta
• Error de tipo II : aceptar Ho siendo cierta H1

Gonzalo Flores Muñoz Página 18


La probabilidad de cometer un error de tipo I se denomina nivel de significación y se denota con la
letra griega α . Para calcular α , es preciso conocer la distribución del estimador utilizado en el criterio
de rechazo.
La probabilidad de cometer un error de tipo II se denota como β .
El contraste ideal sería aquel en el que tanto α como β sean lo menor posible. Sin embargo, si se varía
un criterio de rechazo para disminuir α , entonces aumenta β , y viceversa. La única forma de disminuir
ambos a la vez será incrementar el tamaño de la muestra.

En general, el rechazo de Ho siempre puede considerarse como una conclusión fuerte, no así su
aceptación, que se considera una conclusión débil, por lo cual se prefiere decir “no se rechaza Ho” en
vez de “se acepta Ho”. La incapacidad de rechazar Ho implica que no se ha encontrado evidencia
suficiente para rechazar Ho, esto es, para hacer una proposición fuerte. La incapacidad de rechazar Ho
no significa necesariamente que exista una probabilidad grande de que Ho sea cierta. Esto significa
simplemente que se necesitan más datos para alcanzar una conclusión fuerte.

Procedimiento general para la prueba de hipótesis


1. Del contexto del problema, identificar el parámetro de interés
2. Establecer la hipótesis nula Ho
3. Especificar una apropiada hipótesis alternativa H1
4. Seleccionar un nivel de significación α
5. Establecer un estadístico de prueba apropiado
6. Establecer la región de rechazo para el estadístico
7. Calcular el valor correspondiente al estadístico de prueba
8. Decidir si debe o no rechazarse Ho y notificar esto en el contexto del problema

Algunas limitaciones de esta metodología


• No permite evaluar la confianza con que se acepta que θ = θ0 o con la que se rechaza.
• Una pequeña variación en el nivel de significación α puede variar el resultado del contraste
• Cuando se rechaza Ho conviene estimar el valor más adecuado para el parámetro y estudiar si su
diferencia es significativa en términos reales.

Uso de p-valores en pruebas de hipótesis

Cuando en una prueba de hipótesis una leve variación de alfa hace cambiar el resultado de la prueba,
significa que la hipótesis aceptada o rechazada no es muy consistente, sin embargo, si hay que modificar
mucho su valor para cambiar el resultado obtenido, entonces hay buena evidencia de que la hipótesis
aceptada es consistente.
Esta idea permite evaluar en cierta forma el grado de confianza con que se acepta o rechaza una
hipótesis.
Se define el p-valor de un contraste como el mínimo nivel de significación para el que, con los datos de
una muestra concreta, se tendría que rechazar Ho. STATGRAPHICS lo presenta como Significance
Level, ya que puede ser considerado como el nivel de significación alcanzado por esa muestra
concreta.
¿Cómo se interpreta el p-valor de un contraste ?
En general, cuanto más próximo sea p a 1, mayor evidencia hará para aceptar Ho, mientras que
cuanto más cercano sea a 0, con mayor confianza se rechazará Ho. Puede considerarse que si p>0.25
no hay evidencia suficiente para rechazar Ho ; si p<0.05 se rechaza Ho, y si 0.05<p<0.25, habrá que
considerar las consecuencias prácticas de aceptar o rechazar la hipótesis.
Si se ha fijado de antemano alfa, se aceptará Ho si p> α , y se rechazará si p< α .
Los paquetes estadísticos no calculan la región de rechazo, sólo calculan el p-valor (significance
level) y deciden en función del α dado.

Gonzalo Flores Muñoz Página 19


Ejemplos :

1. Se analizan dos catalizadores para determinar la forma en que afectan el rendimiento promedio de un
proceso químico. De manera específica, el catalizador 1 es el que se está empleando en este
momento, pero el catalizador 2 también es aceptable. Debido a que el catalizador 2 es más
económico, este puede emplearse siempre y cuando no cambie el rendimiento del proceso. Se hace
una prueba en una plante piloto ; los resultados obtenidos son los que se muestran en la tabla.
Catalizador 1 91.50 94.18 92.18 95.39 91.79 89.07 94.72 89.21
Catalizador 2 89.19 90.95 90.46 93.21 97.19 97.04 91.07 92.75

Probar la hipótesis que el catalizador 1 1 tiene una media de 90. Probar la


alternativa que la media es mayor. ¿Qué se puede concluir ?
¿Existe alguna diferencia entre los rendimientos promedio ? Utilice α = 0.05 .

(Vamos a Statgraphics)
Resultados :
1. Ho : Mean = 90 Computed t statistic = 2.67424
vs Alt : NE Sig. level = 0.0313088
at Alpha = 0.05 So reject Ho

En este caso el Sig. Level (p-valor) es bajo comparado con α . Se rechaza Ho. Significa que el
catalizador 1 está entregando una media distinta de 90, con un nivel de significancia de 0.05.

2. Ho : Mean = 90 Computed t statistic = 2.67424


vs Alt : GT Sig. Level = 0.015919
at Alpha = 0.05 so reject Ho

En este caso el Sig. Level = 0.015919 es menor que α , lo que significa que está a favor de H1, es
decir, hay fuerte evidencia de que la media es MAYOR que 90.

3. Ho : Diff = 0 Computed t statistic = -0.353591


vs Alt : NE Sig. Level = 0.728914
at Alpha = 0.05 so do not reject Ho

Dado que Sig. Level = 0.728914 es mayor que α = 0.05 , no es posible rechazar la hipótesis nula, es
decir, con un nivel de significancia 0.05, no se tiene evidencia fuerte que permita concluir que el
catalizador 2 dará como resultado un rendimiento promedio diferente del obtenido con el catalizador 1.

Comentario : Cuando se rechaza la hipótesis nula, es decir, cuando se tiene evidencia que la hipótesis
alternativa debe aceptarse, hay que tener cuidado con las variabilidades, ya que pudiera ser que la
aceptación de la hipótesis alternativa está “disfrazada” debido a la diferencia de variabilidad. En este caso
conviene recurrir a la prueba de razón de varianzas y estimar un intervalo de confianza ; si el 1 está
contenido hay razón para suponer que las varianzas son relativamente iguales y por lo tanto el rechazo
de Ho es aceptable.

Tarea : Realizar los ejercicios anteriores utilizando el estadístico de prueba y las tablas
adecuadas.

Gonzalo Flores Muñoz Página 20


CONTRASTES NO PARAMETRICOS

En inferencia paramétrica (intervalos de confianza, pruebas de hipótesis) para estudiar, por ejemplo, si la
media es igual a un cierto valor o para estudiar igualdad de medias de dos poblaciones, que se dan por
supuestas algunas condiciones sobre la distribución de las poblaciones: normalidad, independencia,
aleatoriedad de las muestras, etc.
El objeto de los denominados contrastes no paramétricos, es estudiar si son aceptables o no dichas
hipótesis. Es decir, las hipótesis podrán ratificarse o nó mediante determinadas técnicas de contraste.

En general si se tiene alguna sospecha de que los datos (a través del histograma de frecuencias por
ejemplo), pertenecen a alguna familia de distribuciones conocida, Normal, Poisson, Binomial, etc., existen
métodos estadísticos que permiten verificar estas conjeturas, denominados Test de Bondad de Ajuste.
También hay otros tests como el test de normalidad, el test de rachas y otros.

Los más conocidos son el test de bondad de ajuste Chi-Cuadrado que sirve para ajustar funciones
discretas y continuas y que requiere de un tamaño de muestra mayor que 30, y el test de bondad de
ajuste de Kolmogorov-Smirnov (K-S) que es útil para distribuciones continuas conocidas.

METODO GENERAL PARA CONTRASTAR LA VALIDEZ DE UN MODELO

El método general se basa en elegir un estadístico, D*, que mida las diferencias entre los valores
observados en la muestra y los valores esperados o teóricos, suponiendo verdadera la distribución que
se supone tiene la población.

En este caso la hipótesis nula será de la forma 0


H : X ≈ F ( Θ ) , donde X es una v.a. y F (Θ ) un
determinado modelo de distribución que dependerá del parámetro (o parámetros) Θ . En este tipo de
contrastes la hipótesis alternativa es que X no sigue el modelo supuesto.

El método general es el siguiente:

1. Elección del estadístico D*


2. Elección del nivel de significación α
3. Cálculo de la región crítica, RC, tal que P( D* ∈ RC / H 0 ) = α

El criterio de rechazo suele ser si D*>K (se rechaza cuando las diferencias son excesivamente
grande).

También puede interpretarse como:

Ho : D = 0
Ha : D > 0

Donde D es la medida de la discrepancia entre lo observado y lo esperado.

También se define el p-valor para contrastes no paramétricos de la misma forma que para contrastes
paramétricos, es decir, es el mínimo nivel de significación α para el que, con los datos obtenidos en la
muestra, se tendría que rechazar Ho.

Este test se recomienda para modelos discretos. Para modelos continuos, el p-valor depende mucho de
la elección de las clases. En estos casos, se recomienda utilizar el test de Kolmogorov-Smirnov.

Este test se basa en la comparación de funciones de distribución. Se usa para funciones continuas. Es
más conveniente que el test chi-cuadrado y tiene la ventaja de que se puede aplicar con muestras
pequeñas.

El método es el siguiente:

Gonzalo Flores Muñoz Página 21


1. Se ordenan en orden creciente los valores de la muestra
2. Se calcula la función de distribución empírica
3. Se calcula el valor del estadístico Dn ( xi ) = max( Fn ( x) − F ( x) )
4. Fijado el nivel de significación α , se busca el valor Dn ,α . Si Dn > Dn ,α se rechaza Ho.

Para calcular Dn, se calcula para cada valor

Ejemplo test chi cuadrado:

Se quiere contrastar si el número de llamadas que recibe una centralita telefónica en una determinada
hora, sigue una distribución de Poisson.
Se toma una muestra de las llamadas recibidas en 100 días a esa determinada hora . Se obtienen los
siguientes datos:

Nº 0 1 2 3 4 5 6 7 8
llamadas
Frecuencia 2 13 18 23 22 16 3 2 1

A partir de estos datos se construye la siguiente tabla, donde las clases adyacentes con frecuencia
menor que 5 deben juntarse:

Número de llamadas Frecuencias Prob. Supuesta Ho cierta Frecuencia esperada


(clases) observadas (ni) i (pi) (npi)
{0,1} 15 1 0.1635 16.35
2 18 2 0.2040 20.40
3 23 3 0.2217 22.17
4 22 4 0.1807 18.07
5 16 5 0.1178 11.78
>=6 6 6 0.1124 11.24

x = 3.26 λ~ x
Ho: X ~ Ρ ( λ=3.26)

P1 = P (X=0) + P (X=1) = 0.0383884+ 0.125146 = 0.1635


P2 = P (X=2) = 0.2040
Etc.

El estadístico de prueba se calcula de la siguiente forma:


k
( n i − np i ) 2
D* = ∑ , el cual se distribuye χ k2 − r − 1 , donde:
i =1 np i
k : número de clases agrupadas
r : número de parámetros que se hayan tenido que estimar

luego, k – r – 1 = 6 – 1 – 1 = 4 grados de libertad.

La región crítica o región de rechazo es:

*
RC : D > χ k2− r − 1 ,α

*
D = 5.234

Gonzalo Flores Muñoz Página 22


χ 42, 0 . 05 = 9.49

*
Como D < χ 42, 0 . 05 (5.234 < 9.49), no hay evidencia para rechazar que la v.a. siga una distribución de
Poisson, con un nivel de significancia del 5%.

Otra forma de determinarlo, es calculando el p-valor del contraste y comparándolo con el nivel de
significancia α (Statgraphics: p-valor = 0.41365 no es menor que α = 0.05, por lo tanto la misma
conclusión).

Ejemplo test K-S:

Se quiere contrastar si los datos corresponden a una N(0,1)

-1.016 -0.869 -0.465 -0.238 0.056 0.12 0.417 0.561

Existen varias formas de realizar esta prueba, analíticas y gráficas. Lo más sencillo es ingresar los datos
a Statgraphics y aplicar el test K-S (por ser distribución continua) o el test de normalidad.

Por ninguno de estos tests se puede rechazar la hipótesis nula de que los datos entregados siguen una
distribución normal.

Tarea: Comprobarlo

Gonzalo Flores Muñoz Página 23


ANALISIS DE LA VARIANZA
En la estimación de parámetros y contrastes de hipótesis se estudió, por ejemplo, la comparación entre
medias de dos poblaciones. Con esta herramientas se puede decidir, por ejemplo, si la dureza de un
metal templado con cierto tipo de aceite es mayor que la dureza obtenida con otro tipo.
Este problema es un caso particular del estudio de la influencia de un factor o variable explicativa, el tipo
de aceite en la dureza del templado. Para el factor en estudio sólo se han considerado dos niveles
aceite tipo 1 y tipo2. Si se quieren estudiar más niveles, por ejemplo un aceite tipo 3, o bien la influencia
conjunta de dos o más factores, por ejemplo tipo de aceite y temperatura, en una variable respuesta no
se pueden utilizar las técnicas anteriores. El procedimiento a utilizar es el análisis de la varianza
(ANOVA).
A primera vista podría parecer posible abordar estos problemas con las técnicas de regresión anteriores.
Sin embargo, en regresión, las variables explicativas o factores tienen que ser cuantitativas, mientras que
en análisis de la varianza suelen ser cualitativas, como por ejemplo, el tipo de aceite. Además, los
distintos niveles de los factores son generalmente controlables por el experimentador y no pueden tomar
cualquier valor, mientras que en los modelos de regresión suelen ser no controlables.
Estas formas de análisis que permiten la influencia del experimentador en el mejoramiento de los
procesos y diseño de las experiencias se denominan técnicas de diseño experimental.

Las técnicas de diseño experimental basadas en la estadística son particularmente útiles en el mundo de
la ingeniería. Los resultados de estos experimentos pueden conducir a:

1. Mejorar el rendimiento del proceso


2. Reducir la variabilidad del proceso y acercarlo a los requerimientos nominales
3. Disminución del tiempo de diseño y desarrollo
4. Disminución del costo de operación

Algunas aplicaciones representativas de los experimentos diseñados de manera estadística en la


ingeniería de diseño son:

1. Evaluación y comparación de configuraciones de diseño básicas


2. Evaluación de diferentes materiales
3. Selección de parámetros para obtener diseño robusto (que funcione bien bajo una gama amplia
de condiciones)
4. Determinación de los parámetros más importantes que impactan sobre el funcionamiento del
producto

Todo lo anterior está basado en los ANálisis DE VArianza (ANDEVA o ANOVA por su nombre en inglés).
Los conceptos básicos de ANOVA se introducen con el modelo de un factor con varios niveles. Se
contrasta si se producen los mismos resultados de la variable respuesta para los distintos niveles del
factor, y en caso de no ser así, se comparan las medias correspondientes a los distintos niveles del
factor.

ANOVA CON UN FACTOR


El propósito del análisis de varianza con un factor es estudiar el efecto de la aplicación de varios
niveles de un factor en una variable respuesta. Para ello se comparan las medias observadas en las
muestras correspondientes a los distintos niveles del factor. Si están próximas, las diferencias se
atribuyen al azar. En caso contrario, se concluye que los efectos de los tratamientos o niveles son
significativos. El contraste de hipótesis se basa en la comparación de dos estimaciones de la varianza y
de ahí procede el nombre de esta técnica.

Notación:

k : n° de niveles del factor

ni : tamaño de la m.a.s. del nivel i-ésimo

Gonzalo Flores Muñoz Página 24


yij : observación j-ésima de la variable respuesta correspondiente al nivel i-ésimo (i=1, 2, ..., k; j= 1,
2, ...,ni)

n= ∑
i =1
ni : número total de observaciones

µ i : valor medio de la variable respuesta correspondiente al nivel


i-ésimo del factor

Fijado un nivel i, las diferencias entre los valores observados dentro de ese nivel, yij , y su media µi,
son el resultado de múltiples factores no controlados que se denominan efectos residuales o errores
residuales eij . Por tanto,

yij = µ i + eij

Para el análisis de los datos se adopta la hipótesis de que los errores residuales, eij , son independientes
y siguen la misma distribución N(0, σ ). Esto equivale a decir que la distribución de cada observación Yij
es N( µ i , σ ).

Contraste de igualdad de medias

Se trata de probar si las diferencias observadas n los distintos niveles se deben a que alguno (o todos)
tiene influencia en la variable respuesta o si se deben al azar. La hip{otesis nula es que las diferencias
son debidas al azar, es decir:

Ho : µ1 = µ 2 =...= µk
H1: Alguna diferencia existe

Los resultados se ordenan en una tabla como la siguiente:

Variable respuesta Observaciones Media Muestral Media


Poblacional
Nivel 1 Y1 y11 ... y1n1 y1 µ1
Nivel 2 Y2 y21 ... y2n2 y2
. . . . µ2
. . . . .
. . . .
Nivel k Yk yk1 ... yknk yk µk
2
El contrate se basa en la comparación de dos estimaciones independientes de la varianza común σ .
Para ello se descompone la variabilidad total de los datos en dos componentes: una que refleja la
variación dentro del nivel y la otra que refleja la variación entre los niveles.
En caso de que Ho sea cierta, la segunda componente es cero, no obstante que se observarán
diferencias en las medias de los distintos niveles. Hay que probar mediante el contraste que esas
diferencias se deben al azar.
En caso de rechazar Ho, se considera que las diferencias se deben a la influencia de los distintos niveles.

El procedimiento práctico, como en todos los test, es el siguiente:

Fijado un nivel de significación α , se busca en la tabla Fk −1,n−k ,un valor k tal que P(F > k) = α .

Gonzalo Flores Muñoz Página 25


Se calcula el cuociente Se2 / Sr2 . Si es mayor que k, se rechaza Ho y en caso contrario se acepta.

Observación:
Se puede demostrar que Se2 / Sr2 ~ Fk −1,n−k , donde

SCE SCD
Se2 = , Sr2 =
(k −1)σ 2 (n − k)σ 2
y

k
SCE= ∑ni ( yi − y)2 : Suma de cuadrados entre los niveles
i=1

k ni
SCD= ∑ ∑( y ij − yi )2 : Suma de cuadrados dentro de los niveles
i=1 j=1

STC = SCE + SCD : Suma de cuadrados total

k ni
STC= ∑ ∑( y ij − y)2
i=1 j=1

Análisis de las diferencias de medias


Si se rechaza Ho, se concluye que alguna diferencia existe, pero no se sabe donde. La solución es
comparar las parejas de las cuales se tenga alguna sospecha de que pueden ser las causantes de las
diferencias (tal vez todas). Esta comparación puede hacerse mediante intervalos de confianza o prueba
de hipótesis para la diferencia de medias.
La diferencia con el método usual, es que debe estimarse σ a través de
2
Sr2 ( que contiene los datos de
toda la muestra) y no solamente de los datos de la pareja en estudio.

Para el cálculo del intervalo de confianza y para el contraste de hipótesis se utiliza los mismos
estadísticos conocidos, haciendo la salvedad del estimador de la varianza.

Comparaciones múltiples
Existen varios métodos de comparaciones múltiples, entre los más conocidos están : el test de Tukey, el
test de Scheffe, el test LSD, el test de Bonferroni, el test de Duncan y otros. Todos ellos utilizan
estadísticos de prueba en que se considera la influencia de todas las observaciones y no solamente de
los pares en estudio. Además, entregan p-valores los que se contrastan con el nivel de significación alfa y
se utilizan los criterios clásicos para aceptar o rechazar.

Gonzalo Flores Muñoz Página 26


Ejemplo:

Se mide la temperatura de una mezcla con 4 termómetros obteniéndose los siguientes datos:

Termómetros Observaciones
1 63, 63, 62, 65, 66, 63
2 64, 64, 63, 64, 65
3 58, 59, 59, 68
4 61, 61, 62, 60, 63

ANALISIS DE LA VARIANZA PARA DOS O MAS FACTORES

Un experimento es sólo una prueba o una serie de pruebas. En todas las disciplinas científicas y en
ingeniería se realizan experimentos, y son una parte importante en el aprendizaje de la forma en que
trabajan los sistemas y los procesos. La validez de las conclusiones que se obtienen de un experimento
depende en gran medida de la manera en que éste se efectúe. Por tanto el diseño del experimento tiene
un papel importante en la solución eventual del problema que lo motivó.
En el medio de la ingeniería, las aplicaciones el diseño experimental son numerosas. Algunas áreas de
uso potencial son:

• Detección de fallas en procesos


• Desarrollo y optimización de procesos
• Evaluación de materiales y alternativas
• Confiabilidad y pruebas de duración
• Pruebas de rendimiento
• Configuración del diseño de productos
• Determinación de la tolerancia de los componentes

Los métodos de diseño experimental permiten resolver estos problemas de manera eficiente durante las
primeras etapas del ciclo del producto. Esto ofrece la ventaja de reducir de manera notable tanto el costo
total del producto como el tiempo de desarrollo.

Se estudiará un modelo con dos factores con interacción entre ellos. Las mismas ideas son aplicables a
modelos con más facores, aunque se complican los cálculos. Statgraphics permite incluir hasta 10
factores con interacciones conjuntas de hasta tres factores.

MODELO CON DOS FACTORES E INTERACCION

yijk = µ + αi + β j + Iij + eijk i=1...n ; j=1...r ; k=1...s


donde:
yijk : Es el valor k-ésimo de la variable respuesta dentro del nivel i
del factor A y del nivel j del factor B
µ : Es la media global
αi : Mide el efecto del nivel i del factor A
βj : Mide el efecto del nivel j del factor B
I ij :Mide la interacción entre los factores A y B; es decir, la
diferencia entre el valor observado y el previsto con un
modelo que supone efectos aditivos de los factores
eijk : Es el error o efecto residual. Se adopta la hipótesis de que estos errores son independientes y
se distribuyen N (0, σ )

Gonzalo Flores Muñoz Página 27


Los parámetros αi , β j e I ij miden los efectos diferenciales respecto a la media global µ ; es decir,
miden los incrementos (positivos o negativos) sobre la media global producido por cada uno de los
niveles de los factores y por la interacción. Por tanto se deben compensar los efectos de unos niveles con
los de otros, esto es:

n r n r

∑αi =∑β j = ∑Iij = ∑Iij = 0


i=1 j=1 i=1 j =1

Contrates a realizar:
1. Ho: α1 = α 2 = ... = α n =0
H1: Algún αi es distinto de cero

2. Ho: β1 = β 2 = ... = β r = 0
H1: Algún β j es distinto de cero

3. Ho: I ij = 0 para todo (i,j)


H1: Algún I ij es distinto de cero

De forma análoga a lo estudiado para un factor, se hace una descomposición del tipo :

STC = SCA + SCB + SCI + SCD

Donde:

SCA : Suma de cuadrados entre los niveles de A. Mide la


variabilidad debida al factor A.

SCB : Suma de cuadrados entre los niveles de B. Mide la


variabilidad debida al factor B

SCI : Suma de cuadrados que mide la variabilidad debida a la


interacción de los factores

SCD : Suma de los cuadrados dentro de los niveles. Mide la


variabilidad residual, es decir, la debida a los demás factores
no incluidos en el modelo

Los estadísticos a utilizar en los contrastes son:

S A2
1. ~ Fn −1,nr ( s −1)
S r2

S B2
2. ~ Fr −1,nr ( s −1)
S r2

S I2
3. ~ F( n −1)( r −1),nr ( s −1)
S r2

Gonzalo Flores Muñoz Página 28


El procedimiento práctico es el mismo que para todos los test estudiados anteriormente.

En caso de rechazar alguna de las hipótesis nulas se puede hacer un estudio comparativo de las
diferencias de medias correspondientes. Los fundamentos teóricos son los mismos que para un factor.

Ejemplo:
Se experimenta en un proceso de fabricación en dos condiciones de funcionamiento, α1 y α 2 , y tres
tipos de materia prima, β1 , β 2 y β3 , obteniéndose los siguientes resultados:

β1 β2 β3
20 16 30 33 12 8
α1
36 40 38 44 40 42
α2
El modelo general será:

Yijk = µ + αi + β j + (αβ)ij + eijk , donde, i=1, 2 ; j=1, 2, 3 ; k=1, 2

donde por ejemplo, y 211 = 36 es la primera observación, del segundo nivel del factor 1.

(αβ ) ij es la interacción (si la hay) entre el funcionamiento y el tipo de materia prima.

eijk es todo lo que no podemos controlar en nuestro experimento (error aleatorio). Se supone
normalidad e independencia de los errores, es decir,

eijk ~ N(0, σ 2
)

Las hipótesis son:

1ra. Ho: En el proceso de fabricación, las dos condiciones


producen el mismo efecto

Ho: α1 = α 2
2da. Ho: No hay diferencia en las materias primas de nuestro
proceso de fabricación.

Ho: β1 = β 2 = β 3
3ra. Ho: No hay interacción entre el tipo de funcionamiento y el
tipo de materia prima

Ho: (αβ ) ij =0 para todo i,j

Gonzalo Flores Muñoz Página 29


Práctica:

Entrar en statgraphics al editor de datos y crear el vector FABRICA y las variables dato, func y matprim
de acuerdo al siguiente esquema:

dato func matprim


20 1 1
16 1 1
30 1 2
33 1 2
12 1 3
8 1 3
36 2 1
40 2 1
38 2 2
44 2 2
40 2 3
42 2 3

Entrar en Análisis de varianza multifactor:

Data: FABRICA.dato
A: FABRICA.func
B: FABRICA.matprim

Gonzalo Flores Muñoz Página 30


ANALISIS DE REGRESION
Conjunto de técnicas, gráficas o analíticas, para tratar de encontrar la relación entre una variable
respuesta Y, y una serie de variables independientes X1,X2,...,Xk, llamadas variables regresoras.
Se pretende con ello describir un conjunto de datos y realizar predicciones sobre Y a partir del modelo
propuesto.

MODELO DE REGRESION SIMPLE

Yi = β0 + β1 xi + ei , i =1,..,n1
X : variable regresora
xi : observación i-ésima de la variable regresora
Y : observaciones hechas a la variable respuesta
ei : errores aleatorios cometidos en cada estimación
β 0 ,β 1 : constantes a determinar

HIPOTESIS HABITUALES PARA EL MODELO

1. E[ei] = 0, i=1,..,n (la media de los errores es cero)

2
2. V(ei) = σ , i=1,..,n (varianza constante)

3. E[eiej] = 0, i ≠ j (los errores son no correlacionados)

4. ei ~ N(0,σ 2 ) (normalidad de los errores)

QUE SE DESEA OBTENER CON EL MODELO

1. Estimación de los parámetros β 0 , β 1 ,σ 2


2. Cálculo de intervalos de confianza y contrastes de hipótesis para estos parámetros.
3. Diagnóstico del modelo (a posteriori); es decir, ver si el modelo propuesto se ajusta a los datos y ver si
las hipótesis que se han hecho son correctas.

METODO DE LOS MINIMOS CUADRADOS

Método de estimación más importante. Se desea minimizar la expresión:


n

∑ (Y
i= 1
i - β 0 - β 1 xi )
2
(1)

Ecuaciones Normales (se obtienen de derivar e igualar a cero):

n β0 + β1 ∑ xi = ∑ Yi

β0 ∑ xi + β1 ∑ xi2 = ∑ xi Yi

Gonzalo Flores Muñoz Página 31


Estimadores de β0 y β1 (proporcionan un mínimo para (1) ):

β *0 = Y - β *1 x

∑ Y i ( xi - x )
β *1 =
∑( xi - x )
2

Recta de valores ajustados:

* *
Y *i = β 0 + β 1 x i
Estimador para la varianza de los errores (varianza residual):

∑(Yi -Y*i )
2
*2
σ =
n-2
EL COEFICIENTE DE DETERMINACION

2
2
∑ e*i
R = 1-
∑( Y i - Y )
2

Se verifica que este coeficiente toma valores entre 0 y 1 y que cuanto más cercano a 1 se encuentre, mejor es
el ajuste de la recta de regresión a la nube de puntos.

EL COEFICIENTE DE CORRELACION

El coeficiente de correlación lineal entre las variables X e Y es la raíz cuadrada del coeficiente de determinación.
Este coeficiente toma valores entre –1 y 1. Valores negativos implican correlación inversa (si la variable
regresora aumenta, la variable respuesta disminuye). En términos gráficos, significa recta con pendiente
negativa. Lo contrario ocurre si el valor es positivo.

EL MODELO LINEAL GENERAL

Yi = ∑j= 1
x ij β j + e i

Las hipótesis que se establecen son:

1. E(ei )= 0 , i=1,..,n
2
2. V( ei ) = σ , i=1,..,n
3. La distribución de los errores es normal y los errores se consideran independientes de a dos.

El análisis del modelo bajo las hipótesis anteriores lleva a resultados similares para el coeficiente de
determinación que para regresión simple.

Gonzalo Flores Muñoz Página 32


EJEMPLOS:

1. Se desea explicar la variable respuesta Y en función de las variables regresoras X, Z y T

Y 0.9 -0.1 3.4 0.3 1.1 0.1 -0.2 1.6 0.9 -1.2 -1.8 3.0 1.7
X -1.1 1.2 -0.2 0.1 0.5 -2.1 -0.6 -0.4 0.5 -0.6 0.0 0.4 -1.6
Z 0.0 -1.0 -0.1 -0.5 -1.0 0.3 -0.3 -0.1 -0.6 -0.7 -1.2 -0.2 0.3
T 4.0 7.1 -3.2 6.2 5.4 4.2 0.0 7.3 8.1 -4.0 2.9 9.0 2.5

2
a) Ajustar un modelo lineal simple con Y y X. Determinar los parámetros y el valor de R . Interprete el
signo de R.
b) Dibujar la línea ajustada. A la vista del diagrama de dispersión que aparece en el gráfico, ¿es
razonable la hipótesis de linealidad simple? ¿cómo podría modificarse?
c) Obtenga el mejor modelo que ajuste los datos considerando las demás variables regresoras
incorporándolas de una en una hasta que Ud. lo considere razonable. Explique su decisión.
d) Obtenga intervalos de confianza del 95% para los parámetros del modelo propuesto. Interprete.
e) Obtenga Y a través del modelo considerando los siguientes valores: X= 0.5; Z= -1.0; T= 5.4 .
Analice las diferencias.

2. Se efectúa un estudio sobre el desgaste de un nuevo compuesto de goma de neumáticos y su


relación con la viscosidad del caucho empleado y la presión que se ejerce sobre él al rodar. Se
obtienen los siguientes datos :

DESGASTE VIZCOSIDAD PRESION


193 1.6 851
230 15.5 816
172 22.0 1058
91 43.0 1201
113 33.0 1357
125 40.0 1115

a) De acuerdo al diagrama de dispersión, ¿es razonable un modelo de regresión simple con alguna de
las variables ? Justifique.
b) Ajuste un modelo de regresión múltiple a los datos. Indique claramente el modelo y sus parámetros.
2
Analice R .
c) Ajuste un modelo de regresión con un término de interacción entre viscosidad y presión.
d) De acuerdo al estudio de los puntos anteriores, ¿qué modelo recomendaría Ud. ? Justifique.
e) Utilice el modelo recomendado por Ud. para predecir el desgaste cuando la viscosidad es 25 y la
presión 1000.
f) Encuentre intervalos de confianza del 95% para los parámetros del modelo. ¿Qué significan ?

Gonzalo Flores Muñoz Página 33


REGRESION POLINOMIAL
Un caso particular del modelo lineal general que se utiliza con cierta frecuencia es la regresión
polinomial. El modelo es :
Y = β0 + β1 x + β2 x 2 +...+ βk x k
Ante un problema determinado se suelen incluir potencias hasta un grado a partir del cual la inclusión de
nuevas potencias no mejora el ajuste del modelo a la nube de puntos de manera sustancial. En la
práctica la mejora que se consigue es despreciable para exponentes mayores que 3.

Ejemplo regresión polinomial

Los paneles de las paredes del interior de un aeroplano se forman en una prensa de 1500 toneladas. El
costo de fabricación de cada unidad cambia con el tamaño del lote de producción. La tabla que aparece a
continuación proporciona el costo promedio por unidad (en cientos de dólares) para esta producto (y) y el
tamaño del lote de producción (x).

y 1.81 1.70 1.65 1.55 1.48 1.40 1.30 1.26 1.24 1.21 1.20 1.18
x 20 25 30 35 40 50 60 65 70 75 80 90

Ajustar el modelo polinomial que mejor represente a los datos. Haga todos los análisis necesarios.
Comente.

Ejemplo:
Un distribuidor de cerveza está estudiando el sistema de reparto de su producto. Específicamente, el
distribuidor está interesado en predecir el tiempo de servicio a un expendio al menudeo. El ingeniero
industrial a cargo del estudio ha sugerido que los dos factores más importantes que podría estar
interviniendo en el tiempo de reparto son el número de cajas de cerveza que se entregan y la máxima
distancia que debe recorrer el repartidor. El ingeniero recopiló la muestra de tiempos de reparto
siguiente :

Número Distancia Tiempo


de (kms.) (min.)
Cajas
10 30 24
15 25 27
10 40 29
20 18 31
25 22 25
18 31 33
12 26 26
14 34 28
16 29 31
22 37 39
24 20 33
17 25 30
13 27 25
30 23 42
24 33 40

a) Ajuste un modelo de regresión simple con cada uno de los factores. ¿Es razonable un modelo de
regresión simple ? Justifique.
b) Proponga el mejor modelo de regresión de acuerdo a los datos y estime los parámetros
correspondientes. Escriba claramente el modelo propuesto y sus parámetros estimados.
c) Dé un intervalo de confianza del 95% para los parámetros estimados. ¿Que significan estos
intervalos ?.
d) ¿Qué puede concluir respecto del problema?. ¿Es razonable la creencia del ingeniero?. Justifique.

Gonzalo Flores Muñoz Página 34


Comentarios sobre el problema de construcción de modelos

Un problema importante en muchas aplicaciones del análisis de regresión es el que involucra la


selección de un conjunto de variables independientes o de regresión para su uso en el modelo. A veces,
la experiencia o las consideraciones de índole teórica pueden ayudar al analista a especificar el conjunto
de variables de regresión que deben emplearse en un situación particular. Sin embargo, usualmente el
problema consiste en seleccionar un conjunto apropiado de variables de regresión a partir de otro que es
muy probable que incluya todas las variables importantes, pero seguramente no todas ellas son
necesarias para modelar de manera adecuada la respuesta Y.
En tal situación, el interés se centra en detectar las variables candidatas para obtener un modelo
de regresión que contenga “el mejor” subconjunto de las variables de regresión. También es deseable
que el modelo final contenga suficientes variables de regresión para que el uso que se pretende dar
(predicción por ejemplo) sea satisfactorio. Por otra parte, para mantener los costos de mantenimiento del
modelo a un mínimo y hacerlo de fácil uso, sería deseable usar el menor número posible de variables de
regresión. El compromiso entre estos objetivos en conflicto a menudo se traduce en la búsqueda de “la
mejor” ecuación de regresión posible. Sin embargo, en muchos problemas no hay un solo modelo de
regresión que sea el “mejor” posible en términos de los distintos criterios propuestos para la evaluación
de los modelos. En general es necesario tener mucho juicio y experiencia con el sistema que se está
modelando para seleccionar un conjunto apropiado de variables de regresión para la ecuación de
regresión.
Ningún algoritmo produce siempre una buena solución para el problema de la selección de
variables. Muchos de los procedimientos disponibles en la actualidad son técnicas de búsqueda, y para
realizar ésta de manera satisfactoria, se requiere la interacción con el analista y el juicio de éste.
Algunas de las técnicas antes mencionadas son, por ejemplo, la de todas las regresiones posibles,
la de regresión por pasos o la de selección directa, entre otras. Para algunas de ellas existen
procedimientos computacionales para su utilización. (Ver Montgomery y Runger, Probabilidad y
estadística aplicadas a la Ingeniería).

Gonzalo Flores Muñoz Página 35