Estadistica II - Roberto Manchego

Pruebas no paramtricas
VII-12
UNIVERSIDAD MAYOR DE SAN SIMN
FACULTAD DE CIENCIAS Y TECNOLOGA
DEPARTAMENTO DE MATEMTICAS
ESTADSTICA II
CAPTULO VIII
PRUEBAS NO PARAMTRICAS
SEMESTRE: II/2003
DOCENTE: Ing. Roberto Manchego C.
Cochabamba, Noviembre de 2003
Distribuciones de probabilidad
I-1
I DISTRIBUCIONES DE PROBABILIDAD
1.1 Variable aleatoria.- Una variable aleatoria X es una funcin de valor numrico que
asigna un nmero real a cada punto del espacio muestral de un experimento.
Se dice que X es aleatoria por que est asociada a la probabilidad de los
resultados del espacio muestral.
1.1.1 Variable aleatoria discreta.- Una variable aleatoria es discreta si la cantidad de
valores que puede tomar es un nmero finito o infinito numerable de valores.
1.1.2 Variable aleatoria continua.- Se dice que X es una variable aleatoria continua
cuando los valores que toma sta son de carcter fraccionario.
1.2 Distribucin de probabilidad.- Una distribucin de probabilidad de variable
aleatoria es el resultado de asignar valores de probabilidad a todos los valores
numricos posibles de dicha variable aleatoria, ya sea, mediante un listado o a travs
de una funcin matemtica.
1.2.1 Funcin de cuanta.- Es aquella distribucin de probabilidad de una variable
aleatoria discreta, funcin que se representa generalmente mediante un listado de
todos los valores numricos posibles de la variable aleatoria con sus probabilidades
correspondientes, tal como se observa en el Cuadro (1.1) y en la Grfica (1.1).
Cuadro (1.1)
DISTRIBUCIN DE PROBABILIDAD
DE LA VARIABLE X
x
i
p(x
i
)
x
1
p(x
1
)
x
2
p(x
2)
x
3
p(x
3
)
... ...
x
n
p(x
n
)
I-2
0 X i x 1 x 3 x 2
p ( x 2 )
p ( x 3 )
p ( x 1 )
p ( X i )
Si x
i
es el valor de una variable aleatoria discreta y p(x
i
) la probabilidad de que
x
i
tome un valor en particular, todos los valores de p(x
i
) deben satisfacer las siguientes
propiedades:
-
0 ) x ( p
i
>
x i
N x e
- ( ) 1
1
=
=
=
n i
i
i
x p
x i
N x e
Por otra parte, la Funcin de distribucin acumulada de x
0
, es decir, la
probabilidad de que x sea menor o igual a un valor especfico x
0
se calcula con la
ecuacin (1.1).
( ) ( )

=
= s =
0
1
0 0
x i
i
i
x p x x p x F ) (
x i
N x e (1.1)
1.2.2 Funcin de densidad.- Es aquella funcin en la que la probabilidad de los
valores posibles de una variable aleatoria contnua se determinan a travs de una
funcin matemtica y se ilustra en forma grfica por medio de una curva de
probabilidad.
X
f ( X )
l s l i
I-3
Si existe f(x), se debe cumplir:
- ( ) 0 > x f l.s. x l.i < <
- ( ) 1
.
.
=
}
s l
i l
dx x f
Es importante recordar que f(x) no representa ninguna probabilidad como tal y
que solamente cuando la funcin se integra entre dos puntos produce una probabilidad,
es decir:
( ) ( ) ( )
}
= s s = < <
b
a
dx x f b x a p b x a p
x
R x e (1.2)
La Funcin de distribucin acumulada de x
0
se define como:
( ) ( )
}
= s =
o
x
l.i
o o
f(x)dx x x p x F
x
R x e (1.3)
1.3 Valor esperado y varianza de una variable aleatoria.-
1.3.1 Valor esperado.- El valor esperado de una variable aleatoria es el valor que se
espera obtener despus de repetir muchas veces el experimento. Es llamado tambin
valor a la larga y esperanza matemtica. Se define como:
( ) ( )
=
=
= =
n i
i
i i
x p x x E
1
discreta v.a. x (1.4)
( ) ( )
}
= =
ls
li
dx x xf x E continua v.a. x (1.5)
La esperanza de una variable aleatoria x tiene las siguientes propiedades:
a) E(k) = k k constante
b) E(kx) = k E(x) k constante
c) E(k x) = k E(x) k constante
d) E(x y) = E(x) E(y) x,y var. aleatorias independientes
e) E(x y) = E(x) E(y) x,y var. aleatorias independientes
I-4
1.3.2 Varianza.- La varianza de una variable aleatoria x se define como:
( ) ( )
2
2
= = x E x V (1.6)
Para el caso de variables discretas y continuas, se tiene:
( ) ( )
=
=
=
n i
i
i i
x p x
1
2
2
( ) ( )
}
= o
ls
li
2
2
dx x f x continua v.a. x (1.8)
Otras formas alternativas de clculo son:
( )
=
=
=
n i
i
i i
x p x
1
2 2 2
( )
}
= o
ls
li
2 2 2
dx x f x continua v.a. x (1.10)
A partir de las expresiones anteriores, la varianza tambin puede expresarse con
la ecuacin (1.11).
| |
2 2 2
) ( ) ( x E x E = (1.11)
La varianza tiene las siguientes propiedades:
a) V(k) = 0 k constante
b) V(kx) = k
2
V(x) k constante
c) V(kx) = V(x) k constante
d) V(x y) = V(x) + V(y) x,y var. aleatorias independientes
La raz cuadrada de la varianza de una variable aleatoria se denomina
desviacin standard () y al igual que la varianza es una medida de dispersin, es decir:
2
o + = o (1.12)
1.4 Distribuciones tericas de probabilidad.-
1.4.1 Distribuciones tericas de probabilidad de variable aleatoria discreta.- Las
principales distribuciones tericas de probabilidad de variable aleatoria discreta son:
- Distribucin Bernoulli.
- Distribucin Binomial.
I-5
- Distribucin Poisson.
- Distribucin Hipergeomtrica.
- Distribucin Uniforme discreta.
- Distribucin Polinomial.
- Distribucin Geomtrica.
1.4.2 Distribuciones tericas de probabilidad de variable aleatoria continua.- Las
principales distribuciones tericas de probabilidad de variable aleatoria continua se
desarrollan a continuacin.
1.4.2.1 Distribucin Normal.- La distribucin Normal o distribucin de Gauss es
fundamental en la aplicacin de la inferencia estadstica, ya que las distribuciones de
muchos estadgrafos muestrales tienden a la distribucin Normal conforme crece el
tamao de la muestra.
Se dice que una variable aleatoria x est normalmente distribuida si su funcin
de densidad est dada por:
( ) + < <
to
=
|
.
|
\
|
o

x -
2
e
x f
2
2
x
2
1
(1.13)
En la que:
= valor esperado - < < +
o= varianza > 0
La grfica de la distribucin Normal es una curva simtrica con forma de
campana, que se extiende sin lmites tanto en la direccin positiva como en la negativa.
1.4.2.1.1.- Clculo de probabilidades.- La probabilidad de que una variable aleatoria
normalmente distribuida sea menor o igual a un valor especfico, est dada por la
funcin de distribucin acumulada de la ecuacin (1.14).
( ) dx
a
x
e
a x p
}
= s
|
|
.
|
\
|
2
2
2
2
1
(1.14)
I-6
La funcin f(x) no es una funcin simple y su integracin no puede realizarse en
forma sencilla, adems, si se tabulara la funcin de densidad de la distribucin Normal,
la tabla que se elaborara sera para un par de valores de y
2
, tarea virtualmente
imposible.
Por tanto, para reducir el problema anterior, es necesario standarizar la variable,
de tal forma que permita presentar los resultados en una sola tabla, es decir:

=
x
z (1.15)
Luego:
( )
2
2
2
2
z
e
z f

= (1.16)
con:
( ) 0 = z E
( ) 1 = z V
De manera que:
( ) dz
e a
z p a x p
a z
}
o

t
=
|
.
|
\
|
o

s = s
2
2
2
(1.17)
Con mtodos de clculo integral, todava sigue siendo difcil integrar la funcin de
densidad acumulada de la distribucin Normal standarizada, sin embargo, por medio del
anlisis numrico se han obtenido tablas para dicha funcin.
1.4.2.1.2.- Propiedad reproductiva de la Distribucin Normal.- Una propiedad muy
importante de la Distribucin Normal es la llamada Propiedad Reproductiva de la
Distribucin Normal, la cual indica:
Si x
1
,x
2
,x
3
,.....,x
k
, son variables aleatorias normalmente distribuidas cada una con
media y varianza: N(
1
,o
2
1
), N(
2
,o
2
2
), N(
3
,o
2
3
),..., N(
k
,o
2
k
), respectivamente, adems,
si:
k
x x x x y + + + + = ......
3 2 1
(1.18)
I-7
Entonces se cumple:
k y
y E + + + + = = ...... ) (
3 2 1
(1.19)
2 2
3
2
2
2
1
2
..... ) (
k y
y V + + + + = = (1.20)
1.4.2.2 Distribucin Uniforme continua.- Se dice que una variable aleatoria x est
distribuida uniformente en el intervalo (,) si su funcin de densidad es:
< <
=
casos otros en 0
x
1
) (

x f (1.21)
La Distribucin Uniforme es llamada tambin Distribucin Rectangular, por la
forma de su figura:
0 X
f ( X )
b a
1 / ( b - a )
La Distribucin Uniforme continua presenta en los experimentos en los que ocurre
un evento en que la variable aleatoria toma valores de un intervalo finito, de manera
que estos se encuentran distribuidos igualmente sobre el intervalo; es decir, la
probabilidad de que la variable aleatoria tome un valor en cada subintervalo de igual
longitud (contenido en el intervalo (,) es la misma, sin importar la localizacin exacta
del subintervalo.
La esperanza y la varianza de la distribucin Uniforme son:
2
) (

+
= = x E (1.22)
( )
12
) (
2
2

= = x V (1.23)
La distribucin Uniforme es simtrica y su mediana es igual a la media.
I-8
1.4.2.3 Distribucin Gamma.- La variable aleatoria x tiene una distribucin Gamma si
su funcin de densidad est dada por:
( )
o
u
o
u o I
=
x
1
e x
) x ( f x0, 0, 0 (1.24)
En la que se define a la funcin gamma de a la expresin (1.25).
}
o
= o I
0
z 1
dz e z ) ( (1.25)
Para distintos valores de y se tienen los siguientes grficos:
f ( X )
X
f ( X )
X
f ( X )
X
f ( X )
o = 1
u = 1
o = 2
u = 2
o = 2
u = 1
La esperanza y la varianza son:
ou = ) x ( E (1.26)
2
) x ( V ou = (1.27)
Cuando es un nmero entero se origina la distribucin Erlang, cuya funcin de
densidad es:
( )
o
u
u o o
=
! 1
e
) x ( f
x
x0, 0, 1 (1.28)
1.4.2.4 Distribucin Exponencial.- La Distribucin Exponencial, llamada tambin
Distribucin Exponencial Negativa, es un caso especial de la distribucin Gamma con
= 1, es decir:
I-9
casos otros en
0 0, x
> >
=
0
) (

x
e
x f
(1.29)
u = ) x ( E (1.30)
2
) x ( V u = (1.31)
Grficamente:
X
f ( X )
1 / u
La variable aleatoria Exponencial representa el tiempo que transcurre hasta que
se presenta el primer evento Poisson, es decir, la Distribucin Exponencial puede
modelar el lapso entre dos eventos consecutivos Poisson que ocurren de manera
independiente y a una frecuencia constante (el parmetro u representa el tiempo
promedio entre dos eventos Poisson).
Por ejemplo, el tiempo que transcurre entre llegadas de un cliente a una tienda
un paciente a un servicio de emergencia de un hospital, la duracin de una llamada
telefnica, la duracin de un componente elctrico, etc..
Esta distribucin sirve para modelar problemas del tipo tiempo-falla y problemas
de lneas de espera.
1.4.2.5 Distribucin Chi Cuadrado.- Un caso especial de la Distribucin Gamma, con
= v/2 y = 2, es la Distribucin Chi Cuadrado cuya funcin de densidad es:
2
v
2
x
1
2
v
2 )
2
v
(
e x
) x ( f
I
=

x0 (1.32)
I-10
En la que:
v = grados de libertad (entero positivo)
Los grados de libertad representan la cantidad de valores que se asignan de
manera arbitraria en una ecuacin, tal que de esa manera se pueda conocer una de
esas variables.
La esperanza y la varianza se muestran en las ecuaciones (1.33) y (1.34).
v ) x ( E = (1.33)
v 2 ) x ( V = (1.34)
Esta distribucin se emplea bastante en la inferencia estadstica (pruebas de
hiptesis) y de forma especial al hacer inferencias con respecto a las varianzas.
De acuerdo al valor de v, la grfica puede ser:
X
f ( X )
v = 6
v = 3
v = 1
Para calcular probabilidades se aplica la ecuacin (1.35), aunque para ello
existen tablas con la integral ya desarrollada (ver anexos).
}
= >
a
dx x f a x p ) ( ) ( (1.35)
1.4.2.6 Distribucin "t" o de Student.- Suponiendo que se realiza un experimento en
el que se obtienen dos variables aleatorias independientes: w con Distribucin Chi
Cuadrado con v grados de libertad y z con Distribucin Normal con media 0 y varianza
1, entonces la variable aleatoria "x" definida como:
I-11
v
w
z
x = - < z < + (1.36)
w>0, v>0 y entero
- <x<+
tiene una distribucin tde Student, cuya funcin de densidad es:
( )
2
1 v
2
v
x
1
v
2
v
2
1 v
) x ( f
+
|
|
.
|
\
|
+
t |
.
|
\
|
I
|
.
|
\
| +
I
= - x (1.37)
v0, entero positivo
En la que:
v = grados de libertad
Grficamente, la Distribucin t tiene forma de campana y es simtrica respecto
al origen, adems se puede observar que esta Distribucin se asemeja a la Distribucin
Normal puesto que ambas varan en el intervalo (-; +), son unimodales y centradas
alrededor de 0.
La esperanza y la varianza es:
0 ) x ( E = (1.38)
2 v
v
) x ( V
= v>2 (1.39)
Para calcular probabilidades se aplica la ecuacin (1.40).
}

= s
a
dx x f a x p ) ( ) ( (1.40)
Los valores de probabilidad se encuentran tabulados para ciertos valores
especiales (ver anexos).
I-12
La importancia de la Distribucin t radica en el hecho de que es til al efectuar
inferencias respecto a la media aritmtica cuando el valor de la desviacin standard es
desconocido y la poblacin tiene una Distribucin Normal sin importar el tamao de la
muestra.
1.4.2.7 Distribucin "F" de Fisher.- Esta distribucin es tambin muy utilizada en la
inferencia estadstica y se define de la siguiente manera:
Sea un experimento en el que se generan dos variables aleatorias
independientes w y z, cada una con una Distribucin Chi Cuadrado con v
1
y v
2
grados
de libertad respectivamente, se define la variable "x" a la relacin (1.41).
2
1
v
z
v
w
x = x >0 (1.41)
y se dice que tiene una distribucin F con v
1
y v
2
grados de libertad con funcin de
densidad:
( )
|
.
|
\
|
I |
.
|
\
|
I
+ |
.
|
\
| +
I
=
+
2
v
2
v
v x v x v v
2
v v
) x ( f
2 1
2
v v
2 1
2
2 v
2
v
2
2
v
1
2 1
2 1
1 2 1
(1.42)
2 v
v
) x ( E
2
2
= v
2
2 (1.43)
) 4 v ( ) 2 v ( v
) 4 v 2 v 2 ( v
) x ( V
2
2
2 1
1 2
2
2

+
= v
2
4 (1.44)
Grficamente, para distintos valores de v
1
y v
2
se tiene:
I-13
X
f ( X )
V 1 = 1 5
V 2 = 3 0
V 1 = 1 5
V 2 = 8
0
La Distribucin F es asimtrica hacia la derecha para cualquier par de valores
de v
1
y v
2
, pero sta va disminuyendo conforme v
1
y v
2
se vuelven ms grandes.
Para el clculo de probabilidades se emplea la ecuacin (1.45).
}

= s
a
dx x f a x p ) ( ) ( (1.45)
La ecuacin (1.45) se encuentra tabulada, existiendo tablas para 90%, 95%, y
99%.
La importancia de esta distribucin radica en que es til para efectuar inferencias
sobre las varianzas de 2 distribuciones Normales.
BIBLIOGRAFA:
(1) LEVIN Richard (1996): Estadstica para Administracin y Economa. Mxico
(2) MOYA Rufino y SARAVIA Gregorio (1988): Probabilidad e Inferencia Estadstica.
Per.
(3) MOYA Rufino (1991): Estadstica descriptiva. Conceptos y aplicaciones. Per.
================================
I-14
NDICE
Pgina
1.1 Variable aleatoria.................................................................................. 1
1.1.1 Variable aleatoria continua............................................................. 1
1.1.2 Variable aleatoria discreta............................................................... 1
1.2 Distribucin de probabilidad de una variable aleatoria............................... 1
1.2.1 Funcin de cuanta .................................................. 1
1.2.2 Funcin de densidad ................................ 2
1.3 Valor esperado y varianza de una variable aleatoria.................................. 3
1.3.1 Valor esperado........................................................................ ........ 3
1.3.2 Varianza......................................................................................... 3
1.4 Momento de una variable aleatoria.......................................................... 4
1.5 Distribuciones toricas de probabilidad 5
1.5.1 Distribuciones tericas de probabilidad de variable aleatoria discreta... 5
1.5.2 Distribuciones tericas de probabilidad de variable aleatoria continua. 5
1.5.2.1 Distribucin Normal............................................................. 5
1.5.2.2 Distribucin Uniforme Contnua.... 7
1.5.2.3 Distribucin Gamma 8
1.5.2.4 Distribucin Exponencial... 9
1.5.2.5 Distribucin Chi cuadrado.... 10
1.5.2.6 Distribucin t de Student 11
1.5.2.7 Distribucin F de Fisher. 12
Teora general del muestreo
II-1
II TEORA GENERAL DE MUESTREO
2.1. Introduccin.- En todo estudio que se realice se desea conocer con absoluta
verdad y certeza toda la informacin requerida para tales fines.
Es natural que se busque conocer de manera exhaustiva las caractersticas de
una poblacin objeto de estudio y que para ello se requiera efectuar un censo. El
censo tiene sus ventajas y desventajas; estas ltimas ocasionan que se recurra a
otro procedimiento que vendra a ser el muestreo.
El muestreo posee caractersticas especiales que la hacen favorable en su uso
frecuente por parte de instituciones con recursos econmicos y tiempo limitados,
aunque tambin el factor que se debe controlar es el error presente en este
procedimiento.
El muestreo tiene distintas etapas, siendo dos de las ms importantes, la
forma de elegir los elementos de la muestra y el tamao de la misma. En este
captulo se efectuar el estudio de dichas etapas, en base a las cuales se realizarn
inferencias referentes a los parmetros de estudio desconocidos.
2.2 Censo.-
2.2.1 Poblacin objetivo.-
2.2.1.1 Definicin.- Es la totalidad de los elementos en discusin y acerca de los
cuales se desea obtener alguna informacin, dichos elementos tienen caractersticas
comunes que son de inters para el estudio. Ej.: todos los Centros Hospitalarios
ubicados en el departamento de Cochabamba, todos los Proyectos de Grado
presentados en la Carrera de Ing. Mecnica de la Facultad de Ciencias y Tecnologa
de la UMSS, etc..
Para garantizar el censo es necesario acotar el universo y conocer las
unidades que lo componen; acotar el universo significa concretar la poblacin que
va a ser objeto del estudio. Por ejemplo: nmero de bolsas de cemento producidas
por COBOCE el da 22 de julio de 2009 en la planta ubicada en Cochabamba.
2.2.1.2. Tipos de poblacin.- De acuerdo a la magnitud de la poblacin se definen
dos tipos de poblacin.
II-2
2.2.1.2.1. Poblacin finita.- Una poblacin es finita si tiene un nmero limitado
de sucesos o unidades elementales, numricamente es aquella que tiene menos de
500.000 unidades, por ejemplo: todos los estudiantes de la Carrera de Biologa,
nmero de clientes diarios que llegan a un autobanco, etc..
2.2.1.2.2. Poblacin infinita.- Es aquella que consiste en un nmero
infinitamente grande de observaciones. Se considera infinita a una poblacin que
posee ms de 500.000 unidades. Ejemplo: el conjunto de estrellas del Universo,
toda la poblacin de Bolivia, etc..
2.2.2. Parmetro.- Es posible definir este concepto de dos formas:
a) El parmetro es una caracterizacin numrica de la distribucin de la poblacin,
es decir, describe parcial o completamente, la funcin de probabilidad de la
poblacin de la variable de inters. Por ejemplo, cuando se especifica de la
distribucin Poisson, se est definiendo su funcin de probabilidad:
! x
e
) x ( f
x
=

(2.1)
Si se conoce el parmetro se puede calcular cualquier proposicin
probabilstica. Por tanto, puesto que los parmetros son inherentes a todos los
modelos de probabilidad, es imposible calcular las probabilidades deseadas sin un
conocimiento del valor de stos.
b) El parmetro es una caracterstica de tipo descriptivo de una determinada
poblacin. Ello se refiere a que una poblacin con determinadas caractersticas,
pueden ser descritas por ciertas medidas descriptivas , como por ejemplo, la media
aritmtica, ndices poblacionales, tasas, etc..
2.2.3. Definicin de censo.- Cuando es necesario conocer uno o ms parmetros
de una poblacin o universo se recurre a la realizacin de un censo.
El censo constituye un examen completo de todos los elementos de una
poblacin. En la mayora de los casos la realizacin de censos para conocer las
caractersticas de una determinada poblacin resulta muy costosa, exige la
movilizacin de muchos recursos humanos, su duracin suele ser muy larga y en
algunos casos el proceso es destructivo.
II-3
Existen muchos tipos de censo, siendo el ms importante el censo de
Poblacin y Vivienda, en el cual es necesario recabar la informacin de todos los
habitantes del pas, por ser marco obligado de referencia para multitud de trabajos
e investigaciones y, por razones meramente administrativas.
2.3 Muestreo.-
2.3.1.- Definicin.- Para el conocimiento de las caractersticas de la poblacin
existen mtodos opcionales cuyo costo y tiempo de realizacin se reducen
considerablemente. Estos mtodos estn constituidos en lo que se denomina
muestreo, cuyo objetivo es reconstruir modelos reducidos de la poblacin total, con
resultados que pueden extrapolarse al universo del que se extraen.
Todo ello quiere decir que a travs de muestras se puede obtener en muchos
casos, la informacin requerida, con un ahorro sustantivo de recursos humanos,
econmicos y de tiempo, sin que ello implique un alejamiento de la realidad que se
desea conocer.
Para que el proceso de muestreo sea una reconstruccin reducida pero real
del universo que se desea investigar es necesario que el tamao de las muestras y
la metodologa utilizada en su elaboracin respondan a determinados principios,
deducidos del clculo de probabilidades.
2.3.2. Muestra aleatoria.- La muestra aleatoria es aquella en la que cada unidad
elemental para la observacin tiene la misma probabilidad de ser incluida en la
muestra.
O de una forma ms especfica: x
1
, x
2
, x
3
,....,x
n
, es una muestra aleatoria de
tamao n, si cumple:
a) Cada x
i
es una variable aleatoria independiente.
b) Cada x
i
tiene la misma distribucin de probabilidad.
2.3.3. Inferencia estadstica.- La inferencia estadstica es el proceso mediante el
cual se utiliza la informacin de los datos de una muestra para extraer conclusiones
acerca de la poblacin de la que se seleccion.
II-4
La inferencia estadstica se basa en la inferencia inductiva, la cual constituye
una generalizacin de los resultados particulares a resultados generales.
Por ejemplo, si se tiene una florera que cuenta con 100.000 semillas de que
se desean comercializar, de la cual se sabe que pueden producir flores blancas o
rojas. El objetivo para la gerencia es averiguar cuntas de estas 100.000 semillas
producirn flores rojas.
Por tanto, lo ms lgico sera proceder de la siguiente manera:
1
o
Para dar una respuesta correcta, se debera sembrar todas las semillas y
observar el nmero de las que producen flores rojas.
2
o
Como ello es imposible, puesto que se desea vender todas las semillas y aunque
no se quisiera venderlas, el obtener una respuesta requerir invertir mucho
esfuerzo y dinero. Por lo que:
3
o
La solucin ser emplear unas cuantas semillas y basados en los resultados
aparecidos, hacer una afirmacin sobre el nmero de flores rojas que se tendrn del
total restante de semillas.
Toda inferencia inductiva constituye un proceso arriesgado, es decir, la
inferencia inductiva exacta es imposible, existiendo un grado de incertidumbre
susceptible de medicin a travs de la probabilidad.
La importancia de la inferencia estadstica radica en que por medio de ella se
hallan nuevos conocimientos.
2.3.4. Estadgrafo.- El estadgrafo es cualquier funcin de las variables que se
observaron en la muestra, de manera que, esta funcin no contiene cantidades
desconocidas. Por ejemplo: si x
1
, x
2
, ..., x
n
son variables aleatorias obtenidas de
una muestra, entonces: |
.
|
\
| + + +
=
n
x x x x
x
n
.....
3 2 1
es un estadgrafo.
Un parmetro es una constante, pero un estadgrafo es una variable
aleatoria. Adems, un parmetro describe un modelo de probabilidad, ningn valor
de estadgrafo puede desempear este papel, porque depende de las observaciones
de la muestra.
II-5
2.3.5. Diseo de una muestra.-
2.3.5.1 Definicin.- Por diseo de una muestra se entiende la planificacin o
metodologa para tomar muestras.
2.3.5.2. Criterios para evaluar el diseo de una muestra.- Existen dos criterios
para evaluar el diseo de una muestra: su fiabilidad y su efectividad.
2.3.5.2.1. Fiabilidad.- Es de esperar que en el muestreo existan errores. El error
de muestreo es la diferencia entre el valor de un estadgrafo y el valor del
correspondiente parmetro de poblacin, ello debido a variaciones fortuitas en la
seleccin de las unidades elementales.
Por otra parte, el error de muestreo es cuantificable mediante la fiabilidad, la
cual est estrechamente relacionada con la varianza del estadgrafo; por lo cual,
cuanto menor la varianza, mayor ser la fiabilidad del resultado de la muestra.
2.3.5.2.2. Efectividad.- El diseo de una muestra se considera efectivo si se
obtiene cierto grado de fiabilidad al menor costo posible. Un diseo muestral se
considera ms efectivo que otro, si el primero tiene menor costo que el segundo,
dentro del mismo grado de fiabilidad.
2.3.6. Tipos de muestreo.- Para la seleccin de la muestra se pueden utilizar
distintos mtodos o combinacin de mtodos, todos estos divididos en dos grandes
grupos:
- Muestreo aleatorio.
- Muestreo no aleatorio.
2.3.6.1. Muestreo aleatorio.- Comprende:
2.3.6.1.1. Muestreo aleatorio simple.- El muestreo aleatorio simple se aplica
en casos en que:
Las unidades elementales son fciles de identificar.
Cuando la poblacin es pequea.
Cuando la poblacin es homognea respecto a la caracterstica de inters.
El procedimiento consiste en numerar a toda la poblacin del estudio y
extraer al azar una muestra de n unidades. En el muestreo aleatorio simple la
II-6
seleccin de los elementos se efecta en una sola etapa y en forma directa,
pudiendo ser con o sin reemplazo.
Para la seleccin aleatoria de los nmeros se utilizan tablas de nmeros
aleatorios, programas de computacin, bolillos numerados, etc..
a) Muestreo aleatorio con reemplazo. En este caso cada elemento de la muestra
posee la misma probabilidad de ser elegida, puesto que cada uno es reintegrado a
la poblacin de la cual fue extrada.
b) Muestreo aleatorio sin reemplazo. En este caso cada unidad de la poblacin
posee la misma probabilidad de ser escogida que las restantes para formar parte de
la muestra, considerando que la probabilidad de que un elemento sea extrado
depender de los que anteriormente hayan sido elegidos.
La clave de este procedimiento es naturalmente la tcnica del azar, aunque el
lograr dicho "azar" o aleatoriedad no es cosa sencilla. Por ejemplo, si se desea
averiguar cul es la mejor Universidad de Cochabamba, no es aleatoria una muestra
de personas, si nos dirigimos al campus de la Universidad Catlica Boliviana y se
procede a entrevistar a las personas que ingresan a la misma.
Para poblaciones grandes el mtodo es costoso y requiere mucho tiempo,
siendo difcil y tediosa la elaboracin de listas con toda la poblacin. Cuando el
universo no es homogneo se produce mucho error.
2.3.6.1.2. Muestreo aleatorio sistemtico.- El muestreo sistemtico se emplea
cuando existe heterogeneidad respecto a algn rasgo de los elementos de la
poblacin y el tamao de sta es pequeo. Para tal efecto es aconsejable disponer
de una lista de las unidades de la poblacin, como ser una gua telefnica.
En el control de calidad se emplea frecuentemente el muestreo sistemtico
tomando muestras de artculos de la corriente de produccin.
Este procedimiento consiste en obtener una muestra tomando cada k-sima
unidad de la poblacin, tras numerar las unidades de la poblacin u ordenarlas de
II-7
alguna manera. La letra k representa un nmero entero llamado razn de
muestreo, coeficiente de elevacin salto y es igual a:
n
N
k = (2.2)
En la que:
N = tamao de la poblacin.
n = tamao de la muestra.
Para que toda unidad de la poblacin tenga igual probabilidad de salir, el
procedimiento debe empezar al azar; para ello se elige un nmero al azar, nmero
no superior a k, a partir del cual se suma sucesivamente la razn de muestreo.
Ahora bien, la muestra sistemtica es menos representativa que el muestreo
aleatorio simple, en situaciones en que existe periodicidad oculta en la poblacin, es
decir, cuando existe un movimiento cclico o peridico de los datos con la longitud
del ciclo aproximndose a la razn de muestreo k; por ejemplo, la venta de
entradas en una empresa cinematogrfica, el elegir sbado o domingo para tomar
una muestra, no siempre es representativo. Este problema se puede solucionar
parcialmente si se procede a "desordenar" la lista.
La desventaja principal del muestreo sistemtico es numerar u ordenar los
elementos de una poblacin grande, lo cual es fsicamente imposible si se abarca
todo un pas o zona geogrficamente grande.
2.3.6.1.3. Muestreo aleatorio estratificado.- El proceso de estratificacin
consiste en dividir la poblacin en clases o grupos llamados estratos. Dentro de
cada uno de tales estratos se encuentran los elementos situados de manera ms
homognea con respecto a las caractersticas en estudio. Para cada estrato se toma
una submuestra mediante el muestreo aleatorio simple y la muestra global se
obtiene combinando las submuestras de todos los estratos.
El muestreo por estratos es efectivo cuando se trata de poblaciones
heterogneas, por que al efectuarse la estratificacin, los grupos se establecen de
modo que las unidades de muestreo tienden a ser uniformes dentro de cada clase y
II-8
los grupos tienden a ser diferentes entre s. As se puede controlar la proporcin de
cada estrato en la muestra global y no dejarla al azar, quedando asegurado el
carcter representativo de la muestra.
Si la varianza de la caracterstica observada de cada estrato es menor que de
toda la poblacin, que es lo ms usual debido a la uniformidad dentro del estrato,
resultar aumentada la fiabilidad para un tamao de muestra.
El aumento de fiabilidad y efectividad se puede incrementar clasificando
todava los estratos en subestratos llamando a este procedimiento estratificacin
doble.
Para definir los estratos se emplean:
- Datos anteriores.
- Resultados preliminares de otros estudios.
2.3.6.1.4. Muestreo aleatorio por conglomerados.- Llamado tambin muestreo
por reas, consiste en seleccionar al azar grupos, llamados conglomerados, de
elementos individuales de la poblacin, y tomar luego todos los elementos o una
submuestra de ellos dentro de cada conglomerado para constituir as la muestra
total. Como ejemplo de conglomerados se tiene:
- Urbanizaciones.
- Centros hospitalarios.
- Ciudadelas universitarias.
Con este tipo de muestreo se desea que las diferencias entre conglomerados
sean lo ms pequeas posibles, es decir, que exista homogeneidad entre
conglomerados; por otro lado, se busca que dentro de los conglomerados, las
diferencias entre los elementos individuales sean lo ms grandes posibles, es decir,
que exista heterogeneidad dentro de los conglomerados. En ello radica la diferencia,
diametralmente opuesta, al muestreo por estratos.
El objetivo en el muestreo por conglomerados es que cada conglomerado sea
una representacin, a escala reducida, del universo. Adems, slo algunos de stos
II-9
forman parte de la muestra, mientras que en el muestreo estratificado existe en la
muestra algn elemento de cada uno de los estratos.
Si todos los elementos de cada uno de los conglomerados se incluyen en la
muestra, se denomina muestreo de una etapa. Si se extrae una submuestra
aleatoria de elementos de cada conglomerado seleccionado, se tiene un muestreo
en dos etapas. Si se obtienen ms de dos etapas en la obtencin de la muestra, se
dice que es un muestreo de etapas mltiples o polietpico.
Este tipo de muestreo se emplea a menudo en el control de calidad
estadstico, seleccionando lotes o "tandas" de produccin al azar como
conglomerados.
2.3.6.2. Muestreo no aleatorio.- Frente a los distintos tipos de muestreo
aleatorio, se suelen utilizar otros sistemas de seleccin de la muestra, englobados
en lo que tambin se denomina muestreo dirigido. El recurrir a uno u otro mtodo
se encuentra en funcin no slo de los costos, sino tambin de la precisin que se
desea obtener de la estimacin y la posibilidad de cuantificar los errores de
muestreo.
Generalmente, las instituciones oficiales tienden a emplear muestreos
aleatorios y las instituciones de opinin, mayormente privadas, emplean el
muestreo no aleatorio; ello en virtud a la disponibilidad de informacin y el costo
que ello representa.
2.3.6.2.1 Muestreo opintico.- En este caso el investigador, segn su criterio,
selecciona la muestra de manera que sea lo ms representativa a los efectos de la
investigacin que se pretende realizar, por ejemplo: estudios sobre el consumo de
droga en una determinada ciudad. Sin embargo, est sujeto a la subjetividad del
investigador y los resultados carecen de fiabilidad en trminos estadsticos.
2.3.6.2.2. Muestreo por cuotas.- Consiste en facilitar al entrevistador el perfil de
las personas que tiene que entrevistar de acuerdo a los objetivos del estudio.
2.4. Distribucin muestral.- La distribucin muestral de un estadgrafo es la
distribucin de probabilidad que expresa la relacin funcional entre cada uno de los
II-10
valores del estadgrafo y su correspondiente probabilidad, como resultado de un
nmero infinito de muestras aleatorias independientes, cada una de tamao n,
provenientes de la misma poblacin.
De la distribucin muestral los elementos ms importantes son el valor
esperado y la varianza. Por otro lado, la distribucin muestral de un estadgrafo no
tiene la misma forma que la funcin de probabilidad de la poblacin de la cual
proviene la muestra.
Por ejemplo, suponga que se tiene inters en el nmero de clientes que
llegan a los bancos de la ciudad, entre las 9:00 y las 10:00 de la maana, teniendo
certeza que cada una de las llegadas es independiente entre s, se decide
seleccionar en forma aleatoria cinco bancos durante 8 das. Para cada muestra
diaria, se procede a contar la cantidad de personas que ingresan durante el
intervalo de una hora en los cinco bancos. Con tales consideraciones se obtienen los
resultados del cuadro (2.1).
Cuadro (2.1)
NUMERO DE LLEGADAS A LOS BANCOS EN UNA HORA
DIA
BANCO
1 2 3 4 5 6 7 8
BISA 63 59 50 36 36 38 55 58
MERCANTIL-STA. CRUZ 32 44 25 57 46 45 45 50
UNION 54 39 39 68 58 50 51 53
GANADERO 52 46 34 58 54 38 54 51
DE CREDITO 48 44 56 67 56 58 41 38
Promedio (x) 50 46 40 57 50 46 49 50
Fuente: Elaboracin propia.
En este caso, el estadstico es el promedio o media muestral y todos los
valores obtenidos, conforman la distribucin muestral de x.
2.4.1. Distribucin muestral de x (promedio muestral).- Uno de los
estadgrafos ms importante es el promedio de un conjunto de variables aleatorias
e independientemente distribuidas, llamado tambin promedio o media muestral.
Este estadgrafo tiene un papel muy importante en problemas de decisiones para
medias poblacionales desconocidas.
II-11
Por tanto, si: x
1
, x
2
, x
3
,....., x
n
, es una muestra aleatoria de n variables
aleatorias independientes e igualmente distribuidas con E(x
i
)= y varianza
VAR(x
i
) =
2
, para i = 1, 2, 3,...., n; se define a la media muestral como:

=
=
+ + +
=
n
1 i
i n 2 1
n
x
n
x ......... x x
x (2.3)
Si se aplica muestreo con reemplazo, entonces se cumple que:
= = ) x ( E
x
(2.4)
n
) x ( V
2
2
x
o
= = o (2.5)
de lo que se deduce:
n
x
o
= o (2.6)
que se denomina error tpico de la media muestral o desviacin standard de la
distribucin muestral de la media muestral.
Este resultado es vlido sin importar la distribucin de probabilidad de la
poblacin de inters, siempre y cuando la varianza tenga un valor finito.
Lo expuesto anteriormente hace posible encontrar el error tpico de la media
sin conocer la distribucin de x .
Para el caso del muestreo sin reemplazo, se tiene:
=
x
(2.7)
n ) 1 N (
) n N (
2
2
x
o
= o (2.8)
En la que:
N = Nmero de elementos de la poblacin.
(N-n)/(N-1) = correccin finita de la poblacin
II-12
Cuando N tiende a infinito la ecuacin (2.8) se transforma en la ecuacin
(2.6).
El error tpico de la media vara proporcionalmente a la desviacin standard
de la poblacin, pero vara inversamente proporcional a la raz cuadrada del tamao
de la muestra, es decir, dado el tamao de la muestra, cuanto mayor sea el valor
de tanto mayor ser el valor de
x
o , y dado , cuanto mayor sea el valor de n
menor ser el valor de
x
o . Por tanto, se deduce que cuanto mayor sea la muestra,
se tendr ms certeza de que la media muestral es una buena estimacin de la
media poblacional.
2.4.2. Teorema central del lmite.- Sean: x
1
, x
2
, x
3
,....., x
n
un conjunto de n
variables aleatorias independientes e igualmente distribuidas, tal que E(x
i
)= y
VAR(x
i
)=
2
, tienen un valor finito para i= 1, 2, 3,..., n.
Si: Y
n
= x
1
+ x
2
+ x
3
+ ..... + x
n
(2.9)
con valor esperado y varianza:
E(Y
n
) = n (2.10)
VAR(Y
n
)= no
2
(2.11)
entonces la variable aleatoria z, estandarizada de la siguiente manera:
n
nu y
z
= (2.12)
se aproxima a una Distribucin Normal con media igual a cero y varianza igual a 1,
siempre y cuando "n tienda al infinito. Esto significa que la suma de un nmero
grande (n 30) de variables aleatorias tendr una Distribucin Normal Standard,
independiente de la distribucin de probabilidad de la variable aleatoria original.
Ahora bien, efectuando operaciones algebraicas se tiene tambin que la
ecuacin (2.12) se puede expresar como:
n
x
z
o

= (2.13)
que tambin se ajusta a una distribucin Normal standarizada.
II-13
En otras palabras, para n grande (n 30), la variable aleatoria
n
x
z
o

= se
aproxima a una Distribucin Normal con media 0 y varianza 1, sin importar el
modelo de probabilidad a partir del cual se obtuvo la muestra.
2.5. 2.5 Clculo del tamao de la muestra.- Dependiendo del tamao de la
poblacin objetivo, el clculo de n, se distingue si la poblacin es finita o infinita.
2.5.1 Clculo del tamao de muestra para poblaciones infinitas.-
2.5.1.1. Teorema o desigualdad de Tchebycheff.- Si una variable aleatoria x
tiene una distribucin de probabilidad conocida, se podr conocer la media () y la
varianza (
2
). Pero, si se conoce y
2
no se puede determinar la distribucin de
probabilidad de x, sin embargo, se puede calcular un lmite superior (o inferior)
para la probabilidad del tipo (| | < ).
La desigualdad de Tchebycheff indica: Si la variable aleatoria x con funcin de
probabilidad f(x) (generalmente desconocida) tiene media y varianza conocidos,
entonces para cualquier k>1, se cumple que:
2
k
1
1 ) k x ( p > o < (2.14)
La ecuacin (2.14) indica que la probabilidad de que x tome un valor dentro
del intervalo (-k;+k) es por lo menos
2
k
1
1 .
Puesto que (x- k) y (x- k) son eventos complementarios tambin
se cumple:
2
k
1
) k x ( p < o > (2.15)
Lo anterior significa que la probabilidad de que x tome algn valor fuera del
intervalo (-k;+k) es a lo ms 1/k.
La ventaja ms importante de este teorema es que se aplica a todo tipo de
distribucin y su desventaja es que slo proporciona un lmite superior (o inferior,
segn sea el caso) de probabilidad.
II-14
2.5.1.2. Ley de los grandes nmeros.- El teorema de Tchebycheff se aplica a la
variable x, pero si este Teorema se aplicase a la variable x , esta aplicacin se
denomina Ley de los grandes nmeros, la cual indica:
Sean: x
1
, x
2
, x
3
,....., x
n
, n variables aleatorias independientes e igualmente
distribuidas, tales que E(x
i
)= y VAR(x
i
)=
2
, tienen un valor finito para i= 1,2,
3,...., n, y considerando que

=
=
n
i
i
n
x
x
1
es un buen estimador de (media
poblacional).
A partir del Teorema de Tchebycheff para poblacin:
2
k
1
1 ) k x ( p > o < (2.16)
Aplicando a la variable aleatoria x , se tiene:
2
x x
k
1
1 ) k x ( p > o < (2.17)
Puesto que =
x
y
n
x
o
= o , se tiene:
2
k
1
1 )
n
k x ( p >
o
< (2.18)
o tambin:
2
k
1
)
n
k x ( p <
o
> (2.19)
O expresado de otra forma, haciendo que:
n
k
e
o
= (2.20)
2
2
ne
1 ) e x ( p
o
> < (2.21)
de lo que se deduce que:
2
e
k
n |
.
|
\
| o
> (2.22)
II-15
La Ley de los grandes nmeros indica que se puede determinar una muestra
aleatoria de tamao n de una poblacin con funcin de probabilidad f(x), tal que la
probabilidad de que x difiera de en menos de una cantidad arbitrariamente
pequea e, llegue a ser tan prxima a 1 cuanto ms grande sea n. Es decir, si n
crece, la probabilidad de que x valga se acerca a 1.
2.5.2. Clculo del tamao de muestra para poblaciones finitas.-
Adicionalmente, a la ecuacin presentada con anterioridad, deducida de la Ley de
los Grandes Nmeros, la cuales es aplicada para poblaciones infinitas, ya sea el
caso en el que se traten de caracteres cualitativos o cuantitativos, existen otras dos,
las cuales son utilizadas con bastante frecuencia en los estudios de mercado para
cuando las poblaciones sean finitas. Dichas ecuaciones, deducidas empricamente,
son:
- Carcter cuantitativo:
n = (2.23)
- Carcter cualitativo:
n = (2.24)
En la que:
N = tamao de la poblacin.
o
2
= varianza poblacional (en caso de no disponer de ella, se
utiliza su estimador respectivo)
e = error absoluto
P = proporcin poblacional correspondiente al atributo de inters
(en caso de no disponer de ella se estima a partir de una
muestra piloto)
Q = 1 - P
Z
tablas
= valor perteneciente a la Distribucin Normal Standard
correspondiente a un nivel de confianza (1-o)%, siendo
los ms frecuentes:
Z
tablas
= 2.575 1-o = 99%
Z
tablas
= 1.96 1-o = 95%
Z
tablas
= 1.645 1-o = 90%
II-16
2.6. Determinacin del tamao de muestra en el caso del muestreo
aleatorio estratificado.- El problema de conceder a cada estrato la adecuada
representacin en la muestra (conociendo de antemano el tamao de la muestra n)
se conoce con el nombre de afijacin. Para tal efecto se conocen tres criterios:
2.6.1. Afijacin igual.- Siendo L el nmero de estratos y n el tamao de la
muestra, ambos conocidos de antemano, entonces:
L
n
n ..... n n
L 2 1
= = = = (2.25)
2.6.2. Afijacin proporcional.- Considerando N
i
el tamao de la poblacin en el
estrato i-simo y denominando fraccin de muestreo al cociente n/N, este criterio
consiste en que, en cada estrato, la fraccin de muestreo permanezca constante,
por tanto:
i i
N
N
n
n = i= 1,2,...,L (2.26)
Para calcular el estimador de la media poblacional x , se emplea la relacin:
=
=
n
1 i
i i
N
x N
x (2.27)
2.6.3. Afijacin ptima.- Consiste en que cada tamao de la muestra por estrato
depende del tamao de la poblacin en el mismo (N
i
) y de la dispersin de la
variable que se estudia, tomndose como medida de dicha dispersin a la
desviacin standard
i
en el correspondiente estrato i-simo, por lo que, los valores
de n
i
sern:
=
=
L
i
i i
i i
i
N
n N
n
1
(2.28)
El estimador de la media poblacional se calcula empleando la ecuacin (2.27).
II-17
BIBLIOGRAFA:
(1) CANAVOS George. "Probabilidad y estadstica. Aplicaciones y mtodos,
Mxico, 1994.
(2) HINES Walter y MONTGOMERY David. "Probabilidad y Estadstica para
Ingeniera y Administracin. McGraw-Hill, Mexico, 1996.
(3) KAZMIER Leonard. "Estadstica aplicada a Administracin y Economa,
McGraw-Hill, Mxico, 1991.
(4) LEVIN Richard y RUBIN David. "Estadstica para Administradores, Prentice
Hall, Mxico, 1996
(5) MILLER Irwin, FREUND John y JOHNSON Richard. "Probabilidad y estadstica
para ingenieros, Mxico, 1994.
(6) MOYA Rufino y SARAVIA Rufino. "Probabilidad e Inferencia Estadstica. Per,
1988.
==========================
Teora de la estimacin estadstica
III-1
III TEORA DE LA ESTIMACIN ESTADSTICA
3.1 Introduccin.- La estimacin estadstica consiste en el proceso de aproximar un
parmetro de poblacin desconocido, mediante un estadgrafo obtenido a partir de
observaciones efectuadas en una muestra.
El proceso de estimacin, bsicamente, consiste en los siguientes pasos:
a) Seleccionar un estimador para inferir el parmetro deseado del conjunto o universo
bajo estudio.
b) Seleccionar una muestra de este conjunto.
c) Valorar al estimador de la muestra seleccionada.
d) Inferir, de este valor, el parmetro buscado de ese universo.
La estimacin estadstica se divide en estimacin puntual y estimacin por
intervalos.
3.2 Estimacin puntual.- La estimacin puntual consiste en estimar un slo valor
como estimacin de un parmetro de poblacin desconocido, se denomina puntual
porque se utiliza un slo punto del conjunto de todos los valores posibles.
En el caso general, si u es el parmetro desconocido de una variable aleatoria x
con distribucin de probabilidad f(x,u), y sean x
1
, x
2
, x
3
,...., x
n
, una muestra aleatoria de
n valores de x tomados de esta distribucin; se denominar
`
(theta circunflejo) a la
estimacin de u calculada a partir de dicha muestra de n observaciones; de esta
manera,
`
es un estadgrafo muestral con una distribucin muestral terica.
De todas maneras, en toda muestra existen errores, puesto que la muestra es
una parte pequea de todo el conjunto de observaciones posibles, por lo que, es muy
arriesgado afirmar que el valor de un estimador obtenido a partir de una muestra es el
correspondiente al valor del parmetro poblacional.
3.2.1 Propiedades que debe tener un buen estimador.- Para determinar un buen
estimador se aplican cuatro propiedades: consistencia, ausencia de sesgo, eficiencia y
suficiencia.
A lo largo de todo el anlisis se supondr la existencia de un slo parmetro
desconocido, sin embargo, en condiciones generales estos conceptos pueden
extenderse a un nmero mayor de parmetros desconocidos.
3.2.1.1 Consistencia.- Es razonable esperar que un buen estimador de un parmetro u
sea cada vez mejor conforme crece el tamao de la muestra. Esto es, a medida que
III-2
la informacin en una muestra aleatoria se vuelve ms completa, la distribucin
muestral de un buen estimador se encuentra cada ms concentrada alrededor del
parmetro u. Se tendr un mejor estimador de si se basa en 30 observaciones que si
se lo hace en 18.
Un estimador consistente es el que tiende a tener una probabilidad de acercarse
al parmetro de la poblacin a medida que el tamao de la muestra crece, es decir, si
`
es un estadgrafo muestral calculado a partir de una muestra de tamao n y u es el
parmetro de la poblacin que se va ha estimar, entonces,
`
es un estimador
consistente de u si, para todo nmero positivo arbitrariamente pequeo e, se cumple la
ecuacin (3.1).
( ) 1 = s

)
`
lim e p
n
(3.1)
La ecuacin (3.1) se denomina convergencia en probabilidad, es decir, si un
estimador es consistente converge en probabilidad al valor del parmetro que est
intentando estimar conforme el tamao de la muestra crece.
3.2.1.2 Ausencia de sesgo.- Para comprender mejor esta propiedad, se define el Error
Cuadrtico Medio de
`
como ( )
(

2

`
E , es decir, el Error Cuadrtico Medio es el
valor esperado del cuadrado de la diferencia entre u y
`
.
Desarrollando la expresin anterior y efectuando operaciones se tiene:
( ) | |
2
2
2
)
`
(
`
`

E E + =
(
(3.2)
La ecuacin (3.2) significa que el error cuadrtico medio es la suma de 2
cantidades no negativas:
2
`
u
o es la varianza del estimador y el trmino| | )
`
( E u u , el cual
se denomina sesgo del estimador, elevado al cuadrado.
Es deseable que el error cuadrtico medio sea lo ms pequeo posible, para lo
cual la varianza del estimador (
2
`
u
o ) debe ser lo ms pequea posible y el sesgo
prximo a cero o cero.
En vista de que la varianza del estimador (
2
`
u
o ) no es posible controlar, lo
deseable ser tener un estimador cuyo sesgo sea cero, estimador al que se denominar
insesgado.
Puesto que u
`
, estimador de u, es una variable aleatoria, como tal tiene una
distribucin de probabilidad con media y varianza, se dice, que u
`
es un estimador
III-3
insesgado de u, si el valor esperado de u
`
es igual a u, es decir, si:
u = u)
`
( E (3.3)
Dicho de otra forma, es de esperar que si se toman muchas muestras de tamao
dado partiendo de la misma distribucin, y si de cada una se obtiene un valor de u
`
, la
media aritmtica de todos los valores de u
`
han de estar muy cerca de u.
3.2.1.3 Eficiencia.- Un estimador u
`
es eficiente, si entre todos los estimadores
insesgados, tiene varianza ms pequea. Dicho estimador tambin se llama estimador
insesgado de varianza mnima.
En otras palabras, suponiendo que de la misma muestra se obtienen 2
estimadores
1
`
u y
2
`
u y, ambos son estimadores insesgados de u; adems, si por
ejemplo la varianza de
1
`
u es menor que la varianza de
2
`
u , se dice que
1
`
u es ms
eficiente que
2
`
u , por que sus valores estn ms cerca de u que los de
2
`
u .
3.2.1.4 Suficiencia.- Un estimador suficiente del parmetro u, es aquel que utiliza toda
la informacin pertinente sobre u que se puede disponer de la muestra.
Por ejemplo, si se toma una muestra de 30 observaciones con el fin de estimar ,
y si
1
x ` es el promedio de la primera y ltima observaciones,
2
x ` es el promedio de las
10 primeras observaciones y
3
x ` es el promedio de las 5 observaciones centrales, se
concluye que
2
x ` es el estimador suficiente entre los 3 estimadores calculados.
3.2.2 Estimacin por el mtodo de mxima verosimilitud.- Aunque un
experimentador decide sobre qu propiedades desea que posea un estimador, tiene
que enfrentarse con el problema de cmo obtener dichos estimadores. Uno de los ms
utilizados es el mtodo de mxima verosimilitud.
Bsicamente, el mtodo de estimacin por mxima verosimilitud selecciona como
estimador a aquel valor del parmetro que tiene la propiedad de maximizar el valor de la
probabilidad de la muestra aleatoria observada.
El procedimiento consiste en considerar todos los valores imaginables del
parmetro de poblacin, que se encuentran en la muestra, y calcular la probabilidad de
que se hubiera obtenido el estadgrafo muestral particular, dados todos los valores
imaginables del parmetro.
III-4
Sea una variable aleatoria cuya funcin de cuanta o densidad f(x), y con un slo
parmetro u; suponiendo que se efecta n veces el experimento correspondiente, con
lo que se obtiene una muestra de n nmeros: x
1
, x
2
, x
3
,, x
n
.
Adems, si existe independencia de los n ensayos, entonces la probabilidad de
que una muestra de tamao n conste precisamente de estos n valores est expresada
por una funcin L(u), funcin que se denomina funcin de verosimilitud y que se
muestra en la ecuacin (3.4).
) ; x ( f ......... ) ; x ( f ) ; x ( f ) ; x ( f ) ( L
n 3 2 1
u - - u - u - u = u (3.4)
Los valores ) ; x ( f ......... ) ; x ( f ) ; x ( f ) ; x ( f ) ( L
n 3 2 1
u - u - u - u = u dependen del
parmetro u, luego, L depende de x
1
, x
2
, x
3
,...., x
n
y u. Si x
1
, x
2
, x
3
,.., x
n
son constantes
y conocidos, L ser funcin slo de u.
La estimacin por la mxima verosimilitud consiste en hallar el valor de u de
manera que L tenga un valor mximo, para lo que ser necesario derivar L respecto de
u, es decir:
0
L
=
u c
c
(3.5)
obteniendo el estimador u
`
, llamado estimador mximo verosmil de u.
En virtud a que L(u), Ln L(u) y Log L(u) tienen su mximo para el mismo valor de
u, en la mayor parte de los casos es posible utilizar esta propiedad para facilitar los
clculos. Por lo que se tiene:
0
LnL
=
u c
c
(3.6)
0
LogL
=
u c
c
(3.7)
Para los casos en que existen varios parmetros, la funcin de mxima
verosimilitud es:
) ,.. , ; x ( f ... ) ,... , ; x ( f ) ,.. , ; x ( f ) ,... , ( L
k 2 1 n k 2 1 2 k 2 1 1 k 2 1
u u u - - u u u - u u u = u u u (3.8)
Si se satisfacen ciertas condiciones de regularidad, el punto en que la
III-5
verosimilitud es mxima es una solucin del sistema de k ecuaciones compuesta por:
0
L
1
=
u c
c
(3.9)
0
L
1
=
u c
c
(3.10)
..........
..........
0
L
k
=
u c
c
(3.11)
Tambin en este caso puede ser ms fcil trabajar con el logaritmo (natural o
decimal) de la funcin de verosimilitud.
Este mtodo tiene la propiedad de proporcionar estimadores que son funciones
de estadsticas suficientes, siempre y cuando el estimador mximo verosmil sea nico.
Adems, tambin proporciona un estimador eficiente, si es que existe. Sin embargo, la
mayora de estos estimadores son sesgados.
La desventaja de este mtodo radica en el hecho de que no da medida alguna de
la precisin de la estimacin y no indica la magnitud del error en que se puede incurrir.
3.3 Estimacin por intervalos.- La estimacin por intervalos describe un intervalo de
valores dentro del cual es posible que se encuentre un parmetro poblacional, ms
propiamente, consiste en determinar un intervalo (a,b) que comprende un parmetro de
poblacin u con cierta probabilidad (1- ) , es decir:
o = < u < 1 ) b a ( p (3.12)
En esta expresin:
- a y b son variables aleatorias que dependen del estimador
`
y que se denominan:
lmite de confianza inferior y lmite de confianza superior, respectivamente.
- Al intervalo (a,b) se denomina intervalo de confianza y es un estimador de intervalo
que se construye respecto a
`
y que permite especificar el alcance de la estimacin
que se est efectuando.
- b-a es una medida de la precisin.
- (1-) se denomina nivel de confianza y representa la confianza probabilidad de
que en ese intervalo se incluya el parmetro que se estima. Una probabilidad ms
alta representa ms confianza.
III-6
Para tal efecto, se puede construir distintos intervalos de confianza, ya sean
unilaterales o bilaterales:
- Intervalo de confianza para la media aritmtica.
- Intervalo de confianza para la diferencia de dos medias aritmticas.
- Intervalo de confianza para la proporcin.
- Intervalo de confianza para la varianza.
- Intervalo de confianza para la razn de dos varianzas.
3.3.1 Intervalo de confianza bilateral para la media aritmtica de la
poblacin.- Para estimar un intervalo de confianza para , se toma una muestra
aleatoria de n observaciones: x
1
, x
2
, x
3
,....., x
n
, y de dicha muestra se calcula el
estimador puntual x .
En el cuadro (3.1) se muestran los intervalos de confianza para la media
poblacional tanto para Distribuciones Normales como para las que no lo son.
Cuadro (3.1)
INTERVALOS DE CONFIANZA PARA ESTIMAR LA
MEDIA ARITMTICA DE LA POBLACION
DISTRIBUCION
DE LA POBLACIN
TAMAO DE
MUESTRA

2
CONOCIDO

2
DESCONOCIDO
Normal Grande (n> 30)
x tablas
z x o
x tablas
s z x
Normal Pequea (n<30)
x tablas
z x o
x tablas
s t x
Cualquiera Grande (n> 30)
x tablas
z x o
x tablas
s z x
FUENTE: Elaboracin propia.
En la que:
( )
( ) 1

= =
n
x x
s
n
i
i
(3.13)
- = = o s ` estimador de la desviacin standard poblacional = desviacin standard
muestral.
n
s
s
x
x = =
.
(3.14)
- = =
.
x
x s estimador de la desviacin standard de la distribucin muestral del
estadgrafo x .
III-7
- =
tablas
z valor absoluto de z perteneciente a la Distribucin Normal Standarizada
correspondiente a un valor de (1-o) central.
- =
tablas
t valor absoluto de t perteneciente a la Distribucin t correspondiente a un
valor de (1-o) central con v = n-1 grados de libertad.
3.3.2 Intervalo de confianza bilateral para la diferencia de dos medias
aritmticas poblacionales.- En el cuadro (3.2), considerando dos muestras
aleatorias de tamaos n
1
y n
2
respectivamente, se presentan los intervalos de confianza
para la diferencia entre medias aritmticas de dos distribuciones (
1
-
2
).
Cuadro (3.2)
INTERVALOS DE CONFIANZA PARA ESTIMAR LA DIFERENCIA ENTRE MEDIAS
ARITMTICAS DE DOS POBLACIONES
DISTRIBU-
CION DE
POBLACIN
TAMAO DE
MUESTRAS

1
2
y
2
2
CONOCIDOS

1
2
y
2
2
DESCONOCIDOS
Normal (n
1
,n
2
> 30)
( )
2 1
x x tablas 2 1
z x x

o ( )
2 1
x x tablas 2 1
s z x x

Normal (n
1
,n
2
< 30)
( )
2 1
2 1 x x tablas
z x x

( )
2 1
2 1
1 1
n n
S t x x
p tablas
+
Cualquiera (n
1
,n
2
> 30)
( )
2 1
x x tablas 2 1
z x x

o ( )
2 1
x x tablas 2 1
s z x x

FUENTE: Elaboracin propia.
En la que:
2
2
2
1
2
1
x x
n n
2 1
o
+
o
= o

(3.15)
- = o

2 1
x x
desviacin standard de la distribucin muestral de la diferencia de dos
medias muestrales.
2
2
2
1
2
1
x x x x
n
S
n
S
S `
2 1 2 1
+ = = o

(3.16)
-
2 1
x x
S

= estimador de la desviacin standard de la distribucin muestral de la
diferencia de dos medias muestrales.
III-8
( ) ( )
2
1 1
2 1
2
2 2
2
1 1
+
+
=
n n
S n S n
S
p
(3.17)
- S
p
= estimador combinado de la desviacin standard de la distribucin muestral de la
diferencia de dos medias muestrales.
-
tablas
t = valor absoluto de t perteneciente a la Distribucin t correspondiente a un
valor de (1-o) central con v grados de libertad.
2 n n v
2 1
+ = (3.18)
3.3.3 Intervalo de confianza bilateral para la varianza de una
Distribucin Normal.- Para estimar un intervalo de confianza para o
2
que
pertenece a una Distribucin Normal, se toma una muestra aleatoria de n
observaciones: x
1
, x
2
, x
3
,....., x
n
, y de dicha muestra se calcula el estimador puntual S
2
.
Es posible demostrar que la variable:
( )
2
2
2
1
S n
= (3.19)
pertenece a una Distribucin Chi cuadrado con (n-1) grados de libertad, tal como se
muestra en el siguiente grfico.
f(X )
0 X
1-o
1o/2, n1
o / 2
o / 2
o/2, n1 X X
Para desarrollar el intervalo de confianza, se puede observar del grfico:
o =
|
|
.
|
\
|
_ s _ s _

o
1 p
2
1 n ,
2
2 2
1 n ,
2
1
(3.20)
Efectuando operaciones se tiene:
III-9
( )
o =
|
|
.
|
\
|
_ s
o
s _

o
1
s 1 n
p
2
1 n ,
2
2
2
2
2
1 n ,
2
1
(3.21)
( ) ( )
o =
|
|
|
.
|
\
|
_

s o s
_
o

o
1
s 1 n s 1 n
p
2
1 n ,
2
1
2
2
2
1 n ,
2
2
(3.22)
3.3.4 Intervalo de confianza bilateral para la proporcin de una
Distribucin Binomial.- Considerando que se ha tomado una muestra aleatoria
de n observaciones de una poblacin con Distribucin Binomial con parmetros n y p;
para estimar el valor de p, se obtiene x' observaciones en esta muestra que
pertenecen a la clase de inters y se utiliza el estimador puntual:
n
x
p
'
= ` (3.23)
Es posible demostrar que:
p p E
P
= =

) ( (3.24)
( )
( )
n
p p
P
p V

= =
1
2
(3.25)
( )
n
p p
P
=
1
(3.26)
Solamente para el caso de tener un tamao de muestra grande (n > 30),
aplicando el Teorema Central del Lmite y por analoga con el caso de la estimacin de
la media aritmtica para el caso de una distribucin cualquiera (con n > 30 y varianza
conocida), el intervalo de confianza para la proporcin es:
p tab
z p
(3.27)
Ahora bien, puesto que en la expresin (3.26) se desconoce p, se reemplaza
por su estimador p , , por lo cual se tiene el intervalo (3.28).
( )
n
p p
z p
tablas
1

(3.28)
BIBLIOGRAFA:
(1) HINES Walter y MONTGOMERY David (1996): Probabilidad y Estadstica para
Ingeniera y Administracin. McGraw-Hill, Mxico.
III-10
(2) KAZMIER Leonard (1991): Estadstica aplicada a la administracin y economa.
McGraw-Hill, Mxico.
(3) LEVIN Richard y RUBIN David (1996): Estadstica para administradores.Prentice-
Hall, Mxico
(4) MILLER Irwin, FREUND John y JOHNSON Richard (1994): Probabilidad y
estadstica para ingenieros, Mxico.
(5) MOYA Rufino (1988): Estadstica Descriptiva. Per.
(6) TRIOLA Mario F. (2000): Estadstica elemental. Prentice-Hall, Mxico.
================================
III-11
INDICE
Pg.
4.1 Introduccin................................................................................... 1
4.2 Estimacin puntual......................................................................... 1
4.2.1 Propiedades que debe tener un buen estimador..................... 1
4.2.1.1 Consistencia............................................................... 2
4.2.1.2 Ausencia de sesgo...................................................... 2
4.2.1.3 Eficiencia................................................................... 3
4.2.1.4 Suficiencia................................................................. 3
4.2.2 Estimacin por el mtodo de mxima verosimilitud................... 3
4.3 Estimacin por intervalos................................................................ 5
4.3.1 Intervalos de confianza bilaterales para la media de la
poblacin
6
4.3.2 Intervalos de confianza bilaterales para la diferencia de dos medias
poblacionales............................................................. 7
4.3.3 Intervalo de confianza bilateral para la varianza de una Distribucin
Normal............................................................... 8
4.3.4 Intervalo de confianza bilateral para la proporcin de una Distribucin
Binomial............................................................. 8
Pruebas de hiptesis estadsticas
IV-1
IV PRUEBAS DE HIPTESIS ESTADSTICAS
4.1 Introduccin.- La inferencia relativa a un parmetro cualquiera de una
poblacin suele hacerse a travs de 2 mtodos: estimando el parmetro en base de
una muestra aleatoria o realizando una prueba sobre la aceptacin o refutacin del
valor del parmetro. En este captulo se estudiar el segundo mtodo: la prueba o
contraste de hiptesis estadstica.
4.2 Conceptos bsicos.- A continuacin se detallan las principales definiciones
referidas a las pruebas estadsticas.
4.2.1 Hiptesis estadstica.- Una hiptesis estadstica es un enunciado que se
hace acerca de la distribucin de probabilidad de una o ms variables aleatorias. Las
hiptesis estadsticas a menudo involucran uno ms parmetros.
Se puede especificar una hiptesis indicando el tipo de distribucin y el valor
o valores del parmetro que la definen. En la prctica, la distribucin de poblacin,
generalmente se asume, por tanto, una hiptesis se especifica con el valor o los
valores del parmetro.
4.2.2 Hiptesis nula e hiptesis alterna.- La hiptesis nula, denotada por H
0
, es
la hiptesis estadstica que se desea probar; mientras que, la hiptesis alterna,
denotada por H
1
, es una suposicin de lo que sera si es que no se cumple la
hiptesis nula.
La hiptesis nula suele determinarse de tres maneras:
- Puede resultar de la experiencia o conocimiento pasado del futuro.
- Puede determinarse a partir de alguna teora o modelo.
- Cuando el valor del parmetro poblacional es resultado de consideraciones
experimentales.
Una hiptesis nula debe considerarse como verdadera a menos que existiera
suficiente evidencia en contra (evidencia que es proporcionada por la muestra).
4.2.3 Prueba de hiptesis estadstica.- La prueba de hiptesis estadstica es
una metodologa que, en base de los valores experimentales observados, conduce a
una decisin, ya sea aceptar o rechazar una hiptesis bajo consideracin.
Existen dos tipos de pruebas, las pruebas unilaterales y las pruebas
bilaterales.
IV-2
4.2.3.1 Pruebas unilaterales.- Estas pruebas se clasifican en:
4.2.3.1.1 Prueba de la cola inferior o cola izquierda.- En este caso las
hiptesis se plantean de la siguiente forma:
H
0
: u > a H
0
: u > a H
0
: u = a
H
1
: u < a H
1
: u < a H
1
: u < a
4.2.3.1.2 Prueba de la cola superior o prueba de la cola derecha.- Para este
caso las hiptesis se plantean de la siguiente manera:
H
0
: u s a H
0
: u < a H
0
: u = a
H
1
: u > a H
1
: u > a H
1
: u > a
4.2.3.2 Pruebas bilaterales o prueba de dos colas.- En este caso, las
hiptesis se formulan de la siguiente forma:
H
0
: u = a
H
1
: u = a
4.2.4 Tipos de errores.- La decisin para aceptar o rechazar la hiptesis nula (H
0
)
se basa en los datos de la muestra aleatoria. Cuando se toma una decisin
utilizando la informacin de una muestra aleatoria esta decisin se encuentra sujeta
a error. En las pruebas de hiptesis pueden cometerse dos tipos de errores: error
del tipo I y error del tipo II.
4.2.4.1 Error tipo I.- El error de tipo I se comete cuando se rechaza la hiptesis
nula (H
0
) siendo que en realidad es verdadera. La probabilidad de cometer el error
de tipo I es igual a o, es decir, es el nivel de significacin. Los niveles de
significacin o significancia ms utilizados son: 10%, 5% y 1%.
El nivel de confianza es el complemento del nivel de significacin, de tal
forma que se cumple la ecuacin (4.1).
nivel de confianza + nivel de significacin = 1 = 100% (4.1)
4.2.4.2 Error tipo II.- El error de tipo II se comete cuando se acepta la hiptesis
nula (H
0
) cuando en realidad es falsa. La probabilidad de cometer el error tipo II se
representa por .
IV-3
En el cuadro (4.1) se muestran todas las situaciones que se pueden presentar
en la toma de decisiones.
CUADRO (4.1)
OPCIONES QUE SE PRESENTAN EN LA TOMA DE DECISIONES
DECISION H
0
VERDADERA H
1
VERDADERA
ACEPTAR H
0
Decisin correcta Error tipo II
RECHAZAR H
0
Error tipo I Decisin correcta
Por ejemplo, si:
H
0
= el medicamento XYZ no es peligroso.
H
1
= el medicamento XYZ es peligroso.
- Si H
0
es verdadera y se acepta, se toma una decisin correcta.
- Si H
0
es falsa y se rechaza, se toma una decisin correcta.
- Si H
0
es falsa (es decir, el medicamento es peligroso) y se acepta, se lanza al
mercado una droga peligrosa. En este caso se comete un error del tipo II.
- Si H
0
es verdadera y se la rechaza, se est eliminado en el sector salud a un
medicamento que podra ser benfico. Se dice que en este caso se comete un
error del tipo I.
Se ha demostrado que para cualquier tamao de muestra, la probabilidad de
cometer un error tipo I guarda una proporcin inversa a la probabilidad de cometer
uno del tipo II (si disminuye, aumenta y viceversa). La probabilidad de cometer
simultneamente ambos errores decrece a medida que el tamao de muestra
aumenta; sin embargo, a un aumento en el tamao de la muestra corresponde un
aumento en el costo del procedimiento.
4.2.5 Estadgrafo de prueba.- El estadgrafo de prueba es el estimador
insesgado del parmetro que se prueba (obtenido de una muestra), el cual se
transforma posteriormente, para comparar con los valores de tablas.
Por ejemplo, para probar el valor hipottico de la media poblacional (), se
considera la media de una muestra aleatoria ) x ( de dicha poblacin como
estadgrafo de prueba, para posteriormente standarizarlo.
4.2.6 Regiones de aceptacin y rechazo.- La regin de aceptacin es la regin
que contiene los valores de la variable standarizada para las cuales se da por vlida
la hiptesis nula.
IV-4
La regin de rechazo o regin crtica es la regin que lleva al rechazo de la
hiptesis nula en consideracin, lo cual significa aceptar la hiptesis alterna.
4.3 Etapas bsicas en una prueba de hiptesis.- En todas las pruebas de
hiptesis los pasos que se siguen son:
1 Plantear la hiptesis nula y la hiptesis alterna.
2 Especificar el nivel de significacin a utilizar.
3 Elegir el estadgrafo de prueba ms adecuado y su correspondiente
transformacin.
4 Establecer la regin de aceptacin y rechazo, especificando el o los valores
crticos.
5 Calcular el estadgrafo de prueba empleando una muestra aleatoria de tamao n
y obtener su correspondiente transformacin.
6 Tomar una decisin, es decir, aceptar o rechazar H
0
.
4.4 Prueba de hiptesis sobre la media aritmtica de una Distribucin con
varianza conocida.- En este caso se utiliza la Distribucin Normal
considerando la standarizacin que se muestra en la ecuacin (4.2).
n
x
z
o

= (4.2)
En el cuadro (4.2) se muestran las regiones de aceptacin para cada caso.
CUADRO (4.2)
REGIONES DE ACEPTACIN PARA LA MEDIA ARITMTICA DE UNA
DISTRIBUCIN CON VARIANZA CONOCIDA
Parmetro Distribucin n Hiptesis Regin de aceptacin
Normal n> 30
H
0
: = a
H
1
: = a
[-z
1-o/2
; +z
1-o/2
]
Normal n> 30
H
0
: > a
H
1
: < a
[z
o
; +]
Normal n> 30
H
0
: s a
H
1
: > a
[-; z
1-o
]
Normal n< 30
H
0
: = a
H
1
: = a
[-z
1-o/2
; +z
1-o/2
]
Normal n< 30
H
0
: > a
H
1
: < a
[z
o
; +]
Normal n< 30
H
0
: s a
H
1
: > a
[-; z
1-o
]
Cualquiera n> 30
H
0
: = a
H
1
: = a
[-z
1-o/2
; +z
1-o/2
]
IV-5
Cualquiera n> 30
H
0
: > a
H
1
: < a
[z
o
; +]
Cualquiera n> 30
H
0
: s a
H
1
: > a
[-; z
1-o
]
Cualquiera n< 30
H
0
: = a
H
1
: = a
Se aplican pruebas no
parmetricas
Cualquiera n< 30
H
0
: > a
H
1
: < a
parmetricas
Cualquiera n< 30
H
0
: s a
H
1
: > a
parmetricas
4.5 Prueba de hiptesis sobre la media aritmtica de una distribucin
con varianza desconocida.- La Distribucin "t" es apropiada a aplicar cuando
la muestra proviene de una distribucin con varianza desconocida y la variable
pertenece a una Distribucin Normal o se puede aproximar a sta (cuando el tamao de
muestra es menor a 30). En este caso el estadgrafo de prueba es x y su
transformacin es la que se muestra en la ecuacin (4.3).
n
S
x
t

= (4.3)
CUADRO (4.3)
REGIONES DE ACEPTACIN PARA LA MEDIA ARITMTICA DE UNA
DISTRIBUCIN CON VARIANZA DESCONOCIDA
Normal n> 30
H
0
: = a
H
1
: = a
[-t
1-o/2,n-1
; t
1-o/2,n-1
]
Normal n> 30
H
0
: > a
H
1
: < a
[t
o,n-1
; +]
Normal n> 30
H
0
: s a
H
1
: > a
[-; t
1-o,n-1
]
Normal n< 30
H
0
: = a
H
1
: = a
[-t
1-o/2,n-1
; t
1-o/2,n-1
]
Normal n< 30
H
0
: > a
H
1
: < a
[t
o,n-1
; +]
Normal n< 30
H
0
: s a
H
1
: > a
[-; t
1-o,n-1
]
Cualquiera n> 30
H
0
: = a
H
1
: = a
[-t
1-o/2,n-1
; t
1-o/2,n-1
]
IV-6
Cualquiera n> 30
H
0
: > a
H
1
: < a
[t
o,n-1
; +]
Cualquiera n> 30
H
0
: s a
H
1
: > a
[-; t
1-o,n-1
]
Cualquiera n< 30
H
0
: = a
H
1
: = a
parmetricas
Cualquiera n< 30
H
0
: > a
H
1
: < a
parmetricas
Cualquiera n< 30
H
0
: s a
H
1
: > a
parmetricas
4.6 Prueba de hiptesis sobre la varianza de una Distribucin Normal.- En
este caso se ha demostrado que la Distribucin Chi Cuadrado es la ms adecuada
para efectuar pruebas de hiptesis sobre la varianza de una Distribucin Normal.
Para efectuar la prueba sobre la varianza de una Distribucin Normal, el
estadgrafo a utilizar ser el estimador insesgado de la varianza poblacional:
( )
1
1
2
2
=

=
n
x x
S
n
i
i
(4.4)
Posteriormente se debe efectuar la siguiente transformacin:
( )
2
2
2
S 1 n
o
= _ (4.5)
CUADRO (4.4)
REGIONES DE ACEPTACIN PARA LA VARIANZA
DE UNA DISTRIBUCIN NORMAL
Parmetro Distribucin Hiptesis Regin de aceptacin
o
2
Normal
H
0
: o
2
= a
H
1
: o
2
= a
[_
2
1- o/2, n-1
; _
2
o/2, n-1
]
o
2
Normal
H
0
: o
2
> a
H
1
: o
2
< a
[_
2
1-o, n-1
;
+]
o
2
Normal
H
0
: o
2
s a
H
1
: o
2
> a
[0 ; _
2
o, n-1
]
IV-7
4.7 Prueba de hiptesis sobre la proporcin de una Distribucin
Binomial.- En este caso se efectuar la prueba solamente para el caso en que
n 30 (lo que implica que se aproxima a una Distribucin Normal). Para efectuar la
prueba sobre la proporcin, se utilizar el valor de x' (nmero de elementos de una
determinada caracterstica, en una muestra de tamao n). El estadgrafo de prueba
es el que se muestra en la ecuacin (4.6).
p
p
p
z

= (4.6)
Reemplazando las ecuaciones (3.24) y (3.26):
n
p p
p p
z
) 1 (
= (4.7)
O tambien se tiene:
) 1 ( p np
np x
z
'
= (4.8)
CUADRO (4.5)
REGIONES DE ACEPTACIN PARA LA PROPORCION
DE UNA DISTRIBUCION BINOMIAL
p Binomial n> 30
H
0
: p = a
H
1
: p = a
[-z
1-o/2
; +z
1-o/2
]
p Binomial n> 30
H
0
: p > a
H
1
: p < a
[z
o
; +]
p Binomial n> 30
H
0
: p s a
H
1
: p > a
[-; z
1-o
]
BIBLIOGRAFA:
(1) HINES Walter y MONTGOMERY David (1996): "Probabilidad y Estadstica para
(2) KAZMIER Leonard (1991): "Estadstica aplicada a la administracin y
economa. McGraw-Hill, Mxico.
(3) LEVIN Richard y RUBIN David (1996): "Estadstica para administradores.
Prentice-Hall, Mxico.
IV-8
(4) MILLER Irwin, FREUND John y JOHNSON Richard (1994): "Probabilidad y
(5) MOYA Rufino (1988): "Probabilidad e inferencia estadstica. Per.
=========================
IV-9
INDICE
Pag.
5.1 Introduccin................................................................................... 1
5.2 Conceptos bsicos......................................................................... 1
5.2.1 Hiptesis estadstica.............................................................. 1
5.2.2 Hiptesis nula e hiptesis alterna........................................... 1
5.2.3 Prueba de hiptesis estadstica.............................................. 1
5.2.3.1 Pruebas unilaterales.................................................. 2
5.2.3.1.1 Prueba de la cola inferior o cola izquierda........ 2
5.2.3.1.2 Prueba de la cola superior o cola derecha.......... 2
5.2.3.2 Pruebas bilaterales o prueba de dos colas..................... 2
5.2.4 Tipos de errores.................................................................... 2
5.2.4.1 Error tipo I................................................................. 2
5.2.4.2 Error tipo II................................................................ 2
5.2.5 Estadstica de prueba............................................................. 3
5.2.6 Regiones de aceptacin y rechazo........................................... 3
5.3 Etapas bsicas en una prueba de hiptesis......................................... 4
5.4 Prueba de hiptesis sobre la media de una Distribucin con varianza
conocida................................................................................................. 4
5.5 Prueba de hiptesis sobre la media de una distribucin con varianza
desconocida............................................................................................ 5
5.6 Prueba de hiptesis sobre la proporcin de una Distribucin Binomial.. 5
5.7 Prueba de hiptesis sobre la varianza de Distribucin Normal............. 6
5.8 Anlisis de varianza....................................................................... 7
5.8.1 Anlisis de experimentos estadsticos..................................... 7
5.8.2 Anlisis de varianza.............................................................. 7
5.8.3 Anlisis de varianza con un criterio o factor de clasificacin.... 8
5.8.3.1 Prueba de hiptesis.................................................... 8
5.8.3.2 Diagnstico y validacin del modelo........................... 10
5.8.3.2.1 Distribucin de residuos................................. 10
5.8.3.2.2 Relacin entre el valor de los residuos y el valor
esperado de la respuesta.................................... 11
5.8.3.2.3 Relacin entre los residuos y el tiempo.......... 11
Anlisis de regresin y correlacin lineal
V-1
V ANLISIS DE REGRESIN Y CORRELACIN LINEAL
5.1. Introduccin.- En este captulo se examinarn las asociaciones cuantitativas
entre un determinado nmero de variables, as como el grado de relacin existente
entre dichas variables, es decir, se examinarn tcnicas que permitan ajustar una
ecuacin de algn tipo al conjunto de datos dado, con el propsito de obtener una
ecuacin emprica de prediccin razonablemente precisa.
5.2. Anlisis de regresin.- El objetivo principal del anlisis de regresin es
estimar el valor de una variable aleatoria (llamada variable dependiente o variable
respuesta) conociendo el valor de un grupo de variables asociadas (llamadas
variables independientes de prediccin). La ecuacin de regresin es la frmula
algebraica mediante la cual se estima el valor de la variable dependiente.
Dicha ecuacin que se obtiene de esta forma puede tener algunas
limitaciones con respecto a su interpretacin fsica, sin embargo, en un medio
emprico, ser muy til si puede proporcionar una adecuada capacidad de prediccin
para la respuesta en el interior de una regin especfica de las variables de
prediccin. Como ejemplos de variables se tiene: relacin entre el peso y la altura
de los seres humanos, relacin entre la temperatura ambiente y el consumo de
energa elctrica, etc..
Las suposiciones principales en que se basa el modelo de regresin son:
- La variable dependiente en una variable aleatoria, pero no es necesario que las
variables independientes sean variables aleatorias.
- La relacin entre las diversas variables independientes y la variable dependiente
es lineal.
- La variable dependiente tiene una Distribucin Normal con varianza constante. Si
bien la primera suposicin no es crtica, la suposicin de varianza constante es
crucial. Una estimacin insesgada de o es el error standard de estimacin.
El modelo de regresin propuesto debe ser relativamente sencillo y deber
contener pocos parmetros. Un procedimiento muy til para la seleccin inicial
cuando se tiene slo una variable de prediccin es graficar la variable dependiente
contra la variable independiente.
V-2
Las ecuaciones que ms se utilizan para relacionar 2 ms variables son:
- Lineal simple:
bx a y + = (5.1)
- Lineal inversa:
x
b
a y + = (5.2)
- Lineal logartmica natural:
) x ( bLn a y + = (5.3)
- Exponencial:
x
ab y = (5.4)
- Potencial:
b
ax y = (5.5)
- Lineal mltiple:
k k 3 3 2 2 1 1
x b ...... x b x b x b a y + + + + + = (5.6)
- Lineal polinomial:
k
k k
2
2 2 1 1
x b ...... x b x b a y + + + + = (5.7)
5.2.1 Mtodo de estimacin de parmetros por mnimos cuadrados.-
Este mtodo se aplica siempre y cuando la funcin sea de carcter lineal o
se encuentre linealizada. El mtodo halla las estimaciones para los parmetros en la
ecuacin seleccionada mediante la minimizacin de la suma de los cuadrados de las
diferencias entre los valores observados de la variable dependiente y de aquellos
proporcionados por la ecuacin de regresin.
=
2
i
e z (5.8)
i , c i , o i
V V e = (5.9)
0
a
z
=
c
c
0
b
z
=
c
c
0
c
z
=
c
c
........
En la que:
e
i
= error o residuo de la observacin "i".
V
o,i
= valor observado "i de la variable dependiente
V
c,i
= valor calculado "i de la variable dependiente
a = trmino independiente
b, c, d,... = coeficientes de las variables independientes
V-3
La constante "a" en la ecuacin de regresin se refiere al valor de la ordenada
al origen en el caso lineal con una variable independiente; en el caso de la regresin
mltiple y polinomial, es el valor de la variable dependiente cuando todas las
variables independientes son iguales a cero.
Cuando se obtiene una ecuacin de regresin por el mtodo de mnimos
cuadrados, surgen una serie de propiedades, algunas de las cuales son:
= 0 e
i
(5.10)

=
i , c i , o
V V (5.11)
=
=
k
1 j
j ij
0 e x j = 1,2,3,......k. (5.12)
5.2.2 Error standard de estimacin.- El error standard de estimacin o
desviacin standard residual es una medida de cuan buena es la recta estimada de
regresin a las observaciones. Por tanto, cuanto ms pequeo sea este valor, el
modelo se ajustar mejor a los datos.
El error standard de estimacin se calcula con la ecuacin (5.13).
1 k n
e
S
n
1 i
2
i
yx

=

=
(5.13)
En la que:
n = nmero de observaciones.
k = nmero de variables independientes.
El valor de
yx
S viene expresado en las mismas unidades que la variable
dependiente y el cuadrado de dicho valor ( yx S
2
) se denomina varianza residual.
5.2.3 Prueba de hiptesis para coeficientes de regresin.- La pruebas de
hiptesis para coeficientes de regresin se efecta con el objetivo de conocer si
cada una de las variables independientes se debe incluir o no en la ecuacin de
regresin, es decir, si existe alguna relacin entre las dos variables (entre la
variable dependiente y la correspondiente variable independiente analizada). Para
esta prueba se utiliza la distribucin "t de Student.
Este tipo de prueba es de carcter bilateral, con los siguientes pasos:
V-4
1
o
Plantear las hiptesis:
H
0,i
= no existe relacin entre la variable dependiente y la variable independiente
"i".
H
1,i
= existe relacin entre la variable dependiente y la variable independiente "i".
2
o
Especificar %.
3
o
El estadgrafo de la prueba es:
i
i
i
S
b
t = (5.14)
En la que:
b
i
= estimador del coeficiente de la variable independiente "i".
S
i
= estimacin de la desviacin standard del coeficiente de la
variable independiente "i
El valor de S
i
se calcula con la siguiente ecuacin:
yx ii i
S q S = (5.15)
En la que:
[X] = matriz de los valores observados de las variables
independientes ms la columna de "unos como
primera columna.
[X'] = matriz transpuesta de [X].
q
ii
= elemento "i" de la diagonal formada por la matriz [X'X]
-1
4
o
Determinar la regin de aceptacin:
|
|
.
|
\
|

o

o
1 k n ,
2
1 1 k n ,
2
t ; t
5
o
Calcular el valor de t
i
.
6
o
Tomar la decisin:
Si t
i
e
|
|
.
|
\
|

o

o
1 k n ,
2
1 1 k n ,
2
t ; t aceptar H
o,i
, caso contrario, aceptar H
1,i
.
V-5
5.2.4 Prueba de hiptesis para la regresin.- La prueba de hiptesis de
regresin utiliza la distribucin "F" para probar si existe o no relacin de todas las
variables independientes como grupo con la variable dependiente. Los pasos ha
seguir son:
1
o
Plantear las hiptesis:
H
0
= no existe relacin entre todas las variables independientes con la variable
dependiente.
H
1
= existe relacin entre todas las variables independientes y la variable
dependiente.
2
o
Especificar .
3
o
El estadgrafo a utilizar es F
c
, que relaciona el cociente entre dos varianzas
(cuadrados medios), por lo cual se emplear la Distribucin "F.
4
o
Definir la regin de aceptacin:
|0; F
tablas
|
El valor de F
tablas
se obtiene en tablas "F", con %, v
1
= k y v
2
= n-k-1
grados de libertad.
5
o
Se calcula el valor de F
c
construyendo el cuadro (5.1) que es el cuadro de anlisis
de varianza, en el que se divide la variabilidad total en dos componentes: la
variabilidad explicada (variabilidad debido a la regresin) y la variabilidad no
explicada (variabilidad residual o debido al error de muestreo).
La variabilidad explicada (VE) se calcula con la ecuacin (5.16)
( )
2
i , c
D V VD VE

= (5.16)
En la que:
VD
c,i
= valor calculado "i de la variable dependiente.
D V = media aritmtica de los valores de la variable dependiente.
La variabilidad no explicada (VNE) se determina con la ecuacin (5.17).
( )
2
i , c i , o
VD VD VNE

= (5.17)
En la que:
VD
o,i
= valor observado "i de la variable dependiente.
V-6
La variabilidad total (VT) es:
( )
2
i , o
D V VD VT

= (5.18)
Es de hacer notar que, para cualquier caso, se cumple la siguiente identidad:
( ) ( ) ( )
i , c i , o i , Cc i , o
VD VD D V VD D V VD + = (5.19)
CUADRO (5.1)
ANLISIS DE VARIANZA PARA LA PRUEBA DE REGRESIN
FUENTE DE
VARIACIN
SUMA DE
CUADRADOS
GRADOS DE
LIBERTAD
CUADRADOS
MEDIOS
RATIO
"F"
Regresin VE k s
e
2
F
c
Error VNE n-k-1 s
ne
2
Total VT n-1
En la que:
k
VE
s
2
e
= (5.20)
1 k n
VNE
s
2
ne

= (5.21)
2
ne
2
e
c
s
s
F = (5.22)
6
o
Tomar la decisin:
Si F
c
e |0; F
tablas
|, se acepta la hiptesis nula H
0
, es decir, no existe relacin
entre la(s) variable(s) independiente(s) y la variable dependiente, caso contrario se
rechaza H
0
.
5.3 Anlisis de correlacin.- El principal objetivo del anlisis de correlacin es
medir el grado de relacin entre todas las variables independientes y la variable
dependiente.
V-7
Para efectuar el anlisis de correlacin se calculan dos coeficientes: el
coeficiente de determinacin y el coeficiente de correlacin.
5.3.1 Coeficiente de determinacin.- El coeficiente de determinacin mide la
proporcin de variabilidad que ha sido estadsticamente explicada, respecto a la
variabilidad total, mediante la ecuacin de regresin, es decir:
VT
VNE
1
VT
VE
R = = (5.23)
Los valores que toma estn siempre comprendidos en el intervalo:
0 R 1.
De manera ideal se desea tener un valor de R = 1, puesto que entonces la
variabilidad no explicada sera igual a cero, y que toda la variacin puede explicarse
por la presencia de las variables independientes en la ecuacin de regresin.
5.3.2 Coeficiente de correlacin.- El coeficiente de correlacin indica el grado de
relacin que existe entre las variables independientes con la variable dependiente.
Se calcula de la siguiente manera:
R r = (5.24)
El valor de r flucta entre 0 r 1, cuando r es igual a 1 la relacin es
perfecta y cuando el valor de r es igual a cero, se dice que no existe relacin entre
las variables consideradas.
Para el caso de un modelo lineal con una sola variable independiente, el valor
r vara entre -1 y 1, siendo el signo de "r el mismo que el del coeficiente de la
variable independiente.
5.4 Diagnstico y validacin del modelo.- Con el objeto de validar el modelo
encontrado se efecta el diagnstico de los datos a travs del anlisis de residuos.
Dicho anlisis se efecta mediante la construccin y anlisis de ciertos grficos, los
principales son:
- Grfico: Residuos Vs. Valores calculados.
- Grfico: Residuos Vs. Valores observados.
- Grfico: Residuos Vs. Tiempo.
En algunos casos tambin se recomienda elaborar grficos de Residuos Vs.
Variable(s) independientes(s).
V-8
Para todos los grficos elaborados, los puntos deben estar distribuidos en
forma aleatoria, es decir, no deben formar ninguna curva conocida.
5.5 Anlisis de autocorrelacin.- El anlisis de autocorrelacin se realiza cuando
en el grfico: Residuos Vs. Tiempo se ha podido detectar algn tipo de relacin, lo
que significa, la presencia del tiempo como variable de prediccin.
Por tal motivo es que se realiza la prueba de Durwin-Watson, cuyo
estadgrafo de prueba es:
( )
=
2
i
2
1 i i
e
e e
d (5.25)
Considerando: k (nmero de variables independientes) y n (tamao de la
muestra) se emplean tablas "Durwin-Watson" para obtener los valores d
L
y d
U
con
los que se efectuar el anlisis respectivo.
Con los valores de d
L
y d
U
se elaboran los siguientes intervalos y se
determina la existencia de autocorrelacin, as como la direccin de sta.
0 < d < d
L
Autocorrelacin positiva.
d
L
< d < d
U
Prueba no concluyente.
d
U
< d < 4 - d
U
No existe autocorrelacin.
4 - d
U
< d < 4 - d
L
Prueba no concluyente.
4 - d
L
< d < 4 Autocorrelacin negativa.
BIBLIOGRAFA:
(1) HINES Walter y MONTGOMERY David (1996): "Probabilidad y Estadstica para
(2) LEVIN Richard y RUBIN David (1996): "Estadstica para administradores.
Prentice-Hall, Mxico.
(3) MILLER Irwin, FREUND John y JOHNSON Richard (1994): "Probabilidad y
==============================
V-9
NDICE
Pgina
6.1 Introduccin.................................................................................... 1
6.2 Anlisis de regresin........................................................................ 1
6.2.1 Mtodo de estimacin de parmetros por mnimos cuadrados...... 2
6.2.2 Error standard de estimacin.................................................. 3
6.2.3 Prueba de hiptesis para coeficientes de regresin..................... 3
6.2.4 Prueba de hiptesis para la regresin........................................ 4
6.3 Anlisis de correlacin...................................................................... 6
6.3.1 Coeficiente de determinacin..................................................... 6
6.3.2 Coeficiente de correlacin........................................................ 7
6.4 Diagnstico y validacin del modelo................................................... 7
6.5 Anlisis de autocorrelacin................................................................ 7
V-10
UNIVERSIDAD MAYOR DE SAN SIMN
FACULTAD DE CIENCIAS Y TECNOLOGA
DEPARTAMENTO DE MATEMTICAS
ESTADSTICA II
CAPITULO VI
"ANLISIS DE REGRESIN Y
CORRELACIN LINEAL"
SEMESTRE: I/2004
DOCENTE: Ing. Roberto Manchego C.
Cochabamba, Mayo de 2004
Anlisis de series cronolgicas
VI-1
VI ANLISIS DE SERIES CRONOLGICAS
6.1 Introduccin.- La planificacin racional exige prever los sucesos del futuro
que probablemente vayan a ocurrir. La previsin suele basarse en lo ocurrido en el
pasado, por lo que, estamos en presencia de un nuevo tipo de inferencia estadstica
que se realiza acerca del futuro de alguna variable basados en sucesos pasados.
Esta tcnica se basa en el anlisis de series cronolgicas.
6.2 Serie cronolgica.- Una serie cronolgica o serie de tiempo es un conjunto de
valores observados de cierta variable dispuestos en el orden cronolgico de su
ocurrencia, por lo general, registrados a intervalos igualmente espaciados.
En virtud a que una serie de tiempo es una descripcin del pasado inmediato,
el procedimiento ms lgico para pronosticar el futuro es utilizar dichos datos
histricos. Bajo el supuesto de que la historia ha de repetirse, es decir, si los datos
pasados indican lo que se puede esperar en el futuro, es posible postular un modelo
matemtico que sea representativo del proceso.
En situaciones ms reales, la forma exacta del modelo que genera la serie de
tiempo no se conoce. Con frecuencia, se elige un modelo mediante la observacin
de los resultados de la serie de tiempo durante un periodo. Por ejemplo, en el
cuadro (6.1) se muestra las ventas anuales de una compaa que comenz a operar
desde 1998.
CUADRO (6.1)
VENTAS ANUALES DE UNA
COMPAA (EN MILES DE $)
VENTAS AO
0.3 1998
0.4 1999
0.8 2000
0.9 2001
1.0 2002
1.5 2003
1.2 2004
1.0 2005
1.7 2006
2.1 2007
VI-2
6.3 Anlisis de series cronolgicas.- Las variaciones de la serie cronolgica se
pueden atribuir a varios factores. Dichos factores pueden ser naturales,
institucionales y socioeconmicos, algunos presentan una variacin a corto plazo y
otros lo hacen a largo plazo. Es as que, una serie de tiempo est conformada de
variados elementos o componentes, que son los que explican los cambios
observados en un perodo de tiempo.
El anlisis de series cronolgicas es el procedimiento mediante el cual se
identifican y separan los factores relacionados con el tiempo que influyen sobre los
valores observados de la serie. Una vez identificados estos valores, se los puede
utilizar para mejorar la interpretacin de los valores histricos de la serie de tiempo
y para pronosticar valores futuros.
El enfoque clsico en el anlisis de series de tiempo identifica cuatro factores
o componentes bsicos en una serie cronolgica.
6.4 Componentes de las series cronolgicas.- Los componentes de la serie
cronolgica (Y) son:
6.4.1 Tendencia secular (T).- Es el movimiento global y regular a largo plazo de
los valores de la serie de tiempo durante un nmero prolongado de aos, en el que
se refleja un crecimiento, un estancamiento o una declinacin de los valores de la
serie. Se recomienda que en el anlisis de series se utilicen cuando menos de 15 a
20 aos, para no incluir como seal de tendencia los movimientos cclicos, los
cuales implican pocos aos de duracin.
El mtodo de mnimos cuadrados es la base ms comn que se utiliza para
identificar la tendencia en una serie de tiempo.
En el cuadro (6.2) se muestra, como ejemplo de tendencia, las ventas de
cemento para un determinado pas.
VI-3
CUADRO (6.2)
VENTAS DE CEMENTO
(MILES DE BOLSAS)
VENTAS AO
100 1993
110 1994
90 1995
130 1996
150 1997
180 1998
220 1999
230 2000
240 2001
310 2002
400 2003
390 2004
470 2005
500 2006
510 2007
Del cuadro (6.2) se observa que existe una tendencia creciente de las ventas
de cemento en dicho pas.
6.4.2 Variaciones cclicas (C).- Las variaciones cclicas se caracterizan por
movimientos recurrentes ascendentes y descendentes, respecto a la tendencia, que
se extienden por perodos de tiempo, por lo general, de 2 ms aos.
Si bien se han estudiado por bastante tiempo el origen de las fluctuaciones
cclicas, en general se puede decir que son de naturaleza econmica y reflejan el
estado de las actividades comerciales de tiempo en tiempo.
En todas las variaciones cclicas se puede identificar la presencia de picos y
depresiones. Los picos, son etapas de prosperidad, mientras que las depresiones
son sinnimas de recesin econmica.
VI-4
En el cuadro (6.3) se muestra los datos de produccin de soya en el pas
desde 1997 a 2007.
CUADRO (6.3)
PRODUCCIN DE SOYA EN BOLIVIA
(EN MILES DE TM)
PRODUCCIN AO
10 1997
18 1998
20 1999
18 2000
16 2001
19 2002
33 2003
32 2004
28 2005
29 2006
38 2007
6.4.3 Variaciones estacionales (E).- Por variaciones estacionales se entienden
las variaciones peridicas, que retornan con cierta regularidad dentro de un perodo
especifico de 2 aos o menos.
El trmino "estacional" se emplea para indicar toda clase de movimiento
peridico, diario, semanal o mensual, dentro un ao como perodo de recurrencia
mximo.
Los factores que generalmente originan variaciones estacionales son las
condiciones climticas, las costumbres sociales y las festividades religiosas.
Por ejemplo, en el cuadro (6.4) se detalla el consumo de energa elctrica en
Cochabamba, segn las cuatro estaciones del ao, para un perodo de tres aos.
VI-5
CUADRO (6.4)
CONSUMO DE ENERGA ELCTRICA EN COCHABAMBA (kW)
CONSUMO AO ESTACIN
28 2006 Primavera
24 2006 Verano
29 2006 Otoo
32 2006 Invierno
30 2007 Primavera
25 2007 Verano
30 2007 Otoo
34 2007 Invierno
31 2008 Primavera
26 2008 Verano
32 2008 Otoo
37 2008 Invierno
Las variaciones estacionales para un mejor entendimiento de stas, vienen
expresadas en proporcin o en porcentaje,
6.4.4 Variaciones irregulares (I).- Las variaciones irregulares o variaciones
aleatorias se deben a ciertos factores que ocurren de forma inesperada, siendo muy
difcil su prediccin, tales como confrontaciones blicas y fenmenos naturales
(terremotos, inundaciones, sequas), etc. Dichas variaciones son impredecibles y
generalmente se las puede considerar como parte de las variaciones estacionales o
cclicas o ignorarlas por completo.
6.5 Modelos de series cronolgicas.- Existen dos modelos de series cronolgicas
que se aceptan como buena aproximacin a las verdaderas relaciones entre los
componentes de los datos observados. Dichos modelos son:
6.5.1 Modelo aditivo.- En este modelo se supone que el valor de la serie
compuesta es la suma de los cuatro componentes, esto es:
Y = T + C + E + I (6.1)
VI-6
6.5.2. Modelo multiplicativo.- En este caso se supone que el valor de la serie
compuesta es el producto de los valores de los 4 componentes, es decir:
Y = T x C x E x I (6.2)
En esta relacin, la tendencia siempre maneja valores absolutos y los dems
componentes pueden estn expresados en proporcin en porcentaje.
Generalmente, el modelo multiplicativo, por ser ms conservador, se
considera el modelo ms adecuado para el anlisis de las series de tiempo.
==========================
VI-7
NDICE
Pg.
7.1 Introduccin................................................................................... 1
7.2 Serie cronolgica............................................................................ 1
7.3 Anlisis de series cronolgicas......................................................... 2
7.4 Componentes de las series cronolgicas............................................. 2
7.4.1 Tendencia secular (T)............................................................ 2
7.4.2 Variaciones cclicas (C)........................................................... 3
7.4.3 Variaciones estacionales (E).................................................... 4
7.4.4 Variaciones irregulares (I)....................................................... 5
7.5 Modelos de series cronolgicas.......................................................... 5
7.5.1 Modelo aditivo....................................................................... 5
7.5.2 Modelo multiplicativo............................................................. 5
7.6 Descomposicin de las series cronolgicas.......................................... 6
VII-1
VII PRUEBAS NO PARAMTRICAS
7.1 Introduccin.- Hasta ahora la mayor parte de las pruebas estadsticas (pruebas de
hiptesis estadsticas, anlisis de varianza, ajuste de curvas de regresin) e intervalos
de confianza se basan en ciertos supuestos, por lo cual, han sido denominados
mtodos paramtricos.
Las pruebas paramtricas se basan en el anlisis de un parmetro poblacional
cuyo estimador tiene una distribucin conocida (generalmente una distribucin Normal)
o puede aproximarse a una Distribucin Normal.
Pero, en el caso de no cumplirse alguno de este supuesto es necesaria la
aplicacin de las denominadas pruebas no paramtricas pruebas de distribucin libre.
Las pruebas no paramtricas se utilizan:
- Cuando se tiene duda de que las observaciones pertenecen a una Distribucin
Normal.
- Cuando se tienen muestras pequeas con distribuciones desconocidas (ya no es
posible aplicar el Teorema Central del Lmite).
- Para probar hiptesis sobre la forma y posicin de las distribuciones.
Las ventajas de las pruebas no paramtricas son:
- Se pueden aplicar a datos de tipo cuantitativo y cualitativo.
- Son rpidas y fciles de realizar.
Las desventajas de las pruebas no paramtricas son:
- En el caso de tener la posibilidad de realizar pruebas paramtricas y no paramtricas
para una determinada situacin, es mejor efectuar las pruebas paramtricas por ser
ms precisas.
- Las pruebas no paramtricas son menos eficientes puesto que no utilizan toda la
informacin proveniente de la muestra (lo cual implica incrementar el tamao de la
muestra).
7.2 Prueba de corridas para la aleatoriedad.- En todas las pruebas anteriores uno de
los supuestos fundamentales era el hecho de la existencia de aleatoriedad en la toma
de datos. En la prctica, no siempre es posible controlar la forma en la que han sido
VII-2
tomados los datos, por lo que, es necesario efectuar una prueba para determinar la
existencia o no de aleatoriedad en los datos.
La prueba de corridas se utiliza:
- Para analizar la existencia de aleatoridad en los datos recolectados, considerando el
orden en el que han sido obtenidos.
- Para determinar si existe alguna tendencia en los datos.
Una corrida se define al conjunto de observaciones similares contenidas dentro
de un conjunto de observaciones diferentes.
En esta prueba se puede presentar dos casos:
- Datos cualitativos, para los cual los datos se dividen en dos categoras.
- Datos cuantitativos, para lo cual los datos se dividen en dos categoras, en funcin a
si estn por encima o por debajo de la mediana muestral.
El criterio bsico radica en indicar que no es aleatoria la muestra que tiene un
nmero muy grande o un nmero muy pequeo de corridas, por lo cual este tipo de
prueba es de carcter bilateral.
Los pasos ha seguir son:
1 Plantear las hiptesis:
H
0
: las observaciones han sido recolectadas en forma aleatoria.
H
1
: las observaciones no han sido recolectadas en forma aleatoria.
2 Especificar o .
3 Para efectuar la prueba se determina el estadgrafo R que es el nmero de corridas
en la muestra.
4 Establecer la regin de aceptacin. Para este caso se define lo siguiente:
R = nmero de corridas en la muestra.
n
1
= nmero de elementos en la muestra del primer tipo.
n
2
= nmero de elementos en la muestra del segundo tipo.
VII-3
Si n
1
10 n
2
10 se emplea la prueba C (con tablas especficas para tal
efecto). Si n
1
10 y n
2
10 se puede aproximar a la Distribucin Normal previa
estandarizacin de R y por lo cual la regin de aceptacin es:
|
|
.
|
\
|
+
o
2
1
2
1
z ; z
5 Calcular el valor de R empleando una muestra de tamao n y standarizar.
( )
R
R
R
z
o

= (7.1)
En la que:
1
n n
n n 2
2 1
2 1
R
+
+
= (7.2)
( )
( ) ( ) 1 n n n n
n n n n 2 n n 2
2 1
2
2 1
2 1 2 1 2 1
R
+ +

= o (7.3)
6 Tomar la decisin:
Si z
|
|
.
|
\
|
+
o
2
1
2
1
z ; z , entonces se acepta H
0
, caso contrario se rechaza H
0
.
7.3 Prueba sobre la mediana de una poblacin.- Para probar la hiptesis respecto al
valor de la mediana de una poblacin se tiene prueba denominada prueba del rango
con signo o de Wilcoxon. Esta prueba es la equivalente a la prueba paramtrica sobre
el valor de la media poblacional.
Se requiere que los valores de la muestra aleatoria se encuentren por lo menos
en una escala ordinal y no es necesario efectuar suposiciones respecto a la forma de la
distribucin de probabilidad.
Puesto que la distribucin Normal es simtrica, la media aritmtica de una
distribucin Normal es igual a la mediana, por lo cual, la prueba de Wilcoxon puede
VII-4
emplearse para probar hiptesis respecto a la media aritmtica de una distribucin
Normal.
La hiptesis nula y alternativa se plantean con respecto a la mediana poblacional
y puede ser de una o de dos colas. Para esta prueba se utilizan tablas especiales,
llamadas tablas de Wilcoxon.
Los pasos ha seguir (para el caso bilateral) son:
1
H
0
: Me = a
H
1
: Me = a
2 Especificar o .
3 Se determina el estadgrafo W.
4 Definir el criterio de aceptacin, considerando: n = tamao de la muestra y o , se
busca un valor de W
,n
en las tablas de Wilcoxon.
5 Calcular W. Para ello se extrae una muestra de tamao n, luego se determina la
diferencia entre cada uno de los valores observados y el valor hipottico de la mediana,
y esta diferencia, con signo aritmtico, se designa como d = (x - a).
Si alguna de las diferencias es igual a cero, se elimina del anlisis la observacin
correspondiente. Despus, se ordenan los valores absolutos de la diferencia, de menor
a mayor, asignando el rango 1 a la diferencia absoluta ms pequea. Cuando las
diferencias absolutas son iguales, se asigna el rango promedio a los valores iguales.
Finalmente, se obtiene por separado la suma de los rangos para las diferencias
positivas (W
+
) y negativas (W
-
) y se calcula el valor de W mediante la siguiente
expresin:
W = Min (W
+
,W
-
) (7.4)
6 Tomar la decisin:
Si W W
o,n
, entonces se acepta H
0
0
.
En el caso de que n 30, se puede aproximar a una distribucin Normal,
estandarizando previamente.
7.4 Prueba sobre la diferencia de dos medianas poblacionales.- La prueba para
determinar si existe diferencia entre dos medianas de dos poblaciones que tienen la
misma varianza es la prueba U prueba de Mann - Whitney. Se requiere que los
VII-5
valores de las dos muestras aleatorias independientes se encuentren por lo menos en
escala ordinal.
El problema consiste en decidir si las dos poblaciones son las mismas o si una
probablemente produzca observaciones mayores que la otra.
Para esta prueba se pueden presentar pruebas unilaterales y bilaterales, en este
captulo slo se efectuar el anlisis para el caso bilateral.
Los pasos ha seguir (para el caso bilateral) son:
1
H
0
: Me
1
= Me
2
H
1
: Me
1
= Me
2
que es equivalente a indicar:
H
0
: las dos poblaciones son iguales.
H
1
: las dos poblaciones son distintas.
2 Especificar o .
3 Se debe utilizar el estadgrafo U con la siguiente ecuacin
( )
1
1 1
2 1
R
2
1 n n
n n U
+
+ = (7.5)
En la cual:
n
1
= tamao de la primera muestra.
n
2
= tamao de la segunda muestra.
R
1
= suma de los rangos de la primera muestra.
4 Definir la regin de aceptacin. En el caso de que n
1
10 o n
2
10, existen tablas
especiales de la estadstica U. Si se tiene n
1
10 y n
2
10 la distribucin muestral de U
se aproxima a la Distribucin Normal, por lo cual la regin de aceptacin es:
|
|
.
|
\
|
+
o
2
1
2
1
z ; z
5 Calcular U empleando una muestra de tamao n, para lo que se debe seguir el
siguiente procedimiento: se combinan los datos de las dos muestras de n
1
y n
2
VII-6
observaciones, en orden ascendente, identificando los valores muestrales de acuerdo
al grupo del cual provienen. Luego, se asigna el rango 1 al valor ms pequeo hasta el
valor de n = n
1
+ n
2
. Cuando se encuentran valores iguales, se les asigna el promedio
de sus rangos. Posteriormente, se obtiene la estadstica U y se estandariza:
( )
U
U
U
z
o

= (7.6)
En la que:
2
n n
2 1
U
= (7.7)
( )
12
1 n n n n
2 1 2 1
U
+ +
= o (7.8)
6 Tomar la decisin:
Si z
|
|
.
|
\
|
+
o
2
1
2
1
z ; z , entonces se acepta H
0
0
.
7.5 Prueba sobre la diferencia de varias medianas de poblaciones.- La prueba de
Kruskal-Wallis, llamada tambin prueba H, es la prueba ms adecuada para probar si
existe o n diferencia entre medianas de las poblaciones con idntica distribucin. Se
supone que las diversas poblaciones tienen la misma forma y dispersin y se requiere
que los valores de las diversas muestras aleatorias estn cuando menos en escala
ordinal.
Los pasos ha seguir son:
1
H
0
: Me
1
= Me
2
= Me
3
= .... = Me
k
H
1
: Me
1
= Me
2
= Me
3
= .... = Me
k
que es equivalente a indicar:
H
0
: las poblaciones son iguales.
H
1
: las poblaciones son distintas.
2 Especificar o .
3 Utilizar el estadgrafo H, el cual se calcula con la ecuacin (7.9).
VII-7
( )
( ) 1 n 3
n
R
1 n n
12
H
k
1 i i
2
i

(
(
|
|
.
|
\
|
(
+
=

=
(7.9)
En la que:
n = tamao de toda la muestra
R
i
= suma de los rangos para la i-sima muestra o tratamiento.
n
i
= nmero de observaciones en la i-sima muestra.
4 Definir la regin de aceptacin. En el caso de tener muestras pequeas existen
tablas especiales de valores crticos para la prueba H. Si el tamao de cada una de las
muestras es cuando menos 5 (n
i
5), la estadstica H se distribuye en forma
aproximada con la distribucin Chi Cuadrado con k-1 grados de libertad (k = nmero de
tratamientos). Por tanto, la regin de aceptacin es:
( )
2
1 k ,
; 0
o
_
5 Calcular H empleando una muestra de tamao n, con el siguiente procedimiento: se
consideran las diversas muestras como un conjunto de valores y se ordenan de menor
a mayor. Cuando se tienen valores iguales, se les asigna un rango promedio.
Posteriormente, se asigna R
i
la suma de los rangos ocupados por las n
i
observaciones
de la i-sima muestra y adems:
k 3 2 1
n ......... n n n n + + + = (7.10)
con todo ello se calcula el estadstico H.
6 Tomar la decisin:
Si H ( )
2
1 k ,
; 0
o
_ , entonces se acepta H
0
0
.
7.6 Pruebas de bondad de ajuste.- En las pruebas de bondad de ajuste el objetivo es
comparar las frecuencias de la muestra clasificadas en categoras definidas o
distribucin de frecuencias observadas, teniendo el patrn esperado de frecuencias que
se basan en una hiptesis nula especfica o distribucin de frecuencias esperadas.
La hiptesis nula en una prueba de bondad de ajuste es una afirmacin sobre el
patrn esperado de las frecuencias en un conjunto de categoras. El patrn esperado
VII-8
puede ajustarse a la suposicin de que la Distribucin puede ser Uniforme, Binomial, la
Poisson, la Normal, etc. o cualquier distribucin emprica
7.6.1 Prueba de Pearson.- Esta prueba se utiliza con preferencia en el caso de:
- Distribuciones discretas.
- Distribuciones contnuas con tamao de muestra grande.
Para aceptar la hiptesis nula, debe ser posible atribuir las diferencias entre las
frecuencias observadas y las esperadas a la variabilidad del muestreo y al nivel de
significancia. Es as que el estadgrafo de prueba de Pearson se basa en la magnitud
de esta diferencia para cada una de las categoras de la distribucin de frecuencias. El
valor de dicho estadgrafo es:
( )

1
2
,
, ,
(7.11)
Por otro lado es posible demostrar que el estadgrafo sigue una distribucin
Chi cuadrado.
En la ecuacin (7.11) se observa que, si las frecuencias observadas son muy
cercanas a las frecuencias esperadas, el valor calculado de estar cercana a 0.
Conforme las frecuencias observadas se alejan de las frecuencias esperadas, el valor
de se vuelve mayor. Por ello, se concluye que la prueba de Pearson implica el uso
solamente del extremo superior, con el objeto de determinar si un patrn observado de
frecuencias es diferente de un patrn esperado.
Los pasos a seguir son:
1 Establecer las hiptesis:
H
0
: Las frecuencias estn distribuidas segn una distribucin determinada.
H
1
: Las frecuencias no estn distribuidas segn una distribucin determinada.
2 Especificar el valor de %.
3 Se debe utilizar el estadstico .
( )

1
2
,
, ,
VII-9
En la que:
f
oi
= frecuencia observada absoluta correspondiente a la categora i.
f
ei
= frecuencia esperada absoluta correspondiente a la categora i.
4 Definir la regin de aceptacin:
( )
2
1 m k ,
; 0
o
_
En la que
k = nmero de categoras de datos
m = nmero de parmetros estimados a partir de la muestra.
5 Calcular el valor de .
6 Tomar la decisin:
Si e ( )
2
1 m k ,
; 0
o
_ , entonces se acepta H
0
0
.
7.6.2 Prueba de Kolmogorov-Smirnov.- La prueba de Kolmogorov-Smirnov es la
prueba de bondad de ajuste que se aplica en casos en cuales se trata de datos que
provienen de una distribucin continua de probabilidades y el tamao de muestra es
pequeo.
Esta prueba se basa en una comparacin entre las funciones de distribucin
acumulada que se observan en la muestra ordenada y la distribucin propuesta bajo la
hiptesis nula. Si esta comparacin revela una diferencia suficientemente grande entre
las funciones de distribucin muestral y la distribucin propuesta, entonces la hiptesis
nula se rechaza.
En este tipo de prueba se utiliza una tabla especial llamada Tabla Kolmogorov-
Smirnov.
Los pasos a seguir son:
1 Establecer las hiptesis:
H
0
: Las frecuencias estn distribuidas segn una distribucin determinada.
H
1
: Las frecuencias no estn distribuidas segn una distribucin determinada.
2 Especificar el valor de %.
3 Se debe utilizar el estadstico D.
i i
FE FO Max D = (7.12)
VII-10
En la que:
FO
i
= Frecuencia observada acumulada relativa correspondiente a la
observacin i.
FE
i
= Frecuencia esperada acumulada relativa correspondiente a la
observacin i.
4 Definir la regin de aceptacin:
( )
n , 1
D ; 0
o
En la que n representa el nmero de observaciones.
5 Calcular el valor de D, ordenando previamente los datos en forma ascendente.
6 Tomar la decisin:
Si D e ( )
,
;
1
0 , entonces se acepta H
0
, caso contrario se rechaza.
================================
VII-11
INDICE
Pg.
8.1 Introduccin................................................................................... 1
8.2 Pruebas de corridas sobre la aleatoriedad......................................... 2
8.3 Prueba sobre la mediana de una poblacin........................................ 3
8.3.1 Prueba del signo.................................................................... 3
8.3.2 Prueba de Wilcoxon del rango con signo.................................. 5
8.4 Prueba sobre la diferencia de dos medianas poblacionales................. 6
8.5 Prueba sobre la diferencia de varias medianas de poblaciones........... 8
8.6 Pruebas de bondad de ajuste.......................................................... 9
8.6.1 Prueba de Pearson................................................................ 10
8.6.2 Prueba de Kolmogorov-Smirnov.............................................. 11

Estadistica II - Roberto Manchego

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica II - Roberto Manchego

Transféré par

Droits d'auteur :

Formats disponibles

Pruebas no paramtricas

Vous aimerez peut-être aussi