Vous êtes sur la page 1sur 44

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA

Eduardo Daz Saavedra. Estadstica Aplicada


1
I UNIDAD DE APRENDIZAJE: ESTADSTICA Y PSICOLOGA

Qu es la Estadstica?. Resea histrica.

La palabra "estadstica" ha sido frecuentemente utilizada para referirse a la
informacin cuantitativa (o numrica). Tambin se ha utilizado para referirse a los
mtodos que tratan la informacin. Sin embargo, cabe hacer notar que existe una
diferencia entre lo que se entiende por mtodo estadstico y dato estadstico (o
informacin). En resumen podemos decir que:

a) La Estadstica es un cuerpo de conceptos y mtodos empleados para recolectar e
interpretar datos referentes a un rea de investigacin particular y para extraer
conclusiones en situaciones en que la incertidumbre y la variabilidad estn
presentes.
b) El gran volumen de informacin numrica origina la necesidad de mtodos
sistemticos, los cuales puedan ser utilizados para organizar, presentar, analizar e
interpretar la informacin efectivamente. De esta manera pueden extraerse
conclusiones vlidas y tomarse decisiones razonables mediante el uso de los
mtodos. Los mtodos estadsticos son desarrollados primeramente para llenar esta
necesidad.

La estadstica, como una derivacin y especializacin de tcnicas matemticas,
tiene relacin con aquellos conceptos y tcnicas que se emplean en la recopilacin,
presentacin y caracterizacin de la informacin con la finalidad de aportar tanto al
anlisis de datos como al proceso de toma de decisiones.

Los datos estadsticos corresponden a informacin cuantitativa o numrica que
puede encontrarse casi dondequiera: en negocios, economa y muchas otras reas. Sin
embargo, no toda la informacin cuantitativa es considerada como dato estadstico. La
informacin cuantitativa apropiada para anlisis estadstico debe ser un conjunto (o
conjuntos) de nmeros que pueden ser comparados, analizados e interpretados. Un
nmero aislado no se compara o que no muestra relacin significativa con otro nmero
no es dato estadstico.

El rea de la cual los datos estadsticos son recopilados es generalmente referida
como la poblacin o universo. Una poblacin puede ser finita o infinita. Una poblacin
finita tiene un nmero limitado de individuos u objetos, mientras que una poblacin
infinita tiene un nmero ilimitado.

La tarea de recopilar un conjunto completo de datos de una poblacin finita
pequea es relativamente simple. La recopilacin de datos completos de una poblacin
infinita es definitivamente imposible.

A fin de evitar la tarea imposible o imprctica, usualmente se extrae una muestra
de elementos representativos de la poblacin. La muestra es, entonces, utilizada para el
estudio estadstico y los resultados de la muestra son usados como las bases para
describir, estimar o predecir las caractersticas de la poblacin.

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
2
Histricamente el desarrollo de la estadstica se ha visto impulsado por dos
elementos distintos: en primer lugar la gran demanda de parte de gobiernos, empresas,
instituciones y en general de las personas, por disponer y recopilar informacin de sus
ciudadanos, de sus negocios, etc., y por otro, el desarrollo de las matemticas en la
teora de la probabilidad.

La tarea de la recoleccin de datos se remonta a lo largo de toda la historia. Hay
evidencias que muestran que ya las civilizaciones Egipcias, Griegas y Romanas se
provean de informacin para fines de carcter principalmente impositivos y militares.
Luego durante la Edad Media fueron las instituciones eclesisticas las que elaboraban
documentos que contenan datos de las personas acerca de nacimientos, muertes y
matrimonios. Luego las naciones ms avanzadas comenzaron a implementar los
censos poblacionales cada cierto tiempo, datos que en la actualidad se utilizan, entre
otras cosas, para determinar los cupos a los Parlamentos, o para la asignacin de
recursos provenientes de los gobiernos centrales a las diferentes zonas de la nacin.

Mtodos Estadsticos.

De acuerdo con el orden de aplicaciones en un estudio estadstico, los mtodos
estadsticos son divididos en cinco pasos bsicos:

a) Recopilacin.
b) Organizacin.
c) Presentacin.
d) Anlisis.
e) Interpretacin.

En rigor, no hay lnea de divisin definitiva que separe los cinco pasos bsicos.
Algunos de los mtodos pueden ser usados en ms de un paso.

Las tcnicas de estadstica apuntan bsicamente a lograr uno de los dos
objetivos siguientes:

a) Describir cuantitativamente una serie de personas, lugares o cosas, lo que da como
resultado informacin descriptiva a lo que se denomina Estadstica Descriptiva,
que corresponde a mtodos que implican recopilacin, presentacin y
caracterizacin de un conjunto de datos, con la finalidad de describir sus diversas
caractersticas.
b) Dar informacin de la que se pueda obtener conclusiones acerca de un grupo
grande de personas, lugares o cosas, por medio de la observacin de slo una
pequea parte del conjunto total, lo que se denomina Inferencia Estadstica, que
tiene su fundamentacin en la teora de probabilidades ampliamente estudiada a
partir de la poca del Renacimiento con el auge de los juegos de azar.

Fueron cientficos como el matemtico Pascal, Bernoull, DeMoivre y Gauss los
que sentaron las bases del material de la Inferencia Estadstica, y luego estadsticos
como Pearson, Fisher, Gosset, Neyman, Wald y Tukey fueron quienes a principio del
siglo pasado desarrollaron los mtodos de la Inferencia Estadstica que en la actualidad
tienen una muy amplia aplicacin en diversos campos de la vida.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
3

De una manera ms formal, la Inferencia Estadstica se constituye por los
mtodos que hacen posible la estimacin de una caracterstica de la poblacin, o la
toma de una decisin con respecto a una poblacin, con base nicamente en resultados
muestrales.

En adelante y con la finalidad de lograr una mejor compresin de los elementos
que se sealan, definiremos algunos conceptos importantes para este curso:

- Poblacin o Universo: rea de la cul son extrados los datos. Corresponde a la
totalidad de los elementos, cosas o individuos que poseen
una caracterstica comn y medible acerca de lo cul se
desea informacin y se consideran para un determinado
estudio.
- Censo: recopilacin de todos los datos, de inters para la
investigacin, de la poblacin.
- Muestra: es un subconjunto de la poblacin, seleccionado de
acuerdo a un aregla o algn plan de muestreo, es la
proporcin de la poblacin que se considera para el
anlisis.
- Dato: mediciones o cualidades que han sido recopiladas como
resultado de observaciones.
- Parmetro: es una medida que se calcula para describir una
caracterstica de una poblacin determinada.
- Estadstico o Estimador: es una medida que se calcula para describir una
caracterstica a partir de slo una muestra.

Finalmente podemos determinar entonces que los mtodos y tcnicas de la
Inferencia Estadstica provienen de la necesidad del muestreo, ya que al poseer
poblaciones muy grandes numricamente, se torna muy costoso, tardo y complicado
obtener informacin de la poblacin completa, recurriendo entonces al muestreo como
una manera de simplificar la complejidad del tamao de las poblaciones.

II UNIDAD DE APRENDIZAJE: ESTADSTICA DESCRIPTIVA

Ya hemos sealado que la Estadstica Descriptiva se relaciona con tcnicas
estadsticas que permiten al investigador tener una visin global del fenmeno bajo
estudio.

La estadstica interviene en la investigacin a travs de la experimentacin.

La investigacin contempla una serie de pasos que estn ntimamente
relacionados con los pasos mencionados anteriormente, como son:

a) Formulacin del problema: Precisar conceptos a utilizar.
Formulacin clara de preguntas.
Limitaciones del problema, etc.

b) Diseo del Experimento: Obtener la mayor informacin minimizando costo-tiempo.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
4
Determinar tipo de muestra y tamao.

c) Desarrollo del Experimento: Recoleccin de datos.

d) Tabulacin y Descripcin de Resultados: Construccin de tablas y grficos.

e) Inferencia Estadstica: Concluir en base a la muestra acerca de poblacin
estudiada.

Relacionado con las ciencias de la ingeniera, esta rama de la estadstica ser
fundamental para el apoyo en la elaboracin de estudios de diversa ndole.

Muestreo.

Una muestra es representativa en la medida que es imagen de la poblacin.

En general podemos decir que el tamao de una muestra depender
principalmente de:

a) Nivel de precisin deseado.
b) Recursos disponibles.
c) Tiempo involucrado en la investigacin.

Adems el plan de muestreo debe considerar:

a) La poblacin.
b) Parmetros a medir.

Existe una gran cantidad de tipos de muestreo. En la prctica los ms utilizados
son los siguientes:

Muestreo Aleatorio Simple:

Es un mtodo de seleccin de n unidades extradas de N, de tal manera que
cada una de las posibles muestras tiene la misma probabilidad de ser escogida.

Muestreo Estratificado Aleatorio:

Se usa cuando la poblacin est agrupada en pocos estratos, cada uno de ellos
son muchas entidades. Este muestreo consiste en sacar una muestra aleatoria simple
de cada uno de los estratos generalmente de tamao proporcional al estrato.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
5
Muestreo Sistemtico:

Se utiliza cuando las unidades de la poblacin estn de alguna manera
totalmente ordenadas.

Para seleccionar una muestra de n unidades, se divide la poblacin en "n"
subpoblaciones de tamao K = N/n y se toma al azar una unidad de la K primeras y de
ah en adelante cada k-sima unidad, es decir, siendo n
0
la primera unidad
seleccionada de la subpoblacin (1, 2, 3, ...k).

Muestreo por Conglomerados:

Se emplea cuando la poblacin est dividida en grupos o conglomerados
pequeos. Consiste en obtener una muestra aleatoria simple de conglomerados y luego
censar cada uno de stos.

Muestreo en dos Etapas:

En este caso la muestra se toma en dos pasos:

a) Seleccionar una muestra de unidades primarias.
b) Seleccionar una muestra de elementos a partir de cada unidad primaria escogida.

Variables Estadsticas y su Clasificacin.

Para poder introducir la terminologa definiremos previamente los siguientes
conceptos.

- Variable: es aquella caracterstica o fenmeno de las unidades que
interesan estudiar en una investigacin cientfica y que puede
tomar distintos valores.
- Variable Aleatoria: si los valores numricos que asume una variable provienen de
factores fortuitos y si un determinado valor no se puede predecir
exactamente con anticipacin, esa variable se denomina
aleatoria. Se representan generalmente con las letras X, Y, Z,
etc. La realizacin de la variable aleatoria se representa a su vez
con las letras minsculas tales como x, y, z, etc. De esta manera
si la variable aleatoria X tiene 6 valores ellos se denotan como x
1
,
x
2
, x
3
, x
4
, x
5
y x
6
, los subndices nos sirven para distinguir un
valor de otro de la variable aleatoria.

Teniendo presente las consideraciones anteriores, ahora podemos establecer
que en trminos generales se distinguen dos tipos de variables aleatorias que
proporcionan dos clases de datos:

a) Datos Cualitativos: producen respuestas categricas.
b) Datos Cuantitativos: entregan respuestas numricas.

Tipos de Escala de Medicin.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
6

a) Discretas: corresponden a respuestas numricas que obedecen o surgen de un
proceso de conteo. Asumen el valor de un conjunto finito o infinito pero
numerable.
b) Continuas: corresponden a respuestas numricas que obedecen o surgen de un
proceso de medicin. Asumen valores de un conjunto infinito no
numerable.
c) Intervalo: corresponde a una escala ordenada en que las diferencias entre las
medidas es una cantidad significativa.
d) Nominal: corresponden a datos que simplemente se diferencian por la categora,
no hay un orden en la categora.
e) Ordinales: cuando los datos observados pueden ser clasificados en categoras
distintas en las que existe algn orden lgico.

Medidas de Tendencia Central: su uso y sus propiedades.

Tal como su nomenclatura lo seala, estas medidas muestran o nos entregan la
tendencia que los datos presentan en torno a un punto central.

a) Media Aritmtica o Promedio: representa una especie de punto de equilibrio del
conjunto de datos que se estudia.

x =
n
x
n
i
i

=1

Sus propiedades:

- Promedio de un conjunto de observaciones sumando una constante:

n
c x
n
i
i

+
=1
=
(

+
=
n
i
i c x
n
1
) (
1
=
(

+
=
n
i
i x nc
n
1
1
=

=
+
n
i
i
n
x
n
nc
1
= x c+

- Promedio de un conjunto de observaciones multiplicando por una constante:

n
cx
n
i
i

=1
=
(
(

=
n
i
i
n
x
c
1
= x c

b) Mediana: corresponde al valor del conjunto de datos que se ubica al centro de la
secuencia ordenada.

Md =

+
+ +
impar es n si
par es n si
2


2 ) 1 (
1 ) 2 / ( 2 /
x
x x
n
n n


UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
7
c) Moda: valor que aparece con mayor frecuencia en un conjunto de datos.

Medidas de Posicin.

Corresponden a medidas que son tiles de aplicar o calcular para resumir
propiedades de grandes cantidades de datos cuantitativos. Por lo general a estas
medidas se les denomina cuantiles, siendo los ms conocidos los Percentiles, Deciles,
Quintiles y Cuartiles, que dividen en cien, diez, cinco y cuatro partes el conjunto de
datos ordenados, respectivamente.

a) Percentiles: corresponde a aquella medida que divide, a un conjunto ordenado de
observaciones, en cien partes. El percentil p corresponde al valor que
deja bajo s el p% del total de observaciones, del mismo modo, deja
sobre s el (100 - p)% del total de observaciones.

P
p
= x
pn/100


Obs.: 0 <p <100.

b) Deciles: corresponde a aquella medida que divide, a un conjunto ordenado de
observaciones, en diez partes. El decil p corresponde al valor que deja bajo
s el p% del total de observaciones, del mismo modo, deja sobre s el (100 -
p)% del total de observaciones.

D
p
= x
pn/10


Obs.: 0 <p <10.

c) Quintiles: corresponde a aquella medida que divide, a un conjunto ordenado de
observaciones, en cinco partes. El quintil p corresponde al valor que deja
bajo s el p% del total de observaciones, del mismo modo, deja sobre s el
(100 - p)% del total de observaciones.

Q
p
= x
pn/5


Obs.: 0 <p <5.

d) Cuartiles: corresponde a aquella medida que divide, a un conjunto ordenado de
observaciones, en cuatro partes. El cuartil p corresponde al valor que deja
bajo s el p% del total de observaciones, del mismo modo, deja sobre s el
(100 - p)% del total de observaciones.

C
p
= x
pn/4

Obs.: 0 <p <4.

Algunas relaciones importantes:

Md = P
50
= D
5
= C
2

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
8
Medidas de Dispersin.

Las medidas de dispersin nos indican el grado de variabilidad en torno a un
valor central que posee el conjunto de datos bajo anlisis.

a) Varianza: corresponde al promedio de las distancias cuadrticas entre cada
observacin con respecto a su media.

s
2
=
1
) (
1
2


=
n
x x
n
i
i
=
1
1
2 2


=
n
x n x
n
i
i
=
1
2
1
1
2

|
.
|

\
|

=
=
n
n
x
x
n
i
i
n
i
i


b) Desviacin Estndar: corresponde a la raz cuadrada de la varianza, por tanto es el
promedio de distancias de cada observacin con respecto a la
media.

s =
( )
1
1
2


=
n
x x
n
i
i


c) Rango: corresponde a la diferencia entre el mayor y el menor valor del conjunto de
datos.

R =Mx - Mn

d) Coeficiente de Variacin: corresponde a una medida relativa de dispersin; mide la
dispersin de los datos en torno a la media.

C.V. =
x
s
100%

Medidas de Asimetra, Coeficiente de Pearson y Bowley y su interpretacin.

Las medidas de asimetra se utilizan para determinar el grado de sesgo que
posee el conjunto de datos. De este modo, se puede determinar entonces si el conjunto
de datos presenta una mayor tendencia hacia valores pequeos o hacia valores ms
grandes.
a) Coeficiente de Pearson: mide el grado de asimetra de la distribucin considerando
la media y la mediana con respecto a la desviacin
estndar.

C.P. =
s
Md x ) ( 3


donde:

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
9
C.P. >0 Asimetra positiva.
C.P. <0 Asimetra negativa.

Presentacin de la Informacin.

Una tcnica que se utiliza para poder visualizar en forma global a un conjunto
determinado de observaciones corresponde a las Tablas de Frecuencias y a los
Grficos de Datos. Ambos elementos permiten al investigador poder tener una
apreciacin general de la informacin que dispone y evita tener que manejar todos los
datos en forma individual que no le dicen mucho de lo que se desea investigar.

De esta manera podemos afirmar que estas herramientas se constituyen en una
manera sumamente til de resumir la informacin y extraer las principales
caractersticas de estos datos.

Con los adelantos de los sistemas de informacin existentes en la actualidad la
tarea de elaborar tablas de frecuencia y grficos de datos se hace cada vez ms fcil y
precisa permitiendo al mismo tiempo resumir enormes masas de datos en informacin
sintetizada que permite un anlisis preliminar en un tiempo reducido.

Tablas de Frecuencia:

Corresponde a una tcnica que permite resumir la informacin utilizando tablas
que contengan los datos que se disponen, pero en forma abreviada utilizando lo que se
denomina criterios de clasificacin.

Son entonces tablas resumen en que la informacin se ordena en categoras o
clases y se registra la cantidad de observaciones que se presenta en cada categora.
Cuando se aplica esta tcnica a un conjunto de datos se dice entonces que se trabaja
con datos agrupados.

Una condicin bsica que se debe tener presente al momento de construir las
que se denominan Tablas de Frecuencia es determinar el nmero de categoras ms
apropiado, establecer un ancho de categora adecuado y establecer en forma correcta
los lmites de cada clase. Adems esta tcnica debe permitir observar con mayor
claridad los datos por lo tanto debe ser entendible fcilmente por cualquier persona que
es ajena a la informacin que se maneja, si por cualquier motivo la tabla obtenida
resulta ms dificultosa de analizar que el conjunto de datos sin agrupar, dicha tabla
carece del valor de poder entregar informacin para un determinado anlisis.
Por tanto para poder construir una Tabla de Frecuencias se requiere de los
siguientes antecedentes:

- Desviacin Mxima =Valor Mx Valor Mn (DM)

- Recorrido de la Muestra =DM + 1 unidad de medida (RM)

- Cantidad ptima de Intervalos =1 + 3,3 Log (n) (k)

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
10
- Longitud del Intervalo =
k
RM
(c)

La Longitud del Intervalo se debe aproximar al valor mayor en la unidad de medida
correspondiente.

- Recorrido de la Tabla =c k (RT)

- Diferencia de Recorridos =RT RM (DR)

Una vez disponible los antecedentes recin expuestos debemos proceder a
construir la tabla propiamente tal que debe contener lo siguiente:

- Lmites Aparentes: corresponde a los valores que aparecen en cada intervalo
tanto en el lmite inferior como en el superior.
- Lmites Reales: corresponde a los valores que aparecen en cada intervalo
pero en escala continua.
- Frecuencia Absoluta: representa la cantidad de observaciones que pertenecen al
intervalo i. (f
i
)
- Frecuencia Relativa: proporcin de observaciones que pertenecen al intervalo i.

|
.
|

\
|
n
fi

- Frecuencia Acumulada: cantidad de observaciones que caen bajo el lmite superior
del intervalo i. (F
i
)
- Frec. Acum. Relativa: proporcin de observaciones que caen bajo el lmite
superior del intervalo i.
|
.
|

\
|
n
Fi

- Marca de Clase: representa el valor promedio del intervalo i. (m
i
)
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
11
ESQUEMA DE LA TABLA DE FRECUENCIA

LIMITES
REALES
LIMITES
APARENTES
m
i
f
i

n
fi
F
i

n
Fi





n 100% 1
T O T A L E S n 100% 1

a) Medidas de Tendencia Central para datos Agrupados.

- Media aritmtica o Promedio:

x =

=
k
i
i if m
n
1
1


Obs.: k corresponde al nmero de intervalos.

- Mediana:

Md =L
i
+
|
|
|
.
|

\
|

c
aA
f
F
n
2
c

donde:

L
i
: lmite exacto inferior de la clase que contiene la mediana.
F
aA
: frecuencia acumulada de la clase que precede a la clase que contiene la mediana.
f
c
: frecuencia absoluta en la clase que contiene a la mediana.
c: tamao del intervalo de clase.

- Moda:

Mo =L
i
+ |
.
|

\
|
+ 2 1
1
d d
d
c

donde:

L
i
: lmite exacto inferior de la clase que contiene la moda.
d
1
: diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de
la clase precedente.
d
2
: diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta de
la clase siguiente.
c: tamao del intervalo de clase.

b) Medidas de Posicin para datos Agrupados.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
12

- Percentiles:

P
p
= L
i
+
|
|
|
.
|

\
|

-
c
aA
f
F
n p
100
c

donde:

L
i
: lmite exacto inferior de la clase que contiene al percentil.
F
aA
: frecuencia acumulada de la clase que precede a la clase que contiene al percentil.
f
c
: frecuencia absoluta en la clase que contiene al percentil.
c: tamao del intervalo de clase.

- Deciles:

D
p
= L
i
+
|
|
|
.
|

\
|

-
c
aA
f
F
n p
10
c

donde:

L
i
: lmite exacto inferior de la clase que contiene al decil.
F
aA
: frecuencia acumulada de la clase que precede a la clase que contiene al decil.
f
c
: frecuencia absoluta en la clase que contiene al decil.
c: tamao del intervalo de clase.

- Cuartiles:

Q
p
= L
i
+
|
|
|
.
|

\
|

-
c
aA
f
F
n p
4
c

donde:

L
i
: lmite exacto inferior de la clase que contiene al cuartil.
F
aA
: frecuencia acumulada de la clase que precede a la clase que contiene al cuartil.
f
c
: frecuencia absoluta en la clase que contiene al cuartil.
c: tamao del intervalo de clase.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
13
c) Medidas de Dispersin para datos Agrupados.

- Varianza:

s
2
=
( )
1
1
2


=
n
f x m
k
i
i i
=
1
2
1
1
2

|
.
|

\
|
=
=
n
n
f m
f m
k
i
i i
k
i
i i


- Desviacin Estndar:

s =
1
) (
1
2


=
n
f
x mi
n
i
i


- Rango:

R = L
S
- L
I


- Coeficiente de Variacin:

C.V. =
x
s
100%

d) Medidas de Asimetra para datos Agrupados.

- Coeficiente de Pearson:

C.P. =
s
Md x ) ( 3


donde:

C.P. >0 Asimetra positiva.
C.P. <0 Asimetra negativa.

Grficos:

Corresponde a una representacin de los datos en el plano. El tipo de grfico a
utilizar va a depender del tipo de variable que estemos estudiando. Algunos de stos
son:

a) De Barras Simples: utilizados para representar frecuencias de variables cualitativas o
cuantitativas discretas.

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
14
I ngeni er a Const r ucci n El ect r i ci dad Est ad st i ca Qu mi ca F si ca Mat emt i cas
0
20
40
60
80
100
120
140
160
C
A
N
T
I
D
A
D

D
E

A
L
U
M
N
O
S
I ngeni er a Const r ucci n El ect r i ci dad Est ad st i ca Qu mi ca F si ca Mat emt i cas
ESPECIALIZACION
CAMPOS DE ESPECIALIZACION DE LOS ALUMNOS DEL AREA
CIENTIFICA-TECNOLOGICA


En este tipo de grficos se utiliza en el eje de las (x) las categoras de la variable y en el
eje de las (y) se muestran las frecuencias absolutas.

b) De Barras Subdivididas: corresponde a una extensin del grfico anterior que
permite comparar dentro de una misma categora.

Ingeni er a Const r ucci n El ect r i ci dad Est ad st i ca Qu mi ca F si ca Mat emt i cas
0
20
40
60
80
100
120
C
A
N
T
I
D
A
D

D
E

A
L
U
M
N
O
S
Ingeni er a Const r ucci n El ect r i ci dad Est ad st i ca Qu mi ca F si ca Mat emt i cas
ESPECIALIZACION
CAMPOS DE ESPECIALIZACION DE ALUMNOS DEL AREA
CIENTIFICA-TECNOLOGICA
HOMBRES MUJERES


En la construccin de este tipo de grficos utilizamos en el eje de las (x) las categoras
de la variable y en el eje de las (y) se muestran las frecuencias absolutas, la nica
diferencia es que se subdividen las categoras en las distintas clases que sta presente.
c) De Barras Agrupadas: esta forma de representacin permite comparar dentro de
una misma categora.
UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
15

0
20
40
60
80
100
120
140
160
C
A
N
T
I
D
A
D

D
E

A
L
U
M
N
O
S
Ingeni era Construcci n El ectri ci dad Estadsti ca Qumi ca Fsi ca Matemti cas
ESPECIALIZACIN
CAMPOS DE ESPECIALIZACIN DE ALUMNOS DEL REA CIENTFICO-TECNOLGICA
Hombres Muj eres


d) Sectoriales: estos grficos permiten mostrar comparaciones proporcionales dentro
de una misma categora.

DISTRIBUCION ALUMNO SEGUN ESPECIALIDAD
Construccin
9%
Electricidad
11%
Estadstica
8%
Fsica
3%
Ingeniera
50%
Matemticas
15%
Qumica
4%


En este tipo de grficos utilizamos las frecuencias absolutas que son transformadas a
proporciones, las que son representadas sobre el total de la muestra.

e) Histogramas: utilizados para trabajar con variables continuas. Utilizan la frecuencia
relativa correspondiente a cada intervalo.

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
16
111- 120 121- 130 131- 140 141- 150 151- 160 161- 170 171- 180
0
5
10
15
20
25
30
35
40
45
G
R
A
M
O
S
111- 120 121- 130 131- 140 141- 150 151- 160 161- 170 171- 180
GRADOS CELCIUS
AUMENTO EN PESO AL ESTIMULO DE TEMPERATURA


En este tipo de grficos utilizamos en el eje de las (x) los intervalos con sus lmites
reales de las categoras de la variable y en el eje de las (y) se muestran las frecuencias
absolutas.

f) Polgono de Frecuencia: utilizados para todo tipo de variables. Utiliza las frecuencias
absolutas o relativas versus marcas de clase.

AUMENTO EN PESO AL ESTIMULO DE TEMPERATURA
0
5
10
15
20
25
30
35
40
45
115,5 125,5 135,5 145,5 155,5 165,5 175,5
GRADOS CELCIUS
G
R
A
M
O
S


En este tipo de grficos utilizamos en el eje de las (x) las marcas de clase de la variable
y en el eje de las (y) se muestran las frecuencias absolutas.

g) Frecuencia Acumulada (Ojiva): se utiliza para la representacin la frecuencia
acumulada versus marca de clase.

UNIVERSIDAD TCNICA FEDERICO SANTA MARA SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
17
AUMENTO EN EL PESO AL ESTIMULO DE TEMPERATURA
0
20
40
60
80
100
120
140
160
115,5 125,5 135,5 145,5 155,5 165,5 175,5
GRADOS CELCIUS
G
R
A
M
O
S


En este tipo de grficos utilizamos en el eje de las (x) las marcas de clase de la variable
y en el eje de las (y) se muestran las frecuencias acumuladas.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
1
III UNIDAD TEMTICA: INTRODUCCIN A LA TEORA DE
PROBABILIDADES


3.0 Introduccin.

La Teora de Probabilidades estudia las reglas de probabilidad bsica que
pueden ser utilizadas para determinar y medir la posible ocurrencia de determinados
fenmenos, de modo que sta pueda servir de base para realizar inferencias sobre los
parmetros poblacionales basados en muestras estadsticas.

Los elementos bsicos de la Teora de Probabilidades son los resultados de un
proceso o fenmeno bajo estudio.

3.1 Definicin de Posibilidad, Axiomas de Probabilidad.

Experimento al azar: accin de la cul no se puede predecir con certeza su
resultado.
Probabilidad: grado o nivel de posibilidad o certeza que ocurra un
determinado suceso o evento, medido en un espacio
determinado.
Suceso o Evento: resultado o conjunto de ellos que interesa estudiar o
medir.
Espacio Muestral: conjunto de todos los posibles resultados de un
experimento aleatorio. ()
Suceso Seguro:
Suceso Imposible:

Cuando trabajamos en Teora de Probabilidades una de las ideas fundamentales
se relaciona con la intencin de obtener una medida que cuantifique el nivel de
certeza en la ocurrencia de un determinado suceso o evento.

El concepto de medida lo podemos ligar en este caso a la necesidad de
establecer sistemas de conteo, es decir, formas que permitan contar la cantidad de
maneras que puede ocurrir un suceso determinado.

De esta manera nacen algunos mtodos de conteo fundamentales en Teora de
Probabilidades que se describen como sigue:

a) Principio de Adicin: si tenemos dos sucesos, con la condicin de que ambos
no pueden ocurrir simultneamente, de manera tal que el
suceso A puede ocurrir de n maneras y el suceso B
puede ocurrir de m maneras, entonces el suceso (A B)
puede ocurrir de (n + m) maneras.

b) Principio de Multiplicacin: si tenemos dos sucesos de manera tal que el suceso A
puede ocurrir de n maneras y el suceso B puede ocurrir
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
2
de m maneras, entonces el suceso (A y B) puede ocurrir
de (n m) maneras.

c) Permutaciones: corresponde a la cantidad de arreglos u ordenaciones
posibles de realizar al tomar una cantidad determinada
de objetos (r), dentro de un conjunto de ellos (n).


P
n
r
=
r)! (n
n!

permutaciones de n objetos tomando r cada


vez.

P
n
= n! permutaciones totales.

P
n1 n2 ... nk
=
! !...n n ! n ! n
n!
k 3 2 1
permutaciones objetos idnticos.

=
=
k
1 i
i n n

P
c
= (n - 1)! permutaciones circulares.

d) Combinaciones: corresponde a la cantidad de formas posibles de tomar r
objetos de entre un total de n. En otras palabras es la
cantidad de subconjuntos que se pueden formar a partir
de n objetos tomando r cada vez.


C
n
r
=
r)! (n r!
n!



e) Definicin Clsica y Frecuentista de Probabilidad:

El enfoque clsico de probabilidad asume que todos los posibles resultados del
espacio muestral son igualmente probables y mutuamente excluyentes. (Probabilidad a
priori).

P(A) =
) n(
n(A)



El enfoque frecuentista de probabilidad se basa en la observacin de un
experimento, que slo consiste en observar las veces que se repite un determinado
suceso en una cantidad determinada de repeticiones de la experiencia. No existe la
suposicin implcita de igualdad de probabilidades. (Probabilidad emprica).

P(A) =
n
ni
=
o experiment el repite se que veces de n
A ocurre que veces de n

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
3
f) Definicin Axiomtica de Probabilidad:

La teora de probabilidades es una herramienta con una base terica sumamente
importante y que alcanza niveles importantes de complejidad dependiendo del nivel que
se desee profundizar en su anlisis. Dadas las caractersticas de este curso haremos
algunas definiciones dejando a un lado algunas consideraciones tericas que escapan a
los objetivos de la asignatura.

Teniendo presente entonces la observacin anterior, para poder definir
matemticamente una medida de probabilidad se deben dar las siguientes condiciones:

i) P(A) IR , 0 P(A) 1
ii) P() =1
iii) Si tenemos dos sucesos A y B, con la condicin de que ambos sean sucesos
mutuamente excluyentes, entonces:

P(A B) = P(A) + P(B)
P(A) = 1 - P(A
c
)
P() = 0
P(A B) = 0
P(A) < P(B) A B

iv) Sean A, B y C tres sucesos cualesquiera, entonces:

P(A B) = P(A) + P(B) - P(A B)
P(A) = P(A B) + P(A B
c
)
P(A
c
B
c
) = 1 - P(A B)
P(ABC) = P(A) + P(B) + P(C) - P(A B) - P(A C) - P(B C) + P(A B C)

3.2 Probabilidad asociada a la visin de suceso, Sucesos Excluyentes.

Definicin: Sean A y B dos sucesos determinados, entonces:

Si A B = A y B son sucesos mutuamente excluyentes o sucesos disjuntos, no
pueden ocurrir simultneamente.

Diagrama de Venn:


A B




UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
4
En resumen, podemos decir que dos o ms sucesos o eventos son mutuamente
excluyentes si stos no pueden ocurrir al mismo tiempo, es decir, la ocurrencia de uno
de ellos imposibilita de inmediato la ocurrencia del otro u otros.

3.3 Dependencia Estadstica, Probabilidad Condicional.

El concepto de dependencia estadstica se refiere a aquellos sucesos que
cuando ocurren tienen una influencia o efecto en la ocurrencia de otro u otros sucesos.

El caso de probabilidad condicional obedece a aquellas medidas de
probabilidad que se calculan dada una condicin previa de ocurrencia de otro suceso
determinado.

A partir de estas definiciones podemos entonces presentar las siguientes
expresiones:

P(A/B) =
P(B)
B) P(A
, P(B) > 0
P(A B) = P(A/B) P(B)
P(A B) = P(B/A) P(A)
P(A B/C) = P(A/C) + P(B/C) - P(A B/C)
P(A B C) = P(A) P(B/A) P(C/A B)

3.3.1 Teorema de Bayes:

P(A) =
=
k
1 i
i i ) )P(B P(A/B , B
i
es una particin.
P(B/A) =

=
k
1 i
i i ) )P(B P(A/B
P(A/B)P(B)
, B
i
es una particin.

3.4 Independencia Estadstica.

Definicin: Sean A y B dos sucesos independientes, entonces:

P(A B) = P(A) P(B)
P(A/B) = P(A)

Entonces, dos eventos son independientes cuando la ocurrencia de uno no tiene
ningn efecto sobre la probabilidad de ocurrencia del otro.

3.5 Variables Aleatorias.

Una variable aleatoria se relaciona con un modelo matemtico que entrega
resultados de medidas de probabilidad. Corresponde a un evento numrico cuyo valor
se determina a travs de un proceso aleatorio.

3.5.1 Funcin de Distribucin de Probabilidades:
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
5

Cuando se asignan valores de probabilidad a todos los valores numricos
posibles de una variable aleatoria, o sea, a todo su recorrido, ya sea mediante un
listado o a travs de una funcin matemtica, se obtiene como resultado una
Distribucin de Probabilidades.
Una funcin de distribucin de probabilidades puede definirse como una relacin
mutuamente excluyente de todos los resultados numricos posibles para esa variable
aleatoria, de manera que la probabilidad de ocurrencia se relacione en particular con
cada resultado.

Un modelo matemtico es una representacin de algn fenmeno en particular,
corresponde a una expresin matemtica que representa algn fenmeno. Para el caso
de las variables aleatorias este modelo se conoce como Funcin de Distribucin de
Probabilidades.

3.5.2 Tipos de Variables Aleatorias:

Existen bsicamente dos tipos de variables aleatorias y stas se clasifican,
matemticamente hablando, segn el dominio que posea su recorrido, en variables
aleatorias discretas y continuas.

Una variable aleatoria discreta puede identificarse ya que slo puede asumir
valores observados en puntos aislados a lo largo de una escala, de este modo los
valores se expresan en nmeros enteros. Una variable discreta corresponde a datos
que se generan por un proceso de conteo. Para este tipo de variables es posible listar
cada uno de los valores numricos de la variable en una tabla con las correspondientes
probabilidades.

Una variable aleatoria continua puede asumir un valor en cualquier punto
fraccionario de un intervalo especifico. Este tipo de datos se generan por medio de un
proceso de medicin. Para estas variables continuas no es posible listar todos los
valores fraccionarios de la variable y, por lo tanto, las probabilidades que se determinan
a travs de una funcin matemtica se ilustran en forma grfica mediante una Funcin
de Densidad de Probabilidad o una Curva de Probabilidad.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
6
IV UNIDAD TEMTICA: DISTRIBUCIN DE PROBABILIDADES

4.0 Distribuciones de Probabilidades Especiales.

Cuando tenemos Distribuciones de Probabilidad a partir de una relacin terica
de resultados y probabilidades, en donde se puede obtener un modelo matemtico que
represente algn fenmeno de inters, nacen Distribuciones de Probabilidades
modeladas que facilitan el clculo de probabilidades en situaciones que siguen el
comportamiento del modelo que se asume.

Al contar con expresiones matemticas se puede calcular la probabilidad de
ocurrencia exacta de cualquier resultado en particular de la variable aleatoria. De esta
manera, en estos casos se puede obtener y relacionar toda la distribucin de
probabilidad.

Para facilitar los estudios y anlisis en diversas reas del conocimiento se han
desarrollado modelos matemticos para representar algunos fenmenos discretos y
continuos que ocurren en las ciencias sociales y naturales, en la investigacin mdica y
en los negocios, y prcticamente en todas las reas del conocimiento.

4.1 Distribuciones Discretas.

4.1.1 Valor Esperado de una Variable Aleatoria Discreta.

Generalmente se utiliza la simbologa para denotar a la media de una
distribucin de probabilidades, la que corresponder al valor esperado de su variable
aleatoria.

El valor esperado de una variable aleatoria discreta puede ser considerado como
el promedio ponderado de todos los resultados posibles, siendo las ponderaciones la
probabilidad asociada a cada uno de los resultados posibles. Este valor esperado
puede expresarse de la siguiente manera:

=E(X) =

n
1 i
x i i p x
=


4.1.2 Varianza y Desviacin Estndar de una Variable Aleatoria Discreta.

Para el caso de la varianza su definicin terica corresponde al promedio
ponderado de las distancias cuadrticas entre cada resultado posible y la media del
conjunto de datos, siendo la ponderacin la probabilidad de cada uno de los resultados
posibles. Su expresin est dada como sigue:

2
=V(X) = ( )


=

n
1 i
x i i p x
2


En cuanto a la desviacin estndar, al igual como ya se ha estudiado, sta
corresponde a:
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
7
= ( )


=

n
1 i
x i i p x
2


4.1.3 Propiedades importantes de las Variables Aleatorias Discretas.

i) P(X x) = =
x
X Rec
i) x P(X
ii) P(X >x) =1 - P(X x 1)
iii) P(a X b) =P(X b) P(X a)
iv) V(X) =E(X
2
) E(X)
2


a) Distribucin Binomial:

Esta distribucin corresponde a aquella que se ajusta a la siguiente definicin: se
realizan n ensayos tipo Bernoulli, con las siguientes caractersticas:

Existen dos resultados mutuamente excluyentes en cada ensayo los que
denominaremos xito y fracaso.
Cada ensayo constituye eventos independientes.
Es un proceso estacionario, es decir, la probabilidad de obtener un xito
permanece constante de un ensayo a otro.

Notacin: X ~B(n,p) Recorrido: R
x
={0, 1, ...n}
n: nmero de ensayos.
p: probabilidad de obtener un xito.

La funcin de cuanta est dada por:

P(X =x) =
n
C
x
p
x
q
n - x

=
x)! (n x!
n!

p
x
q
n - x


donde: q = 1 p

E(X) =np
V(X) =npq

b) Distribucin Hipergeomtrica:

Este tipo de distribucin la podemos definir como sigue: tenemos una poblacin
de tamao N de entre los cules A elementos poseen una determinada caracterstica y
el resto no la posee. Se toma una muestra de tamao n y se cuenta el nmero de
elementos que poseen la caracterstica en la muestra.

Notacin: X ~H(N,n,A) Recorrido: R
x
={En funcin de N, n y A}
N: nmero de elementos de la poblacin.
n: nmero de elementos de la muestra.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
8
A: nmero de elementos con la caracterstica.

La funcin de cuanta est dada por:

P(X =x) =
n N
x n A N x A
C
C C

E(X) =n
N
A

V(X) =n
N
A

N
A - N

1 - N
n - N


Obs.: Si n <0,05N es recomendable utilizar la distribucin Binomial.

c) Distribucin Poisson:

Esta distribucin la identificamos bajo las siguientes caractersticas: se cuentan la
cantidad de sucesos que ocurren en un determinado continuo de tiempo, espacio,
superficie, etc., y, adems, debe considerar los siguientes elementos:

i) Los sucesos se presentan en un determinado continuo de tiempo, espacio,
superficie, etc.
ii) Cada ensayo constituye un evento independiente.
iii) Es un proceso estacionario, es decir, la probabilidad de obtener un evento
determinado permanece constante en el continuo dado.

Notacin: X ~P() Recorrido: R
x
={0,1, ...}
: nmero promedio de eventos o tasa de eventos.

La funcin de cuanta est dada por:

P(X =x) =
! x
e
x



E(X) =
V(X) =

d) Aproximacin a la distribucin Poisson desde una distribucin Binomial:

Si tenemos una distribucin Binomial con parmetros n y p en donde existen las
condiciones tal que n (>30) p 0 1, entonces tenemos:

Si X ~B(n,p) E(X) =np

Si Y ~P() E(Y) =

X ~ P(np) que corresponde a una distribucin Poisson aproximada desde una
distribucin Binomial.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
9
e) Distribucin Geomtrica:

Esta distribucin la identificamos ya que consiste en la realizacin de infinitos
ensayos Bernoulli independientes y la variable cuenta el nmero de ensayos hasta que
aparece el primer xito.

Notacin: X ~G(p) Recorrido: R
x
={1, 2, 3, ...}
p: probabilidad de xito.

La funcin de cuanta est dada por:

P(X =x) =p q
x - 1


E(X) =
p
1

V(X) =
p
q
2


f) Distribucin Binomial Negativa o Pascal:

La presente distribucin consiste en la realizacin de infinitos ensayos Bernoulli
independientes y cuenta el nmero de ensayos hasta que aparece el r-simo xito.

Notacin: X ~Bn(r,p) Recorrido: R
x
={r, r +1, ...}
r: ensayo en que aparece xito.
p: probabilidad de xito.

La funcin de cuanta est dada por:

P(X =x) =
x-1
C
r-1
p
r
q
x - r


E(X) =
p
r

V(X) =
p
rq
2


Muchas de estas distribuciones han sido tabuladas previamente y estn
disponibles para evitar realizar clculos excesivos.

4.2 Distribuciones Continuas.

4.2.1 Funcin de Densidad de Probabilidad para modelos matemticos de Variables
Aleatorias Continuas.

Como ya hemos sealado en ms de una oportunidad, las variables aleatorias
continuas se generan a partir de un proceso de medicin.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
10
Estos modelos que representan variables aleatorias continuas tienen numerosas
aplicaciones en ingeniera y en fsica, al igual que en los negocios y las ciencias
sociales.

Una expresin matemtica que representa algn fenmeno de tipo continuo
puede ser utilizada para calcular la probabilidad de que ocurran varios valores de la
variable aleatoria dentro de ciertos rangos o intervalos, sin embargo, la probabilidad
exacta de un valor particular es cero.

4.2.2 Valor Esperado, Varianza y Desviacin Estndar de una Variable Aleatoria
Continua.

Dada las dificultades de tipo matemticas que significa el clculo de los valores
esperados, varianza y desviacin estndar, cuyos conocimientos escapan al alcance de
este curso, no estudiaremos la forma de calcular estas expresiones, sino que solamente
sern mencionadas para la distribucin, siendo su interpretacin y significado los
mismos que se estudiaron para el caso de variables aleatorias discretas.

a) Distribucin Normal.

Esta distribucin ha sido y es una de las de mayor importancia ya que se utiliza
en la teora de muchas de las tcnicas estadsticas para realizar estimaciones y
predicciones. Estadsticamente su importancia radica en:

i) Varios fenmenos continuos parecen seguir esta distribucin o pueden ser
aproximados a ella.
ii) Sirve para aproximar varias distribuciones discretas de probabilidad y as evitar
molestos clculos matemticos.
iii) Proporciona la base para la Inferencia Estadstica Clsica por su relacin con el
Teorema del Lmite Central
1
.

Adems, esta distribucin posee varias propiedades que son interesantes de
destacar:

i) Su forma es de campana y, adems, es simtrica.
ii) Las medidas de tendencia central son idnticas.
iii) La variable aleatoria asociada no est acotada, es decir, tiene un rango infinito por lo
que su recorrido vara entre - <x <.

El modelo matemtico de esta distribucin que corresponde a su funcin de
densidad, est dado por:

f(x) =
( )
e
2
1
2
2
x
2




donde:

1
Teorema del Lmite Central ser estudiado en adelante en este curso.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
11
e: constante matemtica aproximada por 2,71828.
: constante matemtica aproximada por 3,14159.
: media de la poblacin.
: desviacin estndar de la poblacin.
x: es cualquier valor de la variable aleatoria continua.

Como podemos deducir entonces, las probabilidades de una variable aleatoria
distribuida Normal slo dependen de los dos parmetros de la distribucin, la media de
la poblacin y la desviacin estndar de la poblacin .



En la figura anterior podemos sealar que para el caso de las distribuciones
ubicadas al lado izquierdo, stas presentan un mismo valor para la media , pero
distinto valor para la desviacin estndar ; sin embargo, para el caso de las dos
distribuciones ms bajas ubicadas en el lado izquierdo y derecho respectivamente,
stas poseen un valor distinto para la media pero igual valor para el caso de la
desviacin estndar .

Notacin: X ~N(,
2
) : media.

2
: varianza.

E(X) =
V(X) =
2


Para efectos de simplificar los clculos de la distribucin Normal, estudiosos han
tabulado los valores de sus probabilidades, pero solamente para la llamada distribucin
Normal Estndar, la que posee media igual a cero y varianza igual a uno.

Matemticamente, el proceso de estandarizacin de la Distribucin Normal es el
siguiente:

Z =

- x
~N(0,1)

En este caso su densidad est dada por la siguiente expresin:

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
12
f(z) =
e
2
1
2
z
2



b) Aproximacin a la distribucin Normal a partir de una distribucin Binomial:

Sea que tenemos una distribucin Binomial con parmetros n y p, en donde
existen las condiciones tal que n (>30) y p 0 1, entonces tenemos:

Si X ~B(n,p) E(X) =np V(X) =npq

Si Y ~N(,
2
) E(Y) = V(Y) =
2


X ~N(np;npq) que corresponde a una distribucin Normal aproximada desde una
distribucin Binomial.

c) Aproximacin a la distribucin Normal a partir de una distribucin Poisson:

Si tenemos una distribucin Poisson con parmetro y existen las condiciones
tal que (>10), entonces tenemos:

Si X ~P() E(X) = V(X) =

Si Y ~N(,
2
) E(Y) = V(Y) =
2


X ~ N(;) que corresponde a una distribucin Normal aproximada desde una
distribucin Poisson.

d) Distribucin Uniforme:

Una distribucin uniforme corresponde a aquella que posee un mismo
comportamiento en un determinado intervalo. Su funcin de densidad est dada por:

f(x) =
a - b
1

F(X) =
a - b
a - x


Notacin: X ~U[a,b]

E(X) =
2
b a+

V(X) =
( )
12
a - b
2

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada
13
e) Distribucin Exponencial:

La funcin de densidad est dada por:

f(x) =
( )
e
a
1
a
x


F(X) =
( )
e
1 a
x



Notacin: X ~E()

E(X) =
V(X) =
2

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 1
V UNIDAD TEMTICA: ESTIMACIN PUNTUAL Y POR INTERVALOS
DE CONFIANZA


5.0 Estimacin de Valores Poblacionales.

El rea de la estadstica denominada Inferencia Estadstica, corresponde al
proceso de hacer uso de los resultados de experiencias muestrales para obtener
conclusiones sobre las caractersticas de una poblacin.

Nuestro estudio a partir de esta etapa se centrar en la estimacin de los
verdaderos valores poblacionales de diferentes parmetros de inters.

Es necesario destacar que existen dos mtodos principales de estimacin la
estimacin puntual y la estimacin por intervalos de confianza.

En el caso de la estimacin puntual, se tiene solamente una muestra estadstica
que es utilizada para estimar el verdadero valor del parmetro poblacional. Es el caso
de la media muestral (x) que corresponde a la estimacin puntual de la media
poblacional (
x
) y a la varianza muestral (s
2
) que corresponde al estimador puntual de la
varianza poblacional (
2
).

Sin embargo, a pesar que estos estimadores poseen algunas caractersticas
deseables como el insesgamiento y la eficiencia, es necesario contar con estimacin
ms exacta que stas que se ven bastante afectadas por los elementos que componen
la muestra respectiva, motivo por el cul se han desarrollado las tcnicas de estimacin
por intervalos de confianza.

5.1 Distribuciones Muestrales y Estimacin por Intervalos de Confianza.

Esta tcnica es necesaria desarrollarla para poder conocer la distribucin de los
diferentes parmetros estudiados con anterioridad, tomando como base el conocimiento
de distribuciones de probabilidad y sus propiedades.

Recordemos que siempre las muestras son para obtener resultados que sirvan
para ser generalizados a una determinada poblacin, ya que los investigadores desean
poder ampliar las conclusiones obtenidas a partir de una muestra a la poblacin objeto
de estudio.

Si tomamos todas las muestras y calculamos los valores de los parmetros
muestrales estimados para cada una de ellas, la distribucin de estos resultados recibe
el nombre de distribucin muestral.

5.1.1 Estimacin por Intervalos de Confianza para la Media poblacional:

Para el caso de la Distribucin Muestral de la Media se considera que si se
toman muestras provenientes de una Distribucin Normal, la media tendr una
distribucin Normal.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 2

n
x
x
n
1 i
i
=
=
N

n
,
2
x
x

Z =
n
) x (
2

n ) x (
N(0,1)

a) Para con conocido.

Z =

n ) x (
N(0,1)

I.C. =

n
Z x
n
Z x
2
1
2
1 ;

Al trabajar con muestras que superen al 5% de la poblacin, se utilizar lo que se
denomina el Factor de Correccin para Poblacin Finita que se expresa como sigue:

Fcpf =
1 N
n N



Este factor se multiplica por la desviacin estndar de manera de poder obtener una
estimacin an ms exacta del parmetro en cuestin. Para el caso de trabajar con la
media se tendr:


1 N
n N
n



b) Para con desconocido.

Cuando no se conoce el valor de la varianza poblacional, entonces la distribucin
muestral de la media se distribuye como sigue:


n
x
x
n
1 i
i
=
=
t(n 1)
Si X tiene una distribucin Normal, entonces:

T =
s
n ) x (
t(n - 1)
I.C. =

+

n
s
t
x ;
n
s
t
- x
1) - (n
/2 - 1
1) - (n
/2 - 1

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 3
La distribucin t es muy similar a la distribucin Normal, ambas poseen forma de
campana y son simtricas, salvo que para el caso de la distribucin t las colas poseen
mayor rea y el centro un rea menor que la distribucin Normal. Sin embargo, a
medida que aumentan los grados de libertad, la distribucin t se aproxima gradualmente
a la distribucin Normal hasta que ambas son prcticamente idnticas. Esto ocurre ya
que a medida que aumenta el tamao de la muestra s se convierte en un mejor
estimador de .

El concepto de grados de libertad se relaciona con la idea de que para calcular s
se necesita obtener en primer lugar el valor de x por lo que se dice que slo n 1 de
los valores estn libres, es decir, conociendo n 1 de los valores se puede obtener el
dato restante ya que se tienen condiciones preestablecidas para aquel.

En el caso que no sea posible suponer una distribucin Normal para la media, o
no sea muy razonable por la conformacin de los datos hacer esta suposicin, se
deber aplicar el Teorema del Lmite Central que seala:

A medida que el tamao de la muestra se vuelve lo suficientemente grande, se puede
aproximar mediante la distribucin Normal la distribucin muestral de la media. Esto se
cumple en forma independiente de la distribucin de los valores individuales en la
poblacin.

Respecto a un tamao de la muestra suficientemente grande, numerosas
investigaciones al respecto han concluido que, como regla general, para la mayor parte
de las distribuciones poblacionales siempre que el tamao de la muestra sea al menos
30, la distribucin muestral de la media ser aproximadamente Normal. Cabe sealar
que para tamaos de muestra aun ms pequeos ser posible aplicar el Teorema del
Lmite Central si, por ejemplo, se conoce algn antecedente de la muestra, como el
hecho que sea simtrica.

Finalmente, utilizaremos siempre la distribucin Normal para la construccin de
Intervalos de Confianza para la media poblacional cuando s sea desconocido, siempre
que n >30.

c) Para (
1
-
2
) con
1
y
2
conocidos.

Z =
2
2
2
1
2
1
2 1 2 1
n n
) ( ) x x (


N(0,1)
I.C. =

/ /
2
2
2
1
2
1
2 - 1 2 1
2
2
2
1
2
1
2 - 1 2 1
n n
Z ) x - x (
n n
Z - ) x - x ( ;
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 4
d) Para (
1
-
2
) con
1
y
2
desconocidos.

T =

+

2 1
2
c
2 1 2 1
n
1
n
1
S
) ( ) x x (
t(n
1
+n
2
- 2)

I.C.=

+ +

+

2 1
2
c
2) - n + (n
/2 - 1
2 1
2 1
2
c
2) - n + (n
/2 - 1
2 1
n
1
n
1
S t
) x - x (
n
1
n
1
S t
- ) x - x (
2 1 2 1
;
Donde:

S
2
c
=
2 n n
S
1) (n
S
1) (n
2 1
2
2
2
2
1
1
+
+


e) Para (
1
-
2
) muestras pareadas con
d
conocido.

Z =
d
d n ) d (


N(0,1)
I.C. =


n
Z d
n
Z - d
d
/2 - 1
d
/2 - 1 ;

Donde:

d
i
=x
1i
- x
21

d =
=
n
1 i
i
n
d


f) Para (
1
-
2
) muestras pareadas con
d
desconocido.

T =
d
d
s
n ) d (
t(n - 1)

I.C. =

+

n
s

t
d
n
s

t
- d
d
1) - (n
/2 - 1
d
1) - (n
/2 - 1
;

5.1.2 Intervalos para Proporciones poblacionales:

Podemos definir a la proporcin como el nmero de xitos dividido entre el
tamao de la muestra. As tenemos:


n
x
p
n
1 i
i
=
=


UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 5
Donde:

=
fracaso es si 0
xito es si 1
xi

X B(n;p)

E(X) =
x
=np
V(X) =
2
=npq

Por tanto:

( )

= =
n
X
E p E
p

=p
( )

=
n
X
V p V
2
p

=
n
pq


Podemos asumir entonces que, segn lo establecido por la aproximacin Normal
de la distribucin Binomial, tenemos:


n
X
p=

n
pq
n,

Donde:

Z =
n
pq
p p

N(0,1)

a) Para p.

Z =
n
pq
p p

N(0,1)

I.C. =

+
n
q p
Z p
n
q p
Z - p /2 - 1 /2 - 1



Donde:

q =1 - p.

En este caso, al utilizar el Factor de Correccin para Poblacin Finita se tendr:
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 6

1 N
n N
n
q p




b) Para (p
1
- p
2
).

Z =
2
2 2
1
1 1
2 1 2 1
n
q p
n
q p
) p (p ) p p (
+


N(0,1)

I.C. =

+ + +
2
2 2
1
1 1
/2 - 1 2 1
2
2 2
1
1 1
/2 - 1 2 1
n
q p
n
q p
Z ) p - p (
n
q p
n
q p
Z - ) p - p (


;




5.1.3 Intervalos para las Varianzas poblacionales:

La distribucin muestral de la varianza est dada por la siguiente expresin. Si:

=
=
n
1 i
2
i
2
1 n
) x (x
s


corresponde a la varianza de una muestra aleatoria de tamao n de una poblacin
distribuida normalmente con media y varianza
2
, entonces la expresin:

=
2
2
2
s
1) (n
X
X
2
(n - 1)

tiene una distribucin que se conoce con el nombre de Chi-cuadrado.

a) Para
2
.

X
2
=

=
n
1 i
2
2
i ) x (x
X
2
(n - 1)

I.C. =


1) (n
X
s
1) (n
;
1) (n
X
s
1) (n
2
/2
2
2
/2 - 1
2


b) Para
1
2
2
2

.

La distribucin muestral de una razn de varianzas sigue un modelo llamado
distribucin F de Fisher.

Dadas
s
2
1
y
s
2
2
a partir de muestras aleatorias independientes de tamao n
1
y n
2

sacadas de poblaciones distribuidas normalmente con varianzas

2
1
y

2
2
, tenemos:
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 7
F =

2
2
2
2
2
1
2
1
s
s
F(n
1
- 1;n
2
- 1)

I.C. =

1) n 1; (n F
s
s
;
1) n 1; (n F
s
s
1 2 /2
2
2
2
1
1 2 /2 1
2
2
2
1


donde:

) n ; (n F
1
) n ; (n F
1 2 1 1 /2 1
1 1 1 2 /2

=
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 8
VI UNIDAD TEMTICA: PRUEBAS DE HIPTESIS


6.0 Pruebas de Hiptesis.

Podemos entender que una hiptesis es una afirmacin sujeta a verificacin o
comprobacin, o una suposicin que se utiliza como base para una determinada accin.
Entendemos entonces que corresponde a una suposicin y en ningn caso a un hecho
establecido.

Al estudiar, mediante mtodos estadsticos, las hiptesis que se plantean, estos
procedimientos reciben el nombre de Hiptesis Estadsticas. Corresponden a
afirmaciones que se plantean sobre una o ms poblaciones, o sobre uno o ms
parmetros de una o ms poblaciones.

En este contexto se plantean hiptesis nulas y alternativas que se simbolizan con
H
0
y H
1
respectivamente.

El procedimiento que se utiliza para verificar las hiptesis puede resumirse como
sigue:

a) Definicin de variables.
b) Recoleccin de datos.
c) Planteamiento de las hiptesis.
d) Planteamiento de los supuestos necesarios.
e) Planteamiento y clculo del Estadstico de Prueba.
f) Planteamiento y clculo de la Regin Crtica.
g) Decisin estadstica.
h) Conclusin.

Es necesario mencionar algunas importantes implicancias que da lugar a un
importante concepto que se denomina el nivel de significacin:

CERTEZA DE H
0

DECISIN ESTADSTICA Verdadera Falsa
Rechazo de H
0
Error Tipo I Decisin correcta
No rechazo de H
0
Decisin correcta Error Tipo II

Los dos tipos de error que se aprecian en el cuadro obedecen a lo siguiente:

a) Error Tipo I (): corresponde a la probabilidad de cometer el error de rechazar una
Hiptesis Nula que es verdadera.
b) Error Tipo II (): corresponde a la probabilidad de cometer el error de no rechazar
una Hiptesis Nula que es falsa.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 9
6.1 Dcimas para la Media poblacional:

a) Para con conocido.

Z =

n ) x (
N(0,1)

Estadstico de Prueba:

Z
0
=

n ) x ( 0


Regla de decisin:

{ } /2 - 1 0 /2 0 0
0 0
0 1
Z > Z Z < Z / Z = R.C.
= : H
: H





{ }



- 1 0 0
0 0
0 1
Z > Z / Z = R.C.
: H
> : H


{ }



Z < Z / Z = R.C.
: H
< : H
0 0
0 0
0 1


b) Para con desconocido.

T =
s
n ) x (
t(n - 1)

Estadstico de Prueba:

t
0
=
s
n ) x ( 0


Regla de decisin:

{ }
t
> t
t
< t / t = R.C.
= : H
: H
1) - (n
/2 1
0
1) - (n
/2
0 0
0 0
0 1





{ }
t
> t / t = R.C.
: H
> : H
1) - (n
- 1
0 0
0 0
0 1





{ }
t
< t / t = R.C.
: H
< : H
1 n
0 0
0 0
0 1
) (





Si n >30 se usa la distribucin Normal.
c) Para (
1
-
2
) con
1
y
2
conocidos.
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 10

Z =
2
2
2
1
2
1
2 1 2 1
n n
) ( ) x x (


N(0,1)

Estadstico de Prueba:

Z
0
=
2
2
2
1
2
1
2 1
n n
) x x (



Regla de decisin:

{ } /2 - 1 0 /2 0 0
2 1 0
2 1 1
Z > Z Z < Z / Z = R.C.
0 - : H
0 - : H

=



{ }


>
- 1 0 0
2 1 0
2 1 1
Z > Z / Z = R.C.
0 - : H
0 - : H


{ } <


<
Z Z / Z = R.C.
0 - : H
0 - : H
0 0
2 1 0
2 1 1


d) Para (
1
-
2
) con
1
y
2
desconocidos.

T =

+

2 1
2
c
2 1 2 1
n
1
n
1
S
) ( ) x x (
t(n
1
+n
2
- 2)

Estadstico de Prueba:

t
0
=

2 1
2
c
2 1
n
1
n
1
S
) x x (


Donde:

S
2
c
=
2 n n
S
1) (n
S
1) (n
2 1
2
2
2
2
1
1
+
+


Regla de decisin:

{ }
t
> t
t
< t / t = R.C.
0 - : H
0 - : H
2) - n2 + (n1
/2 1
0
2) - n2 + (n1
/2
0 0
2 1 0
2 1 1

=



UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 11
{ }
t
> t / t = R.C.
0 - : H
0 - : H
2) - n2 + (n1
1
0 0
2 1 0
2 1 1


>


{ }
t
t / t = R.C.
0 - : H
0 - : H
2) - n2 + (n1
0 0
2 1 0
2 1 1

<


<


e) Para (
1
-
2
) muestras pareadas con
d
desconocido.

T =
d
d
s
n ) d (
t(n - 1)

Estadstico de Prueba:

t
0
=
sd
n d


Regla de decisin:

{ }
t
> t
t
< t / t = R.C.
0 = : H
0 : H
1) - (n
/2 1
0
1) - (n
/2
0 0
d 0
d 1





{ }
t
> t / t = R.C.
0 : H
0 : H
1) - (n
1
0 0
d 0
d 1


>


{ }
t
t / t = R.C.
0 : H
0 : H
1) - (n
0 0
d 0
d 1

<


<


Donde:

d
i
=x
1i
- x
2i

d =
=
n
1 i
i
n
d


6.2 Dcimas para Proporciones poblacionales:

a) Para p.

Z =
n
pq
p p

N(0,1)
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 12
Estadstico de Prueba:

Z
0
=
n
q p
p p
0 0
0



Regla de decisin:

{ } /2 - 1 0 /2 0 0
0 0
0 1
Z > Z Z < Z / Z = R.C.
p p : H
p p : H

=



{ }


>
- 1 0 0
0 0
0 1
Z > Z / Z = R.C.
p p : H
p p : H


{ } <


<
Z Z / Z = R.C.
p p : H
p p : H
0 0
0 0
0 1


Donde:

q =1 - p.

b) Para Bondad de Ajuste.

X
2
=

=
k
1 i
i
2
i i
E
) E (O

X
2
(k - 1)

Estadstico de Prueba:


X
2
0
=

=
k
1 i
i
2
i i
E
) E (O



Regla de decisin:

{ } 1) (k
X
>
X
/
X
= R.C.
i p p : H
p p : H
2
- 1
2
0
2
0
0 i 0
0 i 1



Donde:

i E

= i p n


O
i
=n
i


c) Para Independencia.

X
2
=

j i,
ij
2
ij ij
E
) E (n

X
2
[(c - 1)(r - 1)]
Estadstico de Prueba:
UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 13


X
2
0
=

j i,
ij
2
ij ij
E
) E (n



Regla de decisin:

[ ] { } 1) 1)(r (c
X
>
X
/
X
= R.C.
j i, p p p : H
p p p : H
2
- 1
2
0
2
0
.j i. ij 0
.j i. ij 1



Donde:

ij E

=
..
.j i.
n
n n


c: nmero de columnas.
r: nmero de filas.

6.3 Dcimas para la Varianza poblacional:

a) Para
2
con desconocido.

X
2
=

2
2
1)s (n
X
2
(n - 1)

Estadstico de Prueba:


X
2
0
=

2
0
2
1)s (n


Regla de decisin:

{ } 1) - (n
X
>
X
1) - (n
X
<
X
/
X
= R.C.
: H
: H
2
/2 1
2
0
2
/2
2
0
2
0
2
0
2
0
2
0
2
1




{ } 1) - (n
X
>
X
/
X
= R.C.
: H
: H
2
1
2
0
2
0
2
0
2
0
2
0
2
1

>


{ } 1) - (n
X X
/
X
= R.C.
: H
: H
2 2
0
2
0
2
0
2
0
2
0
2
1

<

<

UNIVERSIDAD TC. FEDERICO STA. MARA-SEDE VIA DEL MAR PROGRAMAS DE INGENIERA
Eduardo Daz Saavedra. Estadstica Aplicada 14
6.4 Dcima para el Coeficiente de Correlacin poblacional:

a) Para .

T =
2
r 1
2 n
r

t(n - 2)

Estadstico de Prueba:

t
0
=
2
r 1
2 n
r



Regla de decisin:

} { }
t
> t
t
< t / t = R.C.
0 r : H
0 r : H
2) (n
/2
0
2) (n
/2
0 0
0
1

Vous aimerez peut-être aussi