Vous êtes sur la page 1sur 95

00 Introduccin a la estadstica y

teora de probabilidades

Diego Andrs Alvarez Marn


Profesor Asistente
Universidad Nacional de Colombia
Sede Manizales

1
Contenido
Qu es la estadstica?
Qu es la teora de probabilidades?
Qu es la estadstica descriptiva?
Qu es la estadstica inferencial

2
Estadstica
Es la rama matemtica relacionada con la
coleccin, el anlisis, la interpretacin (o
explicacin) y la representacin de datos.
Teora de probabilidades vs
Estadstica
La teora de probabilidades es la rama de la
matemtica relacionada con el anlisis de
fenmenos aleatorios; esta se desarroll como
un modelo abstracto y sus conclusiones y
deducciones estn basados en axiomas.
La estadstica se basa en la aplicacin de la
teora de probabilidad a problemas reales y sus
conclusiones son inferencias basadas en
observaciones.
Ramas de la estadstica
La estadstica se divide en dos ramas:

Estadstica descriptiva
Estadstica inferencial
Estadstica descriptiva

La estadstica descriptiva se dedica a los


mtodos de recoleccin, descripcin,
visualizacin y resumen de datos originados a
partir de los fenmenos en estudio. Los datos
pueden ser resumidos en forma numrica y/o
grfica.

6
Estadstica inferencial
Esta comprende los mtodos y procedimientos para
deducir propiedades (hacer inferencias) de una
poblacin, a partir de una pequea parte de la misma
(muestra). Se usa para modelar patrones en los
datos y extraer inferencias acerca de la poblacin
bajo estudio. Estas inferencias pueden tomar la
forma de respuestas a preguntas si/no (prueba de
hiptesis), estimaciones de caractersticas numricas
(estimacin), pronsticos de futuras observaciones,
descripciones de asociacin (correlacin) o
modelamiento de relaciones entre variables (anlisis
de regresin).
7
Estadstica descriptiva vs.
Estadstica inferencial

La diferencia entre la estadstica descriptiva y la


estadstica inferencial es que la primera intenta
resumir los datos de forma cuantitativa mientras
que la segunda se usa para sustentar
afirmaciones sobre la poblacin que est
representada por los datos recopilados.

8
01 Estadstica descriptiva

Diego Andrs Alvarez Marn


Profesor Asistente
Universidad Nacional de Colombia
Sede Manizales

9
Contenido
Definiciones bsicas
Medidas de tendencia no central
Medidas de tendencia central
Medidas de dispersin
Momentos
Representacin grfica de la informacin
Histogramas

10
Definiciones
Se quiere estudiar una poblacin. Sin embargo
por razones prcticas se analiza una muestra de
la poblacin. Los datos se coleccionan mediante
un muestreo o experimento. Las observaciones
de la muestra aleatoria se usan para calcular
ciertas caractersticas de la muestra llamadas
estadsticas.
Poblacin: es el conjunto de elementos de
referencia sobre el que se realizan todas las
observaciones. La poblacin es la coleccin de
toda la informacin que caracteriza un
fenmeno.
Muestra estadstica (o aleatoria): es un
subconjunto representativo de individuos de la
poblacin
Muestreo: es la tcnica por la cual se selecciona
una muestra a partir de una poblacin
Una estadstica es el resultado de aplicar una
funcin a un conjunto de datos.
Informacin bsica de un conjunto
de datos
Mnimo y mximo
Percentil
Tendencia central
Dispersin
Momentos
Mnimo y mximo (con MATLAB)
Mnimo y mximo (con MS EXCEL)
Medidas de posicin no central

Un percentil es el valor de una variable bajo el


cual un cierto porcentaje de las observaciones
caen. De este modo el percentil 20 es el valor
bajo el cual el 20% de las observaciones pueden
ser encontradas.

Algunos tipos de percentiles importantes son:


Los cuartiles: percentil 25, 50 (mediana) y 75
Los quintiles: percentil 20, 40, 60 y 80
Los deciles: percentiles 10, 20, ..., 90
Definiciones de percentil
Ejemplo usando la definicin 1
Calcule el percentil 70 de los datos

1200, 11, 23, 27, 25, 29

Primero que todo se deben organizar los datos en


orden ascendente

11, 23, 25, 27, 29, 1200

Por lo tanto el percentil 70 es 29


Percentiles con MATLAB

Observe que MS EXCEL y MATLAB calculan los percentiles


con diferentes algoritmos
Percentiles con MS EXCEL

Observe que MS EXCEL y MATLAB calculan los percentiles


con diferentes algoritmos
Medidas de tendencia central
Las medidas de tendencia central miden la
localizacin del centro de los datos

Media aritmtica (o promedio)


Mediana
Moda
Media geomtrica
Media armnica
Media acotada (o media truncada)
21
Media aritmtica (o promedio)

22
Mediana

23
Mediana

24
Mediana

25
Media geomtrica

26
Media geomtrica

La media geomtrica es relevante cuando varias


cantidades son multiplicadas para producir un
total, o cuando los nmeros son de naturaleza
exponencial, como por ejemplo el crecimiento de
la poblacin mundial o las tasas de inters de una
inversin financiera.

La media geomtrica es menos sensible que la


media aritmtica a los valores extremos.

27
Ejemplo

28
Propiedades de la media
geomtrica

29
Media armnica

30
Ejemplo

31
Ejemplo

32
Media armnica

33
Moda

34
Media acotada (o media truncada)

35
Medidas de tendencia central en
MS EXCEL

Observe que MATLAB y MS


EXCEL utilizan diferentes
algoritmos para calcular la moda
36
MEDIA.ACOTADA(datos;porcentaje)
Calcula la media de un conjunto de datos
despus de eliminar el porcentaje de los
extremos inferior y superior de los puntos de
datos. Puede utilizar esta funcin cuando desee
excluir del anlisis los valores extremos.

porcentaje es el nmero fraccionario de puntos de


datos que se excluyen del clculo. Por ejemplo, si
porcentaje = 0,2, se eliminarn cuatro puntos de
un conjunto de datos de 20 puntos (20 x 0,2), dos
de la parte superior y dos de la parte inferior.
37
Medidas de tendencia central en
MATLAB

Observe que MATLAB y MS EXCEL utilizan diferentes algoritmos para


calcular la moda
38
Otras medidas de tendencia central
Media generalizada
http://en.wikipedia.org/wiki/Generalized_mean
Media ponderada
http://en.wikipedia.org/wiki/Weighted_mean
Punto medio
http://en.wikipedia.org/wiki/Midrange
Root mean square (RMS)
http://en.wikipedia.org/wiki/Root_mean_square

39
Notas varias
La media armnica es siempre inferior a la media
geomtrica, que a su vez es siempre inferior a
la media aritmtica.
Ver:
http://en.wikipedia.org/wiki/Inequality_of_arithmet
ic_and_geometric_means
http://en.wikipedia.org/wiki/Pythagorean_means

40
Medidas de dispersin
La dispersin de los datos se puede atribuir a
pequeas diferencias de construccin, a mano de
obra deficiente, errores humanos, variabilidad
inherente al material, as como a errores en las
observaciones y en las mediadas.

Las medida de dispersin miden la variabilidad de


un conjunto de datos. Una medida de dispersin
es un nmero real no negativo, que es cero si
todos los dtos son idnticos, y se incrementa a
medida que las observaciones son ms diversas.
41
Medidas de dispersin
Varianza
Desviacin estndar
Desviacin media
Desviacin mediana
Rango (o recorrido)
Rango (o recorrido) intercuartil
Rango (o recorrido) interdecil

42
Varianza y desviacin estndar
muestral
Use siempre
estas
frmulas
para calcular
la varianza y
la desviacin
estndar, a
menos que
se indique lo
contrario.
Ver: http://en.wikipedia.org/wiki/Variance
http://en.wikipedia.org/wiki/Standard_deviation 43
Varianza y desviacin estndar
poblacional

44
Correccin de Bessel

Aunque intuitivamente la frmula de la desviacin


estndar (varianza) poblacional es la que se debe
usar (denominador n), SIEMPRE que se quieren
hacer inferencias acerca de una poblacin, se
debe utilizar la desviacin estndar (varianza)
muestral (denominador n-1). Las razones de esto
se entendern en el Captulo ***.

45
Recorrido o rango

46
Recorrido interdecil e intercuartil

47
Desviacin media (mean absolute deviation - MAD)
Desviacin mediana (median absolute deviation)

48
Coeficiente de variacin
(coefficient of variation - C.O.V.)

No confundir
con la
covarianza!

49
Nota final

A pesar que la media aritmtica y la desviacin


estndar han sido empleadas de manera extensa
como medidas de tendencia central y dispersin
respectivamente, estas no son siempre las
medidas ms deseables. Su uso es popular por
su varias propiedades tericas que las hacen muy
manipulables desde el punto de vista matemtico.

50
Otras medidas de dispersin
Momento central de cualquier orden
http://en.wikipedia.org/wiki/Moment_(mathematics)
Diferencia media
http://en.wikipedia.org/wiki/Mean_difference
Desviacin estndar geomtrica
http://en.wikipedia.org/wiki/Geometric_standard_deviation

51
Medidas de dispersin en MS EXCEL

52
Haga Alt+F11 para
ingresar el cdigo
Insertar Mdulo
Copy+Paste cdigo
Grabar como .xlsm

Como la funcin para calcular


la desviacin mediana no
existe en MS EXCEL 2007,
debemos crear la funcin
usando Visual Basic for
Applications (VBA)
53
Medidas de dispersin en MATLAB

54
Valor atpico (outlier)
Un valor atpico es una observacin que es
numricamente distante del resto de los datos.
Las estadsticas derivadas de los conjuntos de
datos que incluyen valores atpicos sern
frecuentemente engaosas. Por ejemplo, en el
clculo de la temperatura media de 10 objetos en
una habitacin, si la mayora tienen entre 20 y
25C, pero hay un horno a 350C, la mediana de
los datos puede ser 23, pero la temperatura
media ser 55. En este caso, la mediana refleja
mejor la temperatura de la muestra al azar de un
objeto que la media.
55
Valor atpico (outlier)

Los valores atpicos pueden ser indicativos de


datos que pertenecen a una poblacin diferente
del resto de la muestra establecida.

No existe una definicin matemtica de lo que


constituye un valor atpico; este es un ejercicio
subjetivo.

56
Sensibilidad de las medidas de
tendencia central a valores atpicos

57
Sensibilidad de las medidas de
dispersin a los valores atpicos

58
Momentos
Coeficiente de asimetra
Ver: http://en.wikipedia.org/wiki/Skewness

Curtosis
Ver: http://en.wikipedia.org/wiki/Kurtosis

59
Curtosis y coeficiente de asimetra
en MS EXCEL
Curtosis y coeficiente de asimetra
en MATLAB

MATLAB y MS EXCEL utilizan diferentes


algoritmos para calcular estos parmetros
Histogramas
Un histograma es una representacin grfica de
una variable en forma de barras, donde la
superficie de cada barra es proporcional a la
frecuencia de los valores representados. En el eje
vertical se representan las frecuencias, y en el eje
horizontal los valores de las variables.
Datos
Suponga que los siguientes nmeros representan
el consumo en m3 de agua por da de una
poblacin (observe que estn ordenados
ascendentemente). Elabore el histograma de
dichos datos.

2298 4188 4536 4737 4905 5041


3205 4289 4565 4763 4908 5058
3325 4363 4591 4784 4923 5142
3609 4377 4657 4816 4941 5152
3918 4448 4666 4817 4993 5152
3992 4450 4670 4852 4998 5330
4057 4524 4724 4887 5035 5535
1. Determine el rango de los datos
Rango es igual al dato mayor menos el dato
menor. Rango = 5535 - 2298 = 3237
2298 4188 4536 4737 4905 5041
3205 4289 4565 4763 4908 5058
3325 4363 4591 4784 4923 5142
3609 4377 4657 4816 4941 5152
3918 4448 4666 4817 4993 5152
3992 4450 4670 4852 4998 5330
4057 4524 4724 4887 5035 5535
2. Obtener el nmero de clases
Una clase (bin) es ...

Supongamos por el momento que

Entonces

Formaremos por lo tanto 7 clases/intervalos


3. Establecer la longitud de las
clases/intervalos (bins)

Establecer la longitud de clase: es igual al rango


dividido entre el nmero de clases

Lngitud de la clase = 3237/7 = 462.4


4. Construir los intervalos de las clases
Los intervalos resultan de dividir el rango de los
datos en relacin al resultado del paso 3 en
intervalos iguales.
4. Graficar el histograma de conteo
4. Graficar el histograma de conteo

Consultar la ayuda de la funcin FRECUENCIA de MS EXCEL para


entender su uso
Tenga en cuenta...
La normalizacin del histograma
La frecuencia relativa refleja la proporcin de la
observaciones contenidas en una clase
Cuando los intervalos de clase son idnticos, el
rea de los rectngulos representa las
frecuencias. Sin embargo, cuando la longitud
de los intervalos es diferente, las reas no
representan la frecuencia. Por lo tanto se debe
ajustar la altura de los rectngulos para que
sus reas sean proporcionales a la frecuencia.
5. Graficar el histograma de
frecuencias relativas

El eje Y tiene unidades


de frecuencia por m3/da
Histograma de frecuencia de clase
con MATLAB
Histograma de frecuencia de clase
con MATLAB

El eje Y tiene unidades


de frecuencia por m3/da
Histogramas con MS EXCEL

MS EXCEL 2003:
http://www.bloggpro.com/creating-histograms-in-excel/

MS EXCEL 2007:
http://www.bloggpro.com/creating-a-simple-histogram-in-excel-2007/

or just GOOGLE IT!


http://www.google.com/search?q=histograms+excel+2007
6. Graficar la distribucin de
frecuencia relativa acumulada
Se obtiene graficando en el eje vertical la
frecuencia relativa acumulada de una clase
contra el lmite inferior de la siguiente clase
sobre el eje horizontal y uniendo todos los
puntos consecutivos.
El eje Y tiene unidades
de frecuencia nicamente

Percentil 80
Nmero de clases
No existe una forma nica de escoger el nmero
de intervalos. Esto por lo tanto se deja a criterio
del analista. Sin embargo, existen algunas
recomendaciones (las cuales generalmente
hacen suposiciones sobre la forma de los
datos):
El nmero de clases depende del nmero total
de observaciones
Nmero de intervalos (k)
k nmero de intervalos (clases)
h ancho del intervalo

Mi recomendacin:
Frmula de Sturges (1926): su rendimiento es
pobre si n<30

Frmula de Scott (1979): s es la desviacin


estndar muestral

Frmula de Freedman-Diaconis (1981): IQR es el


rango intercuartil
Mtodo de Shimazaki y Shinomoto (2007)
Fuente: http://www.ton.scphys.kyoto-u.ac.jp/~hideaki/res/histogram.html
Referencias bibliogrficas
Sturges, H. A. (1926). The choice of a class interval. J.
American Statistical Association: 6566.
Scott, D. W. (1979). On optimal and data-based
histograms. Biometrika. 66 (3): 605610
Freedman, D. and Diaconis, P. (1981). On the
histogram as a density estimator: L2 theory.
Zeitschrift fr Wahrscheinlichkeitstheorie und
verwandte Gebiete. 57 (4): 453476
Shimazaki H. and Shinomoto S. (2007), A method for
selecting the bin size of a time histogram Neural
Computation. 19(6), 1503-1527
Ejemplo con clases de tamaos
diferentes

Considere el siguiente ejemplo del Censo de USA


en el ao 2000:

Journey to work and place of work


U.S. Census Bureau tiempo de viaje al trabajo. El censo encontr
que 124 millones de personas trabajan fuera de su casas.
Fuente: http://www.census.gov/prod/2004pubs/c2kbr-33.pdf
Datos por cantidad
Intervalo Ancho Cantidad Cantidad (miles)/
(minutos) (minutos) (miles) Ancho (minutos)
[0,5) 5 4180 836
[5,10) 5 13687 2737
[10,15) 5 18618 3723
[15,20) 5 19634 3926
[20,25) 5 17981 3596
[25,30) 5 7190 1438
[30,35) 5 16369 3273
[35,40) 5 3212 642
[40,45) 5 4122 824
[45,60) 15 9200 613
.
Histograma del tiempo de viaje
(censo USA, 2000)
El rea bajo la
curva es igual al
nmero de casos
= 124 millones.

Este diagrama usa


cantidad/ancho de
la tabla.
Datos por proporcin
Intervalo Ancho Cantidad Cantidad/Total/A
(minutos) (minutos) (miles) ncho (minutos)
[0,5) 5 4180 0.01
[5,10) 5 13687 0.02
[10,15) 5 18618 0.03
[15,20) 5 19634 0.03
[20,25) 5 17981 0.03
[25,30) 5 7190 0.01
[30,35) 5 16369 0.03
[35,40) 5 3212 0.01
[40,45) 5 4122 0.01
[45,60) 15 9200 0
Histograma de frecuencia relativa del
.
tiempo de viaje (censo USA, 2000)
El rea bajo la curva
es igual a 1

Este diagrama usa


cantidad/total/ancho
de la tabla.
Generalizacin del histograma
Kernel smoothing methods (tambien llamado
ventanas de Parzen (Parzen windows). El
comando de MATLAB asociado es ksdensity.

Ver: http://en.wikipedia.org/wiki/Kernel_density_estimation
Generalizacin de histograma

Existen otro mtodos basados en la utilizacin de


polinomios ortogonales de Legendre. Ver por
ejemplo:

X.B. Li y F.Q. Gong (2009). A method for fitting


probability distributions to engineering properties
of rock masses using Legendre orthogonal
polynomials. Structural Safety. Volume 31, Issue
4, July 2009, Pages 335-343

Applying the Gram-Schmidt process to the functions 1, x, x^2, ... on the


interval [-1,1] with the usual L^2 inner product gives the Legendre polynomials
Otras funciones de MS EXCEL
Otras funciones de MATLAB
Otras formas grficas de
representar los datos

Vous aimerez peut-être aussi