Académique Documents
Professionnel Documents
Culture Documents
Consideraciones generales
n
n n
Teora: Yo, Federico Kovac kovacf@gmail.com Clases Tericas: viernes cada 15 das, de 19:00 a 23:00. Prcticas: Carlos Piccinini. Tres parciales, fechas tentativas: 24/6, 23/9, 25/11.
1
Bibliografa
n
Montgomery, Runge: Probabilidad y Estadstica Aplicada a la Ingeniera . Canavos: Probabilidad y Estadstica. Meyer: Probabilidad y Aplicaciones Estadsticas.
2
Metodologa de trabajo
Estudiar la teora Resolver la prctica
n n
Con la teora que se da en clase alcanza para resolver todos los ejercicios. Consultar bibliografa no est de mas. Las clases prcticas sirven como gua para resolver los otros ejercicios.
3
Probabilidad y Estadstica
Presentacin y Objeto de la Materia
Probabilidad y Estadstica
Estudiar fenmeno aleatorios. n Describir y modelar la variabilidad. n Inferencia estadstica: obtener conclusiones generales a partir de una muestra. n Estadstica descriptiva: ordenar y sintetizar datos.
n
Cien registros del tiempo que tardan 3 CPU en realizar diferentes tareas. Cul es ms rapido? Cul es mejor?
Old Faithful
Duracin de cada erupcin y tiempo de espera entre ellas de ese geiser famoso. Hay dos variables medidas (duracin y tiempo de espera) y una indicadora (da en que fue tomada la medicin). Puede detectar algn patrn a simple vista?
Diferentes variedades de trigo sembradas con o sin riego, y analizado su rinde. Regar hace la diferencia? Depende de la variedad?
2302 Registros
Poblacin objeto: de donde obtengo los datos. Variable: caracterstica de la poblacin objeto. Valor de variable: nmero o caracterstica correspondiente a una observacin. Poblacin estadstica: conjunto de todos los resultados posibles. Muestra: un subconjunto de la poblacin estadstica
10
Tipos de Variables
Ordinal (R, B, MB, E) Cualitativa Variables a medir Cuantitativa Cardinal (color predilecto) Contar (discreta) Medir (continua)
11
Inferencia
Muestra
n n n
Clculo de estadsticas
Se va de lo particular a lo general. Hay incertidumbre, posibilidad de error. Medida de confiabilidad, en trminos de probabilidad.
12
Deductivo vs Inductivo
n
Deductivo: analizando los factores, uno deduce la relacin entre las variables.
Analizando la estructura celular de un girasol (y muchos otros factores) uno podra deducir la relacin entre rinde y NDVI.
Inductivo: analizando los resultados, uno infiere la relacin entre las variables.
Comparando el rinde con el NDVI en varios lotes, uno podra inferir la relacin entre ellos.
13
Modelos determinsticos
n
F = ma
Permite calcular exactamente la aceleracin de una partcula de masa m sometida a una fuerza F.
14
Modelos probabilsticos
n
Se puede predecir la frecuencia relativa con la cual ocurren los diferentes resultados.
Si tiramos un dado honesto muchas veces, aproximadamente un sexto de las veces va a salir 1.
15
16
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
17
Estadstica Descriptiva
n
Tcnicas grficas y numricas para resumir informacin Presentar los datos para que sobresalga su estructura Detectar caractersticas sobresalientes e inesperadas Tambin llamado Anlisis Exploratorio de Datos
18
Datos de ejemplo
Usaremos para ejemplificar los siguientes datos:
61 63 64 65 65
63 70 71 71 73
75 77 78 78 79
81 83 84 84 87
88 88 92 93 95
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
20
Diagrama de puntos
Colocar un puntito por cada dato sobre una recta numerada. Para los datos del ejemplo queda as:
60
70
80
90
100
21
Diagrama de puntos
Diagrama de puntos de 100 mediciones tiempos CPU A, B y C
22
Diagrama tallo/hoja
n
Si las observaciones tienen varios dgitos, separamos cada observacin en dos partes: tallo (dgitos de la izquierda) y hojas (dgitos de la derecha). Se anotan en una tabla hasta agotar los datos.
tallo
6 7
hoja
1 3 0 61 63 64 63 70 71 75 77 78
23
Diagrama tallo/hoja
n
Para este ejemplo se eligi la unidad como hoja y la decena como tallo. Dicha eleccin depende del sentido comn.
Tallo Hoja 61 66 75 81 88 63 70 77 83 88 64 71 78 84 92 65 71 78 84 93 65 73 79 87 95
24
Diagrama tallo/hoja
Tallo Hoja
Tallo
Hoja
Esta definitivamente es una mala eleccin.
25
Ejemplos en Minitab 15
Nuestros datos
26
Diagrama tallo/hoja
En este grfico observamos:
n n n n
Rango de las observaciones. Forma de la distribucin. Posicin del centro y dispersin. Datos extremos, desviaciones marcadas.
Histograma
n n
Es el tpico grfico de barras. Se divide el rango total de los datos en intervalos llamados clases. El centro se llama marca de clase. La cantidad de observaciones en cada clase se llama frecuencia absoluta. Sobre cada clase se grafica un rectngulo de rea proporcional a la frecuencia de la clase.
28
Histograma
hi =
h3 h2 hi hk h1 [ l0
fi bi rea fi
..... ..... [ )
x1
xi
lk-1 lk
Marca de la clase i
Clase i, de ancho bi
29
Notacin mas o menos universal: n = cantidad de datos, que se dividen en k clases. La clase i es [li 1 , li), tiene longitud bi y marca de clase xi. La clase i tiene ni datos (frecuencia absoluta), y frecuencia relativa fi = ni n
30
n1 n2 . . . nk
n1 n1 + n2 . . . n1 ++ nk n
(n 1 / n )= f 1 (n 2 / n )= f 2 . . . (n k / n )= f k
f1 f1 + f2 . . . 1
31
3 3 4 5 4 3 2 1
3 6 10 15 19 22 24 25
Entre 5 y 15 clases, usar sentido comn. Salvo excepciones, clases de igual longitud. Como altura de la clase i tomar fi hi = bi para que en el grfico el rea sea (proporcional a) la frecuencia relativa.
Histograma
f3 f2 fi fk f1 h3 h2 hi hk h1 [ l0 )[ l1 )[ l2 ) l3 ..... [ li-1 ) li ..... [ lk-1 ) lk
hi =
fi b
rea fi
.....
.....
En la prctica depende de la escala de los ejes, importa solo para comparar grficos.
34
Histograma
Histograma de Ruido dB
0.05
0.04
Densidad
0.03
0.02
0.01
0.00
60
70
80 Ruido dB
90
100
Histograma de Ruido dB
0.05
Bien hechos, con Minitab, para poder comparar si uno subdivide las clases y/o agrega mediciones
0.04
Densidad
0.03
Misma rea
0.02
0.01
0.00
60.0
67.5
75.0
82.5 Ruido dB
90.0
97.5
36
Tabla de frecuencias e histograma del CPU A de los datos de velocidad (100 registros), hecho con Infostat.
37
Polgono de Frecuencias
f3 f2 fi ..... f1 [ l0 )[ l1 )[ l2 )[ l3 )[ )[ li-1 ) ..... li [ )[ lk-1 ) lk
n n
Une las marcas de clase. El rea debajo del polgono es igual a la suma del rea de los rectngulos.
38
39
Histograma
En este grfico observamos:
n n n n n
Rango de las observaciones. Forma de la distribucin. Posicin del centro y dispersin. Datos extremos, desviaciones marcadas. Mas adecuado que tallo-hoja cuando hay muchos datos (resumen grande).
Simtrico acampanado
Asimetra a izquierda
Asimetra a derecha
41
Uniforme
Bi-modal
Bi-modal
42
Unir los extremos de cada clase con un segmento, como sugiere el dibujo. Se usa para dividir datos en proporciones.
43
44
Frecuencia relativa fi
Relativa acumulada
3 3 4 5 4 3 2 1
3 6 10 15 19 22 24 25
0.8 Probabilidad
0.6
0.4
0.2
As lo hace Minitab, y lo llama Distribucin Acumulada. Esto es muy importante para lo que sigue.
46
As lo hace Infostat, y lo llama Grfica de Distribucin Emprica. No muy bueno, faltara la curva.
47
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
48
Medidas numricas
n
Son valores numricos que resumen la informacin de los datos. De posicin o tendencia central, y de dispersin. Denotaremos los n datos como
x1, x2,,xn
49
Medidas de variabilidad
n n n n n
50
Media x
n n n
Es el promedio de los datos. Punto de equilibrio en el grfico de puntos. Frmula para el clculo:
n n
En nuestros datos,
60
70
80
90
100
Mediana x
n
Divide los datos ordenados en dos grupos iguales. Al menos 50% de los datos que x, al menos 50% de los datos ! x. Frmula para el clculo:
Cuando n es par, cualquier valor numrico entre xn/2 y x(n+1)/2 divide la muestra en dos. Por convencin se toma el promedio:
55
Cuartiles
n
n n
Generalizacin de la mediana, divide los datos ordenados. Cuartil q1: al menos 25% de los datos que q1, al menos 75% de los datos ! q1. Cuartil q2 = mediana. Cuartil q3: al menos 75% de los datos que q3, al menos 25% de los datos ! q3.
56
Percentiles
n
Generalizacin de cuartiles, divide los datos ordenados. Si 0 < k < 1, el pk- percentil deja: al menos 100k% de los datos que pk, y al menos 100(1 k)% de los datos ! pk. Frmula: si x1 x2 xn , entonces
Si nk es entero:
nk datos n(1 k) datos
nk nk+1
Si nk no es entero:
menos de nk datos menos de n(1 k) datos
j -1 nk
n
58
Si k = 0.25 queda el primer cuartil p0.25 = q1 Si k = 0.75 queda el tercer cuartil p0.75 = q3
59
60
Moda: dato que mas se repite. Pueden ser dos (datos bimodales) o mas. Mximo y mnimo: mayor y menor dato.
No tiene sentido hablar de moda (hay 5 valores que se repiten dos veces). Mx = 95, y mn = 61.
61
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
62
Varianza
n
n n
Es sensible a datos extremos. El desvo estndar es: Tiene las mismas unidades que los datos
63
Existe la varianza de la poblacin, !2, que en general es desconocida. Frmulas alternativas para s2:
64
En nuestros datos,
M.A.D.
n
Es a la varianza como la mediana a la media. Para datos x1, x2,,xn , definir entonces
Coeficiente de variacin
n n
Mide el tamao de la varianza en trminos de la media. Sirve para comparar diferentes mediciones. En ocasiones se expresa porcentualmente, multiplicado por 100 En nuestros datos,
68
Nuestros datos:
q1 = 70
q3 = 84
Mx = 95 mn = 61
n n
R = 95 61 = 34. d = 84 70 = 14.
69
70
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
71
Grafico simple que junta las medidas resumen. Sirve para comparar conjuntos de datos.
d
q1 min q1 1.5d x
q3 x Max q3 + 1.5d
72
Rango de las observaciones. Forma de la distribucin, asimetras. Posicin del centro y dispersin. Datos extremos, desviaciones marcadas. Tiende a esconder datos bimodales.
73
En nuestros datos,
74
75
Estadstica Descriptiva
Mtodos Grficos
n
Medidas Numricas
n n n
n n
Diagrama de puntos Tallo y hoja Histograma / tabla de frecuencias relativas Polgonos de frecuencia relativa / acumulada Box Plot
n n n
n n n n n
Varias Variables
n
Diagrama de dispersin
77
Diagrama de Dispersin
Es un grfico para estudiar la relacin entre dos magnitudes, medidas simultneamente de cada sujeto (por ejemplo, altura y peso). Si tenemos n sujetos, obtendremos
( x1 , y1 ),..., ( xn , yn )
Diagrama de Dispersin
Grfico de Nro. de cigarrillos vs capacidad pulmonar
n 1 2 3 4 5
Cigarrillos Capacidad pulmonar
0 5 10 15 20
45 42 33 31 29
Capacidad pulmonar
Cigarrillos
79
Diagrama de Dispersin
Duracin vs tiempo de espera, archivo Old Faithful (222 registros), hecho con Infostat.
80
Diagrama de Dispersin
Ejemplo de cosas que se suelen ver:
81
Diagrama de Dispersin
Tambin existen en 3D, para estudiar la relacin entre tres magnitudes
82
Covarianza/Correlacin Muestral
Definicin: Si tenemos n pares de datos
( x1 , y1 ),..., ( xn , yn )
rxy =
s xy sx s y
donde:
1 n xi n i =1 1 n 2 sx = ( xi x )2 n 1 i =1 x=
1 n yi n i =1 1 n 2 sy = ( yi y ) 2 n 1 i =1 y=
83
Covarianza/Correlacin Muestral
Se suele llamar Coeficiente de Correlacin de Pearson. Para hacer los clculos manualmente se usan las siguientes frmulas:
1 n 1 n n sxy = xi yi xi yi n 1 i=1 n i =1 i=1
rxy
i =1 i
x yi
n i =1 i
n n x2 i=1 i
( x )( y ) x ) y ( y )
n n i =1 i i =1 i 2
i =1
2 i
i =1
84
Covarianza/Correlacin Muestral
Ms adelante veremos que el coeficiente de correlacin satisface:
n n n
n n
Toma valores entre 1 y 1 ( 1 rxy 1) Mide la relacin lineal entre x e y rxy prximo a 0 implica que no hay relacin lineal rxy prximo a 1 implica relacin lineal creciente rxy prximo a 1 implica relacin lineal decreciente Es independiente de las magnitudes de las variables
85
Covarianza/Correlacin Muestral
330 280 230 180 130 80 30 140 110 100 90 80 70 60 50 40 30 140 100 90 80 70 60 50 40 30 140 150 160 170 180 150 160 170 180
90 80 70 60 50 40 30 20 10 0
r=0,1
150 160 170 180 190 200
r=-0,5
140 150 160 170 180 190 200
80 70 60 50 40 30 20
r=0,6
190 200
10 0 140 80 70 60 50 40 30 20
r=-0,7
150 160 170 180 190 200
r=0,8
190 200
10
r=-0,999
150 160 170 180 190 200
0 140
86
Covarianza/Correlacin Muestral
Duracin vs tiempo de espera, archivo Old Faithful (222 registros), hecho con Infostat.
87
Ejemplo: Investigar la relaci n entre cantidad de cigarrillos y capacidad pulmonar Datos: Muestra de 5 pacientes con diferente hbito de fumar (cantidad de cigarrillos por da durante cierta cantidad de aos) a los cuales se les mide la capacidad pulmonar
88
(X ) 0 5 10 15 20
(Y ) 45 42 33 31 29
Capacidad pulmonar (Y )
Cigarrillos (X )
X = 10 Y = 36
89
n n
Se observa que a medida que crece la cantidad de cigarrillos, decrece la capacidad pulmonar. Las variables covarian inversamente. La covarianza (media del producto de las desviaciones) y el coeficiente de correlacin cuantifican esta relacin.
90
Y 45 42 33 31 29
10 5 0 5 10
90 30 0 25 70 = 215
9 6 3 5 7
Entonces
1 S xy = ( 215) = 53.75 4
91
Y 45 42 33 31 29
( x )( y ) x ( x ) y ( y )
n
n i=1 i i n
xy
i=1 i
n i=1 i
n i=1 i
2 i=1 i
n 2 i=1 i
i=1 i
50
2
92
rxy = 0.96
rxy = 0.96 implica casi con certeza que fumar disminuye la capacidad pulmonar A mayor cantidad de cigarrillos, mayor perdida de capacidad pulmonar
93
Estadstica Descriptiva
Casos particulares
n n
94
Hay casos donde no se puede tomar clases de igual tamao, por ejemplo si nos dan los datos agrupados. Lo importante es que el rea de cada rectngulo debe ser proporcional a la frecuencia relativa. hi hi = fi bi bi rea fi
95
La siguiente tabla tiene las notificaciones de casos de Rubola en ao 2000 (fuente: SINAVE).
97
Ancho 3
7.77 = 23.3 / 3
98
Datos agrupados
A veces no hay acceso a los datos, solo a las clases, frecuencias, total de mediciones. Las estadsticas se calculan tomando las clases como datos.
99
100
)[ l1
)[ l2
) l3
.....
[ lj-1
.....
)
101
lj
lk-1 lk
Para encontrar la mediana, se plantea la siguiente igualdad utilizando proporcin de tringulos, y se despeja
e
21
102