Académique Documents
Professionnel Documents
Culture Documents
ESTADSTICA DESCRIPTIVA
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
aprender de la observacin
Fenmeno real
Datos observados Anlisis estadstico Aprendizaje sobre el fenmeno
A partir de teoras Leyes fsicas Reglas matemticas Propiedades de los materiales ideales
DEDUCCIN
Con el modelo se predice la realidad
INDUCCIN
Anlisis del error. Reformulacin del modelo
Realidad
Error del modelo= diferencia entre lo observado y lo que prev el modelo Informtica. Universidad Carlos III de Madrid
5
Cuestiones
Indica cules de los siguientes razonamientos son inductivos y cules deductivos 1. 2. 3. 4. Despus de lanzar varias veces un dado, un jugador piensa que el dado est trucado. En el piso de enfrente no debe vivir nadie, pues nunca he visto las luces encendidas. Como este procesador es ms rpido, tardar menos en ejecutar el programa. La energa cintica de un cuerpo de masa 10 Kg y velocidad 5 m/s es de E=1/2mv=25 (julios).
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
2. Tipos de datos
Individuos: Elementos sobre los que se toma informacin. Pueden ser personas, o simplemente objetos. Variable: Caracterstica de inters de un individuo. Una variable puede tomar valores diferentes en cada individuo. En caso contrario no ser una variable, sino una constante.
Ejemplos
Variables calificacin de una asignatura resistencia a la rotura tiempo de acceso a una red Individuos alumnos diferentes piezas ordenadores que intentan conectarse
8
2. Tipos de datos
Dato= Valor observado de una variable al medir a un individuo. Realizacin de una variable.
1. POR SU NATURALEZA Cuantitativos Continuos: longitudes, pesos, tiempos... Discretos: nmero de veces que sucede algo, ... Cualitativos: color, tipo de tecnologa, ...
Informtica. Universidad Carlos III de Madrid
2. Tipos de datos 2. POR SU REPRESENTATIVIDAD Poblacin: conjunto de todos los datos posibles Muestra: slo un subconjunto de la poblacin
Ejemplo: Aula con 50 alumnos. Variable: estatura Muestra Poblacin las estaturas de algunos alumnos las 50 estaturas
10
POBLACIN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Informtica. Universidad Carlos III de Madrid
11
POBLACIN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Depende del experimento que nos interese
Ejemplo: Aula con 50 alumnos. Variable: estatura Condiciones de experimentacin: alumnos del aula seleccionados sin reposicin Muestra las estaturas de algunos alumnos Poblacin las 50 estaturas
Si analizamos a los individuos sin reposicin, la poblacin son el conjunto de valores de la variable en todos los individuos.
Ejemplo:
Dado. Variable: resultado de su lanzamiento Condiciones de experimentacin: siempre el mismo dado Poblacin infinitos valores discretos repetidos 1,2,...,6
Ejemplo:
Programa informtico. Variable: tiempo de ejecucin Condiciones de experimentacin: mismo programa, mismo ordenador Poblacin infinitos valores continuos, tal vez todos distintos
El objetivo de la estadstica es entender cmo es la poblacin a partir de una muestra Repetimos un experimento, y obtenemos as un conjunto de datos
muestra
13
1- Seleccionamos la/s variable/s de inters 2- Definimos el experimento que nos interesa ejecutar para conseguir datos de la poblacin de dicha variable 3- Repetimos el experimento un nmero de veces para obtener una muestra de datos 4- Analizamos la muestra de datos 5- Las conclusiones se extienden, con un determinado grado de precisin, al resto de la poblacin. Es decir, al resto de los hipotticos valores que se obtendran repitiendo el experimento todas las veces posibles.
14
2. Tipos de datos
Datos observacionales
no se ejerce control sobre la variable Ejemplo: estatura de los alumnos
15
2. Tipos de datos
3. POR SU PROCEDIMIENTO DE OBTENCIN Datos observacionales Datos experimentales En un experimento, intervienen ambos tipos de datos
Variable de inters (variable respuesta): siempre datos observacionales Otras variables que puedan afectar a la variable de inters (factores): unas proporcionarn datos experimentales (condiciones de experimentacin) y otras datos observacionales
16
Ejemplo: Se eligen al azar 3 alumnos del aula 1 y otros 3 del aula 2, y se toman algunos datos de ellos: estatura, sexo, y nmero de hermanos. Cuntos experimentos se han hecho?Cuntas repeticiones de cada uno? Clasifica los datos segn su naturaleza (cualitativa, cuantitativa...) Clasifica los datos segn su representatividad (poblacin, muestra) Clasifica los datos segn su procedimiento de obtencin (experimental, observacional)
Observacin 1 2 3 4 5 6
Aula 1 1 1 2 2 2
Sexo v m v m v v
N de hermanos 0 1 0 2 1 1
17
2. Tipos de datos
Al observar cmo cambia la variable respuesta al manipular los factores, puedo establecer relaciones CAUSA-EFECTO
Factores controlados
X1
X2
X3 ...
Xk
Experimento
Factores no controlados
Z1 Z2 Z3 ... Zp
Variable de inters
dato observacional
18
Ejemplo:
Un analista quiere saber la influencia de la temperatura de una CPU en su velocidad. Para ello ejecuta una serie de programas y contabiliza su tiempo de ejecucin. Repite dicha tarea 30 veces, 10 en cada una de las temperaturas T, T, y T.
Experimento
Temperatura
Tiempo
1 2 : 11 12 : 30
T1 T1
:
T2 T2
:
45 36
:
datos observacionales
34 13
tiempo
T3
26
T1
T2
T3
datos experimentales
19
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
20
3. Descripcin de datos mediante tablas Objetivo: resumir la informacin para facilitar su anlisis
21
Tablas univariantes
Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso
22
Nmero de clases?
23
24
26
Cuestiones
1. 2. 3. 4. 5.
Las frecuencias absolutas se expresan en porcentajes? La suma de las frecuencias absolutas es el tamao de la muestra? En una tabla de doble entrada, la suma de las frecuencias marginales relativas de ambas variables es.... La suma de las frecuencias marginales absolutas de una de las variables es... Las frecuencias condicionadas son las que se obtienen sumando las frecuencias por filas o por columnas
28
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
29
4.1 Diagrama de barras 4.2 Histograma y polgono de frecuencias 4.3 Diagrama de tartas 4.4 Series temporales 4.5 Grficos de dispersin
30
31
32
El histograma sirve para resumir la siguiente informacin: Concentraciones Asimetras Huecos Atpicos
Informtica. Universidad Carlos III de Madrid
33
34
Ejemplo:
Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.
Las dos concentraciones parecen deberse a los dos calibres Qu calibre es mejor?
35
Ejemplo:
Valores de velocidad de viento (m/s) registrados en un parque elico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos
hay una concentracin alrededor de 2.5 m/s? (a 2.5 m/s los aerogeneradores no producen energa)
Informtica. Universidad Carlos III de Madrid
36
Ejemplo:
Valores de velocidad de viento (m/s) registrados en un parque elico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos
hay una concentracin alrededor de 2.5 m/s? (a 2.5 m/s los aerogeneradores no producen energa)
Informtica. Universidad Carlos III de Madrid
37
Ejemplo:
Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en su disco duro. Se hacen dos experimentos; uno en el que el disco duro est desfragmentado, y otro en el que el disco duro tiene una fragmentacin del 40%. Cada experimento se repite 79 veces
38
El polgono de frecuencias se consigue uniendo con lneas los puntos centrales de la parte superior del histograma.
39
40
41
42
43
44
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
45
5. Medidas caractersticas de un conjunto de datos Objetivo: buscamos resumir las caractersticas ms importantes de los datos en un conjunto reducido de nmeros. Cada caracterstica
5.1 Medidas de centralizacin Cul es el centro de los datos? Hay muchas medidas alternativas. Las ms importantes son
un nmero
46
Media aritmtica
Sea un conjunto de observaciones x1, x2,...,xn
Si hay J valores diferentes que se repiten: X1, se repite n1 veces X2, se repite n2 veces ... xJ, se repite nJ veces
47
Media aritmtica
Ejemplo: x={1,2,3,3,5,5,5,6,6}
x=
O bien:
1+ 2 + 3 + 3 + 5 + 5 + 5 + 6 + 6 =4 9
1 1 2 3 1 x = 1 + 2 + 3 + 5 + 6 = 4 9 9 9 9 9
48
Media aritmtica
Puede interpretarse como el centro de gravedad de los datos. Por ejemplo, en un histograma, es el punto de apoyo para que est en equilibrio
49
Media aritmtica
Cuanto ms asimtrica sea ms se desplaza la media hacia la cola
Media
Media
Informtica. Universidad Carlos III de Madrid
50
Media aritmtica
Es muy sensible a valores atpicos
Media
Un solo dato puede desplazar la media hasta hacerla poco representativa del centro de los datos
Media
Informtica. Universidad Carlos III de Madrid
51
Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos 1 2 5 8 11 13 24 28 31 9 datos
11
13
24
28
31
10 datos
52
Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos
50%
50%
50%
50%
Media= mediana
Mediana
Media
53
Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos
50%
50%
Media= mediana
54
Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos
50%
50%
Mediana
Media
Los valores atpicos no alteran las posicin de la mediana Con valores atpicos y asimetras fuertes, la mediana es una medida de centralizacin ms til que la media
Informtica. Universidad Carlos III de Madrid
55
Moda
Es el valor ms frecuente 1 2 2 2 2 5 5 5 8 8 11 13
Moda=2
Con datos agrupados, es la clase ms frecuente. Puede haber varias, sugiriendo la posible existencia de varios grupos
Distribucin unimodal
Distribucin trimodal
56
Desviacin tpica
Coeficiente de variacin
57
media
Mucha dispersin Mucha varianza Mucha desviacin tpica Alto CV
58
Ejemplo:
Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.
59
Datos Mediana
MEDA
Rango: 31-1=30
61
Cuartiles Q1, Q2, Q3 Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos (aproximadamente) Entre el mnimo y Q1 Entre Q1 y Q2 Entre Q2 y Q3 Entre Q3 y el mximo
25% de los datos 25% de los datos 25% de los datos 25% de los datos 50% 50%
min
Q1
Q2
Q3
max
Hay varios mtodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes Informtica. Universidad Carlos III de Madrid
62
x:{1,1,3,3,5,9,11,14,15}
1: Obtenemos la mediana Q2 2: Excluimos ese valor y nos quedamos con dos grupos de datos, uno a cada lado de la mediana 3: Q1 es la mediana del grupo que queda a la izquierda
Q1=(1+3)/2=2
Q3=(11+14)/2=12.5
63
Diagrama de caja (box-plot) Es la representacin grfica de los cuartiles 25% 25% 25% 25%
min
Q1
Q2
Q3
max
64
Los grficos Box-plot son muy tiles para: Comparar grupos Ver asimetras Detectar atpicos **
65
66
67
Segundo paso
68
Tercer paso
Tercer paso
Las lneas laterales se extienden slo hasta el ltimo punto dentro de la barrera interna
Informtica. Universidad Carlos III de Madrid
70
Ojo!! Cuando hay asimetras, un dato extremo no debe necesariamente catalogarse como atpico
Dato atpico: dato que se sale del patrn general de los datos
La asimetra indica que al final de la cola habr cada vez menos datos.
S es atpico
71
media, mediana, moda varianza, desv. tpica, coeficiente de variacin, meda, rango, cuartiles, box-plot
CA = 0; si la distribucin es perfectamente simtrica CA > 0; si hay asimetra positiva CA < 0: si hay asimetra negativa Informtica. Universidad Carlos III de Madrid
73
74
CAp<3
CAp=3
CAp>3
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
76
Medidas caractersticas de y?
Medidas de localizacin
Medida_loc (y)=a+b Medida_loc(x)
La transformacin lineal no cambia el orden relativo La transformacin lineal no cambia la frecuencia de aparicin de cada valor
y=a+b x
La constante a no influye
78
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
79
x Asimetras positivas
y=ln(x) Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeos
(muy frecuentes)
ln( x )
ln(x) puede interpretarse como el lmite de la transformacin y=xc cuando c0 Cuanto mayor sea la asimetra, necesitamos un c menor Informtica. Universidad Carlos III de Madrid
80
Asimetras negativas
Transformaciones del tipo y=xc ,c>1 Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeos
x1,5
x2
Cuanto mayor sea la asimetra, necesitamos un c mayor Informtica. Universidad Carlos III de Madrid
81
1. 2. 3. 4. 5. 6. 7. 8.
Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin
82
Entre estas variables hay relacin lineal La lnea roja podra ser un buen resumen de esa relacin
83
Covarianza
Correlacin
Covarianza y Covarianza y correlacin negativas correlacin positivas Informtica. Universidad Carlos III de Madrid
84
La covarianza tiene unidades (unidades_x)(unidades_y) La correlacin es adimensional. ES MS FCIL DE INTERPRETAR Se puede demostrar que -1r1
r=1
r=0.8
r=0.06
r=-0.94
r=-0.08
85
La recta de regresin
( xi , yi )
X
Informtica. Universidad Carlos III de Madrid
86
La recta de regresin
y
Ecuacin de la recta: Y=a+bX Si tiene que pasar por dos puntos: solucin nica
X
Informtica. Universidad Carlos III de Madrid
87
La recta de regresin
Es imposible que una recta pase por todos los puntos Cmo elegir la que ms nos interesa?
( xi , yi )
X
Informtica. Universidad Carlos III de Madrid
88
La recta de regresin
Buscamos una recta muy concreta llamada RECTA DE REGRESIN (de regresin simple) Es la recta que, dado el valor de X me da la mejor prediccin de Y
( xi , yi )
X
Informtica. Universidad Carlos III de Madrid
89
La recta de regresin
a + bx
( xi , yi )
Valor observado Valor previsto por la recta
yi
i y
valor observado
ei
Error de prediccin:
i ei = yi y
xi
X
90
La recta de regresin
a + bx
min ei
i =1
( xi , yi ) yi
ei
i y
valor observado
xi
X
91
La recta de regresin
SOLUCIN
a + bx
cov( x, y ) b= 2 sx
a = y bx
( xi , yi )
x
Informtica. Universidad Carlos III de Madrid
X
92
Ejemplo
La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
cov (V1,V2)=1.995
En la localizacin 1 se va a establecer un sistema informtico para la telemedida de la velocidad del viento, pero no para la localizacin 2. Se quiere calcular la recta de regresin que permita predecir la velocidad de la Localizacin 2 sabiendo la de la Localizacin 1
Informtica. Universidad Carlos III de Madrid
93
Ejemplo
La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas
cov (V1,V2)=1.995
= 0.657 + 1.045 V V 2 1
Si, por ejemplo, en la Localizacin 1 se mide una velocidad de viento de 5 m/s, la prediccin en la Localizacin 2 es de un viento de 0.657+1.045x5=5.88 m/s
Informtica. Universidad Carlos III de Madrid
94