Vous êtes sur la page 1sur 94

1.

ESTADSTICA DESCRIPTIVA

Informtica. Universidad Carlos III de Madrid

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

1. Introduccin. El propsito de la estadstica

Qu es la estadstica?Por qu estudiamos estadstica?

aprender de la observacin

A partir de un nmero reducido de datos, sacar conclusiones que sean generales

Fenmeno real
Datos observados Anlisis estadstico Aprendizaje sobre el fenmeno

Informtica. Universidad Carlos III de Madrid

Dos formas alternativas de acceder al conocimiento del mundo

A partir de teoras Leyes fsicas Reglas matemticas Propiedades de los materiales ideales

A partir de la observacin Datos Estadstica

A partir de los modelos tericos DEDUCIMOS la realidad


DEDUCIR= Sacar consecuencias de un principio, proposicin o supuesto.

A partir de los datos INDUCIMOS o INFERIMOS un modelo (emprico)


INDUCIR= Extraer, a partir de determinadas observaciones o experiencias particulares, el principio general que en ellas est implcito.
4

Informtica. Universidad Carlos III de Madrid

En la realidad... una combinacin de INDUCCIN y DEDUCCIN


Modelo que explica la realidad

DEDUCCIN
Con el modelo se predice la realidad

INDUCCIN
Anlisis del error. Reformulacin del modelo

Realidad

Error del modelo= diferencia entre lo observado y lo que prev el modelo Informtica. Universidad Carlos III de Madrid
5

Cuestiones
Indica cules de los siguientes razonamientos son inductivos y cules deductivos 1. 2. 3. 4. Despus de lanzar varias veces un dado, un jugador piensa que el dado est trucado. En el piso de enfrente no debe vivir nadie, pues nunca he visto las luces encendidas. Como este procesador es ms rpido, tardar menos en ejecutar el programa. La energa cintica de un cuerpo de masa 10 Kg y velocidad 5 m/s es de E=1/2mv=25 (julios).

Informtica. Universidad Carlos III de Madrid

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

2. Tipos de datos

Individuos: Elementos sobre los que se toma informacin. Pueden ser personas, o simplemente objetos. Variable: Caracterstica de inters de un individuo. Una variable puede tomar valores diferentes en cada individuo. En caso contrario no ser una variable, sino una constante.

Ejemplos
Variables calificacin de una asignatura resistencia a la rotura tiempo de acceso a una red Individuos alumnos diferentes piezas ordenadores que intentan conectarse
8

Informtica. Universidad Carlos III de Madrid

2. Tipos de datos

Dato= Valor observado de una variable al medir a un individuo. Realizacin de una variable.

varios criterios de clasificacin de los datos (de inters en estadstica)

1. POR SU NATURALEZA Cuantitativos Continuos: longitudes, pesos, tiempos... Discretos: nmero de veces que sucede algo, ... Cualitativos: color, tipo de tecnologa, ...
Informtica. Universidad Carlos III de Madrid

2. Tipos de datos 2. POR SU REPRESENTATIVIDAD Poblacin: conjunto de todos los datos posibles Muestra: slo un subconjunto de la poblacin

Ejemplo: Aula con 50 alumnos. Variable: estatura Muestra Poblacin las estaturas de algunos alumnos las 50 estaturas

Ejemplo: Dado. Variable: resultado de su lanzamiento Poblacin? ?

Informtica. Universidad Carlos III de Madrid

10

Necesitamos definir mejor qu es poblacin

EXPERIMENTO: Cualquier procedimiento de obtencin de un dato, dadas unas condiciones de experimentacin


medir la longitud de un tipo de pieza, cronometrar el tiempo de una tarea, ver si ciertas conexiones se realizan o se bloquean... Si obtenemos un nuevo dato manteniendo constantes las condiciones de experimentacin estamos REPITIENDO el experimento medir otras piezas similares, cronometrar repeticiones de la misma tarea, ver si varias conexiones similares se bloquean..

POBLACIN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Informtica. Universidad Carlos III de Madrid

11

POBLACIN: conjunto de datos que se obtienen al repetir un experimento todas las veces posibles
Depende del experimento que nos interese
Ejemplo: Aula con 50 alumnos. Variable: estatura Condiciones de experimentacin: alumnos del aula seleccionados sin reposicin Muestra las estaturas de algunos alumnos Poblacin las 50 estaturas

Si analizamos a los individuos sin reposicin, la poblacin son el conjunto de valores de la variable en todos los individuos.

Ejemplo:

Dado. Variable: resultado de su lanzamiento Condiciones de experimentacin: siempre el mismo dado Poblacin infinitos valores discretos repetidos 1,2,...,6

Ejemplo:

Programa informtico. Variable: tiempo de ejecucin Condiciones de experimentacin: mismo programa, mismo ordenador Poblacin infinitos valores continuos, tal vez todos distintos

Hay poblaciones infinitas que slo existen conceptualmente


Informtica. Universidad Carlos III de Madrid
12

El objetivo de la estadstica es entender cmo es la poblacin a partir de una muestra Repetimos un experimento, y obtenemos as un conjunto de datos

muestra

Anlisis estadstico Poblacin de caractersticas desconocidas finita o infinita


Informtica. Universidad Carlos III de Madrid

Conclusiones sobre la POBLACIN

13

Cmo aprendemos de la realidad usando la estadstica?

1- Seleccionamos la/s variable/s de inters 2- Definimos el experimento que nos interesa ejecutar para conseguir datos de la poblacin de dicha variable 3- Repetimos el experimento un nmero de veces para obtener una muestra de datos 4- Analizamos la muestra de datos 5- Las conclusiones se extienden, con un determinado grado de precisin, al resto de la poblacin. Es decir, al resto de los hipotticos valores que se obtendran repitiendo el experimento todas las veces posibles.

Informtica. Universidad Carlos III de Madrid

14

2. Tipos de datos

3. POR SU PROCEDIMIENTO DE OBTENCIN

Datos observacionales
no se ejerce control sobre la variable Ejemplo: estatura de los alumnos

su valor se recoge de forma pasiva

Datos experimentales su valor lo determina el analista


configuran las condiciones de experimentacin Ejemplo: elegimos el aula cuyos alumnos queremos medir

Informtica. Universidad Carlos III de Madrid

15

2. Tipos de datos

3. POR SU PROCEDIMIENTO DE OBTENCIN Datos observacionales Datos experimentales En un experimento, intervienen ambos tipos de datos
Variable de inters (variable respuesta): siempre datos observacionales Otras variables que puedan afectar a la variable de inters (factores): unas proporcionarn datos experimentales (condiciones de experimentacin) y otras datos observacionales

Informtica. Universidad Carlos III de Madrid

16

Ejemplo: Se eligen al azar 3 alumnos del aula 1 y otros 3 del aula 2, y se toman algunos datos de ellos: estatura, sexo, y nmero de hermanos. Cuntos experimentos se han hecho?Cuntas repeticiones de cada uno? Clasifica los datos segn su naturaleza (cualitativa, cuantitativa...) Clasifica los datos segn su representatividad (poblacin, muestra) Clasifica los datos segn su procedimiento de obtencin (experimental, observacional)

Observacin 1 2 3 4 5 6

Aula 1 1 1 2 2 2

Estatura 175 163 181 166 170 169

Sexo v m v m v v

N de hermanos 0 1 0 2 1 1
17

Informtica. Universidad Carlos III de Madrid

2. Tipos de datos
Al observar cmo cambia la variable respuesta al manipular los factores, puedo establecer relaciones CAUSA-EFECTO

generan datos experimentales

Factores controlados

X1

X2

X3 ...

Xk

Experimento
Factores no controlados
Z1 Z2 Z3 ... Zp

Variable de inters
dato observacional

su valor lo determina el entorno : azar generan datos observacionales

Informtica. Universidad Carlos III de Madrid

18

Ejemplo:

Un analista quiere saber la influencia de la temperatura de una CPU en su velocidad. Para ello ejecuta una serie de programas y contabiliza su tiempo de ejecucin. Repite dicha tarea 30 veces, 10 en cada una de las temperaturas T, T, y T.

Experimento

Temperatura

Tiempo

1 2 : 11 12 : 30

T1 T1
:

T2 T2
:

45 36
:

datos observacionales

34 13

tiempo

T3

26

T1

T2

T3

datos experimentales

Informtica. Universidad Carlos III de Madrid

19

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

20

3. Descripcin de datos mediante tablas Objetivo: resumir la informacin para facilitar su anlisis

Tablas univariantes Muestran la frecuencia de cada valor observado


Ejemplo 1: nmero de cilindros de 155 vehculos (fichero cardata.sf)

Informtica. Universidad Carlos III de Madrid

21

3. Descripcin de datos mediante tablas

Tablas univariantes
Ejemplo 2: mes de nacimiento de 95 estudiantes de primer curso

Informtica. Universidad Carlos III de Madrid

22

3. Descripcin de datos mediante tablas Tablas univariantes


Si hay muchos valores distintos: se agrupan en intervalos clasesEjemplo: precio de 155 vehculos (fichero cardata.sf)

Nmero de clases?

Informtica. Universidad Carlos III de Madrid

23

3. Descripcin de datos mediante tablas Tablas bivariantes


Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

Informtica. Universidad Carlos III de Madrid

24

3. Descripcin de datos mediante tablas Tablas bivariantes


Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

Cada celda: frecuencias conjuntas


Informtica. Universidad Carlos III de Madrid
25

3. Descripcin de datos mediante tablas Tablas bivariantes


Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

Informtica. Universidad Carlos III de Madrid

Las univariantes: frecuencias marginales

26

3. Descripcin de datos mediante tablas Tablas bivariantes


Si tenemos, para cada individuo, dos datos usamos una tabla de doble entrada Ejemplo: para cada coche tenemos el nmero de cilindros y su ao de fabricacin (cardata.sf)

Cada fila o columna: frecuencia condicionada (al valor de la fila o columna)


Informtica. Universidad Carlos III de Madrid
27

Cuestiones

1. 2. 3. 4. 5.

Las frecuencias absolutas se expresan en porcentajes? La suma de las frecuencias absolutas es el tamao de la muestra? En una tabla de doble entrada, la suma de las frecuencias marginales relativas de ambas variables es.... La suma de las frecuencias marginales absolutas de una de las variables es... Las frecuencias condicionadas son las que se obtienen sumando las frecuencias por filas o por columnas

Informtica. Universidad Carlos III de Madrid

28

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

29

4. Descripcin de datos mediante grficos

4.1 Diagrama de barras 4.2 Histograma y polgono de frecuencias 4.3 Diagrama de tartas 4.4 Series temporales 4.5 Grficos de dispersin

Informtica. Universidad Carlos III de Madrid

30

4.1 Diagrama de barras


Es la representacin grfica de una tabla de frecuencias sin agrupar en intervalos

Frecuencia de cada valor observado


Ejemplo: nmero de cilindros de 155 vehculos (fichero cardata.sf)

Informtica. Universidad Carlos III de Madrid

31

4.2 Histograma y polgono de frecuencias


Es la representacin grfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehculos (fichero cardata.sf)

El histograma es una de las herramientas grficas ms tiles para resumir informacin

Informtica. Universidad Carlos III de Madrid

32

4.2 Histograma y polgono de frecuencias


Es la representacin grfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehculos (fichero cardata.sf)

El histograma sirve para resumir la siguiente informacin: Concentraciones Asimetras Huecos Atpicos
Informtica. Universidad Carlos III de Madrid
33

4.2 Histograma y polgono de frecuencias


Es la representacin grfica de una tabla de frecuencias con datos agrupados

Informtica. Universidad Carlos III de Madrid

34

Ejemplo:

Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.

Las dos concentraciones parecen deberse a los dos calibres Qu calibre es mejor?

Informtica. Universidad Carlos III de Madrid

35

Ejemplo:

Valores de velocidad de viento (m/s) registrados en un parque elico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos

Potencia generada por un aerogenerador en funcin de la velocidad del viento

hay una concentracin alrededor de 2.5 m/s? (a 2.5 m/s los aerogeneradores no producen energa)
Informtica. Universidad Carlos III de Madrid
36

Ejemplo:

Valores de velocidad de viento (m/s) registrados en un parque elico durante varios meses. Cada dato es la velocidad media registrada durante una hora, y se tienen 14000 datos

hay una concentracin alrededor de 2.5 m/s? (a 2.5 m/s los aerogeneradores no producen energa)
Informtica. Universidad Carlos III de Madrid
37

Ejemplo:

Tiempo que un ordenador tarda en escribir un fichero de 300 Mb en su disco duro. Se hacen dos experimentos; uno en el que el disco duro est desfragmentado, y otro en el que el disco duro tiene una fragmentacin del 40%. Cada experimento se repite 79 veces

Informtica. Universidad Carlos III de Madrid

38

4.2 Histograma y polgono de frecuencias


Es la representacin grfica de una tabla de frecuencias con datos agrupados
Ejemplo: precio de 155 vehculos (fichero cardata.sf)

El polgono de frecuencias se consigue uniendo con lneas los puntos centrales de la parte superior del histograma.

Informtica. Universidad Carlos III de Madrid

39

4.3 Diagrama de tartas


Es un crculo dividido en porciones proporcionales a las frecuencias relativas
Ejemplo: nmero de cilindros de 155 vehculos (fichero cardata.sf)

Informtica. Universidad Carlos III de Madrid

40

4.4 Series temporales


El eje X es el tiempo. Representa la evolucin temporal de la variable

Informtica. Universidad Carlos III de Madrid

41

4.4 Series temporales


El eje X es el tiempo. Representa la evolucin temporal de la variable

Informtica. Universidad Carlos III de Madrid

42

4.5 Grfico de dispersin


Para cada individuo tenemos dos datos: X e Y

Informtica. Universidad Carlos III de Madrid

43

4.5 Grfico de dispersin


Para cada individuo tenemos dos datos: X e Y

Potencia generada por un molino de viento

Informtica. Universidad Carlos III de Madrid

44

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

45

5. Medidas caractersticas de un conjunto de datos Objetivo: buscamos resumir las caractersticas ms importantes de los datos en un conjunto reducido de nmeros. Cada caracterstica
5.1 Medidas de centralizacin Cul es el centro de los datos? Hay muchas medidas alternativas. Las ms importantes son

un nmero

Media aritmtica Mediana Moda

Informtica. Universidad Carlos III de Madrid

46

5.1 Medidas de centralizacin

Media aritmtica
Sea un conjunto de observaciones x1, x2,...,xn

Si hay J valores diferentes que se repiten: X1, se repite n1 veces X2, se repite n2 veces ... xJ, se repite nJ veces

Donde fr(xj) es la frecuencia relativa del valor xj

Informtica. Universidad Carlos III de Madrid

47

5.1 Medidas de centralizacin

Media aritmtica
Ejemplo: x={1,2,3,3,5,5,5,6,6}

x=
O bien:

1+ 2 + 3 + 3 + 5 + 5 + 5 + 6 + 6 =4 9

1 1 2 3 1 x = 1 + 2 + 3 + 5 + 6 = 4 9 9 9 9 9

Informtica. Universidad Carlos III de Madrid

48

5.1 Medidas de centralizacin

Media aritmtica
Puede interpretarse como el centro de gravedad de los datos. Por ejemplo, en un histograma, es el punto de apoyo para que est en equilibrio

Informtica. Universidad Carlos III de Madrid

49

Media aritmtica
Cuanto ms asimtrica sea ms se desplaza la media hacia la cola

Media

Media
Informtica. Universidad Carlos III de Madrid
50

Media aritmtica
Es muy sensible a valores atpicos

Media

Un solo dato puede desplazar la media hasta hacerla poco representativa del centro de los datos

Media
Informtica. Universidad Carlos III de Madrid
51

Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos 1 2 5 8 11 13 24 28 31 9 datos

Mediana=11 Con un nmero impar de datos: el dato en posicin central

11

13

24

28

31

10 datos

Mediana=(8+11)/2=9,5 Con un nmero par de datos: la media de los dos centrales

Informtica. Universidad Carlos III de Madrid

52

Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos

50%

50%

50%

50%

Media= mediana

Mediana

Media

La mediana no vara, pero la media se desplaza

Informtica. Universidad Carlos III de Madrid

53

Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos

50%

50%

Media= mediana

Informtica. Universidad Carlos III de Madrid

54

Mediana
Es el valor que deja a cada lado el 50% de los datos. Es poco sensible a asimetras Es insensible a valores atpicos

50%

50%

Mediana

Media

Los valores atpicos no alteran las posicin de la mediana Con valores atpicos y asimetras fuertes, la mediana es una medida de centralizacin ms til que la media
Informtica. Universidad Carlos III de Madrid
55

Moda
Es el valor ms frecuente 1 2 2 2 2 5 5 5 8 8 11 13

Moda=2

Con datos agrupados, es la clase ms frecuente. Puede haber varias, sugiriendo la posible existencia de varios grupos

Distribucin unimodal

Distribucin trimodal
56

Informtica. Universidad Carlos III de Madrid

5.1 Medidas de centralizacin 5.2 Medidas de dispersin


Varianza (desviacin tpica) Meda Rango Cuartiles Diagrama de caja (box-plot)

media, mediana, moda

Varianza Promedio de desviaciones a la media, al cuadrado

Desviacin tpica

Coeficiente de variacin

Informtica. Universidad Carlos III de Madrid

57

Varianza Promedio de desviaciones a la media, al cuadrado

Poca dispersin Baja varianza Baja desviacin tpica Bajo CV

media
Mucha dispersin Mucha varianza Mucha desviacin tpica Alto CV

Informtica. media Universidad Carlos III de Madrid

58

Ejemplo:

Longitudes de 100 clavos del mismo tipo, medidos por dos personas, 50 clavos cada una, que usaron calibres diferentes.

Qu calibre es mejor? Varianza Calibre 1: 7.25 mm Varianza Calibre 2: 21.47 mm

Informtica. Universidad Carlos III de Madrid

59

MEDA Mediana de desviaciones absolutas a la mediana

Datos Mediana

x1, x2, x3, ..., xn xm

Desviaciones absolutas a la mediana

|x1- xm|, |x2- xm|, |x3- xm|, ..., |xn- xm|

Mediana de los valores anteriores

MEDA

Menos sensible a atpicos y asimetras que la varianza Por qu?


Informtica. Universidad Carlos III de Madrid
60

Rango o recorrido Valor mximo menos valor mnimo X: 1 2 5 8 11 13 24 28 31

Rango: 31-1=30

A mayor rango mayor dispersin

Informtica. Universidad Carlos III de Madrid

61

Cuartiles Q1, Q2, Q3 Son los valores que dividen la muestra en 4 grupos, cada uno con el 25% de los datos (aproximadamente) Entre el mnimo y Q1 Entre Q1 y Q2 Entre Q2 y Q3 Entre Q3 y el mximo
25% de los datos 25% de los datos 25% de los datos 25% de los datos 50% 50%

Q2 = mediana Q3-Q2=Rango Intercuartlico (R.I.) 25% 25% 25% 25%

min

Q1

Q2

Q3

max

Hay varios mtodos para calcular Q1 y Q3. Con pocos datos pueden dar valores diferentes Informtica. Universidad Carlos III de Madrid

62

Cuartiles Q1, Q2, Q3

x:{1,1,3,3,5,9,11,14,15}

Mtodo sencillo para calcular cuartiles

1: Obtenemos la mediana Q2 2: Excluimos ese valor y nos quedamos con dos grupos de datos, uno a cada lado de la mediana 3: Q1 es la mediana del grupo que queda a la izquierda

5 izda.: {1,1,3,3,} dcha.: {9,11,14,15}

Q1=(1+3)/2=2

4: Q3 es la mediana del grupo que queda a la derecha

Q3=(11+14)/2=12.5

Informtica. Universidad Carlos III de Madrid

63

Diagrama de caja (box-plot) Es la representacin grfica de los cuartiles 25% 25% 25% 25%

min

Q1

Q2

Q3

max

Informtica. Universidad Carlos III de Madrid

64

Los grficos Box-plot son muy tiles para: Comparar grupos Ver asimetras Detectar atpicos **

Informtica. Universidad Carlos III de Madrid

65

Datos extremos (o atpicos)

Informtica. Universidad Carlos III de Madrid

66

Para construir un Box-plot con marcas de atpicos Primer paso

Informtica. Universidad Carlos III de Madrid

67

Segundo paso

Informtica. Universidad Carlos III de Madrid

68

Tercer paso

Los puntos que caigan en estas zonas se marcan


Informtica. Universidad Carlos III de Madrid
69

Tercer paso

Las lneas laterales se extienden slo hasta el ltimo punto dentro de la barrera interna
Informtica. Universidad Carlos III de Madrid
70

Ojo!! Cuando hay asimetras, un dato extremo no debe necesariamente catalogarse como atpico

Dato atpico: dato que se sale del patrn general de los datos

La asimetra indica que al final de la cola habr cada vez menos datos.

No es atpico. Es compatible con el patrn de los datos

S es atpico

Informtica. Universidad Carlos III de Madrid

71

Es compatible con la asimetra positiva


Informtica. Universidad Carlos III de Madrid
72

5.1 Medidas de centralizacin 5.2 Medidas de dispersin

media, mediana, moda varianza, desv. tpica, coeficiente de variacin, meda, rango, cuartiles, box-plot

5.3 Otras medidas de forma


Medidas de asimetra Medidas de apuntamiento

Medidas de asimetra Coeficiente de asimetra

CA = 0; si la distribucin es perfectamente simtrica CA > 0; si hay asimetra positiva CA < 0: si hay asimetra negativa Informtica. Universidad Carlos III de Madrid
73

Medidas de asimetra Coeficiente de asimetra


CA = 0; si la distribucin es perfectamente simtrica CA > 0; si hay asimetra positiva CA < 0: si hay asimetra negativa

Informtica. Universidad Carlos III de Madrid

74

Medidas de apuntamiento Coeficiente de apuntamiento o Curtosis


CAp = 3; distribucin con forma de campana CAp>3; distribucin ms picuda que una campana CAp<3; distribucin menos picuda que una campana

CAp<3

CAp=3

CAp>3

Muchos programas de Estadstica definen Curstosis como CAp-3


Informtica. Universidad Carlos III de Madrid
75

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

76

6. Transformaciones lineales y su efecto en las medidas caractersticas


Sea y una transformacin lineal de x y=a+b x dados un conjunto de datos x1, x2, x3, ..., xn Medidas caractersticas de x

Medidas caractersticas de y?
Medidas de localizacin
Medida_loc (y)=a+b Medida_loc(x)

La transformacin lineal no cambia el orden relativo La transformacin lineal no cambia la frecuencia de aparicin de cada valor

ym=a+b xm Moda(y)=a+b Moda(x)


77

Informtica. Universidad Carlos III de Madrid

6. Transformaciones lineales y su efecto en las medidas caractersticas


Medidas de dispersin

y=a+b x

La constante a no influye

Informtica. Universidad Carlos III de Madrid

78

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

79

7. Transformaciones no lineales que mejoran la simetra


Dados un conjunto de datos x1, x2, x3, ..., xn con distribucin asimtrica Buscamos una transformacin y=h(x) tal que y sea ms simtrica

x Asimetras positivas
y=ln(x) Estas transformaciones son no lineales pues comprimen mucho a los datos grandes y poco a los pequeos
(muy frecuentes)

Transformaciones del tipo y=xc ,c<1

ln( x )

ln(x) puede interpretarse como el lmite de la transformacin y=xc cuando c0 Cuanto mayor sea la asimetra, necesitamos un c menor Informtica. Universidad Carlos III de Madrid
80

7. Transformaciones no lineales que mejoran la simetra


Dados un conjunto de datos x1, x2, x3, ..., xn con distribucin asimtrica Buscamos una transformacin y=h(x) tal que y sea ms simtrica

Asimetras negativas
Transformaciones del tipo y=xc ,c>1 Estas transformaciones son no lineales pues expanden mucho a los datos grandes y poco a los pequeos

x1,5

x2

Cuanto mayor sea la asimetra, necesitamos un c mayor Informtica. Universidad Carlos III de Madrid
81

Tema 1: Estadstica descriptiva

1. 2. 3. 4. 5. 6. 7. 8.

Introduccin. El propsito de la estadstica Tipos de datos Descripcin de datos mediante tablas Descripcin de datos mediante grficos Medidas caractersticas de una variable Transformaciones lineales y su efecto en las medidas caractersticas Transformaciones no lineales que mejoran la simetra Relacin entre dos variables. La recta de regresin

Informtica. Universidad Carlos III de Madrid

82

Medidas de dependencia lineal

Coeficiente de covarianza Coeficiente de correlacin

Entre estas variables no hay relacin lineal

Entre estas variables hay relacin lineal La lnea roja podra ser un buen resumen de esa relacin

Informtica. Universidad Carlos III de Madrid

83

Para n individuos, tenemos datos de 2 variables


Individuo 1 2 : n x x1 x2 : xn y y1 y2 : yn

Covarianza

Correlacin

Covarianza y Covarianza y correlacin negativas correlacin positivas Informtica. Universidad Carlos III de Madrid

84

La covarianza tiene unidades (unidades_x)(unidades_y) La correlacin es adimensional. ES MS FCIL DE INTERPRETAR Se puede demostrar que -1r1

r=1

r=0.8

r=0.06

r=-0.94

r=-0.83 Informtica. Universidad Carlos III de Madrid

r=-0.08
85

La recta de regresin

Cmo obtener la ecuacin de esa recta resumen?

( xi , yi )

X
Informtica. Universidad Carlos III de Madrid
86

La recta de regresin

y
Ecuacin de la recta: Y=a+bX Si tiene que pasar por dos puntos: solucin nica

X
Informtica. Universidad Carlos III de Madrid
87

La recta de regresin

Es imposible que una recta pase por todos los puntos Cmo elegir la que ms nos interesa?

( xi , yi )

X
Informtica. Universidad Carlos III de Madrid
88

La recta de regresin

Buscamos una recta muy concreta llamada RECTA DE REGRESIN (de regresin simple) Es la recta que, dado el valor de X me da la mejor prediccin de Y

( xi , yi )

X
Informtica. Universidad Carlos III de Madrid
89

La recta de regresin

Es la recta que, dado el valor de X me da la mejor prediccin de Y

a + bx

( xi , yi )
Valor observado Valor previsto por la recta

yi

i y
valor observado

ei

Error de prediccin:

i ei = yi y

xi
X
90

Informtica. Universidad Carlos III de Madrid

La recta de regresin

Buscamos la recta que minimiza los errores de prediccin:

a + bx

min ei
i =1

(recta de mnimos cuadrados)

( xi , yi ) yi
ei

i y
valor observado

xi

X
91

Informtica. Universidad Carlos III de Madrid

La recta de regresin

SOLUCIN

a + bx

cov( x, y ) b= 2 sx

a = y bx

( xi , yi )

x
Informtica. Universidad Carlos III de Madrid

X
92

Ejemplo

La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

Loc.1: media: 2.51 varianza: 1.91

Loc.2: media: 3.28 varianza: 2.36

cov (V1,V2)=1.995

En la localizacin 1 se va a establecer un sistema informtico para la telemedida de la velocidad del viento, pero no para la localizacin 2. Se quiere calcular la recta de regresin que permita predecir la velocidad de la Localizacin 2 sabiendo la de la Localizacin 1
Informtica. Universidad Carlos III de Madrid

93

Ejemplo

La variable V1 tiene la velocidad del viento registrada en la localizacin 1, mientras que la variable V2 tiene las velocidades registradas en esos mismos instantes en la localizacin 2. Se tiene un total de 115 pares de medidas

Loc.1: media: 2.51 varianza: 1.91

Loc.2: media: 3.28 varianza: 2.36

cov (V1,V2)=1.995

b=cov(x,y)/var(x)=1.995/1.91=1.045 a = y bx = 3.28 1.045 2.51 = 0.657

= 0.657 + 1.045 V V 2 1

Si, por ejemplo, en la Localizacin 1 se mide una velocidad de viento de 5 m/s, la prediccin en la Localizacin 2 es de un viento de 0.657+1.045x5=5.88 m/s
Informtica. Universidad Carlos III de Madrid

94

Vous aimerez peut-être aussi