Vous êtes sur la page 1sur 79

Capitulo IV

Es la medida ms comn de localizacin y


representa el centro de un grupo de datos
El valor obtenido es ms preciso que la precisin
asociada con cada observacin por lo cual
siempre se representa con un dgito ms que los
utilizados en la medicin

Datos no agrupados
X

X
i 1

X
i 1

Datos agrupados
n

M
i 1

fi

Frecuencia

Mi= punto medio de la clase


fi = frecuencia de la clase i
n= fi=tamao de la muestra

Media

Ingresos mensuales en dlares


1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

30

X
i 1

1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
30

30
32800
X
1.093,33
30

INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30
6

30/30=1

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)


n
30
30
955 7035 5275 8840 6930 3615 32650
X

1.088,333
30
30
X

i 1

i i

i 1

i i

La mediana m de un conjunto de datos x1,x2,,xn, es el


valor xi que se encuentra en el punto medio o centro,
cuando se ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el
valor que divide un histograma en dos partes iguales.

Procedimiento de clculo:

Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n

Identificar si n es impar o par

x%

x([ n 1]) / 2)

x( n / 2) x( n / 2 1)
2

Encontrar la mediana del siguiente conjunto de datos que


corresponden al tiempo en segundos, requerido por una cajera
para marcar la compra de artculos en un supermercado que
utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4
5 6 7 8 9 10 11
Indice

m x n 1
2

n 1 11 1 12

6
2
2
2
x n 1 x6 40
2

m x6 40

En el caso de que los datos estn agrupados, se obtiene primero la


clase de la mediana
La clase de la mediana se define como la primera clase que aparece
en la tabla, para la cual la frecuencia acumulada, Fi, sea igual o mayor
a la mitad de la suma de todas las frecuencias absolutas, esto es:
n

n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj

i 1

Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo


que cumpla la condicin:

Fj
donde

n
2

n - es el nmero total de datos del conjunto


j - es el nmero del intervalo de clase que cumple la condicin,
j = 1, 2,,k
Fj- es la frecuencia acumulada del intervalo de clase j

Paso 2.- Calcular la mediana con la

siguiente ecuacin:
n

2 FL
m Lm
C
fm

Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a
la clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del
intervalo)

INTERVALO
DE CLASE

MARCA
DE CLASE

FRECUENCIA
ABSOLUTA
fi

FRECUENCIA
ABSOLUTA
ACUMULADA
Fi

FRECUENCIA
RELATIVA
Fi /n

FRECUENCIA
RELATIVA
ACUMULADA
FI /n

(930-980]

955

1/30

1/30

(980-1030]

1005

7/30

8/30

(1030-1080]

1055

13

5/30

13/30

(1080, 1130]

1105

21

8/30

21/30

(1130-1180]

1155

27

6/30

27/30

(1180-1230]

1205

30

3/30

30/30=1

30

30/30=1

Paso 1.- Obtener la Clase de la Mediana


n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase
mediana, esto es:
(1080, 1130] es el intervalo de clase.
F4 = 21

Paso 2.- Calcular la mediana:

Lm = 1080
Limite inferior de la clase de la mediana
n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No

Intervalo

fi

Fi

(1030,1080]

13

(1080,1130]

21

F
L
2
m Lm
C
f
m

(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.

Es la observacin que se presenta con mayor


frecuencia en la muestra o poblacin
Si los datos tienen una sola moda son
unimodales, si tienen 2 son bimodales y as
sucesivamente
No son comparables en su totalidad los
resultados obtenidos entre datos individuales y
agrupados

Procedimiento de clculo (datos no agrupados):


Paso 1. Ordenar los datos en forma ascendente
Paso 2. Identificar el o los datos con mayor frecuencia

En el conjunto de datos dados para medir el ingreso promedio anual de las familias que
habitan en un determinado sector, se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100,
1100, 1105, 1110, 1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }

En este conjunto hay dos valores que aparecen ms veces :


1030 ( 3 veces)

1150 ( 3 veces)

por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es
bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia,
denominndose clase modal.

El clculo de la Moda se obtiene con la siguiente expresin:

Donde:

1
Moda LI
C
2 1

LI = Lmite inferior del intervalo de clase, la clase modal.


1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i
nmero de intervalo de la clase modal

- fi-1, con i

2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i


nmero de intervalo de la clase modal

- fi+1, con i

C = Tamao del intervalo de clase.

Datos agrupados
Calcular la moda del ingreso promedio mensual de las
familias que habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
3
(1030,1080]
5
13
2 = f4 f5 = 8 - 6 = 2
C = 50
4
(1080,1130]
8
21
Sustituyendo los datos:

(1130, 1180]

27

1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da

Una

de las caracterstica ms importante que describe

un conjunto de datos, es la dispersin


La

dispersin

es

la

cantidad

de

variacin,

diseminacin en los datos. Determina si los valores estn


relativamente cercanos entre s, o no
Tiene

como propsito ofrecer informacin adicional que

permita

juzgar

tendencia central

la

confiabilidad

de

la

medida

de

Es la medida de dispersin ms fcil de


calcular
Rango Valor maximo - Valor minimo

No estn usada ya que slo considera los


valores extremos de la serie de datos

Indica qu tan dispersos se encuentran


los datos, en promedio, de la media de la
poblacin
Para representar la varianza poblacional y
la varianza muestral se utilizan los
siguientes dos smbolos:
2 - donde es la letra griega (sigma ) al
cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada

La frmula para calcular la varianza de una


poblacin est dada por la expresin:

2
(
x

)
i
i 1

N 1

1
N 1

2
x

i 1

x
i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin

Para calcular la varianza muestral para datos


no agrupados se utiliza la misma frmula
reemplazando las variables 2, y N por s2,x y
n, respectivamente, esto es:

s
2

2
(
x

x
)
i
i 1

n 1

n 1

2
x
i
i 1

i 1

donde:

x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados

Para calcular la varianza muestral para


datos agrupados se utiliza la frmula:
k

s
2

f (M
i 1

x)

n 1

n 1

2
f
M

i i

i 1

f M
i 1

donde:
x - es la media muestral
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos Agrupados

En la varianza, los resultados se expresan en


unidades originales al cuadrado, por lo que
se requiere de una medida de desviacin que
sea til en unidades originales que no estn
elevadas
Esta medida es llamada desviacin estndar
y es la raz cuadrada de la varianza
Para representar la desviacin estndar
poblacional y la desviacin estndar muestral
se utilizan los siguientes dos smbolos:

- donde sigma es la letra griega que


determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada

La frmula para calcular la desviacin estndar de


una poblacin est dada por la expresin:
N

(x )
i 1

N 1

N 1

2
x
i

i 1

i 1

donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin

Para Desviacin estndar muestral de datos


individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n

(x x)
i 1

n 1

n 1

2
x
i

i 1

i 1

donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos No Agrupados

Para datos agrupados se utiliza la frmula:


k

f (M
i 1

x)

n 1

1
n 1

i 1

f i M i2

f M
i 1

donde:
x - es la media muestral
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos Agrupados

Datos No Agrupados

Ingresos mensuales en dlares


1000

1110

1010

1070

1030

1000

1150

990

1090

1080

1150

1200

1050

1030

1120

1050

1030

1150

1230

1170

1180

1110

1160

1100

1100

1060

1130

1105

935

1210

Datos No Agrupados
Xi

Xi2

Xi

X i2

935

874225

1100

1210000

990

980100

1105

1221025

1000

1000000

1110

1232100

1000

1000000

1110

1232100

1010

1020100

1120

1254400

1030

1060900

1130

1276900

1030

1060900

1150

1322500

1030

1060900

1150

1322500

1050

1102500

1150

1322500

1050

1102500

1160

1345600

1060

1123600

1170

1368900

1070

1144900

1180

1392400

1080

1166400

1200

1440000

1090

1188100

1210

1464100

1100

1210000

1230

1512900

Total

32800

36013050

Datos No Agrupados

Varianza
n

s2

(x
i 1

x)

n 1

n 1

2
x

i
i 1

x
i 1

(
32800
)
1

36013050

29
30

(32800) 2
1
1

36013050

36013050 35861333.3 5231.6092

29
30
29

Desviacin estndar
n

(x
i 1

x)

n 1

1
n 1

2
x
i

i 1

s s 2 5231.6092 72.33

x
i 1

Este ltimo clculo significa que existe una


dispersin de $ 72.33 con respecto a la media

Esta unidad de medida es congruente con la


obtenida al calcular la media aritmtica, por
lo tanto, se pueden hacer inferencias con
respecto a la poblacin objeto de estudio a
travs de los intervalos de confianza

Consideremos los valores expuestos en el


ejemplo anterior y definamos las clases

Datos Agrupados

INT.
DE CLASE

MARCA
DE
CLASE
Mi

FREC.
ABS.
fi

Xi 2

fMi

fi Mi 2

(930 - 980]

955

912025

955

912025

(980 1030]

1005

1010025

7035

7070175

(1030 1080]

1055

1113025

5275

5565125

(1080 1130]

1105

1221025

8840

9768200

(1130 1180]

1155

1334025

6930

8004150

(1180 1230]

1205

1452025

3615

4356075

32650

35675750

30=n
29= n-1

Total

Datos Agrupados
Varianza
k

s2

f (M
i 1

x)

n 1

n 1

2
f
M
i i

f M

i 1

1
(32650)

35675750

29
30

i 1

1
35675750 35534083.3 4885.057
29

Desviacin estndar
k

f (M
i 1

x)

n 1

1
n 1

fM
i 1

4885.057 69.89

2
i

f M
i 1

Este ltimo clculo significa que existe una


dispersin de $ 69.89 con respecto a la
media

Esta unidad de medida es congruente con


la obtenida al calcular la media aritmtica,
por lo tanto, se pueden hacer inferencias
con respecto a la poblacin objeto de
estudio a travs de los
intervalos de
confianza

Es la dispersin relativa existente entre la


desviacin estndar y la media aritmtica
de los datos
Este coeficiente est dado como el
cociente
resultante
de
dividir
la
desviacin estndar entre la media:

S
C.V .
X

El coeficiente de variacin se puede


expresar como porcentaje

Esta medida de variabilidad expresa la


desviacin
estndar
por
unidad
experimental como una medida general
del experimento.

De esta forma se puede comparar entre


dos o ms coeficientes de variacin, y
observar cul muestra tiene mayor
variabilidad.

Se puede obtener la estimacin de la


desviacin estndar conociendo nicamente
el rango (amplitud) de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.

Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados


del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75

% DE DATOS

INTERVALOS

68

1088.3373.75

(1014.58, 1162.08)

95

1088.332(73.75)

(940.83, 1235.83)

99 o 100

1088.333(73.75)

(867.08, 1309.58)

Existen dos mtodos generales para el ajuste de


curvas, se distinguen entre si al considerar la
cantidad de error asociado con los datos :

Regresin por mnimos cuadrados- los datos presentan


un grado de error significativo
Interpolacin los datos son precisos

Introduccin

En la investigacin las variables que estn


asociadas entre si pueden ser relacionadas
matemticamente una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda

Nota: estadsticamente interesa analizar una relacin


existente o lgica entre variables

Objetivo: proporcionar los procedimientos y


las tcnicas para expresar y medir la relacin
entre variables

NUBES DE PUNTOS
Sea un conjunto de pares de valores de las variables X e Y. Si
los
representamos
en
un
diagrama
de
dispersin
obtendremos una nube de puntos que nos dar una idea
grfica de la posible correlacin entre ambas variables.

No hay relacin

Relacin positiva

Relacin negativa

ALGUNOS TIPOS DE RELACIONES

Modelo Lineal

relacin lineal positiva

relacin lineal negativa


Potencial
Logartmica
Otros tipos

Potencial

Potencial
inversa

Exponencial
positiva

Exponencial
negativa

Otros tipos

Otros tipos

El trmino regresin fue introducido por Galton en


su libro Natural inheritance (1889) refirindose a
la ley de la regresin universal:

Cada peculiaridad en un hombre es compartida por


sus descendientes, pero en media, en un grado
menor.

Regresin a la media
Su trabajo se centraba en la descripcin de los
rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms
de 1000 registros de grupos familiares observando
una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre


(aprox.)

Conclusin: los padres muy altos tienen


tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse
de los padres muy bajos.

Hoy en da el sentido de regresin es el de


prediccin de una medida basndonos en el
conocimiento de otra.

Francis Galton

A la derecha tenemos una posible manera de


recoger los datos obtenido observando dos
variables aleatorias en varios individuos de
una muestra.

En cada fila tenemos los datos de un individuo


Cada columna representa los valores que toma
una variable aleatoria sobre los mismos.
Las individuos no se muestran en ningn
orden particular.

Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.
Nuestro objetivo ser intentar reconocer a
partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible
predecir el valor de una de ellas en funcin
de la otra.

Altura
en cm.

Peso en
Kg.

162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Tenemos las alturas y los pesos de 30 individuos representados en un


diagrama de dispersin.

ue
q
ce
e
r
Pa ra
altu

s
e
p
el

nta
e
um
a
o

la
n
co

Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,


el peso aumenta en una unidad por cada unidad de altura.

10 kg.

10 cm.

330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la media


tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.

Para los valores de X mayores


que la media le corresponden
valores de Y mayores tambin.
Para los valores de X menores
que la media le corresponden
valores de Y menores tambin.
Esto se llama relacin directa o
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.

Dado un valor de X no podemos decir


gran cosa sobre Y. Mala relacin.
Independencia.

Conocido X sabemos que Y se mueve


por una horquilla estrecha. Buena
relacin.
Lo de horquilla estrecha hay que
entenderlo con respecto a la dispersin
que tiene la variable Y por si sola, cuando
no se considera X.

Definicin

Mtodo estadstico que investiga y define la relacin


funcional entre las variables.

Funcin o lnea de regresin


Y= f(X)
Tipos de regresin

Regresin simple

Regresin lineal
Regresin no lineal

Regresin mltiple

Regresin lineal
Regresin no lineal

Ajuste de una lnea de regresin

El problema del ajuste comprende tres


etapas:

Diagrama de nubes
Elegir el tipo de lnea
Determinar el valor numrico de los coeficientes

Mtodo de los cuadrados inferiores


Mtodo de los medios

Definicin

Anlisis del grado de asociacin o afinidad entre las


variables expresada a travs de la funcin o modelo de
regresin

donde

S y2*
S

2
y

- Varianza
explicada (terica )
2

- Varianza total (experimental)

S y*

S y2

El anlisis de regresin sirve para predecir una


medida en funcin de otra medida (o varias:
regresin mltiple).

Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error

f es una funcin de un tipo determinado


el error es aleatorio, pequeo, y no depende de X

El ejemplo del estudio de la altura en grupos familiares de


Pearson es del tipo que desarrollaremos en el resto del tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 +


0,5 X)

Si el padre mide 200cm cunto mide el hijo?

Si el padre mide 120cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x200=185 cm.

Alto, pero no tanto como el padre. Regresa a la media.

Se espera (predice) 85 + 0,5x120=145 cm.

Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal


simple.

En el modelo de regresin lineal simple, dado dos


variables

Y (dependiente)
X (independiente, explicativa)

buscamos encontrar una funcin de X muy simple (lineal)


que nos permita aproximar Y mediante

= b 0 + b 1X

b0 (ordenada en el origen, constante)


b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el


modelo de regresin. A la cantidad

e = Y- se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, l encontr:


= b 0 + b 1X

b0 = 85 cm (No interpretar como altura de un hijo cuyo


padre mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del
padre.)

b1=0,5

b0=85 cm

La relacin entre las variables no es exacta. Es natural


preguntarse entonces:

Cul es la mejor recta que sirve para predecir los


valores de Y en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).

b1=0,5

b0=85 cm

El modelo lineal de regresin se construye utilizando la tcnica


de

estimacin de mnimos cuadrados:


Buscar b0, b1 de tal manera que se minimice la
cantidad

i ei2 = i (Yi - )2

Se comprueba que para lograr dicho resultado basta con


elegir:

b1 r

Sy
Sx

b0 y b1 x

La recta de regresin estimada ser:

Se obtiene adems unas ventajas de regalo:

SxS y

y y b1 ( x x )

S xy

El error residual medio es nulo.


La varianza del error residual es mnima para dicha
estimacin.

Que el error medio de las


predicciones sea nulo no
quiere decir que las
predicciones sean buenas.

Hay que encontrar un


medio de expresar la
bondad del ajuste (bondad
de la prediccin).
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.

Cometi un
error de - 30 en
su ltima
prediccin

Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.

En primer lugar olvidemos que


existe la variable X. Veamos cul
es la variabilidad en el eje Y.

La franja sombreada indica la zona


donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.

Fijmonos ahora en los errores de


prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.

Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.

Eso hace que definamos como medida


de bondad de un ajuste de regresin,
o coeficiente de determinacin a:
S e2 SY2

S
R 1
S
2

2
e
2
y

La covarianza entre dos variables, Sxy, nos


indica si la posible relacin entre dos
variables es directa o inversa:

Directa: Sxy > 0

Inversa: Sxy < 0

Incorreladas: Sxy = 0

El signo de la covarianza nos dice si el


aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.

El coeficiente de correlacin lineal de


Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).

Tiene el mismo signo que Sxy . Por tanto de


su signo obtenemos el que la posible relacin
sea directa o inversa.

r es til para determinar si hay relacin


lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica,
logartmica,...)

S xy
SxS y

GRADO DE CORRELACIN
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.

No hay
correlacin

r 0

Hay correlacin
no lineal

r 0

Correlacin lineal
positiva

r 1

Correlacin lineal
negativa

r 1

Si r = 0 eso quiere decir que


las variables son independientes?

Me ha salido r = 1,2 La relacin es superlineal ?

En la prctica, casi siempre


s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.

Superqu? Eso es un error de clculo. Siempre debe tomar


un valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin


lineal?

Es difcil dar un valor concreto (mirad los grficos


anteriores). Para este curso digamos que si |r| > 0,7 hay
buena relacin lineal y que si |r| > 0,4 hay cierta relacin
(por decir algo... la cosa es un poco ms complicada:
observaciones anmalas,...)

EJEMPLOS DE REGRESIN LINEAL


SIMPLE

y
2
3
4
5

8
7

y = x+ 2

6
5
4
3

x
0
1
2
3

2
1

n xi yi xi yi
n xi2 xi

y b x

a
i

0
-4

-3

-2

-1 -1 0

-2
X

Bondad de los ajustes


Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes:

x y

x y

x
2
x
n

2
i

2
i

n x

n xi yi xi yi

2
i

xi n yi2 yi
2

COEFICIENTE DE
DETERMINACIN, R2

Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el


Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado
al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:

R2

x y
i

xi2 x 2

x y

yi2
2

y
n

n x y x y

n x x n y y
2

R2

2
i

2
i

Su valor oscila entre 0 y +1.


Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.
Normalmente se acepta para valores de R 2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso
cercano a cero

Universidades

Alumnos Profesores

Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.

Trazar la grfica de la distribucin

2.

Calcular parmetros de la distribucin

3.

Cul es la Universidad con mejor proporcin


profesor/alumno?

R2=0.998

b=0.0515

a=-17

36154
34441
9519
11962
15123
74272
17678
214402
26407

2043
1442
385
737
787
4030
865
10971
1248

4.

Qu Universidad tiene la peor ratio y cuntos


profesores necesitara para equilibrarla?

5.

Calcular los valores tericos de profesores de la


Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.

6.

Calcular los valores de la FBD si sta tena 1100


alumnos

14000

3000

12000

2500
Profesores

Profesores

10000
8000
6000
4000

2000
1500
1000

2000

500

0
0

100000

200000

Alumnos

300000

10000

20000

30000

Alumnos

40000

50000

Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,


y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo

Potencial

Exponencial

y ax b

Ecuacin
Ecuacin
Linealizada

Logartmico

y aebx

log y log a b log x

ln y ln a bx

Log y

y a b log x
----------

Ln y

Grfica
Log x

Log x

Log y

Ln y

Log x

Log x

Log a

Ln a

a
b

eA

10 A
B

A
B

(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)

Vous aimerez peut-être aussi