Capitulo 4

Capitulo IV
Es la medida ms comn de localizacin y

representa el centro de un grupo de datos
El valor obtenido es ms preciso que la precisin
asociada con cada observacin por lo cual
siempre se representa con un dgito ms que los
utilizados en la medicin
Datos no agrupados
X
X
i 1
X
i 1
Datos agrupados
n
M
i 1
fi
Frecuencia
Mi= punto medio de la clase

fi = frecuencia de la clase i
n= fi=tamao de la muestra
Media
Ingresos mensuales en dlares

1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
30
X
i 1
1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
30
30
32800
X
1.093,33
30
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
6
30/30=1
955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

n
30
30
955 7035 5275 8840 6930 3615 32650
X
1.088,333
30
30
X
i 1
i i
i 1
i i
La mediana m de un conjunto de datos x1,x2,,xn, es el

valor xi que se encuentra en el punto medio o centro,
cuando se ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el
valor que divide un histograma en dos partes iguales.
Procedimiento de clculo:
Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n
Identificar si n es impar o par
x%
x([ n 1]) / 2)
x( n / 2) x( n / 2 1)
2
Encontrar la mediana del siguiente conjunto de datos que

corresponden al tiempo en segundos, requerido por una cajera
para marcar la compra de artculos en un supermercado que
utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4
5 6 7 8 9 10 11
Indice
m x n 1
2
n 1 11 1 12
6
2
2
2
x n 1 x6 40
2
m x6 40
En el caso de que los datos estn agrupados, se obtiene primero la

clase de la mediana
La clase de la mediana se define como la primera clase que aparece
en la tabla, para la cual la frecuencia acumulada, Fi, sea igual o mayor
a la mitad de la suma de todas las frecuencias absolutas, esto es:
n
n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj
i 1
Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo

que cumpla la condicin:
Fj
donde
n
2
n - es el nmero total de datos del conjunto

j - es el nmero del intervalo de clase que cumple la condicin,
j = 1, 2,,k
Fj- es la frecuencia acumulada del intervalo de clase j
Paso 2.- Calcular la mediana con la
siguiente ecuacin:
n
2 FL
m Lm
C
fm
Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a
la clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del
intervalo)
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
30/30=1
Paso 1.- Obtener la Clase de la Mediana

n = 30 y n/2 = 15,
k = 6 intervalos de clase
En el 4 intervalo se cumple que: F4 = 21 15.
Por tanto el cuarto intervalo se identificar como la clase
mediana, esto es:
(1080, 1130] es el intervalo de clase.
F4 = 21
Paso 2.- Calcular la mediana:
Lm = 1080
Limite inferior de la clase de la mediana
n = 30
Datos u observaciones
n/2 = 15
Datos u observaciones
FL = F3 = 13 Frec.acumul.absoluta inf.
fm = f4 = 8 Frec. Absoluta de la clase de la mediana
C = Lsup Linf = 50
No
Intervalo
fi
Fi
(1030,1080]
13
(1080,1130]
21
F
L
2
m Lm
C
f
m
(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.
Es la observacin que se presenta con mayor

frecuencia en la muestra o poblacin
Si los datos tienen una sola moda son
unimodales, si tienen 2 son bimodales y as
sucesivamente
No son comparables en su totalidad los
resultados obtenidos entre datos individuales y
agrupados
Procedimiento de clculo (datos no agrupados):

Paso 1. Ordenar los datos en forma ascendente
Paso 2. Identificar el o los datos con mayor frecuencia
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que
habitan en un determinado sector, se tiene:
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100,
1100, 1105, 1110, 1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }
En este conjunto hay dos valores que aparecen ms veces :

1030 ( 3 veces)
1150 ( 3 veces)
por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es
bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia,
denominndose clase modal.
El clculo de la Moda se obtiene con la siguiente expresin:
Donde:
1
Moda LI
C
2 1
LI = Lmite inferior del intervalo de clase, la clase modal.

1 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua inferior, f i
nmero de intervalo de la clase modal
- fi-1, con i
2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i

nmero de intervalo de la clase modal
- fi+1, con i
C = Tamao del intervalo de clase.
Datos agrupados
Calcular la moda del ingreso promedio mensual de las
familias que habitan en un determinado sector
Intervalo de clase modal: el 4, (1080 1130] ya que
f4 = 8 (la mayor frecuencia absoluta de la tabla)
LI = 1080 dlares
No.
Intervalo
fi
Fi
1 = f4 f3 = 8 - 5 = 3
3
(1030,1080]
5
13
2 = f4 f5 = 8 - 6 = 2
C = 50
4
(1080,1130]
8
21
Sustituyendo los datos:
(1130, 1180]
27
1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da
Una
de las caracterstica ms importante que describe
un conjunto de datos, es la dispersin

La
dispersin
es
la
cantidad
de
variacin,
diseminacin en los datos. Determina si los valores estn

relativamente cercanos entre s, o no
Tiene
como propsito ofrecer informacin adicional que
permita
juzgar
tendencia central
la
confiabilidad
de
la
medida
de
Es la medida de dispersin ms fcil de

calcular
Rango Valor maximo - Valor minimo
No estn usada ya que slo considera los

valores extremos de la serie de datos
Indica qu tan dispersos se encuentran

los datos, en promedio, de la media de la
poblacin
Para representar la varianza poblacional y
la varianza muestral se utilizan los
siguientes dos smbolos:
2 - donde es la letra griega (sigma ) al
cuadrado que determinar la varianza de una
poblacin
s2 determina la varianza de la muestra
analizada
La frmula para calcular la varianza de una

poblacin est dada por la expresin:
2
(
x
)
i
i 1
N 1
1
N 1
2
x
i 1
x
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin
Para calcular la varianza muestral para datos

no agrupados se utiliza la misma frmula
reemplazando las variables 2, y N por s2,x y
n, respectivamente, esto es:
s
2
2
(
x
x
)
i
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados
Para calcular la varianza muestral para

datos agrupados se utiliza la frmula:
k
s
2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
i 1
f M
i 1
donde:
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s2 - La varianza de la muestra
Datos Agrupados
En la varianza, los resultados se expresan en

unidades originales al cuadrado, por lo que
se requiere de una medida de desviacin que
sea til en unidades originales que no estn
elevadas
Esta medida es llamada desviacin estndar
y es la raz cuadrada de la varianza
Para representar la desviacin estndar
poblacional y la desviacin estndar muestral
se utilizan los siguientes dos smbolos:
- donde sigma es la letra griega que

determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada
La frmula para calcular la desviacin estndar de

una poblacin est dada por la expresin:
N
(x )
i 1
N 1
N 1
2
x
i
i 1
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin
Para Desviacin estndar muestral de datos

individuales se utiliza la misma frmula
reemplazando las variables y N por s, x y n,
respectivamente, esto es:
n
(x x)
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
s - la desviacin estndar de la muestra
Datos No Agrupados
Para datos agrupados se utiliza la frmula:

k
f (M
i 1
x)
n 1
1
n 1
i 1
f i M i2
f M
i 1
donde:
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
s - la desviacin estndar de la muestra
Datos Agrupados
Datos No Agrupados
Ingresos mensuales en dlares

1000
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
Datos No Agrupados
Xi
Xi2
Xi
X i2
935
874225
1100
1210000
990
980100
1105
1221025
1000
1000000
1110
1232100
1000
1000000
1110
1232100
1010
1020100
1120
1254400
1030
1060900
1130
1276900
1030
1060900
1150
1322500
1030
1060900
1150
1322500
1050
1102500
1150
1322500
1050
1102500
1160
1345600
1060
1123600
1170
1368900
1070
1144900
1180
1392400
1080
1166400
1200
1440000
1090
1188100
1210
1464100
1100
1210000
1230
1512900
Total
32800
36013050
Datos No Agrupados
Varianza
n
s2
(x
i 1
x)
n 1
n 1
2
x
i
i 1
x
i 1
(
32800
)
1

36013050
29
30
(32800) 2
1
1
36013050
36013050 35861333.3 5231.6092
29
30
29
Desviacin estndar
n
(x
i 1
x)
n 1
1
n 1
2
x
i
i 1
s s 2 5231.6092 72.33
x
i 1
Este ltimo clculo significa que existe una

dispersin de $ 72.33 con respecto a la media
Esta unidad de medida es congruente con la

obtenida al calcular la media aritmtica, por
lo tanto, se pueden hacer inferencias con
respecto a la poblacin objeto de estudio a
travs de los intervalos de confianza
Consideremos los valores expuestos en el

ejemplo anterior y definamos las clases
Datos Agrupados
INT.
DE CLASE
MARCA
DE
CLASE
Mi
FREC.
ABS.
fi
Xi 2
fMi
fi Mi 2
(930 - 980]
955
912025
955
912025
(980 1030]
1005
1010025
7035
7070175
(1030 1080]
1055
1113025
5275
5565125
(1080 1130]
1105
1221025
8840
9768200
(1130 1180]
1155
1334025
6930
8004150
(1180 1230]
1205
1452025
3615
4356075
32650
35675750
30=n
29= n-1
Total
Datos Agrupados
Varianza
k
s2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
f M
i 1
1
(32650)

35675750
29
30
i 1
1
35675750 35534083.3 4885.057
29
Desviacin estndar
k
f (M
i 1
x)
n 1
1
n 1
fM
i 1
4885.057 69.89
2
i
f M
i 1
Este ltimo clculo significa que existe una

dispersin de $ 69.89 con respecto a la
media
Esta unidad de medida es congruente con

la obtenida al calcular la media aritmtica,
por lo tanto, se pueden hacer inferencias
con respecto a la poblacin objeto de
estudio a travs de los
intervalos de
confianza
Es la dispersin relativa existente entre la

desviacin estndar y la media aritmtica
de los datos
Este coeficiente est dado como el
cociente
resultante
de
dividir
la
desviacin estndar entre la media:
S
C.V .
X
El coeficiente de variacin se puede

expresar como porcentaje
Esta medida de variabilidad expresa la

desviacin
estndar
por
unidad
experimental como una medida general
del experimento.
De esta forma se puede comparar entre

dos o ms coeficientes de variacin, y
observar cul muestra tiene mayor
variabilidad.
Se puede obtener la estimacin de la

desviacin estndar conociendo nicamente
el rango (amplitud) de los datos, ya que
Rango = 4 S aprox
Donde
Rango = Xmax Xmin
S aprox es la desviacin estndar
Por tanto
Saprox = Rango/4.
Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados

del ingreso de familias, aproximando la desviacin estndar:
Saprox = Rango/4 = (1230-935)/4 = 295/4 = 73.75
% DE DATOS
INTERVALOS
68
1088.3373.75
(1014.58, 1162.08)
95
1088.332(73.75)
(940.83, 1235.83)
99 o 100
1088.333(73.75)
(867.08, 1309.58)
Existen dos mtodos generales para el ajuste de

curvas, se distinguen entre si al considerar la
cantidad de error asociado con los datos :
Regresin por mnimos cuadrados- los datos presentan

un grado de error significativo
Interpolacin los datos son precisos
Introduccin
En la investigacin las variables que estn

asociadas entre si pueden ser relacionadas
matemticamente una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin

existente o lgica entre variables
Objetivo: proporcionar los procedimientos y

las tcnicas para expresar y medir la relacin
entre variables
NUBES DE PUNTOS
Sea un conjunto de pares de valores de las variables X e Y. Si
los
representamos
en
un
diagrama
de
dispersin
obtendremos una nube de puntos que nos dar una idea
grfica de la posible correlacin entre ambas variables.
No hay relacin
Relacin positiva
Relacin negativa
ALGUNOS TIPOS DE RELACIONES
Modelo Lineal
relacin lineal positiva
relacin lineal negativa

Potencial
Logartmica
Otros tipos
Potencial
Potencial
inversa
Exponencial
positiva
Exponencial
negativa
Otros tipos
Otros tipos
El trmino regresin fue introducido por Galton en

su libro Natural inheritance (1889) refirindose a
la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por

sus descendientes, pero en media, en un grado
menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los
rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms
de 1000 registros de grupos familiares observando
una relacin del tipo:
Altura del hijo = 85cm + 0,5 altura del padre

(aprox.)
Conclusin: los padres muy altos tienen

tendencia a tener hijos que heredan parte de
esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse
de los padres muy bajos.
Hoy en da el sentido de regresin es el de

prediccin de una medida basndonos en el
conocimiento de otra.
Francis Galton
A la derecha tenemos una posible manera de

recoger los datos obtenido observando dos
variables aleatorias en varios individuos de
una muestra.
En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma
una variable aleatoria sobre los mismos.
Las individuos no se muestran en ningn
orden particular.
Dichas
observaciones
pueden
ser
representadas
en
un
diagrama
de
dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas
son los valores de las variables.
Nuestro objetivo ser intentar reconocer a
partir del mismo si hay relacin entre las
variables, de qu tipo, y si es posible
predecir el valor de una de ellas en funcin
de la otra.
Altura
en cm.
Peso en
Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Tenemos las alturas y los pesos de 30 individuos representados en un

diagrama de dispersin. Cada punto es un valor particular de la variable
aleatoria bidimensional (X, Y).
Pesa 50 kg.
Mide 161 cm.
Mide 187 cm.
Pesa 76 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un

diagrama de dispersin.
ue
q
ce
e
r
Pa ra
altu
s
e
p
el
nta
e
um
a
o
la
n
co
Aparentemente el peso aumenta 10 Kg por cada 10 cm de altura... O sea,

el peso aumenta en una unidad por cada unidad de altura.
10 kg.
10 cm.
330
280
Incorrelacin
230
180
130
80
30
140
150
160
170
180
190
200
Para valores de X por encima de la media

tenemos valores de Y por encima y por
debajo en proporciones similares.
Incorrelacin.
Para los valores de X mayores

que la media le corresponden
valores de Y mayores tambin.
Para los valores de X menores
que la media le corresponden
valores de Y menores tambin.
Esto se llama relacin directa o
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Dado un valor de X no podemos decir

gran cosa sobre Y. Mala relacin.
Independencia.
Conocido X sabemos que Y se mueve

por una horquilla estrecha. Buena
relacin.
Lo de horquilla estrecha hay que
entenderlo con respecto a la dispersin
que tiene la variable Y por si sola, cuando
no se considera X.
Definicin
Mtodo estadstico que investiga y define la relacin

funcional entre las variables.
Funcin o lnea de regresin

Y= f(X)
Tipos de regresin
Regresin simple
Regresin lineal
Regresin no lineal
Regresin mltiple
Regresin lineal
Regresin no lineal
Ajuste de una lnea de regresin
El problema del ajuste comprende tres

etapas:
Diagrama de nubes
Elegir el tipo de lnea
Determinar el valor numrico de los coeficientes
Mtodo de los cuadrados inferiores

Mtodo de los medios
Definicin
Anlisis del grado de asociacin o afinidad entre las

variables expresada a travs de la funcin o modelo de
regresin
donde
S y2*
S
2
y
- Varianza
explicada (terica )
2
- Varianza total (experimental)
S y*
S y2
El anlisis de regresin sirve para predecir una

medida en funcin de otra medida (o varias:
regresin mltiple).
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado

el error es aleatorio, pequeo, y no depende de X
El ejemplo del estudio de la altura en grupos familiares de

Pearson es del tipo que desarrollaremos en el resto del tema.
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 +

0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Si el padre mide 120cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal

simple.
En el modelo de regresin lineal simple, dado dos

variables
Y (dependiente)
X (independiente, explicativa)
buscamos encontrar una funcin de X muy simple (lineal)

que nos permita aproximar Y mediante
= b 0 + b 1X
b0 (ordenada en el origen, constante)

b1 (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el

modelo de regresin. A la cantidad
e = Y- se le denomina residuo o error residual.
En el ejemplo de Pearson y las alturas, l encontr:

= b 0 + b 1X
b0 = 85 cm (No interpretar como altura de un hijo cuyo

padre mide 0 cm Extrapolacin salvaje!)
b1= 0,5 (En media el hijo gana 0,5 cm por cada cm del
padre.)
b1=0,5
b0=85 cm
La relacin entre las variables no es exacta. Es natural

preguntarse entonces:
Cul es la mejor recta que sirve para predecir los

valores de Y en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b1=0,5
b0=85 cm
El modelo lineal de regresin se construye utilizando la tcnica

de
estimacin de mnimos cuadrados:

Buscar b0, b1 de tal manera que se minimice la
cantidad
i ei2 = i (Yi - )2
Se comprueba que para lograr dicho resultado basta con

elegir:
b1 r
Sy
Sx
b0 y b1 x
La recta de regresin estimada ser:
Se obtiene adems unas ventajas de regalo:
SxS y
y y b1 ( x x )
S xy
El error residual medio es nulo.

La varianza del error residual es mnima para dicha
estimacin.
Que el error medio de las

predicciones sea nulo no
quiere decir que las
predicciones sean buenas.
Hay que encontrar un

medio de expresar la
bondad del ajuste (bondad
de la prediccin).
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.
Cometi un
error de - 30 en
su ltima
prediccin
Imaginemos un diagrama de
dispersin, y vamos a tratar de
comprender en primer lugar qu
es el error residual, su relacin
con la varianza de Y, y de ah,
cmo medir la bondad de un
ajuste.
En primer lugar olvidemos que

existe la variable X. Veamos cul
es la variabilidad en el eje Y.
La franja sombreada indica la zona

donde varan los valores de Y.
Proyeccin sobre el
eje Y = olvidar X.
Fijmonos ahora en los errores de

prediccin (lneas verticales). Los
proyectamos sobre el eje Y.
Se observa que los errores de
prediccin, residuos, estn menos
dispersos que la variable Y original.
Cuanto menos dispersos sean los
residuos, mejor ser la bondad del
ajuste.
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
Eso hace que definamos como medida

de bondad de un ajuste de regresin,
o coeficiente de determinacin a:
S e2 SY2
S
R 1
S
2
2
e
2
y
La covarianza entre dos variables, Sxy, nos

indica si la posible relacin entre dos
variables es directa o inversa:
Directa: Sxy > 0
Inversa: Sxy < 0
Incorreladas: Sxy = 0
El signo de la covarianza nos dice si el

aspecto de la nube de puntos es creciente o
no, pero no nos dice nada sobre el grado de
relacin entre las variables.
El coeficiente de correlacin lineal de

Pearson de dos variables, r, nos indica si los
puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas
horizontales y verticales).
Tiene el mismo signo que Sxy . Por tanto de

su signo obtenemos el que la posible relacin
sea directa o inversa.
r es til para determinar si hay relacin

lineal entre dos variables, pero no servir
para otro tipo de relaciones (cuadrtica,
logartmica,...)
S xy
SxS y
GRADO DE CORRELACIN
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente positiva, ser creciente.
Cuando r es cercano a -1, hay una buena correlacin negativa entre las
variables segn un modelo lineal y la recta de regresin que se determine
tendr pendiente negativa: es decreciente.
No hay
correlacin
r 0
Hay correlacin
no lineal
r 0
Correlacin lineal
positiva
r 1
Correlacin lineal
negativa
r 1
Si r = 0 eso quiere decir que

las variables son independientes?
Me ha salido r = 1,2 La relacin es superlineal ?
En la prctica, casi siempre

s, pero no tiene por qu ser
cierto en todos los casos.
Lo contrario si es cierto:
Independencia implica
incorrelacin.
Superqu? Eso es un error de clculo. Siempre debe tomar

un valor entre -1 y +1.
A partir de qu valores se considera que hay buena relacin

lineal?
Es difcil dar un valor concreto (mirad los grficos

anteriores). Para este curso digamos que si |r| > 0,7 hay
buena relacin lineal y que si |r| > 0,4 hay cierta relacin
(por decir algo... la cosa es un poco ms complicada:
observaciones anmalas,...)
EJEMPLOS DE REGRESIN LINEAL

SIMPLE
y
2
3
4
5
8
7
y = x+ 2
6
5
4
3
x
0
1
2
3
2
1
n xi yi xi yi
n xi2 xi
y b x
a
i
0
-4
-3
-2
-1 -1 0
-2
X
Bondad de los ajustes

Teniendo en cuenta el valor de la covarianza y las varianzas, se puede evaluar
mediante cualquiera de las dos expresiones siguientes:
x y
x y
x
2
x
n
2
i
2
i
n x
n xi yi xi yi
2
i
xi n yi2 yi
2
COEFICIENTE DE
DETERMINACIN, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el

Coeficiente de Determinacin, R2, que es el Coeficiente de Correlacin elevado
al cuadrado.
Se determina mediante cualquiera de las dos expresiones siguientes:
R2
x y
i
xi2 x 2
x y
yi2
2
y
n
n x y x y
n x x n y y
2
R2
2
i
2
i
Su valor oscila entre 0 y +1.

Cuando hay una buena correlacin lineal, R 2 es muy cercano a +1.
Normalmente se acepta para valores de R 2 >= 099.
Cuando no hay correlacin o bien sta no es lineal, R 2 es bajo e incluso
cercano a cero
Universidades
Alumnos Profesores
Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.
Trazar la grfica de la distribucin
2.
Calcular parmetros de la distribucin
3.
Cul es la Universidad con mejor proporcin

profesor/alumno?
R2=0.998
b=0.0515
a=-17
36154
34441
9519
11962
15123
74272
17678
214402
26407
2043
1442
385
737
787
4030
865
10971
1248
4.
Qu Universidad tiene la peor ratio y cuntos

profesores necesitara para equilibrarla?
5.
Calcular los valores tericos de profesores de la

Universidad de Granada si sta tena 55123
alumnos en el curso 1994-95.
6.
Calcular los valores de la FBD si sta tena 1100

alumnos
14000
3000
12000
2500
Profesores
Profesores
10000
8000
6000
4000
2000
1500
1000
2000
500
0
0
100000
200000
Alumnos
300000
10000
20000
30000
Alumnos
40000
50000
Antes de proceder a la regresin, hay que transformar la ecuacin no lineal,

y = f(x), en otra del tipo Y = A + BX, donde Y, X, A y B son funciones de y, x,
a y b respectivamente.
Modelo
Potencial
Exponencial
y ax b
Ecuacin
Ecuacin
Linealizada
Logartmico
y aebx
log y log a b log x
ln y ln a bx
Log y
y a b log x
----------
Ln y
Grfica
Log x
Log x
Log y
Ln y
Log x
Log x
Log a
Ln a
a
b
eA
10 A
B
A
B
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)

Capitulo 4

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Capitulo 4

Transféré par

Droits d'auteur :

Formats disponibles

Capitulo IV

Es la medida ms comn de localizacin y

Mi= punto medio de la clase

Ingresos mensuales en dlares

955(1) 1005(7) 1055(5) 1105(8) 1155(6) 1205(3)

La mediana m de un conjunto de datos x1,x2,,xn, es el

Identificar si n es impar o par

Encontrar la mediana del siguiente conjunto de datos que

En el caso de que los datos estn agrupados, se obtiene primero la

Paso 1.- Obtener la Clase de la Mediana, es decir, el primer intervalo

n - es el nmero total de datos del conjunto

Paso 2.- Calcular la mediana con la

Paso 1.- Obtener la Clase de la Mediana

Paso 2.- Calcular la mediana:

Es la observacin que se presenta con mayor

Procedimiento de clculo (datos no agrupados):

En este conjunto hay dos valores que aparecen ms veces :

El clculo de la Moda se obtiene con la siguiente expresin:

LI = Lmite inferior del intervalo de clase, la clase modal.

2 = Exceso de la frecuencia modal sobre la frecuencia de la clase contigua superior. f i

C = Tamao del intervalo de clase.

de las caracterstica ms importante que describe

un conjunto de datos, es la dispersin

diseminacin en los datos. Determina si los valores estn

como propsito ofrecer informacin adicional que

Es la medida de dispersin ms fcil de

No estn usada ya que slo considera los

Indica qu tan dispersos se encuentran

La frmula para calcular la varianza de una

Para calcular la varianza muestral para datos

Para calcular la varianza muestral para

En la varianza, los resultados se expresan en

- donde sigma es la letra griega que

La frmula para calcular la desviacin estndar de

Para Desviacin estndar muestral de datos

Para datos agrupados se utiliza la frmula:

Ingresos mensuales en dlares

36013050 35861333.3 5231.6092

Este ltimo clculo significa que existe una

Esta unidad de medida es congruente con la

Consideremos los valores expuestos en el

Este ltimo clculo significa que existe una

Esta unidad de medida es congruente con

Es la dispersin relativa existente entre la

El coeficiente de variacin se puede

Esta medida de variabilidad expresa la

De esta forma se puede comparar entre

Se puede obtener la estimacin de la

Ejemplo: Encontrar los intervalos para el conjunto de datos agrupados

Existen dos mtodos generales para el ajuste de

Regresin por mnimos cuadrados- los datos presentan

En la investigacin las variables que estn

Nota: estadsticamente interesa analizar una relacin

Objetivo: proporcionar los procedimientos y

ALGUNOS TIPOS DE RELACIONES

relacin lineal positiva

relacin lineal negativa

El trmino regresin fue introducido por Galton en

Cada peculiaridad en un hombre es compartida por

Altura del hijo = 85cm + 0,5 altura del padre

Conclusin: los padres muy altos tienen

Hoy en da el sentido de regresin es el de

A la derecha tenemos una posible manera de