Académique Documents
Professionnel Documents
Culture Documents
Z
Ejemplo de correlación espúrea: Cierto biólogo inglés publicó un estudio en el
que se comprueba que en los pueblos y ciudades con más cigüeñas en los
campanarios, X, nacen más niños, Y. Llegó a la conclusión de que “los niños los
trae la cigüeña”.
Lo cierto es que tanto el número de cigüeñas, X, como el de niños, Y, dependen
de la causa común, Z, que es el tamaño del pueblo o ciudad. En las poblaciones
grandes hay siempre más cigüeñas y más niños. Tanto cigüeñas como niños
están correlacionados con el tamaño de la población, pero no entre ellos
mismos. (c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersión obtendremos una “nube de
puntos” que nos dará una idea gráfica de la posible correlación entre ambas
variables.
Y Y Y
X X X
Modelo Lineal
• Potencial
• Potencial inversa
• Exponencial • Exponencial
positiva negativa
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación. • Otros tipos • Otros tipos
Universidad de Granada (España)
Modelos Lineales
Ecuación Explícita de la Recta
y y = a + bx
Los valores de “y” se
Y calculan multiplicando
“x” por la pendiente, b, y
X Y
b sumándole la ordenada
X en el origen, a
a
x
a .- Ordenada en el orígen. Punto de corte con el eje de ordenadas o “eje y”.
En este punto x está en el “origen” es decir x=0
b .- Pendiente. Grado de inclinación de la recta. Si es
positiva, la recta es creciente. Si es negativa es decreciente.
Es el cociente entre el incremento que se produce en la
variable dependiente, Y, cuando se incrementa la variable
independiente, X. (c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Ejemplos de Rectas
10 9
9 8
8
7 7
6 6
5 5
4 4
y 3 y 3
2
1 2
0 1
-1 0
-3 -2 -1-2 0 1 2 3 4 5
-5 -4 -3 -2 -1
-1 0 1 2 3 4 5 6 7
-3 -2
-4 -3
x x
y 1 2 x y 4 x
• Recta decreciente, ya que la
• Recta creciente, ya que la
pendiente es negativa
pendiente es positiva
• La recta decrece una unidad de y
• La recta crece dos unidades de y
por cada unidad de x, es decir b=-1
por cada unidad de x, es decir b=2
• Cuando x=0, y=4. La ordenada en
• Cuando x=0, y=1. La ordenada en
el origen, a, vale 4
el origen, a, vale 1
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Recta de Regresión Mínimo-
Cuadrática
• La recta de regresión es la que se obtiene a partir de la nube de puntos y
es la que representa mejor la distribución de esos puntos como modelo
lineal.
• Se suele emplear el método de los Mínimos Cuadrados, que consiste en
encontrar aquella recta tal que la suma de los cuadrados de las distancias,
di, de los puntos a la recta sea la mínima posible.
y d10 d i
2
d12 d 22 ... d i2 ... d n2 Mínimo
• Bajo esta condición se puede
d8 d9 demostrar que la pendiente, b, y la
ordenada en el origen, a, se determinan
d5
mediante:
d6
d4 x
n xi yi xi yi
b
d3
n xi2 xi
d2 2
d1
a
y i b xi
(c) Rosario Ruiz Baños. Departamento n
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Ejemplo 1. Regresión Lineal
x y 8
0 2 7 y =x+2
6
1 3
5
2 4
4
3 5
Y
3
2
1
0
n xi yi xi yi -4 -3 -2 -1 -1 0 1 2 3 4 5 6
b
n xi2 xi
2 -2
X
a
y b x
i i
Media aritmética: Suma de los valores que toma una variable dividida entre el
número total, n, de valores sumados.
x
x i
n
Varianza: Es una medida de lo que se dispersan los valores de una muestra
respecto de su media. Se determina con cualquiera de las formulas equivalentes
siguientes:
x x x
2 2
2
Vx S 2
x i
o bien mediante Vx S 2
x i
x
n n
La varianza, V, es también el cuadrado de la desviación típica, S.
Vxy S xy
x x y
i i y o bien mediante Vxy S xy
x y i i
xy (c) Rosario Ruiz Baños. Departamento
n n de Biblioteconomía y Documentación.
Universidad de Granada (España)
Coeficiente de Correlación de Pearson, r
Bondad de los ajustes
Vxy S xy S xy
r
VxV y 2
S S
x
2
y
SxS y
x y i i
x y
n n xi yi xi yi
r r
xi2
n x
2 yi
n
2
y
2
n x
2
i
2
xi n yi2 yi
2
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Grado de Correlación
• El coeficiente de correlación, r, presenta valores entre –1 y +1.
• Cuando r es próximo a 0, no hay correlación lineal entre las variables. La
nube de puntos está muy dispersa o bien no forma una línea recta. No se
puede trazar una recta de regresión.
• Cuando r es cercano a +1, hay una buena correlación positiva entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente positiva, será creciente.
• Cuando r es cercano a -1, hay una buena correlación negativa entre las
variables según un modelo lineal y la recta de regresión que se determine
tendrá pendiente negativa: es decreciente.
xi yi
2
n x y n x y x y 2
R2
n x x n y y
i i i i
R2
xi2 2 yi 2
2 2 2 2 2
x y i i i i
n n
Y
0
n xi yi xi yi -2 -1 0 1 2 3 4 5 6 7
b -1
n xi2 xi
2
-2
a
y b x
i i
-3
n -4
X
n x y x y
2
n x x n y y
i i i i
R2 2 2 2 2
i i i i
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
Universidad de Granada (España)
Ejemplo 3: Citroën Saxo
Correlación Potencia - Velocidad
Conclusiones:
250 • Potencia y velocidad son dos variables
Velocidad máxima, V (Km/h)
14000 3000
12000
2500
10000
2000
Profesores
Profesores
8000
1500
6000
1000
4000
2000 500
0 0
0 100000 200000 300000 0 10000 20000 30000 40000 50000
Alumnos Alumnos
Gráfica
Log x x Log x
Y Log y Ln y y
X Log x x Log x
A Log a Ln a a
B b b b
a 10 A eA A
b B B B
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
Ejemplo 5: El Péndulo de
Galileo
Una de las principales aportaciones de Galileo Galilei (1564-
1642), fue encontrar la relación entre el tiempo o periodo de
oscilación de un péndulo y su longitud. Esto permitió construir
por primera vez en la historia relojes de gran precisión basados
en péndulos. Dicen que la idea de correlacionar estas variables
se le ocurrió en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cómo oscilaban las lámparas del techo...
3,0
1,0 2,1 2,0
0,0
6,0 5,0 0,0 2,0 4,0 6,0 8,0 10,0
Longitud del péndulo, L(m)
9,0 6,0
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y
Documentación. Universidad de Granada (España)
Las deducciones de Galileo
Para encontrar el modelo que relaciona periodo de oscilación, T, con la longitud del
péndulo, L, Galileo bien pudo hacer las siguientes deducciones...
7,0
10,0
6,0
5,0
4,0
log T
T
3,0 1,0
2,0
1,0
No es lineal No es exponencial
0,0
0,1
0,0 2,0 4,0 6,0 8,0 10,0
0,0 2,0 4,0 6,0 8,0 10,0
L L
7,0 10,0
Tampoco es logarítmica
6,0
5,0
log T
4,0
T
1,0
3,0
2,0
Es potencial
1,0
0,0 0,1
0,1 1,0 10,0 0,1 1,0 10,0
log L log L
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)
Cálculos de la Regresión Potencial T aL b
para el Péndulo de Galileo
y ax b
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo demás se procede exactamente igual a una regresión lineal, ajustando a una expresión del tipo
Y = A + BX. Por último, de B y A calculados se despejan b y a respectivamente.
A
y i b xi
2,150363 0,5085 0,686636
0,3002 a 10 A 100,3002 1,9962
n 6
n x y x y 2
n x x n y y 0.9988
i i i i
R2 2 2 2 2
(c) Rosario Ruiz Baños. Departamento
i i i i de Biblioteconomía y Documentación.
Universidad de Granada (España)
(c) Rosario Ruiz Baños. Departamento
de Biblioteconomía y Documentación.
10,0 7,0
6,0
5,0
log T
4,0
T
1,0
3,0
0,5085
y = 1,9962x y = 1,9962x 0,5085
2,0
R2 = 0,9988 R2 = 0,9988
1,0
0,1 0,0
0,1 1,0 10,0 0,0 2,0 4,0 6,0 8,0 10,0
log L L
1
T k L
T 2L 2L 2 L0 '5 2
El periodo de oscilación de un péndulo es
proporcional a la raíz cuadrada de su longitud
Ejemplo 6: Regresión Exponencial.
Método del C14 para datación
arqueológica
A partir de los datos adjuntos en los que se Edad, t (años) %C14 residual
dan valores de carbono 14 residual
respecto del tiempo transcurrido, 0 100
determina:
1000 92
a) Parámetros de la distribución de
%C14-Tiempo, sabiendo que es 5000 53
exponencial negativa 10000 30
b) Cuánto C14 quedará en el hueso que 20000 120 9,3
llevo en la mano si ambos tenemos
100
12.000 años.
%C14 residual
80
60
1000
40
Escala logarítmica
20
%C14 residual
100
0
0 5000 10000 15000 20000 25000
10 Edad, t (años)
1
0 5000 10000 15000 20000 25000
Edad, t (años)
y ae bx
%C14 ae bt
Se observa que la nube de
puntos se alinea cuando se a 100
toman logaritmos en la “y”. Por Solución:
tanto, el modelo es exponencial, b 1,194 10 4
y como decrece, es exponencial R 2 0,9992
negativo.
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía %C 14 24% de C14 residual
y Documentación. Universidad de Granada (España)
Cálculo de la Regresión Exponencial
para el C14
Como se está ajustando un MODELO EXPONENCIAL hacemos el cambio de variable Y =LN(y),
quedando x igual (X = x). En este caso A = Ln(a) y B = b.
A
y i b xi
18,72846 (1,194 10 4 3,6 10 4 )
4,58933 a e A e 4,58933 98,4 100
n 5
Ley
Ecuación Modelo Gráfico
Bibliométrica
Ley de Price del
crecimiento
Exponencial positivo
exponencial de la T ae bt
Ciencia
Ley de Lotka de la k
productividad de los A Potencial inverso
autores T
Ley de Bradford de Logarítmico (En la
las revistas y su R a b log r zona periférica al
dispersión núcleo)
Ley de Zipf de la
distribución de k
F Potencial inverso
palabras en los R
textos
Ley de Brookes del
envejecimiento de la U U 0at Exponencial negativo
información
(c) Rosario Ruiz Baños. Departamento de Biblioteconomía y Documentación. Universidad de Granada (España)