Académique Documents
Professionnel Documents
Culture Documents
62 MATEMÁTICAS
Temario 1993
tema 62
matemáticas
1.4. Covarianza
3. Coeficiente de correlación
3.1. Correlación lineal
4. Significado y aplicciones
4.1. Uso y abuso de la regresión
4.2. Predicción
3
tema 62
matemáticas
INTRODUCCIÓN
5
tema 62
matemáticas
Variable X Variable Y
x1 y1
x2 y2
. .
. .
. .
xn yn
Segundo tipo
Se utiliza cuando el número de datos N es grande pero, sin embargo, existe un
número pequeño (k) de parejas de valores distintos. Es decir, cuando entre los
N datos existan k realizaciones (x1, y1), (x2, y2), .... (xk, yk) distintas que se repiten
n1, n2, ... , nk veces, respectivamente, siendo n1 + n2 + ... + nk = N. En este caso la
tabulación se realiza en tres columnas, enfrentando los valores xi, yi y ni en cada
fila, es decir, valores unidimensionales de cada realización con su frecuencia
absoluta correspondiente, según se expresa en la siguiente tabla:
6
tema 62
matemáticas
Hay que hacer notar que las tablas del primer tipo pueden considerarse como de
segundo tipo, en donde las frecuencias valen 1 para la totalidad de los pares de los
valores observados.
Tercer tipo
Se utiliza este tipo de tabulación cuando el número de observaciones es elevado
y el número de distintas parejas de valores observadas también.
En este caso se utiliza una tabla de doble entrada, que recibe el nombre de tabla
de correlación, y que tiene la forma que puede verse:
Intervalos Totales
(a0, a1) (a1, a2) .... (ai–1, ai) .... (ak–1, ak)
de clase X horizontales
Intervalos Marcas de
x1 x2 .... xi .... xk
de clase Y de clase
(b0, b1) y1 n11 n21 .... ni1 .... nk1 n·1
(b1, b2) y2 n12 n22 .... ni2 .... nk2 n·2
.... .... .... .... .... .... .... .... ....
(bj–1, bj) yj n1j n2j .... nij .... nkj n·j
.... .... .... .... .... .... .... .... ....
(bp–1, bp) yp n1p n2p .... nip .... nkp n·p
Totales verticales n1· n2· .... ni· .... nk· n..= N
Como se ve, la tabla es de doble entrada, figurando en las columnas las moda-
lidades o valores de X y en las filas los de Y.
En la intersección de la columna del valor xi y la fila correspondiente al valor yj
se encuentra la frecuencia absoluta del par (xi, yj), que designamos por nij.
En la última fila aparecen los totales de las frecuencias de las columnas; n1.
es la suma de frecuencias de todos los pares cuyo primer elemento es x1. En
general:
p
ni . = ∑n
j =1
ij
7
tema 62
matemáticas
En la última columna aparecen los totales de las frecuencias de las filas; n.1
es la suma de frecuencias de todos los pares cuyo segundo elemento es yi. En
general:
k
n.j = ∑n
i =1
ij
Por último:
k p k p
n.. = ∑ ∑ n =∑ n =∑ n.
i =1 j =1
ij
i =1
i.
j =1
j =N
Frecuencia relativa del par (xi, yj) es el cociente entre su frecuencia absoluta
y el número total de pares. Se designa por fij
nij
f ij =
N
fi. es frecuencia (relativa) de los pares cuyo primer elemento es xi independien-
temente de cual sea el segundo valor, se define por:
p
∑f
n j.
f i. = = ij
N j =1
Del mismo modo f.j es la frecuencia relativa de los pares cuya segunda compo-
nente es yj siendo la primera cualquier valor de X, se define por:
k
∑n
n.j
f .j = = ij
N i =1
Es evidente que:
k p k p
∑ f =∑ f . = ∑ ∑ f
i =1
i.
j =1
j
i =1 j =1
ij =1
8
tema 62
matemáticas
9
tema 62
matemáticas
Edad
esposa 18-26 26-34 34-42
Edad 22 30 38
esposo
20-26 23 2 3 5
26-32 29 3 4 6
32-38 35 5 6 8
Observemos que en este caso todos los rectángulos de cruce tienen la misma
área 6 × 8 = 48, luego bastará tomar como referencia de altura sus frecuencias,
con lo cual el estereograma que obtenemos es el siguiente:
10
tema 62
matemáticas
Sea la variable bidimensional (X, Y). Si consideramos la variable X con sus valo-
res x1, x2, ..., xi, ..., xk y sus frecuencias absolutas, independientes del valor de Y,
n1., n2., ..., ni., ..., nk. obtenemos lo que se llama distribución marginal de la va-
riable X.
n
La frecuencia (relativa) marginal de xi es f i . = i .
N
Del mismo modo, llamaremos distribución marginal de la variable Y, a sus
valores y1, ..., yj, ..., yp con sus frecuencias absolutas n.i, ..., n.j, ..., n.p.
n.j
La frecuencia marginal de yj es f .j = .
N
Es evidente que:
k p
∑ i =1
f i. = 1 y que ∑ f.
j =1
j =1
Consideremos los n.j individuos que presentan el valor yj. De todos éstos, nij toman
el valor xi.
Se define como frecuencia del valor xi condicionado por el valor yj a f ij,
siendo:
nij
f ij =
n.j
Como se ve, en la tercera columna figuran las frecuencias de los distintos valores
de X condicionadas por yj.
Según lo dicho hasta ahora y teniendo en cuenta que hay p valores posibles para
Y, existen p distribuciones condicionadas para la variable X.
11
tema 62
matemáticas
fji representa la proporción de pares (xi,yj) sobre los que tienen como primer ele-
mento xi.
Las tablas de distribuciones condicionadas de yj por xi son:
12
tema 62
matemáticas
X
x1 x2 x3 TOTAL
Y
y1 3 6 12 21
y2 5 10 20 35
y3 2 4 8 14
y4 4 8 16 28
TOTAL 14 28 56 98
Veamos que las frecuencias condicionadas son iguales a las frecuencias margina-
les y las distribuciones condicionadas iguales a la distribución marginal.
Las distribuciones marginales de X e Y son:
14 1 21 3
x1 14 = y1 21 =
98 7 98 14
28 2 5
x2 28 = y2 35
98 7 14
56 4 2
x3 56 = y3 14
98 7 14
4
TOTAL 98 1 y4 28
14
TOTAL 98 1
13
tema 62
matemáticas
14 1 3
x1 14 = y1 21
98 7 14
2 5
x2 28 y2 35
7 14
4 2
x3 56 y3 14
7 14
4
TOTAL 98 1 y4 28
14
TOTAL 98 1
X
x1 x2 x3 TOTAL
Y
y1 4 0 0 4
y2 0 6 0 6
y3 7 0 0 7
y4 0 0 9 9
y5 0 2 0 2
TOTAL 11 8 9 28
14
tema 62
matemáticas
∑ ∑ ∑∑ f
1
x= = ni . xi = f i . xi = ij xi
N i =1 i =1 i =1 j =1
Varianza
k k
V ( X ) = σ 2x = ∑ ni . ( xi − x ) = ∑f ( xi − x ) 2
1 2
i.
N i =1 i =1
Desviación típica: σx
Para la variable marginal Y.
Media
p p k p
∑ n. ∑ f. ∑∑ f
1
y= j yj = j yj = ij yj
N j =1 j =1 i =1 j =1
Varianza
p p
V (Y ) = σ = ∑ n. ( y − y ) = ∑ f . ( y − y )
1 2 2 2
y j i j i
N j =1 j =1
Desviación típica: σ
y
∑ ∑f
1
Media: x j = nij xi = j
i xi
n.j i =1 i =1
k k
Varianza: V j ( X ) = ∑ n ( x − x ) =∑ f ( x − y )
1 2 j 2
ij i j i i j
n.j i =1 i =1
15
tema 62
matemáticas
Media: yi = ∑f
j =1
j
i
yj
p p
Varianza: Vi (Y ) =
∑ n (y ) =∑ f ( y )
1 2 2
ij j − yi j
i
j − yi
ni . j =1 j =1
1.3.6. Momentos
∑∑ f ( xi − c1 )r ( y j − c2 )
s
mrs′ = ij
i =1 j =1
Son importantes los momentos respecto al origen y los momentos centrales. Los mo-
mentos respecto al origen se obtienen haciendo c1 = c2 = 0 y los designaremos por:
k p
mrs = ∑∑ fi =1 j =1
ij xir y sj
m10 = ∑∑
i =1 j =1
f ij xi = ∑f
i =1
i. xi = x
(medias marginales)
k p p
m01 = ∑∑ f
i =1 j =1
ij yj = ∑f
j =1
.j yj = y
∑∑ f ( xi − x ) r ( y j − y )
s
µrs = ij
i =1 j =1
Son importantes:
∑∑ f ( xi − x ) ∑f ( xi − x )2 = σ 2x
2
µ20 = ij = i.
(varianza de la variable
i =1 j =1 i =1
marginal X)
k p p
∑ ∑ f (y ) = ∑ f. ( y )
2 2
µ02 = ij j −y j j − y = σ 2y (varianza de la variable
i =1 j =1 j =1 marginal Y)
k p
µ11 = ∑∑ f
i =1 j =1
ij ( xi − x ) ( yj ) a continuación)
− y (covarianza o momento mixto de la cual nos ocuparemos
16
tema 62
matemáticas
1.4. Covarianza
∑∑n
i =1 j =1
ij ( xi − x ) ( yj − y )
σ xy =
N
donde (xi, yj) una observación conjunta y x e y las medias aritméticas de las dis-
tribuciones marginales de X e Y, respectivamente.
Puede comprobarse, además, sin dificultad, que la covarianza se puede poner en
la forma:
k p
∑∑ni =1 j =1
ij xi y j
σ xy −xy
N
Veamos que en caso de independencia entre las variables la covarianza en nula.
Demostración:
La condición de independencia era:
nij ni . n. j
= ⋅ ∀i, j
N N N
Calculemos, según esta condición, el valor de la covarianza:
k p k p
∑∑x x ∑∑x x
nij ni. n. j
σ xy = i j −x⋅y = i j ⋅ −x⋅y =
i =1 j =1
N i =1 j =1
N N
p p
∑ ∑y
n n. j
= xi i . j −x ⋅ y = x ⋅ y − x ⋅ y = 0
j =1
N j =1
N
Por otro lado si en una distribución bidimensional (X, Y) llevamos a cabo los
siguientes cambios de origen y escala para cada variable unidimensional X e Y,
respectivamente,
xi − x 0 y j − x0′
ui = , vj =
c c′
17
tema 62
matemáticas
18
tema 62
matemáticas
Sean (xi, yi) los pares de valores observados, e y = f(x; λ1, ..., λk) la fórmula con que
representamos la relación que existe entre x e y. Para determinar los parámetros
λ1, ..., λk que aparecen en dicha fórmula disponemos del sistema que resulta al
imponer la condición:
yi = f(xi; λ1, ..., λk) (i = 1, ..., n) (2)
Si n = k, existe el número justo de condiciones que se requieren para fijar los
parámetros. Pero, en general, n > k y el sistema (2) es imposible; el problema
que entonces se plantea es cómo asignar a los parámetros λ1,, ..., λk los valores
adecuados.
19
tema 62
matemáticas
∑e
i =1
2
i
de los cuadrados de las desviaciones sea mínima. Tiene la ventaja de que los
valores que asigna a los parámetros corresponden a la fórmula «más probable»
en el sentido de que los valores de y que se deduzcan de ella son los valores más
probables de las observaciones, supuesto que éstas cumplen la ley de Gauss de
los errores.
El desarrollo del método requiere conocimientos sobre la determinación de míni-
mos de funciones de varias variables.
Se trata, pues, de hacer que la función:
n
E= ∑e i =1
2
i
sea mínima. Como esta suma depende de los k parámetros λ1, ..., λk, las condicio-
nes necesarias para que E sea mínima son:
∂E ∂E ∂E
= 0, = 0, ..., =0
∂λ1 ∂λ 2 ∂λ k (4)
Estas ecuaciones reciben el nombre de ecuaciones normales.
Teniendo en cuenta que:
∂E ∂E ∂ei ∂ei
n n
∂λ r
= ∑ i =1
⋅
∂ei ∂λ r
= ∑ 2e
i =1
i
∂λ r
(r = 1, 2, 3, ..., k )
∑e
i =1
i
∂λ r
=0 (r = 1, 2, ..., k )
(5)
El método de los mínimos cuadrados nos proporciona las condiciones que nos
permiten, eligiendo una familia de funciones, determinar cuál de ellas ajusta me-
jor nuestra nube de puntos.
Dada una nube de puntos y considerando la familia de todas las funciones linea-
les, vamos a aplicar el método de los mínimos cuadrados para determinar cuál de
todas ellas ajusta mejor nuestro diagrama de dispersión. Esta recta se denomina
recta de regresión y su estudio lo desarrollamos en el siguiente apartado.
20
tema 62
matemáticas
Sea una nube de puntos que se condensa alrededor de una recta. Llamaremos recta
de regresión de Y sobre X a la que nos da los valores aproximados de Y conocidos
los de X.
Su ecuación será de la forma y = ax + b, y nuestro problema es calcular los coefi-
cientes a y b.
Para ello utilizaremos el método de los mínimos cuadrados, descrito anteriormen-
te, según el cual la recta que más se ajusta a la nube es aquella para la cual la me-
dia, ponderada por las frecuencias totales fij, de los cuadrados de las desviaciones
paralelas al eje 0Y entre los puntos P y la recta, sea mínima.
∑∑ f ∑ ∑ f (y )
2
D= ij d =2
ij ij j − axi − b
i =1 j =1 i =1 j =1
∂D
k p
∑ ∑ f (y − axi − b ) =
2
= −2
∂b
ij j
i =1 j =1
k p k p k p
∑∑ ∑∑ ∑∑ f ij = −2 ( y − ax − b )
2
= −2 f ij yj − a f ij xj − b
i =1 j =1 i =1 j =1 i =1 j =1
21
tema 62
matemáticas
Como:
−2 ( y − ax − b ) = 0 ⇒ b = y − ax
2
∑ ∑ f (y ∑∑ f [ yi − y − a( xi − x )]
2
D= ij j − axi − y + ax ) = 2
ij
i =1 j =1 i =1 j =1
∂D
k p
∂a
= −2
i =1
∑ ∑ f ( x − x ) y
j =1
ij i j − y − a( xi − x ) = 0 ⇒
k p
⇒ ∑∑ f
i =1 j =1
ij [ yi − y − a ( xi − x )] = 0 ⇒
k p k p
⇒ ∑∑ f
i =1 j =1
ij ( yi − y ) − a ∑ ∑ f (x − x) = 0 ⇒
i =1 j =1
ij i
Despejando:
k p
∑∑ f
i =1 j =1
ij ( yi − y )
⇒a= k p
∑ ∑ f (x − x)
i =1 j =1
ij i
∑ f i . ( xi − x ) = ∑∑ f ( xi − x )
2 2
σ 2x = ij
i =1 i =1 j =1
k p
∑ ∑ f ( x − x )( y
i =1 j =1
ij i j − y)
σxy
a= =
σ 2
x σ 2x
σ
Como la recta y = ax + b tiene por pendiente a = xy2 , y pasa por el punto ( x , y ),
se obtiene: σx
σxy
y − y = 2 (x − x )
σx
22
tema 62
matemáticas
23
tema 62
matemáticas
3 Coeficiente de correlación
Se llama correlación al grado de dependencia que hay entre las variables. Me-
diante la correlación se determina en qué medida una recta o curva de regresión
describe la relación que existe entre las variables.
Cuando todos los valores de las variables satisfacen exactamente una ecuación
se dice que entre ellas hay una correlación perfecta. Todos los puntos de la nube
están, en este caso, sobre la curva de regresión.
En general, la correlación, no será perfecta, como estudiaremos a lo largo del
tema, pudiéndose presentar distintos grados de correlación.
Si se trata de estudiar la correlación entre dos variables, se habla de correlación
simple; si son más de dos, se llama múltiple.
En este tema, nos limitaremos a estudiar la correlación entre dos variables cuando
la línea de regresión es una recta, llamándola correlación lineal.
24
tema 62
matemáticas
Para medir cualitativamente la correlación entre las variables basta con observar
atentamente la distribución de los puntos alrededor de la recta o curva de regre-
sión. Cuanto mayor sea el ajuste a la curva, mayor será la correlación.
La necesidad de medir cuantitativamente el grado de correlación entre las varia-
bles nos lleva a definir el coeficiente de correlación.
∑ ∑ f (x − x ) ( y
i =1 j =1
ij i j − y )
r=
k p k p
∑ ∑ f (x − x ) ∑ ∑ f ( y )
2 2
ij i ij j − y
i =1 j =1 i =1 j =1
µ11 = ∑∑ f
i =1 j =1
ij ( xi − x ) ( yj − y ) = σxy
k p
µ20 = ∑∑ f
i =1 j =1
ij ( xi − x )2 = σ 2x
k p
∑ ∑ f (y )
2
µ02 = ij j −y = σ 2y
i =1 j =1
Sustituyendo en r se obtiene:
σ xy
r=
σx ⋅ σy
25
tema 62
matemáticas
Propiedades
1. El coeficiente de correlación lineal es un número comprendido entre −1 y 1, es
decir, −1 ≤ r ≤ 1.
Demostración:
Determinemos el valor mínimo m de la suma de los cuadrados de las desvia-
ciones respecto a la recta de regresión de Y sobre X.
Sustituyendo en la expresión:
k p k p
∑∑ ∑ ∑ f (y )
2
D= f ij dij2 = ij j − axi − b
i =1 j =1 i =1 j =1
Pero:
k p
∑ ∑ f (y )
2
ij j −y = σ 2y
i =1 j =1
k p
∑ ∑ f (x − x )
2
ij i = σ 2x
i =1 j =1
k p
∑ ∑ f ( x − x )( y )
2
ij i j −y = r σx σy
i =1 j =1
Sustituyendo:
σ 2y σy
m = σ 2y + r 2 σ 2x − 2r r σx σy = σ 2y + r 2 σ 2y − 2r 2 σ 2y = σ 2y − r 2 σ 2y = (1 − r 2 ) σ 2y
σ 2
x σx
26
tema 62
matemáticas
y − y = 0; y = y
x − x = 0; x − x
27
tema 62
matemáticas
4. Si −1 < r < 1, se dice que entre las dos variables existe dependencia aleatoria:
a) Cuando r está próximo a 1 o a −1 la dependencia se aproxima a la funcional.
El ángulo que forman las rectas de regresión se aproxima a cero.
b) Si r se aproxima a 0, la dependencia aleatoria es muy pequeña y el ángulo
que forman las rectas de regresión es próximo a 90o.
5. Si r > 0, se dice que la correlación es directa o positiva. Las pendientes de las
rectas de regresión son:
σy 1 σy
m=r de r1 y m′ = de r2
σx r σx
Ambas son del mismo signo y positivas por ser r > 0. Además m’ > m, pues
|r| < 1.
Las dos rectas se cortan en el centro de gravedad ( x , y ) y la recta de regresión
de X sobre Y se aproxima más a la vertical que la de Y sobre X.
Si 0 < r < 1, las dos variables están tanto más correladas a medida que r se
aproxima a 1. Por tanto, es un caso de dependencia aleatoria.
6. Si r < 0, la correlación se llama inversa o negativa. Las pendientes m y m’ son
negativas por ser r < 0, y m > m’ pues |r| < 1.
Las dos rectas son decrecientes y su posición relativa viene dada por la figura.
28
tema 62
matemáticas
Si −1 < r < 0, las dos variables están tanto más correladas a medida que r se
aproxima a −1. Por tanto, es un caso de dependencia aleatoria.
Tan importante es el valor del coeficiente r como el valor del coeficiente:
σ xy2
r =
2
σ x2σ y2
29
tema 62
matemáticas
4 Significado y aplicciones
4.2. Predicción
30
tema 62
matemáticas
Para acabar, indicar que todos los conceptos tratados a lo largo del tema se aplican
en muchos y diferentes campos.
En Sanidad por ejemplo en la comparación de medidas corporales (peso y talla, ni-
vel de grasa y colesterol…). En Educación buscando la relación, por ejemplo, entre
el nivel socioeconómico del alumnado y su rendimiento escolar. En Psicología ya
que en una investigación psicológica existen, además de los sujetos, otras unidades
de análisis y es importante determinar la influencia de estos en el comportamiento
del individuo. En distintas áreas de Economía como la econometría…
31
tema 62
matemáticas
BIBLIOGRAFÍA
ARNÁIZ, G.: Introducción a la Estadística Teórica. Ed. Lex Nova. Valladolid, 1986.
CALOT, G.: Curso de Estadística Descriptiva. Ed. Paraninfo. Madrid, 1988.
HOEL, P. G.: Introducción a la Estadística Matemática. Ed. Ariel. Barcelona, 1980.
MOLINERO, L.M.: Errores de medida en variables numéricas: Correlación y Concordancia.
QUESADA, V.: Cálculo de Probabilidades. I.C.E. Madrid, 1985.
RÍOS, S.: Métodos Estadísticos. Ed. del Castillo. Madrid, 1985.
32
tema 62
matemáticas
RESUMEN
1.
1 Series estadísticas bidimensionales
1.3.6. Momentos
33
tema 62
matemáticas
1.4. Covarianza
La covarianza es una medida general de la independencia de las variables de una distribu-
ción bidimensional dada por la siguiente fórmula:
k p
∑∑n
i =1 j =1
ij ( xi − x ) ( yj − y )
σ xy =
N
2.
2 Regresión y correlación lineal
3.
3 Coeficiente de correlación
Se llama correlación al grado de dependencia que hay entre las variables.
∑ ∑ f (x − x ) ( y
i =1 j =1
ij i j − y)
r=
k p k p
∑∑ f ij ( xi − x ) ∑ ∑ f (y − y)
2 2
ij j
i =1 j =1 i =1 j =1
34
tema 62
matemáticas
4.
4 Significado y aplicaciones
En este apartado se desarrollan las siguiente aplicaciones.
4.2. Predicción
35