Vous êtes sur la page 1sur 11

UNIVERSIDAD

ALAS PERUANAS

ESCUELA PROFESIONAL
INGENIERIA CIVIL
SEGUNDO TRABAJO

ASIGNATURA: ESTATICA
DOCENTE: Ing. Ram
on Berrocal Godoy
ESTUDIANTES:
1.
2.
3.
4.
5.

Ayacucho - Per
u
2016

VARIABLES BIDIMENSIONAL (X,Y)


Covarianza (x,y)

DE PEARSON xy
CORRELACION
El coeficiente de correlacion de Pearson, pensado para variables cuantitativas (escala mnima
de intervalo), es un ndice que mide el grado de covariacion entre distintas variables relacionadas linealmente. Adviertase que decimos variables relacionadas linealmente. Esto significa
que puede haber variables fuertemente relacionadas, pero no de forma lineal, en cuyo caso no
proceder a aplicarse la correlacion de Pearson. Por ejemplo, la relacion entre la ansiedad y
el rendimiento tiene forma de U invertida; igualmente, si relacionamos poblacion y tiempo la
relacion sera de forma exponencial.
En estos casos (y en otros muchos) no es conveniente utilizar la correlacion de Pearson. Insistimos en este punto, que parece olvidarse con cierta frecuencia.
El coeficiente de correlacion de Pearson es un ndice de facil ejecucion e, igualmente, de facil
interpretacion. Digamos, en primera instancia, que sus valores absolutos oscilan entre 0 y 1.
Esto es, si tenemos dos variables X e Y, y definimos el coeficiente de correlacion de Pearson
entre estas dos variables como rxy entonces:
0 rxy 1
Hemos especificado los terminos valores absolutos a que en realidad si se contempla el signo
el coeficiente de correlacion de Pearson oscila entre 1 y +1. No obstante ha de indicarse que
la magnitud de la relacion vienen especificada por el valor numerico del coeficiente, reflejando
el signo la direccion de tal valor. En este sentido, tan fuerte es una relacion de +1 como de -1.
En el primer caso la relacion es perfecta positiva y en el segundo perfecta negativa. Pasamos a
continuacion a desarrollar algo mas estos conceptos.
Decimos que la correlacion entre dos variables X e Y es perfecta positiva cuando exactamente
en la medida que aumenta una de ellas aumenta la otra. Esto sucede cuando la relacion entre
ambas variables es funcionalmente exacta. Difcilmente ocurrira en psicologa, pero es frecuente
en los ciencias fsicas donde los fenomenos se ajustan a leyes conocidas, Por ejemplo, la relacion
entre espacio y tiempo para un movil que se desplaza a velocidad constante. Graficamente la
relacion ser del tipo:
2

Se dice que la relacion es perfecta negativa cuando exactamente en la medida que aumenta una
variable disminuye la otra. Igual que en el caso anterior esto sucede para relaciones funcionales

exactas, propio de las ciencias fsicas. Por ejemplo, la relacion entre presion y volumen se ajusta
a este caso. El grafico que muestra la relacion sera del tipo:

En los fenomenos humanos, fuertemente cargados de componentes aleatorios, no suelen ser


posible establecer relaciones funcionales exactas. Dado un cierto valor en la variable X no encontraremos uno y solo un u
nico valor en la variable Y. Por ejemplo, si relacionamos horas de
estudio con el rendimiento academico obtendremos mayor rendimiento a mayor inteligencia,
pero sera practicamente imposible saber con exactitud la puntuacion que obtendra un sujeto
para unas horas determinadas. Dado un cierto n
umero de personas con un mismo n
umero de
horas, por ejemplo 10, no todos obtendran exactamente la misma puntuacion en rendimiento.
Unos obtendran mas o menos en funcion de otras variables, tales como motivacion o personalidad. Si relacionasemos ambas variables dada una muestra de sujetos tendramos un grafico de
las siguientes caractersticas:

Se observa que para un mismo valor en inteligencia existen diferentes posibles valores en rendimiento. Se trata de una correlacion positiva pero no perfecta. Este conjunto de puntos, denominado diagrama de dispersion o nube de puntos tiene interes como primera toma de contacto
para conocer la naturaleza de la relacion entre dos variables. Si tal nube es alargada -apunta a
una recta- y ascendente como es el caso que nos ocupa, es susceptible de aplicarse el coeficiente
lineal de Pearson. El grosor de la nube da una cierta idea de la magnitud de la correlacion;
cuanto mas estrecha menor sera el margen de variacion en Y para los valores de X, y por tanto,
mas acertado los pronosticos, lo que implica una mayor correlacion.
Si la nube de puntos es alargada y descendente nos encontramos con una correlacion negativa.
Supongamos, en este sentido, que relacionasemos la cantidad de alcohol ingerida y el grado de
3

memorizacion ante determinados estmulos. Obtendramos un grafico como el siguiente:

Se observa que las personas con poco peso obtienen en inteligencia tanto puntuaciones bajas
como medias o altas. Lo mismo sucede con personas de peso alto. No puede establecerse, pues,
ning
un tipo de relacion. Ambas variables son independientes entre s; la variacion de una de
ellas no influye para nada en la variacion de la otra.

Formula utilizada
El coeficiente de correlacion de Pearson viene definido por la siguiente expresion:

rxy =

Zx Zy
... ()
N

Esto es, el coeficiente de correlacion de Pearson hace referencia a la media de los productos
cruzados de las puntuaciones estandarizadas de X y de Y. Esta formula re
une algunas propiedades que la hacen preferible a otras. A operar con puntuaciones estandarizadas es un ndice
libre de escala de medida. Por otro lado, su valor oscila, como ya se ha indicado, en terminos
absolutos, entre 0 y 1.
Tengase en cuenta que las puntuaciones estandarizadas muestran, precisamente, la posicion en
desviaciones tipo de un individuo respecto a su media. Reflejan la medida en que dicho individuo se separa de la media. En este sentido, supongamos que para cada individuo tomamos dos
medidas en X e Y. La correlacion entre estas dos variables sera perfecta positiva cuando cada
individuo manifieste la misma superioridad o inferioridad en cada una de ellas. Esto se cumple
cuando su posicion relativa sea la misma, es decir, cuando sus puntuaciones tipo sean iguales
(Zx = Zy ). En este caso la formula de la correlacion se transforma en:

rxy =

Zx Zx
Zx 2
Zx Zy
=
=
=1
N
N
N

ya que tal expresion equivale a la varianza de Zx , que como se sabe vale la unidad.
Cuando la correlacion es perfecta negativa los valores de Zx y Zy son exactamente iguales pero
de signo contrario, resultando los productos cruzados de Zx y Zy negativos. En este caso, el
valor de la correlacion es el mismo que anteriormente pero de signo negativo:

rxy =

Zx Zy
Zx Zx
Zx 2
=
=
=1
N
N
N
4

Cuando la correlacion es nula, para un valor obtenido de X se podra obtener cualquier valor de
Y; es decir, para un valor determinado de Zx la misma cantidad de valores positivos y negativos
de Zy . De todo ello resulta que la suma de productos cruzados valdra cero ya que habra tantos
productos positivos como negativos. As pues:
Zx Zy
=0
N
La formula () puede expresarse de forma mas sencilla de la siguiente manera:
rxy =

rxy

XY

XY
N
=
Sx Sy

Efectivamente:


Y Y
X X

Sx
Sy
N

+ XY
)
(X X)(Y
Y )
(XY X Y XY
=
N Sx Sy
N Sx Sy
XY




XY


XY
Y X
XY
N XY
XY
1
1
XY
+ XY

+
XY
= N
=
=
Sx Sy
N
N
N
N
Sx Sy
N
Sx Sy
rxy

Zx Zy
=
=
N

rxy

XY

XY
N
=
Sx Sy

Esta formula es especialmente u


til cuando se conocen las medias de X e Y as como sus desviaciones tipo, lo cual es relativamente frecuente. Si por cualquier circunstancia no dispusieramos
de la informacion de estos estadsticos podramos calcular rxy recurriendo a la expresion en
puntuaciones directas:

rxy

XY
X Y
XY

XY

N XY XY
N
N N
=v
=r
= N
q
s
u
Sx Sy

2
2
u X 2  X 2
2
2
Y
Y
N X (X)
N Y 2 (y)2
t

N
N
N
N

Podemos expresar, igualmente, el coeficiente de correlacion de Pearson en puntuaciones diferenciales o centradas mediante la siguiente formula:
xy
rxy = q
p
x2 y 2
donde x = X X e y = Y Y .Para su demostracion partamos de ():
Y Y 
X X

Zx Zy
(X X)(Y
Y )
Sx
Sy
rxy =
=
=
=
N
N
N Sx Sy

(X X)(Y
Y )
xy
xy
v
= s
=q
s
r
p
u
2
2
2
2
2
u
x
y 2
x
y

Y Y
t X X
N
N
N
N
N
N


De manera generica y mucho mas simple:


En estadstica, el coeficiente de correlacion de Pearson es una medida de la relacion lineal entre
dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacion de Pearson
es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlacion de Pearson como un
ndice que puede utilizarse para medir el grado de relacion de dos variables siempre y cuando
ambas sean cuantitativas.
En el caso de que se este estudiando dos variables aleatorias X y Y sobre una poblacion; el
coeficiente de correlacion de Pearson se simboliza con la letra X,Y , siendo la expresion que nos
permite calcularlo:

X,Y =

E[(X X ) (Y Y )]
XY
=
X Y
X Y

Donde:
. XY es la covarianza de (X,Y).
. X es la desviacion tipificada de la variable X.
. Y es la desviacion tipificada de la variable Y.
De manera analoga podemos calcular este coeficiente sobre un estadstica muestral, denotado
como rxy a:
xi yi n
xy
(n 1)sx sy
xi yi n
xy
nxi yi xi yi
p
=p
(n 1)sx sy
nxi 2 (xi )2 nyi 2 (yi )2
rxy =

INTERPRETACION:
El valor del ndice de correlacion vara en el intervalo [1, 1] :
. Si r = 1, existe una correlacion positiva perfecta. El ndice indica una dependencia total entre
las dos variables denominada relacion directa: cuando una de ellas aumenta, la otra tambien lo
hace en proporcion constante.
.Si 0 r 1, existe una correlacion positiva.
.Si r = 0, no existe relacion lineal. Pero esto no necesariamente implica que las variables son
independientes: pueden existir todava relaciones no lineales entre las dos variables.
.Si -1 r 0, existe una correlacion negativa.
.Si r = -1, existe una correlacion negativa perfecta. El ndice indica una dependencia total entre
las dos variables llamada relacion inversa: cuando una de ellas aumenta, la otra disminuye en
proporcion constante.
Ejemplos de la aplicaci
on de la correlaci
on de Pearson.
En una tarea de clasificacion de patrones que constaba de 10 laminas se obtuvieron los siguientes
datos de las diferencias de las distancias logartmicas del estmulo a clasificar con respecto a
los prototipos de las dos clases en que poda ser encuadrado y del n
umero de errores cometidos
por los sujetos:

a)Calcule el coeficiente de correlacion de Pearson e interprete el resultado


Solucion:
Comenzamos calculando media, varianza y desviacion tpica de ambas variables
Hallando las variables, sea:
x = Dif erencia y y = N rodeerrores
Hallando x = 1,082
Hallando y = 7
Ahora hallaremos las desviaciones tpicas:
Hallando Sx2 = 0,256 Sx = 0,506
Hallando Sy2 = 18 Sy = 4,243
Finalmente calculamos la covarianza que esta dada por:
SXY =

1 Pn
(xi x)(yi y)
n i=1
SXY = 1,78
XY =

1,78
SXY
=
= 0,829
Sx Sy
(0,506)(4,243)

El signo negativo del coeficiente de correlacion nos indica que la relacion entre ambas variables
es inversa, es decir que al aumentar la distancia disminuye el n
umero de errores. El valor
absoluto nos indica que la relacion lineal entre distancia y n
umero de errores es bastante alta,
por consiguiente las variaciones en el n
umero de errores en esta tarea se pueden explicar y
predecir en gran medida, por la diferencia de las distancias de los estmulos a clasificar.

MULTIPLE

REGRESION
FORMA MATRICIAL
Al ajustar un modelo de regresion lineal m
ultiple en particular cuando el n
umero de variables
pasa de dos, el conocimiento de la teora matricial puede facilitar las manipulaciones matematicas de forma considerable.
Suponga que el experimentado tiene k variables independientes x1 , x2 , ..., xk las cuales tratan
de estimar o predecir la variable dependiente y y ademas lo hacen a traves de una ecuacion de
tipo lineal:
y = 0 + 1 x1 + 2 x2 + ... + k xk
Suponemos esto para un conjunto de n individuos, entonces obtenemos n ecuaciones.
y1 = 0 + 1 x11 + 2 x12 + ... + k x1k
y2 = 0 + 1 x21 + 2 x22 + ... + k x2k
.
7

.
.
yi = 0 + 1 xi1 + 2 xi2 + ... + k xik
.
.
.
yn = 0 + 1 xn1 + 2 xn2 + ... + k xnk
Como podemos observar las variables y1 , y2 , ..., yn son combinaciones lineales de las variables
x1 , x2 , ..., xk y ademas de un termino independiente b0 :
Ademas podemos observar que es un conjunto de n ecuaciones con k + 1 incognitas, como el
numero de ecuaciones es mayor al de incognitas, estamos ante un sistema incompatible.
Solventamos este problema anadiendo a cada una de las ecuaciones un termino de error i :
y1 = 0 + 1 x11 + 2 x12 + ... + k x1k + 1
y2 = 0 + 1 x21 + 2 x22 + ... + k x2k + 2
.
.
.
yi = 0 + 1 xi1 + 2 xi2 + ... + k xik + i
.
.
.
yn = 0 + 1 xn1 + 2 xn2 + ... + k xnk + n
Hemos anadido n incognitas y con esto tenemos ahora n ecuaciones y n + k + 1 incognitas, lo
cual es un sistema compatible indeterminado, es decir con infinitas soluciones.
Ahora trataremos de encontrar una expresion que nos simplifique la expresion de este sistema
de ecuaciones, para esto utilizaremos las matrices.
Lo haremos utilizando 4 matrices para repartir los diversos valores y variables:
y1 = 0 + 1 x11 + 2 x12 + ... + k x1k + 1
y2 = 0 + 1 x21 + 2 x22 + ... + k x2k + 2
.
.
.
yi = 0 + 1 xi1 + 2 xi2 + ... + k xik + i
.
.
.
yn = 0 + 1 xn1 + 2 xn2 + ... + k xnk + n

Ordenando

y1
1
y2 1

. .

. .

. .
=
yi 1

. .

. .

. .
yn
1

y agrupando:

x11 x12 . . . x1k
0
1

x21 x22 . . . x2k 1 2

. .

. .

. .
+

xi1 xi2 . . . xik
i i
. .

. .

. .
xn1 xn2 . . . xnk
k
n

Denotaremos esta ecuacion de la siguiente forma:


Y = X +
Donde X y Y son matrices con valores conocidos, mientras que y son desconocidas.
Necesitamos encontrar valores de las componentes de de tal manera que los valores de los
componentes de sean mnimos, es decir:
1 2 + 2 2 + ... + n 2 sea mnimo
Lo cual seria igual alproducto:

1
2


 .
T

1 2 . . . n
.=

.
n
Lo siguiente que haremos sera expresar T en funcion de :
T = [Y X]T [Y X]
T = [Y T (X)T ][Y X]
T = [Y T X T T ][Y X
T = Y T Y Y T X T X T Y + T X T X
Y si observamos cada uno de estos sumandos son escalares.
Ademas observamos que el segundo y tercer sumando son entre ellos transpuestos uno del otro
y al ser escalares, podemos concluir que son identicos, entonces:
T = Y T Y 2Y T X + T X T X
Hemos conseguido expresar T en funcion de :
Como queremos minimizar derivamos:

Sea f () = Y T Y 2Y T X + T X T X
Derivando:
df
= 2X T Y + 2X T X = 0
d
Despejamos :
(X T X) = X T Y
= (X T X)1 X T Y
Para asegurarnos que este valor de haga que los valores de sean mnimos, derivamos nuevamente f ()
d2 f
= 2XX T si esta definido positivo entonces el valor de es mnimo:
d 2
Para esto solo sera necesario comprobar que para cualquier matriz 6= 0 se debe cumplir que:
T X T X > 0
T X T X = (X)T (X)
(X)T (X) = kXk2 > 0
Se comprueba que con = (X T X)1 X T Y los valores de son mnimos.
= (X T X)1 X T Y
EJEMPLO APLICATIVO:
Los siguientes datos muestrales los proporciona una empresa Constructora sobre los pesos que
llevo un volquete en seis viajes, las distancias que recorrio en cada uno de ellos y el combustible
que consumo de combustible.
P eso(103 libras) Distancia(103 millas) Consumo(soles)
4
1.5
160
3
2.2
112
1.6
1
69
1.2
2
90
3.4
0.8
123
4.8
1.6
186
(a) Suponiendo que la regresion es lineal, estime 0 , 1 , 2 .
(b) Utilice los resultados del inciso (a) para estimar el consumo de combustible cuando el camion
lleva una carga de 2400 libras desplazandose una distancia de 1200 millas.
SOLUCION:
Primeramente reconocemos las variables:
x1 : P eso(103 libras) (variable independiente)
x2 : Distancia(103 millas) (variable independiente)
y: Consumo(soles) (variable dependiente)
Hallamos las matrices:
10


1
1

1
X=
1

1
1

4 1,5
3 2,2

1,6 1

1,2 2

3,4 0,8
4,8 1,6

1
1
1
1
1
1
3 1,6 1,2 3,4 4,8
XT = 4
2 0,8 1,6
1,5
2,2 1
0

= 1

2
160
112

69

Y =
90

123
186
= (X T X)1 X T Y
HallamosX T X y X T Y :
1
6
18
9,1
X T X = 18 63,6 27
9,1 27 15,29

11

Vous aimerez peut-être aussi