Vous êtes sur la page 1sur 56

Tema 1- Regresin lineal simple.

1.1. Introduccin
1.2. Especificacin del modelo de regresin lineal simple en la poblacin.
1.2.1. Estructura de los modelos de regresin
1.2.2. Hiptesis bsicas
1.3. Estimacin de los parmetros del modelo de regresin lineal simple
1.3.1. La recta de regresin de mnimos cuadrados en
puntuaciones directas y principales propiedades
1.3.2. La recta de regresin en puntuaciones diferenciales
1.3.3. La recta de regresin en puntuaciones tpicas
1.3.4. Relacin entre la pendiente de la recta y el coeficiente de
correlacin
1.3.5. Interpretacin de los coeficientes de la recta de regresin
1.4. El contraste de la regresin
1.4.1.Componentes de variabilidad y bondad de ajuste
1.4.2. Validacin del modelo
1.4.3. Significacin de parmetros
1.5. Diagnosis del modelo: Anlisis de residuos
1.6. Prediccin

Tema 1- Regresin lineal simple.


1.1. Introduccin
1.1.1. Ejemplos de investigaciones en las que puede
ser adecuado utilizar el modelo de regresin simple.
1.1.2. El concepto de relacin entre variables:
naturaleza y tipos de relacin.
1.1.3. Herramientas para evaluar la relacin entre dos
variables
1.1.3.1. El diagrama de dispersin
1.1.3.2. La covarianza
1.1.3.3. El coeficiente de correlacin de Pearson

1.1. Introduccin
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresin simple.
Se pretende estudiar si la competencia escolar de nios,
medida en una escala entre 1 y 4, depende del tiempo en
meses que llevan viviendo con un progenitor
Variable dependiente o criterio (endgena): competencia escolar
Variable independiente o predictora (exgena): meses de
monoparentalidad
Se pretende estudiar si el ajuste emocional de nios, medido
por un test de ajuste que proporciona puntuaciones en una
escala entre 0 y 10, depende del mbito rural o urbano en el
que vive la familia
Variable dependiente o criterio: ajuste emocional
Variable independiente o predictora: mbito geogrfico

1.1. Introduccin
1.1.Ejemplos de investigaciones en las que puede ser adecuado utilizar el
modelo de regresin simple.
Se pretende estudiar la relacin entre estrs laboral y la
variable trabajo a turno
Variable dependiente o criterio: estrs laboral
Variable independiente o predictora: tipo de turno: fijo o variable
Se pretende estudiar si las notas en Anlisis de Datos II
dependen de Anlisis de Datos I
Variable dependiente o criterio: Anlisis de Datos II
Variable independiente o predictora: Anlisis de datos I
Para estudiar empricamente estas relaciones medimos, en una muestra de sujetos, los valores
de las variables incluidas en la relacin. Genricamente, la informacin de un sujeto cualquiera de
la muestra Si, vendr dada por el par (Xi, Yi). El conjunto de pares constituye la matriz de datos
de la investigacin y para los ejemplos propuestos tendr el siguiente formato.

Tabla o matriz de datos


Anlisis de datos I

N=9

Anlisis de datos II
1
2
3
4
5
0
7
8
9
10

Meses

2
1
3
4
2
3
5
6
8
9

2
18
108
24
132
60
16
9
84

N=10
comp escolar

mbito

4
4
3.66
2.83
2
3.5
2.16
2.66
2.5
1.83

N=10

1
1
1
1
1
0
0
0
0
0

comp escolar

Observar que las variable


mbito y turno aunque
no son mtricas las hemos
codificado como numricas.
Hemos elegido el 0 y el 1
para diferenciar entre
las categoras de las variables.
Este tipo de codificacin,
muy frecuente en estadstica,
se conoce como codificacin
dummy o ficticia

N=10

4
4
3.66
2.83
2
3.5
2.16
2.66
2.5

Turno

estrs
0
0
0
0
0
1
1
1
1
1

65
76
50
89
57
45
34
56
55
61

1.1.2. El concepto de relacin entre variables.


Naturaleza y tipos de relacin: el grfico de dispersin

25

20

15

-5

10

4
0

10

3
12
2

-10

1
-15

0
0

10

12 -20

0
0

10

12

1.1.2. El concepto de relacin entre variables: naturaleza y


tipos de relacin.
100
10

80
5

60
0

40

-5

20
-10

0
0
30
25
20
15
10
5
0

-15

40
35
30
25
20
15
10
5
0
0

10

15

20

300
250
200
150
100
50
0
0

10

15

20

1.1.2. El concepto de relacin entre variables: naturaleza y


tipos de relacin.

1.1.3.2. La covarianza
N

x y


i 1

S P C
N 1

La covarianza puede tomar valores entre (-,+) de manera que si:


Sxy= 0 independencia lineal
Sxy> 0 relacin lineal directa o positiva
Sxy< 0 relacin lineal inversa o negativa
Vamos a ver, utilizando el grfico de dispersin, porque las relaciones
De orden anteriores estn relacionadas con el tipo de relacin lineal.

Sxy> 0 relacin lineal directa o


positiva

Sxy< 0 relacin lineal inversa o negativa


Y -Y

Y -Y

X - X

X - X

Sxy= 0 independencia lineal

Y -Y

X - X

X - X

(X

Y -Y

S xy

)(

- X Y -Y

1.1.3.2. La covarianza: dependencia de escalas

1.1.3.3. El coeficiente de correlacin de Pearson


N

x y

S
S

x y
x

i 1

i 1

Y
i 1

1 r xy 1
rxy = 0.88

25
20

rxy = 0

15
10

rxy = 1

5
0
0

10

12

10

12

5
0
-5
-10
-15
-20

rxy = -1

rxy = -0.88

rxy = 0

1.2. Especificacin del modelo de regresin lineal simple en la


poblacin.
1.2.1. Estructura de los modelos de regresin

Xi

Yi

predictora
independiente
exgena
explicativa

criterio
dependiente
endgena
explicada

Expresin matemtica del modelo en la poblacin

Y i f X i i 0 1 X i i Y i i
Y i 0 1 X i Puntuacin predicha por la recta de regresin verdadera
Y Y
Residuo o error de prediccin
i

En el modelo hay dos variables observadas: X e Y y dos parmetros


la ordenada en el origen de la recta de regresin 0 y la pendiente 1
Interpretacin de los parmetros:

Interpretacin de los parmetros:

Ejercicio
fsico

Esperanza
de vida

Y 0 1 X 70 0,3 X

Consumo
de tabaco

Esperanza
de vida

Y 0 1 X 70 0,04 X

1.2.2. Hiptesis bsicas


1. El trmino de Error es una variable aleatoria con media cero: E ( i ) 0
2
Var
(

i
2. Homocedasticidad: la varianza del trmino de error es constante:

3. Los errores se distribuyen normalmente: i N (0, 2 )


4. Los errores son independientes entre s.
Las hiptesis anteriores pueden formularse de manera equivalente
en trminos de la variable criterio. As,
E )/(XYi Xi

E( Y / Xi ) X i

ar
V
Y
X

)/(

E (Y / X i ) X i
1. La media de Y depende linealmente de
X:
2
Var
(
Y
/
X
)

2. La varianza de Y es constante:
i

3. La distribucin de Y es normal para cada X:

Y / X i N ( X i , 2 )

4. Las observaciones Yi son independientes entre s.

Resumen grfico de las hiptesis bsicas


formuladas en trminos de la variable criterio

y2 / x y2 / x y2 / x y2 / x
1

Distribucin Normal

X1,

X2,

X3,

X4

Resumen grfico de las hiptesis bsicas


formuladas en trminos de los residuos

X1,

X2,

X3,

X4

El objetivo del anlisis de regresin ser estimar los


parmetros del modelo presentado y contrastar las
hiptesis de partida todo ello a partir de una muestra.

1.3. Estimacin de los parmetros del modelo de regresin


lineal simple

1.3.1. La recta de regresin de mnimos cuadrados en


puntuaciones directas y principales propiedades
1.3.2. La recta de regresin en puntuaciones diferenciales
1.3.3. La recta de regresin en puntuaciones tpicas
1.3.4. Relacin entre la pendiente de la recta y el coeficiente de
correlacin
1.3.5. Interpretacin de los coeficientes de la recta de regresin

1.3.1. La recta de regresin de mnimos cuadrados en


puntuaciones directas y principales propiedades
Partimos de una muestra de sujetos extrados de una poblacin
en la que se han tomado valores de las variables X e Y. La situacin
ms frecuente es que los puntos estn dispersos en el plano definido
por X e Y. La primera pregunta a plantearnos es de las infinitas rectas
que podemos ajustar a la nube de puntos Cul estimar mejor los
parmetros?. Existen diferentes criterios.

1.3.1. La recta de regresin de mnimos cuadrados en puntuaciones


directas y principales propiedades

8,00

Y: Anlisis de Datos II

7,00

6,00

5,00

4,00

3,00

2,00

1,00

1,00

2,00

3,00

4,00

5,00

6,00

7,00

8,00

X: Anlisis de datos I

b X

Y i

Y i

Y i e

9,00 10,00

Y i e

1.3.1. La recta de regresin de mnimos cuadrados en


puntuaciones directas y principales propiedades

Criterio de mnimos cuadrados:


N

i1

2
i

i1

i1

b X

b X

i1

Y i Y i

i1

Yi

a b X

m in

1.4.1. La recta de regresin de mnimos cuadrados en puntuaciones


directas y principales propiedades

Recta de regresin mnimo cuadrtica (puntuaciones directas):


a Y bX
N

X
i1

X
i1

Yi a b X

Y
X

Y bX i X

S
S

xy
2
x

rxy

Ejemplo de clculo de la recta de regresin de


mnimos cuadrados
x

-4,5

-2,1

20,25

9,45

-3,5

-3,1

12,25

10,85

-2,5

-1,1

6,25

2,75

-1,5

-0,1

2,25

0,15

-0,5

-2,1

0,25

1,05

0,5

-1,1

0,25

-0,55

1,5

0,9

2,25

1,35

2,5

2,9

6,25

7,25

3,5

1,9

12,25

6,65

10

4,5

3,9

20,25

17,55

55

41

82,5

56,5

Y Y

X X

( X X )2

X X Y Y

1.4.1. La recta de regresin de mnimos cuadrados en


puntuaciones directas y principales propiedades

Recta de regresin mnimo cuadrtica:


a Y bX 4,1 0,743 5,5 0,021
N

X
i 1

X Yi Y
2

56,50

0,743
82,50

i 1

Yi 0,021 0,743 X i

Y 0,021 0,742 X i
dependencia de escalas.xls

1.4.1. La recta de regresin de mnimos cuadrados en


puntuaciones directas y principales propiedades

Propiedades de la Recta de regresin mnimo cuadrtica:


1) La media de las puntuaciones predichas es igual
a la media de Y
2) Los errores tienen media cero
3) La recta de mnimos cuadrados pasa por el
punto: X , Y
4) Los errores no correlacionan ni con la variable predictora
ni con las puntuaciones predichas

1.4.2. La recta de regresin de mnimos cuadrados en


puntuaciones diferenciales

a) Modelo y recta en puntuaciones diferenciales

Y a bX e Y bX bX e
Y Y b X X e
y bx e
y bx

1.4.2. La recta de regresin de mnimos cuadrados en


puntuaciones estandarizadas

a) Modelo y recta en puntuaciones estandarizadas


y bx e

Sy

yi rxy
Sx

yi
xi
rxy
Sy
Sx

xi ei

ei
Sy

Z yi rxy Z xi Z ei
r Z
Z
i
xy
xi

Recta de regresin en diferenciales y en tipificadas.


Relacin entre b y r. Interpretacin de los coeficientes de la
regresin

a) En puntuaciones directas
Y 0,021 0,742 X i

b) En puntuaciones diferenciales
y 0,742 x

c) En puntuaciones estandarizadas
Z 0,86Z x

Sx
rxy b
Sy

1.4. El contraste de la regresin: introduccin


1,5

1,0

,5

0,0

-,5

-1,0

-2,0
-1,0

-,5

0,0

,5

1,0

1,5

-1

-1

-2

-2

-1,5

-3
-2

-3
-3

-2

-1

-1

3
1.4. El contraste de la regresin: introduccin

1
1
0
0
-1

-2

-2

-1

-3

-2

-1

-2,0

-1

-2

-3
-3

-3

-2

-1

-1,5

-1,0

-,5

0,0

,5

1,0

1,5

1.4. El contraste de la regresin: introduccin

3
3
2
2
1
1
0
0
-1
-1
-2

-3
-3

-2

-1

-2

-3
-3

-2

-1

1.4. El contraste de la regresin: introduccin


3

-1

-2

-3
-4
-4

-3

-2

-1

1.4. El contraste de la regresin: introduccin

Yi a bX i

Yi

Xi

1.4.1.Componentes de variabilidad y bondad de ajuste

Yi a bX i

Yi

Y Yi Y Yi Yi

Desviacin
Desviacin
Desviacin
total
explicada
residual

Xi

1.4.1. Componentes de variabilidad y bondad de ajuste

Y Y Y Y Y Y
N

i 1

i 1

i 1

SCt SCexp SCres


Variacin
Total

Variacin
Explicada

Variacin
Residual

Xi

1.4.1. Componentes de variabilidad y bondad de ajuste

Frmulas para calcular las sumas de cuadrados en


puntuaciones directas y diferenciales:
2

SCt

i1

2
i

i1

Yi 2

i1

Yi
i1

SCexp Y Y
i 1

b 2 X X b 2 xi2 b 2

i 1

i 1

X i2

i 1

SCres
i 1

Yi Yi

e
2

i 1

2
i

SCt SCexp

i 1

Xi

N 1S y2

2
2
b N 1 S x

1.4.1. Componentes de variabilidad y bondad de ajuste

Frmulas para calcular las sumas de cuadrados en


tipificadas:

SCt SCexp SCres


N

SCt Z y2 N 1
i 1

SCexp Z r
i 1

2
i

2
xy

2
2
Z

r
x xy N 1
i 1

SCres N 1 1 rxy2

1.4.1. Componentes de variabilidad y bondad de


ajuste
SCexp
SCt
SCres

SCt
SCt
SCt
1 R 2 1 R2

Bondad de ajuste o Coeficiente de


determinacin
Y Y
N

R
2

SCexp
SCt

i 1
N

Y
i 1

b2 X X

Y
N

i 1

2
2

b 2 S x2

rxy2
2
Sy

1.4.1. Componentes de variabilidad y bondad de ajuste

Representacin en diagramas de Venn

r2xy= 0
Y

X
r2xy= 1
Y X
r2xy
Y

1.4.2. Validacin del modelo

Esquema del Contraste de Hiptesis


Contrastar una Hiptesis Estadsticamente es juzgar si cierta
propiedad supuesta para una poblacin es compatible con lo
observado en una muestra de ella.

Elementos de una Prueba de Hiptesis

1.- Hiptesis Nula (H0), Hiptesis


Alternativa.
2.- Estadstico de Contraste (Discrepancia).
3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.
4.- Regla de Decisin.

1.4.2. Validacin del modelo


1.- Hiptesis Nula (H0), Hiptesis Alternativa.

H 0 : E Y / X 0 Yi i

H1 : E Y / X 0 1 X i Yi 0 1 X i i
2.- Estadstico de Contraste (Discrepancia).
2
S exp
F
2
Sres

SCexp
rxy2
k
K

SCres
1 rxy2
N K1
N K 1

1.4.2. Validacin del modelo


3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.
Regin de aceptacin de H0
Regin de rechazo de H0

1-
Fc

1.4.2. Validacin del modelo


4.- Regla de Decisin.
Se rechaza la H0 si:
F >Fc
o de manera equivalente si:
p<
Por el contrario, se acepta la H0 si:
F Fc
o de manera equivalente si:
p

Tabla F

Tabla F

1.4.3. Significacin de parmetros


1.- Hiptesis Nula (H0), Hiptesis Alternativa.
H0 : 1 0

H1 : 1 0

H0 : 0

H1: 0

2.- Estadstico de Contraste (Discrepancia).


t

b 1
Sb

2
S res
N

X
i 1

2
S res

i1

Nota: en regresin simple t2 = F

X i2

Xi
i 1

rxy
1 rxy2
N 2

1.4.3. Significacin de parmetros


3.- Regin de Rechazo (Regin Crtica):
nivel de significacin.
Regin de aceptacin de H0

Fc

Regiones de rechazo de H0

1.4.3. Significacin de parmetros


4.- Regla de Decisin.
Se rechaza la H0 si:
t >+tc
o de manera equivalente si:
p<
Por el contrario, se acepta la H0 si:
t +tc
o de manera equivalente si:
p

http://www.stat.ucla.edu/~dinov/courses_students.dir/Applets.dir/T-table.html

Tabla t de Student

Calculadoras estadsticas en internet


http://faculty.vassar.edu/lowry/VassarStats.htm
http://members.aol.com/johnp71/pdfs.html
http://davidmlane.com/hyperstat/F_table.html
http://davidmlane.com/hyperstat/t_table.html
http://www.psychstat.missouristate.edu/introbook/tdist.htm
http://www.psychstat.missouristate.edu/introbook/fdist.htm
http://calculators.stat.ucla.edu/cdf/

1.6. Prediccin

Intervalos de prediccin:

Y o : Y t

,N K 1

S res 1

X X
X X

i1

Vous aimerez peut-être aussi