Vous êtes sur la page 1sur 18

INTRODUCCION

VARIABLE DEPENDIENTE
DEFINICION:
Es la variable por predecir (o por modelar y se denota con la letra y)
VARIABLE INDEPENDIENTE
DEFINICION:
Son las variables que se utilizan para predecir y se denota con la letra x)
RELACION ENTRE VARIABLES
DEFINICION:
Se dice que dos variables estn relacionadas si cambios producidos (causa) en la variable
independiente producen un efecto en la variable dependiente
COVARIANZA
DEFINICION:
Nos indica si la posible relacin entre dos variables es directa o inversa
n

COV ( X ,Y )=

( Xi X ) ( YiY )

i=1

n1

Sxy
n1

o Si la covarianza es negativa -> la relacin es inversa


o Si la covarianza es positiva -> la relacin es directa
o Si la covarianza es cero
-> la relacin es nula
El signo de la covarianza nos dice el aspecto de la nube de puntos es creciente o no, pero
no nos dice nada sobre el grado de relacin entre las variables

GRADO DE RELACIN ENTRE LAS VARIABLES


DEFINICION:
(Correlacin) Coeficiente de correlacin de Pearson
Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de
uno de ellos varan sistemticamente con respecto a los valores de la otra.
n

r=

i=1

( Xi X )( YiY )
n1

( Xi X ) ( YiY )
2

Sxy
Sxx Syy

DISTRIBUCIN T DE STUDENT
DEFINICION:

En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en


la que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es
cierta. Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el
tamao muestral es demasiado pequeo como para que el estadstico en el que est
basada la inferencia est normalmente distribuido, utilizndose una estimacin de la
desviacin tpica en lugar del valor real. Es utilizado en anlisis discriminante.

HIPOTESIS NULA
En estadstica, una hiptesis nula es una hiptesis construida para anular o refutar, con el
objetivo de apoyar una hiptesis alternativa. Se denomina hiptesis nula H0, a la
hiptesis que se desea contrastar. El nombre de "nula" significa sin valor, efecto o
consecuencia, lo cual sugiere que H0, debe identificarse con la hiptesis de no cambio
(a partir de la opinin actual); no diferencia, no mejora, etc. H0, representa la hiptesis
que mantendremos a no ser que los datos indiquen su falsedad, y puede entenderse, por
tanto, en el sentido de neutra. La hiptesis H0, nunca se considera probada, aunque
puede ser rechazada por los datos.

ASIMETRIA
Esta medida nos permite identificar si los datos se distribuyen de forma uniforme
alrededor del punto central (Media aritmtica). La asimetra presenta tres estados
diferentes, cada uno de los cuales define de forma concisa como estn distribuidos los
datos respecto al eje de asimetra. Se dice que la asimetra es positiva cuando la mayora
de los datos se encuentran por encima del valor de la media aritmtica, la curva
es Simtrica cuando se distribuyen aproximadamente la misma cantidad de valores en
ambos lados de la media y se conoce como asimetra negativa cuando la mayor cantidad
de datos se aglomeran en los valores menores que la media.

El Coeficiente de asimetra, se representa mediante la ecuacin matemtica,

Donde (g1) representa el coeficiente de asimetra de Fisher, (Xi) cada uno de los valores,
( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta
ecuacin se interpretan:

(g1 = 0): Se acepta que la distribucin es Simtrica, es decir, existe aproximadamente la


misma cantidad de valores a los dos lados de la media. Este valor es difcil de conseguir
por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos
( 0.5).
(g1 > 0): La curva es asimtricamente positiva por lo que los valores se tienden a reunir
ms en la parte izquierda que en la derecha de la media.
(g1 < 0): La curva es asimtricamente negativa por lo que los valores se tienden a reunir
ms en la parte derecha de la media.
Desde luego entre mayor sea el nmero (Positivo o Negativo), mayor ser la distancia
que separa la aglomeracin de los valores con respecto a la media.
CURTOSIS

Esta medida determina el grado de concentracin que presentan los valores en la regin
central de la distribucin. Por medio del Coeficiente de Curtosis, podemos identificar si
existe una gran concentracin de valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).

Para calcular el coeficiente de Curtosis se utiliza la ecuacin:

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( )
la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula
se interpretan:

(g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante difcil


encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores
cercanos ( 0.5aprox.).
(g2 > 0) la distribucin es Leptocrtica
(g2 < 0) la distribucin es Platicrtica
Cuando la distribucin de los datos cuenta con un coeficiente de asimetra (g1 = 0.5) y
un coeficiente de Curtosis de (g2 = 0.5), se le denomina Curva Normal. Este criterio es
de suma importancia ya que para la mayora de los procedimientos de la estadstica de
inferencia se requiere que los datos se distribuyan normalmente.
La principal ventaja de la distribucin normal radica en el supuesto que el 95% de los
valores se encuentra dentro de una distancia de dos desviaciones estndar de
la media aritmtica ,es decir, si tomamos la media y le sumamos dos veces la desviacin
y despus le restamos a la media dos desviaciones, el 95% de los casos se encontrara
dentro del rango que compongan estos valores.

1) CONSIDERE LAS SIGUIENTES CIFRAS, QUE INDICAN LOS DATOS MENSUALES


DEL RECORRIDO EN MILLAS POR VEHCULO Y LOS COSTOS DE OPERACIN
PARA UNA EMPRESA DE TRANSPORTE DE PASAJEROS POR CARRETERA.
MES
1

COSTOS
213.9

MILLAS
3147

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

212.6
215.3
215.3
215.4
228.2
245.6
259.9
250.9
234.5
205.9
202.7
198.5
195.6
200.4
200.1
201.5
213.2
219.5
243.7
262.3
252.3
224.4
215.3
202.5
200.7
201.8
202.1
200.4
209.3
213.9

3160
3197
3173
3292
3561
4013
4244
4159
3776
3232
3141
2928
3063
3096
3096
3158
3338
3492
4019
4394
4251
3844
3276
3184
3037
3142
3159
3159
3203
3307

32
33

227.0
246.4

3585
4073

a) Identifique la variable independiente y dependiente.


Variable independiente:
Millas (eje x)
Variable dependiente:
Costos (eje y)
b) Realice un diagrama de dispersin.

c) Realice el anlisis exploratorio.


El anlisis exploratorio sirve para averiguar cmo es el ajuste de cada variable.
Viendo la grfica podemos decir que tiene tendencia lineal y positiva

d) Es posible ajustar a una lnea recta.


Descriptivos
Estadstico
219,1242
Lmite inferior
212,1487
Lmite superior
226,0998

Error
tp.
3,42454

COSTOS Media
Intervalo de
confianza para la
media al 95%
Media recortada al 5%
218,0215
Mediana
213,9000
Varianza
387,007
Desv. tp.
19,67249
Mnimo
195,60
Mximo
262,30
Rango
66,70
Amplitud intercuartil
29,40
Asimetra
,868
,409
Curtosis
-,436
,798
MILLAS Media
3451,4848 74,49995
Intervalo de
Lmite inferior
3299,7334
confianza para la
Lmite superior 3603,2363
media al 95%
Media recortada al 5%
3428,9495
Mediana
3232,0000
Varianza
183158,008
Desv. tp.
427,96963
Mnimo
2928,00
Mximo
4394,00
Rango
1466,00
Amplitud intercuartil
657,50
Asimetra
,955
,409
Curtosis
-,528
,798

Una lnea recta es la mejor aproximacin del conjunto de datos dado. Esta puede ser
determinada aproximadamente usando el mtodo visual al dibujar una lnea recta en una
grfica de dispersin para que tanto el nmero de puntos arriba de la recta y debajo de la
recta sean casi iguales (y la lnea pasa a travs de tantos puntos como sea posible).

Cuando recorre un mximo de 4394, gasto mximo es de 262 ,30 soles


Cuando recorre un mnimo de 2928, gasto mnimo es de 195,60
No hay error atpico respecto al promedio y media
La curtosis en ambos casos es <0 por tanto la distribucin es platicurtica
La asimetra en ambos casos es >0 por tanto la curva es asimtricamente positiva
Resumen del modelob
Error tp.
R
R cuadrado
de la
Modelo
R
cuadrado corregida estimacin
a
1
,972
,946
,944
4,65825
a. Variables predictoras: (Constante), MILLAS
b. Variable dependiente: COSTOS

DurbinWatson
1,165

La correlacin : explica causa efecto


Variaciones de los costos son causadas por las variaciones del recorrido de millas en
vehculos
Lo que indica que tiene una buena relacin que es directa y positiva.
*Ms cantidad de millas, ms costos
R al cuadrado: Sirve para decir si el modelo es adecuado
En este caso el modelo lineal s es adecuado es decir 0.94 se ajusta a la linea
Las variaciones de los costos estn explicadas por el recorrido vehicular.
Por consiguiente el MODELO LINEAL S ES ADECUADO
Durbin- Watson (d): distribucin normal o corregir:
H0 p = 0 no hay autocorrelacin (no significativo)
H0 p 0 si hay autocorrelacion (si es significativo)
Si d<1.18 rechazamos la H0
Si d>1.4 aceptamos la H0
1.18 <d < 1.4 no se puede decir nada sino CORREGIR la variable.

No es concluyente Durbin Watson ya que es 1.165 /rechazamos hiptesis nula


S hay autocorrelacion entre ambas
ANLISIS DE VARIANZA:
ANOVAb
Suma de
Media
Modelo
cuadrados
gl
cuadrtica
F
1
Regresin 11711,544
1 11711,544 539,721
Residual
672,677
31
21,699
Total
12384,221
32
a. Variables predictoras: (Constante), MILLAS
b. Variable dependiente: COSTOS

Sig.
,000a

Si P valor es menor que 0.05 % entonces rechazamos la hiptesis nula.


Nuestra variable trayectoria si incluye linealmente por lo tanto si es consistente el modelo
lineal
NOTA:
P valor es simbolizado en la computadora como Sig.
Coeficientesa
Coeficientes no
estandarizados
B
Error tp.
64,839
6,690

Modelo
1
(Constant
e)
MILLAS
,045
a. Variable dependiente: COSTOS
y=ax+b +e
=x++e

Y=0.045x+64.839

Modelo lineal
Donde para este caso:
=0.045
=64.839

,002

Coeficiente
s
tipificados
Beta

t
9,691

Sig.
,000

,972 23,232

,000

El incremento promedio de costos de operacin es de 0.045 por cada unidad de


implemento en millas, es decir aumenta un 45%
PRUEBA DE HIPTESIS RESPECTO A CONSTANTE
Significativo:
T: t de es de 0.05% rechazamos la hiptesis nula
Respecto a x=0
Es significativo , si influye en la variable, si afecta
PRUEBA DE HIPTESIS RESPECTO A X
Contraste de hiptesis
1. Aceptar la hiptesis nula sabiendo que es falsa
MENOR QUE 5% rechazamos la hiptesis nula y aceptamos la hiptesis alterna
Si es significativa e influye en el modelo.
2. Si es menor que 0.05% SE RECHAZA LA HIPOTESIS NULA Y SE ACEPTA LA
HIPOTESIS ALTERNA SI ES MAYOR

Frequency
2,00
11,00
9,00
3,00
1,00
3,00
3,00
1,00
Stem width:
Each leaf:

Stem & Leaf


19. 58
20. 00001122259
21. 233355559
22. 478
23. 4
24. 356
25. 029
26. 2
10,00
1 case(s)

Descripcin de la
grfica:
Curva normal
sesgo a la derecha

Descripcin de la
grfica:

Residuo=error
Promedio o valor
esperado de una
constante=constante

Predecir, si una unidad vehicular recorre 5000 millas, cul es el costo de


operacin?
Para saber este valor reemplazamos x con 5000millas(variable independiente)y asi
hallamos el costo de operacin y(variable dependiente)
Y=0.045x+64.839
Y=0.045(5000)+64.839= 289.839(costo)

2) TENEMOS UN ESTUDIO ESTADSTICO DE LOS COSTOS ADMINISTRATIVOS DE


DISTINTAS ENTIDADES BANCARIAS. SE DESEA CUANTIFICAR CUAL ES EL

GRADO DE INFLUENCIA DE LAS VARIABLES INDEPENDIENTES SOBRE LA


VARIABLE DEPENDIENTE.

BANCO GASTOS_ABMINI ARCHIVOS AGENCIAS


A
48.8
831.5
30
B
43.2
1204
18
C
39.4
1153.5
20
D
29.8
499.6
25
E
26.2
466.6
30
F
24.8
522.3
12
G
24
376.6
12
H
21.5
431.3
20
I
18.3
282.2
10
J
15.6
311.8
13
K
14.3
284.5
7
L
12.9
399
8
M
12.5
462.8
3
N
8.8
205
12
O
6
162.4
3
P
5.9
45.8
1
Q
3.6
113.7
4
R
1.7
237.3
7
S
1
170.8
5
a) Identifique la variable independiente y dependiente.
Las 3 variables que tenemos son cuantitativas(activos, agencias y gastos
administrativos)
VARIABLE DEPENDIENTE:
Gastos administrativos
VARIABLES INDEPENDIENTES:
Activos
Agencias
b) Realice un diagrama de dispersin.

c) Analizar cada grafica


Gastos Adm- agencias: tendencia lineal
Gastos Adm- activos: tendencia lineal
Activos/agencias: las variables no tienen dispersin definida son ms o
menos independientes
Activos- Gastos Adm: tendencia lineal
Agencias-Activos: las variables no tienen dispersin definida son ms o
menos independientes
Agencias- Gastos Adm: tendencia lineal
d) Realice el anlisis exploratorio.

Descriptivos
GASTOS
Media
ADMINISTRATIVOS Intervalo de
Lmite inferior
confianza para Lmite superior
la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
ACTIVOS
Media
Intervalo de
Lmite inferior
confianza para Lmite superior
la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.
Mnimo
Mximo
Rango
Amplitud intercuartil
Asimetra
Curtosis
AGENCIAS
Media
Intervalo de
Lmite inferior
confianza para Lmite superior
la media al 95%
Media recortada al 5%
Mediana
Varianza
Desv. tp.

Estadstico Error tp.


18,8579 3,21797
12,0972
25,6186
18,1865
15,6000
196,751
14,02681
1,00
48,80
47,80
20,20
,715
,524
-,237
1,014
429,5105 73,23984
275,6393
583,3817
407,8006
376,6000
101917,411
319,24506
45,80
1204,00
1158,20
294,60
1,449
1,709
12,6316
8,3199
16,9432
12,3129
12,0000
80,023
8,94558

,524
1,014
2,05226

1.- hacia la derecha


2.- no cumple la asimetra/ esta muy alejada
e) Es posible ajustar a una lnea recta.
Resumen del modelo y estimaciones de los parmetros
Variable dependiente: GASTOS ADMINISTRATIVOS
Estimaciones de los
Resumen del modelo
parmetros
Ecuacin
R cuadrado
F
gl1
gl2
Sig.
Constante
b1
Lineal
,939 262,420
1
17
,000
43,014 -2,416
Potencia
,667
33,991
1
17
,000
119,534 -1,080
Exponencial
,890 137,425
1
17
,000
76,550 -,179
Si en este cuadro se muestra como el que tiene mejor ajuste es la ecuacin lineal
seguida de la ecuacin exponencial y finalmente la ecuacin potencial ya que :
2
r =0.939
Lineal
Potencia

r 2=0.667

Exponencial

r =0.890

Para calcular las variables las transformamos

LOGARITMO DE ACTIVOS

LOGARITMO DE GASTOS POTENCIAL

Resumen del modelo


Error tp.
Model
R
R cuadrado
de la
o
R
cuadrado corregida estimacin
a
1
,738
,545
,518
,32206
a. Variables predictoras: (Constante), LOGx1

R2 es 50% modelo no es bueno


ANOVAb
Suma de
Media
Modelo
cuadrados
gl
cuadrtica
F
1
Regresin
2,111
1
2,111 20,354
Residual
1,763
17
,104
Total
3,874
18
a. Variables predictoras: (Constante), LOGx1
b. Variable dependiente: LOGY
ACTIVOS influyen en modelo(es significativo)
Ms influyen las AGENCIAS

Sig.
,000a

Vous aimerez peut-être aussi