Académique Documents
Professionnel Documents
Culture Documents
DATOS
PRONSTICOS
anlisis de datos:
Estas
dos
modalidades
son
especies
radicalmente diferentes y utilizan conocimientos y
tcnicas completamente diferenciadas.
ANLISIS CUALITATIVO
No existen reglas formales (al estilo de los
Inclusivo: exhaustivo (abarcar todas las posibilidades) y permitir que cada elemento tenga tantos
cdigos como sea necesario para la investigacin
4. Anlisis transversal
El anlisis transversal apunta esencialmente a verificar
ANLISIS CUANTITATIVO
Son los ms conocidos. En muchos casos,
Anlisis descriptivos
modelo terico.
Los atributos pueden ser estadsticos descriptivos como la media,
la mediana, la moda o la varianza, sobre cuyas propiedades
existe gran conocimiento, experiencia y consenso, por lo que no
es necesario realizar anlisis de validez y fiabilidad. Pero en
estadsticos menos conocidos (como por ejemplo la covarianza)
puede ser necesario realizar este tipo de anlisis.
Es necesario tener definidos los criterios a seguir en caso de
porcentajes elevados de no respuesta y los eventuales sesgos
que esto pueda representar.
El anlisis descriptivo suele realizarse mediante la utilizacin de
software estadstico como el SPSS, Systat, etc.
Anlisis Descriptivo :
ayudar a observar el
comportamiento de la muestra en estudio, a travs
de tablas, grficos.....
Los resultados recogidos en la muestra se resumen
en una matriz de datos N x M , en la cual N es el
nmero de unidades de anlisis utilizadas ( nmero
de casos ) y M es el nmero de caractersticas de
dichas unidades , unidades de las que tenemos
informacin.
Nociones bsicas de la
Estadstica
Media o promedio
Es la medida ms comn de localizacin y representa el centro de
un grupo de datos
El valor obtenido es ms preciso que la precisin asociada con
cada observacin por lo cual siempre se representa con un dgito
ms que los utilizados en la medicin
Datos no agrupados
X
X
i 1
X
i 1
Datos agrupados
n
M
i 1
fi
Frecuencia
Media
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
30
1000 1150 1050 1230 1100 1110 990 1030 1170L 1210
X
30
30
32800
X
1.093,33
30
i 1
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
6
30/30=1
1.088,333
30
30
X
i 1
i i
i 1
i i
Mediana
La mediana m de un conjunto de datos x1,x2,,xn, es el valor
xi que se encuentra en el punto medio o centro, cuando se
ordenan los valores de menor a mayor.
La interpretacin geomtrica de la mediana, es que es el valor
que divide un histograma en dos partes iguales.
Procedimiento de clculo:
Datos no agrupados
Ordenar de menor a mayor los valores xi del conjunto de datos
individuales, i = 1,2,,n
x%
x([ n 1]) / 2)
x( n / 2) x( n / 2 1)
2
Ejemplo
Encontrar la mediana del siguiente conjunto de datos que corresponden
al tiempo en segundos, requerido por una cajera para marcar la compra
de artculos en un supermercado que utiliza verificadores automticos
{ 10, 15, 62, 53, 11, 38, 75, 112, 40, 22, 57 }.
Ordenamos el conjunto de datos:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
n = 11, impar. Entonces la mediana m es:
{ 10, 11, 15, 22, 38, 40, 53, 57, 62, 75, 112 }.
Datos
1 2 3 4 5 6 7 8 9 10 11
Indice
m x n 1
2
n 1 11 1 12
6
2
2
2
x n 1 x6 40
2
m x6 40
Datos
agrupados
n
2
2
con j 1, 2,..., k ,
k - nmero de intervalos
Fj
i 1
Paso 1.- Obtener la Clase de la Mediana,nes decir, el primer intervalo que cumpla
la condicin:
donde
,k
Fj
Paso 2.-
2 FL
m Lm
C
fm
Donde:
Lm = Lmite inferior del intervalo que corresponde a la clase mediana.
n = Total de datos
FL = Suma de frecuencias de todas las clases por debajo de la clase
mediana, (frecuencia acumulada absoluta de las clases anteriores a la
clase mediana)
fm = Frecuencia absoluta en la clase mediana.
C = Tamao del intervalo de clase. (amplitud o distancia del intervalo)
Ejemplo
INTERVALO
DE CLASE
MARCA
DE CLASE
FRECUENCIA
ABSOLUTA
fi
FRECUENCIA
ABSOLUTA
ACUMULADA
Fi
FRECUENCIA
RELATIVA
Fi /n
FRECUENCIA
RELATIVA
ACUMULADA
FI /n
(930-980]
955
1/30
1/30
(980-1030]
1005
7/30
8/30
(1030-1080]
1055
13
5/30
13/30
(1080, 1130]
1105
21
8/30
21/30
(1130-1180]
1155
27
6/30
27/30
(1180-1230]
1205
30
3/30
30/30=1
30
30/30=1
Intervalo
fi
Fi
(1030,1080]
13
(1080,1130]
21
F
L
2
m Lm
C
f
m
(15 13)
m 1080
50 1.092,50
8
La interpretacin de este valor, es que la mitad de las familias
entrevistadas ganan menos de 1.092,50 dlares.
Moda
Es la observacin que se presenta con mayor frecuencia
en la muestra o poblacin
Si los datos tienen una sola moda son unimodales, si
tienen 2 son bimodales y as sucesivamente
No son comparables en su totalidad los resultados
obtenidos entre datos individuales y agrupados
Ejemplo
En el conjunto de datos dados para medir el ingreso promedio anual de las familias que habitan en
un determinado sector, se tiene :
{935, 990, 1000, 1000, 1010, 1030, 1030, 1030, 1050, 1050, 1060, 1070, 1080, 1090, 1100, 1100, 1105, 1110,
1110, 1120, 1130, 1150, 1150, 1150, 1160, 1170, 1180, 1200, 1210, 1230 }
1150 ( 3 veces)
por tanto la moda es = 1030 y 1150, y en este caso se dice que el conjunto de datos es bimodal
La Moda estar representada por la clase que posee la ms alta frecuencia, denominndose
clase modal.
El clculo de la Moda se obtiene con la siguiente expresin:
Donde:
1
Moda LI
C
2 1
Datos agrupados
Ejemplo
(1130, 1180]
27
1
3
Moda LI
C 1080
50 1.110,0
2 3
2 1
Este valor de $ 1.110,0 se interpreta como el ingreso familiar que con ms
frecuencia se da
Medidas de variabilidad o
dispersin
Medidas De Dispersin
Una de las caracterstica ms importante que describe un
Rango
Es la medida de dispersin ms fcil de calcular
Varianza
Indica qu tan dispersos se encuentran los
2
(
x
)
i
i 1
N 1
1
N 1
2
x
i 1
x
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin.
2 = La varianza de la poblacin
s
2
2
(
x
x
)
i
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2, 3,...,n
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos No Agrupados
s
2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
i 1
f M
i 1
donde:
x - es la media muestral
xi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s2 - La varianza de la muestra
Datos Agrupados
Desviacin Estndar
En la varianza, los resultados se expresan en
unidades originales al cuadrado, por lo que se
requiere de una medida de desviacin que sea til
en unidades originales que no estn elevadas
Esta medida es llamada desviacin estndar y es
la raz cuadrada de la varianza
Para representar la desviacin estndar poblacional
y la desviacin estndar muestral se utilizan los
siguientes dos smbolos:
- donde sigma es la letra griega que
determinar la desviacin estndar de una
poblacin
s -determina la desviacin estndar de la
muestra analizada
(x )
i 1
N 1
N 1
2
x
i
i 1
i 1
donde:
xi = son las observaciones que componen la poblacin, i = 1, 2,
3,...,N
= la media de la poblacin
N = El nmero total de elementos de la poblacin
= La desviacin estndar de la poblacin
(x x)
i 1
n 1
n 1
2
x
i
i 1
i 1
donde:
x - es la media muestral
xi - son las observaciones que componen la muestra, i = 1, 2,
3,...,n
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos No Agrupados
f (M
i 1
x)
n 1
1
n 1
i 1
f i M i2
f M
i 1
donde:
x - es la media muestral
Mi - es la marca de clase i, i = 1, 2, 3,...,k
fi - es la frecuencia absoluta del intervalo de clase i, i = 1, 2, 3,...,k
k - es el nmero de intervalos de clase
n - el nmero total de elementos de la muestra
s - la desviacin estndar de la muestra
Datos Agrupados
Ejemplo
Datos No Agrupados
1110
1010
1070
1030
1000
1150
990
1090
1080
1150
1200
1050
1030
1120
1050
1030
1150
1230
1170
1180
1110
1160
1100
1100
1060
1130
1105
935
1210
Datos No Agrupados
Xi
Xi2
Xi
Xi2
935
874225
1100
1210000
990
980100
1105
1221025
1000
1000000
1110
1232100
1000
1000000
1110
1232100
1010
1020100
1120
1254400
1030
1060900
1130
1276900
1030
1060900
1150
1322500
1030
1060900
1150
1322500
1050
1102500
1150
1322500
1050
1102500
1160
1345600
1060
1123600
1170
1368900
1070
1144900
1180
1392400
1080
1166400
1200
1440000
1090
1188100
1210
1464100
1100
1210000
1230
1512900
Total
32800
36013050
Datos No Agrupados
Varianza
n
s2
(x
i 1
x)
n 1
n 1
2
x
i
i 1
x
i 1
(
32800
)
1
36013050
29
30
(32800) 2
1
1
36013050
29
30
29
Desviacin estndar
n
(x
i 1
x)
n 1
1
n 1
2
x
i
i 1
s s 2 5231.6092 72.33
x
i 1
Ejemplo
Consideremos los valores expuestos en el
Datos Agrupados
INT.
DE CLASE
MARCA
DE
CLASE
Mi
FREC.
ABS.
fi
X i2
fMi
fiMi2
(930 - 980]
955
912025
955
912025
(980 1030]
1005
1010025
7035
7070175
(1030 1080]
1055
1113025
5275
5565125
(1080 1130]
1105
1221025
8840
9768200
(1130 1180]
1155
1334025
6930
8004150
(1180 1230]
1205
1452025
3615
4356075
32650
35675750
30=n
29= n-1
Total
Datos Agrupados
Varianza
k
s2
f (M
i 1
x)
n 1
n 1
2
f
M
i i
f M
i 1
1
(32650)
35675750
29
30
i 1
1
35675750 35534083.3 4885.057
29
Desviacin estndar
k
f (M
i 1
x)
n 1
1
n 1
fM
i 1
4885.057 69.89
2
i
f M
i 1
Coeficiente De Variacin
Es la dispersin relativa existente entre la
C.V .
como porcentaje
Esta
% DE DATOS
INTERVALOS
68
1088.3373.75
(1014.58, 1162.08)
95
1088.332(73.75)
(940.83, 1235.83)
99 o 100
1088.333(73.75)
(867.08, 1309.58)
Pronsticos e informacin
Pronstico: prediccin de los hechos y
condiciones futuros
recaudacin de fondos
costos de proyectos
Tendencia
Ciclo
Variaciones estacionales
Fluctuaciones irregulares
Juicio experto
Mtodo Delphi y el grupo de consenso
Pronsticos populares e investigacin de mercado
Cuantitativos
Modelo de serie de tiempo
Dt
A
Et
Modelo de tendencia
Un modelo de pronostico que es aplicable cuando la
variable por periodo muestra un patrn por lo general
creciente o decreciente durante el tiempo
Modelo estacional
Mediciones de rendimiento de
modelos de pronostico
Error medio cuadrado (RMSE)
La medicin de funcionamiento de un modelo de
pronostico obtenida al calcular la raz cuadrada del
promedio de los cuadrados de los errores de
pronostico
Error medio absoluto (MAE)
La medicin de funcionamiento de un modelo de
pronostico obtenida calculando el promedio del valor
absoluto de los errores de pronostico
Error medio porcentual absoluto (MAPE)
La medicin de funcionamiento de un modelo de
pronostico que se obtiene calculando el promedio de
los errores de pronostico absolutos como un
porcentaje de la variable real
Modelo de pronsticos
causales, ajuste de curvas
Regresin y Correlacin
Introduccin
En la investigacin las variables que estn asociadas
entre si pueden ser relacionadas matemticamente
una en funcin de la otra
Las variables pueden tener una relacin clara o
absurda
Nota: estadsticamente interesa analizar una relacin
existente o lgica entre variables
Objetivo: proporcionar los procedimientos y las
tcnicas para expresar y medir la relacin entre
variables
Relaciones espreas
Hay que evitar las denominadas relaciones espreas o
espurias, es decir, que llevan a conclusiones errneas.
Ocurren cuando dos variables, X e Y, son realmente
independientes entre s, pero dependientes ambas de una
misma causa comn, Z.
X
Y
Z
Variables
independientes
x1, x2, ..., xn
Relacin simple:
y=f(x)
Relacin mltiple:
y=f(x1, x2, ..., xn)
Variable
dependiente
y
Efecto y
Causa y
Causa x
Efecto y
Causa x
Efecto x
Nubes de Puntos
Sea un conjunto de pares de valores de las variables X e Y. Si los
representamos en un diagrama de dispersin obtendremos una nube de
puntos que nos dar una idea grfica de la posible correlacin entre ambas
variables.
No hay relacin
Relacin positiva
Relacin negativa
Modelo Lineal
inversa
Exponencial
Exponencial
positiva
negativa
Otros tipos
Otros tipos
Francis Galton
Altura
en cm.
Peso en
Kg.
162
61
154
60
180
78
158
62
171
66
169
60
166
54
176
84
163
68
...
...
Pesa 50 kg.
Mide 161 cm.
Pesa 76 kg.
ue
q
ce
e
r
Pa ra
altu
s
e
p
el
nta
e
um
a
o
la
n
co
10 kg.
10 cm.
Incorrelacin
230
180
130
80
30
140
150
160
170
180
190
200
creciente entre X e Y.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Covarianza
Recordemos que...
Media aritmtica: Suma de los valores que toma una variable dividida entre el
nmero total, n, de valores sumados.
Vx S
2
x
x x
o bien mediante Vx S
2
x
2
i
Vxy S xy
x x y
i
x y
i
xy
Incorreladas: Sxy = 0
S xy
SxSy
Grado de Correlacin
El coeficiente de correlacin, r, presenta valores entre 1 y +1.
Cuando r es prximo a 0, no hay correlacin lineal entre las variables. La
nube de puntos est muy dispersa o bien no forma una lnea recta. No se
puede trazar una recta de regresin.
Cuando r es cercano a +1, hay una buena correlacin positiva entre las
No hay
correlacin
r 0
Hay correlacin
no lineal
r 0
Correlacin lineal
positiva
r 1
Correlacin lineal
negativa
r 1
Y = Variable dependiente
predicha, medida, es una variable aleatoria
explicada
X = Variable independiente
predictora, controlada, no es una variable aleatoria.
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
= b0 + b1X
b1 (pendiente de la recta)
regresin. A la cantidad
= b0 + b1X
b1=0,5
b0=85 cm
entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b1=0,5
b0=85 cm
i ei2 = i (Yi - )2
b1 r
Sy
Sx
b0 y b1 x
S xy
SxS y
y y b1 ( x x )
Cometi un
error de - 30 en
su ltima
prediccin
Interpretacin de la variabilidad en Y
En primer lugar olvidemos que
existe la variable X. Veamos cul
es la variabilidad en el eje Y.
Bondad de un ajuste
Resumiendo:
La dispersin del error residual ser una
fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin.
S
R 1
S
2
2
e
2
y
S S
2
e
2
Y
EJEMPLOS DE REGRESIN
LINEAL SIMPLE
8
7
y = x+ 2
6
5
4
3
x
0
1
2
3
2
1
n xi yi xi yi
n xi2 xi
y b x
a
i
0
-4
-3
-2
-1 -1 0
-2
X
x y
x y
x
2
x
n
2
i
2
i
n x
n xi yi xi yi
2
i
xi n yi2 yi
2
Coeficiente de Determinacin, R2
Para estimar la bondad de un ajuste frecuentemente se prefiere utilizar el
R2
x y
i
xi2 x 2
x y
yi2
2
y
n
n x y x y
n x x n y y
2
R2
2
i
2
i
cercano a cero
Alumnos Profesores
Aragn
Asturias
Baleares
Cantabria
Castilla la Mancha
Castilla Len
Extremadura
Madrid
Murcia
1.
2.
3.
R2=0.998
b=0.0515
a=-17
36154
34441
9519
11962
15123
74272
17678
214402
26407
2043
1442
385
737
787
4030
865
10971
1248
4.
5.
6.
14000
3000
12000
2500
Profesores
Profesores
10000
8000
6000
4000
2000
1500
1000
2000
500
0
0
100000
200000
Alumnos
300000
10000
20000
30000
Alumnos
40000
50000
Modelos No Lineales
Potencial
Exponencial
y ax b
Ecuacin
Ecuacin
Linealizada
Logartmico
y aebx
ln y ln a bx
Log y
y a b log x
----------
Ln y
Grfica
Log x
Log x
Log y
Ln y
Log x
Log x
Log a
Ln a
a
b
eA
10 A
B
A
B
(c) Rosario Ruiz Baos. Departamento de Biblioteconoma y Documentacin. Universidad de Granada (Espaa)
Ejemplo 3: El Pndulo de
Galileo
Una de las principales aportaciones de Galileo Galilei (15641642), fue encontrar la relacin entre el tiempo o periodo de
oscilacin de un pndulo y su longitud. Esto permiti construir
por primera vez en la historia relojes de gran precisin basados
en pndulos. Dicen que la idea de correlacionar estas variables
se le ocurri en la iglesia de su ciudad natal, Pisa, mientras,
absorto, observaba cmo oscilaban las lmparas del techo...
T(s)
0,6
1,1
2,1
3,4
5,0
6,0
7,0
Tiempo de oscilacin, T(s)
L(m)
0,1
0,3
1,0
3,0
6,0
9,0
El Pndulo de Galileo
6,0
5,0
4,0
3,0
2,0
1,0
0,0
0,0
2,0
4,0
6,0
8,0
10,0
7,0
10,0
6,0
5,0
log T
4,0
3,0
2,0
1,0
No es lineal
1,0
No es exponencial
0,0
0,0
2,0
4,0
6,0
8,0
0,1
10,0
0,0
2,0
4,0
6,0
8,0
10,0
L
10,0
7,0
6,0
Tampoco es logartmica
log T
5,0
4,0
3,0
1,0
Es potencial
2,0
1,0
0,0
0,1
0,1
1,0
log L
10,0
0,1
1,0
log L
10,0
T aL
y ax b
Como vamos a ajustar a un modelo potencial, hacemos el cambio de variables: X = log x e Y = log y.
Por lo dems se procede exactamente igual a una regresin lineal, ajustando a una expresin del tipo
Y = A + BX. Por ltimo, de B y A calculados se despejan b y a respectivamente.
L(m)
T(s) X = log x
Y = log y
X
Y
y
0,6
-1 -0,22185
1,1 -0,52288 0,041393
2,1
0 0,322219
3,4 0,477121 0,531479
5,0 0,778151 0,69897
6,0 0,954243 0,778151
Sumas 0,686636 2,150363
x
0,1
0,3
1,0
3,0
6,0
9,0
XY
X^2
Y^2
0,221849
-0,02164
0
0,25358
0,543904
0,742545
1,740235
1
0,273402182
0
0,227644692
0,605519368
0,910578767
3,017145009
0,049217
0,001713
0,103825
0,28247
0,488559
0,605519
1,531304
n= 6
n xi yi xi yi
n x xi
2
i
b xi
n
b B 0,5085
a 10 A 100,3002 1,9962
n x y x y
n x x n y y
2
R2
2
i
2
i
0.9988
7,0
6,0
4,0
1,0
log T
5,0
3,0
y = 1,9962x 0,5085
R2 = 0,9988
y = 1,9962x 0,5085
R2 = 0,9988
2,0
1,0
0,1
0,0
0,1
1,0
10,0
log L
2,0
4,0
6,0
8,0
10,0
L
Generalizando...
Se deduce que...
1
2
T 2L 2L 2 L
0 '5
0,0
T k