Vous êtes sur la page 1sur 136

Saltar a la primera

pgina
ESTADSTICA PARA
LA ADMINISTRACIN
La palabra estadstica tiene 2
significados;

Estadstica 1; hechos numricos
sistemticamente recolectados 2;
Ciencia de recolectar, clasificar y
utilizar estadsticas
(Oxford
Concise Dictionary)
Por ejemplo.
Introduccin a la
Estadstica
Algunas definiciones de
Estadistica.
Rama de las matemticas que proporciona
herramientas que permiten manejar grandes
cantidades de datos, convirtiendolos en
informacin til.



Forma de decir mentiras con fundamentos
matemticos.
DEFINICION:
Es una ciencia, pues aplica el
Mtodo Cientfico al ocuparse de
la recoleccin, organizacin,
anlisis, interpretacin y
presentacin de datos, tanto para
la deduccin de conclusiones
como para la toma de decisiones
razonables de acuerdo a tales
anlisis.
Introduccin (cont.)
La ciencia de la Estadstica utiliza;
matemticas (teora de probabilidades)
ciencia de las computadoras (graficos
and simulaciones)
filosofa

Qu distingue a la Estadstica de las
matemticas?
La estadstica hace uso de las
matemticas
La Estadstica enfatiza la
VARIABILIDAD NATURAL
De individuos (personas, plantas, ratas,
ovejas, bombillas de luz, precios de
acciones, etc).
La Estadstica es utilizada por:
cientficos
bilogos
qumicos
fsicos
psiclogos
economistas
Introduccin (cont.)
Introduccin (cont.)
La Estadstica se usa para:
Informar al publico
Proveer comparaciones
Explicar resultados
Influenciar decisiones
Justificar un reclamo o afirmacin
Predecir futuros resultados
Establecer una relacin o asociacin
Estimar cantidades desconocidas
Los Estadsticos (personas que estudian la
estadstica):
Entienden la idea de la variabilidad de los individuos

Se toman el tiempo siendo lgicos, profundos e
imparciales cuando preparan resultados y reportes

Se cuidan de no sacar conclusiones que estn fuera
de los lmites de la pregunta que debe responderse
mediante la estadstica
Introduccin (cont.)
UNIDAD DE ESTUDIO: Es el elemento mas
pequeno al que podemos hacer referencia en un
estudio estadistico.

COLECTIVO: Es todo conjunto compuesto por
mas de una unidad de estudio; un colectivo
puede ser una MUESTRA o una POBLACION.
Datos
Datos son piezas de informacin
Varias piezas de datos forman un conjunto de
datos
Los Datos se componen de los objetos que han
sido medidos (eg personas, arboles, ratas) y los
atributos que fueron registrados (edad, tamao,
ph, costo, peso, etc)
objetos son aka sujetos, casos, entidades, etc
Atributos son aka caracteristicas, variables,
factores, etc
Variables
Cuando medimos los atributos de un
objeto, obtenemos un valor que vara
entre objetos. Por ejemplo considere las
personas en esta clase como objetos y
su estatura como el atributo

El atributo altura vara entre objetos, de
ah que los atributos son mas
colectivamente conocidos como
variables
TIPOS DE VARIABLES:
DISCRETAS: Son aquellas que
toman valores puntuales en una
escala, ejemplo: No. de unidades
producidas, No. de quintales
transportados, etc.
CONTINUA: Son aquellas que
pueden tomar cualquier valor
real en una escala, por
ejemplo:Temperatura, peso,
longitud, etc.
Tipos de Datos
Las Variables pueden ser medidas
en cuatro escalas diferentes

Es escencial que sea capaz de
identificar las cuatro diferentes
escalas de medicin y ejemplos de
cada una
1 Escala Nominal de Medicin
Los datos son medidos al nivel
nominal donde cada caso es
clasificado en una de un numero
discreto de categoras

EG Color, Partido Politico,
Genero, etc

2 Escala Ordinal de Medicin
Los datos son medidos en una escala ordinal
si las categoras implican orden
EG Rango Militar, Talla de ropa, etc

La diferencia entre rangos es consistente en
direccin, pero no en magnitud.
3 Escala de medicin de Intervalo
Si las diferencias entre los valores tienen
significado, los datos son medidos en la
escala de Intervalo.

La temperatura es el mejor ejemplo
4 Escala de medicin de Ratio
(rata)
Los datos medidos en una escala de ratio
tienen diferencias que son significativas, y
relativas a algun punto real de origen o cero.

eg Peso, Altura, edad, etc
Esta es la escala ms comn de medicin.

Tipos de Datos (Cont.)
Datos de tipo Ordinal, Intervalo y Ratio tambin
se conocen como datos Cuantitativos
Datos de tipo Nominal tambin son
denominados datos Cualitativos


Dos tipos de Estadstica
Estadstica Descriptiva
mtodos de resumir grandes cantidades
de datos en una forma conveniente

Estadstica Inferencial
Mtodos para extraer conclusiones
(hacer inferencias) respecto a las
caractersticas de una poblacin
por ejemplo.
POBLACION: Se le llama poblacin o
universo, al conjunto total de unidades
de estudio que se desean investigar.

MUESTRA: Es un subconjunto de una
poblacin. Se utiliza cuando la
poblacin es muy numerosa, infinita o
muy difcil de examinar.
MUESTRA ALEATORIA:
Es cuando cada elemento tiene la misma
oportunidad de ser escogido.
Muestreo aleatorio estratificado:
Muestreo aleatorio sistematico:
Poblaciones
Un componente esencial de entender la
ciencia de la estadstica es entender
estos trminos
La poblacin consiste en el conjunto de
todas las mediciones en que el
investigador est interesado
Un nmero que describe una poblacin
se denomina un parametro
por ejemplo...
Muestras
Una muestra es un subconjunto de
datos de la poblacin

Un numero que describe una
muestra es un estadstico

por ejemplo...
Inferencia
Si tomamos una muestra y calculamos un
estadstico, utilizamos ese estadstico para inferir
algo respecto a la poblacin de la cual la muestra
fue extrada.
EG: Comunmente, las muestras son
utilizadas para inferir respecto a:
Resultados de Elecciones
Preferencias del consumidor
Actitudes hacia aspectos sociales
Se le ocurre algn otro ?????

CONTENIDO
Estadistica Descriptiva
Regresion y Correlacion
Distribuciones
Control Estadistico de Procesos
ESTADISTICA DESCRIPTIVA:
Es la parte de la Estadstica que trata
solamente de describir y analizar un
colectivo, sin sacar conclusiones o
inferencias de un colectivo mayor, a
partir de ella.
La Estadstica descriptiva incluye las
tcnicas que se relacionan con el
resumen y la descripcin de datos.
Estos datos pueden ser representados
en forma grfica y pueden incluir anlisis
por computadora.
ESTADISTICA
DESCRIPTIVA
MEDIDAS DE TENDENCIA
CENTRAL
MEDIDAS DE DISPERSION
MEDIDAS DE ORDEN
MEDIDAS DE FORMA
REPRESENTACION GRAFICA
MEDIDAS DE TENDENCIA
CENTRAL
MEDIA (ARITMETICA O
PONDERADA)
MODA
MEDIANA
MEDIDAS DE
DISPERSIN
Rango
Desviacion Media
Varianza
Desviacin Tpica o
standard

MEDIDAS DE ORDEN
Cuartiles
Deciles
Percentiles
MEDIDAS DE FORMA
Sesgo
Curtosis
Momentos
REPRESENTACION
GRAFICA
Histograma de frecuencias
Diagrama de Pareto
Ojiva de Frecuencias
Acumuladas
Diagrama de Pastel
Diagrama de Cajas
Diagrama de Tallos y Hojas
MEDIA
ARITMETICA
. .. ..
. . . .
.
:
1
datos de Total n
datos los de uno Cada x
Aritmetica Media x
Donde
n
x
x
i
n
i
i
=
=
=
=

=
1 19
2 22
3 24
4 20
5 21 338/15 = 22.53
6 19
7 25
8 21
9 23
10 22
11 22
12 21
13 24
14 35
15 20
338
Edad de 15 estudiantes de universitarios
Media Aritmetica =
=

EJEMPLO
. .. ..
. . . .
. .
.
:
*
1
1
datos de Total n
datos los de uno Cada x
Peso de Factor w
Ponderada Media x
Donde
w
x w
x
i
n
i
i
n
i
i i
i
=
=
=
=
=

=
=
MEDIA
PONDERADA
EJEMPLO
Dia Cantidad Peso Cant*Peso
1 1500 98 147000
2 2500 103 257500
3 1200 105 126000
4 5500 90 495000
5 2000 99 198000
6 1800 100 180000
7 450 109 49050
14950 704 1452550
Media Ponderada = 97.16
Media Aritmetica = 100.57
Produccion de Sacos de Fertilizante
durante una semana

Mediana
Valor que divide la serie de datos en dos
partes iguales.
Si el numero de datos es impar, es el valor
que est situado justo en medio.

Si el nmero de datos es par, es el promedio
aritmtico de los dos datos de en medio.
19
19
20
20
21
21
21
Mediana --> 22
22
22
23
24
24
25
35
EJEMPLO
Moda
Es el valor que mas se repite en un conjunto
de datos.

Puede no existir o puede existir mas de uno.
19
19
20
20
21
Moda -----> 21
21
22
Moda -----> 22
22
23
24
24
25
35
EJEMPLO
RANGO (R)
El rango de un conjunto de nmeros es la diferencia entre el dato mayor y el dato
menor de todos ellos. El rango considera solo el valor ms alto y el ms bajo de la
distribucin y deja de tomar en cuenta cualquier otra observacin del conjunto de datos.
Debido a que mide dos valores, el rango cambia drsticamente entre muestras de una
misma poblacin, aunque los valores que se encuentren entre el mayor y menor puedan
ser muy similares. Tngase en mente tambin, que las distribuciones abiertas en los
extremos no tienen rango, ya que no tiene valores "mayor" o "menor".
R = dato mayor - dato menor
EJEMPLO
Hallar el rango de los siguientes de nmeros:
5,3,8,4,7,6,12,4,3
R = 12 - 3 = 9
Dato Menor -------> 19
19
20
20
21
21 Rango = 35 - 19 = 16
21
22
22
22
23
24
24
25
Dato Mayor -------> 35
EJEMPLO
DESVIACION MEDIA (D.M.)
La desviacin media, es una medida de dispersin que involucra las diferencias (o
desviaciones) entre cada uno de los valores de la distribucin y su media aritmtica. Para
calcularla se debe restar la media aritmtica a cada valor del conjunto de datos y se
ignora el signo (positivo o negativo), es decir, que se toma el valor absoluto de las
desviaciones; de lo contrario la suma algebraica ser nula. Finalmente, se suman todas
estas diferencias y se divide por el nmero total de la muestra.
_
Desviacin = d
i
= x
i
- x
_
D.M. = E x
i
- x / N
Dato Menor -------> 19 - 22.53 = 3.53
19 - 22.53 = 3.53
20 - 22.53 = 2.53
20 - 22.53 = 2.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
21 - 22.53 = 1.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
22 - 22.53 = 0.53
23 - 22.53 = 0.47
24 - 22.53 = 1.47
24 - 22.53 = 1.47
25 - 22.53 = 2.47
Dato Mayor -------> 35 - 22.53 = 12.47
Media = 22.53 Sumatoria 36.67
Desviacion Media = 36.67/15 = 2.44
EJEMPLO
DESVIACION TIPICA (s)
La desviacin tpica es la medida de dispersin ms importante, ya que los
valores extremos de la distribucin son influyentes en el clculo de la misma,
no as los valores que se encuentran cerca de la media aritmtica, y
simplemente es la raz cuadrada de la varianza.

s = \(x
i
- x)
2
) /N
A veces, la desviacin tpica viene definida por (N - 1) en el denominador
en lugar de N, a esta se le llama desviacin estandar, ya que el valor
resultante es un estimador mejor de la desviacin tpica de la poblacin.
Para valores grandes (N > 30) prcticamente no hay diferencia entre la
desviacin tpica y la estandar.
Dato Menor -------> 19 - 22.53 = 3.53 ^2 = 12.48
19 - 22.53 = 3.53 ^2 = 12.48
20 - 22.53 = 2.53 ^2 = 6.42
20 - 22.53 = 2.53 ^2 = 6.42
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
21 - 22.53 = 1.53 ^2 = 2.35
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
22 - 22.53 = 0.53 ^2 = 0.28
23 - 22.53 = 0.47 ^2 = 0.22
24 - 22.53 = 1.47 ^2 = 2.15
24 - 22.53 = 1.47 ^2 = 2.15
25 - 22.53 = 2.47 ^2 = 6.08
Dato Mayor -------> 35 - 22.53 = 12.47 ^2 = 155.42
Media = 22.53 Sumatoria 211.73
Varianza= 211.73/15 = 14.12
Desviacion Estandar = Raiz(14.12)= 3.76
EJEMPLO
USOS DE LA DESVIACION TIPICA
La desviacin tipica permite determinar, con cierto grado de certeza, donde
estn localizados los valores de una distribucin de frecuencia con relacin a la
media.
Se puede medir con bastante precisin el porcentaje de elementos que
caen dentro de rangos especficos, si la distribucin de frecuencias toma la forma
de una curva simtrica en forma de campana (campana de Gauss) llamada
DISTRIBUCION NORMAL, en estos casos se dice que:
1. Cerca del 68% de los valores de la poblacin caern dentro de ms o
menos una desviacin tipica, a partir de la media aritmtica.
2. Cerca del 95% de los valores se encontrarn dentro de ms o menos dos
desviaciones tipica, a partir de la media aritmtica.
3. Cerca del 99% de los valores estarn en un intervalo que va desde tres
desviaciones tipicas despus de la media.
350 347 352 336
336 385 340 340
359 368 336 342
374 391 336 344
373 345 336 335
381 380 340 346
322 331 341 349
351 363 332 340
371 369 338 347
339 384 340 337
345 354 337 342
330 347 340 342
327 365 342 337
340 349 351 340
343 366 330 340
323 333 340 336
346 342 350 344
349 332 342 336
357 350 341 344
350 355 335 340
350 355 337 339
349 350 341 340
375 388 347 343
354 329 343 349
352 344 349 342
MAQUINA 1 MAQUINA 2
RESULTADO DEL PROCESO DE LLENADO
INDUSTRIAL DE REFRESCOS (en ml)
322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
DATOS ORDENADOS
322 350 330 340
323 350 332 340
327 351 335 341
329 352 335 341
330 354 336 341
331 354 336 342
332 355 336 342
333 355 336 342
336 357 336 342
339 359 336 342
340 363 337 342
342 365 337 343
343 366 337 343
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
8500 9170 17670 8433 8614 17046
Media Aritmetica = 17670/50 = 353.4 17046/50= 340.9
Mediana = Dato 25 + Dato 26
Moda = 350 340
MAQUINA 1 MAQUINA 2
2.00
350 340
MEDIDAS DE TENDENCIA CENTRAL
Rango = 391 - 322 = 69 352 - 330 = 22
Desv. Media = 689/50 = 14 183/50 = 4
Desv. Est. = raiz(14923/50) = 17 raiz(1144/50) = 5
MAQUINA 1 MAQUINA 2
MEDIDAS DE DISPERSION
322 350 330 340
323 350 332 340
327 351 335 341 # DE DATOS = 50
329 352 335 341
330 354 336 341 # DE CLASES O INTERVALOS = 1+3.3 * LOG (N) o Raiz(N)
331 354 336 342
332 355 336 342 6.61 7.07
333 355 336 342
336 357 336 342
339 359 336 342 Amplitud de los intervalos = Rango/# de intervalos
340 363 337 342
342 365 337 343 Maquina 1 10
343 366 337 343 Maquina 2 3
344 368 337 344
345 369 338 344
345 371 339 344
346 373 340 346
347 374 340 347
347 375 340 347
349 380 340 349
349 381 340 349
349 384 340 349
350 385 340 350
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
CONSTRUCCION DE UNA TABLA DE FRECUENCIAS
L. I. L. S. f L. I. L. S. f
322 - 331 6 330 - 332 2
332 - 341 5 333 - 335 2
342 - 351 17 336 - 338 11
352 - 361 7 339 - 341 15
362 - 371 6 342 - 344 11
372 - 381 5 345 - 347 3
382 - 391 4 348 - 350 4
50 351 - 353 2
50
MAQUINA 2 MAQUINA 1
TABLA DE FRECUENCIAS
L. I. L. S. Xi f F F%
322 - 331 326.5 6 6 12
332 - 341 336.5 5 11 22
342 - 351 346.5 17 28 56
352 - 361 356.5 7 35 70
362 - 371 366.5 6 41 82
372 - 381 376.5 5 46 92
382 - 391 386.5 4 50 100
50
MAQUINA 1
0
2
4
6
8
10
12
14
16
18
1 2 3 4 5 6 7
HISTOGRAMA DE FRECUENCIAS
OJIVA DE FRECUENCIAS
0
10
20
30
40
50
60
70
80
90
100
1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7
Intervalo
F
r
e
c
u
e
n
c
i
a

A
c
u
m
u
l
a
d
a
MEDIDAS DE ORDEN
Son aquellas que nos permiten
ubicar un dato de acuerdo a la
posicion que ocupa dentro de la
serie de datos.
Nos permiten ordenar, clasificar y
categorizar los datos.
Tambien se conocen como
fractilos porque dividen los datos
en partes iguales.
FRACTILOS
De acuerdo al numero de partes
en que se dividan los datos los
fractilos pueden ser:
Cuartiles: si dividen a los datos en
cuatro partes iguales.
Deciles: si dividen a los datos en
diez partes iguales.
Percentiles o Centiles: si dividen a
los datos en cien partes iguales.
FRACTILOS cont...
Por ejemplo, los cuartiles dividen
la distribucion de datos en cuatro
partes iguales, cada una
conteniendo el 25% de los datos.
De lo anterior se deduce que,
como se dijo anteriormente, si la
mediana divide los datos en dos
partes iguales, debe ser igual al
cuartil 2, al decil 5 y al percentil 50.
FRACTILOS cont...
Forma de calculo:
D = # de partes en que vamos a
dividir los datos (para cuartiles 4,
para deciles 10, para percentiles
100).
F = # del fractilo a calcular, es
decir, si queremos calcular el
tercer cuartil, F es igual a 3, si
queremos calcular el sexto decil, F
es igual a 6, etc.
N = # de datos en la distribucion.
FRACTILES cont...
Entonces, la posicion del fractilo
esta dada por:
F*N + (D-F)
D
Ejemplo: Para calcular el cuartil 3
de 50 datos:
3*50 + (4-3)
4
37.75, es decir que el tercer cuartil
esta ubicado entre el dato 37 y el
38, a un 75% de la distancia entre
ambos datos.
EJEMPLO
Para continuar con el ejemplo de las dos maquinas
llenadoras, vamos a calcular los cuartiles 1 y 3 para
cada maquina, entonces:
D = 4
N = 50
F = 1 y 3
1*50 + (4-1) 4
13.25 para el cuartil 1
3*50 + (4-3) 4
37.75 para el cuartil 3
Esto quiere decir que el cuartil 1 se encuentra entre el
dato 13 y el 14 mientras que el cuartil 3 esta entre el dato
37 y 38.
322 350 330 340
323 350 332 340
327 351 335 341 Para la Maquina 1 el dato 13 es 343 y el 14 344
329 352 335 341
330 354 336 341 La diferencia entre estos dos datos es 1
331 354 336 342
332 355 336 342 Posicion del cuartil 1 = 13.25
333 355 336 342
336 357 336 342 Cuartil 1 = 343.25
339 359 336 342
340 363 337 342 Para la maquina 1 el dato 37 es 365 y el 38 es 366
342 365 337 343
343 366 337 343 La diferencia entre estos dos datos es 1
344 368 337 344
345 369 338 344 Posicion del cuartil 3 = 37.75
345 371 339 344
346 373 340 346 Cuartil 3 = 365.75
347 374 340 347
347 375 340 347 Maquina 2
349 380 340 349
349 381 340 349 Cuartil 1 = 337 (En este caso el dato 13 y 14 son iguales)
349 384 340 349
350 385 340 350 Cuartil 3 = 343 (De igual forma, el dato 37 y 38 son iguales)
350 388 340 351
350 391 340 352
MAQUINA 1 MAQUINA 2
OTRA MEDIDA DE
DISPERSION
El Rango Intercuartil es otra
medida de dispersion utilizada
para poder determinar el rango de
valores en el que se encuentra el
50% de los datos, excluyendo el
50% que se encuentre en los
extremos, es decir, 25% en el
extremo superior y 25% en el
extremo inferior.
RANGO INTERCUARTIL
El rango intercuartil es la diferencia
entre el cuartil 3 y el cuartil 1:

RI = Q3 - Q1
EJEMPLO
Para las maquinas llenadoras:
Maquina 1:
365.75 - 343.25
22.5
Maquina 2:
343 - 337
6
DIAGRAMA DE CAJAS
Esta es una herramienta
sumamente util para comparar
distintos grupos de datos, ya que
permite ver en una sola grafica, la
tendencia central y la dispersion,
asi como detectar datos atipicos o
sospechosos.
Non-Outlier Max=25
Non-Outlier Min=19
75%=24
25%=20
Median=22
Outliers
BoxPlot (notas.STA1v*15c)
16
20
24
28
32
36
40
VAR1
EJEMPLO
PASOS PARA CONSTRUIR UN
DIAGRAMA DE CAJAS
Calcular los cuartiles 1,2 y 3.
Graficar una linea para cada uno
de los cuartiles. La caja queda
definida por el rango intercuartil y
la linea dentro de la caja identifica
la mediana.
Calcular el rango intercuartil (Q3 -
Q1) al que se denomina RI.
Calcular dos valores: Valor
Adyacente Superior y Valor
Adyacente Inferior (VAS y VAI).

Estos valores se calculan de la
siguiente manera:
VAS = Q3 + 1.5*RI
VAI = Q1 - 1.5*RI
Luego, encontrar en los datos dos
valores: m y M tal que:
m = max(Xi | Xi <= VAS)
M = min(Xi | Xi >= VAI)
Estos valores se grafican como los
limites de los alambres que nos
sirven para identificar datos
atipicos del conjunto de datos.
EJEMPLO
19 Posicion del cuartil 1 = (15*1 + 4 -1)/4
19 Posicion del cuartil 1 = 4.5
20 Cuartil 1 = 20.5
20 Posicion del cuartil 2 = (15*2 + 4-2)/4
21 Posicion del cuartil 2 = 8
21 Cuartil 2 = 22 (Mediana)
21 Posicion del cuartil 3 = (15*3 + 4-3)/4
22 Posicion del cuartil 3 = 11.5
22 Cuartil 3= 23.5
22 Rango Intercuartil = 23.5 - 20.5 = 3
23 VAS = Q3 + 1.5*RI = 23.5 + 1.5*3
24 VAS = 28
24 VAI = Q1 - 1.5*RI = 20.5 - 1.5*3
25 VAI = 16
35 m = 25
M = 19
Non-Outlier Max
Non-Outlier Min
Median; 75%
25%
BoxPlot (notas.STA2v*50c)
310
320
330
340
350
360
370
380
390
400
MAQUINA1 MAQUINA2
PARETO:
Forma de separar los pocos vitales
de los muchos triviales, que
significa en esencia analizar la
causas y efectos que constituyen
en el 80% de un problema y obviar
el 20% que suelen ser causas
triviales.
Este enfatiza en la mayora de los
casos que pocas causas pueden
ser provocadoras del 80% de
efectos de un problema.
Ejemplo:
Se presenta a continuacin una tabla con las causas a las que se atribuye el bajo
rendimiento de los alumnos en los programas de maestria que imparte FISICC.
Construya un diagrama de pareto para identificar cuales son los principales
problemas que afrontan los estudiantes.
Frecuencia Aporte por Acumulado
TIPO DE FACTOR Frecuencia Acumulada Factor %
Preparacin de la clase N/H 63 63 19.69% 19.69%
No estudiar adecuadamente 41 104 12.81% 32.50%
Metodologa de la enseanza 31 135 9.69% 42.19%
Programa de la maestria 28 163 8.75% 50.94%
Preparacin del Catedrtico 27 190 8.44% 59.38%
Interes 27 217 8.44% 67.81%
Asistencia 19 236 5.94% 73.75%
Mtodo de evaluar el curso 13 249 4.06% 77.81%
Caracteristicas del trabajo(est.) 11 260 3.44% 81.25%
Problemas familiares 9 269 2.81% 84.06%
Material didactico 9 278 2.81% 86.88%
Horario 9 287 2.81% 89.69%
Economia del estudiante 8 295 2.50% 92.19%
Transporte 7 302 2.19% 94.38%
Bibliografia 7 309 2.19% 96.56%
Otros 11 320 3.44% 100.00%
Total 320 100.00%
Diagrama de Pare de Factores que afectan el
redimiento de los alumnos de FISICC
0
10
20
30
40
50
60
70
P
r
e
p
a
r
a
c
i

n

d
e

l
a

c
l
a
s
e

N
/
H
N
o

e
s
t
u
d
i
a
r

a
d
e
c
u
a
d
a
m
e
n
t
e
M
e
t
o
d
o
l
o
g

a

d
e

l
a

e
n
s
e

a
n
z
a
P
r
o
g
r
a
m
a

d
e

l
a

m
a
e
s
t
r
i
a
P
r
e
p
a
r
a
c
i

n

d
e
l

C
a
t
e
d
r

t
i
c
o
I
n
t
e
r
e
s
A
s
i
s
t
e
n
c
i
a
M

t
o
d
o

d
e

e
v
a
l
u
a
r

e
l

c
u
r
s
o
C
a
r
a
c
t
e
r
i
s
t
i
c
a
s

d
e
l

t
r
a
b
a
j
o
(
e
s
t
.
)
P
r
o
b
l
e
m
a
s

f
a
m
i
l
i
a
r
e
s
M
a
t
e
r
i
a
l

d
i
d
a
c
t
i
c
o
H
o
r
a
r
i
o
E
c
o
n
o
m
i
a

d
e
l

e
s
t
u
d
i
a
n
t
e
T
r
a
n
s
p
o
r
t
e
B
i
b
l
i
o
g
r
a
f
i
a
O
t
r
o
s
F
r
e
c
u
e
n
c
i
a
COEFICIENTE DE VARIACION (cv)
La desviacin tipica y la varianza son medidas de variacin absoluta, es decir, miden la
cantidad real de la variacin presente en un conjunto de datos y dependen de la escala de
medicin.
Para comparar la variacin entre diferentes muestras de datos es conveniente usar el
coeficiente de variacin, el cual da la variacin tipica como un porcentaje de la media aritmtica.
_
cv = s / x * 100
El coeficiente de variacin mide la variacin relativa de una muestra.
APLICACIONES DE LAS
MEDIDAS DE TENDENCIA
CENTRAL Y DISPERSION
A B C D E
MEDIA 85 85 60 70 65
DESV
.
18 16 22 14 12
Cul es la clase ms homognea?
En cul espera que existan menos alumnos que pierdan
la clase?
En cul parece que hay ms problemas?
Comparando las clases A,B y D, En cul seguramente
hay notas ms altas?
Media Aritmetica 85 85 60 70 65
Desviacion Estandar 18 16 22 14 12
Coeficiente de variacion 21.18 18.82 36.67 20.00 18.46
Problema: Exmenes de curso
1. 2. 3 4 5 6
Media
90 65 90 85 65 90
Desv.
12.5 7 7.5 8 17.4 9.5
Cul cree Ud. Que fue el examen ms difcil?
Cul cree Ud. Que fue el ms fcil?
MEDIDAS DE FORMA
Las medidas de forma sirven para
darnos una idea respecto a la
simetria y la agudez de la
distribucion de los datos. Las
medidas de forma mas
importantes son:
Sesgo
Curtosis
SESGO
Desviacin
Moda Media
Sesgo

=
Si el resultado es positivo esta sesgada a la derecha
Si el resultado es negativo esta sesgada a la izquierda
OTRAS FORMULAS:
3*(MEDIA - MEDIANA)
SESGO=
DESVIACION
Curtosis:
Tambin se le denomina grado de agudez, y es el grado de
apuntamiento de una distribucin.
Existen 3 tipos:
Normal o mesocurtica:Distribucin no muy apuntalada ni
achatada, o sea normal.
Leptocurtica: Tiene apuntamiento.
Platicrtica: Ms achatada que la Normal.

VARIANZA (s
2
)
La varianza de la poblacin es similar a la desviacin media, pero en este caso,
para calcular la varianza sumamos el producto de las desviaciones al cuadrado por su
respectiva frecuencia (E f
i
* d
i
2
) y luego dividimos esta suma entre el nmero total de
datos. Al elevar al cuadrado cada desviacin, automticamente se hacen positivos todos
los nmeros y por tanto no es necesario tomar el valor absoluto de cada desviacin,
entonces tenemos:
_
s
2
= E f
i
*(x
i
- x)
2
N
Utilizando propiedades de las sumatorias, se puede calcular la varianza as:
_
s
2
= (E f
i
*x
i
2
)/N - (x)
2
Para valores no agrupados tmese f
i
= 1.
AGRUPACION DE DATOS:
Rango= Dato mayor -Dato menor
Nmero de clases (K)
K= 1 + 3.3. Log N (usar entre 3 y 12
intervalos como mximo)
Intervalos de clase (i)
i= Rango/K
Nmero de observaciones y nmero
de celdas recomendado:
De: 20 - 50 6 celdas
De: 51 - 100 7 celdas
De: 101 - 200 8 Celdas
De: 201 - 500 9 Celdas
De: 501 - 1000 10 celdas
De: 1000 en adelante 11 a 15 celdas
:
* )
2
(
Donde
i
f
F
n
L Mediana
Me
a
ri

+ =
L
ri
= Limite inferior de la celda donde esta la mediana
n = Nmero total de observaciones
F
a
= Frecuencia acumulativa anterior a la celda donde
esta la mediana

F
Me
= Frecuencia de la celda de la mediana
i = Ancho del intervalo de la celda.
MEDIANA
:
* ) (
2 1
1
Donde
i L Moda
ri
A + A
A
+ =
L
ri
= Limite inferior de la clase modal

= Diferencia con la clase anterior

= Diferencia con la clase posterior

i = Ancho del intervalo de la celda.
1
A
2
A
MODA
Intervalo Limites Aparentes Limites Reales Xi f F f r Fr Xi *f Xi -X (Xi - X) 2 f * (Xi - X) 2
1 10 19 9.5 19.5 14.5 3 3 0.03 0.03 43.500 -29.8 888.04 2664.12
2 20 29 19.5 29.5 24.5 14 17 0.14 0.17 343.000 -19.8 392.04 5488.56
3 30 39 29.5 39.5 34.5 29 46 0.29 0.46 1000.500 -9.8 96.04 2785.16
4 40 49 39.5 49.5 44.5 22 68 0.22 0.68 979.000 0.2 0.04 0.88
5 50 59 49.5 59.5 54.5 14 82 0.14 0.82 763.000 10.2 104.04 1456.56
6 60 69 59.5 69.5 64.5 10 92 0.1 0.92 645.000 20.2 408.04 4080.4
7 70 79 69.5 79.5 74.5 4 96 0.04 0.96 298.000 30.2 912.04 3648.16
8 80 89 79.5 89.5 84.5 2 98 0.02 0.98 169.000 40.2 1616.04 3232.08
9 90 99 89.5 99.5 94.5 2 100 0.02 1 189.000 50.2 2520.04 5040.08
Total 100 1 4430.000 Total 28396
MEDIA = 4430 44.30 Varianza = 28396 283.96
100 100
Desviacin = SQR(283.96) 16.85111
Calculo de Medidas de
Tendencia Central
HISTOGRAMA DE FRECUENCIAS
0
5
10
15
20
25
30
35
14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5
MARCA DE CLASE
F
R
E
C
U
E
N
C
I
A
Clculo de la MODA
32 . 36
10 * ) 22 / 15 ( 5 . 29
* ) (
2 1
1
1
=
+ =
A + A
A
+ = i L Moda
Clculo de la Mediana
32 . 41
10 * ) 22 / ) 46 50 (( 5 . 39
* )
2
(
=
+ =

+ = i
f
F
n
L Mediana
Me
a
ri
.
CUARTILES (Q
j
)
Anlogamente a la mediana, que divide en 2 partes los datos, los cuartiles son
parmetros que dividen la muestra de datos en 4 partes iguales, de manera que
se tiene:
CUARTIL PRIMERO (Q
1
)
Q
1
= 25% de los datos y se obtienen para 1N/4.
CUARTIL SEGUNDO (Q
2
)
Q
2
= 50% de los datos y se obtiene para 2N/4 = N/2. El cuartil 2 es igual a
la mediana.
CUARTIL TERCERO (Q
3
)
Q
3
= 75% de los datos y se obtiene para 3N/4.
LA FORMULA GENERAL ES:
Q
j
= Lri + ( (jN/4 - Fa
Qj
)/f
Qj
) * i
donde j representa el nmero del cuartil y jN/4 se calcula inicialmente y en base al
resultado obtenido, se sustituyen en la frmula los datos correspondientes al
intervalo donde la frecuencia acumulada sea mayor o igual a dicho resultado, el
clculo de un cuartil es similar al clculo de la mediana.
DECILES (D
j
)
Son los valores que dividen los datos en 10 partes iguales, como los cuartiles, y se
representan por:
D
1
= 10% de los datos y se obtiene para 1N/10,
D
2
= 20% de los datos y se obtiene para 2N/10,
y as sucesivamente hasta:
D
9
= 90% de los datos y se obtiene para 9N/10.
LA FORMULA GENERAL ES:
D
j
= Lri + ( (jN/10 - Fa
Dj
)/f
Dj
) * i
donde j representa el nmero del decil y se aplica anlogamente al clculo de los
cuartiles.
PERCENTILES (P
j
)
Los percentiles son parmetros que dividen a los datos en cien partes iguales y se
representan por:
P
1
= 1% de los datos y se obtiene para 1N/100,
P
2
= 2% de los datos y se obtiene para 2N/100,
P
3
= 3% de los datos y se obtiene para 3N/100,
y as sucesivamente hasta:
P
99
= 99% de los datos y se obtiene para 99N/100.
LA FORMULA GENERAL ES:
P
j
= Lri + ( ( jN/100 - Fa
Pj
)/f
Pj
) * i
donde j representa el nmero de percentil, y se calculan anlogamente a los
cuartiles y deciles.
Ntese que Me = Q
2
= D
5
= P
50
.
EJEMPLO
La siguiente tabla muestra una distribucin de frecuencias de los salarios
semanales de 65 empleados de una compaa:
Salarios
(Q)
No. de
empleados (f
i
)
Fa Limites reales
50.00 - 59.99
60.00 - 69.99
70.00 - 79.99
80.00 - 89.99
90.00 - 99.99
100.00 - 109.99
110.00 - 119.99
8
10
16
14
10
5
2
8
18
34
48
58
63
65
49.995 - 59.995
59.995 - 69.995
69.995 - 79.995
79.995 - 89.995
89.995 - 99.995
99.995 - 109.995
109.995 - 119.995
N = 65
Hallar:
a) Cuartil 3 (Q
3
).
b) Decil 2 (D
2
).
c) Percentil 5 (P
5
).
Solucin:
a) Q
3
= Lri + ( (3N/4 - Fa
Q3
)/f
Q3
) * i
3N/4 = 3x65/4 = 195/4 = 48.75
Se busca en las frecuencias acumuladas un nmero que sea
mayor o igual a 48.75, en este caso nos da el intervalo 89.995 -
99.995, y se sustituyen en la frmula todos los datos
correspondientes a ese intervalo:
Q
3
= 89.995 +( (48.75 - 48)/10) * 10 = 90.75
Esto significa que el 75% de los empleados ganan un salario de
Q90.75 o menos.
b) D
2
= Lri + ((2N/10 - Fa
D2
)/f
D2
) * i
2N/10 = 2x65/10 = 130/10 = 13
D
2
= 59.995 + ((13 - 8)/10) * 10 = 65.00
El 20% de los empleados ganan Q 65.00 o menos.
c) P
5
= Lri + ((5N/100 - Fa
P5
)/f
P5
) * i
5x65/100 = 3.25
P
5
= 49.995 + ((3.25 - 0)/8) * 10 = 54.06
El 5% de los empleados ganan Q 54.06 o menos.
EJEMPLO
Calcule la desviacin media del ejemplo anterior
(media aritmtica = 11.0917 ton):
Marcas de clase
(x
i
)
_
|x
i
- x|
_
f
i
*|x
i
- x|
9.5
10.0
10.5
11.0
11.5
12.0
12.5
13.0
1.5917
1.0917
0.5917
0.0917
0.4083
0.9083
1.4083
1.9083
3.1834
5.4585
7.1004
1.5589
5.7162
5.4498
4.2249
1.9083
E 36.6004
D.M. = 36.6004/60 = 0.61 Ton.
EJEMPLO
Con los datos del problema anterior, encuentre:
a) varianza (s
2
),
b) desviacin tpica (s),
c) desviacin estndar (s),
d) coeficiente de variacin (V).
Solucin
Xi fi fi * Xi (Xi - X)^2 fi * (Xi - X)^2
9.5 2.0 19.0 2.533403 5.066806
10.0 5.0 50.0 1.191736 5.958681
10.5 12.0 126.0 0.350069 4.200833
11.0 17.0 187.0 0.008403 0.142847
11.5 14.0 161.0 0.166736 2.334306
12.0 6.0 72.0 0.825069 4.950417
12.5 3.0 37.5 1.983403 5.950208
13.0 1.0 13.0 3.641736 3.641736
60.0 665.5 32.24583
Media = Suma(fx) / n Media = 665.5 11.091667
n = 60 60.0
Suma( fx) = 665.5
a) varianza (s
2
): Suma(fi * (xi X)^2)
s
2
= 32.2458/60 = 0.537
b) desviacin tpica (s):

s = \32.2458/60 = 0.733
c) desviacin estandar (s):

s = \32.2458/(60 - 1) = 0.739
como puede observarse, hay una variacin no significativa
entre la desviacin tpica y la estandar.
d) coeficiente de variacin (V): (S/X) * 100
V = 0.733/11.0917 * 100 = 6.61%
Ejemplos de uso de
la Desviacin tpica,
y Varianza
2
2
.) . (
) ) ( * (
. .
St Desv Varianza
n
X X f
St Desv
i
=

=

MOMENTOS
Se utilizan para producir valores
que sirven el clculo de las
medidas de asimetra y agudez.
Existen de 3 clases:
Con respecto del origen
Con respecto a la media.
Con respecto a cualquier punto.
Datos no agrupados:

Respecto al origen


Respecto a la media








,.. 3 , 2 , 1 = =

r donde
N
x
x
r
j r
,.. 2 , 1
) (
=

r donde
N
x x
m
r
j
r
Con respecto a cualquier punto.
,.. 3 , 2 , 1
) (
=

=
'

r donde
N
A x
m
r
j
r
Datos agrupados:


momento segundo r
media es r para
N
x f
x
r
j j
r
=
= =

2
1
. var , 2
) ( *
ianza es r
con donde
N
x x f
m
r
j j
r
=

N
A x f
m
r
j j
r


=
'
) ( *
Coeficiente de asimetra


Dado en funcin del momento 3


2
3
3
s
m
a =
+ Asimetria positiva
0 Simtrica
-Asimetria negativa.
METODO DE OCHO PASOS
PARA RESOLVER PROBLEMAS
UNA PERSONA VALIENTE NO ES EL QUE NO TIENE
MIEDO, SINO AQUEL QUE A PESAR DEL TEMOR LO
SUPERA Y SE ENFRENTA A SUS PROBLEMAS
Los problemas nunca se
acaban
Pero todo en la vida tiene solucin y los problemas
empresariales no son la excepcin. Sin embargo,
hay que saberlos tratar para que se resuelvan de
manera efectiva y, de ser posible, para siempre.
Mil cortes en las hojas del rbol del mal equivalen
a uno slo en las races Thoreau
Qu es un problema?
SITUACIN EN DONDE EL RENDIMIENTO O
COMPORTAMIENTO DE UN SISTEMA NO SA-
TISFACE LAS EXPECTATIVAS.

En general, podramos decir que existe un problema
cuando algo no ofrece el resultado que esperamos.

Los ocho pasos
Definicin del problema
Accin momentnea
Definicin del origen
Accin correctiva definitiva
Comprobacin
Estandarizacin
Documentacin
Conclusiones
1. Definicin del
problema
A) El tiempo en que ocurre
B) El tipo de problema
C) El sntoma presentado
D) Aspectos circunstanciales
E) Incluir informacin que no
pueda ser presentada en
forma de datos (grficas y
diagramas)
F) Considerar cundo, cunto,
qu, quin, dnde, etctera)
2. Accin momentnea
Es la accin para solucionar el
problema temporalmente y
as garantizar que, a pesar de
que el problema existe, ste no
va a afectar al cliente.

Busque una accin
momentnea a realizar para
cada problema
mientras lo resuelve de forma
definitiva.
3. Definicin del origen
del problema
Definir dnde exactamente se origin un problema es
la
clave para encontrar la solucin ms acertada.

A) Generar lluvia de ideas:
Un mismo problema puede ser visualizado de muy
distintas maneras por diferentes personas.
Importante: Debe realizarse en un clima de amistad.
Todas las ideas son importantes.

B) Elaborar diagrama de causa-efecto (Ishikawa):
Relacin entre un problema o resultado y las causas
que lo ocasionaron.
Construccin de un
diagrama de causa-efecto
1) Definir el problema
2) Identificar las causas mayores
ayudados por una lluvia
de ideas.
3) Identificar las subcausas.
4) Ponderar las causas antes de
evaluarlas
5) Evaluar las causas ms probables
6) Tomar una solucin.
Diagrama de causa-efecto
COMUNICACIN
INADECUADA
R.R. H.H.
EQUIPO
MEDIO
AMBIENTE
METODOS
LIDERAZGO
DESUNION
RESPONSABI
LIDAD
OPORTUNIDAD
IDENTIFICACION
CON LA
INSTITUCION
REL.
INTERNAS
ACTITUD
CONFIANZA
EQUIPO DE
COMPUTO
DESIGUALDAD TELEFONOS
ESPACIO
REDUCIDO
EXCESO DE
PERSONAS
VENTILA
CION
TRABAJO
CARGAS
TIEMPOS
PROCESOS
DEFINICIN
OBJETIVOS
CLAROS
INFORMACION
FORMA DE
TRANSMITIR
DISPONIBILI
DAD
CLARIDAD RIGIDEZ
DECISIONES
AUTORIDAD
RIGIDA
4. Accin correctiva definitiva
A) Actividades a realizar
B) Responsables
C) Involucrados
D) Tiempos
E) Recursos
5. Comprobacin
A) Tiempo de revisin
B) Frecuencia
C) Responsable
6. Estandarizacin
Los cambios debern establecerse de manera
formal para asegurar su correcta aplicacin en
adelante.
7. Documentacin
Recopilar toda la informacin, hechos, decisiones,
etctera, que se llevaron a cabo desde que apareci
el problema hasta su solucin definitiva.
8. Conclusiones
Aunque el problema resuelto sea el mismo, la experiencias
de cada una de las personas es diferente; cada quien
ve el problema desde su propia perspectiva.
Compartir experiencias es una forma de aprendizaje
muy enriquecedora.
Probabilidad:
Posibilidad de que algo llegue a
suceder
Frecuencia de un evento dentro
de un todo (poblacin).
P= (N
A
/N)
Donde:
N
A
= # de veces que ocurre el
evento A
N= # total de posibles resultados.
FORMULAS:
P(AUB)= P(A) + P(B) , para sucesos mutuamente
excluyentes (Si uno sucede es imposible que el
otro se produzca).
P(AUB)= P(A) + P(B) - P(A B)
Para eventos no mutuamente excluyentes.

Si A y B son eventos independientes:


P(A B)= P(A)*P(B)
Si los sucesos son dependientes:

P(A B)= P(A)*P(B/A)

PERMUTACION:
Es una disposicin ordenada de un
conjunto de objetos.
COMBINACION:
Si la forma como se ordenan es
irrelevante entonces se le llama
combinacin, (no importa el orden)
DISTRIBUCIONES DE
PROBABILIDAD Y
FRECUENCIA
Experimento: En estadistica, se
denomina experimento a cualquier
actividad que se realice con el fin
de comprobar una hipotesis.
Evento: Es el resultado de un
experimento.
Variables Aleatorias:
Es aquella que toma valores diferentes como resultado
de un experimento aleatorio
TIPOS:
DISCRETA: toma valores puntuales en una escala de
medicion.
CONTINUA: Puede tomar cualquier valor dentro de
una escala de medicion o de valores.
VALOR ESPERADO DE UNA VARIABLE ALEATORIA:
Es un promedio pesado del valor de cada resultado
posible multiplicado por la probabilidad de dicho
resultado
DISTRIBUCIONES DE PROBABILIDADES:
Estn relacionadas con las distribuciones de frecuencias,
generalmente se piensa como una distribucin de frecuencia
terica cuando se habla de distribucin de probabilidades.
TIPOS:
DISCRETAS: Cuando los datos y la variable toma nmeros
limitados de valores.
CONTINUAS: Cuando los datos y la variable (toma valores en
un rango a utilizar) y la poblacin se puede decir que es muy
grande (infinita)
DISTRIBUCIONES DISCRETAS:
Entre las funciones de distribucin de probabilidades que
ms utilizamos estn:
HIPERGEOMETICA
BINOMIAL
POISSON
LA DISTRIBUCION BINOMIAL:
Se utiliza en probabilidad discreta, cuyo nmero de elementos es
infinito, es usada cuando tenemos atributos, ejemplo: aceptable, no
aceptable, xito o fracaso, falla o no falla, etc.
Esta describe resultados de un proceso de Bernoulli (este proceso
dice que las probabilidades solo pueden ser p= xito, cara, etc
q=1-p, lo contrario de p. La probabilidad de este evento
permanece fijo respecto al tiempo.
Los eventos son estadsticamente independientes.
Se utiliza cuando la muestra de la poblacin es finita y se toma la
muestra sin reemplazo
Para fines de la carrera es muy poco utilizado.
HIPERGEOMETICA:
Formula de la Binomial:
P(Probabilidad de r xitos en n ensayos)=




p= probabilidad de tener xito
q= probabilidad de no tener xito
r= # de xitos deseados
n= # de intentos hechos.


r n r
q p
r n r
n

)
)! ( !
!
(
DISTRIBUCION DE POISSON:
Se utiliza en probabilidad discreta, se aplica a diversas situaciones
que aplican la realizacin de observaciones por unidad de tiempo.
Ejemplo contar el nmero de vehculos que llegan a una caseta de
control, contar el nmero de mquinas descompuestas durante 1 da,
distribucin de llamadas telefnicas que llegan a un conmutador, la
demanda de pacientes que necesitan servicios, etc.
CARACTERISTICAS:
Con el ejemplo del nmero de vehculos que pasan por una sola
caja de una caseta de cobro, daremos las caractersticas:
La media del nmero de vehculos que llegan por hora pico
puede estimarse a partir de datos sobre trfico que se tengan
disponibles.
Si dividimos la hora pico en perodos (intervalos) de un segundo
cada uno, encontraremos las siguientes afirmaciones:
A) La probabilidad de que exactamente un vehculo llegue a
una caja por segundo es muy pequeo.
B) La probabilidad de que dos o ms vehculos lleguen en un
intervalo de un segundo es muy pequea.
C) El nmero de vehculos que llegan a un intervalo dado de
un segundo es independiente de que dicho intervalo se
presente en la hora pico.
El nmero de llegadas en cualquier intervalo de un segundo
no depende del nmero de llegadas en cualquier otro
intervalo de un segundo.
FORMULA:
!
) (
X
e
X P
X


=
Donde:
= Nmero medio de presentaciones por intervalos de
tiempo.
X= Valor de variable.
FUNCIONES CONTINUAS:
La ms utilizada es la Normal y es sobre la
cual esta soportada muchas aplicaciones.
Definimos:


Donde:
x
i
= Dato
= Media
o
x x
Z
i

=
x
Desviacin = o
ANALISIS DE REGRESION Y
CORRELACION

ANALISIS DE REGRESION
El trmino regresin, se uso por primera vez como un concepto
estadstico por Sir Francis Galton. Galton hizo un estudio que mostr
que, la altura de los nios de los padres altos tiende a bajarse, o
"regresar", hacia la altura media de la poblacin. El design la palabra
"regresin" como el nombre del proceso general de predecir una variable
(la altura de los nios), a partir de otra (la altura de los padres).

Posteriormente, los estadsticos usaron el trmino regresin mltiple
para describir el proceso mediante el cual se usan varias variables para
predecir otra.

En el anlisis de regresin, se desarrollar una ecuacin de
estimacin, es decir, una frmula matemtica que relaciona las variables
conocidas con la variable desconocida
TIPOS DE RELACIONES DE CURVAS DE REGRESION
Los anlisis de regresin y correlacin, estn basados en
la relacin o asociacin entre dos o ms variables. La
variable conocida es llamada variable independiente.
La variable que se est tratando de predecir es la
variable dependiente.

REGRESION LINEAL
La ecuacin de la relacin lineal es:

Y = a
o
+ a
1
X

Donde a
o
& a
1
son parmetros estadsticos que se
deben calcular.
METODO DE MINIMOS CUADRADOS
Consideremos los puntos representados por (X
1
,Y
1
), (X
2
,Y
2
), ..., (X
n
,Y
n
). Para
un valor de X
i
, existir una diferencia D
i
entre Y
i
y el valor que da la ecuacin de
ajuste. Cada diferencia D
i
, se conoce como desviacin, error o residuo; la
cual, puede ser positiva, negativa o cero.
De todas las curvas de aproximacin a una serie de datos puntuales, la curva
que tiene la propiedad de que:
D
1
2
+ D
2
2
+ ... + D
N
2
es mnimo
se conoce como la mejor curva de ajuste. As una recta con esta propiedad se
llama recta de mnimos cuadrados y tiene la ecuacin:
Y = a
o
+ a
1
X
donde las constantes a
o
y a
1
se determinan mediante el sistema de ecuaciones
simultneas:
E Y = a
o
(N) + a
1
(E X)
E XY = a
o
(E X) + a
1
(E X
2
)
que son llamadas ecuaciones normales para la recta de mnimos cuadrados.
Si se resuelve el sistema en forma general, entonces se obtienen las siguientes
frmulas:
















=
2 2
1
2 2
2
) ( ) (
) )( ( ) (
) ( ) (
) )( ( ) )( (
x x N
y x xy N
a
x x N
xy x x y
a
o
Formulas para calcular los valores
CORRELACION
La correlacin, es el grado de relacin que existe entre las variables, y un
anlisis de correlacin determina en que medida una ecuacin lineal o de
otro tipo describe o explica de una forma adecuada la relacin entre las
dos variables.

Si todos los valores de las variables satisfacen exactamente una
ecuacin, se dice que las variables estn correlacionadas perfectamente
o que hay correlacin perfecta entre ellas. As las reas "A" y los radios
"r" de todos los crculos estn correlacionados perfectamente, puesto que
A = t * r
2
. Las variables altura y peso de los individuos muestran cierta
correlacin.
CORRELACION LINEAL
Consideremos el diagrama de dispersin de la figura 4.3, si "Y" tiende a
incrementarse cuando "X" aumenta, como en (a), la correlacin se dice
positiva o correlacin directa. Si "Y" tiende a disminuir cuando se
incrementa "X", como en (b), la correlacin se dice negativa o correlacin
inversa. Si no hay ninguna relacin entre las variables, como en (c), se
dice que no hay correlacin entre ellas, es decir, no estn
correlacionadas.

COEFICIENTE DE CORRELACION
LINEAL

Si se supone una relacin lineal entre las
dos variables, el coeficiente de
correlacin se calcula como:





Donde r esta en el rango entre -1 y 1, si
r=1 se dice que es una buena correlacin
y si r=0, no hay correlacin




=
] ) ( ][ ) ( ) [(
) )( ( ) (
2 2 2 2
y y N x x N
y x xy N
r
COEFICIENTE DE DETERMINACION

Al cuadrado del coeficiente de correlacion se le denomina coeficiente de
determinacion. Aunque el mas utilizado es el coeficiente de correlacion, es el
coeficiente de determinacion el que tiene un significado mas concreto. El
coeficiente de determinacion representa la fraccion (o el porcentaje) de la
variacion de y que es explicada por la variacion de x. Por ejemplo, si
obtenemos un coeficiente de correlacion de 0.95 y lo elevamos al cuadrado
obtenemos 0.9025, es decir que la variacion de la variable independiente (x)
explica el 90.25% de la variacion de la variable dependiente (y). El otro 10% de
la variacion de y es atribuible a otras causas que pueden incidir en dicha
variable.
EJEMPLO
Los siguientes datos son las mediciones de velocidad del
aire y del coeficiente de evaporacin de las gotitas de
combustible en una turbina de propulsin.

Velocidad del aire Coeficiente de evaporacin
X (cm/seg) Y (mm
2
/seg)

20 0.18
60 0.37
100 0.35
140 0.78
180 0.56
220 0.75
260 1.18
300 1.36
340 1.17
380 1.65
Encuentre:
a) la ecuacin de la recta
de mnimos cuadrados,
b) utilice la ecuacin
anterior, para estimar
el coeficiente de
evaporacin de una
gotita
cuando la velocidad
del aire es de 190 cm/seg,
c) coeficiente de
correlacin.

SOLUCION:

a) Recta de regresin "Y" sobre "X":

X Y X
2
Y
2
XY

20 0.18 400 0.0324 3.6
60 0.37 3,600 0.1369 22.2
100 0.35 10,000 0.1225 35.0
140 0.78 19,600 0.6084 109.2
180 0.56 32,400 0.3136 100.8
220 0.75 48,400 0.5625 165.0
260 1.18 67,600 1.3924 306.8
300 1.36 90,000 1.8496 408.0
340 1.17 115,600 1.3689 397.8
380 1.65 144,400 2.7225 627.0

2,000 8.35 532,000 9.1097 2,175.4

N = 10 datos
E X = 2,000 E X
2
= 532,000
E Y = 8.35 E XY = 2,175.40
Sustituyendo en las ecuaciones normales:
E Y = a
o
N + a
1
E X
E XY = a
o
E X + a
1
E X
2

8.35 = a
o
10 + a
1
2,000 (1)
2,175.40 = a
o
2,000 + a
1
532,000 (2)
Resolviendo las ecuaciones (1) y (2) en forma simultnea
tenemos:
a
o
= 0.069 ; a
1
= 0.0038,
sustituyendo en Y = a
o
+ a
1
X, obtenemos la ecuacin de la
recta de regresin de "Y" sobre "X":
Y = 0.069 + 0.0038 X (3)
b) para X = 190 el coeficiente de evaporacin ser:
Y = 0.069 + 0.0038(190) = 0.79
Y = 0.79 mm
2
/seg
c) el coeficiente de correlacin es :

r = 10(2,175.40) - (2,000)(8.35) = 0.95
\ [10(532,000)-(2,000)
2
][10(9.1097) - (8.35)
2
]

El valor del coeficiente de correlacin nos indica:

que la correlacin es positiva, debido al signo del coeficiente,

que la relacin entre X & Y es bastante buena, ya que el
coeficiente es bastante cercano a 1, en valor absoluto,

cuando el coeficiente es bastante cercano a cero, se dice
que no hay correlacin entre las variables X & Y.
d) el coeficiente de determinacion es :

r^2 = 0.95 ^ 2 = 0.9025 equivalente a 90.25%
El valor del coeficiente de determinacion nos indica:

Que podemos atribuir en un 90.25% la variacion de Y a la
variacion de X y un 9.75% de la variacion es atribuible a otros
factores que no fueron considerados en el modelo matematico.
Cuando el porcentaje es bajo, digamos abajo del 80%, debemos
escoger otra variable independiente o agregar una variable mas al
modelo y realizar un analisis de regresion multiple.
CURVE EXPERT
Es uno de tantos programas
disponibles para realizar analisis
de regresion y correlacion. Tiene
la ventaja de tener predetermina-
dos una gran cantidad de modelos,
aparte de los que el usuario quiera
definir. Es un Shareware que se
encuentra disponible en internet.

Vous aimerez peut-être aussi