Vous êtes sur la page 1sur 59

ESTADSTICA GUA BSICA PARA

ECONOMISTAS Y ADMINISTRADORES


2






UNI VE R S I DAD NAC I ONAL
JOS FAUSTINO SNCHEZ CARRIN

FACULTAD DE CIENCIAS
INSTITUTO DE INVESTIGACIN
TEXTO UNIVERSITARIO


ESTADSTICA GUA BSICA PARA
ECONOMISTAS Y ADMINISTRADORES

AUTORES
Mg. Benigno Walter Moreno Mantilla
Lic. Cristin Ivn Escurra Estrada
Lic. Miguel ngel Aguilar Luna Victoria

HUACHO PER
2011
1

3




AGRADECIMIENTO


En forma muy especial a cada una de nuestras familias,
quienes reconocen el esfuerzo que le ponemos en cada una
de nuestras hazaas acadmicas, y hacen de nuestra labor
de investigacin el mas insaciable gusto por aportar a la
ciencia. As como tambin, a los investigadores y autores
de textos bibliogrficos que nos han servido de consulta en
el desarrollo del texto que presentamos.

Los autores

2

4

NDICE DE CONTENIDO


Pg.
PROLOGO
UNIDAD I: Definiciones bsicas, comparacin y discusin.
Variables
6
UNIDAD II: Clculo del tamao muestral. Tcnicas y
Mtodos para la recoleccin de datos y diseos
de cuestionarios.
13
UNIDAD III: Tablas de frecuencia, grficos. Medidas de
tendencia central. Medidas de Dispersin.
Asimetra y Kurtosis.
26
UNIDAD IV: Regresin y correlacin lineal simple.

40
EPILOGO 44
GLOSARIO DE TRMINOS 45
BIBLIOGRAFA 46
APENDICE 47







5




PRLOGO


En este texto, presentamos las principales tcnicas para clculos estadsticos, con
aplicaciones en la empresa:
a) Definiciones bsicas, comparacin y discusin. Variables. Ver Unidad I.

b) Clculo del tamao muestral. Tcnicas y Mtodos para la recoleccin de
datos y diseos de cuestionarios. Ver Unidad II.

c) Tablas de frecuencia, grficos. Medidas de tendencia central. Medidas de
Dispersin. Asimetra y Kurtosis. Ver Unidad III.

d) Regresin y correlacin lineal simple. Ver Unidad IV.



Los autores




5

6

UNIDAD I: Definiciones bsicas, comparacin y discusin. Variables.

DEFINICIN DE ESTADSTICA
La estadstica, es la ciencia que trata de la recopilacin, organizacin presentacin, anlisis
e interpretacin de datos generalmente numricos con el fin de realizar una toma de
decisin ms efectiva. As mismo, se puede considerar como el conjunto de indicadores
numricos que caracterizan diferentes aspectos de la vida social, incluyendo la produccin,
las relaciones polticas, culturales de la vida cotidiana; se refiere alas colecciones
sistemticas de datos relativos a un fenmeno.
La Estadstica aplicada a la Economa da una caracterizacin cuantitativa y cualitativa del
volumen, composicin y dinamismo de las fuerzas productivas y adems refleja el
comportamiento de las relaciones de produccin, estudia las fuerzas productivas de un
pas, las condiciones de produccin, etc.

TIPOS DE ESTADSTICA
Teniendo en cuenta las funciones, cometidos y el mbito de la Estadstica entendida como
mtodo de aplicacin de los principios cientficos para la resolucin de problemas
socioeducativos y la toma de decisiones, podemos identificar dos grandes tipos, segn las
tareas a las que debe enfrentarse, la descriptiva y la inferencial:
Estadstica Descriptiva: Es la tcnica que se va a encargar de la recopilacin,
presentacin, tratamiento y anlisis de los datos, con el objeto de resumir, describir las
caractersticas de un conjunto de datos y por lo general toman forma de tablas y grficas.
En realidad, transforma un conjunto de nmeros u observaciones en ndices que sirven para
describir o caracterizar esos datos dentro de los grupos de sujetos. La podemos considerar
como una parte de la Estadstica que se ocupa del estudio de los mtodos y tcnicas
necesarios para la descripcin grfica y numrica de los conjuntos de datos, ello nos ofrece
una visin global del grupo de sujetos que es objeto de estudio. Estos clculos tienen
limitaciones en la interpretacin de los estadsticos, pues en muchas ocasiones nos

7

debemos centrar en una comparacin entre el valor de la muestra y otros que procedan de
muestras similares, por lo que no aporta suficientes argumentos cientficos al investigador
en la toma de decisiones sobre los grupos.
Estadstica Inferencial: Tcnica mediante la cual se sacan acerca de parmetros de una
poblacin basndose en los estadgrafos de una muestra de poblacin. Se dedica a la
generacin de los modelos, inferencias y predicciones asociadas a los fenmenos en
cuestin teniendo en cuenta la aleatoriedad de las observaciones, bajo un nivel de
confianza definido por el investigador. Se usa para modelar patrones en los datos y extraer
inferencias acerca de la poblacin bajo estudio
POBLACIN: Es el conjunto de todos los posibles elementos que intervienen en un
experimento o en un estudio.
CENSO: Al estudio completo de la poblacin.
TIPOS DE POBLACIN:
POBLACIN FINITA: Es aquella que indica que es posible alcanzarse o sobrepasarse al
contar. Es aquella que posee o incluye un nmero limitado de medidas y observaciones.
POBLACIN INFINITA: Es infinita si se incluye un gran conjunto de medidas y
observaciones que no pueden alcanzarse en el conteo.
Son poblaciones infinitas porque hipotticamente no existe lmite en cuanto al nmero de
observaciones que cada uno de ellos puede generar.
MUESTRA: Un conjunto de medidas u observaciones tomadas a partir de una poblacin
dada. Es un subconjunto de la poblacin.
MUESTRA REPRESENTATIVA: Un subconjunto representativo seleccionado de una
poblacin de la cual se obtuvo.
MUESTREO: Al estudio de la muestra representativa.
PARMETRO: Son las caractersticas medibles en una poblacin completa. Se le asigna
un smbolo representado por una letra griega.

8

ESTADSTICO O ESTADGRAFO: Es la medida de una caracterstica relativa a una
muestra. La mayora de los estadsticos muestrales se encuentran por medio de una frmula
y suelen asignrseles nombres simblicos que son letras latinas.
DATOS ESTADSTICOS: Los datos son agrupaciones de cualquier nmero de
observaciones relacionadas.
Para que se considere un dato estadstico debe tener 2 caractersticas:
a) Que sean comparables entre s.
b) Que tengan alguna relacin.
VARIABLE: Es una caracterstica de los elementos de la poblacin que pueden ser
medibles.
TIPOS DE VARIABLES: Existen varios tipos de Variables, entre ellos tenemos:
Por su Dependencia en la Investigacin. Pueden ser:
Variable Dependiente: Aquellas que su valor a medir depende de otras variables.
Variable Independiente: Aquellas cuyo valor a medir no depende de otras variables y
en algunos casos afecta el resultado de otras variables.
Variable Interviniente: Aquellas que en una investigacin intervienen indirectamente
en el efecto de otra variable o que cuyo valor se necesita tomar en cuenta para
interpretar o analizar otras variables principales.

Por su Naturaleza. Pueden ser:
Variable Cuantitativa: cuando la variable a medir asume valores netamente
numricos, estas a su vez se clasifican en:
Variable Cuantitativa Discreta: Es aquella que puede asumir slo ciertos
valores, mas conocidos como nmeros enteros. Estos deben ser indivisibles y es
ilgico interpretarlos como decimales.

9

Ejemplo: El nmero de hijos (0, 1, 2, 3, )
Variable Cuantitativa Continua: Es aquella que tericamente puede tomar
cualquier valor en una escala de medidas, ya sea entero o fraccionario.se puede
interpretar con cierta lgica en decimales.
Ejemplo: Estatura: (1.90 m.); Ingreso Econmico (700.52)
Variables Cualitativas: Cuando no es posible hacer medidas numricas sino que son
caracteres de los elementos de poblacin y son susceptibles de clasificacin.
Ejemplo: Color de autos: rojo, verde, azul.
UNIDAD DE ANLISIS: La unidad de anlisis corresponde a la entidad mayor o
representativa de lo que va a ser objeto especfico de estudio en una medicin y se refiere
al qu o quin es objeto de inters en una investigacin. Por ejemplo:
Debe estar claramente definida en un protocolo de investigacin y el investigador debe
obtener la informacin a partir de la unidad que haya sido definida como tal, aun cuando,
para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de anlisis
pueden corresponder a las siguientes categoras o entidades:
Personas
Grupos humanos
Poblaciones completas
Unidades geogrficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exmenes, das camas)
El tipo de anlisis al que se someter la informacin es determinante para elegir la unidad
de anlisis.
EXPERIMENTO: Es una actividad planificada, cuyos resultados producen un conjunto
de datos. Es el proceso mediante el cual una observacin o medicin es registrada. En un
experimento se consideran todas las variables relevantes que intervienen en el fenmeno,
mediante la manipulacin de las que presumiblemente son su causa, el control de las
variables extraas y la aleatorizacin de las restantes. Estos procedimientos pueden variar

10

mucho segn las disciplinas (no es igual en Fsica que en Psicologa, por ejemplo), pero
persiguen el mismo objetivo: excluir explicaciones alternativas (diferentes a la variable
manipulada) en la explicacin de los resultados. Este aspecto se conoce como validez
interna del experimento, la cual aumenta cuando el experimento es replicado por otros
investigadores y se obtienen los mismos resultados. Cada repeticin del experimento se
llama prueba o ensayo.
Las distintas formas de realizar un experimento (en cuanto a distribucin de unidades
experimentales en condiciones o grupos) son conocidas como diseos experimentales.
Ejemplo: Cul ser la preferencia del consumidor ante dos marcas de refresco con
similares caractersticas en un ambiente armnico y sin publicidad?
ESCALAS DE MEDICIN
Medir significa asignar nmeros a objetos y eventos de acuerdo a reglas (Stevens, 1951),
esta definicin es adecuada para el rea de ciencias naturales, en el campo de las ciencias
sociales medir es el proceso de vincular conceptos abstractos con indicadores empricos
(Carmines y Zeller, 1979, p. 10).
La medicin de las variables puede realizarse por medio de cuatro escalas de medicin.
Dos de las escalas miden variables categricas y las otras dos miden variables numricas
(Therese L. Baker, 1997). Los niveles de medicin son las escalas nominal, ordinal, de
intervalo y de razn. Se utilizan para ayudar en la clasificacin de las variables, el diseo
de las preguntas para medir variables, e incluso indican el tipo de anlisis estadstico
apropiado para el tratamiento de los datos.
Una caracterstica esencial de la medicin es la dependencia que tiene de la posibilidad de
variacin. La validez y la confiabilidad de la medicin de una variable depende de las
decisiones que se tomen para operacionalizarla y lograr una adecuada comprensin del
concepto evitando imprecisiones y ambigedad, pero en caso contrario, la variable corre el
riesgo inherente de ser invalidada debido a que no produce informacin confiable. Se
conocen cuatro escalas de medicin:
Escala Nominal: Usa nombres para designarlos, pueden usar nmeros pero solo para
designarlos, sus clasificaciones no tiene un orden jerrquico. Por ejemplo, si la unidad de

11

anlisis es un grupo de personas, para clasificarlas se puede establecer la categora sexo
con dos niveles, masculino (M) y femenino (F), los respondientes solo tienen que sealar
su gnero, no se requiere de un orden real.
As, si se asignan nmeros a estos niveles solo sirven para identificacin y puede ser
indistinto: 1=M, 2=F o bien, se pueden invertir los nmeros sin que afecte la medicin:
1=F y 2=M.
Escala Ordinal: son aquellas variables cuyas caractersticas de medicin pueden ser
ordenadas jerrquicamente Las formas mas comunes de variables ordinales son tems
(reactivos) actitudinales estableciendo una serie de niveles que expresan una actitud de
acuerdo o desacuerdo con respecto a algn referente. Por ejemplo, ante el tem: La
economa mexicana debe dolarizarse, el respondiente puede marcar su respuesta de
acuerdo a las siguientes alternativas:
___ Totalmente de acuerdo
___ De acuerdo
___ Indiferente
___ En desacuerdo
___ Totalmente en desacuerdo
las anteriores alternativas de respuesta pueden codificarse con nmeros que van del uno al
cinco que sugieren un orden preestablecido pero no implican una distancia entre un
nmero y otro. Las escalas de actitudes son ordinales pero son tratadas como variables
continuas (Therese L. Baker, 1997).
Escalas de Intervalo: registra de manera numrica la distancia entre dos puntos, el cero no
indica ausencia de variable y es arbitrario. El ejemplo mas representativo de este tipo de
medicin es un termmetro, cuando registra cero grados centgrados de temperatura indica
el nivel de congelacin del agua y cuando registra 100 grados centgrados indica el nivel
de ebullicin, el punto cero es arbitrario no real, lo que significa que en este punto no hay
ausencia de temperatura.

12

Una persona que en un examen de matemticas que obtiene una puntuacin de cero no
significa que carezca de conocimientos, el punto cero es arbitrario por que sigue existiendo
la caracterstica medida. Otros ejemplos son fecha de calendario, horas, etc.
Escala de Razn: Es una escala mas fuerte. Determina la distancia exacta entre los
intervalos de una categora, el cero es absoluto e implica ausencia y la diferencia de dos
variables es de magnitud conocida. Es decir, en el punto cero no existe la caracterstica o
atributo que se mide. Las variables de ingreso, edad, nmero de hijos, etc. son ejemplos de
este tipo de escala. El nivel de medicin de razn se aplica tanto a variables continuas
como discretas.



13

UNIDAD II: Clculo del tamao muestral. Tcnicas y Mtodos para la recoleccin
de datos y diseos de cuestionarios.
Poblacin
Es el conjunto de elementos de referencia sobre el que se realizan las observaciones. Es
decir el conjunto de sujetos o individuos con determinadas caractersticas demogrficas, de
la que se obtiene la muestra para cualquier estudio a la que se quiere inferir los resultados
de dicho estudio. Las poblaciones pueden ser finitas, si existe un nmero fijo de estos
valores; e infinitas si la poblain consiste en una sucesin interminable de valores.
Muestra
Tambin llamada muestra aleatoria o simplemente muestra) es un subconjunto de casos o
individuos de una poblacin estadstica. Se obtienen con la intencin de inferir propiedades
de la totalidad de la poblacin, para lo cual deben ser representativas de la misma. Para
cumplir esta caracterstica la inclusin de sujetos en la muestra debe seguir una tcnica de
muestreo. En tales casos, puede obtenerse una informacin similar a la de un estudio
exhaustivo con mayor rapidez y menor costo. El muestreo puede ser ms exacto que el
estudio de toda la poblacin porque el manejo de un menor nmero de datos provoca
tambin menos errores en su manipulacin.
Ventajas de la eleccin de una muestra
El estudio de muestras es preferible a los censos por las siguientes razones:
1. La poblacin es muy grande (en ocasiones, infinita, como ocurre en determinados
experimentos aleatorios) y, por tanto, imposible de analizar en su totalidad.
2. Las caractersticas de la poblacin varan si el estudio se prolonga demasiado tiempo.
3. Reduccin de costos: al estudiar una pequea parte de la poblacin, los gastos de
recogida y tratamiento de los datos sern menores que si los obtenemos del total de la
poblacin.
4. Rapidez: al reducir el tiempo de recogida y tratamiento de los datos, se consigue mayor
rapidez.
5. Viabilidad: la eleccin de una muestra permite la realizacin de estudios que seran
imposible hacerlo sobre el total de la poblacin.

14

6. La poblacin es suficientemente homognea respecto a la caracterstica medida, con lo
cual resultara intil malgastar recursos en un anlisis exhaustivo (por ejemplo, muestras
sanguneas).
7. El proceso de estudio es destructivo o es necesario consumir un artculo para extraer la
muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda,
precisin de un proyectil, etc.).
Espacio Muestral
Es el conjunto de todas las posibles muestras que se pueden extraer de una poblacin
mediante una determinada tcnica de muestreo.
Concepto e importancia del muestreo
Es la actividad por la cual se toman ciertas muestras de una poblacin de elementos de los
cuales vamos a tomar ciertos criterios de decisin, el muestreo es importante porque a
travs de l podemos hacer anlisis de situaciones de una empresa o de algn campo de
la sociedad.

Terminologa bsica para el muestreo
Los nuevos trminos, los cuales son frecuentemente usados en inferencia estadstica son:
Estadstico:
Un estadstico es una medida usada para describir alguna caracterstica de una muestra, tal
como una media aritmtica, una mediana o una desviacin estndar de una muestra.
Parmetro:
Una parmetro es una medida usada para describir alguna caracterstica de una poblacin,
tal como una media aritmtica, una mediana o una desviacin estndar de una poblacin.
Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso de
estimacin en inferencia estadstica puede ser descrito como le proceso de estimar un
parmetro a partir del estadstico correspondiente, tal como usar una media muestral ( un
estadstico para estimar la media de la poblacin (un parmetro).
Distribucin en el muestreo:
Cuando el tamao de la muestra (n) es ms pequeo que el tamao de la poblacin (N), dos
o ms muestras pueden ser extradas de la misma poblacin. Un cierto estadstico puede

15

ser calculado para cada una de las muestras posibles extradas de la poblacin.
Una distribucin del estadstico obtenida de las muestras es llamada la distribucin en el
muestreo del estadstico.
Por ejemplo, si la muestra es de tamao 2 y la poblacin de tamao 3 (elementos A, B, C),
es posible extraer 3 muestras (AB, BC y AC) de la poblacin. Podemos calcular la media
para cada muestra. Por lo tanto, tenemos 3 medias mustrales para las 3 muestras. Las 3
medias mustrales forman una distribucin. La distribucin de las medias es llamada la
distribucin de las medias mustrales, o la distribucin en el muestreo de la media. De la
misma manera, la distribucin de las proporciones (o porcentajes) obtenida de todas las
muestras posibles del mismo tamao, extradas de una poblacin, es llamada la
distribucin en el muestreo de la proporcin.
Error Estndar:
La desviacin estndar de una distribucin, en el muestreo de un estadstico, es
frecuentemente llamada el error estndar del estadstico. Por ejemplo, la desviacin
estndar de las medias de todas la muestras posibles del mismo tamao, extradas de una
poblacin, es llamada el error estndar de la media. De la misma manera, la desviacin
estndar de las proporciones de todas las muestras posibles del mismo tamao, extradas de
una poblacin, es llamada el error estndar de la proporcin. La diferencia entre los
trminos "desviacin estndar" y "error de estndar" es que la primera se refiere a los
valores originales, mientras que la ltima est relacionada con valores calculados. Un
estadstico es un valor calculado, obtenido con los elementos incluidos en una muestra.
Error muestral o error de muestreo:
La diferencia entre el resultado obtenido de una muestra (un estadstico) y el resultado el
cual deberamos haber obtenido de la poblacin (el parmetro correspondiente) se llama el
error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se
lleva a cabo la encuesta completa de la poblacin, sino que se toma una muestra para
estimar las caractersticas de la poblacin. El error muestral es medido por el error
estadstico, en trminos de probabilidad, bajo la curva normal. El resultado de la media
indica la precisin de la estimacin de la poblacin basada en el estudio de la muestra.
Mientras ms pequeo el error muestras, mayor es la precisin de la estimacin. Deber
hacerse notar que los errores cometidos en una encuesta por muestreo, tales como
respuestas inconsistentes, incompletas o no determinadas, no son considerados como

16

errores mustrales. Los errores no mustrales pueden tambin ocurrir en una encuesta
completa de la poblacin.
Mtodos de seleccin de muestras.
Una muestra debe ser representativa si va a ser usada para estimar las caractersticas de la
poblacin. Los mtodos para seleccionar una muestra representativa son numerosos,
dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y
la naturaleza de los elementos individuales de la poblacin. Por lo tanto, se requiere un
gran volumen para incluir todos los tipos de mtodos de muestreo.
Los mtodos de seleccin de muestras pueden ser clasificados de acuerdo a:
1. El nmero de muestras tomadas de una poblacin dada para un estudio y
2. La manera usada en seleccionar los elementos incluidos en la muestra. Los mtodos de
muestreo basados en los dos tipos de clasificaciones son expuestos en seguida.
Mtodos de muestreo clasificados de acuerdo con el nmero de muestras tomadas de una
poblacin.
Bajo esta clasificacin, hay tres tipos comunes de mtodos de muestreo. Estos son,
muestreo simple, doble y mltiple.
Muestreo simple
Este tipo de muestreo toma solamente una muestra de una poblacin dada para el propsito
de inferencia estadstica. Puesto que solamente una muestra es tomada, el tamao de
muestra debe ser lo suficientemente grande para extraer una conclusin. Una muestra
grande muchas veces cuesta demasiado dinero y tiempo.
Muestreo doble
Bajo este tipo de muestreo, cuando el resultado dele estudio de la primera muestra no es
decisivo, una segunda muestra es extrada de la misma poblacin. Las dos muestras son
combinadas para analizar los resultados. Este mtodo permite a una persona principiar con
una muestra relativamente pequea para ahorrar costos y tiempo. Si la primera muestra
arroja una resultado definitivo, la segunda muestra puede no necesitarse.
Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera
muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el
lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, ser
requerir la segunda muestra. Un plan tpico de muestreo doble puede ser obtenido de la

17

Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada
por el Departamento de Defensa y tambin usado por muchas industrias privadas. Al
probar la calidad de un lote consistente de 3,000 unidades manufacturadas, cuando el
nmero de defectos encontrados en la primera muestra de 80 unidades es de 5 o menos, el
lote es considerado bueno y es aceptado; si el nmero de defectos es 9 o ms, el lote es
considerado pobre y es rechazado; si el nmero est entre 5 y 9, no puede llegarse a una
decisin y una segunda muestra de 80 unidades es extrada del lote. Si el nmero de
defectos en las dos muestras combinadas (incluyendo 80 + 80 = 160 unidades) es 12 o
menos, el lote es aceptado si el nmero combinado es 13 o ms, el lote es rechazado.
Muestreo mltiple
El procedimiento bajo este mtodo es similar al expuesto en el muestreo doble, excepto
que el nmero de muestras sucesivas requerido para llegar a una decisin es ms de dos
muestras.
Mtodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los
elementos de una muestra.
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:
a. Basados en el juicio de una persona.
b. Seleccin aleatoria (al azar)
Muestreo de juicio
Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados
mediante juicio personal. La persona que selecciona los elementos de la muestra,
usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra
probabilstica, puesto que este mtodo est basado en los puntos de vista subjetivos de una
persona y la teora de la probabilidad no puede ser empleada para medir el error de
muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y
que el costo usualmente es bajo.
Muestreo Aleatorio
Una muestra se dice que es extrada al azar cuando la manera de seleccin es tal, que cada
elemento de la poblacin tiene igual oportunidad de ser seleccionado. Una muestra
aleatoria es tambin llamada una muestra probabilstica son generalmente preferidas por
los estadsticos porque la seleccin de las muestras es objetiva y el error muestral puede ser
medido en trminos de probabilidad bajo la curva normal. Los tipos comunes de muestreo

18

aleatorio son el muestreo aleatorio simple, muestreo sistemtico, muestreo estratificado y
muestreo de conglomerados.
A. Muestreo aleatorio simple
Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del
mismo tamao tiene igual probabilidad de ser seleccionada de la poblacin. Para obtener
una muestra aleatoria simple, cada elemento en la poblacin tenga la misma probabilidad
de ser seleccionado, el plan de muestreo puede no conducir a una muestra aleatoria simple.
Por conveniencia, este mtodo pude ser reemplazado por una tabla de nmeros aleatorios.
Cuando una poblacin es infinita, es obvio que la tarea de numerar cada elemento de la
poblacin es infinita, es obvio que la tarea de numerar cada elemento de la poblacin es
imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son
necesarias. Los tipos ms comunes de muestreo aleatorio modificado son sistemtico,
estratificado y de conglomerados.
B. Muestreo sistemtico.
Una muestra sistemtica es obtenida cuando los elementos son seleccionados en una
manera ordenada. La manera de la seleccin depende del nmero de elementos incluidos
en la poblacin y el tamao de la muestra. El nmero de elementos en la poblacin es,
primero, dividido por el nmero deseado en la muestra. El cociente indicar si cada
dcimo, cada onceavo, o cada centsimo elemento en la poblacin va a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra
sistemtica puede dar la misma precisin de estimacin acerca de la poblacin, que una
muestra aleatoria simple cuando los elementos en la poblacin estn ordenados al azar.

C. Muestreo Estratificado
Para obtener una muestra aleatoria estratificada, primero se divide la poblacin en grupos,
llamados estratos, que son ms homogneos que la poblacin como un todo. Los elementos
de la muestra son entonces seleccionados al azar o por un mtodo sistemtico de cada
estrato. Las estimaciones de la poblacin, basadas en la muestra estratificada, usualmente
tienen mayor precisin (o menor error muestral) que si la poblacin entera muestreada
mediante muestreo aleatorio simple. El nmero de elementos seleccionado de cada estrato
puede ser proporcional o desproporcional al tamao del estrato en relacin con la
poblacin.

19

D. Muestreo de conglomerados.
Para obtener una muestra de conglomerados, primero dividir la poblacin en grupos que
son convenientes para el muestreo. En seguida, seleccionar una porcin de los grupos al
azar o por un mtodo sistemtico. Finalmente, tomar todos los elementos o parte de ellos al
azar o por un mtodo sistemtico de los grupos seleccionados para obtener una muestra.
Bajo este mtodo, aunque no todos los grupos son muestreados, cada grupo tiene una igual
probabilidad de ser seleccionado. Por lo tanto la muestra es aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto,
da menor precisin de las estimaciones acerca de la poblacin) que una muestra aleatoria
simple del mismo tamao. Los elementos individuales dentro de cada "conglomerado"
tienden usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio,
mientras que la gente pobre puede vivir en otra rea. No todas las reas son muestreadas en
un muestreo de reas. La variacin entre los elementos obtenidos de las reas
seleccionadas es, por lo tanto, frecuentemente mayor que la obtenida si la poblacin entera
es muestreada mediante muestreo aleatorio simple. Esta debilidad puede reducida cuando
se incrementa el tamao de la muestra de rea.
El incremento del tamao de la muestra puede fcilmente ser hecho en muestra muestra de
rea. Los entrevistadores no tienen que caminar demasiado lejos en una pequea rea para
entrevistar ms familias. Por lo tanto, una muestra grande de rea puede ser obtenida
dentro de un corto perodo de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisin en la
estimacin que una muestra aleatoria simple, si la variacin de los elementos individuales
dentro de cada conglomerado es tan grande como la de la poblacin.
DISEO DE CUESTIONARIOS
Supuestos.
El uso de cuestionarios en investigacin supone que:
1. El investigador debe partir de objetivos de estudio perfectamente definidos.
2. Cada pregunta es de utilidad para el objetivo planteado por el trabajo.
3. El investigador debe estructurar las preguntas teniendo en mente siempre los
objetivos del trabajo.
4. El que contesta est dispuesto y es capaz de proporcionar respuestas fidedignas.

20

Confiabilidad.
Una pregunta es confiable si significa lo mismo para todos los que la van a responder.
Se puede confiar en una escala cuando produce constantemente los mismos resultados al
aplicarla a sujetos similares. La confiabilidad implica consistencia.
El investigador debe asegurarse que el tipo de persona a quien se le van a hacer las
preguntas tenga la informacin necesaria para poder responder.
El asegurar la respuesta de los que se les aplique el cuestionario redundar en resultados
confiables.
Para la confiabilidad de los resultados hay que determinar por qu no todos respondieron el
cuestionario. Es necesario investigar con los no respondientes para conocer las razones.
Un cuestionario largo es demasiado cansado y las preguntas finales se responden sin
entusiasmo, lo cual le resta confiabilidad.
Validez.
Una pregunta es vlida si estimula informacin exacta y relevante. La seleccin y
la redaccin influyen en la validez de la pregunta.
Algunas preguntas que son vlidas para un grupo de personas, pueden no serlo para otro
grupo.
Entre menos tenga que reflexionar el sujeto, ms vlida ser la respuesta.
La validez implica congruencia en la manera de plantear las preguntas.
La validez puede ser
- De contenido
- De criterio
- De constructo
Para decir que un instrumento tiene validez de contenido el diseador del cuestionario debe
asegurarse que la medicin representa el concepto medido. Por ejemplo, si el instrumento
es para medir actitudes de las personas, debe medir eso y no sus emociones.
En cuanto a la validez de criterio, el diseador del cuestionario la puede establecer
comparando la medicin del instrumento con un criterio externo. Entre ms se relacionen
los resultados de la investigacin con el criterio, mayor ser la validez del instrumento.
La validez del constructo indica cmo una medicin se relaciona con otras de acuerdo con
la teora o hiptesis que concierne a los conceptos que se estn midiendo. De ah que sea

21

importante que el investigador tome en cuenta dichos conceptos para correlacionarlos
posteriormente.
Cuatro preguntas clave.
1. De cunto tiempo disponen quienes respondern para contestar el cuestionario?
2. Cunto tiempo tiene el investigador para editarlo, presentarlo, aplicarlo,
codificarlo, procesarlo y analizarlo?
3. Qu tan dispuestos estn para responder quienes van a contestar?
4. Cunto costar su aplicacin?
Antes de disear el cuestionario.
Es necesario determinar si el cuestionario tendr preguntas abiertas o cerradas. Para el
anlisis de las preguntas es mejor que stas sean cerradas. Para cerrarlas, primero se deben
hacer las preguntas abiertas con una muestra de la poblacin. Con estas respuestas, se
pueden disear las preguntas cerradas.
Es necesario estar seguros de que los encuestados respondan. Por eso es importante
conocer las opiniones de los posibles sujetos acerca del tema a investigar, antes de
disearlo.
El contacto inicial es fundamental para lograr que los encuestados respondan.
Hay que preparar una explicacin para los encuestados sobre la importancia de su
participacin y lo que se har con los resultados de la investigacin. En esta explicacin se
les debe asegurar el anonimato de su participacin y ofrecerles una copia del resumen del
trabajo cuando ste est terminado (habr que cumplir esta promesa).
No es conveniente mencionar que se est llevando a cabo este trabajo para cubrir un
requisito de graduacin (tesis), sino la importancia real del estudio. Todo cuestionario debe
hacerse con ese propsito en mente.
El investigador tiene que pensar en cmo va a presentar los resultados antes de elaborar el
cuestionario. Hay que involucrar a alguien que sea responsable de capturar la informacin
de los cuestionarios as como a una persona que haga el procesamiento de los datos en
la computadora. Ellos pueden ayudar a determinar la mejor presentacin de cada una de las
preguntas. Eso no lo va a hacer un asesor de tesis; es indispensable la ayuda profesional de
un experto en cmputo y en estadstica.


22

Diseo del cuestionario.
El ttulo del trabajo debe estar al inicio del cuestionario.
Hay que incluir instrucciones breves, pero incluirlas. Es conveniente usar una tipografa
diferente a la de las preguntas.
Al inicio deben colocarse preguntas interesantes, no amenazantes.
Los puntos importantes deben ir cercanos al inicio del cuestionario, despus de las
preguntas interesantes.
Hay que numerar las preguntas.
Es importante agrupar las preguntas en secciones lgicas.
Debe haber una categora para cada posible respuesta, pues si se omite una opcin, se
forzar al que responde a contestar de una manera que no refleje su respuesta. Por eso en
ocasiones se necesita abrir una opcin de "otros" con un rengln amplio para dejar esa
parte de la pregunta abierta. Tambin, a veces, es necesario incluir una opcin de "no s",
pues si no existe sta, el sujeto puede seleccionar cualquier respuesta simplemente para no
dejarla en blanco.

Consejos sobre la presentacin.
La apariencia fsica de un cuestionario es la imagen del investigador con el encuestado. Su
misma forma motiva o impide su lectura. En cuestionarios largos, hay que identificar cada
pgina con alguna marca por si se separan las hojas. Lo mejor es no hacer cuestionarios
largos. Si hay preguntas por ambos lados de la pgina, al final de la primera hoja se debe
poner "vuelta". La hoja no debe verse sobrecargada. Los espacios vacos son agradables.
Hay que dejar suficiente espacio entre cada una de las preguntas.
Consejos sobre el lenguaje.
Una redaccin pobre influye en el resultado y tambin en la calidad de la respuesta
obtenida.
El sujeto no debe tener que adivinar lo que se quiso preguntar. La pregunta debe estar
escrita en lenguaje claro.
La palabra cuestionario asusta o intimida al que va a responder. Encuesta es mejor.
Las preguntas deben estar redactadas para no ofender al sujeto.

23

Hay que utilizar lenguaje comn y corriente. No especializado.
No deben usarse palabras vagas ni palabras ambiguas o que tengan varios significados.
Las preguntas no deben estar en negativo.
No se debe abreviar.
Hay que ser sutil para cambiar de una seccin a otra.
La formulacin correcta de una pregunta es una tarea muy difcil, mucho ms de lo que
una persona que nunca ha diseado un cuestionario puede imaginarse. Hay que hacerlo con
cuidado.

Consejos generales.
El contestar un cuestionario es una imposicin para quien lo contesta. Hay que estar
conscientes de ello.
El uso de un cuestionario es nicamente para hacer preguntas que no se pueden obtener de
ninguna otra manera.
Lo que recuerda el sujeto no se debe considerar como un hecho. Puede ser muy diferente el
hecho a lo que recuerda la persona que est respondiendo.
Todas las preguntas en el cuestionario tienen que ser analizadas. Por eso hay que
seleccionar nicamente reactivos indispensables para obtener los objetivos del trabajo.
Es indispensable pilotear el cuestionario.
Se debe establecer el procedimiento de anlisis y evaluacin de los resultados antes de
llevar a cabo la encuesta. As se sabr cmo analizar las respuestas.
Vale la pena consultar a expertos en estadstica y en procesamiento de datos antes de
aplicar un cuestionario.
Las posibles respuestas tienen que estar cerca de las preguntas. Esto evita confusiones.
El decidir utilizar un cuestionario obedece a los indicadores que el autor determine en sus
fundamentos tericos. Analizar los indicadores puede ayudar al investigador a determinar
que el cuestionario no es el instrumento adecuado para el estudio que desea realizar.
En general a la gente en Mxico no le gusta responder a cuestionarios.



24

Anlisis de preguntas abiertas.
Para analizar las preguntas abiertas se anotar en una hoja (#1) la respuesta a la primera
pregunta abierta del primer cuestionario. Si la respuesta a la primera pregunta del segundo
cuestionario es similar, se anotar en la misma hoja (#1). Si es diferente se anotar en otra
hoja (#2). Si la respuesta a la primer pregunta del tercer cuestionario es semejante a la del
primer cuestionario se anotar en esa hoja (#1); si es similar a la del segundo cuestionario
se anotar en esa hoja (#2) y si es diferente a ambas respuestas se anotar en una tercera
hoja (#3) y as sucesivamente hasta terminar con la primera pregunta de todos los
cuestionarios. Una vez terminado el anlisis de la primera pregunta de todos los
cuestionarios, se seleccionar la mejor redactada o bien se har un resumen de todas las
respuestas en cada una de las tarjetas y se anotar el nmero de respuestas a cada tarjeta.
Posteriormente se har lo mismo con cada una de las preguntas abiertas que se hayan
hecho en el cuestionario.

Anlisis de los resultados.
Es necesario una revisin detallada de lo que se introduce a la computadora para asegurar
que la informacin que entre a ella sea la que est plasmada en el cuestionario. Hay que
revisar la informacin capturada con cada cuestionario. No se debe esperar hasta el final,
pues pudiera suceder que es necesario hacer todo de nuevo.

Algunos consejos para entrevistas.
Si la entrevista es en una oficina, es necesario asegurarse que el entrevistado estar
disponible y que tiene el tiempo para responder a las preguntas.
El entrevistador tiene que ser muy objetivo en sus presentaciones para que en todas se
utilice el mismo tono de voz, pronunciacin de los reactivos, modismos, el lenguaje del
cuerpo y vestimenta. Todo esto influye en las respuestas y se trata de que todos los
entrevistados entiendan lo mismo y estn motivados de la misma manera.
El entrevistar en la casa del sujeto a veces resulta prctico para el entrevistado. Quiz a
travs de una llamada por telfono, se pueda hacer una cita con l.
Hay tres factores importantes en una entrevista:

25

1. La calidad del entrevistador. Hay que aprender a establecer un contacto positivo desde
el primer momento. Hay cosas impredecibles que afectarn sin que el entrevistador
pueda remediarlas: la edad, el sexo, su manera de vestir y su personalidad. Ni modo. Por
eso hay que cuidar todo lo dems.
2. La introduccin que hace el entrevistador al entrevistado. Le tiene que indicar el
objetivo del estudio y debe convencerlo de que vale la pena responder a sus preguntas.
3. La manera como est estructurada la entrevista. Hay que iniciar con preguntas
interesantes para "enganchar" al entrevistado.




26

UNIDAD III: Tablas de frecuencia, grficos. Medidas de Tendencia Central. Medidas
de Posicin. Medidas de Dispersin. Asimetra y Kurtosis.
Una distribucin de frecuencias o tabla de frecuencias es una ordenacin en forma de tabla
de los datos estadsticos, asignando a cada dato su frecuencia correspondiente.
Tipos de frecuencia
Frecuencia absoluta
La frecuencia absoluta es el nmero de veces que aparece un determinado valor en un
estudio estadstico.
Se representa por fi.
La suma de las frecuencias absolutas es igual al nmero total de datos, que se representa
por N.

Para indicar resumidamente estas sumas se utiliza la letra griega (sigma mayscula) que
se lee suma o sumatoria.

Frecuencia relativa
La frecuencia relativa es el cociente entre la frecuencia absoluta de un determinado valor y
el nmero total de datos.
Se puede expresar en tantos por ciento y se representa por ni.

La suma de las frecuencias relativas es igual a 1.
Frecuencia acumulada

27

La frecuencia acumulada es la suma de las frecuencias absolutas de todos los valores
inferiores o iguales al valor considerado.
Se representa por Fi.
Frecuencia relativa acumulada
La frecuencia relativa acumulada es el cociente entre la frecuencia acumulada de un
determinado valor y el nmero total de datos. Se puede expresar en tantos por ciento.
Ejemplo para variables cuantitativas discretas.
Si se conoce el nmero de hijos de 31 trabajadores de una empresa:
0, 7, 4, 4, 6, 4, 4, 4, 1, 1, 2, 2, 2, 3, 3, 3, 5, 3, 4, 4, 4, 2, 2, 2, 3, 3, 3, 5, 5, 6, 6.
En la primera columna de la tabla colocamos la variable ordenada de menor a mayor, en la
segunda hacemos el recuento y en la tercera anotamos la frecuencia absoluta.

xi Recuento fi Fi ni Ni ni% Ni%
0 I 1 1 0.032 0.032 3.2 3.2
1 II 2 3 0.065 0.097 6.5 9.7
2

6 9 0.194 0.290 19.4 29.0
3

7 16 0.226 0.516 22.6 51.6
4

8 24 0.258 0.774 25.8 77.4
5 III 3 27 0.097 0.871 9.7 87.1
6 III 3 30 0.097 0.968 9.7 96.8
7 I 1 31 0.032 1 3.2 100.0

Total 31 - 1 - 100.0 -



28

Distribucin de frecuencias agrupadas
La distribucin de frecuencias agrupadas o tabla con datos agrupados se emplea si las
variables toman un nmero grande de valores o la variable es continua.
Se agrupan los valores en intervalos que tengan la misma amplitud denominados clases. A
cada clase se le asigna su frecuencia correspondiente.
Lmites de la clase
Cada clase est delimitada por el lmite inferior de la clase y el lmite superior de la clase.
Amplitud de la clase
La amplitud de la clase es la diferencia entre el lmite superior e inferior de la clase.
Marca de clase
La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el
intervalo para el clculo de algunos parmetros.
Construccin de una tabla de datos agrupados.
1 se localizan los valores menor y mayor de la distribucin.
R = nmero mximo nmero menor
2 Encontrar el nmero de clases o intervalos de clases (K). El nmero de clases debe ser
tal que se evite el detalle innecesario, pero que no conduzca a la perdida de ms
informacin de la que puede ser convenientemente ignorada. Para este clculo se utiliza la
formula de Sturges:
K = 1 + 3.322log(n)
2 Determinar la amplitud o constante.
C = R /K
Ejemplo para variables cuantitativas continuas
La tienda CABRERAS Y ASOCIADOS estaba interesada en efectuar un anlisis de sus
cuentas por comprar. Uno de los factores que ms interesaba a la administracin de la
tienda era el de los saldos de las cuentas de crdito. Se escogi al azar una muestra
aleatoria de 30 cuentas y se anot el saldo de cada cuenta (en unidades monetarias) como
sigue:

29

77.97 13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 43.66 29.75 7.42 93.91 20.64
21.10 17.64 81.59 60.94 43.97 32.67 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15
25.68
donde: X1 = valor mnimo = 7.42
Xn= valor mximo = 93.91
1. Efectuar el arreglo ordenado de la poblacin o muestra:
R = valor mayor valor menor = 93.91 7.42 = 86.49
2. Encontrar el nmero de filas o clases que tendr la tabla
K=1+3.322(log N)
Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra:
K = 1 + 3.322 (log 30)
= 1 + 3.322 (1.477) el log fue obtenido segn calculadora
= 1+ 4.9069
= 5.9069 ~6 aproximado al siguiente entero
3. Determinar la amplitud de la clase: "C"

Nota: obsrvese que se va a trabajar con una cifra significativa ms cmoda, o sea como
los datos estn dados en centsimos, se calculo C hasta el milsimo para evitar que algn
dato coincida con el lmite de clases


30

Clases Xi fi Fi< Fi> ni Ni ni% Ni%
7.420 21.835 14.628 10 10 30 0.33 0.33 33.0 33.0
21.835 36.250 29.043 4 14 20 0.13 0.46 13.0 46.0
36.250 50.665 43.458 5 19 16 0.17 0.63 17.0 63.0
50.665 65.080 57.873 3 22 11 0.10 0.73 10.0 73.0
65.080 79.495 72.288 3 25 8 0.10 0.83 10.0 83.0
79.495 93.910 86.703 5 30 5 0.17 1.00 17.0 100.0
Total - 30 - - 1.00

100.0 -
Simbologa utilizada:
Xi = Punto medio o marca de clases.
fi =frecuencia absoluta simple.
Fi> = frecuencia absoluta acumulada mayor que.
Fi< = frecuencia absoluta acumulada menor que.
ni = frecuencia relativa simple.
Ni = frecuencia relativa acumulada.
ni% = frecuencia relativa simple porcentual.
Ni% = frecuencia relativa acumulada porcentual.
Tipos de curvas de frecuencia


31

MEDIDAS DE TENDENCIA CENTRAL
Son indicadores estadsticos quemuestran hacia que valor (o valores) se agrupan los datos.
Entre las principales medidas tenemos:

La media aritmtica
La moda
La mediana

Media Aritmtica
Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable
por la frecuencia total. En palabras ms simples, corresponde a la suma de un conjunto de
datos dividida por el nmero total de dichos datos. Y se calcula con el fin de representar al
conjunto de datos.
Para datos desagrupados:
X = Xi / n
Para datos agrupados:
X = ( Xi*fi) / n
Mediana
Para reconocer la mediana, es necesario tener ordenados los valores sea de mayor a menor
o lo contrario. Usted divide el total de casos (N) entre dos, y el valor resultante
corresponde al nmero del caso que representa la mediana de la distribucin.
Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente.
Dicho en otras palabras, la Mediana corresponde al valor que deja igual nmero de valores
antes y despus de l en un conjunto de datos agrupados.
Para datos desagrupados
Segn el nmero de valores que se tengan se pueden presentar dos casos:
- Si el nmero de valores es impar, la Mediana corresponder al valor central de
dicho conjunto de datos.
- Si el nmero de valores es par, la Mediana corresponder al promedio de los dos
valores centrales (los valores centrales se suman y se dividen por 2).
Para datos agrupados

32

Me = Li + ( C (n/2 - F
i 1
) / (Fi - F
i 1
) )
Donde:
n = muestra
F
(i 1)
= frecuencia acumulada menor que anterior a la clase seleccioanada.
F
i
= frecuencia acumulada seleccionada (inmediatamente superior a n/2)
Moda
Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos; o
sea, cual se repite ms.
Para datos desagrupados: la moda es el dato que se repite con mayor frecuencia. Se tiene 4
tipos:
- Unimodal (una moda)
- Bimodal (dos modas)
- Trimodal (tres modas)
- Multimodal (mas de tres modas)
Para datos agrupados
Mo = Li + C (f
i 1
/ (f
i 1
+ f
i + 1
) )
Medidas de Posicin
Cuartiles
Los cuartiles son medidas estadsticas de posicin que tienen la propiedad de dividir la
serie estadstica en cuatro grupos de nmeros iguales de trminos.
Se emplean generalmente en la determinacin de estratos o grupos correspondientes a
fenmenos socio-econmicos, monetarios o tericos. Los tres cuartiles suelen designarse
con los smbolos:
Q1 = primer cuartil
Q2 = segundo cuartil
Q3 = tercer cuartil

33

En lo que se refiere a los cuartiles, el nmero de orden del primer cuartil es igual al nmero
de trminos de la distribucin ms uno, sobre cuatro. Para el segundo cuartil el nmero de
orden se calcular sumando uno al total de trminos y dividindolo entre dos.
As mismo el nmero de orden del tercer cuartil ser igual a tres cuartos del nmero de
trminos de la distribucin ms uno.

Para datos Desagrupados
a) Si se adopta el smbolo No Q para denotar el nmero de orden, donde: No es el
nmero de trminos y Q el cuartil a calcular, entonces en el ejemplo cuyos
trminos son: 3, 4, 5, 7, 8, 10, 11, que es nmero de trminos impar, el nmero de
orden se calcula as:
NoQ
1
= (N + 1) / 4 = (7+1)/4 = 2, el cual indica que el valor jdel segundo trmino (4)
es el valor de Q
1
, luego Q
1
=4
NoQ
2
= (N + 1) / 2 = (7+1)/2 = 4, el cual indica que el valor del cuarto trmino (7) es
el valor de Q
2
, y Q
2
=7
NoQ
3
= 3(N + 1) / 4 = 3(7+1)/4 = 6, que indica que el valor del sexto trmino (10) es
el valor de Q
3
, y Q
3
= 10

b) Cuando el nmero de trminos es par como la distribucin constituida por: 3, 4, 5,
7, 9, 10, 11, 14
NoQ
1
= (No + 1) / 4 = (8+1)/4 = 2.25, luego Q
1
=4.25
NoQ
2
= (No + 1) / 2 = (8+1)/2 = 4.5, luego Q
2
=8
NoQ
3
= 3(No + 1) / 4 = 3(8+1)/4 = 6.75, luego Q
3
=10.75

Para datos Agrupados
Q
i
= Li + [C ( i(N + 1) / 4 - F
i 1
) / (Fi - F
i 1
) ]
Donde: i=1, 2, 3
n = muestra
F
(i 1)
= frecuencia acumulada menor que anterior a la clase seleccioanada.
F
i
= frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/4)




34

Deciles
Los deciles son medidas estadsticas de posicin que tienen la propiedad de dividir la
serie estadstica en diez grupos de nmeros iguales de trminos. D
1
, D
2
,..D
9
.
Para el clculo de estas nueve medidas de posicin es necesario arreglar los trminos
en forma creciente o decreciente. As, en el caso de un ordenamiento simple, el
siguiente paso es determinar el "nmero de orden" de los deciles, el cual indicar el
lugar que ocupen en la distribucin.
Para datos desagrupados
NoD
i
= i (No + 1) / 10 donde i=1, 2, 3, 4, 5, 6, 7, 8, 9
Para datos Agrupados
D
i
= Li + [C ( i(N + 1) 10 - F
i 1
) / (Fi - F
i 1
) ]
Donde: i=1, 2, 3
n = muestra
F
(i 1)
= frecuencia acumulada menor que anterior a la clase seleccioanada.
F
i
=frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/10)

Percentiles
Los Percentiles son medidas estadsticas de posicin que tienen la propiedad de dividir
la serie estadstica en cien grupos de nmeros iguales de trminos. P
1
, P
2
,..P
99
.

Para el clculo de estas noventainueve medidas de posicin es necesario arreglar los
trminos en forma creciente o decreciente. As, en el caso de un ordenamiento simple,
el siguiente paso es determinar el "nmero de orden" de los percentiles, el cual indicar
el lugar que ocupen en la distribucin.
Para datos desagrupados
NoP
i
= i (No + 1) / 100 donde i=1, 2, 3, 4, 5,99

Para datos Agrupados
P
i
= Li + [C ( i(N + 1) 100 - F
i 1
) / (Fi - F
i 1
) ]
Donde: i=1, 2, 3, .99
n = muestra
F
(i 1)
= frecuencia acumulada menor que anterior a la clase seleccioanada.
F
i
=frecuencia acumulada seleccionada inmediatamente superior a (i(N+1)/100).

35

Medidas de Asimetra
1) Las basadas en el grado de alejamiento que tiene los trminos con respecto a diversas
medidas centrales a medida que la distribucin se hace asimtrica.
2) Las basadas en el sistema de momentos (A3 ).
En lo que se refiere a las primeras, estas medidas nos indican no slo el grado de asimetra
de la curva sino tambin la direccin de la misma. Si su valor es negativo, la asimetra es
hacia la izquierda y si es positiva la asimetra ser hacia la derecha. De (1) usaremos el
coeficiente Pearson, como se recordar en una distribucin simtrica la media, moda y
mediana, se encuentran en el mismo punto. Si la distribucin es asimtrica, el valor de cada
uno de ellos se localizan en diferentes puntos de la distribucin.

Puesto que en una distribucin asimtrica el valor de la moda permanece en lo alto de la
curva y el de la media se mueve hacia los extremos de la distribucin, usando el coeficente
Pearson tendremos que:
Asimetra = (XMo) /
Cuando no se conoce la moda o es difcil localizarla, pero se conoce la mediana, el
coeficiente de Pearson ser:
Asimetra = 3(XMd) /
Luego la asimetra o direccin de la curva de la distribucin es a la derecha (si asimetra <
0), indicando que la mayor parte de los datos estn a la derecha del promedio. Y hacia la
izquierda si la asimetra es > 0.




Medidas de Kurtosis
Esta medida determina el grado de concentracin que presentan los valores en la regin
central de la distribucin. Por medio del Coficiente de Curtosis, podemos identificar si

36

existe una gran concentracin de valores (Leptocrtica), una concentracin normal
(Mesocrtica) una baja concentracin (Platicrtica).


Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la
media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta frmula se
interpretan:
- (g2 = 0) la distribucin es Mesocrtica: Al igual que en la asimetra es bastante
difcil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar
los valores cercanos ( 0.5 aprox.).
- (g2 > 0) la distribucin es Leptocrtica
- (g2 < 0) la distribucin es Platicrtica
Medidas de dispersin
Rango o recorrido
El rango es la diferencia entre el mayor y el menor de los datos de una distribucin
estadstica.
R = N mx. - N mn.


37

Desviacin Media
La desviacin respecto a la media es la diferencia entre cada valor de la variable
estadstica y la media aritmtica.
D
i
= x x
La desviacin media es la media aritmtica de los valores absolutos de las desviaciones
respecto a la media. La desviacin media se representa por
Para datos desagrupados:

Para datos agrupados seria:



Varianza
La varianza es la media aritmtica del cuadrado de las desviaciones respecto a la
media de una distribucin estadstica. La varianza se representa por .


38

Para datos desagrupados:

Una forma mas simple

Para datos agrupados:

Una forma mas simple

Desviacin Estndar:
Es la raz cuadrada de la varianza. Es decir, la raz cuadrada de la media de los cuadrados
de las puntuaciones de desviacin. Y mide la distancia promedio entre los datos.
=
2

Coeficiente de Variacin de Pearson:
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor
representativo, las medidas de dispersin nos dicen hasta que punto estas medidas de
tendencia central son representativas como sntesis de la informacin. Las medidas de

39

dispersin cuantifican la separacin, la dispersin, la variabilidad de los valores de la
distribucin respecto al valor central. Distinguimos entre medidas de dispersin absolutas,
que no son comparables entre diferentes muestras y las relativas que nos permitirn
comparar varias muestras.
El problema de las medidas de dispersin absolutas es que normalmente son un indicador
que nos da problemas a la hora de comparar. Comparar muestras de variables que entre s
no tienen cantidades en las mismas unidades, de ah que en ocasiones se recurra a medidas
de dispersin relativas.
Un problema que se plantea, tanto la varianza como la desviacin estndar, especialmente
a efectos de comparaciones entre distribuciones, es el de la dependencia respecto a las
unidades de medida de la variable. Cuando se quiere comparar el grado de dispersin de
dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son
iguales se utiliza el llamado "Coeficiente de Variacin de Pearson", del que se demuestra
que nos da un nmero independiente de las unidades de medidas empleadas, por lo que
entre dos distribuciones dadas diremos que posee menor dispersin aquella cuyo
coeficiente de variacin sea menor., y que se define como la relacin por cociente entre la
desviacin estndar y la media aritmtica; o en otras palabras es la desviacin estndar
expresada como porcentaje de la media aritmtica.
Definicin del Coeficiente de Variacin

Donde: C.V. representa el nmero de veces que la desviacin tpica contiene a la media
aritmtica y por lo tanto cuanto mayor es CV mayor es la dispersin y menor la
representatividad de la media.
Propiedades del Coeficiente de Variacin:
- Si a todos los valores de la variable se le suma una misma constante el coeficiente
de variacin queda alterado.



40

UNIDAD III: REGRESIONES Y CORRELACIONES
La regresin como una tcnica estadstica, una de ellas la regresin lineal simple y la
regresin multifactorial, analiza la relacin de dos o mas variables continuas, cuando
analiza las dos variables a esta se le conoce como variable bivariante que puede
corresponder a variables cualitativas, la regresin nos permite el cambio en una de las
variables llamadas respuesta y que corresponde a otra conocida como variable explicativa,
la regresin es una tcnica utilizada para inferir datos a partir de otros y hallar una
respuesta de lo que puede suceder.
Siendo as la regresin una tcnica estadstica, por lo tanto para interpretar situaciones
reales, pero a veces se manipula de mala manera por lo que es necesario realizar una
seleccin adecuada de las variables que van a construir las formulas matemtica, que
representen a la regresin, por eso hay que tomar en cuenta variables que tiene relacin, de
lo contraria se estara matematizando un galimatas.
Se pueden encontrar varios tipos de regresin, por ejemplo:
1. Regresin lineal simple
2. Regresin mltiple ( varias variables)
3. Regresin logstica
La regresin lineal tcnica que usa variables aleatorias, continuas se diferencia del otro
mtodo analtica que es la correlacin, porque esta ltima no distingue entre las variables
respuesta y la variable explicativa por que las trata en forma simtrica.
La matematizacin nos da ecuaciones para manipular los datos, como por ejemplo medir el
gasto de acuerdo al ingreso econmico promedio anual de una familia, aqu podemos
inferir o predecir que el gasto variar de acuerdo al nivel de ingreso de cada familia, en
este ejercicio el gasto es la respuesta y el ingreso econmico la variable explicativa.
En la regresin tenemos ecuaciones que nos representan las diferentes clases de regresin:
Regresin Lineal: y = A + Bx
Regresin Logartmica: y = A + BLn(x)
Regresin Exponencial: y = Ac(bx)
Regresin Cuadrtica: y = A + Bx +Cx2
Para obtener un modelo de regresin es suficiente establecer la regresin para eso se hace
uso del coeficiente de correlacin: R.

41

R = Coeficiente de correlacin, este mtodo mide el grado de relacin existente entre dos
variables, el valor de R vara de -1 a 1, pero en la prctica se traba con un valor absoluto de
R.
El valor del coeficiente de relacin se interpreta de modo que a media que R se aproxima a
1, es ms grande la relacin entre los datos, por lo tanto R (coeficiente de correlacin)
mide la aproximacin entre las variables.
El coeficiente de correlacin se puede clasificar de la siguiente manera:
CORRELACIN VALOR O RANGO
1) Perfecta R = 1
2) Excelente R = 0.9 < = R < 1
3) Buena R = 0.8 < = R < 0.9
4) Regular R = 0.5 < = R < 0.8
5) Mala R < 0.5

DISTRIBUCIN BIVARIANTE
La distribucin bivariante es cuando se estudia en una poblacin dos variables, que forman
pares correspondientes a cada individuo, como por Ejm:
Las notas de 10 alumnos en biologa y lenguaje
BIOLOGIA 2 4 5 5 6 6 7 7 8 9
LENGUAJE 2 2 5 5 5 7 5 8 7 10
Los pares de valores son: ( 2, 2) (4,2) (5,5).(8,7) (9,10) forman una distribucin
bivariante.
La correlacin, mtodo por el cual se relacionan dos variables se pude graficar con un
diagrama de dispersin de puntos, a la cual muchos autores le llaman nubes de puntos,
encuadrado dentro de un grfico de coordenadas X Y en la cual se pude trazar una recta y
cuyos puntos mas cercanos de una recta hablaran de una correlacin mas fuerte, ha esta
recta se le denomina recta de regresin, que puede ser positiva o negativa, la primera
contundencia a aumentar y la segunda en descenso o decreciente.

42

Tambin se puede describir un diagrama de dispersin en coordenadas cartesianas valores
como en la distribucin bivariante, en donde la nube de puntos representa los pares de
valores.
GRAFICOS DE DISPERSIN DE UNA RECTA DE REGRESIN


Por ltimo se pueden graficar las lneas de tendencia, herramienta muy til para el
mercadeo porque es utilizada para evaluar la resistencia que proyectan los precios. Cuando
una lnea de tendencia central se rompe ya sea con tendencia al alza o en la baja es porque
ocurre un cambio en los precios, por lo tanto las lneas de tendencia pueden ser alcista
cuando se unen los puntos sucesivos y bajista cuando se unen los puntos mximos.
Tambin existen grficos que representan la dispersin de datos dentro de las coordenadas
cartesianas, sea las nubes de puntos y que pueden darse segn la relacin que representa,
que puede ser lineal, exponencial y sin relacin, esta ltima cuando los puntos estn
dispersos en todo el cuadro sin agruparse lo cual sugiere que no hay relacin.

43

Los grficos siguientes nos muestran esta relacin:

Matemticamente las ecuaciones seran:
Ajuste Lineal: Y = Bx + A
Ajuste Logartmico: Y =BLnX + A
Ajuste Exponencial: Y = AC BX
En el modelo de regresin lineal simple se utiliza la tcnica de estimacin de los mnimos
cuadrados, este modelo tiene solo una variable de prediccin y se supone una ecuacin de
regresin lineal.
Es evidente que no todos dibujaramos exactamente la misma recta para una nube de
puntos, aunque la correlacin fuera bastante fuerte.
De todas las rectas posibles los matemticos han elegido como la mejor aproximacin la
llamada de los mnimos cuadrticos, Su clculo es tambin algo mecnico que podemos
hacer con calculadora o un ordenador. En el siguiente apartado encontrars un ejercicio
para estudiar sus propiedades.
La recta de regresin sirve para hacer estimaciones, teniendo en cuenta que:
- Los valores obtenidos son aproximaciones en trminos de probabilidad: es probable
que el valor correspondiente a x0 sea y0.
- La fiabilidad es mayor cuanto ms fuerte sea la correlacin.
- La fiabilidad aumenta al aumentar el nmero de datos.
- La estimacin es ms fiable para los valores de x prximos a la media.



44



EPILOGO

Mientras elaborbamos este texto, se nos vino a la mente muchas tcnicas, ecuaciones
diagramas y conteos que servirn a muchos estudiantes e investigadores de la rama
empresarial para solucionar los problemas econmicos y administrativos, utilizando estas
herramientas presentadas de una manera bastante didctica y sencilla de entender y aplicar,
Otras tcnicas que bien existen, pero cuyo desarrollo es un poco complicado para quienes
no tienen mucha familiaridad con las matemticas se ha reemplazado por otras mas
sencillas de aplicar en este campo.
Finalmente si este texto contribuy un pice en dar a algn investigador una visin mas
amplia de la aplicacin de la estadstica en la rama empresarial, nos damos por satisfechos.


45



GLOSARIO DE TRMINOS


SMBOLO SIGNIFICA SE DICE
x media aritmtica x barra
Error estndar poblacional Sigma

x
Error estndar de la media Sigma subndice x
D
x
Desviacin media D subndice x



46

Bibliografa
1 ANDERSON S. Williams. Estadstica para administracin y economa. Internacional
Thomson editores. Volumen I y II Sptima Edicin 2005.
2 DEVORE, Jay. PROBABILIDAD Y ESTADSTICA PARA INGENIERA Y
CIENCIAS. 4 Edicin. Internacional Thomson Publishing 2002.
3 LIND MASON MARCHAL. Estadistica para administradores y economia. Mc. Draw
Hill tercera edicin 2001.
4 BERESON, Mark./ LEVINE, Dadid. Estadstica bsica en administracin: conceptos y
aplicaciones. Sexta edicin. Editorial Prentice Hall Mxico 2000.
4 CORDOVA Zamora Manuel. Estadstica Descriptiva e Inferencial. Cuarta Edicin.
Editorial Moshera RL. Lima Per 2000.
5 STEVENSON William. ESTADSTICA PARA ADMINISTRACIN Y ECONOMA.
ED HARLA MXICO 2000.
6 GUERRERO G. VIERE M. Estadstica para estudiantes de economa y otras ciencias
sociales. Primera Edicin fondo de cultura econmica. Mxico 1989.
7 HOEL Pal G. Estadstica bsica para negocios y economa. Tercera edicin. Editorial
continental. Mxico 1999.
8 Levin, Richard I.: Estadstica para Administradores. Sexta Edicin. Prentice Hall
Hispanoamericana S.A. Mxico 1996.




47

APENDICE
EJERCICICOS DE ESTADSTICA BSICA
Ejemplo1:
Suponga que un investigador desea determinar cmo vara el peso de un grupo de
estudiantes de primer semestre de una universidad. Selecciona una muestra de 50
estudiantes y registra sus pesos en kilogramos. Los datos obtenidos fueron los
siguientes:
65 63 65 63 69 67 53 58 60 61
64 65 64 72 68 66 55 57 60 62
64 65 64 71 68 66 56 59 61 62
63 65 63 70 67 66 57 59 61 62
64 64 63 69 67 66 58 60 61 62
Para determinar el nmero de veces que aparece cada dato (frecuencia absoluta), se
utiliza el diagrama de tallo y hojas. Se traza una lnea y a la izquierda se escriben las
cifras anteriores a las unidades que tengan los datos, a la derecha de la lnea se
escriben la cifra de las unidades para cada uno de los datos. Este diagrama facilita
determinar la cantidad de veces que se repite un dato y los valores de los datos con el
fin de escribirlos de manera ordenada en la tabla.













48

Luego, se organiza la informacin en la tabla, de la siguiente manera:








Para construir la tabla de datos no agrupados se debe calcular primero lo siguiente:







Al construir la tabla de datos agrupados con la informacin del ejemplo, se tiene:
Tabla de datos agrupados

Frecuencia
absoluta
Frecuencia
absoluta
acumulada
Frecuencia
relativa
Frecuencia
relativa
acumulada
Pesos (Kg) f
i
F
i
h
i
H
i

53 - 55 2 2 4,00% 4,00%
56 - 58 5 7 10,00% 14,00%
59 - 61 9 16 18,00% 32,00%
62 - 64 15 31 30,00% 62,00%
65 - 67 12 43 24,00% 86,00%
68 - 70 5 48 10,00% 96,00%
71 - 73 2 50 4,00% 100,00%
50 100,00%
Para esta tabla tambin se pueden hacer histogramas o diagramas de barras y circulares.

49

Ejemplo2:
Si los datos estn agrupados ya sea en tablas de frecuencias simples o en intervalos de
clase, debemos utilizar un criterio diferente para calcular los distintos estadgrafos.
Analicemos el siguiente ejemplo:

Consideremos la siguiente distribucin de frecuencias que corresponden a los puntajes de
50 alumnos en una prueba.
Intervalos
M.C.
(x)
fi f x Fa
[60 65) 62,5 5 312.5 5
[65 70) 67,5 5 337.5 10
[70 75) 72,5 8 580 18
[75 80) 77,5 12 930 30 Intervalo mediano
[80 85) 82,5 16 1320 46 Intervalo modal
[85 90) 87,5 4 350 50
TOTALES 50 3830

La Media Aritmtica:

=
f
x f
x


6 . 76
50
3830
= = x
ptos. ~ 77 ptos.
Para calcular La Mediana necesitamos la siguiente frmula:

i
a
f
A F
n
L Me

2
|
.
|

\
|

+ =


en el ejemplo, la cantidad de datos es 50, luego 50 : 2 = 25, y la Fa 25 se encuentra en el
intervalo [75 80) ya que el 25 esta aqu, en cambio en la anterior (18) no esta. Luego el
intervalo mediano es [75 80)
Entonces: L = 75 (lmite inferior)
f
i
= 8
A = 5 (80 75 = 5)
F
a
= 18 (frecuencia acumulada del intervalo anterior)

Donde: L es el lmite inferior del intervalo mediano.
F
a
es la frecuencia acumulada hasta antes del
intervalo mediano.
f
i
es la frecuencia absoluta del intervalo
mediano.
A es la Amplitud del intervalo.

50

375 . 79 375 . 4 75
8
5 7
75
8
5 18
2
50
75 = + = + =
|
.
|

\
|

+ = Me ~ 79 ptos.

y finalmente, para calcular la Moda en datos agrupados, utilizamos la siguiente frmula,
teniendo presente que la clase modal es la que tiene mayor frecuencia, y esta es la
Frecuencia Modal.

A
d d
d
L Mo
2 1
1
+
+ =


L = 80 (intervalo modal [80 85), ya que la frecuencia es 16, que es la mayor)
d
1
= 16 12 = 4 (diferencia con la frecuencia anterior)
d
2
= 16 4 = 12 (diferencia con la frecuencia siguiente)
A = 5
Luego,
25 , 81
16
20
80 5
12 4
4
80 = + =
+
+ = Mo
puntos. ~ 81 puntos.

Se estima que el valor ms repetido de los puntajes de esta prueba fue el 81.


L: Lmite real inferior de la clase modal.
d
1
: es la diferencia entre la frecuencia modal y la frecuencia
anterior.
d
2
: es la diferencia entre la frecuencia modal y la frecuencia
siguiente.
A: amplitud del intervalo

51

Ejemplo3: Clculos de estadgrafos (Medidas de posicin)
Vamos a calcular los cuartiles de la serie de datos referidos a la estatura de un grupo de
alumnos (leccin 2). Los deciles y centiles se calculan de igual manera, aunque hara falta
distribuciones con mayor nmero de datos.
Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada
X x x x x
1,20 1 1 3,3% 3,3%
1,21 4 5 13,3% 16,6%
1,22 4 9 13,3% 30,0%
1,23 2 11 6,6% 36,6%
1,24 1 12 3,3% 40,0%
1,25 2 14 6,6% 46,6%
1,26 3 17 10,0% 56,6%
1,27 3 20 10,0% 66,6%
1,28 4 24 13,3% 80,0%
1,29 3 27 10,0% 90,0%
1,30 3 30 10,0% 100,0%
1 cuartil: es el valor 1,22 cm, ya que por debajo suya se situa el 25% de la
frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).
2 cuartil: es el valor 1,26 cm, ya que entre este valor y el 1 cuartil se situa
otro 25% de la frecuencia.
3 cuartil: es el valor 1,28 cm, ya que entre este valor y el 2 cuartil se sita
otro 25% de la frecuencia. Adems, por encima suya queda el restante 25%
de la frecuencia.
Atencin: cuando un cuartil recae en un valor que se ha repetido ms de una vez (como
ocurre en el ejemplo en los tres cuartiles) la medida de posicin no central sera realmente
una de las repeticiones.


52

Ejemplo 4: Coeficiente de Asimetra de Fisher

( )
g
x x n
ns
m
s
i
i
i
1
3
3
3
3
=



S la distribucin es simtrica en el denominador tendremos el mismo nmero de
desviaciones positivas como negativas y por tanto g
1
= 0.
Si g
1
>0 la distribucin es asimtrica positiva o asimtrica a derechas.
Si g
1
<0

la distribucin es asimtrica negativa o asimtrica a izquierdas.

Elemplo :

x
i
n
i
x
i
-x (x
i
-x)
3
n
i
(x
i
-x)
3

0 2 -2.52 -16.003 -32.006
l 4 -1.52 -3.512 -14.047
2 21 -0.52 -0.141 -2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
29.5
( )
g
x x n
ns
i
i
i
1
3
3
=

0.42 >0 luego asimtrica positiva.




Ejemplo 5: Coeficiente de Asimetra de Pearson
Es mucho ms fcil de calcular que el anterior pero slo es aplicable a aquellas
distribuciones que tienen una sola moda y cuya distribucin tiene forma de campana. Se
define:
A
x M
s
s
o
=


Si la distribucin es simtrica x=M
e
y por tanto A
s
=0. Si A
s
>0 la distribucin es
asimtrica positiva. Si A
s
<0 la distribucin es asimtrica negativa.

Ejemplo :
A
s
= (2.52-2)/1.12=0.46


COEFICIENTE DE APUNTAMIENTO DE FISHER. Se define como:


53


( )
g
x x n
ns
m
s
i
i
i
2
4
4
4
4
3 3 =



- si g
2
>0 leptocrtica.
- si g
2
<0 platicrtica.
- si g
2
=0 mesocrtica o normal.

Ejemplo:

x
i
n
i
x
i
-x (x
i
-x)
4
n
i
(x
i
-x)
4

0 2 -2.52 40.327 80.655
1 4 -1.52 3.512 14.047
2 21 -0.52 0.141 2.953
3 15 0.48 0.11 1.658
4 6 1.48 3.242 19.451
5 1 2.48 15.253 15.253
6 1 3.48 42.144 42.144
127.512


( )
g
x x n
ns
i
i
i
2
4
4
3 =

=1.815>0 leptocrtica.
Ejemplo 6: Coeficiente de Asimetra y Apuntamiento

Ejemplo: La distribucin de las acciones de una empresa entre sus propietarios est
dada por la siguiente tabla, estudiar la simetra y el apuntamiento de esta distribucin.

Acciones

i
x
i
n
i i
n x
i i
n x
2

i
h X x
i

i i
n X x
4
) (
0-4 2 2 4 8 0,5 -20,7 367207
4- 10 7 5 35 245 0,83 -15,7 303787
10-16 13 8 104 1352 1,33 -9,7 70823
16-20 18 15 270 4860 3,75 -4,7 7320
20-24 22 30 660 14520 7,5 -0,7 7
24-32 28 16 448 12544 2 5,3 12625
32-36 34 7 238 8092 1,75 11,3 114133
36-42 39 6 234 9126 1 16,3 423547
42-60 51 1 51 2601 0,06 28,3 641425

TOTAL 90 2044 53348 1940874


7 , 22
90
2044
= = X
de donde:

54


77 , 8 96 , 76
96 , 76 79 , 515 75 , 592
90
2044
90
53348
4 , 21 4
75 , 3 2
2
20
2
2
= =
= = |
.
|

\
|
=
=
+
+ =
S
S
M
o


Como se trata de una distribucin en forma de campana, con una sola moda,
calcularamos el coeficiente de asimetra de Pearson:

15 , 0
77 , 8
14 , 21 7 , 22
=

= As

Se trata, pues de una distribucin que presenta una asimetra por la derecha.

Para averiguar el tipo de apuntamiento vamos a calcular el coeficiente de
aplastamiento de Fisher:


( )
3
1
1
4
4

=

=
N
n X x
S
Ap
n
i
i i
= 6 , 0 3
90
1940874

77 , 8
1
4
=

Se trata de un una distribucin de tipo leptocrtico, esto quiere decir que una
gran cantidad de datos se agrupan alrededor de la media.


Ejemplo 7: Regresin lineal
A partir de las siguientes observaciones para 5 aos de las variables X e Y, ajstese el
modelo de regresin de Y en funcin de X ms idneo.
Donde,
Y: produccin nacional de un subsector industrial, en millones de toneladas.
X: tiempo
Ao X Y
1995 1 1,25
1996 2 5
1997 3 11,25
1998 4 20
1999 5 30,5



55

1.- Ajuste de una funcin lineal: Y
*
= a + b X
X Y X
2
XY Y
2
Y
*
e=Y-Y
*
e
2
1 1,25 1 1,25 1,56 -1,1 2,35 5,5225
2 5 4 10 25 6,25 -1,25 1,5625
3 11,25 9 33,75 126,56 13,6 -2,35 5,5225
4 20 16 80 400 20,95 -0,95 0,9025
5 30,5 25 152,5 930,25 28,3 2,2 4,84
E
15 68 55 277,5 1483,3 68 0 18,35
1/5 E 3 13,6 11 55,5 296,67 13,6 0 3,67

7,35
2
14,7
3 11
13,6) (3 - 55,5
X X 1/5
Y X - XY 1/5
S
S
b
2 2 2 2
X
XY
= =

= =


8,45 - 3 7,35 - 13,6 X b - Y a = = =
Y
*
= -8,45 + 7,35 X

Bondad del Ajuste:
Coeficiente de determinacin: R
2
=
2
XY
r = 0,9671
111,715
3,67
- 1
S
S
- 1
S
S
2
Y
2
2
Y
2
Y e
*
= = =
111,715 13,6 - 296,675 Y Y 1/5 S
2 2 2 2
Y
= = =


3,67
N
e
ECM S
2
1
2
e
= = =



Ejemplo 8: Diagrama de caja y bigotes
Para la siguiente muestra de 36 datos (ordenados de menor a mayor), construir el diagrama
de caja y bigotes:
128-129-134-137-147-147-148-149-150-150-156-156-157-158-158-159-160-162
167-169-177-177-179-185-186-190-198-203-209-210-220-230-250-255-270-290
Calculados los valores correspondientes:
Media = 179,17 Mediana = 164,50 Desviacin tpica = 40,324 Rango = 162
Mximo = 128

56

Mnimo = 128 Cuartil 1 = 150 Cuartil 2 = 201,75 Rango intercuartilico = 51,75

Repasemos el clculo de los valores que vamos a usar en la construccin del
diagrama:

- La caja queda delimitada por 75 , 201 150
3 1
= = Q y Q . La mediana es 50 , 164 =
e
M
- El rango intercuartilico es 75 , 51
1 3
= = Q Q Q . As pues 625 , 77 5 , 1 = Q
- El bigote de la izquierda llega hasta
128 ) 375 , 72 128 ( ) 5 , 1 (
1 min
= = y Max Q Q y X Max
- El bigote de la derecha llega
375 , 279 ) 375 , 279 290 ( ) 5 , 1 (
3 max
= = + y Min Q Q y X Min

128 150 164,5 201,75 279,35 Outlier
(290)



*



X
min
Q
1
M
e
Q
3
X
max

En este diagrama se puede observar entre otras cosas:
- El valor 290 es un outlier y habra que estudiarlo por separado.
- El bigote de la izquierda es mas corto que el de la derecha. Esto se interpreta diciendo
que la cuarta parte de los niveles mas bajos de la variable en estudio estn ms
concentrados que la cuarta parte de los niveles mas altos.
- La parte izquierda de la caja (niveles entre 150 y 164,5) es menor que la parte derecha
niveles entre (164,5 y 201,75). Diremos que los niveles de la variable en estudio
comprendidos entre el 25% y el 50% estn ms concentrados que los comprendidos
entre el 50% y el 75%.
- La distribucin tiene una asimetra positiva o a la derecha.



57

Ejemplo 9: Regresin no lineal
Ajuste de una funcin parablica: Y
*
= a + b X + c X
2

X Y X
2
X
3
X
4
XY X
2
Y Y
*
e=Y-
Y
*
e
2
1 1,25 1 1 1 1,25 1,25 1,18 0,07 0,0049
2 5 4 8 16 10 20 5,11 -0,11 0,0121
3 11,25 9 27 81 33,75 101,5 11,32 -0,07 0,0049
4 20 16 64 256 80 320 19,81 0,19 0,0361
5 30,5 25 125 625 152,5 762,5 30,58 -0,08 0,0064
E
15 68 55 225 979 277,5 1205 68 0 0,0644
1/5E 3 13,6 11 55,5 13,6 0 0,0128

Aplicando el mtodo de los mnimos cuadrados se obtiene el siguiente sistema de
ecuaciones:

+ + =
+ + =
+ + =

+ + =
+ + =
+ + =



979c 225b 55a 1205
225c 55b 15a 277,5
55c 15b 5a 68

X c X b X a Y X
X c X b X a XY
X c X b Na Y
4 3 2 2
3 2
2

Resolviendo este sistema se obtiene: a= -0,47 b= 0,51 c= 1,14
Y
*
= -0,47 + 0,51 X + 1,14 X
2


Bondad del Ajuste:
Coeficiente de determinacin: R
2
= 0,9998
111,715
0,01288
- 1
S
S
- 1
S
S
2
Y
2
2
Y
2
Y e
*
= = =
0,01288
N
e
ECM S
2
2
2
e
= = =





58

Ejemplo 10: Regresin no lineal
Ajuste de una funcin potencial: Y
*
= a X
b

En primer lugar linealizamos: lnY
*
= lna + b lnX V
*
= A + b U
X Y U=lnX V=lnY U
2
UV Y
*
e=Y-Y
*
e
2
1 1,25 0 0,2231 0 0 1,2557 -0,0057 0,0000
2 5 0,6931 1,6094 0,4803 1,1156 4,9888 0,0112 0,0001
3 11,25 1,0986 2,4203 1,2069 2,6590 11,18 0,0697 0,0049
4 20 1,3863 2,9957 1,9215 4,1530 19,82 0,1799 0,0324
5 30,5 1,6094 3,4177 2,5901 5,5006 30,901 -0,4012 0,1610
E
15 68 4,7875 10,666 6,1988 13,428 68,146 -0,1461 0,1984
1/5E 3 13,6 0,9575 2,1332 1,2397 2,6856 13,629 -0,0292 0,0397
Ee=0
1,9902
0,9575 1,2397
2,1332 0,9575 - 2,6856
U U 1/5
V U - UV 1/5
S
S
b
2 2 2 2
U
UV
=

= =


0,2277 0,9575 1,9902 - 2,1332 U b - V A = = =
Deshacemos el cambio efectuado: a= antilnA = antiln 0,2277 = 1,2557
Por lo que el ajuste efectuado es: Y
*
= 1,2557 X
1,9902
Bondad del Ajuste:
0,0397
N
e
ECM
2
3
= =


Ntese que al haber transformado la variable dependiente ya no se minimiza

2
e sino

2 *
lnY - (lnY ) , de ah que

= 0 e .




59

Ejemplo 11: Regresin no lineal
Ajuste de una funcin exponencial: Y
*
= a b
X

En primer lugar linealizamos: lnY
*
= lna + X lnb V
*
= A + B X
X Y V=lnY X
2
XV Y
*
e=Y-Y
*
e
2
1 1,25 0,2231 1 0,2231 1,7794 -0,529 0,2798
2 5 1,6094 4 3,2188 3,86 1,138 1,2950
3 11,25 2,4203 9 7,2609 8,37 2,88 8,2944
4 20 2,9957 16 11,983 18,18 1,82 3,3124
5 30,5 3,4177 25 17,088 39,45 -8,95 80,102
E
15 68 10,666 55 39,774 71,64 -3,641 95,803
1/5E 3 13,6 2,1332 11 7,9548 14,328 -0,728 19,16
Ee=0
0,7776
3 11
3 2,1332 - 7,9548
X X 1/5
V X - XV 1/5
S
S
B
2 2 2 2
X
XV
=

= =


0,1996 - 3 0,7776 - 2,1332 X b - V A = = =
Deshacemos los cambios efectuados: a= antilnA = antiln-0,1996 = 0,819
b= antilnB =antiln 0,7776 = 2,176
Por lo que el ajuste efectuado es: Y
*
= 0,819 . 2,176
X

Bondad del Ajuste:
19,16
N
e
ECM
2
4
= =


La comparacin de la bondad de modelos de regresin mediante el coeficiente de
determinacin slo es correcta cuando la variable dependiente no ha sido sometida a
transformaciones no lineales (por ejemplo, una transformacin logartmica). En este
ejercicio, mediante R
2
slo podemos comparar la regresin lineal y la parablica. Por eso,
para comparar los cuatro ajustes efectuados utilizamos el Error Cuadrtico Medio. El
mejor ajuste resulta ser el parablico puesto que presenta el menor valor para el ECM.