Vous êtes sur la page 1sur 12

Escuela Superior Politcnica del Litoral

Instituto de Ciencias Matemticas


ORIGEN DE LA ESTADSTICA
El origen de la Estadstica se remonta a pocas en las que los gobernantes requeran tcnicas para controlar a sus propiedades y
a las personas.
Posteriormente, el desarrollo de los juegos de azar propici el estudio de mtodos matemticos para su anlisis los cuales con el
tiempo dieron origen a la Teora de las Probabilidades que hoy es el sustento formal de la Estadstica.
El advenimiento de la informtica ha constituido el complemento adecuado para realizar estudios estadsticos mediante
programas especializados que facilitan enormemente el tratamiento y transformacin de los datos en informacin til.
La Estadstica ha alcanzado un nivel de desarrollo muy alto y constituye actualmente el soporte necesario para todas las ciencias
y para la investigacin cientfica, siendo el apoyo para tomar decisiones en un entorno de incertidumbre.
Es importante resaltar que las tcnicas estadsticas deben usarse apropiadamente para que la informacin obtenida sea vlida.
DEFINICIONES PRELIMINARES
ESTADSTICA Ciencia inductiva que permite inferir caractersticas cualitativas y cuantitativas de un conjunto mediante
informacin contenida en un subconjunto del mismo.
POBLACIN Conjunto total de mediciones u observaciones de inters para un estudio
MUESTRA Algn subconjunto de la poblacin
VARIABLE Es la definicin de alguna caracterstica observable de los elementos de una poblacin y que puede tomar diferentes
valores.
PARMETRO Es alguna caracterstica de inters relacionada con la poblacin que se estudia.
EXPERIMENTO ESTADSTICO Es un proceso que se disea y realiza para obtener observaciones del objeto de estudio.
VARIABLE ALEATORIA Es una variable que adquiere su valor del resultado de un experimento estadstico.

ESPACIO MUESTRAL Conjunto de todos los posibles resultados que se pudiesen obtener de un experimento estadstico
MODELO Descripcin simblica de una situacin o sistema que se desea estudiar
MODELO DETERMINSTICO Representacin exacta. Permite obtener respuestas precisas. Ejemplo: Una ecuacin matemtica
de la cual se obtiene un resultado para algunos valores asignados a las variables consideradas.
MODELO PROBABILISTICO Incluye componentes aleatorios. Las respuestas obtenidas se expresan en trminos de
probabilidad. Ejemplo: Un modelo para predecir el comportamiento poblacional en un estudio de preferencia electoral.
ESTADSTICA DESCRIPTIVA Tcnicas para recopilacin, organizacin y presentacin de datos para su anlisis.
ESTADSTICA INFERENCIAL Tcnicas para obtencin de resultados basados en la informacin contenida en muestras.
INFERENCIA ESTADSTICA Es la extensin a la poblacin de los resultados obtenidos en una muestra
--------------------------------------------------------------------------------------------------------------------
ESQUEMA PARA REALIZAR UN ESTUDIO ESTADSTICO
PROBLEMA
Primero debe conocer con claridad los requerimientos y especificaciones del problema que quiere investigar, el
cual debe plantearse adecuadamente
DEFINICIN
Para el problema propuesto, debe establecer objetivos que correspondan al alcance real del estudio a ser
realizado considerando los recursos disponibles y estableciendo actividades y metas.
Debe delimitar la poblacin a la cual est dirigido el estudio e identificar los parmetros de inters as como
las variables que intervienen.
Luego, formule hiptesis y decida el nivel de confianza que pretende obtener en los resultados. Finalmente
debe decidir el tamao de la muestra para la obtencin de los datos.
ESTADSTICA DESCRIPTIVA
Decida la forma de obtencin de datos y disee los cuestionarios si son necesarios. En este caso debe tener
cuidado en la elaboracin de las preguntas. Prefiera preguntas de opciones mltiples y realice pruebas piloto.
Defina el plan de muestreo.
Proceda a la recoleccin, organizacin, anlisis y presentacin de los datos.

ESTADSTICA INFERENCIAL
Use las tcnicas estadsticas para estimacin de parmetros y pruebas de hiptesis y elabore inferencias
estadsticas relacionadas con las hiptesis propuestas.
RESULTADOS
Use apropiadamente los resultados obtenidos para la toma de decisiones
RECOPILACIN DE DATOS
Fuentes de datos
1) Investigacin en registros administrativos: INEC, Banco Central, Cmaras de la Produccin, Universidades, etc. para
obtener ndices de empleo, ndice de precios, datos de salud, datos de eficiencia, etc.
2) Obtencin de datos mediante encuestas de investigacin
Ej. Estudios de mercado. Estudio de preferencia electoral, etc
Criterios para disear una encuesta de investigacin
1) Defina el objetivo
2) Defina la poblacin de inters
3) Determine el tamao de la muestra
4) Seleccione el tipo de muestreo
5) Elija temas generales
6) Elabore el formulario para la encuesta
Preguntas cortas y claras y de opciones
7) Realice pruebas
8) Realice la encuesta
Tipos de datos
Los resultados que se obtiene pueden ser
1) Datos cualitativos: corresponden a respuestas categricas
Ej. El estado civil de una persona
2) Datos cuantitativos: corresponden a respuestas numricas
Ej. La edad en aos.
Los datos cuantitativos pueden ser
1) Discretos: Se obtienen mediante conteos
2) Continuos: Se obtienen mediante mediciones
Estadstica Descriptiva
Tcnicas para recopilacin, organizacin y presentacin de datos para su anlisis.
RECOPILACIN DE DATOS
Fuentes de datos
Investigacin en registros administrativos: INEC, Banco Central, Cmaras de la Produccin, Universidades, etc. para
obtener datos de ndices de empleo, ndice de precios, datos de salud, datos de eficiencia, etc.
Obtencin de datos mediante encuestas de investigacin. Ej. Estudios de mercado. Estudio de preferencia electoral, etc
Tipos de datos
Los resultados que obtenidos pueden de de tipo:
Datos cualitativos: corresponden a respuestas categricas. Ej. Estado civil, nacionalidad, religin, etc
Datos cuantitativos: corresponden a respuestas numricas. Ej. Edad, salario, nmero de hijos, etc
Los datos cuantitativos pueden ser
Discretos: Se obtiene de conteos
Contnuos: Se obtienen de mediciones
Descripcin de conjuntos de datos
Los datos obtenidos de los puede representar de diferentes formas:
1) Descripcin tabular
2) Descripcin grfica
3) Descripcin mediante nmeros
Si la muestra contiene pocos datos, se los puede describir directamente, pero si el nmero de datos es grande conviene
agruparlos para simplificar su tratamiento
TABLA DE DISTRIBUCIN DE FRECUENCIA
Es un dispositivo para agrupar conjuntos de datos y faciltar su interpretacin.
Recomendaciones para construir una tabla de frecuencia
1) Identifique la unidad de medida de los datos
2) Obtenga el rango delos datos, R
R = mayor valor menor valor
3) Seleccione el numero de clases (o intervalos) k, para agrupar los datos. Sugerencia
n: nmero de datos
k: Nmero de clases
n k
menos de 50 5 a 7
entre 50 y 100 6 a 10
entre 100 y 250 7 a 12
mas de 250 10 a 20
4) Obtenga la amplitud de los datos,
amplitud = R/k
Puede redefinir la amplitud, el nmero de clases y los extremos de cada clase de tal manera que las clases
tengan la misma amplitud, incluyan a todos los datos y tengan valores simples en los extremos
5) Realice el conteo de datos para obtener la frecuencia en cada clase
Notacin
n: nmero de datos
k: nmero de clases
fi: frecuencia de la clase i, i=1, 2, 3, , k
fi/n: frecuencia relativa de la clase i
Fi: frecuencia acumulada de la clase i
Fi = f1+f2+f3++fi
Fi/n: frecuencia acumulada relativa de la clase i
mi : marca de la clasei (es el centro de la clase i)
Los resultados se los organiza en un cuadro y se denomina Tabla de Frecuencia
Ejemplo.- Los siguientes 40 datos corresponden a una muestra del tiempo que se utiliz para atender a las personas en
una estacin de servicio:
3.1 4.9 2.8 3.6
4.5 3.5 2.8 4.1
2.9 2.1 3.7 4.0
2.7 4.0 3.5 3.7
3.8 2.2 4.4 2.9
5.1 1.8 2.5 6.2
2.5 3.6 5.6 4.8
3.6 6.1 5.1 3.9
4.3 5.7 4.7 4.6
5.1 4.9 4.2 3.1
Obtenga la Tabla de Frecuencia
1) Precisin: un decimal
2) Rango: R = mayor valor menor valor = 6.2 1.8 = 4.4
3) Nmero de clases: k=6
4) Amplitud: R/k = 0.7333..
Por simplicidad se redefine al valor 1 y se las coloca con extremos en
1, 2, ,7
5) Conteo de los datos (puede hacerse en un sol recorrido de los datos y con marcas de palitos de 5 en 5)
Clase Intervalo Frecuencia
1 [1, 2) 1
2 [2, 3) 8
3 [3, 4) 12
4 [4, 5) 12
5 [5, 6) 5
6 [6, 7) 2
n = 40
Tabla de Frecuencia
Clase Intervalo Marca Frec. Frec. rel. Frec. ac. Fr. ac rel.
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 8 0.2 9 0.225
3 [3, 4) 3.5 12 0.3 21 0.525
4 [4, 5) 4.5 12 0.3 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.95
6 [6, 7) 6.5 2 0.05 40 1
Algunas preguntas de inters pueden ser contestadas con los resultados de esta tabla:
1) Cuntas personas requirieron no mas de 4 minutos para ser atendidas?
Respuesta: 21
2) Cuntas personas requirieron entre 2 y 5 minutos?
Respuesta: 32
3) Cuntas personas requirieron al menos 4 minutos?
Respuesta: 19
4) Cul es la duracin que ocurre con mayor frecuencia?
Respuesta: 3 a 4 minutos y 4 a 5 minutos
ESTADSTICA DESCRIPTIVA
REPRESENTACIN GRFICA DE CONJUNTOS DE DATOS
Se usa para resaltar visualmente las caractersticas del conjunto
HISTOGRAMA
Es la manera ms comn de representar grficamente la distribucin de frecuencia de los datos. Se lo construye dibujando
rectngulos cuya base corresponde a cada intervalo de clase, y su altura de acuerdo al valor de la frecuencia. Puede usar la
frecuencia absoluta o la frecuencia relativa.
Construya el Histograma para el ejemplo dado anteriormente:
Recordemos su Tabla de Frecuencia:
Clase Intervalo Marca Frec. Frec. rel. Frec. ac. Fr. ac rel.
1 [1, 2) 1.5 1 0.025 1 0.025
2 [2, 3) 2.5 8 0.2 9 0.225
3 [3, 4) 3.5 12 0.3 21 0.525
4 [4, 5) 4.5 12 0.3 33 0.825
5 [5, 6) 5.5 5 0.125 38 0.95
6 [6, 7) 6.5 2 0.05 40 1
HISTOGRAMA

Estos dibujos pueden tomar otros aspectos usando colores, efectos tridimensionales, sombreado, etc. o usando una
representacin tipo pastel:
3%
20%
30%
30%
13%
5%
[4, 5)
[3, 4)
[2, 3)
[5, 6]
[6, 7)
[1, 2)
El Histograma permite apreciar el tipo de distribucin de los datos:
1) Si las alturas de las barras son similares se dicen que la distribucin es uniforme
2) Si las alturas son mayores en la zona central se dice que tiene forma tipo campana y puede ser simtrica
aproximadamente o sesgada hacia un lado. En este caso se dice que es asimtrica y que el sesgo es positivo o
negativo.
3) Si hay barras muy alejadas del grupo, se dice que son datos atpicos y probablemente son errneos y se pueden
descartar pues no corresponden al grupo que se desea caracterizar.
POLGONO DE FRECUENCIA
Es una manera de representar el perfil de la distribucin de los datos. Se obtiene uniendo mediante segmentos de recta los
puntos (marca de clase, frecuencia)
Para cerrar el polgono se puede agregar un punto a cada lado con frecuencia 0.
Construya el polgono de frecuencia para el ejemplo dado:
0 1 2 3 4 5 6 7 8
0
2
4
6
8
10
12
OJIVA
Este grfico se usa para representar la frecuencia acumulada, absoluta o relativa. Se lo obtiene mediante segmentos de recta que
se extienden entre los extremos de las clases con sus valores de frecuencia acumulada.
El siguiente grfico es la Ojiva para el ejemplo dado:
1 2 3 4 5 6 7
0
5
10
15
20
25
30
35
40
Este grfico permite responder preguntas tipo cuantos datos son menores que
Estadstica Descriptiva
MEDIDAS DESCRIPTIVAS
Son nmeros que caracterizan o representan al grupo de datos
Medidas de tendencia central
Estos nmeros definen el valor alrededor del cual se concentran los datos u observaciones. Se indican a continuacin los ms
utilizados.
Media muestral
Si X1, X2, ... , Xn representan a los datos, se define la media muestral como:

+ + +

n
i
i
n
x
n
x ... x x
x
1
2 1
_
Moda muestral
Es el valor que ms se repite (puede no existir y si existe puede no ser nica).
Mediana muestral
Es el valor que est en el centro de los datos ordenados
Sean X1, X2, ... , Xn los datos
X(1), X(2), ... , X(n) son los datos ordenados en forma creciente
Se define la mediana muestral como:

'

,
_

+
+
par es n si , x x
2
1
impar es n si , x
X
~
) 1
2
n
( )
2
n
(
)
2
1 n
(
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
= 6.5;
x
~
= 7; moda = 7
Debe notarse que las medidas de tendencia central no son suficientes para describir de manera nica el comportamiento de los
datos pues adems se necesita conocer cuan dispersos estn y la forma como se distribuyen.
Medidas de dispersin
Son nmeros que proveen ms informacin acerca del comportamiento de los datos, describiendo numricamente cuan
dispersos estn.
Rango
Si X(i) representa cada uno de los datos ordenados en forma creciente, i=1,2,n
se define el rango como: X(n) X(1)
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
el rango es: 9 3 = 6
Varianza o variancia muestral
Esta medida cuantifica el total de las distancias de los datos con respecto al valor de la media
El motivo de que en el denominador se escriba n-1 en lugar de n que parece natural, se entender en el captulo de estadstica
inferencial.
Ejemplo: Si los datos son 3, 5, 7, 7, 8, 9
se tiene que = 6.5, entonces la varianza es
s
2
=
5
5 6 9 5 6 5 5 6 3
2 2 2
) . ( ... ) . ( ) . ( + + +
= 4.7
Para el clculo puede usar la siguiente frmula alterna cuya equivalencia puede demostrarse mediante frmulas de sumatorias
Desviacin tpica o estndar
Es la raz cuadrada positiva de la variancia. Est expresada en las mismas unidades de medicin que los datos
Para el ejemplo anterior,
s =
7 4.
= 2.168
Cuantiles
Son nmeros que dividen al grupo de datos ordenados en en grupos de aproximadamente igual nmero de datos.
Cuartiles
Cada grupo tiene aproximadamente el 25% de los datos
Primer Cuartil (Q1)
A la izquierda de Q1 estn incluidos 25% de los datos
A la derecha de Q1 estn el 75% de los datos
Segundo Cuartil (Q2)
Igual que la mediana divide al grupo de datos en dos partes, cada una con el 50% de los datos
Tercer Cuartil (Q3)
A la izquierda de Q3 estn incluidos 75% de los datos
A la derecha de Q3 estn el 25% de los datos
Ejemplo. Suponer que una muestra contiene 40 datos ordenados:
X(1), X(2), ... , X(40)
Cuartil Q1: 25% de 40 = 10, por lo tanto
Q1 = (X(10) + X(11))/2
Cuartil Q2: 50% de 40 = 20, por lo tanto
Q2 = (X(20) + X(21))/2
Cuartil Q3: 75% de 40 = 30, por lo tanto
Q3 = (X(30) + X(31))/2
Deciles
Dividen al grupo de datos en grupos de aproximadamente 10% de los datos
Primer Decil (D1)
A la izquierda de D1 estn incluidos 10% de los datos
A la derecha de D1 estn el 90% de los datos
Segundo Decil (D2)
A la izquierda de D2 estn incluidos 20% de los datos
A la derecha de D2 estn el 80% de los datos
Etc.
Ejemplo. Suponer que una muestra contiene 40 datos ordenados:
X(1), X(2), ... , X(40)
Decil D1: 10% de 40 = 4, por lo tanto
D1 = (X(4) + X(5))/2
Percentiles
Dividen al grupo de datos en grupos de aproximadamente 1% de los datos
Primer Percentil (P1)
A la izquierda de P1 estn incluidos 1% de los datos
A la derecha de P1 estn el 99% de los datos
Segundo Percentil (P2)
A la izquierda de P2 estn incluidos 2% de los datos
A la derecha de P2 estn el 98% de los datos
Etc.
Ejemplo. Suponer que una muestra contiene 400 datos ordenados:
X(1), X(2), ... , X(400)
Percentil P1: 1% de 400 = 4, por lo tanto
P1 = (X(4) + X(5))/2
Percentil P82: 82% de 400 = 328, por lo tanto
P82 = (X(328) + X(329))/2
Coeficiente de variacin
Para comparar la variabilidad de los datos de diferentes grupos, es adecuado definir una medida adimensional, el coeficiente de
variacin v:
v = s/
x
Ejemplo:
Para un grupo de datos
x
=20, s=4, entonces v=4/20=0.2=20%
Para un segundo grupo de datos
x
=48, s=6, entonces v=6/48=0.125=12.5%
Se concluye que el segundo grupo tiene mayor variabilidad (respecto a su media)
Frmulas para datos Agrupados
Si los datos disponibles estn disponibles en una Tabla de Frecuencia, se pueden usar frmulas para calcular algunas de las
medidas estadsticas en forma aproximada
Suponer que se tiene la Tabla de Frecuencia
Clase
i
Marca de clase
mi
Frecuencia
fi
1 m1 f1
2 m2 f2
... ... ...
... ... ...
k mk fk
n: nmero de datos
k: nmero de clases
mi: marca de la clase i (centro del intervalo de la clase)
fi: Frecuencia de la clase i
Media de los n datos:
x
=
i
k
i
i
f m
n

1
1
Variancia de los n datos:
2
1
2
1
1
) x m ( f
n
s
i
k
i
i

Ejercicio propuesto:
Calcule
x
y s
2
con los datos originales y con los datos agrupados del ejemplo usado anteriormente. Por que los resultados no
son iguales?
Diagrama de Caja
Es un dispositivo grfico que usan los estadsticos para expresar en forma resumida algunas de las medidas estadsticas.
El Diagrama de Caja describe grficamente el rango de los datos, el rango intercuartlico (Q3 Q1) los valores extremos y la
ubicacin de los cuartiles.
Es una representacin til para comparar grupos de datos.
Diagrama de Puntos
Si la cantidad de datos es pequea, (alrededor de 20 o menos), se los puede representar mediante puntos directamente sin
resumirlos en intervalos.
Diagrama de Pareto
Es un dispositivo grfico til para identificar los efectos importantes en un proceso y las causas que los originan. La Ley de Pareto
dice que cualquier conjunto de eventos consiste de unos pocos principales y muchos secundarios. Casi siempre 2 o 3 causas
explican mas de la mitad de las frecuencias.
Para obtener el Diagrama de Pareto se sigue el siguiente procedimiento
1) Categorice los datos por tipo de problema
2) Determine la frecuencia y ordnela en forma creciente
3) Represente con barras la frecuencia relativa
4) Superponga la ojiva de la frecuencia relativa acumulada
5) Detecte cuales son las causas mas importantes y su incidencia
Ejemplo
Un fabricante ha realizado un conteo de los tipos de defectos de sus productos y su frecuencia. Los resultados se resumen en el
siguiente cuadro
Defecto f f/n (%) F F/n (%)
A 52 32.1 52 32.1
B 41 25.3 93 57.4
C 28 17.3 121 74.7
D 16 9.8 137 84.5
E 12 7.4 149 91.9
F 10 6.2 159 98.1
G 3 1.8 162 100
Diagrama de Pareto
Se puede observar que ms del 70% de los defectos de produccin corresponden a los tipos A, B y C. As, puede decidirse
concentrar recursos en solucionar estos tipos de problemas pues son los que ocurren con mayor frecuencia
Diagrama de Tallo y Hojas
Es un dispositivo til cuando la cantidad de datos es pequea. Se usa para describir la distribucin de frecuencia de los datos
agrupados pero manteniendo la informacin de cada dato.
Se construye escribiendo verticalmente algunas cifras de los datos (tallo) y escribiendo las restantes cifras horizontalmente
(hojas)
Ejemplo. Los siguientes datos corresponden a la cantidad de artculos defectuosos producidos en una fbrica en 20 das:
65, 36, 49, 84, 79, 56, 28, 43, 67, 36, 43, 78, 37, 40, 68, 72, 55, 62, 22, 82
Se usar la cifra de las decenas como tallo y la cifra de las unidades como hojas:
2 2 8
3 6 6 7
4 0 3 3 9
5 5 6
6 2 5 7 8
7 2 8 9
8 2 4
La longitud de cada fila de hojas ayuda a visualizar la frecuencia en forma parecida a un histograma pero sin perder la
informacin individual de los datos

Vous aimerez peut-être aussi