Vous êtes sur la page 1sur 75

Estadstica 1

II SEMESTRE
2016

Definicin de Estadstica

Es la ciencia que estudia cmo debe


emplearse la informacin y cmo dar una gua
de accin en situaciones prcticas que
entraan incertidumbre.

Tipos de Estadstica

Estadstica Descriptiva o deductiva : es


la que se encarga de resumir la informacin
de conjuntos ms o menos numerosos de
datos.

Estadstica Inferencial o inductiva: es la


que intenta tomar decisiones basadas en la
aceptacin o el rechazo de ciertas relaciones
que se toman como hiptesis.

Conceptos bsicos:

Poblacin (N): es cualquier


sea de un nmero finito de
una
coleccin
grande,
infinita, de datos acerca
inters.

Caractersticas de la poblacin se le denomina


Parmetros.

Muestra
(n):
representativo
poblacin.

coleccin ya
mediciones o
virtualmente
de algo de

es
un
subgrupo
seleccionado de una

Caractersticas de la muestra se le denomina


Estadsticas.

Tcnicas de muestreo

Muestra: probabilstica y no probabilstica.

Muestra Probabilstica:

Muestreo Aleatorio Simple


Muestro Aleatorio Estratificado
Muestreo Sistemtico
Muestreo por Conglomerados.

Muestreo no probablistico

Muestreo con y sin reemplazo.

Variables

Variable (X): caractersticas de los objetos de


la poblacin a estudiar.

Tipos de variables:

Dependiendo del nmero de caractersticas:

Variables unidimensionales
Variables bidimensionales
Variables pluridimensionales o multidimensionales.

Tipo de variables

Dependiendo del tipo de datos:


Variables cuantitativas: es cuando toma
valores numricos.

Discretas: es la variable cuyos valores numricos


se pueden contar o son finitos en un intervalo
cualquiera. (generalmente valores enteros)
Continuas: se da cuando los valores numricos
que forman la variable en un intervalo cualquiera
son infinitos.

Variables cualitativas:
puede
clasificarse
en
numricas.

es cuando slo
categoras
no

Escalas de medicin.

Nominal: se usa como medidas de identidad.


Ordinal: Tiene un orden significativo.
Intervalos:
es como el nivel ordinal, con la
propiedad adicional que podemos determinar
magnitudes de diferencias entre los datos que
tienen algn significado.
De razn: se diferencia de la escala por
intervalos nicamente porque el cero no es
representativo.

Recopilacin de datos

Fuentes para obtener datos:

Fuentes internas
Fuentes externas

Tcnicas para recopilar datos:

Encuesta
Entrevista
Cuestionario
Observacin

Estadstica descriptiva

Presentacin de datos de una sola


variable:
Distribucin de frecuencias:
Es una representacin de la relacin entre un
conjunto de medidas o clases de medidas y la
frecuencia de cada una de ellas.
Al hacer una distribucin de los datos, podemos
clasificar la informacin obtenida en forma:

Cronolgica o histrica
Geogrfica
Cualitativa
Cuantitativa

Distribucin de frecuencias simples:

Esta nos indica la frecuencia con que


aparecen los nmeros, desde el menor del
conjunto hasta el mayor o viceversa.

Simbologa
n:

el tamao de la muestra, es el nmero de observaciones.


Xi: la variable; es cada uno de los diferentes valores que se
han observado.
fi: la frecuencia absoluta o solo frecuencia, es el nmero de
veces que se repite la variable Xi.
Fa: la frecuencia acumulada; se obtiene acumulando la
frecuencia absoluta.
fr: frecuencia relativa; es el resultado de dividir c/u de las
frecuencias absolutas por el tamao de la muestra.
Fra: frecuencia relativa acumulada; se obtiene dividiendo la
frecuencia acumulada entre el tamao de la muestra.
f%: frecuencia porcentual: es el resultado de multiplicar la
frecuencia relativa por 100.
F% : Frecuencia porcentual acumulada

Ejemplo 1:

Organice en una tabla de distribucin


de
frecuencias
la
siguiente
informacin.
13 ovejas comieron una hierba venenosa. Las
horas que tardaron en morir fueron
44,27,24,24,36,36,44,44,120,29,36,36 y 36.

Ejemplo 2:

Organice en una tabla de distribucin


de
frecuencias
la
siguiente
informacin.
Se realiz un estudio a una muestra de 100
personas para determinar a que grupo
sanguneo pertenece.
Grupo A: 42 personas
Grupo B: 12 personas
Grupo AB: 5 personas
Grupo O: 41 personas

Distribucin de frecuencias por intervalos o


de valores agrupados.

Es un mtodo estadstico que se utiliza para


estudiar el comportamiento de un conjunto de
datos y consiste en formar grupos de valores
consecutivos de la variable y poner cada uno
de estos grupos en cada fila.

Reglas para la construccin de intervalos.

Ordenar los datos de menor a mayor o viceversa.


Calcular el rango o recorrido. R=Xmax-Xmin
Determinar el nmero de clases: k=1+3.3log(n)
frmula de Sturges
Determinar el intervalo de clase i=R/k
Formar los intervalos (lmites aparentes).
Formar los lmites reales.
Determinar las frecuencias de clase contando el
nmero de observaciones
Determinar marca de clase: media de los
intervalos.

Ejemplo 3:

De acuerdo con una revista Informes al


consumidor en su nmero de febrero, las
cuotas anuales de 40 compaas para un
seguro de $ 25 000 para personas de 35
82 de edad
85
87
87
aos
son: 86
89

89

90

91

91

92

93

94

95

95

95

95

95

97

98

99

99

100

100

101

101

103

103

103

104

105

105

106

107

107

107

109

110

110

111

Continuacin

Realice una distribucin de frecuencias de


valores agrupados para
los resultados
obtenidos.

Ejemplo 4:

Los siguientes datos son los kilmetros por


galn que registraron 30 vehculos en un
recorrido de 100 km.
por la ciudad.
Realice una tabla de distribucin de
frecuencias.
16.4 29.6 32.8
34
35.3

18.8
23.3
24.6
25.4
27.6

30.8
30.8
31
31.5
31.8

33.2
33.4
33.6
33.7
33.9

34.2
34.4
34.7
35
35.2

35.5
36
36.1
36.8
37.1

Tarea: Ejemplo 5

Los siguientes datos son los lapsos, en


minutos, necesarios para que 50 clientes
de un banco comercial, lleven a cabo una
transaccin bancaria. Realice una tabla de
distribucin de frecuencias.
2. 2. 3. 1. 7. 3. 2. 0. 4. 6.
3
4
3
8
8
1
4
4
2
3
0.2 4.4 9.7 4.7 0.8 3.7 4.6 1.3 1.2 7.6
2.9 5.8 2.5 0.7 0.9 7.2 3.8 1.1 0.5 1.4
0.4 2.8 5.6 6.2 0.4 1.6 1.5 5.5 6.8 0.5
2.8 3.3 9.5 1.2 1.3 1.9 2.7 3.4 5.2 1.4

Representacin grfica
Es

la manera de expresar los datos


estadsticos, utilizando los medios de
representacin que proporciona la Geometra.
Componentes de una grfica:

Ttulo general
Elementos de referencia con expresin de la
variable representada sobre cada uno.
Fuente
de
procedencia
de
los
datos
representados.

Tipos de grficos: grfica de barras

Barras rectangulares de igual ancho, conservando la misma


distancia de separacin entre s.
Se utiliza bsicamente para mostrar y comparar frecuencias
de variables cualitativas.
Pueden ser verticales o en forma horizontal.

Grfica de pastel, circulares o sectores

Se usan para mostrar como una cantidad total se


reparte en un grupo de categoras.
Variables cualitativas en porcentajes o cifras
absolutas.

Histograma

Eje horizontal: intervalos de clase (lmites reales)


Eje vertical: frecuencias
Rectngulos unidos cuyos anchos son los de los intervalos
de clase.
Variables cuantitativas.

Polgono de frecuencias

Es un grfico de lneas trazado sobre las marcas


de clase.
El polgono empieza y termina en el eje horizontal.

Frecuencias acumuladas u Ojiva

Eje horizontal: lmites reales superiores


Eje vertical: frecuencia acumulada
Para el lmite inferior de la primera clase la frecuencia
acumulada es cero y para el lmite superior de la
ltima clase es igual al total de datos.

Grficas lineales

Sirven para representar las series de tiempo,


porque reflejan la direccin del cambio.
Eje horizontal: escala de tiempo

Grfica de puntos

Muestra pequeos conjunto de datos.


Eje horizontal: valores de la variable estudiada.
Eje vertical: la frecuencia de aparicin de un valor
en el conjunto de datos estudiados.

Diagrama de Pareto (80/20)

Constituye un sencillo y grfico mtodo de


anlisis que permite ver entre las causas ms
importantes de un problema (pocos vitales) y
las que no lo son (muchos triviales).
Entre sus ventajas es que permite centrarse
en los aspectos cuya mejora tendr ms
impacto, optimizando por tanto los esfuerzos.
Es decir, este diagrama establece que un 20%
de las fuentes causan el 80% de cualquier
problema.

Ejemplo

En una empresa textil se desea analizar el nmero de


defectos en los tejidos que fabrica. En la tabla
siguiente se muestran los factores que se han
identificado como causantes de los mismos as como el
Factore
No. a
deellos:
nmero de defectos
asociado
s

defectos

Seda

13

Tul

105

Raso

Lana

Satn

11

Algodn

171

Tafetn

Encaje

Lino

Viscosa

Primero debemos ordenar los datos en forma


decreciente:
Factore
s

No. de
defectos

Algodn

171

Tul

105

Seda

13

Satn

11

Lino

Viscosa

Encaje

Raso

Tafetn

Lana

Segundo calcular los porcentajes relativos y


Factor No. de Porcentaj Porcentaje
acumulados.
es

defecto e relativo
s

acumulado

Algodn

171

50

50

Tul

105

30

80

Seda

13

84

Satn

11

87

Lino

90

Viscosa

93

Encaje

95

Raso

97

Tafetn

99

Lana

100

Grfico

Interpretacin:

En el grfico obtenido se observa que un 20%


de los tejidos(Algodn y Tul) representan
aproximadamente un 80% de los defectos, por
lo tanto centrndose la empresa solo en esos
2productos reducira en un 80% el nmero de
defectos.

Diagrama de caja y bigotes.

Diagrama que describe varias caractersticas


importantes, al mismo tiempo, tales como la
dispersin y la simetra. Para su realizacin se
presentan los tres cuartiles y los valores
mnimo y mximo sobre un rectngulo,
alineado horizontal o verticalmente.
Ejemplo:
Las 36
siguientes
son39
las 20
edades
de 31
20 personas.
25 37 24
36 45
31
39

24

29

23

41

40

33

24

34

40

continuacin

Ordenar los datos.


Calcular los cuartiles.

Ejemplo de caja y bigotes

Un corredor entrena para una determinada


carrera y se toman los tiempos que necesita
para recorrer los 200 m, durante 10 das
consecutivos.

Anlisis Descriptivo

Medidas de tendencia central:

Media aritmtica
Mediana
Moda
Media ponderada
Media geomtrica

Media Aritmtica

Medida de posicin que proporciona una


descripcin
compacta
de
cmo
estn
centrados los datos
Sirve de base para medir o evaluar valores
extremos

Mediana
Valor

de la observacin que ocupa la posicin


central de un conjunto de datos ordenados
segn su magnitud.

Es

un valor que deja por debajo de l un


nmero de casos igual al que deja por arriba.

No

presenta el problema de estar influida por


los valores extremos, pero no utiliza en su
clculo todos los valores de la serie de datos.

Ejemplo 6
Datos

simples
Se tienen algunas caractersticas de un grupo de
12 personas. Estas caractersticas son:
Edad
(aos):
22,24,25,26,27,28,28,29,30,31,33,34
Ingreso anual: 8000-8200-9000-10 000-11 000-12
000-12 300-12 500-13 000-13 500-86 000-97 000
Nmero de zapato: 8 -9- 9 - 9 - 9 9
-10-10-10 -10 -11-11
Cul es la edad promedio, ingreso anual
promedio y nmero de zapato promedio para
este grupo?

Ejemplo 7:

Datos agrupados
Los siguientes datos corresponden a la
temperatura de secado en la fabricacin del
alambre barnizado al horno:
Calcule las tres medidas de tendencia central.

Media Ponderada

Es una medida que toma en cuenta la


importancia relativa de las observaciones, por
lo que a cada uno de los valores de frecuencia
se le asigna un valor de peso, el cual depende
de la importancia que el investigador quiera
darle.

Media ponderada

Donde:

w_ son las ponderaciones de cada valor X


X_ son los valores observados

Ejemplo 8: Media ponderada

Un catedrtico de cierta universidad


asigna a sus cursos diferentes pesos de
importancia de la siguiente forma:
Unidad I (20% del curso), Unidad II (25%
del curso), Unidad III (20% del curso),
Unidad IV (15% de calificacin), Unidad V
(20% de calificacin). Si las calificaciones
de un alumno son 8 en la primera unidad,
5 en la segunda, 8 en la tercera, 10 en la
cuarta y 8 en la ltima unidad. Ganar
dicho curso el estudiante? (se gana con
7.8 puntos)

Ejemplo 9:

Un bufete de abogados y notarios se


especializa en derecho corporativo. Cobra un
cargo por hora de $100 por la investigacin de
un caso, uno de $75 por consultas y unos de
$200 por redaccin de un informe. La semana
pasada uno de los socios dedic 10 horas a
una consulta de un cliente, 10 horas a la
investigacin de un caso y 20 horas a la
elaboracin de un informe. Cul fue el valor
medio de los servicios legales?

Media Geomtrica

Proporciona una medida precisa de un cambio


porcentual promedio en una serie de
nmeros.
Para determinar el incremento porcentual
promedio en ventas, produccin, u otras
actividades o series econmicas de un perodo
a otro.

Ejemplo 10:

Si el crecimiento de las ventas en un negocio


fue en los ltimos tres aos de 3%, 18% y
25%. Cul ha sido el aumento anual de sus
ventas?

Medidas de tendencia no central

Medidas de Posicin (fractilos o cuantilos)

Los fractilos permiten identificar valores ubicados


en diferentes posiciones. Se denomina fractilo a la
localizacin del valor que corresponde al final de
cada parte en que se ha dividido la distribucin de
los datos.

Cuartiles
Deciles
Centiles

Interpolacin (datos simples)

Donde:
Pn= valor de la posicin menor entre ambas
posiciones.
P(n+1)= valor de la posicin mayor entre
ambas posiciones.
Fp= fraccin entre ambas posiciones

Ejemplo 11

Datos simples
Dada la siguiente serie de valores
3,5,7,8,8,11,14,16,17,18,18,18,22,25,26,26,2
7,28,31,33,35,35,39,40

Determine:

El tercer cuartil
El cuarto decil
El decimosptimo centil

Ejemplo 12

Datos agrupados

La siguiente tabla muestra las cantidades (en


quetzales) que representan el gasto en gasolina
de 32 automviles de diferentes marcas, durante
un recorrido de 200 km en una ciudad.

continuacin

Determine:

La cantidad en quetzales del 15% de la muestra


que gastaron menos gasolina.
La cantidad en quetzales del 75% de la muestra
que gastaron ms gasolina.
Qu porcentaje de automviles gast Q. 36,00 o
menos en el recorrido de 200 km?

Ejemplo 13:

Se registran las cantidades de la


produccin anual de un concentrado para
animal en una regin del pas por 200
unidades en total de explotacin en la
forma siguiente:

Continuacin

Calcule:
Determine la produccin que se presenta ms
frecuentemente.
A partir de qu produccin estar el 60% de
las unidades.
La mxima produccin por debajo de la cual
se encuentra el 30% de las unidades.

Medidas de dispersin

Estudia la distribucin, analizando si los datos se


encuentran ms o menos concentrados o ms o
menos dispersos.
Proporciona informacin extra que permite juzgar
la confiabilidad de las medidas de tendencia
central, debido a que cuando los datos estn muy
dispersos, la posicin central es menos
representativa de la serie de datos.
La dispersin se puede medir desde tres
enfoques: la distancia, la dispersin promedio y la
dispersin relativa

Medidas de Distancia

Nos permiten medir la dispersin en trminos de


la diferencia entre dos valores seleccionados del
conjunto de datos.

Rango: Es fcil de entender y calcular, pero su


utilidad es limitada, pues slo toma en cuenta el
valor ms grande y el valor ms pequeo y
ninguna otra observacin del conjunto de datos.
Rango Intercuartlico: Mide qu tan lejos de la
mediana se debe ir en cualquiera de las dos
direcciones, antes de recorrer una mitad de los
valores del conjunto de datos.

Medidas de distancia

Rango Interpercentlico: Medida de


dispersin que calcula la diferencia en los
extremos de la distribucin (percentil 90 y
percentil 10)

Medidas de Desviacin Promedio

Al realizar su clculo, nos proporcionan una


descripcin ms completa de la dispersin
respecto a alguna medida de tendencia central
Varianza: Medida del cuadrado de la distancia
promedio entre la media y cada observacin de
la poblacin
Desviacin Estndar: Es la raz cuadrada
positiva de la varianza. Tiene las mismas
dimensionales que los datos originales, a
diferencia de la varianza en la cual las
dimensionales estn expresadas por los
cuadrados de las unidades

Ejemplo 14

Determine que proveedor parece ms


confiable por medio de la desviacin estndar.

Dispersin Relativa

Para medir la dispersin relativa utilizamos el


coeficiente de variacin, el cual relaciona
la desviacin estndar y la media,
expresando la desviacin estndar como
porcentaje de la media.

La unidad de medida del coeficiente de


variacin es porcentaje, en lugar de las
dimensionales originales de la serie de datos

Ejemplo 15

La media y la desviacin tpica de los puntos


conseguidos por Ana y Rosa en una semana
de entrenamiento jugando al baloncesto han
sido las siguientes: media de Ana 22 puntos y
desviacin tpica 4,106. Media de Rosa 22
puntos y desviacin tpica 2.
a)Calcula el coeficiente de variacin de cada
una de ellas.
b)Cul de las dos ha sido ms regular?

Ejemplo 16:

Entre dos personas que llevan una dieta


reductora, la primera pertenece a un grupo de
edad de la cual el peso medio es 146 libras
con una desviacin estndar de 14 libras y la
segunda pertenece a un grupo de edad de la
que el peso medio es de 160 libras con una
desviacin estndar de 17 libras. Cul de los
grupos lleva una dieta relativamente menos
consistente?

Medidas de Forma

Caractersticas
La forma es la manera en que los datos se
distribuyen, es decir, la forma de la curva que
representa a la serie de datos.
La forma se mide en dos aspectos: Sesgo o
Asimetra y Curtosis o Apuntamiento

Sesgo o Asimetra

Mide si la curva de la grfica que representa a los


datos es simtrica respecto al eje vertical
Si en la curva hay simetra, entonces la
distribucin es Simtrica o Insesgada
Si en la curva no hay simetra, entonces la
distribucin es Asimtrica o Sesgada
El signo en los coeficientes de sesgo determina la
asimetra:
+ Distribucin asimtrica positiva
- Distribucin asimtrica negativa
0 Distribucin simtrica

Ejemplo 17:

Del ejemplo 5 calcular SK1 y SK3


(coeficientes de sesgo) e interprete su
resultado.
Lmites
aparentes
0.2-1.5
1.6-2.9
3.0-4.3
4.4-5.7
5.8-7.1
7.2-8.5
8.6-9.9

Lmites
reales
0.15-1.55
1.55-2.95
2.95-4.35
4.35-5.75
5.75-7.15
7.15-8.55
8.55-9.95

Xi
0.85
2.25
3.65
5.05
6.45
7.85
9.25

f F
17 17
11 28
7 35
6 41
4 45
3 48
2 50

Curtosis, Agudez o Apuntamiento

Mide la altura o grado de apuntamiento de la


curva que representa a los datos (eje horizontal)
Segn su grado de curtosis, se definen 3 tipos de
distribuciones:
1. Mesocrtica: Grado de concentracin medio
alrededor de los valores centrales de la variable
(distribucin normal)
2. Leptocrtica: Grado de concentracin elevado
alrededor de los valores centrales de la variable
3. Platicrtica: Grado de concentracin reducido
alrededor de los valores centrales de la variable

El signo en el coeficiente de curtosis


determina el grado de concentracin:

Ejemplo 18

Del ejemplo 5 calcular el coeficiente de


curtosis.
Lmites
aparentes

Lmites
reales

Xi

0.2-1.5

0.15-1.55 0.85 17 17

1.6-2.9
3.0-4.3

1.55-2.95 2.25 11 28
2.95-4.35 3.65 7 35

4.4-5.7
5.8-7.1

4.35-5.75 5.05 6 41
5.75-7.15 6.45 4 45

7.2-8.5
8.6-9.9

7.15-8.55 7.85 3 48
8.55-9.95 9.25 2 50

Presentacin y anlisis de datos de dos variables

Tablas de contingencia

La tabla de contingencia es una tabla de doble


entrada, donde en cada casilla figurar el nmero
de casos o individuos que poseen un nivel de uno
de los factores o caractersticas analizadas y otro
nivel del otro factor analizado.

continuacin

Ejemplo 19

Se sortea un viaje a Roma entre los 120


mejores clientes de una agencia de
automviles. De ellos, 65 son mujeres, 80
estn casados y 45 son mujeres casadas.
Tabule los datos anteriores.