Vous êtes sur la page 1sur 75

1-1

Estadstica
Dr. Omar Jair Purata Sifuentes
Universidad de La Salle Bajo

1-2

Mtodos y Herramientas Cuantitativas


Recopilando

y Presentando Datos
Tipos de datos
Escalas de medicin
Mtodos de recopilacin de datos
Exactitud de los datos
Estadstica Descriptiva
Mtodos grficos para ilustrar relaciones
Mtodos grficos para ilustrar distribuciones

1-3

Qu se entiende por Estadstica?

Estadstica es la ciencia que se encarga de


recopilar, organizar, presentar, analizar e
interpretar datos numricos para apoyar la
toma efectiva de decisiones.

1-4

Tipos de Estadstica
Estadstica Descriptiva: Mtodos de
organizar, resumir y presentar los
datos de manera informativa.
EJEMPLO

1: Una encuesta Gallup encontr que el 49% de las personas


entrevistadas conocan el nombre del presidente del pas. El estadstico 49
describe el nmero que representa las personas de cada 100 que conocen la
respuesta.
EJEMPLO

2: De acuerdo a la revista del consumidor, 9 de cada 100


propietarios de lavadoras LG reportaron problemas durante el 2009. El
estadstico 9 describe el nmero de problemas por cada 100 lavadoras.

1-5

Tipos de Estadstica
Estadstica Inferencial: Una decisin, estimado,
prediccin o generalizacin acerca de una
poblacin, basado en una muestra.
Una poblacin es una coleccin de todos
los posibles individuos, objetos o
mediciones de inters.
Una muestra es una porcin o parte de la
poblacin de inters.

1-6

Tipos de Variables
Para una Variable Cualitativa o Atributo la
caracterstica bajo estudio es no numrica.

EJEMPLOS:

Gnero, religin, marcas de


coches, estado de la repblica, color de ojos,
etc.

1-7

Tipos de Variables
En una Variable Cuantitativa la informacin se
reporta numricamente.
EJEMPLOS:

cuentas financieras, minutos


transcurridos en alguna operacin, nmero
de hijos en una familia.

1-8

Tipos de Variables
A su vez, las variables cuantitativas se pueden clasificar
como discretas o contnuas.
Variables discretas: slo pueden tomar ciertos valores y
generalmente existen huecos entre esos valores.
EJEMPLO:

nmero de recmaras en una casa,


nmero de botellas en una caja.

1-9

Tipos de Variables
A variable continua puede tomar cualquier valor
dentro de un rango especfico.
La

presin de una llanta, el peso de un objeto o la


estatura de una persona.

1-10

Resumen de los Tipos de Variables

D A TO S
C u a lita t iv o s o A t rib u t o s
(m a rc a d e c o c h e )

C u a n t it a t iv o s o N u m r ic o s

D is c r e t o s
( n m e r o d e h ijo s )

C o n tin u o s
( t ie m p o d e c la s e )

1-11

Niveles de Medicin
Existen cuatro niveles de datos.

Nominal: Datos que se clasifican en


categorias y no pueden arreglarse en ningn
orden en particular.

EJEMPLOS:

religin.

color de ojos, gnero,

1-12

Niveles de Medicin
Propiedades

de los datos de nivel nominal:


Las categorias para los datos son mutuamente
excluyentes y exhaustivas.
Las categorias para los datos no tienen un orden
lgico.

1-13

Niveles de Medicin
Mutuamente excluyentes: Un individuo, objeto o
medicin se incluye en una categoria nada ms.
Exhaustivo: Cada individuo, objeto o medicin
debe aparecer en una de las categorias.

1-14

Niveles de Medicin
Nivel Ordinal: implica ordenar los datos de alguna
forma. Sin embargo, las diferencias entre los
valores de los datos no pueden determinarse o
carecen de significado.
EJEMPLO:

Durante la degustacin de 4
refrescos en un concurso, Mirinda obtuvo el
lugar 1, Sprite el 2, Seven-up el 3 y Orange
Crush el 4.

1-15

Niveles de Medicin
Las

propiedades del nivel de datos ordinal son:


Las categorias para los datos son mutuamente
excluyentes y exhaustivas.
Dichas categorias para los datos se clasifican por
intervalos, o se ordenan de acuerdo con las
caractersticas particulares que poseen.

1-16

Niveles de Medicin
Nivel de Intervalo: es similar al nivel ordinal,
con la propiedad adicional de que pueden
determinarse diferencias con significado entre
los valores. No existe un punto cero natural.
EJEMPLO:

Celsius).

Temperatura (en la escala

1-17

Niveles de Medicin
Propiedades

del nivel de intervalo:


Las categorias para los datos son mutuamente
excluyentes y exhaustivas.
Las categorias en cuestion estn ordenadas de
acuerdo con la cantidad de la caracterstica que
poseen.
Diferencias iguales en la caracteristica se
representan por diferencias iguales en la
medicin.

1-18

Niveles de Medicin
Nivel de Razn: es como el nivel de intervalo,
pero con un punto cero significativo
naturalmente. Las diferencias y cocientes
tienen significado en este nivel de medicin.
EJEMPLOS:

Los ingresos mensuales de los


cirujanos o la distancia viajada por los
vendedores mensualmente.

1-19

Niveles de Medicin
Las

propiedades del nivel de datos de razn son:


Las categorias de los datos son mutuamente excluyentes y
exhaustivas
Dichas categorias tienen un intervalo u orden de acuerdo
con la cantidad de la caracteristica que poseen.
Diferencias iguales en la caracteristica estn representadas
por diferencias iguales en los nmeros que se han asignado
a las categorias mencionadas.
El punto o valor cero representa la ausencia de la
caracateristica.

1-20

Resumen
Niveles

de los datos

Nominal

Slo clasifica los datos

Marca de un automovil
Nmero en la camiseta de un jugador

Ordinal

Ordena los datos por jerarquias

De

intervalo
Las diferencias entre valores tienen significado

De

Calificacin de un estudiante en su clase


Posicion del equipo en el pac 10

Temperatura

razn
El cero y el cociente entre valores tiene significado

Numero de pedidos realizados

1-21

Mtodos de Recoleccin de Datos


Porqu

recopilar datos?
DATOS DESCRIPTIVOS: se recolectan para
obtener una descripcin ms detallada de algn
fenmeno. Frecuentemente, el problema est tan
pobremente entendido al inicio, que los miembros
del equipo ni siquiera pueden ponerse de acuerdo
en que existe un problema. Los datos descriptivos
pueden utilizarse para responder estas preguntas
bsicas.

1-22

Mtodos de Recoleccin de Datos


DATOS

INFERENCIALES: los datos se utilizan


algunas veces para investigar las relaciones causa
efecto. Por ejemplo, digamos que usted piensa
que el tiempo en el trabajo afecta el desempeo.
Si usted revisa los registros de personal de un
grupo de empleados para ver el tiempo que pasan
en el trabajo, y luego revisa los registros de
productividad, las conclusiones que obtenga
como resultado de analizar estos datos se llaman
inferencias.

1-23

Mtodos de Recoleccin de Datos


DATOS

DE CEP: El CEP se basa en los datos


para determinar si un proceso ha sido
influenciado por una causa especial. Los procesos
producen salidas variables an cuando no hayan
cambiado. Los datos de CEP le ayudan a separar
la seal del ruido y de esa manera tomar accin.

1-24

Mtodos de Recoleccin de Datos


DATOS

DE ACEPTACIN: Cuando se
recolectan datos y se comparan contra
requerimientos pre-establecidos (tales como
especificaciones de ingenieria), y cuando el
producto, los materiales y los procesos son
aceptados o rechazados basndose en estos datos,
hablamos de datos de aceptacin.

1-25

Fuentes de datos
Reportes

(electrnicos y en papel)

Bitcoras
Estudios

especiales
Datos de los vendedores
Memos, notas y emails
La memoria de las personas

1-26

Tabla de Frecuencias
Es

una manera de organizar los datos de una


muestra. La idea es agrupar los datos en pequeos
grupos denominados intervalos de clase o
simplemente clases.
El siguiente ejemplo ilustra el procedimiento para
hacer una tabla de frecuencias

1-27

Ejemplo
Se

desea analizar el peso (en gramos) de una tapa


de plstico. Se tom una muestra y se obtuvieron
los siguientes datos.
2.744 2.739 2.788 2.736 2.761 2.714 2.726 2.745 2.736 2.707
2.751 2.765 2.713 2.740 2.751 2.757 2.743 2.745 2.745 2.734
2.749 2.766 2.761 2.739 2.744 2.723 2.808 2.732 2.722 2.755
2.744 2.742 2.749 2.783 2.693 2.728 2.784 2.696 2.749 2.726

1-28

Tabla de Frecuencias
Ordenar

los datos en forma creciente.


(utilizar el Excel)

1-29

Tabla de Frecuencias
1)

Se debe definir el nmero de clases. Si n es la


cantidad de datos (tamao de la muestra).
Entonces usaremos el criterio:
Nmero de clases = raiz cuadrada de n
Y el nmero de clases sera = raiz(40) = 6.324
Que se redondea a 6.

1-30

Tabla de Frecuencias
2)

Luego, se debe definir la longitud de clase, que


es la longitud del intervalo. Definiendo MAX y
MIN como los valores mximo y mnimo de la
muestra, respectivamente, entonces:
Longitud de clase = (MAX MIN) / # de clases

1-31

Tabla de Frecuencias
En

este caso, tenemos:


Longitud de clase = (2.808 2.693) / 6 = 0.02
Es recomendable siempre redondear hacia arriba
en este paso.

1-32

Tabla de Frecuencias
Con

los clculos realizados, se puede generar la


siguiente tabla de frecuencias:
Clase

Marca de
clase

2.693 2.713

2.703

2.713 2.733

2.723

2.733 2.753

2.743

2.753 2.773

2.763

2.773 2.793

2.783

2.793 2.813

2.803

Conteo

Frecuencia
absoluta

1-33

Tabla de Frecuencias
La

marca de clase es el valor medio del intervalo


de clase. Es decir, se obtiene promediando los
lmites de clase.
La frecuencia absoluta de una clase es el nmero
de datos en la clase.
La tabla de frecuencias absolutas tiene el
siguiente aspecto:

1-34

Tabla de Frecuencias
Clase

Marca de clase

Conteo

Frecuencia
absoluta

2.693 2.713

2.703

IIII

2.713 2.733

2.723

IIIIIII

2.733 2.753

2.743

IIIIIIIIIIIIIIIIIII

19

2.753 2.773

2.763

IIIIII

2.773 2.793

2.783

III

2.793 2.813

2.803

1-35

Tabla de Frecuencias

Los

valores de los datos que coinciden con un


lmte de clase, se colocan en la clase en donde
son lmite superior. Por ejemplo, el 2.713.

1-36

Tabla de Frecuencias
La

frecuencia relativa de una clase es su


frecuencia absoluta entre el nmero de datos (n).
Clase

Marca de
clase

2.693 2.713

2.703

2.713 2.733

Conteo

Frecuencia
absoluta

Frecuencia
relativa

IIII

0.100

2.723

IIIIIII

0.175

2.733 2.753

2.743

IIIIIIIIIIIIIIIIIII

19

0.475

2.753 2.773

2.763

IIIIII

0.150

2.773 2.793

2.783

III

0.075

2.793 2.813

2.803

0.025

1-37

Tabla de Frecuencias
La

frecuencia acumulada de una clase es el


nmero de datos que son menores o iguales a su
lmite superior.
Clase

Marca
de clase

Conteo

Frecuencia Frecuencia
absoluta
relativa

Frecuencia
acumulada

2.693 2.713

2.703

IIII

0.100

2.713 2.733

2.723

IIIIIII

0.175

11

2.733 2.753

2.743

IIIIIIIIIIIIIIIIIII

19

0.475

30

2.753 2.773

2.763

IIIIII

0.150

36

2.773 2.793

2.783

III

0.075

39

2.793 2.813

2.803

0.025

40

1-38

Tabla de Frecuencias
La

frecuencia acumulada relativa de una clase es


su frecuencia acumulada entre el nmero de
datos.
Clase

Marca Frecuencia Frecuencia


de clase absoluta
relativa

Frecuencia
acumulada

Frec. Acum.
Relativa

2.693 2.713

2.703

0.100

0.100

2.713 2.733

2.723

0.175

11

0.275

2.733 2.753

2.743

19

0.475

30

0.750

2.753 2.773

2.763

0.150

36

0.900

2.773 2.793

2.783

0.075

39

0.975

2.793 2.813

2.803

0.025

40

1.000

1-39

Apoyos Grficos
El

Histograma de Frecuencias es una grfica en


donde se colocan rectngulos sobre la base de
cada clase, con una altura igual a la frecuencia
correspondiente.

1-40

Apoyos Grficos

1-41

Apoyos Grficos

1-42

Apoyos Grficos

1-43

El Diagrama de Caja y Bigotes


Es

otro apoyo grfico que se usa muy


frecuentemente. Para interpretarlo necesitamos
conocer los conceptos siguientes:

Cuartiles.
El

primer cuartil (q1) es el valor que acumula el


25 % de los datos.

1-44

El Diagrama de Caja y Bigotes


El

segundo cuartil (q2) es el valor que acumula el


50% de los datos. Tambin se le conoce como
Mediana.

El

tercer cuartil (q3) es el valor que acumula el


75% de los datos.

El

rango intercuartlico es igual a q3 q1, y se


usa como una medida de dispersin.

1-45

El Diagrama de Caja y Bigotes


Por

ejemplo, para estimar q1 de los datos del


peso de los tapones de botella, tenemos que el
25% de 40 es 10. Luego, debemos ordenar en
forma creciente los datos y seleccionar el que
qued ubicado en el dcimo lugar, que en este
caso es q1 = 2.728.

1-46

El Diagrama de Caja y Bigotes


Para

estimar q2 tenemos que como n = 40, no hay


un dato central, sino dos. Luego, se promedian
estos dos valores, obteniendo:
q2 = (2.744 + 2.744) / 2 = 2.744

1-47

El Diagrama de Caja y Bigotes


Para

estimar q3 se tiene que el 75% de 40 es 30,


y el valor que ocupa el trigsimo lugar es 2.751,
por lo tanto q3 = 2.751.
El rango intercuartlico es: 2.751 2.728 = 0.023

1-48

El Diagrama de Caja y Bigotes


El

diagrama de caja y bigotes para el peso de las


tapas de plstico tiene el siguiente aspecto.

1-49

El Diagrama de Caja y Bigotes


Interpretacin

del diagrama de caja y bigotes

1-50

Medidas de Tendencia Central para


Datos No Agrupados
Tienen

como objetivo ubicarse en el centro de los


datos, tratando de ser representativas de todos
ellos.
Algunas medidas de tendencia central son: la
media, la mediana y la moda

1-51

Medidas de Tendencia Central para


Datos No Agrupados
LA MEDIA ARITMTICA
Sea

x1, x2, ..., xn una muestra de tamao n. La


media aritmtica (media o promedio) se define
como:
n

x
i 1

1-52

Medidas de Tendencia Central para


Datos No Agrupados
EJEMPLO:

Se tiene una muestra de mediciones


de una propiedad fsica determinada. Los datos
son:
53.81

62.48

58.34

53.60

51.88

50.98

52.42

53.36

48.66

50.05

58.04

50.98

52.04

57.29

52.01

48.01

53.60

52.42

50.05

49.82

56.80

56.76

52.64

52.89

53.72

1-53

Medidas de Tendencia Central para


Datos No Agrupados
La

media es entonces:

53.81 62.48 ... 53.72


X
53.306
25
En

EXCEL, la funcin es PROMEDIO(rango).

1-54

Medidas de Tendencia Central para


Datos No Agrupados
LA MEDIANA
Con

los datos ordenados (en forma creciente o


decreciente), si n es un nmero par, la mediana es
el promedio de los dos datos centrales. Si n es
impar, la mediana es el dato central.

1-55

Medidas de Tendencia Central para


Datos No Agrupados
La

mediana de los datos del ejemplo es:


52.64 (el valor central con los datos ordenados y
n = 25, un nmeor impar).
En

EXCEL se puede usar la funcin


MEDIANA(rango).

1-56

Medidas de Tendencia Central para


Datos No Agrupados
LA MODA
Es

el valor que se presenta con mayor frecuencia


en los datos.
Su desventaja es la posible multiplicidad.
En

los datos del ejemplo hay tres modas:


50.05, 52.42 y 53.60
En EXCEL, use la funcin MODA(rango).

1-57

Medidas de Tendencia Central para


Datos No Agrupados
Ventajas

y desventajas de las MTCs:

1-58

Medidas de Dispersin
El

RANGO, es la diferencia entre el valor ms


grande y el valor ms pequeo.

En

el ejemplo, el rango es:


62.48 48.01 = 14.47
En

EXCEL, se puede obtener la resta con las


funciones MAX y MIN:
Rango = MAX(datos) MIN(datos)

1-59

Medidas de Dispersin
La

VARIANZA.
Puede ser poblacional o muestral.
La Varianza Poblacional se define como:
n

(x )
i 1

1-60

Medidas de Dispersin
La

varianza muestral se define como:


n

S
2

(x X )
i 1

n 1

n 2

n 1

1-61

Medidas de Dispersin
La

DESVIACIN ESTNDAR
POBLACIONAL , se define como:

La

DESVIACIN ESTNDAR MUESTRAL S,


se define como:

S S

1-62

Medidas de Dispersin

Los

1-63

Medidas de Dispersin

Los

1-64

Medidas de Dispersin

Los

1-65

Medidas de Tendencia Central para


Datos Agrupados
Media

Aritmtica.
Suponer que se tienen n datos agrupados en k
intervalos de clase, donde x1, x2, ..., xk son las
marcas de clase. Adems, f1, f2, ..., fk son las
frecuencias absolutas de clase. La media est dada
por:
k

x f

i i

i 1

1-66

Medidas de Tendencia Central para


Datos Agrupados
EJEMPLO:

La siguiente tabla muestra los datos


agrupados de la dureza de rollos de polietileno, la
cual se mide en unidades Shore D.
Clase
Marca de Clase Frecuencia
283.50 296.42
289.96
5
296.12 309.34
302.88
21
309.34 322.26
315.80
15
322.26 335.18
328.72
6
335.18 348.10
341.64
2
348.10 361.02
354.56
1

(289.96)(5) (302.88)(21) ... (354.56)(1) 15557.44


x

311.149
50
50

1-67

Medidas de Tendencia Central para


Datos Agrupados
La

Mediana. Primeramente debemos identificar la


clase de la mediana, que es la primera clase cuya
frecuencia acumulada es igual o mayor a n/2
L1 = Lmite inferior de la clase de la mediana
f = Frecuencia de la clase de la mediana
x
C = Longitud de la clase de la mediana
f = Suma de las frecuencias de las clases
anteriores a la clase de la mediana

[(
n
/
2
)

f
]
C

~
x L1
f ~x

1-68

Medidas de Tendencia Central para


Datos Agrupados
Tomando

los datos del ejemplo anterior:


La 2a clase es la clase de la mediana
L1 = 296.42
f

=5
C = 12.92
n/2 = 25
fx = 21

(25 5)(12.92)
~
x 296.42
308.725
21

1-69

Medidas de Tendencia Central para


Datos Agrupados
La

Moda. Primero se identifica la clase modal que es


aquella con la mayor frecuencia absoluta.
L2 = Lmite inferior de la clase modal
C = Longitud de la clase modal
1 = Diferencia de la frecuencia de la clase modal y la
clase que le antecede
2 = Diferencia de la frecuencia de la clase modal y la
clase que le precede

1
C
M o L2
1 2

1-70

Medidas de Tendencia Central para


Datos Agrupados
La

clase modal es la segunda.


L2 = 296.42
C

= 12.92
1 = 16
2

=6

16
M o 296.42
12.92 305.816
16 6

1-71

Medidas de Dispersin para Datos


Agrupados
La

Varianza Poblacional. Suponer que se tienen n


datos agrupados en k intervalos de clase, donde
x1, x2, ..., xk son las marcas de clase. Adems, f1,
f2, ..., fk son las frecuencias absolutas de clase.
k

x
i 1

2
i i

1-72

Medidas de Dispersin para Datos


Agrupados
Tomando

los datos del ejemplo de trabajo:

2
x
i fi
i 1

n
k

x
i 1

2
i i

(289.96 2 )(5) (302.882 )(21) ... (354.56 2 )(1)

50

97005.608

2 97005.608 311.149 2 191.908


191.908 13.853

1-73

Medidas de Dispersin para Datos


Agrupados
Varianza

Muestral. Se aplica la frmula:


S2 = [n / (n - 1)] 2
S2

= (50 / 49)(191.908) = 195.824

= raiz(195.824) = 13.994

1-74

Medidas de Dispersin para Datos


Agrupados

Los

1-75

Medidas de Dispersin

Losm,

Vous aimerez peut-être aussi