Vous êtes sur la page 1sur 98

Estrella Salas A.

1
PROF. ESTRELLA SALAS A.
Estrella Salas A. 2
Introduccin
El tomar observaciones es comn en el marco de
la investigacin. Estas observaciones surgen como
resultado de un proceso de observacin bajo
condiciones dadas o de un proceso experimental.
Por ejemplo, se registran las temperaturas
mnimas diarias ocurridas en la dcada del 80,
suponiendo un total de 3650 das. Situaciones
como sta conducen a los conocidos estudios
observacionales.
Estrella Salas A. 3
Introduccin
En otras circunstancias, las observaciones son el
resultado de la provocacin de un fenmeno, o
experimento, bajo condiciones controladas. A
modo de ejemplo, se podra considerar la
aplicacin de distintos insecticidas en bandejas
con 100 insectos, en cada una de las cuales se
registra el nmero de insectos muertos.
Situaciones como stas son conocidas como
estudios experimentales.
Estrella Salas A. 4
Generalmente la informacin registrada en un
proceso de observacin es tratada, en un primer
momento, con el objetivo de describir y resumir
sus caractersticas ms sobresalientes. Esto se
conoce como estadstica descriptiva y
generalmente se basa en el uso de tablas y
grficos, y en la obtencin de medidas resumen.
Estrella Salas A. 5
Un conjunto de datos
coherente, establecido de forma
sistemtica y siguiendo .
un criterio de ordenacin
ESTADISTICA DESCRIPTIVA
Informacin de la que se puede sacar
conclusiones acerca de un grupo grande
de individuos por medio de la observacin
de solo una parte del conjunto total.
INFERENCIA ESTADISTICA
ESTADISTICA
Estrella Salas A. 6
Terminologa de la Estadstica
Descriptiva
Poblacin: Es un conjunto de
elementos acotados en un
tiempo y en un espacio
determinados, con alguna
caracterstica comn observable
o medible.
Si la poblacin es finita, diremos que el
tamao poblacional es el nmero de
elementos de la misma y lo denotaremos
con N.
Estrella Salas A. 7
Poblacin finita: cuando el
nmero de elementos que la
forman es finito, por ejemplo
el nmero de alumnos de su
colegio, o de su curso.
Poblacin infinita: cuando el
nmero de elementos que la
forman es infinito, o tan
grande que pudiesen
considerarse infinitos. Como
por ejemplo si se realizase un
estudio sobre los productos
que hay en el mercado
Estrella Salas A. 8
Una muestra es una
parte de la poblacin que
es realmente usada para
obtener la informacin.
Seleccionada de acuerdo
con una regla o plan.
Una unidad muestral es el elemento
o entidad de la muestra.
Estrella Salas A. 9
Tamao muestral es el nmero de
elementos de la poblacin que conforman
la muestra y se denota con n.
Estrella Salas A. 10
POBLACION
MUESTRA
Estrella Salas A. 11
Estrella Salas A. 12
Variables
Las observaciones o mediciones sobre
los elementos de una poblacin
constituyen la materia prima con la cual
se trabaja en Estadstica.
Para que dichas observaciones puedan
ser tratadas estadsticamente deben estar
expresadas o poder ser reexpresadas en
trminos numricos.
Estrella Salas A. 13
Aquellas caractersticas que van
cambiando en su estado o expresin
entre los elementos de la poblacin se
denominan "variables", mientras que
aquellas que no cumplen esta condicin
son llamadas "constantes".
Estrella Salas A. 14
Una variable es una caracterstica, propiedad o
atributo, con respecto a la cual los elementos de una
poblacin difieren de alguna forma.
Para denotar a una cierta variable se utilizan
letras maysculas, y con la misma letra en
minscula se hace referencia a un valor en
particular observable en un elemento de la
poblacin, y al que se suele llamar dato
Estrella Salas A. 15
VAR. DISCRETAS VAR. CONTINUAS
VARIABLES CUANTITATIVAS
VAR. ORDENABLE VAR. NO ORDENABLE
VARIABLES CUALITATIVAS
TIPOS DE VARIABLES
Estrella Salas A. 16
Escala de Medicin.
Se entender por medicin al proceso de
asignar el valor a un elemento de la
variable en observacin. Este proceso
utiliza diversas escalas: nominal, ordinal,
de intervalo y de razn.
Estrella Salas A. 17
Escala de Medicin.
escala nominal
escala ordinal
escala de
intervalo
escala de
razn
Estrella Salas A. 18
MEDIA
DESV. ESTANDAR
VARIANZA
PARAMETROS
POBLACIONALES
MEDIA
DESV ESTANDAR
VARIANZA
ESTADISTICOS
MUESTRALES
MEDIDAS RELACIONADAS
CON UNA VARIABLE
Estrella Salas A. 19
Tablas estadsticas o tablas de
frecuencias
Grfico de tallo y hojas
Consiste en una serie de hileras
horizontales de nmeros. El nmero
utilizado para designar una hilera es su
tallo, el resto de los nmeros de la hilera se
denominan hojas.
Estrella Salas A. 20
EJEMPLO 1.- Las notas obtenidas en una prueba de
matemticas son:
78 93 61 100 70 83 88 74
97 72 66 73 76 81 64 91
77 86
Construya un grfico de tallo y hoja
Estrella Salas A. 21
Distribucin de frecuencias
Si tenemos un gran conjunto de valores
observados, en este caso necesitamos un
sistema alternativo para agrupar los datos de
manera que podamos determinar la forma
de ellos, y una forma es mediante tablas
estadsticas o grficos.
Estrella Salas A. 22
Las tablas estadsticas segn el nmero de
observaciones y segn el recorrido de la
variable estadstica, tenemos los siguientes
tipos de tablas estadsticas:
1.Tablas tipo I
2.Tablas tipo II
3.Tablas tipo III
Estrella Salas A. 23
Tablas tipo I
Cuando el tamao de la muestra y el recorrido
de la variable son pequeos.
Edad de los 5 miembros de una familia:
5, 8, 16, 38, 45
Tablas Tipo II
Cuando el tamao de la muestra es grande y
el recorrido de la variable es pequeo, por lo
que hay valores de la variable que se repiten.
Estrella Salas A. 24
Ejemplo 2.- Si preguntamos el nmero de
personas que trabajan en 50 familias obtenemos
la siguiente tabla:
Personas que trabajan en 50 familias
Resuma estos datos en una tabla de frecuencias
2 1 2 2 1 2 0 2 1 1
2 3 0 1 1 1 3 0 2 2
2 2 1 2 1 1 1 3 2 2
3 2 3 1 2 4 2 1 4 1
1 0 4 3 2 2 2 1 3 3

Estrella Salas A. 25
Tablas tipo III:
Cuando el tamao de la muestra y el
recorrido de la variable son grandes, por
lo que ser necesario agrupar en
intervalos los valores de la variable.
Estrella Salas A. 26
Ejemplo 3.- Si a un grupo de 30
alumnos les preguntamos el dinero que
en ese momento llevan en sus bolsillos,
nos encontramos con los siguientes
datos:
450 1152 250 300 175 80 25 2680 605 785 1595
5 180 200 675 500 375 1500 205 985 185 125

2300 5000 1200 100
315 425 560 1100

Estrella Salas A. 27
Algunas regla para agrupar los datos en
intervalos o categoras.
Nmero de intervalos o categoras o clases:
Localizar el mximo y el mnimo
caso otro en n k
grande es no n si n k
), log( 22 . 3 1
,
+ ~
~
Estrella Salas A. 28
Determinar el recorrido o rango
Determinar la amplitud
Determinar la marca de clases
mn mx
x x r =
k
x x
a
mn mx

=
2
1
+
=
i i
i
l l
x
Estrella Salas A. 29
Frecuencia absoluta
acumulada
Ni
Frecuencia absoluta
ni
Frecuencia relativa
acumulada
Fi
Frecuencia relativa
fi
Frecuencia relativa
porcentual acumulada
Hi
Frecuencia relativa
porcentual
hi
Tipos de Frecuencias
Estrella Salas A. 30
Modalidad
o clases
Intervalos
de clases
Frec. Abs. Frec. Rel.
Porcentual
Frec. Abs.
Acumu.
Marca de
clases
c
i
n
i
hi
i
N
i
x
i
c1 l0 l1 n1 h1= n1/n*100 N1=n1 x1

cj lj-1 -- lj nj h j=nj/n*100 Nj=n1+n2++n j xj

ck lk-1 -- lk nk hh k =nk/n*100 Nk=n xk


n 100%
Estrella Salas A. 31
Ejemplo 4.- Considere el ejemplo 2 para
realizar una tablas de frecuencias
Ejemplo 5.- Considere ahora los datos del
ejemplo 3 y construya con ellos una tabla de
frecuencias.
Estrella Salas A. 32
BARRAS CIRCULAR
GRAFICOS
VARIABLES CUALITATIVAS
HISTOGRAMA POLIGONO
FRECUENCIA
OJIVA
GRAFICOS
VARIABLES CUANTITATIVAS
REPRESENTACION GRAFICA
Estrella Salas A. 33
SI NO
(77%)
(23%)
SI NO
REPRESENTACION GRAFICA
VARIABLES CUALITATIVAS
CIRCULAR:
La frecuencia absoluta se representa por medio de sectores circulares.
Otros nombres : Sectorial, de torta, pie-chart.
Estrella Salas A. 34
REPRESENTACION GRAFICA
VARIABLES CUALITATIVAS
DE BARRA:
La frecuencia se representa por medio de barras verticales.
Las categoras de la variable se ubican en el eje horizontal.
Las barras deben:
tener el mismo ancho.
estar separadas.
estar espaciadas uniformemente.
Estrella Salas A. 35
REPRESENTACION GRAFICA
VARIABLES CUANTITATIVAS
HISTOGRAMA:
Es la representacin grfica ms frecuente para datos agrupados.
Es un conjunto de rectngulos unidos, cada uno de los cuales representa un
intervalo de clase.
Sus bases son iguales a la amplitud del intervalo.
Las alturas representan la frecuencia absoluta.
Estrella Salas A. 36
REPRESENTACION GRAFICA
VARIABLES CUANTITATIVAS
POLIGONO DE FRECUENCIAS:
Grfico de lneas.
Se puede obtener uniendo los puntos medios superiores de las barras del
histograma (marcas de clase).
Estrella Salas A. 37
REPRESENTACION GRAFICA
VARIABLES CUANTITATIVAS
OJIVA:
Grfico de lneas.
Representa las frecuencias acumuladas.
Estrella Salas A. 38
Grfico de tiempo
Cuando los datos de una variable estn
tomado a travs de tiempo, puede ser de gran
inters el grfico de los datos a travs del
tiempo o el orden en que los datos fueron
obtenidos.
Estrella Salas A. 39
Ejemplo 8.- Los datos siguientes
corresponden al nmero de estudiante que
llegaron tarde al colegio A durante un
periodo de tres semanas
Lunes Martes Mircoles Jueves Viernes
Semana 1 10 7 6 8 11
Semana 2 14 5 10 8 7
Semana 3 9 3 6 4 6

Estrella Salas A. 40
MEDIA
MEDIANA
MODA
MEDIDAS DE
TENDENCIA CENTRAL
DEV. MEDIA
DEV. ESTANDAR
VARIANZA
MEDIDAS DE
DISPERSION
CUARTILES
PERCENTILES
MEDIDAS
DE POSICION
INDICES
MEDIDAS DE
SIMETRIA
CURTOSIS
MEDIDAS DE
FORMA
RESUMIR LOS DATOS
NUMERICAMENTE
Estrella Salas A. 41
Media Aritmtica
Se calcula sumando el valor de todos los datos y dividindolos por el
nmero total de ellos.
Es muy sensible a los valores extremos anormales.
Cuando es calculada a partir de una tabla con datos agrupados, se utiliza la
marca de clase como representante de cada intervalo y por lo tanto el
resultado obtenido corresponde a un valor aproximado de la media.
MEDIDAS DESCRIPTIVAS NUMERICAS
Medidas de Tendencia Central
1
n
i
i
x
x
n
=
=

Estrella Salas A. 42
MEDIA
DATOS SIN AGRUPAR
DATOS AGRUPADOS
n
x
x
n
1 i
i
=
=
n
x n
x
n
1 i
i i
=
=
Estrella Salas A. 43
PROPIEDADES DE LA MEDIA
1.- La suma de las diferencia de la variable con
respecto a la media es nula, es decir.
2.- La media aritmtica del producto de una constante
por una variable X es igual al producto de esta
constante por la media aritmtica

=
=
n
1 i
i
0 ) x x (
X c cX =
Estrella Salas A. 44
3.- La media aritmtica entre una constante y la
variable X es la suma (o diferencia) de la constante
y la media aritmtica de la variable
c X c X + = +
Estrella Salas A. 45
4.- Si X e Y representan dos variables con el mismo
nmero de observaciones, entonces la media
aritmtica de la suma de estas variables es igual a la
suma de las medias respectivas
X Y Y X + = +
Estrella Salas A. 46
Ejemplo 9.-
Obtener la media y las desviaciones con respecto a la
media en la siguiente distribucin y comprobar que su
suma es cero.
Suponga que a cada uno de estos datos se le suma 5
unidades y se multiplica por 3 determinar la nueva
media
Estrella Salas A. 47
l
i-1
-l
i
n
i
0- 10 1
10- 20 2
20- 30 4
30- 40 3
Media aritmtica ponderada

=
=
=
n
1 i
i
n
1 i
i i
p
w
w x
x
Estrella Salas A. 48
Ejemplo 10
Un alumno de estadstica obtiene en el semestre las
siguientes calificaciones certamen 1 70 puntos certamen
2 65 puntos promedio de tareas 80 puntos y en el examen
64 puntos. De acuerdo a la importancia de la evaluacin
cada certamen se le asigna un peso 25% y a las tareas un
10% y al examen un 40%. Calcular el promedio final del
alumno.
Estrella Salas A. 49
MEDIA GEOMETRICA
La media geomtrica de n valores no negativos est
dada por:
Si algunos valores son muy grandes p muy pequeos
la med. Geo. Proporciona una mejor representacin
del promedio.
n
n
x x x G * ... * *
2 1
=
Estrella Salas A. 50
Ejemplo: Suponga que La ventas de un determinado
producto se incrementan en un 110% el 1 ao y en
150% el 2 ao. Determine la media de este
incremento.
Estrella Salas A. 51
MEDIA ARMONICA
Es til para variables expresadas en proporciones de
unidades de tiempo, tales como kilmetros por hora, N de
unidades de produccin por da, etc.
Ejemplo: Suponga que 4 mquinas son utilizadas para
producir la misma pieza, pero cada una de las mquinas se
demoran en fabricar la pieza 2.5, 2, 1.4 y 6 minutos en
realizar dicha pieza. Cul es el tiempo promedio de
produccin?

=
=
n
i
i
x
n
H
1
1
Estrella Salas A. 52
Medidas de Tendencia Central
Mediana
Divide la distribucin en dos partes con igual cantidad de datos.
Si los datos se ordenan en forma creciente o decreciente, la mediana es el
valor que se encuentra en el medio de la distribucin.
Si el nmero de datos es impar entonces la mediana coincide con el dato
que se encuentra en la mitad.
Si el nmero de observaciones es par, habr dos observaciones centrales en
ese caso la mediana ser el promedio de ellas.
La mediana es menos sensible a valores extremos, esta medida depende del
nmero de observaciones ms que la magnitud de ellas.
Estrella Salas A. 53
LA MEDIANA
DATOS
NO AGRUPADOS
DATOS
AGRUPADOS
MED = X
C
SI N ES IMPAR
2
x x
Med
) 1 i ( ) i (
+
=
SI N ES PAR
i
i
l i
i
a
n
N
n
l Med *
2
1

+ =
Estrella Salas A. 54
Donde:
l
i-1
: lmite inferior de la clase de la mediana
n : nmero de observaciones
N
i-1
: frecuencia absoluta de la clase de la mediana
n
i
: frecuencia absoluta del intervalo mediano
a
i
: amplitud del intervalo de la clase de la mediana
Estrella Salas A. 55
Moda
Se define como el valor que se presenta con ms frecuencia.
Cuando es obtenida a partir de una tabla con datos sin agrupar, la moda
es el valor con ms alta frecuencia. Y cuando es obtenida a partir de
una tabla con datos agrupados, la moda es la marca de clase con ms
alta frecuencia.
Medidas de Tendencia Central
Estrella Salas A. 56
Moda
Puede no es un estadgrafo nico, en una distribucin de frecuencias
podra existir ms de una moda (bimodal, trimodal), tambin es posible
que alguna distribucin no tenga moda.
Medidas de Tendencia Central
Si n moda
Dos modas
Bi modal
Tr es modas
Tr i modal
Una moda
Uni modal
Estrella Salas A. 57
MODA
i
1 i i 1 i i
1 i i
1 i
a *
) n n ( ) n n (
n n
l Mod
+

+

+ =
DATO QUE MAS
SE REPITE
DATOS NO
AGRUPADOS
DATOS
AGRUPADOS
Estrella Salas A. 58
Medidas de Posicin o Cuantiles
Valores que dividen a la distribucin en cuatro, diez o cien partes iguales.
Cuartiles
Valores que particionan a una distribucin de frecuencias en cuatro partes
iguales, mediante los puntos Q
1
, Q
2
, Q
3
, llamados primer, segundo y tercer
cuartil.
Medidas de Posicin
Estrella Salas A. 59
Deciles
Valores que particionan a una distribucin de frecuencias en diez partes
iguales mediante los puntos D
1
, D
2
, ..., D
9
, llamados primer, segundo, ...,
noveno decil.
Percentiles
Valores que particionan a una distribucin de frecuencias en cien partes
iguales mediante los puntos P
1
, P
2
, ..., P
99
, llamados primer, segundo , ...,
99
avo
percentil.
Medidas de Posicin
Es posible obtener grficamente las medidas de posicin a partir de la ojiva
para frecuencias acumuladas porcentuales.
Estrella Salas A. 60
ESTADISTICOS DE POSICION
CUANTILES
DATOS NO
AGRUPADOS
DATOS
AGRUPADOS
i
i
1 i
1 i k
a *
n
N
100
k * n
l P


+ =
DATO K- ESIMO
Estrella Salas A. 61
Medidas de variabilidad o Dispersin
Rango
Desviacin
Media
Varianza
min max
x x r =
n
x x
DM
n
i
i

=

=
1
| |
n
n x x
DM
k
i
i i

=

=
1
| |
n
x x
S X V
n
i
i

=

= =
1
2
2
) (
) (
n
n x x
S X V
n
i
i i

=

= =
1
2
2
) (
) (
Estrella Salas A. 62
Medidas de Dispersin
Dispersin o Variabilidad de los datos
Alejamiento o concentracin de los datos con respecto a un valor central.
Una dispersin pequea indica que es poco el alejamiento de los datos con
respecto al valor central.
M uy di sper so
Poco di sper so
Estrella Salas A. 63
Medidas de Dispersin
Varianza
Promedio de las desviaciones (distancia, resta) al cuadrado de los datos con
respecto a la media aritmtica.
Unidad de medida de los datos al cuadrado.
Desviacin Estndar
Raz cuadrada positiva de la varianza.
Misma unidad de medida de los datos.
Ms fcil de interpretar.
( )
2
2
1
n
i
i
x x
n

=

=

2
=
Estrella Salas A. 64
La Varianza
n
x n x
S X V
n
i
i

=

= =
1
2 2
2
) (
n
x n x n
S X V
k
i
i i

=

= =
1
2
2
) (
La Desviacin Estndar
) ( X V S =
Estrella Salas A. 65
Medidas de Dispersin
Coeficiente de Variacin
Medida de dispersin adimensional, que entrega el resultado en porcentaje.
Permite comparar dos distribuciones independiente de sus unidades de
medida.
Dados dos conjuntos, el menos disperso es aquel que tenga un Coeficiente
de Variacin menor.
Un Coeficiente de Variacin mayor al 30% indica que la Media Aritmtica
es poco representativa de la muestra.
100 CV
x

=
Estrella Salas A. 66
Proposicin
1.- Si
Observacin
1) Si los resultados de una medida son
trasladados una cantidad b, la dispersin de los
mismos no aumenta. Si estos mismo datos se
multiplican por una cantidad a<1, el resultado
tender a concentrarse alrededor de su media
(menor varianza). Si por el contrario a>1 habr
mayor dispersin.
2 2 2
X Y
S a S entonces b aX Y = + =
Estrella Salas A. 67
2) Adems se tiene que
La desviacin media y la varianza son sensibles a la
variacin de cada una de las puntuaciones
Si se calculan a travs de los datos agrupados en una
tabla, dependen de los intervalos elegidos. Es decir,
cometemos cierto error en el clculo de la varianza cuando
los datos han sido resumidos en una tabla estadstica
mediante intervalos. Este error no ser importante si la
eleccin del nmero de intervalos, amplitud y lmites de los
mismos ha sido adecuada.
No es recomendable el uso de ellas, cuando tampoco lo
sea el de la media como medida de tendencia central
Estrella Salas A. 68
Asimetra y apuntamiento
En primer lugar, nos vamos a plantear el saber si los
datos se distribuyen de forma simtrica con respecto a
un valor central, o si bien la grfica que representa la
distribucin de frecuencias es de una forma diferente
del lado derecho que del lado izquierdo.
Estadsticos de asimetra
Para saber si una distribucin de frecuencias es
simtrica, hay que precisar con respecto a qu. Un
buen candidato es la mediana, ya que para variables
continuas, divide al histograma de frecuencias en dos
partes de igual rea.
Estrella Salas A. 69
Podemos basarnos en ella para, de forma natural,
decir que una distribucin de frecuencias es
simtrica si el lado derecho de la grfica (a partir de
la mediana) es la imagen por un espejo del lado
izquierdo.
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7
Estrella Salas A. 70
Asimetra o Sesgo
Falta de simetra de una distribucin de frecuencias con respecto a una
distribucin simtrica unimodal.
Una distribucin es asimtrica si el lado derecho e izquierdo son diferentes
con respecto a un valor central.
Estrella Salas A. 71
Asimetra o Sesgo
Simtrica o sin sesgo.
(= 0)
Asimtrica a la derecha o con sesgo positivo.
(>0)
Asimtrica a la izquierda o con sesgo negativo.
(<0)
MEDIDAS DESCRIPTIVAS NUMERICAS
Medidas de Forma
Estrella Salas A. 72
2.8.2 Indice basado en los tres cuartiles (Yule-Bowley)
Si una distribucin es simtrica si:
1 2 2 3
Q Q Q Q =
1 2 2 3
Q Q Q Q >
1 2 2 3
Q Q Q Q <
si es asimtrica negativa, se tendr
Es simetrica Positiva si:
Estrella Salas A. 73
Para quitar la dimensionalidad al problema, utilizamos
como ndice de asimetra la cantidad:
1 3
1 2 2 3
) ( ) (
Q Q
Q Q Q Q
A
s


=
Estrella Salas A. 74
Curtosis
Grado de apuntamiento de una distribucin de frecuencias con
respecto a una distribucin simtrica unimodal de forma
acampanada.
MEDIDAS DESCRIPTIVAS NUMERICAS
Medidas de Forma
( )
4
1
4
n
i
i
x x
K
n
=

=

Estrella Salas A. 75
Estadsticos de apuntamiento.
Se define el coeficiente de aplastamiento de Fisher o coeficiente
de curtosis. Grado de apuntamiento de una distribucin de
frecuencias con respecto a una distribucin simtrica unimodal
de forma acampanada.
3
2
2
4
=
m
m
K
Donde
n
x x
m
n
i
k
i
k

=

=
1
) (
Estrella Salas A. 76
Leptocrtica: cuando, K>0, o sea, si la distribucin
de frecuencias es ms apuntada que la normal:
Mesocrtica: cuando K=0, es decir, cuando la
distribucin de frecuencias es tan apuntada como lo
normal;
Platicrtica: cuando K<0, o sea, si la distirbucin de
frecuencias es menos apuntada que la normal
Estrella Salas A. 77
Curtosis
Acampanada o mesocrtica.
Espigada o leptocrtica.
Achatada o platicrtica.
MEDIDAS DESCRIPTIVAS NUMERICAS
Medidas de Forma
Estrella Salas A. 78
Si la distribucin de los datos:
Es simtrica entonces la media est en el centro de la distribucin de
frecuencias y se dice que este valor es el ms representativo de la
distribucin por estar equidistante de los extremos.
OBSERVACIONES
Estrella Salas A. 79
Si la distribucin de los datos:
Tiene sesgo positivo o negativo, la mediana es mejor representante que
la media.
OBSERVACIONES
Estrella Salas A. 80
Si la distribucin de los datos:
Presenta una forma inestable o sinusoidal, entonces la moda es ms
representativa que la media y la mediana.
OBSERVACIONES
Estrella Salas A. 81
Si la distribucin de los datos es:
Simtrica Asimtrica a la derecha Asimtrica a la izquierda
OBSERVACIONES
Estrella Salas A. 82
GRAFICOS CAJA
Un grfico-caja o box plot muestra las posiciones
relativas de los cuartiles, porcin central y valores
extremos de una distribucin de frecuencias
Paso 1: Calcular los 3 cuartiles (Q
1
, Q
2
, y Q
3
).
Paso 2: Calcular el recorrido intercuartlico (IQ).
Paso 3: Calcular las barreras internas BI
1
y BI
2
en la forma
BI
1
= Q
1
1.5 Q
BI
2
= Q
3
+ 1.5 Q
Estrella Salas A. 83
Paso 4: Calcular las barreras externas BE
1
y BE
2
en la
forma:
BE
1
= Q
1
3 Q
BE
2
= Q
3
+ 3 Q
Paso 5: Identifique los puntos adyacentes
Se llaman puntos adyacentes al mnimo y mximo dato
que se encuentran dentro de las barreras internas.
Desde los extremos de la caja se trazan lneas hasta
los respectivos valores adyacentes. A estas lneas se
les llama antenas o bigotes.
Estrella Salas A. 84
Paso 6: Identificar los puntos atpicos y extremos:
Se llaman puntos atpicos o outliers a aquellos datos
que se encuentran fuera de las barreras internas y
dentro de las barreras externas. Se llaman puntos
extremos a aquellos puntos ubicados fuera de las
barreras externas
Estrella Salas A. 85
A travs de un grfico caja podemos identificar el tipo de
asimetra de una distribucin de frecuencias unimodal de la
siguiente manera:
i) Si la posicin de la mediana se encuentra en la mitad de la
caja y las antenas tiene la misma longitud, la distribucin es
simtrica.
ii) Si la posicin de la mediana se encuentra ubicada ms
cerca del primer cuartil y la antena superior es de mayor
longitud que la antena inferior, la distribucin presenta sesgo
positivo.
iii) Si la posicin de la mediana se encuentra ubicada ms
cerca del tercer cuartil y la antena superior es de menor
longitud que la antena inferior, la distribucin presenta sesgo
negativo.
Estrella Salas A. 86
El interior de la caja
encierra el 50% central de
los casos. La longitud de
la caja da una idea de la
variabilidad de los datos.
Estrella Salas A. 87
Sus lmites son el
25 % superior e
inferior de los
casos.
Estrella Salas A. 88
El lmite inferior de
la caja representa el
cuartil 1 o percentil
25.
El lmite superior
es el cuartil 3
percentil 75.
Estrella Salas A. 89
La longitud de la
caja es el rango
intercuartil
(Q=Q
3
-Q
1
).
Estrella Salas A. 90
El pequeo cuadradito
dentro de la caja
representa la media y la
lnea que divide a la
caja en dos partes es la
mediana (cuartil 2
percentil 50).
La ubicacin de
la media y la
mediana da una
idea de la
tendencia
central de los
datos.
Estrella Salas A. 91
Desde los
extremos de la
caja se trazan
lneas hasta los
respectivos
valores
adyacentes. A
estas lneas se les
llama antenas o
bigotes. Se
llaman puntos
adyacentes al
mnimo y mximo
dato que se
encuentran dentro
de las barreras
internas.
Estrella Salas A. 92
Se llaman
puntos atpicos
o outliers a
aquellos datos
que se
encuentran
fuera de las
barreras
internas y
dentro de las
barreras
externas.
Estrella Salas A. 93
Se llaman
puntos
extremos a
aquellos
puntos
ubicados fuera
de las barreras
externas.
Estrella Salas A. 94
Un punto atpico
o extremo puede
deberse, por
ejemplo, a una
mala lectura, mal
registro, causa
fortuita, etc. Este
tipo de datos no
puede eliminarse
inmediatamente
sin un anlisis
preliminar de las
causas que lo
originan.
Estrella Salas A. 95
A travs de un grfico caja se puede identificar el tipo de asimetra de una
distribucin de frecuencias unimodal:
Si la posicin de la mediana se encuentra en la mitad de la caja y las antenas
tienen la misma longitud, la distribucin es simtrica.
Box Plot
Estrella Salas A. 96
Si la posicin de la mediana se encuentra ubicada ms cerca del primer
cuartil y la antena superior es de mayor longitud que la antena inferior,
la distribucin presenta sesgo positivo.
Box Plot
Estrella Salas A. 97
Si la posicin de la mediana se encuentra ubicada ms cerca del tercer
cuartil y la antena superior es de menor longitud que la antena inferior,
la distribucin presenta sesgo negativo.
Box Plot
Estrella Salas A. 98
Este tipo de representacin es especialmente til para
comparar:
La distribucin de los datos de una misma variable
en varios grupos.
Los resultados de distintas variables obtenidas en un
mismo grupo.
Una misma variable medida en momentos
diferentes.
Box Plot