Vous êtes sur la page 1sur 309

UNIDAD 1

LA ESTADISTICA
DESCRIPTIVA
Y
SUS METODOS
Si observamos la definicin que hemos
adoptado de la Estadstica y por ende la
Bioestadstica para la Ctedra,
podemos individualizar dos tipos o
ramas de la Estadstica, dependiendo
del propsito de estudio.-
ESTADISTICA
DESCRIPTIVA
O DEDUCTIVA
TIPOS
DE
ESTADISTICAS
ESTADISTICA
INFERENCIAL
O INDUCTIVA
La Estadstica Descriptiva
comprende aquellos mtodos
usados para recopilar, organizar
y describir la informacin que
se ha recogido con el fin de
describir sus caractersticas.-
Supongamos que se realiza un estudio para determinar
los niveles sricos de plomo de 150 nios que viven en
las casas mas viejas de un vecindario urbano en
particular.- Si uno investigara los hallazgos de este
estudio, obtendra una lista de los resultados de las
pruebas individuales.- De tal forma, se reportara que el
primer resultado mostr un nivel de 20 mcg/dl
(microgramos por decilitro, tambin designados como
g/dl o como ug/dl), mientras que el segundo arrojo un
valor de 25 mcg/dl y as sucesivamente.- Despus de
incluir en la lista los 150 resultados de la prueba es
probable que el investigador alcanzara a comprender
un poco de la informacin obtenida.- Tal informacin
no resumida abrumara la habilidad del oyente para
llegar a una conclusin significativa.- Una respuesta
mas util podria ser decir que el promedio de los niveles
sericos de plomo encontrado en los nios de la prueba
fue de 30 mcg/dl.- Otros resmenes podra incluir los
valores mas altos y mas bajos, as como representacin
graficas de los datos para explicarlos.-
De esta manera, la estadstica descriptiva se ocupa
exactamente de lo que implica el termino: descripcin
de datos.- Para reiterar, los investigadores podran
observar fcilmente los resmenes de los datos
relacionados con los elementos de una muestra como
de una poblacin.-
La Estadstica Inferencial comprende
aquellos mtodos y tcnicas usadas
para hacer generalizaciones,
predicciones o estimaciones sobre una
caracterstica de la poblacin o la toma
de una decisin con respecto a una
poblacin, a partir de una muestra de
esa poblacin.-
POBLACION O
UNIVERSO

Definicin 1: El conjunto de
personas, animales o cosas que
son objeto de nuestro estudio.-
Definicin 2: es la que esta
formada por la totalidad de las
SE LA
SIMBOLIZA
observaciones en las cuales se
CON N tiene cierto inters.-

Elementos o Unidad
Estadstica: Son las personas,
animales o cosas que forman la
poblacin.-
TAMAO DE LA POBLACION

FINITA: cuando el nmero de elementos que la forman es


numerable, se puede contar, por ejemplo el nmero de
alumnos de la universidad, cantidad de empleados de una
fbrica, cantidad de pacientes internados, etc.-

INFINITA: cuando el nmero de elementos que la forman


es incontable o tan grande que puede considerarse
infinito. Como por ejemplo, si se realizara un estudio
estadstico sobre los productos que hay en el mercado,
cantidad de colesterol en las personas, etc.-
ELEMENTOS Los elementos de una poblacin
poseen una serie de cualidades,
propiedades o rasgos comunes
que se denominan en estadstica
CARACTERES.

Por ejemplo: si tenemos un estudio sobre pacientes que concurren


a cierto laboratorio, todos las personas poseen una serie de
caractersticas:
Edad.
Estado civil.
Nmero de hijos.
Nivel de instruccin alcanzado.-
Antigedad en el trabajo.
Tipo de anlisis a realizar
Remuneracin que recibe.-
Tipo de trabajo, Etc.........
Los caracteres de un elemento de la
poblacin pueden ser:
CARACTERES CUALITATIVOS, ATRIBUTOS O VARIABLES
CATEGRICAS, son aquellas que por su propia naturaleza no se
pueden medir y se describen mediante palabras. Son producto de
conteo.- Por ejemplo: el sexo, nacionalidad, raza, color de pelo, estado
de nimo, tipo de trabajo, estado civil, tipos de anlisis, etc.-........

ESTAS TIENEN MODALIDADES

CARACTERES CUANTITATIVOS O VARIABLES NUMRICAS


son aquellos que se pueden describir mediante nmero, es decir, que
son susceptibles de cuantificacin o de medicin. Por ejemplo:
puntajes de un test, edad, el peso, la altura, nivel de diabetes, salario
de una persona, minutos de demora en recorrer una distancia, tiempo
de reaccin a un medicamento, etc.-
Dentro de los caracteres cuantitativos o variables
numricas pueden encontrarse dos clases de
variables; variables discretas y variables
continuas.

Una variable estadstica es DISCRETA si toma un


nmero finito o infinito numerable de valores, o
dicho de otra forma, si entre dos valores
consecutivos puede tomar a lo sumo un nmero
finito de valores. Por ejemplo: cantidad de hijos,
cantidad de alumnos por grado, cantidad de
consultas otorgadas por medico, cantidad de
anlisis realizados de diabetes, cantidad de nios
en edad escolar por hogares, cantidad de
pacientes de un hospital, conteo de linfocitos en
sangre, etc...-
Una variable estadstica es CONTINUA si
toma un nmero infinito de valores en un
intervalo, o dicho de otra manera si entre
dos valores consecutivos puede tomar
cualquier valor. Por ejemplo: peso en
kilogramos, altura, presin sistlica y
diastolica, tiempo de reaccin a un
medicamento en minutos, nivel de
fenacetina, niveles de colesterol, niveles
sanguneos de calcio, consumo diario de
caloras, circunferencia craneal, dimetro
de clulas tumorales, etc.-
MUESTRA.-
Muy frecuentemente es necesario seleccionar una muestra y en base
a sta extraer conclusiones respecto de la poblacin.-

Una muestra estadstica es un subconjunto de la


poblacin

La seleccin de una muestra representativa es un problema


importante en la investigacin estadstica ya que sta puede
proporcionar una visin til de la naturaleza de la poblacin que se
estudia, mientras que una muestra no representativa puede sugerir
conclusiones totalmente errneas sobre la poblacin.-

El punto esencial en el muestreo es estar seguro de que los


elementos de la muestra representan a la poblacin tan fielmente
como sea posible.- Por lo general, esta tarea es ms difcil de lo
que parece.- Con frecuencia debe dedicarse mucho tiempo y
atencin al proceso de seleccin, ya que una ves medidos los
elementos se supondr que la muestra es representativa de la
poblacin.-
METODOS DE SELECCIN DE LA MUESTRA

Existen dos mtodos bsicos para seleccionar los


elementos de una poblacin:

Si cada elemento de la poblacin tiene la misma


posibilidad de ser elegido, esto constituye una
muestra aleatoria.-

Si algunos elementos de la poblacin tienen mayores


posibilidades de seleccin que otros, esto constituye
una muestra no aleatoria.-

Estos dos mtodos tambin se conocen con el nombre


de muestras probabilsticas y muestras no
probabilsticas.-
ESTADISTICO Y PARAMETRO.-

Un estadstico es cualquier caracterstica


numrica de una muestra.-
Se simbolizan con letras del abecedario
espaol.-

Un parmetro es cualquier caracterstica


numrica de una poblacin.-
Se simbolizan con letras del abecedario
griego.-
De acuerdo con estas definiciones, entonces, el promedio
de las presiones sanguneas de todos los estudiantes
de la universidad, sera un parmetro.-
Mientras que el promedio de las presiones sanguneas de
los estudiantes que forman una muestra de 50, sera un
estadstico.-
Asimismo, la mediana de la presin sangunea de todos
los hombres de 65 aos de edad, que alguna vez
tomaran el medicamento contra la hipertensin, sera
un parmetro; mientras que la mediana de las
presiones sangunea de los 50 hombres que forman la
muestra sera un estadstico.-
Observe que para obtener los valores de un parmetro o
de un estadstico, se deben medir u observar los
elementos de la poblacin o muestra correspondiente,
registrar ests medidas y observaciones en forma de
datos y despus realizar el resumen de tales datos.-
Un punto importante que se deduce de lo
mencionado anteriormente es que los
valores de los parmetros generalmente no
estn disponibles para el investigador
mientras que los valores de los estadsticos
son fcilmente localizables.-
La distincin entre parmetro y estadstico es
tan fundamental para el pensamiento
estadstico que por ello se utilizan dos
convenciones diferentes para su
representacin.-
ESCALAS DE MEDICION

Anteriormente mencionamos que las poblaciones y las


muestras estn formadas por variables que, a su vez,
son caractersticas medibles y observables de personas
o cosas, que toman diferentes valores.- Tambin
dijimos que una vez que se toman y registran las
mediciones, el resultado esta constituido por datos.-
Pero, Qu significa la palabra medida?.- En trminos
sencillos, significa que se asigna nmeros, letras,
palabras o algn otro smbolo a personas o cosas para
dar a conocer la informacin acerca de la caracterstica
que se somete a medicin.- De tal manera, podemos
asignar el numero 220 a una persona con el fin de
representar su nivel de colesterol o una H o una M para
representar su genero.-
Con frecuencia no se reconoce el hecho de que
las mediciones de variables pueden producir
diferentes cantidades de informacin,
dependiendo de la escala empleada en el
proceso de medicin.- Esto significa que las
mediciones que producen los nmeros 1, 2 y
3 en una escala pueden transmitir una
cantidad de informacin muy diferente sobre
la variable que la que transmitiran los
mismos nmeros obtenidos con el uso de una
escala diferente.- Esto, a la vez, tiene
consecuencias para el tratamiento estadstico
de dichos datos.-
Todo esto va a quedar claro a partir de lo que
veamos a continuacin:
Las escalas que se aplican en esta seccin fueron
descriptas por S. S. Stevens.- Para el anlisis de datos se
debe estar familiarizado con que existen cuatro escalas
numricas de medida de las variables que estamos
estudiando.- Cuanto ms alta sea la jerarqua o posicin
que ocupe el tipo de datos en estas medidas ms
informacin contendrn.-

VARIABLES
VARIABLES NUMERICAS
CATEGORICAS
DE
NOMINAL INTERVALOS

DE RAZON,
ORDINAL
COCIENTE O
PROPORCION
NOMINAL O DE CLASIFICACIN

La escala nominal es la menos elaborada de las cuatro y


posee dos caractersticas principales.- Primero, produce
clasificaciones de personas o cosas con base en una
evaluacin cualitativa de la caracterstica que se somete
a consideracin; segundo, su uso no brinda informacin
con respecto a la cantidad.- Consideremos el siguiente
ejemplo referente a una clasificacin por tipo de sangre:
En este caso se utiliza la escala nominal
para asignar la nomenclatura del tipo de
sangre A, B, AB u O a las personas, con
base en un cierto criterio hematolgico.-
Note que estas designaciones
simplemente clasifican a las personas
dentro de una de cuatro categoras de
tipo de sangre.-
De esta manera, a todas las personas con el mismo tipo
de sangre se les otorga la misma nomenclatura,
mientras que aquellas con otro tipo de sangre reciben
otra nomenclatura.- Note tambin que no existe el
concepto de mayor que o menor que implcito en
estas clasificaciones.- Esto significa que las mediciones
a nivel nominal no permiten comparaciones con
personas o cosas sobre la base de mas o menos sino
mas bien sobre la base de similar o distinto.-
Puede parecer que las nomenclaturas producidas por
escala nominales son de naturaleza numrica, pero no
deben tratarse como tales.- Cuando se realiza una
encuesta telefnica o por correo, los hogares podran
clasificarse por rea o cdigo postal para fines de
muestreo.- En este caso los cdigos de rea 750 o 187
podran ser simplemente indicadores de la localizacin
geogrfica de los hogares.-
Desde luego, no tendra sentido aseverar que los
residentes con cdigo de rea 750 tienen mas cdigo de
rea que aquellos con cdigo de rea 187.- Asimismo,
operaciones aritmticas con dichos nmeros, por
ejemplo, calcular un cdigo de rea promedio
produciran un resultados sin sentido.- Sin embargo, si
es posible contar el numero de hogares que pertenecen
a cada categora.-

ESCALA ORDINAL O DE ORDEN JERRQUICO

Como la escala nominal, la escala ordinal clasifica


personas o cosas sobre la base de las caractersticas
evaluadas.- Sin embargo, a diferencia de la escala
nominal, las clasificaciones producidas por esta escala
incorporan los atributos muy importantes de mayor
que o menor que.-
Por ejemplo, suponga que en el transcurso de un
estudio sobre el manejo del dolor, se solicita a los
pacientes que clasifiquen su percepcin del dolor como
ninguno, leve, moderado o severo.- Este
esquema clasifica a los pacientes en una de las cuatro
categoras que estn ordenadas en trminos de
intensidad de dolor.- Se ve fcilmente que la categora
severo representa una percepcin mayor de dolor que
la categora moderado y as sucesivamente.- En este
sentido, se puede decir que la escala ordinal brinda mas
informacin acerca de la caracterstica medida que la
escala nominal.- Otros ejemplos, incluyen la
clasificacin de cierta patologa en la etapa 1, 2, 3 o 4, o
la jerarquizacion de pacientes en una situacin de
emergencia.- Note que mientras que este sistema
permite ordenar categoras dependiendo de si poseen
mas o menos de la caracterstica que se mide, no ofrece
informacin sobre que tanto mas o menos.-
Un dolor severo representa mas dolor
que el dolor moderado, pero, Cunto
mas?.- Un paciente clasificado en una
categora puede tener mayor necesidad
de cuidados que un paciente en otra
categora, pero Cunto mas?.-
Los datos ordinales son comunes en
investigaciones relacionadas con la
salud, pero tradicionalmente han
causado ciertas dificultades analticas.-
Una solucin comn es tratar
estadsticamente estos datos como si
estuvieran en un nivel nominal.-

Aunque en cierto sentido es correcta, esta practica


generalmente desperdicia informacin y por consiguiente,
no es enteramente satisfactoria.-
ESCALA DE INTERVALOS O DE DISTANCIAS
IGUALES

As como la escala ordinal agrega los atributos de mayor


que y menor que a los datos de la escala nominal, la
escala de intervalos (tambin llamadas de intervalos
iguales) agrega los atributos de cuanto mas y cuanto
menos a aquellos de la escala ordinal.- Mientras que hay
numerosos ejemplos de escala de intervalo, su anlisis es
bastante complejo y podra necesitar un estudio mas
profundo del campo de la psicometra, que el que se
justifica en este apunte.-

Por esta razn, el ejemplo que se


presenta con mas frecuencia es el
de la medicin de la temperatura
ambiente.-
Cuando se obtiene la temperatura con un termmetro,
esta se mide en unidades semejantes, lo cual permite
cuantificar las diferencias.- Una lectura de 35 grados
representa cinco grados mas de temperatura que una
lectura de 30.- Lo mismo es cierto para una temperatura
de 20 y de 15 grados.- Entonces, esta escala no solo
permite comparaciones del tipo mayor que y menor que,
sino que tambin indica la magnitud de la diferencia.-
Un defecto de la escala de intervalo es la falta de un
punto cero verdadero.- En otras palabras, el punto cero
en esta escala es una designacin arbitraria, lo cual
significa que no representa una ausencia de la
caracterstica medida.- De tal manera que podemos tener
un da temperatura de 0 grados un da y al siguiente de
10.- La lectura de 0 no significa que no hubo
temperatura, sino que fue simplemente otro punto en la
escala.-
Resulta que esta escala no permite la formacin de
proporciones con significado.- No se puede afirmar con
validez que una lectura de 40 represente dos veces mas
de temperatura que una lectura de 20.-

ESCALA DE RAZONES O DE COCIENTES

La escala de razn es similar a la


escala de intervalo, con excepcin
de que posee un verdadero punto
cero.- Mediciones fsicas como la
altura y el peso son ejemplos
continuos.- Cuando algo tiene peso
cero, el cero indica que no hay peso
presente.- Su una persona gana
1000$ gana el doble de quien gana
500$.-
DEFINICION OPERATIVA

Todas las variables que se utilizan en cualquier


trabajo de estadstica han de ser definidas con
claridad, de tal manera que se eviten
confusiones, se facilite la bsqueda y anlisis
de los datos y se garantice la comparabilidad
de los resultados obtenidos con otros estudios
previos o posteriores.- Esto es particularmente
importante cuando las variables a estudiar
pueden ser definidas de maneras diferentes.-
VEAMOS UN EJEMPLO DE LO QUE ESTAMOS
EXPRESANDO:
El sarampin es una enfermedad vital caracterizada por
sntomas prodrmicos (fiebre, conjuntivitis, tos y
manchas de Koplik en la mucosa bucal) que del
tercer al sptimo da presenta en cara una erupcin
exantemtica que se generaliza al resto del cuerpo y
que desaparece de 4 a 7 das despus.- Durante el
perodo de incubacin, enfermedad y convalecencia
se presentan modificaciones inmunes caractersticas
del proceso morboso.-
El trmino enfermo de sarampin puede definirse
operativamente de diversas maneras, entre las que
se puede encontrar:
a) Pacientes con presencia de manchas de Koplik en
mucosa bucal,
b) Pacientes con exantema maculopapular de tres o
ms das de duracin, fiebre y cualquiera de las tres
siguientes: tos, coriza o conjuntivitis.-
c) Pacientes con IgM especfica para virus de
sarampin.-
La seleccin de una de stas como definicin operativa
de sarampin tiene implicaciones importantes en el
desarrollo de la investigacin.- El equipo de trabajo
tendr que utilizar una de ellas u otra diferente que
se adapte a sus necesidades y precisarla de tal
manera que quienes conozcan su trabajo sepan a
que se refiere con el trmino enfermo de
sarampin.-
NECESIDAD DE
DATOS
Los datos pueden concebirse como informacin
numrica necesaria para ayudarnos a tomar decisiones
con fundamentos, en una situacin particular.-

Un DATO, es el registro (numrico o no)


que se obtiene como resultado de
observar cierta caracterstica de inters
en un individuo (persona, animal, cosa o
entidad de naturaleza abstracta) que
constituye el objeto de estudio.-
Es en extremo importante empezar el
anlisis estadstico con la identificacin
de las fuentes de datos ms adecuadas.-
Si los datos presentan sesgos,
ambigedades u otro tipo de errores por
ms que apliquemos las ms sofisticadas
metodologas del anlisis estadstico, las
conclusiones a que lleguemos estarn mal
o sern muy deficientes.-
Para el anlisis estadstico, es importante
distinguir entre datos transversales y datos
longitudinales.-

Datos transversales.
Se renen en el mismo momento de
tiempo

Datos longitudinales.
Son los datos de series de tiempo, se
coleccionan a lo largo de varios perodos
de tiempo.-
LOS DATOS SE PUEDEN OBTENER
POR FUENTES

PRIMARIAS SECUNDARIAS
DATOS PRIMARIOS: son aquellos que se
encuentran en la forma original en que fueron
registrados (datos brutos), sin haber sufrido
ningn tipo de tratamiento o elaboracin
propia.-

DATOS SECUNDARIOS: son aquellos que


fueron producidos (diseados y recopilados)
por terceros, con un fin ajeno al de la
investigacin y que ya han sido sometidos a
alguna forma de elaboracin posterior.- En
consecuencia estos datos siempre se originan
en terceras fuentes.-
TIPOS DE METODOS DE MUESTREO

El proceso de muestreo comienza con


localizacin de las fuentes adecuadas de
datos, como listados de poblacin,
registros, directorios y otras fuentes
llamadas MARCOS.- Las muestras se
extraen de estos marcos.- Si el marco es
inadecuado debido a que ciertos grupos
de individuos o de objetos en la poblacin
no se incluyeron de manera apropiada,
entonces las muestras sern inexactas y
sesgadas.-
Razones para obtener una muestra
1.- Una muestra requiere menos tiempos
que un censo.-
2.- Cuesta menos administrar una muestra
que un censo.-
3.- Administrar una muestra es menos
tedioso y ms practico que administrar el
censo de una poblacin estadstica
determinada.-
TIPOS DE MUESTRAS UTILIZADAS

NO PROBABILSTICAS PROBABILSTICAS

Muestra subjetiva Aleatoria simple

Sistemtica
Muestra por cuota

Estratificada
Por grupo naturales
Por
conglomerados
MUESTRA ALEATORIA SIMPLE.-
Una muestra aleatoria simple, es aquella en la cual cada
individuo o elemento de una poblacin tiene la misma
oportunidad de ser elegido.- Adems, cada muestra de un
tamao fijo tiene la misma probabilidad de ser elegida,
que cualquier otra muestra del mismo tamao.- El
muestreo aleatorio simple, es la tcnica de muestreo
aleatorio ms elemental y constituye la base para otras
tcnicas.-
En el muestreo aleatorio simple, se una n para
representar el tamao de la muestra y N para representar
el tamao de la poblacin.- Cada persona o elemento en
el marco se enumera de 1 a N.-
La probabilidad de seleccionar a cualquier miembro en
particular de la poblacin la primera vez es igual a 1/N.-
Existen dos mtodos bsicos para seleccionar muestras:

CON
REEMPLAZO

SIN
REEMPLAZO
El muestreo con reemplazo, implica que una
vez seleccionada una persona o elemento, se regresa al
marco donde tiene la misma probabilidad de ser elegida
de nuevo.- Imagine que tiene una urna con 500 tarjetas de
presentacin.- Suponga que en el primer sorteo sale la
ficha de Juan Llanos.- La informacin pertinente se
registra y se regresa la tarjeta a la urna.- Despus se
mezclan bien las tarjetas y se saca una segunda tarjeta,.
En esta segunda extraccin Juan Llanos, tiene la misma
probabilidad de salir 1/N, de ser elegida de nuevo.- Se
repite el procedimiento hasta alcanzar el tamao muestra
n deseado.- Sin embargo, suele considerarse ms
adecuado tener una muestra de personas o elementos
diferentes en lugar de permitir la repeticin de
mediciones de la misma persona o elemento.-
En el muestreo sin reemplazo, no se regresa la
persona o elemento al marco una vez seleccionado y por lo tanto,
no puede elegirse otra vez.- Como antes, en el muestreo sin
reemplazo la probabilidad de que algn miembro especfico de la
poblacin, por ejemplo Juan Llanos, sea elegido en el primer
intento es 1/N.- La probabilidad de que, cualquier individuo no
seleccionado, salga elegido en el segundo intento ser 1 / N-1.-
Este proceso continua hasta alcanzar el tamao de muestra n
deseado.-

Sin importar si el muestreo es con o sin reemplazo,


los mtodos de urna para elegir una muestra tienen
un gran inconveniente: la habilidad para revolver
perfectamente las tarjetas y elegir la muestra en
forma aleatoria.- Como resultado, los mtodos de
urna no son muy tiles.- Son preferibles otros
mtodos de seleccin con menos problemas y
mejor base cientfica.-
Uno de estos mtodos utiliza una TABLA DE
NUMEROS ALEATORIOS, para obtener la
muestra.- Una tabla de nmeros aleatorios esta
formada por una serie de dgitos que se generan
en forma aleatoria y se colocan en la secuencia
en que se generaron.- Hay muchas tablas de
nmeros aleatorios, como la que veremos en
prctica.- De hecho, lo normal es que los
investigadores antes de usar una tabla de
nmeros aleatorio verifiquen la aleatoriedad de
los dgitos generados antes de emplearlos.-
Debido a que cada dgito o secuencia de dgitos
de la tabla es aleatorio, se puede leer en sentido
horizontal o vertical.-
Para usar una tabla como laque vemos en prctica en
lugar de una urna para seleccionar una muestra,
primero debemos asignar nmeros de cdigos a los
miembros individuales de la poblacin.- Entonces se
obtiene la muestra aleatoria leyendo la tabla y
seleccionando los elementos del marco de poblacin
cuyos nmeros de cdigo coinciden con los dgitos
encontrados en la tabla.- Para entender mejor, hagamos
un ejemplo con el curso.-
Hoy gracias a los avances de los paquetes estadsticos
de PC, las tablas se usan menos.- Los programas tienen
una secuencia para generar los nmeros aleatorios que
se necesita.-
MUESTRA SISTEMATICA.-
En una muestra sistemtica, se dividen N individuos o
elementos del marco poblacional en k grupos, dividiendo
el tamao de la poblacin N entre el tamao de la muestra
deseado n.- Es decir, k = N / n donde k se
redondea al entero ms cercano.-
Para obtener una muestra sistemtica, el primer individuo
o elemento se selecciona al azar entre los k individuos o
elementos del primer grupo del marco de poblacin y,
para el resto de la muestra se elige un individuo o
elemento cada k en la lista completa de la poblacin.-
Cuando el marco de poblacin consiste en listados
predeterminados es ms rpido y fcil obtener una
muestra sistemtica que una muestra aleatoria simple.-
En estas situaciones la muestra sistemtica es un
mecanismo conveniente para obtener los datos
deseados.-
Aunque su aplicacin es ms sencilla, en general los mtodos de
muestreo aleatorio simple y de muestreo sistemtico son menos
eficientes que otros mtodos de muestreo probabilstico ms
elaborado.- Es decir, para cualquier muestra que se adquiere
mediante muestra aleatorias simple o muestreo sistemtico, los
datos obtenidos pueden o no ser buena representacin de las
caractersticas fundamentales (parmetros) de la poblacin.-
Aunque la mayor parte de las muestras aleatorias simples son
representativas de la poblacin correspondiente, no es posible saber
si una muestra en particular es, de hecho representativa.-.-
Se presentan posibilidades todava mayores de un sesgo en la
seleccin y una falta de representatividad de las caractersticas de la
poblacin, en el muestreo sistemtico.- Si existiera un padrn en el
listado del marco de poblacin, podra ocurrir errores de seleccin
importantes.- Para evitar el problema potencial de la
representatividad desproporcionada de grupos especficos en una
muestra, se pueden usar los mtodos de muestreo estratificado o
muestreo conglomerado.-
MUESTRA ESTRATIFICADA.-
En una muestra estratificada, primero se dividen los N individuos o
elementos de la poblacin en sub poblaciones separadas, o estratos,
de acuerdo con algunas caracterstica comn.- Se realiza un
muestreo aleatorio simple en cada estrato y despus se combinan
los resultados de las muestras aleatorias simple.-

Estos mtodos de muestreo son ms eficientes


que el muestreo aleatorio simple o el sistemtico,
porque garantizan la representacin de individuos
o elementos de toda la poblacin, lo que asegura
una mayor precisin en las estimaciones de los
parmetros poblacionales fundamentales.- Lo que
proporciona la presicin, una vez combinados los
estratos, es la homogeneidad de individuos o
elementos dentro de cada estrato.-
MUESTRA CONGLOMERADA.-

En una muestra conglomerada, se divide los N individuos o


elementos de la poblacin en varios conglomerados, de manera que
cada conglomerado sea representativo de la poblacin completa.-
Despus, se obtiene una muestra aleatoria de los conglomerados y
se estudian todos los individuos o elementos dentro de cada
conglomerado seleccionado.- Los conglomerados pueden ser
asignaciones naturales, como departamentos, ciudades, manzanas,
familias o edificio de departamento, etc.-

Los mtodos de muestreo conglomerados pueden ser ms eficientes


(con relacin a su costo) que los mtodos de muestreo aleatorio
simple, sobre todo si la poblacin en cuestin se encuentra esparcida
en una vasta regin geogrfica.- Sin embargo, los mtodos de
muestreo conglomerado tienden a ser menos eficientes que los
mtodos de muestreo aleatorio simple o de muestreo estratificado, y
necesitan una muestra total ms grande para obtener resultados tan
precisos como los que se obtienen con los procedimientos ms
eficientes.-
LOS DATOS Y LA INFORMACION

Una vez obtenidos los datos primarios, recogidos


mediante alguna de las estrategias de observacin
transversal descripta anteriormente; el investigador debe
encontrar el mejor camino para convertirlos en
informacin sobre los individuos observados;
informacin que deber acercar respuestas a las
preguntas que dieron inicio a la investigacin.- En
consecuencia, en la produccin de esa informacin son
los objetivos de la investigacin los que definirn el curso
a seguir en el tratamiento y anlisis de los datos.-
Cualquiera sean los objetivos a
alcanzar con el trabajo estadstico, el
tratamiento inicial de los datos
registrados debe comenzar por
organizarlos en forma tal que se
facilite su tratamiento.- La manera
de organizacin que se utiliza es la
conocida como MATRIZ DE
DATOS que ordena los datos en
una planilla rectangular, posibilitando
su tratamiento en los programas
informticos.-
Veamos un ejemplo: Supongamos que de los registros
del Laboratorio, obtenemos la siguiente Matriz de Datos:
N Sexo Edad Estado Dom. Obra Peso Altura Tipo
civil Social sangre

01

02

03

04


99

100
ACTIVIDAD 1

El Hospital Vera Barros, registra la informacin siguiente de cada


uno de los pacientes que fueron internados producto de un
accidente de uno de los mnibus de cierta empresa turstica.-
Nmero de seguridad social.-
Fecha del ltimo ingreso.-
Fecha de nacimiento.-
Compaa de seguro.-
Estado general visible.-
Cirugas realizadas
Direccin particular.-
Telfono particular.-
Tipo de sangre.
Ocupacin.-
Estado civil-
a) Diga de cada una si la informacin es cuantitativa o cualitativa.-
b) Clasifique los datos como continuos, discretos o ninguno de los
dos.-
ACTIVIDAD 2

Para cada una de las siguientes variables determine si es


categricas o numricas.- Si es numrica, determine si es
continua o discreta.-
a) Nmero de telfono por vivienda.-
b) Tipo de telfono principal en uso.-
c) Nmero de llamadas a larga distancia por mes.-
d) Duracin (en minutos) de la llamada de larga distancia ms larga
por mes.-
e) Color del telfono principal en uso.-
f) Costo mensual (en pesos y centavos) de las llamadas a larga
distancia.-
g) Posesin de un telfono celular.-
h) Nmero de llamadas locales por mes.-
i) Duracin en minutos de la llamada local ms larga por mes.-
j) Si hay una lnea telefnica conectada a un mdem en la vivienda.-
k) Si hay un fax en la vivienda.-
ACTIVIDAD 3

Indicar cuales de estas variables representan series discreta y cuales


series continuas
a) El tiempo que le tomar completar un problema.
b) El nmero de peridicos vendidos en determinada ciudad el 25 de
marzo de 2010.-
c) El cambio de peso de 5 mujeres durante un periodo de 4 semanas.
d) El nmero de goles anotados por 5 jugadores seleccionados al azar
durante el campeonato de ftbol de 2010.-
e) Los valores que en la Bolsa de su ciudad aumentaron su precio de
venta el 18 de diciembre de 2010.-
f) Tiempo en minutos en completar una tarea.-
g) Sueldos de una empresa
h) Magnitud de grados de una escuela
i) Edad de los pacientes.-
j) Distancia recorrida por un auto
k) Nmero de pgina de 100 libros
l) Nivel de instruccin de la poblacin
m) Puntajes de un partido de ftbol
n) Peso de nios en una clase de deporte.
ACTIVIDAD 4
Especifique si las siguientes variables son categricas, numricas y
en este caso si son continuas o discretas.-
a) Nmero de das completos de internacin.-
b) Grupo sanguneo.-
c) Peso de cariopsis de trigo.-
d) Nmero de hijos de pacientes.-
e) Estacin del ao en que se manifiesta cierta enfermedad.-
f) Viscosidad plasmtica.-
g) Concentracin de calcio.-
h) medicin del colesterol de cada paciente.-
i) Cantidad de pipetas de laboratorio defectuosas.-
j) Sector donde se desempea el paciente en la empresa.-
k) Cantidad de veces que concurrio un paciente al laboratorio.-
l) Montos de ventas diaria de la farmacia en analgsicos.-
RESUMEN
DE LA
INFORMACION
Tomemos un ejemplo de una matriz de
dato y supongamos que ella se origina en
un relevamiento dirigido a una clase de 92
alumnos.- Cada alumno anoto su altura,
peso, sexo, si fuma o no, nivel de
actividad fsica y pulso en reposo.-
Despus todos tiraron una moneda al aire
y aquellos a los que le salio cara corrieron
durante un minuto.- A continuacin todos
se volvieron a tomar la pulsacin.-
El contenido de la matriz de datos fue:
Pulso 1: pulso inicial de los 92 alumnos
Pulso 2: pulso final
Corri: 1= Corri 2= No corri
Fuma: 1 = Fuma 2= No fuma
Sexo: 1 = Hombre 2= Mujer
Altura de los estudiantes (en centmetros)
Peso de los estudiantes (en gramos)
Actividad: Nivel de actividad fsica habitual:
1= Baja 2= Media 3 Alta
N Pulso1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
1 64 88 1 2 1 168 64 2
2 58 70 1 2 1 183 66 2
3 62 76 1 1 1 187 73 3
4 66 78 1 1 1 185 86 1
5 64 80 1 2 1 175 70 2
6 74 84 1 2 1 185 75 1
7 84 84 1 2 1 183 68 3
8 68 72 1 2 1 188 86 2
9 62 75 1 2 1 183 88 2
10 76 118 1 2 1 180 63 2
11 90 94 1 1 1 188 73 1
12 80 96 1 2 1 183 70 2
13 92 84 1 1 1 178 69 3
14 68 76 1 2 1 170 66 2
15 60 76 1 2 1 180 77 3
16 62 58 1 2 1 183 79 3
17 66 82 1 1 1 175 79 2
18 70 72 1 1 1 185 77 3
19 68 76 1 1 1 188 82 2
20 72 80 1 2 1 168 61 3
21 70 106 1 2 1 180 77 2
22 74 76 1 2 1 178 71 2
23 66 102 1 2 1 178 59 2
24 70 94 1 1 1 191 84 2
25 96 140 1 2 2 155 64 2
26 62 100 1 2 2 168 54 2
27 78 104 1 1 2 173 59 2
28 82 100 1 2 2 173 63 2
29 100 115 1 1 2 160 55 2
30 68 112 1 2 2 178 57 2
31 96 116 1 2 2 173 53 2
32 78 118 1 2 2 175 66 2
33 88 110 1 1 2 175 68 2
34 62 98 1 1 2 159 51 2
35 80 128 1 2 2 173 57 2
36 62 62 2 2 1 188 86 1
37 60 62 2 2 1 180 70 2
38 72 74 2 1 1 175 77 2
39 62 66 2 2 1 178 70 2
40 76 76 2 2 1 183 98 2
41 68 66 2 1 1 170 68 2
42 54 56 2 1 1 175 66 2
43 74 70 2 2 1 185 70 3
44 74 74 2 2 1 185 68 2
45 68 68 2 2 1 180 70 3
46 72 74 2 1 1 173 70 3
47 68 64 2 2 1 177 68 3
48 82 84 2 1 1 185 82 2
49 64 62 2 2 1 191 73 3
50 58 58 2 2 1 168 61 3
51 54 50 2 2 1 175 73 2
52 70 62 2 1 1 168 59 2
53 62 68 2 1 1 185 70 2
54 48 54 2 1 1 173 68 0
55 76 76 2 2 1 188 67 3
56 88 84 2 2 1 187 70 2
57 70 70 2 2 1 178 68 2
58 90 88 2 1 1 170 64 2
59 78 76 2 2 1 183 82 3
60 70 66 2 1 1 191 86 2
61 90 90 2 2 1 173 66 1
62 92 94 2 1 1 175 68 2
63 60 70 2 1 1 182 74 2
64 72 70 2 2 1 180 64 2
65 68 68 2 2 1 183 64 3
66 84 84 2 2 1 175 62 2
67 74 76 2 2 1 170 56 2
68 68 66 2 2 1 173 70 2
69 84 84 2 2 2 168 59 2
70 61 70 2 2 2 166 54 2
71 64 60 2 2 2 168 59 3
72 94 92 2 1 2 157 59 2
73 60 66 2 2 2 157 54 2
74 72 70 2 2 2 160 54 2
75 58 56 2 2 2 170 57 2
76 88 74 2 1 2 165 61 2
77 66 72 2 2 2 168 57 2
78 84 80 2 2 2 165 54 1
79 62 66 2 2 2 165 55 3
80 66 76 2 2 2 165 52 2

81 80 74 2 2 2 163 46 2

82 78 78 2 2 2 170 52 2

83 68 68 2 2 2 175 68 2

84 72 68 2 2 2 173 50 2

85 82 80 2 2 2 160 53 1

86 76 76 2 1 2 157 49 3

87 87 84 2 2 2 160 43 3

88 90 92 2 1 2 163 57 1

89 78 80 2 2 2 173 60 1

90 68 68 2 2 2 157 50 2

91 86 84 2 2 2 170 68 3

92 76 76 2 2 2 157 49 2
EL ANALISIS DE LA
MATRIZ DE DATOS
An cuando la matriz de datos constituye una
organizacin que facilita el acceso a los
registros, es indudable que nuestra capacidad
cognitiva no nos permite entender el
comportamiento de los datos y obtener
informacin a partir de ellos.- Por ejemplo, en la
matriz de datos de la encuesta realizada a 92
estudiantes, quizs con una mirada rpida a la
matriz podramos saber el sexo predominante
entre los estudiantes, pero difcilmente
podramos dar alguna conclusin sobre las
pulsaciones despus de correr, o cual es la
altura promedio de ellos, etc, y adems sera
imposible establecer si hay alguna relacin entre
el peso y la altura de los estudiantes.-
Esta limitacin de procesar
mentalmente tal cantidad de
informacin, nos obliga a recurrir
a nuevas herramientas que
permitan resumir los datos
haciendo visibles aspectos que
de otra forma permaneceran
ocultos.- Ahora bien, decidir
cuales son las herramientas ms
apropiadas depende en primer
lugar de las preguntas que
intentemos responder y que,
como ya dijimos, son las que
guan todo el proceso de
anlisis.-
1.- Es heterogneo el grupo en cuanto a su edad?.-
2.- Hay predominio de mujeres?.-
3.- La composicin por sexo vara segn sea si fuman
o no?
4.- Hay alguna relacin entre el peso y la altura de los
alumnos?
5.- El pulso depende de si el alumno corri o no?
6.- Las diferencia entre el pulso antes de correr y
despus son valores ms o menos homogneos?.-
7.- Habr alguna relacin entre el sexo, si corri o no
y el peso de los alumnos?.-
8.- Se trata de estudiantes que dicen tener que tipo de
actividad fsica, alta, baja o media?
En este sinttico listado de preguntas podemos
distinguir aquellas que involucran a una sola
variable, a dos variables, y a tres o ms
variables.- Para la bsqueda de respuesta a
esas preguntas ser necesario utilizar
herramientas estadstica diferentes segn sea el
nmero de variables consideradas.-
Como se menciono oportunamente:

Cuando el anlisis de los individuos se realiza


a partir de una nica variable sin tomar en
cuenta el resto de la matriz, hablamos de un
Anlisis Univariado.-

Si el tratamiento de los datos involucra dos


variables simultneamente se trata de un
Anlisis Bivariado.-

Cuando trabajamos con tres o ms variables


simultneamente recurrimos al Anlisis
Multivariado.-
Recordemos que, otro aspecto a tener en cuenta al
considerar la herramienta apropiada para el anlisis es
el tipo de variable con el que se est trabajando:
cualitativa o cuantitativa.-

Adems, las herramientas estadsticas para el anlisis


de los datos se pueden clasificar en dos grandes
familias: numricas y grficas, ambas concurrentes
para hacer visible el comportamiento de los datos y
complementarias en la intencin de producir
informacin.-

Priorizar las herramientas numricas o las


grficas o ambas en el trabajo de exploracin,
es una decisin del investigador.-
Independientemente de la necesidad de
responder a las preguntas que suponen el
tratamiento de una variable, anlisis bivariado o
multivariado, requiere que se haga una
exploracin de cada una de las variable de la
matriz de datos.-

Si tenemos variables que estn representadas


por cdigos, debemos transformar las mismas
en nominales a fin de que cuando empecemos
con la organizacin y anlisis de los datos, no
nos aparezcan los nmeros, sino que
representan; por ejemplo, si en la columna de
Sexo, observamos 1 y 2, esto ser Hombre y
Mujer y as sucesivamente con otras.-
Veamos a nuestra Matriz de Referencia.-
Observamos que algunas variables vienen
definidas por cdigos y por lo tanto debemos
pensar como hacemos estos cambios usando
un programa por ejemplo, como Minitab.-

Es importante que el alumno


vaya tomando notas de los
distintos procedimiento que
realizamos en PC.-
Pulso1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
64 88 CORRIO NO FUMA HOMBRE 168 64 MEDIA
58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
62 76 CORRIO FUMA HOMBRE 187 73 ALTA
66 78 CORRIO FUMA HOMBRE 185 86 BAJA
64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
62 75 CORRIO NO FUMA HOMBRE 183 88 MEDIA
76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
90 94 CORRIO FUMA HOMBRE 188 73 BAJA
80 96 CORRIO NO FUMA HOMBRE 183 70 MEDIA
92 84 CORRIO FUMA HOMBRE 178 69 ALTA
68 76 CORRIO NO FUMA HOMBRE 170 66 MEDIA
60 76 CORRIO NO FUMA HOMBRE 180 77 ALTA
62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
70 72 CORRIO FUMA HOMBRE 185 77 ALTA
68 76 CORRIO FUMA HOMBRE 188 82 MEDIA
72 80 CORRIO NO FUMA HOMBRE 168 61 ALTA
70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
96 140 CORRIO NO FUMA MUJER 155 64 MEDIA
62 100 CORRIO NO FUMA MUJER 168 54 MEDIA
78 104 CORRIO FUMA MUJER 173 59 MEDIA
82 100 CORRIO NO FUMA MUJER 173 63 MEDIA
100 115 CORRIO FUMA MUJER 160 55 MEDIA
68 112 CORRIO NO FUMA MUJER 178 57 MEDIA
96 116 CORRIO NO FUMA MUJER 173 53 MEDIA
78 118 CORRIO NO FUMA MUJER 175 66 MEDIA
88 110 CORRIO FUMA MUJER 175 68 MEDIA
62 98 CORRIO FUMA MUJER 159 51 MEDIA
80 128 CORRIO NO FUMA MUJER 173 57 MEDIA
62 62 NO CORRIO NO FUMA HOMBRE 188 86 BAJA
60 62 NO CORRIO NO FUMA HOMBRE 180 70 MEDIA
72 74 NO CORRIO FUMA HOMBRE 175 77 MEDIA
62 66 NO CORRIO NO FUMA HOMBRE 178 70 MEDIA
76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
68 66 NO CORRIO FUMA HOMBRE 170 68 MEDIA
54 56 NO CORRIO FUMA HOMBRE 175 66 MEDIA
74 70 NO CORRIO NO FUMA HOMBRE 185 70 ALTA
74 74 NO CORRIO NO FUMA HOMBRE 185 68 MEDIA
68 68 NO CORRIO NO FUMA HOMBRE 180 70 ALTA
72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
82 84 NO CORRIO FUMA HOMBRE 185 82 MEDIA
64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
58 58 NO CORRIO NO FUMA HOMBRE 168 61 ALTA
54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
70 62 NO CORRIO FUMA HOMBRE 168 59 MEDIA
62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
48 54 NO CORRIO FUMA HOMBRE 173 68
76 76 NO CORRIO NO FUMA HOMBRE 188 67 ALTA
88 84 NO CORRIO NO FUMA HOMBRE 187 70 MEDIA
70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
90 90 NO CORRIO NO FUMA HOMBRE 173 66 BAJA
92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
68 68 NO CORRIO NO FUMA HOMBRE 183 64 ALTA
84 84 NO CORRIO NO FUMA HOMBRE 175 62 MEDIA
74 76 NO CORRIO NO FUMA HOMBRE 170 56 MEDIA
68 66 NO CORRIO NO FUMA HOMBRE 173 70 MEDIA
84 84 NO CORRIO NO FUMA MUJER 168 59 MEDIA
61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
64 60 NO CORRIO NO FUMA MUJER 168 59 ALTA
94 92 NO CORRIO FUMA MUJER 157 59 MEDIA
60 66 NO CORRIO NO FUMA MUJER 157 54 MEDIA
72 70 NO CORRIO NO FUMA MUJER 160 54 MEDIA
58 56 NO CORRIO NO FUMA MUJER 170 57 MEDIA
88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
66 72 NO CORRIO NO FUMA MUJER 168 57 MEDIA
84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA

80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA

78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA

68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA

72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA

82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA

76 76 NO CORRIO FUMA MUJER 157 49 ALTA

87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA

90 92 NO CORRIO FUMA MUJER 163 57 BAJA

78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA

68 68 NO CORRIO NO FUMA MUJER 157 50 MEDIA

86 84 NO CORRIO NO FUMA MUJER 170 68 ALTA

76 76 NO CORRIO NO FUMA MUJER 157 49 MEDIA


Si tomamos la decisin de seleccionar una
muestra aleatoria por ejemplo, de 40
alumnos y trabajar estadsticamente nuestra
nueva matriz, veamos como
seleccionamos la misma usando el
programa Minitab.-

Nuestra nueva
matriz ser:
Esta es la matriz muestral para empezar a
trabajar los mtodos estadsticos.-

Pulso
N 1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
LAS DISTRIBUCIONES
DE FRECUENCIAS
EN EL
ANALISIS UNIVARIADO
Las distribuciones de frecuencia constituye un
primer resumen de los datos, que nos permitirn
formarnos una idea de cada una de las
caractersticas consideradas en la investigacin,
construir nuevas clasificaciones, evaluar la
posibilidad de aplicar otras herramientas de
anlisis (que ya veremos oportunamente), y
reformularnos algunas de las pregunta inicial,
plantear otras, etc.-
La construccin de una distribucin de frecuencia
es un procedimiento sencillo e intuitivo que
consiste en contar el nmero de veces que se
repite cada valor de la variable en estudio sea
esta categrica o numrica, en el conjunto de
todas las observaciones.-
Frecuencia absoluta: es el nmero de veces
que se repite un mismo valor de la variable (una
misma categora si se trata de una variable
categrica, un mismo nmero si la variable es
numrica, en el conjunto de los n individuos
observados.-

La simbolizamos con fi donde fi = n si


estamos trabajando con una muestra y a N si
hablamos de una poblacin.-

Si bien el concepto de distribucin de


frecuencia siempre es el mismo, la
construccin cambia segn se trate de
variable categrica o numrica.-
PRESENTACION DE
VARIABLE CATEGORICA EN
TABLAS Y GRAFICOS
PARA UNA
VARIABLE
CATEGORICA
EL RECURSO NUMERICO

La distribucin de frecuencia
para una sola variable
categrica se la suele llamar
tambin Tabla Resumen y
esto no es ms que un
cuadro estadstico.-
Para elaborar un cuadro
estadstico debemos tener en
cuenta ciertas caractersticas
que a continuacin
menciono.-
PARTES DE UN CUADRO ESTADISTICO (supongamos un
rayado cualquiera)

TITULO NOTA DE
CALCE

Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE

Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirmide truncada.-
Un titulo debe responder a cuatro preguntas bsicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-

2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
tambin al Como del titulo.-

4.-CUERPO.- Son las diversas casillas donde


se colocan los datos.-

5.-FUENTE.- Nos indica la institucin,


investigacin o el texto de donde provienen los
datos.- Nos sirve para saber donde consultar, si
queremos ms informacin o si deseamos
presentar alguna disconformidad o aclaracin.-
Las cinco partes mencionadas nunca deben faltar al
elaborarse un cuadro estadstico.- Hay dos partes
restantes que pueden ir o no segn el cuadro
estadstico que elaboremos.-

NOTA DE CALCE.- Se coloca entre el titulo y


el cuadro estadstico, hace referencia a como
debemos leer los datos del cuerpo del cuadro.-
Por ejemplo, (en %), (en miles), etc.-

NOTA AL PIE.- Hace referencia a como leer


algunos smbolos que pueden aparecer en el
cuerpo del cuadro, por ejemplo, (-) dato no
relevado, (*) dato estimado, etc.-
Supongamos que se ha tomado una muestra
aleatoria de 120 pacientes del laboratorio de
cierta clnica privada y se registro la siguiente
informacin, tipo de anlisis solicitado y sexo.-
N Anlisis SEX N Anlisis SEX N Anlisis SEX
01 Colesterol V 10 HIV M 19 Tiroides V
02 Diabetes V 11 Triglic V 20 Triglic V
03 Triglic V 12 Triglic V 21 Diabetes V
04 Colesterol V 13 Diabetes V 22 Diabetes M
05 Diabetes M 14 Triglic V 23 Triglic V
06 Diabetes V 15 Colesterol V 24 Diabetes V
07 Triglic V 16 Diabetes V 25 Triglic V
08 Triglic V 17 Triglic V 26 Triglic V
09 Triglic V 18 Colesterol V 27 Diabetes V
N Anlisis SEX N Anlisis SEX N Anlisis SEX
28 Colesterol M 42 Tiroides M 56 Diabetes M
29 Colesterol V 43 Acido Uric V 57 Acido Uric M
30 Diabetes M 44 Colesterol V 58 Colesterol V
31 HIV M 45 HIV M 59 Diabetes M
32 Tiroides V 46 Diabetes V 60 Acido Uric V
33 Acido Uric M 47 Acido Uric V 61 HIV M
34 Acido Uric V 48 Tiroides M 62 Triglic M
35 Colesterol V 49 Colesterol V 63 Diabetes V
36 Diabetes V 50 HIV M 64 Colesterol M
37 Diabetes V 51 Triglic M 65 Tiroides M
38 Acido Uric M 52 Triglic V 66 Acido Uric M
39 Triglic M 53 Triglic V 67 Diabetes M
40 HIV M 54 Acido uric M 68 HIV M
41 Tiroides V 55 Colesterol V 69 Diabetes V
N Anlisis SEX N Anlisis SEX N Anlisis SE
X
70 Acido Uric M 84 Diabetes M 98 Acido Uric V
71 HIV V 85 Acido Uric V 99 Acido Uric M
72 Tiroides M 86 HIV M 100 Diabetes M
73 Colesterol V 87 Triglic M 101 HIV V
74 Triglic V 88 Tiroides M 102 Colesterol M
75 Diabetes V 89 Acido Uric V 103 Triglic M
76 Acido Uric M 90 Colesterol V 104 Diabetes V
77 HIV V 91 Diabetes V 105 Diabetes M
78 Triglic M 92 Triglic V 106 Diabetes M
79 Diabetes V 93 Tiroides M 107 Acido Uric V
80 Acido Uric V 94 HIV V 108 Colesterol V
81 Acido Uric V 95 Acido Uric M 109 Tiroides M
82 Colesterol M 96 Colesterol V 110 Acido Uric M
83 HIV M 97 Diabetes M 111 Acido Uric V
N Anlisis SEX N Anlisis SEX N Anlisis SEX
112 Acido Uri V 115 Tiroides M 118 HIV M
113 Diabetes M 116 Acido Uri V 119 Triglic M
114 HIV V 117 Colesterol V 120 Triglic V

ELABOREMOS CON ESTA


INFORMACION TABLA
RESUMEN Y TABLA DE
CONTINGENCIA
CUADRO RESUMEN. Ejemplo

Pacientes segn tipo de anlisis.


Marzo 2011
Frecuencia
absoluta
TIPOS DE ANALISIS TOTAL
Diabetes 28
Tiroides 11
Acido rico 23
Colesterol 19
HIV 15
Triglicridos 24
TOTAL 120
Fuente: Elaboracin propia
Pacientes segn tipos de anlisis
Marzo 2011
TIPOS DE ANALISIS TOTAL % del total
Diabetes 28 23,3
Tiroides 11 9,2
Frecuencia
Acido rico 23 19,2
Colesterol 19 15,8 Relativa %

HIV 15 12,5
Triglicridos 24 20,0 19 X 100
120
TOTAL 120 100,0
Fuente: Elaboracin propia
EL RECURSO GRAFICO
Las dos formas grficas ms utilizadas para presentar un
tabla de frecuencia o cuadro resumen, son el grfico de
barras horizontales , porque nosotros leemos de
izquierda a derecha y las modalidades quedan en forma
horizontal y el grfico llamado de sectores.-
En el Grfico de barras horizontales, en el eje de
abscisas irn los valores de la frecuencia absoluta y en el
eje de ordenada, las modalidades de la variable
categrica.-
El Grfico de sectores, divide una circunferencias en
porciones que corresponden a cada modalidad de la
variable categrica.- Su tamao es proporcional a la
frecuencia absoluta de esa modalidad y el circulo
representa el total de casos.- Cada porcin debe ir
acompaada por porcentajes, para su fcil lectura.-
PACIENTES SEGUN TIPOS DE ANALISIS MARZO 2011

Triglicridos

HIV

Colesterol

Acido rico

Tiroide

Diabetes

0 5 10 15 20 25
PACIENTES SEGUN TIPOS DE ANALISIS

20% 23%

13% 9%

16% 19%

Diabetes Tiroide Acido rico Colesterol HIV Triglicridos


ACTIVIDAD

REALIZAR LA MISMA ACTIVIDAD QUE


PARA TIPOS DE ANALISIS CON LA
VARIABLE SEXO DE NUESTRA MATRIZ DE
120 PACIENTES QUE ESTAMOS
TRABAJANDO
PARA DOS
VARIABLE
CATEGORICA
RECURSO NUMERICO.-TABLAS DE CONTINGENCIA

Pacientes del Laboratorio A por tipos de anlisis


y sexo
Marzo 2011.-
TIPOS DE Sexo
ANALISIS Varn Mujer TOTAL
Diabetes 16 12 28 Frecuencias
absolutas
Tiroides 3 8 11
conjuntas
Acido rico 13 10 23
Colesterol 15 4 19
HIV 5 10 15
Frecuencias
Triglicridos 17 7 24
absolutas
TOTAL 69 51 120
marginales
Fuente: Elaboracin propia
RECURSO GRAFICO

PACIENTES LABORATORIO A SEGUN TIPOS DE ANALISIS Y


SEXO MARZO 2011

Triglicridos
HIV
Colesterol
MUJERES
Acido rico
VARONES
Tiroides
Diabetes

0 5 10 15 20
Analizamos una tabla de contingencia, segn lo que queramos
explicar.-

PORCENTAJES SEGN TIPOS DE ANALISIS.-

TIPOS DE SEXO TOTAL


ANALISIS Varn Mujer
Diabetes 57,0 43,0 100,0
Tiroides 27,3 72,7 100,0
Acido rico 56,5 43,5 100,0
Colesterol 78,9 21,1 100,0
HIV 33,3 66,7 100,0
Triglicridos 70,8 29,2 100,0
TOTAL 57,5 42,5 100,0
PACIENTES DEL LABORATORIO A SEGUN TIPOS DE
ANALISIS Y SEXO MARZO 2011

Triglicridos
HIV
Colesterol
MUJERES
Acido rico
VARONES
Tiroides
Diabetes

0 20 40 60 80
PACIENTES DEL LABORATORIO A SEGN TIPOS DE
ANALISIS Y SEXO
MARZO 2011
(EN %)

Triglicridos

HIV

Colesterol
VARONES
Acido rico MUJERES

Tiroides

Diabetes

0 20 40 60 80 100
PORCENTAJES DE PACIENTES POR SEXO

TIPOS DE SEXO TOTAL


ANALISIS Varn Mujer
Diabetes 23,4 23,5 23,3
Tiroides 4,3 15,7 9,2
Acido rico 18,8 19,6 19,2
Colesterol 21,7 7,8 15,8
HIV 7,2 19,6 12,5
Triglicridos 24,6 13,7 20,0
TOTAL 100,0 100,0 100,0
PACIENTES DEL LABORATORIO A SEGN TIPOS DE
ANALISIS Y SEXO MARZO 2011
(EN %)

Mujeres
Triglicridos
HIV
Colesterol
Acido rico
Tiroides
Varones
Diabetes

0 5 10 15 20 25
Porcentajes segn el total general

TIPOS DE SEXO
ANALISIS Varn Mujer
Diabetes 13,3 10,0
Tiroides 2,5 6,7
Acido Urico 10,8 8,3
Colesterol 12,5 3,3
HIV 4,2 8,3
Triglicridos 14,2 5,8
PACIENTES DEL LABORATORIO A SEGN TIPOS DE
ANALISIS Y SEXO MARZO 2011
(EN % DEL TOTAL GRAL)

Triglicridos

HIV

Colesterol
Mujer
Acido Urico Varn

Tiroides

Diabetes

0 2 4 6 8 10 12 14 16
PARA VER APLICACIN
USAREMOS LA MATRIZ
MUESTRAL DE LOS 40 ALUMNOS
QUE HEMOS OBTENIDO
ANTERIORMENTE.-

RECORDEMOS LA MATRIZ DE MUESTRA


ALEATORIA DE 40 ALUMNOS DE UNA
POBLACIN DE 92 ALUMNOS:
Esta es la matriz muestral para empezar a
trabajar los mtodos estadsticos.-

Pulso
N 1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
ELABOREMOS
TABLAS RESUMEN
PARA UNA SOLA
VARIABLE
CATEGORICA
Total de alumnos segn si corri o no
Situacin Total Alumnos % del Total
Corri 15 37,5
No Corri 25 62,5
TOTAL 40 100.0
Fuente: Elaboracin propia

Total de alumnos segn si corri o no

38%

Corrio
No Corrio

62%

Fuente: Elaboracin propia


Total de alumnos segn fuman
Total % del
Situacin Alumnos Total
Fuma 12 30
No Fuma 28 70
TOTAL 40 100.0

Fuente: Elaboracin propia

TOTAL DE ALUMNOS SEGUN FUMAN

30%

Fuma
No Fuma

70%
Total de alumnos segn sexo

Sexo Total alumnos % del Total


Hombre 27 67,5
Mujer 13 32,5
Total 40 100.0
Fuente: elaboracin propia

TOTAL ALUMNOS SEGUN SEXO

33%

Hombre
Mujer

67%
Total de alumnos segn actividad
ACTIVIDAD TOTAL ALUMNOS % DEL TOTAL
ALTA 9 22,5
MEDIA 26 65,0

BAJA 5 12,5
TOTAL 40 100.0
Fuente: elaboracin propia.-

TOTAL DE ALUMNOS SEGUN ACTIVIDAD

13%
23%

ALTA
MEDIA
BAJA

64%
TRABAJEMOS EL TEMA
TABLAS DE CONTINGENCIA
EN NUESTRA MATRIZ DE 40
ALUMNOS QUE VENIMOS
TRABAJANDO.-
TOTAL ALUMNOS SEGN SI CORRIO Y SEXO

SEXO
SITUACION Hombre Mujer Total

Corri 14 1 15

No Corri 13 12 25

Total 27 13 40
FUENTE: ELABORACIN PROPIA
TOTAL DE ALUMNOS SEGUN CORRIO POR SEXO

14
12
10
8 corrio

6 no corrio
4
2
0
hombre mujer

TOTAL DE ALUMNOS SEGUN SEXO Y CORRIO O NO

14
12
10
8 HOMBRE

6 MUJER
4
2
0
corrio no corrio
TOTAL ALUMNOS SEGN SI CORRIO O NO Y SEXO

SEXO
Hombre Mujer Total

Corri 93,33 6,67 100,00

No corri 52,00 48,00 100,00

Total 67,50 32,50 100,00


FUENTE: ELABORACIN PROPIA

DEL TOTAL QUE CORRIO EL 93% FUERON HOMBRES

DEL TOTAL QUE NO CORRIO EL 48% FUERON MUJERES


TOTAL ALUMNOS SEGN SI CORRIO Y SEXO
(en %)
SEXO
Hombre Mujer Total
Corri 51,85 7,69 37,50
No Corri 48,15 92,31 62,50
Total 100,00 100,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE HOMBRES EL 48% NO CORRIO

DEL TOTAL DE MUJERES EL 8% CORRIO


TOTAL ALUMNOS SEGN SI CORRIO Y SEXO
(en %)
SEXO
Hombre Mujer Total
Corri 35,00 2,50 37,50
No Corri 32,50 30,00 62,50
Total 67,50 32,50 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS EL 35% CORRIO Y SON HOMBRES

DEL TOTAL DE ALUMNOS EL 30% SON MUJERES QUE NO CORRIO


TOTAL ALUMNOS SEGN SI FUMAY SEXO

SEXO
HOMBRE MUJER TOTAL
FUMA 10 2 12
NO FUMA 17 11 28
TOTAL 27 13 40
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS 10 SON HOMBRE Y FUMAN

DEL TOTAL DE ALUMNOS 28 NO FUMAN


TOTAL ALUMNOS FUMAN O NO Y SEXO
(en %)
SEXO
HOMBRE MUJER TOTAL
FUMA 83,33 16,67 100,00
NO FUMA 60,71 39,29 100,00
TOTAL 67,50 32,50 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS QUE FUMAN EL 83% SON HOMBRES

DEL TOTAL DE ALUMNOS QUE NO FUMAN EL 39% SON MUJERES


TOTAL ALUMNOS POR SEXO SEGN FUMAN
O NO

(en %)
SEXO
HOMBRE MUJER TOTAL
FUMA 37,04 15,38 30,00
NO FUMA 62,96 84,62 70,00
TOTAL 100,00 100,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS HOMBRES EL 37% FUMAN

DEL TOTAL DE ALUMNOS MUJER EL 85% NO FUMAN


TOTAL ALUMNOS SEGN SI FUMAN Y SEXO

(EN %)

SEXO
HOMBRE MUJER TOTAL
FUMA 25,00 5,00 30,00
NO FUMA 42,50 27,50 70,00
TOTAL 67,50 32,50 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS EL 28% SON MUJERES QUE NO


FUMAN

DEL TOTAL DE ALUMNOS EL 25% SON HOMBRES QUE FUMAN


TOTAL DE ALUMNOS SEGUN SI FUMAN O NO Y SEXO

45,00
40,00
35,00
30,00
25,00 HOMBRE
20,00 MUJER
15,00
10,00
5,00
0,00
FUMA NO FUMA

TOTAL DE ALUMNOS SEGUN SEXO Y SI FUMAN O NO

50,00
40,00
30,00
FUMA
20,00
NO FUMA
10,00

0,00
1 2
HOMBRE MUJER
TOTAL DE ALUMNOS SEGN SEXO Y TIPO DE
ACTIVIDAD

ACTIVIDAD
ALTA MEDIA BAJA TOTAL
HOMBRE 7 2 18 27
MUJER 2 3 8 13
TOTAL 9 5 26 40
FUENTE: ELABORACIN PROPIA

TENEMOS 18 ALUMNOS QUE SON HOMBRE Y TIENEN BAJA


ACTIVIDAD

CINCO ALUMNOS TIENEN ACTIVIDAD MEDIA

13 ALUMNOS SON MUJERES


TOTAL DE ALUMNOS SEGN SEXO Y TIPO DE
ACTIVIDAD
(EN %)
ACTIVIDAD
ALTA MEDIA BAJA TOTAL
HOMBRE 25,93 7,41 66,67 100,00
MUJER 15,38 23,08 61,54 100,00
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE HOMBRES EL 26% TIENEN ACTIVIDAD ALTA

DEL TOTAL DE MUJERES EL 23% TIENE ACTIVIDAD MEDIA

DEL TOTAL DE ALUMNOS EL 65% TIENEN ACTIVIDAD BAJA


TOTAL DE ALUMNOS SEGN SEXO Y TIPO DE
ACTIVIDAD
(EN %)
ACTIVIDAD
ALTA MEDIA BAJA TOTAL
HOMBRE 17,50 5,00 45,00 67,50
MUJER 5,00 7,50 20,00 32,50
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS EL 18% SON HOMBRES CON


ACTIVIDAD ALTA

DEL TOTAL DE ALUMNOS EL 8% SON MUJERES CON ACTIVIDAD


MEDIA
TOTAL DE ALUMNOS SEGN TIPO DE
ACTIVIDAD Y SEXO
(EN %)
ACTIVIDAD
ALTA MEDIA BAJA TOTAL
HOMBRE 77,78 40 69,23 67,5
MUJER 22,22 60 30,77 32,5
TOTAL 100 100 100 100
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS CON ACTIVIDAD ALTA EL 22% SON


MUJERES

DEL TOTAL DE ALUMNOS CON BAJA ACTIVIDAD EL 69% SON


HOMBRES
TOTAL DE ALUMNOS SEGN FUMAN Y TIPO
DE ACTIVIDAD

ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 2 1 9 12
NO FUMA 7 4 17 28
TOTAL 9 5 26 40

FUENTE: ELABORACIN PROPIA

TENEMOS 12 ALUMNOS QUE FUMAN

TENEMOS 7 ALUMNOS QUE NO FUMAN Y TIENEN ALTA ACTIVIDAD


TOTAL DE ALUMNOS SEGN FUMAN Y TIPO DE
ACTIVIDAD

(EN %)

ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 16,67 8,33 75,00 100,00
NO FUMA 25,00 14,29 60,71 100,00
TOTAL 22,50 12,50 65,00 100,00

FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS QUE FUMAN EL 17% TIENE ACTIVIDAD


ALTA

DEL TOTAL DE ALUMNOS QUE NO FUMAN EL 61% TIENEN


ACTIVIDAD MEDIA
TOTAL DE ALUMNOS SEGN TIPO DE ACTIVIDAD Y SI
FUMAN
(EN %)

ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 22,22 20,00 34,62 30,00
NO FUMA 77,78 80,00 65,38 70,00
TOTAL 100,00 100,00 100,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS CON BAJA ACTIVIDAD EL 20% FUMAN

DEL TOTAL DE ALUMNOS CON ACTIVIDAD MEDIA EL 65% NO


FUMAN
TOTAL DE ALUMNOS SEGN FUMAN Y TIPO DE
ACTIVIDAD
(EN %)

ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 5,00 2,50 22,50 30,00
NO FUMA 17,50 10,00 42,50 70,00
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIN PROPIA

DEL TOTAL DE ALUMNOS EL 5% FUMAN Y TIENEN ALTA


ACTIVIDAD

DEL TOTAL DE ALUMNOS EL 43% NO FUMAN Y TIENEN ACTIVIDAD


MEDIA
ACTIVIDAD 5

Analizando una estadstica de la Universidad Nacional de


la Provincia de La Rioja, para el ao 1994, se observa
que tena 5319 alumnos de los cuales el 84,7 % son
reinscriptos y el 15,3 % nuevos inscriptos. Se trato de
verificar estas cifras viendo cuales eran los valores
correspondientes por Sedes Universitarias, de donde se
determin que Sede La Rioja son 4237, con 86,5 %
reinscriptos y 13,5 % nuevos inscriptos, para la Sede
Chamical, 215 ; 90,7 % ; 9,3 %; para Sede Chilecito 736 ;
73,4 % y 26,6 % ; y para Sede Aimogasta 131 ; 80,9 %
y 19,1 % respectivamente.
a) Elabore un cuadro estadstico.
b) Determine los valores absolutos y elabore un cuadro.
c) Muestre mediante uno o varios grficos la informacin
existente.
ACTIVIDAD 6

Haciendo referencia a la sintomatologa urinaria


infecciosa en unidades hospitalarias 23 casos
no manifestaron sntomas; 24 casos
presentaron sntomas tales como; 8 Sndrome
Febril, 7 casos de Puo percusin renal
positiva, 7 casos los dos sntomas anteriores y
adems hubo 2 casos de otros sntomas.-
a) Elabore un cuadro resumen.-
b) Calcule las frecuencias relativas y explique
una.-
c) Muestre esa informacin en un grfico de
sectores y explique.
ACTIVIDAD 7
Se presenta el siguiente cuadro de informacin:
Porcentajes de poblacin sin cobertura en salud segn divisin poltica
Administrativa de la provincia de La Rioja. Ao 1991.-

DEPARTAMENTO POBLACION TOTAL % SIN COBERTURA

ARAUCO 11173 43.5


CAPITAL 105996 26.2
CASTRO BARROS 3265 26.2
FELIPE VARELA 8214 53.9
CHAMICAL 10723 36.1
CHILECITO 31616 37.7
FAMATINA 5302 40.8
ANGEL VICENTE PEALOZA 2848 32.3
BELGRANO 5848 50.0
JUAN FACUNDO QUIROGA 3738 38.1
LAMADRID 1430 32.6
OCAMPO 6496 40.7
SAN MARTIN 3934 55.0
INDEPENDENCIA 2174 32.7
ROSARIO VERA PEALOZA 10852 50.8
SAN BLAS DE LOS SAUCES 3145 41.9
SANAGASTA 1668 20.4
VINCHINA 2307 35.5
TOTAL 220729 34.0
Los casos en que ignora la cobertura fueron distribuidos
proporcionalmente.-
Fuente: Indec.- Censo de poblacin y Vivienda. Ao 1991.-

a) Elabore un cuadro con cifras absolutas para Sin y con


cobertura por departamento.-
b) Muestre en un grfico de barras los porcentajes sin
cobertura por departamento.-
c) Muestre en un grfico de sectores los cinco
departamentos ms importante en poblacin y resto
segn % sin cobertura de salud.-
d) Muestre en un grfico de barras compuesta porcentajes
de poblacin con y sin cobertura por departamento,
para comparar.-
ACTIVIDAD 8

En la tabla siguiente se muestra las respuestas


de 84 pacientes postoperados a quienes se
les solicito calificar su percepcin del dolor
en una escala de cuatro puntos y sexo, como
parte de un estudio sobre el manejo del dolor.-
a)Indique cual es la variable en estudio y tipo.-
b) Elabore un cuadro resumen, explique y
grafique.-
c) Elabore una tabla de contingencia, explique y
grafique.-
N Nivel del dolor Sexo N Nivel del Sexo
pac. pac. dolor
01 Moderado H 15 Ninguno H
02 Ninguno M 16 Leve H
03 Leve M 17 Leve M
04 Ninguno H 18 Moderado M
05 Severo M 19 Severo H
06 Ninguno H 20 Severo H
07 Moderado M 21 Ninguno H
08 Ninguno H 22 Ninguno H
09 Ninguno H 23 Moderado M
10 Leve H 24 Severo H
11 Leve M 25 Severo H
12 Ninguno H 26 Severo M
13 Leve M 27 Ninguno H
14 Leve H 28 Severo M
N Nivel del dolor Sexo N Nivel del Sexo
pac. pac. dolor
29 Ninguno H 43 Moderado H
30 Ninguno H 44 Leve H
31 Ninguno H 45 Leve H
32 Leve M 46 Severo H
33 Leve M 47 Severo M
34 Leve M 48 Ninguno M
35 Severo H 49 Ninguno H
36 Severo H 50 Leve H
37 Moderado H 51 Moderado M
38 Moderado H 52 Leve M
39 Severo M 53 Leve H
40 Ninguno H 54 Ninguno H
41 Ninguno M 55 Ninguno M
42 Leve H 56 Severo H
N Nivel del dolor Sexo N Nivel del Sexo
pac. pac. dolor
57 Leve H 71 Ninguno M
58 Leve H 72 Ninguno H
59 Leve M 73 Severo M
60 Moderado M 74 Leve H
61 Ninguno M 75 Moderado H
62 Ninguno H 76 Leve H
63 Leve H 77 Ninguno M
64 Leve H 78 Severo M
65 Ninguno H 79 Ninguno H
66 Ninguno M 80 Leve H
67 Severo H 81 moderado H
68 Severo M 82 Ninguno M
69 Ninguno H 83 Leve M
70 Leve H 84 Severo M
ACTIVIDAD 9

Suponga que a una muestra de alumnos de la Unlar se


les pregunta donde nacieron y adems registr el sexo
de cada uno de ellos.- Los datos fueron:

LR F LR V SAN F LR F CHA V
CHA V CHI F LR V CHI V CHI F
CHI F PAT F LR F LR V BLA V
LR F CHA V CHA F SAN F LR F
LR F LR F SAN V BLA V CHI V
LR V VIN V CHA F LR V PAT V
CHE F CHA F BLA V CHI F LR F
TAM V CHI V LR F LR F TAM V
CHI F LR F VIN F CHA V LR F
ULA V LR V LR V SAN F LR V
LR F LR V SAN F LR F CHA V
CHA V CHI F LR V CHI V CHI F
CHI F PAT F LR F LR V BLA V
LR F CHA V CHA F SAN F LR F
LR F LR F SAN V BLA V CHI V
LR V VIN V CHA F LR V PAT V
CHE F CHA F BLA V CHI F LR F
TAM V CHI V LR F LR F TAM V
LR F LR F VIN F CHA V LR F
ULA V LR V LR V SAN F LR V
CHI F PAT F LR M CHE M TAM V
CHE V TAM M CHI V SAN V CHE M
SAN M CHA V BLA M CHI M CHI V
LR V CHE M LR V PAT V LR M
ACTIVIDAD 10
De un anuario estadstico de la provincia de La Rioja, se ha extrado el
siguiente cuadro de informacin:
Porcentajes de nacidos vivos de madres residentes en
la provincia de La rioja, segn pesos al nacer. Ao 1995

Peso en Gramos. Total


Menos de 250 grs.- 378
De 2500 a 3499 grs.- 3338
Ms de 3500 grs.- 2155
Peso ignorado 243
Total 6114
Fuente: Ministerio de Salud de La Rioja.-

a) Muestre esta informacin en un grfico de sectores.-


b) Muestre esta informacin en un grfico de barras
horizontales.-
c) Explique estos valores en %.-
PRESENTACION DE
VARIABLE NUMERICA EN
TABLAS Y GRAFICOS
TRATAMIENTO
ESTADISTICO
DE UNA SOLA
VARIABLE
NUMERICA
Hemos dicho que cuando la variable en estudio es numrica
debemos distinguir entre variable discreta y continua.-
Adems debemos tener en cuenta que en este caso vamos a
estudiar una sola variable numrica por vez, es decir
distribuciones unidimensionales.-

Otra cosa que debemos tener en claro es que segn la cantidad de


datos que forman nuestra muestra o poblacin segn con lo que
hayamos decidido trabajar, a estos los podemos tratar como:

a) Datos sin agrupar


b1) Sin intervalos

b) Datos agrupados

b2) Con intervalos


a) DATOS SIN AGRUPAR.-

A continuacin se tiene la concentracin de


urea por 100ml de suero sanguneo en un
grupo de 24 pacientes sometidos a dilisis.-

80 67 46 38 73 68 83 39
48 55 57 91 32 45 58 76
66 86 67 73 42 53 74 50

Cuando se trabaja con datos sin agrupar lo primero


que debemos hacer siempre es ordenarlos en forma
creciente y algo podemos decir:
Cuando se trabaja con datos sin agrupar lo primero
que debemos hacer siempre es ordenarlos en forma
creciente y algo podemos decir:

32 38 39 42 45 46 48 50
53 55 57 58 66 67 67 68
73 73 74 76 80 83 86 91

Qu comentario puede hacer el alumnos?


RECURSO GRAFICO

Un grfico que se suele hacer cuando los datos no


son muchos es el grfico de puntos o Dotplot.-

CONCENTRACION DE UREA EN SUERO SANGUINEO

32 40 48 56 64 72 80 88
C2
b1) Datos agrupados sin intervalos.- Variable
discreta.-

Vamos a verlo mediante un ejemplo.- Supongamos estar haciendo


un relevamiento de la cantidad de personas que fueron a hacerse
anlisis por da en cierto laboratorio local.- Se toma una muestra
aleatoria de 80 das.- Resultaron los siguientes valores:

4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas por da.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIN DE
FRECUENCIA.-
Xi Conteo fi hi Hi Fi Fi%
2 III 3 0,0375 0.0375 3 3,75
3 IIIIIIII 8 0,1000 0.1375 11 13.75
4 IIIIIIIIIIIIIII 15 0,1875 0.3250 26 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 0.5500 44 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 0.8250 66 82,50
7 IIIIIIIII 9 0,1125 0.9375 75 93,75
8 IIIII 5 0,0625 1.0000 80 100,0
TOTAL --------- 80 1,0000 ---------- -------- -----------

En el analizamos toda la cuarta fila.-


Xi = es la variable en estudio, me indica cantidad de personas, 5.-
fi = durante 18 das fueron 5 personas.-
hi = el 22,5 % de los das fueron 5 personas.-
Fi = 44 das que fueron entre 2 y 5 personas.-
Fi = el 55,0% de los das fueron entre 2 y 5 personas.-

Si decidimos mostrar grficamente esta distribucin ser por


medio de un GRAFICO DE BASTONES.-
fi
25
20
15
10
5
0 1 2 3 4 5 6 7 8 Cantidad personas
b2) Datos agrupados con intervalos.- Variable
continua.-
Para agrupar los datos en una distribucin de frecuencia con
intervalos, debemos pensar varias cosas, como cuantos intervalos
vamos a hacer, que amplitud usamos, etc.- Se recomienda no usar
menos de 5 ni ms de 15 intervalos.- Cuando agrupamos los datos
en intervalos, perdemos la individualidad del dato.-

a) Sacamos la cantidad de Intervalos ( I ) haciendo:

2k n
Donde k nos indica la cantidad de intervalos a realizar.-

b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi mximo --- Xi mnimo
Ci = amplitud Ci = Rx / I
Debemos ahora determinar con que valor de variable empezamos los
intervalos, para ello definimos el siguiente criterio:
Li Xi < Ls
Tomamos el dato donde es lmite inferior.-

Veamos esto con un ejemplo.- Supongamos tener las notas de un


parcial de Bioestadstica de una muestra de 30 alumnos.- Estas
fueron:

61 88 70 76 66 79 64 75 78 76
80 61 75 79 76 60 74 68 76 78
70 65 52 78 72 76 58 86 94 78

I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 9
La distribucin de frecuencia ser:
Li - Ls Conteo fi hi Hi Fi Fi %

52 61 III 3 0,100 0.1000 3 10,0

61 70 IIIIII 6 0,200 0.3000 9 30,0

70 79 IIIIIIIIIIIIIII 15 0,500 0.8000 24 80,0

79 88 IIII 4 0,133 0.9300 28 93,0

88 97 II 2 0,067 1.0000 30 100,0

TOTAL ------------ 30 1,000 --------- ----------- -----------

fi = 15 Significa que 15 alumnos sacaron entre 70 y 79 puntos.-


hi = 0,500 .- El 50% de los alumnos sacaron entre 70 y 79 puntos.-
Fi = 24 alumnos sacaron entre 52 y 79 puntos.-
Fi % = 80.0 %.- El 80% de los alumnos sacaron entre 52 y 79 puntos.-
Representacin grfica de una distribucin de
frecuencia con intervalos

POLIGONO DE
HISTOGRAMA
FRECUENCIA

OJIVA O GRAFICO
DE Fi %
Comentarios sobre los
grficos de una
distribucin de
frecuencia con
intervalos.-
HISTOGRAMA

Es un grfico de barras verticales adyacentes y me


muestra la forma en que se distribuyen los datos que
estamos estudiando.- Todas las barras tienen el mismo
ancho y se diferencia en la altura que corresponde a
cada frecuencia absoluta o frecuencia relativa del
intervalo.- El histograma nos muestra como estn
repartidos los datos.- Por ejemplo si estamos
analizando resultados de anlisis de diabetes realizados
durante un ao a pacientes que concurrieron a cierto y
nos encontramos con Histogramas de las siguientes
formas:
Histogram of X1
20

15
Frequency

10

0
-4 -2 0 2 4 6 8 10
X1

DISTRIBUCION SIMETRICA
Histogram of X3
18

16

14

12
Frequency

10

0
0 10 20 30 40
X3

DISTRIBUCION ASIMETRICA
A LA DERECHA
Histogram of HSPct
30

25

20
Frequency

15

10

0
30 40 50 60 70 80 90 100
HSPct

DISTRIBUCION ASIMETRICA
A LA IZQUIERDA
POLIGONO DE
FRECUENCIA

Es un grfico lineal.- Los puntos medios de los


intervalos representa los datos de ese
intervalo.- Me cuenta lo mismo que el
histograma, como se distribuyen mis datos.- Es
apropiado cuando se quieren comparar
distribuciones, ya que pueden encimarse dos
polgonos con distintas tramas.-
Notas de un parcial segn sexo

Intervalos Xi Varones Mujeres

30-40 35 3 5 25

40-50 45 5 8 20

Total alumnos
50-60 55 9 6 15
varones

60-70 mujeres
65 15 20 10

70-80 75 18 16 5

80-90 85 10 8 0
1 2 3 4 5 6 7
90-100 85 6 5 Puntajes

-------- ----- 66 68
Tanto el histograma como el polgono de frecuencia son
recursos fundamentales para explorar y presentar un
conjunto de datos numricos en los que tenga sentido
realizar agrupamientos en intervalos de clase.-
OJIVA O GRAFICO DE
FRECUENCIA ACUMULADA

Con este grfico podemos calcular


alguna medidas descriptivas, adems,
podemos decir que porcentaje de
observaciones son menores a cierto
valor de variable.-
Frecuencias absolutas acumuladas porcentuales
Intervalos Varones Mujeres
120,0
30-40 4.5 7.4 100,0
40-50 12.1 19.1
80,0

% alumnos
50-60 25.8 27.9 Varones
60,0
60-70 48.5 57.4 Mujeres
40,0
70-80 75.8 80.9
80-90 20,0
90.9 92.6
90-100 100.0 100.0 0,0
40 50 60 70 80 90 100
-------- ------- ------- Puntajes del limite superior
Veamos estos tres
grficos en el ejemplo
que venimos viendo sobre
notas de un parcial de
Bioestadstica.-
Ttulo

12

9
frecuencia absoluta

0
48 58 68 78 88 98
notas parcial
Ttulo

12
frecuencia absoluta

0
48 56 65 73 81 90 98
notas parcial
0,53

frecuencia relativas
0,39

0,26

0,13

0,00
47 57 68 78 89 99
Notas parcial
Ttulo
frec. abs. acumulada 32

24

16

0
48 56 65 73 81 90 98
notas parcial
VEAMO UN EJEMPLO DE
COMPARACION
DE
DISTRIBUCIONES.-
Suponga que decide llevar a cabo un estudio comparativo de la
cantidad de anlisis de diabetes que se realizan mensualmente en dos
Laboratorios que llamamos A y B.- Tomamos una muestra aleatoria
de 50 meses en cada una de ellos.-

LABORATORIO A
50 38 43 56 51 36 25 33 41 44
34 39 49 37 40 50 50 35 22 45
44 38 14 44 51 27 44 39 50 35
31 34 48 48 30 42 26 35 32 63
36 38 52 23 39 45 37 31 39 53
LABORATORIO B
37 37 29 38 37 38 39 29 36 38
44 27 24 34 44 23 30 32 25 29
43 31 26 34 23 41 32 30 28 33
26 51 26 48 39 55 24 38 31 30
51 30 27 38 26 28 33 38 32 25
Exploramos un poco los datos, porque tratamos
de elaborar una sola distribucin de frecuencia
para las dos distribuciones.- Observamos que
una de las distribuciones el recorrido de la
variable va desde 14 a 63 anlisis y en el otro
desde 23 a 55 anlisis.- Podemos modificar el
menor valor y llevarlo a 10 y usar una amplitud
de intervalo igual a 5.- Elaboramos tantos
intervalos como para cubrir nuestro valor
mximo de variable.-
La distribucin de frecuencia quedara de la
siguiente manera, realizamos el conteo y
obtenemos las frecuencias absoluta.-
Cantidad de Frecuencia Frecuencia
Anlisis Mensuales Laboratorio A Laboratorio B

10 15 1 0
15 20 0 0
20 25 2 4
25 30 3 13
30 35 7 13
35 40 14 12
40 45 8 4
45 50 5 1
50 55 8 2
55 60 1 1
60 65 1 0
TOTAL 50 50
La distribucin de frecuencia permite obtener
conclusiones acerca de las caractersticas principales de
los datos.- Por ejemplo, la tabla anterior muestra que la
cantidad de anlisis de diabetes mensuales en el
Laboratorio A est concentrado entre los 30 y 55, en
comparacin con los anlisis del Laboratorio B, los
cuales estn concentrado entre 25 y 40.-
Si el conjunto de datos no contiene muchos valores, un
conjunto de lmites de clase refleja una imagen diferente
de la que da otro conjunto de lmites.- Siempre es
conveniente no tener demasiados datos en cada
intervalo.-
Por fortuna, conforme aumenta el tamao de la muestra,
las alteraciones en la seleccin de los lmites de clase
afectan cada vez menos la concentracin de los datos.-
DISTRIBUCION DE
FRECUENCIAS RELATIVAS
Y DISTRIBUCIN DE
PORCENTAJES.-
Cantidad Laboratorio A Laboratorio B
de anlisis de Frecuencia Porcentaje Frecuencia Porcentaje
diabetes Relativa Relativa
mensuales
10 15 0,02 2,00 0,00 0,00
15 20 0,00 0,00 0,00 0,00
20 25 0,04 4,00 0,08 8,00
25 30 0,06 6,00 0,26 26,00
30 35 0,14 14,00 0,26 26,00
35 40 0,28 28,00 0,24 24,00
40 45 0,16 16,00 0,08 8,00
45 50 0,10 10,00 0,02 2,00
50 55 0,16 16,00 0,04 4,00
55 60 0,02 2,00 0,02 2,00
60 65 0,02 2,00 0,00 0,00
TOTAL 1,00 100,0 1,00 100,0
30

25

20
LABORATORIO A
15
LABORATORIO B
10

0
1 2 3 4 5 6 7 8 9 10 11
A partir de la tabla anterior, se concluye
que los anlisis son ms los que se
realizan mensualmente en el laboratorio
A que en los del laboratorio B; el 16 % de
los meses los anlisis en el laboratorio A
estn entre 50 y 55, en comparacin con
el 4 % de los meses de los anlisis
realizados en el Laboratorio B; mientras
que solo el 6 % de los meses los anlisis
realizados en el laboratorio A estn entre
25 y 30 en comparacin con el 26 % de
los meses de los anlisis realizados en el
laboratorio B.-
DISTRIBUCION DE
FRECUENCIA ABSOLUTAS
ACUMULADAS Y
DE FRECUENCIAS
ABSOLUTAS
ACUMULADAS
PORCENTUALES
Cantidad de Laboratorio A Laboratorio B
anlisis de Frecuencia Porcentaje Frecuencia Porcentaje
diabetes
Abs. Acum. Abs. Acum.
mensuales
10 15 1 2,0 0 0,0
15 20 1 2,0 0 0,0
20 25 3 6,0 4 8,0
25 30 6 12,0 17 34,0
30 35 13 26,0 30 60,0
35 40 27 54,0 42 84,0
40 45 35 70,0 46 92,0
45 50 40 80,0 47 94,0
50 55 48 96,0 49 98,0
55 60 49 98,0 50 100,0
60 65 50 100,0 50 100,0
TOTAL
120

100

80
Laboratorio A
60
Laboratorio B
40

20

0
1 2 3 4 5 6 7 8 9 10 11 12
La distribucin de porcentaje acumulado constituye una
manera de presentar la informacin del porcentaje de los
valores que estn por debajo de cierto valor.- Por
ejemplo, tal vez se desea conocer que porcentaje de los
meses del Laboratorio A se hacen menos de 20 anlisis,
menos de 30 y as sucesivamente, etc.-
La distribucin acumulativa muestra claramente que los
anlisis realizados mensualmente son inferiores en el
Laboratorio B que los del Laboratorio A; en el 34% de
los meses en el Laboratorio B se producen menos de 30,
en comparacin con solo el 12% de los meses del
Laboratorio A; en el 60% de los meses del Laboratorio B
se producen menos de 35 en comparacin solo el 26%
de los meses del Laboratorio A, etc, etc.-
ANALISIS EXPLORATORIO DE DATOS.-

Una tcnica de explorar los datos que son objeto de


nuestro estudio y que hoy trae casi todos los paquetes
estadsticos de computacin es el llamado DIAGRAMA
DE TALLO Y HOJA.- La importancia de este diagrama
es que no perdemos el dato original, cosa que nos
sucede con las distribucin de frecuencia con
intervalos.-
El diagrama es una herramienta valiosa y verstil para
organizar un conjunto de datos y entender la
distribucin y agrupacin de los valores dentro del
intervalo de observaciones en el conjunto.-
Generalmente el primer dgito forma el tallo y el resto las
hojas.- Veamos un ejemplo sencillo.-
Suponga que las calificaciones en un parcial de BIOESTADSTICA
de 40 alumnos fueron las siguientes:

42 46 87 34 81 2 1 9
64 87 69 75 73 3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 97 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5

74 65 87 69 57 8 7 1 7 1 2 6 7 1
9 7 1 0 4
68 66 90 82 94
2 1 9
3 4 7
4 2 6 7 9
5 5 7 9
6 9 4 0 9 5 7 9 8 6 8
7 5 7 3 4 0 4 5
8 7 1 7 1 2 6 7 1
9 7 1 0 4
ACTIVIDAD 11

En la siguiente tabla se presentan los datos obtenidos al observar


varios caracteres en cincuenta estudiantes elegidos al azar del total
de alumnos del rea de salud que llevaron a cabo el plan de
vacunacin completa para Hepatitis B.- Para cada alumno se
registraron, la edad, el sexo, la carrera y titulo de anticuerpo
antiantgeno de superficie en UI/I.-

Alumnos Edad sexo Carrera Tit. De Ac.


1 23 F B 175
2 23 M M 221
3 22 M M 215
4 22 M M 164
5 22 F M 250
6 24 M M 152
7 24 F M 132
8 23 F O 204
9 22 M E 167
10 23 F B 118
11 23 F B 112
12 23 M M 187
13 23 M M 178
14 25 M M 116
15 24 F M 145
16 25 F B 183
17 23 F M 163
18 22 F M 151
19 24 M B 171
20 22 M B 198
21 22 M B 205
22 23 F M 168
23 23 M M 193
24 23 M M 180
25 23 M M 230
26 21 F B 172
27 25 F B 146
28 24 F B 152
29 22 F M 202
30 28 F B 190
31 23 F M 196
32 24 F O 174
33 28 F B 188
34 24 F M 152
35 25 F O 120
36 27 F B 189
37 29 M O 243
38 29 F O 219
39 25 F O 170
40 26 F O 178
41 30 F E 160
42 26 F M 197
43 24 M B 148
44 25 F B 131
45 24 F B 92
46 24 M E 203
47 25 M M 120
48 26 F B 221
49 24 F M 235
50 28 F E 166

NOTA: B- BIOQUIMICA, E- ENFERMERIA, M- MEDICINA, O- ODONTOLOGIA


a) Cual es la unidad de anlisis.- Cual las variables a
estudiar, y cual el conjunto de datos.-
b) Presente los datos de sexo en un grfico de sectores.-
c) Presente en un grfico de sectores las carreras.-
d) Presente en un diagrama de puntos los ttulos de
anticuerpos.-
e) Presente en un diagrama de tallo y hoja los ttulos de
anticuerpos.-
f) Elabore una distribucin de frecuencia con los ttulos
de anticuerpos y analice.-
g) Elabore y explique los grficos correspondientes de
esta distribucin de frecuencia.-
ACTIVIDAD 12

Se han tomado datos sobre el tamao de las clulas (en m) de 50


linfocitos y de 50 clulas tumorales obtenidas a partir de la biopsia
del tejido de pacientes con melanoma.-
LINFOCITOS
9.0 9.4 4.7 4.8 8.9 4.9 8.4 5.9 6.3 5.7
5.0 3.5 7.8 10.4 8.0 8.0 8.6 7.0 6.8 7.1
5.7 7.6 6.2 7.1 7.4 8.7 4.9 7.4 6.4 7.1
6.3 8.8 8.8 5.2 7.1 5.3 4.7 8.4 6.4 8.3
7.5 8.2 7.4 5.9 8.0 5.0 4.8 7.5 6.5 7.0

CELULAS TUMORALES
12.6 19.4 18.9 15.2 16.2 15.9 20.0 15.1 16.3 21.5
23.9 15.8 13.9 18.2 16.4 14.6 16.7 18.7 17.7 20.7
16.1 16.9 17.7 22.1 23.3 16.0 17.8 16.4 18.1 13.9
17.1 17.9 18.3 22.8 24.3 20.0 13.4 22.8 19.4 11.2
21.0 19.1 13.0 19.6 19.5 19.1 16.6 17.9 18.4 18.6
ACTIVIDAD 13

Se pidi a los alumnos de un curso sobre Los Fundamentos de la


Bioqumica, de la UNLAR, llenar un cuestionario de evaluacin del
curso al final del mismo.- Consiste en una diversidad de preguntas
cuyas respuestas se clasifican en cinco categora.- Una de las
preguntas es, En comparacin con otros cursos que ha estudiado,
cual es la calidad general de ste?-
Mala Regular Buena Muy Buena Excelente
En una muestra de 60 alumnos que terminaron el curso mencionado
se obtuvieron las siguientes respuestas.- Para facilitar el
procesamiento del cuestionario en computadora se us una escala
numrica en la que:
1 = Mala 2 = Regular 3 = Buena
4 = Muy Buena 5 = Excelente
Los datos fueron:
3 4 4 5 1 5 3 4 5 2
4 5 3 4 4 4 5 5 4 1
4 5 4 2 5 4 2 4 4 4
5 5 3 4 5 5 2 4 3 4
5 4 3 5 4 4 3 5 4 5
4 3 5 3 4 4 3 5 3 3

a) Comente de que tipo son estos datos.-


b) Cual es el nivel de medicin.-
c) Agrupe la informacin.-
d) Explique la informacin.-
e) Comente y realice un grfico para esta informacin.-
ACTIVIDAD 14

La contribucin de las enfermedades crnicas e infecciosas a la


mortalidad general en los EEUU ha ido cambiando a travs de los
aos.- En 1900 alrededor del 40% de las muertes fueron debidas a
enfermedades infecciosas, el 19% a tres enfermedades crnicas (
cardiopatas isqumica, accidentes cerebrovasculares y cncer), un
4% a accidentes y el resto a todas las dems causas.- A principio de
los aos 70, solo el 15% de todas las enfermedades se debieron a
enfermedades infecciosas, el 59% fueron a consecuencia de las
mismas tres enfermedades crnicas mencionadas, un 14% fueron
muertes por accidentes y un 12% por las dems causas.-
a) Realice un diagrama de sectores para cada ao.- Comente.-
b) Para comparar las distribuciones de las causas de muerte, realice
un grfico de barras subdivididas.- Comente.-
c) Para comparar las distribuciones de las causas de muerte, realice
un grfico de barras compuestas.- Comente.-
ACTIVIDAD 15

Realice un diagrama de tallo y hoja en el ejemplo siguiente y


comente sobre la forma de la distribucin.- De conclusiones.-

Se han tomado datos sobre el tiempo que demoraron


Tcnicos de Laboratorio en realizar una tarea (en
minutos).- La cantidad de anlisis fueron 60 .-

19,0 9,0 19,1 12,6 14,8 10,2 12,7 13,1 11,7 11,4
18,5 9,2 18,0 11,2 10,6 13,7 11,8 12,4 16,4 10,8
19,7 9,7 17,8 11,7 15,2 17,8 14,6 10,9 11,9 12,2
20,0 9,9 16,7 16,8 18,7 15,3 17,7 11,4 13,7 12,1
17,1 9,9 16,5 12,5 11,9 12,4 13,3 10,6 11,6 10,6
17,3 20,3 14,3 10,5 11,7 11,7 11,5 12,9 10,8 16,6
ACTIVIDAD 16

Un Profesional del Departamento de Orientacin


Vocacional tomo los tiempos que demoraron en minutos
en responder un Test de Raven con diferentes figuras,
una muestra de 50 alumnos de Farmacia .- El objetivo del
Test es medir CI de cada alumno.- Los datos que se
obtuvieron de la variable en estudio fueron:

19,2 16,1 16,0 19,4 12,0 16,1 17,2 13,7 18,3 15,5

18,2 15,0 17,2 15,2 18,5 14,6 12,3 11,5 19,4 11,4

19,0 13,1 17,3 15,3 15,8 10,1 12,9 18,6 12,6 16,6

14,2 18,5 13,8 18,5 19,5 14,8 16,8 10,3 18,3 13,7

18,3 13,9 18,1 17,0 18,4 13,8 12,9 14,6 17,7 15,5
ACTIVIDAD 17

Se registra en la tabla siguiente los tiempos de


reaccin a un cierto medicamento que fue
suministrado a 50 pacientes de un cierto
hospital, que registra la misma patologa en
tratamiento.- Realice un anlisis estadstico
elemental.-
21,4 17,2 19,8 18,5 16,0 19,4 21,1 15,5 19,7 18,8
19,3 20,5 16,3 21,4 19,3 17,5 18,0 20,6 18,5 16,3
18,0 18,1 20,9 17,7 18,1 20,3 16,9 15,8 19,5 16,5
20,0 19,7 17,8 22,5 18,3 17,7 18,4 17,8 20,9 19,8
17,2 19,2 18,0 18,7 18,8 18,9 17,2 17,9 16,7 18,8
MEDIDAS
DESCRIPTIVAS
LAS MEDIDAS DESCRIPTIVAS ESTADISTICAS QUE
CARACTERIZAN A UNA MUESTRA O A UNA
POBLACION SON:

MEDIDAS DE
TENDENCIA MEDIDAS DE
CENTRAL ORDEN

MEDIDAS DE MEDIDAS DE
DISPERSION O DE FORMA
VARIABILIDAD
MEDIDAS
DE
TENDENCIA
CENTRAL
MEDIA
ARITMETICA

MEDIDAS DE
VEREMOS: MEDIANA
TENDENCIA
CENTRAL

MODO
MEDIA ARITMETICA O MEDIA

Me indica el valor promedio de los datos.-


Se calcula solamente para variables numricas.-

Se simboliza con la letra del abecedario espaol


que hayamos llamado a la variable en estudio,
en nuestro caso: x

Es el resultado de sumar todos los valores del


conjunto de datos y dividir esa suma por el total
de dato, n si es una muestra, N si se trata de la
poblacin.-
Si estamos trabajando con una muestra aleatoria de la
poblacin en estudio estamos calculando un
ESTADISTICO, que ser:

xi
x =
n

Si estamos trabajando con la poblacin y nos piden la


media, calculamos un PARAMETRO, por ejemplo:

xi
=
N
Si tenemos una Farmacia Sindical con seis empleados, cuyos
sueldos mensuales son 1800, 1760, 1780, 2100, 1980, 2350 y
queremos observar el sueldo promedio ser:

xi 1800 + 1760 + 1780 + 2100 + 1980 + 2350


= = = 1961,7 $
N 6

El sueldo mensual promedio de los empleados es de 1962 $.-

Cuando tenemos datos agrupados en una


distribucin de frecuencia, como nos aparece
la frecuencia absoluta, (cantidad de veces que
se repite el dato), a ella la tenemos que hacer
participar en la formula del calculo del
promedio y entonces ser:
La frmula es la misma para ambos casos.- La
diferencia va estar dada en el valor de la
variable xi.- En la distribucin sin intervalos
esta ser los valores originales de la variable,
en cambio en datos agrupados con intervalos,
los valores de la variable sern los puntos
medios de los intervalos, (Marca de
Clase).-

xi fi
x =
n
Veamos un ejemplo.-
Supongamos que tenemos los tiempos en minutos que demoran una
muestra de 50 empleados en realizar una determinada tarea.-
Presentamos los datos ordenados en una distribucin de frecuencia,
Li Ls fi xi xi * fi
20 22 3 21 63
XI * fi
X = =
22 24 5 23 115
n
24 26 12 25 300
1324
26 28 17 27 459
= = 26,48
28 30 8 29 232
50
30 32 5 31 155
26 minutos
TOTAL 50 - 1324

El promedio que demora los empleados en realizar la tarea es de 26


minutos.-
Hemos visto como la media aritmtica me reduce
la totalidad del conjunto de los datos en un
nico valor, que es el tiempo promedio que
demoran los empleados en realizar una tarea,
26 minutos.-

Por otro lado, Por qu hemos tomado los


Puntos Medios o Marca de Clase como valores
de mi variable en estudio?
Como en una distribucin de frecuencia con
intervalos hemos perdido la individualidad de
los datos, es decir en nuestro ejemplo,
sabemos que tenemos 17 empleados que
demoran en hacer la tarea entre 26 y 28
minutos.-
Pero no sabemos cuales son los tiempos de
demora en hacer la tarea, de cada uno de esos
17 empleados, por lo tanto se sostiene que la
Marca de Clase o Punto Medio del intervalo, es
el valor que mejor me los representa en
conjunto dentro de cada intervalo de clase.- Es
decir, que sostenemos por ejemplo, como que
los 17 empleados han demorado cada uno de
ellos 27 minutos en realizar la tarea.-
Observamos entonces, que el valor promedio
que calculamos es un valor aproximado
que nos dar una pequea diferencia al
calculado con los valores reales de cada uno
de nuestros datos.-
PRINCIPALES PROPIEDADES DE LA MEDIA

La media aritmtica tiene ciertas propiedades que es


importante conocer para utilizarla correctamente como
resumen de un conjunto de datos, o bien para resolver
algunos problemas que pueden surgir en su aplicacin
prctica.-

Primera propiedad:
Esta definida en la misma unidad de medida que la
variable en estudio.-
Si estamos estudiando sueldos en $, la media me dar
un valor tambin en pesos.-
Por ejemplo, el sueldo promedio es 1800$.-
Segunda propiedad:
Siguiendo con la variable en estudio sueldos en pesos,
la media me dar un valor promedio que estar incluida
dentro del recorrido de la variable, por ejemplo: si los
sueldos en estudio varan entre un monto de 800 a
2500$, la media me deber dar un valor comprendido
dentro de ese recorrido de la variable.- No me puede
dar un valor menor a 800$ ni tampoco un valor superior
a 2500$.-

Tercera propiedad:
xi
Si dos trminos de la expresin x = n son
conocidos, se puede determinar el tercero de ellos
mediante un simple pasaje de trminos.-
Cuando se conoce x y n, la suma de la variable se podr
determinar haciendo el producto de n * x.-
Esta propiedad matemtica nos permitira saber, por
ejemplo, que si estamos estudiando viviendas de 30
barrios, el total de viviendas de los 30 barrios es de 16500
viviendas, ya que cada uno de ellos tiene una media de
550 viviendas.- Esto es as porque:
xi = 30 * 550 = 16500

Cuarta propiedad:
El promedio es una medida calculada a partir de todos y
cada uno de los datos de una serie, en consecuencia
resume apropiadamente la informacin del conjunto.- Sin
embargo, por esta propiedad, en ciertas situaciones de
trabajo puede perder eficacia como representativa del
conjunto de datos.-
Cuando en la serie de observaciones existen valores
extremos o atpicos, estos influirn en el valor de la x,
pudiendo llegar a distorsionarlo de tal modo que no
represente al comn de los datos del conjunto.- Veamos
el siguiente ejemplo:
Si tenemos las siguientes edades 14 18 26 30 34 su
media es igual a 24,4 aos.- En cambio, si el conjunto de
datos fuera 14 18 26 30 75 su media sera igual
a 37,5 aos.- El valor atpico de 75 afecta a la media
alejndola de la tendencia central del conjunto resultando
esta en un valor muy diferente al de los datos normales
de la serie.- Evidentemente la media x = 38 aos no es
muy representativa de nuestros datos y el valor atpico
desplaza a la media a un valor cercano a el.-
Resumiendo; en un conjunto de datos en el cual los
valores atpicos tienen un peso significativo (difieren
mucho de los valores regulares), el promedio aritmtico
por ser una medida que intervienen todos los datos, debe
ser analizada con cuidado.- Esto es as porque, (como en
el ejemplo anterior) puede resultar fuertemente
desplazado de la tendencia central e inducir a
interpretaciones errneas acerca del conjunto de datos
que resume.-

Importante:
La presencia de valores extremos en una distribucin se
manifiesta por formas (histogramas y polgono de
frecuencias) marcadamente asimtricas.- De ah la
importancia de realizar una cuidadosa exploracin previa
(grfica y numrica) de los datos.-
Quinta propiedad:
Se denomina desvo o residual de un dato cualquiera de
la serie con respecto a la media aritmtica de todo el
conjunto, a la diferencia entre el valor de ese dato y el
valor de la media.-
Por ejemplo, supongamos que tenemos las edades de 9
individuos; calculamos su edad promedio y nos da x =
32 aos:
Datos di = xi - 32
18 -14
20 -12
25 -7
30 -2
32 0
36 4
40 8
40 8
47 15
Los residuos de un conjunto de datos, con respecto a su
media, tienen la propiedad de que la suma de todos los
desvos o residuales es siempre igual a cero.- Es decir:

(xi - x) = di = 0

Sexta propiedad:
En ciertas ocasiones de trabajo disponemos de dos o
ms promedios aritmticos, que resumen a diferentes
conjuntos de datos de una misma variable.-
Por ejemplo; por datos recogidos se sabe que el salario
mensual promedio de n1 = 200 agentes de la
administracin pblica varones es x1 = $1560,30,
mientras que el salario promedio de n2 = 120 empleadas
mujeres es de x2 = $1480,25.-
En estas condiciones podra resultar til conocer el
promedio que resume a los salarios de todos los agentes
pblicos, considerados como un solo conjunto de
observaciones ( n = 200 + 120 = 320).-
La media de medias o media ponderada es la medida que
resuelve situaciones como la planteada:

n1 x1 + n2 x2
n1 + n2

En consecuencia, el salario promedio de todos los


empleados de la administracin pblica es de:

200 * 1560,30 + 120 * 1480,25


xp = = $1530.28
200 + 120
Ejemplo de media ponderada.-
Supongamos que se desea calcular la Nota promedio de los
alumnos de Bioestadstica en el 1 Parcial, de los ltimos cinco
aos.- En la tabla siguiente se muestra cada ao con su
promedio y cantidad de alumnos.-

Ao Nota Cantidad
Promedio De alumnos Xi * Wi
2000 65,0 54 3510
2001 72,0 70 5040
2002 58,0 48 2784
2003 76,0 75 5700
2004 65,0 60 3900
TOTAL 336 307 20934
Se puede calcular la media simple de los cincos cursos que sera:
X = 336 / 5 = 67,2 puntos.-
Sin embargo, probablemente este no sea un buen estimado del
promedio de los cinco cursos ya que en cada uno hubo diferente
cantidad de alumnos y adems sabemos que la predisposicin de los
alumnos son diferentes cada ao.- Por lo tanto el calculo ms
apropiado sea el de la media ponderada:

xi Wi 20934
Xp = ---------------- = -------------- = 68,2 puntos.-
Wi 307

La media ponderada es mayor que la media simple


porque le estamos dando participacin a la cantidad de
alumnos que tuvo cada curso, que evidentemente fueron
distintos.-
MEDIANA.-
Se la simboliza con Me .-
La mediana me divide mis observaciones en dos partes iguales.-
La mediana es aquel valor de la variable que un 50% de los datos
es menor a ella.-

N IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
N PAR DE DATOS

Lo primero que debemos hacer es


ordenar los datos en forma
crecientes.-
a1) N IMPAR DE DATOS.-
Supongamos tener los tiempos que un empleado durante 15 das
tiene que esperar el mnibus para llegar al trabajo.- Estos son:
10 10 10 12 13 14 14 15 15 15 17 18 18 18 20

M = (n + 1) / 2 = 16 / 2 = 8 posicin
Me = 15 minutos
a2) N PAR DE DATOS.-
En el ejemplo anterior supongamos tener datos durante 16 das.-
10 10 11 11 11 12 14 15 18 18 19 20 20 25 25 25

M = (n + 1) / 2 = 17 / 2 = 8,5 posicin
15 + 18
Me = ---------------- = 11,5 minutos
2
b1) MEDIANA PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos tener la cantidad de anlisis complicado por mes
que realiza cierto laboratorio.- Se registraron datos
correspondientes a 60 meses.-
xi fi Fi Fi%
0 10 10 16,7
Buscamos la menor Fi % que
1 12 22 36,7
me contiene al 50 %.-
2 16 38 63,3
Observamos ahora que valor
3 8 46 76,7
de variable le corresponde:
4 7 53 88,3
5 5 58 96,7
6 2 60 100,0
Me = 2 anlisis complicado

Total 60 ----- -----


b2) MEDIANA PARA DATOS AGRUPADOS EN INTERVALOS.-

Supongamos tener las notas de un parcial del Bioestadstica de una


muestra de 50 alumnos.- Los datos agrupados en una tabla de
frecuencia con intervalo fueron:
n
Li Ls fi Fi Fi % Fi -1
Me Li
2 * ci
36 44 2 2 4,0 f i

44 52 12 14 28,0
25 - 14
52 60 15 29 58,0
Me = 52 + ---------------- * 8 =
60 68 18 47 94,0
15
68 76 3 50 100,0 Me = 57,87 58 puntos.-
Total 50 ----- ------
CALCULO GRFICO DE LA MEDIANA

Si tenemos una distribucin de frecuencias con


intervalos podemos calcular grficamente la mediana
usando la distribucin de frecuencia acumulada
porcentual u ojiva, de la siguiente manera:

Fi %
100.0

Valor de la
variable
50.0
que es la Me

xi
MODO

Se lo simboliza con Mo.- Es el valor de la variable que ms veces


se repite.-
Es la nica medida descriptiva que podemos calcular en una
variable cuya medicin esta en escala nominal.-

MODO PARA DATOS SIN AGRUPAR


Por ejemplo si tenemos los montos de ingresos de un grupo de
empleados administrativos de un laboratorio.-

250 275 256 282 275 280 296 310 275 342 - 275
Observamos el valor de variable que ms veces se da:
M o = 275 $
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 viviendas de un
barrio, se les pregunto la cantidad de nios en edad escolar que
hay en cada una de ellas.- Resulto la siguiente tabla:

xi fi

2 5 Observamos la mayor frecuencia


absoluta.- El valor de variable que le
3 12 corresponde es el modo.-

4 18

5 9 Mo = 4 nios en edad escolar

6 6

TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra de 72 notas de un parcial
de Estadstica que se les tomo a un curso integrado por 200
alumnos.- Estas fueron las siguientes:

Li Ls fi d1
*c
36 46 4 Mo Li i
d1 d 2
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7 5 + 12
TOTAL 72 = 68,94 69 puntos.-
CALCULO GRAFICO DEL MODO

Histograma de C1
25

20

15
Frecuencia

10

0
80 120 160 200 240
C1

VALOR DEL MODO


Puede ocurrir que en un conjunto de datos nos
encontremos con dos o ms valores que renen
la misma frecuencia absoluta, en ese caso
estamos en distribuciones bimodales, lo mismo
si nos encontramos con tres frecuencias
absolutas iguales mximas y estamos en
distribuciones multimodales.- Como en estos
casos es imposible determinar un valor mximo,
es decir el Modo, decimos que no tenemos
Modo.-

Por otro lado habamos dicho que el Modo era la


nica medida descriptiva de Tendencia Central
que podamos calcular cuando tenemos
variables categricas.- Por ejemplo:
Supongamos que en determinado barrio
seleccionamos una muestra aleatoria de Jefes
de Hogares y les preguntamos tipo de trabajo.-
Resulta la siguiente tabla:

Tipo de Trabajo Total


Administracin Pblica Provincial 80
Administracin Pblica Nacional 21
Industria 16
Comercio 24
Jubilados 4
Desocupados 10
Total 155
MODO
USO DE LAS DISTINTAS MEDIDAS DE TENDENCIA
CENTRAL

Cuando se tiene datos de escalas intervalares o


proporcionales, en general se utiliza la media porque,
es una medida que atiende en forma exhaustiva toda
la informacin disponible: los valores, las distancias y
proporcionalidad entre ellos y la frecuencia de cada
uno.

Hemos visto que el modo solo atiende a las frecuencias


y la mediana solo utiliza el orden expresado por los
valores numricos y no atiende el valor de las
observaciones extremas.
La media tiene importantes propiedades matemticas, lo
que no la mediana y el modo, y esto se ir
observando a medida que avancemos en el estudio de
la estadstica.

El modo en escala intervalar, se utiliza para una


primera estimacin rpida de la tendencia central,
puesto que se determina fcilmente, sin necesidad de
clculo alguno, con solo observar la tabla de
distribucin de frecuencia.

El modo interviene en l clculo de algunas medidas de


asimetra.-
La mediana en escalas intervalares es recomendada
cuando en un conjunto de dato, existen uno o unos
pocos datos extremos que son incomparables con el
resto de los datos.

La mediana no se ve afectada por los valores


extremos, mientras que la media es muy sensible a
estos valores y por lo tanto en estos casos la mediana
es el valor que mejor me representa los datos.-

Las medidas de tendencia central como ya hemos


dicho, son ndices que permiten resumir un conjunto de
datos en una sola expresin, de modo que se pueda
apreciar mejor el significado de los datos.
Las medidas de tendencia central como cualquier
estadstica, cobran sentido cuando las empleamos para
hacer comparaciones u otras operaciones.

Cuando se tiene una distribucin de frecuencias con


intervalos abiertos, no puede calcularse la media y en
estos casos se elige como mejor medida la mediana ya
que en su clculo solo participa el intervalo mediano.

Cuando la forma de la distribucin de frecuencia es


asimtrica ya sea a izquierda o derecha, la mejor medida
de tendencia central es la mediana ya que se encuentra
entre las otras dos, media y modo.-
Si es simtrica, como las tres medidas son iguales, se
puede elegir cualquiera y en esos casos se prefiere la
media, dependiendo esto del tipo de investigacin que
se haya planificado.-

Mucho se podra seguir profundizando sobre estas


medidas y los procedimientos para su clculo, pero se
considera que hoy en da no tiene mucho sentido.

Hoy hay sistemas de computacin estndar preparados


para el anlisis estadstico de datos y es muy
importante que el alumno vaya tratando de conocerlas y
usarlas.-
MEDIDAS
DE
ORDEN
CUARTILES

Se lo simboliza con Qr., donde con r


indicamos el orden del cuartil que queremos
calcular.-
Los cuartiles dividen mi distribucin de datos
u observaciones en cuatro partes iguales o sea
que tenemos tres cuartiles el cuartil de orden
1, de orden 2 y el de orden 3, y en cada uno se
encuentra el 25 % del total de casos
observados.
Entonces si tenemos una recta imaginaria
donde se ubican el 100% de mis datos:
Q1 Q2 Q3

25% de los datos son


al valor del Q1 y el 75%
restantes mayores a el

50% de los datos son al


valor del Q2 y el 50%
restantes mayores a el

75% de los datos son al


valor del Q3 y el 25%
restantes mayores a el
Cuando tengo que calcular cuartiles, para pocos
datos , generalmente no ms de 20 datos, lo
primero que tenemos que hacer es ordenar los datos en
forma creciente.- Calculamos ahora la posicin de valor
que ser el cuartil buscado, haciendo:

(n + 1) * r
Qr =
4

El calculo de la posicin me puede dar las


siguiente situaciones:
Si me da un valor entero, el cuartil
buscado ser el valor de variable que
ocupe ese lugar.-

Si me da un valor decimal en 5, el
cuartil buscado ser el promedio entre
el dato posicin del entero y el
siguiente.-

Si me da un valor ni entero, ni decimal


en 5, el cuartil buscado ser el dato
que ocupe la posicin siguiente al
valor entero.-
Veamos un ejemplo.-
Supongamos tener las edades de una muestra de profesionales
Bioqumicos de cierta ciudad.- Estos resultaron ser:
22-58-24-50-29-52-57-31-30-41-44-40-46-29-31-37-32-44-49-29
Ordenamos en forma creciente los datos:
22 24 29 29 -29 30 -31 31 32 37 40 41 - 44 44
46 49 50 52 57 - 58

Q1 = 5,25 posicin Q1 = 30 aos

El 25 % de los Bioqumicos tienen menos de 30 aos.-

Q3 = 15,75 posicin Q3 = 49 aos

El 75 % de los Bioqumicos tienen menos de 49 aos.-


CUARTILES PARA DATOS AGRUPADOS SIN INTERVALOS.-

Supongamos que a una muestra de pacientes de cierto laboratorio


se les pregunto la cantidad de hijos que tienen.- Resulto la
siguiente distribucin:

xi fi Fi Fi% El cuartil 3 nos implica el


0 4 4 6,7 75%, por lo tanto buscamos
el menor porcentaje que lo
I 9 13 21,7 cubre, y observamos el
valor de variable que le
2 12 25 41,7 corresponde, entonces:
3 18 43 71,7
Q3 = 4 hijos.-
4 10 53 88,3
El 75% de los pacientes
5 7 60 100,0 tienen menos de 4 hijos.-
Total 60 ------ ------
CUARTILES PARA DATOS AGRUPADOS EN INTERVALOS.-
Supongamos tener los tiempos en minutos que demoran los
empleados de un laboratorio en realizar una tarea.- Los valores
fueron:

n *r
Li Ls fi Fi Fi% Fi-1
Q r Li 4 * ci
12 16 3 3 5,8 fi

16 20 7 10 19,2

20 24 12 22 42,3 13 - 10

24 28 15 37 71,2 Q1 = 20 + ----------------- 4 =
12
28 32 10 47 90,4
32 36 5 52 100,0
= 21 minutos
TOTAL 52 ------ -----
El 25% de los empleados
demoran menos de 21
minutos en realizar la tarea.-
PERCENTILES

Se simbolizan P r % .- Los percentiles me dividen las


observaciones en cien partes iguales.-
Cuando tenemos pocos datos, generalmente menos de 20,
ordenamos las observaciones en forma creciente y
calculamos la posicin del valor observado que va a ser
el percentil buscado.-

(n + 1) * r %
Pr% =
100

El calculo de la posicin me puede dar las


siguiente situaciones:
Si me da un valor entero, el percentil
buscado ser el valor de variable que ocupe
ese lugar.-

Si me da un valor decimal en 5, el percentil


buscado ser el promedio entre el dato
posicin del entero y el siguiente.-

Si me da un valor ni entero, ni decimal en 5,


el percentil buscado ser el dato que ocupe
la posicin siguiente al valor entero.-
Veamos un ejemplo:
Supongamos tener una muestra de 15 alumnos de la UNLAR a
los cuales se les pregunto la cantidad de materias
aprobadas.- Los datos fueron ya ordenados:
El 62% de los alumnos tienen 8 materias o menos aprobadas.-

3 5 5 5 6 7 7 7

7 8 8 8 10 13 15 ------

P 62% = 9,92 posicin P 62% = 8 materias

El 62% de los alumnos tienen 8 materias o


menos aprobadas.-
PERCENTILES PARA DATOS AGRUPADOS SIN INTERVALOS.-

Supongamos que a una muestra de empleados de cierto


laboratorio de una empresa se les pregunto la cantidad de hijos
que tienen.- Resulto la siguiente distribucin:

xi fi Fi Fi% El PERCENTIL 82%, nos


0 4 4 6,7 implica el 82%, por lo tanto
buscamos el menor
I 9 13 21,7 porcentaje que lo cubre, y
observamos el valor de
2 12 25 41,7 variable que le corresponde,
3 18 43 71,7 entonces:

4 10 53 88,3 P82% = 4 hijos.-


5 7 60 100,0 El 82% de los empleados
tienen menos de 4 hijos.-
Total 60 ------ ------
PERCENTILES PARA DATOS AGRUPADOS CON INTERVALOS

Supongamos tener los tiempos en minutos que demoran los


empleados del laboratorio de una empresa en realizar una tarea.-
Los valores fueron:

n *r
Fi -1
Li Ls fi Fi Fi% P 70% Li 100
* ci
fi
12 16 3 3 5,8
16 20 7 10 19,2 36,4 - 22
20 24 12 22 42,3
P70% = 24 + ----------------- 4 =
24 28 15 37 71,2
15
28 32 10 47 90,4 = 27,84 28 minutos
32 36 5 52 100,0 El 70% de los empleados
demoran menos de 28
TOTAL 52 ------ -----
minutos en realizar la tarea.-
RANGO DEL PERCENTIL.-

Nos encontramos con muchas situaciones en las que tenemos


una serie de datos ordenados en un tabla de frecuencia y nos
preguntan que porcentaje de datos estn por debajo de un
determinado valor de variable, y esto es lo que nos dice el Rango
del Percentil.- Veamos esto en el ejemplo anterior.-

Calculamos el Rango mediante la siguiente formula:

Fi-1 + ( xi - Li) fi/ci

Rp(xi) = -------------------------------------- x 100


n
Supongamos tener los tiempos en minutos que demoran los
empleados del laboratorio de una empresa en realizar una tarea.-
Los valores fueron:

Calculamos el Rango mediante la


Li Ls fi Fi Fi % siguiente formula:

12 16 3 3 5,8 Fi -1 + ( xi - Li) fi /ci


16 20 7 10 19,2
Rp(22) = ------------------------------ 100
20 24 12 22 42,3
n
24 28 15 37 71,2
28 32 10 47 90,4 10 + 6

32 36 5 52 100,0 = --------------- 100 = 30,77


52
TOTAL 52 ----- -----
- 31 %

El 31% de los empleados demoran en realizar la tarea menos de 22


minutos.-
CALCULO GRFICO DE LOS CUARTILES Y
PERCENTILES

Si tenemos una distribucin de frecuencias con


intervalos podemos calcular grficamente los cuartiles y
percentiles usando la distribucin de frecuencia
acumulada porcentual u ojiva, de la siguiente manera:
Fi %
100.0

75.0 Valor de la
variable
50.0 que es el
Q3
25.0
Valor de la
xi variable
que es el
Q2
Valor de la variable que el Q1
MEDIDAS
DE
DISPERSION
Podemos preguntarnos Por qu estudiar la
dispersin?.- Un promedio como la media o la mediana
solamente localiza el centro de los datos y esto es
importante desde ese punto de vista, pero un promedio
no dice nada acerca de la diseminacin de los datos.-

Por ejemplo si un persona le informa que un ro tiene en


promedio una profundidad de 0,90 centmetros, lo
cruzara usted sin informacin adicional? Probablemente
no.- Deseara saber algo ms sobre la variacin de la
profundidad de la profundidad y luego tomar una
decisin de cruzar o no.- Es decir, que antes de decidir
respecto a cruzar o no el ro, se requiere informacin
adicional acerca de la profundidad tpica y la variacin
en la profundidad del mismo.-
Un valor pequeo para una medida de
dispersin indica que los datos se encuentran
acumulados cercanamente, por ejemplo
alrededor de la media.- por lo tanto la media se
considera bastante representativa de los datos.-
Por lo contrario, , una medida de dispersin
grande indica que la media no es confiable, es
decir, que no es representativa de los datos.-
Una segunda razn para estudiar la dispersin
en un conjunto de datos es poder comparar
cun dispersa estn dos o ms distribuciones.-
Dos distribuciones pueden tener iguales
medidas de tendencia central y sin embargo
mostrar grados de dispersin diferentes.
0,36

0,27

frecuencia relativa
0,18

0,09

0,00

0,36

0,27
frecuencia relativa

0,18

0,09

0,00

Media
RANGO O RECORRIDO DE LA VARIABLE.-

Se simboliza Rx .- Se la calcula haciendo la diferencia entre el


mximo valor de la variable y el mnimo que toma.-
Como medida de dispersin se la toma poco en cuenta ya que
nada me dice de los valores intermedio de la variable.-
Un uso importante del Rango lo encontramos cuando vemos la
Estadstica Descriptiva en el Control de Calidad de procesos.-

RANGO INTERCUARTILICO

Se simboliza con Rint.-

RIC = Q3 - Q1
Esta medida considera la dispersin de la mitad (parte central)
de los datos; por lo tanto, los valores extremos no influyen en
ella,.
VARIANCIA O VARIANZA.-

Aunque el rango es una medida de la dispersin total y el rango


intercuartlico es una medida de la dispersin media, ninguna de
estas medidas de variacin toman en cuenta como se distribuyen o
agrupan las observaciones.- Por lo tanto se pens en una medida
estadstica que me tuviera en cuenta todos los datos y esa medida
es la VARIANCIA.-
Simbolizamos a la variancia:

Sx si trabajamos con la muestra


si trabajamos con la poblacin
Como no conocemos la poblacin vamos a calcular la variancia de la
muestra.-

A igual que las otras medidas descriptivas las podemos


calcular para datos sin agrupar, par datos agrupados sin
y con intervalos.-
VARIANCIA DE LA MUESTRA.-
La variancia de la muestra es la suma de los cuadrados de las
diferencias con relacin a la media aritmtica dividida entre el
tamao de la muestra menos uno.-

( xi - x)
Sx = ------------------------
n - 1
Si el denominador fuera n en lugar de (n 1), se obtendra el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n 1) debido a ciertas propiedades
matemticas deseadas que tiene el estadstico S, lo cual lo hacen
muy apropiadas para hacer inferencias estadsticas.- A medida
que se aumenta el tamao de la muestra, la diferencia entre n y (n
1) disminuye cada vez ms.-
La variancia como esta definida como un valor cuadrado nunca
puede ser negativa.-
No tiene explicacin por estar definida como un valor cuadrado y nos
da un resultado con unidad de medida al cuadrado.- Por ejemplo, si
estamos trabajando dato en $, la variancia nos va dar un resultado en
$, si trabajamos empleados nos dar empleados al cuadrado, etc.-
Ser igual a cero cuando no exista diferencia entre ella y los datos.-

Como su calculo es bastante complicado, surge la llamada Formula


de Calculo de la Variancia, que abrevia mucho el calculo de la
misma.-

x - n x
Sx = para datos sin agrupar

n - 1
x fi - n x
Sx = para datos agrupados
n - 1

Esta frmula ser para datos agrupados sin y con intervalos.- La


diferencia se da en el valor de las observaciones xi, ya que en
datos agrupados sin intervalo sern los datos originales, y en
datos agrupados con intervalos sern los puntos medios de los
intervalos.-
Como dijimos, la variancia me da un resultado en unidades de
medida de la variable al cuadrado, entonces aparece otra medida
que llamamos Desvo Estndar.-
DESVIACION ESTANDAR

La simbolizamos con sx en la muestra y con x en la poblacin.-


La desviacin estndar mide la dispersin promedio alrededor de
la media: como fluctan las observaciones mayores arriba de ella
y las observaciones menores debajo de ella.-
El desvo estndar es la verdadera medida de dispersin ya que
se expresa en las mismas unidades de medida que los datos
originales.-
Calculamos la desviacin estndar como:

sx = variancia

Observamos que la media y el desvo estndar ayudan a definir en


donde se agrupan la mayor parte de los datos.-
Veamos un ejemplo de calculo del Desvo Estndar.-
Supongamos que se ha tomado un Parcial de la ctedra de
Bioestadstica y se calific al mismo de 0 a 10.- Las notas fueron
resumidas en una tabla de frecuencia y son:

Notas fi xi Xi * fi xi Xi * fi

0 2 5 1 5 1 5

2 4 9 3 27 9 81

4 6 14 5 70 25 350

6 8 20 7 140 49 980

8 10 2 9 18 81 162

TOTAL 50 ------- 260 ----- 1578


XI * fi x fi - n x
Sx = ----------------------- =
X = ---------------- = n - 1
n
1578 - 1352
260 = ---------------------- =
= ----------- = 5,2 49

50 226
5 puntos = -------- = 4,61 ptos
49

sx = variancia = 4,61 ptos. = 2,15 puntos

En promedio cada nota se diferencia de la media en 2 puntos.-


USOS DEL DESVIO ESTANDAR.-

Un Desvo Estndar pequeo nos indica que los datos estn o se


encuentran localizados muy cerca de la media, caso inverso significa
que los datos estn muy lejos de su media.- Por supuesto ms chico
sea el DESVIO ESTANDAR mejor sern nuestros datos.-

El matemtico ruso Chebycheff (1821 1894) desarrollo un teorema


que permite determinar la proporcin mnima de valores que se
encuentran dentro de un nmero especfico de desviaciones
estndar con respecto a su media.-
Para este matemtico no importa la forma de la distribucin y dice:

Para un conjunto cualquiera de observaciones (muestra


o poblacin) la proporcin mnima de valores que se
encuentran dentro de k observaciones estndares
desde la media es al menos (1 - 1/k), donde k es una
constante mayor que uno.-
REGLA EMPIRICA.-
Esta regla se aplica solo a distribuciones que son simtricas, es
decir aquellas que las medidas de tendencia central son iguales, o
sea, la media, la mediana y el modo.-
Esta regla sostiene:

Que el 68,0% de los datos se encuentran entre la media ms


menos un desvo estndar.-
Que el 95,0% de los datos se encuentran entre la media ms
menos dos desvo estndar.-
Que el 99,0% de los datos se encuentran entre la media ms
menos 3 desvo estndar.-

En una clase prctica veremos aplicacin del uso del Desvo


Estndar.-
COEFICIENTE DE VARIACIN.-

A diferencia de las medidas que hemos estudiado hasta ahora, el


Coeficiente de Variacin es una indicacin relativa de la variacin.-
Siempre se expresa como porcentaje, y lo simbolizamos con CVx.-
El hecho de no tener unidad de medida hace que pueda usarse para
comparar distribuciones en diferentes unidades de medidas, y
poder decir de ellas cual es ms homognea en sus datos respecto
a la media.-
Se calcula como:

El coeficiente de variacin es igual a la desviacin estndar


dividida entre la media, multiplicada por 100 por ciento.-

Sx
CVx = * 100
X
Cuando comparamos dos distribuciones de datos en diferentes
unidades de medida, y queremos saber cual es ms homognea en
sus datos referentes a su media, no tenemos ms opcin que
comparar los CV, a menor CV ms homogneos son los datos.- Por
ejemplo, si tenemos una distribucin donde estudiamos sueldos de
la empresa y en la otra la antigedad en la empresa de esos mismos
empleados, y nos preguntamos en que son ms homogneos esos
empleados, en sueldos o en antigedad.-

Cuando comparamos dos distribuciones de datos en igual unidad


de medida podemos preguntarnos en cual distribucin son ms
homogneos los datos respecto a su media.- En este caso podemos
comparar los desvos estndar solo si las medias son iguales, y el
menor desvo estndar ms homogneos son los datos.-
Cuando las medias son diferentes no es objetivo comparar las
desviaciones, y en esos casos recurrimos a comparar los
Coeficientes de Variacin.- A menor CV ms homogneos son los
datos respecto a su media.-
MEDIDAS DE FORMA.-
Las medidas de forma hacen referencia a la forma de la
distribucin de datos.- Ya hemos comentado que pueden ser
simtricas o asimtrica o segadas.-

Para describir la forma, solamente se deben comparar


la media y la mediana.- Si ambas medidas son iguales,
por lo general se considera que los datos son
simtricos o con sesgo cero.- Por el contrario, si la
media excede a la mediana, los datos se describen
como sesgados a derecha o con sesgo positivo.- Si la
mediana excede a la media, los datos suelen llamarse
sesgados a izquierda o con sesgo negativo.-
Media > Mediana : sesgo positivo a la derecha
Media = Mediana; simetra o sesgo cero
Media < Mediana: sesgo negativo o a la izquierda.-
El sesgo positivo surge cuando la media aumenta debido a
algunos valores grandes y poco usuales; el sesgo negativo
ocurre cuando la media se reduce debido a algunos valores muy
pequeos.- Los datos son simtricos cuando en realidad no hay
valores extremos en ninguna direccin, de tal manera que los
valores grandes y pequeos se equilibra.-
COMO
MEDIR
LA
ASIMETRIA
Como sealramos oportunamente la silueta de la forma
de la distribucin (polgono de frecuencias) nos da una
idea acerca de la simetra del conjunto de datos.- As
tenamos que, en la situacin de simetra, cada mitad de
la curva es una imagen espejada de la otra mitad y la
recta que hace de espejo (eje de simetra) es la que pasa
por las medidas de tendencia central media, mediana y
modo, que coinciden en el mismo valor.-

Eje de
simetra

Variable

X = Me = Mo
A medida que la distribucin se hace ms asimtrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que ms se desplaza hacia la cola de la
distribucin.-

X Me Mo Mo Me X

X < Me < Mo X > Me > Mo


Vemos en los Grficos que, en el caso de una asimetra a
la izquierda, la media es menor que la mediana y esta a
su vez menor que el modo.- Inversamente en la asimetra
hacia la derecha, la media es mayor que la mediana y a
su vez esta mayor que el modo.-
Se puede ver adems que la mediana toma un valor
intermedio entre las otras dos medidas, ubicndose ms
prxima a la media.-
A medida que la asimetra crece en una u otra direccin,
tambin las distancias entre la media, mediana y modo
crecen.- En consecuencia, podemos usar estas
diferencias (X Mo o X - Me) como medidas de la
asimetra de una distribucin.- Adems, se puede ver
que si la asimetra es a la izquierda, (X Mo) dar un
valor negativo, en tanto que si la asimetra es a la
derecha dar un valor positivo.-
Para poder comparar asimetra de distribuciones de
variables medidas en distintas escalas o para valores
de distintas magnitudes, la solucin es construir
medidas relativas de asimetra.-

COEFICIENTE DE ASIMETRIA DE PEARSON.-


(CAP)

Una de las medidas de asimetra ms difundida es este


Coeficiente, que se calcula esa diferencia en trminos del
desvo estndar.-

X - Mo 3 . (X - Me)
CAP = o CAP =
s s
Comentarios
La magnitud absoluta del coeficiente indica la
cantidad de desvo estndar a los que se encuentra
la media del modo.-
Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresin anterior.-
Si el coeficiente es igual a cero, estamos en una
situacin de simetra perfecta.-
En situaciones de asimetra el coeficiente puede
tomar una asimetra a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
En trminos tericos, este Coeficiente puede tomar
valores que varan entre - 3 y +3.-
COMO
INTEGRAR
LAS
MEDIDA QUE
HEMOS
VISTO
Hasta aqu he presentado una serie de valores
caracterstico de una distribucin que nos
permite sealar diferentes aspectos del
conjunto de datos que se analiza.-
Cada una de estas medidas dirige nuestra
mirada hacia algn rasgo de inters de ese
conjunto de datos y ahora buscamos como
integrarlas de tal manera que podamos dar un
idea de imagen de la distribucin.-

CONSISTE EN UN RESUMEN DE
PRESENTAR: CINCO DATOS
En un resumen de cinco nmeros se emplean
los siguientes datos
1.- Valor mnimo.-
2.- Primer cuartil.-
3.- Mediana.-
4.- Tercer cuartil.-
5.- Valor mximo.-

Observe que estos cinco valores numricos dividen al


conjunto de datos en cuatro subconjuntos, con una
cuarta parte de los datos en cada subconjunto y es
posible observar cun dispersos estn los datos en
cada cuartos.-
Supongamos que seleccionamos una muestra
de Jefes de hogares de un determinado barrio
para y les preguntamos cual es el ingreso
total, los datos fueron:

2500 2750 3100 3270 3420 3500 3750 3800


3850 3840 4150 4200 4200 5500 5800 6200

Calculamos los cinco nmero como ya sabemos


y resulta:

Mnimo Q1 Mediana Q3 Mximo RIC


2500 3308 3820 4200 6200 893
Podemos decir que:
El ingreso mnimo es de 2500$.-
El 25% de los Jefes de Hogares tienen
ingresos de $3308 o menos.-
El 50% de los Jefes de Hogares tienen
ingresos de $3820 o menos.-
El 75% de los Jefes de Hogares tienen un
ingreso de $4200 o menos.-
El Jefe de Hogar que tiene ingreso ms alto
es de $6200.-
El monto de diferencia de ingresos entre el
50% central de los datos es de $893.-
RECURSO GRAFICO

El recurso grfico asociado al resumen de cinco


nmeros es lo que se conoce como Diagrama
de caja y bigotes tambin se lo conoce con
su nombre en ingls boxplot.-

Un diagrama de caja es un resumen grfico de


los datos basado en un resumen de cinco
nmeros y nos da una idea de forma de la
distribucin del conjunto de los datos, adems
de poder determinar si tenemos valores atpicos
(outliers) que son los que estn ms all de los
lmites de los bigotes.-
Los pasos para trazar un diagrama de caja y
bigotes son:

1.- Se traza un rectngulo con los extremos en el primer


cuartil y tercer cuartil.- Este rectngulo contiene el 50%
de los datos centrales.-
2.- En la caja se traza una recta horizontal en el lugar de
la mediana, as, la lnea de la mediana divide los datos en
dos partes iguales.-
3.- Se calcula el rango intercuartil RIC = Q3 Q1 .-
4.- Se aplica la regla de Tukey haciendo RIC * 1,5.- Los
lmites de los bigotes estarn dados haciendo:
Q1 - 1,5 * RIC y Q3 + 1,5 * RIC.-
Todos los valores que nos queden fuera de esos lmites
son considerados valores atpicos.-
4.- Las lneas punteadas a los costados de la
caja se llaman bigotes de la caja y se trazan de
acuerdo a la regla anterior.-
5.- Por ltimo, se vuelcan los valores mnimo y
mximo, si estos quedan fuera de los bigotes se
marcan con asterisco y nos indica los valores
atpicos, es decir los valores que urgente hay
que observar, nunca dejarlos pasar o no tenerlos
en cuenta.-

En nuestro caso, con los datos de ingresos de


los Jefes de Hogares de un determinado
barrio, el diagrama de caja ser el siguiente:
Grfica de caja de C2

6000 VALORES ATIPICOS

5000
C2

4000 50% DE LOS


DATOS
CENTRALES

3000

2000

UBICAMOS EL UBICAMOS EL UBICAMOS LA


CUARTIL 1 CUARTIL 3 MEDIANA
Analicemos un poco nuestro diagrama de caja:

Rpidamente observamos un distribucin


asimtrica a derecha.- El bigote superior es ms
largo que el inferior.-
En el bigote superior se observan dos valores
atpicos, valores a observar.-
El bigote inferior 25% de los ingresos esta
indicando una mayor concentracin es decir que
ese grupo de jefes de hogares tienen ingresos
bastantes similares y adems observamos que
no tiene valores atpicos.-
El 50% de los jefes de hogares con ingresos
centrales son bastantes simtricos es decir que
la mediana est casi en el medio, aunque vemos
una pequea dispersin en el 25% de los
ingresos que estn entre el cuartil 1 y la
mediana.-

Este tipo de grfico resulta muy ilustrativo,


hasta podramos decir el nico, respecto a su
explicacin y entendimiento cuando se desea
comparar distribuciones.-
Veamos un ejemplo:
1 2 3
75 90 38
64 45 45 Suponga que tiene las
82 86 68 notas de los tres
93 70 92 parciales que se le tomo
46 35 85
este cuatrimestre a la
38 64 70
asignatura Estadstica
45 68 76
68 58 90
de cierta carrera.-
62 60 26 Decide comparar la
54 72 38 situacin de los tres
50 70 45 parciales mediante la
85 85 48
elaboracin de grficos
92 90 72
caja y bigotes.- Resulta
98 65 70
63 68 60
entonces:
72 70 45
80 95 64
Grfica de caja de 1; 2; 3
100

90

80

70
Datos

60

50

40

30

20
1 2 3
VEAMOS OTRO EJEMPLO.-

La tabla siguiente muestra las puntuaciones obtenidas


en el examen final de Estadstica para quince
estudiantes de primer ao, quince de segundo ao y
quince de tercer ao.-

1 AO 2 AO 3 AO
47 72 56 76 43 80
52 72 59 80 48 80
52 78 59 83 50 83
57 81 61 83 55 85
63 81 67 84 61 89
64 86 69 90 67 91
69 91 73 94 72 97
71 76 78
Boxplot of 1; 2; 3
100

90

80
Data

70

60

50

40
1 2 3
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atpicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuacin de
cada grupo.- En el diagrama se observa que los
estudiantes del tercer curso consiguieron la
mejor mediana, pero sus puntuaciones tienen
una variabilidad considerablemente mayor que la
de los otros grupos.- Otro hecho que llama la
atencin es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes del primer
curso.-
ACTIVIDAD 18

Se tiene una serie de datos de una muestra aleatoria de


24 recin nacidos sanos en cierto hospital:
i Peso en Talla en. Permetro i Peso en Talla en. Permetro
cm. ceflico cm. cm. ceflico cm
gramos gramos
1 2700 48 33 13 2500 47 34
2 4200 50 36 14 3850 53 34
3 2445 45 33 15 3100 51 35
4 3250 50 37 16 3825 50 35
5 1850 48 31 17 1535 41 27
6 3360 49 31 18 2900 48 34
7 3300 50 34 19 3300 50 36
8 3650 52 31 20 1475 42 30
9 3950 51 34 21 3000 49 34
10 3350 49 35 22 2750 48 34
11 3220 49 34 23 2810 49 34
12 3150 51 34 24 3100 49 34
Sin agrupar los datos, realice un anlisis estadstico de
todo lo que hemos visto, que se pueda aplicar en cada
variable.- Explique, comente y de conclusiones.-

2.- Cuando se quiere comparar dos grupos y la variable


de inters es una variable cuantitativa, se utiliza la
diferencia de medias para hacerlo.- Es preciso notar que,
de manera semejante a lo que ocurre con la diferencia de
proporciones, cuando medias de dos grupos son iguales
la diferencia es de cero, mientras que cuando son
diferentes el resultado es mayor o menor que cero.-
Para practicar lo que hemos dicho, tomaremos los datos
que se obtuvieron de una muestra de 20 nios recin
nacidos y alguna caracterstica de la madre:
Peso del recin Talla del Sexo Exposicin Consumo
nacido en recin del de la madre de alcohol
i gramos nacido en recin al humo de por la
cm. nacido tabaco madre
durante el durante el
embarazo embarazo
1 3252 52 F FUM.PASIVA NO
2 3022 50 M ACTIVA SI
3 3062 51 F NO NO
4 2879 51 F ACTIVA SI
5 3626 52 M PASIVA SI
6 3957 54 F NO SI
7 4170 54 M NO NO
8 2224 47 M ACTIVA SI
9 3125 50 F PASIVA NO
10 3408 52 M ACTIVA NO
Peso del Talla del Sexo Exposicin Consumo
recin nacido recin del de la madre de
i en gramos nacido recin al humo de alcohol
en cm. nacido tabaco por la
durante el madre
embarazo durante
el
embarazo
11 2690 48 F NO NO
12 3119 50 M NO SI
13 3525 51 M PASIVA SI
14 2245 49 M ACTIVA SI
15 2417 48 M ACTIVA SI
16 2631 50 M ACTIVA NO
17 2647 50 M NO NO
18 3087 50 F PASIVA SI
19 2005 46 F NO SI
20 3694 52 F ACTIVA NO
Tome en cuenta los datos de los 20 nios descriptos en el cuadro
anterior, calcule y explique los siguientes valores:
a) Sin agrupar los datos, tomando la variable peso al nacer: media,
mediana desviacin estndar, cuartiles, percentil 70%, rango y rango
intercuartil.-
b) Tomando la variable talla al nacer, calcule lo mismo que en a).-
c) Calcule las medias del peso que correspondan a cada categora de
las variables que se presentan en el cuadro siguiente y anote la
diferencia de medias considerando como el grupo de referencia al que
tenga la diferencia igual a 0,0 en el cuadro.-
d) Calcule las medias del peso que correspondan a cada categora de
las variables que se presentan en el cuadro siguiente y anote la
diferencia de medias considerando como el grupo de referencia al que
tenga la diferencia igual a 0,0 en el cuadro.-
Variables Media del peso Diferencia de
medias
Sexo del recin nacido

Masculino

Femenino 0,0
Exposicin al humo de
tabaco
Fumadora activa

Fumadora pasiva

NO 0,0
Consumo de alcohol

SI

NO 0,0
Variables Media de la talla Diferencia de
medias
Sexo del recin nacido

Masculino

Femenino 0,0
Exposicin al humo de
tabaco
Fumadora activa

Fumadora pasiva

NO 0,0
Consumo de alcohol

SI

NO 0,0

Vous aimerez peut-être aussi