Vous êtes sur la page 1sur 48

Estadstica

con el uso del SPSS

14/08/2017
Consultores en Estadstica e Informtica Grupo COESI
Ing. Luis Fernndez Vizcarra
Estadstica

Contenido
Captulo I: Estadstica Descriptiva ........................................................................................................... 2
1. Captacin y elaboracin de datos ................................................................................................... 2
1.1. Introduccin ............................................................................................................................ 2
1.2. Definicin de algunos trminos estadsticos ........................................................................... 2
1.3. Variable ................................................................................................................................... 3
1.4. Captacin de datos .................................................................................................................. 4
1.5. La elaboracin de datos .......................................................................................................... 5
Ejercicios ................................................................................................................................................ 20
Captulo II: Medidas de tendencia central y dispersin ........................................................................ 23
2. Introduccin .................................................................................................................................. 23
2.1. Medidas de tendencia central ............................................................................................... 24
2.1.1. Medidas de tendencia central para datos no agrupados .................................................. 24
2.1.2. Medidas de tendencia central para datos agrupados ....................................................... 27
2.2. Los cuartiles ........................................................................................................................... 30
2.2.1. Cuartiles (Q) ....................................................................................................................... 30
2.2.2. Deciles (D).......................................................................................................................... 30
2.2.3. Percentiles (P).................................................................................................................... 31
2.3. Medidas de dispersin .......................................................................................................... 32
2.3.1. Amplitud total (A) .............................................................................................................. 33
2.3.2. Varianza V(X) y Desviacin estndar ................................................................................ 33
2.3.3. Coeficiente de variacin .................................................................................................... 36
Ejercicios ................................................................................................................................................ 37
Captulo III: Correlacin lineal ............................................................................................................... 39
3. Introduccin .................................................................................................................................. 39
3.1. Cuanficacin de la fuerza de la relacin lineal ...................................................................... 39
3.2. Contraste de hiptesis para determinar si el coeficiente de correlacin muestral es
significativo ....................................................................................................................................... 41
Ejercicios ................................................................................................................................................ 45

Pgina 1
Estadstica

Captulo I: Estadstica Descriptiva

1. Captacin y elaboracin de datos

1.1. Introduccin

Se hace cada vez ms evidente que la interpretacin de muchos de las


investigaciones en las diversas reas cientficas, depende en gran parte de los
mtodos estadsticos. Por esta razn para poder entender estos mtodos,
primeramente se definen algunos trminos estadsticos importantes, as como los
tipos de variables, la captacin y elaboracin de los datos.

1.2. Definicin de algunos trminos estadsticos

Estadstica: En trminos generales, la estadstica se define como el conjunto de


mtodos y procesamientos para recolectar, organizar, procesar, analizar e
interpretar datos numricos y con ellos basar decisiones y predecir fenmenos que
puedan expresarse cuantitativamente.

De acuerdo a esta definicin la estadstica se divide en dos grandes ramas:

Estadstica Descriptiva: cuyo objetivo principal es la recoleccin y elaboracin de


datos, es decir: clasificacin, presentacin de la informacin y el clculo de
medidas de tendencia central y dispersin.
Estadstica Inferencial: Permite tomar decisiones y/o predecir fenmenos con
respecto a las caractersticas de la poblacin en base a la informacin de la
muestra extrada de la poblacin de estudio.

Unidad de anlisis: Llamada tambin elemento de la poblacin; es la unidad de la


cual se obtiene el dato estadstico; tambin se le denomina como la unidad
indivisible, y es el objeto de estudio.

Ejemplo: puede ser una persona, vivienda, animal, etc.

Poblacin: Es el conjunto de personas, objetos o cosas con una caracterstica o


atributo especial cuantificable, en un periodo y en un lugar determinado. Ejemplo:
Estudiantes del primer ao de la Universidad Francisco Bolognesi, primer semestre
del 2015 (la caracterstica a estudiar es la estatura).

Pgina 2
Estadstica

Marco de muestreo: Permite identificar a los elementos de la poblacin y que


puede ser una lista de personas, una relacin de viviendas, un archivo, un mapa de
una determinada comunidad, etc. El marco debe estar completamente actualizado
porque de l se seleccionar la muestra.

Muestra: Es un subconjunto de la poblacin que se obtiene con la finalidad de


estudiar las caractersticas de la poblacin y debe ser representativa y tener un
tamao apropiado.

Parmetro: Es una medida de resumen que nos describe alguna caracterstica de la


poblacin, para calcular dicho valor es necesario utilizar todos los valores de la
poblacin completa.

Algunos parmetros conocidos y que usaremos en este curso son:

Media poblacional denotado por


Desviacin tpica o estndar poblacional denotado por
Varianza poblacional denotado por 2
Proporcin poblacional denotado por P

Estadstico: Es una medida de resumen que nos describe alguna caracterstica de


inters y cuyo valor es calculado usando solo los valores de los elementos o unidades
de una muestra. Algunos estadsticos conocidos y ms usados son:

Media muestral denotado por


Desviacin tpica o estndar muestral denotado por
Varianza muestral denotado por 2
Proporcin muestral denotado por p

1.3. Variable

Las variables son caractersticas de las personas u objetos que pueden tomar
diferentes valores. Ejemplo: peso, edad, sexo, nmero de hijos por hogar, etc.

Las variables pueden ser:

A. Variables Cualitativas o categricas

En este tipo de variable se busca la presencia o ausencia de una cualidad o


atributo. Estas variables pueden ser dicotmicas si solamente tienen dos
categoras mutuamente excluyentes como:

Sexo: hombre (h), mujer (m).


Estado de saludo: sano (s), enfermo (e).
Estado nutricional: normal (n), desnutrido (d), etc.

Pgina 3
Estadstica

Sin embargo, cuando las variables cualitativas tienen ms de dos categoras se


les denomina politmicas.

Ejemplo: nivel socioeconmico, grado de instruccin, estado civil, etc.

B. Variables cuantitativas

Son variables que pueden expresarse numricamente. Ejemplo:

Nmero de hijos por familia.


Nmero de admisiones diarias a un hospital.
Peso.
Talla.
etc.
Las variables cuantitativas pueden ser discretas o continuas.

Variables cuantitativas discreta o discontinua: Las que toman valores aislados y


no pueden tomar un valor entre dos consecutivos. Resultan por lo general de un
proceso de conteo.

Ejemplo: Nmero de hijos por familia, nmero de recadas de un paciente,


cantidad de focos producidos por una mquina por da, etc.

Variable cuantitativa continua: Toman valores que pueden ser cualquier nmero
real, es decir, entre dos valores distintos siempre encontraremos infinitos valores,
resultan por lo general de un proceso de medicin. Por ejemplo: peso, talla, vida
til de focos de cierta marca, etc.

1.4. Captacin de datos

Segn la definicin de estadstica la primera actividad viene a ser la recopilacin de


datos.

Cuando llega el momento de obtener los datos considerados indispensables para


el estudio o investigacin pueden ocurrir dos cosas.

Que los datos ya hayan sido obtenidos de las unidades de observacin y que
estn publicados o registrados en alguna parte reciben el nombre DATOS
SECUNDARIOS se recogen de historias clnicas, registros de hechos vitales,
anuarios estadsticos, censos de poblacin y vivienda, etc.

Que los datos se obtengan directamente de las unidades de observacin, se


denominan, DATOS PRIMARIOS, para recoger estos datos, se requieren de
documentos, llamados FORMULARIOS. Este es un documento que contiene un
arreglo de enunciados y espacios para hacer anotaciones y/o respuestas.

Pgina 4
Estadstica

Estos datos pueden obtenerse de tres procedimientos que son:

Cuestionario:enel que el sujeto de estudio lee el documento de preguntas y


registra las respuestas.
Observacin:enel que una persona observa al elemento o sujeto en estudio y
registra los datos que se van produciendo.
Entrevista:en el que el sujeto de estudio es interrogado por otra persona y esta
seencarga adems de registrar las respuestas en un documento.

1.5. La elaboracin de datos

Una vez que se ha captado y recopilado la informacin de cada uno de los elementos
del conjunto en estudio, esta tiene que ser revisada, clasificada, representada y
resumida para permitir su anlisis e interpretacin y a este conjunto de actividades
se le denomina elaboracin de datos.

Las etapas de la elaboracin de los datos son:

A. Revisin de datos

Tiene por finalidad:

Determinar si se ha recibido todos los formularios o, cuando menos, en una


proporcin que sea suficiente para no invalidar las conclusiones que se
prevean hacer.

Verificar que estn todas las respuestas requeridas.

Localizar posibles incongruencias en la informacin proporcionada.

La revisin de datos constituye lo que se ha dado en llamar el control de calidad


de la informacin.

B. Clasificacin de datos

Consiste en agrupar las observaciones en un nmero determinado de categoras


o clases.

El nmero de categoras o clases depende del tipo de variable que se estudia.

A continuacin se presenta los resultados de 30 personas con cncer pulmonar


del Hospital General Hiplito Unanuede la ciudad de Tacna, en el ao 2014. Estos
datos servirn para el desarrollo de este acpite. Los enfermos se clasifican
segn ciudad de residencia (A, B, C, D), edad (aos) y sexo (H=Hombre y
M=Mujer). Los resultados fueron:

Pgina 5
Estadstica

Ejemplo N 1
Paciente Ciudad Edad Sexo Paciente Ciudad Edad Sexo
1 A 30 H 16 B 46 M
2 A 43 H 17 A 69 H
3 B 58 M 18 A 44 H
4 C 61 H 19 C 59 M
5 A 70 H 20 D 62 H
6 D 42 M 21 D 66 H
7 C 58 M 22 C 71 H
8 A 39 H 23 A 70 M
9 B 60 M 24 C 65 H
10 B 55 H 25 D 39 H
11 C 57 H 26 A 40 M
12 A 49 H 27 A 61 M
13 A 61 M 28 B 65 H
14 D 69 H 29 B 56 H
15 D 43 H 30 C 38 H

Clasificacin de los datos segn una variable cualitativa

Si la variable es cualitativa (o categrica), el nmero de categoras estar


dado generalmente por las diversas respuestas que pudieran obtenerse. Por
ejemplo, la variable sexo por su naturaleza nos sugiere dos categoras:
hombre y mujer; el nivel socioeconmico nos sugiere tres categoras: alto,
medio y bajo, etc.

De las variables en estudio, ciudad y sexo son cualitativas y segn las


respuestas obtenidas, el nmero de categoras le corresponde a cada
variable son de cuatro y dos respectivamente. Para clasificar los datos segn
estas variables se tendrn en cuenta las siguientes matrices.

Ciudad N Sexo N
A Hombre (H)
B Mujer (M)
C Total
D
Total

Pgina 6
Estadstica

La clasificacin puede ser en forma manual o computarizada. Tomando los


datos del ejemplo N 1, a continuacin se presentan los resultados de la
clasificacin de los pacientes segn la ciudad de procedencia en la Tabla N 1.

Tabla N 1

Ciudad N %
A 11 36.7
B 6 20.0
C 7 23.3
D 6 20.0
Total 30 100.0

De igual manera, los pacientes clasificados segn sexo se presentan los


resultados en la Tabla N 2.

Tabla N 2
Sexo N %
Mujer 10 33.3
Hombre 20 66.7
Total 30 100.0

Sin embargo, los pacientes pueden ser clasificados segn dos caractersticas
cualitativas. Por ejemplo, la clasificacin de los pacientes segn sexo y por
ciudad de residencia, los resultados se presenta en la Tabla N 3.
Tabla N 3
Sexo Ciudad Total
A B C D
Mujer 4 3 2 1 10
Hombre 7 3 5 5 20
Total 11 6 7 6 30

Esta tabla recibe el nombre de doble entrada o tabla de contingencia de 2x4


por tener dos filas y cuatro columnas. En caso de que solo tengan dos filas y
dos columnas, se le denomina tabla cudruple o una tabla de 2 x 2.
Clasificacin de los datos segn una variable discreta:

En este caso, las categoras o clases que se establecen son de acuerdo a los
valores posibles que toma la variable. Por ejemplo: clasificar a las familias de
una comunidad segn el nmero de hijos por familia.

Pgina 7
Estadstica

Los datos que se presentan a continuacin, corresponden a 25 familias:

2, 1, 4, 5, 2, 0, 1, 3, 5, 5, 0, 1, 3, 2, 5, 3, 2, 4, 1, 2, 3, 5, 0, 2, 3

Asignando el nmero de categoras o clases que le corresponde a esta


variable, se tiene: 0, 1, 2, 3, 4, 5. Por consiguiente, de acuerdo a estas clases,
ya podemos clasificar los datos en forma manual o computarizada: los
resultados de la clasificacin se dan a continuacin.

Xi (N de hijos/familia) fi
0 3
1 4
2 6
3 5
4 2
5 5
Total 25
Donde:
fi : frecuencia absoluta de un valor Xi, es el nmero de veces que aparece
repetido dicho valor en un conjunto de observaciones realizadas.

Clasificacin de los datos segn una variable contina:


Aqu se presenta una serie de dificultades para poder establecer las
categoras o clases, sin embargo, se dar un procedimiento que servir como
gua u orientacin para formar las clases o intervalos de la variable.

a) Encontrar la amplitud del conjunto de datos, es decir el valor mximo


menos el valor mnimo, ms una unidad de medida.

= ( ) + 1
Considerando los datos de la edad dado en el anterior ejemplo tenemos
que:
= (71 30) + 1 = 42
Nota: si = 71.4 y = 30.2, se tiene que la amplitud ser:
= (71.4 30.2) + 0.1 = 41.3
Esto significa que si los valores mximo y mnimo estn expresados hasta
decimas se incrementara un dcimo (0.1), si los valores estn expresados
en centsimos, se agregara un centsimo (0.01) y as sucesivamente.

b) Determinar la amplitud del intervalo de clase C, utilizando la siguiente


expresin:

= 5 15

Pgina 8
Estadstica

El valor de K se establece de acuerdo al nmero de datos que se estn


estudiando. Para nuestro ejemplo, consideremos que K=6, por
consiguiente.
42
= =7
6
Para determinar el valor de K, se sugiere utilizar la siguiente frmula: =
1 + 3.22 log()

En relacin al ejemplo se tiene que = 1 + 3.22 log(30) = 5.9 y este


valor nos indica que el nmero de intervalos que podemos tomar est
comprendido entre 5 y 7. En este caso hemos adoptado el valor 6.

c) El Vmin, es el lmite inferior de la primera clase y su respectivo lmite


superior ser Vmin + (C-1), el lmite inferior de la segunda clase es el lmite
superior de la primera clase ms uno y el respectivo lmite superior de la
primera clase ms uno y el respectivo lmite superior ser igual al lmite
inferior ms (C-1); y as sucesivamente hasta completar el nmero de
intervalos. En relacin al ejemplo, se tiene:

30-36
37-43
44-50
51-57
58-64
65-71

Hay que cuidar que en la primera y ltima clase deben estar el Vminy Vmax
respectivamente. A estos lmites tambin se les llaman lmites nominales.

Nota: si los lmites estn expresados hasta dcimas entonces se tendr


que el lmite superior de la primera clase es Vmin + (C-0.1), si esta
expresado hasta centsimas ser Vmin + (C-0.01) y as sucesivamente.

d) La clasificacin de los datos de una variable continua puede hacerse


manualmente o en forma automatizada.

La clasificacin de pacientes segn edad se presenta en la tabla N 4.

Pgina 9
Estadstica

Tabla N 4

Clases Edad fi Xi hi% Hi% Fi Lmites reales


1 30-36 1 33 3.3 3.3 1 29.5-36.5
2 37-43 7 40 23.3 26.6 8 36.5-43.5
3 44-50 3 47 10.0 36.6 11 43.5-50.5
4 51-57 3 54 10.0 46.6 14 50.5-57.5
5 58-64 8 61 26.7 73.3 22 57.5-64.5
6 65-71 8 68 26.7 100.0 30 64.5-71.5
Total 30 100.0

fi: Frecuencia absoluta del i-esimo intervalo (o valor xi), nos indica el
nmero de veces que aparece repetido dicho intervalo (o valor) en el
conjunto de observaciones estudiadas.
0 fi n y
f1 + f2+ + fm = n,

donde m y n son el nmero de clases y el nmero total de datos


respectivamente.
Fi: Frecuencia absoluta acumulada de la clase i nos indica la suma de las
frecuencias absolutas de los iguales o inferiores a l.

Donde:
F1 = f 1
F2 = f1 + f2
.
.
.
Fm = f1 + f2+ fm

Donde m es el nmero de clases, 0 Fi n para todo i.

hi%: Frecuencia relativa de la clase i es el cociente entre la frecuencia


absoluta y el nmero total de observaciones multiplicado por 100.

hi% = fi / n *100
Se tiene que 0 hi 1 0 hi * % 100%

Hi%: Frecuencia relativa acumulada de las clases i es frecuencia absoluta


acumulada dividida por nmero total de observaciones.

Hi% = Fi / n *100
Se tiene que 0 Hi 1 0 Hi * % 100%

Pgina 10
Estadstica

Xi: Es la marca de clase de la clase i se determina mediante el promedio


de los lmites de dicho intervalo Xi puede ser positivo, negativo o puede
tomar el valor de cero.

Si los lmites nominales de los intervalos de clase estn expresados en


enteros, los lmites reales de cada intervalo se determinan restando y
sumando media unidad al lmite inferior y superior respectivamente de
cada intervalo. Pero si los lmites estn expresados de cada intervalo hasta
dcimo los lmites reales se encontrarn restando y sumando media
decima al lmite inferior y superior respectivamente de cada intervalo, y as
sucesivamente.

A continuacin se presenta la clasificacin de los pacientes segn edad y


por sexo en la tabla N 5.

Tabla N 5
SEXO
EDAD (aos) TOTAL
HOMBRE MUJER
30 - 36 1 0 1
37 - 43 5 2 7
44 - 50 2 1 3
51 - 57 3 0 3
58 - 64 2 6 8
65 - 71 7 1 8
TOTAL 20 10 30

C. Presentacin de datos
La presentacin de los datos se hace fundamentalmente utilizando dos mtodos:
el mtodo tabular y el mtodo grfico.
a) Mtodo tabular
Consiste en una presentacin resumida usando tablas o cuadros. Si se
utilizan los cuadros o tablas debe prestarse atencin a los cuatro elementos
que los constituyen: el ttulo, la matriz, el cuerpo y las notas aclaratorias.
Un buen ttulodebe hacer nfasis en el contenido del cuadro, por tal
motivo debe contestar a la siguientes preguntas:
Qu contiene el cuadro?,
Cmo se presenta este contenido?,
De dnde se presenta? y
Cundo se presenta?.
Pgina 11
Estadstica

Abreviadamente se puede decir: Qu?, Cmo?, Dnde? Y Cundo?


Ejemplo:
Qu? : Pacientes con cncer pulmonar.
Cmo? : Lugar de residencia.
Dnde? : Hospital General Unanue del Departamento de Tacna.
Cundo?: 2014.
Por consiguiente el cuadro quedara

Cuadro N 1
Pacientes con cncer pulmonar segn lugar de residencia,
Hospital Unanue del Departamento de Tacna, 2014
CIUDAD N %
A 11 36,7
B 6 20,0
C 7 23,3
D 6 20,0
Total 30 100,0
Fuente: Archivo del Departamento de Estadstica delHospital Unanue del
Departamento de Tacna, 2014.

Cuadro N 2
Pacientes con cncer pulmonar segn lugar de residencia y por sexo
Hospital Hiplito Unanue del Departamento de Tacna, 2014
CIUDAD
SEXO A B C D Total
HOMBRE 7 3 5 5 20
MUJER 4 3 2 1 10
Total 11 6 7 6 30
Fuente: Archivo del Departamento de Estadstica delHospital Hiplito Unanue del Departamento
de Tacna, 2014.

Pgina 12
Estadstica

El ttulo que le corresponde al cuadro N 3.


Cuadro N 3
Distribucin de los pacientes con cncer pulmonar segn edad del
Hospital Hiplito Unanue del Departamento de Tacna, 2014
EDAD (aos) Frecuencia Porcentaje
30 - 36 1 3.3
37 - 43 7 23.3
44 - 50 3 10.0
51 - 57 3 10.0
58 -64 8 26.7
65 - 71 8 26.7
Total 30 100.0
Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del Departamento
de Tacna, 2014.

La matriz del cuadro est constituida por el primer rengln de la primera


columna, en donde se anotan los nombres de las categoras o lmites de
los intervalos en forma tan concisa como sea posible. As en el cuadro la
matriz estar compuesta por el rengln en donde aparecen las palabras
N y %. As como por la columna en donde se leen las diferentes
categoras de la ciudad. En el cuadro N 2, la matriz est constituido por
la ciudad y el sexo.

El cuerpo del cuadro est formado por espacios (delimitados o no por


lneas) que constituyen intersecciones de renglones y columnas que a
veces se denominan celdas en donde se anotan las cifras obtenidas en la
tabulacin, incluyendo los subtotales y totales que procedan. En el
cuadro N 1, el cuerpo est constituido por las cifras que representan el
nmero de pacientes con cncer y por el total, con sus respectivos
porcentajes.

Notas aclaratorias estn constituidas por todas aquellas informaciones


adicionales que son necesaria para interpretar adecuadamente el
contenido de la tabla o cuadro y para enterarse de quien se obtuvo la
informacin presentada, es decir, la fuente. En el cuadro N 1, cuadro N
2 y cuadro N 3 la nota aclaratoria est dada por la fuente.

b) Mtodo grfico

Esencialmente un grfico estadstico es la representacin numrica de datos


por medio de figuras geomtricas dibujadas a escala. El objetivo primordial
de un grfico es dar una impresin visual de conjunto para una rpida y fcil
comprensin del fenmeno que se est estudiando. Por tal motivo un
grfico debe ser sencillo y auto explicativo.

Pgina 13
Estadstica

En efecto de un buen grfico se pueden apreciar la tendencia de variaciones


y anomalas del fenmeno representado, as como las relaciones entre dos o
ms series de datos superpuestos en un mismo grfico.

La eleccin de un grfico depende del objetivo que persigue, es decir, que


eso que quiere mostrar, para que y a quienes.

Las partes de un grfico son:

Ttulo, que expresa el contenido del grfico y por lo general, es igual o


parecido al ttulo del cuadro que sirvi de referencia.
Escalas, se utiliza generalmente el sistema cartesiano, compuesto por
dos ejes: uno horizontal llamado abscisa y otro vertical llamado
ordenada, ambos se cortan en un punto llamado origen.
Cuerpo, es el grfico en s, y constituyen la representacin en dibujo de
los datos.
Fuente, indica el origen de los datos que se estn representando en el
grfico.

La representacin grfica depende del tipo de variables que se estudia.

Grfica de los datos segn una variable cualitativa

Si los datos es una variable cualitativa la representacin grfica puede


ser: grficos de barras o grficos circulares.

Grfico de barras, representa hechos o fenmenos sin continuidad. Las


categoras pueden ser colocadas en cualquier orden, pueden representar
distintos aspectos, no ordenados de una caracterstica.

A continuacin se presenta en el grfico N 1, a los pacientes con cncer


segn lugar de procedencia (resultados dados en el cuadro N 1). Este
tipo de barras es simple. Se sugiere que el espacio de barra a barra no
debe ser menor a la mitad del ancho de la barra, ni sobrepasar al ancho
de la misma.

Pgina 14
Estadstica

Grfico N 1
Pacientes con cncer pulmonar, segn lugar de residencia
Hospital Unanue del Departamento de Tacna, 2014

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

Las barras pueden ser tambin compuestas, es decir cuando se ha


clasificado la informacin segn dos caractersticas. En el grfico N 2 se
presenta a los pacientes con cncer segn lugar de procedencia y por
sexo (resultados dados en el cuadro N 2).

Grfico N 2
Pacientes con cncer pulmonar segn lugar de residencia y por sexo
Hospital Hiplito Unanue del Departamento de Tacna, 2014

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

Pgina 15
Estadstica

Las barras compuestas, tambin pueden representarse en barras


superpuestas, siendo estas muy tiles siempre que los elementos de
cada caracterstica, pueden ser subdivididas segn una caracterstica
secundaria.

Tomando los datos del cuadro N 2, podemos traducir los valores


absolutos en porcentajes, dicho resultado se da en el siguiente cuadro
N 4.

Cuadro N 4
Porcentaje de pacientes con cncer pulmonar segn lugar de residencia
y por sexo, Hospital Hiplito Unanue del Departamento de Tacna, 2014
CIUDAD
SEXO TOTAL
A (%) B (%) C (%) D (%)
HOMBRE 63,6% 50,0% 71,4% 83,3% 66,7%
MUJER 36,4% 50,0% 28,6% 16,7% 33,3%
Total 100,0% 100,0% 100,0% 100,0% 100,0%
Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del Departamento de
Tacna, 2014.

La representacin grfica del cuadro N 4 va a estar dado en el grfico, mediante


barras superpuestas.

Grfico N 3
Porcentaje de pacientes con cncer pulmonar segn lugar de residencia
y por sexo, Hospital Hiplito Unanue del Departamento de Tacna, 2014

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

Pgina 16
Estadstica

Grfico circular, Para su elaboracin se utiliza la circunferencia, siendo


necesario que los valores absolutos y/o porcentajes sean traducidos a
grados, los 360 se reparten en proporcin a los respectivos porcentajes.
Correspondiendo a cada sector de la circunferencia la magnitud de cada
categora de la variable.

Tomando los datos del cuadro N 1, podemos representar dichos


resultados en el grfico N 4.

Grfico N 4
Pacientes con cncer pulmonar segn lugar de residencia,
Hospital Hiplito Unanue del Departamento de Tacna, 2014

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

Grfico de los datos segn una variable cuantitativa

Si los datos es una variable cuantitativa la representacin grfica puede


ser: histograma, polgonos y ojivas.

Histograma, es un grfico que se utiliza para representar las frecuencias


absolutas o relativas simples mediante rectngulos, teniendo como base
los respectivos lmites reales de los intervalos de clase y la altura igual a
la frecuencia respectiva.

Las reas de los rectngulos son proporcionales a la frecuencia de la


clase. Cuando los intervalos de clase son de igual tamao, las alturas de
los rectngulos son tambin proporcionales a la frecuencia de una clase.

Tomando los datos de la Tabla N 4, representamos un histograma de


frecuencias absolutas referente al nmero de pacientes con cncer
segn edad. (Grfico N 5).

Pgina 17
Estadstica

Grfico N 5
Pacientes con cncer pulmonar segn edad, Hospital Hiplito
Unanue del Departamento de Tacna, 2014
fi
10
9
8

Nmero de pacientes
7
6
5
4
3
2
1

x
29.5 36.5 43.5 50.5 57.5 64.5 71.5
EDAD (a os)

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

NOTA: En el eje X se consideran los lmites reales de los intervalos de la


clase de la variable edad.

Polgono, llamaremos polgono de frecuencia absoluta simple a la unin


de los puntos medios del lado superior (el opuesto a la base) de cada
rectngulo del histograma, formndose de esta manera lneas rectas.
Estas lneas deben llevarse hasta el eje X en los extremos del lmite
inferior del primer intervalo y superior del ltimo intervalo
respectivamente. Esto permite que el rea total quede incluida bajo la
curva. El rea total bajo el polgono equivale al rea bajo el histograma.

El grfico N 6 muestra el polgono de la Tabla N 4.

Grfico N 6
Pacientes con cncer pulmonar segn edad, Hospital Hiplito
Unanue del Departamento de Tacna, 2014
fi
10
9
8
Nmero de pacientes

7
6
5
4
3
2
1

x
29.5 36.5 43.5 50.5 57.5 64.5 71.5
EDAD (a os)

Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

Pgina 18
Estadstica

NOTA: En el eje X se consideran los lmites reales de los intervalos de la clase de


la variable edad.

Ojiva, una ojiva utiliza las frecuencias absolutas o relativas acumuladas y


consiste en un grfico lineal que nos permite observar la cantidad de elementos
que quedan por encima o por debajo de determinados valores de los lmites de
los intervalos de clase.

La ojiva se obtiene uniendo los puntos que le corresponden a las frecuencias


acumuladas de los respectivos lmites superiores de cada intervalo. Por ejemplo
tomando los valores de las frecuencias relativas acumuladas de la Tabla N 4, se
obtiene el grfico N 7.

Grfico N 7
(Histograma y polgono de frecuencias relativas acumuladas en porcentajes)
Pacientes con cncer pulmonar segn edad, Hospital Hiplito
Unanue del Departamento de Tacna, 2014
Hi %
100
OJIVA
90
80
70
60
50
40
30
20
10

x
29.5 36.5 43.5 50.5 57.5 64.5 71.5
EDAD (a os)
Fuente: Archivo del Departamento de Estadstica del Hospital Hiplito Unanue del
Departamento de Tacna, 2014.

NOTA: En el eje X se consideran los lmites reales de los intervalos de la clase de


la variable edad.

Pgina 19
Estadstica

Ejercicios

1. En un determinado Centro Oncolgico se atiende diariamente a 40 pacientes con


cncer. Entre otras caractersticas, en la ficha clnica se consigna, edad (aos), sexo y
localizacin del tumor. Los valores de estas variables en los 40 pacientes son:
Paciente Edad Sexo Localizacin Paciente Edad Sexo Localizacin
1 65 H Estmago 21 61 M Mama
2 52 M Pulmn 22 75 M Colon
3 71 H Pulmn 23 64 H Trquea
4 84 H Estmago 24 39 H Bronquios
5 39 H Piel 25 34 M tero
6 55 M Pulmn 26 61 H Pulmn
7 42 M Mama 27 50 H Bronquios
8 49 H Prstata 28 70 M Mama
9 67 H Estmago 29 52 M Pulmn
10 71 M Mama 30 71 H Trquea
11 31 H Pulmn 31 53 M Pulmn
12 60 M Estmago 32 45 H Pulmn
13 63 H Bronquios 33 56 M Estmago
14 57 H Bronquios 34 78 H Piel
15 61 H Colon 35 75 H Pulmn
16 59 M tero 36 66 H Piel
17 49 H Pulmn 37 57 M Mama
18 61 H Trquea 38 62 H Colon
19 72 M Colon 39 45 M Estmago
20 40 M Pulmn 40 49 M Pulmn

Clasificar y presentar estos datos apropiadamente segn una o dos caractersticas.

2. Se tiene inters en estudiar la incidencia de enuresis en pre-escolares, de ambos sexos


del distrito de Ciudad Nueva.
Para llevar a cabo tal estudio, se selecciona un grupo representativo de 100 pre-
escolares del distrito de Ciudad Nueva.
El investigador procede a evaluar a cada uno de los nios con respecto a la frecuencia de
Enuresis.
Indique a partir del enunciado, lo siguiente:

a) Poblacin: _______________________________

b) Muestra: _________________________________

c) Variable: _________________________________

Pgina 20
Estadstica

3. En el asentamiento humano Seor de Locumba, efectuado en el ao 2014 existan 380


madres de familia, de las cuales 225 haban migrado de la sierra, 75 de la selva y el resto
de la costa. De las 380 madres, 127 presentaban inflamacin severa en las encas, 173
tenan una inflamacin moderada y el resto inflamacin leve; de las 127 con inflamacin
severa, 17 eran de la costa, 15 de la selva y el resto de la sierra. De las 173 con
inflamacin moderada, 33 eran de la costa, 110 de la sierra y el resto de la selva.
Con estos datos, elabore Usted el cuadro o tabla respectiva y grafique adecuadamente.

4. Segn consta en el Departamento de Estadstica del Hospital Hiplito Unanue, en el ao


2014, se atendieron 146 pacientes de trastornos funcionales de estmago, utilizando en
68 de ellos el tratamiento A, y en el resto el tratamiento B. De los sometidos al
tratamiento A, 42 se recuperaron satisfactoriamente y de los que recibieron el otro
tratamiento, slo 38.
a) Presente esta informacin en un cuadro todos sus elementos.
b) Presente la informacin mediante un grfico apropiado con todos sus elementos.

5. La frecuencia cardiaca en 50 pacientes fumadores fueron:


80 79 69 80 77 69 80 76 90 72
75 76 79 74 71 78 77 80 76 79
70 73 78 72 68 70 91 66 79 75
89 88 91 86 83 81 68 79 80 85
83 82 81 80 78 73 79 84 68 66

Se pide realizar lo siguiente:


a) Construir una distribucin de frecuencia que contenga 7 clases o intervalos.
b) Graficar un polgono de frecuencia absoluta.

6. En el Centro de Salud Arriba Per, se registraron el estado nutricional de nios


menores de 2 aos, segn el siguiente detalle:

EN+ EN+ O EN++ EN+ EN+ EN+ EN+


EN+ EN+ O EN+ O EN+ EN++ EN++
EN++ O EN+ N O EN++ EN++ EN+
O EN++ EN+ N EN++ EN+ O N
EN+ EN+ EN++ O EN+ O EN+ N
N N N O O EN+ EN+ EN+
EN+ EN+ N O EN+ EN++ N O

Donde:
N= Normal EN+ = Enano nutricional de 1er. Grado
O= Obeso EN++= Enano nutricional de 2do. Grado
Elabore adecuadamente el cuadro respectivo y el grfico correspondiente con los
resultados, Qu comentario tiene ante esta informacin?

Pgina 21
Estadstica

7. A continuacin se presentan las calificaciones finales de los alumnos de Odontologa de


una universidad del Departamento de Tacna, que llevaron en el curso de Estadstica,
durante el 1er. Semestre Acadmico del ao 2014.
11 12 16 14 14 15 12
12 10 13 12 12 17 13
13 12 14 12 13 13 13
15 16 11 16 12 12 12
18 15 15 17 11 12 12
14 14 13 16 14 14 13

Se pide realizar lo siguiente:


a) Construir una distribucin de frecuencia que contenga 5 clases o intervalos.
b) Interprete. F2, h3 y F4.
c) Obtener el punto medio o marca de clase de cada intervalo.
d) Graficar el histograma de frecuencia relativa y la ojiva, Qu interpretacin te
merece?

Pgina 22
Estadstica

Captulo II: Medidas de tendencia central y


dispersin

2. Introduccin

En el captulo anterior estudiamos de qu manera los datos podran ser presentados en


forma compacta, comprensible mediante cuadros y grficos. Sin embargo, con
frecuencia necesitamos resumir an ms para facilitar el anlisis e interpretacin de la
informacin.

Cuando la variable en estudio es cuantitativa, el investigador puede estar interesado en


encontrar un solo valor, que pueda caracterizar ms ntidamente la naturaleza de los
datos que se estn midiendo.

Un valor que refleje la tendencia de los datos puede darse mediante las medidas de
posicin o tendencia central. Para cuantificar la variabilidad de los datos con respecto a
un valor central se utilizara las medidas de dispersin o variabilidad.

En el siguiente grfico se presenta el polgono de frecuencias de las determinaciones de


cido rico en 250 pacientes reportada durante un ao en una comunidad determinada.

Segn el grfico, observamos en esta distribucin, que los datos tienden a concentrarse
alrededor de un valor central, que puede ser:

Media aritmtica Moda


Mediana Cuartiles

Pgina 23
Estadstica

Sin embargo, tambin se puede visualizar una variabilidad o dispersin de los datos con
respectos al valor central y para cuantificar esta variabilidad se utiliza una medida de
dispersin y puede ser:

Amplitud total Desviacin estndar


Varianza Coeficiente de variacin

2.1. Medidas de tendencia central

Las medidas de tendencia central permiten hallar un solo valor numrico e indican
el centro de un conjunto de datos. Debido a estas circunstancias, suelen ser
llamados de posicin o tendencia central.

2.1.1. Medidas de tendencia central para datos no agrupados

Las medidas de tendencia central permiten hallar un solo valor numrico e


indican el centro de

a. Media aritmtica

La media aritmtica denominada tambin promedio, se considera como


un valor representativo del conjunto de datos que se est estudiando y
caracteriza a toda una distribucin. En su clculo interviene todos los
valores que se estn estudiando. A continuacin damos la siguiente
definicin:

Definicin: si tenemos datos representados por 1 , 2 , , . La media


aritmtica de estos datos est dado por:

1, 2 , ,
=

Simblicamente lo podemos representar como:


=1
=

Ejemplo: las edades de 6 pre-escolares son:

: 4, 1, 3, 5, 2, 3

La edad promedio de estos 6 nios es:

4 + 1 + 3 + 5 + 2 + 3 18
= = =3
6 6

Pgina 24
Estadstica

La edad promedio de los 6 pre-escolares es de 3 aos, esto quiere decir


que cada pre-escolar asume una edad de 3 aos porque la media
aritmtica es un valor representativo del conjunto de datos.

Propiedades de la media aritmtica

La media aritmtica puede ser un valor positivo cero, o un valor


negativo.

Si a los valores que estamos estudiando le sumamos o restamos una


constante, el valor de la nueva media aritmtica quedara como la
media aritmtica de los datos originales ms o menos la constante
que se ha agregado.

Si a cada valor de la serie le multiplicamos por una constante, la


nueva media aritmtica seria igual a la media aritmtica original
multiplicada por la constante, es decir

donde K es una constante


La suma de las desviaciones de los datos con respecto a la media es
cero, es decir:

( ) = 0
=1

b. Mediana

La mediana es una valor que divide a la distribucin ordenada en forma


ascendente o descendente en dos grupo iguales, es decir, a cada grupo le
corresponde el 50% de los datos. El siguiente diagrama nos da una idea
intuitiva de lo que es la mediana:

Para calcular el valor de la mediana de los datos X1,X2,,XN se tendr en


cuenta el siguiente procedimiento:

Paso 1. Se ordenan los datos en forma ascendente o descendente.

Paso 2. Si es impar, el valor de la mediana es el valor del centro, es


decir

= (+1)/2
Donde ( + 1)/2 es la posicin de la mediana.

Pgina 25
Estadstica

Paso 3. Si N es par, el valor de la mediana va a estar dado por:

/2 + (/2+1)
=
2
Esto quiere decir que el valor de la mediana se encuentra entre los
valores cuya posicin son: /2 y/2 + 1

Ejemplo

Encontrar la edad mediana de las edades de 7 nios que se


representan a continuacin: 2, 3, 6, 1, 5, 7, 9.

Paso 1. Ordenando la serie se tiene: 1, 2, 3, 5, 6, 7, 9

Paso 2. Como el nmero de datos es impar (n=7), se tiene que la


+1
posicin de la mediana es: = 4, por consiguiente, el valor de la
2
mediana est ubicada en la posicin 4, es decir = 4 = 5 .

Esto significa que el 50% restante estn por encima de 5.

c. La moda

Se utilizan mayormente cuando la caracterstica en estudio se ha medido


en escala nominal u ordinal. La moda es la observacin que mayormente
se repite (o es la observacin que posee la mayor frecuencia)

Ejemplo

Encontrar el valor modal de la siguiente serie de datos: 2, 3, 4, 5, 5, 6, 4,


5. Ordenando los datos, se tiene:


2 1
3 1
4 2
5 3
6 1
Total 8

Por consiguiente la moda es = 5, porque es el dato que posee la


mayor frecuencia.

Pgina 26
Estadstica

2.1.2. Medidas de tendencia central para datos agrupados

Es decir en tablas de distribucin de frecuencias.

a. Media aritmtica

Tratndose de datos agrupados o que estn en una tabla de distribucin


de frecuencias, tenemos la siguiente frmula para calcular la x:

1 1 + 2 2 + +
=
1 + 2 + +

Dnde:

1 , 2 , , : Son marcas de clase

1 , 2 , , : Son frecuencias absolutas que corresponden a las marcas de


clases respectivas

: Nmero de clases o intervalos.

La frmula de forma abreviada est dada por:


=1
=

=1

Ejemplo

Considerando los datos referentes a edades de 40 personas, agrupadas


en una tabla de distribucin de frecuencias que se da a continuacin, se
pide encontrar la edad promedio.

Edad
(aos)
5-9 3 7 21
10-14 9 12 108
15-19 15 17 255
20-24 8 22 176
25-29 5 27 135
Total 40 695

Por consiguiente, la media aritmtica de estas edades es:

695
= = 17.375
40

Pgina 27
Estadstica

b. Mediana

Para calcular la mediana en una tabla de distribucin de frecuencias, se


usa la siguiente frmula:

(/2 1 )
= +

Donde:

/2 : Posicin de la Me

: Lmite real inferior de la clase que contiene la Me

: Nmero total de observaciones.

1 : Frecuencia absoluta acumulada de la clase anterior a la que


contiene a la mediana

: Frecuencia absoluta de la clase que contiene a la Me

: Amplitud de la clase que contiene a la mediana

Clase mediana: Es la primera clase cuya frecuencia absoluta acumulada


excede a /2

Ejemplo: calcular la Me de la siguiente distribucin:

Variable
5 - 9 3 3
10-14 9 12
15-19 15 27
20-24 8 35
25-29 5 40
Total 40

Pgina 28
Estadstica

Procedimiento:

Paso 1. Calcular las frecuencias acumuladas

Paso 2. Calcular N/2 = 40/2 = 20 sirve para detectar la clase mediana

Paso 3. Clase mediana: clase cuyo excede a 20 (15-19)

Paso 4. De la clase mediana se obtiene:

= 14.5, 1 = 12, = 5, = 15

Los valores encontrados en (2), (3) y (4) lo reemplazamos en la frmula y


se tiene:

(20 12)
= 14.5 + 5
15
= 17.17

Por consiguiente, el 50 % de los puntajes estn por debajo de 17.17 y el


50% est por encima de 17.17.

c. Moda

En una tabla de distribucin de frecuencias es aproximadamente la marca


de clase o punto medio de la clase que tiene la mayor frecuencia absoluta
siempre.

Tomando los datos del ejemplo anterior, podemos calcular la moda

La moda estar ubicada en el intervalo

Variable
15-19 15 27

Por lo tanto la marca de clase de dicha clase ser:

14.5 + 19.5
= 17
2

Luego la moda es 17

Pgina 29
Estadstica

2.2. Los cuartiles

Son aquellos que dividen a la distribucin en cuatro, diez o cien partes iguales.

2.2.1. Cuartiles (Q)

Son aquellos que dividen a la distribucin en cuatro partes iguales, en


donde cada uno de ellos incluye el 25 % de las observaciones.

25% 25% 25% 25%


Q1 Q2 Q3
Mediana

Las frmulas para calcular los cuartiles son parecidas a la de la mediana,


as:

(4 1 )
1 = + C
1

2 =

(34 1 )
3 = + C
3

Dnde:

Li = Lmite real inferior de la clase que contiene el Q1 Q3.

Fl-1 = Frecuencia absoluta acumulada de la clase anterior a la que


contiene a Q1 O3.

fQ1 fQ3 = Frecuencia absoluta de la clase que contiene el Q1, Q3.

C = Ancho de la clase que contiene el Q1, Q3.

2.2.2. Deciles (D)

Son aquellos que dividen a la distribucin en diez partes iguales, en donde


cada uno de ellos incluye el 10 % de las observaciones.

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
D1 D2 D3 D4 D5 D6 D7 D8 D9
Q2
Me

Pgina 30
Estadstica

Las formulas son tambin similares a las del Q1, Q3. As:

(10 1 )
1 = + C
1

5 =

(710 1 )
7 = + C
7

Dnde:

Li = Lmite real inferior de la clase que contiene el D1 D7.

Fl-1 = Frecuencia absoluta acumulada de la clase anterior a la que


contiene a D1 D7.

fD1 fD7 = Frecuencia absoluta de la clase que contiene el D1, D7.

C = Ancho de la clase que contiene el D1, D7.

2.2.3. Percentiles (P)

Son aquellos que dividen a la distribucin en cien partes iguales, en donde


cada uno de ellos incluye el 1 % de las observaciones.

1% 1% 1% 1% 1% 1% 1%
P1 P2 P3 P4 P5 P6 P99

Las formulas son tambin similares a los cuartiles y deciles. As:

(10100 1 )
10 = + C
10

(60100 1 )
60 = + C
60

Dnde:

Li = Lmite real inferior de la clase que contiene el P10 P60.

Fl-1 = Frecuencia absoluta acumulada de la clase anterior a la que


contiene a P10 P60.

fP10 fP60 = Frecuencia absoluta de la clase que contiene el P10, P60.

C = Ancho de la clase que contiene el P10, P60.

Pgina 31
Estadstica

Ejemplo

Como los clculos de los cuartiles, deciles y percentiles son similares; se


calcular el Q3 de la siguiente distribucin.

Variable fi Fi
55 - 58 20 20
59 62 30 50
63 66 80 130
67 - 70 70 200
71 74 40 240
75 - 78 10 250
Total 250

Procedimiento:

1. Calcular las frecuencias acumuladas Fi.


2. Calcular la posicin de Q3= 3*N/4 = 3(250) /4 * 187.5.
3. Clase que contiene a Q3: es la clave cuyo Fi excede a 187.5 y que
corresponde al intervalo 67 - 70. ,
4. Lmite real inferior de la clase quo contiene a Q3 es: Li = 66.5.
5. Frecuencia absoluta acumulada anterior a la clase que contiene a Q3 es:
Fi-1 =130.
6. Frecuencia absoluta de la clase que contiene a Q3 es: fi3 = 70.

Reemplazando estos valores en la frmula:

(187.5 130)
3 = 66.5 + 4
70
Por consiguiente, se tiene que el 75 % de los valores estn por debajo de
69.8 puntos y el 25 % de los valores estn por encima de 69.8

2.3. Medidas de dispersin

Todos los valores representativos discutidos en las secciones precedentes han sido
una especie de promedio o medida de posicin. Sin embargo, el uso de un solo
valor para describir una distribucin oculta muchos hechos importantes.

Por ejemplo, dos grupos separados de datos pueden contener la misma media, pero
un grupo puede estar ms disperso o esparcido alrededor del valor promedio que el
otro.

Por lo que es necesario una medida de la dispersin, esparcimiento o variacin para


ayudar a definir ms completamente la distribucin.

Pgina 32
Estadstica

Mientras menor es la dispersin, ms tpico es el valor de la media para toda la


distribucin.

2.3.1. Amplitud total (A)

Se define como la diferencia entre el valor mximo (Vmax) y el valor mnimo


(Vmin), es decir:

A = Vmax - Vmin

Representa la medida de variacin ms simple y la que presenta mayor valor


intuitivo. Una desventaja de la amplitud como medida de variacin es su
medida a aumentar a medida que aumenta el tamao de la muestra
(nmero de observaciones). Sera deseable que para medir la variacin,
dicho valor permanezca lo ms establo posible independiente del nmero de
observaciones.

Adems, sobre una base intuitiva, la amplitud solo utiliza las dos
observaciones extremas desestimando toda la informacin relacionada con
la variacin que puede obtenerse a partir de las restantes observaciones.

Ejemplo

Determinar la amplitud de la siguiente serie de datos:

139, 149, 159, 169, 179.

De acuerdo a la definicin, se tiene que el Vmax = 179 y el Vmin = 139, por


consiguiente:

A =179 - 139 = 40

A veces se acostumbra, mencionar solamente el valor mnimo y el valor


mximo. En relacin a nuestro ejemplo tenemos que los datos estn
comprendidos entre 139 y 179, y queda a nuestro criterio si los datos estn
muy concentrados o apiados en dicho intervalo.

2.3.2. Varianza V(X) y Desviacin estndar

La varianza es una medida de dispersin que cuantifica la variabilidad de los


datos con respecto a la media aritmtica Se define: como el promedio de las
desviaciones al cuadrado de cada uno de los datos con-respecto a la media.

Simblicamente podemos expresarlo como:

Dado un conjunto de N datos X1, X2, ... , XN con una media aritmtica.

Pgina 33
Estadstica


=1
= , la varianza de estos datos se define como:

2
=1( )
() =

Ejemplo

Consideremos la siguiente serie de datos:

4, 7, 8, 3, 5, 9, 10, 2

Se pide calcular la varianza de este conjunto de datos.

Solucin

Tomando la frmula de la varianza, primero encontraremos la media


aritmtica, es decir:

4 + 7 + 8 + 3 + 5 + 9 + 10 + 2
=
8
48
= =6
8
Ahora encontraremos la varianza de acuerdo a la definicin
(4 6)2 + (7 6)2 + (8 6)2 + (3 6)2 + (5 6)2 + (9 6)2 + (10 6)2 (2 6)2
() =
8

60
() = = 7.5
8

La desventaja que tiene la varianza es que hay dificultad en su interpretacin


porque las unidades que utiliza estn elevadas al cuadrado. Por otro lado,
cuando se trabaja con muestra, se hice una correccin con el denominador y
en lugar de considerar n, consideraremos n - 1, por consiguiente la varianza
muestral se calcula con:

2
=1( )2
=
1
A pesar que la varianza cuantifica correctamente la variabilidad de las
observaciones de los datos con respecto a la media, sin embargo hay
dificultades en su interpretacin porque sus unidades estn expresadas al

Pgina 34
Estadstica

cuadrado, por consiguiente una medida alternativa es la DESVIACIN


ESTNDAR () y se define como la raz cuadrada de la varianza, es decir:

= ()

Ejemplo
Supngase que se tiene la estancia en das de 6 pacientes que fueron
admitidos en un hospital.
3, 4, 7, 2, 6, 5
Se pide calcular la desviacin estndar
Solucin
Primeramente necesitamos calcular:
3+4+7+2+6+5
=
6
27
= = 4.5
6
Ahora encontraremos la varianza de acuerdo a la definicin

(3 4.5)2 + (4 4.5)2 + (7 4.5)2 + (2 4.5)2 + (6 4.5)2 + (5 4.5)2


() =
6

17.5
() = = 2.917
6

= 2.917

= 1.71, quiere decir que los datos se


dispersan en promedio, 1.71 con respecto al
valor central.

Propiedades de la varianza
1. El valor de la V (X) es mayor o igual que cero cualquiera sea su
distribucin.

2. La varianza de una variable que toma el mismo valor es cero.

Considerando un ejemplo que nos permita demostrar las propiedades


mencionadas anteriormente.

Pgina 35
Estadstica

2.3.3. Coeficiente de variacin

Es una medida de dispersin relativa de la desviacin estndar con respecto


a la media, es decir:

. . = 100

El coeficiente de variacin no tiene unidades. Este coeficiente se utiliza para
comparar la dispersin o variabilidad de dos conjuntos de datos expresados
en diferentes unidades. Es ms, aunque se use la misma unidad de medicin,
las dos medidas de dispersin usadas pueden ser muy diferentes.
As, si se compara la desviacin estndar de los pesos de los nios de primer
grado con la desviacin estndar de los jvenes de 1 de facultad de
ciencias, es posible que se encuentre que la desviacin estndar de estos
ltimos sea numricamente mayor que la de los primeros porque los propios
pesos son mayores y no porque la dispersin sea mayor. En esta situacin
hay que utilizar una medida relativa de dispersin que sera el coeficiente de
variacin.
Ejemplo
Supongamos que en dos grupos se han determinado los siguientes
resultados:
Grupo 1 Grupo 2
Edad 25 aos 11 aos
Peso 72.5 Kgs. 40 Kgs.
5 Kgs. 5 Kgs.
N 15 15

Qu grupo es ms homogneo o menos variable con relacin al peso?


Solucin
Para identificar que grupo tiene menor variabilidad en relacin a la variable
peso, se tiene que utilizar el coeficiente de variacin porque los grupos estn
constituidos por sujetos con distintas edades promedio.
El coeficiente de variacin para la muestra 1 es:
C.V. = 5 / 72.5 x 100% = 6.9 %
El coeficiente de variacin para la muestra 2 es:
C.V. = 5 / 40 x 100% = 12.5%
De acuerdo a los resultados, la muestra 1 posee menos dispersin de los
pesos con respecto a la media en relacin a la muestra 2.

Pgina 36
Estadstica

Nota: Si el CV es menor del 10 % se dice que hay poca dispersin; si el C.V.


oscila entre el 10 % y el 33 % la dispersin existente es aceptable; si el C.V.
oscila entre el 33 % y el 50 % se dice alta dispersin; pero si el C.V. es mayor
del 50 % se dice que la dispersin es muy alta.

Ejercicios

1. Se realiz un estudio sobre la edad de las mujeres que utilizan anticonceptivos. Los
resultados fueron:

20, 21, 21, 19, 17, 22, 23, 24, 21, 22


a) Calcular la media aritmtica, mediana y moda
b) Explique las eventuales diferencias.
2. En una investigacin epidemiolgica se desea comparar dos tipos de vacunas para la
rabia en personas. Despus de su aplicacin, las respuestas a los anticuerpos, tres
semanas despus fueron:

TIPO 1: 3, 4, 5, 6,9
TIPO 2: 1, 4, 5, 6, 7
a) Calcular la media aritmtica y la desviacin estndar para cada tipo de vacuna.
b) Explique las eventuales diferencias.
3. La siguiente tabla muestra la distribucin del nmero de leucocitos en sangre de los
pacientes de un hospital, para una cierta enfermedad.

Nmero de leucocitos fi
(en miles)
5.0 5.9 8
6.0 6.9 15
7.0 7.9 33
8.0 8.9 41
9.0 9.9 28
10.0 10.9 19
11.0 11.9 6
Total 150

a) Calcular la media aritmtica, la mediana y moda. Interprete los resultados.


b) Calcular el nmero mnimo de leucocitos que presenta el 36 % de pacientes.

Pgina 37
Estadstica

4. Un investigador tiene los siguientes datos sobre los niveles de cido rico en el suero
de 50 varones sanos.

cido rico en suero fi


(mg/100 ml)
3.0 3.9 3
4.0 4.9 14
5.0 5.9 17
6.0 6.9 11
7.0 7.9 4
8.0 8.9 1
Total 50

a) Calcular la media aritmtica


b) Calcular el nmero mximo de cido rico en el suero que presenta el 75 % de
los varones sanos
5. Los siguientes datos son los resultados de la calificacin de estudiantes en un examen
de Estadstica, en una universidad.

Calificacin fi
30 39 5
40 49 10
50 59 18
60 69 26
70 79 15
80 89 7
90 99 4
Total 85

a) Calcular la media aritmtica, la mediana y la moda.


b) Si la nota mnima aprobatoria del curso es 55 cuntos alumnos aprobaron el
curso?

Pgina 38
Estadstica

Captulo III: Correlacin lineal

3. Introduccin

El anlisis de correlacin es un procedimiento que permite calcular y evaluar una


medida de la intensidad de la correlacin lineal simple entre dos variables X e Y. Estas
variables deben ser de preferencia cuantitativas y aleatorias.

Para determinar el grado de correlacin entre las variables X e Y en la poblacin que es


objeto de estudio se utiliza el coeficiente de correlacin de Pearson (Rho), denotado por
. El recorrido de este coeficiente est entre -1 y 1.

Para estimar el parmetro se recurre a una muestra aleatoria de n unidades. De cada


una de ellas se determinan los siguientes valores: (x1, y1), (x2, y2),..., (xn, yn). El estimador
del parmetro est dado por el coeficiente de correlacin muestral r definido como:

n xy( x)( y)
r=
n( x2 )( x)2 n( 2 )( )2

El recorrido del coeficiente de correlacin muestral r est en el intervalo:

-1 r 1

3.1. Cuanficacin de la fuerza de la relacin lineal

Los grficos correspondientes para algunos valores de p estn dados en:

a) Correlacin = -1 se considera perfecta e inversa

b) Correlacin -1 < < -0.5 es aceptable e inversa

c) Correlacin 0.5 < < 1 es aceptable y directa

d) Correlacin = +1 es perfecta y directa.

Pgina 39
Estadstica

a) DIAGRAMA DE DISPERSIN DE LOS PUNTOS (X,Y)

b) DIAGRAMA DE DISPERSIN DE LOS PUNTOS (X,Y)

c) DIAGRAMA DE DISPERSIN DE LOS PUNTOS (X,Y)

Pgina 40
Estadstica

d) DIAGRAMA DE DISPERSIN DE LOS PUNTOS (X,Y)

3.2. Contraste de hiptesis para determinar si el coeficiente de correlacin muestral es


significativo

Para evaluar si el coeficiente de correlacin muestral r es estadsticamente


significativo se tiene que contrastar las siguientes hiptesis:

Ho: = 0
H1: 0

La estadstica de prueba es:

n2
t 0 = r 1r2

t0 sigue una distribucin t de Student con ( n - 2 ) grados de libertad si H0 es


verdadera.
Considerando el valor calculado de t0 que est dado por tc y la distribucin t(n-2) se
calcula la probabilidad de cometer el error tipo I denotado por p, por lo que se
establece la siguiente regla de decisin:

Si: < 0.05, se rechaza H0


0.05, no se rechaza H0

Pgina 41
Estadstica

Ejemplo 1:

Se tiene informacin en cuanto a estatura (cm.) y peso (kg.) de los 10 primeros


pacientes que llegaron al laboratorio de anlisis clnico del Hospital Hiplito Unanue el
da de ayer.

Tabla 1

ESTATURA (cm.) X 150 155 180 160 170 165 185 175 160 165
PESO
Y 55 50 85 65 75 60 80 70 65 60
(kg.)

Encontrar el coeficiente de correlacin de Pearson y luego evaluar si el valor encontrado


es estadsticamente significativo.

Solucin

A continuacin elaboramos un diagrama de dispersin de datos correspondiente a la


estatura y peso de 10 pacientes. Este diagrama se presenta en el grfico N 8 el cual nos
indica que hay una buena correlacin positiva entre ambas variables.
ESTATURA PESO
(cm.) (kg.) X*Y X2 Y2
X Y
150 55 8,250 22,500 3,025
155 50 7,750 24,025 2,500
180 85 15,300 32,400 7,225
160 65 10,400 25,600 4,225
170 75 12,750 28,900 5,625
165 60 9,900 27,225 3,600
185 80 14,800 34,225 6,400
175 70 12,250 30,625 4,900
160 65 10,400 25,600 4,225
165 60 9,900 27,225 3,600
x = 1,665 y = 665 xy = 111,700 x = 278,325
2 y =45,325
2

De los datos, obtenemos lo siguiente:

n = 10 x = 1,665 y = 665
xy = 111,700 x2 = 278,325 y2 = 45,325
xy = 1107,225 (x)2 = 2772,225 (y)2 = 442,225
nxy = 1117,000 nx2 = 2783,250 ny2 = 453,250

Pgina 42
Estadstica

Reemplazando estos valores en la frmula (1) tenemos:


1117,000 1107,225
r=
2783,250 2772,225 453,250 442,225
9,775
r=
11,025 11,025

r = 0.88662131519 r 2 = 0.786097356549245
r 0.89 r 2 0.79

Grfico N 8
Dispersin de los datos

Pgina 43
Estadstica

En seguida se contrastar la siguiente hiptesis:


Ho: = 0
H1: 0
La estadstica que le corresponde, para contrastar esta hiptesis, es la "prueba t" que
est expresada como:

n2
t = r 1r2 Le corresponde la distribucin t de student con n 2 grados de
libertad (t(n.2)), si H0 es verdadera.

Respecto al ejemplo los grados de libertad que le corresponden a la distribucin t es de


10 - 2 = 8. (t(8)); considerando un nivel de significacin de = 0.05 y 8 grados de
libertad, en la tabla t, le corresponde el valor de tt = 2.306. Por tanto, si tc > 2.306
rechazamos H0. En caso contrario no rechazamos H0.
Reemplazando valores en la estadstica de prueba y realizando los clculos respectivos
se tiene:

n2
tc = r
1 r2

10 2
t c = 0,89
1 (0,89)2

8
t c = 0,89
0,2079

Por consiguiente, tc = 5,52

Como tc > 2,306, rechazamos H0 a un nivel de significacin de 0.05. Obteniendo el


valor de p, con la tabla "t", con 8 g.l. y una prueba bilateral, resulta p < 0.001. Que nos
permite concluir que existe correlacin lineal estadsticamente significativa entre
estatura y peso en la poblacin de alumnos.

Pgina 44
Estadstica

Ejercicios

1. Una compaa farmacutica conduce un estudio piloto para evaluar la relacin entre
tres dosis de un nuevo agente hipntico y tiempo de sueo. Los resultados de este
estudio son presentados de la siguiente manera:

Tiempo de sueo Dsis


(hrs.) (mm/kg)
4 3
6 3
5 3
9 10
8 10
7 10
13 15
11 15
9 15
Se pide que:
a) Identifique la variable independiente y dependiente.
b) Elabore un diagrama de dispersin de puntos. Qu tipo de relacin se da entre
las dos variables?
c) Determine e interprete el coeficiente de correlacin.
d) Realice el contraste de la hiptesis.

2. El administrador d un hospital reuni los siguientes datos respecto del costo por
comida de una comida estndar a diferentes volmenes de preparacin. Los
resultados son presentados de la siguiente manera:

Nmero de comidas servidas Costo por comida


(X) (Y)
30 1.15
35 1.10
40 0.98
45 1.01
50 0.97
55 0.90
60 0.89
65 0.80
70 0.85
75 0.78
80 0.70

Pgina 45
Estadstica

Se pide que:
a) Identifique la variable independiente y dependiente.
b) Elabore un diagrama de dispersin de puntos. Qu tipo de relacin se da entre
las dos variables?
c) Determine e interprete el coeficiente de correlacin.
d) Realice el contraste de la hiptesis.

3. Supongamos que deseamos determinar si existe una asociacin entre el contenido de


hemoglobina en mg/100 ml y el recuento de glbulos rojos en millones por milmetro
cbico. Elegimos en forma aleatoria 12 varones de la poblacin y medimos en cada
persona la concentracin de hemoglobina y el recuento de glbulos rojos (los
resultados se muestran en la tabla siguiente). Se pide que:

a) Elabore el diagrama de dispersin de los datos. Qu tipo de asociacin se tiene?


b) Calcule el coeficiente de correlacin de la muestra. Interprete el resultado.
c) Pruebe la hiptesis de que la correlacin de la muestra es estadsticamente
significativa.

Sujeto Hb GR
(mg/100 ml) (millones/mm3)
1 15.2 5.1
2 16.4 5.4
3 14.2 4.5
4 13.0 4.2
5 14.5 4.3
6 16.1 6.1
7 15.2 5.2
8 14.8 4.3
9 15.8 4.7
10 14.9 4.8
11 15.6 4.6
12 14.7 4.8

4. Se efectu un experimento para determinar la relacin entre la edad y el ritmo


cardaco (latidos por minuto) en nias de 1 a 15 aos de edad, (los resultados se
muestran en la tabla siguiente). Se pide que:

a) Elabore el diagrama de dispersin de los datos. Qu tipo de asociacin se tiene?


b) Calcule el coeficiente de correlacin de la muestra. Interprete el resultado.
c) Pruebe la hiptesis de que la correlacin de la muestra es estadsticamente
significativa.

Pgina 46
Estadstica

N Edad de la Latidos por


nia minuto
1 1 111
2 2 108
3 3 108
4 4 102
5 5 99
6 6 92
7 7 93
8 8 88
9 9 90
10 10 90
11 11 88
12 12 86
13 13 84
14 14 83
15 15 83

Pgina 47

Vous aimerez peut-être aussi