Vous êtes sur la page 1sur 58

ASOCIACION UNIVERSIDAD PRIVADA SAN JUAN BAUTISTA

FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DECOMPUTACION Y SISTEMA

PROF. HECTOR BEJARANO BENITES

hbejaranob@hotmail.com

ASOCIACION UNIVERSIDAD PRIVADA SAN JUAN BAUTISTA


FACULTAD DE INGENIERIA ESCUELA PROFESIONAL DECOMPUTACION Y SISTEMA

Elaboracin de datos
Clasificacin de datos segn tipo de variable. Presentacin de la informacin

ELABORACION DE DATOS
Una vez que se han captado o recopilado los datos de cada uno de los elementos del grupo de estudio, estos datos, son revisados, clasificados, presentados y resumidos para que permita su anlisis e interpretacin.

Clasificacin de datos y presentacin de la informacin

Los datos no se recopilan como un fin en s mismos, sino como un medio para describir los hechos que estn tras los datos

CLASIFICACION DE DATOS La clasificacin consiste en agrupar los datos en un nmero determinado de categoras o clases. El nmero de categoras o clases depende del tipo de variable.

CLASIFICACIN DE DATOS SEGN VARIABLE CUALITATIVA


Ejemplo: Poblacin: Digitadores de la empresa COMPUSYSTEM. Caractersticas cualitativas de inters a estudiar: Sexo: Masculino (M), Femenino (F) Estado de la computadora: Bueno, Regular o Malo Nivel socio econmico: B, C y D

CLASIFICACIN DE DATOS SEGN UNA VARIABLE CUALITATIVA


Estado de la PC
Bueno Regular Malo Total

Sexo Masculino Femenino Total

CLASIFICACIN DE DATOS SEGN UNA VARIABLE CUALITATIVA:

Nivel socioeconmico B C D Total

CLASIFICACIN DE DATOS SEGN DOS VARIABLES CUALITATIVAS:

Estado de la PC Bueno Regular Malo Total

Sexo Masculino Femenino Total

CLASIFICACIN DE DATOS SEGN DOS VARIABLES CUALITATIVAS:

Estado de la PC
Bueno Regular Normal Total

Nivel Socioeconmico B C D

Total

Clasificacin de datos segn tres variables cualitativas


Sexo Nivel Socio Econ. Estado de la PC Bueno Regular Malo Total

Masculino

B C D B C D

Femenino

Clasificacin de datos segn variable discreta Ejemplo: X: N de PCs por familia Se tiene 50 familias y los datos son: 5 3 1 2 1 0 1 2 0 1 3 0 1 0 1 4 3 5 2 1 0 1 2 0 1 4 5 1 3 4 1 0 1 0 2 3 1 0 1 2 5 4 1 0 1 0 2 3 4 0

Las categoras que se consideran en la clasificacin es segn los diferentes valores de la variable

N PCs/familia 0 1 2 3 4 5 Total

fi

hi*100

Fi

Hi*100

PROCEDIMIENTO PARA CONSTRUIR TABLAS DE FRECUENCIAS Segn VARIABLE CUANTITATIVA


DATOS PERSONALES DE 60 ADULTOS
ADULTOS
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 . . . 54 55 56 57 58 59 60

CIUDAD
A A B C A D C A B B C A A D D B A A C D . . . C D A A B B C

EDAD
30 43 58 61 70 42 58 39 60 55 57 49 61 69 43 46 69 44 59 62 . . . 65 37 40 61 65 56 38

SEXO
M M F M M F F M F M M M F M M F M M F M . . . M M F F M M M

Caso de variables cuantitativas continuas

Aqu se presenta una serie de dificultades para poder establecer las categoras, sin embargo, se dar un procedimiento que servir como gua u orientacin para formar los intervalos de la variable

PROCEDIMIENTO PARA CONSTRUIR TABLAS DE DISTRIBUCION DE FRECUENCIAS 1.- Determinar la amplitud del conjunto de datos, es decir, el valor mximo menos el valor mnimo, mas uno si los datos estn expresados en enteros: A=(Vmax - Vmin)+ 1

Ejemplo.- Considerando los datos de edad dado en el tabla tenemos: A=(71 - 30) + 1= 42 Nota: Si los valores mximo y mnimo estn expresados hasta dcimas se incrementar un dcimo (0.1); si los valores estn expresados en centsimos, se agregar un centsimo (0.01) y as sucesivamente.

2- Determinar el nmero de intervalos (denotado por k), utilizando la siguiente frmula: __ k= n En relacin al ejemplo se tiene que: __ k= 60 = 7.7 Por tanto, k puede ser 6 o 7 o 8. En este caso, para nuestro ejemplo k puede ser 6, es decir, K= 6. 3-Determinar la amplitud del intervalo de clase C, utilizando la siguiente expresin: C= A / k Para nuestro ejemplo: C= 42 / 6 = 7

4- Como los nmeros estn expresados en enteros, el Vmn es el lmite inferior de la primera clase y su respectivo lmite superior ser Vmin + (C1); el lmite inferior de la segunda clase es el lmite superior de la primera clase mas uno y el respectivo lmite superior ser igual al lmite inferior mas (C-1); y as sucesivamente hasta completar el nmero de intervalos.

Edad relacin al ejemplo se tiene: En mnima 30-36

30 + (7 1 ) 36 + 7, as sucesivamente

30 + 7, as sucesivamente

37-43 44-50 51-57 58-64 65-71

Edad mxima

Nota:

Si los lmites estn expresados hasta dcimas entonces se tendr que el lmite superior de la primera clase es: Vmn + (C-0.1); si est expresado hasta centsimas ser Vmn + (C-0.01) y as sucesivamente.
5- La clasificacin de los datos de una variable continua puede hacerse manualmente o en forma automatizada.

TABLA DE FRECUENCIAS

CLASE

EDAD

Xi

fi

Fi

hi%

Hi%

Lmites reales

1 2 3 4 5 6 TOTAL

30-36 37-43 44-50 51-57 58-64 65-71

33 2 2 40 14 16 47 6 22 54 6 28 61 16 44 68 16 60 60

3.3 3.3 23.3 26.7 10.0 36.7 10.0 46.7 26.7 73.3 26.7 100.0 100.0

29.5-36.5 36.5-43.5 43.5-50.5 50.5-57.5 57.5-64.5 64.5-71.5

donde: fi: Frecuencia absoluta del i-simo intervalo, nos indica nmero de veces que aparece repetido dicho valor en el conjunto de observaciones estudiadas.

Fi: Frecuencia absoluta acumulada de la clase i nos indica la suma de las frecuencias absolutas de los iguales o inferiores a el. F1=f1 F2=f1+f2 hi%: Frecuencia relativa de la clase i es el cociente entre la frecuencia absoluta y el nmero total de observaciones multiplicando por 100. hi% = fi/n*100

Hi%: Frecuencia relativa acumulada de la clase i, es la frecuencia absoluta acumulada dividido por el nmero total de observaciones. Hi% = Fi/n*100
Xi: Es la marca de clase de la clase i se determina mediante el promedio de los lmites de dicho intervalo. Limites reales: Si los lmites nominales de los intervalos de clase estn expresados en enteros los lmites reales de cada intervalo se determina restando y sumando media unidad al lmite inferior y superior respectivamente de cada intervalo.

Clasificacin de datos segn variable continua

LA FRECUENCIA CARDIACA EN 50 TRABAJADORES FUMADORES DE LA USJB; FUERON : 80 79 69 80 77 69 80 76 90 72 75 76 79 74 71 78 77 80 76 79 70 73 78 72 68 70 91 66 79 75 89 88 91 86 83 81 68 79 80 85 83 82 81 80 78 73 79 84 68 66

Nmero de horas que durmieron despus que se les aplic una cierta forma de anestesia a 35 estudiantes que acudieron a un hospital

3.1 0.9 17.0 10.3 7.6 11.0 7.1 6.6 4.0 5.4 3.1 1.4 5.2 3.7 13.0 7.6 7.0 4.5 2.3 13.2 7.7 11.8 11.9 3.0 6.6 2.9 9.7 7.8 3.5 8.3 4.6 7.2 1.1 3.5 3.9 Construir tabla de distribucin de frecuencias

Presentacin de la informacin La presentacin de los datos se hace fundamentalmente utilizando dos mtodos: .- Tabular y el .- Grfico

METODO TABULAR
Consiste en una presentacin resumida de la informacin usando tablas. Si se utilizan las tablas debe prestarse atencin a los cuatro elementos que los constituyen:
.- el ttulo, .- la matriz, .- el cuerpo .- y las notas aclaratorias.

EL TTULO Es un enunciado breve e informativo acerca del contenido de la tabla. Un buen ttulo debe contestar a las siguientes preguntas: Qu contiene la tabla? Cmo se presenta este contenido? De dnde se presenta? Cundo se obtuvo la informacin?. Abreviadamente se puede decir: Qu? Cmo? Dnde? y Cundo?

LA MATRIZ
La tabla est constituida por el primer rengln y la primera columna, en donde se anotan los nombres de las categoras o los lmites de los intervalos en forma tan concisa como sea posible. En la tabla N1, la matriz est compuesta por el rengln en donde aparecen las palabras Distrito, Nmero y Porcentaje, as como por la primera columna en donde se leen los nombres de los cuatro distritos y los totales. En la tabla N2, la matriz es el espacio donde aparecen las variables distrito y sexo con sus correspondientes categoras y el Total.

EL CUERPO La tabla est conformado por espacios (delimitados o no por segmentos de recta) que constituyen intersecciones de renglones y columnas, que a veces se denominan celdas en donde se anotan el nmero (N) y porcentajes obtenidos en la tabulacin, incluyendo los subtotales y totales. En la tabla N1, el cuerpo est constituido por las cifras que representan el nmero de pacientes con cncer pulmonar y por el total, con sus respectivos porcentajes.

LAS NOTAS ACLARATORIAS Estn constituidas por toda aquella informacin adicional que es necesaria para describir e interpretar adecuadamente el contenido de la tabla y para enterarse de dnde se obtuvo la informacin presentada, es decir la Fuente. En las tablas N1, N2 y N3 la nota aclaratoria est conformada por la Fuente.

Ejemplo: Sesenta pacientes con ludopatia provenientes de 4 distritos fueron atendidos en el Hospital Nacional Arzobispo Loayza de Lima en el ao 2011.
El titulo se redactara contestando a: Qu?: Pacientes con ludopatia Cmo?: Distrito de residencia Dnde?: Hospital Nacional Arzobispo Loayza Cundo?: 2011

TABLA N1 Pacientes con ludopata segn distrito de residencia. Hospital Nacional Arzobispo Loayza. Lima. 2011

Distrito La Perla
Callao La Punta Bellavista Total

Nmero 22
12 14 12 60

Porcentaje 36.7
20.0 23.3 20.0 100.0

Fuente: Archivo del departamento de estadstica del Hospital Arzobispo Loayza. Lima. 2011.

TABLA N2 Pacientes con ludopata segn distrito de residencia y por sexo. Hospital Arzobispo Loayza. Lima. 2011 .

Distrito
Sexo Femenino Masculino Total La Perla 8 14 22 Callao 6 6 12 La Punta 4 10 14 Bellavista 2 10 12 Total 20 40 60

Fuente: Archivo del departamento de estadstica del Hospital Arzobispo Loayza. Lima. 2011.

TABLA N 3 Distribucin de los pacientes con ludopata segn edad. Hospital Arzobispo Loayza. Lima. 2011 Edad (aos) 30-36 N 2 % 3.3

37-43
44-50 51-57 58-64 65-71 Total

14
6 6 16 16 60

23.3
10.0 10.0 26.7 26.7 100.0

Fuente: Archivo del departamento de estadstica del Hospital Arzobispo Loayza. Lima - 2011.

MTODO GRFICO

Esencialmente un grfico estadstico es la presentacin de la informacin por medio de figuras geomtricas.


El objetivo primordial de un grfico es dar una impresin visual de conjunto para una rpida y fcil comprensin del fenmeno que se est estudiando.

Por tal motivo un grfico debe ser sencillo y explicativo.

Grfica de los datos segn una variable categrica


Para representar variables categricas se utilizan grficos: .- de barras, .- de sectores circulares, y .- pictogramas, etc.

GRAFICO N1 PACIENTES CON LUDOPATIA SEGN DISTRITO DE RESIDENCIA. Hospital Arzobispo Loayza. Lima 2011.
24

20

Nmero de pacientes

16

12 22 8 14 12 4 12

0 La Perla Callao Distrito La Punta Bellavista

Fuente: Tabla N 1

GRAFICO N2 PACIENTES CON LUDOPATIA SEGN DISTRITO DE RESIDENCIA Y POR SEXO. Hospital Arzobispo Loayza. Lima.2011

16
Nmero de Pacientes

14 12 10 8 6 4 2 0 La Perla Callao La Punta Bellavista

Fuente: Tabla N 2

Distrto Femenno Masculino

Grfico de sectores circulares. Para su elaboracin se utiliza la circunferencia siendo necesario que los valores absolutos y/o porcentajes sean traducidos a grados, los 360 se reparten en proporcin a los porcentajes. Correspondiendo a cada sector de la circunferencia la magnitud de cada categora de la variable. Tomando los datos de la tabla N 1, podemos representar dichos resultados en el Grfico N 4.

GRAFICO N4 PACIENTES CON LUDOPATIA SEGN DISTRITO DE RESIDENCIA. Hospital Arzobispo Loayza.Lima.2011

Bellavista 20%

La Perla 37%

La Punta 23% Callao 20%


Fuente: Tabla N 1

Grfica de datos segn una variable numrica


Si los datos corresponden a variables continuas se representarn grficamente mediante: histogramas y polgonos de frecuencias. Es un grfico que se utiliza para representar las frecuencias absolutas o relativas mediante rectngulos adyacentes, teniendo como base los respectivos lmites reales de los intervalos de clase y la altura proporcional a la frecuencia respectiva. Las reas de los rectngulos son proporcionales a la frecuencia de la clase.

GRAFICO N 5 PACIENTES CON LUDOPATIA SEGN EDAD. Hospital Arzobispo Loayza. Lima.2011 20 16 12 8 4 0 33 40 47 54 61 68 Edad (aos)

Nmero de pacientes

Fuente: Tabla N 3

Polgono de frecuencias (simples),


Este grfico se obtiene uniendo los puntos medios superiores de los rectngulos del histograma, formndose de esta manera un grfico lineal, el cual debe llevarse hasta el eje x en los extremos del lmite inferior del primer intervalo y superior del ltimo intervalo respectivamente. El rea total bajo el polgono equivale al rea del histograma.

GRAFICO N 6 PACIENTES CON LUDOPATIA SEGN EDAD. Hospital Arzobispo Loayza. Lima - 2011 20 16 12 8 4 0 33 40 47 54 61 68 Edad (aos)

Nmero de pacientes

Fuente: Tabla N 3

Polgono de frecuencias acumuladas Denominado tambin ojiva, utiliza las frecuencias absolutas o relativas acumuladas, y consiste en un grfico lineal que nos permite observar la cantidad de elementos que quedan por encima o por debajo de determinados valores de los lmites de los intervalos de clase. La ojiva se obtiene uniendo los puntos que le corresponden a las frecuencias acumuladas de los respectivos lmites superiores de cada intervalo.

GRAFICO N7 HISTOGRAMA Y POLIGONO DE FRECUENCIAS RELATIVAS ACUMULADAS PACIENTES CON LUDOPATIA SEGN EDAD. Hospital Arzobispo Loayza. Lima.2011

H% 100 80 60 40 20 0 33
Fuente: Tabla N 3

40

47

54

61

68

Edad (aos)

Mtodo alternativo:

DIAGRAMA DE TALLOS Y HOJAS

Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Ciudad A A B C A D C A B B C A A D D B A A C D D C C C D A A B B C

Edad 30 43 58 61 70 42 58 39 60 55 57 49 61 69 43 46 69 44 59 62 66 71 70 65 37 40 61 65 56 38

Sexo M M F M M F F M F M M M F M M F M M F M M M F M M F F M M M

EJEMPLO: Datos generales de 30 ingenieros de sistema

DIAGRAMA DE TALLOS Y HOJAS

Un diagrama de tallos y hojas consiste en una serie de hileras horizontales de nmeros. El nmero utilizado para designar una hilera es un tallo y el resto de nmeros en la hilera se denominan hojas.

3 0 4 5 6 7 1

DIAGRAMA DE TALLOS Y HOJAS

EJEMPLO: Se tienen los siguientes datos Gastos en fotocopias (soles) de estudiantes de Ingeniera USJB por ejemplo- ordenados de forma creciente:
33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0 34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3 34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8 34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8 36.0 36.1 36.5

DIAGRAMA DE TALLOS Y HOJAS

Para la clasificacin de datos, se deben identificar los valores entre los cuales se encuentra la distribucin, es decir, el dato menor y el dato mayor.
Dato menor: 33.1cm Dato mayor: 36.5cm

DIAGRAMA DE TALLOS Y HOJAS

Se deben identificar los tallos -los nmeros que van a designar las hileras- los cuales deben contener a todos los valores de la distribucin (del 33.1 al 36.5). La eleccin de los tallos depende de la unidad con la que se quiera trabajar: enteros, dcimas, centsimas... En el caso del ejemplo, los datos estn dados indicando dcimas por lo que trabajar con tallos enteros es la opcin ms precisa y cmoda. Los tallos seran entonces: 33, 34, 35 y 36.

DIAGRAMA DE TALLOS Y HOJAS

Sin embargo, no se puede realizar un diagrama de tallos y hojas con menos de 5 tallos. Por lo tanto, los tallos propuestos se deben dividir (desdoblar) en una especie de intervalo, produciendo el doble. La divisin del tallo debe distinguirse visualmente: 33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0 34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3 34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8 34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8 36.0 36.1 36.5

DIAGRAMA DE TALLOS Y HOJAS Seguidamente, se realiza el proceso de clasificacin en s. Todos los datos, dependiendo de su valor, se colocan a lado de su respectivo tallo. En el ejemplo, los datos cuyo valor se encuentre entre 33.0 y 33.4 se deben colocar en la hilera del tallo 33*. Se debe indicar el valor decimal exacto de cada dato a la derecha del tallo. En el ejemplo hay 2 valores entre 33.0 y 33.4. Para clasificar el primero (33.1) se agrega al diagrama de tallos y hojas de la siguiente manera: 33*1 Para clasificar el segundo dato que corresponde a este tallo (33.4): 33*14

DIAGRAMA DE TALLOS Y HOJAS

Lo mismo se realiza con cada tallo y lo valores que le correspondan: en la hilera del tallo 33. se debe colocar los nmeros 67789, correspondientes a los valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9. a la hilera del tallo 34* se debe colocar 012222233 correspondientes a los valores que se encuentran entre 34.0 y 34.4. etc.

DIAGRAMA DE TALLOS Y HOJAS

Al clasificar todos los valores en sus tallos respectivos, se obtiene el diagrama:

Anlisis de la distribucin usando Tallos y Hojas


Las principales caractersticas de la distribucin que se observan fcilmente en el diagrama de tallos y hojas son:
Hay 35 observaciones. El dato menor es 33.1 soles El dato mayor es 36.5 soles El rango de los valores observados es de 3.4 soles
(dato mayor dato menor).

De los 35 datos, 18 estn alrededor de 34 soles Los casos mayores a 36 soles son pocos. La distribucin de los datos es asimtrica: distribucin heterognea.

GRACIAS POR SU ATENCION