Académique Documents
Professionnel Documents
Culture Documents
LA ESTADISTICA
DESCRIPTIVA
Y
SUS METODOS
Si observamos la definicin que hemos
adoptado de la Estadstica y por ende la
Bioestadstica para la Ctedra,
podemos individualizar dos tipos o
ramas de la Estadstica, dependiendo
del propsito de estudio.-
ESTADISTICA
DESCRIPTIVA
O DEDUCTIVA
TIPOS
DE
ESTADISTICAS
ESTADISTICA
INFERENCIAL
O INDUCTIVA
La Estadstica Descriptiva
comprende aquellos mtodos
usados para recopilar, organizar
y describir la informacin que
se ha recogido con el fin de
describir sus caractersticas.-
Supongamos que se realiza un estudio para determinar
los niveles sricos de plomo de 150 nios que viven en
las casas mas viejas de un vecindario urbano en
particular.- Si uno investigara los hallazgos de este
estudio, obtendra una lista de los resultados de las
pruebas individuales.- De tal forma, se reportara que el
primer resultado mostr un nivel de 20 mcg/dl
(microgramos por decilitro, tambin designados como
g/dl o como ug/dl), mientras que el segundo arrojo un
valor de 25 mcg/dl y as sucesivamente.- Despus de
incluir en la lista los 150 resultados de la prueba es
probable que el investigador alcanzara a comprender
un poco de la informacin obtenida.- Tal informacin
no resumida abrumara la habilidad del oyente para
llegar a una conclusin significativa.- Una respuesta
mas util podria ser decir que el promedio de los niveles
sericos de plomo encontrado en los nios de la prueba
fue de 30 mcg/dl.- Otros resmenes podra incluir los
valores mas altos y mas bajos, as como representacin
graficas de los datos para explicarlos.-
De esta manera, la estadstica descriptiva se ocupa
exactamente de lo que implica el termino: descripcin
de datos.- Para reiterar, los investigadores podran
observar fcilmente los resmenes de los datos
relacionados con los elementos de una muestra como
de una poblacin.-
La Estadstica Inferencial comprende
aquellos mtodos y tcnicas usadas
para hacer generalizaciones,
predicciones o estimaciones sobre una
caracterstica de la poblacin o la toma
de una decisin con respecto a una
poblacin, a partir de una muestra de
esa poblacin.-
POBLACION O
UNIVERSO
Definicin 1: El conjunto de
personas, animales o cosas que
son objeto de nuestro estudio.-
Definicin 2: es la que esta
formada por la totalidad de las
SE LA
SIMBOLIZA
observaciones en las cuales se
CON N tiene cierto inters.-
Elementos o Unidad
Estadstica: Son las personas,
animales o cosas que forman la
poblacin.-
TAMAO DE LA POBLACION
VARIABLES
VARIABLES NUMERICAS
CATEGORICAS
DE
NOMINAL INTERVALOS
DE RAZON,
ORDINAL
COCIENTE O
PROPORCION
NOMINAL O DE CLASIFICACIN
Datos transversales.
Se renen en el mismo momento de
tiempo
Datos longitudinales.
Son los datos de series de tiempo, se
coleccionan a lo largo de varios perodos
de tiempo.-
LOS DATOS SE PUEDEN OBTENER
POR FUENTES
PRIMARIAS SECUNDARIAS
DATOS PRIMARIOS: son aquellos que se
encuentran en la forma original en que fueron
registrados (datos brutos), sin haber sufrido
ningn tipo de tratamiento o elaboracin
propia.-
NO PROBABILSTICAS PROBABILSTICAS
Sistemtica
Muestra por cuota
Estratificada
Por grupo naturales
Por
conglomerados
MUESTRA ALEATORIA SIMPLE.-
Una muestra aleatoria simple, es aquella en la cual cada
individuo o elemento de una poblacin tiene la misma
oportunidad de ser elegido.- Adems, cada muestra de un
tamao fijo tiene la misma probabilidad de ser elegida,
que cualquier otra muestra del mismo tamao.- El
muestreo aleatorio simple, es la tcnica de muestreo
aleatorio ms elemental y constituye la base para otras
tcnicas.-
En el muestreo aleatorio simple, se una n para
representar el tamao de la muestra y N para representar
el tamao de la poblacin.- Cada persona o elemento en
el marco se enumera de 1 a N.-
La probabilidad de seleccionar a cualquier miembro en
particular de la poblacin la primera vez es igual a 1/N.-
Existen dos mtodos bsicos para seleccionar muestras:
CON
REEMPLAZO
SIN
REEMPLAZO
El muestreo con reemplazo, implica que una
vez seleccionada una persona o elemento, se regresa al
marco donde tiene la misma probabilidad de ser elegida
de nuevo.- Imagine que tiene una urna con 500 tarjetas de
presentacin.- Suponga que en el primer sorteo sale la
ficha de Juan Llanos.- La informacin pertinente se
registra y se regresa la tarjeta a la urna.- Despus se
mezclan bien las tarjetas y se saca una segunda tarjeta,.
En esta segunda extraccin Juan Llanos, tiene la misma
probabilidad de salir 1/N, de ser elegida de nuevo.- Se
repite el procedimiento hasta alcanzar el tamao muestra
n deseado.- Sin embargo, suele considerarse ms
adecuado tener una muestra de personas o elementos
diferentes en lugar de permitir la repeticin de
mediciones de la misma persona o elemento.-
En el muestreo sin reemplazo, no se regresa la
persona o elemento al marco una vez seleccionado y por lo tanto,
no puede elegirse otra vez.- Como antes, en el muestreo sin
reemplazo la probabilidad de que algn miembro especfico de la
poblacin, por ejemplo Juan Llanos, sea elegido en el primer
intento es 1/N.- La probabilidad de que, cualquier individuo no
seleccionado, salga elegido en el segundo intento ser 1 / N-1.-
Este proceso continua hasta alcanzar el tamao de muestra n
deseado.-
02
03
04
99
100
ACTIVIDAD 1
81 80 74 2 2 2 163 46 2
82 78 78 2 2 2 170 52 2
83 68 68 2 2 2 175 68 2
84 72 68 2 2 2 173 50 2
85 82 80 2 2 2 160 53 1
86 76 76 2 1 2 157 49 3
87 87 84 2 2 2 160 43 3
88 90 92 2 1 2 163 57 1
89 78 80 2 2 2 173 60 1
90 68 68 2 2 2 157 50 2
91 86 84 2 2 2 170 68 3
92 76 76 2 2 2 157 49 2
EL ANALISIS DE LA
MATRIZ DE DATOS
An cuando la matriz de datos constituye una
organizacin que facilita el acceso a los
registros, es indudable que nuestra capacidad
cognitiva no nos permite entender el
comportamiento de los datos y obtener
informacin a partir de ellos.- Por ejemplo, en la
matriz de datos de la encuesta realizada a 92
estudiantes, quizs con una mirada rpida a la
matriz podramos saber el sexo predominante
entre los estudiantes, pero difcilmente
podramos dar alguna conclusin sobre las
pulsaciones despus de correr, o cual es la
altura promedio de ellos, etc, y adems sera
imposible establecer si hay alguna relacin entre
el peso y la altura de los estudiantes.-
Esta limitacin de procesar
mentalmente tal cantidad de
informacin, nos obliga a recurrir
a nuevas herramientas que
permitan resumir los datos
haciendo visibles aspectos que
de otra forma permaneceran
ocultos.- Ahora bien, decidir
cuales son las herramientas ms
apropiadas depende en primer
lugar de las preguntas que
intentemos responder y que,
como ya dijimos, son las que
guan todo el proceso de
anlisis.-
1.- Es heterogneo el grupo en cuanto a su edad?.-
2.- Hay predominio de mujeres?.-
3.- La composicin por sexo vara segn sea si fuman
o no?
4.- Hay alguna relacin entre el peso y la altura de los
alumnos?
5.- El pulso depende de si el alumno corri o no?
6.- Las diferencia entre el pulso antes de correr y
despus son valores ms o menos homogneos?.-
7.- Habr alguna relacin entre el sexo, si corri o no
y el peso de los alumnos?.-
8.- Se trata de estudiantes que dicen tener que tipo de
actividad fsica, alta, baja o media?
En este sinttico listado de preguntas podemos
distinguir aquellas que involucran a una sola
variable, a dos variables, y a tres o ms
variables.- Para la bsqueda de respuesta a
esas preguntas ser necesario utilizar
herramientas estadstica diferentes segn sea el
nmero de variables consideradas.-
Como se menciono oportunamente:
Nuestra nueva
matriz ser:
Esta es la matriz muestral para empezar a
trabajar los mtodos estadsticos.-
Pulso
N 1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
LAS DISTRIBUCIONES
DE FRECUENCIAS
EN EL
ANALISIS UNIVARIADO
Las distribuciones de frecuencia constituye un
primer resumen de los datos, que nos permitirn
formarnos una idea de cada una de las
caractersticas consideradas en la investigacin,
construir nuevas clasificaciones, evaluar la
posibilidad de aplicar otras herramientas de
anlisis (que ya veremos oportunamente), y
reformularnos algunas de las pregunta inicial,
plantear otras, etc.-
La construccin de una distribucin de frecuencia
es un procedimiento sencillo e intuitivo que
consiste en contar el nmero de veces que se
repite cada valor de la variable en estudio sea
esta categrica o numrica, en el conjunto de
todas las observaciones.-
Frecuencia absoluta: es el nmero de veces
que se repite un mismo valor de la variable (una
misma categora si se trata de una variable
categrica, un mismo nmero si la variable es
numrica, en el conjunto de los n individuos
observados.-
La distribucin de frecuencia
para una sola variable
categrica se la suele llamar
tambin Tabla Resumen y
esto no es ms que un
cuadro estadstico.-
Para elaborar un cuadro
estadstico debemos tener en
cuenta ciertas caractersticas
que a continuacin
menciono.-
PARTES DE UN CUADRO ESTADISTICO (supongamos un
rayado cualquiera)
TITULO NOTA DE
CALCE
Encabezado
y
sub.-
encabezado
CUERPO
Columna
Matriz o
concepto
FUENTE
Nota al pie
1.-TITULO.- Se coloca siempre sobre el cuadro, ya que
leemos de arriba hacia abajo.- Si el titulo es muy largo,
se coloca en forma de pirmide truncada.-
Un titulo debe responder a cuatro preguntas bsicas:
QUE?, que es lo que queremos mostrar.-
DONDE?, se refiere al lugar donde fueron obtenidos.-
COMO?, se refiere a como queremos mostrar los datos.-
CUANDO?, hace referencia cuando fueron obtenidos los
datos.-
2.-ENCABEZADO Y SUBENCABEZADOS.-
Son las denominaciones de las columnas y
responde al Como del titulo.- Una columna
puede tener subencabezados.-
3.-COLUMNA MATRIZ O CONCEPTO.- Son
las denominaciones de la filas.- Responde
tambin al Como del titulo.-
HIV 15 12,5
Triglicridos 24 20,0 19 X 100
120
TOTAL 120 100,0
Fuente: Elaboracin propia
EL RECURSO GRAFICO
Las dos formas grficas ms utilizadas para presentar un
tabla de frecuencia o cuadro resumen, son el grfico de
barras horizontales , porque nosotros leemos de
izquierda a derecha y las modalidades quedan en forma
horizontal y el grfico llamado de sectores.-
En el Grfico de barras horizontales, en el eje de
abscisas irn los valores de la frecuencia absoluta y en el
eje de ordenada, las modalidades de la variable
categrica.-
El Grfico de sectores, divide una circunferencias en
porciones que corresponden a cada modalidad de la
variable categrica.- Su tamao es proporcional a la
frecuencia absoluta de esa modalidad y el circulo
representa el total de casos.- Cada porcin debe ir
acompaada por porcentajes, para su fcil lectura.-
PACIENTES SEGUN TIPOS DE ANALISIS MARZO 2011
Triglicridos
HIV
Colesterol
Acido rico
Tiroide
Diabetes
0 5 10 15 20 25
PACIENTES SEGUN TIPOS DE ANALISIS
20% 23%
13% 9%
16% 19%
Triglicridos
HIV
Colesterol
MUJERES
Acido rico
VARONES
Tiroides
Diabetes
0 5 10 15 20
Analizamos una tabla de contingencia, segn lo que queramos
explicar.-
Triglicridos
HIV
Colesterol
MUJERES
Acido rico
VARONES
Tiroides
Diabetes
0 20 40 60 80
PACIENTES DEL LABORATORIO A SEGN TIPOS DE
ANALISIS Y SEXO
MARZO 2011
(EN %)
Triglicridos
HIV
Colesterol
VARONES
Acido rico MUJERES
Tiroides
Diabetes
0 20 40 60 80 100
PORCENTAJES DE PACIENTES POR SEXO
Mujeres
Triglicridos
HIV
Colesterol
Acido rico
Tiroides
Varones
Diabetes
0 5 10 15 20 25
Porcentajes segn el total general
TIPOS DE SEXO
ANALISIS Varn Mujer
Diabetes 13,3 10,0
Tiroides 2,5 6,7
Acido Urico 10,8 8,3
Colesterol 12,5 3,3
HIV 4,2 8,3
Triglicridos 14,2 5,8
PACIENTES DEL LABORATORIO A SEGN TIPOS DE
ANALISIS Y SEXO MARZO 2011
(EN % DEL TOTAL GRAL)
Triglicridos
HIV
Colesterol
Mujer
Acido Urico Varn
Tiroides
Diabetes
0 2 4 6 8 10 12 14 16
PARA VER APLICACIN
USAREMOS LA MATRIZ
MUESTRAL DE LOS 40 ALUMNOS
QUE HEMOS OBTENIDO
ANTERIORMENTE.-
Pulso
N 1 Pulso2 Corri Fuma Sexo Alto Peso Actividad
1 78 80 NO CORRIO NO FUMA MUJER 173 60 BAJA
2 78 78 NO CORRIO NO FUMA MUJER 170 52 MEDIA
3 90 88 NO CORRIO FUMA HOMBRE 170 64 MEDIA
4 80 74 NO CORRIO NO FUMA MUJER 163 46 MEDIA
5 62 58 CORRIO NO FUMA HOMBRE 183 79 ALTA
6 87 84 NO CORRIO NO FUMA MUJER 160 43 ALTA
7 58 70 CORRIO NO FUMA HOMBRE 183 66 MEDIA
8 70 66 NO CORRIO FUMA HOMBRE 191 86 MEDIA
9 66 102 CORRIO NO FUMA HOMBRE 178 59 MEDIA
10 72 68 NO CORRIO NO FUMA MUJER 173 50 MEDIA
11 70 72 CORRIO FUMA HOMBRE 185 77 ALTA
12 88 74 NO CORRIO FUMA MUJER 165 61 MEDIA
13 72 70 NO CORRIO NO FUMA HOMBRE 180 64 MEDIA
14 82 80 NO CORRIO NO FUMA MUJER 160 53 BAJA
15 70 70 NO CORRIO NO FUMA HOMBRE 178 68 MEDIA
16 66 76 NO CORRIO NO FUMA MUJER 165 52 MEDIA
17 76 76 NO CORRIO NO FUMA HOMBRE 183 98 MEDIA
18 68 68 NO CORRIO NO FUMA MUJER 175 68 MEDIA
19 70 94 CORRIO FUMA HOMBRE 191 84 MEDIA
20 68 64 NO CORRIO NO FUMA HOMBRE 177 68 ALTA
21 74 76 CORRIO NO FUMA HOMBRE 178 71 MEDIA
22 92 94 NO CORRIO FUMA HOMBRE 175 68 MEDIA
23 90 94 CORRIO FUMA HOMBRE 188 73 BAJA
24 84 80 NO CORRIO NO FUMA MUJER 165 54 BAJA
25 76 118 CORRIO NO FUMA HOMBRE 180 63 MEDIA
26 100 115 CORRIO FUMA MUJER 160 55 MEDIA
27 64 80 CORRIO NO FUMA HOMBRE 175 70 MEDIA
28 66 82 CORRIO FUMA HOMBRE 175 79 MEDIA
29 61 70 NO CORRIO NO FUMA MUJER 166 54 MEDIA
30 78 76 NO CORRIO NO FUMA HOMBRE 183 82 ALTA
31 68 72 CORRIO NO FUMA HOMBRE 188 86 MEDIA
32 70 106 CORRIO NO FUMA HOMBRE 180 77 MEDIA
33 64 62 NO CORRIO NO FUMA HOMBRE 191 73 ALTA
34 62 68 NO CORRIO FUMA HOMBRE 185 70 MEDIA
35 54 50 NO CORRIO NO FUMA HOMBRE 175 73 MEDIA
36 62 66 NO CORRIO NO FUMA MUJER 165 55 ALTA
37 60 70 NO CORRIO FUMA HOMBRE 182 74 MEDIA
38 84 84 CORRIO NO FUMA HOMBRE 183 68 ALTA
39 72 74 NO CORRIO FUMA HOMBRE 173 70 ALTA
40 74 84 CORRIO NO FUMA HOMBRE 185 75 BAJA
ELABOREMOS
TABLAS RESUMEN
PARA UNA SOLA
VARIABLE
CATEGORICA
Total de alumnos segn si corri o no
Situacin Total Alumnos % del Total
Corri 15 37,5
No Corri 25 62,5
TOTAL 40 100.0
Fuente: Elaboracin propia
38%
Corrio
No Corrio
62%
30%
Fuma
No Fuma
70%
Total de alumnos segn sexo
33%
Hombre
Mujer
67%
Total de alumnos segn actividad
ACTIVIDAD TOTAL ALUMNOS % DEL TOTAL
ALTA 9 22,5
MEDIA 26 65,0
BAJA 5 12,5
TOTAL 40 100.0
Fuente: elaboracin propia.-
13%
23%
ALTA
MEDIA
BAJA
64%
TRABAJEMOS EL TEMA
TABLAS DE CONTINGENCIA
EN NUESTRA MATRIZ DE 40
ALUMNOS QUE VENIMOS
TRABAJANDO.-
TOTAL ALUMNOS SEGN SI CORRIO Y SEXO
SEXO
SITUACION Hombre Mujer Total
Corri 14 1 15
No Corri 13 12 25
Total 27 13 40
FUENTE: ELABORACIN PROPIA
TOTAL DE ALUMNOS SEGUN CORRIO POR SEXO
14
12
10
8 corrio
6 no corrio
4
2
0
hombre mujer
14
12
10
8 HOMBRE
6 MUJER
4
2
0
corrio no corrio
TOTAL ALUMNOS SEGN SI CORRIO O NO Y SEXO
SEXO
Hombre Mujer Total
SEXO
HOMBRE MUJER TOTAL
FUMA 10 2 12
NO FUMA 17 11 28
TOTAL 27 13 40
FUENTE: ELABORACIN PROPIA
(en %)
SEXO
HOMBRE MUJER TOTAL
FUMA 37,04 15,38 30,00
NO FUMA 62,96 84,62 70,00
TOTAL 100,00 100,00 100,00
FUENTE: ELABORACIN PROPIA
(EN %)
SEXO
HOMBRE MUJER TOTAL
FUMA 25,00 5,00 30,00
NO FUMA 42,50 27,50 70,00
TOTAL 67,50 32,50 100,00
FUENTE: ELABORACIN PROPIA
45,00
40,00
35,00
30,00
25,00 HOMBRE
20,00 MUJER
15,00
10,00
5,00
0,00
FUMA NO FUMA
50,00
40,00
30,00
FUMA
20,00
NO FUMA
10,00
0,00
1 2
HOMBRE MUJER
TOTAL DE ALUMNOS SEGN SEXO Y TIPO DE
ACTIVIDAD
ACTIVIDAD
ALTA MEDIA BAJA TOTAL
HOMBRE 7 2 18 27
MUJER 2 3 8 13
TOTAL 9 5 26 40
FUENTE: ELABORACIN PROPIA
ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 2 1 9 12
NO FUMA 7 4 17 28
TOTAL 9 5 26 40
(EN %)
ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 16,67 8,33 75,00 100,00
NO FUMA 25,00 14,29 60,71 100,00
TOTAL 22,50 12,50 65,00 100,00
ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 22,22 20,00 34,62 30,00
NO FUMA 77,78 80,00 65,38 70,00
TOTAL 100,00 100,00 100,00 100,00
FUENTE: ELABORACIN PROPIA
ACTIVIDAD
ALTA BAJA MEDIA TOTAL
FUMA 5,00 2,50 22,50 30,00
NO FUMA 17,50 10,00 42,50 70,00
TOTAL 22,50 12,50 65,00 100,00
FUENTE: ELABORACIN PROPIA
LR F LR V SAN F LR F CHA V
CHA V CHI F LR V CHI V CHI F
CHI F PAT F LR F LR V BLA V
LR F CHA V CHA F SAN F LR F
LR F LR F SAN V BLA V CHI V
LR V VIN V CHA F LR V PAT V
CHE F CHA F BLA V CHI F LR F
TAM V CHI V LR F LR F TAM V
CHI F LR F VIN F CHA V LR F
ULA V LR V LR V SAN F LR V
LR F LR V SAN F LR F CHA V
CHA V CHI F LR V CHI V CHI F
CHI F PAT F LR F LR V BLA V
LR F CHA V CHA F SAN F LR F
LR F LR F SAN V BLA V CHI V
LR V VIN V CHA F LR V PAT V
CHE F CHA F BLA V CHI F LR F
TAM V CHI V LR F LR F TAM V
LR F LR F VIN F CHA V LR F
ULA V LR V LR V SAN F LR V
CHI F PAT F LR M CHE M TAM V
CHE V TAM M CHI V SAN V CHE M
SAN M CHA V BLA M CHI M CHI V
LR V CHE M LR V PAT V LR M
ACTIVIDAD 10
De un anuario estadstico de la provincia de La Rioja, se ha extrado el
siguiente cuadro de informacin:
Porcentajes de nacidos vivos de madres residentes en
la provincia de La rioja, segn pesos al nacer. Ao 1995
b) Datos agrupados
80 67 46 38 73 68 83 39
48 55 57 91 32 45 58 76
66 86 67 73 42 53 74 50
32 38 39 42 45 46 48 50
53 55 57 58 66 67 67 68
73 73 74 76 80 83 86 91
32 40 48 56 64 72 80 88
C2
b1) Datos agrupados sin intervalos.- Variable
discreta.-
4 5 2 6 4 6 4 4 7 6
3 7 5 3 6 5 5 6 6 7
6 4 5 4 5 6 3 8 4 8
7 6 8 2 4 5 4 5 5 5
4 5 4 7 8 7 4 8 3 6
6 3 4 3 5 5 2 5 4 7
5 6 5 4 6 3 6 7 6 6
3 6 6 6 6 6 7 5 6 5
Xi = cantidad de personas por da.-
Xi variable discreta.-
Agrupamos en una tabla que llamamos DISTRIBUCIN DE
FRECUENCIA.-
Xi Conteo fi hi Hi Fi Fi%
2 III 3 0,0375 0.0375 3 3,75
3 IIIIIIII 8 0,1000 0.1375 11 13.75
4 IIIIIIIIIIIIIII 15 0,1875 0.3250 26 32,50
5 IIIIIIIIIIIIIIIIII 18 0,2250 0.5500 44 55,00
6 IIIIIIIIIIIIIIIIIIIIII 22 0,2750 0.8250 66 82,50
7 IIIIIIIII 9 0,1125 0.9375 75 93,75
8 IIIII 5 0,0625 1.0000 80 100,0
TOTAL --------- 80 1,0000 ---------- -------- -----------
2k n
Donde k nos indica la cantidad de intervalos a realizar.-
b) Amplitud a utilizar:
Rx = rango o recorrido de la variable.
Rx =Xi mximo --- Xi mnimo
Ci = amplitud Ci = Rx / I
Debemos ahora determinar con que valor de variable empezamos los
intervalos, para ello definimos el siguiente criterio:
Li Xi < Ls
Tomamos el dato donde es lmite inferior.-
61 88 70 76 66 79 64 75 78 76
80 61 75 79 76 60 74 68 76 78
70 65 52 78 72 76 58 86 94 78
I = 5
Rx = 94 - 52 = 42
Ci = 42 / 5 = 8,4 9
La distribucin de frecuencia ser:
Li - Ls Conteo fi hi Hi Fi Fi %
POLIGONO DE
HISTOGRAMA
FRECUENCIA
OJIVA O GRAFICO
DE Fi %
Comentarios sobre los
grficos de una
distribucin de
frecuencia con
intervalos.-
HISTOGRAMA
15
Frequency
10
0
-4 -2 0 2 4 6 8 10
X1
DISTRIBUCION SIMETRICA
Histogram of X3
18
16
14
12
Frequency
10
0
0 10 20 30 40
X3
DISTRIBUCION ASIMETRICA
A LA DERECHA
Histogram of HSPct
30
25
20
Frequency
15
10
0
30 40 50 60 70 80 90 100
HSPct
DISTRIBUCION ASIMETRICA
A LA IZQUIERDA
POLIGONO DE
FRECUENCIA
30-40 35 3 5 25
40-50 45 5 8 20
Total alumnos
50-60 55 9 6 15
varones
60-70 mujeres
65 15 20 10
70-80 75 18 16 5
80-90 85 10 8 0
1 2 3 4 5 6 7
90-100 85 6 5 Puntajes
-------- ----- 66 68
Tanto el histograma como el polgono de frecuencia son
recursos fundamentales para explorar y presentar un
conjunto de datos numricos en los que tenga sentido
realizar agrupamientos en intervalos de clase.-
OJIVA O GRAFICO DE
FRECUENCIA ACUMULADA
% alumnos
50-60 25.8 27.9 Varones
60,0
60-70 48.5 57.4 Mujeres
40,0
70-80 75.8 80.9
80-90 20,0
90.9 92.6
90-100 100.0 100.0 0,0
40 50 60 70 80 90 100
-------- ------- ------- Puntajes del limite superior
Veamos estos tres
grficos en el ejemplo
que venimos viendo sobre
notas de un parcial de
Bioestadstica.-
Ttulo
12
9
frecuencia absoluta
0
48 58 68 78 88 98
notas parcial
Ttulo
12
frecuencia absoluta
0
48 56 65 73 81 90 98
notas parcial
0,53
frecuencia relativas
0,39
0,26
0,13
0,00
47 57 68 78 89 99
Notas parcial
Ttulo
frec. abs. acumulada 32
24
16
0
48 56 65 73 81 90 98
notas parcial
VEAMO UN EJEMPLO DE
COMPARACION
DE
DISTRIBUCIONES.-
Suponga que decide llevar a cabo un estudio comparativo de la
cantidad de anlisis de diabetes que se realizan mensualmente en dos
Laboratorios que llamamos A y B.- Tomamos una muestra aleatoria
de 50 meses en cada una de ellos.-
LABORATORIO A
50 38 43 56 51 36 25 33 41 44
34 39 49 37 40 50 50 35 22 45
44 38 14 44 51 27 44 39 50 35
31 34 48 48 30 42 26 35 32 63
36 38 52 23 39 45 37 31 39 53
LABORATORIO B
37 37 29 38 37 38 39 29 36 38
44 27 24 34 44 23 30 32 25 29
43 31 26 34 23 41 32 30 28 33
26 51 26 48 39 55 24 38 31 30
51 30 27 38 26 28 33 38 32 25
Exploramos un poco los datos, porque tratamos
de elaborar una sola distribucin de frecuencia
para las dos distribuciones.- Observamos que
una de las distribuciones el recorrido de la
variable va desde 14 a 63 anlisis y en el otro
desde 23 a 55 anlisis.- Podemos modificar el
menor valor y llevarlo a 10 y usar una amplitud
de intervalo igual a 5.- Elaboramos tantos
intervalos como para cubrir nuestro valor
mximo de variable.-
La distribucin de frecuencia quedara de la
siguiente manera, realizamos el conteo y
obtenemos las frecuencias absoluta.-
Cantidad de Frecuencia Frecuencia
Anlisis Mensuales Laboratorio A Laboratorio B
10 15 1 0
15 20 0 0
20 25 2 4
25 30 3 13
30 35 7 13
35 40 14 12
40 45 8 4
45 50 5 1
50 55 8 2
55 60 1 1
60 65 1 0
TOTAL 50 50
La distribucin de frecuencia permite obtener
conclusiones acerca de las caractersticas principales de
los datos.- Por ejemplo, la tabla anterior muestra que la
cantidad de anlisis de diabetes mensuales en el
Laboratorio A est concentrado entre los 30 y 55, en
comparacin con los anlisis del Laboratorio B, los
cuales estn concentrado entre 25 y 40.-
Si el conjunto de datos no contiene muchos valores, un
conjunto de lmites de clase refleja una imagen diferente
de la que da otro conjunto de lmites.- Siempre es
conveniente no tener demasiados datos en cada
intervalo.-
Por fortuna, conforme aumenta el tamao de la muestra,
las alteraciones en la seleccin de los lmites de clase
afectan cada vez menos la concentracin de los datos.-
DISTRIBUCION DE
FRECUENCIAS RELATIVAS
Y DISTRIBUCIN DE
PORCENTAJES.-
Cantidad Laboratorio A Laboratorio B
de anlisis de Frecuencia Porcentaje Frecuencia Porcentaje
diabetes Relativa Relativa
mensuales
10 15 0,02 2,00 0,00 0,00
15 20 0,00 0,00 0,00 0,00
20 25 0,04 4,00 0,08 8,00
25 30 0,06 6,00 0,26 26,00
30 35 0,14 14,00 0,26 26,00
35 40 0,28 28,00 0,24 24,00
40 45 0,16 16,00 0,08 8,00
45 50 0,10 10,00 0,02 2,00
50 55 0,16 16,00 0,04 4,00
55 60 0,02 2,00 0,02 2,00
60 65 0,02 2,00 0,00 0,00
TOTAL 1,00 100,0 1,00 100,0
30
25
20
LABORATORIO A
15
LABORATORIO B
10
0
1 2 3 4 5 6 7 8 9 10 11
A partir de la tabla anterior, se concluye
que los anlisis son ms los que se
realizan mensualmente en el laboratorio
A que en los del laboratorio B; el 16 % de
los meses los anlisis en el laboratorio A
estn entre 50 y 55, en comparacin con
el 4 % de los meses de los anlisis
realizados en el Laboratorio B; mientras
que solo el 6 % de los meses los anlisis
realizados en el laboratorio A estn entre
25 y 30 en comparacin con el 26 % de
los meses de los anlisis realizados en el
laboratorio B.-
DISTRIBUCION DE
FRECUENCIA ABSOLUTAS
ACUMULADAS Y
DE FRECUENCIAS
ABSOLUTAS
ACUMULADAS
PORCENTUALES
Cantidad de Laboratorio A Laboratorio B
anlisis de Frecuencia Porcentaje Frecuencia Porcentaje
diabetes
Abs. Acum. Abs. Acum.
mensuales
10 15 1 2,0 0 0,0
15 20 1 2,0 0 0,0
20 25 3 6,0 4 8,0
25 30 6 12,0 17 34,0
30 35 13 26,0 30 60,0
35 40 27 54,0 42 84,0
40 45 35 70,0 46 92,0
45 50 40 80,0 47 94,0
50 55 48 96,0 49 98,0
55 60 49 98,0 50 100,0
60 65 50 100,0 50 100,0
TOTAL
120
100
80
Laboratorio A
60
Laboratorio B
40
20
0
1 2 3 4 5 6 7 8 9 10 11 12
La distribucin de porcentaje acumulado constituye una
manera de presentar la informacin del porcentaje de los
valores que estn por debajo de cierto valor.- Por
ejemplo, tal vez se desea conocer que porcentaje de los
meses del Laboratorio A se hacen menos de 20 anlisis,
menos de 30 y as sucesivamente, etc.-
La distribucin acumulativa muestra claramente que los
anlisis realizados mensualmente son inferiores en el
Laboratorio B que los del Laboratorio A; en el 34% de
los meses en el Laboratorio B se producen menos de 30,
en comparacin con solo el 12% de los meses del
Laboratorio A; en el 60% de los meses del Laboratorio B
se producen menos de 35 en comparacin solo el 26%
de los meses del Laboratorio A, etc, etc.-
ANALISIS EXPLORATORIO DE DATOS.-
42 46 87 34 81 2 1 9
64 87 69 75 73 3 4 7
91 70 86 67 49 4 2 6 7 9
55 74 81 75 37 5 5 7 9
21 69 29 59 97 6 9 4 0 9 5 7 9 8 6 8
60 81 77 47 68 7 5 7 3 4 0 4 5
74 65 87 69 57 8 7 1 7 1 2 6 7 1
9 7 1 0 4
68 66 90 82 94
2 1 9
3 4 7
4 2 6 7 9
5 5 7 9
6 9 4 0 9 5 7 9 8 6 8
7 5 7 3 4 0 4 5
8 7 1 7 1 2 6 7 1
9 7 1 0 4
ACTIVIDAD 11
CELULAS TUMORALES
12.6 19.4 18.9 15.2 16.2 15.9 20.0 15.1 16.3 21.5
23.9 15.8 13.9 18.2 16.4 14.6 16.7 18.7 17.7 20.7
16.1 16.9 17.7 22.1 23.3 16.0 17.8 16.4 18.1 13.9
17.1 17.9 18.3 22.8 24.3 20.0 13.4 22.8 19.4 11.2
21.0 19.1 13.0 19.6 19.5 19.1 16.6 17.9 18.4 18.6
ACTIVIDAD 13
19,0 9,0 19,1 12,6 14,8 10,2 12,7 13,1 11,7 11,4
18,5 9,2 18,0 11,2 10,6 13,7 11,8 12,4 16,4 10,8
19,7 9,7 17,8 11,7 15,2 17,8 14,6 10,9 11,9 12,2
20,0 9,9 16,7 16,8 18,7 15,3 17,7 11,4 13,7 12,1
17,1 9,9 16,5 12,5 11,9 12,4 13,3 10,6 11,6 10,6
17,3 20,3 14,3 10,5 11,7 11,7 11,5 12,9 10,8 16,6
ACTIVIDAD 16
19,2 16,1 16,0 19,4 12,0 16,1 17,2 13,7 18,3 15,5
18,2 15,0 17,2 15,2 18,5 14,6 12,3 11,5 19,4 11,4
19,0 13,1 17,3 15,3 15,8 10,1 12,9 18,6 12,6 16,6
14,2 18,5 13,8 18,5 19,5 14,8 16,8 10,3 18,3 13,7
18,3 13,9 18,1 17,0 18,4 13,8 12,9 14,6 17,7 15,5
ACTIVIDAD 17
MEDIDAS DE
TENDENCIA MEDIDAS DE
CENTRAL ORDEN
MEDIDAS DE MEDIDAS DE
DISPERSION O DE FORMA
VARIABILIDAD
MEDIDAS
DE
TENDENCIA
CENTRAL
MEDIA
ARITMETICA
MEDIDAS DE
VEREMOS: MEDIANA
TENDENCIA
CENTRAL
MODO
MEDIA ARITMETICA O MEDIA
xi
x =
n
xi
=
N
Si tenemos una Farmacia Sindical con seis empleados, cuyos
sueldos mensuales son 1800, 1760, 1780, 2100, 1980, 2350 y
queremos observar el sueldo promedio ser:
xi fi
x =
n
Veamos un ejemplo.-
Supongamos que tenemos los tiempos en minutos que demoran una
muestra de 50 empleados en realizar una determinada tarea.-
Presentamos los datos ordenados en una distribucin de frecuencia,
Li Ls fi xi xi * fi
20 22 3 21 63
XI * fi
X = =
22 24 5 23 115
n
24 26 12 25 300
1324
26 28 17 27 459
= = 26,48
28 30 8 29 232
50
30 32 5 31 155
26 minutos
TOTAL 50 - 1324
Primera propiedad:
Esta definida en la misma unidad de medida que la
variable en estudio.-
Si estamos estudiando sueldos en $, la media me dar
un valor tambin en pesos.-
Por ejemplo, el sueldo promedio es 1800$.-
Segunda propiedad:
Siguiendo con la variable en estudio sueldos en pesos,
la media me dar un valor promedio que estar incluida
dentro del recorrido de la variable, por ejemplo: si los
sueldos en estudio varan entre un monto de 800 a
2500$, la media me deber dar un valor comprendido
dentro de ese recorrido de la variable.- No me puede
dar un valor menor a 800$ ni tampoco un valor superior
a 2500$.-
Tercera propiedad:
xi
Si dos trminos de la expresin x = n son
conocidos, se puede determinar el tercero de ellos
mediante un simple pasaje de trminos.-
Cuando se conoce x y n, la suma de la variable se podr
determinar haciendo el producto de n * x.-
Esta propiedad matemtica nos permitira saber, por
ejemplo, que si estamos estudiando viviendas de 30
barrios, el total de viviendas de los 30 barrios es de 16500
viviendas, ya que cada uno de ellos tiene una media de
550 viviendas.- Esto es as porque:
xi = 30 * 550 = 16500
Cuarta propiedad:
El promedio es una medida calculada a partir de todos y
cada uno de los datos de una serie, en consecuencia
resume apropiadamente la informacin del conjunto.- Sin
embargo, por esta propiedad, en ciertas situaciones de
trabajo puede perder eficacia como representativa del
conjunto de datos.-
Cuando en la serie de observaciones existen valores
extremos o atpicos, estos influirn en el valor de la x,
pudiendo llegar a distorsionarlo de tal modo que no
represente al comn de los datos del conjunto.- Veamos
el siguiente ejemplo:
Si tenemos las siguientes edades 14 18 26 30 34 su
media es igual a 24,4 aos.- En cambio, si el conjunto de
datos fuera 14 18 26 30 75 su media sera igual
a 37,5 aos.- El valor atpico de 75 afecta a la media
alejndola de la tendencia central del conjunto resultando
esta en un valor muy diferente al de los datos normales
de la serie.- Evidentemente la media x = 38 aos no es
muy representativa de nuestros datos y el valor atpico
desplaza a la media a un valor cercano a el.-
Resumiendo; en un conjunto de datos en el cual los
valores atpicos tienen un peso significativo (difieren
mucho de los valores regulares), el promedio aritmtico
por ser una medida que intervienen todos los datos, debe
ser analizada con cuidado.- Esto es as porque, (como en
el ejemplo anterior) puede resultar fuertemente
desplazado de la tendencia central e inducir a
interpretaciones errneas acerca del conjunto de datos
que resume.-
Importante:
La presencia de valores extremos en una distribucin se
manifiesta por formas (histogramas y polgono de
frecuencias) marcadamente asimtricas.- De ah la
importancia de realizar una cuidadosa exploracin previa
(grfica y numrica) de los datos.-
Quinta propiedad:
Se denomina desvo o residual de un dato cualquiera de
la serie con respecto a la media aritmtica de todo el
conjunto, a la diferencia entre el valor de ese dato y el
valor de la media.-
Por ejemplo, supongamos que tenemos las edades de 9
individuos; calculamos su edad promedio y nos da x =
32 aos:
Datos di = xi - 32
18 -14
20 -12
25 -7
30 -2
32 0
36 4
40 8
40 8
47 15
Los residuos de un conjunto de datos, con respecto a su
media, tienen la propiedad de que la suma de todos los
desvos o residuales es siempre igual a cero.- Es decir:
(xi - x) = di = 0
Sexta propiedad:
En ciertas ocasiones de trabajo disponemos de dos o
ms promedios aritmticos, que resumen a diferentes
conjuntos de datos de una misma variable.-
Por ejemplo; por datos recogidos se sabe que el salario
mensual promedio de n1 = 200 agentes de la
administracin pblica varones es x1 = $1560,30,
mientras que el salario promedio de n2 = 120 empleadas
mujeres es de x2 = $1480,25.-
En estas condiciones podra resultar til conocer el
promedio que resume a los salarios de todos los agentes
pblicos, considerados como un solo conjunto de
observaciones ( n = 200 + 120 = 320).-
La media de medias o media ponderada es la medida que
resuelve situaciones como la planteada:
n1 x1 + n2 x2
n1 + n2
Ao Nota Cantidad
Promedio De alumnos Xi * Wi
2000 65,0 54 3510
2001 72,0 70 5040
2002 58,0 48 2784
2003 76,0 75 5700
2004 65,0 60 3900
TOTAL 336 307 20934
Se puede calcular la media simple de los cincos cursos que sera:
X = 336 / 5 = 67,2 puntos.-
Sin embargo, probablemente este no sea un buen estimado del
promedio de los cinco cursos ya que en cada uno hubo diferente
cantidad de alumnos y adems sabemos que la predisposicin de los
alumnos son diferentes cada ao.- Por lo tanto el calculo ms
apropiado sea el de la media ponderada:
xi Wi 20934
Xp = ---------------- = -------------- = 68,2 puntos.-
Wi 307
N IMPAR DE DATOS
a) PARA DATOS
SIN AGRUPAR
N PAR DE DATOS
M = (n + 1) / 2 = 16 / 2 = 8 posicin
Me = 15 minutos
a2) N PAR DE DATOS.-
En el ejemplo anterior supongamos tener datos durante 16 das.-
10 10 11 11 11 12 14 15 18 18 19 20 20 25 25 25
M = (n + 1) / 2 = 17 / 2 = 8,5 posicin
15 + 18
Me = ---------------- = 11,5 minutos
2
b1) MEDIANA PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos tener la cantidad de anlisis complicado por mes
que realiza cierto laboratorio.- Se registraron datos
correspondientes a 60 meses.-
xi fi Fi Fi%
0 10 10 16,7
Buscamos la menor Fi % que
1 12 22 36,7
me contiene al 50 %.-
2 16 38 63,3
Observamos ahora que valor
3 8 46 76,7
de variable le corresponde:
4 7 53 88,3
5 5 58 96,7
6 2 60 100,0
Me = 2 anlisis complicado
Fi %
100.0
Valor de la
variable
50.0
que es la Me
xi
MODO
250 275 256 282 275 280 296 310 275 342 - 275
Observamos el valor de variable que ms veces se da:
M o = 275 $
MODO PARA DATOS AGRUPADOS SIN INTERVALOS.-
Supongamos que en el relevamiento de 50 viviendas de un
barrio, se les pregunto la cantidad de nios en edad escolar que
hay en cada una de ellas.- Resulto la siguiente tabla:
xi fi
4 18
6 6
TOTAL 50
MODO PARA DATOS AGRUPADOS CON INTERVALOS.-
Supongamos que tenemos una muestra de 72 notas de un parcial
de Estadstica que se les tomo a un curso integrado por 200
alumnos.- Estas fueron las siguientes:
Li Ls fi d1
*c
36 46 4 Mo Li i
d1 d 2
46 56 9
d1 = fi - fi-1 = 23 - 18 = 5
56 66 18
d2 = fi - fi+1 = 23 - 11 = 12
66 76 23
5
76 86 11
Mo = 66 + ---------------- * 10 =
86 96 7 5 + 12
TOTAL 72 = 68,94 69 puntos.-
CALCULO GRAFICO DEL MODO
Histograma de C1
25
20
15
Frecuencia
10
0
80 120 160 200 240
C1
(n + 1) * r
Qr =
4
Si me da un valor decimal en 5, el
cuartil buscado ser el promedio entre
el dato posicin del entero y el
siguiente.-
n *r
Li Ls fi Fi Fi% Fi-1
Q r Li 4 * ci
12 16 3 3 5,8 fi
16 20 7 10 19,2
20 24 12 22 42,3 13 - 10
24 28 15 37 71,2 Q1 = 20 + ----------------- 4 =
12
28 32 10 47 90,4
32 36 5 52 100,0
= 21 minutos
TOTAL 52 ------ -----
El 25% de los empleados
demoran menos de 21
minutos en realizar la tarea.-
PERCENTILES
(n + 1) * r %
Pr% =
100
3 5 5 5 6 7 7 7
7 8 8 8 10 13 15 ------
n *r
Fi -1
Li Ls fi Fi Fi% P 70% Li 100
* ci
fi
12 16 3 3 5,8
16 20 7 10 19,2 36,4 - 22
20 24 12 22 42,3
P70% = 24 + ----------------- 4 =
24 28 15 37 71,2
15
28 32 10 47 90,4 = 27,84 28 minutos
32 36 5 52 100,0 El 70% de los empleados
demoran menos de 28
TOTAL 52 ------ -----
minutos en realizar la tarea.-
RANGO DEL PERCENTIL.-
75.0 Valor de la
variable
50.0 que es el
Q3
25.0
Valor de la
xi variable
que es el
Q2
Valor de la variable que el Q1
MEDIDAS
DE
DISPERSION
Podemos preguntarnos Por qu estudiar la
dispersin?.- Un promedio como la media o la mediana
solamente localiza el centro de los datos y esto es
importante desde ese punto de vista, pero un promedio
no dice nada acerca de la diseminacin de los datos.-
0,27
frecuencia relativa
0,18
0,09
0,00
0,36
0,27
frecuencia relativa
0,18
0,09
0,00
Media
RANGO O RECORRIDO DE LA VARIABLE.-
RANGO INTERCUARTILICO
RIC = Q3 - Q1
Esta medida considera la dispersin de la mitad (parte central)
de los datos; por lo tanto, los valores extremos no influyen en
ella,.
VARIANCIA O VARIANZA.-
( xi - x)
Sx = ------------------------
n - 1
Si el denominador fuera n en lugar de (n 1), se obtendra el
promedio de los cuadrados de las diferencias con respecto a la
media.- Si embargo, se utiliza (n 1) debido a ciertas propiedades
matemticas deseadas que tiene el estadstico S, lo cual lo hacen
muy apropiadas para hacer inferencias estadsticas.- A medida
que se aumenta el tamao de la muestra, la diferencia entre n y (n
1) disminuye cada vez ms.-
La variancia como esta definida como un valor cuadrado nunca
puede ser negativa.-
No tiene explicacin por estar definida como un valor cuadrado y nos
da un resultado con unidad de medida al cuadrado.- Por ejemplo, si
estamos trabajando dato en $, la variancia nos va dar un resultado en
$, si trabajamos empleados nos dar empleados al cuadrado, etc.-
Ser igual a cero cuando no exista diferencia entre ella y los datos.-
x - n x
Sx = para datos sin agrupar
n - 1
x fi - n x
Sx = para datos agrupados
n - 1
sx = variancia
Notas fi xi Xi * fi xi Xi * fi
0 2 5 1 5 1 5
2 4 9 3 27 9 81
4 6 14 5 70 25 350
6 8 20 7 140 49 980
8 10 2 9 18 81 162
50 226
5 puntos = -------- = 4,61 ptos
49
Sx
CVx = * 100
X
Cuando comparamos dos distribuciones de datos en diferentes
unidades de medida, y queremos saber cual es ms homognea en
sus datos referentes a su media, no tenemos ms opcin que
comparar los CV, a menor CV ms homogneos son los datos.- Por
ejemplo, si tenemos una distribucin donde estudiamos sueldos de
la empresa y en la otra la antigedad en la empresa de esos mismos
empleados, y nos preguntamos en que son ms homogneos esos
empleados, en sueldos o en antigedad.-
Eje de
simetra
Variable
X = Me = Mo
A medida que la distribucin se hace ms asimtrica
hacia uno u otro lado (derecha e izquierda), las medidas
de tendencia central tienden a alejarse una de otra,
siendo la media por estar afectada por los valores
extremos la que ms se desplaza hacia la cola de la
distribucin.-
X Me Mo Mo Me X
X - Mo 3 . (X - Me)
CAP = o CAP =
s s
Comentarios
La magnitud absoluta del coeficiente indica la
cantidad de desvo estndar a los que se encuentra
la media del modo.-
Se lo puede expresar en porcentaje, multiplicando
por cien el resultado de la expresin anterior.-
Si el coeficiente es igual a cero, estamos en una
situacin de simetra perfecta.-
En situaciones de asimetra el coeficiente puede
tomar una asimetra a derecha o a izquierda.-
Recordemos que una es positiva y la otra negativa.-
En trminos tericos, este Coeficiente puede tomar
valores que varan entre - 3 y +3.-
COMO
INTEGRAR
LAS
MEDIDA QUE
HEMOS
VISTO
Hasta aqu he presentado una serie de valores
caracterstico de una distribucin que nos
permite sealar diferentes aspectos del
conjunto de datos que se analiza.-
Cada una de estas medidas dirige nuestra
mirada hacia algn rasgo de inters de ese
conjunto de datos y ahora buscamos como
integrarlas de tal manera que podamos dar un
idea de imagen de la distribucin.-
CONSISTE EN UN RESUMEN DE
PRESENTAR: CINCO DATOS
En un resumen de cinco nmeros se emplean
los siguientes datos
1.- Valor mnimo.-
2.- Primer cuartil.-
3.- Mediana.-
4.- Tercer cuartil.-
5.- Valor mximo.-
5000
C2
3000
2000
90
80
70
Datos
60
50
40
30
20
1 2 3
VEAMOS OTRO EJEMPLO.-
1 AO 2 AO 3 AO
47 72 56 76 43 80
52 72 59 80 48 80
52 78 59 83 50 83
57 81 61 83 55 85
63 81 67 84 61 89
64 86 69 90 67 91
69 91 73 94 72 97
71 76 78
Boxplot of 1; 2; 3
100
90
80
Data
70
60
50
40
1 2 3
La figura anterior contiene los diagramas de caja
de las puntuaciones de cada uno de estos tres
grupos.- En este ejemplo concreto, puede
apreciarse que no hay observaciones
excesivamente atpicas en ninguno de los tres
grupos.- Por eso, los bigotes de las cajas
corresponden a la menor y mayor puntuacin de
cada grupo.- En el diagrama se observa que los
estudiantes del tercer curso consiguieron la
mejor mediana, pero sus puntuaciones tienen
una variabilidad considerablemente mayor que la
de los otros grupos.- Otro hecho que llama la
atencin es la gran cantidad de puntuaciones
bajas obtenidas por los estudiantes del primer
curso.-
ACTIVIDAD 18
Masculino
Femenino 0,0
Exposicin al humo de
tabaco
Fumadora activa
Fumadora pasiva
NO 0,0
Consumo de alcohol
SI
NO 0,0
Variables Media de la talla Diferencia de
medias
Sexo del recin nacido
Masculino
Femenino 0,0
Exposicin al humo de
tabaco
Fumadora activa
Fumadora pasiva
NO 0,0
Consumo de alcohol
SI
NO 0,0