Académique Documents
Professionnel Documents
Culture Documents
Presentacin de datos
Realizado el experimento o finalizada la investigacin, el investigador ha recopilado un conjunto de
datos u observaciones los cuales requieren ser ordenados. La Estadstica nos proporciona los
mtodos apropiados para tal fin. As tenemos:
es un nmero decimal. Ejemplo: Tabla N 3.7 la parte entera, 3, indica el captulo o parte
de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la
sptima tabla de ese captulo.
El ttulo de la tabla: La tabla se explicar por si misma por tanto se debe dar
suficiente informacin en el ttulo, es decir, el ttulo debe ser conciso y completo puesto que
es una descripcin del contenido. Para que un ttulo sea completo, ste debe responder a
cuatro preguntas claves: Qu? Qu se estudia, es decir, cul es la poblacin que se est
estudiando?; Cmo?, es decir, cmo se clasifican los datos en la tabla, o sea, de acuerdo a
qu caractersticas?; Dnde?, es decir, a qu institucin o lugar geogrfico pertenecen los
datos?; Cundo?, es decir, el perodo de tiempo o fecha en la que se realiz la
investigacin.
anota las categoras o niveles de la variable que est considerada en la fila de los
encabezamientos.
Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.
2. Distribuciones de frecuencias
Qu es una distribucin de frecuencias?
Es la organizacin de los datos obtenidos en grupos o clases llamados intervalos de clase,
los cuales son mutuamente excluyentes y colectivamente exhaustivos
Cul es el objetivo al organizar los datos en una distribucin de frecuencias?
Detectar la tendencia de la variable de estudio y hacer un anlisis preliminar.
Se dice tambin que una distribucin de frecuencias es una primera forma de resumir la
informacin.
3. Representaciones grficas
La mayora son figuras geomtricas que se utilizan para visualizar el comportamiento o la
tendencia de la variable (s) de estudio.
Tipos de grficos segn la naturaleza de la variable de estudio:
Decamos que una distribucin de frecuencias es la organizacin de los datos en intervalos de clase,
mutuamente excluyentes y colectivamente exhaustivos. Ejemplo. La tabla N 2.6
Para variables nominales y ordinales, una distribucin de frecuencias consiste en un conjunto de
categoras o clases con cantidades numricas correspondientes a cada categora que toman el
nombre de frecuencias. Ejemplo, la tabla N 2.4
Para presentar las observaciones correspondientes a una variable discreta o continua en forma de
una distribucin de frecuencias debemos proceder de la siguiente manera:
a)
Determinar el rango o recorrido, ste se define como la distancia entre el dato mximo y
el dato mnimo. Se denota por R.
b)
k = 1 + 3.322log N
Se determina la amplitud del intervalo, para ello se divide el rango o recorrido entre k, y
de esa manera obtenemos la longitud de cada intervalo.
d)
Ejemplo:
Un investigador social desea determinar en la comunidad X, el nmero de horas semanales que
dedican los nios menores de 6 aos de edad, a ver televisin. Una muestra de 25 aos, arroj los
siguientes resultados (en nmero de horas semanales).
10
16
23
15
18
19
19
22
21
25
25
27
17
23
23
19
27
12
26
24
26
25
20
14
21
2. Polgono de frecuencias
Tambin es un grfico que se utiliza para representar la distribucin de frecuencias
absolutas o relativas simples. Consiste en un grfico que se obtiene uniendo los puntos
hallados, mediante el par de valores de marca de clase y frecuencia correspondiente. Para
Ejercicios:
1. Los siguientes datos corresponden al ndice de rendimiento en una prueba de aptitud.
1.51
1.23
1.65
1.61
2.29
1.53
1.56
1.69
1.65
1.56
1.47
1.09
2.01
1.6
1.67
1.58
1.63
1.73
2.18
1.81
1.46
1.60
1.22
1.54
1.67
1.69
1.89
1.46
1.33
1.38
1.66
1.37
1.51
1.65
1.68
1.61
2.29
1.47
1.50
1.83
3
5
6
5
3
4
6
4
2
6
5
2
5
3
5
4
4
3
7
4
7
5
2
4
4
3
6
2
6
2
4
5
3
5
3
3
3
6
2
3
3
6
6
6
5
6
3
5
7
4
4
2
6
4
4
4
4
2
5
5
5
5
6
3
7
5
4
7
5
3
4
5
4
4
6
5
5
4
112
126
114
120
122
111
122
128
115
129
146
116
121
134
139
118
117
121
108
111
131
118
117
106
120
122
114
132
116
124
102
112
123
132
113
115
138
112
107
112
122
118
106
123
120
106
123
123
113
116
120
48
38
36
45
48
115
52
98
120
125
112
132
134
105
108
95
96
87
78
69
98
89
63
54
49
145
112
109
53
57
115
51
91
61
71
96
63
109
46
63
90
104
103
56
139
Poblacin I
Poblacin II
Fig. N 1
Poblacin II
Fig. N 2
Poblacin I
Distribucin con
Poblacin II
Distribucin simtrica
asimetra negativa
Poblacin III
Distribucin con
asimetra positiva
Fig. N 3
A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque
tienden a ubicarse en el centro de la distribucin. Estas medidas son: la media aritmtica, mediana,
moda, media geomtrica y tambin podemos considerar a las medidas de posicin conocidos con el
nombre de percentiles
Media aritmtica
Ejemplo 1
Se han obtenido la cantidad de fsforo (en mg / g de hoja) en hojas secas:
X =
X
n
41.91
8.398 mg / g
5
10
Ejemplo 2
Se dispone del tiempo de vida (en meses) de dos especies de pjaros en cautiverio:
Especie A
Xi (meses) : 34 36 37 39 40 41 42 43 59
Especie B
Xi (meses) : 35 36 39 41 39 43 45 44 46 45
Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media
aritmtica tiene la misma unidad de medida como la tienen las observaciones individuales.
Observaciones
a)
b)
c)
d)
Se expresa en las mismas unidades de medida en que estn dados los datos originales
11
La Mediana
La mediana de un conjunto de datos es la observacin central, es decir, la mitad de las
observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales.
Clculo de la mediana
a)
b)
1)
2)
40 41
2
= 40.5 meses.
Observaciones
12
La Moda
La moda o modo de un conjunto de observaciones se define como la observacin que ocurre con
mayor frecuencia. Tal vez es mejor definir a la moda como una medicin de mayor concentracin.
En algunas distribuciones de frecuencia puede haber ms de uno de esos puntos de mayor
concentracin (moda), sin embargo esos puntos pueden no tener la misma frecuencia. As por
ejemplo, una muestra consiste de los siguientes datos en mm.
4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14.
En este conjunto de datos observamos dos modas locales 9 y 12.
La Media Geomtrica
Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa
cuando los datos estn medidos en una escala logartmica. Se emplea en microbiologa para calcular
ttulos desilusin promedio y para promediar cantidades en forma de progresiones y tasas de
crecimiento.
La media geomtrica cuyo smbolo que utilizaremos es Xg se define como la raz ensima del
producto de las observaciones positivas. En smbolos:
Sean Xi > 0 ; X1, X2, .., Xn
n observaciones positivas, entonces la media geomtrica es:
Xg =
( x1 )( x2 ).......( xn )
13
14
Varianza
s2 =
( xi X ) 2
n 1
15
s s
2
(x
X )2
n 1
En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes
desviaciones estndar son:
SA = 13.65 meses
SB = 3.60 meses.
16
C.V .
s
100%
x
Como, tanto s como x estn expresadas en las mismas unidades de medida, el C.V. resulta un
indicador adimensional. Adems expresa qu tanto por ciento es la desviacin estndar de la media
aritmtica.
Ejemplo 1
En un grupo de personas, el peso promedio fue de 145 libras con una desviacin estndar de 7
libras; la estatura promedio fue 67 pulgadas con desviacin estndar de 5 pulgadas. La pregunta es:
en cul caracterstica el grupo es ms variable (heterogneo)?. En este caso no podemos comparar
paso y estatura (caractersticas expresadas en diferentes unidades de medida). Para dar respuesta a
la pregunta calculamos el coeficiente de variacin:
Peso
C.V. =
7
4.8%
145
Estatura
C.V. =
5
7.5%
67
17
Consideremos las siguientes muestras de los pesos de hombres de 25 aos y de nios de 11 aos
Muestra
Peso (Kg)
Media
Desviacin
Aritmtica
Estndar
Hombres
Mujeres
66
36
4.5
4.5
Si observamos las desviaciones estndar, aparentemente los dos grupos tienen la misma dispersin
o variabilidad en peso, sin embargo:
C.VHombres =
C.VNios =
4.5
(100) 6.82%
66
4.5
(100) 12.5%
36
Los pesos de los nios son relativamente ms variables (heterogneos) que los pesos de los adultos.
Cuartiles
La mediana de una distribucin divide los datos en dos partes iguales.
18
Tambin es posible dividir los datos en ms de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales, los puntos de divisin se conocen como cuartiles y los
representamos por Q1, Q2 y Q3
Recorrido Intercuartlico
RIQ Q3 Q1
Es la medida de dispersin que muy poco se usa porque no usa toda la informacin proporcionada
por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la
diferencia entre el mximo y el mnimo valor de la distribucin de datos.
R X max X min
Forma de la distribucin
Una vez iniciado el anlisis estadstico de sinterizacin de la informacin, para lo cual hemos
estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos
conocer ms sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,
19
20
A continuacin se definen las medidas de asimetra ms comunes, entre las que destacan las
siguientes:
Coeficiente de asimetra de Fisher: Ahora se intenta buscar una medida que recoja la simetra o
asimetra de una distribucin. Si la distribucin es simtrica, el eje de simetra de su representacin
grafica ser una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media
aritmtica. Por ello, cuando la distribucin es asimtrica, referiremos los valores de la distribucin a
este promedio. Si una distribucin es simtrica. existe el mismo numero de valores a la derecha que
a la izquierda de x , y por tanto el mismo nmero de desviaciones con signo positivo que con signo
negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir.
pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las
desviaciones.
Lo ms sencillo sera tomar como medida de asimetra el promedio de estas desviaciones, elevadas
a la potencia impar ms simple (que es tres), es decir, tomaramos como medida de asimetra el
momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendra expresada en
las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante
un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresin
anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de
la desviacin tpica, obtenindose as el coeficiente de asimetra de R. A. Fisher, cuya expresin es:
g1
m3
1
N
1
N
(x
i 1
x ) 3 ni
( x j x ) ni
i 1
3/ 2
positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor
que la suma de las desviaciones con signo negativo (la grafica de la distribucin tiene mas densidad
a la derecha de la media). En caso contrario, la distribucin es asimtrica a la izquierda o negativa.
21
asintticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el
coeficiente de asimetra estandarizado cuya expresin es:
gs
g1
6
N
x - Mo > 0. En el caso de distribucin asimtrica negativa la media se sita por debajo de Mo, por
lo que el valor x - Mo < 0. La desviacin tpica que aparece en el denominador no modifica el
signo de la diferencia
siempre se situa entre la media y la moda en las distribuciones moderadamente asimtricas). Por
esta razn,algunos autores utilizan como coeficiente de asimetra de Pearson el valor:
Ap 3( x - Me)
Coeficiente de asimetra de Bowley: Est basado en la posicin de los cuartiles y la mediana, y
viene dado por la expresin Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la
distribucin es simtrica, si
22
Una vez presentadas las medidas de asimetra, a continuacin se definen las medidas de curtosis
ms comunes, entre las que destacan las siguientes:
Coeficiente de curtosis: En la distribucin normal se verifica que m 4 = 3 4 siendo m 4 el
momento de orden 4 respecto a la media y la desviacin tpica. Si consideramos la expresi6n g 2
= m 4 / 4 - 3, su valor ser cero para la distribucin normal. Por ello, como coeficiente de
apuntamiento o curtosis se utiliza la expresin:
g2
m4
1
N
1
N
(x
i 1
(x
i 1
x ) 4 ni
x ) 2 ni
asintticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el
coeficiente de curtosis estandarizado cuya expresin es:
g ks
g2
6
N
23
Valores extremos
Son valores que se alejan del conjunto de datos.
Regla para identificar valores o datos extremos
Vamos a definir una observacin
24
NOTA Para incluir funciones de Visual Basic para Aplicaciones (VBA) en las Herramientas para
anlisis, cargue el complemento Herramientas para anlisis - VBA de la misma manera que se carga
Herramientas para anlisis. En el cuadro Complementos disponibles active la casilla de
verificacin Herramientas para anlisis - VBA y despus haga clic en Aceptar.
25
26
27
Utilizaremos el archivo Base de datos 1. Como ejemplo se calcularn las estadsticas descriptivas
para la variable estatura. Para ello se seguirn los siguientes pasos:
28
Se tiene que indicar el rango de celdas donde se encuentran los datos que se desea analizar.
Pulsamos el botn que est en la circunferencia roja y aparece a siguiente ventana:
Marcamos con el ratn el rango de los datos, desde la segunda celda de la columna que corresponde
a la variable Estatura. Pulsar nuevamente en el botn que est en la circunferencia azul.
29
Luego se verifica que se encuentre marcada la opcin Agrupados por columna. Para efectos de este
ejemplo usaremos la opcin Rango de salida. Pulsar en el botn que aparece en la circunferencia
verde y seleccionar la casilla donde se quiere que aparezcan los resultados, por ejemplo la segunda
casilla de la columna I.
Luego marcar la opcin resumen de estadsticas, Nivel de confianza para la media y pulsar en
Aceptar.
30
Aparecer en la casilla seleccionada una tabla que contiene las estadsticas descriptivas que
corresponden a la variable Estatura adems del intervalo de confianza del 95% para la media.
Para dibujar un histograma primero se tiene que calcular el nmero de intervalos, para ello se tiene
que seguir los pasos ya sealados anteriormente.
1. Calcular el Rango. Veamos:
Se redondea a 7.
Entonces los intervalos sern:
154-160
161-167
168-174
175-181
182-188
189-195
En la pestaa Insertar, Pulsar Tabla dinmica y aparecer la siguiente ventana:
Aqu se tiene que indicar el rango de los datos con los que se quiere formar los intervalos, para ello
pulsar en la circunferencia roja.
32
Luego deberemos indicar donde se desea indicar el informe de la tabla dinmica, elegiremos la
opcin Hoja de clculo existente, a continuacin elegiremos una casilla en blanco, tal como aparece
a continuacin:
Pulsar Aceptar. Aparecer la siguiente ventana. El siguiente paso es trasladar Estatura hacia el
recuadro Rtulo de fila
33
A continuacin aparecer una columna con los datos. El siguiente paso ser seleccionar la primera
casilla de los datos, para luego pulsar el botn derecho del ratn.
34
Aparecer la siguiente ventana. En ella se tendr que digitar el nmero correspondiente al lmite
inferior del primer intervalo (153), el nmero correspondiente al lmite superior del ltimo intervalo
(196) y la amplitud de los mismos (7), tal como aparece en la figura. Pulsar Aceptar.
35
Una vez creados los intervalos, se procede a continuacin a trasladar Estatura hacia el recuadro de
valores tal como se indica en la figura.
A continuacin se formar una columna conteniendo las frecuencias relativas de cada intervalo, tal
como se aprecia a continuacin:
36
Luego procedemos a marcar tanto las casillas de los intervalos como las casillas de las frecuencias.
Seguidamente pulsar la pestaa de Insertar Grficos Columna Aceptar, tal como aparece
en el grfico.
37
Aparecer un grfico que se podr editar. Un ejemplo del grfico ya editado se presenta a
continuacin:
Histograma
10
9
8
7
6
5
4
3
2
1
0
154-160
161-167
168-174
175-181
182-188
189-195
38