Vous êtes sur la page 1sur 38

CONCEPTOS BSICOS DE ESTADSTICA

Curso: Estadstica Descriptiva


Organizacin de la informacin

Prof: Willer David Chanduv Puicn

Presentacin de datos
Realizado el experimento o finalizada la investigacin, el investigador ha recopilado un conjunto de
datos u observaciones los cuales requieren ser ordenados. La Estadstica nos proporciona los
mtodos apropiados para tal fin. As tenemos:

1. Tablas o cuadros estadsticos. Es la presentacin de datos ordenados en filas y columnas.


Partes principales de una tabla

Nmero de la tabla: Es el cdigo con el que se identifica la tabla que generalmente

es un nmero decimal. Ejemplo: Tabla N 3.7 la parte entera, 3, indica el captulo o parte
de la obra en donde se encuentra ubicada la tabla y la parte decimal 7, indica que es la
sptima tabla de ese captulo.

El ttulo de la tabla: La tabla se explicar por si misma por tanto se debe dar

suficiente informacin en el ttulo, es decir, el ttulo debe ser conciso y completo puesto que
es una descripcin del contenido. Para que un ttulo sea completo, ste debe responder a
cuatro preguntas claves: Qu? Qu se estudia, es decir, cul es la poblacin que se est
estudiando?; Cmo?, es decir, cmo se clasifican los datos en la tabla, o sea, de acuerdo a
qu caractersticas?; Dnde?, es decir, a qu institucin o lugar geogrfico pertenecen los
datos?; Cundo?, es decir, el perodo de tiempo o fecha en la que se realiz la
investigacin.

Fila de los encabezamientos o de los subttulos. En esta fila se escriben los

nombres de las variables y sus categoras o niveles. Cuando la variable es cuantitativa se


anota sus unidades de medida.

Columna matriz: es la primera columna del margen izquierdo. En esta columna se

anota las categoras o niveles de la variable que est considerada en la fila de los
encabezamientos.

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Prof: Willer David Chanduv Puicn

Cuerpo de la tabla: son las casillas o celdas en donde se consignan los datos.

Fuente: Cuando los datos corresponden a investigaciones realizadas con objetivos

diferentes, es conveniente mencionar la fuente no solo como un reconocimiento al autor


sino tambin para orientar al lector y pueda consultar la fuente primaria.

2. Distribuciones de frecuencias
Qu es una distribucin de frecuencias?
Es la organizacin de los datos obtenidos en grupos o clases llamados intervalos de clase,
los cuales son mutuamente excluyentes y colectivamente exhaustivos
Cul es el objetivo al organizar los datos en una distribucin de frecuencias?
Detectar la tendencia de la variable de estudio y hacer un anlisis preliminar.
Se dice tambin que una distribucin de frecuencias es una primera forma de resumir la
informacin.
3. Representaciones grficas
La mayora son figuras geomtricas que se utilizan para visualizar el comportamiento o la
tendencia de la variable (s) de estudio.
Tipos de grficos segn la naturaleza de la variable de estudio:

Para variables cuantitativas: Histogramas y polgonos.

Para variables cualitativas: Grficos de barras y grficos circulares

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
DISTRIBUCIN DE FRECUENCIAS

Prof: Willer David Chanduv Puicn

Decamos que una distribucin de frecuencias es la organizacin de los datos en intervalos de clase,
mutuamente excluyentes y colectivamente exhaustivos. Ejemplo. La tabla N 2.6
Para variables nominales y ordinales, una distribucin de frecuencias consiste en un conjunto de
categoras o clases con cantidades numricas correspondientes a cada categora que toman el
nombre de frecuencias. Ejemplo, la tabla N 2.4
Para presentar las observaciones correspondientes a una variable discreta o continua en forma de
una distribucin de frecuencias debemos proceder de la siguiente manera:

a)

Determinar el rango o recorrido, ste se define como la distancia entre el dato mximo y
el dato mnimo. Se denota por R.

b)

Determinar el nmero el nmero de intervalos a considerar. En principio, ni pocos ni


demasiados intervalos. Si hay demasiados intervalos el resumen no tiene grandes
ventajas respecto de los datos a procesar. Si se consideran pocos, se sintetiza demasiado
de manera que se pierde gran cantidad de informacin. Una regla que se usa para
determinar el nmero de intervalos a considerar, se conoce con el nombre de regla de
Sturges, que consiste en calcular k

k = 1 + 3.322log N

siendo N el nmero de observaciones y k el nmero de intervalos. Se recomienda que el


nmero de intervalos no debe ser menor de 5 ni mayor de 20.
c)

Se determina la amplitud del intervalo, para ello se divide el rango o recorrido entre k, y
de esa manera obtenemos la longitud de cada intervalo.

d)

Se calculan los lmites inferior y superior de cada intervalo de clase.

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Frecuencia Absoluta Simple


Es el nmero de veces que se repiten los valores dentro de los diferentes intervalos en que se ha
dividido la informacin.
Frecuencia Absoluta Acumulada
Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente.
Frecuencia Relativa Simple
Es el valor que resulta de dividir cada una de las frecuencias absolutas simples entre el total de
frecuencias o datos. As se tiene:

Frecuencia Relativa Acumulada


Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente.

Ejemplo:
Un investigador social desea determinar en la comunidad X, el nmero de horas semanales que
dedican los nios menores de 6 aos de edad, a ver televisin. Una muestra de 25 aos, arroj los
siguientes resultados (en nmero de horas semanales).

10
16
23
15
18

19
19
22
21
25

25
27
17
23
23

19
27
12
26
24

26
25
20
14
21

a) Ordenar la informacin en una tabla de distribucin de frecuencias.


b) Interpretar algunos valores de las frecuencias halladas.

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Representaciones Grficas

Prof: Willer David Chanduv Puicn

Existen diversidad de grficos estadsticos; stos se eligen de acuerdo al tipo de variable y al


propsito para el cual se construye. Los grficos ms importantes y de mayor uso son:
A. Cuando los datos son medidos a nivel Nominal u Ordinal
1. Grfico de Barras
2. Grfico Circular

B. Cuando los datos son medidos a nivel de Intervalo o razn


1. Histograma
Es un grfico que se utiliza para representar la distribucin de frecuencias absolutas o
relativas simples. Consiste en un grupo de rectngulos adyacentes que tienen sus bases en el
eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual
a las frecuencias de cada clase.

2. Polgono de frecuencias
Tambin es un grfico que se utiliza para representar la distribucin de frecuencias
absolutas o relativas simples. Consiste en un grfico que se obtiene uniendo los puntos
hallados, mediante el par de valores de marca de clase y frecuencia correspondiente. Para

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Prof: Willer David Chanduv Puicn
fines del grfico se hace necesario incrementar un intervalo de clase en cada extremo, con
frecuencias cero.
3. Ojivas
Son grficos que se utilizan para representar las frecuencias acumuladas absolutas o
relativas, y consiste en un grfico lineal que nos permite observar la cantidad de elementos
que quedan por encima o por debajo de determinados valores.

Ejercicios:
1. Los siguientes datos corresponden al ndice de rendimiento en una prueba de aptitud.
1.51
1.23
1.65
1.61
2.29

1.53
1.56
1.69
1.65
1.56

1.47
1.09
2.01
1.6
1.67

1.58
1.63
1.73
2.18
1.81

1.46
1.60
1.22
1.54
1.67

1.69
1.89
1.46
1.33
1.38

1.66
1.37
1.51
1.65
1.68

1.61
2.29
1.47
1.50
1.83

a) Elaborar una tabla completa de distribucin de frecuencias.


b) Interpretar algunos valores de las frecuencias halladas.

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Prof: Willer David Chanduv Puicn
2. Los siguientes datos corresponden al nmero de viajes que realizan por da, 80 personas
encuestadas, para ir y regresar de su centro de trabajo:

3
5
6
5
3
4

6
4
2
6
5
2

5
3
5
4
4
3

7
4
7
5
2
4

4
3
6
2
6
2

4
5
3
5
3
3

3
6
2
3
3
6

6
6
5
6
3
5

7
4
4
2
6
4

4
4
4
2
5
5

5
5
6
3
7
5

4
7
5
3
4
5

4
4
6
5
5
4

a) Ordenar los datos agrupndolos en un cuadro de distribucin de frecuencias.


b) Cuntas personas viajan 4 veces por da?
c) Qu porcentaje de personas viajan 3 veces por da?
d) Cuntas personas viajan 5 veces por da?
e) Cuntas personas viajan a lo ms veces por da?
3. Los siguientes datos corresponden a las lecturas de la presin sangunea sistlica que se
hicieron a 58 adultos que se presentaron para un examen fsico
104
126
116
105
114
124
124

112
126
114
120
122
111
122

128
115
129
146
116
121
134

139
118
117
121
108
111
131

118
117
106
120
122
114

132
116
124
102
112
123

132
113
115
138
112
107

112
122
118
106
123
120

106
123
123
113
116
120

a) Construir un cuadro de distribucin de frecuencias


b) Analizar algunos valores de las frecuencias hallada.

4. Se muestra a continuacin la estatura en centmetros de un grupo de nios y nias normales,


de 0 a 12 aos, residentes en las regiones de 4900 m. sobre el nivel del mar.
45
51
55
60
62

48
38
36
45
48

115
52
98
120
125

112
132
134
105
108

95
96
87
78
69

98
89
63
54
49

145
112
109
53
57

115
51
91
61
71

96
63
109
46
63

90
104
103
56
139

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
a) Construir una tabla de frecuencias

Prof: Willer David Chanduv Puicn

b) Analizar los datos agrupados.


Resumen de la Informacin
Las distribuciones de frecuencias y las tablas estadsticas son una primera forma de resumir la
informacin para hacer un anlisis preliminar, pero no es suficiente. Se trata ahora de sustituir a
toda la serie de datos o distribucin de frecuencias por unos pocos ndices. Para elegir a esos ndices
o parmetros debemos considerar tres aspectos bsicos, y ellos son: la localizacin o ubicacin,
dispersin o variacin, y la forma, de la distribucin

Localizacin o ubicacin de la distribucin. Se trata de la ubicacin de la masa de


datos en el eje real. Los indicadores o ndices de la localizacin se conocen con el
nombre de medidas de tendencia central, y son: media aritmtica, mediana, moda o
modo, media geomtrica y la media armnica. En la Figura N 1 Se observan dos
poblaciones ubicadas en diferentes puntos del eje real

Poblacin I

Poblacin II

Fig. N 1

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Dispersin o variacin. Se refiere a la variabilidad de los datos que constituyen la


distribucin. Los ndices de la dispersin se conocen con el nombre de medidas de
dispersin, y estos son: la varianza, desviacin estndar, coeficiente de variacin,
recorrido intercuartlico y el recorrido o rango o amplitud total. En la Fig. N 2 se
observan poblaciones con diferente dispersin y tambin diferente ubicacin
Poblacin I

Poblacin II

Fig. N 2

Forma de la distribucin. La distribucin puede ser simtrica, asimtrica o sesgada,


esta ltima puede ser de sesgo positivo o de sesgo negativo. El ndice de la forma de la
distribucin es el coeficiente de asimetra. En la Figura N3 se observan tres
distribuciones con diferente forma

Poblacin I

Distribucin con

Poblacin II

Distribucin simtrica

asimetra negativa

Poblacin III

Distribucin con
asimetra positiva

Fig. N 3

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Vamos a describir a cada uno de estos ndices.


3.1 MEDIDAS DE TENDENCIA CENTRAL

A este conjunto de medidas de resumen se les conoce como medidas de tendencia central, porque
tienden a ubicarse en el centro de la distribucin. Estas medidas son: la media aritmtica, mediana,
moda, media geomtrica y tambin podemos considerar a las medidas de posicin conocidos con el
nombre de percentiles

Media aritmtica

Es la medida de tendencia central ms conocida y de mayor uso, comnmente la llaman promedio


aritmtico o simplemente promedio, pero todas las tendencia central son promedios. Se define como
la suma de todas las observaciones dividida entre el nmero de observaciones, es decir,

Ejemplo 1
Se han obtenido la cantidad de fsforo (en mg / g de hoja) en hojas secas:

Xi: 8.15, 8.26, 8.40, 8.58 y 8.60

La media aritmtica es:

X =

X
n

41.91
8.398 mg / g
5
10

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Ejemplo 2
Se dispone del tiempo de vida (en meses) de dos especies de pjaros en cautiverio:
Especie A
Xi (meses) : 34 36 37 39 40 41 42 43 59
Especie B
Xi (meses) : 35 36 39 41 39 43 45 44 46 45

Se observa que la especie A tiene menor esperanza de vida en cautiverio. No olvide que la media
aritmtica tiene la misma unidad de medida como la tienen las observaciones individuales.

Observaciones

a)

La media aritmtica se emplea en datos cuantitativos o numricos; en cambio no debe


usarse en datos ordinales debido a la naturaleza arbitraria de la escala.

b)

La media es sensible a valores extremos o discordantes y la presencia de ellos en un


conjunto de datos hacen que la media pierda su condicin de ser representativa del
conjunto

c)

Es la medida de tendencia central que mejor describe a un conjunto de datos cuando la


distribucin es simtrica.

d)

Se expresa en las mismas unidades de medida en que estn dados los datos originales

11

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

La Mediana
La mediana de un conjunto de datos es la observacin central, es decir, la mitad de las
observaciones son menores o iguales que la mediana y la otra mitad son mayor o iguales.
Clculo de la mediana

a)

Se ordenan los datos de menor a mayor (o viceversa)

b)

Encontrar el valor que est ocupando el centro. Casos:

1)

En un nmero impar de observaciones la mediana es el valor que ocupa el centro.


En el ejemplo 2, especie A, la mediana es Md = 40 meses.

2)

En un nmero par de observaciones se define como mediana a la media aritmtica


de los dos valores centrales, por ejemplo en la especie B de aves en cautiverio la
mediana es la semisuma de la quinta y sexta observacin, es decir, Md =

40 41
2

= 40.5 meses.
Observaciones

a) La mediana no es sensible a los valores extremos, es decir, stos no tienen efectos


importantes sobre la mediana ( no la modifican).
b) La mediana puede usarse con valores ordinales debido a que para su clculo no se
usa los valores reales de las observaciones si no se ubica el valor central.
c) Se recomienda como representativa del conjunto de datos cuando existen valores
extremos (distribucin asimtrica o sesgada).
d) Al igual que la media aritmtica, se expresa en las mismas unidades de medida en
que estn dados los datos originales.

12

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

La Moda

La moda o modo de un conjunto de observaciones se define como la observacin que ocurre con
mayor frecuencia. Tal vez es mejor definir a la moda como una medicin de mayor concentracin.
En algunas distribuciones de frecuencia puede haber ms de uno de esos puntos de mayor
concentracin (moda), sin embargo esos puntos pueden no tener la misma frecuencia. As por
ejemplo, una muestra consiste de los siguientes datos en mm.

4, 4, 5, 7,7, 8, 8, 9, 9, 9, 9, 10, 11, 12, 12, 12, 12, 12, 13, 13, 14.
En este conjunto de datos observamos dos modas locales 9 y 12.
La Media Geomtrica

Es otra medida de tendencia central, no se usa tan a menudo como las anteriores. En general se usa
cuando los datos estn medidos en una escala logartmica. Se emplea en microbiologa para calcular
ttulos desilusin promedio y para promediar cantidades en forma de progresiones y tasas de
crecimiento.
La media geomtrica cuyo smbolo que utilizaremos es Xg se define como la raz ensima del
producto de las observaciones positivas. En smbolos:
Sean Xi > 0 ; X1, X2, .., Xn
n observaciones positivas, entonces la media geomtrica es:

Xg =

( x1 )( x2 ).......( xn )

13

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Qu medida de tendencia central usar?

Obtenida la informacin, (las observaciones) la pregunta es qu medida de tendencia central es


mejor para usar con los datos obtenidos. La respuesta est condicionada a dos factores: la escala de
medicin (numrica u ordinal) y la forma de la distribucin de las observaciones (simtrica o
asimtrica). Esta informacin ayuda a elegir la medida de tendencia central apropiada.

Si existen valores discrepantes o discordantes en una distribucin se dice que la distribucin es


asimtrica o sesgada, as tenemos: si los valores discordantes son pequeos la asimetra es o la
izquierda o negativa. Si slo existen unos cuantos valores muy grandes comparados con el resto de
los datos, la asimetra es a la derecha o positiva. Una regla para deducir la asimetra de la
distribucin es comparando la media y la median, como sigue:
a) Si la media y la mediana son iguales, la distribucin es simtrica.
b) Si la media es mayor que la mediana, la distribucin est sesgada o asimtrica a la
derecha.
c) Si la media es menor que la mediana, entonces la distribucin est sesgada o
asimtrica a la izquierda.
Las siguientes recomendaciones para elegir la medida de tendencia central ms adecuada:
i) La media se usa para datos numricos y distribuciones simtricas (no sesgadas).
ii) La mediana se usa en datos ordinales o si la distribucin es sesgada.
iii) El modo se usa cuando se desea resaltar el dato ms frecuente.
iv) La media geomtrica se usa en observaciones medidas en una escala logartmica.

14

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

MEDIDAS DE DISPERSIN O VARIABILIDAD

Las medidas de dispersin permiten estimar la representatividad de un promedio (media o


mediana), en ese sentido es necesario cuantificar la dispersin o variabilidad de los datos
alrededor del promedio correspondiente. Las principales medidas que calculan la dispersin son:
la varianza, la desviacin estndar y el coeficiente de variacin. Todas ellas miden desviaciones
respecto a la media, pero en tanto que, las dos primeras proporcionan desviaciones absolutas, la
ltima proporciona desviaciones en trminos relativos a la media.

Varianza

La varianza muestral (s2) se define como:

s2 =

( xi X ) 2
n 1

donde xi son los valores de la variable X, X es la media aritmtica muestral y n es el tamao de la


muestra. Como vemos, la varianza viene a ser la media aritmtica de las distancias de cada uno de
los datos con respecto a la media X ; pero elevados al cuadrado, en ese sentido, la magnitud de s2
medir la mayor o menor dispersin de los valores de la variable respecto a la media aritmtica; es
decir, mostrar el grado de representatividad de dicho promedio, de tal forma que a mayor valor de
s2 la dispersin ser mayor y la media aritmtica no ser representativa (lo contrario suceder
cuando s2 sea pequea).

15

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Ejemplo: En el ejemplo 2, la varianza del tiempo de vida de la especie A es s A2 = 186.2760 meses2


y de la especie B es s B2 = 12.96 meses2. Con estos resultados deducimos que hay menor dispersin
en los datos del tiempo de vida correspondiente a la especie B comparada con la especie A, y por lo
tanto su media aritmtica (tiempo medio de vida) ser mejor representativa. Adems, en la especie
A existe un valor atpico que es el dato 79 meses, es por eso que la varianza aumenta.

Desviacin Estndar o Tpica (s)

Un inconveniente de la varianza radica en que sus unidades de medida corresponde al de la variable


pero, elevadas al cuadrado, lo cual puede dificultar su interpretacin. Por esta razn se define una
medida de dispersin la cul si est expresada en las mismas unidades de medida que la variable
que se est analizando. Esta medida de dispersin se conoce con el nombre de desviacin estndar,
es decir:

s s
2

(x

X )2

n 1

En el ejemplo del tiempo de vida en cautiverio de las dos especies, las correspondientes
desviaciones estndar son:

SA = 13.65 meses

SB = 3.60 meses.

16

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

No obstante la ventaja de interpretacin que la desviacin estndar supone respecto a la varianza,


sin embargo, es imposible efectuar comparaciones entre distribuciones de frecuencia cuando las
dimensiones de las variables no coinciden debido precisamente a que las distribuciones no poseen
idnticas unidades de medida. Este inconveniente da lugar a nuevas medidas de dispersin o
variabilidad relativa (adimensionales), entre ellas, el coeficiente de variacin.

Coeficiente de Variacin (C.V.)


Se define como la relacin por cociente entre la desviacin estndar y la media aritmtica,
expresado en porcentaje, es decir:

C.V .

s
100%
x

Como, tanto s como x estn expresadas en las mismas unidades de medida, el C.V. resulta un
indicador adimensional. Adems expresa qu tanto por ciento es la desviacin estndar de la media
aritmtica.
Ejemplo 1

En un grupo de personas, el peso promedio fue de 145 libras con una desviacin estndar de 7
libras; la estatura promedio fue 67 pulgadas con desviacin estndar de 5 pulgadas. La pregunta es:
en cul caracterstica el grupo es ms variable (heterogneo)?. En este caso no podemos comparar
paso y estatura (caractersticas expresadas en diferentes unidades de medida). Para dar respuesta a
la pregunta calculamos el coeficiente de variacin:

Peso
C.V. =

7
4.8%
145

Estatura
C.V. =

5
7.5%
67

17

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Por tanto decimos que en estatura el grupo es ms heterogneo.


Ejemplo 2

Consideremos las siguientes muestras de los pesos de hombres de 25 aos y de nios de 11 aos

Muestra

Peso (Kg)
Media
Desviacin
Aritmtica
Estndar

Hombres
Mujeres

66
36

4.5
4.5

Si observamos las desviaciones estndar, aparentemente los dos grupos tienen la misma dispersin
o variabilidad en peso, sin embargo:

C.VHombres =

C.VNios =

4.5
(100) 6.82%
66
4.5
(100) 12.5%
36

Los pesos de los nios son relativamente ms variables (heterogneos) que los pesos de los adultos.
Cuartiles
La mediana de una distribucin divide los datos en dos partes iguales.

18

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Tambin es posible dividir los datos en ms de dos partes. Cuando se divide un conjunto ordenado
de datos en cuatro partes iguales, los puntos de divisin se conocen como cuartiles y los
representamos por Q1, Q2 y Q3

Recorrido Intercuartlico

Cuando la distribucin es asimtrica se utiliza como indicador de la dispersin de los datos el


recorrido intercuartlico que se define como la diferencia entre el tercer y primer cuartil, en
smbolos:

RIQ Q3 Q1

Recorrido, Rango o Amplitud Total

Es la medida de dispersin que muy poco se usa porque no usa toda la informacin proporcionada
por la muestra para calcular su valor, por lo tanto puede inducir a error. Se define como la
diferencia entre el mximo y el mnimo valor de la distribucin de datos.

R X max X min
Forma de la distribucin
Una vez iniciado el anlisis estadstico de sinterizacin de la informacin, para lo cual hemos
estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos
conocer ms sobre el comportamiento de la misma. No podemos basar nuestras conclusiones
nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si
bien intentamos globalizar el comportamiento del colectivo que sea objeto de nuestro estudio,
19

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Prof: Willer David Chanduv Puicn
para lo cual las medidas de posicin son nuestro mejor instrumento, no debemos proceder a una
intrepretacin que implique un comportamiento de todos los elementos del colectivo
uniformemente constante e igual a la medida de posicin en cuestin con un error dado por la
correspondiente medida de dispersin. Este error o disparidad se hace ms ostensible al analizar
la representacin grfica de la distribucin. Pues bien, las medidas de forma de una distribucin
se basan en su representacin grafica, sin llegar a realizar la misma.
Las medidas de forma se clasifican en medidas de asimetra y medidas de curtosis o
apuntamiento.
Las medidas de asimetra tienen como finalidad el elaborar un indicador que permita establecer el
grado de simetra (o asimetra) que presenta una distribucin, sin necesidad de llevar a cabo su
representacin grafica.
Supongamos que hemos representado grficamente una distribucin de frecuencias. Si trazamos
una perpendicular al eje de abscisas por x y tomamos esta perpendicular como eje de simetra,
diremos que una distribucin es simtrica si existe el mismo numero de valores a ambos lados de
dicho eje, equidistantes de x dos a dos y tales que cada par de valores equidistantes a x tengan la
misma frecuencia. En caso contrario, las distribuciones sern asimtricas.
Las medidas de curtosis estudian la distribucin de frecuencias en la zona central de la misma. La
mayor o menor concentracin de frecuencias alrededor de la media y en la zona central de la
distribucin dar lugar a una distribucin ms o menos apuntada. Por esta razn a las medidas de
curtosis se les llama tambin de apuntamiento o concentracin central. Las medidas de curtosis se
aplican a distribuciones campaniformes, es decir, unimodales simtricas o con ligera asimetra Para
estudiar la curtosis de una distribucin es necesario definir previamente una distribucin tipo, que
vamos a tomar como modelo de referencia. Esta distribucin es la Normal, que corresponde a
fenmenos muy corrientes en la naturaleza, y cuya representacin grafica es una campana de Gauss.
Tomando la normal como referencia, diremos que una distribucin puede ser mas apuntada que la
normal (es decir, leptocurtica) o menos apuntada (es decir, platicrtica).
A la distribucin normal, desde el punto de vista de la curtosis, se le llama mesocrtica.
Con la curtosis se estudia la deformacin, en sentido vertical, respecto a la normal, de una
distribucin.

20

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

A continuacin se definen las medidas de asimetra ms comunes, entre las que destacan las
siguientes:
Coeficiente de asimetra de Fisher: Ahora se intenta buscar una medida que recoja la simetra o
asimetra de una distribucin. Si la distribucin es simtrica, el eje de simetra de su representacin
grafica ser una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media
aritmtica. Por ello, cuando la distribucin es asimtrica, referiremos los valores de la distribucin a
este promedio. Si una distribucin es simtrica. existe el mismo numero de valores a la derecha que
a la izquierda de x , y por tanto el mismo nmero de desviaciones con signo positivo que con signo
negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir.
pues, de las desviaciones (xi- x ) elevadas a una potencia impar para no perder los signos de las
desviaciones.
Lo ms sencillo sera tomar como medida de asimetra el promedio de estas desviaciones, elevadas
a la potencia impar ms simple (que es tres), es decir, tomaramos como medida de asimetra el
momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendra expresada en
las mismas unidades que las de la variable. pero elevadas al cubo, por lo que no es invariante ante
un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresin
anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de
la desviacin tpica, obtenindose as el coeficiente de asimetra de R. A. Fisher, cuya expresin es:

g1

m3

1
N
1
N

(x
i 1

x ) 3 ni

( x j x ) ni

i 1

3/ 2

Si g 1 =0 la distribucin es simtrica, si g 1 >0 la distribucin es asimtrica positiva (a derecha), y si g


1<

0 la distribucin es asimtrica negativa (a izquierda). La distribucin es asimtrica a derecha o

positiva cuando la suma de las desviaciones positivas de sus valores respecto de la media es mayor
que la suma de las desviaciones con signo negativo (la grafica de la distribucin tiene mas densidad
a la derecha de la media). En caso contrario, la distribucin es asimtrica a la izquierda o negativa.

21

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
Coeficiente de asimetra de Fisher estandarizado: Para

Prof: Willer David Chanduv Puicn


N >150 el coeficiente de asimetra es

asintticamente normal de media cero y varianza 6/N. Este hecho nos lleva a considerar el
coeficiente de asimetra estandarizado cuya expresin es:

gs

g1
6
N

Este coeficiente es asintticamente normal (0,1).


Coeficiente de asimetra de Pearson: Karl Pearson propuso para distribuciones campaniformes,
unimodales y moderadamente asimtricas el coeficiente definido como Ap = ( x - Mo) / , donde
Mo es la moda. Como en una distribucin campaniforme simtrica. x = Mo = Me, si la
distribucin es asimtrica positiva o a derechas . x se desplaza a la derecha de la moda, y por tanto,

x - Mo > 0. En el caso de distribucin asimtrica negativa la media se sita por debajo de Mo, por
lo que el valor x - Mo < 0. La desviacin tpica que aparece en el denominador no modifica el
signo de la diferencia

x - Mo y sirve para eliminar las unidades de medida de dicha diferencia.

As tendremos que si Ap = 0 la distribucin es simtrica, si Ap > 0 la distribucin es asimtrica


positiva y si Ap < 0 la distribucin es asimtrica negativa. Tambin Pearson comprob
empricamente para

este tipo de distribuciones que se cumple 3(x - Me) .r - Mo (la mediana

siempre se situa entre la media y la moda en las distribuciones moderadamente asimtricas). Por
esta razn,algunos autores utilizan como coeficiente de asimetra de Pearson el valor:
Ap 3( x - Me)
Coeficiente de asimetra de Bowley: Est basado en la posicin de los cuartiles y la mediana, y
viene dado por la expresin Ab = (C3 + C 1 - 2Me) / (C3 + C1). Se cumple que si Ab = 0 la
distribucin es simtrica, si

Ab > 0 la distribuci6n es asimtrica positiva y si Ab < 0 la

distribucin es asimtrica negativa. Cl y C3 son el primer y tercer cuartil respectivamente.


El coeficiente absoluto de asimetra: Est basado tambin en la posicin de los cuartiles y la
mediana, y viene dado por la expresin:
A = [(C3 -C2) - (C2 -C 1)] / S = (C3 + C 1 - 2C2) / S = C3 + C 1 - 2Me /S
Si A=0 la distribucin es simtrica, si A >0 la distribucin es asimtrica positiva y si A<0 la
distribucin es asimtrica negativa. C1, C2 y C3 son los cuartiles de la distribucin.

22

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Una vez presentadas las medidas de asimetra, a continuacin se definen las medidas de curtosis
ms comunes, entre las que destacan las siguientes:
Coeficiente de curtosis: En la distribucin normal se verifica que m 4 = 3 4 siendo m 4 el
momento de orden 4 respecto a la media y la desviacin tpica. Si consideramos la expresi6n g 2
= m 4 / 4 - 3, su valor ser cero para la distribucin normal. Por ello, como coeficiente de
apuntamiento o curtosis se utiliza la expresin:

g2

m4

1
N
1
N

(x
i 1

(x
i 1

x ) 4 ni

x ) 2 ni

Una distribucin es:


mesocrtica (apuntamiento igual al de la normal) cuando g2 = 0,
leptocrtica (apuntamiento mayor que el de la normal) si g2 > 0,
platicrtica (apuntamiento menor que el de la normal) si g2 < 0.

El coeficiente de curtosis estandarizado:

Para N > 150 el coeficiente de curtosis es

asintticamente normal de media cero y varianza 24/N. Este hecho nos lleva a considerar el
coeficiente de curtosis estandarizado cuya expresin es:

g ks

g2
6
N

Este coeficiente es asintticamente normal (0,1).

23

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Valores extremos
Son valores que se alejan del conjunto de datos.
Regla para identificar valores o datos extremos
Vamos a definir una observacin

como extrema si:

Estadstica Descriptiva con Excel

Cargar el mdulo para Estadstica


Excel tiene un mdulo para hacer clculos estadsticos. Como no es un mdulo bsico, no aparece
en la pestaa Datos por defecto y hay que cargarlo expresamente. Para hacer que el submen
Anlisis de datos aparezca en esa pestaa, la ayuda de Excel aconseja seguir los siguientes pasos:

1. Haga clic en el botn de Microsoft Office


Excel.

y, a continuacin, haga clic en Opciones de

2. Haga clic en Complementos y, en el cuadro Administrar, seleccione Complementos de Excel.


3. Haga clic en Ir.
4. En el cuadro Complementos disponibles, active la casilla de verificacin Herramientas para
anlisis y, a continuacin, haga clic en Aceptar.
Sugerencia Si Herramientas para anlisis no aparece en la lista del cuadro
Complementos disponibles, haga clic en Examinar para buscarlo.
Si se le indica que Herramientas para anlisis no est instalado actualmente en el equipo,
haga clic en S para instalarlo.
5. Una vez cargado Herramientas para anlisis, el comando Anlisis de datos estar disponible en
el grupo Anlisis de la ficha Datos.

24

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

NOTA Para incluir funciones de Visual Basic para Aplicaciones (VBA) en las Herramientas para
anlisis, cargue el complemento Herramientas para anlisis - VBA de la misma manera que se carga
Herramientas para anlisis. En el cuadro Complementos disponibles active la casilla de
verificacin Herramientas para anlisis - VBA y despus haga clic en Aceptar.

Tambin se puede hacer: Pulsar en


luego ms comandos:

(Personalizar barra de herramientas de acceso rpido) y

25

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Aparece la siguiente ventana:

Seleccionar Complementos y pulsar

Seleccionar Herramienta para Anlisis Pulsar Aceptar

26

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Ahora ya aparece la opcin Anlisis de datos en la pestaa datos.

Una vez hecho esto, ya se est listo para el anlisis de datos.

27

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Obtener un resumen de medidas de una muestra

Utilizaremos el archivo Base de datos 1. Como ejemplo se calcularn las estadsticas descriptivas
para la variable estatura. Para ello se seguirn los siguientes pasos:

Pulsar en la pestaa de Datos

Pulsar en Anlisis de datos Seleccionar Estadstica

descriptiva Pulsar Aceptar.

28

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Aparece la siguiente ventana

Se tiene que indicar el rango de celdas donde se encuentran los datos que se desea analizar.
Pulsamos el botn que est en la circunferencia roja y aparece a siguiente ventana:

Marcamos con el ratn el rango de los datos, desde la segunda celda de la columna que corresponde
a la variable Estatura. Pulsar nuevamente en el botn que est en la circunferencia azul.

29

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Luego se verifica que se encuentre marcada la opcin Agrupados por columna. Para efectos de este
ejemplo usaremos la opcin Rango de salida. Pulsar en el botn que aparece en la circunferencia
verde y seleccionar la casilla donde se quiere que aparezcan los resultados, por ejemplo la segunda
casilla de la columna I.

Luego marcar la opcin resumen de estadsticas, Nivel de confianza para la media y pulsar en
Aceptar.

30

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Aparecer en la casilla seleccionada una tabla que contiene las estadsticas descriptivas que
corresponden a la variable Estatura adems del intervalo de confianza del 95% para la media.

Dibujar el histograma de una muestra

Para dibujar un histograma primero se tiene que calcular el nmero de intervalos, para ello se tiene
que seguir los pasos ya sealados anteriormente.
1. Calcular el Rango. Veamos:

2. Determinar el nmero de intervalos aplicando la regla de Sturges:

Elegiremos crear 6 intervalos


31

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva
3. Calcular la amplitud de los intervalos

Prof: Willer David Chanduv Puicn

Se redondea a 7.
Entonces los intervalos sern:

154-160
161-167
168-174
175-181
182-188
189-195
En la pestaa Insertar, Pulsar Tabla dinmica y aparecer la siguiente ventana:

Aqu se tiene que indicar el rango de los datos con los que se quiere formar los intervalos, para ello
pulsar en la circunferencia roja.

32

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Luego deberemos indicar donde se desea indicar el informe de la tabla dinmica, elegiremos la
opcin Hoja de clculo existente, a continuacin elegiremos una casilla en blanco, tal como aparece
a continuacin:

Pulsar Aceptar. Aparecer la siguiente ventana. El siguiente paso es trasladar Estatura hacia el
recuadro Rtulo de fila

33

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

A continuacin aparecer una columna con los datos. El siguiente paso ser seleccionar la primera
casilla de los datos, para luego pulsar el botn derecho del ratn.

34

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Aparecer la siguiente ventana. En ella se tendr que digitar el nmero correspondiente al lmite
inferior del primer intervalo (153), el nmero correspondiente al lmite superior del ltimo intervalo
(196) y la amplitud de los mismos (7), tal como aparece en la figura. Pulsar Aceptar.

Como se observa a continuacin, se han formado los intervalos indicados.

35

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Una vez creados los intervalos, se procede a continuacin a trasladar Estatura hacia el recuadro de
valores tal como se indica en la figura.

A continuacin se formar una columna conteniendo las frecuencias relativas de cada intervalo, tal
como se aprecia a continuacin:

36

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Luego procedemos a marcar tanto las casillas de los intervalos como las casillas de las frecuencias.
Seguidamente pulsar la pestaa de Insertar Grficos Columna Aceptar, tal como aparece
en el grfico.

37

CONCEPTOS BSICOS DE ESTADSTICA


Curso: Estadstica Descriptiva

Prof: Willer David Chanduv Puicn

Aparecer un grfico que se podr editar. Un ejemplo del grfico ya editado se presenta a
continuacin:

Histograma
10
9
8
7
6
5
4
3
2
1
0
154-160

161-167

168-174

175-181

182-188

189-195

38

Vous aimerez peut-être aussi