Vous êtes sur la page 1sur 11

ANLISIS EXPLORATORIO DE DATOS

Ana Lucia Moreno Cortz y Francisco J. P. Zimmermann


Ingenieros, investigadores, administradores, entre otros profesionales, frecuentemente
trabajan con datos obtenidos en procesos productivos, en control de calidad, en ventas,
en bodegas y en muchas otras situaciones.
La recoleccin de las medidas de todos los elementos de un universo de productos,
procesos o servicios es llamada de poblacin, sobre la cual se desea obtener
conclusiones o tomar decisiones. Los valores de una poblacin pueden ser una medicin
numrica, como por ejemplo, 25,4mm o 25,8mm al referirse al dimetro de un tornillo
y entonces estos datos se denominan variables o datos numricos. Por otro lado, pueden
referirse a ciertas tipos de calidades o requisitos y entonces la poblacin es constituida
de datos de atributo.
En la mayora de los casos los datos disponibles son apenas parte de una poblacin de
informacin y que llamamos de muestra de la poblacin. En la grade mayora de los
casos el volumen de datos disponible es de una magnitud tal que puede tornar imposible
sacar informaciones tiles a partir de una simple inspeccin de estos datos. Hay
entonces la necesidad de utilizacin de herramientas que permitan hacer un resumen de
toda la informacin contenida en esta coleccin de datos adems de permitir una mejor
visualizacin de ellos. Estas herramientas pueden ser divididas en dos grupos: estudios
numricos o estadsticos y elaboracin de grficos, siendo que en estos ltimos hay
posibilidad de unin con las informaciones estadsticas.
1. ESTUDIOS NUMRICOS O ESTADSTICOS
Para la representacin numrica de la informacin contenida en los datos las estadsticas
empleadas son aquellas de posicin, localizacin o de tendencia central y aquellas de
variabilidad o de dispersin de los valores que sern estudiados a seguir. Primero
representamos cada medida por xi, de forma que la coleccin de n valores es dada por
x1, x2,, xn.
1.1

Medidas de posicin. Forma de clculo e interpretacin.


Varios mtodos pueden ser usados para describir el centro de un conjunto de datos, o sea
su localizacin.
1.1.1 Media.
Si las mediciones de una muestra compuesta por n elementos son
definimos la media muestral como

x 1, x2,, xn,

xi
x1 x 2 ... x n
i 1
x

n
n
El valor de la media muestral es ms preciso que la precisin asociada a cada
observacin individual lo que sugiere que su valor numrico tenga un digito ms que los
utilizados en cada medida.
Es posible tambin pensar en media poblacional, que es entonces representada por la
letra griega (mu). Si la poblacin es finita, con por ejemplo N individuos o elementos,
la media poblacional es

x
i 1

1.1.2 Moda.
La moda de un conjunto de datos es definida como aquello valor con mayor frecuencia.
Si dos valores presentan el mismo nmero de observaciones y ningn otro presenta
frecuencia mayor entonces se dice que los datos son bimodales.
1.1.3 Mediana.
La tercera medida de localizacin o de tendencia central es la mediana, representada por
~
x . Representa el punto donde la muestra, ordenada, se divide en dos partes iguales.
La muestra ordenada en orden creciente de valores es representada por x (1), x(2),, x(n)
donde x(1) es la observacin ms pequea, x(2) la segunda medida ms pequea, , y x(n)
~
denota la observacin ms grande. Entonces, definimos la mediana x como la
[(n+1)/2]-sima observacin si n es impar, o el promedio entre la (n/2)-sima y la
[(n/2)+1]-sima observaciones si n es par, o sea

x ([n1]/2) ,

impar

x x (n/2) x ([n/2]1)
, par

De estas tres medidas de posicin es posible afirmar que la media es la medida de


menor varianza, pero es afectada por valores extremos presentes en la muestra, en
cuanto la mediana, a pesar de tener una mayor varianza que la media es ms estable y
no es afectada por los valores extremos. Si los datos son simtricos, entonces la media y
la mediana son coincidentes. Adems, si los datos tienen solo una moda, por lo tanto,
unimodales, la media, la mediana y la moda coinciden.
1.1.4 Cuantiles.
Vimos arriba la mediana, estadstica que representa el punto central, o el 50% de la
distribucin de los datos en una muestra o poblacin. As como ella otros puntos de
localizacin que representan puntos cuantitativos importantes pueden ser considerados,
cuartiles, deciles y percentiles, que sern estudiados a seguir.
1.1.4.1
Cuartiles
Con los cuartiles representamos los puntos que dividen la serie de valores en cuatro
partes iguales, o sea, cuartil 1 o 25%, cuartil 2 o 50% (mediana) y cuartil 3 o 75%. El
cuartil 2, la mediana, divide el conjunto de datos en 2 partes conteniendo cada una el
50% de los valores como se vio en 1.1.3. Los cuartiles 1 y 3 pueden ser considerados
como las medianas del 50% inferior y del 50% superior de los dados y as deben ser
calculados.
1.1.4.2
Deciles
Los deciles dividen el conjunto de valores de la muestra en 10 partes iguales, y son
designados como decil 1, decil 2, hasta decil 9, que representan los 10%, 20% y as
sucesivamente hasta 90%.
1.1.4.3

Percentiles.

Los percentiles por su vez dividen el conjunto de datos en 100 partes iguales, siendo
considerados los ms importantes los percentiles 1, 5, 10, 25, 50, 75, 90, 95 y 99 que
representan los valore correspondientes a 1%, 5%, 10%, etc.
1.1.4.4
Otros
Otros valores que cuantifican una muestra y que sirven tambin como medidas de
posicin son los valores mnimo y mximo que, lgicamente, representan los valores
ms pequeo y ms grande de la serie de datos. Algunas veces ellos son tambin
llamados de cuartil o y cuartil 4, o de decl 0 y decl 10, as como de percentil 0 y
percentil 100.
1.2

Medidas de dispersin. Forma de clculo e interpretacin


Las medidas de dispersin representan la variabilidad de los valores en una muestra o
sea, indican como se encuentran concentrados o distribuidos estos valores en relacin a
su valor central o media. Las medidas ms importantes se encuentran a seguir.
1.2.1 Varianza y desviacin estndar
La varianza es definida como la medida de la distancia de los valores de una muestra en
relacin a su media. Matemticamente se define la varianza como:
n
_ 2

2
i 1
s
n 1
Como en esta formula hay la necesidad de conocerse la media de la muestra, otra
manera, mucho ms sencilla de encontrar la varianza es dada por:

s2

x
i 1

2
i

i 1

n 1
En estas dos formulas aparece el divisor n-1, tambin conocido como grados de libertad
de la muestra, pues como la suma de las desviaciones de cada valor con respeto a la
media deben sumar 0 (cero), basta conocerse n-1 valores de estas desviaciones que la
ultima es automticamente determinada.
Como en ambas formulas los valores son siempre tomados al cuadrado la varianza tiene
su medida como el cuadrado de la medida original de los dados. As, si se miden los
dimetros de tornillos en mm, la varianza estar dada por mm 2. Una medida alternativa
de dispersin de los dados, y que mantiene la medida original de los dados es la
desviacin estndar (s) que es igual a la raz cuadrada de la varianza.
1.2.2 Error tpico
El error tpico, tambin llamado de error estndar de la media (eem), es igual a la raz
cuadrada del cociente entre la varianza de la muestra y el nmero de valores existentes
en la muestra (n), o sea:
eem

s2
n

1.2.3 Coeficiente de variacin (CV)


El coeficiente de variacin expresa la variacin como una fraccin de la media, y es una
medida adimensional. Calculase el CV como:

CV

s
_

El coeficiente de variacin es til para compararse la variabilidad de dos o ms


conjuntos de datos que difieren considerablemente en magnitud de los datos muestrales.
Adems, cuanto ms pequeo el CV ms precisas las mediciones o menor la
variabilidad de los datos.
1.2.4 Rango y distancia intercuartlica
Rango es la diferencia entre el valor mximo y el valor mnimo de la muestra y
representa la amplitud de variacin de los datos, en cuanto la distancia intercuartlica
(DI) es la diferencia entre el cuartil 3 y el cuartil 1, y representa la amplitud de datos
que contiene el 50% de los valores de la muestra. Valores pequeos para el rango
indican pequea dispersin de los datos en cuanto pequeos valores para la distancia
intercuartlica indican alta concentracin de los datos alrededor de su centro (media o
mediana)
1.2.5 Asimetra
Asimetra o coeficiente de asimetra (CA) es la estadstica que indica la forma de
distribucin de los datos con respeto a la media. Dados igualmente distribuidos a ambos
lados de la media tienen alta asimetra y el valor del coeficiente de asimetra es cero o
cerca de cero en cuanto series de dados con valores diferentes de cero indican valores
ms concentrados a la izquierda de la media con valores del coeficiente de asimetra
positiva (asimtricos a derecha) o valores mas concentrados a derecha de la media
(asimtricos a izquierda) y por lo tanto con asimetra negativa. La frmula de obtencin
de asimetra es:
n
CA
n 1 n 2

xi x

s
i 1

1.2.6 Curtosis
La curtosis representa el achatamiento o la elevacin de la curva de los datos cuando
comparada con una distribucin normal. Curvas muy elevadas presentan curtosis
positiva y curvas achatadas curtosis negativa.

n
n n 1
xi x
Curtosis

s
( n 1)(n 2)( n 3) i 1

n( n 1) 2
( n 2)( n 3)

1.3

Herramientas y Funciones en Excel


El software Excel de la compaa Microsoft presenta una serie de funciones
matemticas y estadsticas que facilitan a su usuario calcular las estadsticas de posicin
y de dispersin. Adems en Herramientas presenta opcin que calcula las estadsticas
ms importantes de un conjunto de datos. Existen tambin algunos programas
opcionales que pueden ser agregados a Excel por medio de la opcin
COMPLEMENTOS, como por ejemplo STAT PLUS.
1.3.1 Funciones
Media promedio(celda inicial:celda final)

Moda - moda(celda inicial:celda final). Si el conjunto de datos no presenta moda,


Excel retorna la informacin #N/A (moda no existente). Si los datos presentan ms de
un valor como moda, Excel retorna el valor correspondiente a menor de las modas.
Mediana mediana(celda inicial:celda final)
Cuartiles cuartil(celda inicial:celda final;cuartil) el valor de cuartil en la formula es:
0 para el valor mnimo, 1 para el primer cuartil, 2 para el segn cuartil o mediana, 3
para el tercer cuartil y 4 para el valor mximo.
Deciles y percentiles percentil(celda inicial:celda final;k) k es un valor entre 0 y 1,
inclusive que representa el percentil. Para obtener los deciles los valores de k son 0; 0,1;
0,2;;1. Aqu tambin 0 y 1 representan los valores mnimo y mximo,
respectivamente.
Mnimo min(celda inicial:celda final). El mnimo puede ser obtenido con el uso de la
funcin cuartil o con la funcin percentil, como visto antes.
Mximo max(celda inicial:celda final). As como el mnimo, el valor mximo puede
ser estimado con el uso de las funciones cuartil y percentil.
Varianza var(celda inicial:celda final)
Desviacin estndar desvest(celda inicial:celda final)
Asimetra coeficiente.asimetria(celda inicial:celda final)
Curtosis curtosis(celda inicial:celda final)
Coeficiente de variacin, rango y distancia intercuartlica estas medidas de dispersin
no aparecen en funciones de Excel pero pueden ser fcilmente calculadas a partir de las
frmulas presentadas con la aplicacin de las funciones descritas anteriormente, o sea,
desvest, promedio, max, min y cuartil.
CV: desvest(celda inicial:celda final)/promedio(celda inicial:celda final)*100
Rango: max(celda inicial:celda final)-min(celda inicial:celda final)
DI: cuartil(celda inicial:celda final;1)-cuartil(celda inicial:celda final;3)
1.3.2 Herramientas
En Herramientas de Excel existe la opcin Anlisis de datos y en ella la funcin
Estadstica descriptiva con las siguientes informaciones de entrada y salida segn la
figura abajo.

}
5

Opciones de entrada
Rango de entrada define las celdas inicial y final que contiene los datos
Agrupado por: - marcar columnas o filas segn la disposicin de los datos en la hoja de
trabajo
Rtulos en la primera fila marcar la cuadricula si hay rtulo para los datos.
Opciones de salida
Las opciones de salida son:
a) salida de informacin en la misma hoja en que se encuentran los datos, en esto caso
marcar la opcin e identificar por lo menos una celda a donde debe empezar la tabla de
resultados;
b) en una hora nueva (salida estndar) e identificar celda inicial si no se desea salida a
partir de la primera celda de la nueva hoja,
c) en libro nuevo.
El resumen de estadsticas debe ser siempre marcado, en cuanto las otras tres opciones
deben ser marcadas cuando se desea precisin diferente de 95% (indicar la precisin
deseada), o cuando se quiere conocer otros valores grandes o pequeos diferentes del
mximo o mnimo (indicar que valores se desea).
1.3.3 Herramientas disponibles en StatPlus
La herramienta StatPlus, presente en la barra del men de Excel tiene la opcin
univariate statistics y que cuando marcada abre una ventanita como abajo:

Primero, marque la opcin deseada en Show, despus informe si desea los resultados, en
la hoja de clculo, en lneas (Rows) o columnas (Columns). Usted ac puede tambin
cambiar el titulo de la tabla de resultados en Table title. En Input informe la o las
variables que desea analizar indicando su nombre (Use range names) o las celdas
adonde se encuentran (Use range referentes); en Output usted puede indicar se desea la
salida en la misma hoja, indicando la celda inicial de salida, o en nueva hoja o en nuevo
libro de trabajo adems de indicar si desea la salida dinmica (valores de salida cambian

al cambiar cualquier valor de la serie de datos) o esttica. Si los datos pueden o deben
ser agrupados para alguna variable de calificacin indique esto en BY.

Aqu (Summary) se indican si se desean todas las estadsticas de resumen o apenas unas
pocas seleccionadas (marcar la opcin deseada).

En esta pantalla es posible seleccionar todas o algunas de las estadsticas de


variabilidad. De la misma forma como en las pantallas anteriores en las dos que se
siguen el usuario puede definir sus opciones de estadsticas de distribucin (algunos
percentiles o deciles y los cuartiles) en Distribution o las pruebas de hiptesis para la
media o mediana en Analysis.

1.4

Herramientas y Funciones en SPSS

2. GRFICOS Y DIAGRAMAS
La representacin de los datos de una muestra en grficos o diagramas permite una
visualizacin rpida y eficiente de la informacin en ellos contenida. Tres tipos de
grficos o diagramas deben ser considerados: histograma, tallos y hojas y caja y bigotes.
El primero y el segundo tipos son usados para mostrar las frecuencias de valores, pero
que presentan reglas distintas de construccin, en cuanto el tercer, caja y bigotes, hecho

en asociacin con el diagrama de tallos y hojas, para su construccin requiere


informacin de algunas medidas de posicin y dispersin, como veremos a seguir.
2.1

Histograma
El histograma es un grfico de barras, horizontales o verticales, que representan la
frecuencia, frecuencia acumulada, frecuencia relativa o frecuencia relativa acumulada
correspondientes a los valores existentes en una muestra.
Si los datos son del tipo discreto, conteos o notas de valor entero, tambin llamados de
valores indicativos, o si se tratan de variables cualitativas, las barras son definidas por
cada un dos valores, si no son en nmero demasiado. Si el nmero de clases es
demasiado alto, que conlleve a un grafico con nmero excesivo de barras, los valores
pueden ser agrupados en clases de valores. Para esto tipo de datos el nmero mnimo de
barras puede ser tan pequeo cuanto 2 (dos), cuando se tratan de variables tipo
Bernoulli, de suceso o fracaso, daado o no daado, por ejemplo.
Si los datos son de naturaleza continua, como por ejemplo, peso, altura, rea, volumen,
dimetro u otros de este tipo, cada barra ser asociada a un intervalo de valores. El
numero de barras es definido pela raz cuadrada del nmero total de valores ( n ).
Como el valor del nmero de clases as definido es, muy comnmente, un nmero no
entero se debe tomar el entero superior. Hay tambin de cuidar de que el nmero de
barras no sea ni muy pequeo ni muy grande.
La amplitud de valores en cada una de las clases es obtenida dividindose el rango de
los datos por el nmero de clases definidas. Los valores superiores de cada clase son
obtenidos sumndose sucesivamente al valor mnimo de los datos la amplitud de clase.
2.2

Tallos y hojas
El diagrama de tallos y hojas es otra forma de representacin visual de una serie de
valores, conformados por lo menos de dos dgitos. Para su construccin los nmeros se
dividen en dos partes, una llamada de tallo, formada por uno o ms dgitos principales y
la otra la hoja, que contiene el resto de los dgitos. El nmero de tallos es relativamente
pequeo cuando comparado con el nmero total de observaciones, para permitir una
representacin interesante de los datos. Este nmero, en general, est entre 5 y 20.
El diagrama presenta por lo tanto dos columnas de informacin una, a la izquierda que
corresponde a los tallos y la otra, a derecha, que representa las hojas. Es tambin muy
comn que se adicione una tercera columna, ms a derecha, que contiene el valor de las
frecuencias en cada tallo. Es recomendable indicar en alguna parte del diagrama la
orden de grandeza de los tallos y hojas.
Algunas veces es recomendable aumentar el nmero de tallos. Para duplicarlos, por
ejemplo, al hacer la divisin de cada tallo, en un de ellos se ponen las hojas cuyos
valores, tengan como primer dgito, valor 4 o menor, y en el otro valores 5 o mayor.
2.3

Caja y bigotes
El diagrama de caja y bigotes adems de una visualizacin de los datos de la muestra
representa tambin algunas de las estadsticas de posicin y dispersin y permite
identificar algunos valores como valores atpicos y/o valores atpicos extremos. La caja
o rectngulo central tiene como lados extremos los valores de los cuartiles 3 y 1 y una
lnea central para el cuartil 2. Dentro de esto rectngulo el smbolo + representa la
posicin de la media. Los bigotes, diseados como lneas perpendiculares al rectngulo
tiene un largo igual a 1,5 veces la distancia intercuartlica. Los valores situados entre el
final de los puntos extremos del bigote hasta una distancia igual a 3 veces la distancia

intercuartlica son considerados valores atpicos y aquellos ms all de estos puntos son
llamados de atpicos extremos.
2.4
Herramientas en Excel
Excel tiene disponible una nica opcin para representacin grfica de una serie de
datos que es el Histograma. Para el diagrama de tallos y hojas e el grfico de caja y
bigotes se debe utilizar el software complementario StatPlus.
2.4.1 Herramientas
La opcin para dibujar el Histograma esta disponible en herramientas anlisis de
datos. Al ser empleada presenta la siguiente ventana.

Para entrada son definidas las celdas que contienen los datos en rango de entrada e
aquellas con los valores lmites (superiores) de cada clase excepto el de la clase ms
alta. Para salida se debe identificar la celda inicial adonde se quiere el diagrama (cuando
en la misma hoja (rango de salida), o la identificacin de una nueva hoja o de un nuevo
libro. La opcin crear grfico debe ser tachada.
2.4.2 Herramientas disponibles en StatPlus
La herramienta StatPlus, presente en la barra del men de Excel tiene la opcin single
variable charts y las sub-opciones para tallos y hojas (Stem and leaf) y para caja y
bigotes (Boxplots).
2.4.3.1 Tallos y hojas
Cuando los datos tienen dos o ms categoras de calificacin marque Use column o
cateegory leves, si no Values in separate columns. En el primer caso deben ser
informadas las localizaciones de los datos y de las categoras, en el segn caso apenas la
localizacin de los datos. En output indicase adonde se quiere el diagrama de tallos y
hojas, en cuanto las dems opciones solo son empleadas con categoras o con ms de
una variable.

10

2.4.2.2 Caja y bigotes


As como tallo y hojas cuando los datos tienen dos o ms categoras de calificacin
marque Use column o cateegory leves, si no Values in separate columns. En el primer
caso deben ser informadas las localizaciones de los datos y de las categoras, en el segn
caso apenas la localizacin de los datos. Para la forma de mostrar el diagrama, marque
siempre en Boxplot appearance: Display sample mean lines y Connect medians
between boxes, en cuanto para las opciones del diagrama en Chart options es posible
indicar ttulo para el diagrama y identificar los ejes, as como solicitar marcaciones de
lneas dentro del diagrama. La opcin de salida (Output) indicase adonde se quiere el
diagrama de caja y bigotes, bien como el ancho y el largo de la figura generada, adems
se la quiere esttica o dinmica..

2.5

Herramientas y Funciones en SPSS

11

Vous aimerez peut-être aussi