Vous êtes sur la page 1sur 0

Captulo 1:

INTRODUCCIN
Y
PRINCIPIOS BSICOS.
1991 9
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

10 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
1.1.- INTRODUCCIN.
En los ltimos aos, y dentro del conjunto de tcnicas
estadsticas empleadas por diferentes disciplinas, especialmente
en las denominadas Ciencias Sociales, est cobrando un creciente
inters un nuevo enfoque de anlisis de datos denominado
Anlisis Exploratorio de Datos (Exploratory Data Analysis), cuyo
mximo impulsor y exponente es John W. Tukey tras la publicacin
de su libro pionero Exploratory Data Analysis en 1977
1
, en el
que se presentan nuevos procedimientos estadsticos y se retoman
otros, dentro de un marco globalizador.
A modo de introduccin, se puede indicar que el Anlisis
Exploratorio de Datos es, por una parte, una perspectiva o
actitud sobre el anlisis de datos, en la que se exhorta a que
el investigador adopte una actitud activa en y hacia el anlisis
de los mismos, como un medio para sugerir nuevas hiptesis de
trabajo. Por otra parte, se compone de un renovado utillaje
conceptual e instrumental respecto a lo que podramos llamar
Estadstica Descriptiva "clsica", con el fin de optimizar la
cantidad de informacin que los datos recogidos puedan ofrecer
al investigador, bien a travs de novedosas representaciones
grficas, bien a base de reducir la influencia de las
puntuaciones extremas en los estadsticos a travs del empleo
de, los que por ello se ha convenido en llamar, "estadsticos
resistentes", por citar slo dos ejemplos.
De este modo, el Anlisis Exploratorio de Datos (que en
adelante ser citado, como es habitual, por sus siglas, A.E.D.
2
)
ha posibilitado la creacin de una serie de representaciones
grficas de los datos (vg., los diagramas de "Tallo-y-Hojas" o
de "Caja-y-Bigotes", que sern expuestos en el Captulo 3), muy
apropiadas para apreciar rpidamente la estructura y
distribucin de los datos, y que facilitan el poder optar por el
empleo de los estadsticos descriptivos ms representativos para
los mismos. Adems, se propugna el uso de nuevos conceptos,
generalmente relacionados con los propuestos por la teora
estadstica clsica (vg., uso del trmino "cuarto" de una manera

1
Aunque ya circulaban ediciones previas al principio de la dcada.
2
E.D.A. en la bibliografa anglosajona.
1991 11
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
anloga al "clsico" cuartil, pero con ligeras diferencias de
clculo, como se ver).
Igualmente, se exhorta al empleo de los denominados
estadsticos resistentes, es decir, estadsticos que son
afectados slo ligeramente por la existencia de algunas
puntuaciones atpicas (outliers) en el conjunto de datos, a
diferencia de los estadsticos ms frecuentemente utilizados en
los anlisis estadsticos, como las medias o varianzas
muestrales que s se ven afectados por tales tipos de
puntuaciones.
Si bien lo anteriormente sealado se hallara dentro del
marco de la denominada Estadstica Descriptiva, los autores que
propugnan el Anlisis Exploratorio de Datos, estudian no slo
los estadsticos resistentes, sino que buscan asimismo
estimadores adecuados para la inferencia a los parmetros.
Consiguientemente, y ya en el rea de la Estadstica
Inferencial, Tukey y otros autores del enfoque del Anlisis
Exploratorio de Datos exhortan a la utilizacin de los llamados
"estimadores robustos", es decir, estadsticos que pueden servir
para inferir parmetros (poblacionales) de diversos tipos de
distribucin con cierta eficiencia.
Aunque en un primer momento este enfoque suscit algunas
dudas acerca de las verdaderas novedades que aportaba, en
cualquier caso, este enfoque ha hecho patente una fase de la
investigacin poco dada al conocimiento pblico, as como
tambin ha intensificado el estudio de cierto tipo de grficos,
y de mtodos resistentes y robustos. En estos momentos, aun
careciendo de la necesaria perspectiva histrica, se puede
predecir que las perspectivas de este enfoque del Anlisis
Exploratorio de Datos, tanto en su espritu como en sus diversas
tcnicas, son prometedoras, como se podr apreciar a lo largo de
la lectura de las siguientes pginas.


12 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
1.1.1.- PERSPECTIVA GENERAL EN LOS
ANLISIS DE DATOS.
En el marco de la investigacin cientfica emprica, desde
una perspectiva clsica, cabe sealar tres fases de la
investigacin emprica que corresponden a la Estadstica:
I) La recogida de datos (Muestreo), en la que se ha de
lograr, a travs de las diferentes tcnicas existentes, una
muestra adecuada de la poblacin a la que se desee extrapolar
las conclusiones que se obtengan en la muestra.
II) La organizacin, descripcin y representacin grfica de
los datos (fase Descriptiva), para hacerlos ms comprensibles a
nuestra mente.
III) Los procesos de inferencia de parmetros (fase
Inferencial), con objeto de estimar, con una cierta
probabilidad, caractersticas poblacionales (parmetros) a
partir de las caractersticas de la muestra (estadsticos), as
como diversas pruebas estadsticas para el contraste de las
hiptesis de partida.
Debido a que este texto se ocupa bsicamente del anlisis
de datos, se centrar principalmente en la segunda fase, en la
que se incluir el Anlisis Exploratorio de Datos, y
parcialmente en la tercera fase, inferencial, del anlisis,
incluyendo una referencia al concepto de los estimadores
robustos.


1.1.1.1.- ANLISIS DE LA FASE DESCRIPTIVA
EN LOS ANLISIS "CLSICOS" DE DATOS.
Tras la recoleccin de una muestra de datos, el anlisis de
los mismos suele comenzar con la descripcin de los datos a
travs de unos estadsticos, que tratarn de resumir la
multiplicidad de los datos brutos. Estos estadsticos hacen
referencia, especialmente, a la localizacin central de la
1991 13
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
distribucin (o ndices de tendencia central, como la media
aritmtica) y a la dispersin de la misma (vg., la desviacin
tpica), as como tambin ndices relativos a la asimetra o a
la curtosis de la distribucin emprica de los datos.
Adicionalmente, junto al clculo de los estadsticos se
suelen utilizar algunas representaciones grficas sobre los
datos, tales como los Histogramas. Ambos tipos de procedimientos
son realizados habitualmente por los investigadores usando
cualquiera de los diferentes programas y paquetes estadsticos
disponibles en la actualidad en el mercado informtico (vg.,
SPSS, BMDP, SAS, SYSTAT, por citar los ms conocidos).
Aunque el proceso anteriormente citado es correcto, el
problema reside en que habitualmente, esta fase se realiza de
forma rgida, es decir, se atiende casi "ciegamente" a los
resmenes de datos proporcionados por el ordenador, sin apenas
atencin a la adecuacin de la aplicabilidad de tal o cual
estadstico para la muestra de datos, lo cual puede oscurecer
ms que aclarar las propiedades de los datos (HARTWIG Y DEARING,
1979).
De este modo, los estadsticos descriptivos ms comnmente
utilizados por los investigadores, clasificados en el enfoque
descriptivo "clsico" han sido la media aritmtica y la
desviacin tpica. Sin embargo, el uso "indiscriminado" de estos
ndices no es aconsejable bajo ningn concepto. La media y la
desviacin tpica son ndices descriptivos convenientes slo
cuando la distribucin de los datos es aproximadamente normal o,
al menos, simtrica y unimodal. Sin embargo, muchas variables
dependientes que son objeto de estudio en Psicologa no suelen
cumplir con estos requisitos (vg., el tiempo de reaccin ante
estmulos, que es bien conocido porque muestra una asimetra
positiva). Por tanto, se precisa un examen riguroso de la forma
y estructura de los datos previo al tipo de eleccin de los
ndices representativos del conjunto de datos.
De hecho, muchos analistas de datos, especialmente los ms
experimentados, siempre se han fijado con detalle en los datos
antes de generar los estadsticos e intentar probar las
hiptesis subyacentes a travs de la inferencia y la comparacin
con algn modelo probabilstico. De este modo, aunque sin
utilizar las tcnicas propias del A.E.D., mantenan la misma
actitud hacia los datos sintetizada y propugnada, en poca
reciente, por este enfoque. Sin embargo, dichas actitudes hacia
14 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
la fase descriptiva o de exploracin de datos, a pesar de
haberse venido tomando desde mucho tiempo atrs por muchos
analistas de datos expertos, no han sido, o no han sabido ser,
expuestas a la luz pblica. En estos casos, el A.E.D. lo que
proporciona es un amplio repertorio de mtodos para el estudio
detallado de los datos, que facilitan la tarea del investigador,
especialmente para aquellos con slo un conocimiento medio de
las tcnicas estadsticas.


1.1.1.2.- ANLISIS DE LA FASE INFERENCIAL
EN LOS ANLISIS "CLASICOS" DE DATOS.
El anlisis inferencial trata de estimar a partir de los
estadsticos obtenidos de la muestra, los parmetros de la
poblacin, segn un determinado modelo o distribucin supuesto
para ella. Habitualmente, este proceso inferencial es de tipo
confirmatorio, es decir, se trata de evaluar una hiptesis de
partida ms que meramente estimar el valor de unos determinados
parmetros. En resumen, se intenta comprobar si se cumple
nuestra hiptesis segn el modelo supuesto.
Por otra parte, en el campo de la Estadstica Inferencial
un concepto de uso esencial es el de estimador, que va referido
a los estadsticos empleados para inferir los parmetros de la
poblacin de la cual son origen.
He aqu un primer ejemplo de anlisis inferencial. Pensemos
que se desea estimar la altura media de los estudiantes
universitarios valencianos. Para ello, se selecciona una muestra
de estudiantes, se hallan los estadsticos descriptivos
adecuados, y se emplea el estimador adecuado, supongamos la
Media muestral, para estimar la Media poblacional. Tal
estimacin se realiza indicando un intervalo alrededor del cual
se hallar la Media poblacional, siempre, al ser un
procedimiento inferencial o inductivo, con una cierta
probabilidad.
He aqu un segundo ejemplo de anlisis a travs de un
contraste de hiptesis. Sea un estudio en el que se pretende
1991 15
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
probar que un mtodo de enseanza novedoso, que ser etiquetado
por "A", es mejor que el mtodo tradicional de enseanza "B".
Para ello se cuenta con una muestra homognea de 30 personas,
las cuales son asignadas a uno y otro mtodo de enseanza
aleatoriamente, habiendo 15 personas en cada grupo. Una vez
completado un curso con cada uno de los dos mtodos, se pasa a
probar el rendimiento (en este caso, la variable dependiente) a
travs de un examen de correccin objetiva. Pensemos que los
sujetos del mtodo "A" han conseguido una media de 8'5, mientras
que los sujetos del mtodo "B" consiguen una media de 6. A la
hora de hacer inferencias lo que se ha de comprobar, siempre
probabilsticamente, es que la media poblacional del rendimiento
en el grupo "A" difiere de la del "B". Si hay diferencias entre
los parmetros de "A" y de "B", entonces se considera que los
dos mtodos dan lugar a un rendimiento diferente, mientras que
si no las hay, se suponen ambos mtodos con igual rendimiento.
En este ltimo caso, en trminos estadsticos se dice que no
podemos rechazar la hiptesis Nula (lo que supondra que no
podramos concluir que existen diferencias), mientras que en el
primer caso se dice que rechazamos la hiptesis Nula (por lo que
admitiremos la existencia de diferencias entre las medias
poblacionales entre los grupos).


1.2.- EL ENFOQUE DEL ANLISIS
EXPLORATORIO DE DATOS.
1.2.1.- APLICABILIDAD DEL ANLISIS
EXPLORATORIO DE DATOS EN
PSICOLOGA.
En primer lugar, cabe indicar que, debido a que tales
tcnicas del Anlisis Exploratorio de Datos son apropiadas no
slo para las variables de corte cuantitativo sino tambin las
de ndole cuasi-cuantitativo, son aplicables a muchas de las
16 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
variables de las que se ocupan las disciplinas como las Ciencias
del Comportamiento o la Sociologa.
De hecho, en muchos aspectos de la investigacin
psicolgica no se suele avanzar ms all de las variables de
ndole ordinal, por lo que, en rigor, no se debera calcular ni
siquiera la media aritmtica, pese a que normalmente los
investigadores s lo hagan. Tales clculos se efectan en aras
de una mayor potencia de clculo bajo el supuesto de que se
estn "midiendo" variables cuantitativas, debido a lo fructfero
de los resultados que as es posible obtener.
No obstante, quienes este texto editan (y que estas lneas
escriben), coincidiendo con el filsofo pragmtico Pierce al
considerar que son disputas filosficas absurdas las que
consideran la verdad aparte de sus consecuencias prcticas en el
mbito de la investigacin humana, son de la opinin (aunque en
distinto grado..., y con las lgicas excepciones) de que "si una
cosa sirve, es til; y si es til, es legtimo su uso"... El
problema radicar en saber situar bien los lmites de ese "uso",
y, consecuentemente, de la interpretacin del resultado obtenido
de l
3
.
En cualquier caso, debido al empleo de los llamados
estadsticos de posicin por este enfoque (vg., mediana,
cuartos,...), muchas de estas tcnicas se pueden usar sin
necesidad de ningn supuesto en los casos en que haya variables
que no sean, de iure
4
, cuantitativas, tales como por ejemplo,
muchas de las puntuaciones obtenidas en los Tests.
Por otra parte, la utilizacin de estas tcnicas se puede
realizar con suma facilidad, dado que su popularidad es ya lo
suficientemente considerable como para que hayan sido incluidas
en diferentes paquetes estadsticos (SPSS, BMDP, SYSTAT, entre
otros).


3
Como indican Glass y Stanley (1986), diversas medidas en Psicologa estn a
medio camino entre las ordinales y las cuantitativas, ya que pese a no tener
unidad de medida (no hay unidad constante), s que indican ms informacin
que la meramente ordinal. Por ejemplo, las puntuaciones de tres sujetos en un
Test de inteligencia: 79, 123 y 118, no slo indican que el segundo sujeto
tiene la puntuacin ms alta y el primero la puntuacin ms baja, sino que, de
algn modo, tambin indican una mayor diferencia entre el primero y los otros
dos que la existente entre los sujetos segundo y tercero. En tales casos, los
citados autores emplean incluso el trmino de "escalas de cuasi-intervalo ".
4
O "de derecho" .
1991 17
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

1.2.2.- ASPECTOS BSICOS DEL
ANLISIS EXPLORATORIO DE DATOS.
Las tcnicas propuestas por el A.E.D. nos ayudan para
abordar un conjunto de datos de un modo informal, guindonos
hacia una estructura de modo rpido y sencillo. Pero como se ha
indicado, el A.E.D. no slo es un conjunto de mtodos para el
anlisis de datos, sino tambin una perspectiva de anlisis de
datos que enfatiza la utilizacin de representaciones grficas
de datos y de mtodos resistentes y robustos. Consiguientemente,
el A.E.D. es "un estado de nimo, una forma de pensar acerca del
anlisis de datos, y tambin una forma de efectuarlo" (HARTWIG Y
DEARING, 1979, p. 9).
El enfoque del A.E.D. acenta el uso de tcnicas
alternativas para tratar el mismo conjunto de datos. Cuanto ms
se sepa de los datos, mejor se podrn utilizar para efectuar
pruebas inferenciales y desarrollar las teoras bajo estudio. En
resumen, el A.E.D. busca maximizar toda la informacin que
ofrezcan los datos.
De hecho, muchas de las propuestas son paralelas a las de
otras tcnicas en trminos de la teora estadstica clsica. En
esta lnea, el A.E.D. propugna la utilizacin de estadsticos
como la Mediana como un estadstico resistente de localizacin,
para evitar los problemas de puntuaciones extremas o de la
asimetra de la distribucin (emprica) de los datos. Mientras,
los textos de Estadstica Descriptiva "clsicos" suelen sealar,
al comparar cundo utilizar la Media y cundo la Mediana, que
sta es preferible a aqulla slo cuando en la distribucin de
datos de la muestra haya valores extremos, que podran
perjudicar la representatividad de la Media, o bien cuando la
distribucin sea marcadamente asimtrica, pero no se vislumbra
la importancia de un uso masivo de tal ndice de tendencia
central de modo ms generalizado, o bien de otros tipos de
estadsticos, como seala el enfoque del Anlisis Exploratorio
de Datos (como se ver en el captulo relativo a los
estadsticos resistentes).
18 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
Otro aspecto de inters es que se pone nfasis en que no se
mecanice el empleo de las tcnicas del Anlisis Exploratorio de
Datos, porque se volvera al error de los anlisis "clsicos".
As, aunque ciertas tcnicas facilitan la exploracin de datos,
su uso por s solo no convierte al investigador en "analista
exploratorio de datos". En cambio, lo que se requiere es una
cierta aproximacin al anlisis de datos, una cierta perspectiva
(HARTWIG Y DEARING, 1979).


1.2.2.1.- FASES DE ANLISIS ESTADISTICO EN
EL ANLISIS EXPLORATORIO DE DATOS.
Los autores del enfoque del A.E.D. suelen denominar las
fases de anlisis estadstico no como Fase Descriptiva y Fase
Inferencial del enfoque clsico (vase Apartado 1.1.1.), sino
que indican la existencia de dos amplias fases, hasta cierto
punto paralelas a las anteriores, aunque con matices diferentes
(HOAGLIN, MOSTELLER Y TUKEY, 1983): la Fase Exploratoria y la Fase
Confirmatoria.

1.2.2.1.1.- ANLISIS DE LA FASE EXPLORATORIA
DEL ANLISIS EXPLORATORIO DE DATOS.
As como los anlisis descriptivos "clsicos" se han
centrado ms en el estudio de la localizacin y dispersin de
las distribuciones, al estudiar la Media y la Desviacin Tpica
respectivamente, mientras que una tercera caracterstica de las
distribuciones, como es la forma de la misma, no le ha otorgado
la atencin debida, la Fase Exploratoria del enfoque del
Anlisis Exploratorio de Datos seala que (HARTWIG Y DEARING, 1979,
p. 15):
I) La forma de una distribucin es como mnimo tan
importante como su localizacin (tendencia central) y
dispersin.
1991 19
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
II) Las representaciones visuales son superiores a las
representaciones numricas para descubrir la forma
caracterstica de una distribucin.
III) La eleccin de qu estadstico descriptivo es ms
apropiado para describir unos datos debera ser
dependiente de lo apropiado de tal estadstico de acuerdo
con la distribucin que presentan dichos datos. Es decir,
si en la distribucin de los datos se observa una marcada
asimetra no es correcto emplear la Media como ndice de
tendencia central, o si en la distribucin se observan
puntuaciones extremas en ambos lados de la distribucin
no es adecuado emplear la Desviacin Tpica como ndice
de dispersin.

Ante un conjunto de datos, unidad bsica de anlisis para
este enfoque, por tanto, el enfoque del A.E.D. recomienda
iniciar su anlisis con la realizacin de grficos que permitan
visualizar su estructura. Por ejemplo, para datos cuantitativos,
se aconseja comenzar con el denominado diagrama de
"Tallo-y-Hojas", que es una tcnica que preserva en lo posible
los detalles de los datos, constituyendo un primer nivel de
comprensin, o con el diagrama de "Caja-y-Bigotes". Con tales
tcnicas se pretende detectar su estructura subyacente, as como
la existencia de posibles anomalas o patrones no previstos en
los mismos, lo que proporciona al investigador una mejor
comprensin del fenmeno a estudiar.
La Fase Exploratoria, pues, asla patrones y rasgos de los
datos, y los revela al analista/investigador. Normalmente,
proporciona un primer contacto con los datos, precediendo
cualquier eleccin de los modelos probabilsticos a emplear, as
como para descubrir patrones o resultados no previstos por el
modelo terico bajo estudio.
De hecho, un investigador debera obtener la mxima
informacin posible de una variable antes de utilizar los datos
para poner a prueba las hiptesis, en la inferencia estadstica,
y as poder enriquecer la teora subyacente bajo estudio.
En consecuencia, los resultados obtenidos en la Fase
Exploratoria determinarn de modo importante qu otras tcnicas
podrn ser empleadas para examinar un conjunto de datos, a la
hora de realizar una posterior fases confirmatoria.
20 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.

1.2.2.1.2.- ANLISIS DE LA FASE CONFIRMATORIA
DEL ANLISIS EXPLORATORIO DE DATOS.
Esta fase trata de analizar los datos de manera que evalen
la reproductibilidad de los efectos observados (HOAGLIN, MOSTELLER Y
TUKEY, 1983). Es paralela, con algunas diferencias, a la fase de
inferencia estadstica "clsica" ya que posibilita el contraste
de hiptesis. Pero el anlisis confirmatorio tambin cubre,
habitualmente, otros pasos, que no sern analizados en el
presente texto, como, por ejemplo (HOAGLIN, MOSTELLER Y TUKEY, 1983):
(I) la incorporacin de informacin obtenida del anlisis de
otro conjunto (o cuerpo) de datos, relacionado fuertemente con
el conjunto de datos a estudiar, o (II) la validacin de los
resultados al recoger y analizar nuevos datos.

Lo primero que hay que observar, previo a la realizacin de
las diversas pruebas de la carcter inferencial, es cul es el
estimador adecuado para extrapolar las caractersticas de la
muestra a la poblacin. En los casos prcticos de la Psicologa
y de otras Ciencias, ocurre que la distribucin de los datos en
muchas ocasiones no se parece a la distribucin Normal, mientras
que muchas pruebas precisan de una distribucin normal de los
datos o, al menos, de una distribucin simtrica y unimodal.
Ante esto, bsicamente son dos las estrategias a seguir
propugnadas por el A.E.D. para solucionar el problema del tipo
de distribucin de datos:
I) Utilizar estadsticos resistentes ante la existencia de
sesgo en la distribucin o la presencia de datos atpicos,
que sirvan, a su vez, de estimadores robustos de los
parmetros.
II) Modificar la forma de la distribucin para conseguir la
simetra mediante alguna transformacin sencilla de los
datos (vg., calcular el logaritmo de las puntuaciones en
el caso de una distribucin asimtrica positiva). As, si
obtenemos una distribucin simtrica, conseguiremos una
descripcin ms simple de sus caractersticas, y podremos
utilizar la Media y Desviacin Tpica muestrales, es decir
1991 21
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
los estadsticos ms utilizados por la inferencia
estadstica.

Por otra parte, en relacin a los anlisis de corte
confirmatorio, el A.E.D. mantiene que ha de haber una postura
abierta respecto a los resultados, y no tener la mente prefijada
en una determinada hiptesis que, incluso en el caso de que no
se cumpla, se aadan modificaciones post hoc para que se
"cumpla". Hay que fijarse ms en la exploracin de los datos, lo
que no es bice, por supuesto, para que haya fase confirmatoria,
sino para que sta sea suficientemente flexible (HARTWIG Y DEARING,
1979).

En resumen, la Fase Exploratoria enfatiza la bsqueda
flexible de evidencia, mientras que la Fase Confirmatoria
acenta la evaluacin/contraste de la evidencia disponible. El
hecho de alternar ambos usos de tcnicas de anlisis, tanto
exploratorias como confirmatorias es, a menudo, muy deseable
(HOAGLIN, MOSTELLER Y TUKEY, 1983).


1.2.3.- PRINCIPIOS BSICOS DEL
ANLISIS EXPLORATORIO DE DATOS.
De acuerdo con Hartwig y Dearing (1979), cabe desarrollar
dos principios bsicos que guan a todo investigador que siga la
perspectiva del Anlisis Exploratorio de Datos, son el
escepticismo y una actitud abierta, que sern tratados a
continuacin.


22 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
1.2.3.1.- ESCEPTICISMO.
Un primer principio del A.E.D., segn los citados autores,
es que se ha de ser escptico sobre los "resmenes numricos"
del conjunto de datos (vg., ofrecer la Media, la Desviacin
Tpica, la Mediana, el Nmero de Casos, etc., para describir un
conjunto de datos), puesto que a veces pueden oscurecer o no
revelar lo que podran ser los aspectos ms informativos de los
datos. Habitualmente, por contra, suele tenerse demasiada fe en
los resmenes numricos de los datos (HARTWIG Y DEARING, 1979).
La concepcin de la Estadstica como anlisis de datos
parece que acenta la importancia de los nmeros, es decir, los
estadsticos, por s solos (resmenes numricos de los datos),
con la exclusin de otros mtodos de anlisis. As, la
estadstica "clsica" tiende a rebajar la importancia de las
representaciones grficas de los datos, aspectos que en cambio,
son ampliamente divulgados por el A.E.D.
El punto de vista habitual y clsico mantiene que un
estadstico es ms "slido" que una representacin grfica de
los datos. Sin embargo, estos estadsticos pueden oscurecer e
incluso ignorar informacin que pueda ser de gran importancia.
En el A.E.D., el anlisis visual, como se ha indicado
anteriormente, debiera preceder a los anlisis estadsticos
"numricos", si bien estos ltimos siguen siendo el producto
final deseado.


1.2.3.2..- ACTITUD ABIERTA.
El analista ha de estar abierto a patrones no previstos en
los datos, ya que stos podran ser los aspectos ms reveladores
del anlisis. Muchas veces, en las diversas Ciencias Sociales,
pese a la habitual debilidad de sus teoras, los investigadores
suelen ignorar patrones alternativos a las hiptesis de partida.
Como ya se ha indicado, los anlisis estadsticos
"clsicos" suelen ser de tipo confirmatorio, es decir, se parte
de unas hiptesis de trabajo previas. En esta lnea, en muchas
1991 23
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
ocasiones, los datos no son explorados en busca de la existencia
de patrones alternativos de explicacin de los mismos (HARTWIG Y
DEARING, 1979). En cambio, un "modo exploratorio" de anlisis se
halla abierto a un amplio nmero de explicaciones alternativas.
Hay que recordar que los datos provenientes de las Ciencias
Sociales suelen ser obtenidos bajo condiciones no repetibles, o
con una relacin vaga de los constructos con la teora.


1.2.4.- TEMAS BSICOS EN EL ANLISIS
EXPLORATORIO DE DATOS.
Siguiendo a Hoaglin, Mosteller y Tukey (1983), se puede
hablar de cuatro grandes temas que siempre se hayan presentes en
el Anlisis Exploratorio de Datos (Estadsticos Resistentes,
Datos Residuales, Transformacin de datos y "Revelacin"), que
sern analizados en los siguientes cuatro subapartados.


1.2.4.1.- ESTADSTICOS RESISTENTES.
Primeramente, se proceder a definir lo que es una
estadstico resistente: Se dice que un estadstico es
resistente, en su acepcin ms general, cuando el valor de ste
no se halla apenas afectado por cambios arbitrarios en una
pequea parte del conjunto de datos. De este modo, si cambiamos
unos pocos datos en un conjunto de datos, y los sustituimos por
otros que sean bastante diferentes a los anteriores, un
estadstico resistente no se hallar apenas afectado. En otras
palabras, los mtodos resistentes prestan mucha atencin al
cuerpo de los datos y poco a las puntuaciones extremas, de modo
que puedan "resistir" pequeas alteraciones de los datos.
Desgraciadamente, la media y varianza muestrales no pueden
ser consideradas en absoluto como estadsticos resistentes, ya
24 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
que de acuerdo con su frmula de clculo, una sola puntuacin
extrema puede afectar de modo importante a ambas. Sea el
siguiente conjunto de datos 8,9,9,8,9,7,1 y 9; en el cual se
aprecia que el dato "1" afecta de modo importante tanto a lo
media como a la varianza. En cambio, los denominados
estadsticos de orden no se veran afectados en tal medida por
esas puntuaciones. Ejemplos de ello son la Mediana para la
tendencia central y Amplitud Inter-Cuartil para la dispersin.
Sin embargo, una matizacin a la definicin indicada es la
siguiente: un estadstico es resistente cuando el valor de ste
no se halla apenas afectado por un pequeo nmero de
puntuaciones extremas
5
o por cierto nmero de errores de
redondeo, truncado o agrupamiento. La primera parte se refiere a
la existencia de puntuaciones extremas, tal y como ocurra en el
ejemplo anterior. La segunda parte se refiere a la resistencia
no ya a las puntuaciones atpicas, sino a la resistencia a
errores de redondeo o agrupamiento. Consiguientemente, un
estadstico resistente no se debe ver tampoco apenas influido
por errores de redondeo, truncado o agrupamiento de una pequea
fraccin de los datos. En esta lnea, o segunda acepcin, la
Mediana no sera un estadstico particularmente resistente, ya
que, sabiendo que el valor de la mediana nicamente depende de
unas pocas puntuaciones centrales de la distribucin, un pequeo
error de redondeo o agrupamiento afectara al valor obtenido.
Como Goodall (1893b, p. 349) seala, ....ordinariamente,
tememos ms los efectos de las puntuaciones atpicas que los
procedimientos de redondeo o agrupamiento, de manera que se
utiliza habitualmente la Mediana como estadstico resistente.
Sin embargo, para anlisis ms refinados, preferimos un
estadstico menos sensible al redondeo y agrupamiento, as como
que se mantenga resistente ante las puntuaciones atpicas. Por
ello, en el captulo segundo se hablar de la Mediana y de otros
estadsticos resistentes de mayor inters.



5
O atpicas (que se desvan de la "norma").
1991 25
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
1.2.4.2.- DATOS RESIDUALES.
Pensemos, siguiendo el anlisis estadstico clsico, que
pretendemos observar la relacin lineal existente entre las
variables X e Y, para lo cual efectuamos un ajuste por el mtodo
de Mnimos Cuadrados. Pues bien, los datos residuales son los
datos que tras la aplicacin del modelo no encajan en el mismo.
En el ejemplo, los residuales seran las desviaciones verticales
respecto a la recta ideal (el modelo ajustado) entre las
variables X e Y. Es decir,
DATOS BRUTOS = DATOS AJUSTADOS + DATOS RESIDUALES
o bien,
DATOS = PARTE AJUSTADA
6
+ PARTE RESIDUAL
7
.

Esta ecuacin, si se considera exclusivamente el aspecto
descriptivo univariado, podra tambin expresarse como
CONJUNTO DE DATOS = TENDENCIA + EXCLUSIVIDAD ,
aspectos en los que podra descomponerse el conjunto de los
datos:
CONJUNTO DE DATOS

TENDENCIA

EXCLUSIVIDAD.


El grfico siguiente, referido a una serie temporal,
ayudar a comprender mejor estos conceptos, en el que los
"rombos" representan los datos obtenidos, la lnea discontinua,
no pasando por ninguno de los datos, indica la tendencia que
sigue el conjunto de datos. Mientras, los segmentos de lneas
quebradas que existen entre cada "rombo" y la lnea discontinua
muestran la parte exclusiva del conjunto de datos, lo que cada
dato o caso tiene de especfico (es decir, la desviacin
vertical de cada rombo respecto a la lnea discontinua).

6
"Smooth".
7
"Rough".
26 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.


0
1
2
3
4
5
6
7
8
9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Datos originale
Tendencia
Exclusividad
<>



El enfoque del A.E.D., adems de ofrecer procedimientos ms
resistentes, al analizar la relacin entre variables, que el de
Mnimos Cuadrados, tal como la Lnea de Tukey (que se ver en el
Captulo 4), mantiene que los datos residuales pueden avisar de
aspectos sistemticos importantes de los datos que pueden
necesitar de atencin, tal como la curvatura, no-aditividad y
no-constancia de la variabilidad. Es decir, el anlisis de
residuales se emplea para detectar inadecuaciones de los modelos
tericos puestos a prueba, en los que habitualmente se supone
que los residuales son meramente error aleatorio, sin ningn
tipo de sistematismo.
En conclusin, un aspecto clave del A.E.D. es que un
anlisis de un conjunto de datos no se halla completo sin un
cuidadoso examen de los datos residuales, aspectos que se vern
ampliados en el Captulo 4.


1991 27
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
1.2.4.3.- RE-EXPRESIN O TRANSFORMACIN DE
LOS DATOS.
La transformacin de los datos se refiere al cambio en la
escala de medida, de la variable objeto de estudio, para adecuar
los datos a los supuestos de los modelos paramtricos. Por
ejemplo, un supuesto previo a la hora de realizar una prueba de
inferencia estadstica tan habitual como es el Anlisis de
Varianza (ANVAR o ANOVA) es que los datos deben seguir la
distribucin normal. En el caso de que se desee aplicar un
Anlisis de Varianza a unos datos que muestren una distribucin
positivamente asimtrica se podra, siguiendo el caso, no tomar
los valores en la escala original, sino realizar el logaritmo de
cada uno de ellos y observar si tras tal transformacin la
distribucin de los mismos es normal, y as cumplir con el
supuesto de la normalidad de puntuaciones del Anlisis de
Varianza.
La transformacin de los datos va referida a que el
investigador pueda analizar los datos a travs de la utilizacin
de otra escala (logartmica, mediante raz cuadrada, mediante el
arco-seno de las puntuaciones, etc.), que pueda simplificar el
anlisis de datos. Es decir, se trata de considerar si la escala
original de medida es satisfactoria. En el caso de que no lo
sea, la transformacin de datos en otra escala puede dar lugar a
la deseada simetra de la distribucin, a la constancia en su
variabilidad, a la fuerza de una relacin entre variables, a la
aditividad de un efecto, o, en general, a los supuestos
subyacentes a las distribuciones probabilsticas que se deseen a
continuacin aplicar.


1.2.4.4.- REVELACIN.
Este aspecto va referido a la importancia de las
representaciones grficas en el A.E.D., que proporcionan la
posibilidad de observar ciertos rasgos inesperados, o ciertas
regularidades, que podrn favorecer la "intuicin" (serendipity
28 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
8
) del investigador. En otras palabras, el empleo de las
diversas tcnicas grficas disponibles aparece como una
estrategia bsica para revelar/desvelar la estructura de los
datos. En diversos casos, tales como el descubrimiento de
"agujeros" en las distribuciones o de "picos mltiples"
(conceptos que sern tratados en los prximos apartados), las
representaciones grficas, tales como las propuestas por el
A.E.D. resultan imprescindibles.
Adems, las representaciones grficas empleadas pueden
resultar de utilidad no slo para la bsqueda y exploracin de
caractersticas, sino tambin como una va de comunicar
informacin a audiencias no tcnicas.
Pero ms importante an es su nfasis en el uso de los
grficos no slo en la fase previa al anlisis de datos sino
tambin durante y despus del mismo. Es decir, a pesar de
disponer de resmenes del conjunto de datos (estadsticos), no
hay que olvidarse del origen de la informacin, que est mejor
reflejado en una representacin grfica que preserve suficiente
informacin tal y como ofrece, por ejemplo, el diagrama de
"Tallo-y-Hojas", que conserva los datos originales.


1.2.5.- AFRONTAMIENTO DE PROBLEMAS
BSICOS EN EL ANLISIS
EXPLORATORIO DE DATOS.
En los prximos cuatro subapartados se analizar el modo
que propone el enfoque del Anlisis Exploratorio de Datos de
afrontar diversos problemas bsicos que puede poseer la
estructura de las distribuciones de un conjunto de datos, como
son la asimetra de la distribucin, la existencia de
puntuaciones atpicas (o extremas), de "agujeros" o de mltiples
"picos" (o modas).

8
Algo as como: Idea brillante surgida "casualmente" a un hombre brillante que
estaba brillantemente en el camino adecuado (vg., manzana de Newton).
1991 29
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.


1.2.5.1.- ASIMETRA DE LA DISTRIBUCIN DE
DATOS.
Los textos de Estadstica Descriptiva suelen indicar que si
los datos se distribuyen ms o menos simtricamente, la Media es
el estadstico ms adecuado, pero si la asimetra es apreciable,
es ms correcto el empleo de la Mediana. Ello se debe a que la
Media se ve influida por todos los valores que, en el caso de
una distribucin asimtrica, se ver influida por los valores de
la cola ms larga. Anlogamente, tambin la Desviacin Tpica se
ve afectada por la asimetra, por lo que un estadstico como la
Amplitud Inter-Cuartil, ofrecer mayor resistencia. Mientras, el
enfoque del A.E.D. seala un amplio nmero de estadsticos
resistentes que permiten el anlisis descriptivo de las
distribuciones asimtricas.
Sin embargo, hay que advertir que lo anterior se refiere
bsicamente a las distribuciones ligera o moderadamente
asimtricas. En el caso de las distribuciones marcadamente
asimtricas no sera ni siquiera correcto hablar de medidas de
tendencia central (HEATHCOTE, POPIEL Y NEWHORT, 1991), con lo que la
nica posibilidad que le queda al analista ser, en este caso,
observar y obtener conclusiones de una representacin grfica,
tal y como un diagrama de "Caja-y-Bigotes" o de "Tallo-y-Hojas",
o efectuar una transformacin de los datos.


1.2.5.2.- PUNTUACIONES ATPICAS.
Un problema que ha preocupado a los analistas de datos
desde tiempo atrs es el de cmo abordar los estadsticos
representativos cuando en el conjunto de datos recogidos hay los
denominados datos atpicos (o lo que es lo mismo, puntuaciones
30 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
extremadas o "aberrantes")
9
, es decir, datos que se hallan
separados del grueso de las puntuaciones. Este hecho puede ser
debido a diversos factores, desde errores en la recogida de los
datos, hasta datos que por cualquier circunstancia toman esos
valores, pero no nos vamos a detener en las consideraciones de
cundo una puntuacin llega a ser considerada como "atpica",
debido a lo extenso y problemtico que puede resultar el asunto,
en sus matizaciones. Al igual que el tema de la asimetra es un
tema de inters especial para los analistas de datos.
Debido a las caractersticas de estadsticos como la Media
o Varianza muestrales
10
que, para su clculo dependen de todas y
cada una de las puntuaciones, la existencia de que una o varias
de ellas se alejen de modo importante del resto hace que los
valores que nos ofrezcan sean, de algn modo, un tanto irreales.
Por ejemplo, pinsese en los datos 3,1,1,2,3,1,40,1; y en su
media teniendo en cuenta no el dato atpico "40". Ante este
problema, han sido propuestas diversas alternativas de
actuacin:
a) Atenindonos a los datos provenientes de los estudios
experimentales en Psicologa que suelen tener como
variable dependiente el Tiempo de Reaccin, un
procedimiento muy usual es el siguiente. Bajo la
suposicin de que la distribucin de los tiempos de
reaccin sigue la curva normal (sic
11
), se procede a
eliminar, de cada sujeto, bien aquellas puntuaciones que
se alejen ms all de la media ms/menos dos Desviaciones
Tpicas, o bien se indican unas puntuaciones fijas
arbitrarias (por exceso y por defecto) ms all de las
cuales los datos existentes sern suprimidos de los
ulteriores anlisis. Una vez realizada tal operacin de
"limpieza", y "normalizada" la distribucin de los datos,
se efecta el clculo de la Media muestral, proceso que
equivale a una manera de recortar la Media, de forma hasta
cierto punto anloga a los procedimientos de "medias
recortadas" que se analizarn en el Captulo segundo.

9
Outliers en la literatura anglosajona.
10
Especialmente la Varianza, que al calcularse con empleo de potencias
(diferencias al cuadrado) maximiza el efecto de las puntuaciones extremas.

11
Abreviatura que utilizaremos en su segundo sentido de advertir del uso de una
afirmacin o razonamiento (que se sabe) falso pero que se sigue bajo el
supuesto de si fuera verdadero, por conveniencia para la argumentacin.
1991 31
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
b) Adoptar la estrategia propuesta por el enfoque del
A.E.D. de utilizar, como se ha indicado con anterioridad,
los diversos estadsticos resistentes, es decir, de
ndices que son poco afectados por las variaciones
provocadas por la existencia de unos pocos (o presencia de
algunos) datos atpicos. Tales estadsticos resistentes,
los ms empleados (vg., Mediana, Centrimedia, Trimedia,
entre otros) son analizados en el Captulo 2, con un
anlisis comparativo de las ventajas de unos respecto a
otros, en trminos de robustez en la estimacin.


1.2.5.3.- "AGUJEROS".
Los "agujeros"
12
en la distribucin de un conjunto de datos
se refieren a la existencia, en la distribucin de los mismos,
de intervalos o zonas en las que no se han hallado datos o muy
pocos en relacin a las puntuaciones circundantes. Por ejemplo,
en la secuencia:
4, 5, 6, 4, 5, 4, 5, 8, 6, 9, 8, 9, 8, 5, 4 y 8; hay un agujero
en el "7", valor, por cierto, que se halla relativamente cercano
a la media de los datos (6'125), lo que, sin embargo, da idea de
lo poco adecuado que es, al menos en este caso, hablar de un
valor de tendencia central o representativo del promedio, al
recaer ste cercano a un "agujero". La mejor manera de apreciar
la existencia de agujeros es a travs de los mtodos grficos
desarrollados por este enfoque (vg., los llamados diagramas de
"Tallo-y-Hojas"), que sern descritos en el Captulo 3, no
obstante, puede servir un Histograma "clsico" para ilustrar la
idea.


12
Gaps en la literatura anglosajona.
32 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
ILUSTRACIN DE UN "AGUJERO" CON LOS DATOS DEL EJEMPLO EXPUESTO:

4 5
6 7 9 8



1.2.5.4.- "PICOS MLTIPLES".
La existencia de mltiples "picos"
13
, o de mltiples
modas
14
, se refiere a que hay diversos intervalos de puntuaciones
en una distribucin que tienen un parecido nmero de
frecuencias, es decir, que es una distribucin bi- o multimodal.
Al igual que en el caso de los "agujeros", es a travs de un
procedimiento grfico como mejor puede ser apreciado por el
analista (ptimamente por medio de un diagrama de
"Tallo-y-Hojas", no obstante, dado que an no han sido expuestos
los mtodos de representacin grfica propios de este enfoque,
un Polgono de Frecuencias "clsico" servir de acercamiento
para ilustrar la idea).


13
Peaks en la literatura anglosajona.
14
Nosotros preferimos hablar de "picos" para referirnos a este fenmeno, pues
atenindonos a la definicin usual de la Moda como el valor que ms se repite
en una distribucin, podra darse el caso de que uno de los "picos" tuviera
mayor altura que los dems, siendo, por tanto, la distribucin, en rigor,
unimodal; y sin embargo, estar afectada del fenmeno al que nos referimos. Por
ello, algunos autores hablan de "moda mayor" para referir a la Moda en sentido
estricto, y de "moda/s menor/es" para referirse a los valores cuya frecuencia
destaca del grueso de los datos pero no cumplen esta definicin de Moda.
1991 33
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
ILUSTRACION DE "PICOS MLTIPLES" (Distribucin Bi-Modal):
0
5
10
15
20
25
30
35
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17


Como podr deducirse del ejemplo, en estos casos resultar
muy difcil hablar de un ndice de tendencia central adecuado,
ya que posiblemente no tenga sentido indicar un ndice
representativo de la misma. Ms bien, resulta ms esclarecedor
sealar los intervalos con mayor frecuencia y analizar posibles
causas de tal resultado, como por ejemplo, la superposicin en
el conjunto de datos de dos distribuciones, supnganse normales,
pero con diferente media.


1.3.- ESTADSTICA ROBUSTA.
1.3.1.- PROBLEMAS DE LA TEORA
ESTADSTICA CLSICA.
El problema que se plantea a la hora de abordar los
distintos procedimientos estadsticos de estimacin o
verificacin de hiptesis es que se ha de partir de cierto
conjunto de condiciones, o supuestos, entre las cuales se hallan
34 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
especialmente aspectos como la independencia de las
observaciones entre s, a la suposicin de que siguen una misma
distribucin, as como a las asunciones respecto del carcter de
la distribucin de los elementos de la muestra. El
incumplimiento de tales condiciones da lugar a que las
afirmaciones que se logren al aplicar las pruebas inferenciales
respectivas sern, habitualmente, inciertas.
Sin embargo, como se ha indicado con anterioridad, en la
investigacin emprica, tales condiciones son ms la excepcin
que la regla. Muchos de los supuestos matemticos son ms bien
el resultado de una inevitable idealizacin. Por consiguiente,
tales condiciones no se suelen cumplir de manera exacta,
surgiendo dudas sobre los resultados que se puedan conseguir con
los procedimientos al uso una vez que se incumpla alguna de las
asunciones subyacentes.
La teora estadstica clsica ha asumido distintas
asunciones respecto a las muestras, tales como la nocin de
muestra de gran tamao, as como la no violacin de los
supuestos subyacentes a las distribuciones estadsticas, temas
sobre los que se reflexionar en los siguientes apartados.


1.3.1.1.- MUESTRAS PEQUEAS.
La teora estadstica clsica enfatiza nociones como la de
muestra que cuenta con un nmero de datos relativamente elevado.
De este modo han surgido la "ley (dbil) de los grandes nmeros"
que viene a indicar que conforme la muestra sea mayor la
probabilidad de que un estadstico estime correctamente el
parmetro correspondiente a su poblacin tiende a uno. Anlogo
razonamiento sigue otra premisa bsica de la Estadstica
Inferencial, como es el "teorema central del lmite".
En resumen, conocer el comportamiento de un estadstico a
medida que la muestra es de mayor tamao tiene utilidad cuando,
como frecuentemente ocurre, el comportamiento de las muestras
grandes es ms simple que el de las pequeas.
1991 35
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.
Sin embargo, hay que reconocer que los conjuntos de datos
que manejan los investigadores son, muy a menudo, pequeos, y
carecen de la simplicidad de las grandes muestras, con lo que
estn sujetos a problemas a la hora de inferir a los parmetros
(vg., el caso del estudio de muestras que provengan de
poblaciones de alta variabilidad, lo que da lugar a grandes
variaciones en las muestras pequeas, es decir, a notables
diferencias en los valores de los estimadores en muestras
diferentes de una misma poblacin).
El ejemplo ms claro es que en las series de datos que se
recogen, incluso las provenientes de una distribucin normal,
suele estar presente una pequea porcin de puntuaciones
atpicas, es decir, generadas por errores de medicin, o
causadas por cualquier otro tipo de circunstancia.
Habitualmente, la separacin de este tipo de puntuaciones del
resto es imposible. En lugar de ello, lo que se busca son
procedimientos que sean poco sensibles a tales puntuaciones,
como son los estadsticos resistentes, que, a su vez, sern
empleados como estimadores.


1.3.1.2.- SUPUESTOS NO REALISTAS DE LAS
DISTRIBUCIONES Y PRUEBAS TERICAS.
Las tcnicas provenientes de la Estadstica clsica estn
diseadas para ser las mejores siempre que se les apliquen
severas constricciones. Sin embargo, la experiencia y la
investigacin nos han forzado a reconocer que las tcnicas
clsicas pueden resultar equvocas cuando la situacin prctica
se aleja del modelo ideal descrito por tales asunciones o
supuestos. Por ello, los recientes estudios que han desarrollado
mtodos robustos y exploratorios estn ampliando la efectividad
de los anlisis estadsticos.
As, la teora estadstica clsica responde a situaciones
que podramos denominar "ideales", que ocurren raramente en las
investigaciones empricas reales. De este modo, en lugar de
buscar los estadsticos ms adecuados en unas situaciones
ideales, podra resultar ms adecuado el empleo de estadsticos
36 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
que puedan afrontar gran cantidad de situaciones, tal como
propone el A.E.D.
Veamos un caso habitual que ilustra el procedimiento a
seguir. Si se sabe que los datos que hemos recogido realmente
provienen de una poblacin que sigue una distribucin normal,
entonces la Media muestral ser un buen estimador de la Media
poblacional. Sin embargo, incluso en distribuciones simtricas
unimodales, en el caso de que tengan colas ms gruesas en los
extremos que la distribucin normal, es decir, que sean
leptocrticas (vg., distribucin de Cauchy
15
), y por ende, en
distribuciones en las que posiblemente en sus muestras haya ms
puntuaciones extremas, la Media muestral resulta ser un
estimador poco fiable de la Media poblacional (DEGROOT, 1988). En
este caso, un estimador razonable y relativamente simple sera
la Mediana muestral.
De forma esquemtica, al respecto de lo que se acaba de
exponer, cabe hablar de diversas situaciones (DEGROOT, 1988):
I) Si se puede suponer que la distribucin poblacional es
una distribucin normal, o aproximadamente normal, y la
muestra es relativamente grande entonces se podra usar
la Media muestral como un estimador aceptable de la Media
poblacional.
II) Si se cree que la distribucin descrita por la poblacin
es simtrica y unimodal, pero con unas colas ms gruesas
en los extremos (leptocrtica) que la distribucin normal
se podra utilizar la Mediana muestral como estimador de
la Media poblacional.
III) Si como ocurre muy comnmente, en la investigacin
emprica, en disciplinas como la Psicologa, no se sabe
si la distribucin de la poblacin es normal, se debera
tratar de encontrar un estimador de la Media poblacional
adecuado para varios tipos posibles de distribuciones, es
decir, se busca un estimador robusto. Pero eso ser
materia de otro apartado...

15
Es un modelo de distribucin muy especial: No se puede calcular su Media o
Esperanza Matemtica (da ), aunque es una distribucin simtrica en torno a
0, ya que su Funcin de Densidad de Probabilidad, que es:
f(x) =
1
(1+x
2
)
; - < x< + , se aproxima a 0, en los extremos, mucho ms
lentamente que la distribucin Normal, resultando muy leptocrtica.
1991 37
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.


1.3.2.- ESTIMADORES ROBUSTOS.
El concepto de estimador robusto, previo a la introduccin
del Anlisis Exploratorio de Datos, es un trmino que fue
acuado por Box en 1953. Un estimador se dice que es robusto
cuando funciona bien para varios tipos distintos de
distribuciones tericas, aunque pueda no ser el mejor estimador
disponible para ningn tipo concreto de distribucin. Los
estimadores robustos, en lugar de ser los mejores de una
situacin estrechamente definida, son los "mejores compromisos"
para un amplio abanico de situaciones y, sorprendentemente,
estn cercanos a los "mejores" en cada situacin por s sola.
El uso de estimadores robustos es particularmente
ventajoso en las Ciencias Sociales ya que a menudo no suelen
haber unas teoras bien definidas, con lo que no se sabe con
certeza el tipo de distribucin poblacional de los datos bajo
estudio.
Por tanto, el concepto de robustez se refiere a la
insensibilidad de un estimador a violar los supuestos
subyacentes bajo un modelo probabilstico o distribucin
terica. Desde esta perspectiva, cabe indicar que la Media y
Varianza muestrales no son estimadores robustos, mientras que un
estadstico como la Mediana muestral aun siendo ms robusto que
los anteriores, no lo es particularmente, ya que otros
estimadores tienen una eficiencia
16
mayor ante un amplio rango de
distribuciones (como intentaremos mostrar en el Captulo 2).
Una nota final a sealar en este punto es que tanto los
mtodos, llammoslos tradicionales, como los mtodos robustos
son mtodos paramtricos, es decir, pretenden inferir aspectos

16
Las Distribuciones Muestrales de la Media y de la Mediana tienen la misma
media. Sin embargo la varianza de la Distribucin Muestral de Medias es menor
que la de la Distribucin Muestral de Medianas. Como podr deducirse de las
frmulas respectivas de sus desviaciones tpicas (Errores Tpicos):
x
_
=

N

y
Md
=
1'2533
N
, el numerador es mayor en Md, luego el valor resultante tambin
ser mayor.
38 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.
provenientes de distribuciones o modelos probabilsticos, con la
diferencia de que los estimadores robustos seguirn siendo
relativamente eficientes aunque se incumplan las restricciones
impuestas por los modelos paramtricos clsicos. A diferencia de
los dos mtodos, ambos paramtricos, los denominados mtodos no
paramtricos son aquellos que no tienen en cuenta el tipo de
distribucin poblacional para sus procedimientos, por ello es
frecuente asociar a ellos el concepto de "distribucin libre".
Tambin es conveniente indicar que hay una cierta relacin
entre los mtodos resistentes y los robustos. De este modo,
diversos autores indican que la resistencia no es ms que una
"robustez cualitativa" (HOAGLIN, MOSTELLER Y TUKEY, 1983, p. 2).
En este texto sern analizados los estadsticos resistentes
ms conocidos, junto a su eficiencia en la estimacin de
parmetros de diferentes tipos de distribucin (robustez).

1991 39
EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS.

40 Hector Monterde i Bort - Manuel Perea Lara.
Cap. 1: INTRODUCCIN Y PRINCIPIOS BSICOS.

Captulo 1: INTRODUCCIN Y PRINCIPIOS BSICOS. ...............................................9
1.1.- INTRODUCCIN. .....................................................................11
1.1.1.- PERSPECTIVA GENERAL EN LOS ANLISIS DE DATOS.................................12
1.1.1.1.- ANLISIS DE LA FASE DESCRIPTIVA EN LOS ANLISIS "CLSICOS" DE DATOS. ...13
1.1.1.2.- ANLISIS DE LA FASE INFERENCIAL EN LOS ANLISIS "CLASICOS" DE DATOS. ...14
1.2.- EL ENFOQUE DEL ANLISIS EXPLORATORIO DE DATOS. ....................................15
1.2.1.- APLICABILIDAD DEL ANLISIS EXPLORATORIO DE DATOS EN PSICOLOGA...............15
1.2.2.- ASPECTOS BSICOS DEL ANLISIS EXPLORATORIO DE DATOS..........................16
1.2.2.1.- FASES DE ANLISIS ESTADISTICO EN EL ANLISIS EXPLORATORIO DE DATOS. ....17
1.2.2.1.1.- ANLISIS DE LA FASE EXPLORATORIA DEL ANLISIS EXPLORATORIO
DE DATOS. ...................................................................... 18
1.2.2.1.2.- ANLISIS DE LA FASE CONFIRMATORIA DEL ANLISIS
EXPLORATORIO DE DATOS. ......................................................... 19
1.2.3.- PRINCIPIOS BSICOS DEL ANLISIS EXPLORATORIO DE DATOS........................20
1.2.3.1.- ESCEPTICISMO. ..........................................................20
1.2.3.2..- ACTITUD ABIERTA. ......................................................21
1.2.4.- TEMAS BSICOS EN EL ANLISIS EXPLORATORIO DE DATOS...........................21
1.2.4.1.- ESTADSTICOS RESISTENTES. ..............................................22
1.2.4.2.- DATOS RESIDUALES. ......................................................23
1.2.4.3.- RE-EXPRESIN O TRANSFORMACIN DE LOS DATOS. ............................24
1.2.4.4.- REVELACIN. ............................................................25
1.2.5.- AFRONTAMIENTO DE PROBLEMAS BSICOS EN EL ANLISIS EXPLORATORIO DE DATOS......26
1.2.5.1.- ASIMETRA DE LA DISTRIBUCIN DE DATOS. .................................26
1.2.5.2.- PUNTUACIONES ATPICAS. .................................................27
1.2.5.3.- "AGUJEROS". ............................................................28
1.2.5.4.- "PICOS MLTIPLES". .....................................................29
1.3.- ESTADSTICA ROBUSTA. ..............................................................30
1.3.1.- PROBLEMAS DE LA TEORA ESTADSTICA CLSICA...................................30
1.3.1.1.- MUESTRAS PEQUEAS. .....................................................31
1.3.1.2.- SUPUESTOS NO REALISTAS DE LAS DISTRIBUCIONES Y PRUEBAS TERICAS. .......32
1.3.2.- ESTIMADORES ROBUSTOS.........................................................33

1991 41

Vous aimerez peut-être aussi