520 923 132 - 3 PDF

ESTADISTICA ESPAOLA
Vol. 35, Nm. 132, 1993, pgs. 105 a 122
Anlisis de Citas en Revistas de Estadstica

K. FZ. AGIRRE
J. M. PIRIS (*)
F. TUSELL (1)
Departamento de Econometra y Estadstica
Facultad de CC.EE. y Empresariales
Universidad del Pais Vasco
RESUMEN
Se analiza una tabla de contingencia de doble entrada cuyas casi-

Ilas ij representan el nmero de veces que la revista i cita a la revista
j. EI anlisis muestra una estructura interesante. EI anlisis de corres-
pondencias es una herramienta ideal, porque tiene en cuenta el ca-
rcter no reflexivo de la relacin citando ser citado (esto es, el
hecho de que los valores ij y ji son en general bastante îiferentes).
Palabras clave: Anlisis de correspondencias, bibliomtrica.
Clasificacin AMS: 62-07, 62H 17.
1. INTRODUCCION
La profusin de trabajos impresos en todas las reas del saber es un fenmeno

de nuestro tiempo, y la Estadstica no es una excepcin. En los ltimos quince
aos, un elevado nmero de nuevas revistas se ha sumado a las ms veteranas,
enriqueciendo as la escena estadistica. Ello confronta a 1os autores con una
mayor variedad de eleccin en la actualidad, cuando deciden a qu revista
(*) Fallecido.
(1) Estamos agradecidos a los asistentes a una de las sesiones del Fifth Internationa!
Symposium on Applied Stochastic Models and Data Analysis por su inters y sugerencias. Esta
versin se ha beneficiado adems de las crticas de dos evaluadores annimos, a los que querernos
expresar nuestra gratitud.
^T^^[^^ ;.
someter su trabajo para su posible publicacin. Factores a tener en cuenta en

esta eleccin son el prestigi de la revista, la agilidad, calidad y honestidad de!
proceso de evaluacin, y el tipo de lectores a los que se quiere Ilegar.
Por otra parte, los organismos pblicos y privados que distribuyen fondos para
la investigacin necesitan criterios para ciasificar las diferentes revistas, en orden
a valorar la relevancia y entidad de los trabajos que se publican.
La realizacin de encuestas a miembros de la profesin es una posible va a
seguir para efectuar una taxonoma de las diferentes revstas de una especiali-
dad. Son, sin embargo, caras y difciles de realizar, especialmente cuando la
comunidad cientfica est dispersa por muchos pases. Una fuente de informacin
alternativa consiste en explotar la informacin que existe sobre citas cruzadas
entre las diferentes publicaciones, informacin que puede compilarse para un
buen nmero de revistas sin excesivo trabajo. Las Secciones que siguen mues-
tran el resultado de un anlisis estadstico de datos de esta naturaleza. Adems
de su inters intrnseco, ilustran cmo el anlisis de correspondencias puede ser
una alternativa al anlisis cluster cuando las diferencias entre objetos no quedan
bien descritas por una rnatriz de distancias (o similaridades) simtrica.
2. LOS DATOS
Las datos son nmero de citas en revistas de Estadstica (concepto este

interpretado ampliamente, lo que incluye, por ejemplo, al Journal of Econome-
trics), datos que han sido manualmente compilados a partir de informacin en
Garfield (1985).
Pueden ser descritos como una tabla tridimensional. En filas, tenemos I= 33

categoras, 32 de las cuales corresponden a revistas estadsticas mientras que
la 33 es un agregado de todas las dems publicaciones consideradas, estadis-
ticas o no. En columnas tenemos J= 20 categoras, correspondiendo a revistas
escogidas entre las 32 anteriormente citadas, sobre la base de la informacin
disponible, sin que ello deba interpretarse como juicio implicito de ninguna espe-
cie. La tercera dirnensin es tiempo: tenemos una tabla para cada uno de los
aos entre 1976 y 1985, y otra para los aos anteriores a 197fi. EI conjunto de
datos completo es por tanto una tabla que Ilamaremos K,^T, cuyo elemento
genrico k;jt es el nmero de citas hechas de la revista j por la revista i durante
el perodo t.
No habra ningn problema, en principio, en realizar un anlisis convencional

(por ejemplo, mediante modelos logartmico-lineales) sobre la tabla tridimensional
descrita. No nos hzmos limitado a ello por varias razones. En primer lugar,
nuestro objetivo es puramente descriptivo. No nos aproximamos a los datos con
hiptesis en mente que deseemos contrastar: de hecho, las que acudiran de
ArÂt ^^î^^ [^F ^;^^r,^â E^ r^ FÊ^^^^^^^ra^^ ^^F E^^^..,7^[^^^^^:.;r^r f^ 101
inmediato (independencia, cuasi-independencia, homogeneidad marginal de sub-

tablas), o no son de aplicacin a nuestros datos, o seran triviales. En segundo
lugar, algunos factores complicaran algo el anlisis {como es la presencia de
ceros estructurales correspondientes a algunas revistas que slo se publicaron
parte del perodo). En tercer lugar, y sobre todo, la tabla tridimensional K,^T est
muy vaca , con abundancia de ceros no estructurales.
Por todos estos motivos, hemos agregado K^^T a lo largo de la dimensin temporal
para producir una tabla K^^. Estamos considerando pues totales de citas intercam-
biadas entre las diferentes revistas para un perodo de ms de una dcada.
La lista de revistas consideradas se muestra en la Tabla 1. La Tabla K,^ se

muestra en el Apndice A(Tabla 5).
Una rpida ojeada a la Tabla 5 muestra una pauta evidente: la diagonal del
bloque 20 x 20 superior es prominente, mostrando una fuerte tendencia de los
artculos en una revista a citar artculos en la misma revista. Esto es algo que
cabra esperar, per^ el alcance de la endogamia que los datos ponen de
manifiesto es notable: en prcticamente todos los casos, el mayor nmero de
citas de una revista tiene como receptor a la rnisma revista.
TABLA 1
Relacin de revistas analizadas
Etiqueta Revista Etqueta Revista
adap* Advances in Applied Probability psyk* Psychometrika.

amst* American Statistician stat* The Statistician.
annp* Annals of Probability tech* Technometrics.
anns* Annals of Stat. thpa* T. of Prob. and its App.
asrj* Applied Statistics csts Comm. in Stat.: Simul.
bics* Biametrics cstt Comm. in Stat.: Theory.
bika* Biometrika sana Sankhya, Series A.
csda* Comp. Stat. and Data Anal. sanb Sankhya, Series B.
insr* International Stat. Review stme Statistics in Medicine.
jasa* J. of the Amer. Stat. Assoc. cjst Canadian J. of Stat.
japr* J. of Applied Probability jeco J. of Econometrics.
jman* J. of Mult. Analysis splt Stat. and Prob. Letters.
jrsa* J. of the Royal Stat. Soc., Ser. A bioj Biometrical J.
jrsb* J. of the Royal Stat. Soc., Ser. B scaj Scandinavian J. of Stat.
jscs* J. of Stat. Comp. and Simul. stop Stochastic Processes.
jspi* J. of Stat. and P/anning Infer. jcla J. of Classification.
oths Others.
* Las revistas con un asterisco entran en el anlisis como emisoras y receptoras de citas; las
dems, sla como emisoras de citas.
FIGURA 1
Proyeccin sobre XY ^matriz de datos brutos)
X^ Primer eje, Y ^ Segundo eje
A
J
adap
jca
o p^y l.
^ ('S1)^1
^ P S î' I
^ S'I`.^ I
o st^.t ^ ^3I('S
csdat, ^ o^ ^^'^^' ^ J R SA o r^ths
O o DIUj
^;^^.1 tt..15r1`
. . ^3
.I^
^^^. .T1^;C'If
o a^rnstJ rsl^^ .A ^
o t.^^cli
jsrs o csts I N^ 1^
o ^S^
^ ^rYSr^,^tt
^ f'r^ s^r^h
o hi ka
ANNP
j^pô o^r-JS^,^^
^. ^
splt
0
annp
^ ANNS
thpa
o anrls
_ _1 r
-.2 .(l
.k'
Por este motivo, hemos realizado un anlisis de correspondencias usando la

Tabla 5 tal y como ha sido reproducida, del que damos cuenta a continuacin, y
hemos considerado en la Seccin 5 el tratamiento que cabe dar a dicha diagonal.
â tcnica empleada, el Anlisis de Correspondencias, se origin por el trabajo

del Prof. Benzecri y colaboradores. Un tratamiento extensivo puede verse en
Benzecri (1976); otras referencias son Greenacre (1984) y Cuadras (1981). Un
^. . . . -
^^^r^Î I`^^^^, I)E^ ^;I Tr^ ; E h^^ RE ^^^'^; ^.^:^^.^ ^^F E^^^^ i.^^^^^ ^^ ^ ..
tipo de anlisis estrechamente relacionado es el que produce grficos denorni-

nados biplots: vase por ejemplo Seber (1984). En ambos casos, el objetivo
consiste en proporcionar grficos bidimensionales de la nube multivariante de
puntos, en que tanto casos como variables (filas y columnas de la matriz de datos
anaiizada) se representan de manera simultnea.
EI Anlisis de Correspondencias est particularmente indicado en la descrip-

cin de este conjunto de datos porque no requiere comenzar con una matriz de
proximidades cuadrada. Ello permite incluir revistas para las que no tenemos
datos como receptoras de citas, aunque s corno emisoras. Por otra parte, la
simetra tampoco es un requerimiento. Evidentemente, siempre podramos sime-
trizar cualquier matriz cuadrada. Pero condensar en un solo nmero !a distancia
entre dos revistas i y j violenta la naturaleza de los datos: citar y ser citado son
cosas bien diferentes, y hallar una sola medida de proximidad entre dos revistas
incorpora siempre una dosis de arbitrariedad. Ninguna nocin escalar de distan-
cia o proximidad entre las revistas i y j puede incorporar toda la informacin
contenida en las casillas ij y ji de la Tabla K,^.
Por ello, en nuestro anlisis cada revista se representa dos veces en cada uno
de los grficos: las etiquetas en maysculas (y el smbolo en los grficos}
representan revistas como receptoras de citas. Las etiquetas en minsculas (y
el smbolo o en los grficos) representan revistas como emisoras de citas. La
gran distancia que en ocasiones separa a las dos etiquetas asociadas a una
misma revista es indicativa de la notable diferencia que existe entre la naturaleza
de las fuentes y la de los destinos de la investigacin en ella publicada. EI forzar
la simetra en la matriz de distancias original (y colapsar ambas etiquetas en una
sola) oscurecera por completo este hecho.
3. ANALISIS DE LA MATRIZ DE DATOS BRUTA
Hemos hecho un anlisis de correspondencias convencional reteniendo tres

autovalores; el cuarto est enteramente inducido por la presencia de una sola
revista, Computatianal Statistics and Data Ana/ysis, cuyo diferente perfil funda-
mentalmente refleja el hecho de haberse publicado slo durante parte del perodo
de anlisis. Tanto csda como CSDA tienen una abrumadora contribucin a la
inercia proyectada en el cuarto eje.
Una repeticin del anlisis en que dicha revista fue excluida de la muestra
(aunque utlzada como variable ilustrativa) produjo una cada de la inercia total
de 1.129 a 1.051, con los primeros tres valores propios dando cuenta del 59,52
por 100 de la inercia total, como muestra la Tabla 2.
1 1O ^,, 7 t^^;^^^^^ 1 ^^ ., E_ ^F^^,r^,;i
TABLA 2
Inercia explicada por los primeros tres autovalores
(considerando autocitas
% tra2a
Autovalor Valor % inercia
acumulado
1 .3026 28,77 28,77

.1765 16, 78 45, 56
3 .1468 13,96 59,52
Las Figuras 1 y 2 son rnapas mostrando los planos generados por los primeros
tres ejes tomados por pares. La Figura 1 es particularmente interesante: el eje 1
parece ser una direccin en que las revistas especializadas en Probabilidad se
separan del resto. Vemos annp y ANNP as como el par thpa-THPA lejos del
principal agrupamiento de revistas estadsticas, en una posicin extrema, y con
abundancia de autocitas lo que resulta evidenciado por la proximidad relativa
de las dos etiquetas correspondientes a cada revista.
Tal como muestran sus coordenadas a lo largo del primer eje, tanto jman como
JIUTAN estn en una posicin interrnedia, lo mismo que sucede con los pares
japr-JAPR y adap-ADAP (en la figura, todos estos puntos quedaran fuera del
grfico con la escala empleada; han sido trados al borde derecho. Sus coorde-
nadas aparecen en la Tabla 3).
Esto es algo bien de acuerdo con lo que cabra esperar, dado el uso intensivo de
Teora de la Probabilidad que tpicamente exhiben los artculos en dichas revistas.
La interpretacin del segundo eje no es ni mucho menas tan clara, aunque

parece tentador adscribir un sesgo algo ms terico a las revistas apareciendo
en la parte baja del grfico.
TA B LA 3
Coordenadas de los puntos traidos al margen (considerando autocitas)
Etiqueta Eje 1 Eje 2 Eje 3 Etiqueta Eje 1 Eje 2 Eje 3
ADAP 1.32 1.15 -.21 annp 2.19 -.43 -.14

JAPR 1.48 1.59 -.44 japr 2.33 2.07 -.66
ANNP 1.48 -.30 -.04 jman 1.00 -. 75 -. 58
JMAN .64 -.59 -.00 thpa 2.75 -2.22 1.08
THPA 1.78 -1.35 .75 sana .74 -1.03 -.88
adap 1.89 1.91 -.66
^^r^F,l. ^^-;1^^^ C^F ^^^rA`^ Ef^J ^F^v^^^,fAS [Ê E< 1rî.^^^^^t^(.^^, 111
EI eje 3(vase la Figura 2) parece medir en cierto modo el nfasis relativa

teora-aplicaciones. En el extremo inferior podemos ver ANNS rodeada de cierto
nmero de etiquetas en minscula (revistas que se citan ANNS), mostrando la
importancia de esta ltima como fuente de resultados en investigacin bsica.
Es interesante observar la posicin de oths, con cierto nmero de revistas de
Estadstica aplicada en sus inmediaciones; se dira que la transicin de metodo-
loga estadstica a revistas de ndole no estadstica se hace a travs de revistas
camo JRSA, CSDA, BICS, TECH, BiKA, etc. De modo comprensible, las etique-
tas en minscula de dichas revistas tienden a agruparse en fa parte baja del
grfico. En algunos casos, la distancia entre las dos etiquetas correspondientes
a una revista es grande, mostrando la diferencia entre sus fuentes y destinos de
citas. No parece in^ ustificado asignar a tales revistas un papel de gran alcance
en la diseminacn de metodologa estadstica.
FIGURA 2
Proyeccin sobre XY {matriz de datos brutos)
X= Primer eje, Y= Tercer eje
a_
psykPSYk THPA
thpa
^ ^1,AÎ,
o stat MST
o a^l^ ^3 l C S

s t m c^ J^^, S A
c cl^ 0^ o ^t hs
rS o ^^'1^^
^ A^?JR
^ JASA. o jcla . JMAN
AN NP^,
o as^ r^ rI' F; (:v I^
BIî.A^ ^ J R,5^3 annp
^ ADA
^^c^^s^
csts ^ ^' ^NSI^
. stop
^ o ^
r5tt
, o jsc^ 'âsa
a âlll JAP^
>; ^^ ^rs(^
.
0
splt 0
j Ill d.I1
O
p
^ .1SPI
o, ^ji sca j o sana
^p o
^ _ __ ANNS anns
- .5 - .25 .0 .25 .50 . 75 1.00 1.25
.k
4. LA VISION DEL REESCALADO MULTIDIMENSIONAL
A efectos comparativos, hemos hecho un anlisis mediante la tcnca de

reescalado mutidimensional. Para las treinta y tres revistas consideradas hemos
uttiZado vente variables el nmero de veces que cada una cita a las veinte
para las que tenemos datos como receptoras de citas.
Cada revista viene pues representada por un punto en R20. La distancia

escogida en tal espacio es una de las opciones que ofrece el paquete SPSS para
datos que son frecuencias absolutas: la distanca denominada CHISQ [ver SPSS
^ 1985), p. 162], que pese a su nombre es ligerarnente diferente a la distancia x2
habitual en el anlisis de correspondencias.
FIGURA 3
Representacin bidimensional utilizando ALSCAL y la distancia CHISQ
^ . t^ ---^
p;^yk
'^^ths o
jcla ad a^^
1. U -^ o bics
a^^ro
0
stop
^rsa a
O StcL^ StrC1E' O o thpa
^)lU ^
as j ro s an, o sana
êcc^ 8 -, j in aii
}^" . t) -i cjst 0
csts
insr scajo o csda
jrsb o
o jscs
tec h o jspi
-1.0 -^ o bika
aIYl s t
-2.0 -j anns
r 1
-2.0 -1.0 .0 1.U 2.0
.k`
^Î^^Â.^ ^^?^^J ^,.iF^ ^, I h'1.i^,. I^Y r ^^ . ^^'"7 I t^L. e^^
EI programa utilizado (ALSCAL, en el paquete SPSS) busca una representa-

cin en un espacio de dimensin rnenor {en nuestro caso, el plano R2) de tal
modo que se preserve la ordenacin entre las distancias [vase Davison ^1983)
para una descripcin del mtodo]. La medida de stress de Kruskal S^ [vase su
expresin en Davison {1983), p. 87, frmula ( 5.13)] es 0.194, un ajuste aceptable.
Tenemos ahora slo una etiqueta por revis#a. La representacin bidimensional

es no obstante reminscente de la obtenida en la Figura 1. La divergencia ms
notable es la posicin de oths, lejos en la esquina superior izquierda. Esta
peculiaridad es debida al hecho de que la distancia empleada no est normali-
zada, realzando las distancias correspondientes a revistas con un elevado n-
mero de citas (y oths, que es una categora incluyendo todas las revistas no
consideradas individualmente, es la entidad citante ms numerosa, como puede
verse en la Tabla 5).
5. EL TRATAMIENTO DE L.A DIAGONAL PRINCIPAL
Es un hecho bien conocido que tanto el anlisis de correspondencias como el

reescalado multidimensional, al ser aplicados a una matriz de datos con una
diagonal principal prominente, tienden a proporcionar una configuracin plana
con forma de herradura. Es el Ilamado efecto Guttman; un ejemplo difano puede
verse en Cuadras (1981), pp. 337-339. Hill-Gauch (1980) explican las razones
por las que dicho efecto puede presentarse, y una posible solucin.
En nuestro ejemplo, tal efecto no parece constituir un problema. EI tratamiento

que se hace de la diagonal principal, no tiene pues por objetivo contrarrestar el
efecto Guttman, sino facilitar la disociacin de las dos etiquetas correspondientes
a cada revista, de manera que se pongan ms claramente de manifiesto sus
relaciones con las dems. Una analoga ilustrar esto. En el anlisis factorial, se
supone el modelo:
---^ __i ---> --^

(X-->= Af+u
_i
en que A es una matriz desconocida, f es el vector (inobservable) de factores
comunes, y u el de factores especficos, todos los cuales se suponen incorrela-

dos. Entonces,
^= E [( X- ) ( X- )^]=AA^+D [1 ]
en que D= E[ '] es diagonal.

T Ê)^^; i ^( . G `->f'AF^^^'. il A
La factorizacin ^= A^' proporcionara una matriz A del mismo rango que ^,.
Un anlisis en componentes principales requiere emplear una matriz ^1 con
nmero de columnas iguai al rango sustancial de ^--es decir, al numero de
valores propios que totalizan una fraccin <csustancial de la traza de ^. .
EI anlisis factorial propone factorizar una matriz de covarianzas (o correlacio-

nes} reducida, ^* = E- D, o aigo que pueda considerarse aproximacin razonable
de eila -de ordinario, una matriz que se obtiene por refinamiento progresivo de
una tosca aproximacin inicial. La idea que subyace es prescindir de ia parte
especfica de las X la aportada por los factores especficos u para lograr

una descripcin ms parsimoniosa de la parte debida a los factores comunes.
â analoga con nuestro problema sugiere atenuar la diagonal principal de la

tabla de contingencia K,^, en un intento de lograr una me ôr representacin en
dos dimensiones de las relaciones entre revistas, a costa de prescindir la en-
dogamia especfica de cada una de elias. En lo que sigue examinamos la forma
de atenuar dicha diagonaf y sus consecuencias.
5.1. Modificaciones ad-hoc^3 de la diagonal principal
Como sealan de Leeuw-van der Heijden t 1988),
Ei Anlisis de Correspondencias ordinario no es apropiado para tablas cua-

dradas en que ia diagonal principal no est definida o no es de inters; por
ejemplo, matrices de transicin, tablas de importacin y exportacin, matrices de
confusin, y tablas de migracin.
Este sera nuestro caso (aunque la tabla analizada no sea cuadrada debido a
la inclusin de revistas adicionales como slo emisoras de citas), si estamos
interesados de modo primordial en la relacin de cada revista con ias dems.
Por otra parte, de Leeuw-van der Heijden (1988) examinan trabajo de otros
autores, observando que,
.., reemplazan la diagonal principal con valores escogidos en virtud de algn

argumento terico, o completan la diagonal principa! mediante reconstitucin
iterativa ,
En nuestro caso, la primera opcin no parece indicada. La analoga con el

anlisis factorial esbozada ms arriba, sugerira atenuar dicha diagonal por
reconstitucin iterativa. La solucin que hemos adoptado sigue esta va, y puede
considerarse una instancia de anlisis de correspondencias generalizado, que
describimos a continuacin.
ANAI ^`;^;7 [Ê- (.^T^^^ EN FÊ^,^^`^T^,^, [)E E>'A[)i>r^^. 115
5.2. Anlisis de correspondencias generalizado
AI describir los datos se ha indicado que cabra pensar en un anlisis haciendo

uso de la tcnica de ajuste de modelos logartmico-lineales. EI inters de can-
trastar cualquiera de las hiptesis habituales (independencia, cuasi-simetra,
homogeneidad de mrgenes, etc.) es muy limitado, sin embargo, al no ser de
aplicacin dichas hiptesis o incumplirse de rnodo evidente, corno ya se ha
indicado.
Podemos, en cambio, utilizar un madelo logartmico-lneal para dar cuenta de

una parte de la variabilidad de los datos, efectuando luego un anlisis de corres-
pondencias de los residuos. De hecho, puede cornprobarse [ver Gifi (1990),
p. 266 y ss., o van der Heijden-de Leeuw (1985) por ejemplo ^ que el anlisis de
correspondencias ordinario practica una descomposicin en valores singulares
de las desviaciones respecto a la hiptesis de independencia. Si K,^ es la matriz
de datos, con totales marginales k;, y k.^, E^^ es una matriz con elemento genrico
e;j = k;.k,^/k.., y D,, D^ son matrices diagonales con elementos genricos respectivos
k;., k.j en la diagonal principal, la descomposicin en valores singulares,
D^ ^^'2( K^^-E^^ ) D^ ^'2=U nV" [2l
permite representar los puntos fila y columna de K,^ por las fiias, respectivamente,
de:
R = Di_''z U ^,,2
[3)
C = D^ ''2 V n'^ [4J
Una descomposicin como (2} no tiene por qu limitarse a las desviaciones de

los datos respecto a sus valores ajustados bajo la hiptesis de independencia
(valores en Ei^). Cabe imaginar una descomposicin semejante, ya propuesta por
Escofier (1983), que descomponga la diferencia entre los datos y sus valores
ajustados mediante un modelo logartmico-lneal o inciuso la diferencia entre
los ajustes proporcionados por dos diferentes modelos logartimo-lneales .
Estaramos, en el primer caso, dando cuenta de una cierta estructura en los datos
mediante el modelo ajustad0, y visualizando mediante el anlisis de correspon-
dencias de los residuos cualquiera otra estructura que subsistiera tras el ajuste.
En particular, esta tcnica permite el anlisis de correspondencias de tablas

incompletas [de Leeuw-van der Heijden (1988a)]. Comentarios y ejernplos sobre
el empleo conjunto de modelos logartmico-lneales y anlisis de corresponden-
cias generalizado pueden verse en van der Heijden-Worsley (1988), Daudin-Tre-
court (1980) y Caussinus-Falguerolles (1987).
1
5.3. Anlisis de los residuos del modelo de cuasi-independencia
Se ha ajustado un modelo de cuasi-independencia a!a tabla K,^ excluyendo la

diagonal principal. EI valor del estadstico X2 de Pearson resultante es 11254.29,
con 588 grados de libertad, lo que evidencia un ajuste deficiente de dicho modelo.
Los residuos han sido objeto de un anlisis de correspondencias generalizado.
Los vaiores singulares no son cornparabtes en valor a los obtenidos en las

tablas anteriares. Es interesante notar que entre los dos primeros recogen cas
un 61 por 100 de la traza de la matriz A en (2), lo que muestra que la represen-
tacin plana proporcionada por el anlisis generalizado de correspondencias es
aceptabie.
Dicha representacin puede verse en la Figura 4. Es de destacar que la primera

dimensin (asociada al mayor valor singular) ha sido representada ahora en
ordenadas, y la segunda en abscisas, con objeto de obtener una representacin
plana ms asimilable a las anteriores. La grfica obtenida no se separa mucho
de la presentada en la Figura î. La dimensin presentada en ordenadas tiene su
signo cambiada (el signo es arbitrario, al estar los vectores propios indetermina-
dos en una constante de escala).
AI margen de esto, recurren las mismas pautas que observamos en la

Figura 1, con las revistas de gran contendo en Teora de la Probabilidad
ocupando el margen derecho (algunas de ellas han sido tradas al borde), y
ANNS ocupando su caracterstica posicin extrema. Ntese sin embargo la
notable disociacin que se produce en la Figura 4 entre las dos etiquetas anns
y ANNS, que en la Figura 1 estaban canstreidas a ocupar posiciones prxi-
mas debido a la abundancia de citas endgamas. Lo propio ocurre con otras
revistas, corno psyk-PSYK. A destacar tambin la posicin ntidamente extre-
ma de PSYK y BICS, probablemente reflejando, como ya se ha indicado, su
carcter de receptoras habituales de citas en revistas mdicas, de notable
peso en oths.
TABLA 4
Valores singulares en .^ (E,^ = modelo cuasi-independencia)
Valores % traza % traza

Valor
singulares ^ acumulado
1 850.83 51,47 51,47

2 156.85 9,48 60,95
3 114.91 6,95 67,90
A^^^^fÎ `^^^^t^^^, f-iF 1:^fA^^; Fr^^ f'E `^^+`-,r
FIGURA ^4
Proyeccin sobre XY (residuos modelo cuasi-independencia)
X= Segundo Eje, Y= Primer eje
u.:3o ANNS
0.1.5-i ^ ^1.^ <).

0
J^^^î ^ j';^)1 ^ 1^18 xl^

^ î.I1I15
cst,t ojrsh ol)ika
^ c î.
^ lt a o salia
jeco cjst o`^
o c^ ts o ins4' i,^^^cs
0
t)ICS
'1Î^.^^^^.JSPX+ I 5J^ ^^
O 7(1,11^)
JT:^^4^ ^
p^Yk o
V JS(:'^ (^'^.I)^^ JM^^N f^NNI;
^ .^
; A^,JI^ JA^'1
0.0 -^ o csda o jcla

o stat
. ,^ o a.rn s t
JASt })ioj o strne
o 5'^^q'1^ AI^^1I>
rI' 1 I'^
AMS'^ JiZS^
-0.15 -^
_-- _B_ I^hs ^PSYK

T_
-0.15 0.0 U.15
.k"
. . F `^F^l^t^' ^l_^,
1 i ^ ,Tl.(;1-, ^ Ir
6. CONCLUSION
Hay otros instrumentos estadsticos que podran concebiblemente utiiizarse en

el anlisis de la relacin entre revistas: el anlisis de agrupamientos (cluster
analysis) es un candidato obvio. Nuestro propsito se limita a mostrar, utilizando
un conjunto de datas que nos parece de inters en s mismo, que la tcnica de
anlisis de correspandencias ofrece un instrurnento idneo en aquellos casos en
que, como ocurre en el considerado, la relacin entre las entidades consideradas
es inherentemente no reflexiva.
Mediante el desdoblarniento de etiquetas, el anlisis de correspondencias es

una posibilidad para describir datos en que esto ocurre, y suminstra grficos
simples de entender e interpretar; grficos suministranda una informacin til que
sera perdida si insistiramos en representar cada entidad (cada revista en
nuestro caso) con una sola etiqueta.
EI Anlisis de Correspondencias, tanto ordinario corno generalizado, se mues-

tra un instrumento #il en el estudio de dato como los presentados. Los resultados
deben verse como compiementarios de los ofrecidos por otras tcnicas, como el
escalado multidimensional. La descripcin es potencialmente ms rica, por la
duplicidad de etiquetas, pero la interpretacin puede ser tarnbin delicada. En
particular, en un ejernplo como el presentado, la proximidad entre dos revistas
es indicativa de la sirnilaridad de los respectivos perfiles fila (o colUmna), simila-
ridad que puede presentarse incluso cuando la relacin directa entre ellas (citas
emitidas o recibidas por una respecto a la otra) sea muy tenue. Esto puede o no
ser deseable, dependiendo de la finalidad del anlisis.
Con las limitaciones sealadas, la tcnica del anlisis de correspondencias

generalizado es una tcnica de gran utilidad, susceptible de desvelar interesante
informacin, como el ejemplo presentado pone de manifiesto.
^,r^F^^ i^,i^-^ C^^^ ^;:i â., E r^^ ^Ê ^ti^^^^^ r^,^ t:^r ^: ^;r^,e ^^^. i 11y
APENDICE A
TABLA 5
Nmero de citas de cada fila a cada column^ (K,^)
ADAP AMST ANNP ANNS ASJR BICS BIKA CSDA INSR JASA
adap 62 14 11 9 12
amst 96 10 9 43 22 69
annp 19 154 18 10 9
anns 5 27 333 10 17 122 8 162
asjr 8 52 35 43 5 20
bics 13 9 194 83 46
bika 79 17 58 214 6 65
csda 16 1Q 19 13 21
insr 17 36 8 36 66 20 76
jasa 18 8 134 24 76 117 1 12 329
japr 54 42 6 11
jman 7 25 44 26 5 10
jrsa 10 17 3 13
jrsb 39 14 14 45 39
jscs 8 22 17 15 43 3 32
jspi 60 7 21 34 7 40
psyk 12 10 26 1 31
stat 14 18 24 25 21
tech 6 20 11 22 48 37
th pa 6 46 . 15 7
csts 16 14 52 60
cstt 26 10 108 26 114 166 2 15 250
saria 12 33 14
sanb 15 15 32 38
stme 40 29 1 22
cjst 26 9 28 23
jeco 24 11 8 48 3 80
splt 15 40 8 34 44
bioj 5 6 7 66 45 1 51
scaj 6 36 11 35 11 19
sto p 14 51 14
jcla 6 6 1 22
oths 275 395 453 456 426 3.086 1.947 5 117 3.335
1 ti^l.) c `_^Tt.'^, ^1; ^^ . ^F^ -,`r.
JAPR JMAN JRSA JRSB JSCS JSPI PSYK STAT TECH THPA
adap 76 9 2 9 9
amst 16 12 9 3 22
annp 27 23 6 3 38
anns 13 12 4$ 2 3 25 22
asjr 31 4 4 11
bics 28 2 11
bika 6 7 87 2 4 9 28
csda 4 8
insr 5 24 50 3 3 36
jasa 8 27 80 5 3 15 56
japr 145 16 18
jman 7 38 11 20
jrsa 34 16 3
jrsb 9 6 89 17
jscs 27 29 18
jspi 5 48 35 37
psyk 9 160 6
stat 19 8 6 10 11
tech 37 3 141
thpa 7 14 187
csts 19 3 2 44
cstt 6 16 12 67 12 15 109
sana 6 10 10
sanb 9 5 17
stme 7 17 4
cjst 6 2
jeco 11 28 4 8
sp^t 9 13 9 7
bioj 6 21 2 9 21
sca j 9 10 6
stop 7 12
jcla 26 6 28 2
oths 347 164 481 1.192 59 49 1.303 80 931 384
REFERENCIAS
BENZECRI, J. P. (1976). L'Analyse des Donnes. I. La Taxinomie. L'Analyse des

Dones. II. L'Analyse des Correspondances. Dunod, Pars.
CaussiNUS, H. y FALGUEROLLES, A. Ê (1987) Tableaux Carrs. Modelisaton et

Methodes Factorieiles . Revue de Statistique ^4pptique, 33, 35-52.
CuAORAS, C. M. (1981). Mtodos de Anlisis Multivariante. Eunibar, Barcelona.

i ^^^`^^^^ E ^^. .^^ ^^^, i ,
DAUDIN, J. J. y TRECOURT, P. (1980). Analyse Factorielle des Correspondances et

Modele Log-Lineaire: Comparaison des Deux Methodes sur un Exemple.
Revue de Statistique Applique, 28, 5-24.
DAVISON, M. L. (1983). Multidimensional Scaling. Wi1ey, New. York.
EscoFIER, B. (1983). Analyse de la difference entre deux mesures sur le produit

de deux mesures dfinies sur le produit de deux mrnes ensembles. Cahiers
de I'Ana/yse des Donnes, 3, 325-329.
GARFIELD , E. (1985). Sci journal citatian reports.

GIFI, R. (1990). Nonlinear Multivariate Analysis . Wiley, Chichester, 1990.
GREENACRE, M. (1984). Theory and Applications of Correspondence Analysis.

Academic Press, New York, 1984.
VAN DER HEIJDEN, P. G. M. y DE LEEUW, J. (1985}. Correspondence Analysis used

complementary to Loglinear Analysis. Psychometrika, 50, 429-447.
, P. G. M. y DE LEEUw, J. (1988). Correspondence Analysis of

VAN DER HEIJDEN
Incomplete Contingency Tables. Psychometrika, 53, 223-233.
vAN DER HEIJDEN, P. G. M. y WORSLEY, K. J. (1988). Camment on Correspondence

Analysis used Complementary to Loglinear Analysis. Psychometrika, 53, 287-
291
HILL, M. O. (1974). Correspondence Analysis: A Neglected Multivariate Method.

Applied Statistics, 23, 340-354.
HILL, M. O. y GAUCH JR., H. G. (1980). Detrended Correspondence Analysis: An

Improved Ordination Technique. Vegetatio, 42, 47-58.
LEBART, L., MORINEAU, A. y WARWICH, K. (1984). Multivariate Descriptive Statistical

Analysis: Correspondence Analysis and related Techniques for large Matrices.
Wiley, New York.
SEBER, G. A. F. (1984). Multivariate Observations. Wiley, New York.
SPSS I nc. { 1985). S PSS Statistical Algorithms . Author, 1985.
SUMMARY
ANALYSIS OF CITES IN STATISTICAL JOURNALS
We analyze a two-way contingency table whose ij cell contains the

number of times that journal i cites journal j. The analysis shows an
interesting structure. Correspondence analysis in an ideal tool, becau-
^^_l^^^^^^^^;1 I^^. ; F ^ }n
se it takes into account the non-reflexive character of the citing

versus being cited relationship (i.e., the fact that cells ij and ji are in
general quite different}.
Key words: Correspondence analysis; bibliometrics.

AMS Classification: 62-07, 62H 17.

520 923 132 - 3 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

520 923 132 - 3 PDF

Transféré par

Droits d'auteur :

Formats disponibles

ESTADISTICA ESPAOLA

Vol. 35, Nm. 132, 1993, pgs. 105 a 122

Anlisis de Citas en Revistas de Estadstica

Se analiza una tabla de contingencia de doble entrada cuyas casi-

Palabras clave: Anlisis de correspondencias, bibliomtrica.

Clasificacin AMS: 62-07, 62H 17.

La profusin de trabajos impresos en todas las reas del saber es un fenmeno

someter su trabajo para su posible publicacin. Factores a tener en cuenta en

Las datos son nmero de citas en revistas de Estadstica (concepto este

Pueden ser descritos como una tabla tridimensional. En filas, tenemos I= 33

No habra ningn problema, en principio, en realizar un anlisis convencional

inmediato (independencia, cuasi-independencia, homogeneidad marginal de sub-

La lista de revistas consideradas se muestra en la Tabla 1. La Tabla K,^ se

Etiqueta Revista Etqueta Revista

adap* Advances in Applied Probability psyk* Psychometrika.

Por este motivo, hemos realizado un anlisis de correspondencias usando la

^a tcnica empleada, el Anlisis de Correspondencias, se origin por el trabajo

tipo de anlisis estrechamente relacionado es el que produce grficos denorni-

EI Anlisis de Correspondencias est particularmente indicado en la descrip-

3. ANALISIS DE LA MATRIZ DE DATOS BRUTA

Hemos hecho un anlisis de correspondencias convencional reteniendo tres

1 .3026 28,77 28,77

La interpretacin del segundo eje no es ni mucho menas tan clara, aunque

Etiqueta Eje 1 Eje 2 Eje 3 Etiqueta Eje 1 Eje 2 Eje 3

ADAP 1.32 1.15 -.21 annp 2.19 -.43 -.14

EI eje 3(vase la Figura 2) parece medir en cierto modo el nfasis relativa

A efectos comparativos, hemos hecho un anlisis mediante la tcnca de

Cada revista viene pues representada por un punto en R20. La distancia

EI programa utilizado (ALSCAL, en el paquete SPSS) busca una representa-

Tenemos ahora slo una etiqueta por revis#a. La representacin bidimensional

5. EL TRATAMIENTO DE L.A DIAGONAL PRINCIPAL

Es un hecho bien conocido que tanto el anlisis de correspondencias como el

En nuestro ejemplo, tal efecto no parece constituir un problema. EI tratamiento

---^ __i ---> --^

comunes, y u el de factores especficos, todos los cuales se suponen incorrela-

en que D= E[ '] es diagonal.

EI anlisis factorial propone factorizar una matriz de covarianzas (o correlacio-

especfica de las X la aportada por los factores especficos u para lograr

^a analoga con nuestro problema sugiere atenuar la diagonal principal de la

5.1. Modificaciones ad-hoc^3 de la diagonal principal

Como sealan de Leeuw-van der Heijden t 1988),

Ei Anlisis de Correspondencias ordinario no es apropiado para tablas cua-

.., reemplazan la diagonal principal con valores escogidos en virtud de algn

En nuestro caso, la primera opcin no parece indicada. La analoga con el

5.2. Anlisis de correspondencias generalizado

AI describir los datos se ha indicado que cabra pensar en un anlisis haciendo

Podemos, en cambio, utilizar un madelo logartmico-lneal para dar cuenta de

D^ ^^'2( K^^-E^^ ) D^ ^'2=U nV" [2l

C = D^ ''2 V n'^ [4J

Una descomposicin como (2} no tiene por qu limitarse a las desviaciones de

En particular, esta tcnica permite el anlisis de correspondencias de tablas

5.3. Anlisis de los residuos del modelo de cuasi-independencia

Se ha ajustado un modelo de cuasi-independencia a!a tabla K,^ excluyendo la

Los vaiores singulares no son cornparabtes en valor a los obtenidos en las

Dicha representacin puede verse en la Figura 4. Es de destacar que la primera

AI margen de esto, recurren las mismas pautas que observamos en la

Valores % traza % traza

1 850.83 51,47 51,47

0.1.5-i ^ ^1.^ <).

J^^^^i ^ j';^)1 ^ 1^18 xl^

0.0 -^ o csda o jcla

_-- _B_ I^hs ^PSYK

Hay otros instrumentos estadsticos que podran concebiblemente utiiizarse en