Académique Documents
Professionnel Documents
Culture Documents
(Traducción provisional) 1
2 Algunos métodos de clasificación
Introducción
1
Una de las primeras síntesis históricas sobre el tema es la de Cormack (1971). Una síntesis de trabajos más
recientes fue realizada por Gordon (1987). Cf. igualmente los manuales generales de Chandon y Pinson
(1981), Jambu et Lebeaux (1978), Murtagh (1985), Roux (1985), Kaufman y Rousseeuw (1990).
puede desear, por el contrario, utilizar las particiones obtenidas como herramientas o
cálculos intermedios que permiten una explotación de los datos1.
En lo esencial las técnicas de clasificación apelan a un procedimiento algorítmico y no a los
cálculos formalizados usuales. Mientras que los valores de los componentes de ejes
factoriales, por ejemplo, son la solución de una ecuación que se puede escribir bajo una
forma muy condensada (así la resolución sea compleja), la definición de las clases solo se
hará a partir de una formulación algorítmica: una serie de operaciones definidas de una
manera recursiva y repetitiva. De ello resulta que la ejecución de la mayoría de las técnicas
de clasificación solamente necesita de nociones matemáticas elementales.
Existen varias familias de algoritmos de clasificación: algoritmos que conducen directamente
a las particiones como los métodos de agregación alrededor de centro móviles; los
algorítmos ascendentes (o también aglomerativos) que proceden a la construcción de las
clases por aglomeraciones sucesivas de objetos dos a dos y que forman una jerarquía de
particiones de los objetos; los algoritmos descendentes (o también divisivos) que proceden
por dicotomias sucesivas del conjunto de objetos y que pueden producir también una
jerarquía de particiones. Se limitará aquí a las dos primeras técnicas de clasificación:
− los agrupamientos pueden hacerse por búsqueda directa de una partición. asignando los
elementos a centros provisionales de clases, luego recentrando esas clases, y haciendo
asignaciones iterativas de esos elementos. Se trata de técnicas de agregación alrededor
de centros móviles, emparentados con el método de “las nubes dinámicas”, o al método
“k-means”, que son particularmente interesantes en el caso de grandes tablas (sec. 2.1).
− los agrupamientos se pueden hacer mediante aglomeración progresiva de los elementos
dos a dos. Este es el caso de la clasificación ascendente jerárquica que se presenta aquí
siguiendo varios criterios de agregación. Veremos de una parte la técnica “de salto
mínimo” equivalente, desde un cierto punto de vista, a la búsqueda del árbol de longitud
mínima, y de otra parte la técnica de agregación “según la varianza”, interesante por la
compatibilidad de sus resultados con ciertos análisis factoriales (sección 2.2).
Estas técnicas presentan ventajas diferentes y pueden utilizarse conjuntamente . Es así
posible establecer una estrategia de clasificación basada en un algoritmo mixto,
particularmente adaptado al particionamiento de conjuntos de datos formados por millares
de individuos a clasificar (sección 2.3).
Una de las ventajas de los métodos de clasificación es la de dar lugar a elementos (las clases)
más fáciles de describir automáticamente que los ejes factoriales. Las herramientas de
descripción serán abordadas en la sección 2.3. Enfin, la práctica muestra que el usuario esta
interesado en utilizar de manera conjunta los métodos factoriales y los métodos de
clasificación. Los aspectos teóricos y prácticos de la complementariedad entre estas dos
familias de métodos exploratorios serán abordados en la sección 2.4.
1
Esta última aproximación generaliza en cierta manera la construcción de los histogramas de la estadística
unidimensional: en vista de un estudio más libre, las observaciones se reagrupan por paquetes homogéneos,
asi la construcción de esos paquetes impliquen una repartición un por arbitraria de un conjunto continua.
{C 0
1 ,..., Ck0 ,..., Cq0 }
inducen una primer partición P0 del conjunto I de individuos en q clases:
{I 0
1 ,..., I k0 ,... , I q0 }
Asi el individuo i pertenece a la clase I0k si esta más próximo a C0k que de todos los
otros centros1.
1
Las clases están entonces delimitadas en el espacio por los tabiques poliedrales convexos formados por los
planos mediadores de los segmentos que unen todas las parejas de centros.
C10
Extracción aleatoria de
C20 los centros C10 y C20
I10
Constitución de las clases
I10 e I20
Figura 2.1 - 1
Etapas del algoritmo
{C ,..., C
1
1
1
k ,... , Cq1 }
tomando los centros de gravedad de las clases que se acaban de obtener:
{I 0
1 ,..., I k0 ,..., I q0 }
estos centros inducen una nueva partición P1 de I construida según misma regla
utilizada para P0. La partición P1 esta formada de las clases notadas:
{I 1
1 ,..., I k1 ,..., I q1 }
Etapa m: Se determinan q nuevos centros de clases:
{C m
1 ,..., Ckm ,..., Cqm }
tomando los centros de gravedad de las clases que se obtuvieron en la etapa
precedente,
{I m −1
1 ,..., I km−1 ,..., I qm−1 }
Estos nuevos centros inducen una nueva partición Pm del conjunto I formada por
las clases:
{I m
1 ,..., I km ,..., I qm }
Los procesos se estabilizan necesariamente (ver parágrafo siguiente) y el algoritmo se
detiene ya sea porque dos iteraciones sucesivas conducen a la misma partición o porque un
criterio convenientemente seleccionado (por ejemplo la medida de la varianza intraclases)
deja de decrecer de manera sensible, o también porque un número de iteraciones fijado a
priori se ha alcanzado.
Generalmente la partición obtenida finalmente depende de la selección inicial de los centros.
1
Estas reglas son las convenciones de programación propias de cada variante o especificación del algoritmo.
2
Es claro que no es ls convergencia, sino la velocidad de convergencia lo que justifica en la práctica la
utilización del método.
( )
q
v( m) = V ( m) + ∑ p k d 2 C km+1 , Ckm
k =1
1
Para obtener informaciones más detalladas sobre las técnicas de agregación alrededor de centros móviles,
se podrán consultar las obras de Benzécri (1973) y Anderberg (1973).
1
Otros métodos difieren por la selección inicial de los centros (individuos equidistantes por Thorndike
(1953), por la intriducción de umbrales o de protecciones destinados a modificar eventualmente el número
de clases. Así la técnica propuesta bajo el nombre Isodata por Ball y Hall (1965) pone en juego varios
parámetros destinados a pilotear la elaboración de la partición.
Primera partición
113 38 35 40
Segunda 30 5 25 0
partición 43 30 8 5
40 3 2 35
Partición producto
Figura 2.1 - 2
Agrupamientos estables en la partición producto
2
En el caso de los individuos que son descritos solamente por un parámetro, el cálculo de una partición
optima es posible si existe una relación de orden entre los individuos, lo que limita considerablemente las
eventuales particiones a examinar (cf. W.D. Fisher, 1958).
Tabla 2.1 - 1
Tres particiones de base en 6 clases
1 2 3 4 5 6
Partición 1 127 188 229 245 151 60
Partición 2 232 182 213 149 114 110
Partición 3 44 198 325 99 130 204
Estas 3 particiones son, en la etapa siguiente, cruzadas entre ellas y se obtienen 36 = 216
clases. Los individuos de cada una de estas 216 clases son aquellos que siempre se han
agrupado juntos en las tres particiones de base. Ellos constituyen los agrupamientos estables.
De hecho solamente 50 grupos no son vacíos y solamente 10 tienen más de 15 individuos.
La distribución de estos individuos está dada en la tabla 2.1 - 2.
Tabla 2.1 - 2
Agrupamientos estables ordenados por frecuencia decreciente
Grupos 1 a 10 168 118 114 107 88 83 78 26 22 16
Grupos 11 a 20 15 14 12 12 12 11 10 7 7 7
Grupos 21 a 30 6 6 4 4 4 4 3 3 3 3
Grupos 31 a 40 3 3 3 2 2 2 2 2 2 2
Grupos 41 a 50 1 1 1 1 1 1 1 1 1 1
Nota:
• La búsqueda de los grupos estables constituye una exploración de las zonas de densidad fuerte en el
espacio, pero no dan una partición utilizable en la práctica, ya que el número de clases en general muy
elevado, y correlativamente la frecuencia de ciertas clases son muy bajas (c.f los 50 agrupamientos de la
tabla 2.1 -2). De manera práctica, se pueden utilizar los primeros agrupamientos estables para definir una
partición de la forma siguiente: el número de clases podrá ser sugerida por el número de agrupamientos
de frecuencia notable: asi, los 7 primeros agrupamientos de la tabla 2.1 - 2 tienen frecuencias
importantes (hay una desviación importante entre 78 y 26). Las clases se obtendrán por reafectación de
los individuos restantes a los grupos retenidos más próximos (asignación de los individuos de los grupos
8 a 50 alrededor de los centros de los 7 primeros agrupamientos para nuestro ejemplo). Pero veremos que
los métodos mixtos de la sección 2.3 permiten perfeccionar esta aproximación.
Clasificación jerárquica
más formalizadas y más antiguas pueden ser aquellas de Sokal y Sneath (1963), lego la de
Lance y Williams (1967). Para una revisión sintética cf. Gorndon (1987).
2.2.1 Principio
El principio del algoritmo consiste en crear, en cada etapa, una partición obtenida mediante
agregación dos a dos de los elementos más próximos. Se tomará como elemento tanto los
individuos u objetos a clasificar como los agrupamientos de individuos generados por el
algoritmo. Hay diferentes maneras de considerar la nueva pareja de elementos agregados,
dando un número importante de variantes de esta técnica.
El algoritmo no produce una partición en q clases de un conjunto de n objetos sino que
produce una jerarquía de particiones, se presentan bajo la forma de árboles llamados
también dendrogramas y contienen n-1 particiones. El interés de estos árboles es que ellos
pueden dar una idea del número de clases existentes efectivamente en la población.
· · · ·
· · · · ·
· · · · · ·
· ·
· · ·
Figura 2.2 - 1
Dendrograma o árbol jerárquico
Cada corte de un árbol produce una partición, con menos clases y estas menos homogéneas
a medida que el corte es más alto.
1
Algunas veces se exigirá solamente de una medida de disimilaridad, en cuyo caso la desigualdad triangular
d(x,y)≤ d(x,z) + d(y,z) no se exige.
deben ser accesibles rápidamente. Se construye entonces una primera matriz de distancias
entre todos los individuos.
Una vez constituido un grupo de individuos, conviene preguntarse entonces sobre que base
se puede calcular una distancia entre un individuo y un grupo y luego una distancia entre dos
grupos. Esto es definir una estrategia de agrupamiento de los elementos , es decir fijar las
reglas de cálculo de las distancias entre agrupamientos disyuntos de individuos, llamadas
criterios de agregación. Esta distancia entre agrupamientos se podrá en general calcular
directamente a partir de las distancias de los diferentes elementos implicados en el
agrupamiento.
Por ejemplo, si x, y, z son tres objetos y si los objetos x e y se agrupan en un solo elemento
notado h, se puede definir la distancia de este grupo a z por la distancia más pequeña entre
los diversos elementos de h a z:
d ( h, z) = Min{ d ( x , z) , d ( y , z)}
Esta distancia se llama de salto mínimo (single linkage) (Sneath, 1957; Johnson, 1967) y
constituye un criterio de agregación.
Se puede igualmente definir la distancia del salto máximo (o diámetro) tomando la distancia
más grande de los diversos elementos de h a z:
d ( h, z) = Max{ d ( x , z ), d ( y, z)}
Otra regla simple y empleada frecuentemente es la de la distancia media; para dos objetos x
e y reagrupados en h:
d ( x, z) + d ( y, z)
d ( h, z ) =
2
Más generalmente, si x e y designan dos subconjuntos disyuntos del conjunto de los objetos,
con nx y ny elementos respectivamente, h es entonces un subconjunto de nx + ny elementos y
se define:
n x d ( x , z ) + n y d ( y , z)
d ( h, z ) =
nx + n y
b - Algoritmo de clasificación
El algoritmo fundamental de clasificación ascendente jerárquica se desarrolla de la manera
siguiente:
Etapa1: hay n elementos a clasificar (que son los n individuos);
Etapa2: se construye la matriz de distancias entre los n elementos y se buscan los dos más
próximos, los que se agregan en un nuevo elemento. Se obtiene una primera
partición con n-1 clases;
Etapa3: se construye una nueva matriz de distancias que resulta de la agregación, calculando
las distancias entre el nuevo elemento y los elementos restantes (las otras distancias
1
· 2· ·1 2· ·1 2·
3 3 3
· 5· · 5· · 5·
4 4 4
· · ·
Etapa 1 Etapa 2 Etapa 3
1 1
· 2· · 2·
3 3
· 5· · 5·
4 4
· ·
Etapa 4 Etapa 5
Figura 2.2 - 2
Aglomeración progresiva de 5 puntos
c - Elementos de vocabulario
Algunas anotaciones nos permitirán introducir las nociones y la terminología habitualmente
utilizada en clasificación ascendente jerárquica. el funcionamiento del algoritmo nos muestra
que las distancias (con las reglas de cálculo) solamente intervienen mediante las
desigualdades que existen entre ellas. El mismo árbol (con una dilatación en las ordenadas)
se obtendrá a partir de una simple clasificación de parejas de objetos en orden de distancias
crecientes. Tal clasificación se llama una ordenación (una preordenación si hay distancias
iguales). En ese caso se trazará el árbol convenientemente con los niveles equidistantes.
La familia H de partes del conjunto I de los objetos construida a partir de algoritmos
ascendentes forma lo que se llama una jerarquía. Esta familia tiene la propiedad de contener
tanto al conjunto completo (I ∈ H) como a cada uno de los objetos tomados aisladamente (i
∈ I ⇒ {i} ∈ H). Las otras parejas de partes h, h’ de H o son disyuntas (h∩h’=∅), o esta
incluida una en la otra (h⊂h’). En efecto como consecuencia del funcionamiento del
algoritmo , cada vez que una clase se forma a partir de los elementos disyuntos, ella misma
es considerada como un nuevo elemento, por lo tanto estrictamente incluida en una clase
posterior (cf. figura 2.2 - 2).
Los objetos o individuos (1, 2, 3, 4, 5) son los elementos terminales del árbol (o de la
jerarquía). Las clases 6, 7, 8, 9 son los nodos del árbol: estás son las clases formadas por
agrupamientos de dos elementos (terminales o no) numeradas luego de los elementos
terminales y por lo tanto cada una determina una nueva partición. Se llaman arbitrariamente
primogénito y benjamín a los dos elementos agrupados que constituyen un nodo (figura 2.3
- 3).
·
(8)
8 3 4 6
(7)
(6) · 7 2 5 2
· 6 2 3 4
·
(1)
·
(3)
·
(4)
·
(2)
·
(5)
elementos terminales
Figura 2.2 - 3
Arbol jerárquico y elementos de vocabulario
Tabla 2.2 - 1
Matriz de distancias
(1) (2) (3) (4) (5)
(1) 0 9 1 4 9
(2) 9 0 9 9 2
(3) 1 9 0 4 9
(4) 4 9 4 0 9
(5) 9 2 9 9 0
· z
t
x· · y
Figura 2.2 - 4
Agregación de x e y en un nuevo elemento t
Es en efecto fácil mostrar que si una distancia es ultramétrica, todos los triángulos son
isóceles.
Se tienen las desigualdades:
c - Ultramétrica subdominante
El paso de una métrica a una ultramétrica (o de forma equivalente a una jerarquía) se efectua
por disminución de los valores de ciertas distancias. Se puede plantear la siguiente pregunta:
hay una ultramétrica más próxima (en un sentido a precisar) de la métrica?.
Se puede dar el siguiente elemento de respuesta. Se dirá que una métrica d1 es inferior1 a una
métrica d2 si, para todo x y para todo y:
d1(x,y) ≤ d2(x,y)
La ultramétrica más grande inferior a una métrica d, en el sentido precedente, se llama
ultramétrica inferior máximal o subdominante. Es ella la que se obtiene mediante el
algoritmo de salto mínimo.
Para demostrarlo se seguiran los siguientes pasos:
1. definir, a partir de una distancia d, una nueva distancia llamada del salto máximo más
pequeño;
2. mostrar que esta distancia es una ultramétrica;
3. mostrar que esta ultramétrica es la subdominante;
4. mostrar que esta distancia corresponde a la ultramétrica dada por el algoritmo de
salto mínimo.
1
Esta definición permite dotar al conjunto de métricas definidas sobre un conjunto E de una relación de
orden parcial.
1
El nombre de grafo completo es debido que toda pareja de vertices está unida por una arista
z
·
x·
·y
Figura 2.2 - 5
Camino de x a y conteniendo a z
3. La distancia d* es la subdominante:
Para mostrar que d* es la subdomiante, se mostrará que d* es inferior a d, y que d* es
superior a toda ultramétrica inferior a d.
En primer lugar, es claro que la arista (x,y) es un camino particular que lleva de x a y,
entonces d*(x,y) ≤ d(x,y) y d* es inferior a d.
Sea ahora d1 una ultramétrica inferior a d. Se tiene evidentemente para toda tripleta x1, x2
, x3 :
d1(x1,x3) ≤ Max{d1(x1,x2), d1(x2,x3)}
Aplicando de manera sucesiva esta desigualdad a un camino:
(x1,x2), (x2,x3),…, (xp-1,xp)
se obtiene:
( ) { (
d 1 x1 , x p ≤ Max d 1 x j , x j +1
j< p
)}
puesto que d1 ≤ d, se tiene:
( ) {(
d 1 x 1 , x p ≤ Max d x j , x j +1
j< p
)}
Esta desigualdad es válida para todo camino que une a x1 y a xp. Para al menos una de entre
ellos , se tiene por definición de d*:
{(
Max d x j , x j +1
j< p
)} = d * ( x j , x j +1 )
Esta última relación establece la desigualdad anunciada.
1
Los objetos a clasificar son entonces los nodos del grafo (no orientado); las líneas continuas que une los
pares de puntos so las aristas; y los índices, las valuaciones de estas aristas.
2
No se confundirá este árbol , entendido en el sentido de la teoría de grafos, y donde los vértices son los
objetos a clasificar, con el árbol de las partes de un conjunto (dendrograma) producido por las técnicas de
clasificación jerárquica, donde los vértices son las partes (a excepción de los elementos terminales que son
los elementos a clasificar).
plana. Un árbol es un grafo conexo (existe un camino que uniendo toda pareja de vértices)
sin ciclos (un ciclo es un camino partiendo y llegando a un mismo punto sin utilizar dos
veces la misma arista). Se puede definir de manera equivalente un árbol con n vértices ya sea
como un grafo sin ciclo con n-1 aristas o como un grafo conexo con n-1 aristas3. La
longitud de un árbol será la suma de las “longitudes” (valores del índice) de sus aristas.
Entre todos los grafos parciales que son árboles , el árbol de longitud minimal ha retenido
después de mucho tiempo la atención de los estadísticos en razón a sus buenas cualidades
descriptivas que no son extrañas por su parecido con las clasificaciones jerárquicas. Si se
desea por ejemplo descubrir rápidamente sin computador, los rasgos de la estructura de una
matriz de correlaciones relativa a una treintena de variables , es probablemente la manera
más comoda de proceder a ejecutarlo. Vamos a presentar primero los algoritmos de
búsqueda del árbol de longitud minimal, luego mostraremos las equivalencias con la
clasificación según el salto mínimo. Supondremos que todas las aristas del grafo tienen
longitudes diferentes (valores del índice o de la distancia) porque en estas condiciones el
árbol buscado es único y esto simplifica la exposición de los algoritmos.
3
Se encontrará la demostración de estas propiedades en los manuales clásicos como el de Berge (1963,
1973).
· · ·
·
· ·
u
· ·
· vk
·
· ·
·
·
·
Figura 2.2 - 6
Representación del árbol U
(9)
(8)
(6)
(7)
·
(1)
· ·
(3) (5)
· ·
(4) (2)
Figura 2.2 - 7
Representación simultánea de la jerarquía y del árbol de longitud minimal
· · · · ·· · ·
· · · · ·
· ·
·
· · · ·· ·
· · · · · · · · · ·
· · ·· · · · · · · ·· · · · · ·
· · · ·
·
(A) (B) (C)
Figura 2.2 - 8
“Efectos de cadena”
Asi para la nube de puntos representada por la figura 2.2 - 8 los grupos A y B no seran
fácilmente disernibles en el árbol jerárquico; además algunos de los vértices que los unen
serán agregados a los niveles más bajos.
Hay otros criterios de agregación que dan eventualmente resultados más fiables, por ejemplo
la distancia media (cf. igualmente Wishart, 1969).
Las técnicas de agregación según la varianza buscan optimizar, en cada etapa, según
criterios ligados a cálculos de inercia, la partición obtenida por agregación de dos elementos.
Esta técnica es especialmente cómoda para ejecutar cuando la agregación se efectúa después
de un análisis factorial, los objetos a clasificar están identificados por sus coordenadas sobre
los primeros ejes factoriales.
a - Notaciones y principio
Consideramos aquí los n objetos a clasificar como una nube de puntos (la nube de los
individuos) de un espacio con p dimensiones (espacio de las variables).
Cada punto xi (vector de p componentes esta dotado de una masa mi. Se nota m a la masa
total de la nube:
n
m = ∑ mi
i
I = ∑ mq g q − g + ∑ ∑ mi x i − g q
2 2
q q i ∈q [2.2 - 1]
g g
gq
xi xi
La calidad global de una partición está ligada a la homogeneidad al interior de las clases (y
por lo tanto a separación entre las clases). Como I es una cantidad constante, se requiere en
consecuencia minimizar la cantidad relativa a la inercia entra-clases:
I int ra = ∑ ∑ mi x i − g q
2
q i ∈q
I int er = ∑ mq g q − g
2
En la etapa inicial, la inercia intra-clases es nula y la inercia inter-clases es igual a la inercia total
de la nube puesto que cada elemento terminal constituye a su nivel una clase. En la etapa final, es
la inercia inter-clases la que es nula y la inercia intra-clases es equivalente a la inercia total puesto
que a ese nivel se dispone de una partición en una sola clase (cf. la etapa 5 de la figura 2.2 - 2).
En consecuencia, a medida que se efectuan los reagrupamientos, la inercia intra-clases aumenta
y la inercia iter-clases disminuye.
El principio del algoritmo de agregación según la varianza consiste en buscar en cada etapa una
partición tal que la varianza interna de cada clase sea minimal y por consecuencia la varianza
entre clases sea maximal.
y vale entonces:
2 2
∆ I ii' = m i x i − x + mi' x i' − x
n n
∑ ∆ s = ∑ I inter ( Ps ) - I inter ( Ps - 1 ) = I [2.2 - 2]
s= 2 s= 2
Si se trabaja sobre las coordenadas de los puntos, se efectuarán los cálculos de los centros
de gravedad (x por xi y xi’ ). Por el contrario si se trabaja con las distancias, es más comodo
poder calcular las nuevas distancias a partir de las anteriores (como en el caso de las técnicas
precedentes). El cuadrado de las distancias entre un punto cualquiera z y el centro de clase x
se escribe, en función de las distancias a xi y xi’:
1 m i m i'
d 2 (x , z) = m d 2 ( x i , z ) + mi 'd 2( x i' , z ) − d 2 ( x i , x i ' )
mi + mi' i m i + mi'
1
Por esta transformación de la matriz de distancias, los puntos más ligeros serán los que se agregan más
fácilmente.
· z
x i'
(m i')
·
x ·
(m)
·
x i (m )
i
Figura 2.2 - 11
Teorema de la mediana
1
Existen variantes de este método que dan origen a fórmulas ligeramente diferentes. Se puede por ejemplo
buscar las clases que tienen una inercia interna minimal; se puede también utilizar el criterio de la varianza
interna minimal, designado como varianza a la inercia dividida por la masa. Se encuentran precisiones sobre
estas técnicas en Bénzecri (1973).
a - Algoritmo
El principio de los vecinos recíprocos se puede enunciar de la siguiente manera: si xi es el
vecino más próximo de xi’ (xi → xi’) y si xi’ es el vecino más próximo de xi (xi’ → xi)
entonces xi y xi’ son vecinos recíprocos (xi ↔ xi’).
Etapa 1: se parte de un objeto cualquiera x1 y se busca su vecino más próximo, notado x2
luego el vecino más próximo de x2, notado x3, etc. Se crea así una cadena de
elementos sucesivos: xi → x2 → x3 →… → xi-2 → xi-1 → xi → …. Una cadena asi
se para necesariamente cuando dos elementos sucesivos son vecinos recírpocos:
→ xi →…→ xk-1 ↔ xk . La cadena se parará así sobre el elemento xk si xk-1 es
también el vecino más próximo de xk . xk-1 y xk son vecinos recíprocos y se
agregan para formar un nodo.
Etapa 2: si k=2 entonces la cadena comienza con un elemento que posee un vecino
recíproco: x1 ↔ x2 . Seleccionamos un nuevo elemento a partir del cual se
construye una cadena que se para sobre dos nuevos vecinos recíprocos
agregándose para conformar un nodo.
Etapa 3: si k>2, se continúa la búsqueda de los vecinos recíprocos por extensión de la
cadena comenzando en el elemento xk-2 . El algoritmo se termina cuando se han
creado n-1 nodos.
b - Criterio de la mediana
Para poder utilizar este algoritmo , la cadena se debe poder prolongar más allá de xk-2
cuando los vecinos recíprocos xk-1 y xk se han agregado. Es indispensable que esta
agregación no destruya la relación de vecindad la más próxima que existiera antes entre xi-1 y
xi con i=2,3,…,k-2. Esta propiedad se asegura si el criterio de agregación utilizado para
construir el árbol no crea una inversión.
No hay inversión si el nodo n, creado por agregación de a y b, no puede estar más cerca de
cualquier otro elemento c de lo que están el elemento a o el elemento b. Esta condición1
llamada de “la mediana” se escribe:
1
El criterio de la mediana asegura que siempre quedarán vecinos recíprocos.
1
Esta condición fue presentada por Bruynooghe (1978) bajo el nombre de axioma de reductibilidad. Ella
permite en efecto la ejecución de otro algoritmo, llamado de los vecinos reductibles, que permite acelerar el
algoritmo de base de la clasificación jerárquica mediante la utilización de umbrales de distancias.
2
Se designará aquí a la vez por a (o b) a un elemento o a un nodo en una cierta etapa de la agregación, y al
conjunto de elementos que constituyen ese nodo.
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
9 6 7 2 1927 .00024 *
10 9 5 3 3783 .00038 **
11 2 1 2 789 .00064 ****
12 10 4 4 5041 .00208 *********
13 8 11 3 6651 .00276 **************
14 12 13 7 11692 .00493 ***********************
15 3 14 8 12388 .01125 *********************************************
Se lee así sobre la primera fila que el nodo nº9 está formado de los elementos terminales 6 y
7, está formado entonces de dos elementos (columna: EFF) cuyos peso total (columna
PESOS) es de 1927. El valor del índice de agregación correspondiente es de 0.00024. Los
valores crecientes del índice se ilustran mediante un boceto de histograma a la derecha de las
columnas numéricas1. Se verifica que la suma de los índices es igual a la suma de los valores
propios resultantes del análisis de correspondencias de la misma tabla (tabla 1.3 - 11 de §
1.3.8).
El dendrograma de la figura 2.2 - 13 da en efecto la misma información, presentada de
manera más sugestiva , ya que la composición de los nodos a partir de los elementos
terminales es ahora legible. Se nota la gran homogeneidad de los obreros (no calificados y
calificados) y empleados (el índice más bajo), los agricultores, pequeños empresarios e
inactivos constituyen un segundo grupo menos homogéneo, mientras que los profesiones
intermedias ocupan una posición mediana. Finalmente los ejecutivos y profesionales liberales
solo se unen a las otras categorías mucho más tarde.
1
Como lo indica la figura 2.2 - 3, estos histogramas pueden dar una idea de número de clases de una buena
partición, que corresponde a un salto importante del índice.
Dendrograma
(filas activas de la tabla de contingencia 1.3 - 10, sección 1.3)
Retomaremos luego los agrupamientos visibles sobre la figura 1.3 - 23 (sección 1.3.8)1.
Notamos aquí que el índice mayor corresponde al primer factor del análisis de la sección
1.3.8 (oposición de los ejecutivos y el conjunto de las demás categorías), y que el segundo
índice más grande corresponde al segundo factor (oposición entre los dos grupos
obreros/empleados y agricultores/pequeños empresarios). Esta correspondencia entre nodos
y factores no es general pero si frecuente2.
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
1
La complementariedad entre las dos metodologías será desarrollada en la sección 2.4.
2
Se nota igualmente que los dos índices más grandes (0.0112, 0.0049) son aquí inferiores a los dos valores
propios mayores (0.0139, 0.0072). La sección 2.4 precisará algunas relaciones y desigualdades entre estos
valores.
1
Al contrario de la agregación según el salto minimal, el criterio de Ward generalizado no provoca
fácilmente los efectos de cadena.
Figura 2.2 - 15
Dendrograma
(columnas de la tabla de contingencia 1.3 - 10, sección 1.3)
Notemos que si la clasificación aporta (en el caso de una tabla de tamaño real) ciertas
informaciones suplementarias con respecto al análisis de correspondencias (las distancias se
calculan aquí en todo el espacio), la ausencia de la interpretación simultánea de las filas y de
las columnas limita por consiguiente las posibilidades de interpretación.