Lebart Clas 1

Lebart et.al. Statisquique exploratoire multimensionnnelle.
(Traducción provisional) 1
2 Algunos métodos de clasificación
Introducción
Las técnicas de clasificación automática están destinadas a producir agrupamientos de filas o

de columnas de una tabla. La mayoría de las veces se trata de objetos o de individuos
descritos por un cierto número de variables o caracteres. La clasificación es una rama del
análisis de datos que ha originado numerosas y diversificadas publicaciones. Las obras
especializadas (particularmente, en lengua francesa, el tomo I del tratado de análisis de datos
de Benzécri, 1973) contienen en general importantes consideraciones históricas y rigurosos
desarrollos formales sobre la noción de clasificación. La obra de base, histórica, es la de
Sokal y Sneath (1963). Los primeros manuales publicados fueron los de Lerman (1970),
Anderberg (1973), Benzécri (1973), Hartigan (1975), Lerman (1981) y Gordon (1981) a los
que no podemos más que enviar al lector para los principios fundamentales1. Aquí nos
limitaremos a los principios de base de los métodos más utilizados.
Las circunstancias de utilización son sensiblemente las mismas que las de los métodos
factoriales descriptivos presentados en el capítulo 1: el usuario se encuentra frente a una
tabla rectangular de valores numéricos. Esa tabla puede ser una tabla de valores numéricos
continuos (valor de la variable j para el individuo i, en la intersección de la fila i con la
columna j de la tabla), una tabla de contingencia (cruzando dos particiones de una misma
población), o una tabla de presencia ausencia (valores 0 o 1 indicando si el individuo u
objeto posee tal característica o atributo). En ciertas aplicaciones el usuario puede disponer
de una tabla cuadrada simétrica de similaridades o distancias.
El recurso de las técnicas de clasificación automática esta subtendida por algunas ideas
generales de los campos de observación. Se supone que deben existir ciertos agrupamientos
o por el contrario se exige que se efectúen ciertos agrupamientos. Dicho de otro modo , no
se esta satisfecho con una visualización plana y continua de las asociaciones estadísticas y se
manifiesta implícitamente o explícitamente un interés por la puesta en evidencia de clases de
individuos o de caracteres Las representaciones sintéticas se manifiestan ya sea bajo la forma
de particiones de los conjuntos estudiados (líneas o columnas de la tabla analizada ) o bajo
la forma de jerarquía de particiones que definiremos de manera más precisa posteriormente.
Alguna veces se tratará de árboles en el sentido de la teoría de grafos, árboles donde los
vértices son los objetos a clasificar. En fin se podrán buscar las clases montadas o
simplemente de poner en evidencia las zonas de fuerte densidad, dejando numerosos
individuos o caracteres sin clasificar.
A una misma familia de resultados corresponden, a veces, desarrollos e interpretaciones
diferentes. Se puede tratar de descubrir una partición que tiene una existencia real (esta
existencia se conjetura antes del análisis estadístico o se revela luego de los cálculos) o se
1
Una de las primeras síntesis históricas sobre el tema es la de Cormack (1971). Una síntesis de trabajos más
recientes fue realizada por Gordon (1987). Cf. igualmente los manuales generales de Chandon y Pinson
(1981), Jambu et Lebeaux (1978), Murtagh (1985), Roux (1985), Kaufman y Rousseeuw (1990).
Campo Elías Pardo. Universidad Nacional de Colombia

Lebart et.al. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 2
puede desear, por el contrario, utilizar las particiones obtenidas como herramientas o
cálculos intermedios que permiten una explotación de los datos1.
En lo esencial las técnicas de clasificación apelan a un procedimiento algorítmico y no a los
cálculos formalizados usuales. Mientras que los valores de los componentes de ejes
factoriales, por ejemplo, son la solución de una ecuación que se puede escribir bajo una
forma muy condensada (así la resolución sea compleja), la definición de las clases solo se
hará a partir de una formulación algorítmica: una serie de operaciones definidas de una
manera recursiva y repetitiva. De ello resulta que la ejecución de la mayoría de las técnicas
de clasificación solamente necesita de nociones matemáticas elementales.
Existen varias familias de algoritmos de clasificación: algoritmos que conducen directamente
a las particiones como los métodos de agregación alrededor de centro móviles; los
algorítmos ascendentes (o también aglomerativos) que proceden a la construcción de las
clases por aglomeraciones sucesivas de objetos dos a dos y que forman una jerarquía de
particiones de los objetos; los algoritmos descendentes (o también divisivos) que proceden
por dicotomias sucesivas del conjunto de objetos y que pueden producir también una
jerarquía de particiones. Se limitará aquí a las dos primeras técnicas de clasificación:
− los agrupamientos pueden hacerse por búsqueda directa de una partición. asignando los
elementos a centros provisionales de clases, luego recentrando esas clases, y haciendo
asignaciones iterativas de esos elementos. Se trata de técnicas de agregación alrededor
de centros móviles, emparentados con el método de “las nubes dinámicas”, o al método
“k-means”, que son particularmente interesantes en el caso de grandes tablas (sec. 2.1).
− los agrupamientos se pueden hacer mediante aglomeración progresiva de los elementos
dos a dos. Este es el caso de la clasificación ascendente jerárquica que se presenta aquí
siguiendo varios criterios de agregación. Veremos de una parte la técnica “de salto
mínimo” equivalente, desde un cierto punto de vista, a la búsqueda del árbol de longitud
mínima, y de otra parte la técnica de agregación “según la varianza”, interesante por la
compatibilidad de sus resultados con ciertos análisis factoriales (sección 2.2).
Estas técnicas presentan ventajas diferentes y pueden utilizarse conjuntamente . Es así
posible establecer una estrategia de clasificación basada en un algoritmo mixto,
particularmente adaptado al particionamiento de conjuntos de datos formados por millares
de individuos a clasificar (sección 2.3).
Una de las ventajas de los métodos de clasificación es la de dar lugar a elementos (las clases)
más fáciles de describir automáticamente que los ejes factoriales. Las herramientas de
descripción serán abordadas en la sección 2.3. Enfin, la práctica muestra que el usuario esta
interesado en utilizar de manera conjunta los métodos factoriales y los métodos de
clasificación. Los aspectos teóricos y prácticos de la complementariedad entre estas dos
familias de métodos exploratorios serán abordados en la sección 2.4.
1
Esta última aproximación generaliza en cierta manera la construcción de los histogramas de la estadística
unidimensional: en vista de un estudio más libre, las observaciones se reagrupan por paquetes homogéneos,
asi la construcción de esos paquetes impliquen una repartición un por arbitraria de un conjunto continua.

Agregación alrededor de centros móviles
El método de clasificación alrededor de centros móviles es probablemente la técnica de

particionamiento más adaptada a las vastas colecciones de datos, así como la más utilizada
para esta tipo de aplicaciones, a pesar de que solo se puede recurrir a un formalismo
limitado y aunque su eficacia solo se puede verificar en una gran medida mediante
resultados experimentales. Al producir particiones de los conjuntos estudiados, ella se utiliza
tanto como técnica de descripción y de análisis como técnica de reducción, generalmente en
asociación con los métodos factoriales y con otros métodos de clasificación.
El algoritmo se puede imputar principalmente a Forgy (1965), aunque se han hecho
numerosos trabajos anteriores (Trorndike, 1953) y posteriores (MacQueen, 1967; Ball y
Hall, 1967) paralela e independientemente para introducir variantes y gneralizaciones. Este
método se puede considerar como un caso particular de las técnicas conocidas bajo el
nombre de nubes dinámicas estudiadas en un cuadro formal por Diday (1971).
Esta técnica es particularmente interesante para grandes archivos numéricos donde los datos
se tratan en lectura directa: la tabla de datos, conservada en una memoria auxiliar (disco,
CD-ROM), y la mayoría de las veces de forma secuencial, sin ocupar jamás zonas
importantes de la memoria central del computador. La lectura directa permite igualmente un
mínimo de particularidades del código de los datos, lo cual reduce el tiempo de cálculo en el
caso de códigos disyuntivos.
2.1.1. Bases teóricas del algoritmo

Sea un conjunto I de n individuos a particionar, caracterizado por p caracteres o variables.
Se supone que el espacio Rp que soporta los n puntos individuos esta dotado de una
distancia apropida notada d (ya sea la distancia euclidiana usual o la distancia χ2). Se decide
constituir un máximo de q clases. Las etapas del algoritmo se ilustran en la figura 2.1 - 1.
Etapa 0: Se determinan q centros provisorios de clases (por ejemplo, mediante extracción
seudoaleatoria sin reposición de q individuos de la población a clasificar, según una
propuesta de MacQueen). Los q centros:
{C 0
1 ,..., Ck0 ,..., Cq0 }
inducen una primer partición P0 del conjunto I de individuos en q clases:
{I 0
1 ,..., I k0 ,... , I q0 }
Asi el individuo i pertenece a la clase I0k si esta más próximo a C0k que de todos los
otros centros1.
1
Las clases están entonces delimitadas en el espacio por los tabiques poliedrales convexos formados por los
planos mediadores de los segmentos que unen todas las parejas de centros.

C10
Extracción aleatoria de
C20 los centros C10 y C20
I10
Constitución de las clases
I10 e I20
C11 Nuevos centros C11 y C21

y nuevas clases I11 e I21
C21
Nuevos centros C12 y C22

2
C1 y nuevas clases I12 e I22
C22
Figura 2.1 - 1
Etapas del algoritmo
Etapa 1: Se determinan q nuevos centros de clases:
{C ,..., C
1
1
1
k ,... , Cq1 }
tomando los centros de gravedad de las clases que se acaban de obtener:
{I 0
1 ,..., I k0 ,..., I q0 }
estos centros inducen una nueva partición P1 de I construida según misma regla
utilizada para P0. La partición P1 esta formada de las clases notadas:
{I 1
1 ,..., I k1 ,..., I q1 }
Etapa m: Se determinan q nuevos centros de clases:
{C m
1 ,..., Ckm ,..., Cqm }
tomando los centros de gravedad de las clases que se obtuvieron en la etapa
precedente,
{I m −1
1 ,..., I km−1 ,..., I qm−1 }

Estos nuevos centros inducen una nueva partición Pm del conjunto I formada por
las clases:
{I m
1 ,..., I km ,..., I qm }
Los procesos se estabilizan necesariamente (ver parágrafo siguiente) y el algoritmo se
detiene ya sea porque dos iteraciones sucesivas conducen a la misma partición o porque un
criterio convenientemente seleccionado (por ejemplo la medida de la varianza intraclases)
deja de decrecer de manera sensible, o también porque un número de iteraciones fijado a
priori se ha alcanzado.
Generalmente la partición obtenida finalmente depende de la selección inicial de los centros.
2.1.2 Justificación elemental del algoritmo

Se va a mostrar que la varianza intra-clases solo puede decrecer (o permanecer
estacionaria) entre la etapa m y la etapa m+1. Las reglas de afectación1 se pueden forzar
para que el decrecimiento sea estricto y por lo tanto conducir a la convergencia del
algoritmo ya que el conjunto de partida es finito 2.
Suponemos que los n individuos del conjunto a clasificar I están dotados de masas relativas
pi (su suma da 1) y sea d2(i,Cmk) el cuadrado de la distancia entre el individuo i y el centro de
la clase k en la etapa m. Nos interesamos en la cantidad criterio:
q  

v (m) = ∑  ∑ pi d 2 i , C km
k =1 
( )
i ∈I km 
Recordemos que en la etapa m, la clase Ikm está formada de los individuos más próximos de
Ckm que de todos los otros centros (esos centros son los centros de gravedad de Ikm-1 de la
etapa precedente).
La varianza intra-clases en la etapa m es la cantidad:
q  

V (m) = ∑  ∑ pi d 2 i , Ckm+1
k =1 
( )
i ∈I km 
m+1 m
donde C k es el centro de gravedad de la clase I . En la etapa m+1, la cantidad criterio se
k
escribe:
q  

v (m + 1) = ∑  ∑ pi d 2 i , C km+1
k =1 
( )
i ∈I km +1 
Se va a mostrar que:
1
Estas reglas son las convenciones de programación propias de cada variante o especificación del algoritmo.
2
Es claro que no es ls convergencia, sino la velocidad de convergencia lo que justifica en la práctica la
utilización del método.

v(m) ≥ V(m) ≥ v(m+1)

que es lo que establecerá el decrecimiento simultáneo del criterio y de la varianza intra-
clases. Notando pk la suma de los pi para i ∈ Ikm, aplicando el teorema de Huygens:
( )
q
v( m) = V ( m) + ∑ p k d 2 C km+1 , Ckm
k =1
donde se establece la primera parte de la desigualdad.

La segunda parte se deriva del hecho que entre los corchetes que aparecen en las definicines
de V(m) y v(m), solo cambian las afectaciones de los puntos a los centros. Puesto que Ikm+1
es el conjunto de los puntos más cercanos de Ckm+1 que de todos los otros centros, las
distancias solo pueden decrecer (o permanecer invariantes) al realizar esta reafectación.
2.1.3 Técnicas conexas

Existen numerosos algoritmos en los cuales el principio general es vecino del algortimo de
agregación alrededor de centros móviles pero que se diferencian sin embargo en ciertos
puntos1.
Así, en la técnica de nubes dinámicas (Diday, 1972, 1974), las clases no se caracterizan por
un centro de gravedad sino por un cierto número de individuos a clasificar, denominados
“semillas”, que constituyen entonces un “núcleo” que tiene para ciertas aplicaciones un
mejor poder descriptivo que el de los centros puntuales. Este formalismo ha permitido varias
generalizaciones del método.
El método llamado de los k-means (k-medias) introducido por MacQueen (1967) comienza
efectivamente por una extracción seudoaleatoria de centros puntuales. Sin embargo la regla
para el cálculo de los nuevos centros no es la misma. No se requiere de una reafectación de
todos los individuos para modificar la posición de los centros: cada reafectación de
individuos conlleva una modificación del centro correspondiente. En una sola iteración este
procedimiento puede dar una partición de buena calidad. Pero ella dependerá del orden de
los individuos en el archivo, lo que no es el caso para la técnica expuesta precedentemente1
2.1.4 Formas fuertes y agrupamientos estables

Los algoritmos de agregación alrededor de centros móviles convergen hacia óptimos
locales. El problema de la búsqueda de una partición optimal en q clases (tomando como
criterio la varianza intra-clases, que de entonces el mínimo sobre el conjunto de las
particones posibles en q clases) no ha encontrado hasta el presente un algoritmo
1
Para obtener informaciones más detalladas sobre las técnicas de agregación alrededor de centros móviles,
se podrán consultar las obras de Benzécri (1973) y Anderberg (1973).
1
Otros métodos difieren por la selección inicial de los centros (individuos equidistantes por Thorndike
(1953), por la intriducción de umbrales o de protecciones destinados a modificar eventualmente el número
de clases. Así la técnica propuesta bajo el nombre Isodata por Ball y Hall (1965) pone en juego varios
parámetros destinados a pilotear la elaboración de la partición.

satisfactorio 2. Las particiones obtenidas dependen en general de los primeros centros

seleccionados.
El procedimiento de buscar los agrupamientos estables (o también formas fuertes), sugerido
en lo esencial por Diday (1972), permite remediar al menos parcialmente este inconveniente.
Este procedimiento tiene sobretodo la ventaja de matizar los resultados a veces muy
frustrantes que se obtienen en el cuadro rígido de una sola partición, poniendo en evidencia
las zonas con una fuerte densidad de la nube de puntos individuos. Esta técnica consiste en
efectuar varias particiones a partir de varios conjuntos diferentes de centros y en retener
como grupos estables los conjuntos de individuos que están siempre asignados a una misma
clase en cada una de las particiones (cf. figura 2.1 -2).
Supongamos que se efectúan s particiones {P1, P2 ,…, Ps} en q clases cada una. En la
partición producto, la clase indexada por {k1, k2 ,…, ks} contiene los individuos que
pertenencen a la clase k1 de P1 , luego a la clase k2 de P2, etc., en fin a la clase ks de Ps. Las
clases que contengan más de un individuo de la partición producto constituirán los grupos
estables.
En la práctica el número de agrupamientos estables que tengan una frecuencia notable será
muy inferior a qs.
Primera partición
113 38 35 40
Segunda 30 5 25 0
partición 43 30 8 5
40 3 2 35
Partición producto
Figura 2.1 - 2
Agrupamientos estables en la partición producto
Sobre los 38 individuos de la clase 1 de la partición 1, se rencuentran 30 en la clase 2 de la

partición 2.
Para fijar las ideas, se obtienen sobre 1000 individuos una primera partición en 6 clases
alrededor de centros móviles (15 iteraciones (fueron necesarios 15 iteraciones para asegurar
una estabilidad de los grupos). Se repite dos veces este procedimiento . La tabla 2.1 - 1 da
las frecuencias de las 6 clases de las 3 particiones de base sucesivas.
2
En el caso de los individuos que son descritos solamente por un parámetro, el cálculo de una partición
optima es posible si existe una relación de orden entre los individuos, lo que limita considerablemente las
eventuales particiones a examinar (cf. W.D. Fisher, 1958).

Tabla 2.1 - 1
Tres particiones de base en 6 clases
1 2 3 4 5 6
Partición 1 127 188 229 245 151 60
Partición 2 232 182 213 149 114 110
Partición 3 44 198 325 99 130 204
Estas 3 particiones son, en la etapa siguiente, cruzadas entre ellas y se obtienen 36 = 216
clases. Los individuos de cada una de estas 216 clases son aquellos que siempre se han
agrupado juntos en las tres particiones de base. Ellos constituyen los agrupamientos estables.
De hecho solamente 50 grupos no son vacíos y solamente 10 tienen más de 15 individuos.
La distribución de estos individuos está dada en la tabla 2.1 - 2.
Tabla 2.1 - 2
Agrupamientos estables ordenados por frecuencia decreciente
Grupos 1 a 10 168 118 114 107 88 83 78 26 22 16
Grupos 11 a 20 15 14 12 12 12 11 10 7 7 7
Grupos 21 a 30 6 6 4 4 4 4 3 3 3 3
Grupos 31 a 40 3 3 3 2 2 2 2 2 2 2
Grupos 41 a 50 1 1 1 1 1 1 1 1 1 1
Nota:
• La búsqueda de los grupos estables constituye una exploración de las zonas de densidad fuerte en el
espacio, pero no dan una partición utilizable en la práctica, ya que el número de clases en general muy
elevado, y correlativamente la frecuencia de ciertas clases son muy bajas (c.f los 50 agrupamientos de la
tabla 2.1 -2). De manera práctica, se pueden utilizar los primeros agrupamientos estables para definir una
partición de la forma siguiente: el número de clases podrá ser sugerida por el número de agrupamientos
de frecuencia notable: asi, los 7 primeros agrupamientos de la tabla 2.1 - 2 tienen frecuencias
importantes (hay una desviación importante entre 78 y 26). Las clases se obtendrán por reafectación de
los individuos restantes a los grupos retenidos más próximos (asignación de los individuos de los grupos
8 a 50 alrededor de los centros de los 7 primeros agrupamientos para nuestro ejemplo). Pero veremos que
los métodos mixtos de la sección 2.3 permiten perfeccionar esta aproximación.
Clasificación jerárquica
Los principios generales comunes a las diversas técnicas de clasificación ascendente

jerárquica son también extremadamente simples. Es difícil encontrarles una paternidad ya
que sus principios revelan más un buen sentido que una teoría formalizada. Las exposiciones

más formalizadas y más antiguas pueden ser aquellas de Sokal y Sneath (1963), lego la de
Lance y Williams (1967). Para una revisión sintética cf. Gorndon (1987).
2.2.1 Principio
El principio del algoritmo consiste en crear, en cada etapa, una partición obtenida mediante
agregación dos a dos de los elementos más próximos. Se tomará como elemento tanto los
individuos u objetos a clasificar como los agrupamientos de individuos generados por el
algoritmo. Hay diferentes maneras de considerar la nueva pareja de elementos agregados,
dando un número importante de variantes de esta técnica.
El algoritmo no produce una partición en q clases de un conjunto de n objetos sino que
produce una jerarquía de particiones, se presentan bajo la forma de árboles llamados
también dendrogramas y contienen n-1 particiones. El interés de estos árboles es que ellos
pueden dar una idea del número de clases existentes efectivamente en la población.
· · · ·
· · · · ·
· · · · · ·
· ·
· · ·
Figura 2.2 - 1
Dendrograma o árbol jerárquico
Cada corte de un árbol produce una partición, con menos clases y estas menos homogéneas
a medida que el corte es más alto.
a - Distancia entre elementos y entre grupos

De entrada se supone que el conjunto de individuos a clasificar está dotado de una
distancia1. Aquí no se supone que las distancias sean calculadas al principio: es necesario
poderlas calcular o recalcular a partir de las coordenadas de los puntos individuos, estas
1
Algunas veces se exigirá solamente de una medida de disimilaridad, en cuyo caso la desigualdad triangular
d(x,y)≤ d(x,z) + d(y,z) no se exige.

deben ser accesibles rápidamente. Se construye entonces una primera matriz de distancias
entre todos los individuos.
Una vez constituido un grupo de individuos, conviene preguntarse entonces sobre que base
se puede calcular una distancia entre un individuo y un grupo y luego una distancia entre dos
grupos. Esto es definir una estrategia de agrupamiento de los elementos , es decir fijar las
reglas de cálculo de las distancias entre agrupamientos disyuntos de individuos, llamadas
criterios de agregación. Esta distancia entre agrupamientos se podrá en general calcular
directamente a partir de las distancias de los diferentes elementos implicados en el
agrupamiento.
Por ejemplo, si x, y, z son tres objetos y si los objetos x e y se agrupan en un solo elemento
notado h, se puede definir la distancia de este grupo a z por la distancia más pequeña entre
los diversos elementos de h a z:
d ( h, z) = Min{ d ( x , z) , d ( y , z)}
Esta distancia se llama de salto mínimo (single linkage) (Sneath, 1957; Johnson, 1967) y
constituye un criterio de agregación.
Se puede igualmente definir la distancia del salto máximo (o diámetro) tomando la distancia
más grande de los diversos elementos de h a z:
d ( h, z) = Max{ d ( x , z ), d ( y, z)}
Otra regla simple y empleada frecuentemente es la de la distancia media; para dos objetos x
e y reagrupados en h:
d ( x, z) + d ( y, z)
d ( h, z ) =
2
Más generalmente, si x e y designan dos subconjuntos disyuntos del conjunto de los objetos,
con nx y ny elementos respectivamente, h es entonces un subconjunto de nx + ny elementos y
se define:
n x d ( x , z ) + n y d ( y , z)
d ( h, z ) =
nx + n y
b - Algoritmo de clasificación
El algoritmo fundamental de clasificación ascendente jerárquica se desarrolla de la manera
siguiente:
Etapa1: hay n elementos a clasificar (que son los n individuos);
Etapa2: se construye la matriz de distancias entre los n elementos y se buscan los dos más
próximos, los que se agregan en un nuevo elemento. Se obtiene una primera
partición con n-1 clases;
Etapa3: se construye una nueva matriz de distancias que resulta de la agregación, calculando
las distancias entre el nuevo elemento y los elementos restantes (las otras distancias

no cambian). Se encuentra en las mismas condiciones de la etapa 1, pero con (n-1)

elementos a clasificar y se ha seleccionado un criterio de agregación. Se buscan de
nuevo los dos elementos más próximos los cuales se agregan. Se obtiene una
segunda partición con (n-2) clases la cual engloba a la primera;
Etapa m: se calculan las nuevas distancias y se repite el proceso hasta que se tenga un solo
grupo con todos los objetos y el cual constituye la última partición.
Ilustraremos este procedimiento tomando como objetos a clasificar cinco puntos (figura 2.2
- 2).
1
· 2· ·1 2· ·1 2·
3 3 3
· 5· · 5· · 5·
4 4 4
· · ·
Etapa 1 Etapa 2 Etapa 3
1 1
· 2· · 2·
3 3
· 5· · 5·
4 4
· ·
Etapa 4 Etapa 5
Figura 2.2 - 2
Aglomeración progresiva de 5 puntos
Los agrupamientos sucesivos se pueden representar mediante un árbol o dendrograma,

como lo muestra la figura 2.2 - 3 o se pueden anotar en orden los valores de los índices o
también distancias correspondientes a los diferentes niveles de agregación.
c - Elementos de vocabulario
Algunas anotaciones nos permitirán introducir las nociones y la terminología habitualmente
utilizada en clasificación ascendente jerárquica. el funcionamiento del algoritmo nos muestra
que las distancias (con las reglas de cálculo) solamente intervienen mediante las
desigualdades que existen entre ellas. El mismo árbol (con una dilatación en las ordenadas)
se obtendrá a partir de una simple clasificación de parejas de objetos en orden de distancias
crecientes. Tal clasificación se llama una ordenación (una preordenación si hay distancias
iguales). En ese caso se trazará el árbol convenientemente con los niveles equidistantes.
La familia H de partes del conjunto I de los objetos construida a partir de algoritmos
ascendentes forma lo que se llama una jerarquía. Esta familia tiene la propiedad de contener
tanto al conjunto completo (I ∈ H) como a cada uno de los objetos tomados aisladamente (i
∈ I ⇒ {i} ∈ H). Las otras parejas de partes h, h’ de H o son disyuntas (h∩h’=∅), o esta
incluida una en la otra (h⊂h’). En efecto como consecuencia del funcionamiento del

algoritmo , cada vez que una clase se forma a partir de los elementos disyuntos, ella misma
es considerada como un nuevo elemento, por lo tanto estrictamente incluida en una clase
posterior (cf. figura 2.2 - 2).
Los objetos o individuos (1, 2, 3, 4, 5) son los elementos terminales del árbol (o de la
jerarquía). Las clases 6, 7, 8, 9 son los nodos del árbol: estás son las clases formadas por
agrupamientos de dos elementos (terminales o no) numeradas luego de los elementos
terminales y por lo tanto cada una determina una nueva partición. Se llaman arbitrariamente
primogénito y benjamín a los dos elementos agrupados que constituyen un nodo (figura 2.3
- 3).
árbol jerárquico índice

o dendrograma
·
(9) 9 6 7 8
·
(8)
8 3 4 6
(7)
(6) · 7 2 5 2
· 6 2 3 4
·
(1)
·
(3)
·
(4)
·
(2)
·
(5)
elementos terminales
Figura 2.2 - 3
Arbol jerárquico y elementos de vocabulario
Se tiene una jerarquía indexada si a toda parte h de la jerarquía se le asocia un valor

numérico v(h)≥0 compatible con la relación de inclusión en el sentido siguiente:
si h⊂h’ entonces v(h)<v(h’)
La jerarquía de la figura 2.2 - 3 es indexada de manera natural por los valores de las
distancias correspondientes a cada etapa de agregación (estas distancias están puestas en
orden). El índice es la distancia que determina el agrupamiento.
Haciendo un “corte” en el árbol de la figura 2.2 - 3 mediante una recta horizontal se obtiene
una partición tanto más fina cuanto más cerca este la recta de los elementos terminales. Por
ejemplo, si el índice es superior a 4 e inferior a 9 , se obtiene una partición en dos clases
{1,3,4} y {2,5}. Si vale 3 se obtienen 3 clases {1,3}, {4}, y {2,5}. Una jerarquía permite
entonces construir una cadena de n particiones que contienen de 1 a n clases.

2.2.2 Clasificación ascendente según el salto mínimo y árbol de longitud mínima

Este modo de clasificación jerárquica, presentado en la ilustración del parágrafo precedente,
es particularmente simple de ejecutar y posee propiedades interesantes que vamos a enunciar
y estudiar.
a - Definición de una ultramétrica

Vamos a mostrar que la noción de jerarquía está estrechamente relacionada con una cierta
clase de distancias entre individuos, que se llaman las distancias ultramétricas. Para la
jerarquía producida por el algoritmo de salto mínimo, se mostrará que la distancia
ultramétrica correspondiente es, en un cierto sentido, la más próxima de la distancia inicial.
Esta será la ultramétrica inferior maximal, llamada también subdominante. Se mostrará en
seguida que la aplicación de este método es prácticamente equivalente a la resolución de un
problema clásico de investigación operacional: evidenciar el árbol de longitud mínima sobre
un grafo. Recordemos que un conjunto E esta dotado de una métrica o distancia d, si d es
una aplicación de valores positivos o nulos sujetos a las siguientes ondiciones:
1. d(x,y) = 0 si y solamente si x = y
2. d(x,y) = d(y,x) (simetría)
3. d(x,y) ≤ d(x,z)+d(y,z) (desigualdad triangular)
Esta distancia será llamada ultramétrica si verifica la siguiente condición, la cual es más
fuerte que la desigualdad triangular:
4. d(x,y) ≤ Max{d(x,z),d(y,z)}
b - Equivalencia entre ultramétrica y jerarquía indexada

Es equivalente dotar a un conjunto finito E de una ultramétrica o definirle una jerarquía
indexada de partes de ese conjunto. En primer lugar mostraremos que toda jerarquía
indexada permite definir una distancia entre elementos que tiene las propiedades requeridas.
Se tomará como distancia d(x,y) el valor del índice correspondiente a la parte más pequeña
que contiene a la vez a x e y.
Obteniendo así la tabla de valores de d correspondientes a la jerarquía de la figura 2.2 - 3, se
obtiene la matriz de las distancias de la tabla 2.2 - 1. Se puede notar que la desigualdad 4
anterior se verifica para todas las distancias de esta tabla. Así por ejemplo:
d(1,2) ≤ Max{d(1,5),d(2,5)}
Tabla 2.2 - 1
Matriz de distancias
(1) (2) (3) (4) (5)
(1) 0 9 1 4 9
(2) 9 0 9 9 2

(3) 1 9 0 4 9
(4) 4 9 4 0 9
(5) 9 2 9 9 0
Mostraremos más generalmente que se tiene siempre:

d(x,y) ≤ Max{d(x,z),d(y,z)}
Recordemos que dos partes de la jerarquía H o son disyuntas, o están ligadas por una
relación de inclusión. Llamamos h(x,z) a la parte más pequeña de H que contiene a x y z
(donde el índice es en consecuencia d(x,z)). Debido a que h(x,z) y h(y,z) no son disyuntos, se
tiene por ejemplo h(x,z) ⊂ h(y,z). Y x, y, z estan todos contenidos h(y,z), se tiene
obligatoriamente:
h(x,y) ⊂ h(y,z) de donde d(x,y) ≤ d(y,z)
lo que establece la desigualdad.
Reciprocamente, a toda ultramétrica d se puede hacer corresponder una jerarquía indexada
donde d sea el índice asociado. Es suficiente aplicar el algoritmo de salto mínimo a la tabla
de distancias correspondiente. Se ve entonces que es inútil proceder al cálculo de las
distancias en cada etapa: será suficiente eliminar uno de los dos elementos agregados.
En efecto, si x e y se agregan en t, es necesario en principio calcular las distancias al nuevo
elemento t (cf. figura 2.2 - 4). Ahora bien se tiene obligatoriamente, para todo elemento z
aún no agregado, d(z,x)≥d(x,y) y d(z,y)≥d(x,y), pues de no ser así (z,x) o (z,y) se hubieran
agregado en lugar de (x,y).
Para una ultramétrica, ello implica a la vez d(z,x)≥d(z,y) y d(z,y)≥d(z,x) es decir
d(z,x)=d(z,y), lo que se expresa en forma de imagen diciendo que, para una ultramétrica,
todos los triángulos son isóceles, con el lado más pequeño de base (figura 2.2 - 4).
· z
t
x· · y
Figura 2.2 - 4
Agregación de x e y en un nuevo elemento t
Es en efecto fácil mostrar que si una distancia es ultramétrica, todos los triángulos son
isóceles.
Se tienen las desigualdades:

d(z,x) ≤ Max{d(x,y), d(z,y)} entonces d(z,x) ≤ d(y,z)

del mismo modo:
d(z,y) ≤ Max{d(x,y), d(z,x)} entonces d(y,z) ≤ d(z,x)
Se concluye que:
d(z,x) = d(y,z)
El cálculo de las distancias de z a t es finalmente inútil puesto que las dos distancias puestas
en consideración son iguales. Esto nos muestra como el algoritmo de salto mínimo ha
operado sobre la matriz de distancias: el ha transformado la métrica inicial en ultramétrica
disminuyendo ciertas distancias en cada etapa.
c - Ultramétrica subdominante
El paso de una métrica a una ultramétrica (o de forma equivalente a una jerarquía) se efectua
por disminución de los valores de ciertas distancias. Se puede plantear la siguiente pregunta:
hay una ultramétrica más próxima (en un sentido a precisar) de la métrica?.
Se puede dar el siguiente elemento de respuesta. Se dirá que una métrica d1 es inferior1 a una
métrica d2 si, para todo x y para todo y:
d1(x,y) ≤ d2(x,y)
La ultramétrica más grande inferior a una métrica d, en el sentido precedente, se llama
ultramétrica inferior máximal o subdominante. Es ella la que se obtiene mediante el
algoritmo de salto mínimo.
Para demostrarlo se seguiran los siguientes pasos:
1. definir, a partir de una distancia d, una nueva distancia llamada del salto máximo más
pequeño;
2. mostrar que esta distancia es una ultramétrica;
3. mostrar que esta ultramétrica es la subdominante;
4. mostrar que esta distancia corresponde a la ultramétrica dada por el algoritmo de
salto mínimo.
1. La distancia del salto máximo más pequeña

Sea un conjunto E dotado de una distancia d. Sean x e y dos elementos de E. La pareja
(x,y) será llamada arista de longitud d(x,y) de un grafo completo1 donde los vértices son
los elementos de E. Siempre utilizando el vocabulario de la teoría de grafos, se llama
camino de x a y a una sucesión de aristas de tipos (x,t1), (t1,t2), (t2,t3), …,(tk-1,tk),
1
Esta definición permite dotar al conjunto de métricas definidas sobre un conjunto E de una relación de
orden parcial.
1
El nombre de grafo completo es debido que toda pareja de vertices está unida por una arista

(tk,ty),donde t1…,,tk), son elementos de E. Dado un camino de x a y se llama salto máximo

a la longitud de la arista más grande del camino de x a y. A todo camino que une a x e y
corresponde un salto máximal. Siendo el conjunto de vertices finito, existe un salto
máximal más pequeño sobre el conjunto de los caminos que van de x a y; lo notaremos
d*(x,y).
2. El salto máximal más pequeño entre x e y es una ultramétrica
Es claro que los dos primeros axiomas de una distancia se verifican para d*. Para verificar
que esta distancia es una ultramétrica, consideremos tres elementos cualesquiera x, y, z de
E (figura 2.2 - 5). El salto máximal más pequeño de x a y, con la condición de que pase
por z es Max{d*(x,z),d*(z,y)}. El salto máximal más pequeño sin la restricción de pasar
por z solamente puede ser inferior o igual a esta cantidad, de donde:
d*(x,y) = Max{d*(x,z),d*(z,y)}
y d* es entonces una ultramétrica.
z
·
x·
·y
Figura 2.2 - 5
Camino de x a y conteniendo a z
3. La distancia d* es la subdominante:
Para mostrar que d* es la subdomiante, se mostrará que d* es inferior a d, y que d* es
superior a toda ultramétrica inferior a d.
En primer lugar, es claro que la arista (x,y) es un camino particular que lleva de x a y,
entonces d*(x,y) ≤ d(x,y) y d* es inferior a d.
Sea ahora d1 una ultramétrica inferior a d. Se tiene evidentemente para toda tripleta x1, x2
, x3 :
d1(x1,x3) ≤ Max{d1(x1,x2), d1(x2,x3)}
Aplicando de manera sucesiva esta desigualdad a un camino:
(x1,x2), (x2,x3),…, (xp-1,xp)
se obtiene:
( ) { (
d 1 x1 , x p ≤ Max d 1 x j , x j +1
j< p
)}
puesto que d1 ≤ d, se tiene:
( ) {(
d 1 x 1 , x p ≤ Max d x j , x j +1
j< p
)}

Esta desigualdad es válida para todo camino que une a x1 y a xp. Para al menos una de entre
ellos , se tiene por definición de d*:
{(
Max d x j , x j +1
j< p
)} = d * ( x j , x j +1 )
Esta última relación establece la desigualdad anunciada.
4. La distancia ultramétrica du obtenida mediante el algoritmo de salto mínimo es la

distancia d* salto maximal más pequeño:
Sea du(x,y) el valor de la distancia en la etapa en que los puntos x e y se unieron por
primera vez. Antes estos dos puntos estaban en dos clases distintas (eventualmente
reducidas a ellos mismos como puntos). El modo de calculo de las distancias en cada
agregación nos asegura que du(x,y) es la distancia más pequeña entre dos elementos que
pertenecen cada uno a una clase. Las distancias al interior de las clases son inferiores a
du(x,y) puesto que la agregación es anterior; y las distancias con los elementos que no
pertenecen a ninguna de las dos clases son superiores puesto que se agregarán en una
etapa posterior. Los caminos entre x e y serán entonces las aristas internas a las dos
clases, de longitud infrior a du(x,y) y las aristas externas necesariamente superiores o
iguales a du(x,y). Asi du(x,y) es la salto maximal más pequño d*(x,y).
d - Arbol de longitud minimal: definición y generalidades

El conjunto de n objetos a clasificar se puede considerar como un conjunto de puntos en un
espacio. Esta representación es clásica si los objetos están descritos por una serie de p
variables: se tienen n puntos en el espacio Rp. Se puede entonces calcular una distancia para
cada pareja de puntos. Más generalmente, si solamente se dispone de un índice de
disimilaridad (no verificando obligatoriamente todos los axiomas de una distancia), se
pueden representar los objetos por los puntos (de un plano por ejemplo), cada pareja de
objetos está unida por una línea continua, a la cual se le asocia el valor del índice de
disimilaridad.
Se representa entonces el conjunto de objetos y de valores del índice por un grafo completo
valuado1. Pero si el número de objetos sobrepasa algunas unidades, este tipo de
representación se hará inextricable. Se buscará entonces un extracto de este grafo un grafo
parcial (teniendo los mismos vértices, pero menos aristas) más cómodo de representar, que
permitirá sin embargo resumir bien los valores del índice.
Entre todos los grafos parciales, aquellos que dan una estructura de árbol2 son
particularmente interesantes, puesto que ellos pueden ser el objeto de una representación
1
Los objetos a clasificar son entonces los nodos del grafo (no orientado); las líneas continuas que une los
pares de puntos so las aristas; y los índices, las valuaciones de estas aristas.
2
No se confundirá este árbol , entendido en el sentido de la teoría de grafos, y donde los vértices son los
objetos a clasificar, con el árbol de las partes de un conjunto (dendrograma) producido por las técnicas de
clasificación jerárquica, donde los vértices son las partes (a excepción de los elementos terminales que son
los elementos a clasificar).

plana. Un árbol es un grafo conexo (existe un camino que uniendo toda pareja de vértices)
sin ciclos (un ciclo es un camino partiendo y llegando a un mismo punto sin utilizar dos
veces la misma arista). Se puede definir de manera equivalente un árbol con n vértices ya sea
como un grafo sin ciclo con n-1 aristas o como un grafo conexo con n-1 aristas3. La
longitud de un árbol será la suma de las “longitudes” (valores del índice) de sus aristas.
Entre todos los grafos parciales que son árboles , el árbol de longitud minimal ha retenido
después de mucho tiempo la atención de los estadísticos en razón a sus buenas cualidades
descriptivas que no son extrañas por su parecido con las clasificaciones jerárquicas. Si se
desea por ejemplo descubrir rápidamente sin computador, los rasgos de la estructura de una
matriz de correlaciones relativa a una treintena de variables , es probablemente la manera
más comoda de proceder a ejecutarlo. Vamos a presentar primero los algoritmos de
búsqueda del árbol de longitud minimal, luego mostraremos las equivalencias con la
clasificación según el salto mínimo. Supondremos que todas las aristas del grafo tienen
longitudes diferentes (valores del índice o de la distancia) porque en estas condiciones el
árbol buscado es único y esto simplifica la exposición de los algoritmos.
e - Arbol de longitud minimal: algoritmo de Kruskal (1956)

Se ordenan las n(n-1)/2 aristas en orden de valores crecientes del índice. Se parte de las dos
primeras aristas, luego se seleccionan sucesivamente todas las aristas que no forman ciclo
con las aristas ya seleccionadas. Se interrumpe el procedimiento cuando se tienen n-1 aristas.
De esta manera, se debe haber obtenido un árbol (grafo sin ciclo con n-1 aristas).
Mostremos en efecto que si Vk denota el grafo obtenido en la etapa k, luego de haber
seleccionado las aristas v1, v2 ,…, vk, entonces Vn-1 es de longitud mínimal. Supongamos que
existe un árbol distinto U de longitud minimal (figura 2.2 - 6). Sea vk la primera arista
seleccionada en la construcción de Vn-1 y que no pertenece a U (las aristas de Vk-1 son por
lo tanto igualmente las aristas de U). Agregando esta arista a U se crea necesariamente un
ciclo (puesto que U es conexo) y uno solo (puesto que U es sin ciclo). Existe entonces una
arista u de este ciclo que no pertenece a Vn-1 (puesto que Vn-1 no tiene ciclo). Entonces el
árbol U* obtenido a partir de U agregando vk y suprimiendo u es más corto que U. En
efecto el grafo obtenido agregando u a Vk-1 es sin ciclo (este es una parte de U); luego u es
más largo que vk, por definición de vk, y en consecuencia U* es más corto que U. Pero esto
contradice la definición de U. Luego Vn-1 es de longitud minimal.
3
Se encontrará la demostración de estas propiedades en los manuales clásicos como el de Berge (1963,
1973).

· · ·
·
· ·
u
· ·
· vk
·
· ·
·
·
·
Figura 2.2 - 6
Representación del árbol U
f - Arbol de longitud minimal: algoritmo de Prim (1957)

Se parte de un objeto cualquiera (vértice del grafo). La etapa 1 consiste en buscar el objeto
v1 el más próximo, es decir la arista más corta. La etapa k consiste en agregar a la colección
de aristas ya constituida Vk-1 la arista más corta vk que toque uno de los vértices de Vk-1.
Hay n-1 etapas. Este algoritmo es más rápido que el precedente. El árbol obtenido es de
longitud mínima puesto que Vk es a todo momento un árbol de longitud mínimal sobre los k
vértices concernientes.
g - Arbol de longitud minimal: algoritmo de Florek (1951)

En la primera etapa, se junta cada vértice a su vecino más próximo. Esto equivale a tomar la
distancia más pequeña de cada línea de la tabla de distancias. Esta operación rápida produce
un bosque F1 (familia de árboles, es decir simplemente: grafo sin ciclo). En la etapa k, cada
árbol del bosque Fk-1 (cada componente conexo del grafo sin ciclo) se junta a su vecino más
próximo tomando como distancia entre árboles la distancia más pequeña entre un vértice
cualquiera de uno y un eje cualquiera del otro. El proceso se repite hasta que el grafo Fk sea
conexo. Este algoritmo es más rápido de ejecutar manualmente sobre tablas de distancias
muy grandes. En general no hay más que 2 o 3 etapas.
Mostremos que se obtiene un árbol, lo que equivale a probar que la primera etapa produce
un bosque. No hay vértice aislado puesto que cada vértice admite efectivamente un vecino
más próximo. Mostremos por el absurdo que no se puede crear un ciclo. Supongamos que
existe uno y orientemos las aristas de cada vértice hacia su vecino más próximo. Si las
aristas del ciclo están todas orientadas en el mismo sentido, el resultado es absurdo, puesto
que ellas serán necesariamente cada vez más cortas. Si no la figura será igualmente absurda,
puesto que dos aristas pertenecerán a un mismo vértice, mientras que cada vértice solo
posee un vecino más próximo.
Falta mostrar que este árbol es de longitud minimal. Notemos que todas las aristas trazadas
en la primera etapa pertenecen al árbol de longitud minimal V. En efecto, si no fuera asi,
existiria un y, vecino más próximo de x, tal que la arista (x,y) no pertenecería a V.
Agregando esta arista a V, se crearía un ciclo. Suprimiendo la otra arista del ciclo saliendo

de x, se obtiene un nuevo árbol más corto que V, lo que contradice la definición de V. De la

misma forma, toda arista trazada en la etapa k pertenece a V, puesto que el bosque Fk-1 es
una parte de V. El razonamiento es en todo aspecto análogo al precedente.
h - Relación entre el árbol y el salto mínimal (Gower et Ross, 1969)

Sea V un árbol de longitud minimal construido a partir de la tabla de distancias entre n
objetos. V siendo conexo y sin ciclo, existe un camino y solo una unión entre los dos
vértices x e y. Llamemos dv(x,y) a la longitud de la arista más grande encontrada en el
camino. Vamos a mostrar que dv(x,y) no es otra que d*(x,y), la distancia ultramétrica del
salto maximal más pequeño entre x e y.
En efecto, sea v la arista más grande encontrada encontrada entre x e y. La supresión de v
ocasiona la división de V en dos componentes conexas separadas. Si existe un camino (no
tomados obligatoriamente de las aristas de V) de x a y cuya arista más grande es más corta
que v, existe una arista u distinta de v, y más corta que une los dos componentes conexos. El
hecho de reemplazar v por u daría un árbol de longitud inferior a la de V, lo que contradice
la definición de V. Así dv(x,y), longitud de v, es el salto maximal más pequeño.
El razonamiento provee un modo de construcción de la jerarquía asociada al salto mínimal, a
partir del árbol de longitud minimal V. Esta construcción, descendente, opera de la manera
siguiente. Se rompe la arista más grande de V; se obtienen así dos grupos los más alejados,
el índice correspondiente a su fusión es la longitud de esta arista. Se rompen sucesivamente
las aristas por orden de tamaño decreciente, esto hace descender en la jerarquía hasta los
elementos terminales que corresponden a los objetos. La última arista rota corresponde a la
de los dos objetos agregados en primer lugar en el algoritma ascendente.
Se puede representar simultáneamente la jerarquía y el árbol de longitud minimal en
perspectiva como lo muetra la figura 2.2 - 7.
(9)
(8)
(6)
(7)
·
(1)
· ·
(3) (5)
· ·
(4) (2)
Figura 2.2 - 7
Representación simultánea de la jerarquía y del árbol de longitud minimal

Algunas informaciones complementarias se aportan a la representación de la figura 2.3 - 3

(cf. Benzécri et Jambu, 1976). En particular las posiciones relativas de los puntos son mejor
respetadas. Para el practicante del análisis factorial, será frecuentemente interesante portar el
árbol de longitud minimal sobre los planos factoriales para remediar, en cierta medida, a las
posibles deformaciones imputables a la operación de proyección.
2.2.3 Criterio de agregación según la varianza

Las técnicas de clasificación según el salto minimal tienen la ventajas de conducir a cálculos
simples (no se requiere recalcular numéricamente las distancias) y de poseer propiedades
matemáticas interesantes.
Para ciertas aplicaciones los resultados son sin embargo criticables. En particular, el salto
minimal tiene el defecto de producir “efectos de cadena”.
· · · · ·· · ·
· · · · ·
· ·
·
· · · ·· ·
· · · · · · · · · ·
· · ·· · · · · · · ·· · · · · ·
· · · ·
·
(A) (B) (C)
Figura 2.2 - 8
“Efectos de cadena”
Asi para la nube de puntos representada por la figura 2.2 - 8 los grupos A y B no seran
fácilmente disernibles en el árbol jerárquico; además algunos de los vértices que los unen
serán agregados a los niveles más bajos.
Hay otros criterios de agregación que dan eventualmente resultados más fiables, por ejemplo
la distancia media (cf. igualmente Wishart, 1969).
Las técnicas de agregación según la varianza buscan optimizar, en cada etapa, según
criterios ligados a cálculos de inercia, la partición obtenida por agregación de dos elementos.
Esta técnica es especialmente cómoda para ejecutar cuando la agregación se efectúa después
de un análisis factorial, los objetos a clasificar están identificados por sus coordenadas sobre
los primeros ejes factoriales.
a - Notaciones y principio
Consideramos aquí los n objetos a clasificar como una nube de puntos (la nube de los
individuos) de un espacio con p dimensiones (espacio de las variables).
Cada punto xi (vector de p componentes esta dotado de una masa mi. Se nota m a la masa
total de la nube:

n
m = ∑ mi
i
El cuadrado de la distancia entre los puntos xi y xi’ se nota:

x i − x i ' = d 2 (x i , x i' )
La inercia total I de la nube es la cantidad:
n
I = ∑ mi x i − g
2
donde g designa al centro de gravedad de la nube:

1 n
g = ∑ mi x i
m i
Si existe una partición del conjunto de elementos en s clases, la masa de la qésima clase es:
mq = ∑ mi
i ∈q
y por centro de gravedad:

1
gq =
mq
∑m xi ∈q
i i
La relación de Huygens da una descomposición de la cantidad I en inercias intra-clases e inter-

clases según la fórmula:
I = ∑ mq g q − g + ∑ ∑ mi x i − g q
2 2
q q i ∈q [2.2 - 1]
g g
gq
xi xi
Inercia total = Inercia inter-clases + Inercia intra clases

Figura 2.2 - 9
Descomposición de la inercia según la relación de Huygens

La calidad global de una partición está ligada a la homogeneidad al interior de las clases (y
por lo tanto a separación entre las clases). Como I es una cantidad constante, se requiere en
consecuencia minimizar la cantidad relativa a la inercia entra-clases:
I int ra = ∑ ∑ mi x i − g q
2
q i ∈q
o también maximizar la inercia inter-clases:
I int er = ∑ mq g q − g
2
Inercia intra-clases baja Inercia intra-classes elevada

Figura 2.2 - 10
Calidad global de una partición
En la etapa inicial, la inercia intra-clases es nula y la inercia inter-clases es igual a la inercia total
de la nube puesto que cada elemento terminal constituye a su nivel una clase. En la etapa final, es
la inercia inter-clases la que es nula y la inercia intra-clases es equivalente a la inercia total puesto
que a ese nivel se dispone de una partición en una sola clase (cf. la etapa 5 de la figura 2.2 - 2).
En consecuencia, a medida que se efectuan los reagrupamientos, la inercia intra-clases aumenta
y la inercia iter-clases disminuye.
El principio del algoritmo de agregación según la varianza consiste en buscar en cada etapa una
partición tal que la varianza interna de cada clase sea minimal y por consecuencia la varianza
entre clases sea maximal.
b - Pérdida de inercia por agregación de dos elementos: el criterio de Ward

generalizado
Hacer variar lo menos posible la inercia intra-clases en cada etapa de agregación es buscar el
mínimo de pérdida de inercia inter-clases resultante de la agregación de dos elementos.
Sean xi y xi’ , dos elementos de masas mi y mi’ que pertenecen a una partición Ps en s clases,
que se agregan en un solo elemento x de masa mt = mi + mi’, produciendo la partición Ps-1 en
s-1 clases con:
m i x i + m i 'x i '
x=
m i + m i'
x es el centro de gravedad de xi y xi’.

Se puede descomponer la inercia Iii’ de xi y xi’ con respecto a g según la relación de

Huygens:
2 2 2 2 2
I ii' = m i x i − g + m i ' x i' − g = mi x i − x + m i' x i ' − x + mt x − g
Solamente el último término subsiste si se reemplazan xi y xi’ por su centro de gravedad x.

La pérdida de inercia inter-clases ∆Iii’ debido al paso de la partición en s clases a la partición
en s-1 clases equivale a:
∆ s = ∆ I ii' = I inter ( Ps ) - I inter ( Ps - 1 )
y vale entonces:
2 2
∆ I ii' = m i x i − x + mi' x i' − x
Reemplazando x por su valor en función de xi y xi’ se obtiene luego de realizados los

cálculos:
mi mi ' 2 mi mi'
∆ I ii' = x − xi ' = d 2 ( x i , xi ' )
mi + mi ' i mi + mi '
La estrategia de agregación fundada sobre el criterio de la pérdida de inercia minimal,
llamado criterio de Ward generalizado, es entonces la siguiente. en lugar de buscar los dos
elementos más próximos, se buscan los elementos xi y xi’ correspondientes al ∆Iii’ minimal.
Así en cada etapa la inercia intra-clases aumenta en la cantidad ∆Iii’ (y la inercia inter-clases
disminuye en esta misma cantidad). Esto es como considerar ∆Iii’ como nuevos índices de
disimilaridad1 llamados también índices de nivel”.
Se verifica que la suma de los índices de nivel en la jerarquía es igual a la inercia total de la
nube I:
n n
∑ ∆ s = ∑ I inter ( Ps ) - I inter ( Ps - 1 ) = I [2.2 - 2]
s= 2 s= 2
Si se trabaja sobre las coordenadas de los puntos, se efectuarán los cálculos de los centros
de gravedad (x por xi y xi’ ). Por el contrario si se trabaja con las distancias, es más comodo
poder calcular las nuevas distancias a partir de las anteriores (como en el caso de las técnicas
precedentes). El cuadrado de las distancias entre un punto cualquiera z y el centro de clase x
se escribe, en función de las distancias a xi y xi’:
1  m i m i' 
d 2 (x , z) =  m d 2 ( x i , z ) + mi 'd 2( x i' , z ) − d 2 ( x i , x i ' )
mi + mi'  i m i + mi' 
1
Por esta transformación de la matriz de distancias, los puntos más ligeros serán los que se agregan más
fácilmente.

· z
x i'
(m i')
·
x ·
(m)
·
x i (m )
i
Figura 2.2 - 11
Teorema de la mediana
Esta fórmula (teorema de la mediana) se establece descomponiendo la inercia de la pareja (xi

, xi’) con respecto a z en la inercia con respecto a x y la inercia de x con respecto a z:
2 2 2 m i m i' 2
m i xi − z + mi' xi' − z = ( mi + m i' ) x − z + x i − x i'
mi + m i'
La expresión de d2(x,z) se deduce inmediatamente. Se reitera el proceso sobre los elementos

restantes y el nuevo elemento construido por agregación1.
2.2.4 Algoritmo de búsqueda en cadena de los vecinos recíprocos

La principal dificultad en la construcción de un árbol jerárquico es el número importante de
operaciones. En cada etapa del algoritmo se construye un nodo reagrupando dos elementos,
lo que necesita de los cálculos y de las comparaciones entre todos los elementos que faltan
por clasificar. El número de operaciones es el orden de n3 si hay n objetos a clasificar.
Los nuevos algoritmos reunen en cada etapa no dos elementos sino varias parejas de
elementos. Esto reduce considerablemente el número de operaciones el cual pasa de n3 a n2
permitiendo así la clasificación de varios millares de objetos en tiempos razonables.
Estos algoritmos utilizan el concepto de vecinos recíprocos introducido por McQuitty
(1966): dos elementos xi y xi’ son vecinos recíprocos si xi es el vecino más próximo de xi’ y
si xi’ es el vecino más próximo de xi.
Utilizando igualmente la propiedad de una agregación jerárquica según la cual, a una etapa
dada, dos elementos agregados para constituir un nodo son necesariamente los vecinos
recíprocos (de lo contrario, ellos no constituirían la pareja de distancia minimal)
1
Existen variantes de este método que dan origen a fórmulas ligeramente diferentes. Se puede por ejemplo
buscar las clases que tienen una inercia interna minimal; se puede también utilizar el criterio de la varianza
interna minimal, designado como varianza a la inercia dividida por la masa. Se encuentran precisiones sobre
estas técnicas en Bénzecri (1973).

En fin, utilizando la propiedad más fuerte (disponible solamente si el criterio de agregación

verifica el criterio de la mediana, explicado más adelante) según la cual todos los vecinos
recíprocos, en una etapa dada, serán ulteriormente los nodos de la jerarquía1.
En cada etapa del algoritmo, en lugar de agregar solamente los dos vecinos más próximos,
se crean tantos nodos como vecinos recíprocos haya. En la etapa final, todos los elementos
se han agrupado en una sola clase y se ha construido el árbol.
El problema del algoritmo es entonces reducido a una búsqueda eficaz de los vecinos
recíprocos. Vamos a describir el algoritmo de esta búsqueda que se efectúa en cadena
(Benzécri, 1982 c).
a - Algoritmo
El principio de los vecinos recíprocos se puede enunciar de la siguiente manera: si xi es el
vecino más próximo de xi’ (xi → xi’) y si xi’ es el vecino más próximo de xi (xi’ → xi)
entonces xi y xi’ son vecinos recíprocos (xi ↔ xi’).
Etapa 1: se parte de un objeto cualquiera x1 y se busca su vecino más próximo, notado x2
luego el vecino más próximo de x2, notado x3, etc. Se crea así una cadena de
elementos sucesivos: xi → x2 → x3 →… → xi-2 → xi-1 → xi → …. Una cadena asi
se para necesariamente cuando dos elementos sucesivos son vecinos recírpocos:
→ xi →…→ xk-1 ↔ xk . La cadena se parará así sobre el elemento xk si xk-1 es
también el vecino más próximo de xk . xk-1 y xk son vecinos recíprocos y se
agregan para formar un nodo.
Etapa 2: si k=2 entonces la cadena comienza con un elemento que posee un vecino
recíproco: x1 ↔ x2 . Seleccionamos un nuevo elemento a partir del cual se
construye una cadena que se para sobre dos nuevos vecinos recíprocos
agregándose para conformar un nodo.
Etapa 3: si k>2, se continúa la búsqueda de los vecinos recíprocos por extensión de la
cadena comenzando en el elemento xk-2 . El algoritmo se termina cuando se han
creado n-1 nodos.
b - Criterio de la mediana
Para poder utilizar este algoritmo , la cadena se debe poder prolongar más allá de xk-2
cuando los vecinos recíprocos xk-1 y xk se han agregado. Es indispensable que esta
agregación no destruya la relación de vecindad la más próxima que existiera antes entre xi-1 y
xi con i=2,3,…,k-2. Esta propiedad se asegura si el criterio de agregación utilizado para
construir el árbol no crea una inversión.
No hay inversión si el nodo n, creado por agregación de a y b, no puede estar más cerca de
cualquier otro elemento c de lo que están el elemento a o el elemento b. Esta condición1
llamada de “la mediana” se escribe:
1
El criterio de la mediana asegura que siempre quedarán vecinos recíprocos.

Esta propiedad se verifica para varios criterios de agregación2 :

− Salto mínimo : d(a,b) = inf { d(u, v) u ∈ a, v ∈ b }
− Salto máximo : d(a,b) = sup {d(u, v) u ∈ a, v ∈ b }
− Distancia media :
1  
d ( a, b) = ∑ ∑ mu mv d ( u, v )
ma mb  u∈a v∈b 
− Criterio de Ward :
ma mb
d ( a , b) = d (g a , g b )
ma + mb
donde ga y gb son los centros de gravedad de los grupos a y b.
2.2.5 Ejemplo numérico de aplicación

El ejemplo de aplicación que sigue comprende dos clasificaciones jerárquicas efectuadas
sobre las filas y las columnas de la tabla de contingencia 1.3 - 10 de la sección sobre análisis
de correspondencias (cf. § 1.3.8 ). Las distancias entre elementos son las distancias del χ2
entre puntos perfiles y la agregación se efectúa utilizando el criterio de Ward generalizado
presentado en el parágrafo 2.2.3. Solo se retienen los elementos activos del análisis de
correspondencias: se parte de una tabla (8,6) que cruza 8 categorias socioprofesionales y 6
tipos de medios, la unidad estadística es el “contacto con el medio”.
Al igual que en el caso del análisis de correspondencias de esta misma tabla, la función de
este tratamiento no es la reducción de una tabla de datos muy grande y compleja (función
principal de las técnicas de análisis descriptivo multidimensional) sino una descripción
pedagógica de las diferentes etapas del cálculo.
a - Clasificación de filas (profesiones)

Las principales etapas de la clasificación de las filas están resumidas en la figura 2.2 - 12, la
cual se puede leer de la siguiente manera: la primera columna (NUM) da los números de los
nodos, que son entonces los nuevos elementos a clasificar y que toman la sucesión de los 8
elementos a clasificar. La terminología Primogénito y Benjamín (segunda y tercera
columnas) se aplica a los dos elementos que se agregan en la etapa dada (es decir los más
próximos a esta etapa en el sentido del índice de agregación retenido).
1
Esta condición fue presentada por Bruynooghe (1978) bajo el nombre de axioma de reductibilidad. Ella
permite en efecto la ejecución de otro algoritmo, llamado de los vecinos reductibles, que permite acelerar el
algoritmo de base de la clasificación jerárquica mediante la utilización de umbrales de distancias.
2
Se designará aquí a la vez por a (o b) a un elemento o a un nodo en una cierta etapa de la agregación, y al
conjunto de elementos que constituyen ese nodo.

CLASSIFICATION HIERARCHIQUE : DESCRIPTION DES 7 NOEUDS (de 9 à 15)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
9 6 7 2 1927 .00024 *
10 9 5 3 3783 .00038 **
11 2 1 2 789 .00064 ****
12 10 4 4 5041 .00208 *********
13 8 11 3 6651 .00276 **************
14 12 13 7 11692 .00493 ***********************
15 3 14 8 12388 .01125 *********************************************
SOMME DES INDICES = .02228

Figura 2.2 - 12
Descripción de las etapas de la clasificación jerárquica
(filas activas de la tabla de contingencia 1.3 - 10, sección 1.3)
Se lee así sobre la primera fila que el nodo nº9 está formado de los elementos terminales 6 y
7, está formado entonces de dos elementos (columna: EFF) cuyos peso total (columna
PESOS) es de 1927. El valor del índice de agregación correspondiente es de 0.00024. Los
valores crecientes del índice se ilustran mediante un boceto de histograma a la derecha de las
columnas numéricas1. Se verifica que la suma de los índices es igual a la suma de los valores
propios resultantes del análisis de correspondencias de la misma tabla (tabla 1.3 - 11 de §
1.3.8).
El dendrograma de la figura 2.2 - 13 da en efecto la misma información, presentada de
manera más sugestiva , ya que la composición de los nodos a partir de los elementos
terminales es ahora legible. Se nota la gran homogeneidad de los obreros (no calificados y
calificados) y empleados (el índice más bajo), los agricultores, pequeños empresarios e
inactivos constituyen un segundo grupo menos homogéneo, mientras que los profesiones
intermedias ocupan una posición mediana. Finalmente los ejecutivos y profesionales liberales
solo se unen a las otras categorías mucho más tarde.
N° IND. IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES)
1 2.88 Agricult. ------+

|
2 12.39 Pet. Pat ------*---------------+
|
8 22.13 Inactifs ----------------------*--------------+
|
4 9.32 Prof Inter ---------------+ |
| |
5 1.71 Employés ---+ | |
| | |
6 1.07 Ouvr. Qual --+| | |
|| | |
7 50.50 Ouvr. N.Q --**-----------*---------------------*-------------------------------+
|
3 ----- Prof/CSup ---------------------------------------------------------------------*
Figura 2.2 - 13
1
Como lo indica la figura 2.2 - 3, estos histogramas pueden dar una idea de número de clases de una buena
partición, que corresponde a un salto importante del índice.

Dendrograma
(filas activas de la tabla de contingencia 1.3 - 10, sección 1.3)
Retomaremos luego los agrupamientos visibles sobre la figura 1.3 - 23 (sección 1.3.8)1.
Notamos aquí que el índice mayor corresponde al primer factor del análisis de la sección
1.3.8 (oposición de los ejecutivos y el conjunto de las demás categorías), y que el segundo
índice más grande corresponde al segundo factor (oposición entre los dos grupos
obreros/empleados y agricultores/pequeños empresarios). Esta correspondencia entre nodos
y factores no es general pero si frecuente2.
b - Clasificación de las columnas (medios)

El método de agregación es el mismo y conduce evidentemente a la misma suma de índices
(inercia total) . Las reglas de lectura de las figuras 2.2 - 14 y 2.2 - 15 son las mismas
anteriores.
Los dos índices mayores corresponden ahora a las principales oposiciones visibles sobre los
dos primeros factores del análisis de correspondencias. La estructura observable sobre el
dendrograma es la de un efecto de cadena, o de clase absorbente: la agregación se efectúa
uniendo un elemento terminal a la clase de la etapa precedente. Esto no sucede por el
método1. Ella traduce más bien las difusiones muy desiguales de los diferentes medios
considerados.
CLASSIFICATION HIERARCHIQUE : DESCRIPTION DES 5 NOEUDS (de 7 à 11)
NUM. AINE BENJ EFF. POIDS INDICE HISTOGRAMME DES INDICES DE NIVEAU
7 2 1 2 7266 .00135 ***

8 4 7 3 8933 .00251 *******
9 5 8 4 10236 .00323 *************
10 6 9 5 11950 .00439 *******************
11 3 10 6 12388 .01079 ********************************************
SOMME DES INDICES = .02228

Figura 2.2 - 14
Descripción de las etapas de la clasificación jerárquica
(columnas de la tabla de contingencia 1.3 - 10, sección 1.3)
1
La complementariedad entre las dos metodologías será desarrollada en la sección 2.4.
2
Se nota igualmente que los dos índices más grandes (0.0112, 0.0049) son aquí inferiores a los dos valores
propios mayores (0.0139, 0.0072). La sección 2.4 precisará algunas relaciones y desigualdades entre estos
valores.
1
Al contrario de la agregación según el salto minimal, el criterio de Ward generalizado no provoca
fácilmente los efectos de cadena.

N° IND. IDEN DENDROGRAMME (INDICES EN POURCENTAGE DE LA SOMME DES INDICES
1 6.08 Radi --+

|
2 11.27 Tele --*------------+
|
4 14.51 QUOR ---------------*-------+
|
5 19.71 Pmag -----------------------*------------+
|
6 48.43 MaTV ------------------------------------*-------------------------------------------+
|
3 ----- QUON --------------------------------------------------------------------------------*
Figura 2.2 - 15
Dendrograma
(columnas de la tabla de contingencia 1.3 - 10, sección 1.3)
Notemos que si la clasificación aporta (en el caso de una tabla de tamaño real) ciertas
informaciones suplementarias con respecto al análisis de correspondencias (las distancias se
calculan aquí en todo el espacio), la ausencia de la interpretación simultánea de las filas y de
las columnas limita por consiguiente las posibilidades de interpretación.

Lebart et.al. Statisquique exploratoire multimensionnnelle. (Traducción provisional) 2-1

Lebart Clas 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lebart Clas 1

Transféré par

Droits d'auteur :

Formats disponibles

Lebart et.al. Statisquique exploratoire multimensionnnelle.

Las técnicas de clasificación automática están destinadas a producir agrupamientos de filas o

Campo Elías Pardo. Universidad Nacional de Colombia

Campo Elías Pardo. Universidad Nacional de Colombia

Agregación alrededor de centros móviles

El método de clasificación alrededor de centros móviles es probablemente la técnica de

2.1.1. Bases teóricas del algoritmo

Campo Elías Pardo. Universidad Nacional de Colombia

C11 Nuevos centros C11 y C21

Nuevos centros C12 y C22

Etapa 1: Se determinan q nuevos centros de clases:

Campo Elías Pardo. Universidad Nacional de Colombia

2.1.2 Justificación elemental del algoritmo

Campo Elías Pardo. Universidad Nacional de Colombia

v(m) ≥ V(m) ≥ v(m+1)

donde se establece la primera parte de la desigualdad.

2.1.3 Técnicas conexas

2.1.4 Formas fuertes y agrupamientos estables

Campo Elías Pardo. Universidad Nacional de Colombia

satisfactorio 2. Las particiones obtenidas dependen en general de los primeros centros

Sobre los 38 individuos de la clase 1 de la partición 1, se rencuentran 30 en la clase 2 de la

Campo Elías Pardo. Universidad Nacional de Colombia

Los principios generales comunes a las diversas técnicas de clasificación ascendente

Campo Elías Pardo. Universidad Nacional de Colombia

a - Distancia entre elementos y entre grupos

Campo Elías Pardo. Universidad Nacional de Colombia

Campo Elías Pardo. Universidad Nacional de Colombia

no cambian). Se encuentra en las mismas condiciones de la etapa 1, pero con (n-1)

Los agrupamientos sucesivos se pueden representar mediante un árbol o dendrograma,

Campo Elías Pardo. Universidad Nacional de Colombia

árbol jerárquico índice

Se tiene una jerarquía indexada si a toda parte h de la jerarquía se le asocia un valor

Campo Elías Pardo. Universidad Nacional de Colombia

2.2.2 Clasificación ascendente según el salto mínimo y árbol de longitud mínima

a - Definición de una ultramétrica

b - Equivalencia entre ultramétrica y jerarquía indexada

Campo Elías Pardo. Universidad Nacional de Colombia

Mostraremos más generalmente que se tiene siempre:

Campo Elías Pardo. Universidad Nacional de Colombia

d(z,x) ≤ Max{d(x,y), d(z,y)} entonces d(z,x) ≤ d(y,z)

1. La distancia del salto máximo más pequeña

Campo Elías Pardo. Universidad Nacional de Colombia

(tk,ty),donde t1…,,tk), son elementos de E. Dado un camino de x a y se llama salto máximo

Campo Elías Pardo. Universidad Nacional de Colombia

4. La distancia ultramétrica du obtenida mediante el algoritmo de salto mínimo es la

d - Arbol de longitud minimal: definición y generalidades

Campo Elías Pardo. Universidad Nacional de Colombia

e - Arbol de longitud minimal: algoritmo de Kruskal (1956)

Campo Elías Pardo. Universidad Nacional de Colombia

f - Arbol de longitud minimal: algoritmo de Prim (1957)

g - Arbol de longitud minimal: algoritmo de Florek (1951)

Campo Elías Pardo. Universidad Nacional de Colombia

de x, se obtiene un nuevo árbol más corto que V, lo que contradice la definición de V. De la

h - Relación entre el árbol y el salto mínimal (Gower et Ross, 1969)

Campo Elías Pardo. Universidad Nacional de Colombia

Algunas informaciones complementarias se aportan a la representación de la figura 2.3 - 3

2.2.3 Criterio de agregación según la varianza

Campo Elías Pardo. Universidad Nacional de Colombia

El cuadrado de la distancia entre los puntos xi y xi’ se nota:

donde g designa al centro de gravedad de la nube:

y por centro de gravedad:

La relación de Huygens da una descomposición de la cantidad I en inercias intra-clases e inter-

Inercia total = Inercia inter-clases + Inercia intra clases