Académique Documents
Professionnel Documents
Culture Documents
composicionales
Vera Pawlowsky-Glahn
1
ejemplo 1: hipótesis genéticas
genotipos en el sistema MN de grupos sanguı́neos
individuo MN MM NN individuo MN MM NN
Ab1 0.13 0.01 0.86 In4 0.47 0.41 0.12
Ab2 0.14 0.02 0.84 In5 0.46 0.43 0.11
Ab3 0.21 0.01 0.78 InAm1 0.45 0.46 0.09
Ab4 0.37 0.05 0.58 InAm2 0.43 0.48 0.09
Ab5 0.39 0.03 0.58 InAm3 0.44 0.45 0.11
Ab6 0.38 0.07 0.55 InAm4 0.40 0.57 0.03
Ch1 0.49 0.25 0.26 InAm5 0.17 0.81 0.02
Ch2 0.49 0.26 0.25 InAm6 0.18 0.79 0.03
Ch3 0.50 0.28 0.22 Es1 0.38 0.58 0.04
Ch4 0.51 0.29 0.20 Es2 0.34 0.60 0.04
In1 0.41 0.25 0.26 Es3 0.33 0.65 0.02
In2 0.49 0.24 0.27 Es4 0.30 0.65 0.05
In3 0.49 0.32 0.19 Es5 0.19 0.80 0.01
Ab = Aborigen; Ch = Chino; In= Indio;
InAm = Indio Americano; Es = Eskimo
2
ejemplo 2: fraccionamiento de olivina magnésica
análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii)
0.4834 0.0233 0.1149 0.0159 0.1004 0.0018 0.1359 0.0986 0.0190 0.0044 0.0023
0.4890 0.0247 0.1240 0.0215 0.0942 0.0017 0.1110 0.1065 0.0202 0.0047 0.0024
0.4570 0.0170 0.0835 0.0212 0.1004 0.0017 0.2311 0.0699 0.0133 0.0032 0.0016
0.4558 0.0154 0.0818 0.0160 0.1046 0.0017 0.2391 0.0680 0.0128 0.0031 0.0015
0.4936 0.0331 0.1212 0.0177 0.0991 0.0017 0.1048 0.0967 0.0225 0.0065 0.0030
0.4667 0.0200 0.0952 0.0217 0.0982 0.0018 0.1934 0.0820 0.0154 0.0038 0.0018
0.4818 0.0234 0.1144 0.0226 0.0947 0.0018 0.1367 0.0988 0.0189 0.0046 0.0022
0.4797 0.0232 0.1119 0.0246 0.0937 0.0018 0.1434 0.0965 0.0186 0.0045 0.0021
0.4699 0.0201 0.0991 0.0213 0.0973 0.0018 0.1832 0.0859 0.0158 0.0037 0.0019
0.4917 0.0273 0.1254 0.0183 0.1002 0.0018 0.1005 0.1055 0.0209 0.0056 0.0026
0.4845 0.0247 0.1181 0.0281 0.0892 0.0018 0.1253 0.1019 0.0193 0.0048 0.0023
0.4794 0.0224 0.1118 0.0241 0.0937 0.0018 0.1465 0.0959 0.0182 0.0041 0.0021
0.4847 0.0235 0.1164 0.0104 0.1037 0.0018 0.1324 0.1013 0.0189 0.0045 0.0023
0.4897 0.0248 0.1205 0.0139 0.1017 0.0018 0.1118 0.1083 0.0173 0.0080 0.0024
0.4874 0.0244 0.1160 0.0138 0.1018 0.0018 0.1235 0.1045 0.0167 0.0079 0.0023
0.4968 0.0303 0.1293 0.0160 0.0969 0.0017 0.0885 0.1098 0.0224 0.0055 0.0027
0.4926 0.0250 0.1233 0.0126 0.1014 0.0018 0.1052 0.1106 0.0202 0.0048 0.0023
3
datos composicionales
ejemplos
κ=1 : probabilidades asociadas a variables
discretas; partes por unidad
κ = 100 : análisis quı́micos de rocas; porcentajes
en general
κ = 180 : ángulos de un triángulo en análisis de
formas
otras unidades frecuentes: ppm, ppb, ...
4
espacio muestral: el sı́mplex
d
X
S d = {x = (x1, x2, . . . , xd)|xi > 0; xi = κ}
i=1
S 2 ⊂ R2 segmento
S 3 ⊂ R3 diagrama ternario
S 4 ⊂ R4 tetraedro
5
¿porqué un enfoque estadı́stico particular para datos
composicionales?
en el espacio real sumamos vectores, los multipli-
camos por constantes, estudiamos su ortogonali-
dad, medimos distancias, ...
pero:
la geometrı́a Euclı́dea de Rd no es una geometrı́a
apropiada para fenómenos composicionales porque
6
una geometrı́a especı́fica para el sı́mplex
operaciones básicas
perturbación de x ∈ S d por y ∈ S d:
potenciación de x ∈ S d por α ∈ R
7
la perturbación: ¿limitación y/o potencialidad en
el estudio de fenómenos composicionales?
ejemplo: plantel con agua, tierra, y simiente
composición en kilos: [180, 120, 60]
en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6]
y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9]
perturbación correspondiente al cambio:
· ¸ · ¸
6/9 2/9 1/9 1 1 1
x1 ª x0 = C , , = , ,
3/6 2/6 1/6 2 4 4
¿qué pasó?
(a) llovió, resultando [360, 120, 60] kilos de agua, tierra
y simiente
(b) hizo viento, se llevó tierra y simiente, resultando
[180, 60, 30] kilos de agua, tierra y simiente
(c) llovió e hizo viento, resultando [270, 90, 45] kilos
de agua, tierra y simiente
el resultado da siempre la misma composición
⇒ sin información externa es imposible decidir qué
escenario es correcto (limitación), pero podemos
usarlos como hipótesis de trabajo (potencialidad)
8
producto escalar, norma y distancia
d d
1 X X xi yi
hx, yia = ln ln
2d i=1 j=1 xj yj
v
u d X d µ ¶2
u1 X xi
kxka = t ln
2d i=1 j=1 xj
v
u d X d µ ¶2
u1 X xi yi
da(x, y) = t ln − ln
2d i=1 j=1 xj yj
¡ ¢
Scd, ⊕, ¯, h., .ia es un espacio Euclı́deo
9
espacio real Rd sı́mplex S d
suma: x + y perturbación: x ⊕ y
producto: α · x potenciación: α ¯ x
distancia Euclı́dea: distancia de Aitchison:
de (x, y) da (x, y)
vector de medias: centro métrico:
n 1
Ln
1X x̄ = n ¯ ( `=1 x`)
x̄ = x` = C [g1, g2, ..., gd]
n
`=1 Ã n !1/n
Y
gi = xi`
`=1
10
operación centrado: representar x ª x̄
observaciones:
(a) la muestra centrada gravitará entorno al bari-
centro
(b) es muy útil para visualizar estructuras en los
datos en un diagrama ternario
(c) la perturbación transforma lı́neas rectas en lı́neas
rectas ⇒ es posible incluir en la representación
gráfica tanto tramas de referencia como campos
composicionales sin riesgo de distorsión no lin-
eal
11
representación habitual de datos composicionales:
coordenadas en la base canónica de Rd:
x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1]
Pd
= i=1 xi · ei
pero:
12
coordenadas alr (additive logratio)
µ ¶
x1 x2 xd−1
alr(x) = ln , ln , ..., ln
xd xd xd
problema: la base no es ortogonal ⇒
da(x, y) 6= de(alr(x), alr(y))
13
coordenadas ilr (isometric logratio)
à Qd−1 !
1 x1 1 x1x2 1 xi
ilr(x) = √ ln , √ ln , ..., p ln i=1
2 x2 6 x3x3 d(d − 1) xd−1
d
14
trabajar en coordenadas permite aplicar cualquier
técnica multivariante
15
2
√1 MN
ln NN·MM = 0, 5548
6
MN 2
⇐⇒ ln NN·MM = 1, 3590
MN2
⇐⇒ NN·MM = 3, 8922
⇐⇒ MN2 = 3, 8922 · NN · MM
16
el biplot como herramienta gráfica
del análisis exploratorio
• el origen O
• d vértices νi
• n casos (observaciones) α`
• d radios Oνi
• vı́nculos νiνj
17
propiedades
h i
• |νiνj |2 ≈ Var ln xxji
h i
2 xi
• |Oνi| ≈ Var ln g(x)
h i
xi xj
• cos(νiOνj ) ≈ Corr ln g(x) , ln g(x)
• intersección (νiνj , νk ν`) = M ⇒
· ¸
xi xk
cos(νiM νk ) ≈ Corr ln , ln
xj x`
• νiνj y
h νk ν` ≈ en i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒
Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia
`
18
conclusiones
• para el estudio de fenómenos aleatorios en ge-
neral, y composicionales en particular, es esen-
cial determinar el espacio soporte de las obser-
vaciones y optar por una métrica adecuada al
problema antes de iniciar el estudio
• si el soporte y la métrica corresponden a una
estructura de espacio Euclı́deo, en general es
más fácil trabajar en coordenadas respecto a
una base ortonormal
• la geometrı́a de Aitchison en el sı́mplex y las co-
ordenadas clr e ilr permiten aplicar técnicas de
análisis de datos e inferencia estadı́stica a con-
juntos de datos composicionales sin problemas
• el problema pendiente es hallar en cada caso las
expresiones que mejor facilitan la interpretación
de los resultados
19