Vous êtes sur la page 1sur 19

El análisis estadı́stico de datos

composicionales
Vera Pawlowsky-Glahn

Dept. d’Informàtica i Matemàtica Aplicada


Universitat de Girona
vera.pawlowsky@udg.es

1
ejemplo 1: hipótesis genéticas
genotipos en el sistema MN de grupos sanguı́neos

individuo MN MM NN individuo MN MM NN
Ab1 0.13 0.01 0.86 In4 0.47 0.41 0.12
Ab2 0.14 0.02 0.84 In5 0.46 0.43 0.11
Ab3 0.21 0.01 0.78 InAm1 0.45 0.46 0.09
Ab4 0.37 0.05 0.58 InAm2 0.43 0.48 0.09
Ab5 0.39 0.03 0.58 InAm3 0.44 0.45 0.11
Ab6 0.38 0.07 0.55 InAm4 0.40 0.57 0.03
Ch1 0.49 0.25 0.26 InAm5 0.17 0.81 0.02
Ch2 0.49 0.26 0.25 InAm6 0.18 0.79 0.03
Ch3 0.50 0.28 0.22 Es1 0.38 0.58 0.04
Ch4 0.51 0.29 0.20 Es2 0.34 0.60 0.04
In1 0.41 0.25 0.26 Es3 0.33 0.65 0.02
In2 0.49 0.24 0.27 Es4 0.30 0.65 0.05
In3 0.49 0.32 0.19 Es5 0.19 0.80 0.01
Ab = Aborigen; Ch = Chino; In= Indio;
InAm = Indio Americano; Es = Eskimo

a pesar de la gran variabilidad observable en éstos


datos, ¿responden a una estabilidad subyacente, a
una ley genética?

2
ejemplo 2: fraccionamiento de olivina magnésica
análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii)

SiO2 TiO2 Al2 O3 Fe2 O3 FeO MnO MgO CaO Na2 O K2 O P2 O5

0.4834 0.0233 0.1149 0.0159 0.1004 0.0018 0.1359 0.0986 0.0190 0.0044 0.0023
0.4890 0.0247 0.1240 0.0215 0.0942 0.0017 0.1110 0.1065 0.0202 0.0047 0.0024
0.4570 0.0170 0.0835 0.0212 0.1004 0.0017 0.2311 0.0699 0.0133 0.0032 0.0016
0.4558 0.0154 0.0818 0.0160 0.1046 0.0017 0.2391 0.0680 0.0128 0.0031 0.0015
0.4936 0.0331 0.1212 0.0177 0.0991 0.0017 0.1048 0.0967 0.0225 0.0065 0.0030
0.4667 0.0200 0.0952 0.0217 0.0982 0.0018 0.1934 0.0820 0.0154 0.0038 0.0018
0.4818 0.0234 0.1144 0.0226 0.0947 0.0018 0.1367 0.0988 0.0189 0.0046 0.0022
0.4797 0.0232 0.1119 0.0246 0.0937 0.0018 0.1434 0.0965 0.0186 0.0045 0.0021
0.4699 0.0201 0.0991 0.0213 0.0973 0.0018 0.1832 0.0859 0.0158 0.0037 0.0019
0.4917 0.0273 0.1254 0.0183 0.1002 0.0018 0.1005 0.1055 0.0209 0.0056 0.0026
0.4845 0.0247 0.1181 0.0281 0.0892 0.0018 0.1253 0.1019 0.0193 0.0048 0.0023
0.4794 0.0224 0.1118 0.0241 0.0937 0.0018 0.1465 0.0959 0.0182 0.0041 0.0021
0.4847 0.0235 0.1164 0.0104 0.1037 0.0018 0.1324 0.1013 0.0189 0.0045 0.0023
0.4897 0.0248 0.1205 0.0139 0.1017 0.0018 0.1118 0.1083 0.0173 0.0080 0.0024
0.4874 0.0244 0.1160 0.0138 0.1018 0.0018 0.1235 0.1045 0.0167 0.0079 0.0023
0.4968 0.0303 0.1293 0.0160 0.0969 0.0017 0.0885 0.1098 0.0224 0.0055 0.0027
0.4926 0.0250 0.1233 0.0126 0.1014 0.0018 0.1052 0.1106 0.0202 0.0048 0.0023

Richter y Moore (1966): la variabilidad en la mues-


tra se debe al fraccionamiento de olivina magnésica
a partir de una misma masa magmática
¿confirma el análisis estadı́stico de los datos esta
afirmación derivada de observaciones de campo y
de análisis petrográficos?

3
datos composicionales

x = [x1, . . . , xd] es una composición con d-partes



 xi > 0, para todo i = 1, ..., d
⇐⇒ Pd
 xi = κ (constante)
i=1

ejemplos
κ=1 : probabilidades asociadas a variables
discretas; partes por unidad
κ = 100 : análisis quı́micos de rocas; porcentajes
en general
κ = 180 : ángulos de un triángulo en análisis de
formas
otras unidades frecuentes: ppm, ppb, ...

caracterı́stica esencial: valores relativos

4
espacio muestral: el sı́mplex

d
X
S d = {x = (x1, x2, . . . , xd)|xi > 0; xi = κ}
i=1

S 2 ⊂ R2 segmento

S 3 ⊂ R3 diagrama ternario

S 4 ⊂ R4 tetraedro

5
¿porqué un enfoque estadı́stico particular para datos
composicionales?
en el espacio real sumamos vectores, los multipli-
camos por constantes, estudiamos su ortogonali-
dad, medimos distancias, ...

posible porque Rd es espacio vectorial Euclı́deo

pero:
la geometrı́a Euclı́dea de Rd no es una geometrı́a
apropiada para fenómenos composicionales porque

(a) los resultados pueden no estar en el sı́mplex


p.ej. al sumar vectores composicionales, al
multiplicarlos por una constante, al calcular
regiones de confianza o regiones predictivas
(b) las diferencias Euclı́deas no siempre son me-
didas razonables
p.ej. entre el 5% y el 10% hay un incremento
relativo del 100%, entre el 50% y el 55% hay
un incremento relativo del 10%, pero la dis-
tancia Euclı́dea es la misma

6
una geometrı́a especı́fica para el sı́mplex

operaciones básicas

clausura de z = [z1, ..., zd] ∈ Rd+


" #
κ · z1 κ · zd
C [z] = Pd , · · · , Pd
i=1 zi i=1 zi

perturbación de x ∈ S d por y ∈ S d:

x ⊕ y = C [x1y1, ..., xdyd]

potenciación de x ∈ S d por α ∈ R

α ¯ x = C [xα1 , ..., xαd]

(S d, ⊕, ¯) es un espacio vectorial real

7
la perturbación: ¿limitación y/o potencialidad en
el estudio de fenómenos composicionales?
ejemplo: plantel con agua, tierra, y simiente
composición en kilos: [180, 120, 60]
en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6]
y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9]
perturbación correspondiente al cambio:
· ¸ · ¸
6/9 2/9 1/9 1 1 1
x1 ª x0 = C , , = , ,
3/6 2/6 1/6 2 4 4
¿qué pasó?
(a) llovió, resultando [360, 120, 60] kilos de agua, tierra
y simiente
(b) hizo viento, se llevó tierra y simiente, resultando
[180, 60, 30] kilos de agua, tierra y simiente
(c) llovió e hizo viento, resultando [270, 90, 45] kilos
de agua, tierra y simiente
el resultado da siempre la misma composición
⇒ sin información externa es imposible decidir qué
escenario es correcto (limitación), pero podemos
usarlos como hipótesis de trabajo (potencialidad)

8
producto escalar, norma y distancia

d d
1 X X xi yi
hx, yia = ln ln
2d i=1 j=1 xj yj

v
u d X d µ ¶2
u1 X xi
kxka = t ln
2d i=1 j=1 xj

v
u d X d µ ¶2
u1 X xi yi
da(x, y) = t ln − ln
2d i=1 j=1 xj yj

¡ ¢
Scd, ⊕, ¯, h., .ia es un espacio Euclı́deo

geometrı́a de Aitchison sobre el sı́mplex

9
espacio real Rd sı́mplex S d

suma: x + y perturbación: x ⊕ y
producto: α · x potenciación: α ¯ x
distancia Euclı́dea: distancia de Aitchison:
de (x, y) da (x, y)
vector de medias: centro métrico:
n 1
Ln
1X x̄ = n ¯ ( `=1 x`)
x̄ = x` = C [g1, g2, ..., gd]
n
`=1 Ã n !1/n
Y
gi = xi`
`=1

distancia y traslación: dist. y perturbación:


de(x + z, y + z) = de(x, y) da(x ⊕ z, y ⊕ z) = da(x, y)
distancia y escalado: dist. y potenciación:
de(α · x, α · y) = |α|de(x, y) da(α ¯ x, α ¯ y) = |α|da(x, y)

10
operación centrado: representar x ª x̄

observaciones:
(a) la muestra centrada gravitará entorno al bari-
centro
(b) es muy útil para visualizar estructuras en los
datos en un diagrama ternario
(c) la perturbación transforma lı́neas rectas en lı́neas
rectas ⇒ es posible incluir en la representación
gráfica tanto tramas de referencia como campos
composicionales sin riesgo de distorsión no lin-
eal

11
representación habitual de datos composicionales:
coordenadas en la base canónica de Rd:
x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1]
Pd
= i=1 xi · ei

ventaja: fácil de interpretar


problemas:
(a) no toda combinación de coeficientes lleva a un
elemento de S d (valores negativos y nulos no
están permitidos)
(b) los vectores {e1, e2, . . . , ed} no pertenecen a S d ⇒
no es ni un sistema de generadores, ni una base
(c) trabajar con la perturbación y la potenciación
no es fácil

pero:

S d espacio vectorial Euclı́deo ⇒


permite la representación en coordenadas

12
coordenadas alr (additive logratio)
µ ¶
x1 x2 xd−1
alr(x) = ln , ln , ..., ln
xd xd xd
problema: la base no es ortogonal ⇒
da(x, y) 6= de(alr(x), alr(y))

coordenadas clr (centered logratio)


µ ¶
x1 x2 xd
clr(x) = ln , ln , ..., ln
g(x) g(x) g(x)
³Q ´1/d
d
con g(x) = i=1 xi = media geométrica de x

ventaja: da(x, y) = de(clr(x), clr(y))


problema: son coordenadas en un sistema ge-
nerador de Rd y los puntos se sitúan sobre un
hiperplano por el orı́gen ortogonal al vector
[1, 1, . . . , 1] ⇒ matriz de covarianzas singular

13
coordenadas ilr (isometric logratio)
à Qd−1 !
1 x1 1 x1x2 1 xi
ilr(x) = √ ln , √ ln , ..., p ln i=1
2 x2 6 x3x3 d(d − 1) xd−1
d

ventaja: coordenadas en una base ortonormal

⇒ da(x, y) = de(ilr(x), ilr(y))


⇒ la matriz de covarianzas no es singular
⇒ podemos aplicar estadı́stica multivariante habi-
tual a las coordenadas

desventaja: resultados difı́ciles de interpretar

solución: calcular en coordenadas en una base


ortonormal y expresar los resultados en la base
canónica de Rd sin abandonar el simplex

14
trabajar en coordenadas permite aplicar cualquier
técnica multivariante

• permite definir distribuciones en el sı́mplex, p.ej.


x sigue una normal en S d ⇐⇒ las coordenadas
ilr(x) siguen una normal multivariante en Rd−1
• los parámetros se estiman a partir de la ex-
presión de las observaciones en coordenadas, p.ej.
por máxima verosimilitud
• pueden construirse regiones predictivas para las
observaciones y regiones de confianza para el
centro métrico
• pueden utilizarse técnicas habituales, como análisis
de componentes principales, cluster, discrimi-
nante, factorial, ...)
• problema: interpretación en partes

15
2
√1 MN
ln NN·MM = 0, 5548
6

MN 2
⇐⇒ ln NN·MM = 1, 3590

MN2
⇐⇒ NN·MM = 3, 8922

⇐⇒ MN2 = 3, 8922 · NN · MM

ley de la genética de Hardy-Weinberg:


MN2 = 4 · NN · MM

16
el biplot como herramienta gráfica
del análisis exploratorio

es la representación simultánea de las variables


y observaciones expresadas en coordenadas clr
mediante una aproximación de rango dos

elementos principales de un biplot

• el origen O
• d vértices νi
• n casos (observaciones) α`
• d radios Oνi
• vı́nculos νiνj

17
propiedades
h i
• |νiνj |2 ≈ Var ln xxji
h i
2 xi
• |Oνi| ≈ Var ln g(x)
h i
xi xj
• cos(νiOνj ) ≈ Corr ln g(x) , ln g(x)
• intersección (νiνj , νk ν`) = M ⇒
· ¸
xi xk
cos(νiM νk ) ≈ Corr ln , ln
xj x`

• νiνj y
h νk ν` ≈ en i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒
Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia
`

• biplot de una subcomposición ⇐⇒ seleccionar


vértices
h i
• |νiνj | ≈ 0 ⇒ Var ln xj ≈ 0 ⇒ xxji ≈ constante
xi

• vértices aprox. colineales


⇒ biplot uni-dimensional
⇒ variabilidad uni-dimensional

18
conclusiones
• para el estudio de fenómenos aleatorios en ge-
neral, y composicionales en particular, es esen-
cial determinar el espacio soporte de las obser-
vaciones y optar por una métrica adecuada al
problema antes de iniciar el estudio
• si el soporte y la métrica corresponden a una
estructura de espacio Euclı́deo, en general es
más fácil trabajar en coordenadas respecto a
una base ortonormal
• la geometrı́a de Aitchison en el sı́mplex y las co-
ordenadas clr e ilr permiten aplicar técnicas de
análisis de datos e inferencia estadı́stica a con-
juntos de datos composicionales sin problemas
• el problema pendiente es hallar en cada caso las
expresiones que mejor facilitan la interpretación
de los resultados

19

Vous aimerez peut-être aussi