Vera Pawlowsky PDF

El análisis estadı́stico de datos
composicionales
Vera Pawlowsky-Glahn
Dept. d’Informàtica i Matemàtica Aplicada

Universitat de Girona
vera.pawlowsky@udg.es
1
ejemplo 1: hipótesis genéticas
genotipos en el sistema MN de grupos sanguı́neos
individuo MN MM NN individuo MN MM NN
Ab1 0.13 0.01 0.86 In4 0.47 0.41 0.12
Ab2 0.14 0.02 0.84 In5 0.46 0.43 0.11
Ab3 0.21 0.01 0.78 InAm1 0.45 0.46 0.09
Ab4 0.37 0.05 0.58 InAm2 0.43 0.48 0.09
Ab5 0.39 0.03 0.58 InAm3 0.44 0.45 0.11
Ab6 0.38 0.07 0.55 InAm4 0.40 0.57 0.03
Ch1 0.49 0.25 0.26 InAm5 0.17 0.81 0.02
Ch2 0.49 0.26 0.25 InAm6 0.18 0.79 0.03
Ch3 0.50 0.28 0.22 Es1 0.38 0.58 0.04
Ch4 0.51 0.29 0.20 Es2 0.34 0.60 0.04
In1 0.41 0.25 0.26 Es3 0.33 0.65 0.02
In2 0.49 0.24 0.27 Es4 0.30 0.65 0.05
In3 0.49 0.32 0.19 Es5 0.19 0.80 0.01
Ab = Aborigen; Ch = Chino; In= Indio;
InAm = Indio Americano; Es = Eskimo
a pesar de la gran variabilidad observable en éstos

datos, ¿responden a una estabilidad subyacente, a
una ley genética?
2
ejemplo 2: fraccionamiento de olivina magnésica
análisis quı́micos de rocas del lago de lava Kilauea Iki (Hawaii)
SiO2 TiO2 Al2 O3 Fe2 O3 FeO MnO MgO CaO Na2 O K2 O P2 O5
0.4834 0.0233 0.1149 0.0159 0.1004 0.0018 0.1359 0.0986 0.0190 0.0044 0.0023
0.4890 0.0247 0.1240 0.0215 0.0942 0.0017 0.1110 0.1065 0.0202 0.0047 0.0024
0.4570 0.0170 0.0835 0.0212 0.1004 0.0017 0.2311 0.0699 0.0133 0.0032 0.0016
0.4558 0.0154 0.0818 0.0160 0.1046 0.0017 0.2391 0.0680 0.0128 0.0031 0.0015
0.4936 0.0331 0.1212 0.0177 0.0991 0.0017 0.1048 0.0967 0.0225 0.0065 0.0030
0.4667 0.0200 0.0952 0.0217 0.0982 0.0018 0.1934 0.0820 0.0154 0.0038 0.0018
0.4818 0.0234 0.1144 0.0226 0.0947 0.0018 0.1367 0.0988 0.0189 0.0046 0.0022
0.4797 0.0232 0.1119 0.0246 0.0937 0.0018 0.1434 0.0965 0.0186 0.0045 0.0021
0.4699 0.0201 0.0991 0.0213 0.0973 0.0018 0.1832 0.0859 0.0158 0.0037 0.0019
0.4917 0.0273 0.1254 0.0183 0.1002 0.0018 0.1005 0.1055 0.0209 0.0056 0.0026
0.4845 0.0247 0.1181 0.0281 0.0892 0.0018 0.1253 0.1019 0.0193 0.0048 0.0023
0.4794 0.0224 0.1118 0.0241 0.0937 0.0018 0.1465 0.0959 0.0182 0.0041 0.0021
0.4847 0.0235 0.1164 0.0104 0.1037 0.0018 0.1324 0.1013 0.0189 0.0045 0.0023
0.4897 0.0248 0.1205 0.0139 0.1017 0.0018 0.1118 0.1083 0.0173 0.0080 0.0024
0.4874 0.0244 0.1160 0.0138 0.1018 0.0018 0.1235 0.1045 0.0167 0.0079 0.0023
0.4968 0.0303 0.1293 0.0160 0.0969 0.0017 0.0885 0.1098 0.0224 0.0055 0.0027
0.4926 0.0250 0.1233 0.0126 0.1014 0.0018 0.1052 0.1106 0.0202 0.0048 0.0023
Richter y Moore (1966): la variabilidad en la mues-

tra se debe al fraccionamiento de olivina magnésica
a partir de una misma masa magmática
¿confirma el análisis estadı́stico de los datos esta
afirmación derivada de observaciones de campo y
de análisis petrográficos?
3
datos composicionales
x = [x1, . . . , xd] es una composición con d-partes


 xi > 0, para todo i = 1, ..., d
⇐⇒ Pd
 xi = κ (constante)
i=1
ejemplos
κ=1 : probabilidades asociadas a variables
discretas; partes por unidad
κ = 100 : análisis quı́micos de rocas; porcentajes
en general
κ = 180 : ángulos de un triángulo en análisis de
formas
otras unidades frecuentes: ppm, ppb, ...
caracterı́stica esencial: valores relativos
4
espacio muestral: el sı́mplex
d
X
S d = {x = (x1, x2, . . . , xd)|xi > 0; xi = κ}
i=1
S 2 ⊂ R2 segmento
S 3 ⊂ R3 diagrama ternario
S 4 ⊂ R4 tetraedro
5
¿porqué un enfoque estadı́stico particular para datos
composicionales?
en el espacio real sumamos vectores, los multipli-
camos por constantes, estudiamos su ortogonali-
dad, medimos distancias, ...
posible porque Rd es espacio vectorial Euclı́deo
pero:
la geometrı́a Euclı́dea de Rd no es una geometrı́a
apropiada para fenómenos composicionales porque
(a) los resultados pueden no estar en el sı́mplex

p.ej. al sumar vectores composicionales, al
multiplicarlos por una constante, al calcular
regiones de confianza o regiones predictivas
(b) las diferencias Euclı́deas no siempre son me-
didas razonables
p.ej. entre el 5% y el 10% hay un incremento
relativo del 100%, entre el 50% y el 55% hay
un incremento relativo del 10%, pero la dis-
tancia Euclı́dea es la misma
6
una geometrı́a especı́fica para el sı́mplex
operaciones básicas
clausura de z = [z1, ..., zd] ∈ Rd+

" #
κ · z1 κ · zd
C [z] = Pd , · · · , Pd
i=1 zi i=1 zi
perturbación de x ∈ S d por y ∈ S d:
x ⊕ y = C [x1y1, ..., xdyd]
potenciación de x ∈ S d por α ∈ R
α ¯ x = C [xα1 , ..., xαd]
(S d, ⊕, ¯) es un espacio vectorial real
7
la perturbación: ¿limitación y/o potencialidad en
el estudio de fenómenos composicionales?
ejemplo: plantel con agua, tierra, y simiente
composición en kilos: [180, 120, 60]
en proporciones: x0 = [a0, t0, s0] = [3/6, 2/6, 1/6]
y transcurrida una noche: x1 = [a1, t1, s1] = [6/9, 2/9, 1/9]
perturbación correspondiente al cambio:
· ¸ · ¸
6/9 2/9 1/9 1 1 1
x1 ª x0 = C , , = , ,
3/6 2/6 1/6 2 4 4
¿qué pasó?
(a) llovió, resultando [360, 120, 60] kilos de agua, tierra
y simiente
(b) hizo viento, se llevó tierra y simiente, resultando
[180, 60, 30] kilos de agua, tierra y simiente
(c) llovió e hizo viento, resultando [270, 90, 45] kilos
de agua, tierra y simiente
el resultado da siempre la misma composición
⇒ sin información externa es imposible decidir qué
escenario es correcto (limitación), pero podemos
usarlos como hipótesis de trabajo (potencialidad)
8
producto escalar, norma y distancia
d d
1 X X xi yi
hx, yia = ln ln
2d i=1 j=1 xj yj
v
u d X d µ ¶2
u1 X xi
kxka = t ln
2d i=1 j=1 xj
v
u d X d µ ¶2
u1 X xi yi
da(x, y) = t ln − ln
2d i=1 j=1 xj yj
¡ ¢
Scd, ⊕, ¯, h., .ia es un espacio Euclı́deo
geometrı́a de Aitchison sobre el sı́mplex
9
espacio real Rd sı́mplex S d
suma: x + y perturbación: x ⊕ y
producto: α · x potenciación: α ¯ x
distancia Euclı́dea: distancia de Aitchison:
de (x, y) da (x, y)
vector de medias: centro métrico:
n 1
Ln
1X x̄ = n ¯ ( `=1 x`)
x̄ = x` = C [g1, g2, ..., gd]
n
`=1 Ã n !1/n
Y
gi = xi`
`=1
distancia y traslación: dist. y perturbación:

de(x + z, y + z) = de(x, y) da(x ⊕ z, y ⊕ z) = da(x, y)
distancia y escalado: dist. y potenciación:
de(α · x, α · y) = |α|de(x, y) da(α ¯ x, α ¯ y) = |α|da(x, y)
10
operación centrado: representar x ª x̄
observaciones:
(a) la muestra centrada gravitará entorno al bari-
centro
(b) es muy útil para visualizar estructuras en los
datos en un diagrama ternario
(c) la perturbación transforma lı́neas rectas en lı́neas
rectas ⇒ es posible incluir en la representación
gráfica tanto tramas de referencia como campos
composicionales sin riesgo de distorsión no lin-
eal
11
representación habitual de datos composicionales:
coordenadas en la base canónica de Rd:
x = x1 [1, 0, . . . , 0] + · · · + xd [0, . . . , 0, 1]
Pd
= i=1 xi · ei
ventaja: fácil de interpretar

problemas:
(a) no toda combinación de coeficientes lleva a un
elemento de S d (valores negativos y nulos no
están permitidos)
(b) los vectores {e1, e2, . . . , ed} no pertenecen a S d ⇒
no es ni un sistema de generadores, ni una base
(c) trabajar con la perturbación y la potenciación
no es fácil
pero:
S d espacio vectorial Euclı́deo ⇒

permite la representación en coordenadas
12
coordenadas alr (additive logratio)
µ ¶
x1 x2 xd−1
alr(x) = ln , ln , ..., ln
xd xd xd
problema: la base no es ortogonal ⇒
da(x, y) 6= de(alr(x), alr(y))
coordenadas clr (centered logratio)

µ ¶
x1 x2 xd
clr(x) = ln , ln , ..., ln
g(x) g(x) g(x)
³Q ´1/d
d
con g(x) = i=1 xi = media geométrica de x
ventaja: da(x, y) = de(clr(x), clr(y))

problema: son coordenadas en un sistema ge-
nerador de Rd y los puntos se sitúan sobre un
hiperplano por el orı́gen ortogonal al vector
[1, 1, . . . , 1] ⇒ matriz de covarianzas singular
13
coordenadas ilr (isometric logratio)
Ã Qd−1 !
1 x1 1 x1x2 1 xi
ilr(x) = √ ln , √ ln , ..., p ln i=1
2 x2 6 x3x3 d(d − 1) xd−1
d
ventaja: coordenadas en una base ortonormal
⇒ da(x, y) = de(ilr(x), ilr(y))

⇒ la matriz de covarianzas no es singular
⇒ podemos aplicar estadı́stica multivariante habi-
tual a las coordenadas
desventaja: resultados difı́ciles de interpretar
solución: calcular en coordenadas en una base

ortonormal y expresar los resultados en la base
canónica de Rd sin abandonar el simplex
14
trabajar en coordenadas permite aplicar cualquier
técnica multivariante
• permite definir distribuciones en el sı́mplex, p.ej.

x sigue una normal en S d ⇐⇒ las coordenadas
ilr(x) siguen una normal multivariante en Rd−1
• los parámetros se estiman a partir de la ex-
presión de las observaciones en coordenadas, p.ej.
por máxima verosimilitud
• pueden construirse regiones predictivas para las
observaciones y regiones de confianza para el
centro métrico
• pueden utilizarse técnicas habituales, como análisis
de componentes principales, cluster, discrimi-
nante, factorial, ...)
• problema: interpretación en partes
15
2
√1 MN
ln NN·MM = 0, 5548
6
MN 2
⇐⇒ ln NN·MM = 1, 3590
MN2
⇐⇒ NN·MM = 3, 8922
⇐⇒ MN2 = 3, 8922 · NN · MM
ley de la genética de Hardy-Weinberg:

MN2 = 4 · NN · MM
16
el biplot como herramienta gráfica
del análisis exploratorio
es la representación simultánea de las variables

y observaciones expresadas en coordenadas clr
mediante una aproximación de rango dos
elementos principales de un biplot
• el origen O
• d vértices νi
• n casos (observaciones) α`
• d radios Oνi
• vı́nculos νiνj
17
propiedades
h i
• |νiνj |2 ≈ Var ln xxji
h i
2 xi
• |Oνi| ≈ Var ln g(x)
h i
xi xj
• cos(νiOνj ) ≈ Corr ln g(x) , ln g(x)
• intersección (νiνj , νk ν`) = M ⇒
· ¸
xi xk
cos(νiM νk ) ≈ Corr ln , ln
xj x`
• νiνj y
h νk ν` ≈ en i ángulo recto ⇒ cos(νiM νk ) ≈ 0 ⇒
Corr ln xxji , ln xxk ≈ 0 ⇒ posible independencia
`
• biplot de una subcomposición ⇐⇒ seleccionar

vértices
h i
• |νiνj | ≈ 0 ⇒ Var ln xj ≈ 0 ⇒ xxji ≈ constante
xi
• vértices aprox. colineales

⇒ biplot uni-dimensional
⇒ variabilidad uni-dimensional
18
conclusiones
• para el estudio de fenómenos aleatorios en ge-
neral, y composicionales en particular, es esen-
cial determinar el espacio soporte de las obser-
vaciones y optar por una métrica adecuada al
problema antes de iniciar el estudio
• si el soporte y la métrica corresponden a una
estructura de espacio Euclı́deo, en general es
más fácil trabajar en coordenadas respecto a
una base ortonormal
• la geometrı́a de Aitchison en el sı́mplex y las co-
ordenadas clr e ilr permiten aplicar técnicas de
análisis de datos e inferencia estadı́stica a con-
juntos de datos composicionales sin problemas
• el problema pendiente es hallar en cada caso las
expresiones que mejor facilitan la interpretación
de los resultados
19

Vera Pawlowsky PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Vera Pawlowsky PDF

Transféré par

Droits d'auteur :

Formats disponibles

El análisis estadı́stico de datos

Dept. d’Informàtica i Matemàtica Aplicada

a pesar de la gran variabilidad observable en éstos

SiO2 TiO2 Al2 O3 Fe2 O3 FeO MnO MgO CaO Na2 O K2 O P2 O5

Richter y Moore (1966): la variabilidad en la mues-

x = [x1, . . . , xd] es una composición con d-partes

caracterı́stica esencial: valores relativos

posible porque Rd es espacio vectorial Euclı́deo

(a) los resultados pueden no estar en el sı́mplex

clausura de z = [z1, ..., zd] ∈ Rd+

x ⊕ y = C [x1y1, ..., xdyd]

α ¯ x = C [xα1 , ..., xαd]

(S d, ⊕, ¯) es un espacio vectorial real

geometrı́a de Aitchison sobre el sı́mplex

distancia y traslación: dist. y perturbación:

ventaja: fácil de interpretar

S d espacio vectorial Euclı́deo ⇒

coordenadas clr (centered logratio)

ventaja: da(x, y) = de(clr(x), clr(y))

ventaja: coordenadas en una base ortonormal

⇒ da(x, y) = de(ilr(x), ilr(y))

desventaja: resultados difı́ciles de interpretar

solución: calcular en coordenadas en una base

• permite definir distribuciones en el sı́mplex, p.ej.

ley de la genética de Hardy-Weinberg:

es la representación simultánea de las variables

elementos principales de un biplot

• biplot de una subcomposición ⇐⇒ seleccionar

• vértices aprox. colineales

Vous aimerez peut-être aussi