Vous êtes sur la page 1sur 20

FSM71 ‐ ESTADÍSTICA MULTIVARIADA

1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

ANALISIS EXPLORATORIO DE
DATOS MULTIVARIADOS

Métodos Cuantitativos

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

El Vector de Medias
X1 x2
X2
x
.
X= .
(px1) .
x1
Xp

X= 1
n
i xi = 1 X 1
n
t

1 X.i
Xi =
n
 xri =
n
r
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Matriz Varianza-Covarianza

sij = 1
n
i xir xrj - xi xj

s =
1
n
r ( xr - Xr )( xr - Xr )t

t
s =
1 X HX “H” se conoce como
matriz central
n

H = I - 1 11
t
n
Resultado
Mostrar que S es semidefinida positiva y H es simétrica e
idempotente
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

La matriz M = i xr xrt = XtX se conoce como matriz suma

de cuadrados y productos cruzados y se define como:

xt1
xt2
t
X X = x1 x2 . . . xn . = x1xt1 + x2xt2 + ... + xnxtn
.
xtn

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Otras Medidas de Dispersión

Varianza Generalizada S Estimación Máximo


Verosímil
Determinante de la Matriz
Varianza-Covarianza Muestral

Variación Total Tr (S)

Traza de la Matriz Varianza-


Covarianza

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Teorema

La matriz de correlación R de un vector aleatorio “y” con matriz de


covarianzas R se calcula a partir de S mediante la relación:
R = D-1/2 S D-1/2

donde D es una matriz diagonal con el i-ésimo elemento de la


diagonal igual a ii

Teorema

La matriz de correlación R es definida positiva


Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Distancia
Sean P y Q dos puntos que representan medidas
x e y respecto a dos objetos. Una función real
valorada d(P,Q) es una función distancia si tiene las
siguientes propiedades:

I) Simetría d(P,Q) = d(Q,P)

II) No negatividad d(P,Q) > 0, si P = Q


III) Identidad d(P,P) = 0
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Métrica
Una distancia es una MÉTRICA si cumple:
IV) Definición d(P,Q) = 0, si P = Q
V) Desigualdad Triangular d(P,R) + d(R,Q)  d(P,Q)

Ultra Métrica
Una distancia es una ULTRAMÉTRICA si cumple:
VI) d(P,Q) ≤ máx { d(P,X) , d(X,Q) }
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Distancias para
Datos Cuantitativos

a) Distancia Euclidea
b) Distancia Estadística
c) Distancia de Mahalanobis

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

a) Distancia Euclidea

La distancia más corta entre dos puntos P=(x1, x2, ..., xn) y Q=(y1, y2, ..., yn)
está definido por:

d2(P,Q) = (x1 - y1)2 + (x2 - y2)2 + ... + (xn - yn)2

Dada X (nxp) una matriz de datos con filas x’1, x’2, …, x’n, entonces, la
distancia Euclidea entre los puntos (objetos) x’i y x’j es dij, donde:

p
d2ij =  (xik – xjk ) 2 = xi - xj
2
k=1
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Propiedades Adicionales

a) Es semi definida positiva

b) Es invariante frente a transformaciones ortogonales


en las x

c) Cumple la ley de cosenos

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

b) Distancia Estadística
Es un concepto de distancia que además de incluir la variabilidad
también incorpora la presencia de correlación

La forma de equilibrar las ponderaciones de acuerdo a la variabilidad


consiste en dividir cada coordenada por la desviación estándar, así se
obtiene las coordenadas estandarizadas.
x2

C / s22 S11>S22
P
x1
-C / s11 o C / s11
-C / s22
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Si hacemos:

x1 2 x22
d(O,P) = +
s11 s22

La distancias estadística de P a Q se define como:

(x1 - y1)2 + (x2 - y2)2 + ... + (xn - yn)2


d2(P,Q) =
s11 s22 snn

Si s11=s22=...=snn se puede utilizar la fórmula de la distancia


Euclidea

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Si x1 no varía independientemente de x2

x1
x
 2
La variabilidad de x1 es
x2 diferente a la de x2 y,
 además, ambas están
correlacionados
x1

2 x 2
x1 2
d(O,P) = +
s11 s22
donde; 
X1 = x1 cos  + x2 sen 

X2 = - x1 sen  + x2 cos 
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

La distancia estadística más corta entre dos puntos P=(x1, x2, ..., xn) y
Q=(y1, y2, ..., yn) está definido por:

d2(P,Q) = a11(x1 - y1)2 + a22(x2 - y2)2 + ... +app (xn - yn)2

a12(x1 - y1) (x2 - y2) + a13(x1 - y1) (x3 - y3) + ... +ap-1,p (xp-1 - yp-1) (xp - yp)

Los coeficientes de la expresión anterior pueden representarse mediante


un arreglo matricial, así:
a11 a12 ... a1p
a12 a22 ... a2p
.
.
a1p a2p ... app
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Distancia euclidea y distancia estadística


x2

Q
P x1
o

d(P,Q) > d(Q,O) Distancia euclidea


d(P,Q) < d(Q,O) Distancia estadística
Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

b) Distancia de Mahalanobis

La distancia al cuadrado de Mahalanobis entre los puntos xi y xj se


define como:

D2ij = ( xi – xj )’ S-1 ( xi – xj )

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Matrices Definidas Positivas

Dado A una matriz simétrica kxk, entonces, A tiene k pares de


vectores y valores característicos:

1, e1 2, e2 … k, ek

tal que,
1 Si i=j
t
ei ej =
0 si i = j

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

Descomposición Espectral

La descomposición espectral de una matriz simétrica kxk está dado por:

t t
A = 1 e1 e1 + 2 e2 e2 + … + k ek ekt

Dr. Luis Huamanchumo de la Cuba
FSM71 ‐ ESTADÍSTICA MULTIVARIADA
1.  GEOMETRÍA DE LA MUESTRA Y MUESTREO MULTIVARIADO

RESULTADOS
(continuación)
Si A es una matriz kxk definida positiva con descomposición
espectral:

A = 1 e1 e1 = PP
t t

donde PPt = PtP = I

Probar que la matriz raíz cuadrada A1/2 = P1/2Pt tiene las


siguientes propiedades :
a. A1/2 es simétrica
b. A1/2A1/2 = A
c. (A1/2)-1 existe
d. A1/2 A-1/2 = A-1/2A1/2 = I
Dr. Luis Huamanchumo de la Cuba

Vous aimerez peut-être aussi