Académique Documents
Professionnel Documents
Culture Documents
Muestreo Aleatorio
Representación de n puntos en p dimensiones
∑ Xi = X
i =1
1 + X 2 + ... + X n
- La expresión expresa el
- Y es un vector de
componentes de orden
nxp.
- Cada componente del
vector X, xj para j=1,
2,…,p, se transforma en
la nueva variable
(x j − x j )
yj =
sj
y con varianza unitaria
p
VT = tr (S ) = ∑ s 2j
j =1
VG = S
Su raíz cuadrada se denomina desviación típica generalizada, y
tiene las propiedades siguientes:
⎡ s 2
r12 s1s2 ⎤ VG = s12 s22 (1 − r122 )
S=⎢ 1
2 ⎥
⎣ r12 s1s2 s2 ⎦ DTG = VG = s1s2 (1 − r122 )
( Area ) 2
S = = s12 s22 (1 − r122 )
(n − 1)
La varianza generalizada en ℜp
Volumen 2
S =
( n − 1) p −1
Observación:
No es útil para comparar conjuntos de datos con diferentes números
de variables. Debido a que la VG se incrementa o decrece
monótonamente al incrementar el número de variables.
JOHNSON & WICHERN (2007)
4) Varianza Efectiva:
Peña y Rodríguez (2003) propusieron la siguiente medida
global de variabilidad:
VE = VG = S
1/ p 1/ p
DE = VG = S
1/ 2 p 1/ 2 p
Una comparación de las figuras 3.10 y 3.6 revela la influencia del vector d2
(gran variabilidad en X2) sobre el cuadrado del volumen |S| mucho mas
grande que su influencia en el cuadrado del volumen |R|.
JOHNSON & WICHERN (2007)
Ejemplo
Dada la siguiente matriz de varianzas y covarianzas:
Se tiene:
Además, la matriz de correlaciones es:
De lo anterior obtenemos:
Verificamos:
Ejemplo
Este conjunto de datos
presenta 34 observaciones y 3
variables. Las observaciones
corresponden a distintas
acciones que cotizan en el
mercado continuo español y las
variables a tres medidas de
rentabilidad de estas acciones
durante un período de tiempo.
Las variables son : X1 es la
rentabilidad efectiva por
dividendos, X2 es la
proporción de beneficios que
va a dividendos y X3 el ratio
entre precio por acción y
beneficios.
Histogram of x1
6
Frequency
0
4 6 8 10 12 14 16 18
x1
Histogram of x2
9
6
Frequency
0
30 40 50 60 70 80 90 100
x2
10
8
Frequency
0
5 10 15 20 25 30
x3
Los histogramas de las tres variables han mostrado una clara falta de
normalidad. Una posibilidad, es transformar las variables para facilitar
su interpretación.
Tomando logaritmos, la matriz de covarianzas de las variables
transformadas, es como sigue:
La variabilidad efectiva es
equivalente
Concepto de distancia en ℜp
1/ r
⎛ p
r ⎞
d (r )
kl = ⎜ ∑ ( xkj − xlj ) ⎟
⎝ j =1 ⎠
1/ 2
⎛ p
2⎞
r =2→d
(2)
kl = ⎜ ∑ ( xkj − xlj ) ⎟
⎝ j =1 ⎠
y, análogamente
Observación
La distancia euclídea depende mucho de las unidades de medida, y
cuando no existe una unidad fija natural, como en este ejemplo, no
está justificado utilizarla.
Una manera de evitar el problema de las unidades es dividir cada
variable por un término que elimine el efecto de la escala. Esto
conduce a la familia de métricas euclídeas ponderadas, que se
definen por
que puede verse como una distancia euclídea donde cada coordenada
se pondera inversamente proporcional a la varianza.
Observación: Distancia Estadística
La variabilidad inherente en la
dirección Xl es mayor que la
variabilidad en la dirección X2.
Con esta métrica, que es más razonable, A está más próximo a B que a
C.
La Distancia de Mahalanobis
Se define la distancia de Mahalanobis entre un
punto y su vector de medias por
Ejemplo
Entre el peso y la altura hay correlación positiva: al aumentar la
estatura de una persona en promedio también lo hace su peso. Si
consideramos las tres personas anteriores A(180, 80), B(170, 72) y
C(165, 81) con desviaciones típicas 10 cm y 10 kg y el coeficiente
de correlación 0,7, los cuadrados de las distancias de Mahalanobis
serán:
y
p p
= ∑∑aij (Yai −Ybi )(Yaj −Ybj )
i =1 j =1
Donde aij son los elementos del inverso de S, a veces se les denota Sij
Ejemplo: Talla y Peso
Y (cm)
centroide
200
Talla
Valor 160
atípico
X
110 (kg)
Peso
El centroide es el punto rojo , en distancias euclidianas las
distancias de los otros dos puntos al centroide parecen ser
iguales, sin embargo, para las distancias de Mahalanobis,
hay una diferencia grande, con D2( )>D2( )
MEDIDAS DE DEPENDENCIA LINEAL
Un objetivo fundamental de la descripción de los datos multivariantes
es comprender la estructura de dependencias entre las variables.
Estas dependencias pueden estudiarse:
Propiedades:
(1) 0 ≤ |rjk| ≤ 1;
(2) si existe una relación lineal exacta entre las variables, xij =
a+bxik, entonces |rjk| = 1;
(3) rjk es invariante ante transformaciones lineales de las
variables.
La dependencia por pares entre las variables se mide por la matriz de
correlación.
Se observa:
- La máxima correlación aparece entre la primera y la tercera variable
(estatura y longitud del pie) y es 0,93.
- La mínima es entre la longitud del brazo y el diámetro del cráneo
(0,48).
- En general las correlaciones más bajas aparecen entre el diámetro
del cráneo y el resto de las variables.
La matriz S−1 es:
donde
Ejemplo
Esta matriz muestra que las relaciones parciales más fuertes se dan
entre la estatura y las longitudes del pie (0,48) y del brazo (0,52). Por
ejemplo este coeficiente se interpreta que si consideramos personas
con el mismo peso, pie, anchura de espalda, diámetro del cráneo y
longitud rodilla tobillo, hay una correlación positiva entre la estatura y
la longitud del brazo de 0,52. La tabla muestra que para personas de la
misma estatura, peso y demás medidas físicas, la correlación entre la
anchura de la espalda y la longitud rodilla tobillo es negativa.
El coeficiente global de dependencia es:
βˆij 1 s ij
s ij = − 2
s = 2
ii
rij . R = −
s (i )
r sr (i ) s ii s jj
Asimetría y Kurtosis
Tarea
1. Calcular el vector de medias y el de medianas para las variables
de medidas físicas. Comparar sus ventajas como medidas de
centralización de estas variables.
2. Obtener para las variables de medidas físicas sus medidas de
asimetría y kurtosis. Comentar sus resultados.
3. Con los siguientes datos: