Vous êtes sur la page 1sur 93

Geometría Muestral y

Muestreo Aleatorio
Representación de n puntos en p dimensiones

Representación de n puntos en 3 dimensiones para las


variables diámetro (D), altura (H) y volumen (V).
Se tiene 60 mediciones tomadas en 10 períodos para 6 máquinas
n

∑ Xi = X
i =1
1 + X 2 + ... + X n

Cada Xi representa una fila de


X, expresado como vector
columna, por tanto, la suma de
los vectores columna dará un
nuevo vector columna que
representa los totales de cada
variable
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
Interpretación geométrica del proceso de encontrar la media
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
JOHNSON & WICHERN (2007)
Observaciones

- La expresión expresa el

producto de los siguientes vectores

- La variabilidad de los datos y la información relativa a las


relaciones lineales entre las variables se resumen en la
matriz de varianzas y covarianzas.
- Esta matriz es cuadrada y simétrica de orden pxp, donde
los términos diagonales son las varianzas y los no
diagonales, las covarianzas entre las variables.
X es de orden nxp

- Y es un vector de
componentes de orden
nxp.
- Cada componente del
vector X, xj para j=1,
2,…,p, se transforma en
la nueva variable
(x j − x j )
yj =
sj
y con varianza unitaria

- Cada xj representa toda la


información de la variable j
Ejemplo IV (Datos de rectángulos)
X es de orden nxp
Ejemplo V
MEDIDAS GLOBALES DE VARIABILIDAD

1) Varianza Total: es una medida global de dispersión para un


conjunto de variables medidas en escala métrica.

p
VT = tr (S ) = ∑ s 2j
j =1

2) Varianza Media: es una medida de dispersión promedio


de un conjunto de variables medidas en escala métrica.
p
1
S 2 = ∑ s 2j
p i =1

Inconveniente: no considera la estructura de dependencia de las


variables y las unidades de medida de las variables.
3) Varianza Generalizada
Una medida global escalar de la variabilidad conjunta de p
variables es la varianza generalizada, que es el determinante de
la matriz de varianzas y covarianzas.

VG = S
Su raíz cuadrada se denomina desviación típica generalizada, y
tiene las propiedades siguientes:

(i) Está bien definida, ya que el determinante de la matriz de


varianzas y covarianzas es siempre mayor o igual que 0.

(ii) Es una medida del área (para p = 2), volumen (para p = 3) o


hipervolumen (para k > 3) ocupado por el conjunto de datos.
Ejemplo
Sea X1, el número de empleados y X2 la ganancia por empleado
de 16 grandes firmas de publicación.

Evaluando la varianza generaliza, obtenemos:

Nótese que la matriz S contiene información sobre la variabilidad de las


variables y también información requerida para calcular el coeficiente de
correlación. Si bien captura la orientación y tamaño del patrón de
comportamiento del diagrama de dispersión entre X1 y X2 no proporciona
información cuando se calcula como varianza generalizada.
Cuando p =2

⎡ s 2
r12 s1s2 ⎤ VG = s12 s22 (1 − r122 )
S=⎢ 1
2 ⎥
⎣ r12 s1s2 s2 ⎦ DTG = VG = s1s2 (1 − r122 )

Interpretación geométrica: Una interpretación de este tipo busca


mostrar las fortalezas y debilidades de este estadístico. Para ello se va
a considerar el área (o volumen) generada en un plano por dos
vectores

Area = d1 d 2 senθ = ( n − 1) s12 ( n − 1) s22 1 − cos 2 θ = ( n − 1) s12 s22 (1 − r122 )


Pero de la definición de varianza generalizada

( Area ) 2
S = = s12 s22 (1 − r122 )
(n − 1)

La varianza generalizada en ℜp

Volumen 2
S =
( n − 1) p −1

Observación:
No es útil para comparar conjuntos de datos con diferentes números
de variables. Debido a que la VG se incrementa o decrece
monótonamente al incrementar el número de variables.
JOHNSON & WICHERN (2007)
4) Varianza Efectiva:
Peña y Rodríguez (2003) propusieron la siguiente medida
global de variabilidad:

VE = VG = S
1/ p 1/ p

DE = VG = S
1/ 2 p 1/ 2 p

No presenta los inconvenientes de la varianza generalizada.


5) Varianza Generalizada, determinada por |R| y su
interpretación geométrica:
La varianza muestral generalizada es afectada excesivamente por
la variabilidad de las mediciones en una sola variable. Por ejemplo,
suponga algún Sii grande o bastante pequeño. Entonces,
geométricamente, el vector correspondiente de la desviación:

será larguísimo o cortísimo y por consiguiente claramente será un


factor importante en determinar el volumen. Consecuentemente, es a
veces útil modificar a escala todos los vectores de la desviación a fin
de que tengan la misma longitud.
Sea el vector de desviaciones de las variables estandarizadas:
JOHNSON & WICHERN (2007)

Una comparación de las figuras 3.10 y 3.6 revela la influencia del vector d2
(gran variabilidad en X2) sobre el cuadrado del volumen |S| mucho mas
grande que su influencia en el cuadrado del volumen |R|.
JOHNSON & WICHERN (2007)

Ejemplo
Dada la siguiente matriz de varianzas y covarianzas:

Se tiene:
Además, la matriz de correlaciones es:

De lo anterior obtenemos:

Verificamos:
Ejemplo
Este conjunto de datos
presenta 34 observaciones y 3
variables. Las observaciones
corresponden a distintas
acciones que cotizan en el
mercado continuo español y las
variables a tres medidas de
rentabilidad de estas acciones
durante un período de tiempo.
Las variables son : X1 es la
rentabilidad efectiva por
dividendos, X2 es la
proporción de beneficios que
va a dividendos y X3 el ratio
entre precio por acción y
beneficios.

Fuente: Peña (2002)


Análisis descriptivo

Las medidas de asimetría y kurtosis indican un alejamiento de la


distribución normal para las tres variables: las dos primeras tienen
valores muy bajos de la kurtosis, lo que indica alta heterogeneidad,
posiblemente por la presencia de dos grupos de datos distintos, y la
tercera tiene alta kurtosis, lo que sugiere la presencia de valores atípicos.
Estas características son muy claras en los histogramas de las
variables. La primera variable, rentabilidad efectiva por dividendos, x1,
muestra dos grupos de acciones con comportamiento distinto.

Histogram of x1

6
Frequency

0
4 6 8 10 12 14 16 18
x1

Histograma de la rentabilidad por dividendos


El histograma de la segunda variable, x2, muestra también dos grupos
de acciones.

Histogram of x2
9

6
Frequency

0
30 40 50 60 70 80 90 100
x2

Proporción de beneficios que va dividendos


Finalmente, la distribución de la tercera variable es muy asimétrica,
con un valor atípico muy destacado. La evidencia disponible indica
que las acciones pueden probablemente dividirse en dos grupos más
homogéneos.
Histogram of x3
12

10

8
Frequency

0
5 10 15 20 25 30
x3

Cociente entre precio por acción y beneficios


La matriz de varianzas y covarianzas de estas tres variables

Matriz de covarianzas de las acciones

Los elementos diagonales de esta matriz son los cuadrados de las


desviaciones típicas. Como las dimensiones de las variables son
distintas, no tiene sentido calcular medidas promedio.

Los histogramas de las tres variables han mostrado una clara falta de
normalidad. Una posibilidad, es transformar las variables para facilitar
su interpretación.
Tomando logaritmos, la matriz de covarianzas de las variables
transformadas, es como sigue:

Matriz de covarianzas de las acciones

Se observa que los logaritmos modifican mucho los resultados. Los


datos ahora son más homogéneos y la variable de mayor varianza
pasa a ser la primera, el logaritmo de la rentabilidad efectiva (X1),
mientras que la menor es la segunda, el logaritmo de la proporción de
beneficios que va a dividendos (X2). La relación entre el logaritmo del
ratio precio/beneficios (X3) y
la rentabilidad efectiva (X1) es negativa. Las otras relaciones son
débiles.

Una ventaja adicional de los logaritmos es que hace a las variables


independientes de la escala de medida: Si multiplicamos las
variables por una constante al tomar logaritmos esto es equivalente
a sumar una cantidad, y sumar una constante a los datos no altera
su variabilidad.

Por tanto, al tomar logaritmos en las variables las varianzas pueden


compararse aunque los datos tengan distintas dimensiones.

La varianza media de las tres variables es

y parece describir razonablemente la variabilidad de las variables.


Ejemplo

Partiendo de la matriz de covarianzas S para los logaritmos de las


acciones, datos obtenemos que

La variabilidad efectiva es

que podemos comparar con la media aritmética de las tres varianzas


que calculamos anteriormente

la fuerte dependencia entre las variables hace que la variabilidad efectiva,


cuando se tienen en cuenta las covarianzas, sea mucho menor que cuando
se prescinde de ellas y se halla calculado el promedio de las varianzas.
VARIABILIDAD Y DISTANCIAS
Un procedimiento alternativo para estudiar la variabilidad de las
observaciones es utilizar el concepto de distancias entre puntos. En el
caso escalar, la distancia entre el valor de una variable x en un punto,
xi, y la media de la variable, , se mide de manera natural mediante.

equivalente
Concepto de distancia en ℜp

Considerados dos vectores xi, xj ∈ ℜp, la función “d” es una


distancia o métrica con las siguientes propiedades:
i) d: ℜp x ℜp → ℜ+ ; es decir d(xi, xj)≥0
ii) d(xi, xi)= 0
iii) d(xi, xj) = d(xj, xi)
iv) d(xi, xj) = d(xi, xr) + d(xr, xj) (desigualdad triangular)
Una familia de medidas de distancias muy conocidas en ℜp son
las distancias de Minkowski:

1/ r
⎛ p
r ⎞
d (r )
kl = ⎜ ∑ ( xkj − xlj ) ⎟
⎝ j =1 ⎠
1/ 2
⎛ p
2⎞
r =2→d
(2)
kl = ⎜ ∑ ( xkj − xlj ) ⎟
⎝ j =1 ⎠

Cuando r =2 se tiene la distancia euclídea, que es la más utilizada,


pero depende de las unidades de medida.
Distancia Euclideana
Ejemplo
Sea x la estatura de una persona en metros y su peso en kilogramos.
Compararemos la distancia entre tres personas: A(1.80, 80), B(1.70,
72) y C(1.65, 81). El cuadrado de la distancia euclídea del individuo A
al B será:

y, análogamente

Por tanto, con la distancia euclídea el individuo A estará mucho más


cerca del individuo C que del B.
Supongamos que, para hacer los números más similares, decidimos
medir la estatura en centímetros, en lugar de metros. Las nuevas
coordenadas de los individuos son ahora A(180, 80), B(170, 72) y
C(165, 81), y las distancias euclídeas entre los individuos se
transforman en

Con el cambio de unidades, el individuo A está con la distancia


euclídea más cerca de B que de C.

Observación
La distancia euclídea depende mucho de las unidades de medida, y
cuando no existe una unidad fija natural, como en este ejemplo, no
está justificado utilizarla.
Una manera de evitar el problema de las unidades es dividir cada
variable por un término que elimine el efecto de la escala. Esto
conduce a la familia de métricas euclídeas ponderadas, que se
definen por

Donde M es una matriz diagonal que se utiliza para estandarizar las


variables y hacerla medida invariante ante cambios de escala. Por
ejemplo, si colocamos en la diagonal de M las desviaciones típicas de
las variables, la expresión anterior se convierten

que puede verse como una distancia euclídea donde cada coordenada
se pondera inversamente proporcional a la varianza.
Observación: Distancia Estadística

Desarrollado para tener en cuenta las diferencias en las variaciones y


desde luego la presencia de las correlaciones, debido a su relación
con las varianzas muestrales y covarianzas.

La variabilidad inherente en la
dirección Xl es mayor que la
variabilidad en la dirección X2.

La variable X1 tiene más variación que la X2 y además que son


independientes, sus crecimientos no dependen de la otra variable. La
propuesta es entonces ponderar a las coordenadas (se deduce que
será más severamente a la variable Χ2 ), y recalcular las distancias.
Una forma a proceder es dividir cada coordenada por la desviación
típica de muestra. Por consiguiente, al dividir por las desviaciones
típicas, tenemos la x "estándar" de coordenadas;

Las coordenadas estándar están ahora en igualdad de condiciones el


uno con el otro. Después de tomar las diferencias en la variabilidad en
cuenta, determinamos distancia usando la fórmula estándar
EucIideana. Así, una distancia estadística del punto al
origen puede ser calculado como:
Ejemplo
Si suponemos que las desviaciones típicas de las variables altura y
peso son 10 cm y 10 kg, las distancias estandarizadas al cuadrado
entre los individuos anteriores son

Con esta métrica, que es más razonable, A está más próximo a B que a
C.
La Distancia de Mahalanobis
Se define la distancia de Mahalanobis entre un
punto y su vector de medias por

Esta libre de unidades de medidas y mide la distancia de cada


individuo con respecto a su vector de medias o centroide.

Ejemplo
Entre el peso y la altura hay correlación positiva: al aumentar la
estatura de una persona en promedio también lo hace su peso. Si
consideramos las tres personas anteriores A(180, 80), B(170, 72) y
C(165, 81) con desviaciones típicas 10 cm y 10 kg y el coeficiente
de correlación 0,7, los cuadrados de las distancias de Mahalanobis
serán:
y

concluimos que el individuo A está más cerca de B que de C con esta


distancia.
Observación
- Estas distancias si se calculan para toda una muestra de tamaño n y
con p variables, y si la distribución de los datos en la población es
normal multivariada, entonces las distancias D2 tienen distribución Ji
cuadrada con p grados de libertad, esto se puede usar para efectuar
una prueba de normalidad multivariada.
- Distancia de Mahalanobis entres dos puntos a y b.

Dab = (Ya −Yb )′S−1(Ya −Yb )


2

p p
= ∑∑aij (Yai −Ybi )(Yaj −Ybj )
i =1 j =1

Donde aij son los elementos del inverso de S, a veces se les denota Sij
Ejemplo: Talla y Peso
Y (cm)
centroide
200

Talla
Valor 160
atípico
X
110 (kg)
Peso
El centroide es el punto rojo , en distancias euclidianas las
distancias de los otros dos puntos al centroide parecen ser
iguales, sin embargo, para las distancias de Mahalanobis,
hay una diferencia grande, con D2( )>D2( )
MEDIDAS DE DEPENDENCIA LINEAL
Un objetivo fundamental de la descripción de los datos multivariantes
es comprender la estructura de dependencias entre las variables.
Estas dependencias pueden estudiarse:

(1) entre pares de variables;


(2) entre una variable y todas las demás;
(3) entre pares de variables pero eliminando el efecto de las demás
variables;
(4) entre el conjunto de todas las variables.
1. Dependencia por pares: La matriz de correlación
La dependencia lineal entre dos variables se estudia mediante el
coeficiente de correlación lineal o simple. Este coeficiente para
las variables xj, xk es:

Propiedades:

(1) 0 ≤ |rjk| ≤ 1;
(2) si existe una relación lineal exacta entre las variables, xij =
a+bxik, entonces |rjk| = 1;
(3) rjk es invariante ante transformaciones lineales de las
variables.
La dependencia por pares entre las variables se mide por la matriz de
correlación.

Esta matriz es también semidefinida positiva. Para efectos de


cálculos se puede utilizar la siguiente expresión:

D = D(S): es la matriz diagonal de orden p formada por los elementos


de la diagonal principal de S.
Donde:
2. Dependencia de cada variable y el resto: Regresión Múltiple

Se desea estudiar la relación entre una variable y todas las


demás. Bajo un enfoque de regresión:

El coeficiente de determinación, o coeficiente de correlación


múltiple al cuadrado, y se define por:
Podemos calcular fácilmente el coeficiente de correlación múltiple
al cuadrado entre la variable xj y las restantes como sigue:

(1) Tomar el elemento diagonal j de la matriz S, sjj que es la varianza


s2 j de la variable.

(2) Invertir la matriz S y tomar el elemento diagonal j de la matriz S−1


que llamaremos sjj . Este término es 1/s2r (j), la varianza residual
de una regresión entre la variable j y el resto.

(3) Calcular R2j


Ejemplo
La tabla, presenta ocho variables
físicas tomadas en un grupo de 27
estudiantes. Las variables son sexo
(sex con 0 para mujer, 1 para varón),
estatura (est, en cm.), peso (pes, en
kgr.), longitud de pie (lpie, en cm),
longitud de brazo (lbra, en cm),
anchura de la espalda (aes, en cm),
diámetro de cráneo (dcr, en cm) y
longitud entre la rodilla y el tobillo (lrt,
en cm).

a) Calcular la matriz de correlaciones


e interpretarla.
b) Obtener las correlaciones múltiples
Solución
La matriz de correlación para las 7 variables físicas según el orden en
que aparecen en la tabla es:

Se observa:
- La máxima correlación aparece entre la primera y la tercera variable
(estatura y longitud del pie) y es 0,93.
- La mínima es entre la longitud del brazo y el diámetro del cráneo
(0,48).
- En general las correlaciones más bajas aparecen entre el diámetro
del cráneo y el resto de las variables.
La matriz S−1 es:

y utilizando los elementos diagonales de esta matriz y de la matriz


S podemos calcular las correlaciones múltiples al cuadrado de cada
variable con el resto como sigue:

(1) multiplicamos los elementos diagonales de las matrices S y S−1.


El resultado de esta operación es el vector:
(2) A continuación, calculamos las inversas de estos elementos, para
obtener:

Finalmente, restamos a uno estos coeficientes para obtener los


coeficientes de correlación múltiple entre cada variable y el resto:

Vemos que la variable más previsible por las restantes es la


estatura, (R2=0.9304), después el pié (R2=0.8999) y luego la longitud
del brazo (R2=0.8541). La menos predecible es dcr, que tiene un
coeficiente de correlación múltiple con el resto de 0.5189, o en otros
términos, el resto de las variables explica el 52% de la variabilidad
de esta variable.
3. Dependencia directa entre pares: Correlaciones parciales

La dependencia directa entre dos variables controlando el efecto de


las restantes.

Se define el coeficiente de correlación parcial entre dos variables,


(x1, x2), dadas las variables (x3, ..., xp), y se denota por r12.3..p,
como el coeficiente de correlación entre las partes de x1 y x2 que
están libres de los efectos de las variables (x3, ..., xp).

donde sij los elementos de S−1,


Se define la matriz de correlaciones parciales, P, como aquella que
contiene los coeficientes de correlación parcial entre pares de
variables eliminando el efecto de las restantes. Por ejemplo, para
cuatro variables, la matriz de correlaciones parciales, :

donde, por ejemplo, r12.34 es la correlación entre las variables 1 y 2


cuando eliminamos el efecto de la 3 y la 4, o cuando las variables 3
y 4 permanecen constantes.
De acuerdo a lo anterior está matriz se obtiene como

donde D(S−1) es la matriz diagonal obtenida seleccionando los


elementos diagonales de la matriz S−1 y el término (−1)diag indica que
cambiamos el signo de todos los elementos de la matriz menos de
los elementos diagonales que serán la unidad.

Observemos que D(S−1)−1/2 no es la inversa de D(S)−1/2 = D−1/2, y que,


en consecuencia, P no es la matriz inversa de R.
4. El coeficiente de Dependencia Efectiva

Para obtener una medida conjunta de la dependencia entre las


variables podemos utilizar el determinante de la matriz de
correlación, que mide el alejamiento del conjunto de variables
de la situación de perfecta dependencia lineal.

Peña y Rodríguez (2000) han propuesto como medida de


dependencia lineal global la Dependencia, definida por:

donde
Ejemplo

La matriz de correlaciones parciales para las 7 variables físicas, es:

Esta matriz muestra que las relaciones parciales más fuertes se dan
entre la estatura y las longitudes del pie (0,48) y del brazo (0,52). Por
ejemplo este coeficiente se interpreta que si consideramos personas
con el mismo peso, pie, anchura de espalda, diámetro del cráneo y
longitud rodilla tobillo, hay una correlación positiva entre la estatura y
la longitud del brazo de 0,52. La tabla muestra que para personas de la
misma estatura, peso y demás medidas físicas, la correlación entre la
anchura de la espalda y la longitud rodilla tobillo es negativa.
El coeficiente global de dependencia es:

Podemos concluir que, globalmente, la dependencia lineal


explica 77% de la variabilidad de este conjunto de datos.
La matriz de precisión

βˆij 1 s ij
s ij = − 2
s = 2
ii
rij . R = −
s (i )
r sr (i ) s ii s jj
Asimetría y Kurtosis
Tarea
1. Calcular el vector de medias y el de medianas para las variables
de medidas físicas. Comparar sus ventajas como medidas de
centralización de estas variables.
2. Obtener para las variables de medidas físicas sus medidas de
asimetría y kurtosis. Comentar sus resultados.
3. Con los siguientes datos:

a) Calcule . Comente sus resultados


b) Obtenga las distancias Euclídeas y de Mahalanobis. Describa
e interprete sus resultados.

Vous aimerez peut-être aussi