Vous êtes sur la page 1sur 12

Humberto Villalobos

7-03-05

Estadstica Multivariada

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

Existen Muchas Mediciones asociadas a


una poblacin.

PROBABILIDAD
Y

ESTADSTICA

Carrera.
Satisfaccin con la
Universidad.
Puntaje de Ingreso.
Nmero de hermanos.
Etc.

HUMBERTO VILLALOBOS TORRES

UNIVERSIDAD TCNICA FEDERICO SANTA MARA

DEPARTAMENTO

DE

De la
Poblacin de
Alumnos
USM

MATEMTICAS

23/07/2007

23/07/2007

Estadstica Multivariada

Estadstica Multivariada

Se cuenta con una matriz de Datos

Observar el comportamiento global


de los datos.
Establecer relaciones
Establecer grupos
Determinar patrones.

Se Requieren herramientas
Computacionales especializadas
23/07/2007

23/07/2007

Anlisis Exploratorio
Multivariado

Anlisis Exploratorio
Multivariado

Matriz de Asociaciones

Matriz de Correlaciones.
Muestra la asociacin lineal entre
pares de variables.

23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

La organizacin habitual es a travs


de pares ordenados de datos.

Anlisis a travs de la tabla

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos

Expresin en trminos de Frecuencias


Relativas

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean en cierta regin,
en la cual se miden las siguientes caractersticas:
Cargo que ocupa, Sueldo que percibe y valor del
automvil que posee, en miles de pesos.
,

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

Distribuciones Marginales.

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre

APLICACIN 1: Se realiza una


encuesta a profesionales que
se desempean

el Ro Missouri, una empresa efectu una serie de


pruebas para medir un flujo de agua (en miles de
galones por minuto [Mg/m]) en tres de sus grandes
ramas: Sioux City, Yankton y Omaha. Los
resultados de las pruebas fueron organizados en la
siguiente tabla:
,

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos
APLICACIN 3: Un Socilogo dirigi una
investigacin para determinar la incidencia de un tipo
determinado de crimen variaba entre las cuatro
regin de mayor ndice delictual. Los crmenes de
inters para el socilogo son: asalto, robo hurto y
homicidio. La siguiente tabla presenta los resultados
en una muestra de 746, 918, 1527 y 854 crmenes para
la regin IV, V, Central, VIII, respectivamente
,
durante el ltimo
ao.

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribuciones
marginales

Frecuencia

Histograma
150
100
50
0

Flujo de rios

23/07/2007

Primera Clase

[Mg/m]

23/07/2007

Humberto Villalobos

7-03-05

Organizacin de Datos

APLICACIN 3: Un Socilogo dirigi una


investigacin para determinar la incidencia
Determine las distribuciones marginales

Utilidad de
marginales.

Frecuencia

Organizacin de Datos

Central

distribuciones

Observacin de la distribucin de los


datos en las clases de mayor y menor
relevancia.
Mediante el uso de indicadores sobre
estas distribuciones, se puede tratar de
establecer asociaciones con variables
NO CUANTITATIVAS.

40%
30%
20%
10%
0%
IV

las

VIII

Regin

Asalto
Robo
Hurto
Homicidio

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos
Distribuciones condicionales.

Distribuciones Condicionales.

nA1
n
A
nA 2
n
A
fj
= #
i =A
#

nAr
n
A

23/07/2007

A = 1, ... , k

j = r

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribucin
condicional del flujo del ro en la rama Yankton

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Determine las distribucin
condicional del flujo del ro en la rama Omaha

Todos los indicadores son posibles de determinar


para este grupo de datos y ser comparados con otro
grupo de inters.

Todos los indicadores son posibles de determinar


para este grupo de datos

Primera Clase

j = 2

23/07/2007

23/07/2007

j = 1

23/07/2007

Humberto Villalobos

7-03-05

Organizacin de Datos

Organizacin de Datos

APLICACIN 2: Antes de construir una presa sobre el


Ro Missouri, Compare el flujo de las ramas de
los ros

APLICACIN 3: Un Socilogo dirigi una


investigacin para determinar la incidencia
Determine las distribucin condicional del tipo de
crimen en la quinta regin central y compare
Asalto

Robo
Hurto
Homicidio

Asalto
Robo
Hurto
Homicidio

23/07/2007

23/07/2007

Organizacin de Datos

Organizacin de Datos

APLICACIN 1: Se realiza una encuesta a


profesionales que se desempean

Grfica de Dispersin

Promedio Condicional al Cargo

6e6
5e6
4e6
3e6
2e6
1e6
0

Otros

Ventas

Administrativo

Ejecutivo

Sub-Gerente

Gerente

Cargo

Las Distancias en el Eje de los


Cargos son arbitrarias, Slo de
debe tener Presente el orden dado
el tipo de escala.
23/07/2007

23/07/2007

Organizacin de Datos y
Estratificacin

Organizacin de Datos
Organizacin de Datos:

APLICACIN 4:
Un
estudio
de
una
administradora de fondos de pensiones acerca de
la opcin que toma el afiliado, con respecto al
tipo de fondo donde quiere mantener un mayor
porcentaje de sus ahorros previsiones, y su
respectivo nivel de ingresos (en miles de pesos)

Distribuciones Marginales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable.

Distribuciones Condicionales
Se obtienen Indicadores por variable, segn
sea el tipo de escala de la variable, en
variables de inters.
Mediante el uso adecuado de indicadores se
pueden asociar variables.
23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Organizacin de Datos y
Estratificacin

Organizacin de Datos y
Estratificacin
APLICACIN 4:
Un
administradora de .

APLICACIN 4: En este caso cada tipo de fondo


representa un estrato o grupo, de donde a travs
de las distribuciones condicionales y marginales
se obtienen los indicadores necesarios:

estudio

de

una

Utilizando la Marginal de Ingreso

23/07/2007

23/07/2007

Organizacin de Datos y
Estratificacin

Asociacin de Variables
Existe una Matriz de Datos

APLICACIN 4:
Un
estudio
de
una
administradora de .
Utilizando la Marginal de Ingreso

23/07/2007

23/07/2007

Asociacin de Variables

Asociacin de Variables

Tipo de Escala de la Medicin

Combinacin entre Tipos de Escalas

Discreta
Cuantitativa
Continua

Nominal - Discreta

Intervalar

Comuna v/s Nmero de Atrasos

Nominal - Continua

Razn

Comuna v/s % de Crdito

Nominal - Ordinal

Nominal

Comuna v/s Establecimiento educacional

Nominal - Nominal

Cualitativa

Comuna v/s Carrera

Ordinal

Continua - Continua
Tiempo traslado v/s Tiempo dedicado al estudi0

23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Asociacin de Variables

Indicadores de Asociacin I

Anlisis Exploratorio de pares de


variables.

Estadstica de Asociacin de Spearman


Es fundamental que los datos se
encuentren en al menos escala ordinal
La aplicacin ms utilizada es datos no
agrupados, sin embargo, bajo ciertas
restricciones se puede extender a datos
agrupados
Se basa en la relacin entre los rangos de
la variables

Grficos Adecuados

Anlisis a travs de Indicadores de


asociacin.
Asociacin Montona de Spearman
Asociacin Lineal de Pearson
23/07/2007

23/07/2007

Estadstica de Spearman

Estadstica de Spearman

Tiene una estrecha relacin con el


coeficiente de asociacin de Pearson,
que se ver ms adelante.

Rangear datos

rs = 1

6
n( n

Ordinales

Continuos

d
1)
i =1

Rx = Rango de la variable x.

2
i

( Rx Ry )2

23/07/2007

23/07/2007

Estadstica de Spearman

12
rs = 8(64
0,857
1)

rs = 1

Ry = Rango de la variable y.

6
4
rrss ==1 0,
952
8(64 1)

Estadstica de Spearman

APLICACIN 1: Una Aproximacin con datos


agrupados en Tablas, para la aplicacin de la
realizacin de una encuesta a profesionales

Grfica de Dispersin

Promedio Condicional al Cargo

6e6
5e6
4e6
3e6
2e6
1e6
0

Otros

Ventas Administrativo
EjecutivoSub-GerenteGerente
Cargo

Cuidado !
23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Estadstica de Spearman

Estadstica de Spearman

Una Aproximacin con datos


agrupados en Tablas

No muestra relaciones funcionales


Indica una asociacin montona
entre las variables.
rs = 1

Siempre creciente
Siempre decreciente

6
14
6(36 1)

Se encuentra acotado en el intervalo


[-1 ; 1]

rs = 0, 60

Montona creciente

Montona decreciente

1
-1

Cuidado con los empates de rangos


23/07/2007

23/07/2007

Estadstica de Spearman

Estadstica de Spearman

APLICACIN 2: Antes de construir una presa


sobre el Ro Missouri, una empresa efectu :

APLICACIN 2: Antes de construir una presa


sobre el Ro Missouri, una empresa efectu :

23/07/2007

Es posible determinar mediante el uso del


coeficiente de Spearman, las relaciones
montonas entre las ramas de ro Missouri

rS ( S ; O) = 1

6 12,5
= 0,85
8 63

rS (Y ; O) = 1

6 50,5
= 0, 40
8 63

Indicadores de Asociacin II

Estadstica de Pearson

Estadstica de Asociacin de Pearson

Es habitual que se utilice la grfica de


dispersin para visualizar el tipo de
relacin

Lineal creciente

Lineal decreciente

Primera Clase

6 24
= 0, 71
8 63

23/07/2007

Muestra la relacin lineal que existe entre


dos variables
Es fundamental que los datos sean
cuantitativos continuos.
Este coeficiente al igual que Spearman se
encentra acotado en el intervalo [-1; 1]

23/07/2007

rS ( S ; Y ) = 1

1
-1
23/07/2007

Humberto Villalobos

7-03-05

Estadstica de Pearson

Estadstica de Pearson

Si la relacin no es lineal, entonces no son


detectadas por este coeficiente.

Asociacin Lineal de Pearson


n

Y 100
80
60
40
20
0

60
40
20
0
5

10

15

20

25

rp
5

Y 40000

400

30000

200

20000

10000

-200

32

10

15

20

( yi

37

- y ) ( xi - x )
n

- y) 2
n

ny x

i =1
n

yi2

- n y2

i =1
17

22

27

x) 2

i=1

yi xi

rp =
12

( xi -

i=1

25

GRFICA DE DISPERSIN

Y 600

27

i=1

=
2

GRFICA DE DISPERSIN

22

( yi

G RFICA DE DISPERSIN

GRFICA DE DISPERSIN
Y 80

xi2

- nx2

i =1

32

23/07/2007

23/07/2007

Estadstica de Pearson

Estadstica de Pearson

Asociacin Lineal de Pearson

APLICACIN 5: Considere la siguiente situacin

cov( x, y)
sx s y

Mide la relacin
lineal ente un par
de variables

Desviaciones estndar
de cada variable

Tiempo Transporte
% de Capacidad no
Utilizada

rp =

cov =

( yi

i =1

- y ) ( xi - x )

70
60
50
40
30
20
10
0

n 1

23/07/2007

11

13

15

17

19

21

23

T iempos de T ransporte

23/07/2007

Estadstica de Pearson

Estadstica de Pearson

APLICACIN 5: Considere la siguiente situacin

APLICACIN 6: Gastos Publicidad v/s Cantidad

xC = 13, 037

ST2

= 400, 491

SC2 = 17, 634

ST = 20, 012

SC = 4,199

26

Q [M/US$]

xT = 15, 609

Cov(C ; T) = 62, 782 = SCT

22
18
14
10
7

11

13
15
P [M/US $]

17

19

21

rp = 0, 7471
23/07/2007

Primera Clase

23/07/2007

Humberto Villalobos

7-03-05

Estadstica de Pearson

Estadstica de Pearson

APLICACIN 6: Gastos Publicidad v/s Cantidad

xP = 12, 467
S P2 = 9,838

S P = 3,137

Asociacin Lineal de Pearson

SQ2

SQ = 3,502

i ( mi

j ( m j

- x)

j =1

f ij mi m j -

yx

i = 1 j =1

rp = 0,9684

- y ) ( x j - x )
q

rP =

i =1

f i mi - y

f j m j - x

j =1

23/07/2007

Estadstica de Pearson

Estadstica de Pearson

APLICACIN 7: Se aplic una cantidad


estrgeno (C en mg.) versus su edad (E en
aos)

APLICACIN 7: Se aplic una cantidad


estrgeno (C en mg.) versus su edad (E en aos)

C = 25,417

SC2 = 39,393

rp =

E = 38,333 S E2 = 167, 225

23/07/2007

Primera Clase

- y)

i =1

Cov( P; Q) = 10, 638 = S PQ

23/07/2007

ij ( m i

i = 1 j =1

rP =

= 12, 267

23/07/2007

xQ = 17,867

15 20 7 + 15 30 1 + ... + 35 60 6
25, 417 38,333
60
39,393 167, 225

23/07/2007

La idea de Pronosticar

Estimacin de Parmetros

Al establecer un relacin funcional entre


variables, se puede utilizar una para el
pronstico de la otra.

Para estimar los parmetros de la funcin de


pronstico, se busca minimizar los errores
cuadrticos.

23/07/2007

10

Humberto Villalobos

7-03-05

Estimacin de Parmetros

Estimacin de Parmetros

Minimizacin de errores cuadrticos

Minimizacin de errores cuadrticos

Modelo funcional entre


las variables

Clara relacin
con el coeficiente
de Pearson
23/07/2007

23/07/2007

Pronsticos en las variables

Pronsticos en la Cantidad

Minimizacin de errores cuadrticos

APLICACIN 6: Gastos Publicidad v/s Cantidad

Q [M/US$]

26
22
18
14
10
7

23/07/2007

23/07/2007

11

13
15
P [M/US $]

17

19

21

rp = 0,9684

Pronsticos en el estrgeno

Enfoque Matricial

APLICACIN 7: Se aplic una cantidad estrgeno


(C en mg.) versus su edad (E en aos)

Se cuenta con una matriz de Datos

C = 25,417
SC2 = 660, 0

E = 38,333
S E2 = 167, 225

rp = 0, 205
23/07/2007

Primera Clase

yi = 25, 417 + 0, 205

660, 0
( xi 38,333)
167, 225
23/07/2007

11

Humberto Villalobos

7-03-05

Enfoque Matricial

Enfoque Matricial

Es posible determinar un vector de media

1

1
=
#

1 p1

Cuidado con la caracterstica de la unidad de


medicin de la variable

Es posible determinar una matriz de


varianza y covarianza entre la variables
La covarianza es un indicador de el tipo de
asociacin (positiva negativa) entre pares de
variables
Puede tomar cualquier valor en los reales
Es un factor de importancia para Pearson y
Spearman
23/07/2007


1
2
=
= Xt 1
#
n

23/07/2007

p
p1

Enfoque Matricial

Enfoque Matricial

Matriz de Varianza y Covarianza ()

Aplicacin Matricial

x1


x2
1
=
X = Xt 1
#
n

x p p1

1
(Xt 1n1 Xt )t (Xt 1n1 Xt )
n 1

s12

s
= 12
#

s1 p

s21 " s p1 Es una matriz

Simtrica
s22 " s p 2
S =S
# % # Es una matriz

semidefinida
s2 p " s 2p
p p positiva

23/07/2007

12

21

23/07/2007

Herramientas de Excel

Herramientas de Excel

Resultado
Matriz de
covarianzas
23/07/2007

Primera Clase

23/07/2007

12

Vous aimerez peut-être aussi