Vous êtes sur la page 1sur 32

Ejemplos de Anlisis Discriminante.

En medicina forense, se debe determinar el


sexo de una persona con base en algunas
medidas sobre determinados huesos de su
cuerpo.
De acuerdo con el registro de calificaciones que
un estudiante histricamente ha mostrado, se
quiere determinar si llegar a graduarse o no,
en una determinada institucin educativa.
Una persona que aspira a ocupar un cargo en
una empresa, es sometida a una serie de
pruebas; de acuerdo a su puntaje se sugiere
ubicarlo en alguno de los departamentos de la
empresa.

Un bilogo quiere clasificar una nueva
planta en una de varias especies conocidas
(taxonoma numrica).
Un arquelogo debe ubicar a un
antepasado en uno de cuatro periodos
histricos.
Ms ejemplos.
Introduccin
Supongamos que tenemos un conjunto de n objetos
divididos en q grupos, no necesariamente del
mismo tamao, que constituyen una particin de la
poblacin a que dichos objetos pertenecen.

Sea X=(X
1
,...,X
p
)' un conjunto de variables
numricas, observadas sobre dichos objetos.
Objetivos
Analizar si existen diferencias entre los grupos en
cuanto a su comportamiento con respecto a las
variables consideradas y averiguar en qu sentido
se dan dichas diferencias.

Elaborar procedimientos de clasificacin de
individuos de origen desconocido, en uno de los
grupos analizados.

Descriptivo: consistente en analizar si existen
diferencias entre una serie de grupos en los que se
divide una poblacin, con respecto a un conjunto de
variables y, en caso afirmativo, averiguar a qu se
deben.

Predictivo: consistente en proporcionar
procedimientos sistemticos de clasificacin de
nuevas observaciones de origen desconocido en
algunos de los grupos considerados.
Funciones Discriminantes
Las funciones discriminantes son combinaciones
lineales de las variables originales que tienen como fin
maximizar la diferencia entre grupos.

La frmula de la i-sima funcin es Y
i
= uX, donde los
coeficientes se obtienen de modo que se maximice:


B es la matriz de suma de cuadrados entre grupos y
W es la matriz de suma de cuadrados intra-grupos,
sujeto a uWu=1.
Wu ' u
Bu ' u
grupos de dentro ad variabilid
grupos entre ad variabilid
=
La solucin est dada por el vector propio u
1
de W
-1
B
asociado al mayor valor propio
1
.

Una segunda funcin discriminante no
correlacionada con la anterior estar dada por por el
vector propio u
2
de W
-1
B asociado al mayor valor
propio siguiente,
2
, etc.

Qu indican lo valores propios?
Los valores propios {
i
, i=1, ..., r} miden el poder
discriminacin de la i-sima funcin discriminante
de forma que si =0 la funcin discriminante no
tiene ningn poder discriminante.

Cuntas FD es posible obtener?
El nmero mximo de funciones discriminantes que
se puede calcular es min{q-1,p}.

Cuntas realmente son
necesarias?
Criterios
Proporcin de cada valor propio:



Lambda de Wilks:


Cuanto ms cercano a cero mayor es el poder
discriminante de las variables consideradas.

j
i
[

=
+
= A
) p , 1 q min(
1 i
i
1
1
Correlacin Cannica:


Mide en trminos relativos, el poder discriminante de
la i-sima f.d., valores cercanos a uno indican mayor
potencia discriminante.
r ,... 1 i ,
1
cc
i
i
i
=
+

=
H
o
:
k+1
==
min{q-1,p}
=0




Este es un contraste de hiptesis secuencial, donde
k es el nmero de funciones discriminantes
significativas. Este proceso comienza con k=0.
( )
2
) 1 k q )( k p (
.
} p , 1 q min{
1 k j
j
~ 1 log
2
q p
1 n T

+ =
_ +
|
.
|

\
|
+
=

Ser de inters:
Nmero de funciones discriminantes.
Relacin entre variables y funcin discriminante
(coeficientes estandarizados de las f.d.).
Relacin entre grupos y funcin discriminante
(coeficientes de correlacin de las variables
originales con cada f.d.).
Importancia de las variables.
Eficacia y calidad de la clasificacin.
Grficos de inters
Box-plot de las variables originales.
Box-plot de las puntuaciones obtenidas.
Grfico de dispersin de las puntuaciones.
Son necesarias todas las variables?
Algoritmos: fordward backward -stepwise. (prueba
de tolerancia, valores cercanos a uno indican que la
informacin aportada por esta variable es
independiente de la informacin aportada por las
otras variables.)

Criterio del lambda de Wilks basado en la p primeras
variables (valor de F alto indica que la variable debe
ser incluida).


' p g n , 1 g
1 ' p
' p
F ~ 1
1 g
' p g n
F

+
|
|
.
|

\
|

A
A


=
Supuestos
Las variables no deben estar correlacionadas
entre si.
La matriz de varianza covarianza deben ser
iguales.
Las variables deben tener distribucin normal, en
cada grupo.
Evaluacin Proceso de Clasificacin
Tabla de clasificacin cruzada.
Ejemplo Crneo

Ejemplo Iris

g=3
Variables
S_largo: largo spalo (milmetros)
S_ancho: ancho spalo
P_largo: largo ptalo
P_ancho: ancho ptalo
p=4, n=50 en cada grupo.