Vous êtes sur la page 1sur 16

Universidad de Los Andes

Facultad de Ciencias Econmicas y Sociales


Escuela de Estadstica
Prof. Anna Gabriela Prez de Rivas
Anlisis de Datos

Anlisis Discriminante

1.1 Introduccin

En diversas aplicaciones cientficas, un problema multivariante comn es cuando


un conjunto de observaciones deben ser asignadas en forma apropiada a una de
varias poblaciones conocidas. Por ejemplo en taxonoma de las plantas los
botnicos desean clasificar a un nuevo espcimen dentro de uno de los distintos
tipos de especies de flores conocidos.

La discriminacin y clasificacin es una tcnica multivariante cuyo objetivo es la


separacin de distintos conjuntos de observaciones o elementos y la asignacin
de nuevas observaciones a grupos previamente definidos. El anlisis discriminante
es un procedimiento de separacin que a menudo es utilizado en base a una sola
muestra, para investigar las diferencias observadas cuando la relacin causal no
es bien entendida. Como procedimiento de clasificacin es menos exploratorio, ya
que se persigue la obtencin de reglas eficientes de clasificacin que puedan ser
usadas en la asignacin de nuevos elementos. El anlisis discriminante fue
introducido por primera vez por Sir Ronald Fisher.

Los principales objetivos de la discriminacin y clasificacin son los siguientes [6]:


Describir grfica (en tres o menos dimensiones) o algebraicamente las
diferentes caractersticas de objetos u observaciones de varias
poblaciones o grupos conocidos. Se trata de hallar aquellos valores
numricos que separen o discriminen lo ms posible a los grupos.

1
Ordenar objetos u observaciones en dos o ms clases conocidas. Se hace
nfasis en derivar una regla que pueda ser usada para asignar
ptimamente un nuevo individuo a las clases previamente determinadas.

1.2 Separacin y Clasificacin para 2 Poblaciones

A continuacin se presentan algunas ideas para aquellos casos donde se puede


estar interesado en separar dos clases de objetos o asignar nuevos objetos a una
de dos clases. Para ello, se etiquetar las clases o poblaciones como 1 y 2
respectivamente. Los objetos son comunmente separados o clasificados en base
a mediciones de caractersticas, asociadas a p variables aleatorias, esto es,
X = [X1 , X 2 ,..., Xp ] . Los valores observados de X difieren en algunas de sus

componentes de una clase a otra. Se puede considerar que la totalidad de valores


de la primera clase son la poblacin de valores existentes para 1 y los otros,
como la poblacin de valores existentes para 2 . Estas dos poblaciones pueden
ser descritas mediante funciones de densidad de probabilidad f1 (x ) y f 2 (x ) y se
habla entonces de asignar objetos u observaciones a poblaciones.

Las reglas de clasificacin o asignacin son usualmente desarrolladas a partir de


muestras de ajuste. Mediciones de caractersticas de objetos seleccionados
aleatoriamente de cada una de las dos poblaciones, son examinadas para
detectar diferencias. Esencialmente, el conjunto de todos los resultados posibles
se divide en dos regiones R 1 y R 2 , tales que si una observacin u objeto cae en

R 1 ser asignado a la primera poblacin o 1 y si cae en R 2 ser asignado a la


segunda poblacin o 2 . Como todos los individuos u objetos deben ser
asignados a una y slo una de las dos poblaciones, los conjuntos R1 y R2 son
mutuamente excluyentes. Es decir, R2 = - R1.

2
Las reglas de clasificacin obtenidas no proporcionan un mtodo de asignacin
perfecto (sin error); esto significa, que no se puede hacer una distincin clara
entre las mediciones de caractersticas de las poblaciones. Esto es, pueden
solaparse. Es posible, por ejemplo, clasificar un objeto como perteneciente a
2 cuando realmente pertenece a 1 o viceversa. Un buen procedimiento de
clasificacin debera dar como resultado pocas clasificaciones erradas; esto es,
que la probabilidad de mala clasificacin sea pequea.

Las probabilidades de clasificacin errnea descritas anteriormente se denotan de


la siguiente manera [2,6]:
P(2\1) = P(xR2\1) = f1 ( x)dx
R2

P(1\2) = P(xR1\2) = f
R1
2 ( x)dx

Es importante hacer la acotacin de que estas probabilidades vienen dadas por


integrales mltiples, donde dx = dx1,dx2,...,dxp.

La importancia de stos errores radica en el costo que ellos implican. Denotando


C(2\1) como el costo del error de haber clasificado a la observacin como
perteneciente a la poblacin 2 cuando en realidad pertenece a la poblacin 1, y
C(1\2) como el costo del error de haber clasificado a la observacin como
perteneciente a la poblacin 1 cuando en realidad pertenece a la poblacin 2.
Estos costos pueden ser medidos en cualquier tipo de unidad.

Suponga un objeto, el cual es una observacin que pertenece a una de las dos
poblaciones 1 o 2. La clasificacin de una observacin depende de un vector de
medidas x = (x1, x2, x3,....., xp) de un objeto. Se fija una regla de decisin que
indica si un objeto caracterizado por ciertos valores de x1, x2, x3,xp, ser
clasificado como perteneciente a 1, o en caso contrario se considerar
perteneciente a 2 [2,6].

3
En cualquier estudio que requiera la clasificacin ptima de observaciones, se
debe tener en consideracin el costo esperado de clasificacin errnea, el cual
debe ser mnimo. En la obtencin del costo esperado de clasificacin errnea se
debe tomar en cuenta el conocimiento o desconocicmiento de la distribucin de las
probabilidades a priori de las poblaciones. Por ejemplo, en el caso de dos
poblaciones y conociendo las probabilidades a priori, el procedimiento que
minimiza el costo esperado de clasificacin errnea (CE), es el procedimiento de
Bayes, y la expresin del costo esperado de clasificacin errnea est dada por la
siguiente expresin:
ECM = C (2 | 1) P(2 | 1) P(1) + C (1 | 2) P(1 | 2) P(2)

1. 3 Clasificacin con dos Poblaciones Normales Multivariantes

Los procedimientos de clasificacin basados en poblaciones normales


multivariantes predominan en la prctica estadstica, debido a que ellos simplifican
e incrementan la eficiencia contando con una amplia variedad de modelos de
poblacin. Se asume que f1(x) y f2(x) son densidades normales multivariantes con
vectores de medias 1 y 2 y matrices de covarianzas 1 y 2 respectivamente.

Se ha estudiando la clasificacin cuando 1 = 2 y cuando 1 2, siendo el


primer caso el ms sencillo. A continuacin se presenta la funcin discriminante de
Fisher, como uno de los enfoques ms usados en anlisis discriminante.

1.3.1 Funcin Discriminante de Fisher Separacin de Poblaciones


La metodologa de Fisher es una de las ms usadas en anlisis discriminante
debido a su sencillez. La idea de Fisher es transformar las observaciones
multivariantes x (vector de observaciones) en observaciones univariantes y,
tales que las yi de la poblacin 1 y 2 respectivamente sean separadas lo mximo
posible. Fisher sugiere, tomar combinaciones lineales de x para crear y, porque

4
son funciones sencillas y manejables. En este enfoque no se asume que las
poblaciones sean normales, se asume que las matrices de covarianzas
poblacionales son iguales, y se usa la matriz de covarianzas conjunta estimada Sp.

Una combinacin lineal fija de las x, toma valores y11, y12,, y1n1 para las
observaciones de la primera poblacin y los valores y21,y22,,y2n2 para las
observaciones de la segunda poblacin. La separacin de esos dos conjuntos
univariantes y1 y y2, se evala en trminos de la diferencia entre las medias
y1 y y 2 expresada en unidades de de desviacin estndar. Esto es:
n1 n2

y1 y 2 (y1i y1 ) 2 + (y 2i y 2 ) 2
Separacin = donde S 2y = i=1 i =1
es la varianza
Sy n1 + n2 2
conjunta estimada.

El objetivo es seleccionar la combinacin lineal de las x que maximice la


separacin de las medias muestrales y1 y y 2 .

Es importante destacar que la combinacin lineal y = lx = (x1 x 2 )Sp x maximiza


1

la razn sobre todos los posibles coeficientes del vector l donde d = ( x 1 x 2 )


Distancia entre las medias muestrales de y (y1 y 2 ) 2
=
Varianza muestral de y S 2y
( l x 1 l x 2 ) 2
=
l S p l
( l d ) 2
=
l S p l

El mximo de la razn es D 2 = ( x1 x 2 )Sp1 ( x1 x 2 ) , donde


(n1 1) S1 + (n2 1) S 2
Sp =
(n1 + n2 2)

En resumen, para dos poblaciones, la separacin mxima relativa que puede ser
obtenida mediante la consideracin de combinaciones lineales de observaciones

5
multivariantes es igual a la distancia D2. Naturalmente, una separacin significativa
no implica una buena clasificacin.

1.4 Clasificacin en Una de Varias Poblaciones

En este caso, se debe dividir a en m regiones mutuamente excluyentes y


m m
exhaustivas, tales que U Ri = y IR i = . Sea 1, 2, ....m poblaciones con
i =1 i =1

funciones de densidad f1(x), f2(x), ....fM(x) respectivamente. Si la observacin cae


en Ri se dice que procede de i, adems, el costo de clasificacin errnea de una
observacin como perteneciente a j cuando realmente pertenece a i es
representado por C(j/i), tal que C(j/i)>0 si i j y C(j/i) =0 si i = j. Igual que en el
caso de dos poblaciones, la probabilidad y el costo esperado de clasificacin
errnea debe minimizarse [6,7]. En el caso de varias poblaciones, el costo
condicional esperado de clasificcin errnea de una observacin x en las
poblaciones 2 3 m. cuando en realidad proviene de la poblacin 1 se
expresa mediante:
ECM (1) = P (2 | 1)C (2 | 1) + P(3 | 1)C (3 | 1) + .... + P (m | 1)C (m | 1)
g
ECM (1) = P(k | 1)C (k | 1)
k =2

1.4.1 Mtodo de Fisher para Discriminacin entre Varias Poblaciones

Para este caso, Fisher propone una extensin del caso de dos poblaciones. La
motivacin inicial de Fisher es la necesidad de obtener una representacin
razonable de las poblaciones, que involucre slo unas pocas combinaciones
lineales de las observaciones, como por ejemplo l1x, l2 x y l3 x . Este enfoque

presenta varias ventajas cuando se est interesado en separar varias poblaciones


para inspeccin visual o propsitos de inspeccin grfica, y para otros aspectos
como los siguientes:

6
- Representacin conveniente de g poblaciones. Reduce la dimensin de un
gran nmero de caractersticas a unas pocas combinaciones lineales.
- Graficar las medias de las dos o tres primeras combinaciones lineales
discriminantes, ayuda a mostrar las relaciones y posibles agrupamientos de
las poblaciones.
- Realizar grficos de los valores muestrales de los dos primeros discriminantes,
es til para detectar observaciones atpicas u otras anomalas de la data.

El propsito primordial del anlisis discriminante de Fisher es separar entre g


poblaciones. No necesariamente se asume que dichas poblaciones son normales
multivariantes, pero s se asume que las matrices de varianzas y covarianzas
poblacionales son iguales y de rango completo, esto es: 1=2=3==g=.

Sea el vector de medias de las poblaciones combinadas

1 g
= i
g i =1
y sea B0 la matriz de productos entre grupos (suma entre grupos) tal que:
g
B0 = ( i )( i ) .
i =1

Considere la combinacin lineal Y = l X :


- El valor esperado E( Y ) = l E( X \ i ) = l i
- Matriz de covarianzas Var ( Y) = l Var ( X)l = l l para todas las poblaciones.

Al igual que en el caso de dos poblaciones, se trata de seleccionar


apropiadamente la combinacin lineal que maximice el cociente:

7
Sumas de Cuadrados de las distancias de las poblacione s a la media total de Y
=
Varianza de Y
g g g
( iy y ) 2
(l i l )
2
l ( i )( i ) l
i =1
= i =1 =
i =1 = l B 0 l
y 2
l l l l l l

Este resultado, se conoce como Discriminantes Lineales Muestrales de Fisher y dice lo


siguiente: Sean 1 , 2 ,..., s >0 los autovalores de W-1B0, tales que s min(g-1,p) y sean

e 1 , e 2 ,..., e s los correspondientes autovectores, tales que eiS p ei = 1 . Entonces el vector de

l B 0 l
coeficientes que maximiza la razn est dada por l 1 = e 1 , donde B 0 representa la
l W l
matriz de productos entre grupos y W la matriz de productos dentro de los grupos. La
combinacin lineal l 1 x es denominada primer discriminante muestral, l 2 x el segundo

discriminante muestral y l k x el k-simo discriminante muestral, ks

1.4.2 Clasificacin Basado en los Discriminantes Lineales de Fisher

Los discriminantes de Fisher se realizan con el propsito de obtener una


representacin de datos en pocas dimensiones, de tal forma que las poblaciones
sean separadas lo mximo posible. Anteriormente se explic las consideraciones
de separacin, que ahora dan las bases para formular una regla de clasificacin.

Una regla razonable de clasificacin es la siguiente: Se asigna y a la poblacin


k si la distancia cuadrada de y a ky es menor que la distancia cuadrada de y a
iy para i k. Resumiendo se tiene que: Se asigna x a k si:
2

[ ] [ ]
2 2

(y y kj ) = l j (x x k ) l j ( x xi ) para todo i k
r r

j
j =1 j =1

Otros procedimientos han sido desarrollados, entre las que se puede mencionar
las funciones discriminantes de coeficientes estandarizados y no estandarizados y

8
la funcin cuadrtica discriminante. Estas funciones se describen brevemente a
continuacin:

Funciones Discriminantes de Coeficientes No Estandarizados y de


Coeficientes Estandarizados: Los coeficientes no estandarizados son
mltiplos de las variables originales, donde stas son expresadas en sus
unidades originales. La magnitud de los coeficientes no estandarizados no son
buenos ndices de la importancia relativa, ya que las variables difieren en las
unidades de medicin. Los coeficientes estandarizados son usados en el caso
en que las variables originales se encuentren estandarizadas, a una media 0 y
una desviacin estndar 1. La interpretacin de los coeficientes es similar al
caso de regresin mltiple. Dado que las variables estn relacionadas, no es
posible calcular la importancia de una variable individualmente. El valor del
coeficiente para una variable en particular depende de las otras variables
incluidas en la funcin. Algunas veces es tentador interpretar las magnitudes
de los coeficientes como indicadores de la importancia relativa de las
variables. Se piensa que las variables que posean grandes coeficientes son
las que ms aportan a la funcin discriminante. Ambas funciones se utilizan
con fines predictivos para asignar nuevas observaciones a los grupos o
poblaciones ya conocidos [6].

Funcin Discriminante Cuadrtica: Las funciones discriminantes


cuadrticas en poblaciones normales, aparecen cuando las poblaciones se
distribuyen normalmente Np(1, 1), Np(2, 2),...., Np(g, g); es decir, las
matrices de covarianzas son desiguales. El criterio de clasificacin muestral

define como asignar x a la poblacin j si: d 2 j ( x) = maxi (d 2 i ( x)) para i= 1,2,.... g

(expresin para la funcin discriminante cuadrtica muestral).


1 1 / 2 1
Donde d 2 i = Ln Si ( x xi )Si ( x xi ) + Ln( pi )
2

9
Cuando las matrices de covarianzas son iguales (1=2=....=g) algunos de los
trminos de la expresin anterior se simplifican para dar origen a una funcin
discriminante lineal [6].

10
Ejemplo 1. Iris Data

El siguiente ejemplo corresponde a la base de datos que utiliz Fisher, en la cual


deseaba clasificar tres especies de lirios (setosa, versicolor y virgnica) de acuerdo
a las mediciones en centmetros del largo y ancho del spalo y el ptalo. De cada
especia se tienen 50 flores.

Utilizando el software S Plus se ejecuta el anlisis discriminante, se asume que la


estructura de las matrices de varianzas y covarianzas de las tres especies son
similares, y las probabilidades a priori proporcionales a la cantidad de
observaciones en cada poblacin, en este caso proporcional a la cantidad de
flores por especie..

A continuqacin se presentan los vectores de para cada especia y la matriz


estimada de varianzas y covarianzas conjunta para las tres especies.
Vectorea de Medias:
Lsepalo Asepalo Lpetalo Apetalo N Prob. Priori
G1 5.006 3.428 1.462 0.246 50 0.3333333
G2 5.896 2.770 4.260 1.326 50 0.3333333
G3 6.588 2.974 5.552 2.026 50 0.3333333

Matriz de Varianzas y Covarianzas Estructura: homoscedstica


Lsepalo.1 Asepalo.1 Lpetalo.1 Apetalo.1
Lsepalo.1 0.2627224 0.0963946 0.1622082 0.03671429
Asepalo.1 0.1153878 0.0552435 0.03271020
Lpetalo.1 0.1851878 0.04266531
Apetalo.1 0.04188163

Como primer paso en un anlisis discriminante, debe realizarse la prueba de


hiptesis que permite la comparacin simultnea de los tres vectores de medias
poblacionales, y as determinar si tiene sentido la discriminacin o clasificacin.
Tests para la igualdad de Vectores de Medias:
Variable Clasificadora: Especie

Estadstico F df1 df2 Pr


Lambda Wilks 0.024 196.1 8 288 0
Traza de Pillai 1.193 53.5 8 290 0
Traza de Hotelling-Lawley 31.552 564.0 8 286 0
Mayor Raz de Roy 31.264 1133.3 4 145 0

Al observar el resultado de las cuatro pruebas realizadas anteriormente, en todas


se rechaza la hiptesis nula de igualdad de vectores de medias, as que si tiene
sentido la discriminacin o clasificacin.

Ahora deben compararse todas las parejas de vectores de medias para determinar
cules son las variables o caractersticas (componentes del vector) que deben
usarse para realizar la discriminacin, o en otras palabras, cules son las variables

11
o caractersticas que permiten la mxima separacin de las tres especies de lirios.
Para ello se utiliza el estadstico T2 de Hotelling, y tal como se muestra a
continuacin existen diferencias entre los tres pares de medias.

T2 de Hotelling para detectar diferencias entre parejas de vectores de medias:


F df1 df2 Pr
G1-G2 536.251 4 144 0
G1-G3 1065.877 4 144 0
G2-G3 101.688 4 144 0

Al observar los intervalos de confianza para la diferencia de medias en cada


variable y entre grupos, se concluye que en las cuatro variables o caractersticas
existen diferencias y se cometan al respecto lo siguiente:

- Al comparar la especie setosa (grupo 1) y la especie versicolor (grupo 2), se


concluye con 95% de confianza que existen diferencias significativas entre las
cuatro variables en estudio (largo y ancho del spalo y del ptalo). En las
variables largo del spalo, largo del ptalo y ancho del ptalo la especie
versicolor tiene mayor promedio que la especia setosa (lmites negativos)
mientras que para la variable ancho del spalo la especie setosa tiene mayor
promedio que la versicolor.
- Al comparar la especie setosa con la virgnica se detectan diferencias
significativas en las cuatro variables. En las variables largo del spalo, largo
del ptalo y ancho del ptalo la especie virgnica tiene mayor promedio que la
especia setosa (lmites negativos), mientras que en la variable ancho del
spalo la especia setosa tiene mayor promedio que la virgnica, y es la misma
estructura detectada con la especie versicolor.
- Al comparar la especie versicolor con la virgnica se detectan diferencias
significativas entre las cuatro variables. Los lmites de los intervalos de
confianza son todo negativos, lo que indica que la especie virgnica tiene
mayor promedio en las cuatro variables que la especia versicolor.
Intervalos de confianza Simultneos al 95% Usando el Mtodo de Sidak

Diferencia Error Est. Lm. Inferior Lm. Superior


G1.Lsepal.1-G2.Lsepal.1 -0.890 0.1030 -1.150 -0.632 ****
G1.Asepal.1-G2.Asepal.1 0.658 0.0679 0.487 0.829 ****
G1.Lpetal.1-G2.Lpetal.1 -2.800 0.0861 -3.010 -2.580 ****
G1.Apetal.1-G2.Apetal.1 -1.080 0.0409 -1.180 -0.977 ****
(critical point: 2.5212 )

G1.Lsepal.1-G3.Lsepal.1 -1.580 0.1030 -1.840 -1.320 ****


G1.Asepal.1-G3.Asepal.1 0.454 0.0679 0.283 0.625 ****
G1.Lpetal.1-G3.Lpetal.1 -4.090 0.0861 -4.310 -3.870 ****
G1.Apetal.1-G3.Apetal.1 -1.780 0.0409 -1.880 -1.680 ****
(critical point: 2.5212 )

G2.Lsepal.1-G3.Lsepal.1 -0.692 0.1030 -0.950 -0.4340 ****


G2.Asepal.1-G3.Asepal.1 -0.204 0.0679 -0.375 -0.0327 ****
G2.Lpetal.1-G3.Lpetal.1 -1.290 0.0861 -1.510 -1.0800 ****
G2.Apetal.1-G3.Apetal.1 -0.700 0.0409 -0.803 -0.5970 ****
(critical point: 2.5212 )

12
A continuacin se presentan las funciones lineales discriminantes
Constantes:
G1 G2 G3
-82.48466 -72.76768 -105.755

Coeficientes Lineales:
G1 G2 G3
Lsepalo.1 21.56111 15.53092 13.50605
Asepalo.1 23.18804 6.15912 2.29309
Lpetalo.1 -14.02648 5.89742 12.36328
Apetalo.1 -16.84849 7.22780 22.14920

Al examinar la matriz de distancias se observa que las especies ms parecidas


son la versicolor y virgnica (tienen menor distancia) mientras que las ms
distantes o diferentes son la especia setosa y la especie virgnica
Matriz de Distancias (usando la Distancia de Mahalanobis)
G1 G2 G3
G1 0.0000 87.58763 174.0932
G2 0.00000 16.6090
G3 0.0000

El test de Kolgomorov Smirnov de normalidad es realizado, y se concluye que


las cuatro variables o caractersticas tienen distribucin normal univariante.

Test de Kolmogorov-Smirnov Test para normalidad

Estadstico Probabilidad
Lsepalo.1 0.0421896 0.9522367
Asepalo.1 0.0808214 0.2810337
Lpetalo.1 0.0487090 0.8688033
Apetalo.1 0.0484453 0.8729878

Al observar la matroz de confusin o tabla de clasificacin, es evidente que la


especie setosa fue la mejor clasificada; las 50 observaciones fueron clasificadas
correctamente, y en esta especie no hubo error de clasificacin. De las 50
observaciones de correspondientes a la especia versicolor (grupo 2) 48 se
clasificaron correctamente mientras que slo 2 fueron mal clasificadas y asignadas
a la especie virgnica (grupo 3). De las 50 observaciones correspondientes a la
especia virgnica, slo 1 fue mal clasificada, y se asign a la especia versicolor.
Matriz de Confusin o Tabla de Clasificacin

G1 G2 G3 Error Error Posterior


G1 50 0 0 0.00 0.0000000
G2 0 48 2 0.04 0.0495320
G3 0 1 49 0.02 0.0267021
Total 0.02 0.0254114

13
G1 G2 G3
7
4.0 6

3.5 5
4
3.0
3

Lpetalo.1
Asepalo.1

2.5 2
2.0 1
0.5 1.0 1.5 2.0 2.5 0.5 1.0 1.5 2.0 2.5
Apetalo.1 Apetalo.1

14
Iris Setosa

Iris Versicolor

15
Iris Virgnica

16

Vous aimerez peut-être aussi