Académique Documents
Professionnel Documents
Culture Documents
9/14/2006
Anlisis Discriminante
Resumen
El procedimiento de Anlisis Discriminante es diseado para ayudar a distinguir entre dos o
ms grupos de datos basados en un conjunto de p variables cuantitativas observadas. Esto se
hace construyendo funciones discriminantes que son combinaciones lineales de las variables. El
objetivo de tal anlisis es generalmente uno o ambos de los que siguen:
1. La habilidad para describir los casos observados matemticamente de una manera que los
separa en grupos tan bien como sea posible.
2. La habilidad para clasificar nuevas observaciones como pertenencia a uno u algunos
grupos.
En la construccin de las funciones discriminantes, el procedimiento permite incluir a todas las
variables o usar un procedimiento de seleccin paso a paso que incluye solamente algunas
variables que son estadsticamente significativas para discriminar sobre los grupos. Los
resmenes y pruebas estadsticas con significancia para el nmero de funciones discriminantes
necesarias sern incluidos.
Las funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de
los grupos. Las probabilidades a priori de pertenencia para cada grupo sern ingresadas o
derivadas de los datos observados.
1
2
3
4
5
6
7
8
9
10
Sepal
Length
(Longitud
Spalo)
5.1
4.9
4.7
4.6
5
5.4
4.6
5
4.4
4.9
Sepal
Width
(Anchura
Spalo)
3.5
3
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
Petal
Length
(Longitud
Ptalo)
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
Petal
Width
(Anchura
Ptalo)
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
Species
(Especie)
setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa
setosa
Anlisis Discriminante - 1
Sepal length
setosa
versicolor
Sepal width
virginica
Petal length
Petal width
Observe como las especies son naturalmente divididas entre grupos. Existe, sin embargo, algn
traslape entre los grupos, particularmente versicolor y virginica.
Entrada de Datos
La caja de dialogo para la entrada de datos requiere el nombre de una columna que identifique
los grupos y los nombres de las variables p que sern utilizadas para discriminar sobre los
grupos:
Anlisis Discriminante - 2
Datos: Los nombres de las variables p que sern usadas para discriminar acerca de los
grupos.
Modelo Estadstico
La meta del procedimiento de Anlisis Discriminante es la construccin de combinaciones
lineales de p variables de entrada que discriminen mejor acerca de los g grupos. El j-simo
funcin discriminante toma la forma de:
D j = d j1 Z 1 + d j 2 Z 2 + ... + d jp Z p
(1)
donde las Zs son las variables de entrada X estandarizadas, creadas restando la media muestral y
dividiendo entre la desviacin estndar muestral.
Las s funciones discriminantes son encontradas por la determinacin de eigenvalores por:
W 1 B
(2)
donde W es la suma de cuadrados de la muestra dentro de grupos y la matriz de productocruzado y B es la suma de cuadrados de la muestra entre grupos y la matriz de producto-cruzado.
Los coeficientes de las funciones discriminadoras son derivadas de los eigenvectores.
Bsicamente, las funciones discriminantes son derivadas para maximizar la separacin de los
grupos.
Para clasificar nuevos casos dentro de grupos, las funciones de clasificacin tambin son
derivadas. Para clasificar una observacin, una puntuacin es derivada para cada grupo. La
puntuacin para el j-simo grupo es calculado por:
C j = c j1 X 1 + c j 2 X 2 + ... + c jp X p + c j 0
(3)
Nuevos casos son clasificados como perteneciendo a cualquier grupo si tiene el valor ms grande
de Cj * a priorij.
donde a priorij es la probabilidad a priori de pertenecer al j-simo grupo. Los a priori se pueden
ingresar por el usuario, la estimacin de los datos, o asumir que son iguales.
Anlisis Discriminante - 3
Eigenvalor
Porcentaje
Relativo
99.12
0.88
32.1919
0.285391
Lambda
de Wilks
0.0234386
0.777973
Chi-Cuadrada
546.1153
36.5297
Correlacin
Cannica
0.98482
0.47120
GL
8
3
Valor-P
0.0000
0.0000
Nmero de Casos Completos: El nmero de casos n para los cuales no se cuenta con ningn
dato en blanco.
Nmero de Grupo: Nmero de diferentes grupos g dentro de los cuales los casos sern
divididos.
*j =
2
j
1 + J
(4)
j = 1 i*
i= j
(5)
Anlisis Discriminante - 4
Chi-Cuadrada: Una prueba estadstica utilizada para probar la hiptesis de que todas las
correlaciones cannicas numeradas por j son iguales a 0. Esto se calcula por
1
2 = n 1 ( p + g ) ln j
2
(6)
F-para-Ingresar En una regresin paso a paso, las variables que debern ingresar dentro
del modelo en un paso calculado si sus valores F son mayor o igual al valor especificado en
F-para-Ingresar.
Anlisis Discriminante - 5
Pasos Mximos El nmero mximo de pasos permitidos cuando se realiza una regresin
paso a paso.
Desplegar Si se presentan los resultados de cada paso cuando se realiza una regresin paso
a paso.
Seleccin Hacia Atrs Comienza con un modelo que implica solamente al trmino
constante e ingresa una variable a la vez basado sobre la significancia estadstica si se agrega al
modelo actual. En cada paso, el algoritmo trae al modelo la variable que podr ser la
de mayor significancia estadstica si se ingresa. La seleccin de las variables esta
basada en una prueba F-para-Ingresar. Mientras las variables ms significativas
tengan un valor F mayor o igual al especificado en la caja de dialogo Resumen del
Anlisis, ser incluida al modelo. Cuando ninguna variable tiene un valor ms grande
que F, la seleccin de las variables para. Adems, las variables incorporadas al
modelo inicial con el procedimiento pueden ser removidas ms adelante si sus valores
F caen abajo del criterio F-para-Remover.
Seleccin Hacia Adelante Comienza con un modelo implicando todas las variables
especificadas en la caja de dialogo entrada de datos y remueve una sola variable a la
vez basando en la significancia estadstica del modelo actual. En cada paso, el
algoritmo remueve del modelo la variable que podr ser la de menor significancia
estadstica. Las variables removidas estn basadas sobre la prueba F-para-Remover.
Si la variable de menor significancia tiene un valor menor que la F especificada sobre
la caja en la caja de dialogo Resumen del Anlisis, entonces se podr remover del
modelo. Cuando todas las variables removidas tengan un valor ms grande que F, la
seleccin de las variables para. Adems, las variables removidas del modelo inicial
con el procedimiento pueden ser reincorporadas ms adelante si sus valores F cae
debajo del criterio F-para-Ingresar.
La salida de abajo muestra los resultados de una Seleccin Hacia Atrs para los datos del
ejemplo:
Regresin por pasos
Mtodo: seleccin hacia adelante
F para introducir: 4.0
F para eliminar: 4.0
Paso 0:
0 variables en el modelo.
Paso 1:
Agregando variable Petal length con F para introducir = 1180.16
1 variables en el modelo.
Lambda de Wilk = 0.0586283 F aproximada = 1180.16 con valor-P = 0.0000
Anlisis Discriminante - 6
Todas las cuatros variables se adicionan significativamente al ajuste cuando son incorporadas.
Grfico de Dispersin 2D
El Grfico de Dispersin 2D grafica los datos de cualquier par de variables X.
Diagrama de Dispersin
Species
setosa
versicolor
virginica
4.4
Sepal width
4
3.6
3.2
2.8
2.4
2
4.3
5.3
6.3
7.3
8.3
Sepal length
Anlisis Discriminante - 7
Grfico de Dispersin 3D
El Grfico de Dispersin 3D grafica los datos de cualquier tercia de variables X.
Diagrama de Dispersin
Species
setosa
versicolor
virginica
Petal length
8
6
4
2
0
4.3
5.3
6.3
7.3
8.3
4.4
3.64
2.83.2
2 2.4
Sepal width
Sepal length
Anlisis Discriminante - 8
versicolor
50
virginica
50
TOTAL
150
5.936
2.77
4.26
1.326
6.588
2.974
5.552
2.026
5.84333
3.05733
3.758
1.19933
0.516171
0.313798
0.469911
0.197753
0.63588
0.322497
0.551895
0.27465
0.828066
0.435866
1.7653
0.762238
Anlisis Discriminante - 9
Petal width
0.0384014
0.0327102
0.0426653
0.0418816
Petal width
0.364506
0.470535
0.484459
1.0
Petal length
0.756164
0.377916
1.0
0.484459
Funciones Discriminantes
Las Funciones Discriminantes son combinaciones lineales de las variables de entrada usadas
para separar los datos en diferentes grupos. Este panel muestra ambos los coeficientes
estandarizados y sin estandarizar:
Coeficientes de la Funcin Discriminante para Species
A
Sepal length
Sepal width
Petal length
Petal width
1
0.426955
0.521242
-0.947257
-0.575161
2
0.0124075
0.735261
-0.401038
0.58104
2
0.0241021
2.16452
-0.931921
2.83919
-6.66147
(7)
donde las Z son la forma estandarizada de las variables X de entrada, creadas por la resta de la
media muestral dividida entre la desviacin estndar muestral. La j-sima funcin discriminante
sin estandarizar toma la forma de
U j = u j1 X 1 + u j 2 X 2 + ... + u jp X p + u j 0
(8)
Cuando las variables estn en unidades diferentes o tiene distintas varianzas, ms provecho se
obtiene de los coeficientes estandarizados.
2006 por StatPoint, Inc.
Anlisis Discriminante - 10
3.3
Funcin 2
2.3
1.3
0.3
-0.7
-1.7
-2.7
-10
-6
-2
10
Funcin 1
Es de mucha ayuda en la visualizacin de que tambin las funciones separan los datos.
Claramente, la primer funcin separa completamente setosa de las otras dos especies, dejando
una cantidad pequea de traslapes entre versicolor y virginica. La segunda funcin discriminante
puede ayudar un poco a separar las ltimas dos especies. Adicionalmente a las observaciones, la
localizacin de las medias de los valores de las funciones discriminantes para cada grupo son
mostradas con signos +.
Anlisis Discriminante - 11
Introduce el nmero de las dos funciones discriminantes para graficar en el eje horizontal y en el
eje vertical.
Centroides de Grupos
El panel muestra el centroide o los valores medios para cada uno de los g grupos en cada una de
las s funciones discriminantes
Centroides de Grupo para Species
Grupo
1
2
setosa
7.6076
0.215133
versicolor -1.82505 -0.7279
virginica
-5.78255 0.512767
Funciones de Clasificacin
Las funciones de clasificacin son usadas para determinar a cual de los g grupos una muestra
cualquiera parece pertenecer:
Coeficientes de la Funcin de Clasificacin para Species
setosa
versicolor virginica
Sepal length
23.5442
15.6982
12.4458
Sepal width
23.5879
7.07251
3.68528
Petal length
-16.4306
5.21145
12.7665
Petal width
-17.3984
6.43423
21.0791
CONSTANTE
-86.3085
-72.8526
-104.368
Una puntuacin ser calculada para cada observacin i y cada grupo j de acuerdo a
C ij = c j1 X i1 + c j 2 X i 2 + ... + c jp X ip
(9)
Si los datos son asumidos que proviene de una distribucin normal multivariada, entonces los
scores son relacionados a las probabilidades de que una observacin pertenezca a un grupo
particular.
Anlisis Discriminante - 12
Tabla de Clasificacin
La Tabla de Clasificacin muestra el resultado de usar la regla de clasificacin para asigna casos
observados y nuevos casos a grupos. Para un conjunto de valores X dado, un caso es asignado al
grupo que corresponde el valor C ij * prior j ms grande, donde a priori rj es la probabilidad a
priori de que un individuo provenga del grupo j. Ya que el tamao de poblacin de cada grupo
no es el mismo, la probabilidad de que un individuo pertenezca a un grupo particular a priori
puede variar de grupo a grupo. Por ejemplo, en investigacin para una enfermedad, la proporcin
de individuos dada una prueba de diagnostico quienes actualmente han tenido un enfermedad
puede ser muy pequea, un hecho que necesitamos tomar en cuenta. Usando Opciones de Panel,
el usuario especifica como manejar las probabilidades a priori. Puede asumir ser la misma para
todos los grupos, ser proporcional a la fraccin de datos dentro de cada grupo. O ser introducida
por el usuario.
La tabla muestra una salida tpica:
Tabla de Clasificacin
Actual
Tamao
Species
de Grupo
setosa
50
Predicho
Species
setosa
versicolor
virginica
50
0
0
(100.00%)
( 0.00%)
( 0.00%)
versicolor 50
0
48
2
( 0.00%)
( 96.00%)
( 4.00%)
virginica
50
0
1
49
( 0.00%)
( 2.00%)
( 98.00%)
Porcentaje de casos correctamente clasificados: 98.00%
Grupo
1
2
3
Probabilidad
Previa
0.3333
0.3333
0.3333
Grupo
Grupo
Fila Actual
Ms Alto
71
versicolor *virginica
84
versicolor *virginica
134 virginica
*versicolor
151
virginica
* = incorrectamente clasificado.
Valor
Ms Alto
80.0769
79.093
82.0789
99.945
Distancia
Cuadrada
4.55382
3.59634
4.0068
0.73244
Prob.
0.7468
0.8566
0.7294
0.9996
2 Grupo
Ms Alto
versicolor
versicolor
virginica
versicolor
2 Valor
Ms Alto
78.9954
77.3056
81.0874
91.9996
Distancia
Cuadrada
6.71675
7.17114
5.98984
16.6234
Prob.
0.2532
0.1434
0.2706
0.0004
La parte de arriba muestra que tan bien la regla de clasificacin realizo la clasificacin de los
datos del ejemplo. Cada rengln tabula los resultados para los casos que actualmente pertenecen
a un grupo en particular. Las columnas muestran que tan frecuente fueron clasificados como
pertenecientes a cada grupo. En la parte de abajo se muestra el porcentaje de casos que fueron
correctamente clasificados.
La parte del centro de la tabla muestra las probabilidades a priori. Para los datos del ejemplo, las
probabilidades a priori fueron asumidas ser las mismas para todos los grupos.
La parte ms baja de la tabla muestra los dos grupos que recibieron los scores ms altos para los
casos seleccionados. La tabla muestra:
Anlisis Discriminante - 13
1.
2.
3.
4.
Por ejemplo, suponga que un nuevo iris fue observado con las siguientes caractersticas:
sepal length = 6.6 inches
sepal width = 2.9 inches
petal length = 5.1 inches
petal width = 2.2 inches
Estos valores estaran en el rengln #151 de la hoja de datos. La tabla muestra que el grupo con
la puntuacin ms alta para estos valores es virginica, seguida por versicolor. La gran diferencia
entre las distancias y as las probabilidades posteriores implican que la muestra parece pertenecer
mas a el grupo virginica.
Anlisis Discriminante - 14
Despliega: Todos los Datos desplegaran todas las observaciones en la hoja de datos,
clasificado equivocadamente y Nuevas Observaciones desplegaran cualquier caso que fue
clasificado equivocadamente o que tiene un valor perdido para el indicador del grupo,
mientras que Nuevas Observaciones solamente desplegaran los datos no usados para
determinar las funciones discriminantes.
Guardar Resultados
Los siguientes resultados pueden ser guardados en una hoja de datos:
1. Valores de la Funcin Discriminante - Los valores D de las funciones discriminantes
para cada una de n observaciones.
2. Coeficientes de la Funcin de Clasificacin Los valores C de las funciones de
clasificacin para cada una de n observaciones.
3. Coeficientes Estandarizados - s columnas que contienen los valores de los p coeficientes
dij de cada funcin discriminante estandarizada.
4. Coeficientes no Estandarizados - s columnas que contienen los valores de los p+1
coeficientes uij de cada funcin discriminante no estandarizada.
5. Probabilidades Previas Las probabilidades a priori de pertenecer a cada uno de los g
grupos.
6. Medias de Variables Las medias de cada una de las p variables X.
7. Desviaciones Estndar de Variables Las desviaciones estndar mustrales de cada una
de las p variables X.
Anlisis Discriminante - 15