Vous êtes sur la page 1sur 8

Facultad de Ingeniería TECNOLOGÍA & DESARROLLO

Vol 8 – Nº 1, 2010, Pág. 10-16

Software estadístico para el análisis


factorial de correspondencia múltiple.
Statistical Software for the factorial analysis of multiple
correspondence.

Huarote Zegarra Raúl E. (1)


raulhuarote@yahoo.es
Recepción: / Aceptación:

RESUMEN

La presente artículo “Software estadístico para el análisis factorial de correspondencia”, muestra el


procedimiento de cómo se lleva a cabo el método estadístico “análisis factorial de correspondencia múltiple” y
la manera de plasmarlo en una solución software, el mismo que a través de una serie de reportes le brinda al
usuario mecanismos para poder tomar una decisión. Para lograr esto último, el software estadístico presenta
los datos al usuario de una manera flexible, amigable y fácil de usar, criterios que técnicamente se muestran
bajo la forma de tablas de individuos y alternativas descritos por varias variables cualitativas.
Este método se adapta particularmente al análisis de encuestas, para las cuales las líneas de la tabla son en
general individuos (en cantidad considerable) y las columnas son variables cualitativas (modalidades de
respuesta a las preguntas).

Palabras Clave: análisis factorial de correspondencia múltiple, variables cualitativas, modalidades.

ABSTRACT

The present Thesis "Statistical Software for the factorial Analysis of multiple correspondence", it shows the
procedure it is carried out the method statistical of how "factorial analysis of multiple correspondence" and the
way to capture it in a solution software, the same one that offers to the user mechanisms to be able to make a
decision through a series of reports. To achieve this I finish, the software introduces the data to the user in a
flexible, friendly and easy way of using, approaches that technically are shown under the form of individuals'
charts and alternatives described by several qualitative variables (answer modalities to the questions).

Key Words: Factorial analysis of multiple correspondence, qualitative variables, modalities.

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

1. INTRODUCCIÓN en las coordenadas, coseno entre otros datos


complementarios.
Este procedimiento hace el análisis de las
correspondencias múltiples de un juego de 3. METODOLOGIA
individuos caracterizado por las variables
nominales. Eso calcula las coordenadas factoriales 3.1. Análisis Factorial de correspondencia
de los individuos y modos. Si de las variables múltiple.
continuas (ilustrativo) está presente, uno calcula las Los pasos mostrados son la secuencia necesaria
relaciones mutuas entre estas variables y las hechas para obtener los resultados de tipo multivariante.
del análisis. Donde cada uno de ellos se especifica a
continuación:
Uno puede pedir entonces la edición del cuadro de R
Ingreso de datos (encuesta) E
las correspondencias múltiples (a veces nombrado
P
cuadro de Burt) y sus perfiles. Uno encontrará el O
histograma de los valores limpios del análisis, Matriz Binaria. R
entonces las coordenadas, las contribuciones a la T
inercia y cosenos del cuadrado de los modos E
Matriz Burt. S
activos. Si la edición se pide algunos, una lista del /
mismo tipo se mantendrán los individuos (activo y G
posiblemente ilustrativo). [1,2]. Matriz Diagonalizada. R
A
F
El análisis de correspondencias múltiples (ACM) es I
Valores y Factores. (alg. Labpack)
una extensión del análisis factorial de C
. O
correspondencia (AFC) aplicada no a una tabla de
contingencia, sino a una tabla disyuntiva completa. Coordenadas, cosenos y otros. S
.
El Análisis Factorial de Correspondencia Múltiple,
es un instrumento adaptado al análisis estadístico.
Matriz Binaria
Este método de análisis estadístico responde a la
exigencia metodológica de analizar la información
El punto de partida de básico del Análisis Factorial
de diferentes dimensiones cualitativas u ordinales
de Correspondencia Múltiple puede ser una tabla de
de una población, respetando el nivel de síntesis
datos Binarios (Tabla de unos y ceros).
que impone el cuadro conceptual con el cual el
En este algoritmo se define la alternativa (sólo una
investigador concibe su problemática de estudio y
opción) de cada pregunta (llamada Variable).
diagrama del dispositivo de observación. [2]
Por cada individuo que es encuestado, en cada
2. CONTENIDO
pregunta (Variable) solo tiene una alternativa que
va a ser marcada (toma el valor 1) y el resto de
El Análisis Factorial de Correspondencia Múltiple,
alternativas de la pregunta en cuestión toma el
es un instrumento adaptado al análisis estadístico.
valor 0; así sucesivamente para cada pregunta en
Este método de análisis estadístico responde a la
cada individuo.
exigencia metodológica de analizar la información
de diferentes dimensiones cualitativas u ordinales
Matriz Burt
de una población, respetando el nivel de síntesis
que impone el cuadro conceptual con el cual el
Es el cruce de M modalidades entre sí o, lo que es
investigador concibe su problemática de estudio y
lo mismo un cruce de V variables, cada una con su
diagrama del dispositivo de observación realizado
número particular de Modalidades.
íntegramente en una encuesta. Teniendo en cuenta
A partir de este cruce de modalidades
los procesos estadísticos necesarios para encontrar
precisamente, es decir que a partir de sus
los diferentes reportes en cada paso del método
similitudes y sus diferencias conjuntas podrán
estadístico hasta llevar al reporte general y en base
lograrse el objetivo al Análisis Factorial de
a ello tomar una decisión. Los cuales son en
Correspondencia Múltiple.
secuencia la matriz binaria (obtenida en base a una
Esta matriz presenta la interrelación entre las M
encuesta) , procesándola a matriz de burt, matriz
modalidades, es decir lleva a cabo una Análisis
diagonalizada, matriz de valores y factores (usando
Factorial de Correspondencia Múltiple. Esta matriz
el algoritmo de LabPack) y finalmente la ubicación
siempre es simétrica.

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

Fórmula Detalle Dada la matriz A, n x n .calcular un escalar  y un


Q Siendo j,k Cualquiera vector x no cero tales que: Ax= x donde:
B   Z ij Z jk  Z ' Z de las M modalidades =valores propios y x auto vector.
1
La suma de los valores propios es igual al cociente
entre en número de modalidades (M)y el número de
variables (V) menos 1.
En esta Matriz los activos de la diagonal son las Es decir:
frecuencias absolutas de las M Modalidades y el
resto de elementos son las frecuencias absolutas Fórmula Detalle
resultantes del cruce entre sí de las M modalidades. λ = Valores Propios.
V M = Modalidades.
M
Matriz Diagonalizada


 
1 V
1 V = Variables.
α = Contador de
Si se sigue los pasos y el desarrollo matemático variables.
expuesto para analizar el comportamiento de las M
modalidades en la matriz Z de Q filas según el
análisis factorial de correspondencia simple lo que Una vez obtenida los valores propios referentes a la
en definitiva se acaba consiguiendo es un análisis matriz R; la cantidad de valores propios que
de las M modalidades entre sí. presentan es la misma cantidad de la dimensión de
Para ello nos presenta de la siguiente fórmula la la matriz R; pero como todos no son lo valores
matriz R (Matriz diagonalizada): propios seleccionados se restringe de la siguiente
manera:
Fórmula Detalle  (M-V) valores propios; donde M= cantidad de
modalidades totales y V=cantidad total de
V = Cantidad de Variables preguntas.
n j ,k (preguntas).
 Si es que dentro de los resultados de los valores
R njk = Posición j,k ésimo de la propios es mayor que 0.98 no se le considera
V n j .nk Matriz de Burt puesto que por regla debe ser menor que 1.
nj = Sumatoria de el eje
vertical; dentro de la
variable i; con respecto a
Factores
la posición nj,k de Burt.
nk = Sumatoria de el eje
La idea básica es que es posible describir un
horizontal; dentro de
conjunto de variables en función de un número
la variable i; con respecto
menor de índices o factores para, así, establecer las
a la posición nj,k de
relaciones que existen entre ellas. Factores de filas
Burt. y columnas, contienen las coordenadas respecto de
cada eje.
Como se ha llegado a obtener la matriz de Burt por
lo que es una matriz diagonal, esta matriz en Factores a considerar
proceso debe ser también diagonal.
Generalmente hay un conjunto general de factores,
los primeros que son los que explican la mayor
Valores Propios parte de la variabilidad total. Los otros factores
suelen contribuir relativamente poco para
El estudio de los valores surge permanentemente en determinar el número de factores a conservar; hay
muchas áreas de la ciencia e ingeniería como el varios criterios como el de CRIVISQUI, que indica
análisis de estructuras, diseño de sistemas lo siguiente: “conservar solamente aquellos factores
electrónicos, mercados finanzas entre otros. cuyos valores propios están por encima del valor
Es también importante su aplicación para analizar promedio del total de valores propios, cuyos
el comportamiento de métodos numéricos. porcentajes de varianza a explicar sea del 100%”.
La teoría y los algoritmos se aplican a matrices Pero con el que nos quedaremos es el de la cantidad
reales y complejas. de los valores propios obtenidos después de haber
El problema estándar: pasado por las restricciones antes mencionadas (O
sea todos los valores para que el usuario entendido
en el método tome sus decisiones).

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

Coordenadas Tabla de Burt, descrita anteriormente; puede


ser que este comportamiento se deba a un error
El fin es interpretar un análisis de correspondencia, de codificación, o bien, a un comportamiento
o sea, dar un significado específico a cada eje y a real del individuo observado.
las proximidades entre los puntos cuando ellos son  Cuando se observa la formación de varias
proyectados sobre el eje factorial. La tabla de datos nubes de puntos-individuos se debe decidir
fue procesada utilizando el módulo “Análisis de entre hacer estudios separados de AFCM en
Correspondencias”. esas sub-poblaciones u objetos analizados o
Puede Haber más de dos Factores seleccionados; seguir con la exploración de los datos.
por lo tanto se presentan más de dos fenómenos  El resultado gráfico interesante de analizar es
gráficos a analizar. el plano donde se proyectan conjuntamente, los
Esto permite una mejor interpretación de los ejes de puntos-categorías y los puntos–individuos.
los factores. Debido a que las columnas y filas de la matriz
de datos juegan un rol simétrico, la
Fórmula Detalle representación simultánea de estas dos nubes
de puntos es posible.
f = Representa el valor
propio con respecto al Indicadores del análisis factorial de
f factor f. correspondencia múltiple.
Coor j , f  .U j , f Uj,f = Posición j del factor
nj f. Para determinar cuáles categorías (y, por supuesto,
Q.V Q = Cantidad de sus variables respectivas) son las más importantes
individuos. en la formación de los ejes principales, se analizan
V = Cantidad de variables los indicadores: coseno cuadrado y contribución
(Preguntas). relativa.
Q
n j   Z i, j El coseno cuadrado permita describir la calidad de
la representación, de cada una de las categorías,
i 1 sobre el eje de consideración. Cuando más grande
Dónde Z la matriz binaria sea el valor de este indicador, mejor será la calidad
antes mencionada. de la representación del punto-categoría respectivo.
Coseno no es sino una raíz cuadrada de la
Gráfica contribución relativa, o dicho de otro modo, el
coseno del ángulo que forma el vector coordenada
Se mencionó anteriormente que puede haber más de con el factor correspondiente.
dos ejes importantes en el AFCM. Estos mismos
ejes pueden combinarse con los dos primeros,
Fórmula Detalle
formando planos para dar más información del
fenómeno en estudio, pero la simplificación debe de Coord j , f
ser el criterio a seguir a la hora de explicar y Coseno j , f  j = Contador,
Dist 2 donde j =1 …M
resumir información. Tomándose alusión solo al f
primer plano, formando por los ejes 1 y 2, para f = factor en el
explicar la forma de interpretación de los puntos cual es analizado.
proyectados. En el grafico compuesto por el plano
principal de los dos primeros ejes, se proyectan los
puntos-categorías. En este plano se analizan las Por otra parte, la contribución relativa de cada uno
cercanías entre las categorías de una variable con de los puntos a la inercia explicada por el eje en
las categorías de las otras. Existen varios aspectos consideración, es otro indicador que especifica las
que deben ser tomados en consideración cuando se categorías que más contribuyen a la formación del
analizan los gráficos: eje (las contribuciones relativas son sus pesos
marginales). La suma de las contribuciones
 Cuando la nube de puntos categorías puede ser relativas de todas las categorías activas es igual a
reducida a una sola dimensión, la imagen que 100.
se obtiene en el plano principal, presenta una
forma parabólica: es el efecto “Guttman”. Fórmula Detalle
 Cuando en el primer plano se observan puntos- (Coord j , f ) 2 (Coord j , f ) 2 j = Contador
C. Re lativa j , f  
individuos aislados o raros, entonces es ( Dist j ) 2 Q
1 f = factor en el
necesario verificar los datos originales y la nj cual es

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

analizado. funciones que simularán las acciones que se pueden


realizar con los objetos “métodos”.
El nombramiento de los ejes es un paso De acuerdo con sus seguidores, la programación
relativamente subjetivo porque tiene que ver con la orientada a objetos permite pensar las cosas con un
experiencia y el conocimiento del investigador. En gran nivel de abstracción, lo que en muchos casos
la denominación de los ejes debe observarse las hace que los programas sean más fáciles de
interrelaciones entre las categorías, los recorridos entender y de modificar. Además, la
de las variables, la calidad de la representación implementación de cada clase corresponde a un
(coseno cuadrado) y las contribuciones relativas. modelo concreto que puede ser utilizado de manera
Las interrelaciones existentes entre las variables relativamente independiente de los otros, lo que
solo las podrá explicar y sustentar el experto en el facilita la reutilización de código en múltiples
tema de Análisis Multivariante. aplicaciones.

Además, en la nominación de cada eje prevalece lo ¿Cuáles son las ventajas de un lenguaje orientado a
que el investigador crea importante destacar. Se objetos?
trata, en la medida de lo posible, de ajustar esta  Fomenta la reutilización y extensión del
denominación a la realidad, con base en los valores código.
de los dos indicadores señalados. [5].  Permite crear sistemas más complejos.
 Relacionar el sistema al mundo real.
R  Facilita la creación de programas visuales.
E  Construcción de prototipos
P
O
 Agiliza el desarrollo de software
R  Facilita el trabajo en equipo
T  Facilita el mantenimiento del software
E
S
/ Lo interesante de la POO es que proporciona
G conceptos y herramientas con las cuales se modela
R y representa el mundo real tan fielmente como sea
A posible.
F
I Cabe resaltar que también los diferentes algoritmos
C necesarios (labpack entre otros) para el proceso de
O desarrollo de ambos métodos multivariantes serán
S implementados bajo ésta técnica de programación
(orientado a objetos).[7 , 8].
3.2. Desarrollo del software estadístico para el 4. PRUEBAS
análisis factorial de correspondencia múltiple.
Las pruebas realizadas con el software estadístico
Programación orientada a objetos para resolver problemas de tipo multivariante,
basada la programación en orientado a objetos, se
La programación orientada a objetos, hizo las pruebas.
frecuentemente llamada OOP por su sigla en inglés, Cabe resaltar que se hizo las comparativa de los
es aquella en la que el software es construido resultados con software comerciales que también
buscando simular el comportamiento de objetos resuelven el método multivariante tales como
reales de manera directa. La idea central consiste en SPSS, Minitab, Spad N sin encontrar las diferencias
identificar los objetos concretos que intervienen en notables en los valores de los resultados.
las situaciones que el software debe manejar y
organizar la modularidad del software en torno a Siendo notable la diferencia con los softwares
ellos. Una vez identificados los objetos importantes, comerciales mencionados anteriormente con el
se identifican las acciones que se pueden realizar presente en los diferentes reportes que presento a
con ellos y su información de estado relevante para continuación:
el sistema.
Los lenguajes orientados a objetos son aquellos que
han sido pensados explícitamente para dar soporte a
este paradigma de programación. En la mayoría,
cada tipo de objetos suele llamarse una “clase”, las
variables en las que se almacenará la información
sobre su estado “atributos” o “propiedades” y las

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

Figura 1. Selección de alternativas.


Figura 5. Matriz binaria.

Figura 2. Datos generales. Figura 6. Matriz de burt.

Figura 7. Resultados de variables activas.


Figura 3. Variables nominales activas.

Figura 8. Valores explícitos y acumulados de los


Figura 4. Matriz de datos valores propios.

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

Figura 9. Histograma de valores propios.


Figura 13. Gráfico mostrando las diferentes
posiciones de las modalidades en los factores.

Figura 10. Histograma de valores explícitos.

Figura 14. Opciones de exportado de los datos en


los diferentes formatos tales como .wmp , .rtf y .xls
y .AFCM ( este último es el que se pretende utilizar
el software)

5. OBSERVACIONES

Figura 11. Valores y factores totales (sin  Los resultados a comparación de otros software
seleccionar). que resuelven problemas de tipo multivariante,
la diferencia en la cantidad de reportes y los
detalles que muestra en cada uno de ellos,
teniendo en mayoría el presente sofware,
puesto que se hizo específico para el método.
 Considerar que solo los reportes de las gráficas
de factores del Spad N a comparación de otros
software (ya sea Minitab, SPSS) lo presentan
de manera invertida. El estudio y desarrollo de
este Software se basó en el Spad N.
 Cabe resaltar que se hizo la contrastación con
otros lenguajes de manejo estadístico y se hizo
la comparativa en sus datos, tomando una
Figura 12. Valores adicionales como coseno entre diferencia a partir de la cuarta decima.
otros.
6. CONCLUSIONES

 Fue posible el desarrollo el software estadístico


usando las técnicas de análisis factorial de

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.
Facultad de Ingeniería TECNOLOGÍA & DESARROLLO
Vol 8 – Nº 1, 2010, Pág. 10-16

correspondencia múltiple y su relación con el métodos e interpretación. Bilbao: Argitarapen


usuario. Zerbitzua.
 Queda demostrado que el software estadístico
de análisis factorial de correspondencia [4] FINE, J. (1996). Iniciación a los Análisis de
múltiple permite obtener informes confiables y Datos Multidimensionales a Partir de
el uso del mismo se da de manera operativa. Ejemplos. Europe Amérique Latina: PRESTA.
 Las técnicas del método estadístico análisis
factorial de correspondencia múltiple, permiten [5] JAMBU, M. (1991). Exploraty and
su interpretación para su desarrollo e Multivariate Data Analysis. London:
implementación informática estadística, Academic Press, INC.
conjuntamente con los usuarios conocedores de
los métodos. [6] Pérez, López C. (2001). Técnicas Estadísticas
 Se implementó el software estadístico con con SPSS. España: Prentice Hall.
Delphi 7.0 que cuenta adicionalmente con
herramientas matemáticas y estadísticas [7] Jacobson Ivar, Boch Grady. Rumbaugh James
propias. , El proceso Unificado de Desarrollo de
 Se presenta la versión funcional del software Software. Pearson Educación , Mexico 2002.
estadístico de análisis factorial de
correspondencia múltiple mediante la [8] Análisis y Diseño Detallado de Aplicaciones
programación orientado a objetos. Informáticas de Gestión Mario G. ,Editorial
RA-MA. Septiembre de 2002
7. RECOMENDACIONES

 Para la utilización de matrices de dimensiones


considerable, utilizar un computador personal
de mayores características técnicas.
 Utilizar este software como base para el
desarrollo de software estadístico dedicado al
análisis multivariante.
 Difundir este software para su utilización tanto
como herramienta de trabajo como para el uso
académico.

8. AGRADECIMIENTOS

Agradeciendo al catedrático especialistas en el


análisis multivariante MSC. Carlos Risco Dávila
docente de la escuela de estadística de la
universidad nacional de Trujillo – Perú. Por darme
el conocimiento para hacer posible la
implementación del presente software.

9. REFERENCIAS BIBLIOGRAFICAS

Referencias de libros:

[1 ] CARRASCO, J. y HERNAN, M. (1993).


Análisis Multivariante en las Ciencias de la
vida. Fundamentos, Métodos y Aplicación.
Madrid: Ciencia 3, S.L.

[2] CALVO, F. (1993). Técnicas Estadísticas


Multivariantes. Serie Sociológica, Volumen 9,
Bilbao: Universidad de Deusto.

[3] ESCOFIER, B. y PAGES, J. (1992). Análisis


Factoriales Simples y Múltiples. Objetivos,

(1) Ingeniero Informático.


Docente de la Escuela de Ingeniería Sistemas, Universidad César Vallejo.
Escuela de Ingeniería de Informática, Universidad Nacional de Trujillo.

Vous aimerez peut-être aussi