Vous êtes sur la page 1sur 30

UNIVERSIDAD ESTATAL PENNSULA

DE SANTA ELENA
FACULTAD DE SISTEMAS Y TELECOMUNICACIONES
ESCUELA DE INFORMTICA
CARRERA DE INGENIERA EN SISTEMAS 5/1

SISTEMAS EXPERTOS
TEMA
Sistema para predecir si los profesionales de la UPSE
Laboran o no.

DOCENTE
ING. MARIUXI DE LA CRZ
INTEGRANTES
Alina
Johanna
angelica
SANTA ELENA ECUADOR

INDICE
1.

INTRODUCCIN
RBOL DE DECISIN
APLICACIONES DE RBOL DE DECISIN

2.

PLANTEAMIENTO DEL PROBLEMA


PROBLEMA
OBJETIVO
OBJETIVOS ESPECFICOS

3.
4.

MARCO TEORICO
APLICACION DEL ARBOL DE DECISIN
WEKA
ALGORITMO J48
FUNCIONAMIENTO

5.

ADQUISICION DEL CONOCIMIENTTO


MINERIA DE DATOS
PROCESO DE SELECCIN
SELECCIN DE CARACTERISTICAS
VARIABLES DIRECTAS
VARIABLES ELIMINADAS
EXTRACCION DEL CONOCIMIENTO
INTERPRETACION Y EVALUACION
CONOCIMIENTO

6.

ANLISIS DE VARIABLES EN WEKA


ANALISIS DEL ARBOL DE DESICION
CREACIN DEL ARCHIVO .ARF
ATRIBUTOS
PRUEBA DE ARCHIVOS BASE CON ALGORITMO J48 PARA EL
ANALISIS DE CADA VARIABLE A INFERIR

7.

DESARROLLO Y PROTOTIPOS
SISTEMA DE PREDICCIN REALIZADO EN VISUAL BASIC .NET
Y WEKA 3.6
PROCESO DE ANLISIS DE DATOS.
ANLISIS DE VARIABLE
DEPURACIN DE VARIABLES

8.

VERIFICACION Y PRUEBAS
FUNCIONAMIENTO DEL SISTEMA REALIZADO EN VISUAL BASIC
.NET
INTERACCIN DEL ARCHIVO BASE PARA INFERIR EN WEKA
PREDECIR EL RESULTADO FINAL MEDIANTE INTERACCIN
ENTRE WEKA Y VISUAL BASIC .NET
9. DESICION
10. CONCLUSIN
11. BIBLIOGRAFA
12. ANEXOS

INTRODUCCIN
En el mundo en que vivimos existe mucho conocimiento ambiguo e
impreciso por la naturaleza, donde existen tcnicas como rbol de decisin
que nos permitir predecir mediante un sistema experto el comportamiento
de un diagnostico que lleve a una decisin final con resultados exactos,
para este caso se desea conocer si los profesionales de la UPSE estn
laborando o no actualmente, mediante variables (informacin) adquiridas
en la encuesta elaborada por dichos profesionales.
Se ha diseado un sistema en Visual Basic .NET 2010, el mismo que
permitir al usuario, interactuar con el sistema para de esta forma con
cierto nivel de confianza dado en porcentaje, permita pronosticar si el
usuario, en base a determinadas caractersticas solicitada por el sistema, se
encontrara laborando o conseguir trabajo despus de haber egresado,
para esto, se utiliz el motor de inferencias Weka en su versin 3.6 que
nos permite

en base a determinados algoritmos, obtener los resultados

esperados.
Tambin en este proyecto, se realiz el uso de Arboles de decisiones el
cual es una tcnica que permite analizar decisiones secuenciales basadas en
el uso de los resultados y prohibiciones asociadas.
Facilita

la

interpretacin

de

la

decisin

adoptada,

explica

el

comportamiento respecto a una determinada tarea de decisin en procesos.

PLANTEAMIENTO DEL PROBLEMA


Encontrndonos en pleno siglo XXI, con el auge de las nuevas Tecnologas
de la Informacin y Comunicacin, y su aplicacin en todos los mbitos
posibles, no como algo eventual y pasajero, sino como herramientas que
an tienen mucho que aportar y tomado en cuenta la curiosidad del ser
humano por saber lo que pasara en el futuro, y siendo la Escuela de
Informtica un ente de desarrollo tecnolgico de la Provincia de Santa
Elena, nos vemos en la necesidad de disear un sistema que nos permitir
dar un pronstico de los profesionales que estn laborando, en base a
parmetros proporcionados por la UPSE Departamento de Investigacin,
los cuales mediante un debido proceso sern depurados.
El sistema diseado proporciona una interfaz grafica para interactuar con es
usuario y en base a parmetros solicitados, este pronosticara si el usuario
encuestado trabajara en el futuro despus de haber cursado sus estudios
superiores en esta institucin.

OBJETIVO
Mediante el uso de rbol de decisin y sus respectivos algoritmos
pronosticar si los profesionales de la UPSE estn elaborando o no,
utilizando el conocimiento obtenido en las encuestas.

OBJETIVOS ESPECFICOS

Usar el conocimiento disponible de la encuesta realizada a los


profesionales de la UPSE.
Aplicar los conocimientos adquiridos en las clases de sistemas
expertos rbol de decisin.
Identificar las variables especificas que llevan a la decisin final
Plasmar en una aplicacin informtica, el proceso de un sistema
para pronosticar si los profesionales de la UPSE estn laborando o
no
Exponer el funcionamiento del uso de rbol de decisin mediante el
algoritmo j48 para predecir la decisin final.
Visualizar los resultados en base a todas las variables establecidas
para identificar si el profesional esta elaborando o no.

MARCO TEORICO
El rbol de decisin se usan en los sistemas expertos porque son mas
precisos que el hombre para poder desarrollar un diagnostico con respecto a
algo, ya que el hombre puede dejar pasar sin querer un detalle, en cambio
la maquina mediante un sistema experto con rbol de decisin puede dar un
resultado exacto.
APLICACION DEL ARBOL DE DECISIN
Proveen un mtodo efectivo para la toma de decisiones debido a que:
- Claramente plantean el problema para que todas las opciones sean
analizadas.
- Permiten analizar totalmente las posibles consecuencias de tomar una
decisin.
- Proveen un esquema para cuantificar el costo de un resultado y la
probabilidad de que suceda.
- Nos ayuda a realizar las mejores decisiones sobre la base de la
informacin existente y de las mejores suposiciones.

WEKA
Es una plataforma de software para aprendizaje automtico y minera de
datos escrito en Java, contiene una coleccin de herramientas de
visualizacin y algoritmos para anlisis de datos y modelado predictivo,
unidos a una interfaz grfica de usuario para acceder fcilmente a sus
funcionalidades

ALGORITMO A UTILIZAR
Se estableci el algoritmo j48 WEKA porque es uno de los algoritmos de
minera de datos mas utilizado. Que permite la realizacin del proceso del
rbol, mediante un mtodo basado en reduccin del error o divisin, sobre
las variables discretas para que estas siempre sean binarias. Algunas
propiedades concretas de la implementacin son las siguientes:

Admite atributos simblicos y numricos, aunque la clase debe ser


simblica

Se permiten ejemplos con valores desconocidos

El criterio de divisin est basado en la entropa y la ganancia de


informacin

ADQUISICION DEL CONOCIMIENTTO


La Adquisicin de Conocimientos es el proceso de recoleccin de
informacin, a partir de cualquier fuente (experto, libros, revistas,
informes, etc.), necesaria para construir un Sistema Basado en
Conocimiento.
MINERIA DE DATOS
En general, la minera de datos (a veces se llama descubrimiento de datos o
de conocimiento) es el proceso de analizar los datos desde diferentes
perspectivas y resumindolos en informacin til - informacin que se
puede utilizar para aumentar los ingresos, reducir los costos, o ambas
cosas. El software de minera de datos es uno de una serie de instrumentos
analticos para el anlisis de datos. Permite a los usuarios analizar los datos
desde muchas dimensiones o ngulos, clasificar, y resumir las relaciones
identificadas. Tcnicamente, la minera de datos es el proceso de encontrar
correlaciones o patrones, entre decenas de campos de grandes bases de
datos relacionales.
A continuacin se muestran los datos proporcionados por el departamento
de investigacin de la UPSE para proceder a realizar el proceso de Mireia
de datos

PROCESO DE SELECCION
Del proceso antes realizado se seleccionaron los siguientes datos debidos
A que se centran directamente con la matriz.
Total de variables: 23

SELECCIN DE CARACTERISTICAS
Se procedi a revisar las caractersticas de las variables seleccionadas y se
obtuvo lo siguiente:
VARIABLES DIRECTAS
Estas variables han sido tomadas en cuenta ya que se relacionan
directamente con la variable final a inferir que nos permitir pronosticar si
el profesional esta laborando o no
1.

Gnero.Esta variable permitir definir si el gnero influye, deduciendo quien tiene mas
posibilidades de obtener trabajo una ves que es profesional

2.

Estado Civil.Esta variable permitir captar un dato relevante que definir las posibilidades de
que cierto profesional de determinado estado civil este laborando.

3.

Tiene hijos.Esta variable servir para definir si los profesionales que tienen o no tienen
hijos, se encuentran laborando, y as saber quien tienes mejor porcentaje de
conseguir trabajo, los que tienen o los que no tienen hijos.

4.

Ud. trabajaba cuando cursaba sus estudios superiores.Esta variable definir si los profesionales cuando estaban cursando sus estudios
tienen ms posibilidades de estar laborando que los que no laboraban

5.

Carrera en que se gradu.Esta variable definir que carrera tiene mejores probabilidades de conseguir
trabajo, con sus egresados, logrando tambin que tipo de profesionales son los
ms solicitados en el mbito laboral de provincia de Santa Elena

6.

Nivel de conocimiento en idiomas que le brindo la UPSE durante sus


estudios de tercer nivel.Esta variable permitir pronosticar el desenvolvimiento verbal del profesional
con respecto a idiomas en un mbito laboral.

7.

Recordando su poca universitaria, indique el nivel de relevancia dado por


la universidad y directivos en general, a cada uno de los siguientes aspectos.
Estas pregunta y todas las variables que abarcan son de tal importancia pues
juntas nos permitirn pronosticar en que mbitos esta fallando la universidad y
en cuales no, adems permite definir en que porcentaje van ayudar al profesional
al desenvolverse en un mbito laboral. Tambin nos permitir pronosticar las
habilidades que tiene el profesional para laborar. Y porque razn en un futuro el
profesional se encuentre elaborando o no.

8.

Luego de culminar sus estudios superiores ha realizado algn


curso(s)/seminario(s), relacionado a su carrera profesional?
Esta variable permitir pronosticar el porcentaje de profesionales que estn
cursando seminarios y que laboran y no laboran.

VARIABLES ELIMINADAS

Estas variables no fueron tomadas en cuenta debido a que pasaban el 10%


de espacios en blancos por profesionales que no respondieron a estas
variables.
9.

Relacin con trabajo y sus estudios superiores

10.

En que lugares busc empleo?

El resto de variables se obviaron o no se tomaron en cuenta ya que estas no


se relacionan directamente con la variable final la cual lleve al objetivo
principal.

EXTRACCION DEL CONOCIMIENTO


Se procedi a la parametrizacin de los datos, obteniendo la matriz final
totalmente depurada donde se obviaron las variables que no se relacionaban
directamente con la decisin final y variables que pasaban del 10% de
datos en blanco.

INTERPRETACION Y EVALUACION

Despus de hacer los pasos

antes descritos, se procedi

a realizar la

interaccin de los datos con el Programa Weka 3.6, adems se procedo a


evaluar con una encuesta realizada a un estudiante cualquiera

y se

obtuvo lo siguiente:
Reglas de produccin Arrojadas por el sistema diseado

Interpretacin de los resultados con la encuesta realizada a cualquier


usuario.

CONOCIMIENTO

ANLISIS DE VARIABLES EN WEKA


En este punto obtendremos pruebas de las variables inferidas a weka
mediante el algoritmo j48 y el archivo .arf, con la finalidad de comprobar el
numero de ramificaciones que establece cada variable
Archivo .arrf

Comportamiento y prueba de cada una de las variables en weka


22 variables a inferir
762 datos por variables
ATRIBUTOS

Variable: Labora o no
Con esta variable obtenemos una sola ramificacin de resultados es decir
una sola interaccin debido a que esta variable comprende resultados de si
y no.

Intancias correctas: 670 (87.92 %)


Intanciasincorrectas :92 (12.07%)
Variable: Genero
Esta variable predice un rbol con 223 niveles con un tamao de 281
subniveles debido a que las respuestas a estas variables comprenden a
parmetros de 1 y 2 (masculino y femenino)

Intancias correctas: 452 (59.32 %)


Intanciasincorrectas :310(40,68%)

Las reglas de produccin de este rbol se forman desde la variable


CARRERA EN QUE SE GRADUO seguidas de sus niveles y subniveles
como estado civil, conocimientos en idiomas en ingles y castellano entre
otras, el rbol muestra de la siguiente manera:

rbol en modo logaritmo

Variable: CARRERA EN QUE SE GRADUO

Esta variable predice un rbol con 524 niveles con un tamao de 666
subniveles debido a que las respuestas a estas variables fueron parame
trizadas acorde datos numricos, ya que se identificaban con letras
(nombres de carreras)

Intancias correctas: 128 (16.80 %)


Intanciasincorrectas:634(83,20 %)
Las reglas de produccin de este rbol se forman desde la variable gnero
seguidas de sus niveles relacionados con proyectos acadmicos y calidad
de docencia, y subniveles como conocimientos en idiomas en ingles y
castellano entre otras, el rbol muestra de la siguiente manera:

rbol en modo de algoritmo

PROTOTIPO
1.

Parte de incio del programaa

2.- modulo de extraccin del conocimiento

3.- cargar el archivo de Excel para proceder a extraccin del conocimiento

4.- seleccin de archivo para mostrar la matriz en la interfaz

5.- demostracin de los datos extrados en pantalla

6.- modelacin grafica del archivo base de weka- .arrf

7.- botn de acceso vinculado para mostrar si la matriz en valida en el


programa weka

8.- modulo de encuesta y predijo


8.1.- demostracin de la creacin del archivo de entrenamiento con el cual
funciona weka, uso de la consola de Windows para poder interactuar desde
la interfaz, directamente con el programa weka

9.- proceso de ejecucin para obtener los datos que se tomaran una
determinada x persona y luego el sistema buscara patrones similares y
proceder a realizar la prediccin

10.- se contestaran todas la preguntas que el sistema considere


necesarias para realizar las respectiva inferencia

11.- el sistema mostrara un mensaje de la opcin escogida por cada


pregunta contestada

12.- el programa cargara la encuesta a weka para despus inferior o


buscara patrones similares para poder arrojar los resultados mediante al
algoritmo j48

13.- modulo de reglas de produccin


Se cargaran la reglas de produccin que en sistema weka considere
necesarias , segn los datos ingresados y la base de conocimiento
disponibles.

14.- se muestran la reglas de produccin en un archivo de Word

15. se pasa al modulo de precidicion

16.- se ejecuta la prediccin y enva a trabajar a la consola para que


interacte con el programa weka y nos arroje los resultados necesarios

17.- se extrae los resultados obtenidos a la interfaz y se procede a la


interpretacin .

INTERPRETACION

CONCLUSIN
Se pude concluir que mediante el uso de algoritmo j48 y la variable labora
actual, los resultados arrojados por la aplicacin son confiables, ya que segn
el programa weka al realizar las operaciones necesarias

se pueden obtener

niveles de confianza desde 0.7 a 0.98 porcentaje de exactitud que la persona


encuestada Labore , lo que indica que la variables escogidas en este proyecto
son importantes, para proceder a realizar una predicacin casi segura y dar
un porcentaje de confianza a nuestro sistema en un rango de 0.7 a 0.98
porcentaje.

RECOMENDACIN

Se recomienda que la informacin que

se proporcione, para este tipo de

trabajos sea ms voluminosa, porque entre ms datos obtengamos en nuestra


base de conocimiento, nuestras respuestas de prediccin sern cada vez ms
certeras y apegadas a la realidad.

BIBLIOGRAFIA

http://www.recursosvisualbasic.com.ar/
http://es.wikipedia.org/wiki/L%C3%B3gica_arbol_dec

http://www.revistaesalud.com/index.php/revistaesalud/article/view/358/707

Vous aimerez peut-être aussi