Vous êtes sur la page 1sur 6

Decision tree supports the interpretation of CSF biomarkers in Alzheimer’s disease

En este artículo se desarrolla y valida un árbol de decisión clínicamente aplicable para el


uso de biomarcadores de líquido cefalorraquídeo en el diagnóstico de la enfermedad de
Alzheimer (EA).

Los biomarcadores de líquido cefalorraquídeo (LCR) amiloide b 1-42 (Ab42), tau total
(tau) y tau fosforilado (Ptau) pueden ayudar en el diagnóstico de la enfermedad de
Alzheimer (AD). Se seleccionaron 1809 sujetos con diagnóstico de EA (n= 1004), deterioro
cognitivo leve (MCI) (n =363) o deterioro cognitivo subjetivo (SCD; n = 442) de la
Cohorte de Demencia de Amsterdam, que visitó nuestra clínica ambulatoria para
diagnóstico en el período comprendido entre octubre de 2000 y julio de 2015, y de los
cuales se disponía de valores de biomarcadores de LCR. Todos los sujetos se sometieron a
una evaluación estandarizada de la demencia en la línea de base, incluidos exámenes físicos
y neurológicos, pruebas cognitivas, un electroencefalograma, imágenes de resonancia
magnética y pruebas de laboratorio.

Las características de los sujetos según el grupo de diagnóstico en resumen, las cohortes de
capacitación y validación utilizadas para construir y validar el árbol de decisiones no
difirieron en las características de los sujetos. Tanto en los conjuntos de datos de
entrenamiento como en los de validación, los controles eran algo más jóvenes que los
pacientes con EA, más a menudo mujeres, y tenían un nivel más alto de educación. Como
se esperaba, los puntajes del examen de estado mini-mental y los niveles de CSF Ab42, tau
y Ptau fueron anormales en pacientes con AD en comparación con los controles en ambos
conjuntos de datos. Además, los pacientes con AD más a menudo portaban un alelo APOE
e4 en comparación con los controles en ambos conjuntos de datos.

El principal hallazgo de este estudio es que un árbol de decisión, que consta de dos valores
de corte de Ab42 a 801 pg / ml y 647 pg / ml y un límite de tau a 374 pg / ml, se distingue
mejor entre los controles y la demencia AD. Como resultado, se identificaron dos
subgrupos AD y dos subgrupos de control que mostraron distintos perfiles de
biomarcadores de LCR. La edad, el Ptau, el sexo y el estado de APOE no contribuyeron a
la clasificación.

En comparación con el perfil clásico de biomarcadores tipo AD con valores de corte


definidos previamente (813 pg / ml para Ab42 y 375 pg / ml para Tau [17,20]), el árbol de
decisión obtuvo mejores resultados en términos de características diagnósticas (diagnóstico
ACC 86% [ 84-88]; SE 86% [83-88]; SP 87% [82-91])
Decision tree SVM model with Fisher feature selection for speech emotion recognition

La tasa de reconocimiento general se reducirá debido al aumento de la confusión emocional


en el reconocimiento de múltiples emociones del habla. Para resolver el problema, se
propone un método de reconocimiento de emoción del habla basado en el modelo de
máquina de vectores de soporte (SVM) del árbol de decisión con la selección de
características de Fisher. En la etapa de selección de características, el criterio de Fisher se
usa para filtrar los parámetros de características de mayor capacidad de distinción. En la
etapa de clasificación de emociones, se propone un algoritmo para determinar la estructura
del árbol de decisión. El árbol de decisión SVM puede realizar la clasificación en dos pasos
de la primera clasificación general y la clasificación fina. De este modo, se eliminan los
parámetros redundantes y se mejora el rendimiento del reconocimiento de emociones.

En este método, el marco de SVM del árbol de decisión se establece primero mediante el
cálculo del grado de confusión de la emoción, y luego se seleccionan las características con
mayor capacidad de distinción para cada SVM del árbol de decisión según el criterio de
Fisher. Finalmente, el reconocimiento de la emoción del habla se realiza en base a este
modelo. El árbol de decisión SVM con la selección de características de Fisher en CASIA
Chinese speech speech corpus y Berlin speech corpus se construyen para validar la eficacia
de nuestro marco. Los resultados experimentales muestran que la tasa promedio de
reconocimiento de emociones basada en el método propuesto es un 9% más alta que el
método de clasificación SVM tradicional en CASIA, y un 8,26% más alta en el corpus de
habla de Berlín. Se verifica que el método propuesto puede reducir efectivamente la
confusión emocional y mejorar la tasa de reconocimiento de emociones.

Con el fin de encontrar las mejores características emocionales del habla y establecer un
modelo de reconocimiento efectivo en el reconocimiento de la emoción del habla, en este
artículo se propuso un método de reconocimiento de la emoción del habla basado en el
árbol de decisión SVM con la selección de características de Fisher. Sobre la base de la
estrategia, se construyó los marcos del sistema en el corpus del habla chino de CASIA y el
corpus del discurso de Berlín EMO-DB. En primer lugar, el marco SVM del árbol de
decisión se construye calculando el grado de confusión emocional.

Luego, de acuerdo con el método de selección de características de Fisher, los parámetros


de características con mayor capacidad de distinción se seleccionan para capacitar a cada
SVM en el árbol de decisión. Por lo tanto, la dimensión de la característica se reduce y la
complejidad computacional del sistema de reconocimiento disminuye. Los experimentos
muestran que para el reconocimiento de la emoción del habla, el SVM del árbol de decisión
con la estrategia de selección de características propuesta en este artículo puede alcanzar
una tasa de reconocimiento del 83.75% en CASIA, que es un 9% más alto que el SVM
tradicional y un 8.08% más alto que el SVM del árbol de decisión sin selección de
características.
Predictive data mining for diagnosing periodontal disease: the Korea National Health
and Nutrition Examination Surveys (KNHANES V and VI) from 2010 to 2015

Este estudio tuvo como objetivo identificar a los pacientes con el mayor riesgo de
enfermedad periodontal (EP) y brindar recomendaciones para el uso efectivo y la aplicación
de técnicas de minería de datos (DM) al establecer políticas de atención dental basadas en
evidencia para grupos vulnerables con un alto riesgo. De EP

Este estudio utilizó la metodología SEMMA (Muestra, Exploración, Modificación, Modelo


y Evaluación) para construir modelos de DM basados en datos adquiridos de la quinta y
sexta Encuesta Nacional de Examen de Salud y Nutrición de Corea (2000-2015). Se
analizaron las variables sociodemográficas y de comorbilidad que influyen en la EP
mediante la aplicación de las populares técnicas de DM de los modelos de árbol de
decisión, red neuronal y regresión, y también se intentó mejorar el poder predictivo y la
confiabilidad mediante la comparación de los resultados obtenidos por estos tres modelos.

Las comparaciones de los tres algoritmos de DM confirmaron que el error cuadrático


promedio, la tasa de errores de clasificación, el índice de características operativas del
receptor, el coeficiente de Gini y los resultados de las pruebas de Kolmogorov-Smirnov
fueron los más apropiados para el modelo de árbol de decisión. El análisis del modelo de
árbol de decisión reveló que la edad y el estado de fumador ejercen efectos importantes
sobre el riesgo de EP, y que el estrés y el nivel de educación ejercen efectos en áreas
rurales, mientras que el nivel de educación, el sexo, la hiperlipemia y la ingesta de alcohol
ejercen efectos en zonas urbanas.

En este trabajo se demuestra que el modelo de árbol de decisión es una técnica eficaz de
DM para identificar los factores de riesgo complejos para la EP. Se espera que estos
resultados sean útiles para mejorar la igualdad y la eficacia de las políticas de atención
dental para grupos vulnerables con un alto riesgo de EP.
P2P net loan default risk based on Spark and complex network analysis based on
wireless network element data environment

El préstamo neto P2P es el último negocio de la plataforma de préstamos financieros, que


es una nueva forma de obtener préstamos en el contexto del rápido desarrollo de Internet
móvil. Desde el comienzo del nuevo siglo, el incumplimiento neto de los préstamos ha
provocado que las compañías P2P dividan los fondos y operen sin continuidad, lo que se ha
convertido en un factor importante que afecta el desarrollo saludable de la industria.

Por lo tanto, a partir de la situación de gestión real de la plataforma de préstamos neta P2P,
se estudió el riesgo de incumplimiento del préstamo neto en función de la tecnología Spark
en el entorno de redes inalámbricas. El algoritmo de minin de datos del árbol de decisión se
introdujo para construir el modelo de alerta temprana del riesgo de incumplimiento de
préstamo neto, que logró un control efectivo de los enlaces de riesgo.

A partir de las características difusas que afectaron los factores inciertos del crédito
crediticio neto, se estableció un modelo de algoritmo híbrido de optimización de árbol de
decisión C4.5. Los resultados de la simulación muestran que el modelo de optimización
híbrido tiene un buen valor de aplicación.

En la investigación de la aplicación de predicción de clasificación, el algoritmo del árbol de


decisión de inteligencia artificial se usa a menudo para procesar los datos, y el algoritmo de
inducción se usa para calcular las reglas correspondientes. Después de construir el mapa de
formas del árbol de decisión, los nuevos datos se analizan de acuerdo con la estrategia de
decisión, y los resultados del análisis pueden proporcionar una base importante para la
futura toma de decisiones. En este documento, se estudia principalmente el riesgo de
incumplimiento del préstamo neto P2P basado en Spark y el complejo análisis de red en el
entorno de datos de elementos de red inalámbrica. Después de analizar el principio básico
del algoritmo del árbol de decisión, el conjunto difuso se utiliza para optimizar y actualizar
el algoritmo del árbol de decisión en vista de las características inciertas de los datos netos
de crédito crediticio.

En el experimento de simulación, a través del análisis de los atributos de la incertidumbre,


los problemas se pueden resolver de manera efectiva y los problemas son que el valor del
atributo importante de los activos, como la situación de ingresos, el índice de deuda, la
vivienda y otros activos, no se puede determinar, lo que efectivamente mejora la precisión
del algoritmo del árbol de decisión.

Los resultados del experimento han demostrado que el estudio es exitoso. Sin embargo,
todavía hay algunas mejoras en esta investigación. El siguiente paso es seguir estudiando el
método de poda del algoritmo de optimización del árbol de decisiones.
Selecting a representative decision tree from an ensemble of decision‑tree models for
fast big data classification

El objetivo de este documento es reducir la complejidad de la clasificación (inferencia) de


los conjuntos de árboles mediante la elección de un modelo representativo único del
conjunto de múltiples modelos de árboles de decisión. Se calcula la similitud entre
diferentes modelos en el conjunto y elegimos el modelo, que es más similar a los demás
como el mejor representante de todo el conjunto de datos.

El enfoque basado en la similitud se implementa con tres métricas de similitud diferentes:


una combinación sintáctica, una semántica y una lineal de las dos. Se compara esta
metodología de selección de árbol con un algoritmo de conjunto popular (mayoría de votos)
y con la línea de base de la elección aleatoria de uno de los modelos locales. Además, se
evalúa dos estrategias alternativas de selección de árboles: elegir el árbol con la mayor
precisión de validación y reducir el conjunto original a los cinco árboles más
representativos.

Los experimentos de evaluación comparativa se realizan en seis grandes conjuntos de


datos utilizando dos algoritmos populares de árbol de decisión (J48 y CART) y dividiendo
cada conjunto de datos horizontalmente en seis cantidades diferentes de segmentos de igual
tamaño (de 32 a 1024). En la mayoría de los experimentos, el enfoque de similitud
sintáctica, denominado SySM, método de similitud sintáctica, proporciona una precisión de
prueba significativamente mayor que la semántica y las combinadas. La precisión media de
SySM en todos los conjuntos de datos es de 0.835 ± 0.065 para CART y de 0.769 ± 0.066
para J48.

Por otro lado, no se encuentran diferencias estadísticamente significativas entre la


precisión de prueba de los árboles seleccionados por SySM y los árboles que tienen la
mayor precisión de validación. En comparación con los algoritmos de conjunto, los
modelos representativos seleccionados por los métodos propuestos proporcionan una mayor
velocidad para la clasificación de big data además de ser más compactos e interpretables.

En este documento, se propone y evalúan varios métodos para seleccionar un modelo


representativo de múltiples árboles de decisión inducidos a partir de diferentes sectores del
mismo conjunto de datos masivo. Estos métodos pueden ser muy útiles para big data y
entornos seguros debido a que tienen una mayor velocidad de inferencia (clasificación) que
los métodos de conjunto. Se sugirió enfoque sintáctico, llamado SySM, que se basa
únicamente en la estructura de árboles de decisión inducida. Se presento la similitud
semántica y los algoritmos de distancia combinada. Todos utilizan el mismo enfoque
basado en la similitud, pero calculan la similitud del árbol de manera diferente.

Bibliografia

Babapour Mofrad, R., Schoonenboom, N. S. M., Tijms, B. M., Scheltens, P., Visser, P. J.,
van der Flier, W. M., & Teunissen, C. E. (2019). Decision tree supports the interpretation
of CSF biomarkers in alzheimer's disease.Alzheimer's and Dementia: Diagnosis,
Assessment and Disease Monitoring, 11, 1-9. doi:10.1016/j.dadm.2018.10.004

Lee, J. -., Jeong, S. -., & Choi, S. -. (2019). Predictive data mining for diagnosing
periodontal disease: The korea national health and nutrition examination surveys
(KNHANES V and VI) from 2010 to 2015. Journal of Public Health Dentistry, 79(1), 44-
52. doi:10.1111/jphd.12293

Sun, L., Fu, S., & Wang, F. (2019). Decision tree SVM model with fisher feature selection
for speech emotion recognition. Eurasip Journal on Audio, Speech, and Music
Processing, 2019(1) doi:10.1186/s13636-018-0145-5

Tong, Z., & Chen, X. (2019). P2P net loan default risk based on spark and complex
network analysis based on wireless network element data environment. Eurasip Journal on
Wireless Communications and Networking, 2019(1) doi:10.1186/s13638-019-1345-0

Weinberg, A. I., & Last, M. (2019). Selecting a representative decision tree from an
ensemble of decision-tree models for fast big data classification. Journal of Big Data, 6(1)
doi:10.1186/s40537-019-0186-3

Vous aimerez peut-être aussi