Métodos para la edición y clasificación de conjuntos de datos balanceados y no balanceados basados en softcomputing

Yailé Caballero Mota, et al.

Texto completo:

PDF

Resumen

Los problemas de clasificación aparecen en todas las áreas del conocimiento. Para su solución se utilizan diferentes técnicas, entre ellos se encuentran la clasificación de reglas, la construcción de prototipos y la selección de atributos, todas con el fin de mejorar el rendimiento de los clasificadores.  Dada la complejidad de los procesos y las características de la información utilizada para el descubrimiento de conocimiento, donde están presentes diferentes tipos de incertidumbre, se hace necesario el empleo de los métodos de la computación blanda (softcomputing). En esta investigación se aportan nuevos resultados en este contexto; entre ellos se presenta una medida para el cálculo del grado de similaridad basada en la Teoría de los Conjuntos Aproximados (TCA) extendida y en los Conjuntos Borrosos, a partir de la cual se proponen nuevos métodos para realizar el cálculo de los pesos de los atributos y modificaciones al algoritmo para clasificación de reglas IRBASIR. En el caso de los problemas de construcción de prototipos se presentan dos algoritmos para la generación y selección de los mismos en problemas de clasificación con conjuntos de datos balanceados y no balanceados. Además, se presenta un nuevo algoritmo para la generación de reglas de aprendizaje que utiliza la selección de atributos para obtener el modelo de conocimiento (IRBASIR RED) y se presenta también un nuevo método (REDUCT SIM) para el cálculo de reductos utilizando la técnica de optimización PSO (Particle Swarm Optimization). Se presentan nuevos algoritmos para la clasificación no balanceada usando la TCA, y su combinación con los conjuntos borrosos (TDCA). Los aportes de esta investigación han sido divididos en dos partes: a nivel teórico con los algoritmos propuestos y a nivel práctico con el uso de estos algoritmos para dar solución a problemas reales. La validación de los resultados se ha realizado con bases de datos internacionales y potentes pruebas estadísticas para comparar con los mejores métodos del estado del arte. También, se ha aplicado en la solución de problemas reales en las áreas de la Ingeniería Eléctrica, Ingeniería Civil y la Biotecnología.
Se arriba a las conclusiones siguientes: los métodos propuestos han sido estudiados usando bases de datos internacionales; así como su aplicación para la solución de problemas reales en tres áreas del conocimiento: la Ingeniería Eléctrica, Ingeniería Civil y la Biotecnología. Se han obtenido resultados novedosos y relevantes desde el punto de vista teórico y práctico, lo cual se demuestra en la producción científica asociada y en los 7 avales de introducción de los resultados (3 avales nacionales y 4 internacionales) que se presentan en los anexos. 
La producción científica asociada a estos resultados consiste en la publicación de 19 trabajos, de ellos: 17 en revistas y bases de datos referenciadas, 2 libros; así como la presentación de 19 ponencias en prestigiosos eventos científicos internacionales y el registro por CENDA de 5 productos de software. Además, forman parte de los resultados 10 tesis defendidas: 1 tesis de doctorado, 6 tesis de maestría y 3 trabajos de diplomas. Se han obtenido 9 Premios nacionales e internacionales.


Copyright (c) 2021 Yailé Caballero Mota, et al.

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.