Descubrimiento de secuencias frecuentes y su aplicación a la clasificación de documentos
Resumen
Esta investigación teórica aborda, en una primera etapa, el problema de la minería de secuencias frecuentes sobre conjuntos de datos estáticos. En este proyecto se propone un nuevo algoritmo para la obtención de todas las secuencias frecuentes, siguiendo como estrategia principal la generación de las secuencias candidatas a partir de las secuencias frecuentes de tamaño dos. Además, este algoritmo introduce una nueva estrategia de poda que permite reducir la cantidad de secuencias candidatas, lo cual coadyuva a la eficiencia del algoritmo. En una segunda etapa se propone un nuevo clasificador basado en secuencias frecuentes, el cual, sin pérdida de generalidad, se evalúa en colecciones de documentos. Para ello, se propone un nuevo algoritmo para el cálculo de reglas de clasificación basadas en secuencias, que utiliza la medida de calidad Netconf. Todas las propuestas se validaron a través de experimentos sobre conjuntos de datos sintéticos y conjuntos de datos internacionales utilizados en los trabajos reportados. En los experimentos se utilizaron algoritmos del estado del arte, algunos de ellos proporcionados por sus autores. La novedad científica de este trabajo está avalada principalmente por dos artículos publicados en revistas de impacto internacional, por cuatro artículos publicados en memorias de eventos de impacto internacional y especializados en el tema, así como por la Tesis de Doctor en Ciencias Matemáticas del autor principal. El aporte de esta investigación viene dado, fundamentalmente, por el desarrollo de nuevos métodos, estrategias y algoritmos que mejoran la eficiencia en el cálculo de las secuencias frecuentes y la eficacia de los clasificadores basados en secuencias que utilizan reglas de clasificación.Descargas
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
La revista Anales de la Academia de Ciencias de Cuba protege los derechos de autor, y opera con una Licencia Creative Commons 4.0 (Licencia Creative Commons Reconocimiento-NoComerciall 4.0). Al publicar en ella los autores permiten copiar, reproducir, distribuir, comunicar públicamente su obra y generar obras derivadas, siempre y cuando se cite y reconozca al autor original. No permiten, sin embargo, utilizar la obra original con fines comerciales ni lucrativos.
Los autores autorizan la publicación de sus escritos conservando los derechos de autoría, y cediendo y transfiriendo a la revista todos los derechos protegidos por las leyes de propiedad intelectual que rigen en Cuba, que implican la edición para difundir la obra.
Los autores podrán establecer acuerdos adicionales para la distribución no exclusiva de la versión de la obra publicada en la revista (por ejemplo, situarla en un repositorio institucional o publicarla en un libro), con el reconocimiento de haber sido publicada primero en esta revista.
Para conocer más, véase https://creativecommons.org
