Descubrimiento de secuencias frecuentes y su aplicación a la clasificación de documentos
Abstract
Esta investigación teórica aborda, en una primera etapa, el problema de la minería de secuencias frecuentes sobre conjuntos de datos estáticos. En este proyecto se propone un nuevo algoritmo para la obtención de todas las secuencias frecuentes, siguiendo como estrategia principal la generación de las secuencias candidatas a partir de las secuencias frecuentes de tamaño dos. Además, este algoritmo introduce una nueva estrategia de poda que permite reducir la cantidad de secuencias candidatas, lo cual coadyuva a la eficiencia del algoritmo. En una segunda etapa se propone un nuevo clasificador basado en secuencias frecuentes, el cual, sin pérdida de generalidad, se evalúa en colecciones de documentos. Para ello, se propone un nuevo algoritmo para el cálculo de reglas de clasificación basadas en secuencias, que utiliza la medida de calidad Netconf. Todas las propuestas se validaron a través de experimentos sobre conjuntos de datos sintéticos y conjuntos de datos internacionales utilizados en los trabajos reportados. En los experimentos se utilizaron algoritmos del estado del arte, algunos de ellos proporcionados por sus autores. La novedad científica de este trabajo está avalada principalmente por dos artículos publicados en revistas de impacto internacional, por cuatro artículos publicados en memorias de eventos de impacto internacional y especializados en el tema, así como por la Tesis de Doctor en Ciencias Matemáticas del autor principal. El aporte de esta investigación viene dado, fundamentalmente, por el desarrollo de nuevos métodos, estrategias y algoritmos que mejoran la eficiencia en el cálculo de las secuencias frecuentes y la eficacia de los clasificadores basados en secuencias que utilizan reglas de clasificación.Downloads
Downloads
Published
How to Cite
Issue
Section
License
The journal Anales de la Academia de Ciencias de Cuba protects copyright, and operates with a Creative Commons License 4.0 (Creative Commons Attribution-NonCommercial License 4.0). By publishing in it, authors allow themselves to copy, reproduce, distribute, publicly communicate their work and generate derivative works, as long as the original author is cited and acknowledged. They do not allow, however, the use of the original work for commercial or lucrative purposes.
The authors authorize the publication of their writings, retaining the authorship rights, and assigning and transferring to the magazine all the rights protected by the intellectual property laws that govern in Cuba, which imply editing to disseminate the work.
Authors may establish additional agreements for the non-exclusive distribution of the version of the work published in the journal (for example, placing it in an institutional repository or publishing it in a book), with recognition of having been first published in this journal.
To learn more, see https://creativecommons.org
