Resumen
Esta investigación teórica aborda, en una primera etapa, el problema de la minerÃa de secuencias frecuentes sobre conjuntos de datos estáticos. En este proyecto se propone un nuevo algoritmo para la obtención de todas las secuencias frecuentes, siguiendo como estrategia principal la generación de las secuencias candidatas a partir de las secuencias frecuentes de tamaño dos. Además, este algoritmo introduce una nueva estrategia de poda que permite reducir la cantidad de secuencias candidatas, lo cual coadyuva a la eficiencia del algoritmo. En una segunda etapa se propone un nuevo clasificador basado en secuencias frecuentes, el cual, sin pérdida de generalidad, se evalúa en colecciones de documentos. Para ello, se propone un nuevo algoritmo para el cálculo de reglas de clasificación basadas en secuencias, que utiliza la medida de calidad Netconf. Todas las propuestas se validaron a través de experimentos sobre conjuntos de datos sintéticos y conjuntos de datos internacionales utilizados en los trabajos reportados. En los experimentos se utilizaron algoritmos del estado del arte, algunos de ellos proporcionados por sus autores. La novedad cientÃfica de este trabajo está avalada principalmente por dos artÃculos publicados en revistas de impacto internacional, por cuatro artÃculos publicados en memorias de eventos de impacto internacional y especializados en el tema, asà como por la Tesis de Doctor en Ciencias Matemáticas del autor principal. El aporte de esta investigación viene dado, fundamentalmente, por el desarrollo de nuevos métodos, estrategias y algoritmos que mejoran la eficiencia en el cálculo de las secuencias frecuentes y la eficacia de los clasificadores basados en secuencias que utilizan reglas de clasificación.