Algoritmos basados en álgebra tensorial para la caracterización geométrica de moléculas orgánicas. Aplicación a la predicción de actividad biológica.
César Raúl García Jacas, et al.
Resumen
La caracterización geométrica de las estructuras moleculares constituye un enfoque necesario en el diseño de fármacos asistido por computadora para establecer una relación entre las características de las moléculas y su correspondiente propiedad o actividad biológica. Con este propósito son utilizados varios algoritmos reportados en la literatura que extraen representaciones numéricas (descriptores moleculares, DMs) a partir de la información geométrica de las moléculas. Sin embargo estos procedimientos definidos hasta la fecha solo codifican información para relaciones entre pares átomos y/o consideran únicamente la distancia Euclidiana para este fin, a pesar de que la actividad o propiedad de los compuestos puede depender de las relaciones entre más de dos átomos y que no existe postulado teórico donde se demuestre que la distancia Euclidiana es la más adecuada para relacionar dos átomos de una molécula. Por lo tanto en la presente investigación se proponen por primera vez nuevos algoritmos para obtener descriptores moleculares geométricos independientes de alineamiento que codifiquen información para relaciones entre dos, tres y cuatro átomos mediante el uso de diferentes métricas para relaciones entre pares de átomos (e.g. Canberra, Soergel, Separación Angular), así como métricas ternarias (e.g. Ángulo de enlace) y cuaternarias (e.g. Ángulo diedro) para codificar relaciones entre tres y cuatro átomos, respectivamente. Estos nuevos algoritmos están basados en las formas algebraicas 2-lineales, 3-lineales y 4-lineales como casos específicos de las formas algebraicas N-lineales y emplean las kth matrices espaciales 2-tuplas, 3-tuplas y 4tuplas de similitud-disimilitud, definidas en esta investigación, para representar la información química para las relaciones entre dos, tres y cuatro átomos de una molécula. Además se proponen varias transformaciones para normalizar las representaciones matriciales definidas y se introducen nuevas estrategias para considerar relaciones inter-atómicas de interés. Por último se define un procedimiento que calcula los DMs a partir de su descomposición a nivel atómico utilizando varios operadores de agregación. Para calcular estos DMs se desarrolló el software QuBiLSMIDAS el cual aprovecha las arquitecturas multi-núcleos actuales y utiliza el sistema de cómputo distribuido T-arenal (introducido en esta investigación) para disminuir el tiempo de procesamiento. Diferentes estudios basados en Análisis de Variabilidad y Análisis de Componente Principales demostraron que los nuevos algoritmos calculan DMs que caracterizan mejor compuestos estructuralmente diferentes y codifican información ortogonal con respecto a otros enfoques definidos. Por último los algoritmos propuestos se utilizaron para determinar DMs con el propósito de evaluar su utilidad en la predicción de actividad biológica. Para este fin se utilizaron ocho bases de compuestos químicos y se construyeron modelos predictivos basados en la técnica Regresión Lineal Múltiple (RLM). Los resultados alcanzados son estadísticamente superiores a los reportados en la literatura donde se consideraron modelos basados en técnicas más complejas que RLM. Por lo tanto puede concluirse que los nuevos algoritmos constituyen un valioso aporte al conocimiento científico en el campo de la informática-química para ser aplicados en el diseño de nuevos fármacos. Entre los principales avales están la publicación de 5 artículos en revistas científicas de alto factor de impacto y la presentación en congresos nacionales e internacionales.
Copyright (c) 2021 César Raúl García Jacas, et al.
Esta obra está bajo una
licencia de Creative Commons Reconocimiento-NoComercial 4.0 Internacional.