Upload
asociacion-argentina-de-bioinformatica-y-biologia-computacional
View
515
Download
0
Embed Size (px)
Citation preview
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Autores: Farm. Damián Palomba1,2
Dr. Gustavo E. Vazquez2
Dra. Mónica F. Díaz1,2
1Planta Piloto de Ingeniería Química (PLAPIQUI)- U.N.S.- CONICET2Laboratorio de Investigación y Desarrollo en Computación Científica (LIDeCC)- U.N.S.- CONICET
2º Congreso Argentino de Bioinformática y Biología Computacional
Universidad Católica de Córdoba, 13/05/2011
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Introducción
gasto de tiempo e incremento de costos
síntesis y el procesado del material dificultades intrínsecas
Campo de aplicación general
Síntesis de prototipos
poliméricos propiedades
deseadas
Campo de aplicación específico Predicción in silico de propiedades
medición experimental
Desarrollo de nuevos materiales poliméricos
estimar propiedades previo a la síntesis del materialVentaja
2
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Temperatura de transición vítrea (Tg)
material se convierte en rígido y frágilpropiedades de los polímeros más ampliamente modeladas
restrinjan movimientos moleculares aumentan Tginteracciones intra e intermoleculares
característica del material propiedades mecánicas y físicas
cambios profundos en el rango de T
manufactura y utilización del material
más fácil modelarM= masa de la unidad repetitiva interconvertible
Tg/M = Temperatura de transición vítrea molar
¡¡Enorme!! n › 20000
3
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Teóricos
No linealidad de la propiedad
Métodos QSPR para polímeros
Empíricos
Gran auge
correlacionan target con otras propiedades químicas y físicas
grupos químicos investigados
descriptores moleculares estructura del monómero y/o de la unidad repetitiva
mejores resultados que métodos lineales (MLR)
QSPR con redes neuronales
QSPR= Quantitative Structure-Property Relationship
Calidad del modeloCalidad de los descriptores
Buenos modelos a partir de buenos descriptores
Con
clus
ion
4
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
características físicas, químicas, geométricas y electrónicas de las cadenas principales y laterales
Objetivos
por medio de una ANN
Nuevo Modelo QSPR
Nuevos Descriptores
5
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Estrategias
Unidad repetitiva
Varias unidades repetitivas
Trímero Monómero Cadena Principal Grupo Lateral
Unidades repetitivasEstireno
(monómero) unidad repetitiva (mer)Poliestireno
¡¡Enorme!! n › 20000
6
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Estrategias
Unidad repetitiva
Varias unidades repetitivas
Trímero Monómero Cadena Principal Grupo Lateral
Modelado molecular computacionalPropiedades cadena principal y al grupo lateral de la unidad repetitiva media (trímero)
(Exp las cadenas influyen en la Tg)
estructura tridimensional
7
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
unidad repetitiva (media del trímero)
Estireno(monómero) unidad repetitiva
Poliestireno
(mer)
CP
GL
HH
cadena principal grupo lateralunidad repetitivaPolimetilmetacrilato
Modelado molecular computacionalPropiedades cadena principal y al grupo lateral de la unidad repetitiva media (trímero)
(Exp las cadenas influyen en la Tg)
estructura tridimensional
8
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Modelado molecular computacionalBase de Datos
trímero (unidos cabeza-cola) completado con hidrógenos
optimizaciónMecánica Molecular
conformaciones energéticamente estables
cálculo de descriptores
grupo lateral unidad repetitiva media del trímero
cadena principal
Método SemiempiricalMecánica Cuántica
(Algorithm Polak-Ribiere) (Método MM+)
Descriptores-Metodología
(estructuralmente diversos)
Tradicionales Nuevos
trímero
(PM elevado)
88 homopolímerosHyperChem 8.0.7
9
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Descriptores Tradicionales
Nuevos descriptores
área superficial (aproximada) área superficial (grid) volumen
Log P refractividad
polarizabilidad
masa molecular número de átomosPropiedad cadena principal o lateral/número de átomos de cadena principal o lateral
trímero
descriptores 3DMolecular Properties
Fingerprintsdescriptores binarios
altamente correlacionados (R≥0.9)
descriptores 0D, 1D, 2D
grupo lateral
unidad repetitiva media del trímero
cadena principal
Descriptores para QSPR
10
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Generación del modelo QSPR
Validación del modelo QSPR
Descriptores tradicionales
validación interna
Cross-Validation y Y-Scrambling externa
set de datos (entrenamiento, testeo y validación)
al azar varias veces diferentes proporciones
ad hoc 2 grupos de datos
test de randomización
(Target =
(redes neuronales)Statistica
Delphos (software de selección óptima de descriptores)
(criterio químico y estadístico)Mejor conjunto de descriptores
Tg/M)
HyperChem
Dragon
25 mejores conjuntos alternativos de descriptores
Modelo QSPR
Descriptores nuevos
Valores exp de propiedades
11
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Resultados y discusión
área superficial (ap)masa RBN
grupo lateral
área superficial (ap)
cadena principal trímero
modelo QSPR
MLP 4-23-1Parámetros de la red neuronal
Características de los sets
función de activación capa oculta y salida Tanh
error functionSOS
algoritmo de entrenamientoBFGS 81
Entrenamiento:50% (n= 44) testeo :23% (n=20) Validación:27% (n=24 )q2= 0.95R2= 0.992 R2= 0.946
número bajo principio de parsimonia (Occam) compuestos estructuralmente diversos
más descriptores pocos descriptores familia en particular
literatura
Rearmado de los sets60-20-20 R2= 0.98; 0.98; 0.9650-25-25
no resultado al azar
2 sets ad hocR2= 0.97; 0.93; 0.93
sin remover outliers
proporción equitativa de todas las familias
4 descriptores
R2= 0.98; 0.99; 0.92R2= 0.99; 0.97; 0.9160-15-2560-15-25
12
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
área superficial del grupo lateral (aproximada)
área superficial de la cadena principal (aproximada)
relación inversa ocupan mayor área superficial
ante igual cantidad de materialos grupos más flexibles (los que poseen libre rotación)
si la misma cantidad de materia ocupa menos área superficial masa es más rígida
restringen los movimientos de rotación
relación inversa diferenciar estructuralmente en la cadena principal
Tg
Áre
a su
perfi
cial
GL
Áre
a su
perfi
cial
CP
Descriptores del modelo QSPR
Tg/M Tg/M13
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
number of rotatable bonds (RBN) Es el número de enlaces que permiten libre rotación alrededor de sí mismos
cadenas laterales longitudinales extensas Falla polímeros cadena lateral corta
relación inversa
estos polímeros se diferencian A S del GL
correlación A sup del GL
≠ cdo varía la CPpolióxidos el RBN es ≠ para c/u y el A S GL es 0 para todos
el nro de enlaces que rotan libremente aumenta el A S GL
RBN también M, de modo que Tg/M
masa del grupo lateral
relación inversa
Correlac A sup GL masa similar AS GL similar masa del grupo lateral
A S GL
más representativa
2 grupos laterales
14
masa GL también M, de modo que Tg/M
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Tg/M
mas
a G
L
RB
NTg/M
15
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Dificultades superadas y ventajas con el enfoqueDificultad
optimizar trímero unidad repetitiva media
toda molécula es prácticamente imposible amplias distribuciones de PM y PM elevados
trímero independientes del PM
peso molecular y target
Tg ≈ cte PM ≈ 25000
PM › 50000
interacciones intramolecularesocurren a › escala
velocidad de optimización
facilidad de cálculo de los descriptores
influencia fisicoquímica, estérica y electrónica de las unidades laterales
conserva las características estructurales
Ventajas
base de datos
cálculodescriptores
16
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
Nuevos DescriptoresNuevos Descriptores
Clara interpretación fisicoquímica
Fáciles de calcular operación automatizada
Independencia del tipo de átomos y grupos atómicos
sólo las cadenas más generalizables
Nuevo Modelo QSPRNuevo Modelo QSPR
Parámetros estadísticos equiparables a los mejoresNúmero bajo de descriptores
Conclusiones
Trabajo futuroModelo con mayor número de unidades repetitivas
Otras propiedades target mezclas de materiales poliméricos
Heteropolímeros Polímeros entrecruzados
Relación inversa Tg/M
17
2º Congreso Argentino de Bioinformática y Biología ComputacionalUniversidad Católica de Córdoba / 11-13 de Mayo de 2011
18