Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Facultad de Química-Farmacia Departamento de Licenciatura en Química
Año del 50 Aniversario del Triunfo de la Revolución
“Derivada del Grafo Molecular como una Novedosa Vía para la Generación de Descriptores Moleculares 2D/3D:
Teoría y Aplicación QSPR”
“Molecular-Graph’s Derivatives like a Robustness Source to obtain new 2D/3D Molecular Descriptors:
Theory and QSPR Application”
Autor: Oscar Martínez Santiago
Tutores: Prof. Aux., Lic. Yovani Marrero Ponce, Dr. C.
Prof. Tit., Lic. Enrique R. Molina Pérez, Dr. C.
2009
Âj{xÇ çÉâ ÜxtÄÄç ãtÇà áÉÅxà{|Çz àÉ {tÑÑxÇ? à{x ã{ÉÄx âÇ|äxÜáx vÉÇáÑ|Üxá áÉ à{tà çÉâÜ ã|á{ vÉÅxá àÜâxÊ
Paulo Coelho, “The Alchemist”
En la vida de cualquier ser humano existen personas sin las cuales, ese tránsito extasiado y efímero por el mundo no tiene sentido. Yo no soy la excepción y por eso quiero hacer un merecido y sencillo homenaje a las principales personas que conspiran (o alguna vez lo hicieron) para que yo tenga sueños realizables. A todas ellas quiero dedicar el fruto del árbol, que algunos de ellos sembraron en mi y otros cultivaron, para que yo pudiera alimentarme de su sabia maravillosa que no es más que amor, ciencia y poesía. Dedico esta tesis a: Mi Madre
Tania E. Santiago Carlos Gracias por existir y ser fuente de inspiración para todo lo que hago en la vida. Gracias por los sacrificios y desvelos que has tenido para no preocuparme y facilitarme la vida. Espero nunca defraudarte y que siempre estés orgullosa de mi. Gracias por todo… A la memoria de tres mujeres excepcionales:
Mi tía Isabel Mis abuelas Ángela y Angelina
Que hicieron del niño un joven de bien. Me brindaron todo el cariño y la seguridad a la que un ser humano puede aspirar y aun viven conmigo guiando cada uno de mis pasos en la vida, pues sus enseñanzas amanecen conmigo en todas las auroras de mi vida. A mis Hermanos:
Carlos E. Ventura Santiago Rayner Martínez Borroso
Quisiera ser para ellos un ejemplo a seguir. Ojalá y siempre perciban lo importante que son para mí. Al mejor de mis mejores amigos:
Carlos A. Ventura Torres Gracias por escuchar mis problemas y la mayor parte de las veces solucionarlos. Gracias por quererme como a un hijo. Espero no fallarte nunca. A mi novia:
Gretel León Platero Por su paciencia, su amor y sobre todo su apoyo, sin el cual no habría superado muchos momentos difíciles de mi vida académica y personal. A mi papá:
Oscar Martínez Borges Para que se sienta siempre orgulloso de mí. A mi abuelo:
Cesar Santiago Suástegui Por su apoyo siempre que lo he necesitado y sus sabios consejos. A mis tías y tío:
Nancy Santiago Carlos, Yuliet Martínez Mena y Vladimir Santiago Carlos Por su cariño incondicional, su presencia y apoyo en todos los momentos de mi vida. A otras personas importantes:
Mis primas y primos Mantengamos siempre la misma unión y que el cariño y la confianza siempre medien entre nosotros como hasta ahora. A mis amigos:
Yoan Hidalgo Rosa, Alexey Díaz Gómez y Ariel García Tamayo A ellos también gracias por ser como hermanos para mí y siempre comportarse como tal. Por estar a mi lado siempre que los he necesitado, en los buenos y malos momentos, a los tres muchas gracias.
Muchas personas han sido cómplices del desarrollo de este trabajo y de mi vida científica, estudiantil y académica. A todos “MUCHAS GRACIAS”. Muchas Gracias a: Mis Tutores:
Dr. Yovani Marrero Ponce Por brindarme su amistad y conocimientos, para guiarme en el apasionante mundo de la investigación científica. Por hacer de mí, un joven con gran amor por las ciencias y una incalculable curiosidad y deseos de vencer los distintos retos que pone el conocimiento científico en las mentes humanas.
Dr. Enrique R. Molina Pérez Por su amistad y apoyo incondicional. Además de abrirme la puertas al hermoso mundo de las investigaciones en la Química Teórica y el Diseño de Fármacos. Mis Amigos y Compañeros de Estudios:
Lisdelys Rodríguez, Yoslainy Echevarría, Manuel A. Treto, Luis M. Peralta, Yoan Hidalgo, Reinier Tumbarell.
Por acompañarme en los buenos y malos momentos de mi vida universitaria. Por servir de sostén y contraparte a mis ideas, como yo lo he sido con ellos. Porque todos somos un pequeño pero muy unido grupo de hermanos(as) sin lazos sanguíneos. Mis profesores: Por el ejemplo y la dedicación con que depositaron en mí los más actuales y refinados conocimientos de Química y otras ciencias vitales para desempeñarme como un buen profesional. Mis compañeros del CAMD-BIR Unit: Por su ayuda y colaboración siempre que la he necesitado. Aun quedan muchas personas que han aportado su grano de arena para que este trabajo haya llegado a feliz término y este día sea realmente memorable para mí. No menciono nombres para no caer en la obligación de dar una prioridad o peor aun, olvidar a alguien. Todos ellos saben quienes son, a ustedes “mucha gracias”.
La gratitud es el más legítimo pago al esfuerzo ajeno, es reconocer que todo lo que somos, es la suma del sudor de los demás. Que un hombre solo no vale nada, y que la dependencia humana, además de necesaria, es hermosa.
José Martí
SINTESIS
En el presente trabajo se ha propuesto una novedosa metodología matemática para describir la
estructura molecular obteniéndose así toda una nueva familia de descriptores moleculares topológicos. Este enfoque se basa en una representación matricial del grafo molecular y en el cálculo de las correspondientes derivadas del grafo para n-uplas de elementos, así como derivadas de orden superior y mixtas. En esta primera aplicación se utilizan las derivadas para duplas basadas en átomos (pares de átomos) a partir de las cuales se obtienen las correspondientes derivadas totales-locales para cada átomo que sirven de base para el cálculo de Normas de Minkowski y Geométricas de cada molécula. Estas normas permiten establecer correlaciones entre la estructura de los compuestos, con diferentes propiedades de los mismos (químicas, físicas, químico-físicas y biológicas, etc). Estos nuevos índices han sido definidos también teniendo en cuenta el orden y tipo de subgrafos utilizados para generar la matriz de Incidencia Generalizada “Q” (matriz utilizada en este enfoque para representar la topología molecular y aplicada por primera vez en la definición de un descriptor molecular), además de la posibilidad que brindan de ser aplicados tanto de forma total como local para átomos o agrupaciones atómicas específicas. Esta gama de posibilidades mencionadas nos abren las puertas a la creación de nuevas familias de descriptores moleculares, utilizando la derivada del grafo molecular, y nos permite contar con una nueva herramienta de utilidad práctica para la realización de estudios QSAR/QSPR/QSTR.
Los descriptores a los cuales está dedicado este trabajo, fueron implementados en un programa desarrollado en MATLAB, que aunque esta en una fase inicial, permite al investigador realizar cálculos teóricos en un tiempo relativamente corto y con un bajo costo computacional. Esta primera aplicación ha demostrado, hasta el momento, que estos descriptores moleculares (DMs) son útiles para el diseño molecular y permiten obtener modelos matemáticos más sencillos, interpretables y robustos que muchos de los que han sido descritos en la literatura. En el futuro se desarrollarán otras aplicaciones de los nuevos índices aplicados a otros problemas más complejos de la química-médica actual. En este sentido, los nuevos índices de derivada se han utilizado para modelar varias propiedades químico-físicas de una serie de octanos, obteniéndose resultados satisfactorios para todas las propiedades modeladas. También se obtuvieron buenos modelos (R2 = 99.5 % y s = 2.24) en la descripción de la temperatura de ebullición de 28 alcoholes alifáticos, que han sido utilizados previamente por otros autores. Se realizó un estudio para conocer como se comportan determinados parámetros durante la descripción matemática de la estructura molecular y que nos ayudan a interpretar mejor los resultados obtenidos. Estos estudios se basaron en conocer: 1) mejor ponderación 2) mejor orden y 3) mejor norma, para la descripción de propiedades químico-físicas como la temperatura de ebullición de alcoholes alifáticos. Resultando la electronegatividad según la escala de Mulliken la mejor ponderación utilizada y el orden 1 el mejor orden para describir esta propiedad. Las Normas ofrecieron resultados muy semejantes todas. Además se desarrolló un proceso de interpretación con el objetivo de conocer el tipo de información químico-física que recoge esta novedosa metodología matemática durante la descripción estructural de las moléculas, comprobándose que existe una gran linealidad entre la información estérica y electrónica de las moléculas con esta descripción.
El resultado de la comparación con otros métodos resultó muy satisfactorio. Esta y otras aplicaciones (todavía en proceso) validan hasta el momento la aplicación de este novedoso método teórico, para ser usado en el diseño “racional” automatizado de fármacos y otras aplicaciones de la química-física.
GLOSARIO 2D Bidimensional 3D Tridimensional ANOVA Análisis de Varianza CoMFA Comparative Molecular Field Analysis Fexp Razón de Fisher experimental IDGM Índices de Derivada del Grafo Molecular ITs Índices Topológicos LGO Procedimiento de validación interna cruzada ‘leave-group-out’ LNO Procedimiento de validación interna cruzada ‘leave-n-out’ LOO Procedimiento de validación interna cruzada ‘leave-one-out’ MAE Error medio absoluto MON Número motor de octanos NEM Nueva Entidad Molecular
q2 Coeficiente de correlación al cuadrado del procedimiento de validación cruzada LOO
QSAR Quantitative Structure Activity Relationships QSTR Quantitative Structure Toxicity Relationships QSPR Quantitative Structure Property Relationships R Coeficiente de correlación R2 Coeficiente de determinación o coeficiente de correlación al cuadrado s Desviación estándar scv Desviación estándar del procedimiento de validación cruzada LOO Te Temperatura de ebullición VC Validación cruzada
)(XYPΔ Derivada LT de orden “Y” para el átomo “X”, usando ponderación “P”
ZY
PX Norma “p” de Minkoswki (p = 1,2,3 … n)
YPξ Norma geométrica de orden “Y”, usando ponderación “P”
“No hay que pedirle precisión filosófica en el lenguaje que es lo que la educación añade al genio; pidámosle inspiración que es lo que da el genio”
José Martí
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
1. INTRODUCCIÓN
Entre los aspectos más interesantes y útiles de la Química está su capacidad de crear nuevas moléculas
desconocidas por el hombre, con enormes aplicaciones a distintas esferas de la vida humana. Actualmente
existen mas de 26 millones de compuestos conocidos, y aunque un gran número de estos (>1, 000, 000) está
disponible en diferentes bases de datos químicas, una gran cantidad de estos compuestos no ha encontrado aun
aplicaciones farmacológicas, agroquímicas, industriales o de algún otro tipo. Los elevadísimos costos (más de
800 millones de dólares)1 que presentan los métodos tradicionales de ‘prueba y error’ para la obtención de
Nuevas Entidades Moleculares (NEM) y su baja efectividad [se necesita ensayar sobre 10 mil compuestos, de
los cuales sólo 10 pasaran los ensayos y solo uno llega a convertirse en medicamento útil en terapéutica],2, 3
han dirigido la atención de los investigadores hacia soluciones mucho más asequibles, rápidas, económicas y
efectivas. Debe señalarse, además; que el tiempo transcurrido, desde que se sintetiza el principio activo hasta
que se introduce en el mercado, es de 12 a 15 años y que 7 de cada 10 medicamentos no recupera su costo.3
Notemos que este tipo de ensayos experimentales no solo tienen altos costos en términos de recursos
materiales, humanos y de tiempo, sino que debemos tener en cuenta también el aspecto de tipo ético que
conlleva la investigación con animales y su posterior sacrificio. En todo caso, nuevos paradigmas para el
descubrimiento molecular han sido introducidos recientemente, por las principales industrias farmacéuticas,
basados en el uso de grandes bibliotecas de compuestos químicos y de sistemas robóticos para realizar ensayos
biológicos.4, 5 De tal modo los sistemas HTS (acrónimo de High-Throughput Screening), permiten la síntesis y
ensayo de miles de compuestos cada día pero representa un costo inalcanzable para la mayoría de los países.4, 6
Por todo lo antes mencionado, la industria Farmacéutica ha reorientado las estrategias de búsqueda hacia
métodos que permitan la identificación y la optimización de nuevos compuestos líderes de un modo efectivo
(en el menor tiempo posible y a un costo razonable). En este sentido, el enfoque de diseño/descubrimiento de
fármacos asistido por computadoras ofrece una alternativa al mundo real de síntesis y evaluación.7 Este
procedimiento engloba todas las técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y
optimización de compuestos con propiedades deseadas8 y ha jugado un rol fundamental en el desarrollo de un
número de fármacos que están ahora en el mercado.9 Este tipo de estudio se basa en el uso de un mundo
“virtual” de hipótesis, generadas por computadoras y probadas en la práctica. Este tipo de procedimiento ‘in
sílico’ evita los procesos actuales de síntesis y bioensayos, los cuales se hacen solamente después de la
exploración de los conceptos iniciales con modelos computacionales.7 Por tanto, podemos plantear que los
estudios QSAR/QSPR/QSTR (siglas en inglés acrónimos de Quantitative Structure Activity/Property/Toxicity
Relationships) se han convertido en una importante área de investigación en la química computacional y
teórica.10, 11 Este tipo de estudios se encuentra en la intersección entre la biología, la química, la matemática y
la computación, tienen dos objetivos fundamentales. El primero: brindar una vía para estimar, con un aceptable
grado de precisión, la actividad/propiedad/toxicidad estudiada a nuevos compuestos. El segundo: es obtener
una interpretación en términos estructurales de la actividad/propiedad/toxicidad estudiada.
El paradigma enarbolado en los estudios QSAR/QSPR/QSTR (en lo adelante se utilizará solo el término
QSAR) está relacionado con el hecho de que las propiedades físicas, físico-químicas, químicas, biológicas y
toxicológicas de los compuestos orgánicos dependen en último termino de la estructura molecular.12, 13
Existen muchos parámetros químico-físicos de las moléculas que son una expresión cuantitativa de la
estructura molecular, también dicha estructura puede ser descrita usando diferentes métodos y estrategias
matemáticas. Estas descripciones de las moléculas son conocidas como índices o descriptores moleculares
(DMs) y los resultados numéricos por ellos expresados pueden ser relacionados estadísticamente con
determinadas propiedades (actividades) moleculares y en estudios de similitud/disimilitud molecular.
Capítulo 1 Introducción
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
12
En la actualidad, existe un gran número de descriptores moleculares que pueden ser usados en estudios
QSAR.14 Los descriptores moleculares son ‘términos que caracterizan un aspecto específico de una molécula’
y contienen información estructural derivada de la representación estructural de las moléculas bajo estudio.8 La
naturaleza de los descriptores, depende de cual haya sido el proceder utilizado para la definición de los
mismos, pudiendo tener en cuenta rasgos topológicos (2D), geométricos (3D), electrónicos de las moléculas,
etc. Algunos de estos descriptores sin embargo, tienen ‘más información’ de propiedades físico-químicas que
de los rasgos estructurales de la molécula. Estos incluyen los basados en la determinación experimental de
propiedades físico-químicas, tales como la mayoría de las constantes de los sustituyentes, hidrofóbicas,
electrónicas y estéricas.15 En contraste, los llamados índices topológicos (ITs) tienen la información estructural
contenida en una representación bidimensional de las moléculas (generalmente el grafo molecular con los
átomos de hidrógenos suprimidos) sin considerar ningún rasgo físico-químico de las moléculas.16, 17 La
mayoría de estos índices pueden considerarse como descriptores estructurales explícitos. Otro grupo de
descriptores, llamados químico-cuánticos describen rasgos electrónicos de las moléculas basados en el uso de
la función de onda molecular. Los descriptores geométricos tienen información de los rasgos estructurales 3D
de las moléculas en una vía explícita,18 tales como distancia y ángulos de enlaces o en una vía implícita, en
forma de descriptores topográficos.19
Los ITs han comenzado a ocupar un lugar importante dentro del conjunto de descriptores moleculares
utilizados en los estudios QSAR, siendo probablemente el diseño/descubrimiento de nuevos compuestos
bioactivos, una de las más activas áreas de investigación donde se aplican estos descriptores a problemas
biológicos.13, 17, 20-39
Con el objetivo de desarrollar procesos mas ‘racionales’ de investigación en el diseño de fármacos o en
la modelación de otras propiedades de interés, la definición de nuevos descriptores moleculares40 es un campo
prometedor en la química médica actual. En nuestra universidad existen diferentes grupos de investigación que
han desempeñado un papel relevante en ese sentido, los cuales dirigen sus investigaciones al desarrollo de
nuevos principios activos para la industria farmacéutica en las ramas de la medicina veterinaria, humana y la
sanidad vegetal. Uno de estos grupos ha sido el Grupo de Modelación Molecular y Diseño de Fármacos
(MSDD, por sus siglas en inglés) del Centro de Bioactivos Químicos (CBQ); en este grupo existe una tradición
en el uso de métodos basados en la teoría de grafos, en la que se utilizan aproximaciones muy eficientes de
representación de la estructura molecular, implementadas en varios paquetes computacionales, entre los que se
destacan el MODEST (MOlecular DESing Tool) y el TOSS-MODE (TOpological Sub-Structural
MOlecular DEsing). Otro grupo, perteneciente a la Facultad de Química y Farmacia de la propia universidad,
que presenta resultados relevantes en este campo es el Grupo de Descubrimiento Molecular Asistido por
Computadora e Investigaciones Bioinformáticas (CAMD-BIR Unit, por sus siglas en inglés). Estos grupos han
orientado sus investigaciones hacia la utilización de diferentes métodos para los estudios QSAR, priorizando el
desarrollo y aplicación de nuevos descriptores grafo-teóricos para el diseño molecular de compuestos
orgánicos potencialmente bioactivos.23-39
Teniendo en cuenta lo planteado anteriormente, fueron definidas recientemente tres nuevas familias de
ITs a partir de la aplicación de conceptos de la matemática discreta y el algebra lineal a la química.31-34 Estos
descriptores están basados en el cálculo de formas cuadráticas, lineales y bilineales; los que por su analogía
con las mismas, han sido denominados como índices cuadráticos, lineales y bilineales moleculares,
respectivamente. Estos ITs han sido aplicados en diversos estudios QSAR/QSPR con resultados
satisfactorios.31-35, 37, 41 Estos nuevos DMs fueron generalizados para ser utilizados en estudios que involucren
Capítulo 1 Introducción
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
13
bio-macromoléculas, tales como ácidos nucleicos y proteínas; obteniendo resultados superiores a los obtenidos
por otros enfoques.42, 43
Sin embargo, no siempre estos y otros índices utilizados, muestran un desempeño totalmente
satisfactorio para la predicción de ciertas propiedades. De hecho no se puede esperar que un conjunto
específico de índices sea superior absolutamente a otros conjuntos posibles y/o pueda producir buenos
resultados en todos los problemas. Por ello, consideramos adecuado proponer un nuevo enfoque para la
obtención de nuevas familias de ITs 2D, útiles para el diseño molecular y para los estudios QSPR/QSAR, que
posibiliten realizar una descripción adecuada de las moléculas y de esta forma contar con una nueva
herramienta para el estudio químico-físico-matemático de las sustancias, su estructura, sus propiedades y sus
posibles transformaciones, aspectos que resultan de primordial interés para los químicos teóricos, sintéticos y
médicos. Además pueden ser aplicados en la solución de diferentes problemas de corte tecnológico: 1) en la
industria química de nuevos materiales, 2) industria alimentaría, 3) industria farmacéutica, por solo citar
algunos. En esta última (industria farmacéutica) han sido aplicados satisfactoriamente muchos ITs, los cuales
posibilitan obtener, con un gasto mínimo de recursos y en el menor tiempo posible candidatos a fármacos con
grandes posibilidades de llegar a convertirse en un medicamento de prescripción clínica.
La mayor parte de los ITs utilizados actualmente han sido definidos de forma global (ver capítulo 2), lo
cual es una gran limitación pues muchas propiedades/actividades de las moléculas dependen de una
combinación de aspectos locales y totales de la estructura molecular, más que con solo rasgos globales de la
molécula. La definición local de los ITs (para un determinado fragmento o núcleo base, átomo o grupo de
átomos en una molécula) es una de las 13 propiedades deseadas para un nuevo índice propuesta por Randic.67
Es válido destacar, además, que la mayor parte de los ITs han sido definidos a partir de la matriz de adyacencia
y de distancia topológica (ver capítulo 2), mientras que la matriz de incidencia (ver capítulo 2) nunca ha sido
utilizada para la generación de ITs. Las dos primeras matrices han sido utilizadas con el propósito de generar
nuevos índices y tienen propiedades interesantes que han favorecido su uso con este propósito. Así por
ejemplo, los principales ITs definidos hasta el momento hace uso de ellas (momentos espectrales, índices de
Randic y de valencia, el índice del estado electrotopológico, el descriptor de Wiener, etc) o de una
combinación de las mismas, como es el caso de los índices de carga (para más información ver capitulo 2). En
contraste, la matriz de incidencia posee características no deseadas (ej., no cuadrada y asimétrica) para los
químicos matemáticos y no ha sido fuente de ninguno de los ITs definidos hasta el momento. Esta matriz será
usada en este trabajo como fuente de nuevos ITs, como será mostrado a lo largo del presente reporte.
Por todo lo anterior se plantea el siguiente problema científico:
Los descriptores moleculares existentes en la actualidad no posibilitan siempre una descripción
totalmente adecuada de la estructura molecular y es necesario definir nuevos DMs bidimensionales (2D), que
recojan nuevos contenidos de información y permitan describir y/o estimar diferentes propiedades químico-
físicas y biológicas de compuestos orgánicos y así posibiliten el estudio de sistemas químicos con un gasto
mínimo de recursos materiales y tiempo, además de abrir una puerta a nuevas posibles interpretaciones
químico-físicas de los fenómenos naturales y de laboratorio.
Como vía para solucionar el problema científico se formula la siguiente hipótesis:
Es posible aplicar conceptos de la Matemática Discreta y el álgebra lineal a la química para definir
nuevas familias de descriptores moleculares con contenidos de información diferentes a los existentes y que
Capítulo 1 Introducción
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
14
puedan ser utilizados en el diseño ‘racional’ de fármacos y otras aplicaciones destinadas a otros sectores
(puramente químico, alimentario, industrial, etc).
Para demostrar la anterior hipótesis y dar respuesta al problema científico planteado, se proponen los
siguientes objetivos:
Objetivo general
Definir, implementar computacionalmente, interpretar en términos estructurales y químico-físicos así
como aplicar en estudios QSPR una nueva familia de descriptores moleculares 2D basados en la aplicación de
conceptos de la matemática discreta y el álgebra lineal a la química y que ayuden a resolver – o al menos
resolver mejor – problemas de predicción de propiedades físicas, química, químico-físicas y biológicas de
nuevos compuestos.
Objetivos específicos
Definir un suceso generado por un modelo que devenga en la confección de una matriz de incidencia
que lo describa.
Definir total y localmente nuevos DMs basados en el concepto de Derivada de un Grafo Molecular
(usando la matriz de incidencia generalizada, para cada orden y/o tipo de sub-grafo).
Implementar computacionalmente los nuevos índices.
Realizar una interpretación químico-física y en términos estructurales de los nuevos índices
propuestos.
Aplicar una de las nuevas familias de ITs al diseño molecular mediante la realización de estudios
QSPR comparativos, que permitan validar la calidad de los nuevos ITs.
La novedad científica de este trabajo está fundamentada en la definición de una nueva familia de ITs,
basados en el cálculo de derivadas del grafo molecular (para átomos y enlaces) respecto a un suceso prefijado.
En el mismo se utilizan, por primera vez, las matrices de incidencia de subgrafos moleculares (generalizada
para átomos y enlaces) y de frecuencia de relaciones en la definición de un ITs. Esta invariante grafo-teórica
ha sido extendida para derivadas de n-uplas, de orden superior y mixtas, conformando así una nueva familia de
ITs. Finalmente, los DMs totales y locales (para grupos de átomos o enlaces) se definen usando las Normas 1,
2 y 3 de Minkowski y la Norma Geométrica, a partir de vectores conformados por ITs atómicos.
En esta tesis se realizan los siguientes aportes:
Aporte Teórico: Se definen nuevos índice usando una nueva invariante grafo-teórica, basada en el
cálculo de las Derivada del Grafo, para lo cual se definen nuevas representaciones matriciales
nunca antes utilizadas en la generación de un ITs, tales como las matrices de incidencia, de
incidencia generalizada y de frecuencia de relaciones. Este DMs ha sido definido de forma local
(para átomos o agrupaciones atómicas) y total (considerando toda la molécula) para lo cual se
introduce el uso de las Normas 1, 2 y 3 de Minkowski y Geométrica [estas normas pueden
recoger información de todos los átomos de la molécula (descriptor global) o de agrupaciones
atómicas determinadas (descriptores locales)].
Aporte Práctico: Se desarrolló un programa en MATLAB, capaz de calcular de forma rápida y
automatizada los valores de las derivadas de las moléculas representadas como grafos
moleculares. Se realizaron aplicaciones en la modelación de propiedades químico-físicas de
Capítulo 1 Introducción
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
15
compuestos orgánicos demostrándose las potencialidades de estos índices para estudios
QSPR/QSAR y el diseño de fármacos.
Aporte Metodológico: Se plantea una metodología matemática novedosa para la descripción
estructural de las moléculas orgánicas, basada en el cálculo de derivadas del grafo usando un
suceso prefijado. Por tanto, nuevos sucesos generaran nuevas ITs al generar nuevas matrices de
incidencia y sus respectivas matrices de frecuencia. Además el uso de normas para obtener índices
globales (y también locales) a partir de contribuciones atómicas también puede ser usado por otros
índices definidos localmente constituyendo nuevas invariantes moleculares totales (y locales, para
átomos del mismo tipo, etc).
"Podrán morir las personas, pero jamás sus ideas."
Ernesto Che Guevara
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
2. QUÍMICA GRAFO-TEÓRICA y MÉTODOS ESTADÍSTICOS (QUIMIOMÉTRICOS) EN EL
DISEÑO MOLECULAR
2.1. Química Grafo-Teórica y Topología Molecular en el Diseño Molecular
2.1.1. Introducción a la Química Grafo-Teórica y a la Topología Molecular
La teoría de grafos ha sido ampliamente aplicada a diversos campos de la ciencia.1 Un grafo se expresa
usualmente como vértices interconectados por aristas.1, 2 Donde cada vértice del grafo se representa un objeto y
la arista que conecta dos vértices representa la relación entre estos dos objetos. En la química grafo-teórica los
objetos del grafo pueden representar orbitales, átomos (o sus núcleos), enlaces, grupos de átomos, moléculas, o
colecciones de moléculas. Las aristas de un grafo químico simbolizan las interacciones entre objetos químicos
y se usan para definir enlaces químicos, reacciones, mecanismos de reacciones, modelos cinéticos, u otra
relación o transformación de los objetos químicos. En la literatura existente sobre la química grafo-teórica y
sus aplicaciones;3-7 podemos encontrar la mayoría de las principales aplicaciones de los grafos químicos, como
son: 1) los índices topológicos (ITs) y otros índices estructurales para los estudios QSAR;8-16 2) el enfoque de
orbitales moleculares de Hückel;17, 18 3) la enumeración de isómeros, percepción de simetría estructural y
codificación de compuestos químicos;19-21 4) grafos cinéticos y de reacción;22 y 4) el diseño de síntesis asistida
por computadora.23
De todas estas aplicaciones mencionadas, la de interés para el presente trabajo es aquella relacionada con
la obtención de descriptores estructurales para el diseño molecular. Por tanto, antes de realizar un análisis de
los resultados más importantes reportados en la literatura en el campo de la química grafo-teórica y en especial
del uso de descriptores moleculares basados en la teoría de grafos en los estudios QSAR, daremos una breve
reseña de la teoría de grafos en donde enunciaremos una serie de conceptos y términos matemáticos que serán
utilizados en el desarrollo de esta tesis y que son imprescindibles para la comprensión de los resultados tanto
de la literatura como los alcanzados en el presente trabajo.
2.1.2. Representación topológica de moléculas.
La representación topológica de un objeto es aquella que brinda información sobre el número de
elementos que lo componen y sus conectividades. En ese sentido, se define a la topología como aquella parte
del álgebra que estudia las posiciones e interconexiones de los elementos dentro de un conjunto.24 Si la
topología es aplicada a las moléculas, da lugar a la topología molecular. Por tanto, consideremos en este
trabajo que una representación topológica de una molécula puede ser obtenida utilizando un grafo molecular.
A continuación se darán algunas de las principales definiciones en teoría de grafos.
2.1.3. Los grafos, conceptos generales sobre los mismos.
Ante todo, comenzaremos por introducir matemáticamente el concepto de grafo. Sea V un conjunto
finito de vértices y E el conjunto de aristas que unen pares no ordenados de los elementos de V. En términos
matemáticos un grafo es definido como G = (V, E).1, 4 El número de vértices en un grafo es designado como n
y el número de aristas por m. Otra de las formas de definir un grafo es la siguiente: consideremos un conjunto
no vacío V = {vi / i =1, 2,…,n}, un conjunto no vacío E = {ei / i =1, 2,…,m} y una aplicación θ, la cual asocia a
cada elemento de E con un par no ordenado de elementos de V. Esta aplicación es denominada la aplicación de
incidencia asociada con un grafo y le da singularidad al grafo para un conjunto V dado. Por tanto, para cada ei
existe un par no ordenado [vi, vj] tal que θ(e) = [vi, vj]. En este caso los dos conjuntos E y V junto con la
aplicación θ forman un grafo.
Sin embargo, con el propósito de obtener una representación más real de la topología de la molécula,
nosotros necesitamos identificar los diferentes átomos en la misma, lo cual es posible ‘etiquetándolos’ con sus
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
símbolos químicos o con una significación característica, la cual denominaremos “peso” del átomo. Entonces,
el grafo se transformaría en un grafo ‘etiqueteado’ o ponderado. En este sentido, a cada vértice vi del grafo G
= (V, E) le podemos adicionar en correspondencia el peso wi de un conjunto de pesos W = {wi / i =1, 2, …}.
Como resultado obtenemos un conjunto de los vértices ponderados {(vi,wi) / i =1, 2, …, n}, con ello, no hace
falta que todos los pesos sean distintos. De la misma forma, podemos poner el peso pi del conjunto de pesos P
= {pi / i =1, 2, …} en correspondencia a cada elemento del conjunto E. Como resultado obtenemos un
conjunto de las aristas ponderadas {(ei,pi) / i =1, 2,…,m}; además, no hace falta que sean distintos todos los
pesos.25
Si en G hay pares repetidos (aristas múltiples, o sea vértices que están unidos por más de una arista),
entonces el grafo G se llama grafo con aristas múltiples o multigrafo. Las aristas de la forma {Balaban, 1998
#43}, se denominan lazos o bucles. Si en G hay lazos (pueden también existir aristas múltiples), entonces el
grafo G se llama grafo con lazos o pseudografo (ver Figura 1).
A CB
Figura 1. A) Grafo simple; B) Multigrafo; y C) Pseudografo
En este trabajo usaremos pseudografos, por ser la condición más general de los grafos, los cuales pueden
ser orientados o no orientados. Los pseudografos serían orientados si los pares de vértices fueran ordenados.
En el trabajo actual solo usaremos pseudografos no orientados, por lo que las definiciones que a continuación
daremos, están relacionadas con la teoría de pseudografos (se sobrentiende pseudografos no orientados). Estas
definiciones de los términos más utilizados en los grafos moleculares son muy útiles para describir varias
características estructurales de estos.1, 4, 26, 27
Si ak = {vi, vj} es una arista, entonces los vértices vi, vj, se llaman extremos de la arista ak.
Si los vértices vi y vj son los puntos finales de ei se denota como ei∼[vi, vj], lo que se lee como ‘ei es incidente
con vi y vj’ (enlace que los une).
Los vértices vi, vj se llaman adyacentes si existe una arista ak tal que ak = {vi, vj}∈ V, (o sea, si existe una
arista que los une). Dos aristas se denominan adyacentes si ellas tienen un vértice en común.
En un multigrafo, el grado del vértice vi [δ(vi)] es el número de aristas del multigrafo que son incidentes
al vértice vi. En un pseudografo, el grado del vértice vi es igual al número total de aristas (que no sean lazos)
incidentes a este vértice, más el número de lazos incidentes a él.
Un camino (P) es una sucesión de aristas con vértices comunes. La longitud (l) de un camino es el
número de aristas del mismo. Así por ejemplo, camino de longitud cero (PP
0) es una sucesión de vértices que
contiene solo un vértice.
Un subgrafos es una sección del grafo, subestructura o parte de este. Kier y Hall45 clasifican los
subgrafos según su orden o tipo. Así los subgrafos pueden clasificarse como path (camino, senda) si todos los
vértices tienen grado menor o igual a dos, si todos los vértices poseen grado superior a dos, entonces se
clasifica como cluster (grupo) y si existen vértices que cumplan con una gama variada de grados (menores y
mayores que dos) en el mismo subgrafo, entonces estamos en presencia de un subgrafo de tipo path-cluster. Si
el subgrafo es cíclico se dice que es de tipo chain. El orden de un subgrafo viene expresado por el número de
aristas que este posea.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
18
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
2.1.3.1. Empleo de matrices para representar grafos moleculares.
Los grafos moleculares son ampliamente usados para representar la estructura química de compuestos
orgánicos. Sin embargo, los grafos moleculares son una representación no numérica de la estructura química; y
la obtención de los descriptores moleculares para nuestros propósitos requieren una descripción numérica de
los grafos moleculares. Los grafos pueden representarse matricialmente en forma algebraica.8, 28, 29 La
descripción numérica de la estructura de los compuestos químicos, es esencial para la manipulación
computacional de las moléculas y para los cálculos de los índices moleculares que de ella se derivan. Así por
ejemplo, la matriz de adyacencia A = A(G) del grafo G con n vértices, es la matriz cuadrada simétrica nxn y
los elementos [A]ij se definen de la siguiente forma:
[A(G)]ij = 1 si i≠j y eij ∈ E
= 0 si i=j o eij ∉ E
donde E representa el conjunto de las aristas de G. En la matriz de adyacencia A(G) la fila i y columna i
corresponden al vértice vi de G. Como un ejemplo sencillo, en la Figura 2 se muestra el grafo molecular y la
matriz de adyacencia del 1-etil-2-metil-ciclopropano.
Una propiedad interesante de A(G) viene dada por el hecho de que la matriz Ak(G) da el número de
caminos unitarios de longitud k que unen los vértices vi y vj. Esto permite interpretar los elementos aij como el
número de caminos unitarios, de orden (longitud) k, entre los vértices vi y vj (ver Figura 2).
1
23
45
6
100000010000001000000100000010000001
6
5
4
3
2
1
654321
0
vvvvvv
vvvvvv
A =
010000101000010110001010001101000010
6
5
4
3
2
1
654321
1
vvvvvv
vvvvvv
A =
101000020110103111011211011130001101
6
5
4
3
2
1
654321
2
vvvvvv
vvvvvv
A =
Figura 2. Grafo molecular y matrices de adyacencia de la molécula de 1-etil-2-metil-ciclopropano.
La matriz de adyacencia A(Gw) del grafo molecular G con vértices y aristas ponderadas (con n vértices)
es la matriz simétrica nxn (cuadrada) y los elementos [A (w)]ij se definen de la siguiente forma:29
[A(Gw)]ij = V(w)wi si i=j
= E(w)wij si eij ∈ E
= 0 si eij ∉ E
donde V(w)wi es el peso del vértice vi, E(w)wij es el peso de la arista eij, y w es un determinado peso o etiqueta
que se utilice para computar Vw y Ew.
La matriz de distancia D = D(G) de un grafo G con n vértices, es la matriz simétrica nxn (cuadrada) y los
elementos [D]ij se definen de la siguiente forma:8, 28
[D]ij = dij si i≠j
= 0 si i=j
donde dij es la longitud del camino más corto entre los vértices vi y vj de G. Por ejemplo, la matriz de distancias
topológicas entre vértices del grafo molecular de la molécula de 1-etil-2-metil-ciclopropano (ver Figura 2) se
representa en la Figura 3.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
19
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
012334101223210112321012321101432210
6
5
4
3
2
1
654321
vvvvvv
vvvvvv
D =
Figura 3. Matriz de distancias topológicas entre vértices de la molécula de 1-etil-2-metil-ciclopropano.
Para un grafo G, se define la matriz diagonal, DEG = DEG(G), donde la entrada i-ésima es igual al
grado del vértice vi, δi y todos los demás elementos son iguales a cero.
Matriz de incidencia: para un grafo G, con una ordenación de vértices (v1, v2, … vn) y aristas (e1, e2, … em),
entonces la matriz de incidencia del grafo para esa ordenación es la matriz de n filas y m columnas ( )ijbB =
Definida por la condición de que:
⎩⎨⎧
∉∈
=ji
jiij evsi
evsib
01
Como ejemplo podemos citar que siendo G=({A,B,C,D},{A,B},{B,C},{C,D},{A,D},{B,D}) (Ver
Figura 4) la matriz de incidencia de G, respecto a la ordenación de sus vértices A,B,C,D y sus aristas
{A,B},{B,C},{C,D},{A,D},{B,D}, es la matriz:
Figura 4. Grafo y matriz de incidencia que lo representa.
Existe un gran número de matrices que caracterizan estructuralmente a un grafo molecular y han servido
para computar varios ITs. Algunos ejemplos son la matriz Laplaciana L(w, G), la matriz de Detour, [Δ]ij,30 la
matriz de Detour-distancia, [Δ-D]ij,30 la matriz de distancia-valencia [Dval(p, q, w, G)]ij,31 la matriz de
resistencia-distancia [Ω(w)]ij,32 la matriz de conductancia eléctrica [EC(w)]ij,32, la matriz de Wiener inversa
[RW(w, G)]ij,35 la matriz de Szeged [Szu]ij,36 entre otras.
2.1.4. Invariante grafo-teórica.
Una invariante grafo-teórica es aquella propiedad del grafo que no depende del orden de numeración de
los elementos del mismo, las cuales pueden obtenerse por manipulación algebraica del grafo. Como se ha
señalado, los grafos moleculares no son una representación numérica de la estructura química y aunque las
matrices sí constituyen una representación algebraica, tienen como desventaja que no constituyen invariantes
grafo-teóricas, ya que su construcción depende de la numeración dada a los vértices del grafo. Sin embargo,
una simple invariante como el número de vértices, puede obtenerse a partir de la matriz de adyacencia.37
Resulta evidente, que para los estudios QSAR, el diseño de fármacos, el tamizaje virtual, etc; se necesitarían
obtener índices numéricos que caractericen estructuralmente los grafos moleculares y que estos índices sean
inevitablemente invariantes. Estos descriptores invariantes son los llamados ITs los cuales serán el objeto
principal de esta tesis.
2.1.5. Índices bidimensionales (2D) basados en la topología molecular.
De lo anterior se deduce claramente que debe ser un resultado numérico de alguna invariante ‘extraída’
del grafo molecular. Es decir, los índices topológicos (ITs) son descriptores moleculares que se obtienen de
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
20
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
una invariante grafo-teórica.38-42 Por tanto, los ITs son números calculados a partir de la representación de una
molécula como un grafo, siendo independientes de la numeración de los vértices y aristas en el grafo
molecular. Estos índices codifican información estructural contenida en la representación bidimensional (2D)
de la molécula. Esta descripción ‘topológica’ de la molécula contiene información de la conectividad entre
átomos (o enlaces) en la molécula y codifica la talla, forma, ramificación, heteroátomos y la presencia de
enlaces múltiples.8-10, 13-16, 43 La importante información de la molécula contenida en los ITs puede usarse en la
descripción de propiedades físico-químicas y biológicas.7, 44-46
Un resumen completo sobre los ITs es realmente imposible, debido a la gran cantidad de estos índices
que han sido publicados en la literatura y al número de ellos que cada año son introducidos. Por tanto, nosotros
nos concentraremos solamente en los ITs que más ampliamente han sido aplicados a diferentes problemas
relacionados con la estructura y aquellos que sean más importantes para los objetivos del presente trabajo. La
mayoría de los ITs propuestos están relacionados con la matriz de adyacencia de vértices, de distancias o de
combinaciones de estas. No obstante, en la actualidad los ITs han sido clasificados acorde a su naturaleza en,
primera, segunda y tercera generación,47 lo cual facilita su estudio. Un tratamiento abarcador de todos los
descriptores moleculares disponibles fue recientemente publicado por Todeschini y Consonni.37
2.1.5.1. Índices topológicos de primera generación.
Los ITs de primera generación son números enteros basados en propiedades del grafo como un todo,
tales como las distancias topológicas. Los índices más representativos de esta clase son el índice W de
Wiener,47 el índice Z de Hosoya,48 y los índices B y C de Balaban.49 De todos estos ITs solo W ha sido usado
extensamente en estudios QSAR y en el descubrimiento de nuevos fármacos. El índice de Wiener fue definido
en 1947 y desde entonces ha constituido una importante fuente de inspiración para el desarrollo de nuevos ITs.
[ ] ij
N
ijj
N
iGDGW ∑∑
≠==
=11
)(21)( (2.1)
Los resultados obtenidos con el índice W en la modelación molecular propició la definición de varios
índices relacionados con este. Algunos de estos son el cuasi-Wiener índice,50 el índice de Kirchhoff,51 el índice
RDSUM,52 y el hiper índice de Wiener,53, 54 entre otros.
La suma de los grados de cada enlace fue introducido, al mismo tiempo que el índice de Wiener, por
Platt; por lo cual este es conocido como el índice F de Platt.55 Otro de los ITs de primera generación que
también ha sido ampliamente utilizado en estudios QSAR, es el índice de Zagreb desarrollado en 1975
utilizando las valencias de los átomos (Gutman y col, 1975).56
( )[ ]∑=
=n
iivM
1
21 δ (2.2)
( ) ( )ji vvM δδ=2 (2.3)
2.1.5.2 Índices topológicos de segunda generación.
Estos índices son números reales basados en las propiedades del grafo íntegro. La mayoría de los ITs
utilizados en los estudios QSAR y en el diseño/descubrimiento de fármacos en estos momentos, pertenecen a
esta clase. El conjunto de descriptores moleculares más útiles de esta clase, son los llamados índices de
conectividad molecular9, 10, 57 Estos índices están basados en una invariante grafo-teórica introducida por
Randic 25 años atrás, para computar un índice de ‘ramificación’ para los alcanos.58 Estos índices fueron
extendidos por Kier y Hall para tener en cuenta la diferenciación entre heteroátomos y los diferentes subgrafos
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
21
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
en la molécula. Los índices de conectividad molecular de ‘valencia’ son expresados de la siguiente forma:9, 10,
57
(2.4)
donde, s es el número de subgrafo de tipo t (camino, cluster, camino-cluster y cadena) con m aristas, n es el
número de vértices del subgrafo y δj ves la valencia atómica computada utilizando la siguiente fórmula (Ec.
1.8):
(2.5)
donde Ziv es el número de electrones de valencia del átomo i, Zi son todos los electrones del átomo i y Hi es el
número de átomos de hidrógeno unidos a este átomo.
Balaban introdujo en 1982 como modificación de los índices de conectividad el índice J de Balaban, el
cual es un índice de conectividad basado en las distancias promedios y fue definido de la siguiente forma:59
( ) ( )[ 2/1
1−∑+
=bonds
ji vDvDmJμ
] (2.6)
donde D(vi) es la suma de todas las distancias topológicas relacionadas con el átomo i. Es decir, la suma de
todas las entradas de las filas o columnas de la matriz de distancia (D) correspondiente para un átomo i; μ es el
número ciclomático.
Gálvez y colaboradores han introducido una serie de descriptores grafo-teóricos con el objetivo de
completar la información estructural contenida en los índices de conectividad molecular. Entre estos
descriptores, de probada utilidad en el diseño de fármacos, el índice de carga aparece entre los más
interesantes.60 Los ITs de carga Gk y Jk son definidos de la siguiente forma:
∑∑−
= +=
=1
1 1),(
n
iij
n
ijijk dkCTG δ (2.7)
)1( −= nGJ kk (2.8)
donde CTij = mij – mji, donde m son los elementos de la matriz auxiliar M definida como: M = AxD*. La matriz
D* es la matriz de los inversos de las distancias cuadradas, en la cual sus entradas en la diagonal se toman
como 0 y δ es la delta de Kronecker.
La mayoría de los ITs analizados hasta ahora describen la estructura de la molécula como un todo por lo
tanto pueden considerarse como descriptores moleculares globales. Kier y Hall, a comienzos de la década del
90, introdujeron un nuevo IT denominado índice del estado electrotopológico (E-estado); basado en una
invariante grafo-teórica para un átomo en la molécula, representando la accesibilidad de electrones de este
átomo. Este índice puede ser considerado como un descriptor molecular local; el mismo codifica información
acerca del ambiente topológico y de las interacciones electrónicas debidas a todos los demás átomos en la
molécula. El índice del E-estado para un átomo i en una molécula se define como:11, 12, 41, 61, 62
∑Δ+=j
ijii IIS (2.9)
La suma es el total de los otros átomos j dentro del grafo molecular. El término de perturbación de un
átomo i por un átomo j se define de la siguiente forma (Ec. 1.13):
( ) 2/ ijjiij dIII −=Δ (2.10)
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
22
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
donde, es la distancia topológica que separa los átomos i y j en el grafo desprovisto de hidrógenos. Los
valores intrínsecos son definidos como (Ec. 1.14):
ijd
( )[ ] iv
iii NI δδ /1/2 2 += (2.11)
donde N es el número cuántico principal para los electrones de valencia del átomo i.
El valor de Si para un átomo i puede ser visto, como una suma de efectos de los átomos del esqueleto
molecular a varias distancias de i sobre este último:
( ) ( ) 2/4/ ijj
jij
jiii dIIIIIS ∑∑ −+−+= (2.12)
El primer término es un valor intrínseco definido con anterioridad, el segundo son las contribuciones de
los átomos enlazados y el último representa las contribuciones de los átomos no enlazados.
Adicionalmente, investigadores de nuestro país han realizado apreciables aportes en la introducción de
nuevos ITs. Desde mediados de los 90 Estrada y col. han definido varios ITs, entre los que destaca como de
mayor interés en estudios quimio-bioinformáticos los momentos espectrales de la matriz de adyacencia entre
aristas [E(G)] de un grafo molecular.63-73 De esta forma el momento espectral de orden k se define como la
traza de la k-ésima potencia de la matriz E y su símbolo es μk.68 A su vez, la traza se define como la suma de
los valores de la diagonal principal. Lo anterior se puede expresar matemáticamente de la siguiente manera:
∑=
==m
i iiekkETrk1
)(μ (2.13)
donde, keii son los elementos de la diagonal principal de la matriz Ek. De la definición dada de E y μk, se
observa que los momentos espectrales son números enteros positivos.
Para lograr diferenciar las moléculas con heteroátomos a través de los momentos espectrales, las aristas
del grafo molecular son ponderadas con determinados pesos (dij), lo que aumenta notablemente las
posibilidades y versatilidad del método. Mediante los dij se pueden introducir de manera natural, en la
diagonal principal de la matriz, propiedades medias de los enlaces como son: la distancia, la polarizabilidad,
el dipolo medio de enlace, etc. Además, se han definido los momentos espectrales locales de la matriz de
adyacencia entre enlaces del grafo molecular desprovisto de hidrógeno,67 pudiendo estar la matriz ponderada o
no, en la diagonal principal.
Carrasco y col. introdujeron recientemente un nuevo índice denominado índice del estado
refractotopológico (ℜi).74 El mismo es un índice hibrido y se define como el valor de refractividad intrínseca
de un átomo i, mas un termino de perturbación para un grafo sin hidrógenos suprimidos. Matemáticamente se
define de la siguiente manera:
iii ARAR Δ+=ℜ
(2.14)
donde ARi el valor de refractividad intrínseca de un átomo i y ΔARi es un termino de perturbación definido
por:
∑=
−=Δn
jijjii rARARAR
1
2/)( (2.15)
Marrero-Ponce y col. desarrollaron un nuevo enfoque basado en una representación vectorial y otra
matricial de la estructura molecular. Estas están a su vez están relacionadas con la representación grafo-
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
23
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
teórica por medio de un pseudografo de la estructura química. Estos nuevos índices se conocen como índices
cuadráticos por analogía a las formas cuadráticas y se definen matemáticamente de la siguiente manera:75-82
∑∑==
=n
jjiij
kn
ik xxmxq
11)( = [X]tMk[X] (2.16)
donde, mij = mji (matriz cuadrada simétrica), n es el número de átomos de la molécula y x1,…,xn son las
coordenadas del vector molecular ( x ) en la base canónica {e1,…,en} de Rn.
La definición local de estos descriptores se basa en invariantes grafo-teóricas para un fragmento FR
dado, dentro de un seudografo específico y es la siguiente:75-82
∑∑==
=n
jjiijL
kn
ikL xxmxq
11
)( = [X]t MkL [X] (2.17)
donde n es el número de átomos del fragmento de interés y kmijL es el elemento de la fila “i” y columna “j” de
la matriz MkL ≡ Mk(G, FR) [ qkL(x) ≡ qk(x, FR)]. Esta matriz se extrae de la matriz k-ésima potencia de M y
contiene la información referida a los vértices del fragmento FR de interés y también de su entorno molecular.
De igual forma, estos autores han definido otros grupos de nuevos índices moleculares algebraicos basados en
aplicaciones lineales y formas bilineales, los cuales están siendo utilizados de forma satisfactoria en estudios
QSAR/QSPR y el descubrimiento de nuevos compuestos bioactivos.31, 33,34
2.1.5.3 Índices topológicos de tercera generación.
Los ITs de tercera generación son números reales basados en propiedades locales del grafo molecular.
Estos índices son de reciente publicación.83-85 Otros de los ITs de esta clase están basados en la aplicación de la
teoría de la información a términos de sumas de distancias o sobre nuevas matrices no simétricas introducidas
en la literatura.86-88 Sin embargo, nosotros no discutiremos este tipo de ITs porque estos no han tenido una gran
aplicación en estudios QSAR y en el diseño/descubrimiento de nuevos fármacos.
2.1.6. Propiedades que debe poseer un nuevo índice topológico.
Randic propuso una lista de propiedades que deben poseer los nuevos ITs,89 considerada actualmente de
un nivel de sofisticación muy alto, el cual deben alcanzar los nuevos descriptores moleculares diseñados. Estas
propiedades son las siguientes: 1) interpretación estructural directa, 2) buena correlación con al menos una
propiedad, 3) buena discriminación entre isómeros, 4) localmente definidos, 5) generalizables a análogos
superiores, 6) linealmente independientes, 7) simplicidad, 8) no basados en propiedades físico-químicas, 9) no
trivialmente relacionados con otros índices, 10) eficiencia de construcción, 11) basados en conceptos
estructurales familiares, 12) mostrar una dependencia correcta con el tamaño y 13) tener cambios graduales
con cambios graduales en la estructura. En realidad, muchos de estos atributos tienen cierto grado de
interrelación. A continuación, comentaremos algunas de estas propiedades ‘deseables’ a través, también, de
algunos problemas o desventajas que presentan algunos ITs.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
24
Al emplear los ITs para la caracterización de una molécula intrínsecamente tenemos cierta pérdida de
información, ya que se está tratando de representar un objeto tridimensional por un número simple. Esta
cuestión es crítica, cuando se trata de una actividad biológica que depende de la interacción estereoespecífica
del receptor con un sitio de la molécula. Sin embargo, los ITs pueden contener una sorprendente información
estructural sobre las moléculas, lo que los hace de gran utilidad en los fines prácticos de sus aplicaciones.
Existen dos posibilidades de resolver la pérdida de información de los descriptores grafo-teóricos. La primera,
consiste en la generalización de un descriptor simple a análogos ‘superiores’ y segunda, la generalización de
la invariante grafo-teórica como secuencias de números.89 La generalización de los índices es necesaria para
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
25
salvar situaciones en las que un descriptor simple no es suficiente y la investigación de una familia de
descriptores estructuralmente relacionados puede resolver el problema. Sucede que en la obtención de una
familia de descriptores de diferentes órdenes (familia de descriptores relacionados), como generalización de
un simple descriptor, se ha observado que muchos de estos son colineales (unos indices pueden ser expresados
como combinación lineal de los restantes, por lo que puede existir ‘redundancia de la información’). La
independencia lineal u ortogonalidad de los índices es uno de los atributos deseables, pues los descriptores
colineales pueden afectar la ‘estabilidad del coeficiente de correlación’ y dificulta la interpretación de los
modelos obtenidos. En este sentido, es importante también que los descriptores sean ortogonales en relación a
los restantes ITs. Esta independencia lineal de los índices significa que los mismos conduzcan a una
correlación con una propiedad que no es satisfactoriamente explicada por los otros descriptores existentes.
Una de las principales deficiencias que aún presentan la mayoría de los ITs está relacionada con su
selectividad estructural; o sea, la capacidad de los mismos para diferenciar entre estructuras que no sean
isómeras. La sensibilidad de la discriminación de isómeros, surge debido a que la diferenciación de isómeros
garantiza que estos descriptores puedan ser utilizados en estudios donde las propiedades moleculares varían
para diferentes isómeros y en general, en los estudios de aquellos aspectos de las propiedades moleculares que
dependen del tamaño de la molécula. De forma general, la selectividad de los ITs disminuye a medida que
aumenta el número de vértices en el grafo que representa el esqueleto carbonado molecular, por ejemplo el
andamiaje carbonado de un alcano. Razinger y colaboradores mostraron además que no existe una relación
directa entre la discriminación de isómeros y la utilidad de un índice para correlacionar con propiedades físicas
de interés.90 Este resultado, demuestra que una cuestión importante en el diseño de un nuevo IT, es que este
contenga información estructural valiosa y no sólo que sea altamente discriminante para isómeros.
La definición local de los descriptores se refiere al hecho de que estos no sean obtenidos de forma global
para una estructura molecular, sino que puedan ser definidos sobre determinados fragmentos de la propia
estructura.
La interpretación en términos estructurales, es otro de los atributos deseables para un nuevo IT, ya que
desde el punto de vista de su aplicación en estudios QSAR, solo aquellos índices que estén basados en
conceptos estructurales simples ayudarán a interpretar propiedades complejas en términos estructurales.
2.1.7. Los índices topológicos y sus aplicaciones.
Las aplicaciones de los ITs han estado dirigidas fundamentalmente hacia la predicción cuantitativa de
propiedades físico-químicas y biológicas de compuestos orgánicos, en estudios que se han denominado QSPR
y QSAR, respectivamente. Esta división, no es solo formal, porque aunque el método en ambos tipos de
estudio es similar, por lo general, la actividad biológica es una propiedad mucho más compleja que las
propiedades físico-químicas, debido a la gran cantidad de factores que influyen en la bioactividad de un
compuesto químico.
La aplicación de los ITs al diseño y selección de nuevas entidades químicas es probablemente
una de las áreas más activas de investigación en la aplicación de tales descriptores a problemas
biológicos. Uno de los primeros ejemplos del diseño de nuevos compuestos en el uso de estos
índices, fue descrito por la Upjohn & Pharmacy en 1993. Ellos fueron capaces de diseñar una nueva
clase de compuestos de la familia de las heteropiperazinas con actividad contra la HIV-
retrotransferasa.91-96 Más recientemente, Graasy y col. fueron capaces de diseñar y sintetizar un
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
26
péptido que mostró una actividad inmunosupresora aproximadamente 100 veces mayor que los
compuestos líderes ensayados.97
2.2. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular
2.2.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular
Los estudios QSAR constituyen un enfoque que permite entender como la variación estructural afecta la
propiedad/actividad biológica de un conjunto de compuestos. En estos estudios, los descriptores moleculares
(X) se correlacionan con una variable respuesta (Y). Es decir, este análisis puede definirse como una aplicación
de métodos matemáticos y estadísticos al problema de encontrar una ecuación empírica de la forma Yi = fi(X1,
X2, ...Xn), donde Yi son las propiedades y/o actividades biológicas de la molécula, y X1, X2, ...Xn son
propiedades estructurales experimentales o calculadas (descriptores moleculares) de los compuestos. En este
sentido, cada compuesto puede representarse como un punto en un espacio multidimensional, en los cuales los
descriptores X1, X2, ...Xn son coordenadas independientes del compuesto. El objetivo más usual de este análisis
es incrementar el entendimiento del sistema biológico bajo investigación o predecir la propiedad estudiada a
un objeto (compuesto) no utilizado en la obtención del modelo.
2.2.2. Quimiometría.
El término quimiometría, surgió en la década del 70 y se define como la disciplina química que
utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los métodos analíticos y
preparativos, así como procedimientos para el análisis e interpretación de los datos.100
2.2.3. Metodología general empleada en los estudios QSAR.
Los principios de la metodología QSAR pueden describirse mediante los siguientes pasos comunes:100
1) Formulación del problema, se determina el objeto de análisis y el nivel de información requerido, 2)
Parametrización cuantitativa de la estructura molecular de los compuestos químicos orgánicos/secuencia de
biopolímeros, 3) Medición de la propiedad de interés (‘efectos biológicos’), 4) Escoger el tipo de modelo
QSAR que se va a desarrollar, 5) Selección de los compuestos (diseño estadístico de la serie), 6) Análisis
matemático de los datos y Validación interna y externa de los modelos obtenidos, 7) Interpretación de los
resultados y Aplicación de los modelos desarrollados al diseño/descubrimiento de un nuevo compuesto líder,
desarrollando procedimientos de tamizaje virtuales. Sin embargo, el desarrollo de cualquier QSAR es un ciclo
interactivo.
2.2.4. Regresión lineal múltiple (RLM).
La RLM estudia las relaciones entre una variable dependiente y un conjunto de variables independientes.
Así mismo, la regresión múltiple remite a la correlación múltiple, que se representa por R. Es decir, la
correlación múltiple analiza la relación entre una serie de variables independientes o predictores (X1, X2, ...,
Xk), considerados conjuntamente, con una variable dependiente o criterio. Sus fundamentos se hallan en la
correlación de Pearson.101 La recta de regresión múltiple tiene la siguiente forma:
Y = a + b1 X1 + b2 X2 +...+ bk Xk (2.18)
siendo ‘a’ un valor constante. Como puede observarse, la RLM puede utilizarse en la predicción de los valores
de la variable dependiente, en base a una combinación de variables independientes.
2.2.4.1. Principio de la parsimonia para seleccionar el número optimo de variables.
La R2 aumenta en la medida en que se añaden variables a la ecuación; pero a partir de cierto punto el
incremento de R2 para cada nueva variable que se añade, es insignificante. Un buen modelo no debe presentar
ni demasiadas variables, ni debe olvidar las que sean verdaderamente relevantes. Es decir, debe cumplir el
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
principio de la parsimonia, según el cual un fenómeno debe ser descrito con el número mínimo de elementos
posibles.
Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a incluir en la
ecuación, como por ejemplo la ‘forward selection’, ‘backward elimination; y ‘stepwise selection’.102 Este
último método es el más utilizado (es una combinación de los dos anteriores) y sigue un proceso de selección
de variables paso a paso.
2.2.4.2. Incremento de R2 y correlación parcial.
Se llama incremento de R2 a una estimación de la importancia relativa que tiene la variable que acaba de
entrar en este paso para predecir el criterio. El incremento de R2 viene dado por: 222ic RRR −= (2.19)
donde es el coeficiente de correlación múltiple al cuadrado cuando todas las variables, excepto la i (la que
acaba de entrar en este paso), están incluidas en la ecuación. Por lo tanto, la en un paso determinado
coincide con la R
2iR
2iR
2 del paso anterior. Un coeficiente alto significa que esta variable proporciona información
importante que no está contenida en las otras variables.
2iR
2.2.4.3. Análisis de la varianza.
El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La variabilidad
total de la variable dependiente se divide entre la parte atribuible a la regresión y la parte residual. La distancia
de un punto cualquiera Yi a la Y se sub-divide en dos partes:101
( ) ( )YYYYYY iiii −+−=− (2.20)
siendo iY el valor predicho por la ecuación de predicción. El valor ii YY − , denominado residual de la
regresión sería cero si la recta pasase exactamente por encima del punto Yi. El otro valor, YYi − , corresponde
a la distancia explicada por la regresión y representa el aumento en la estimación de Yi mediante la recta de
regresión.
En el ANOVA, F viene dada por:
residual
regresion
MCMC
F = (2.21)
Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -1; siendo υ el
número de variables de la ecuación. La media cuadrática (MC) se obtiene dividiendo la suma de cuadrados
por los grados de libertad. La F sirve para comprobar si el modelo de regresión se ajusta a los datos y permite
evaluar si se rechaza la hipótesis nula, según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta
a los datos, el coeficiente de determinación (R2) se puede calcular a partir de las suma de cuadrados (SC) del
ANOVA mediante:
total
residual
SCSC
R −=12 (2.22)
2.2.4.4. Importancia de la tolerancia en la RLM.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
27
La tolerancia es una medida del grado de asociación lineal entre las variables independientes.103 Para la
variable i, la tolerancia es igual a 1- , donde es la correlación múltiple al cuadrado entre la variable i
considerada como variable dependiente y las demás variables independientes. Valores bajos en la tolerancia,
indican que la variable i puede ser considerada como una combinación lineal de las otras variables
2iR 2
iR
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
independientes. Por tanto, la tolerancia de una variable, en un paso cualquiera del análisis ‘stepwise’, es la
proporción de su varianza intra-grupo no explicada por otras variables del análisis.
2.2.5. Multicolinealidad entre variables con el uso de RLM.
El término ‘multicolinealidad’ se utiliza para describir la situación en que un gran número de
descriptores moleculares están altamente intercorrelacionados. Las variables que se aproximan a ser una
combinación lineal de las otras, se denominan multicolineales o colineales.101-104 Una ‘multicolinealidad’ alta,
produce errores estándares altos en los coeficientes de regresión y dificulta estimar la importancia relativa de
los descriptores en el modelo, lo cual afecta la interpretación de las actividades modeladas en términos
estructurales. La importancia relativa puede determinarse al valorar el incremento en la R, cuando se añade
una variable a la ecuación que ya contiene las demás variables ( ). El método más utilizado para detectar la
existencia de variables colineales es obtener una matriz de correlaciones entre los descriptores moleculares.
Uno de los métodos más utilizados para detectar la interdependencia entre variables, es la tolerancia.
Problemas con la redundancia de la información y la colinealidad, han sido ilustrados con el uso de ITs, tales
como los índices de conectividad molecular.
2iR
105, 106 El nivel aceptable de colinealidad es algo subjetivo y en ese
sentido se ha reportado que coeficientes de correlación entre las variables aceptables están en el rango de 0.4-
0.9.107 2.2.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos.
Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se ajustan al
modelo) o son pobremente predichos por estos, afectando los parámetros estadísticos del mismo.108
Generalmente, la identificación de ‘outliers’ busca un mejoramiento cualitativo del modelo. Un buen ejemplo
ha sido mostrado por Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos para
T. Pyriformis.107En este estudio, para un total de 140 compuestos solo se obtuvo un moderado ajuste
estadístico (R2 = 0.753). Sin embargo, al remover cinco outliers R2 aumentó hasta 0.853.107 Existen varias
técnicas para detectar la presencia de ‘outliers’, tales como: los análisis de los residuales estandarizados, los
residuales studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el método de
dejar “varios” fuera.105
2.2.7. Validación estadística de los modelos QSAR.
El enfoque convencional adoptado en los análisis QSAR, basado en la RLM, es considerar el parámetro
R2 (‘varianza explicada’), R y s. Las variables como R2 varían entre 0 y 1, donde 1 significa un modelo
perfecto (explica el 100% de la variable respuesta, Y) y 0 un modelo sin ningún poder de explicación.
Entonces un alto valor de R2 y una baja s, son condiciones necesarias para la validez del modelo RLM. O sea,
como en ANOVA la validez viene dada solo por el ensayo F, si varios modelos pasan esta prueba, el de mayor
R2 y/o menor s será el mejor modelo encontrado.
Cuatro herramientas pueden ser utilizadas para acceder a la validación de los modelos QSAR obtenidos
por RLM y la mayoría de estas pueden también extrapolarse a la validación de los modelos obtenidos con el
ADL:112 1) Aleatorización de la variable respuesta (Y- Randomización), 2) validaciones cruzadas, 3) división
de la data de compuestos en serie de entrenamiento (SE) y en serie de predicción (SP) y 4) confirmación del
poder predictivo utilizando SP ‘externas’. A continuación desarrollaremos brevemente solo los puntos
referidos a los enfoques de validación de los modelos que son de nuestro interés.
2.2.7.1. Validación interna de los modelos (Validaciones cruzadas).
La validación cruzada (VC) opera haciendo un número (G) de reducidas modificaciones al conjunto de
compuestos de la data original y entonces calcula la precisión de las predicciones de cada uno de los resultados Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
28
Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular
de los modelos.113, 114 Entonces, la VC crea G conjuntos de datos modificados tomando uno o más grupos de
compuestos de los datos, en donde cada observación (compuestos) se toma una vez, sobre el número total de
ciclos de VC, G. Entonces el modelo es ajustado a los nuevos datos, dejando la parte omitida fuera, y estos se
evalúan en el modelo para computar las predicciones de los compuestos que fueron excluidos. Este
procedimiento se repite para cada conjunto de datos modificados. El poder predictivo del modelo puede
expresarse como q2, el cual ha sido denominado como la ‘varianza predictiva’ o la ‘varianza de la validación
cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde a la siguiente fórmula:
( )
2
22 1
∑
∑−
⎟⎠⎞
⎜⎝⎛ −
−=
∧
yyi
yiyiq (2.23)
donde yi , y ∧
yi y es la actividad observada, estimada y el promedio (media) para el i-ésimo compuesto,
respectivamente.
Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N grupos), el
procedimiento se conoce como “dejando uno fuera” y sus siglas en ingles son LOO (acrónimo de
Leave-One-Out). No obstante, Shao ha mostrado que desde el punto teórico y práctico, el
procedimiento de dejar ‘varios’ fuera (LSO; Leave-Several-Out) es preferible al LOO.148 Este
resultado puede entenderse al considerar que sucede cuando el número de compuesto, N, se
incrementa. La técnica de LSO siempre deja fuera una porción de los datos creando una perturbación
constante en la estructura de los datos. Wold y Eriksson recomiendan utilizar un valor de G alrededor
de siete, al utilizar el procedimiento de VC.145 El promedio de la media de los errores en valores
absolutos, MAE (Mean Absolute Error), para cada uno de los grupos dejados fuera puede ser usado
como un criterio significativo para acceder a la calidad del modelo.116
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
29
"Los conceptos y principios fundamentales de la ciencia son invenciones libres del espíritu humano"
Albert Einstein
3. DERIVADA DEL GRAFO: DEFINICION DE NUEVOS DESCRIPTORES MOLECULARES
3.1. Derivada de un Grafo
En el análisis matemático el concepto de derivada caracteriza el grado de variación en una función al
realizarse una pequeña variación en su argumento, dicho concepto de derivada se basa en el del límite.61 En
la matemática discreta no existe el concepto de límite y por tanto, es imposible trasladar el concepto de
derivada tal como se conoce, desde la matemática continua a la discreta.
Antes de introducir una definición formal de la derivada de un grafo, primeramente se dejarán claros
determinados conceptos importantes para poder entender a cabalidad el significado de la misma y sus grades
posibilidades de aplicación en la química grafo-teórica.
Primero definiremos un suceso (S), el cual es verdadero cuando se cumplen determinadas condiciones
al proceso examinado. Cada suceso S determina una matriz binaria bidimensional , a cada
columna de la cual le corresponde biunívocamente una
nxmijqQ ][=
condición, comprendida en al menos un suceso
verdadero, y a cada fila, una colección de condiciones, con las cuales el suceso tiene lugar (en las cuales el
suceso es verdadero) y qij es:
• 1, si la j-ésima condición se incluye en la i-ésima colección de condiciones, en las cuales el
suceso es verdadero.
• 0 en caso contrario
En otras palabras, cada suceso determina un modelo con matriz de incidencia Q , las condiciones que se
comprenden en el suceso son letras del modelo y las colecciones de condiciones para las cuales el suceso es
verdadero serían palabras del modelo.61
Las intensidades de participación de las distintas condiciones (letras) en las colecciones de condiciones
(palabras) para las cuales el suceso es verdadero las caracterizaremos utilizando las frecuencias de su
inclusión. Para ello es necesario introducir la matriz de frecuencia de relaciones que caracteriza
un modelo Ψ, con matriz de incidencia
nxnijfF ][=
nxmijqQ ][)( =Ψ .
Se denomina matriz de frecuencia de relaciones nxnijfF ][= una matriz, a cada fila y columna de la
cual le corresponde biunívocamente una condición, y un elemento fij es igual al número de palabras que
comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi corresponde al número de palabras que
incluyen la letra i. Siendo fi la frecuencia propia de la letra i y fij es la frecuencia recíproca de las letras i y j,
correspondientemente.
De la definición de la matriz de frecuencia de relaciones, se desprende que la misma es simétrica
respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es mayor que la frecuencia
recíproca de esta letra con cualquier otra, fi ≥ fij.
También se puede demostrar que:
xQQF T= (3.1)
siendo la matriz transpuesta de la matriz de incidencia [Q(Ψ)] del modelo. TQ
Estamos, entonces, en condiciones de determinar el grado de heterogeneidad de los componentes del
grafo respecto a un suceso dado y caracterizaremos esta heterogeneidad por la derivada SG ∂∂ del grafo
respecto al suceso S.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
Llámese derivada SG ∂∂ de un grafo (G) respecto a un suceso (S), un grafo ponderado no orientado
<V,(U, P)>, cuyo portador coincide con el portador de un modelo determinado por este suceso y un par de
vértices (vi,vj) está ponderado por la razón de la frecuencia )()( ijiiji ffff −+− de su participación
incompatible a la frecuencia fij de la participación compatible en el suceso S:
),( ji vvSG
∂∂
=fij
fjfijfi )2( +− (3.2)
con la particularidad de que:
(vi , vj) ∉ U, si SG
∂∂
(vi , vj) = ∞
(vi , vj) ∈ U, si SG
∂∂
(vi , vj) = una magnitud finita diferente de cero
(vi = vj) si SG
∂∂
(vi , vj) = 0
A continuación, ilustremos entonces el concepto de derivada del grafo con un ejemplo.61
Ejemplo # 1
Sea el grafo G (ver Figura 5.A.). Se desea determinar la frecuencia de participación de las diferentes
aristas en la formación de esqueletos del grafo. El grafo G contiene 8 esqueletos [subgrafos de orden 3, sin
diferenciar tipo (ver Figura 5.B.)]. Se puede conocer la frecuencia buscada, por ejemplo, conociendo el
número de inclusiones de cada arista en los esqueletos. Por ejemplo, la arista “a” participa 5 veces en la
formación de los esqueletos, la arista “c” 4 veces, etc. La frecuencia buscada puede caracterizarse mejor, si a
la par de los números indicados anteriormente, determinamos números que caractericen el grado de
participación no uniforme de pares de aristas del grafo (derivada del grafo para parejas de elementos), en la
formación de esqueletos del grafo, para ello debemos obtener las correspondientes matrices de incidencia y de
frecuencia para el modelo determinado por nuestro suceso (formación del esqueleto del grafo por las
diferentes aristas), y de este modo calcular los valores de derivada SG ∂∂ para los pares de aristas del grafo:
c
a
b d
e
A
a
a
a
a
a
b b
b
bb
c
c
c
c
d
d
d d
d
e
e
e
e e
B
a
b
c
d
e3/4
3 3
2.52.5
4/3
2.5 2.54/3
C Figura 5. A) Grafo del Modelo. B) Subgrafos según el suceso. C) Derivadas
Las matrices de incidencia y de frecuencia, para este modelo, son:
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
31
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
1101010110011101100110101011011001101011
Q5223325233224223325233225
== xQQF T
Los elementos de la matriz (F) determinan la SG ∂∂ , que es un grafo ponderado, con portador {a, b, c,
d, e} y dos vértices de este grafo son adyacentes, si el valor de la derivada sobre la arista formada por estos
vértices es distinta de cero o infinito. Los valores de derivada para los pares de aristas del grafo son:
0.3),(...........................................................5.2),(,0.3),( =∂∂
=∂∂
=∂∂ ed
SGca
SGba
SG
Y con estos valores podemos formar el grafo SG ∂∂ (Figura 5.C.)
Como puede observarse, para determinar la derivada de un grafo, según un suceso (S), es necesario:
Construir un modelo determinado por un suceso previamente fijado.
Hallar la matriz de frecuencia de relaciones correspondiente al modelo.
Calcular los valores de derivada SG ∂∂ sobre los pares de elementos (átomos o enlaces) del grafo (molécula).
3.1.1. Derivadas de Orden Superior
Denominamos derivada KK
SG
∂∂ de orden K según el suceso (S), la derivada de la derivada de orden
K-1 según el mismo suceso:
⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂∂
=∂∂
−
−
1
1
K
K
K
K
SG
SSG
(3.3)
3.1.2. Derivadas Mixtas
Llámese derivada Mixta61 según los sucesos (Sa y Sb), a la derivada respecto a un suceso (Sa) de la
derivada respecto a un suceso (Sb):
⎟⎟⎠
⎞⎜⎜⎝
⎛∂∂
∂∂
=∂∂
∂
baba SG
SSSG2
(3.4)
3.1.3. Derivadas Sobre n-elementos
Hemos examinado la intensidad de participación de pares de elementos en un suceso determinado. Sin
embrago, de modo análogo se puede determinar la uniformidad de participación de ternas, cuaternas……n-
ternas de elementos en el suceso. Para lograr la generalización de la fórmula de derivada sobre tres,
cuatro,…n-elementos es necesario introducir el concepto de hipermatriz de frecuencia de relaciones61.
Examinemos el modelo Ψ = < M, S1, S2,……Sn > y tomemos una matriz N-dimensional ][ ...21 NiiifF = , i1, i2, . . . ,iN = 1, . . . | M |. Las posiciones según cada dimensión de la matriz N-
dimensional las enumeraremos con números de la serie natural 1, 2, 3, … M . Pongamos en correspondencia
biunívoca a cada letra un número de esta serie natural y colocaremos las letras Mm∈ Mmi ∈ por las
respectivas posiciones de cada dimensión de la matriz N-dimensional. Cada elemento de esta matriz
es igual al número de palabras que comprenden letras correspondientes a los números . No
duplicaremos los índices iguales por su escritura. La matriz formada de este modo se denominara matriz N-
dimensional de frecuencias de relaciones o bien hipermatriz de frecuencia de relaciones, si no nos interesa la
dimensión de esta matriz.
Niiif ,...,, 21
Niii ,...,, 21
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
32
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
Si entre los índices y un elemento existen al menos dos índices de escritura distinta
este elemento se llama frecuencia reciproca de letras correspondientes y, en caso contrario, frecuencia propia
de letras. La frecuencia que tiene k índices diferentes se denomina frecuencia de orden k.
Niii ,...,, 21 Niiif ,...,, 21
Niiif ,...,, 21
De esta forma estamos en condiciones de generalizar la fórmula de derivada para n elementos:
⎟⎟⎟
⎠
⎞
⎜⎜⎜
⎝
⎛⋅⋅−++⋅⋅−++⋅−=
∂∂ ∑ ∑∑
≠ ≠≠ ≠≠
++
− −2121
12121
12121
212121
121 ,,...,
...,,...,
,...,,...
1...
1
...21 )1(...)1(...21),...,(
iiii
iiiiiii
iiiiiii
iiin
iiiiii
immm
n
nnn
n
n
fnffff
mmmSG
ααα
ααα ∑ (3.5)
3.2. Aplicaciones de la Derivada del Grafo a la Química: “Presentación de una Nueva Familia de
Descriptores Moleculares”.
Con el decursar del tiempo, el paso de los años, la recopilación de información experimental y como
fruto de la experiencia acumulada ha permitido a los químicos asegurar que las propiedades químicas, físicas
y biológicas de manera general, de cualquier sustancia se deben fundamentalmente a su estructura química.
Desde hace muchos años atrás los químicos hemos utilizado diferentes forma de representar las posibles
estructuras de las moléculas y las más comunes representaciones desarrolladas y semidesarrolladas de las
moléculas (sobretodo de moléculas orgánicas) no son mas que un grafo químico. Por lo que es posible pensar
en un posible tratamiento matemático y aplicación de conceptos de la matemática discreta y el algebra lineal a
estos grafos químicos, surgiendo así toda una disciplina conocida como química grafo-teórica.
Veamos que ocurre si aplicamos los conceptos y definiciones anteriores a la química y discutamos más
adelante como podemos obtener provecho, de este elegante tratamiento teórico, y su aplicación directa en la
generación de nuevos descriptores topológicos y el diseño molecular. Pongamos en práctica, a través de un
ejemplo, los aspectos discutidos anteriormente además de algunos nuevos formalismos que serán introducidos
en la medida que sea necesario.
Si tenemos una molécula sencilla como la de metilbutano (ver Figura 6), cuya estructura química es:
H3CCH
CH2
CH3
CH3
Figura 6. Estructura molecular del metilbutano
Obviando los átomos de hidrogeno y consideramos cada átomo de carbono como un vértice y los
enlaces entre ellos, aristas, podemos entonces representar dicha molécula con el siguiente grafo molecular:
c1
c2 c3a b
c5
c4
c
d
Figura 7. Grafo Molecular con hidrógenos suprimidos de la molécula de metilbutano
Este grafo está en correspondencia con la estructura química anterior. En el mismo, los átomos de
carbono etiquetados con las letras C1, C2, C3, C4 y C5 están representados como vértices del grafo molecular y
a, b, c, y d constituyen aristas que representan los enlaces químicos establecidos entre dichos átomos.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
33
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
Definamos entonces, un nuevo suceso a la formación de la estructura molecular a partir de
subestructuras conexas (sub-grafos) de distintos órdenes y tipo, basada en relaciones atómicas. Aplicando
este suceso al grafo antes planteado obtenemos las siguientes subestructuras, los cuales han sido organizados
según su orden:
Orden 0: 54321 ,,,, CCCCCOrden 1: 52433221 ,,, CCCCCCCC −−−− Orden 2: 432325521321 ,,, CCCCCCCCCCCC −−−−−−−− Orden 3: 532143254321 ,, CCCCCCCCCCCC −−−−−−−−− Orden 4: 54321 CCCCC −−−−
El suceso prefijado determina las correspondientes matrices de incidencia y de frecuencia, las cuales
son mostradas a continuación:
⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜
⎝
⎛
=
1111111110101110111101110101101001100111011001001000110000111000001000001000001000001
Q
724632654245108464812632467
=F
Podemos caracterizar la intensidad de participación de los diferentes pares de elementos (átomos en la
molécula o vértices en el grafo) a partir del cálculo de la derivada para pares de elementos:
67
612)6(27),( 21 =
+−=
∂∂ cc
SG
25.24
10)4(27),( 31 =+−
=∂∂ cc
SG
Así, sucesivamente se pueden determinar los valores de los pares de elementos del grafo, los cuales son
mostrados a continuación:
5.4),( 41 =∂∂ CC
SG
2.1),( 43 =∂∂ CC
SG
38),( 51 =
∂∂ CC
SG
25.2),( 53 =∂∂ CC
SG
75.0),( 32 =∂∂ CC
SG
5.4),( 54 =∂∂ CC
SG
5.2),( 42 =∂∂ CC
SG
67),( 52 =
∂∂ CC
SG
Si denominamos además, la derivada Local-Total (LT) como Δi para cada uno de los elementos del
grafo (o sea para cada núcleo atómico), como la sumatoria sobre todos los valores de derivada ),( jiSG
∂∂
que
incluyen al elemento i (combinación lineal):
),(1
jiSGn
ji ∑
= ∂∂
=Δ ( ji ≠ ) (3.6)
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
34
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
Obtenemos los valores de derivada Local-Total para cada elemento serían: Δ1 = 10.58, Δ2 = 5.58,
Δ3 = 6.45, Δ4 = 12.7 y Δ5 = 10.58.
Si se observa detenidamente los valores de cada Δi, se puede notar que cada valor para los cuatro
primeros átomos (del 1-4) son diferentes, mientras que para el primero y el quinto son iguales. Este
comportamiento es lógico si tenemos en cuenta la naturaleza química de cada uno de estos átomos, pues son
precisamente los átomos de carbono denominados 1 y 5 los únicos que poseen un ambiente químico idéntico.
Además, los valores de cada Δi pueden ser organizados en el mismo orden de su ambiente químico estérico-
electrónico. Así por ejemplo, el mayor valor de Δi lo posee el átomo menos enterrado mientras el valor más
pequeño es presentado por el átomo 2, el cual es el mas impedido estéricamente. Esto también coincide con la
naturaleza del concepto de derivada pues este átomo más enterrado es el que contribuye a la formación de la
molécula.
Hasta el momento se ha mostrado como este método recoge información topológica de la molécula
(conectividad entre los átomos en la molécula expresada a través de su intensidad de participación en la
formación de la estructura molecular) en la matriz de incidencia; sin embargo, es necesario ampliar esta
información con el propósito de diferenciar entre los diferentes heteroátomos e instauraciones. Por tanto, se
hace imprescindible incorporar también esta información química en nuestra metódica de trabajo, para
obtener valores de la derivada LT que permitan caracterizar de forma adecuada moléculas heteroatómicas.
Tomemos como un ejemplo sencillo, la molécula de 2-metilpropanal (ver Figura 8). Debemos considerar
determinados aspectos que serán discutidos en la medida que sean necesarios introducirlos para dicho
tratamiento:
O
isobutyraldehyde Figura 8. Estructura de la molécula de isobutiraldehído (metilpropanal)\
Para esta molécula cuyo grafo molecular es representado a continuación (ver Figura 9) podemos afirmar
que la matriz de incidencia Q es idéntica a la desarrollada anteriormente para la molécula de metilbutano;
teniendo en cuenta el suceso antes descrito.
O
c-1c-2
c-3
c-4
Figura 9. Representación del grafo con hidrógenos suprimidos correspondiente a la molécula de metilpropanal
Podemos percatarnos por simple inspección de la estructura molecular que en esta nueva molécula hay
presencia de heteroátomo y un doble enlace. Introduzcamos entonces la matriz de ponderación nxnijpP ][= ,
que es una matriz diagonal, donde filas y columnas no son más que las distintas condiciones del suceso y cada
elemento de la diagonal le corresponde biunivocamente un peso ip )( iϑ para la condición correspondiente y
cada . Los distintos pesos para cada átomo (condición, según este suceso) pueden ser
determinados según la relación
0== jiij pp
δϑ Pi = (para este suceso basado en átomos), donde P representa una
propiedad característica de cada átomo (ejemplo: masa atómica, electronegatividad, etc.) y δ es el grado del
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
35
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
vértice. Como se ha planteado anteriormente (Capitulo 2) el grado de vértice se refiere al número de aristas
incidentes al dicho vértice y químicamente representaría la cantidad de enlaces formados por el átomo en
cuestión con sus vecinos dentro de la molécula, o sea la valencia química.
Para ilustrar este ejemplo usemos como ponderación la electronegatividad (según la escala de Pauling)
de cada átomo (condiciones). Los pesos o etiquetas para los distintos átomos son:
75.125.3)( ==op 833.0
35.2)3( ==cp
5.215.2)1( ==cp 5.2
15.2)4( ==cp
833.035.2)2( ==cp
Quedando la matriz de ponderación como se indica a continuación:
⎟⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜⎜
⎝
⎛
=
5.20000075.100000833.000000833.0000005.2
P
Multiplicando ahora la matriz de incidencia por la matriz de ponderación, obtenemos la matriz de
incidencia ponderada mxnijPQ ][μ= , que es muy semejante a Q en su forma solo que esta nueva matriz
recoge información específica de cada átomo en la molécula además de su conectividad con otros en dicha
molécula. De donde se desprende que:
• μij = pi, si la j-ésima condición está contenida en la i-ésima colección de condiciones.
• μij = 0, en caso contrario.
Para el caso que nos ocupa podemos encontrar la siguiente matriz de incidencia ponderada : PQ
5.275.1833.0833.05.2075.1833.0833.005.20833.0833.05.2
075.1833.0833.05.2075.1833.0833.005.20833.0833.005.200833.05.2
00833.0833.05.2075.1833.0005.200833.00
00833.0833.00000833.05.25.20000
075.100000833.000000833.0000005.2
=PQ
En lo adelante podemos continuar con la metodología antes propuesta para determinar los valores de
derivada sobre los pares de elementos del grafo. O sea, obtenemos la matriz y su transpuesta ,
posteriormente realizamos la correspondiente operación de multiplicación como ya se vio en el ejemplo
PQ TPQ
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
36
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
anterior ( ). La matriz de frecuencias ponderada obtenida recoge información acerca del
número de veces que participa cada elemento en la formación del grafo molecular (según el suceso prefijado),
además de su característica de participación, que podemos entenderla como su identidad o capacidad relativa
(respecto a otros átomos de la molécula) para formar la estructura molecular.
PPTP FxQQ = PF
Los valores de derivada para los pares de elementos del grafo molecular son:
17.2),( 21 =∂∂ CC
SG
57.2),( 2 =∂∂ OC
SG
08.4),( 31 =∂∂ CC
SG
17.2),( 42 =∂∂ CC
SG
12.5),( 1 =∂∂ OC
SG
46.1),( 3 =∂∂ OC
SG
67.2),( 41 =∂∂ CC
SG
08.4),( 43 =∂∂ CC
SG
75.0),( 32 =∂∂ CC
SG
12.5),( 4 =∂∂ CO
SG
Con estos valores calculados podemos obtener también las derivadas LT de cada átomo en la molécula:
Δc1= 14.07, Δc2 = 7.63, Δc3= 10.36, ΔO= 14.30 y Δc4= 14.07.
Puede entenderse que dado este suceso, serán posibles tantos valores de derivadas LT como átomos
tenga la molécula. Esta situación puede traer algunos inconvenientes durante el tratamiento estadístico de la
data numérica, obtenida para el conjunto de moléculas en cuestión.
Para solucionar el problema anterior y lograr una homogeneidad en el número de valores a obtener,
podemos determinar una cantidad prefijada de descriptores totales de la molécula, o locales sobre
agrupaciones atómicas de interés (además de algunas derivadas LT que por su relevancia deban considerarse
en el análisis estadístico). Con este propósito, se propone la utilización de las Normas (1,2,…p) de
Minskowski y la Norma Geométrica, para su uso como descriptores totales de las moléculas y locales sobre
agrupaciones atómicas, las cuales pueden ser presentadas como sigue:
Norma p de Minskowski para cualquier molécula:
pn
i
pip
x ∑=
Δ=1
(3.7)
donde p puede tomar valores enteros positivos partiendo de 1,
y la norma Geométrica de la molécula:
nn
ii∏
=
Δ=1
ξ (3.8)
donde n es el número máximo de derivadas LT (Δi) incluidas.
De esta forma obtenemos igual juego de números para cada molécula sin importar la cantidad de
átomos que posea, además de que también podemos obtener los valores representativos de los grupos que nos
interesen solamente. Estos nuevos índices constituyen descriptores globales de la molécula si todos los
átomos son tomados en cuenta. Estas normas constituyen descriptores locales cuando solo una porción de los
átomos son tomados en cuenta para su cálculo. Así por ejemplo, para la molécula de metilpropanal podemos
encontrar derivadas de grupos como lo son las derivada sobre heteroátomos y carbonos alifáticos, etc.
30.14=ΔOE 36.60
1=X
E 09.40.)(
1=− alifcX
E 74.11=ξ
E
Estas Normas pueden ser usadas por otros especialistas para definir DMs de forma global y total. Por
ejemplo el índice del Estado Electrotopológico ha sido definido de forma local (ver capítulo 2) y pudiera ser
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
37
Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
38
extendido de forma total sobre todos los átomos de la molécula (o local sobre agrupaciones atómicas
determinadas) con el uso de Normas, como las anteriormente descritas. Esta nueva forma de definir DMs
globales y locales es uno de los principales aportes teóricos y metodológicos de esta tesis.
“No basta con adquirir la ciencia, es necesario también usarla”
Marco Tulio Cicerón
4. CALCULOS DE LOS INDICES DE DERIVADA CON EL MATLAB-SOFTWARE Y
TRATAMIENTO DE DATOS.
4.1 Bases de Datos Utilizadas.
Para desarrollar este trabajo se utilizaron varias bases de datos de compuestos orgánicos, para los
cuales han sido reportadas sus propiedades (al menos la que se desea modelar). En primer lugar y con el
propósito de desarrollar los primeros estudios de interpretación en términos estructurales de los nuevos
índices de uso una data de compuestos carbonílicos y de otra de éteres, ambas utilizadas por Kier y Hall en
un estudio semejante con los índices del Estado Electrotopológico.47 Posteriormente, también se uso una data
de 18 octanos isómeros de cadena, la cual es una de las recomendada por la Academia Internacional de
Química-Matemática para realizar estudios de validación de nuevos índices. Como data más compleja desde
el punto de vista estructural, por la presencia de heteroátomos y cadenas más largas, se uso un conjunto
integrado por 28 alcoholes alifáticos para los cuales ha sido reportada su temperatura de ebullición y ha sido
utilizada por otros autores para la validación de nuevos índices.
4.2. Cálculo de los Nuevos Descriptores Moleculares. MATLAB Software.
Los nuevos Índices Topológicos de Derivada han sido implementados en un programa interactivo
desarrollado en MATLAB (ver Figura 9), que permite al investigador obtener los valores de las Derivadas LT
para cada uno de los átomos en la molécula. El programa consta de una sección denominada “variables de
entrada” donde se le suministra la información de partida (matriz de incidencia, ponderaciones, y grados del
vértices) y en breve lapso de tiempo podemos obtener los valores de la derivada LT, los cuales serán
debidamente organizados para su posterior utilización en el tratamiento estadístico. El software aun se
encuentra en perfeccionamiento con el objetivo de brindar mayor comodidad a los investigadores, sin
embargo ha sido usado satisfactoriamente en diferentes estudios QSPR que se discutirán mas adelante.
Figura 10. Software tipo-MATLAB, usado para calcular los Índices de Derivada
Los principales pasos para desarrollar un estudio QSAR/QSPR utilizando el enfoque del MATLAB-
SOFTWARE, se resumen brevemente a continuación:
1. Introducir en la sección “variables de entrada” la matriz de incidencia correspondiente a la
descripción de la estructura molecular.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
Capítulo 4 Cálculo de los Índices de Derivada. MATLAB-Software. Tratamiento de Datos
2. Usar un ‘peso’ (etiqueta) apropiado para los átomos, con el propósito de diferenciar cada tipo de
átomo en la molécula.
3. Hacer corresponder con cada átomo (según la numeración otorgada) su correspondiente grado del
vértice.
4. Computar los índices de derivada totales, locales, por orden y/o tipo de subgrafos de la matriz de
incidencia de átomos (vértices del ‘grafo’) que haya sido generada a partir de la representación de la
estructura química de las moléculas. Este programa genera en la consola del MATLAB una fila en la
cual aparecen ordenadas, según la numeración otorgada, las derivadas LT de cada átomo, con estos
valores se obtienen las correspondientes normas.
5. Encontrar una o varias ecuaciones QSAR/QSPR usando técnicas estadísticas adecuadas, tales como
RLM, ADL, entre otras. Es decir, se encuentra una relación cuantitativa entre una actividad A y/o la
propiedad P de la estructura química codificada con los descriptores calculados. En este caso, la
ecuación obtenida debe tomar la siguiente apariencia:
A/P = α [normas (o derivadas incluidas en análisis)]+ c (4.1)
donde A/P es la medida de la actividad o la propiedad, y α representa los coeficientes obtenidos
por el análisis estadístico multivariable.
f
6. Probar la robustez y demostrar el poder predictivo de las ecuaciones QSAR/QSPR obtenidas usando
procedimientos de validación interna y externa.
7. Desarrollar una interpretación, en términos estructurales, de los modelos QSAR/QSPR obtenidos, que
permita enriquecer nuestros conocimientos acerca de la actividad y/o la propiedad (A/P) estudiada.
4.2. Análisis Estadístico de los Datos (RLM).
Los modelos QSAR-RLM se obtuvieron con el paquete de programas estadísticos
STATISTICA.125
Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo a los datos
experimentales fueron el coeficiente de correlación múltiple (R) y el cuadrado de su valor (R2, coeficiente de
determinación). La desviación estándar (s) y la F de Fischer (y/o el nivel de significación del modelo y de
cada variable, p ≤ 0.05) también se tuvieron en cuenta a la hora del ajuste y selección de los modelos
desarrollados.
La calidad predictiva de las ecuaciones desarrolladas se evaluó utilizando los estadísticos del proceso
de validación cruzada (VC, validación interna). En este sentido, fueron aplicados el procedimiento de VC
LOO y LGO.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
“Las ciencias aplicadas no existen, sólo las aplicaciones de la ciencia”
Louis Pasteur
5. ESTUDIOS DE COMPORTAMIENTO, INTERPRETACION Y VALIDACION DE LOS NUEVOS
ÍNDICES.
5.1 Descripción y Diferenciación de las Moléculas.
Para conocer con más detalles como este novedoso método describe la estructura molecular y diferencia
entre moléculas muy semejantes estructuralmente, se desarrollaron varios estudios. El primero de ellos,
muestra la descripción de un grupo de moléculas homólogas entre sí. En un segundo intento de conocer como
este método recoge información de la representación estructural, se realizó una descripción y posterior cálculo
de los IDGM para moléculas isómeras de cadena. Posteriormente se diferenció entre moléculas con igual
longitud en su cadena pero distinto grado de instauración y luego se describió la posición de dichas
instauraciones lográndose una adecuada y acorde diferenciación con la representación estructural. Por último,
se cuantificó con la aplicación de los nuevos IDGM la presencia de heteroátomos y su característica de
participación. Como etiqueta atómica en este último estudio, se usó la electronegatividad de Pauling.
5.1.1. Diferenciación entre homólogos.
En Tabla 1 se muestran los valores de derivada LT (utilizando la matriz total primeramente y luego las
matrices de los ordenes 1, 2 y 3 por separado) para los átomos que se especifican. Son calculadas además las
Normas 1 y 2 de Minkowski y la Norma Geométrica, las cuales son obtenidas para la molécula. Tabla 1. Diferenciación de homólogos.
S
átomo: ΕΔ ΕΔ1ΕΔ2
ΕΔ3 1X
E 2
XE
ξE
C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …
Molécula … … … … 34,67 18,04 8,3
C1 17,33 1,00 2,50 3,00 … … … C2 9,33 3,00 3,50 2,00 … … … C3 7,33 4,00 4,00 2,00 … … …
Molécula … … … … 60,67 28,79 11,39
C1 24,40 1,00 2,50 4,00 … … … C2 13,32 3,00 4,50 4,00 … … … C3 9,58 4,00 6,00 4,00 … … …
Molécula … … … … 94,60 41,58 14,60
C1 32,30 1,00 2,50 4,50 … … … C2 18,03 3,00 4,50 5,50 … … … C3 12,58 4,00 7,00 6,33 … … … C4 11,17 4,00 8,00 6,67 … … …
Molécula … … … … 137,00 56,38 17,95
Si se observa detenidamente podrá notarse que los valores de la derivada LT, para los distintos átomos
señalados, van decreciendo en la medida que nos acercamos al centro de la cadena carbonada de estos alcanos
lineales y homólogos entre sí. Cabe destacar como los átomos terminales de cadena también incrementan su
valor de ∆1 en la medida que pasamos de un homólogo inferior a un homólogo superior. Las normas son
descriptores totales para la molécula o locales sobre una agrupación de átomos dentro de la molécula en
cuestión. Las normas mostradas en esta Tabla son totales sobre todos los átomos de cada molécula y puede
verse un aumento regular de sus respectivos valores al incrementar un grupo metileno )( 2 −−CH de un
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
homólogo a otro. Estos ejemplos son muestra de como este método matemático describe las moléculas y
logra diferenciar entre sustancias homólogas entre sí, siendo esta una de las propiedades deseadas para un
nuevo ITs.89
5.1.2 Diferenciación entre isómeros de cadena.
La Tabla 2 muestra el resultado de un estudio análogo al anterior pero usando isómeros de cadena. Esta
Tabla refleja como las variaciones en la cadena carbonada en las moléculas trae consigo variaciones en los
valores de derivada de un átomo, acordes con la modificación experimentada en la estructura molecular al
pasar de un isómero a otro. Tabla 2. Diferenciación entre isómeros de cadena.
átomo: ΕΔ ΕΔ1ΕΔ2
ΕΔ3
1X
E 2
XE ξ
E
C1 17,33 1,00 2,50 3,00 … … … C2 9,33 3,00 3,50 2,00 … … … C3 7,33 4,00 4,00 2,00 … … …
Molécula … … … … 60,67 28,79 11,39
C1 12,08 2,00 7,17 6,25 … … … C2 8,71 7,00 6,06 4,67 … … … C3 7,78 4,00 8,89 2,42 … … … C4 13,90 1,00 3,83 6,25 … … …
Molécula … … … … 54,55 24,93 10,66
C1 10,50 3,00 14,50 5,33 … … … C2 12,00 12,00 10,00 9,33 … … …
Molécula … … … … 54,00 24,19 10,78
Es interesante puntualizar la peculiar variación que experimentan las distintas normas al aumentar la
cantidad de ramificaciones y consecuentemente, disminuir el largo de la cadena principal. Véase como las
mismas disminuyen sus valores cuando esto ocurre.
5.1.3. La presencia de instauraciones y su posición.
El incremento de la densidad electrónica en una región determinada de la molécula puede ser detectado
favorablemente usando esta descripción matemática. Veamos como los átomos comprometidos en la
formación de enlaces múltiples incrementan su valor de derivada al aumentar la cantidad de enlaces entre
ellos. Consecuentemente las normas de estas moléculas aumentan su valor al incrementar el número de
enlaces entre los átomos (ver Tabla 3). Las normas también pueden ser usadas para diferenciar isómeros de
posición debido a que los valores de las mismas aumentan mientras más interna en la estructura molecular se
encuentra la instauración (ver Tabla 3).
Tabla 3. Determinación de la presencia de instauraciones y su posición en la molécula.
átomo: ΕΔ ΕΔ1ΕΔ2
ΕΔ3 1X
E 2
XE
ξE
C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …
Molécula … … … … 34,67 18,04 8,30
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
44
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
C1 12,33 0,83 1,83 0,67 … … … C2 7,58 3,17 2,67 1,67 … … … C3 5,92 3,33 2,17 0,67 … … … C4 14,67 1,00 2,67 2,33 … … …
Molécula … … … … 40,50 21,44 9,49
C1 16,44 0,83 2,50 1,58 … … … C2 9,78 3,83 3,83 2,83 … … … C3 7,25 4,00 3,17 1,17 … … … C4 19,75 1,00 3,50 4,08 … … …
Molécula … … … … 53,22 28,44 12,32
C1 13,67 1,67 3,33 2,67 … … … C2 8,67 3,67 3,33 2,67 … … …
Molécula … … … … 44,67 22,89 10,88
C1 16,58 2,50 5,00 4,50 … … … C2 11,58 4,50 5,00 4,50 … … …
Molécula … … … … 56,33 28,61 13,86 5.1.4. Codificación de la presencia de heteroátomos.
Hasta el momento, hemos descrito moléculas integradas solamente por átomos de carbono e hidrógeno
(estos últimos no se tienen en cuenta a la hora de representar el grafo molecular).
Tabla 4. Evaluación de la presencia de heteroátomos
átomo: ΕΔ ΕΔ1ΕΔ2
ΕΔ3 1X
E 2
XE ξ
E
C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …
Molécula … … … … 34,67 18,04 8,30
N 12,17 1,22 2,45 1,64 … … … C2 6,52 3,22 2,22 1,30 … … … C3 6,69 3,00 2,22 1,30 … … … C4 11,29 1,00 2,00 1,03 … … …
Molécula … … … … 36,67 19,05 8,80
O 13,21 1,44 2,88 2,23 … … … C2 6,84 3,44 2,44 1,57 … … … C3 7,17 3,00 2,44 1,57 … … … C4 11,53 1,00 2,00 1,09 … … …
Molécula … … … … 38,75 20,14 9,30
F 14,81 1,76 3,52 3,09 … … … C2 7,30 3,76 2,76 1,94 … … … C3 7,87 3,00 2,76 1,94 … … … C4 11,97 1,00 2,00 1,20 … … …
Molécula … … … … 41,96 21,86 10,05
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
45
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Aunque estos átomos sean la base fundamental de los compuestos orgánicos no podemos ignorar la
posible presencia de heteroátomos (entiéndase como heteroátomos, los átomos de cualquier elemento de la
tabla periódica distintos de carbono e hidrógeno), pues la inmensa mayoría la de las moléculas bioactivas
contienen al menos un átomo en sus estructuras diferente de carbono o hidrógeno. En la Tabla 4 se muestran
los resultados del cálculo de los nuevos índices atómicos y totales, usando como etiqueta para diferenciar los
átomos en la molécula la electronegatividad de Pauling. En ella puede verse como al aumentar la
electronegatividad de los heteroátomos (átomo # 1 en cada una de las moléculas) el valor de derivada aumenta
aproximadamente de forma regular y lo mismo ocurre con las correspondientes normas que posteriormente
pueden ser usadas en la correlación estadística.
5.2 Interpretación Químico – Física de los Nuevos Índices de Derivada.
En esta sección estudiaremos la información recogida por este nuevo tratamiento matemático, propuesto
por primera vez con esta tesis, para describir la estructura molecular.
Para comprobar si este método recoge información electrónica y estérica de los átomos se realizaron
dos estudios diferentes usando una serie de compuestos carbonílicos (aldehídos y cetonas) y otra de éteres y
se correlacionó con el corrimiento químico del 17O en Resonancia Magnética Nuclear (17O RMN).47
En RMN la frecuencia de resonancia de un núcleo (o conjunto de núclidos iguales) en presencia de un
campo magnético externo depende del entorno electrónico que posea dicho núcleo y diferirá del resto en
algunas partes por millón (ppm). Este fenómeno es conocido como corrimiento químico y es una expresión
cuantitativa del ambiente electrónico que rodea a cada átomo. Por esta razón, estas dos series de compuestos y
esta propiedad fueron seleccionadas para estudiar el comportamiento de los nuevos índices pues si logramos
obtener una elevada correlación entre nuestros resultados numéricos (Derivadas LT y Normas) y el
corrimiento químico podremos afirmar que este nuevo enfoque matemático permite describir la estructura de
las moléculas recogiendo información electrónica y estérica de las mismas.
5.2.1. Estudio con aldehídos y cetonas
Para este análisis se utilizó una data de aldehídos y cetonas que ha sido estudiada previamente por Kier
y Hall47, con el índice del Estado Electrotopológico (E-State). Todas son moléculas alifáticas, para las cuales
ha sido reportado el corrimiento químico del 17O (ver Tabla 5)
Tabla 5. Derivada LT de tercer orden para el Carbono unido al oxígeno y 0δ en 17O RMN
No Compuesto )( 13 CE Δ b0δ c predicho0δ d
(Ec. 5.1) 1 CHOCH 3 0.0 592.0 588.9
2 CHOHC 52 2.0 579.5 580.5
3 CHOHCi 73− 3.8 574.5 573.3
4 COCH 23 )( 5.6 569.0 565.8
5 523 HCOCCH 6.5 557.0 561.9
6 733 HCiCOCH −− 9.1 557.0 551.6
7 COHC 252 )( 7.9 547.0 556.5
8 7352 HCiCOHC −− 10.8 543.5 544.4
9 COHCi )( 73− 13.9 535.0 531.4 aCarga parcial sobre el átomo de oxígeno. bDerivada LT de orden 1 para el átomo de carbono adyacente al oxígeno, usando E como etiqueta atómica. cCorrimiento químico en 17O RMN. 47 dCorrimiento químico en 17O RMN calculado usando la Ec. 5.1.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
46
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Primeramente determinamos los valores de las derivadas LT para cada átomo de las moléculas
estudiadas y con ellas obtuvimos a su vez las correspondientes normas, en este caso todas como una expresión
de la descripción de las moléculas en su totalidad. Las ponderaciones usadas fueron Electronegatividad de
Pauling (E), Polarizabilidad (P), Masa atómica (A) y Volumen (V). Los mejores modelos obtenidos son los
siguientes:
Con 1 variable:
Oδ = 588.88 ( 3.17) -4.12 ( 0.41) (5.1) ± ± )( 13 CE Δ
R2 (%) = 93.61 s = 5.0218 q2 = 0.94 sCV = 2.34 F = 102.55
Con 2 variables:
212 )57.0(99.10)53.0(11.6)20.2(17.628 X
PAO ±−±+±= ξδ (5.2)
R2 (%) = 99.62 s = 1.3296 q2 = 0.996 sCV = 0.56 F = 778.33
Como puede observarse, al analizar los estadísticos fundamentales de cada modelo antes propuesto, se
desprende una elevada correlación (93.61% y 99.62%) entre los DMs calculados y el corrimiento químico
para el 17O. Se impone, además, discutir algunos comentarios acerca de los modelos antes mostrados. Por
ejemplo, para el primer modelo (Ec. 5.1) la variable que mejor correlaciona con el corrimiento químico es la
derivada LT del carbono unido directamente al oxígeno (adyacente), utilizando la sub-matriz de orden 3. Este
es un resultado lógico si tomamos en consideración que es este átomo el principal responsable del entorno
electrónico del núclido de oxígeno, después del propio oxígeno. La derivada LT de este carbono realiza una
contribución negativa al valor del Oδ . Este resultado es razonable si tomamos en consideración que la
derivada LT que entra a correlacionar mejor, está ponderada con electronegatividad “E”. Esto indica que
dependiendo de la capacidad para compartir electrones del átomo adyacente, dependerá el blindaje que pueda
provocar dicho átomo sobre el núclido de oxígeno y con ello su corrimiento químico. Esta capacidad está
influenciada, además de, por su electronegatividad, por los restos de cadena carbonados unidos al carbono
adyacente (información perfectamente recogida en los fragmentos de orden 3) y la tendencia de los mismos a
donar electrones por efecto inductivo. Una mayor capacidad para acercar electrones al átomo de oxígeno
implica mayor valor de derivada LT y con ello menor corrimiento químico (mayor blindaje). El segundo
modelo (Ec. 5.2) es mucho más preciso pues recoge en su constitución dos Normas [(dos variables
independientes que son una representación numérica de toda la molécula (descriptores totales)]. Estos índices
globales son una expresión de toda la molécula por lo que captan información de todos los átomos de la
misma que pueden realizar alguna contribución y modificar el ambiente electrónico del átomo de oxígeno.
También se realizó un estudio para conocer la mejor ponderación que se acoplaba con este suceso para
describir este proceso con la menor pérdida de información posible (ver Figura 11). El comportamiento de
este gráfico está acorde con el análisis desarrollado anteriormente y el mismo muestra como la mejor
ponderación es la electronegatividad de Pauling.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
47
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Figura 11. Estudio de mejor ponderación que correlaciona con el corrimiento químico (aldehídos y cetonas)
5.2.2. Estudio con Éteres
Un estudio similar se llevó a cabo utilizando una data de 10 éteres alifáticos (ver Tabla 6), para los
cuales fue reportado el corrimiento químicos del 17O en un estudio realizado por Kier y Hall.45 Las
ponderaciones usadas fueron las mismas que las computadas para los aldehídos y cetonas (ver sub-epígrafe
anterior). Los mejores modelos encontrados con ayuda de la regresión lineal múltiple fueron:
Con una variable:
Oδ = -247.01 ( 18.39) + 41.87 ( 2.86) (5.3) ± ± )(1V OΔ
R2 (%) = 96.41 s = 8.01 q2 = 0.94 sCV = 4.49 F = 214.60 Con dos variables:
)(1.04)62.68(X0.03)0.70(-5.51)-352.53( 1V
22 O
VO Δ±+±±=δ (5.4)
R2 (%) = 99.94 s = 1.05 q2 = 0.999 sCV = 0.25 F = 6426.24
Como puede apreciarse, estos modelos son cuantitativamente superiores (R2(%) = 96.4 y R2(%) = 99.9 ) a
los encontrados para los aldehídos y las cetonas (ver sub-epígrafe anterior). Resulta curioso que la
ponderación que mejor correlaciona en ambos casos es el volumen, lo que nos da una idea de la influencia
estérica generada por el esqueleto molecular y el propio volumen del átomo de oxígeno. La derivada LT de
orden 1 para el oxígeno entra en ambos modelos, la misma es una medida cuantitativa de la interacción de las
nubes electrónicas del oxígeno con los átomos de carbono adyacentes a él.
Un estudio para conocer la mejor ponderación fue realizado (ver Figura 12). En la Figura 12 se puede
observar lo expresado por estos modelos (Ec. 5.3 y 5.4) y analizar, además, el comportamiento de las otras
ponderaciones utilizadas.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
48
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Figura 12. Estudio de mejor ponderación que correlaciona con el corrimiento químico (éteres)
En este caso puede observarse que las ponderaciones Polarizabilidad (P), Masa atómica (A) y Volumen
(V), son las que mejores modelos ofrecen, siendo las mejores V y P. Ambas etiquetas atómicas expresan una
medida cuantitativa del tamaño y capacidad de deformación de la nube electrónica de los átomos, por lo que
es lógico esperar que tengan una marcada influencia sobre el corrimiento químico del núclido de oxígeno
(recuérdese que se debe analizar tanto el átomo de oxígeno como su entorno químico, especialmente los
átomos de carbono adyacentes a el).
Sin embargo, resulta curioso que en este estudio sea la “E”, la ponderación de más baja correlación,
contrario a lo ocurrido con la data anterior de aldehídos y cetonas. La explicación para este fenómeno puede
estar fundamentada en lo siguiente: en los compuestos carbonílicos analizados (aldehídos y cetonas) el
oxígeno está unido al átomo de carbono adyacente a él mediante un doble enlace, lo que enriquece mucho la
densidad electrónica en esa región y sumándole a esto, que el oxígeno es el más electronegativo (en
comparación con el carbono) pues tendrá más cerca de él la mayor densidad electrónica. Es por ello que la
principal influencia en el corrimiento químico del núclido de oxígeno viene dada por la mayor o menor
densidad electrónica sobre el oxígeno, aspecto este muy bien descrito por la derivada LT del carbono
adyacente al oxígeno, ponderado con electronegatividad (ver Ec. 5.1). También es válido tener en cuenta que
dada la hibridación del carbono adyacente al oxígeno (sp2), el grupo carbonilo es plano y los restos
carbonados están relativamente lejos del átomo de oxígeno e imposibilitados de acercamiento al mismo, por
lo que la influencia estérico-electrónica de estos grupos no es muy marcada. Sin embargo en al caso de los
éteres los átomos de oxígenos están más dentro de la estructura y unidos a los carbonos por enlaces sigma
solamente, los cuales son libres de rotar sobre sus ejes y con ello influenciar más o menos estéricamente la
distribución electrónica de los átomos de oxígeno. Por otro lado, la riqueza electrónica provocada en el
oxígeno por los carbonos adyacentes, es similar en todos los casos estudiados por lo que la verdadera
diferenciación debe estar dada en la influencia estérica de las agrupaciones laterales sobre la nube electrónica
de dicho átomo de oxígeno y eso precisamente como mejor puede diferenciarse es ponderando V y P, pues
son estas ponderaciones las que recogen ese tipo de información. Además, nótese que los éteres estudiados
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
49
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
poseen, en casi todos los casos, cadenas carbonadas laterales mayores que las presentes en las moléculas de
los compuestos carbonílicos analizados (ver Tablas 5 y 6).
Tabla 6. Derivada LT de primer orden para el Oxígeno y corrimiento químico en 17O RMN.
No. Compuesto )(1V OΔ b
Oδ cOδ calc.d
1 Dimetil éter 4.84 -52.2 -53.12 2 Etil metal- 5.35 -22.5 -22.64 3 Isopropil metal- 5.86 -2 -1.56 4 t-Butil metil 6.37 8.5 9.36 5 Dietil 5.86 6.5 7.72 6 Isopropil etil 6.37 28 28.75 7 t-Butil etil 6.88 40.5 39.50 8 Diisopropil 6.88 52.5 50.84 9 t-Butil isopropyl- 7.40 62.5 62.59 10 Di-t-Butil- 7.91 76 76.37
aCarga parcial sobre el átomo de oxígeno. bDerivada LT de orden 1 para el átomo de oxígeno, usando V como etiqueta atómica. cCorrimiento químico en 17O RMN. 47 dCorrimiento químico en 17O RMN calculado usando la Ec. 5.4.
5.3 Validación de los Nuevos Índices en Estudios QSPR.
Para validar adecuadamente la capacidad descriptiva y/o predictiva de los nuevos índices se
desarrollaron aplicaciones de los mismos a diferentes tipos de compuestos orgánicos para los cuales han sido
reportadas las propiedades que se desea modelar. Se incluirán en este epígrafe la modelación [usando los
nuevos índices de Derivada del Grafo (IDGM)] de varias propiedades químico-físicas de una serie de 18
octanos isómeros de cadena. Este es un estudio particularmente interesante, dado que es una muestra explícita
de la capacidad de diferenciación entre isómeros de cadena que poseen los IDGM. También se analizó una
data de 28 alcoholes alifáticos, a los cuales se les modeló la temperatura de ebullición. Más adelante en el
próximo epígrafe se estudiará detalladamente (usando la misma data de alcoholes) las mejores condiciones de
trabajo para modelar la temperatura de ebullición de los alcoholes alifáticos, usando los IDGM. El objetivo
fundamental de ese próximo estudio será comprender mejor algunos aspectos de esta descripción y conocer
las mejores ponderaciones usadas, los mejores órdenes y las mejores normas, para de esta forma simplificar el
trabajo y lograr un mayor entendimiento de las propiedades que se describen. En cada aplicación se realiza
una comparación de los resultados obtenidos usando estos nuevos índices de Derivada del Grafo Molecular
(IDGM) con los resultados alcanzados por otros autores empleando otros enfoques, los cuales han sido
previamente reportados en la literatura.
5.3.1. Modelación de propiedades químico-físicas de octanos
Como primer acercamiento, al estudio de la utilización práctica de los nuevos índices, se modelarán
algunas propiedades químico-físicas de una data de 18 octanos, todos isómeros de cadena entre sí. Esta data
ha sido propuesta por Academia Internacional de Química-Matemática, como una de las más adecuadas a usar
cuando se desea validar un nuevo índice. Para estos compuestos se ha determinado con precisión cada uno
de los parámetros que serán objeto de análisis, como son la temperatura de ebullición, la entalpía de
vaporización, la entropía, la entalpía de formación, el número motor y el volumen molar. Todas las moléculas
de esta data son compuestos constituidos a base de carbono e hidrógeno, pero como se consideraron los sub-
grafos moleculares con hidrógenos suprimidos, se puede entonces prescindir de la ponderación pues se hace
innecesario diferenciar el tipo de átomo, ya que todos son átomos de carbono. Los mejores modelos obtenidos
usando la regresión lineal múltiple son los siguientes:
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
50
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Temperatura de Ebullición (5.5) 53
31 0.47)2.54(-X0.05)0.32(1.33)10.47(- 3.48)160.37( ξξ ±±+±±=eT Número Motor de Octanos:
(5.6) 3
61
52
4 X0.16)0.32(X0.08)0.75(0.07)1.45(5.34)-67.10( ±+±+±+±= XMON Entalpía de Vaporización:
(5.7) 3
43
31 X0.02)0.10(-X0.01)0.05(0.34)3.57(-0.91)82.50( ±±+±±= ξHV
Volumen Molar:
(5.8) 3
421 X0.06)0.28(0.23)2.44(-2.04)13.28(4.96)135.97( ±+±±+±= ξξMV Entropía:
(5.9) 313
32 1.11)3.70(-X0.14)0.47(X0.08)0.49(-0.76)117.42( ξ±±+±±=S
Entalpía de Formación:
(5.10) 5151 0.24)1.16(X0.02)0.13(-0.28)2.89(-0.64)-43.14( ξξ ±+±±±=Δ fH
• Nota: Los parámetros estadísticos de estos modelos están reportados en la Tabla 7.
Todos los modelos muestran parámetros estadísticos verdaderamente significativos, los mismos fueron
validados internamente (LOO). Tabla 7. Comparación con otros enfoques
Method size Q2LOO R2 s F Model Descriptors Ref.
Temperatura de Ebullición (BP)
Indices de Derivada 3 78.13 92.98 1.78 61.830 5331 ,, ξξ X Ec. 5.5
getaway + whim + top. 3 98.12 98.78 0.744 2χ 2 χ HATS6(p) 53 getaway 3 97.10 98.32 0.897 HATS2(v) R4(u) R6(v) 53
topological 3 95.84 1.394 S3W S4W SJ 58 Motor Octane Number (MON)
Indices de Derivada 3 97.75 99.15 2.55 464.61 3
652
4 ,, XXX Ec. 5.6
getaway + whim + top. 3 98.58 99.23 2.439 vIDM Ts HATS1(m) 53
getaway 3 97.42 98.62 3.259 HATS4(u) HATS7(v) R7(p) 53
topological 3 98.05 3.855 Sχ1W χ7W χ3W 58 Heat of Vaporization (HV)
Indices de Derivada 3 83.99 95.00 0.499 3
43
31 ,, XXξ Ec. 5.7
getaway + whim + top. 3 97.57 98.42 0.281 0 χ 3κ R+6(u) 53
getaway 3 95.46 97.18 0.375 HATS6(u) R4(u) R+1(m) 53
topological 3 95.65 0.459 χ1W χ2W χ3W 58 Molar Volume (MV)
Indices de Derivada 3 33.82 91.75 1.85 3
421 ,, Xξξ Ec. 5.8
getaway + whim + top. 3 75.96 92.01 1.825 Ks R+6(u) RT+(m) 53
getaway 3 69.27 90.33 2.008 HATS6(p) RT+(m) R1(v) 53 topological 3 88.29 2.210 5W 6W 7W 58
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
51
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Tabla 7. Continuación
Method size Q2LOO R s F Model Descriptors Ref.
Entropy (S)
Indices de Derivada 3 98.82 95.32 1.076 95.14 313
32 ,, ξXX Ec.
5.9 getaway + whim + top. 3 97.17 97.96 0.711 vID,deg TWC R+
2(p) 53 getaway 3 93.45 95.84 1.016 ISH HATS8(m) R3(v) 53
Heat of Formation (ΔHf)
Indices de Derivada 3 94.56 93.24 0.35 64.37 5151 ,, ξξ X Ec.
5.10 getaway + whim + top. 3 95.06 96.60 0.254 HATS5(m) HATS7(m) R4(e) 53 topological 3 87.05 0.492 Ω1 Ω2 Ω3 54
La comparación con otros enfoques ha resultado realmente alentadora, los modelos encontrados están
todos a la altura de los mejores, mostrados en la literatura especializada por otros autores. En algunos casos
las ecuaciones encontradas poseen parámetros estadísticos algo inferiores a los que validan otros buenos
modelos y que son objeto de comparación con estos. Sin embargo la descripción de otras propiedades,
mostradas en la tabla, resultó satisfactoria desde todos los puntos de vista.
5.3.2. Modelación de la temperatura de ebullición de alcoholes alifáticos
Los alcoholes son moléculas más complejas que los alcanos, por tener en su estructura un grupo
hidroxilo unido a un resto de cadena carbonada, de manera general. Es esta peculiaridad (presencia del –OH)
la que hace que los alcoholes presenten propiedades algo anómalas de las que debían esperarse si se comparan
con hidrocarburos de masa molar semejante. Una de estas propiedades es la temperatura de ebullición, pues
los alcoholes presentan de forma general elevadas temperaturas de fusión y ebullición por la capacidad que
tienen de interactuar a través de puentes de hidrogeno. En esta sección se modelará la temperatura de
ebullición para una data de alcoholes alifáticos. Para este estudio se tomó una data de 28 alcoholes alifáticos,
14 de ellos primarios, 6 secundarios y 8 terciarios, para los cuales han sido reportadas sus temperaturas de
ebullición (a la presión de 101.325 kPa). En la Tabla 8 se muestran las estructuras de estos compuestos, se
muestran además los valores del punto de ebullición reales para cada uno de los alcoholes, y los predichos
por las ecuaciones anteriores, también se incluyen los resultados obtenidos usando los momentos espectrales
locales por Estrada y Molina y los encontrados por Kier y Hall con los índices del estado electrotopológico.
Los mejores modelos obtenidos usando los nuevos Índices de Derivada y la regresión lineal múltiple
son:
Con 2 variables:
OM
OHMBp Δ±+Δ±+±= − )09.0(01.1)09.0(29.2)88.2(26.59 )( (5.11)
Con 3 variables:
323
)40.0(74.3.)()21.0(26.2.)()09.0(00.1)64.3(37.68)( ξPPPo alifXalifXCBp ±−±+±+±= (5.12)
Con 4 variables:
.)()35.1(75.14)15.0(87.1)27.1(05.16.)()37.1(82.18)59.3(37.59 )(33
alifXalifXBpM
OHAPP
ξ±−Δ±+±−±+±= − (5.13)
Con 5 variables:
)(2 )24.0(94.0)68.1(68.9.)()24.1(62.16)28.0(22.1.)()37.1(26.14)13.5(79.75 OHAPEPP
XalifXalifXBp −Δ±+±−±−±+±+±= ξ33
(5.14)
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
52
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
• Nota: Los parámetros estadísticos de estos modelos están reportados en la Tabla 9. Figura 13. Observado vs predicho, usando ecuación de 5 variables.
En la Figura 13, se muestra un gráfico de valores observados contra predichos obtenidos con la
ecuación 5.14. De esta forma se puede evaluar con gran claridad la capacidad predictiva del mejor modelo
obtenido (con 5 variables), encontrado con ayuda de la regresión lineal múltiple.
Tabla 8. Estructura y valores de la temperatura de ebullición de los alcoholes alifáticos estudiados.
Predicted vs. Observed ValuesDependent variable: Bp
60 80 100 120 140 160 180 200
Predicted Values
60
80
100
120
140
160
180
200
Obs
erve
d Va
lues
95% confidence
Alcohol-R Bp (°C)A Predichos
B Bp (°C)Predichos
C Bp (°C)Predichos
D Bp (°C)Predichos
E Bp (°C) Predichos
F Bp (°C)Predichos
G Bp (°C)
(CH3)2CH- 82.3 91.12 86.15 83.88 82.66 82.9 91.1
CH3CH2CH2- 97.2 102.76 101.13 99.47 100.37 96.0 97.4
CH3(CH2)3- 117.7 114.88 116.37 117.83 119.08 115.2 113.6
CH3CH(CH3)CH2- 107.8 112.75 109.72 109.46 109.73 108.0 109.0
CH3CH2C(CH3)2- 102.4 103.89 101.89 102.15 102.81 105.4 112.4
CH3CH2CH2CH(CH3)- 119.3 115.62 119.05 117.03 114.76 114.4 120.3
CH3CH(CH3)CH2CH2- 131.1 126.78 128.20 131.7 131.0 134.5 127.4
CH3CH2CH(CH3)CH2- 128.0 124.97 123.93 126.86 126.32 127.3 125.2
CH3(CH2)4- 137.9 130.64 134.62 136.51 135.33 134.3 131.8
CH3C(CH3)2CH(CH3)- 120.4 129.27 119.95 119.08 121.26 129.3 123.0
CH3(CH2)2C(CH3)2- 121.1 120.59 124.24 119.71 119.92 124.9 128.9
(CH3CH2)2C(CH3)- 122.4 118.02 121.85 121.69 122.10 121.9 126.3
CH3CH2C(CH3)2CH2- 136.5 139.98 134.14 134.15 137.12 142.5 138.4
CH3CH(CH3)CH2CH(CH3)- 131.6 129.23 131.27 132.63 130.33 133.9 133.4
CH3CH(CH3)CH(CH3CH2)- 126.5 127.33 129.58 129.35 128.31 121.9 128.7
CH3CH(CH3)CH(CH3)CH2- 144.5 138.75 135.73 139.61 139.81 146.7 138.3
CH3CH2CH2CH(CH3)CH2- 149.0 141.29 151.02 144.64 148.25 146.4 143.4
CH3(CH2)5- 157.6 156.23 155.95 159.62 158.59 153.4 169.8
(CH3CH(CH3))2CH- 138.7 145.49 144.90 147.23 142.04 136.4 139.0
CH3CH(CH3)CH2CH(CH3)CH2- 159.0 156.47 156.70 158.59 158.49 165.5 157.7
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
53
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
(CH3CH2)3C- 142.0 143.37 141.09 142.76 143.20 138.6 138.5
CH3(CH2)6- 176.4 174.33 175.11 175.74 173.95 172.5 172.2
(CH3CH2CH2)2(CH3)C- 161.0 158.08 162.53 159.36 160.77 160.9 161.3
(CH3(CH2)3)(CH3CH2)(CH3)C- 163.0 160.11 164.08 163.14 163.32 160.5 162.7
CH3CH(CH3)CH2(CH2)4- 188.0 191.38 191.92 189.72 190.92 191.6 188.3
CH3(CH2)7- 195.1 202.78 197.26 196.61 195.08 191.6 193.0
CH3(CH2)5C(CH3)2- 178.0 181.15 177.63 176.33 179.95 182.2 188.4
(CH3CH2CH2)2(CH3CH2)C- 182.0 179.22 180.48 181.49 180.54 177.6 177.0 A Valores experimentales de Bp. B Valores predichos usando índices de Derivada (Eq. 5.7 )
C Valores predichos usando índices de Derivada (Eq. 5.8). D Valores predichos usando índices de Derivada. (Eq. 5.9.) E Valores predichos usando índices de Derivada. (Eq. 5.10) F Valores predichos usando momentos espectrales. G Valores predichos usando E-state.
El E-State y los Momentos Espectrales Locales son los descriptores moleculares más utilizados en el
mundo entero, especialmente en la industria farmacéutica, sin embargo es bueno destacar que los modelos
obtenidos usando los Índices de Derivada del Grafo Molecular son estadísticamente superiores a los
encontrados por estos autores (ver Tabla 9). Nótese que nuestro modelo de 3 variables explica el 98.8 % de
la varianza con una desviación estándar en los resultados de ± 3.248 0 C , mientras que el modelos análogo
de 3 variables encontrado por Kier y Hall usando el índice del Estado-Electrotopológico solo explica el 92.6
% de la varianza y su desviación estándar es casi el doble de la obtenida para el modelo de 3 variables usando
los Índices de Derivada del Grafo Molecular (IDGM). El modelo de 5 variables obtenido usando los IDGM es
también estadísticamente superior, a su análogo encontrado por Estrada y Molina usando los Momentos
Espectrales Locales. Tabla 9. Comparación con otros métodos
index n R2 s q2 sCV F
Boiling Point of 28 Alkyl-Alcohols
Índices de Derivada [Eq. 5.11] 2 0.97 4.91 0.96 5.40 436.61
Índices de Derivada [Eq. 5.12] 3 0.988 3.248 0.985 3.42 677.60
Índices de Derivada [Eq. 5.13] 4 0.992 2.24 0.988 2.99 726.67
Índices de Derivada [Eq. 5.14] 5 0.995 2.24 0.991 2.68 858.47
Local spectral moments 5 0.982 4.2 * * 23.8
E-State/encounter parameters 3 0.926 5.8 * * 204
*Valores no reportados.
Todos los modelos obtenidos fueron sometidos a validación cruzada (CV) “dejando uno fuera”
(“LOO”), los errores absolutos en este proceso oscilan entre 2.24 y 4.91 0 C.
5.4. Estudio de las Mejores Condiciones, para la Descripción Molecular.
Con el objetivo de entender mejor la metodología matemática propuesta en esta tesis para describir la
estructura molecular, se realizaron un grupo de estudios para conocer la mejor ponderación usada para
describir la temperatura de ebullición y de esta forma interpretar de alguna forma la información recogida por
estos nuevos índices, también se determinó el orden que recoge mayor información útil acerca de la topología
molecular. Por último se estudió el comportamiento de las distintas normas, que pueden ser usadas como
descriptores totales y locales sobre determinadas agrupaciones atómicas y que posteriormente se
correlacionan estadísticamente con la propiedad en cuestión.
5.4.1. Determinación de la mejor ponderación usada.
Se determinaron todos los modelos de 1 a 5 variables para cada una de las ponderaciones usadas
(Electronegatividad de Pauli “E”, Masa Atómica “A”, Polarizabilidad “P”, Electronegatividad de Mulliken
“K” y Volumen “V”). Posteriormente se seleccionó el mejor modelo correspondiente a cada una de las
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
54
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
ponderaciones y con 1, 2, 3, 4 y 5 variables respectivamente. Luego para visualizar los resultados se graficó el
coeficiente de determinación (R2) vs ponderaciones, la figura 14, muestra lo anteriormente expresado.
Figura 14. Estudio para determinar las mejores ponderaciones.
Si se analiza este gráfico detenidamente nos podemos percatar que los mejores modelos de 4 y 5
variables se encontraron usando las electronegatividades (Milliken y Pauling) como ponderación, mientras
que el modelo de 1 variable con mejor coeficiente de determinción (R2), se encontró con la polarizabilidad
como ponderación. También se puede ver que el volumen es la ponderación que más estable se mantiene
durante todo el estudio. Hecho este análisis se puede pasar a la segunda etapa de este estudio.
5.4.2. Obtención del orden que recoge mayor información estructural
Para esta etapa del análisis se escogieron las ponderaciones: Electronegatividad de Mulliken y
Polarizabilidad, por ser las que mejores modelos ofrecieron en el estudio previo acerca de la mejor
ponderación (con 5 y 1 variables respectivamente). Tomando ahora un único peso atómico, se obtuvieron
modelos desde 1 a 5 variables, tomando como matriz de incidencia solo la sección de la matriz de incidencia
generalizada que recoge los subgrafos de un orden en específico. De esta forma se realizó el cálculo para cada
uno de los órdenes de 1 a 4, luego se graficó el coeficiente de correlación al cuadrado (R2) de los mejores
modelos obtenidos (1-5 variables) contra cada unos de los órdenes y la matriz generalizada (ver Figura 15 y
16). Este proceso se realizó primeramente usando como etiqueta la electronegatividad de Mulliken (K) y
luego se repitió usando la polarizabilidad. En ambos gráficos (ver Figuras 15 y 16) puede observarse que los
mejores modelos, fueron obtenidos con la matriz de incidencia generalizada. Respecto a los órdenes, se
desprende un interesante comportamiento y es que es el orden “1”, es el que mejores modelos registra,
después de la matriz generalizada. Lo que indica que la información más importante de la “molécula
desglosada” está recogida en los enlaces entre pares de átomos, los cuales en su conjunto forman la molécula
integra. A partir del orden 2 se observa un decrecimiento en el R2 de los modelos encontrados y en la medida
en que los subgrafos crecen, al acercarse cada vez más a la estructura de la molécula íntegra, se aprecia cierta
tendencia a mejorar la correlación.
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
55
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
Figura 15. Comparación entre Ordenes (1-4) y Matriz de Incidencia Generalizada usando Electronegatividad de Mulliken como ponderación para los átomos
Figura 16. Comparación entre Ordenes (1-4) y Matriz de Incidencia Generalizada usando polarizabilidad como ponderación para los átomos 5.4.3. Comparación entre Normas
Las Normas son introducidas con el objetivo de estandarizar la información producida por las derivadas
LT de los distintos átomos de la molécula en cuestión y de esa forma facilitar el tratamiento estadístico de los
resultados perdiendo la menor cantidad posible de información. Para conocer cual de las normas usadas
correlaciona mejor (al menos en el caso de alcoholes alifáticos con su temperatura de ebullición) con la
propiedad en cuestión, se hallaron modelos desde 1-5 variables usando la matriz de incidencia generalizada y
la electronegatividad (K) como etiqueta para los átomos (ver Figura 17). En el gráfico también se incluye la
derivada LT del oxígeno hidroxílico, pues en gran medida es este átomo quien determina la magnitud de las
interacciones fundamentales en los alcoholes y por tanto de propiedades como la temperatura de ebullición.
En la figura 17, se observa que todas las normas recogen más o menos igual cantidad de información, aunque
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
56
Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices
cabe destacar que para modelos con 4 y 5 variables la norma geométrica supera las demás, si comparamos las
otras tres, podemos percatarnos que la norma 2 es ligeramente superior a las otras, pero todas muestran
elevados coeficientes de determinación en todos los casos. La Derivada LT del oxígeno muestra una
correlación menor, aunque no tan baja si tenemos en cuenta que la misma recoge solo información de ese
átomo y la influencia del resto molecular sobre él, y se correlacionó con una propiedad de la molecular.
Figura 17. Comparación entre las distintas normas usadas en este estudio y la Derivada LT del oxígeno hidroxílico
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
57
"Las ciencias tienen las raíces amargas, pero muy dulces los frutos"
Aristóteles
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
6. CONCLUSIONES
Atendiendo a los resultados obtenidos, se ha llegado a las siguientes conclusiones:
La aplicación de conceptos de la matemática discreta y el álgebra lineal a la química permitió
definir una nueva familia de descriptores moleculares bidimensionales (totales y locales)
denominados Índices de Derivada del Grafo Molecular (IDGM).
Se generalizó y empleó por vez primera la matriz de incidencia del grafo molecular, al igual que
la matriz de frecuencia en la definición de un nuevo DMs.
Se introduce el uso de Normas 1, 2 y 3 de Minkowski y la Norma geométrica como descriptores
totales y locales sobre agrupaciones atómicas de interés.
Se demostró que los IDGM son útiles para describir adecuadamente la estructura de moléculas
orgánicas, por lo que pueden ser utilizados en estudios QSPR/QSAR y el diseño “racional” de
fármacos en sus diferentes etapas.
Se comprobó que los nuevos IDGM recogen información electrónica y estérica de las moléculas.
El resultado de la comparación con otros métodos que se han aplicado con éxito en los estudios
de QSPR, permite expresar que los índices basados en el cálculo de las Derivadas del grafo
molecular deben ser una novedosa y útil herramienta quimio-bioinformática para el diseño
"racional" automatizado de fármacos y otras aplicaciones de interés químico-físico.
“El futuro de nuestro país tendrá que ser necesariamente un futuro de hombres de ciencia, de hombres de pensamiento”
Fidel Castro Ruz
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
7. RECOMENDACIONES
Concluida ya esta tesis y a partir de los resultados obtenidos, indicamos a continuación las siguientes recomendaciones, que trazan una guía para la continuación de este trabajo:
Extender los estudios y aplicaciones realizadas a Derivadas de Orden Superior,
Derivadas Mixtas y Derivadas sobre n-uplas de elementos. Desarrollar además
nuevos sucesos que permitan explorar nuevos horizontes de esta metodología y lograr
así una mayor y mejor interpretación químico-física de estos nuevos ITs. Desarrollar nuevos modelos “in sílico”, con la utilización los IDGM, para la
predicción de propiedades químicas, químico-físicas, físicas, biológicas,
farmacocinéticas (de distribución, metabolismo y eliminación) y toxicológicas
(mutagénesis, carcinogénesis, reacciones adversas, etc.), en aras de extender el
método utilizado en el presente trabajo y de esta forma validar sus potencialidades en
el diseño ‘racional y sostenible’ de fármacos y otros materiales sintéticos.
En este momento existen trabajos relacionados con estas recomendaciones y los resultados
parciales son realmente alentadores. Algunos de ellos deben estar listos para la segunda quincena
de enero o primera quincena de febrero del 2009.
“Lo opuesto de una formulación correcta es una formulación incorrecta. Pero lo opuesto de una verdad profunda puede ser muy bien otra verdad profunda”
Niels Henrik David Bohr
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
8. REFERENCIAS BIBLIOGRÁFICAS
1. Louis, J. C. Biosilico 2003, 1, 115.
2. Rogers, M. Newsweek 1992, 14, 9.
3. Johnson, L. IUCr. Newsletter 1994, 2, 5.
4. Kniaz, D. Mod. Drug. Discov 2000, May,, 67.
5. Herklots, H. Mod. Drug. Discov 2000, March, 46.
6. Ladd, B. Mod. Drug. Discov 2000, Jan/Feb, 46.
7. Hann, M.; Green, R. Curr. Opin. Chem. Biol. 1999, 3, 379.
8. van de Waterbeemd, H.; Carter, R. E.; Grassy, G.; Kubinyi, H.; Martin, Y. C.; Tute, M., S.; Willett, P.
Annu. Rep. Med. Chem. 1998, 33.
9. Ooms, F. Curr. Med. Chem. 2000, 7, 141.
10. Katrizky, A.; Maran, U.; Lobanov, V. S.; Karelson, M. J. Chem. Inf. Comput. Sci. 2000, 40, 1.
11. Charton, M. Advances in Quantitative Structure-Property Relationships; Amsterdam: JAI Press, 1996.
12. Grover, M.; Singh, B.; Bakshi, M.; Singh, S. Pharm. Sci. Technol. Today 2000, 3, 28.
13. Schultz, T. W.; Cronin, M. T.; Netzeva, T. I.; Walker, J. D.; Aptula, A. O. J Mol Struct (THEOCHEM)
2003, 622, 1.
14. Karelson, M. Molecular Descriptors in QSAR/ QSPR; New York: John Wiley & Sons, 2000.
15. Kubinyi, H. Parameters in Methods and Principles in Medicinal Chemistry In QSAR Hansch Analysis
and related Approaches; Mannhold, 1993, 21.
16. Devillers, J.; Balaban, A., T. Topological Indices and Related Descriptors in QSAR and QSPR;
Amsterdam, the Netherlands,: Gordon and Breach, 1999.
17. Estrada, E.; Uriarte, E. Curr. Med. Chem. 2001, 8, 1699.
18. Rappé, A., K.; Casewit, C. J. Molecular Mechanics Across Chemistry; Herndon, VA: University Sci.
Books, 1997.
19. Balaban, A., T. SAR QSAR Environ. Res. 1998, 8, 1.
20. Basak, S. C.; Magnuson, V. R. Arzneimittelforschung 1983, 33, 501.
21. Anton-Fos, G. M.; Garcia-Domenech, R.; Perez-Jimenez, F.; Peris-Ribera, J., E.; Garcia-March, F. J.;
Salabert- Salvador, M. T. Arz.-Forsch. Drug Res. 1994, 44, 821.
22. de Julian-Ortiz, J. V.; de Gregorio Alapont, C.; Rios-Santamarina, I.; Garcia-Domenech, R.; Galvez, J. J
Mol Graph Model 1998, 16, 14.
23. Estrada, E. J. Chem. Inf. Comput. Sci. 1996, 36, 844.
24. Estrada, E. J. Chem. Inf. Comput. Sci. 1997, 37, 320.
25. Estrada, E.; Molina, E. J. Mol. Graphics Model 2001, 20, 54.
Referencias bibliográficas .
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
26. Estrada, E.; Peña, A. Bioorg. Med. Chem 2000, 8, 2755.
27. Estrada, E.; Peña, A.; García-Domenech, R. J. Comp. Aided Mol. Design. 1998, 12, 583.
28. Estrada, E.; Rodriguez, L. Match 1997, 35, 157.
29. Marrero-Ponce, Y. Molecules 2003, 8, 687.
30. Marrero-Ponce, Y.; Cabrera, M., A.; Romero, V.; Ofori, E.; Montero, L. A. Int. J. Mol. Sci. 2003, 4, 512.
31. Marrero-Ponce, Y.; Castillo-Garit, J. A.; Torrens, F.; Romero-Zaldivar, V.; Castro, E. Molecules 2004,
9, 1100.
32. Marrero-Ponce, Y.; Díaz, H. G.; Romero, V.; Torrens, F.; Castro, E. A. Bioorg. Med. Chem. 2004, 12,
5331–5342.
33. Marrero-Ponce, Y.; Torrens, F.; García-Domenech, R.; Ortega-Broche, S. E.; Romero-Zaldivar, V. J.
Math Chem. 2008, 44, 650-673.
34. Castillo-Garit, J. A.; Martínez-Santiago, O.; Marrero-Ponce, Y.; Casañola-Martín, G. M.; Torrens, F.;
Chemical Physics Letters. 2008, 464, 107-112.
35. Diaz, H. G.; de Armas, R. R.; Molina, R. Bioinformatics 2003, 19, 2079.
36. Diaz, H. G.; Sanchez, I. H.; Uriarte, E.; Santana, L. Comput Biol Chem 2003, 27, 217.
37. Todeschini, R.; Consonni, V. Handbook of molecular descriptors; Weinheim: Germany: Wiley VCH,
2000.
38. Harary, F. Graph Theory; MA: Addison-Wesley, Reading, 1971.
39. Cvetkovic, D. M.; Doob, M.; Sachs, H. Spectra of Graphs. Theory and Applications; Heidelberg: Johann
Ambrosius Barth, 1995.
40. Balaban, A., T. (Ed.). Chemical Applications of Graph Theory; London: Academic Press, 1976.
41. Gutman, I.; Polansky, O. E. Mathematical Concepts in Organic Chemistry; Berlin: Springer-Verlag,
1986.
42. Rouvray, D. H. Computational Chemical Graph Theory; New York: Nova Science, 1990.
43. Bonchev, D.; Rouvray, D. H. Chemical Graph Theory. Introduction and Fundamentals; New York:
Abacus Press/ Gordon and Breach Science Publishers, 1991.
44. Mihalic, Z.; Trinajstic, N. J. Chem. Educ. 1992, 69, 701.
45. Kier, L. B.; Hall, L. H. Molecular Connectivity in Chemistry and Drug Research; New York: Academic
Press, 1976.
46. Kier, L. B.; Hall, L. H. Molecular Connectivity in Structure–Activity Analysis; Letchworth, U. K:
Research Studies Press, 1986.
47. Kier, L. B.; Hall, L. H. Molecular Structure Description. The Electrotopological State; San Diego:
Academic Press, 1999.
Referencias bibliográficas .
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
48. Kier, L. B.; Hall, L. H. Pharm Res 1990, 7, 801.
49. Balaban, A. T.; Chiriac, A.; Motoc, I.; Simon, Z. Steric Fit in Quantitative Structure–Activity Relations;
Berlin: Springer, 1980.
50. Bonchev, D. Information Theoretic Indices for Characterization of Chemical Structure; Chichester, UK:
Research Studies Press – Wiley, 1983.
51. Voiculetz, N.; Balaban, A. T.; Niculescu-Duvaz, I.; Simon, Z. Modeling of Cancer Genesis and
Prevention; Boca Raton: CRC Press, 1990.
52. Diudea, M. V. QSPR/QSAR Studies by Molecular Descriptors; Huntington, N.Y.: Nova Science, 2001.
53. Graovac, A.; Gutman, I.; Trinajstic, N. Topological Approach to the Chemistry of Conjugated
Molecules; Berlin: Springer, 1977.
54. Dias, J. R. Molecular Orbital Calculations Using Chemical Graph Theory; Berlin: Springer, 1993.
55. Pólya, G.; Read, R. C. Combinatorial Enumeration of Groups, Graphs, and Chemical Compounds;
Berlin: Springer, 1987.
56. Fujita, S. Symmetry and Combinatorial Enumeration in Chemistry; Berlin: Springer, 1991.
57. Ivanciuc, O. Canonical Numbering and Constitutional Symmetry. In The Encyclopedia of
Computational Chemistry; Schleyer, P. V. R., Allinger, N. L., Clark, T., Gasteiger, J., Kollman, P. A.,
F., S. I. H., Schreiner, P. R., Eds.; John Wiley and Sons: Chichester, 1998, 167.
58. Temkin, O. N.; Zeigarnik, A. V.; Bonchev, D. Chemical Reaction Networks. A Graph-Theoretical
Approach; Boca Raton: CRC Press, 1996.
59. Koča, J. K., M.; Kvasnička, V.; Matyska, L.; Pospýchal, J. 1989. Synthon Model of Organic Chemistry
and Synthesis Design, ; Berlin: Springer, 1989.
60. Gálvez, J.; García, R. Diseño de fármacos por conectividad molecular. (Monografía); Madrid:
Farmaindustria, 1994.
61. Gorbátov, V. A. Fundamentos de la Matematica discreta; Moscú, URSS: Mir., 1988.
62. Busacker, R. G.; Saaty, T. Finite Graphs and Networks; New York: McGraw-Hill, 1965.
63. Wilson, R. J. Introduction to Graph Theory; Edimburgh: Oliver & Boyd, 1972.
64. Trinajstic, N. Chemical Graph Theory; FL: CRC Press: Boca Raton, 1992.
65. Ivanciuc, O. Rev. Roum. Chim. 2000, 45, 289.
66. Ivanciuc, O.; Balaban, A., T. MATCH (Commun. Math. Chem.) 1994, 30, 141.
67. Randic, M. J. Chem. Inf. Comput. Sci. 1997, 37, 1063.
68. Ivanciuc, O. ACH – Models Chem. 2000, 137, 607.
69. Ivanciuc, O.; Ivanciuc, T.; Balaban, A. T. ACH – Models Chem. 2000, 137, 57.
70. Diudea, M. V. J. Chem. Inf. Comput. Sci. 1997, 37, 292.
Referencias bibliográficas .
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
71. Randic, M. J. Math. Chem. 1990, 4, 157.
72. Balaban, A., T. (Ed.). From Chemical Topology to Three-Dimensional Geometry; New York: Plenum,
1997.
73. Rouvray, D. H. In Mathematical and Computational Concepts in Chemistry; Trinajstic, N., Ed.; Ellis
Horwood: Chichester, 1986, 295.
74. Hansen, P. J.; Jurs, P. C. J. Chem. Educ. 1988, 65, 574.
75. Randic, M. Encyclopedia of Computational Chemistry; New York: John Wiley & Sons, 1998.
76. Kier, L. B.; Hall, L. The electrotopological state: structure modeling for QSAR and data base analysis
In Topological Indices and Related Descriptors in QSAR and QSPR; Devillers, J., Balaban, A. T., Eds.;
Gordon and Breach Sci. Pub.: Amsterdam, 1999, 491.
77. Mokrosz, J. L.; Duszynska, B.; Strekowski, L. Pharmazie 1992, 47, 538.
78. Katritzky, A., R.; Gordeeva, E., V. J. Chem. Inf. Comput. Sci. 1993, 33, 835.
79. Balaban, A. T. J. Chem. Inf. Comput. Sci. 1992, 32, 23.
80. Wiener, H. J. Am. Chem. Soc. 1947, 69, 17.
81. Hosoya, H. Bull. Chem. Soc. Japan 1971, 44, 2332.
82. Balaban, A. T. Theor. Chim. Acta 1979, 5, 239.
83. Mohar, B.; Babic, D.; Trinajstic, N. J. Chem. Inf. Comput. Sci. 1993, 33, 153.
84. Gutman, I.; Mohar, B. J. Chem. Inf. Comput. Sci. 1996, 36, 982.
85. Ivanciuc, O.; Balaban, T. S.; Balaban, A. T. J. Math. Chem. 1993, 12, 309.
86. Diudea, M. V. J. Chem. Inf. Comput. Sci. 1996, 36, 535.
87. Diudea, M. V. J. Chem. Inf. Comput. Sci. 1996, 36, 833.
88. Platt, J. R. J. Chem. Phys. 1947, 15, 419.
89. Gutman, I.; Ruscic, B.; Trinajstic, N.; Wilcox, C. F. J. Chem. Phys. 1975, 62, 3399.
90. Kier, L. B.; Hall, L. H. J. Chem. Inf. Comput. Sci. 2000, 40, 792.
91. Randic, M. J. Am. Chem. Soc. 1975, 97, 6609.
92. Balaban, A. T. Chem. Phys. Lett. 1982, 89, 399.
93. Gálvez, J.; Garcia, R.; Salabert, M. T.; Soler, R. J. Chem. Inf. Comput. Sci. 1994, 34, 520.
94. Hall, L. H.; Kier, L. B. J. Chem. Inf. Comput. Sci. 1991, 31, 76.
95. Hall, L. H.; Kier, L. B. Quant. Struc.-Act. Relat. 1991, 10, 43.
96. Estrada, E.; Uriarte, E.; Montero, A.; Teijeira, M.; Santana, L.; De Clercq, E. J. Med. Chem. 2000, 43,
1975.
97. Estrada, E.; Molina, E. J. Chem. Inf. Comput. Sci. 2001, 41, 791.
98. Estrada, E. J. Chem. Inf. Comput. Sci. 1998, 38, 23.
Referencias bibliográficas .
Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR
99. Estrada, E.; Vilar, S.; Uriarte, E.; Gutierrez, Y. J. Chem. Inf. Comput. Sci. 2002, 42, 1194.
100. Gómez, C.; Martínez, J. A. Quimica Bioorgánica III. Estereoquímica, Conceptos basicos y
Aplicaciones; Mexico: Talleres Graficos del Instituto Politecnico Nacional, 1998.
101. Randic, M.; Razinger, M. J. Chem. Inf. Comput. Sci. 1996, 36, 429.
102. Wipke, W. T.; Dyott, T. M. J. Am. Chem. Soc. 1974, 96, 4834.
103. Schultz, H. P.; Schultz, E. B.; Schultz, T. P. J. Chem. Inf. Comput. Sci. 1995, 35, 864
104. Pyka, A. J. Liq. Chromatogr. Relat. Technol. 1999, 22, 41.
105. Pyka, A. J. Planar Chromatogr. Mod. TLC 1993, 6, 282.
106. Pyka, A. J. Serb. Chem. Soc. 1997, 62, 251.
107. Golbraikh, A.; Bonchev, D.; Tropsha, A. J Chem Inf Comput Sci 2001, 41, 147.
108. Gonzalez Diaz, H.; Olazabal, E.; Castanedo, N.; Sanchez, I. H.; Morales, A.; Serrano, H. S.; Gonzalez,
J.; de Armas, R. R. J Mol Model (Online) 2002, 8, 237.
109. Marrero-Ponce, Y.; Díaz, H. G.; Romero, V.; Torrens, F.; Castro, E. A. Bioorg. Med. Chem. 2004, 12,
5331.
110. Marshall, E. Science 1996, 272, 1730.
111. Grace, J. B. Science 1996, 275, 1861.
112. Hellberg, S.; Sjostrom, M.; Wold, S. Acta Chem Scand B 1986, 40, 135.
113. Hellberg, S.; Sjöström, M.; Skagerberg, B.; Wilström, C.; Wold, S. Acta Pharm. Jugosl. 1987, 37, 53.
114. Hellberg, S.; Sjostrom, M.; Skagerberg, B.; Wold, S. J Med Chem 1987, 30, 1126.
115. Jonsson, J.; Eriksson, L.; Hellberg, S.; Sjöström, M.; Wold, S. Quant. Struct. Act. Relat 1989, 8, 204.
116. Fauchere, J. L.; Charton, M.; Kier, L. B.; Verloop, A.; Pliska, V. Int. Pept. Protein. Res. 1988, 32, 269.
117. Sandberg, M.; Eriksson, L.; Jonsson, J.; Sjöström, M.; Wold, S. J. Med. Chem. 1998, 41, 2481.
118. Sandberg, M.; Sjöström, M.; Jonsson, J. J. of Chemometrics. 1996, 10, 153.
119. Randic, M.; Balaban, A. T. J. Chem. Inf. Comput. Sci. 2003, 43, 532.
120. Randic, M.; Vračko, M.; Nandy, A.; Basak, S. C. J. Chem. Inf. Comput. Sci. 2000, 40, 1235.
121. van de Waterbeemd, H. Chemometric Methods in Molecular Design (Methods and Principles in
Medicinal Chemistry); New York: John Wiley & Sons, 1995.
122. Alzina, R. B. Introduccion conceptual al análisis multivariable. Un enfoque informatico con los
paquetes SPSS-X, BMDP, LISREL Y SPAD; Barcelona: PPU, SA, 1989.
123. Norusis, M. J. Advanced Statistics Guide. SPSS-X; New York: McGraw-Hill, 1985.
124. Belsey, D. A.; Kuh, E.; Welsch, R. E. Regression Diagnostics; New York: Wiley, 1980.
125. STATISTICA version. 6.0 Statsoft, I.;Tulsa.