“Molecular-Graph’s Derivatives like a Robustness Source to

Facultad de Química-Farmacia Departamento de Licenciatura en Química

Año del 50 Aniversario del Triunfo de la Revolución

“Derivada del Grafo Molecular como una Novedosa Vía para la Generación de Descriptores Moleculares 2D/3D:

Teoría y Aplicación QSPR”

“Molecular-Graph’s Derivatives like a Robustness Source to obtain new 2D/3D Molecular Descriptors:

Theory and QSPR Application”

Autor: Oscar Martínez Santiago

Tutores: Prof. Aux., Lic. Yovani Marrero Ponce, Dr. C.

Prof. Tit., Lic. Enrique R. Molina Pérez, Dr. C.

2009

Âj{xÇ çÉâ ÜxtÄÄç ãtÇà áÉÅxà{|Çz àÉ {tÑÑxÇ? à{x ã{ÉÄx âÇ|äxÜáx vÉÇáÑ|Üxá áÉ à{tà çÉâÜ ã|á{ vÉÅxá àÜâxÊ

Paulo Coelho, “The Alchemist”

En la vida de cualquier ser humano existen personas sin las cuales, ese tránsito extasiado y efímero por el mundo no tiene sentido. Yo no soy la excepción y por eso quiero hacer un merecido y sencillo homenaje a las principales personas que conspiran (o alguna vez lo hicieron) para que yo tenga sueños realizables. A todas ellas quiero dedicar el fruto del árbol, que algunos de ellos sembraron en mi y otros cultivaron, para que yo pudiera alimentarme de su sabia maravillosa que no es más que amor, ciencia y poesía. Dedico esta tesis a: Mi Madre

Tania E. Santiago Carlos Gracias por existir y ser fuente de inspiración para todo lo que hago en la vida. Gracias por los sacrificios y desvelos que has tenido para no preocuparme y facilitarme la vida. Espero nunca defraudarte y que siempre estés orgullosa de mi. Gracias por todo… A la memoria de tres mujeres excepcionales:

Mi tía Isabel Mis abuelas Ángela y Angelina

Que hicieron del niño un joven de bien. Me brindaron todo el cariño y la seguridad a la que un ser humano puede aspirar y aun viven conmigo guiando cada uno de mis pasos en la vida, pues sus enseñanzas amanecen conmigo en todas las auroras de mi vida. A mis Hermanos:

Carlos E. Ventura Santiago Rayner Martínez Borroso

Quisiera ser para ellos un ejemplo a seguir. Ojalá y siempre perciban lo importante que son para mí. Al mejor de mis mejores amigos:

Carlos A. Ventura Torres Gracias por escuchar mis problemas y la mayor parte de las veces solucionarlos. Gracias por quererme como a un hijo. Espero no fallarte nunca. A mi novia:

Gretel León Platero Por su paciencia, su amor y sobre todo su apoyo, sin el cual no habría superado muchos momentos difíciles de mi vida académica y personal. A mi papá:

Oscar Martínez Borges Para que se sienta siempre orgulloso de mí. A mi abuelo:

Cesar Santiago Suástegui Por su apoyo siempre que lo he necesitado y sus sabios consejos. A mis tías y tío:

Nancy Santiago Carlos, Yuliet Martínez Mena y Vladimir Santiago Carlos Por su cariño incondicional, su presencia y apoyo en todos los momentos de mi vida. A otras personas importantes:

Mis primas y primos Mantengamos siempre la misma unión y que el cariño y la confianza siempre medien entre nosotros como hasta ahora. A mis amigos:

Yoan Hidalgo Rosa, Alexey Díaz Gómez y Ariel García Tamayo A ellos también gracias por ser como hermanos para mí y siempre comportarse como tal. Por estar a mi lado siempre que los he necesitado, en los buenos y malos momentos, a los tres muchas gracias.

Muchas personas han sido cómplices del desarrollo de este trabajo y de mi vida científica, estudiantil y académica. A todos “MUCHAS GRACIAS”. Muchas Gracias a: Mis Tutores:

Dr. Yovani Marrero Ponce Por brindarme su amistad y conocimientos, para guiarme en el apasionante mundo de la investigación científica. Por hacer de mí, un joven con gran amor por las ciencias y una incalculable curiosidad y deseos de vencer los distintos retos que pone el conocimiento científico en las mentes humanas.

Dr. Enrique R. Molina Pérez Por su amistad y apoyo incondicional. Además de abrirme la puertas al hermoso mundo de las investigaciones en la Química Teórica y el Diseño de Fármacos. Mis Amigos y Compañeros de Estudios:

Lisdelys Rodríguez, Yoslainy Echevarría, Manuel A. Treto, Luis M. Peralta, Yoan Hidalgo, Reinier Tumbarell.

Por acompañarme en los buenos y malos momentos de mi vida universitaria. Por servir de sostén y contraparte a mis ideas, como yo lo he sido con ellos. Porque todos somos un pequeño pero muy unido grupo de hermanos(as) sin lazos sanguíneos. Mis profesores: Por el ejemplo y la dedicación con que depositaron en mí los más actuales y refinados conocimientos de Química y otras ciencias vitales para desempeñarme como un buen profesional. Mis compañeros del CAMD-BIR Unit: Por su ayuda y colaboración siempre que la he necesitado. Aun quedan muchas personas que han aportado su grano de arena para que este trabajo haya llegado a feliz término y este día sea realmente memorable para mí. No menciono nombres para no caer en la obligación de dar una prioridad o peor aun, olvidar a alguien. Todos ellos saben quienes son, a ustedes “mucha gracias”.

La gratitud es el más legítimo pago al esfuerzo ajeno, es reconocer que todo lo que somos, es la suma del sudor de los demás. Que un hombre solo no vale nada, y que la dependencia humana, además de necesaria, es hermosa.

José Martí

SINTESIS

En el presente trabajo se ha propuesto una novedosa metodología matemática para describir la

estructura molecular obteniéndose así toda una nueva familia de descriptores moleculares topológicos. Este enfoque se basa en una representación matricial del grafo molecular y en el cálculo de las correspondientes derivadas del grafo para n-uplas de elementos, así como derivadas de orden superior y mixtas. En esta primera aplicación se utilizan las derivadas para duplas basadas en átomos (pares de átomos) a partir de las cuales se obtienen las correspondientes derivadas totales-locales para cada átomo que sirven de base para el cálculo de Normas de Minkowski y Geométricas de cada molécula. Estas normas permiten establecer correlaciones entre la estructura de los compuestos, con diferentes propiedades de los mismos (químicas, físicas, químico-físicas y biológicas, etc). Estos nuevos índices han sido definidos también teniendo en cuenta el orden y tipo de subgrafos utilizados para generar la matriz de Incidencia Generalizada “Q” (matriz utilizada en este enfoque para representar la topología molecular y aplicada por primera vez en la definición de un descriptor molecular), además de la posibilidad que brindan de ser aplicados tanto de forma total como local para átomos o agrupaciones atómicas específicas. Esta gama de posibilidades mencionadas nos abren las puertas a la creación de nuevas familias de descriptores moleculares, utilizando la derivada del grafo molecular, y nos permite contar con una nueva herramienta de utilidad práctica para la realización de estudios QSAR/QSPR/QSTR.

Los descriptores a los cuales está dedicado este trabajo, fueron implementados en un programa desarrollado en MATLAB, que aunque esta en una fase inicial, permite al investigador realizar cálculos teóricos en un tiempo relativamente corto y con un bajo costo computacional. Esta primera aplicación ha demostrado, hasta el momento, que estos descriptores moleculares (DMs) son útiles para el diseño molecular y permiten obtener modelos matemáticos más sencillos, interpretables y robustos que muchos de los que han sido descritos en la literatura. En el futuro se desarrollarán otras aplicaciones de los nuevos índices aplicados a otros problemas más complejos de la química-médica actual. En este sentido, los nuevos índices de derivada se han utilizado para modelar varias propiedades químico-físicas de una serie de octanos, obteniéndose resultados satisfactorios para todas las propiedades modeladas. También se obtuvieron buenos modelos (R2 = 99.5 % y s = 2.24) en la descripción de la temperatura de ebullición de 28 alcoholes alifáticos, que han sido utilizados previamente por otros autores. Se realizó un estudio para conocer como se comportan determinados parámetros durante la descripción matemática de la estructura molecular y que nos ayudan a interpretar mejor los resultados obtenidos. Estos estudios se basaron en conocer: 1) mejor ponderación 2) mejor orden y 3) mejor norma, para la descripción de propiedades químico-físicas como la temperatura de ebullición de alcoholes alifáticos. Resultando la electronegatividad según la escala de Mulliken la mejor ponderación utilizada y el orden 1 el mejor orden para describir esta propiedad. Las Normas ofrecieron resultados muy semejantes todas. Además se desarrolló un proceso de interpretación con el objetivo de conocer el tipo de información químico-física que recoge esta novedosa metodología matemática durante la descripción estructural de las moléculas, comprobándose que existe una gran linealidad entre la información estérica y electrónica de las moléculas con esta descripción.

El resultado de la comparación con otros métodos resultó muy satisfactorio. Esta y otras aplicaciones (todavía en proceso) validan hasta el momento la aplicación de este novedoso método teórico, para ser usado en el diseño “racional” automatizado de fármacos y otras aplicaciones de la química-física.

GLOSARIO 2D Bidimensional 3D Tridimensional ANOVA Análisis de Varianza CoMFA Comparative Molecular Field Analysis Fexp Razón de Fisher experimental IDGM Índices de Derivada del Grafo Molecular ITs Índices Topológicos LGO Procedimiento de validación interna cruzada ‘leave-group-out’ LNO Procedimiento de validación interna cruzada ‘leave-n-out’ LOO Procedimiento de validación interna cruzada ‘leave-one-out’ MAE Error medio absoluto MON Número motor de octanos NEM Nueva Entidad Molecular

q2 Coeficiente de correlación al cuadrado del procedimiento de validación cruzada LOO

QSAR Quantitative Structure Activity Relationships QSTR Quantitative Structure Toxicity Relationships QSPR Quantitative Structure Property Relationships R Coeficiente de correlación R2 Coeficiente de determinación o coeficiente de correlación al cuadrado s Desviación estándar scv Desviación estándar del procedimiento de validación cruzada LOO Te Temperatura de ebullición VC Validación cruzada

)(XYPΔ Derivada LT de orden “Y” para el átomo “X”, usando ponderación “P”

ZY

PX Norma “p” de Minkoswki (p = 1,2,3 … n)

YPξ Norma geométrica de orden “Y”, usando ponderación “P”

“No hay que pedirle precisión filosófica en el lenguaje que es lo que la educación añade al genio; pidámosle inspiración que es lo que da el genio”

José Martí

Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR

1. INTRODUCCIÓN

Entre los aspectos más interesantes y útiles de la Química está su capacidad de crear nuevas moléculas

desconocidas por el hombre, con enormes aplicaciones a distintas esferas de la vida humana. Actualmente

existen mas de 26 millones de compuestos conocidos, y aunque un gran número de estos (>1, 000, 000) está

disponible en diferentes bases de datos químicas, una gran cantidad de estos compuestos no ha encontrado aun

aplicaciones farmacológicas, agroquímicas, industriales o de algún otro tipo. Los elevadísimos costos (más de

800 millones de dólares)1 que presentan los métodos tradicionales de ‘prueba y error’ para la obtención de

Nuevas Entidades Moleculares (NEM) y su baja efectividad [se necesita ensayar sobre 10 mil compuestos, de

los cuales sólo 10 pasaran los ensayos y solo uno llega a convertirse en medicamento útil en terapéutica],2, 3

han dirigido la atención de los investigadores hacia soluciones mucho más asequibles, rápidas, económicas y

efectivas. Debe señalarse, además; que el tiempo transcurrido, desde que se sintetiza el principio activo hasta

que se introduce en el mercado, es de 12 a 15 años y que 7 de cada 10 medicamentos no recupera su costo.3

Notemos que este tipo de ensayos experimentales no solo tienen altos costos en términos de recursos

materiales, humanos y de tiempo, sino que debemos tener en cuenta también el aspecto de tipo ético que

conlleva la investigación con animales y su posterior sacrificio. En todo caso, nuevos paradigmas para el

descubrimiento molecular han sido introducidos recientemente, por las principales industrias farmacéuticas,

basados en el uso de grandes bibliotecas de compuestos químicos y de sistemas robóticos para realizar ensayos

biológicos.4, 5 De tal modo los sistemas HTS (acrónimo de High-Throughput Screening), permiten la síntesis y

ensayo de miles de compuestos cada día pero representa un costo inalcanzable para la mayoría de los países.4, 6

Por todo lo antes mencionado, la industria Farmacéutica ha reorientado las estrategias de búsqueda hacia

métodos que permitan la identificación y la optimización de nuevos compuestos líderes de un modo efectivo

(en el menor tiempo posible y a un costo razonable). En este sentido, el enfoque de diseño/descubrimiento de

fármacos asistido por computadoras ofrece una alternativa al mundo real de síntesis y evaluación.7 Este

procedimiento engloba todas las técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y

optimización de compuestos con propiedades deseadas8 y ha jugado un rol fundamental en el desarrollo de un

número de fármacos que están ahora en el mercado.9 Este tipo de estudio se basa en el uso de un mundo

“virtual” de hipótesis, generadas por computadoras y probadas en la práctica. Este tipo de procedimiento ‘in

sílico’ evita los procesos actuales de síntesis y bioensayos, los cuales se hacen solamente después de la

exploración de los conceptos iniciales con modelos computacionales.7 Por tanto, podemos plantear que los

estudios QSAR/QSPR/QSTR (siglas en inglés acrónimos de Quantitative Structure Activity/Property/Toxicity

Relationships) se han convertido en una importante área de investigación en la química computacional y

teórica.10, 11 Este tipo de estudios se encuentra en la intersección entre la biología, la química, la matemática y

la computación, tienen dos objetivos fundamentales. El primero: brindar una vía para estimar, con un aceptable

grado de precisión, la actividad/propiedad/toxicidad estudiada a nuevos compuestos. El segundo: es obtener

una interpretación en términos estructurales de la actividad/propiedad/toxicidad estudiada.

El paradigma enarbolado en los estudios QSAR/QSPR/QSTR (en lo adelante se utilizará solo el término

QSAR) está relacionado con el hecho de que las propiedades físicas, físico-químicas, químicas, biológicas y

toxicológicas de los compuestos orgánicos dependen en último termino de la estructura molecular.12, 13

Existen muchos parámetros químico-físicos de las moléculas que son una expresión cuantitativa de la

estructura molecular, también dicha estructura puede ser descrita usando diferentes métodos y estrategias

matemáticas. Estas descripciones de las moléculas son conocidas como índices o descriptores moleculares

(DMs) y los resultados numéricos por ellos expresados pueden ser relacionados estadísticamente con

determinadas propiedades (actividades) moleculares y en estudios de similitud/disimilitud molecular.

Capítulo 1 Introducción


12

En la actualidad, existe un gran número de descriptores moleculares que pueden ser usados en estudios

QSAR.14 Los descriptores moleculares son ‘términos que caracterizan un aspecto específico de una molécula’

y contienen información estructural derivada de la representación estructural de las moléculas bajo estudio.8 La

naturaleza de los descriptores, depende de cual haya sido el proceder utilizado para la definición de los

mismos, pudiendo tener en cuenta rasgos topológicos (2D), geométricos (3D), electrónicos de las moléculas,

etc. Algunos de estos descriptores sin embargo, tienen ‘más información’ de propiedades físico-químicas que

de los rasgos estructurales de la molécula. Estos incluyen los basados en la determinación experimental de

propiedades físico-químicas, tales como la mayoría de las constantes de los sustituyentes, hidrofóbicas,

electrónicas y estéricas.15 En contraste, los llamados índices topológicos (ITs) tienen la información estructural

contenida en una representación bidimensional de las moléculas (generalmente el grafo molecular con los

átomos de hidrógenos suprimidos) sin considerar ningún rasgo físico-químico de las moléculas.16, 17 La

mayoría de estos índices pueden considerarse como descriptores estructurales explícitos. Otro grupo de

descriptores, llamados químico-cuánticos describen rasgos electrónicos de las moléculas basados en el uso de

la función de onda molecular. Los descriptores geométricos tienen información de los rasgos estructurales 3D

de las moléculas en una vía explícita,18 tales como distancia y ángulos de enlaces o en una vía implícita, en

forma de descriptores topográficos.19

Los ITs han comenzado a ocupar un lugar importante dentro del conjunto de descriptores moleculares

utilizados en los estudios QSAR, siendo probablemente el diseño/descubrimiento de nuevos compuestos

bioactivos, una de las más activas áreas de investigación donde se aplican estos descriptores a problemas

biológicos.13, 17, 20-39

Con el objetivo de desarrollar procesos mas ‘racionales’ de investigación en el diseño de fármacos o en

la modelación de otras propiedades de interés, la definición de nuevos descriptores moleculares40 es un campo

prometedor en la química médica actual. En nuestra universidad existen diferentes grupos de investigación que

han desempeñado un papel relevante en ese sentido, los cuales dirigen sus investigaciones al desarrollo de

nuevos principios activos para la industria farmacéutica en las ramas de la medicina veterinaria, humana y la

sanidad vegetal. Uno de estos grupos ha sido el Grupo de Modelación Molecular y Diseño de Fármacos

(MSDD, por sus siglas en inglés) del Centro de Bioactivos Químicos (CBQ); en este grupo existe una tradición

en el uso de métodos basados en la teoría de grafos, en la que se utilizan aproximaciones muy eficientes de

representación de la estructura molecular, implementadas en varios paquetes computacionales, entre los que se

destacan el MODEST (MOlecular DESing Tool) y el TOSS-MODE (TOpological Sub-Structural

MOlecular DEsing). Otro grupo, perteneciente a la Facultad de Química y Farmacia de la propia universidad,

que presenta resultados relevantes en este campo es el Grupo de Descubrimiento Molecular Asistido por

Computadora e Investigaciones Bioinformáticas (CAMD-BIR Unit, por sus siglas en inglés). Estos grupos han

orientado sus investigaciones hacia la utilización de diferentes métodos para los estudios QSAR, priorizando el

desarrollo y aplicación de nuevos descriptores grafo-teóricos para el diseño molecular de compuestos

orgánicos potencialmente bioactivos.23-39

Teniendo en cuenta lo planteado anteriormente, fueron definidas recientemente tres nuevas familias de

ITs a partir de la aplicación de conceptos de la matemática discreta y el algebra lineal a la química.31-34 Estos

descriptores están basados en el cálculo de formas cuadráticas, lineales y bilineales; los que por su analogía

con las mismas, han sido denominados como índices cuadráticos, lineales y bilineales moleculares,

respectivamente. Estos ITs han sido aplicados en diversos estudios QSAR/QSPR con resultados

satisfactorios.31-35, 37, 41 Estos nuevos DMs fueron generalizados para ser utilizados en estudios que involucren



13

bio-macromoléculas, tales como ácidos nucleicos y proteínas; obteniendo resultados superiores a los obtenidos

por otros enfoques.42, 43

Sin embargo, no siempre estos y otros índices utilizados, muestran un desempeño totalmente

satisfactorio para la predicción de ciertas propiedades. De hecho no se puede esperar que un conjunto

específico de índices sea superior absolutamente a otros conjuntos posibles y/o pueda producir buenos

resultados en todos los problemas. Por ello, consideramos adecuado proponer un nuevo enfoque para la

obtención de nuevas familias de ITs 2D, útiles para el diseño molecular y para los estudios QSPR/QSAR, que

posibiliten realizar una descripción adecuada de las moléculas y de esta forma contar con una nueva

herramienta para el estudio químico-físico-matemático de las sustancias, su estructura, sus propiedades y sus

posibles transformaciones, aspectos que resultan de primordial interés para los químicos teóricos, sintéticos y

médicos. Además pueden ser aplicados en la solución de diferentes problemas de corte tecnológico: 1) en la

industria química de nuevos materiales, 2) industria alimentaría, 3) industria farmacéutica, por solo citar

algunos. En esta última (industria farmacéutica) han sido aplicados satisfactoriamente muchos ITs, los cuales

posibilitan obtener, con un gasto mínimo de recursos y en el menor tiempo posible candidatos a fármacos con

grandes posibilidades de llegar a convertirse en un medicamento de prescripción clínica.

La mayor parte de los ITs utilizados actualmente han sido definidos de forma global (ver capítulo 2), lo

cual es una gran limitación pues muchas propiedades/actividades de las moléculas dependen de una

combinación de aspectos locales y totales de la estructura molecular, más que con solo rasgos globales de la

molécula. La definición local de los ITs (para un determinado fragmento o núcleo base, átomo o grupo de

átomos en una molécula) es una de las 13 propiedades deseadas para un nuevo índice propuesta por Randic.67

Es válido destacar, además, que la mayor parte de los ITs han sido definidos a partir de la matriz de adyacencia

y de distancia topológica (ver capítulo 2), mientras que la matriz de incidencia (ver capítulo 2) nunca ha sido

utilizada para la generación de ITs. Las dos primeras matrices han sido utilizadas con el propósito de generar

nuevos índices y tienen propiedades interesantes que han favorecido su uso con este propósito. Así por

ejemplo, los principales ITs definidos hasta el momento hace uso de ellas (momentos espectrales, índices de

Randic y de valencia, el índice del estado electrotopológico, el descriptor de Wiener, etc) o de una

combinación de las mismas, como es el caso de los índices de carga (para más información ver capitulo 2). En

contraste, la matriz de incidencia posee características no deseadas (ej., no cuadrada y asimétrica) para los

químicos matemáticos y no ha sido fuente de ninguno de los ITs definidos hasta el momento. Esta matriz será

usada en este trabajo como fuente de nuevos ITs, como será mostrado a lo largo del presente reporte.

Por todo lo anterior se plantea el siguiente problema científico:

Los descriptores moleculares existentes en la actualidad no posibilitan siempre una descripción

totalmente adecuada de la estructura molecular y es necesario definir nuevos DMs bidimensionales (2D), que

recojan nuevos contenidos de información y permitan describir y/o estimar diferentes propiedades químico-

físicas y biológicas de compuestos orgánicos y así posibiliten el estudio de sistemas químicos con un gasto

mínimo de recursos materiales y tiempo, además de abrir una puerta a nuevas posibles interpretaciones

químico-físicas de los fenómenos naturales y de laboratorio.

Como vía para solucionar el problema científico se formula la siguiente hipótesis:

Es posible aplicar conceptos de la Matemática Discreta y el álgebra lineal a la química para definir

nuevas familias de descriptores moleculares con contenidos de información diferentes a los existentes y que



14

puedan ser utilizados en el diseño ‘racional’ de fármacos y otras aplicaciones destinadas a otros sectores

(puramente químico, alimentario, industrial, etc).

Para demostrar la anterior hipótesis y dar respuesta al problema científico planteado, se proponen los

siguientes objetivos:

Objetivo general

Definir, implementar computacionalmente, interpretar en términos estructurales y químico-físicos así

como aplicar en estudios QSPR una nueva familia de descriptores moleculares 2D basados en la aplicación de

conceptos de la matemática discreta y el álgebra lineal a la química y que ayuden a resolver – o al menos

resolver mejor – problemas de predicción de propiedades físicas, química, químico-físicas y biológicas de

nuevos compuestos.

Objetivos específicos

Definir un suceso generado por un modelo que devenga en la confección de una matriz de incidencia

que lo describa.

Definir total y localmente nuevos DMs basados en el concepto de Derivada de un Grafo Molecular

(usando la matriz de incidencia generalizada, para cada orden y/o tipo de sub-grafo).

Implementar computacionalmente los nuevos índices.

Realizar una interpretación químico-física y en términos estructurales de los nuevos índices

propuestos.

Aplicar una de las nuevas familias de ITs al diseño molecular mediante la realización de estudios

QSPR comparativos, que permitan validar la calidad de los nuevos ITs.

La novedad científica de este trabajo está fundamentada en la definición de una nueva familia de ITs,

basados en el cálculo de derivadas del grafo molecular (para átomos y enlaces) respecto a un suceso prefijado.

En el mismo se utilizan, por primera vez, las matrices de incidencia de subgrafos moleculares (generalizada

para átomos y enlaces) y de frecuencia de relaciones en la definición de un ITs. Esta invariante grafo-teórica

ha sido extendida para derivadas de n-uplas, de orden superior y mixtas, conformando así una nueva familia de

ITs. Finalmente, los DMs totales y locales (para grupos de átomos o enlaces) se definen usando las Normas 1,

2 y 3 de Minkowski y la Norma Geométrica, a partir de vectores conformados por ITs atómicos.

En esta tesis se realizan los siguientes aportes:

Aporte Teórico: Se definen nuevos índice usando una nueva invariante grafo-teórica, basada en el

cálculo de las Derivada del Grafo, para lo cual se definen nuevas representaciones matriciales

nunca antes utilizadas en la generación de un ITs, tales como las matrices de incidencia, de

incidencia generalizada y de frecuencia de relaciones. Este DMs ha sido definido de forma local

(para átomos o agrupaciones atómicas) y total (considerando toda la molécula) para lo cual se

introduce el uso de las Normas 1, 2 y 3 de Minkowski y Geométrica [estas normas pueden

recoger información de todos los átomos de la molécula (descriptor global) o de agrupaciones

atómicas determinadas (descriptores locales)].

Aporte Práctico: Se desarrolló un programa en MATLAB, capaz de calcular de forma rápida y

automatizada los valores de las derivadas de las moléculas representadas como grafos

moleculares. Se realizaron aplicaciones en la modelación de propiedades químico-físicas de



15

compuestos orgánicos demostrándose las potencialidades de estos índices para estudios

QSPR/QSAR y el diseño de fármacos.

Aporte Metodológico: Se plantea una metodología matemática novedosa para la descripción

estructural de las moléculas orgánicas, basada en el cálculo de derivadas del grafo usando un

suceso prefijado. Por tanto, nuevos sucesos generaran nuevas ITs al generar nuevas matrices de

incidencia y sus respectivas matrices de frecuencia. Además el uso de normas para obtener índices

globales (y también locales) a partir de contribuciones atómicas también puede ser usado por otros

índices definidos localmente constituyendo nuevas invariantes moleculares totales (y locales, para

átomos del mismo tipo, etc).

"Podrán morir las personas, pero jamás sus ideas."

Ernesto Che Guevara


2. QUÍMICA GRAFO-TEÓRICA y MÉTODOS ESTADÍSTICOS (QUIMIOMÉTRICOS) EN EL

DISEÑO MOLECULAR

2.1. Química Grafo-Teórica y Topología Molecular en el Diseño Molecular

2.1.1. Introducción a la Química Grafo-Teórica y a la Topología Molecular

La teoría de grafos ha sido ampliamente aplicada a diversos campos de la ciencia.1 Un grafo se expresa

usualmente como vértices interconectados por aristas.1, 2 Donde cada vértice del grafo se representa un objeto y

la arista que conecta dos vértices representa la relación entre estos dos objetos. En la química grafo-teórica los

objetos del grafo pueden representar orbitales, átomos (o sus núcleos), enlaces, grupos de átomos, moléculas, o

colecciones de moléculas. Las aristas de un grafo químico simbolizan las interacciones entre objetos químicos

y se usan para definir enlaces químicos, reacciones, mecanismos de reacciones, modelos cinéticos, u otra

relación o transformación de los objetos químicos. En la literatura existente sobre la química grafo-teórica y

sus aplicaciones;3-7 podemos encontrar la mayoría de las principales aplicaciones de los grafos químicos, como

son: 1) los índices topológicos (ITs) y otros índices estructurales para los estudios QSAR;8-16 2) el enfoque de

orbitales moleculares de Hückel;17, 18 3) la enumeración de isómeros, percepción de simetría estructural y

codificación de compuestos químicos;19-21 4) grafos cinéticos y de reacción;22 y 4) el diseño de síntesis asistida

por computadora.23

De todas estas aplicaciones mencionadas, la de interés para el presente trabajo es aquella relacionada con

la obtención de descriptores estructurales para el diseño molecular. Por tanto, antes de realizar un análisis de

los resultados más importantes reportados en la literatura en el campo de la química grafo-teórica y en especial

del uso de descriptores moleculares basados en la teoría de grafos en los estudios QSAR, daremos una breve

reseña de la teoría de grafos en donde enunciaremos una serie de conceptos y términos matemáticos que serán

utilizados en el desarrollo de esta tesis y que son imprescindibles para la comprensión de los resultados tanto

de la literatura como los alcanzados en el presente trabajo.

2.1.2. Representación topológica de moléculas.

La representación topológica de un objeto es aquella que brinda información sobre el número de

elementos que lo componen y sus conectividades. En ese sentido, se define a la topología como aquella parte

del álgebra que estudia las posiciones e interconexiones de los elementos dentro de un conjunto.24 Si la

topología es aplicada a las moléculas, da lugar a la topología molecular. Por tanto, consideremos en este

trabajo que una representación topológica de una molécula puede ser obtenida utilizando un grafo molecular.

A continuación se darán algunas de las principales definiciones en teoría de grafos.

2.1.3. Los grafos, conceptos generales sobre los mismos.

Ante todo, comenzaremos por introducir matemáticamente el concepto de grafo. Sea V un conjunto

finito de vértices y E el conjunto de aristas que unen pares no ordenados de los elementos de V. En términos

matemáticos un grafo es definido como G = (V, E).1, 4 El número de vértices en un grafo es designado como n

y el número de aristas por m. Otra de las formas de definir un grafo es la siguiente: consideremos un conjunto

no vacío V = {vi / i =1, 2,…,n}, un conjunto no vacío E = {ei / i =1, 2,…,m} y una aplicación θ, la cual asocia a

cada elemento de E con un par no ordenado de elementos de V. Esta aplicación es denominada la aplicación de

incidencia asociada con un grafo y le da singularidad al grafo para un conjunto V dado. Por tanto, para cada ei

existe un par no ordenado [vi, vj] tal que θ(e) = [vi, vj]. En este caso los dos conjuntos E y V junto con la

aplicación θ forman un grafo.

Sin embargo, con el propósito de obtener una representación más real de la topología de la molécula,

nosotros necesitamos identificar los diferentes átomos en la misma, lo cual es posible ‘etiquetándolos’ con sus

Capitulo 2 Química Grafo-Teórica y Métodos Quimiométricos en el Diseño Molecular

símbolos químicos o con una significación característica, la cual denominaremos “peso” del átomo. Entonces,

el grafo se transformaría en un grafo ‘etiqueteado’ o ponderado. En este sentido, a cada vértice vi del grafo G

= (V, E) le podemos adicionar en correspondencia el peso wi de un conjunto de pesos W = {wi / i =1, 2, …}.

Como resultado obtenemos un conjunto de los vértices ponderados {(vi,wi) / i =1, 2, …, n}, con ello, no hace

falta que todos los pesos sean distintos. De la misma forma, podemos poner el peso pi del conjunto de pesos P

= {pi / i =1, 2, …} en correspondencia a cada elemento del conjunto E. Como resultado obtenemos un

conjunto de las aristas ponderadas {(ei,pi) / i =1, 2,…,m}; además, no hace falta que sean distintos todos los

pesos.25

Si en G hay pares repetidos (aristas múltiples, o sea vértices que están unidos por más de una arista),

entonces el grafo G se llama grafo con aristas múltiples o multigrafo. Las aristas de la forma {Balaban, 1998

#43}, se denominan lazos o bucles. Si en G hay lazos (pueden también existir aristas múltiples), entonces el

grafo G se llama grafo con lazos o pseudografo (ver Figura 1).

A CB

Figura 1. A) Grafo simple; B) Multigrafo; y C) Pseudografo

En este trabajo usaremos pseudografos, por ser la condición más general de los grafos, los cuales pueden

ser orientados o no orientados. Los pseudografos serían orientados si los pares de vértices fueran ordenados.

En el trabajo actual solo usaremos pseudografos no orientados, por lo que las definiciones que a continuación

daremos, están relacionadas con la teoría de pseudografos (se sobrentiende pseudografos no orientados). Estas

definiciones de los términos más utilizados en los grafos moleculares son muy útiles para describir varias

características estructurales de estos.1, 4, 26, 27

Si ak = {vi, vj} es una arista, entonces los vértices vi, vj, se llaman extremos de la arista ak.

Si los vértices vi y vj son los puntos finales de ei se denota como ei∼[vi, vj], lo que se lee como ‘ei es incidente

con vi y vj’ (enlace que los une).

Los vértices vi, vj se llaman adyacentes si existe una arista ak tal que ak = {vi, vj}∈ V, (o sea, si existe una

arista que los une). Dos aristas se denominan adyacentes si ellas tienen un vértice en común.

En un multigrafo, el grado del vértice vi [δ(vi)] es el número de aristas del multigrafo que son incidentes

al vértice vi. En un pseudografo, el grado del vértice vi es igual al número total de aristas (que no sean lazos)

incidentes a este vértice, más el número de lazos incidentes a él.

Un camino (P) es una sucesión de aristas con vértices comunes. La longitud (l) de un camino es el

número de aristas del mismo. Así por ejemplo, camino de longitud cero (PP

0) es una sucesión de vértices que

contiene solo un vértice.

Un subgrafos es una sección del grafo, subestructura o parte de este. Kier y Hall45 clasifican los

subgrafos según su orden o tipo. Así los subgrafos pueden clasificarse como path (camino, senda) si todos los

vértices tienen grado menor o igual a dos, si todos los vértices poseen grado superior a dos, entonces se

clasifica como cluster (grupo) y si existen vértices que cumplan con una gama variada de grados (menores y

mayores que dos) en el mismo subgrafo, entonces estamos en presencia de un subgrafo de tipo path-cluster. Si

el subgrafo es cíclico se dice que es de tipo chain. El orden de un subgrafo viene expresado por el número de

aristas que este posea.


18


2.1.3.1. Empleo de matrices para representar grafos moleculares.

Los grafos moleculares son ampliamente usados para representar la estructura química de compuestos

orgánicos. Sin embargo, los grafos moleculares son una representación no numérica de la estructura química; y

la obtención de los descriptores moleculares para nuestros propósitos requieren una descripción numérica de

los grafos moleculares. Los grafos pueden representarse matricialmente en forma algebraica.8, 28, 29 La

descripción numérica de la estructura de los compuestos químicos, es esencial para la manipulación

computacional de las moléculas y para los cálculos de los índices moleculares que de ella se derivan. Así por

ejemplo, la matriz de adyacencia A = A(G) del grafo G con n vértices, es la matriz cuadrada simétrica nxn y

los elementos [A]ij se definen de la siguiente forma:

[A(G)]ij = 1 si i≠j y eij ∈ E

= 0 si i=j o eij ∉ E

donde E representa el conjunto de las aristas de G. En la matriz de adyacencia A(G) la fila i y columna i

corresponden al vértice vi de G. Como un ejemplo sencillo, en la Figura 2 se muestra el grafo molecular y la

matriz de adyacencia del 1-etil-2-metil-ciclopropano.

Una propiedad interesante de A(G) viene dada por el hecho de que la matriz Ak(G) da el número de

caminos unitarios de longitud k que unen los vértices vi y vj. Esto permite interpretar los elementos aij como el

número de caminos unitarios, de orden (longitud) k, entre los vértices vi y vj (ver Figura 2).

1

23

45

6

100000010000001000000100000010000001

6

5

4

3

2

1

654321

0

vvvvvv

vvvvvv

A =

010000101000010110001010001101000010

6

5

4

3

2

1

654321

1

vvvvvv

vvvvvv

A =

101000020110103111011211011130001101

6

5

4

3

2

1

654321

2

vvvvvv

vvvvvv

A =

Figura 2. Grafo molecular y matrices de adyacencia de la molécula de 1-etil-2-metil-ciclopropano.

La matriz de adyacencia A(Gw) del grafo molecular G con vértices y aristas ponderadas (con n vértices)

es la matriz simétrica nxn (cuadrada) y los elementos [A (w)]ij se definen de la siguiente forma:29

[A(Gw)]ij = V(w)wi si i=j

= E(w)wij si eij ∈ E

= 0 si eij ∉ E

donde V(w)wi es el peso del vértice vi, E(w)wij es el peso de la arista eij, y w es un determinado peso o etiqueta

que se utilice para computar Vw y Ew.

La matriz de distancia D = D(G) de un grafo G con n vértices, es la matriz simétrica nxn (cuadrada) y los

elementos [D]ij se definen de la siguiente forma:8, 28

[D]ij = dij si i≠j

= 0 si i=j

donde dij es la longitud del camino más corto entre los vértices vi y vj de G. Por ejemplo, la matriz de distancias

topológicas entre vértices del grafo molecular de la molécula de 1-etil-2-metil-ciclopropano (ver Figura 2) se

representa en la Figura 3.


19


012334101223210112321012321101432210

6

5

4

3

2

1

654321

vvvvvv

vvvvvv

D =

Figura 3. Matriz de distancias topológicas entre vértices de la molécula de 1-etil-2-metil-ciclopropano.

Para un grafo G, se define la matriz diagonal, DEG = DEG(G), donde la entrada i-ésima es igual al

grado del vértice vi, δi y todos los demás elementos son iguales a cero.

Matriz de incidencia: para un grafo G, con una ordenación de vértices (v1, v2, … vn) y aristas (e1, e2, … em),

entonces la matriz de incidencia del grafo para esa ordenación es la matriz de n filas y m columnas ( )ijbB =

Definida por la condición de que:

⎩⎨⎧

∉∈

=ji

jiij evsi

evsib

01

Como ejemplo podemos citar que siendo G=({A,B,C,D},{A,B},{B,C},{C,D},{A,D},{B,D}) (Ver

Figura 4) la matriz de incidencia de G, respecto a la ordenación de sus vértices A,B,C,D y sus aristas

{A,B},{B,C},{C,D},{A,D},{B,D}, es la matriz:

Figura 4. Grafo y matriz de incidencia que lo representa.

Existe un gran número de matrices que caracterizan estructuralmente a un grafo molecular y han servido

para computar varios ITs. Algunos ejemplos son la matriz Laplaciana L(w, G), la matriz de Detour, [Δ]ij,30 la

matriz de Detour-distancia, [Δ-D]ij,30 la matriz de distancia-valencia [Dval(p, q, w, G)]ij,31 la matriz de

resistencia-distancia [Ω(w)]ij,32 la matriz de conductancia eléctrica [EC(w)]ij,32, la matriz de Wiener inversa

[RW(w, G)]ij,35 la matriz de Szeged [Szu]ij,36 entre otras.

2.1.4. Invariante grafo-teórica.

Una invariante grafo-teórica es aquella propiedad del grafo que no depende del orden de numeración de

los elementos del mismo, las cuales pueden obtenerse por manipulación algebraica del grafo. Como se ha

señalado, los grafos moleculares no son una representación numérica de la estructura química y aunque las

matrices sí constituyen una representación algebraica, tienen como desventaja que no constituyen invariantes

grafo-teóricas, ya que su construcción depende de la numeración dada a los vértices del grafo. Sin embargo,

una simple invariante como el número de vértices, puede obtenerse a partir de la matriz de adyacencia.37

Resulta evidente, que para los estudios QSAR, el diseño de fármacos, el tamizaje virtual, etc; se necesitarían

obtener índices numéricos que caractericen estructuralmente los grafos moleculares y que estos índices sean

inevitablemente invariantes. Estos descriptores invariantes son los llamados ITs los cuales serán el objeto

principal de esta tesis.

2.1.5. Índices bidimensionales (2D) basados en la topología molecular.

De lo anterior se deduce claramente que debe ser un resultado numérico de alguna invariante ‘extraída’

del grafo molecular. Es decir, los índices topológicos (ITs) son descriptores moleculares que se obtienen de


20


una invariante grafo-teórica.38-42 Por tanto, los ITs son números calculados a partir de la representación de una

molécula como un grafo, siendo independientes de la numeración de los vértices y aristas en el grafo

molecular. Estos índices codifican información estructural contenida en la representación bidimensional (2D)

de la molécula. Esta descripción ‘topológica’ de la molécula contiene información de la conectividad entre

átomos (o enlaces) en la molécula y codifica la talla, forma, ramificación, heteroátomos y la presencia de

enlaces múltiples.8-10, 13-16, 43 La importante información de la molécula contenida en los ITs puede usarse en la

descripción de propiedades físico-químicas y biológicas.7, 44-46

Un resumen completo sobre los ITs es realmente imposible, debido a la gran cantidad de estos índices

que han sido publicados en la literatura y al número de ellos que cada año son introducidos. Por tanto, nosotros

nos concentraremos solamente en los ITs que más ampliamente han sido aplicados a diferentes problemas

relacionados con la estructura y aquellos que sean más importantes para los objetivos del presente trabajo. La

mayoría de los ITs propuestos están relacionados con la matriz de adyacencia de vértices, de distancias o de

combinaciones de estas. No obstante, en la actualidad los ITs han sido clasificados acorde a su naturaleza en,

primera, segunda y tercera generación,47 lo cual facilita su estudio. Un tratamiento abarcador de todos los

descriptores moleculares disponibles fue recientemente publicado por Todeschini y Consonni.37

2.1.5.1. Índices topológicos de primera generación.

Los ITs de primera generación son números enteros basados en propiedades del grafo como un todo,

tales como las distancias topológicas. Los índices más representativos de esta clase son el índice W de

Wiener,47 el índice Z de Hosoya,48 y los índices B y C de Balaban.49 De todos estos ITs solo W ha sido usado

extensamente en estudios QSAR y en el descubrimiento de nuevos fármacos. El índice de Wiener fue definido

en 1947 y desde entonces ha constituido una importante fuente de inspiración para el desarrollo de nuevos ITs.

[ ] ij

N

ijj

N

iGDGW ∑∑

≠==

=11

)(21)( (2.1)

Los resultados obtenidos con el índice W en la modelación molecular propició la definición de varios

índices relacionados con este. Algunos de estos son el cuasi-Wiener índice,50 el índice de Kirchhoff,51 el índice

RDSUM,52 y el hiper índice de Wiener,53, 54 entre otros.

La suma de los grados de cada enlace fue introducido, al mismo tiempo que el índice de Wiener, por

Platt; por lo cual este es conocido como el índice F de Platt.55 Otro de los ITs de primera generación que

también ha sido ampliamente utilizado en estudios QSAR, es el índice de Zagreb desarrollado en 1975

utilizando las valencias de los átomos (Gutman y col, 1975).56

( )[ ]∑=

=n

iivM

1

21 δ (2.2)

( ) ( )ji vvM δδ=2 (2.3)

2.1.5.2 Índices topológicos de segunda generación.

Estos índices son números reales basados en las propiedades del grafo íntegro. La mayoría de los ITs

utilizados en los estudios QSAR y en el diseño/descubrimiento de fármacos en estos momentos, pertenecen a

esta clase. El conjunto de descriptores moleculares más útiles de esta clase, son los llamados índices de

conectividad molecular9, 10, 57 Estos índices están basados en una invariante grafo-teórica introducida por

Randic 25 años atrás, para computar un índice de ‘ramificación’ para los alcanos.58 Estos índices fueron

extendidos por Kier y Hall para tener en cuenta la diferenciación entre heteroátomos y los diferentes subgrafos


21


en la molécula. Los índices de conectividad molecular de ‘valencia’ son expresados de la siguiente forma:9, 10,

57

(2.4)

donde, s es el número de subgrafo de tipo t (camino, cluster, camino-cluster y cadena) con m aristas, n es el

número de vértices del subgrafo y δj ves la valencia atómica computada utilizando la siguiente fórmula (Ec.

1.8):

(2.5)

donde Ziv es el número de electrones de valencia del átomo i, Zi son todos los electrones del átomo i y Hi es el

número de átomos de hidrógeno unidos a este átomo.

Balaban introdujo en 1982 como modificación de los índices de conectividad el índice J de Balaban, el

cual es un índice de conectividad basado en las distancias promedios y fue definido de la siguiente forma:59

( ) ( )[ 2/1

1−∑+

=bonds

ji vDvDmJμ

] (2.6)

donde D(vi) es la suma de todas las distancias topológicas relacionadas con el átomo i. Es decir, la suma de

todas las entradas de las filas o columnas de la matriz de distancia (D) correspondiente para un átomo i; μ es el

número ciclomático.

Gálvez y colaboradores han introducido una serie de descriptores grafo-teóricos con el objetivo de

completar la información estructural contenida en los índices de conectividad molecular. Entre estos

descriptores, de probada utilidad en el diseño de fármacos, el índice de carga aparece entre los más

interesantes.60 Los ITs de carga Gk y Jk son definidos de la siguiente forma:

∑∑−

= +=

=1

1 1),(

n

iij

n

ijijk dkCTG δ (2.7)

)1( −= nGJ kk (2.8)

donde CTij = mij – mji, donde m son los elementos de la matriz auxiliar M definida como: M = AxD*. La matriz

D* es la matriz de los inversos de las distancias cuadradas, en la cual sus entradas en la diagonal se toman

como 0 y δ es la delta de Kronecker.

La mayoría de los ITs analizados hasta ahora describen la estructura de la molécula como un todo por lo

tanto pueden considerarse como descriptores moleculares globales. Kier y Hall, a comienzos de la década del

90, introdujeron un nuevo IT denominado índice del estado electrotopológico (E-estado); basado en una

invariante grafo-teórica para un átomo en la molécula, representando la accesibilidad de electrones de este

átomo. Este índice puede ser considerado como un descriptor molecular local; el mismo codifica información

acerca del ambiente topológico y de las interacciones electrónicas debidas a todos los demás átomos en la

molécula. El índice del E-estado para un átomo i en una molécula se define como:11, 12, 41, 61, 62

∑Δ+=j

ijii IIS (2.9)

La suma es el total de los otros átomos j dentro del grafo molecular. El término de perturbación de un

átomo i por un átomo j se define de la siguiente forma (Ec. 1.13):

( ) 2/ ijjiij dIII −=Δ (2.10)


22


donde, es la distancia topológica que separa los átomos i y j en el grafo desprovisto de hidrógenos. Los

valores intrínsecos son definidos como (Ec. 1.14):

ijd

( )[ ] iv

iii NI δδ /1/2 2 += (2.11)

donde N es el número cuántico principal para los electrones de valencia del átomo i.

El valor de Si para un átomo i puede ser visto, como una suma de efectos de los átomos del esqueleto

molecular a varias distancias de i sobre este último:

( ) ( ) 2/4/ ijj

jij

jiii dIIIIIS ∑∑ −+−+= (2.12)

El primer término es un valor intrínseco definido con anterioridad, el segundo son las contribuciones de

los átomos enlazados y el último representa las contribuciones de los átomos no enlazados.

Adicionalmente, investigadores de nuestro país han realizado apreciables aportes en la introducción de

nuevos ITs. Desde mediados de los 90 Estrada y col. han definido varios ITs, entre los que destaca como de

mayor interés en estudios quimio-bioinformáticos los momentos espectrales de la matriz de adyacencia entre

aristas [E(G)] de un grafo molecular.63-73 De esta forma el momento espectral de orden k se define como la

traza de la k-ésima potencia de la matriz E y su símbolo es μk.68 A su vez, la traza se define como la suma de

los valores de la diagonal principal. Lo anterior se puede expresar matemáticamente de la siguiente manera:

∑=

==m

i iiekkETrk1

)(μ (2.13)

donde, keii son los elementos de la diagonal principal de la matriz Ek. De la definición dada de E y μk, se

observa que los momentos espectrales son números enteros positivos.

Para lograr diferenciar las moléculas con heteroátomos a través de los momentos espectrales, las aristas

del grafo molecular son ponderadas con determinados pesos (dij), lo que aumenta notablemente las

posibilidades y versatilidad del método. Mediante los dij se pueden introducir de manera natural, en la

diagonal principal de la matriz, propiedades medias de los enlaces como son: la distancia, la polarizabilidad,

el dipolo medio de enlace, etc. Además, se han definido los momentos espectrales locales de la matriz de

adyacencia entre enlaces del grafo molecular desprovisto de hidrógeno,67 pudiendo estar la matriz ponderada o

no, en la diagonal principal.

Carrasco y col. introdujeron recientemente un nuevo índice denominado índice del estado

refractotopológico (ℜi).74 El mismo es un índice hibrido y se define como el valor de refractividad intrínseca

de un átomo i, mas un termino de perturbación para un grafo sin hidrógenos suprimidos. Matemáticamente se

define de la siguiente manera:

iii ARAR Δ+=ℜ

(2.14)

donde ARi el valor de refractividad intrínseca de un átomo i y ΔARi es un termino de perturbación definido

por:

∑=

−=Δn

jijjii rARARAR

1

2/)( (2.15)

Marrero-Ponce y col. desarrollaron un nuevo enfoque basado en una representación vectorial y otra

matricial de la estructura molecular. Estas están a su vez están relacionadas con la representación grafo-


23


teórica por medio de un pseudografo de la estructura química. Estos nuevos índices se conocen como índices

cuadráticos por analogía a las formas cuadráticas y se definen matemáticamente de la siguiente manera:75-82

∑∑==

=n

jjiij

kn

ik xxmxq

11)( = [X]tMk[X] (2.16)

donde, mij = mji (matriz cuadrada simétrica), n es el número de átomos de la molécula y x1,…,xn son las

coordenadas del vector molecular ( x ) en la base canónica {e1,…,en} de Rn.

La definición local de estos descriptores se basa en invariantes grafo-teóricas para un fragmento FR

dado, dentro de un seudografo específico y es la siguiente:75-82

∑∑==

=n

jjiijL

kn

ikL xxmxq

11

)( = [X]t MkL [X] (2.17)

donde n es el número de átomos del fragmento de interés y kmijL es el elemento de la fila “i” y columna “j” de

la matriz MkL ≡ Mk(G, FR) [ qkL(x) ≡ qk(x, FR)]. Esta matriz se extrae de la matriz k-ésima potencia de M y

contiene la información referida a los vértices del fragmento FR de interés y también de su entorno molecular.

De igual forma, estos autores han definido otros grupos de nuevos índices moleculares algebraicos basados en

aplicaciones lineales y formas bilineales, los cuales están siendo utilizados de forma satisfactoria en estudios

QSAR/QSPR y el descubrimiento de nuevos compuestos bioactivos.31, 33,34

2.1.5.3 Índices topológicos de tercera generación.

Los ITs de tercera generación son números reales basados en propiedades locales del grafo molecular.

Estos índices son de reciente publicación.83-85 Otros de los ITs de esta clase están basados en la aplicación de la

teoría de la información a términos de sumas de distancias o sobre nuevas matrices no simétricas introducidas

en la literatura.86-88 Sin embargo, nosotros no discutiremos este tipo de ITs porque estos no han tenido una gran

aplicación en estudios QSAR y en el diseño/descubrimiento de nuevos fármacos.

2.1.6. Propiedades que debe poseer un nuevo índice topológico.

Randic propuso una lista de propiedades que deben poseer los nuevos ITs,89 considerada actualmente de

un nivel de sofisticación muy alto, el cual deben alcanzar los nuevos descriptores moleculares diseñados. Estas

propiedades son las siguientes: 1) interpretación estructural directa, 2) buena correlación con al menos una

propiedad, 3) buena discriminación entre isómeros, 4) localmente definidos, 5) generalizables a análogos

superiores, 6) linealmente independientes, 7) simplicidad, 8) no basados en propiedades físico-químicas, 9) no

trivialmente relacionados con otros índices, 10) eficiencia de construcción, 11) basados en conceptos

estructurales familiares, 12) mostrar una dependencia correcta con el tamaño y 13) tener cambios graduales

con cambios graduales en la estructura. En realidad, muchos de estos atributos tienen cierto grado de

interrelación. A continuación, comentaremos algunas de estas propiedades ‘deseables’ a través, también, de

algunos problemas o desventajas que presentan algunos ITs.


24

Al emplear los ITs para la caracterización de una molécula intrínsecamente tenemos cierta pérdida de

información, ya que se está tratando de representar un objeto tridimensional por un número simple. Esta

cuestión es crítica, cuando se trata de una actividad biológica que depende de la interacción estereoespecífica

del receptor con un sitio de la molécula. Sin embargo, los ITs pueden contener una sorprendente información

estructural sobre las moléculas, lo que los hace de gran utilidad en los fines prácticos de sus aplicaciones.

Existen dos posibilidades de resolver la pérdida de información de los descriptores grafo-teóricos. La primera,

consiste en la generalización de un descriptor simple a análogos ‘superiores’ y segunda, la generalización de

la invariante grafo-teórica como secuencias de números.89 La generalización de los índices es necesaria para



25

salvar situaciones en las que un descriptor simple no es suficiente y la investigación de una familia de

descriptores estructuralmente relacionados puede resolver el problema. Sucede que en la obtención de una

familia de descriptores de diferentes órdenes (familia de descriptores relacionados), como generalización de

un simple descriptor, se ha observado que muchos de estos son colineales (unos indices pueden ser expresados

como combinación lineal de los restantes, por lo que puede existir ‘redundancia de la información’). La

independencia lineal u ortogonalidad de los índices es uno de los atributos deseables, pues los descriptores

colineales pueden afectar la ‘estabilidad del coeficiente de correlación’ y dificulta la interpretación de los

modelos obtenidos. En este sentido, es importante también que los descriptores sean ortogonales en relación a

los restantes ITs. Esta independencia lineal de los índices significa que los mismos conduzcan a una

correlación con una propiedad que no es satisfactoriamente explicada por los otros descriptores existentes.

Una de las principales deficiencias que aún presentan la mayoría de los ITs está relacionada con su

selectividad estructural; o sea, la capacidad de los mismos para diferenciar entre estructuras que no sean

isómeras. La sensibilidad de la discriminación de isómeros, surge debido a que la diferenciación de isómeros

garantiza que estos descriptores puedan ser utilizados en estudios donde las propiedades moleculares varían

para diferentes isómeros y en general, en los estudios de aquellos aspectos de las propiedades moleculares que

dependen del tamaño de la molécula. De forma general, la selectividad de los ITs disminuye a medida que

aumenta el número de vértices en el grafo que representa el esqueleto carbonado molecular, por ejemplo el

andamiaje carbonado de un alcano. Razinger y colaboradores mostraron además que no existe una relación

directa entre la discriminación de isómeros y la utilidad de un índice para correlacionar con propiedades físicas

de interés.90 Este resultado, demuestra que una cuestión importante en el diseño de un nuevo IT, es que este

contenga información estructural valiosa y no sólo que sea altamente discriminante para isómeros.

La definición local de los descriptores se refiere al hecho de que estos no sean obtenidos de forma global

para una estructura molecular, sino que puedan ser definidos sobre determinados fragmentos de la propia

estructura.

La interpretación en términos estructurales, es otro de los atributos deseables para un nuevo IT, ya que

desde el punto de vista de su aplicación en estudios QSAR, solo aquellos índices que estén basados en

conceptos estructurales simples ayudarán a interpretar propiedades complejas en términos estructurales.

2.1.7. Los índices topológicos y sus aplicaciones.

Las aplicaciones de los ITs han estado dirigidas fundamentalmente hacia la predicción cuantitativa de

propiedades físico-químicas y biológicas de compuestos orgánicos, en estudios que se han denominado QSPR

y QSAR, respectivamente. Esta división, no es solo formal, porque aunque el método en ambos tipos de

estudio es similar, por lo general, la actividad biológica es una propiedad mucho más compleja que las

propiedades físico-químicas, debido a la gran cantidad de factores que influyen en la bioactividad de un

compuesto químico.

La aplicación de los ITs al diseño y selección de nuevas entidades químicas es probablemente

una de las áreas más activas de investigación en la aplicación de tales descriptores a problemas

biológicos. Uno de los primeros ejemplos del diseño de nuevos compuestos en el uso de estos

índices, fue descrito por la Upjohn & Pharmacy en 1993. Ellos fueron capaces de diseñar una nueva

clase de compuestos de la familia de las heteropiperazinas con actividad contra la HIV-

retrotransferasa.91-96 Más recientemente, Graasy y col. fueron capaces de diseñar y sintetizar un



26

péptido que mostró una actividad inmunosupresora aproximadamente 100 veces mayor que los

compuestos líderes ensayados.97

2.2. Métodos Estadísticos (Quimiométricos) en el Diseño Molecular

2.2.1. Introducción a los Métodos Quimiométricos en el Diseño Molecular

Los estudios QSAR constituyen un enfoque que permite entender como la variación estructural afecta la

propiedad/actividad biológica de un conjunto de compuestos. En estos estudios, los descriptores moleculares

(X) se correlacionan con una variable respuesta (Y). Es decir, este análisis puede definirse como una aplicación

de métodos matemáticos y estadísticos al problema de encontrar una ecuación empírica de la forma Yi = fi(X1,

X2, ...Xn), donde Yi son las propiedades y/o actividades biológicas de la molécula, y X1, X2, ...Xn son

propiedades estructurales experimentales o calculadas (descriptores moleculares) de los compuestos. En este

sentido, cada compuesto puede representarse como un punto en un espacio multidimensional, en los cuales los

descriptores X1, X2, ...Xn son coordenadas independientes del compuesto. El objetivo más usual de este análisis

es incrementar el entendimiento del sistema biológico bajo investigación o predecir la propiedad estudiada a

un objeto (compuesto) no utilizado en la obtención del modelo.

2.2.2. Quimiometría.

El término quimiometría, surgió en la década del 70 y se define como la disciplina química que

utiliza métodos estadísticos y matemáticos para seleccionar y optimizar los métodos analíticos y

preparativos, así como procedimientos para el análisis e interpretación de los datos.100

2.2.3. Metodología general empleada en los estudios QSAR.

Los principios de la metodología QSAR pueden describirse mediante los siguientes pasos comunes:100

1) Formulación del problema, se determina el objeto de análisis y el nivel de información requerido, 2)

Parametrización cuantitativa de la estructura molecular de los compuestos químicos orgánicos/secuencia de

biopolímeros, 3) Medición de la propiedad de interés (‘efectos biológicos’), 4) Escoger el tipo de modelo

QSAR que se va a desarrollar, 5) Selección de los compuestos (diseño estadístico de la serie), 6) Análisis

matemático de los datos y Validación interna y externa de los modelos obtenidos, 7) Interpretación de los

resultados y Aplicación de los modelos desarrollados al diseño/descubrimiento de un nuevo compuesto líder,

desarrollando procedimientos de tamizaje virtuales. Sin embargo, el desarrollo de cualquier QSAR es un ciclo

interactivo.

2.2.4. Regresión lineal múltiple (RLM).

La RLM estudia las relaciones entre una variable dependiente y un conjunto de variables independientes.

Así mismo, la regresión múltiple remite a la correlación múltiple, que se representa por R. Es decir, la

correlación múltiple analiza la relación entre una serie de variables independientes o predictores (X1, X2, ...,

Xk), considerados conjuntamente, con una variable dependiente o criterio. Sus fundamentos se hallan en la

correlación de Pearson.101 La recta de regresión múltiple tiene la siguiente forma:

Y = a + b1 X1 + b2 X2 +...+ bk Xk (2.18)

siendo ‘a’ un valor constante. Como puede observarse, la RLM puede utilizarse en la predicción de los valores

de la variable dependiente, en base a una combinación de variables independientes.

2.2.4.1. Principio de la parsimonia para seleccionar el número optimo de variables.

La R2 aumenta en la medida en que se añaden variables a la ecuación; pero a partir de cierto punto el

incremento de R2 para cada nueva variable que se añade, es insignificante. Un buen modelo no debe presentar

ni demasiadas variables, ni debe olvidar las que sean verdaderamente relevantes. Es decir, debe cumplir el


principio de la parsimonia, según el cual un fenómeno debe ser descrito con el número mínimo de elementos

posibles.

Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a incluir en la

ecuación, como por ejemplo la ‘forward selection’, ‘backward elimination; y ‘stepwise selection’.102 Este

último método es el más utilizado (es una combinación de los dos anteriores) y sigue un proceso de selección

de variables paso a paso.

2.2.4.2. Incremento de R2 y correlación parcial.

Se llama incremento de R2 a una estimación de la importancia relativa que tiene la variable que acaba de

entrar en este paso para predecir el criterio. El incremento de R2 viene dado por: 222ic RRR −= (2.19)

donde es el coeficiente de correlación múltiple al cuadrado cuando todas las variables, excepto la i (la que

acaba de entrar en este paso), están incluidas en la ecuación. Por lo tanto, la en un paso determinado

coincide con la R

2iR

2iR

2 del paso anterior. Un coeficiente alto significa que esta variable proporciona información

importante que no está contenida en las otras variables.

2iR

2.2.4.3. Análisis de la varianza.

El ANOVA (ANalysis Of VAriance) sirve para comprobar la hipótesis de que R2 = 0. La variabilidad

total de la variable dependiente se divide entre la parte atribuible a la regresión y la parte residual. La distancia

de un punto cualquiera Yi a la Y se sub-divide en dos partes:101

( ) ( )YYYYYY iiii −+−=− (2.20)

siendo iY el valor predicho por la ecuación de predicción. El valor ii YY − , denominado residual de la

regresión sería cero si la recta pasase exactamente por encima del punto Yi. El otro valor, YYi − , corresponde

a la distancia explicada por la regresión y representa el aumento en la estimación de Yi mediante la recta de

regresión.

En el ANOVA, F viene dada por:

residual

regresion

MCMC

F = (2.21)

Esta F sigue una distribución F de Snedecor con grados de libertad v1 = υ, v2 = n- υ -1; siendo υ el

número de variables de la ecuación. La media cuadrática (MC) se obtiene dividiendo la suma de cuadrados

por los grados de libertad. La F sirve para comprobar si el modelo de regresión se ajusta a los datos y permite

evaluar si se rechaza la hipótesis nula, según la cual, R2 = 0. Es interesante observar, que si el modelo se ajusta

a los datos, el coeficiente de determinación (R2) se puede calcular a partir de las suma de cuadrados (SC) del

ANOVA mediante:

total

residual

SCSC

R −=12 (2.22)

2.2.4.4. Importancia de la tolerancia en la RLM.


27

La tolerancia es una medida del grado de asociación lineal entre las variables independientes.103 Para la

variable i, la tolerancia es igual a 1- , donde es la correlación múltiple al cuadrado entre la variable i

considerada como variable dependiente y las demás variables independientes. Valores bajos en la tolerancia,

indican que la variable i puede ser considerada como una combinación lineal de las otras variables

2iR 2

iR


independientes. Por tanto, la tolerancia de una variable, en un paso cualquiera del análisis ‘stepwise’, es la

proporción de su varianza intra-grupo no explicada por otras variables del análisis.

2.2.5. Multicolinealidad entre variables con el uso de RLM.

El término ‘multicolinealidad’ se utiliza para describir la situación en que un gran número de

descriptores moleculares están altamente intercorrelacionados. Las variables que se aproximan a ser una

combinación lineal de las otras, se denominan multicolineales o colineales.101-104 Una ‘multicolinealidad’ alta,

produce errores estándares altos en los coeficientes de regresión y dificulta estimar la importancia relativa de

los descriptores en el modelo, lo cual afecta la interpretación de las actividades modeladas en términos

estructurales. La importancia relativa puede determinarse al valorar el incremento en la R, cuando se añade

una variable a la ecuación que ya contiene las demás variables ( ). El método más utilizado para detectar la

existencia de variables colineales es obtener una matriz de correlaciones entre los descriptores moleculares.

Uno de los métodos más utilizados para detectar la interdependencia entre variables, es la tolerancia.

Problemas con la redundancia de la información y la colinealidad, han sido ilustrados con el uso de ITs, tales

como los índices de conectividad molecular.

2iR

105, 106 El nivel aceptable de colinealidad es algo subjetivo y en ese

sentido se ha reportado que coeficientes de correlación entre las variables aceptables están en el rango de 0.4-

0.9.107 2.2.6. Compuestos ‘outliers’ y técnicas para la selección de los mismos.

Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se ajustan al

modelo) o son pobremente predichos por estos, afectando los parámetros estadísticos del mismo.108

Generalmente, la identificación de ‘outliers’ busca un mejoramiento cualitativo del modelo. Un buen ejemplo

ha sido mostrado por Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos para

T. Pyriformis.107En este estudio, para un total de 140 compuestos solo se obtuvo un moderado ajuste

estadístico (R2 = 0.753). Sin embargo, al remover cinco outliers R2 aumentó hasta 0.853.107 Existen varias

técnicas para detectar la presencia de ‘outliers’, tales como: los análisis de los residuales estandarizados, los

residuales studentizados, el método de Leverage, la estadística DFITS, la distancia de Cook y el método de

dejar “varios” fuera.105

2.2.7. Validación estadística de los modelos QSAR.

El enfoque convencional adoptado en los análisis QSAR, basado en la RLM, es considerar el parámetro

R2 (‘varianza explicada’), R y s. Las variables como R2 varían entre 0 y 1, donde 1 significa un modelo

perfecto (explica el 100% de la variable respuesta, Y) y 0 un modelo sin ningún poder de explicación.

Entonces un alto valor de R2 y una baja s, son condiciones necesarias para la validez del modelo RLM. O sea,

como en ANOVA la validez viene dada solo por el ensayo F, si varios modelos pasan esta prueba, el de mayor

R2 y/o menor s será el mejor modelo encontrado.

Cuatro herramientas pueden ser utilizadas para acceder a la validación de los modelos QSAR obtenidos

por RLM y la mayoría de estas pueden también extrapolarse a la validación de los modelos obtenidos con el

ADL:112 1) Aleatorización de la variable respuesta (Y- Randomización), 2) validaciones cruzadas, 3) división

de la data de compuestos en serie de entrenamiento (SE) y en serie de predicción (SP) y 4) confirmación del

poder predictivo utilizando SP ‘externas’. A continuación desarrollaremos brevemente solo los puntos

referidos a los enfoques de validación de los modelos que son de nuestro interés.

2.2.7.1. Validación interna de los modelos (Validaciones cruzadas).

La validación cruzada (VC) opera haciendo un número (G) de reducidas modificaciones al conjunto de

compuestos de la data original y entonces calcula la precisión de las predicciones de cada uno de los resultados Oscar Martínez Santiago – Derivada del Grafo: Novedosa vía para generar DMs 2D/3D: Teoría y Aplicaciones QSPR

28


de los modelos.113, 114 Entonces, la VC crea G conjuntos de datos modificados tomando uno o más grupos de

compuestos de los datos, en donde cada observación (compuestos) se toma una vez, sobre el número total de

ciclos de VC, G. Entonces el modelo es ajustado a los nuevos datos, dejando la parte omitida fuera, y estos se

evalúan en el modelo para computar las predicciones de los compuestos que fueron excluidos. Este

procedimiento se repite para cada conjunto de datos modificados. El poder predictivo del modelo puede

expresarse como q2, el cual ha sido denominado como la ‘varianza predictiva’ o la ‘varianza de la validación

cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde a la siguiente fórmula:

( )

2

22 1

∑

∑−

⎟⎠⎞

⎜⎝⎛ −

−=

∧

yyi

yiyiq (2.23)

donde yi , y ∧

yi y es la actividad observada, estimada y el promedio (media) para el i-ésimo compuesto,

respectivamente.

Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N grupos), el

procedimiento se conoce como “dejando uno fuera” y sus siglas en ingles son LOO (acrónimo de

Leave-One-Out). No obstante, Shao ha mostrado que desde el punto teórico y práctico, el

procedimiento de dejar ‘varios’ fuera (LSO; Leave-Several-Out) es preferible al LOO.148 Este

resultado puede entenderse al considerar que sucede cuando el número de compuesto, N, se

incrementa. La técnica de LSO siempre deja fuera una porción de los datos creando una perturbación

constante en la estructura de los datos. Wold y Eriksson recomiendan utilizar un valor de G alrededor

de siete, al utilizar el procedimiento de VC.145 El promedio de la media de los errores en valores

absolutos, MAE (Mean Absolute Error), para cada uno de los grupos dejados fuera puede ser usado

como un criterio significativo para acceder a la calidad del modelo.116


29

"Los conceptos y principios fundamentales de la ciencia son invenciones libres del espíritu humano"

Albert Einstein

3. DERIVADA DEL GRAFO: DEFINICION DE NUEVOS DESCRIPTORES MOLECULARES

3.1. Derivada de un Grafo

En el análisis matemático el concepto de derivada caracteriza el grado de variación en una función al

realizarse una pequeña variación en su argumento, dicho concepto de derivada se basa en el del límite.61 En

la matemática discreta no existe el concepto de límite y por tanto, es imposible trasladar el concepto de

derivada tal como se conoce, desde la matemática continua a la discreta.

Antes de introducir una definición formal de la derivada de un grafo, primeramente se dejarán claros

determinados conceptos importantes para poder entender a cabalidad el significado de la misma y sus grades

posibilidades de aplicación en la química grafo-teórica.

Primero definiremos un suceso (S), el cual es verdadero cuando se cumplen determinadas condiciones

al proceso examinado. Cada suceso S determina una matriz binaria bidimensional , a cada

columna de la cual le corresponde biunívocamente una

nxmijqQ ][=

condición, comprendida en al menos un suceso

verdadero, y a cada fila, una colección de condiciones, con las cuales el suceso tiene lugar (en las cuales el

suceso es verdadero) y qij es:

• 1, si la j-ésima condición se incluye en la i-ésima colección de condiciones, en las cuales el

suceso es verdadero.

• 0 en caso contrario

En otras palabras, cada suceso determina un modelo con matriz de incidencia Q , las condiciones que se

comprenden en el suceso son letras del modelo y las colecciones de condiciones para las cuales el suceso es

verdadero serían palabras del modelo.61

Las intensidades de participación de las distintas condiciones (letras) en las colecciones de condiciones

(palabras) para las cuales el suceso es verdadero las caracterizaremos utilizando las frecuencias de su

inclusión. Para ello es necesario introducir la matriz de frecuencia de relaciones que caracteriza

un modelo Ψ, con matriz de incidencia

nxnijfF ][=

nxmijqQ ][)( =Ψ .

Se denomina matriz de frecuencia de relaciones nxnijfF ][= una matriz, a cada fila y columna de la

cual le corresponde biunívocamente una condición, y un elemento fij es igual al número de palabras que

comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi corresponde al número de palabras que

incluyen la letra i. Siendo fi la frecuencia propia de la letra i y fij es la frecuencia recíproca de las letras i y j,

correspondientemente.

De la definición de la matriz de frecuencia de relaciones, se desprende que la misma es simétrica

respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es mayor que la frecuencia

recíproca de esta letra con cualquier otra, fi ≥ fij.

También se puede demostrar que:

xQQF T= (3.1)

siendo la matriz transpuesta de la matriz de incidencia [Q(Ψ)] del modelo. TQ

Estamos, entonces, en condiciones de determinar el grado de heterogeneidad de los componentes del

grafo respecto a un suceso dado y caracterizaremos esta heterogeneidad por la derivada SG ∂∂ del grafo

respecto al suceso S.


Capítulo 3 Derivada del Grafo: Definición de nuevos Descriptores Moleculares Topológicos

Llámese derivada SG ∂∂ de un grafo (G) respecto a un suceso (S), un grafo ponderado no orientado

<V,(U, P)>, cuyo portador coincide con el portador de un modelo determinado por este suceso y un par de

vértices (vi,vj) está ponderado por la razón de la frecuencia )()( ijiiji ffff −+− de su participación

incompatible a la frecuencia fij de la participación compatible en el suceso S:

),( ji vvSG

∂∂

=fij

fjfijfi )2( +− (3.2)

con la particularidad de que:

(vi , vj) ∉ U, si SG

∂∂

(vi , vj) = ∞

(vi , vj) ∈ U, si SG

∂∂

(vi , vj) = una magnitud finita diferente de cero

(vi = vj) si SG

∂∂

(vi , vj) = 0

A continuación, ilustremos entonces el concepto de derivada del grafo con un ejemplo.61

Ejemplo # 1

Sea el grafo G (ver Figura 5.A.). Se desea determinar la frecuencia de participación de las diferentes

aristas en la formación de esqueletos del grafo. El grafo G contiene 8 esqueletos [subgrafos de orden 3, sin

diferenciar tipo (ver Figura 5.B.)]. Se puede conocer la frecuencia buscada, por ejemplo, conociendo el

número de inclusiones de cada arista en los esqueletos. Por ejemplo, la arista “a” participa 5 veces en la

formación de los esqueletos, la arista “c” 4 veces, etc. La frecuencia buscada puede caracterizarse mejor, si a

la par de los números indicados anteriormente, determinamos números que caractericen el grado de

participación no uniforme de pares de aristas del grafo (derivada del grafo para parejas de elementos), en la

formación de esqueletos del grafo, para ello debemos obtener las correspondientes matrices de incidencia y de

frecuencia para el modelo determinado por nuestro suceso (formación del esqueleto del grafo por las

diferentes aristas), y de este modo calcular los valores de derivada SG ∂∂ para los pares de aristas del grafo:

c

a

b d

e

A

a

a

a

a

a

b b

b

bb

c

c

c

c

d

d

d d

d

e

e

e

e e

B

a

b

c

d

e3/4

3 3

2.52.5

4/3

2.5 2.54/3

C Figura 5. A) Grafo del Modelo. B) Subgrafos según el suceso. C) Derivadas

Las matrices de incidencia y de frecuencia, para este modelo, son:


31


⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

1101010110011101100110101011011001101011

Q5223325233224223325233225

== xQQF T

Los elementos de la matriz (F) determinan la SG ∂∂ , que es un grafo ponderado, con portador {a, b, c,

d, e} y dos vértices de este grafo son adyacentes, si el valor de la derivada sobre la arista formada por estos

vértices es distinta de cero o infinito. Los valores de derivada para los pares de aristas del grafo son:

0.3),(...........................................................5.2),(,0.3),( =∂∂

=∂∂

=∂∂ ed

SGca

SGba

SG

Y con estos valores podemos formar el grafo SG ∂∂ (Figura 5.C.)

Como puede observarse, para determinar la derivada de un grafo, según un suceso (S), es necesario:

Construir un modelo determinado por un suceso previamente fijado.

Hallar la matriz de frecuencia de relaciones correspondiente al modelo.

Calcular los valores de derivada SG ∂∂ sobre los pares de elementos (átomos o enlaces) del grafo (molécula).

3.1.1. Derivadas de Orden Superior

Denominamos derivada KK

SG

∂∂ de orden K según el suceso (S), la derivada de la derivada de orden

K-1 según el mismo suceso:

⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂∂

=∂∂

−

−

1

1

K

K

K

K

SG

SSG

(3.3)

3.1.2. Derivadas Mixtas

Llámese derivada Mixta61 según los sucesos (Sa y Sb), a la derivada respecto a un suceso (Sa) de la

derivada respecto a un suceso (Sb):

⎟⎟⎠

⎞⎜⎜⎝

⎛∂∂

∂∂

=∂∂

∂

baba SG

SSSG2

(3.4)

3.1.3. Derivadas Sobre n-elementos

Hemos examinado la intensidad de participación de pares de elementos en un suceso determinado. Sin

embrago, de modo análogo se puede determinar la uniformidad de participación de ternas, cuaternas……n-

ternas de elementos en el suceso. Para lograr la generalización de la fórmula de derivada sobre tres,

cuatro,…n-elementos es necesario introducir el concepto de hipermatriz de frecuencia de relaciones61.

Examinemos el modelo Ψ = < M, S1, S2,……Sn > y tomemos una matriz N-dimensional ][ ...21 NiiifF = , i1, i2, . . . ,iN = 1, . . . | M |. Las posiciones según cada dimensión de la matriz N-

dimensional las enumeraremos con números de la serie natural 1, 2, 3, … M . Pongamos en correspondencia

biunívoca a cada letra un número de esta serie natural y colocaremos las letras Mm∈ Mmi ∈ por las

respectivas posiciones de cada dimensión de la matriz N-dimensional. Cada elemento de esta matriz

es igual al número de palabras que comprenden letras correspondientes a los números . No

duplicaremos los índices iguales por su escritura. La matriz formada de este modo se denominara matriz N-

dimensional de frecuencias de relaciones o bien hipermatriz de frecuencia de relaciones, si no nos interesa la

dimensión de esta matriz.

Niiif ,...,, 21

Niii ,...,, 21


32


Si entre los índices y un elemento existen al menos dos índices de escritura distinta

este elemento se llama frecuencia reciproca de letras correspondientes y, en caso contrario, frecuencia propia

de letras. La frecuencia que tiene k índices diferentes se denomina frecuencia de orden k.

Niii ,...,, 21 Niiif ,...,, 21

Niiif ,...,, 21

De esta forma estamos en condiciones de generalizar la fórmula de derivada para n elementos:

⎟⎟⎟

⎠

⎞

⎜⎜⎜

⎝

⎛⋅⋅−++⋅⋅−++⋅−=

∂∂ ∑ ∑∑

≠ ≠≠ ≠≠

++

− −2121

12121

12121

212121

121 ,,...,

...,,...,

,...,,...

1...

1

...21 )1(...)1(...21),...,(

iiii

iiiiiii

iiiiiii

iiin

iiiiii

immm

n

nnn

n

n

fnffff

mmmSG

ααα

ααα ∑ (3.5)

3.2. Aplicaciones de la Derivada del Grafo a la Química: “Presentación de una Nueva Familia de

Descriptores Moleculares”.

Con el decursar del tiempo, el paso de los años, la recopilación de información experimental y como

fruto de la experiencia acumulada ha permitido a los químicos asegurar que las propiedades químicas, físicas

y biológicas de manera general, de cualquier sustancia se deben fundamentalmente a su estructura química.

Desde hace muchos años atrás los químicos hemos utilizado diferentes forma de representar las posibles

estructuras de las moléculas y las más comunes representaciones desarrolladas y semidesarrolladas de las

moléculas (sobretodo de moléculas orgánicas) no son mas que un grafo químico. Por lo que es posible pensar

en un posible tratamiento matemático y aplicación de conceptos de la matemática discreta y el algebra lineal a

estos grafos químicos, surgiendo así toda una disciplina conocida como química grafo-teórica.

Veamos que ocurre si aplicamos los conceptos y definiciones anteriores a la química y discutamos más

adelante como podemos obtener provecho, de este elegante tratamiento teórico, y su aplicación directa en la

generación de nuevos descriptores topológicos y el diseño molecular. Pongamos en práctica, a través de un

ejemplo, los aspectos discutidos anteriormente además de algunos nuevos formalismos que serán introducidos

en la medida que sea necesario.

Si tenemos una molécula sencilla como la de metilbutano (ver Figura 6), cuya estructura química es:

H3CCH

CH2

CH3

CH3

Figura 6. Estructura molecular del metilbutano

Obviando los átomos de hidrogeno y consideramos cada átomo de carbono como un vértice y los

enlaces entre ellos, aristas, podemos entonces representar dicha molécula con el siguiente grafo molecular:

c1

c2 c3a b

c5

c4

c

d

Figura 7. Grafo Molecular con hidrógenos suprimidos de la molécula de metilbutano

Este grafo está en correspondencia con la estructura química anterior. En el mismo, los átomos de

carbono etiquetados con las letras C1, C2, C3, C4 y C5 están representados como vértices del grafo molecular y

a, b, c, y d constituyen aristas que representan los enlaces químicos establecidos entre dichos átomos.


33


Definamos entonces, un nuevo suceso a la formación de la estructura molecular a partir de

subestructuras conexas (sub-grafos) de distintos órdenes y tipo, basada en relaciones atómicas. Aplicando

este suceso al grafo antes planteado obtenemos las siguientes subestructuras, los cuales han sido organizados

según su orden:

Orden 0: 54321 ,,,, CCCCCOrden 1: 52433221 ,,, CCCCCCCC −−−− Orden 2: 432325521321 ,,, CCCCCCCCCCCC −−−−−−−− Orden 3: 532143254321 ,, CCCCCCCCCCCC −−−−−−−−− Orden 4: 54321 CCCCC −−−−

El suceso prefijado determina las correspondientes matrices de incidencia y de frecuencia, las cuales

son mostradas a continuación:

⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜⎜

⎝

⎛

=

1111111110101110111101110101101001100111011001001000110000111000001000001000001000001

Q

724632654245108464812632467

=F

Podemos caracterizar la intensidad de participación de los diferentes pares de elementos (átomos en la

molécula o vértices en el grafo) a partir del cálculo de la derivada para pares de elementos:

67

612)6(27),( 21 =

+−=

∂∂ cc

SG

25.24

10)4(27),( 31 =+−

=∂∂ cc

SG

Así, sucesivamente se pueden determinar los valores de los pares de elementos del grafo, los cuales son

mostrados a continuación:

5.4),( 41 =∂∂ CC

SG

2.1),( 43 =∂∂ CC

SG

38),( 51 =

∂∂ CC

SG

25.2),( 53 =∂∂ CC

SG

75.0),( 32 =∂∂ CC

SG

5.4),( 54 =∂∂ CC

SG

5.2),( 42 =∂∂ CC

SG

67),( 52 =

∂∂ CC

SG

Si denominamos además, la derivada Local-Total (LT) como Δi para cada uno de los elementos del

grafo (o sea para cada núcleo atómico), como la sumatoria sobre todos los valores de derivada ),( jiSG

∂∂

que

incluyen al elemento i (combinación lineal):

),(1

jiSGn

ji ∑

= ∂∂

=Δ ( ji ≠ ) (3.6)


34


Obtenemos los valores de derivada Local-Total para cada elemento serían: Δ1 = 10.58, Δ2 = 5.58,

Δ3 = 6.45, Δ4 = 12.7 y Δ5 = 10.58.

Si se observa detenidamente los valores de cada Δi, se puede notar que cada valor para los cuatro

primeros átomos (del 1-4) son diferentes, mientras que para el primero y el quinto son iguales. Este

comportamiento es lógico si tenemos en cuenta la naturaleza química de cada uno de estos átomos, pues son

precisamente los átomos de carbono denominados 1 y 5 los únicos que poseen un ambiente químico idéntico.

Además, los valores de cada Δi pueden ser organizados en el mismo orden de su ambiente químico estérico-

electrónico. Así por ejemplo, el mayor valor de Δi lo posee el átomo menos enterrado mientras el valor más

pequeño es presentado por el átomo 2, el cual es el mas impedido estéricamente. Esto también coincide con la

naturaleza del concepto de derivada pues este átomo más enterrado es el que contribuye a la formación de la

molécula.

Hasta el momento se ha mostrado como este método recoge información topológica de la molécula

(conectividad entre los átomos en la molécula expresada a través de su intensidad de participación en la

formación de la estructura molecular) en la matriz de incidencia; sin embargo, es necesario ampliar esta

información con el propósito de diferenciar entre los diferentes heteroátomos e instauraciones. Por tanto, se

hace imprescindible incorporar también esta información química en nuestra metódica de trabajo, para

obtener valores de la derivada LT que permitan caracterizar de forma adecuada moléculas heteroatómicas.

Tomemos como un ejemplo sencillo, la molécula de 2-metilpropanal (ver Figura 8). Debemos considerar

determinados aspectos que serán discutidos en la medida que sean necesarios introducirlos para dicho

tratamiento:

O

isobutyraldehyde Figura 8. Estructura de la molécula de isobutiraldehído (metilpropanal)\

Para esta molécula cuyo grafo molecular es representado a continuación (ver Figura 9) podemos afirmar

que la matriz de incidencia Q es idéntica a la desarrollada anteriormente para la molécula de metilbutano;

teniendo en cuenta el suceso antes descrito.

O

c-1c-2

c-3

c-4

Figura 9. Representación del grafo con hidrógenos suprimidos correspondiente a la molécula de metilpropanal

Podemos percatarnos por simple inspección de la estructura molecular que en esta nueva molécula hay

presencia de heteroátomo y un doble enlace. Introduzcamos entonces la matriz de ponderación nxnijpP ][= ,

que es una matriz diagonal, donde filas y columnas no son más que las distintas condiciones del suceso y cada

elemento de la diagonal le corresponde biunivocamente un peso ip )( iϑ para la condición correspondiente y

cada . Los distintos pesos para cada átomo (condición, según este suceso) pueden ser

determinados según la relación

0== jiij pp

δϑ Pi = (para este suceso basado en átomos), donde P representa una

propiedad característica de cada átomo (ejemplo: masa atómica, electronegatividad, etc.) y δ es el grado del


35


vértice. Como se ha planteado anteriormente (Capitulo 2) el grado de vértice se refiere al número de aristas

incidentes al dicho vértice y químicamente representaría la cantidad de enlaces formados por el átomo en

cuestión con sus vecinos dentro de la molécula, o sea la valencia química.

Para ilustrar este ejemplo usemos como ponderación la electronegatividad (según la escala de Pauling)

de cada átomo (condiciones). Los pesos o etiquetas para los distintos átomos son:

75.125.3)( ==op 833.0

35.2)3( ==cp

5.215.2)1( ==cp 5.2

15.2)4( ==cp

833.035.2)2( ==cp

Quedando la matriz de ponderación como se indica a continuación:

⎟⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜⎜

⎝

⎛

=

5.20000075.100000833.000000833.0000005.2

P

Multiplicando ahora la matriz de incidencia por la matriz de ponderación, obtenemos la matriz de

incidencia ponderada mxnijPQ ][μ= , que es muy semejante a Q en su forma solo que esta nueva matriz

recoge información específica de cada átomo en la molécula además de su conectividad con otros en dicha

molécula. De donde se desprende que:

• μij = pi, si la j-ésima condición está contenida en la i-ésima colección de condiciones.

• μij = 0, en caso contrario.

Para el caso que nos ocupa podemos encontrar la siguiente matriz de incidencia ponderada : PQ

5.275.1833.0833.05.2075.1833.0833.005.20833.0833.05.2

075.1833.0833.05.2075.1833.0833.005.20833.0833.005.200833.05.2

00833.0833.05.2075.1833.0005.200833.00

00833.0833.00000833.05.25.20000

075.100000833.000000833.0000005.2

=PQ

En lo adelante podemos continuar con la metodología antes propuesta para determinar los valores de

derivada sobre los pares de elementos del grafo. O sea, obtenemos la matriz y su transpuesta ,

posteriormente realizamos la correspondiente operación de multiplicación como ya se vio en el ejemplo

PQ TPQ


36


anterior ( ). La matriz de frecuencias ponderada obtenida recoge información acerca del

número de veces que participa cada elemento en la formación del grafo molecular (según el suceso prefijado),

además de su característica de participación, que podemos entenderla como su identidad o capacidad relativa

(respecto a otros átomos de la molécula) para formar la estructura molecular.

PPTP FxQQ = PF

Los valores de derivada para los pares de elementos del grafo molecular son:

17.2),( 21 =∂∂ CC

SG

57.2),( 2 =∂∂ OC

SG

08.4),( 31 =∂∂ CC

SG

17.2),( 42 =∂∂ CC

SG

12.5),( 1 =∂∂ OC

SG

46.1),( 3 =∂∂ OC

SG

67.2),( 41 =∂∂ CC

SG

08.4),( 43 =∂∂ CC

SG

75.0),( 32 =∂∂ CC

SG

12.5),( 4 =∂∂ CO

SG

Con estos valores calculados podemos obtener también las derivadas LT de cada átomo en la molécula:

Δc1= 14.07, Δc2 = 7.63, Δc3= 10.36, ΔO= 14.30 y Δc4= 14.07.

Puede entenderse que dado este suceso, serán posibles tantos valores de derivadas LT como átomos

tenga la molécula. Esta situación puede traer algunos inconvenientes durante el tratamiento estadístico de la

data numérica, obtenida para el conjunto de moléculas en cuestión.

Para solucionar el problema anterior y lograr una homogeneidad en el número de valores a obtener,

podemos determinar una cantidad prefijada de descriptores totales de la molécula, o locales sobre

agrupaciones atómicas de interés (además de algunas derivadas LT que por su relevancia deban considerarse

en el análisis estadístico). Con este propósito, se propone la utilización de las Normas (1,2,…p) de

Minskowski y la Norma Geométrica, para su uso como descriptores totales de las moléculas y locales sobre

agrupaciones atómicas, las cuales pueden ser presentadas como sigue:

Norma p de Minskowski para cualquier molécula:

pn

i

pip

x ∑=

Δ=1

(3.7)

donde p puede tomar valores enteros positivos partiendo de 1,

y la norma Geométrica de la molécula:

nn

ii∏

=

Δ=1

ξ (3.8)

donde n es el número máximo de derivadas LT (Δi) incluidas.

De esta forma obtenemos igual juego de números para cada molécula sin importar la cantidad de

átomos que posea, además de que también podemos obtener los valores representativos de los grupos que nos

interesen solamente. Estos nuevos índices constituyen descriptores globales de la molécula si todos los

átomos son tomados en cuenta. Estas normas constituyen descriptores locales cuando solo una porción de los

átomos son tomados en cuenta para su cálculo. Así por ejemplo, para la molécula de metilpropanal podemos

encontrar derivadas de grupos como lo son las derivada sobre heteroátomos y carbonos alifáticos, etc.

30.14=ΔOE 36.60

1=X

E 09.40.)(

1=− alifcX

E 74.11=ξ

E

Estas Normas pueden ser usadas por otros especialistas para definir DMs de forma global y total. Por

ejemplo el índice del Estado Electrotopológico ha sido definido de forma local (ver capítulo 2) y pudiera ser


37



38

extendido de forma total sobre todos los átomos de la molécula (o local sobre agrupaciones atómicas

determinadas) con el uso de Normas, como las anteriormente descritas. Esta nueva forma de definir DMs

globales y locales es uno de los principales aportes teóricos y metodológicos de esta tesis.

“No basta con adquirir la ciencia, es necesario también usarla”

Marco Tulio Cicerón

4. CALCULOS DE LOS INDICES DE DERIVADA CON EL MATLAB-SOFTWARE Y

TRATAMIENTO DE DATOS.

4.1 Bases de Datos Utilizadas.

Para desarrollar este trabajo se utilizaron varias bases de datos de compuestos orgánicos, para los

cuales han sido reportadas sus propiedades (al menos la que se desea modelar). En primer lugar y con el

propósito de desarrollar los primeros estudios de interpretación en términos estructurales de los nuevos

índices de uso una data de compuestos carbonílicos y de otra de éteres, ambas utilizadas por Kier y Hall en

un estudio semejante con los índices del Estado Electrotopológico.47 Posteriormente, también se uso una data

de 18 octanos isómeros de cadena, la cual es una de las recomendada por la Academia Internacional de

Química-Matemática para realizar estudios de validación de nuevos índices. Como data más compleja desde

el punto de vista estructural, por la presencia de heteroátomos y cadenas más largas, se uso un conjunto

integrado por 28 alcoholes alifáticos para los cuales ha sido reportada su temperatura de ebullición y ha sido

utilizada por otros autores para la validación de nuevos índices.

4.2. Cálculo de los Nuevos Descriptores Moleculares. MATLAB Software.

Los nuevos Índices Topológicos de Derivada han sido implementados en un programa interactivo

desarrollado en MATLAB (ver Figura 9), que permite al investigador obtener los valores de las Derivadas LT

para cada uno de los átomos en la molécula. El programa consta de una sección denominada “variables de

entrada” donde se le suministra la información de partida (matriz de incidencia, ponderaciones, y grados del

vértices) y en breve lapso de tiempo podemos obtener los valores de la derivada LT, los cuales serán

debidamente organizados para su posterior utilización en el tratamiento estadístico. El software aun se

encuentra en perfeccionamiento con el objetivo de brindar mayor comodidad a los investigadores, sin

embargo ha sido usado satisfactoriamente en diferentes estudios QSPR que se discutirán mas adelante.

Figura 10. Software tipo-MATLAB, usado para calcular los Índices de Derivada

Los principales pasos para desarrollar un estudio QSAR/QSPR utilizando el enfoque del MATLAB-

SOFTWARE, se resumen brevemente a continuación:

1. Introducir en la sección “variables de entrada” la matriz de incidencia correspondiente a la

descripción de la estructura molecular.


Capítulo 4 Cálculo de los Índices de Derivada. MATLAB-Software. Tratamiento de Datos

2. Usar un ‘peso’ (etiqueta) apropiado para los átomos, con el propósito de diferenciar cada tipo de

átomo en la molécula.

3. Hacer corresponder con cada átomo (según la numeración otorgada) su correspondiente grado del

vértice.

4. Computar los índices de derivada totales, locales, por orden y/o tipo de subgrafos de la matriz de

incidencia de átomos (vértices del ‘grafo’) que haya sido generada a partir de la representación de la

estructura química de las moléculas. Este programa genera en la consola del MATLAB una fila en la

cual aparecen ordenadas, según la numeración otorgada, las derivadas LT de cada átomo, con estos

valores se obtienen las correspondientes normas.

5. Encontrar una o varias ecuaciones QSAR/QSPR usando técnicas estadísticas adecuadas, tales como

RLM, ADL, entre otras. Es decir, se encuentra una relación cuantitativa entre una actividad A y/o la

propiedad P de la estructura química codificada con los descriptores calculados. En este caso, la

ecuación obtenida debe tomar la siguiente apariencia:

A/P = α [normas (o derivadas incluidas en análisis)]+ c (4.1)

donde A/P es la medida de la actividad o la propiedad, y α representa los coeficientes obtenidos

por el análisis estadístico multivariable.

f

6. Probar la robustez y demostrar el poder predictivo de las ecuaciones QSAR/QSPR obtenidas usando

procedimientos de validación interna y externa.

7. Desarrollar una interpretación, en términos estructurales, de los modelos QSAR/QSPR obtenidos, que

permita enriquecer nuestros conocimientos acerca de la actividad y/o la propiedad (A/P) estudiada.

4.2. Análisis Estadístico de los Datos (RLM).

Los modelos QSAR-RLM se obtuvieron con el paquete de programas estadísticos

STATISTICA.125

Los estadísticos usados para evaluar la calidad del modelo y el ajuste del mismo a los datos

experimentales fueron el coeficiente de correlación múltiple (R) y el cuadrado de su valor (R2, coeficiente de

determinación). La desviación estándar (s) y la F de Fischer (y/o el nivel de significación del modelo y de

cada variable, p ≤ 0.05) también se tuvieron en cuenta a la hora del ajuste y selección de los modelos

desarrollados.

La calidad predictiva de las ecuaciones desarrolladas se evaluó utilizando los estadísticos del proceso

de validación cruzada (VC, validación interna). En este sentido, fueron aplicados el procedimiento de VC

LOO y LGO.


“Las ciencias aplicadas no existen, sólo las aplicaciones de la ciencia”

Louis Pasteur

5. ESTUDIOS DE COMPORTAMIENTO, INTERPRETACION Y VALIDACION DE LOS NUEVOS

ÍNDICES.

5.1 Descripción y Diferenciación de las Moléculas.

Para conocer con más detalles como este novedoso método describe la estructura molecular y diferencia

entre moléculas muy semejantes estructuralmente, se desarrollaron varios estudios. El primero de ellos,

muestra la descripción de un grupo de moléculas homólogas entre sí. En un segundo intento de conocer como

este método recoge información de la representación estructural, se realizó una descripción y posterior cálculo

de los IDGM para moléculas isómeras de cadena. Posteriormente se diferenció entre moléculas con igual

longitud en su cadena pero distinto grado de instauración y luego se describió la posición de dichas

instauraciones lográndose una adecuada y acorde diferenciación con la representación estructural. Por último,

se cuantificó con la aplicación de los nuevos IDGM la presencia de heteroátomos y su característica de

participación. Como etiqueta atómica en este último estudio, se usó la electronegatividad de Pauling.

5.1.1. Diferenciación entre homólogos.

En Tabla 1 se muestran los valores de derivada LT (utilizando la matriz total primeramente y luego las

matrices de los ordenes 1, 2 y 3 por separado) para los átomos que se especifican. Son calculadas además las

Normas 1 y 2 de Minkowski y la Norma Geométrica, las cuales son obtenidas para la molécula. Tabla 1. Diferenciación de homólogos.

S

átomo: ΕΔ ΕΔ1ΕΔ2

ΕΔ3 1X

E 2

XE

ξE

C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …

Molécula … … … … 34,67 18,04 8,3

C1 17,33 1,00 2,50 3,00 … … … C2 9,33 3,00 3,50 2,00 … … … C3 7,33 4,00 4,00 2,00 … … …

Molécula … … … … 60,67 28,79 11,39

C1 24,40 1,00 2,50 4,00 … … … C2 13,32 3,00 4,50 4,00 … … … C3 9,58 4,00 6,00 4,00 … … …

Molécula … … … … 94,60 41,58 14,60

C1 32,30 1,00 2,50 4,50 … … … C2 18,03 3,00 4,50 5,50 … … … C3 12,58 4,00 7,00 6,33 … … … C4 11,17 4,00 8,00 6,67 … … …

Molécula … … … … 137,00 56,38 17,95

Si se observa detenidamente podrá notarse que los valores de la derivada LT, para los distintos átomos

señalados, van decreciendo en la medida que nos acercamos al centro de la cadena carbonada de estos alcanos

lineales y homólogos entre sí. Cabe destacar como los átomos terminales de cadena también incrementan su

valor de ∆1 en la medida que pasamos de un homólogo inferior a un homólogo superior. Las normas son

descriptores totales para la molécula o locales sobre una agrupación de átomos dentro de la molécula en

cuestión. Las normas mostradas en esta Tabla son totales sobre todos los átomos de cada molécula y puede

verse un aumento regular de sus respectivos valores al incrementar un grupo metileno )( 2 −−CH de un


Capítulo 5 Estudios de Comportamiento, Interpretación y Validación de los Nuevos Índices

homólogo a otro. Estos ejemplos son muestra de como este método matemático describe las moléculas y

logra diferenciar entre sustancias homólogas entre sí, siendo esta una de las propiedades deseadas para un

nuevo ITs.89

5.1.2 Diferenciación entre isómeros de cadena.

La Tabla 2 muestra el resultado de un estudio análogo al anterior pero usando isómeros de cadena. Esta

Tabla refleja como las variaciones en la cadena carbonada en las moléculas trae consigo variaciones en los

valores de derivada de un átomo, acordes con la modificación experimentada en la estructura molecular al

pasar de un isómero a otro. Tabla 2. Diferenciación entre isómeros de cadena.


ΕΔ3

1X

E 2

XE ξ

E

C1 17,33 1,00 2,50 3,00 … … … C2 9,33 3,00 3,50 2,00 … … … C3 7,33 4,00 4,00 2,00 … … …

Molécula … … … … 60,67 28,79 11,39

C1 12,08 2,00 7,17 6,25 … … … C2 8,71 7,00 6,06 4,67 … … … C3 7,78 4,00 8,89 2,42 … … … C4 13,90 1,00 3,83 6,25 … … …

Molécula … … … … 54,55 24,93 10,66

C1 10,50 3,00 14,50 5,33 … … … C2 12,00 12,00 10,00 9,33 … … …

Molécula … … … … 54,00 24,19 10,78

Es interesante puntualizar la peculiar variación que experimentan las distintas normas al aumentar la

cantidad de ramificaciones y consecuentemente, disminuir el largo de la cadena principal. Véase como las

mismas disminuyen sus valores cuando esto ocurre.

5.1.3. La presencia de instauraciones y su posición.

El incremento de la densidad electrónica en una región determinada de la molécula puede ser detectado

favorablemente usando esta descripción matemática. Veamos como los átomos comprometidos en la

formación de enlaces múltiples incrementan su valor de derivada al aumentar la cantidad de enlaces entre

ellos. Consecuentemente las normas de estas moléculas aumentan su valor al incrementar el número de

enlaces entre los átomos (ver Tabla 3). Las normas también pueden ser usadas para diferenciar isómeros de

posición debido a que los valores de las mismas aumentan mientras más interna en la estructura molecular se

encuentra la instauración (ver Tabla 3).

Tabla 3. Determinación de la presencia de instauraciones y su posición en la molécula.


ΕΔ3 1X

E 2

XE

ξE

C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …

Molécula … … … … 34,67 18,04 8,30


44


C1 12,33 0,83 1,83 0,67 … … … C2 7,58 3,17 2,67 1,67 … … … C3 5,92 3,33 2,17 0,67 … … … C4 14,67 1,00 2,67 2,33 … … …

Molécula … … … … 40,50 21,44 9,49

C1 16,44 0,83 2,50 1,58 … … … C2 9,78 3,83 3,83 2,83 … … … C3 7,25 4,00 3,17 1,17 … … … C4 19,75 1,00 3,50 4,08 … … …

Molécula … … … … 53,22 28,44 12,32

C1 13,67 1,67 3,33 2,67 … … … C2 8,67 3,67 3,33 2,67 … … …

Molécula … … … … 44,67 22,89 10,88

C1 16,58 2,50 5,00 4,50 … … … C2 11,58 4,50 5,00 4,50 … … …

Molécula … … … … 56,33 28,61 13,86 5.1.4. Codificación de la presencia de heteroátomos.

Hasta el momento, hemos descrito moléculas integradas solamente por átomos de carbono e hidrógeno

(estos últimos no se tienen en cuenta a la hora de representar el grafo molecular).

Tabla 4. Evaluación de la presencia de heteroátomos


ΕΔ3 1X

E 2

XE ξ

E

C1 11,17 1,00 2,00 1,00 … … … C2 6,17 3,00 2,00 1,00 … … …

Molécula … … … … 34,67 18,04 8,30

N 12,17 1,22 2,45 1,64 … … … C2 6,52 3,22 2,22 1,30 … … … C3 6,69 3,00 2,22 1,30 … … … C4 11,29 1,00 2,00 1,03 … … …

Molécula … … … … 36,67 19,05 8,80

O 13,21 1,44 2,88 2,23 … … … C2 6,84 3,44 2,44 1,57 … … … C3 7,17 3,00 2,44 1,57 … … … C4 11,53 1,00 2,00 1,09 … … …

Molécula … … … … 38,75 20,14 9,30

F 14,81 1,76 3,52 3,09 … … … C2 7,30 3,76 2,76 1,94 … … … C3 7,87 3,00 2,76 1,94 … … … C4 11,97 1,00 2,00 1,20 … … …

Molécula … … … … 41,96 21,86 10,05


45


Aunque estos átomos sean la base fundamental de los compuestos orgánicos no podemos ignorar la

posible presencia de heteroátomos (entiéndase como heteroátomos, los átomos de cualquier elemento de la

tabla periódica distintos de carbono e hidrógeno), pues la inmensa mayoría la de las moléculas bioactivas

contienen al menos un átomo en sus estructuras diferente de carbono o hidrógeno. En la Tabla 4 se muestran

los resultados del cálculo de los nuevos índices atómicos y totales, usando como etiqueta para diferenciar los

átomos en la molécula la electronegatividad de Pauling. En ella puede verse como al aumentar la

electronegatividad de los heteroátomos (átomo # 1 en cada una de las moléculas) el valor de derivada aumenta

aproximadamente de forma regular y lo mismo ocurre con las correspondientes normas que posteriormente

pueden ser usadas en la correlación estadística.

5.2 Interpretación Químico – Física de los Nuevos Índices de Derivada.

En esta sección estudiaremos la información recogida por este nuevo tratamiento matemático, propuesto

por primera vez con esta tesis, para describir la estructura molecular.

Para comprobar si este método recoge información electrónica y estérica de los átomos se realizaron

dos estudios diferentes usando una serie de compuestos carbonílicos (aldehídos y cetonas) y otra de éteres y

se correlacionó con el corrimiento químico del 17O en Resonancia Magnética Nuclear (17O RMN).47

En RMN la frecuencia de resonancia de un núcleo (o conjunto de núclidos iguales) en presencia de un

campo magnético externo depende del entorno electrónico que posea dicho núcleo y diferirá del resto en

algunas partes por millón (ppm). Este fenómeno es conocido como corrimiento químico y es una expresión

cuantitativa del ambiente electrónico que rodea a cada átomo. Por esta razón, estas dos series de compuestos y

esta propiedad fueron seleccionadas para estudiar el comportamiento de los nuevos índices pues si logramos

obtener una elevada correlación entre nuestros resultados numéricos (Derivadas LT y Normas) y el

corrimiento químico podremos afirmar que este nuevo enfoque matemático permite describir la estructura de

las moléculas recogiendo información electrónica y estérica de las mismas.

5.2.1. Estudio con aldehídos y cetonas

Para este análisis se utilizó una data de aldehídos y cetonas que ha sido estudiada previamente por Kier

y Hall47, con el índice del Estado Electrotopológico (E-State). Todas son moléculas alifáticas, para las cuales

ha sido reportado el corrimiento químico del 17O (ver Tabla 5)

Tabla 5. Derivada LT de tercer orden para el Carbono unido al oxígeno y 0δ en 17O RMN

No Compuesto )( 13 CE Δ b0δ c predicho0δ d

(Ec. 5.1) 1 CHOCH 3 0.0 592.0 588.9

2 CHOHC 52 2.0 579.5 580.5

3 CHOHCi 73− 3.8 574.5 573.3

4 COCH 23 )( 5.6 569.0 565.8

5 523 HCOCCH 6.5 557.0 561.9

6 733 HCiCOCH −− 9.1 557.0 551.6

7 COHC 252 )( 7.9 547.0 556.5

8 7352 HCiCOHC −− 10.8 543.5 544.4

9 COHCi )( 73− 13.9 535.0 531.4 aCarga parcial sobre el átomo de oxígeno. bDerivada LT de orden 1 para el átomo de carbono adyacente al oxígeno, usando E como etiqueta atómica. cCorrimiento químico en 17O RMN. 47 dCorrimiento químico en 17O RMN calculado usando la Ec. 5.1.


46


Primeramente determinamos los valores de las derivadas LT para cada átomo de las moléculas

estudiadas y con ellas obtuvimos a su vez las correspondientes normas, en este caso todas como una expresión

de la descripción de las moléculas en su totalidad. Las ponderaciones usadas fueron Electronegatividad de

Pauling (E), Polarizabilidad (P), Masa atómica (A) y Volumen (V). Los mejores modelos obtenidos son los

siguientes:

Con 1 variable:

Oδ = 588.88 ( 3.17) -4.12 ( 0.41) (5.1) ± ± )( 13 CE Δ

R2 (%) = 93.61 s = 5.0218 q2 = 0.94 sCV = 2.34 F = 102.55

Con 2 variables:

212 )57.0(99.10)53.0(11.6)20.2(17.628 X

PAO ±−±+±= ξδ (5.2)

R2 (%) = 99.62 s = 1.3296 q2 = 0.996 sCV = 0.56 F = 778.33

Como puede observarse, al analizar los estadísticos fundamentales de cada modelo antes propuesto, se

desprende una elevada correlación (93.61% y 99.62%) entre los DMs calculados y el corrimiento químico

para el 17O. Se impone, además, discutir algunos comentarios acerca de los modelos antes mostrados. Por

ejemplo, para el primer modelo (Ec. 5.1) la variable que mejor correlaciona con el corrimiento químico es la

derivada LT del carbono unido directamente al oxígeno (adyacente), utilizando la sub-matriz de orden 3. Este

es un resultado lógico si tomamos en consideración que es este átomo el principal responsable del entorno

electrónico del núclido de oxígeno, después del propio oxígeno. La derivada LT de este carbono realiza una

contribución negativa al valor del Oδ . Este resultado es razonable si tomamos en consideración que la

derivada LT que entra a correlacionar mejor, está ponderada con electronegatividad “E”. Esto indica que

dependiendo de la capacidad para compartir electrones del átomo adyacente, dependerá el blindaje que pueda

provocar dicho átomo sobre el núclido de oxígeno y con ello su corrimiento químico. Esta capacidad está

influenciada, además de, por su electronegatividad, por los restos de cadena carbonados unidos al carbono

adyacente (información perfectamente recogida en los fragmentos de orden 3) y la tendencia de los mismos a

donar electrones por efecto inductivo. Una mayor capacidad para acercar electrones al átomo de oxígeno

implica mayor valor de derivada LT y con ello menor corrimiento químico (mayor blindaje). El segundo

modelo (Ec. 5.2) es mucho más preciso pues recoge en su constitución dos Normas [(dos variables

independientes que son una representación numérica de toda la molécula (descriptores totales)]. Estos índices

globales son una expresión de toda la molécula por lo que captan información de todos los átomos de la

misma que pueden realizar alguna contribución y modificar el ambiente electrónico del átomo de oxígeno.

También se realizó un estudio para conocer la mejor ponderación que se acoplaba con este suceso para

describir este proceso con la menor pérdida de información posible (ver Figura 11). El comportamiento de

este gráfico está acorde con el análisis desarrollado anteriormente y el mismo muestra como la mejor

ponderación es la electronegatividad de Pauling.


47


Figura 11. Estudio de mejor ponderación que correlaciona con el corrimiento químico (aldehídos y cetonas)

5.2.2. Estudio con Éteres

Un estudio similar se llevó a cabo utilizando una data de 10 éteres alifáticos (ver Tabla 6), para los

cuales fue reportado el corrimiento químicos del 17O en un estudio realizado por Kier y Hall.45 Las

ponderaciones usadas fueron las mismas que las computadas para los aldehídos y cetonas (ver sub-epígrafe

anterior). Los mejores modelos encontrados con ayuda de la regresión lineal múltiple fueron:

Con una variable:

Oδ = -247.01 ( 18.39) + 41.87 ( 2.86) (5.3) ± ± )(1V OΔ

R2 (%) = 96.41 s = 8.01 q2 = 0.94 sCV = 4.49 F = 214.60 Con dos variables:

)(1.04)62.68(X0.03)0.70(-5.51)-352.53( 1V

22 O

VO Δ±+±±=δ (5.4)

R2 (%) = 99.94 s = 1.05 q2 = 0.999 sCV = 0.25 F = 6426.24

Como puede apreciarse, estos modelos son cuantitativamente superiores (R2(%) = 96.4 y R2(%) = 99.9 ) a

los encontrados para los aldehídos y las cetonas (ver sub-epígrafe anterior). Resulta curioso que la

ponderación que mejor correlaciona en ambos casos es el volumen, lo que nos da una idea de la influencia

estérica generada por el esqueleto molecular y el propio volumen del átomo de oxígeno. La derivada LT de

orden 1 para el oxígeno entra en ambos modelos, la misma es una medida cuantitativa de la interacción de las

nubes electrónicas del oxígeno con los átomos de carbono adyacentes a él.

Un estudio para conocer la mejor ponderación fue realizado (ver Figura 12). En la Figura 12 se puede

observar lo expresado por estos modelos (Ec. 5.3 y 5.4) y analizar, además, el comportamiento de las otras

ponderaciones utilizadas.


48


Figura 12. Estudio de mejor ponderación que correlaciona con el corrimiento químico (éteres)

En este caso puede observarse que las ponderaciones Polarizabilidad (P), Masa atómica (A) y Volumen

(V), son las que mejores modelos ofrecen, siendo las mejores V y P. Ambas etiquetas atómicas expresan una

medida cuantitativa del tamaño y capacidad de deformación de la nube electrónica de los átomos, por lo que

es lógico esperar que tengan una marcada influencia sobre el corrimiento químico del núclido de oxígeno

(recuérdese que se debe analizar tanto el átomo de oxígeno como su entorno químico, especialmente los

átomos de carbono adyacentes a el).

Sin embargo, resulta curioso que en este estudio sea la “E”, la ponderación de más baja correlación,

contrario a lo ocurrido con la data anterior de aldehídos y cetonas. La explicación para este fenómeno puede

estar fundamentada en lo siguiente: en los compuestos carbonílicos analizados (aldehídos y cetonas) el

oxígeno está unido al átomo de carbono adyacente a él mediante un doble enlace, lo que enriquece mucho la

densidad electrónica en esa región y sumándole a esto, que el oxígeno es el más electronegativo (en

comparación con el carbono) pues tendrá más cerca de él la mayor densidad electrónica. Es por ello que la

principal influencia en el corrimiento químico del núclido de oxígeno viene dada por la mayor o menor

densidad electrónica sobre el oxígeno, aspecto este muy bien descrito por la derivada LT del carbono

adyacente al oxígeno, ponderado con electronegatividad (ver Ec. 5.1). También es válido tener en cuenta que

dada la hibridación del carbono adyacente al oxígeno (sp2), el grupo carbonilo es plano y los restos

carbonados están relativamente lejos del átomo de oxígeno e imposibilitados de acercamiento al mismo, por

lo que la influencia estérico-electrónica de estos grupos no es muy marcada. Sin embargo en al caso de los

éteres los átomos de oxígenos están más dentro de la estructura y unidos a los carbonos por enlaces sigma

solamente, los cuales son libres de rotar sobre sus ejes y con ello influenciar más o menos estéricamente la

distribución electrónica de los átomos de oxígeno. Por otro lado, la riqueza electrónica provocada en el

oxígeno por los carbonos adyacentes, es similar en todos los casos estudiados por lo que la verdadera

diferenciación debe estar dada en la influencia estérica de las agrupaciones laterales sobre la nube electrónica

de dicho átomo de oxígeno y eso precisamente como mejor puede diferenciarse es ponderando V y P, pues

son estas ponderaciones las que recogen ese tipo de información. Además, nótese que los éteres estudiados


49


poseen, en casi todos los casos, cadenas carbonadas laterales mayores que las presentes en las moléculas de

los compuestos carbonílicos analizados (ver Tablas 5 y 6).

Tabla 6. Derivada LT de primer orden para el Oxígeno y corrimiento químico en 17O RMN.

No. Compuesto )(1V OΔ b

Oδ cOδ calc.d

1 Dimetil éter 4.84 -52.2 -53.12 2 Etil metal- 5.35 -22.5 -22.64 3 Isopropil metal- 5.86 -2 -1.56 4 t-Butil metil 6.37 8.5 9.36 5 Dietil 5.86 6.5 7.72 6 Isopropil etil 6.37 28 28.75 7 t-Butil etil 6.88 40.5 39.50 8 Diisopropil 6.88 52.5 50.84 9 t-Butil isopropyl- 7.40 62.5 62.59 10 Di-t-Butil- 7.91 76 76.37

aCarga parcial sobre el átomo de oxígeno. bDerivada LT de orden 1 para el átomo de oxígeno, usando V como etiqueta atómica. cCorrimiento químico en 17O RMN. 47 dCorrimiento químico en 17O RMN calculado usando la Ec. 5.4.

5.3 Validación de los Nuevos Índices en Estudios QSPR.

Para validar adecuadamente la capacidad descriptiva y/o predictiva de los nuevos índices se

desarrollaron aplicaciones de los mismos a diferentes tipos de compuestos orgánicos para los cuales han sido

reportadas las propiedades que se desea modelar. Se incluirán en este epígrafe la modelación [usando los

nuevos índices de Derivada del Grafo (IDGM)] de varias propiedades químico-físicas de una serie de 18

octanos isómeros de cadena. Este es un estudio particularmente interesante, dado que es una muestra explícita

de la capacidad de diferenciación entre isómeros de cadena que poseen los IDGM. También se analizó una

data de 28 alcoholes alifáticos, a los cuales se les modeló la temperatura de ebullición. Más adelante en el

próximo epígrafe se estudiará detalladamente (usando la misma data de alcoholes) las mejores condiciones de

trabajo para modelar la temperatura de ebullición de los alcoholes alifáticos, usando los IDGM. El objetivo

fundamental de ese próximo estudio será comprender mejor algunos aspectos de esta descripción y conocer

las mejores ponderaciones usadas, los mejores órdenes y las mejores normas, para de esta forma simplificar el

trabajo y lograr un mayor entendimiento de las propiedades que se describen. En cada aplicación se realiza

una comparación de los resultados obtenidos usando estos nuevos índices de Derivada del Grafo Molecular

(IDGM) con los resultados alcanzados por otros autores empleando otros enfoques, los cuales han sido

previamente reportados en la literatura.

5.3.1. Modelación de propiedades químico-físicas de octanos

Como primer acercamiento, al estudio de la utilización práctica de los nuevos índices, se modelarán

algunas propiedades químico-físicas de una data de 18 octanos, todos isómeros de cadena entre sí. Esta data

ha sido propuesta por Academia Internacional de Química-Matemática, como una de las más adecuadas a usar

cuando se desea validar un nuevo índice. Para estos compuestos se ha determinado con precisión cada uno

de los parámetros que serán objeto de análisis, como son la temperatura de ebullición, la entalpía de

vaporización, la entropía, la entalpía de formación, el número motor y el volumen molar. Todas las moléculas

de esta data son compuestos constituidos a base de carbono e hidrógeno, pero como se consideraron los sub-

grafos moleculares con hidrógenos suprimidos, se puede entonces prescindir de la ponderación pues se hace

innecesario diferenciar el tipo de átomo, ya que todos son átomos de carbono. Los mejores modelos obtenidos

usando la regresión lineal múltiple son los siguientes:


50


Temperatura de Ebullición (5.5) 53

31 0.47)2.54(-X0.05)0.32(1.33)10.47(- 3.48)160.37( ξξ ±±+±±=eT Número Motor de Octanos:

(5.6) 3

61

52

4 X0.16)0.32(X0.08)0.75(0.07)1.45(5.34)-67.10( ±+±+±+±= XMON Entalpía de Vaporización:

(5.7) 3

43

31 X0.02)0.10(-X0.01)0.05(0.34)3.57(-0.91)82.50( ±±+±±= ξHV

Volumen Molar:

(5.8) 3

421 X0.06)0.28(0.23)2.44(-2.04)13.28(4.96)135.97( ±+±±+±= ξξMV Entropía:

(5.9) 313

32 1.11)3.70(-X0.14)0.47(X0.08)0.49(-0.76)117.42( ξ±±+±±=S

Entalpía de Formación:

(5.10) 5151 0.24)1.16(X0.02)0.13(-0.28)2.89(-0.64)-43.14( ξξ ±+±±±=Δ fH

• Nota: Los parámetros estadísticos de estos modelos están reportados en la Tabla 7.

Todos los modelos muestran parámetros estadísticos verdaderamente significativos, los mismos fueron

validados internamente (LOO). Tabla 7. Comparación con otros enfoques

Method size Q2LOO R2 s F Model Descriptors Ref.

Temperatura de Ebullición (BP)

Indices de Derivada 3 78.13 92.98 1.78 61.830 5331 ,, ξξ X Ec. 5.5

getaway + whim + top. 3 98.12 98.78 0.744 2χ 2 χ HATS6(p) 53 getaway 3 97.10 98.32 0.897 HATS2(v) R4(u) R6(v) 53

topological 3 95.84 1.394 S3W S4W SJ 58 Motor Octane Number (MON)

Indices de Derivada 3 97.75 99.15 2.55 464.61 3

652

4 ,, XXX Ec. 5.6

getaway + whim + top. 3 98.58 99.23 2.439 vIDM Ts HATS1(m) 53

getaway 3 97.42 98.62 3.259 HATS4(u) HATS7(v) R7(p) 53

topological 3 98.05 3.855 Sχ1W χ7W χ3W 58 Heat of Vaporization (HV)

Indices de Derivada 3 83.99 95.00 0.499 3

43

31 ,, XXξ Ec. 5.7

getaway + whim + top. 3 97.57 98.42 0.281 0 χ 3κ R+6(u) 53

getaway 3 95.46 97.18 0.375 HATS6(u) R4(u) R+1(m) 53

topological 3 95.65 0.459 χ1W χ2W χ3W 58 Molar Volume (MV)

Indices de Derivada 3 33.82 91.75 1.85 3

421 ,, Xξξ Ec. 5.8

getaway + whim + top. 3 75.96 92.01 1.825 Ks R+6(u) RT+(m) 53

getaway 3 69.27 90.33 2.008 HATS6(p) RT+(m) R1(v) 53 topological 3 88.29 2.210 5W 6W 7W 58


51


Tabla 7. Continuación

Method size Q2LOO R s F Model Descriptors Ref.

Entropy (S)

Indices de Derivada 3 98.82 95.32 1.076 95.14 313

32 ,, ξXX Ec.

5.9 getaway + whim + top. 3 97.17 97.96 0.711 vID,deg TWC R+

2(p) 53 getaway 3 93.45 95.84 1.016 ISH HATS8(m) R3(v) 53

Heat of Formation (ΔHf)

Indices de Derivada 3 94.56 93.24 0.35 64.37 5151 ,, ξξ X Ec.

5.10 getaway + whim + top. 3 95.06 96.60 0.254 HATS5(m) HATS7(m) R4(e) 53 topological 3 87.05 0.492 Ω1 Ω2 Ω3 54

La comparación con otros enfoques ha resultado realmente alentadora, los modelos encontrados están

todos a la altura de los mejores, mostrados en la literatura especializada por otros autores. En algunos casos

las ecuaciones encontradas poseen parámetros estadísticos algo inferiores a los que validan otros buenos

modelos y que son objeto de comparación con estos. Sin embargo la descripción de otras propiedades,

mostradas en la tabla, resultó satisfactoria desde todos los puntos de vista.

5.3.2. Modelación de la temperatura de ebullición de alcoholes alifáticos

Los alcoholes son moléculas más complejas que los alcanos, por tener en su estructura un grupo

hidroxilo unido a un resto de cadena carbonada, de manera general. Es esta peculiaridad (presencia del –OH)

la que hace que los alcoholes presenten propiedades algo anómalas de las que debían esperarse si se comparan

con hidrocarburos de masa molar semejante. Una de estas propiedades es la temperatura de ebullición, pues

los alcoholes presentan de forma general elevadas temperaturas de fusión y ebullición por la capacidad que

tienen de interactuar a través de puentes de hidrogeno. En esta sección se modelará la temperatura de

ebullición para una data de alcoholes alifáticos. Para este estudio se tomó una data de 28 alcoholes alifáticos,

14 de ellos primarios, 6 secundarios y 8 terciarios, para los cuales han sido reportadas sus temperaturas de

ebullición (a la presión de 101.325 kPa). En la Tabla 8 se muestran las estructuras de estos compuestos, se

muestran además los valores del punto de ebullición reales para cada uno de los alcoholes, y los predichos

por las ecuaciones anteriores, también se incluyen los resultados obtenidos usando los momentos espectrales

locales por Estrada y Molina y los encontrados por Kier y Hall con los índices del estado electrotopológico.

Los mejores modelos obtenidos usando los nuevos Índices de Derivada y la regresión lineal múltiple

son:

Con 2 variables:

OM

OHMBp Δ±+Δ±+±= − )09.0(01.1)09.0(29.2)88.2(26.59 )( (5.11)

Con 3 variables:

323

)40.0(74.3.)()21.0(26.2.)()09.0(00.1)64.3(37.68)( ξPPPo alifXalifXCBp ±−±+±+±= (5.12)

Con 4 variables:

.)()35.1(75.14)15.0(87.1)27.1(05.16.)()37.1(82.18)59.3(37.59 )(33

alifXalifXBpM

OHAPP

ξ±−Δ±+±−±+±= − (5.13)

Con 5 variables:

)(2 )24.0(94.0)68.1(68.9.)()24.1(62.16)28.0(22.1.)()37.1(26.14)13.5(79.75 OHAPEPP

XalifXalifXBp −Δ±+±−±−±+±+±= ξ33

(5.14)


52


• Nota: Los parámetros estadísticos de estos modelos están reportados en la Tabla 9. Figura 13. Observado vs predicho, usando ecuación de 5 variables.

En la Figura 13, se muestra un gráfico de valores observados contra predichos obtenidos con la

ecuación 5.14. De esta forma se puede evaluar con gran claridad la capacidad predictiva del mejor modelo

obtenido (con 5 variables), encontrado con ayuda de la regresión lineal múltiple.

Tabla 8. Estructura y valores de la temperatura de ebullición de los alcoholes alifáticos estudiados.

Predicted vs. Observed ValuesDependent variable: Bp

60 80 100 120 140 160 180 200

Predicted Values

60

80

100

120

140

160

180

200

Obs

erve

d Va

lues

95% confidence

Alcohol-R Bp (°C)A Predichos

B Bp (°C)Predichos

C Bp (°C)Predichos

D Bp (°C)Predichos

E Bp (°C) Predichos

F Bp (°C)Predichos

G Bp (°C)

(CH3)2CH- 82.3 91.12 86.15 83.88 82.66 82.9 91.1

CH3CH2CH2- 97.2 102.76 101.13 99.47 100.37 96.0 97.4

CH3(CH2)3- 117.7 114.88 116.37 117.83 119.08 115.2 113.6

CH3CH(CH3)CH2- 107.8 112.75 109.72 109.46 109.73 108.0 109.0

CH3CH2C(CH3)2- 102.4 103.89 101.89 102.15 102.81 105.4 112.4

CH3CH2CH2CH(CH3)- 119.3 115.62 119.05 117.03 114.76 114.4 120.3

CH3CH(CH3)CH2CH2- 131.1 126.78 128.20 131.7 131.0 134.5 127.4

CH3CH2CH(CH3)CH2- 128.0 124.97 123.93 126.86 126.32 127.3 125.2

CH3(CH2)4- 137.9 130.64 134.62 136.51 135.33 134.3 131.8

CH3C(CH3)2CH(CH3)- 120.4 129.27 119.95 119.08 121.26 129.3 123.0

CH3(CH2)2C(CH3)2- 121.1 120.59 124.24 119.71 119.92 124.9 128.9

(CH3CH2)2C(CH3)- 122.4 118.02 121.85 121.69 122.10 121.9 126.3

CH3CH2C(CH3)2CH2- 136.5 139.98 134.14 134.15 137.12 142.5 138.4

CH3CH(CH3)CH2CH(CH3)- 131.6 129.23 131.27 132.63 130.33 133.9 133.4

CH3CH(CH3)CH(CH3CH2)- 126.5 127.33 129.58 129.35 128.31 121.9 128.7

CH3CH(CH3)CH(CH3)CH2- 144.5 138.75 135.73 139.61 139.81 146.7 138.3

CH3CH2CH2CH(CH3)CH2- 149.0 141.29 151.02 144.64 148.25 146.4 143.4

CH3(CH2)5- 157.6 156.23 155.95 159.62 158.59 153.4 169.8

(CH3CH(CH3))2CH- 138.7 145.49 144.90 147.23 142.04 136.4 139.0

CH3CH(CH3)CH2CH(CH3)CH2- 159.0 156.47 156.70 158.59 158.49 165.5 157.7


53


(CH3CH2)3C- 142.0 143.37 141.09 142.76 143.20 138.6 138.5

CH3(CH2)6- 176.4 174.33 175.11 175.74 173.95 172.5 172.2

(CH3CH2CH2)2(CH3)C- 161.0 158.08 162.53 159.36 160.77 160.9 161.3

(CH3(CH2)3)(CH3CH2)(CH3)C- 163.0 160.11 164.08 163.14 163.32 160.5 162.7

CH3CH(CH3)CH2(CH2)4- 188.0 191.38 191.92 189.72 190.92 191.6 188.3

CH3(CH2)7- 195.1 202.78 197.26 196.61 195.08 191.6 193.0

CH3(CH2)5C(CH3)2- 178.0 181.15 177.63 176.33 179.95 182.2 188.4

(CH3CH2CH2)2(CH3CH2)C- 182.0 179.22 180.48 181.49 180.54 177.6 177.0 A Valores experimentales de Bp. B Valores predichos usando índices de Derivada (Eq. 5.7 )

C Valores predichos usando índices de Derivada (Eq. 5.8). D Valores predichos usando índices de Derivada. (Eq. 5.9.) E Valores predichos usando índices de Derivada. (Eq. 5.10) F Valores predichos usando momentos espectrales. G Valores predichos usando E-state.

El E-State y los Momentos Espectrales Locales son los descriptores moleculares más utilizados en el

mundo entero, especialmente en la industria farmacéutica, sin embargo es bueno destacar que los modelos

obtenidos usando los Índices de Derivada del Grafo Molecular son estadísticamente superiores a los

encontrados por estos autores (ver Tabla 9). Nótese que nuestro modelo de 3 variables explica el 98.8 % de

la varianza con una desviación estándar en los resultados de ± 3.248 0 C , mientras que el modelos análogo

de 3 variables encontrado por Kier y Hall usando el índice del Estado-Electrotopológico solo explica el 92.6

% de la varianza y su desviación estándar es casi el doble de la obtenida para el modelo de 3 variables usando

los Índices de Derivada del Grafo Molecular (IDGM). El modelo de 5 variables obtenido usando los IDGM es

también estadísticamente superior, a su análogo encontrado por Estrada y Molina usando los Momentos

Espectrales Locales. Tabla 9. Comparación con otros métodos

index n R2 s q2 sCV F

Boiling Point of 28 Alkyl-Alcohols

Índices de Derivada [Eq. 5.11] 2 0.97 4.91 0.96 5.40 436.61




Local spectral moments 5 0.982 4.2 * * 23.8

E-State/encounter parameters 3 0.926 5.8 * * 204

*Valores no reportados.

Todos los modelos obtenidos fueron sometidos a validación cruzada (CV) “dejando uno fuera”

(“LOO”), los errores absolutos en este proceso oscilan entre 2.24 y 4.91 0 C.

5.4. Estudio de las Mejores Condiciones, para la Descripción Molecular.

Con el objetivo de entender mejor la metodología matemática propuesta en esta tesis para describir la

estructura molecular, se realizaron un grupo de estudios para conocer la mejor ponderación usada para

describir la temperatura de ebullición y de esta forma interpretar de alguna forma la información recogida por

estos nuevos índices, también se determinó el orden que recoge mayor información útil acerca de la topología

molecular. Por último se estudió el comportamiento de las distintas normas, que pueden ser usadas como

descriptores totales y locales sobre determinadas agrupaciones atómicas y que posteriormente se

correlacionan estadísticamente con la propiedad en cuestión.

5.4.1. Determinación de la mejor ponderación usada.

Se determinaron todos los modelos de 1 a 5 variables para cada una de las ponderaciones usadas

(Electronegatividad de Pauli “E”, Masa Atómica “A”, Polarizabilidad “P”, Electronegatividad de Mulliken

“K” y Volumen “V”). Posteriormente se seleccionó el mejor modelo correspondiente a cada una de las


54


ponderaciones y con 1, 2, 3, 4 y 5 variables respectivamente. Luego para visualizar los resultados se graficó el

coeficiente de determinación (R2) vs ponderaciones, la figura 14, muestra lo anteriormente expresado.

Figura 14. Estudio para determinar las mejores ponderaciones.

Si se analiza este gráfico detenidamente nos podemos percatar que los mejores modelos de 4 y 5

variables se encontraron usando las electronegatividades (Milliken y Pauling) como ponderación, mientras

que el modelo de 1 variable con mejor coeficiente de determinción (R2), se encontró con la polarizabilidad

como ponderación. También se puede ver que el volumen es la ponderación que más estable se mantiene

durante todo el estudio. Hecho este análisis se puede pasar a la segunda etapa de este estudio.

5.4.2. Obtención del orden que recoge mayor información estructural

Para esta etapa del análisis se escogieron las ponderaciones: Electronegatividad de Mulliken y

Polarizabilidad, por ser las que mejores modelos ofrecieron en el estudio previo acerca de la mejor

ponderación (con 5 y 1 variables respectivamente). Tomando ahora un único peso atómico, se obtuvieron

modelos desde 1 a 5 variables, tomando como matriz de incidencia solo la sección de la matriz de incidencia

generalizada que recoge los subgrafos de un orden en específico. De esta forma se realizó el cálculo para cada

uno de los órdenes de 1 a 4, luego se graficó el coeficiente de correlación al cuadrado (R2) de los mejores

modelos obtenidos (1-5 variables) contra cada unos de los órdenes y la matriz generalizada (ver Figura 15 y

16). Este proceso se realizó primeramente usando como etiqueta la electronegatividad de Mulliken (K) y

luego se repitió usando la polarizabilidad. En ambos gráficos (ver Figuras 15 y 16) puede observarse que los

mejores modelos, fueron obtenidos con la matriz de incidencia generalizada. Respecto a los órdenes, se

desprende un interesante comportamiento y es que es el orden “1”, es el que mejores modelos registra,

después de la matriz generalizada. Lo que indica que la información más importante de la “molécula

desglosada” está recogida en los enlaces entre pares de átomos, los cuales en su conjunto forman la molécula

integra. A partir del orden 2 se observa un decrecimiento en el R2 de los modelos encontrados y en la medida

en que los subgrafos crecen, al acercarse cada vez más a la estructura de la molécula íntegra, se aprecia cierta

tendencia a mejorar la correlación.


55


Figura 15. Comparación entre Ordenes (1-4) y Matriz de Incidencia Generalizada usando Electronegatividad de Mulliken como ponderación para los átomos

Figura 16. Comparación entre Ordenes (1-4) y Matriz de Incidencia Generalizada usando polarizabilidad como ponderación para los átomos 5.4.3. Comparación entre Normas

Las Normas son introducidas con el objetivo de estandarizar la información producida por las derivadas

LT de los distintos átomos de la molécula en cuestión y de esa forma facilitar el tratamiento estadístico de los

resultados perdiendo la menor cantidad posible de información. Para conocer cual de las normas usadas

correlaciona mejor (al menos en el caso de alcoholes alifáticos con su temperatura de ebullición) con la

propiedad en cuestión, se hallaron modelos desde 1-5 variables usando la matriz de incidencia generalizada y

la electronegatividad (K) como etiqueta para los átomos (ver Figura 17). En el gráfico también se incluye la

derivada LT del oxígeno hidroxílico, pues en gran medida es este átomo quien determina la magnitud de las

interacciones fundamentales en los alcoholes y por tanto de propiedades como la temperatura de ebullición.

En la figura 17, se observa que todas las normas recogen más o menos igual cantidad de información, aunque


56


cabe destacar que para modelos con 4 y 5 variables la norma geométrica supera las demás, si comparamos las

otras tres, podemos percatarnos que la norma 2 es ligeramente superior a las otras, pero todas muestran

elevados coeficientes de determinación en todos los casos. La Derivada LT del oxígeno muestra una

correlación menor, aunque no tan baja si tenemos en cuenta que la misma recoge solo información de ese

átomo y la influencia del resto molecular sobre él, y se correlacionó con una propiedad de la molecular.

Figura 17. Comparación entre las distintas normas usadas en este estudio y la Derivada LT del oxígeno hidroxílico


57

"Las ciencias tienen las raíces amargas, pero muy dulces los frutos"

Aristóteles


6. CONCLUSIONES

Atendiendo a los resultados obtenidos, se ha llegado a las siguientes conclusiones:

La aplicación de conceptos de la matemática discreta y el álgebra lineal a la química permitió

definir una nueva familia de descriptores moleculares bidimensionales (totales y locales)

denominados Índices de Derivada del Grafo Molecular (IDGM).

Se generalizó y empleó por vez primera la matriz de incidencia del grafo molecular, al igual que

la matriz de frecuencia en la definición de un nuevo DMs.

Se introduce el uso de Normas 1, 2 y 3 de Minkowski y la Norma geométrica como descriptores

totales y locales sobre agrupaciones atómicas de interés.

Se demostró que los IDGM son útiles para describir adecuadamente la estructura de moléculas

orgánicas, por lo que pueden ser utilizados en estudios QSPR/QSAR y el diseño “racional” de

fármacos en sus diferentes etapas.

Se comprobó que los nuevos IDGM recogen información electrónica y estérica de las moléculas.

El resultado de la comparación con otros métodos que se han aplicado con éxito en los estudios

de QSPR, permite expresar que los índices basados en el cálculo de las Derivadas del grafo

molecular deben ser una novedosa y útil herramienta quimio-bioinformática para el diseño

"racional" automatizado de fármacos y otras aplicaciones de interés químico-físico.

“El futuro de nuestro país tendrá que ser necesariamente un futuro de hombres de ciencia, de hombres de pensamiento”

Fidel Castro Ruz


7. RECOMENDACIONES

Concluida ya esta tesis y a partir de los resultados obtenidos, indicamos a continuación las siguientes recomendaciones, que trazan una guía para la continuación de este trabajo:

Extender los estudios y aplicaciones realizadas a Derivadas de Orden Superior,

Derivadas Mixtas y Derivadas sobre n-uplas de elementos. Desarrollar además

nuevos sucesos que permitan explorar nuevos horizontes de esta metodología y lograr

así una mayor y mejor interpretación químico-física de estos nuevos ITs. Desarrollar nuevos modelos “in sílico”, con la utilización los IDGM, para la

predicción de propiedades químicas, químico-físicas, físicas, biológicas,

farmacocinéticas (de distribución, metabolismo y eliminación) y toxicológicas

(mutagénesis, carcinogénesis, reacciones adversas, etc.), en aras de extender el

método utilizado en el presente trabajo y de esta forma validar sus potencialidades en

el diseño ‘racional y sostenible’ de fármacos y otros materiales sintéticos.

En este momento existen trabajos relacionados con estas recomendaciones y los resultados

parciales son realmente alentadores. Algunos de ellos deben estar listos para la segunda quincena

de enero o primera quincena de febrero del 2009.

“Lo opuesto de una formulación correcta es una formulación incorrecta. Pero lo opuesto de una verdad profunda puede ser muy bien otra verdad profunda”

Niels Henrik David Bohr


8. REFERENCIAS BIBLIOGRÁFICAS

1. Louis, J. C. Biosilico 2003, 1, 115.

2. Rogers, M. Newsweek 1992, 14, 9.

3. Johnson, L. IUCr. Newsletter 1994, 2, 5.

4. Kniaz, D. Mod. Drug. Discov 2000, May,, 67.

5. Herklots, H. Mod. Drug. Discov 2000, March, 46.

6. Ladd, B. Mod. Drug. Discov 2000, Jan/Feb, 46.

7. Hann, M.; Green, R. Curr. Opin. Chem. Biol. 1999, 3, 379.

8. van de Waterbeemd, H.; Carter, R. E.; Grassy, G.; Kubinyi, H.; Martin, Y. C.; Tute, M., S.; Willett, P.

Annu. Rep. Med. Chem. 1998, 33.

9. Ooms, F. Curr. Med. Chem. 2000, 7, 141.

10. Katrizky, A.; Maran, U.; Lobanov, V. S.; Karelson, M. J. Chem. Inf. Comput. Sci. 2000, 40, 1.

11. Charton, M. Advances in Quantitative Structure-Property Relationships; Amsterdam: JAI Press, 1996.

12. Grover, M.; Singh, B.; Bakshi, M.; Singh, S. Pharm. Sci. Technol. Today 2000, 3, 28.

13. Schultz, T. W.; Cronin, M. T.; Netzeva, T. I.; Walker, J. D.; Aptula, A. O. J Mol Struct (THEOCHEM)

2003, 622, 1.

14. Karelson, M. Molecular Descriptors in QSAR/ QSPR; New York: John Wiley & Sons, 2000.

15. Kubinyi, H. Parameters in Methods and Principles in Medicinal Chemistry In QSAR Hansch Analysis

and related Approaches; Mannhold, 1993, 21.

16. Devillers, J.; Balaban, A., T. Topological Indices and Related Descriptors in QSAR and QSPR;

Amsterdam, the Netherlands,: Gordon and Breach, 1999.

17. Estrada, E.; Uriarte, E. Curr. Med. Chem. 2001, 8, 1699.

18. Rappé, A., K.; Casewit, C. J. Molecular Mechanics Across Chemistry; Herndon, VA: University Sci.

Books, 1997.

19. Balaban, A., T. SAR QSAR Environ. Res. 1998, 8, 1.

20. Basak, S. C.; Magnuson, V. R. Arzneimittelforschung 1983, 33, 501.

21. Anton-Fos, G. M.; Garcia-Domenech, R.; Perez-Jimenez, F.; Peris-Ribera, J., E.; Garcia-March, F. J.;

Salabert- Salvador, M. T. Arz.-Forsch. Drug Res. 1994, 44, 821.

22. de Julian-Ortiz, J. V.; de Gregorio Alapont, C.; Rios-Santamarina, I.; Garcia-Domenech, R.; Galvez, J. J

Mol Graph Model 1998, 16, 14.

23. Estrada, E. J. Chem. Inf. Comput. Sci. 1996, 36, 844.


25. Estrada, E.; Molina, E. J. Mol. Graphics Model 2001, 20, 54.

Referencias bibliográficas .


26. Estrada, E.; Peña, A. Bioorg. Med. Chem 2000, 8, 2755.

27. Estrada, E.; Peña, A.; García-Domenech, R. J. Comp. Aided Mol. Design. 1998, 12, 583.

28. Estrada, E.; Rodriguez, L. Match 1997, 35, 157.

29. Marrero-Ponce, Y. Molecules 2003, 8, 687.

30. Marrero-Ponce, Y.; Cabrera, M., A.; Romero, V.; Ofori, E.; Montero, L. A. Int. J. Mol. Sci. 2003, 4, 512.

31. Marrero-Ponce, Y.; Castillo-Garit, J. A.; Torrens, F.; Romero-Zaldivar, V.; Castro, E. Molecules 2004,

9, 1100.

32. Marrero-Ponce, Y.; Díaz, H. G.; Romero, V.; Torrens, F.; Castro, E. A. Bioorg. Med. Chem. 2004, 12,

5331–5342.

33. Marrero-Ponce, Y.; Torrens, F.; García-Domenech, R.; Ortega-Broche, S. E.; Romero-Zaldivar, V. J.

Math Chem. 2008, 44, 650-673.

34. Castillo-Garit, J. A.; Martínez-Santiago, O.; Marrero-Ponce, Y.; Casañola-Martín, G. M.; Torrens, F.;

Chemical Physics Letters. 2008, 464, 107-112.

35. Diaz, H. G.; de Armas, R. R.; Molina, R. Bioinformatics 2003, 19, 2079.

36. Diaz, H. G.; Sanchez, I. H.; Uriarte, E.; Santana, L. Comput Biol Chem 2003, 27, 217.

37. Todeschini, R.; Consonni, V. Handbook of molecular descriptors; Weinheim: Germany: Wiley VCH,

2000.

38. Harary, F. Graph Theory; MA: Addison-Wesley, Reading, 1971.

39. Cvetkovic, D. M.; Doob, M.; Sachs, H. Spectra of Graphs. Theory and Applications; Heidelberg: Johann

Ambrosius Barth, 1995.

40. Balaban, A., T. (Ed.). Chemical Applications of Graph Theory; London: Academic Press, 1976.

41. Gutman, I.; Polansky, O. E. Mathematical Concepts in Organic Chemistry; Berlin: Springer-Verlag,

1986.

42. Rouvray, D. H. Computational Chemical Graph Theory; New York: Nova Science, 1990.

43. Bonchev, D.; Rouvray, D. H. Chemical Graph Theory. Introduction and Fundamentals; New York:

Abacus Press/ Gordon and Breach Science Publishers, 1991.

44. Mihalic, Z.; Trinajstic, N. J. Chem. Educ. 1992, 69, 701.

45. Kier, L. B.; Hall, L. H. Molecular Connectivity in Chemistry and Drug Research; New York: Academic

Press, 1976.

46. Kier, L. B.; Hall, L. H. Molecular Connectivity in Structure–Activity Analysis; Letchworth, U. K:

Research Studies Press, 1986.

47. Kier, L. B.; Hall, L. H. Molecular Structure Description. The Electrotopological State; San Diego:

Academic Press, 1999.



48. Kier, L. B.; Hall, L. H. Pharm Res 1990, 7, 801.

49. Balaban, A. T.; Chiriac, A.; Motoc, I.; Simon, Z. Steric Fit in Quantitative Structure–Activity Relations;

Berlin: Springer, 1980.

50. Bonchev, D. Information Theoretic Indices for Characterization of Chemical Structure; Chichester, UK:

Research Studies Press – Wiley, 1983.

51. Voiculetz, N.; Balaban, A. T.; Niculescu-Duvaz, I.; Simon, Z. Modeling of Cancer Genesis and

Prevention; Boca Raton: CRC Press, 1990.

52. Diudea, M. V. QSPR/QSAR Studies by Molecular Descriptors; Huntington, N.Y.: Nova Science, 2001.

53. Graovac, A.; Gutman, I.; Trinajstic, N. Topological Approach to the Chemistry of Conjugated

Molecules; Berlin: Springer, 1977.

54. Dias, J. R. Molecular Orbital Calculations Using Chemical Graph Theory; Berlin: Springer, 1993.

55. Pólya, G.; Read, R. C. Combinatorial Enumeration of Groups, Graphs, and Chemical Compounds;

Berlin: Springer, 1987.

56. Fujita, S. Symmetry and Combinatorial Enumeration in Chemistry; Berlin: Springer, 1991.

57. Ivanciuc, O. Canonical Numbering and Constitutional Symmetry. In The Encyclopedia of

Computational Chemistry; Schleyer, P. V. R., Allinger, N. L., Clark, T., Gasteiger, J., Kollman, P. A.,

F., S. I. H., Schreiner, P. R., Eds.; John Wiley and Sons: Chichester, 1998, 167.

58. Temkin, O. N.; Zeigarnik, A. V.; Bonchev, D. Chemical Reaction Networks. A Graph-Theoretical

Approach; Boca Raton: CRC Press, 1996.

59. Koča, J. K., M.; Kvasnička, V.; Matyska, L.; Pospýchal, J. 1989. Synthon Model of Organic Chemistry

and Synthesis Design, ; Berlin: Springer, 1989.

60. Gálvez, J.; García, R. Diseño de fármacos por conectividad molecular. (Monografía); Madrid:

Farmaindustria, 1994.

61. Gorbátov, V. A. Fundamentos de la Matematica discreta; Moscú, URSS: Mir., 1988.

62. Busacker, R. G.; Saaty, T. Finite Graphs and Networks; New York: McGraw-Hill, 1965.

63. Wilson, R. J. Introduction to Graph Theory; Edimburgh: Oliver & Boyd, 1972.

64. Trinajstic, N. Chemical Graph Theory; FL: CRC Press: Boca Raton, 1992.

65. Ivanciuc, O. Rev. Roum. Chim. 2000, 45, 289.

66. Ivanciuc, O.; Balaban, A., T. MATCH (Commun. Math. Chem.) 1994, 30, 141.

67. Randic, M. J. Chem. Inf. Comput. Sci. 1997, 37, 1063.

68. Ivanciuc, O. ACH – Models Chem. 2000, 137, 607.

69. Ivanciuc, O.; Ivanciuc, T.; Balaban, A. T. ACH – Models Chem. 2000, 137, 57.

70. Diudea, M. V. J. Chem. Inf. Comput. Sci. 1997, 37, 292.



71. Randic, M. J. Math. Chem. 1990, 4, 157.

72. Balaban, A., T. (Ed.). From Chemical Topology to Three-Dimensional Geometry; New York: Plenum,

1997.

73. Rouvray, D. H. In Mathematical and Computational Concepts in Chemistry; Trinajstic, N., Ed.; Ellis

Horwood: Chichester, 1986, 295.

74. Hansen, P. J.; Jurs, P. C. J. Chem. Educ. 1988, 65, 574.

75. Randic, M. Encyclopedia of Computational Chemistry; New York: John Wiley & Sons, 1998.

76. Kier, L. B.; Hall, L. The electrotopological state: structure modeling for QSAR and data base analysis

In Topological Indices and Related Descriptors in QSAR and QSPR; Devillers, J., Balaban, A. T., Eds.;

Gordon and Breach Sci. Pub.: Amsterdam, 1999, 491.

77. Mokrosz, J. L.; Duszynska, B.; Strekowski, L. Pharmazie 1992, 47, 538.

78. Katritzky, A., R.; Gordeeva, E., V. J. Chem. Inf. Comput. Sci. 1993, 33, 835.

79. Balaban, A. T. J. Chem. Inf. Comput. Sci. 1992, 32, 23.

80. Wiener, H. J. Am. Chem. Soc. 1947, 69, 17.

81. Hosoya, H. Bull. Chem. Soc. Japan 1971, 44, 2332.

82. Balaban, A. T. Theor. Chim. Acta 1979, 5, 239.

83. Mohar, B.; Babic, D.; Trinajstic, N. J. Chem. Inf. Comput. Sci. 1993, 33, 153.

84. Gutman, I.; Mohar, B. J. Chem. Inf. Comput. Sci. 1996, 36, 982.

85. Ivanciuc, O.; Balaban, T. S.; Balaban, A. T. J. Math. Chem. 1993, 12, 309.



88. Platt, J. R. J. Chem. Phys. 1947, 15, 419.

89. Gutman, I.; Ruscic, B.; Trinajstic, N.; Wilcox, C. F. J. Chem. Phys. 1975, 62, 3399.

90. Kier, L. B.; Hall, L. H. J. Chem. Inf. Comput. Sci. 2000, 40, 792.

91. Randic, M. J. Am. Chem. Soc. 1975, 97, 6609.

92. Balaban, A. T. Chem. Phys. Lett. 1982, 89, 399.

93. Gálvez, J.; Garcia, R.; Salabert, M. T.; Soler, R. J. Chem. Inf. Comput. Sci. 1994, 34, 520.

94. Hall, L. H.; Kier, L. B. J. Chem. Inf. Comput. Sci. 1991, 31, 76.

95. Hall, L. H.; Kier, L. B. Quant. Struc.-Act. Relat. 1991, 10, 43.

96. Estrada, E.; Uriarte, E.; Montero, A.; Teijeira, M.; Santana, L.; De Clercq, E. J. Med. Chem. 2000, 43,

1975.

97. Estrada, E.; Molina, E. J. Chem. Inf. Comput. Sci. 2001, 41, 791.




99. Estrada, E.; Vilar, S.; Uriarte, E.; Gutierrez, Y. J. Chem. Inf. Comput. Sci. 2002, 42, 1194.

100. Gómez, C.; Martínez, J. A. Quimica Bioorgánica III. Estereoquímica, Conceptos basicos y

Aplicaciones; Mexico: Talleres Graficos del Instituto Politecnico Nacional, 1998.

101. Randic, M.; Razinger, M. J. Chem. Inf. Comput. Sci. 1996, 36, 429.

102. Wipke, W. T.; Dyott, T. M. J. Am. Chem. Soc. 1974, 96, 4834.

103. Schultz, H. P.; Schultz, E. B.; Schultz, T. P. J. Chem. Inf. Comput. Sci. 1995, 35, 864

104. Pyka, A. J. Liq. Chromatogr. Relat. Technol. 1999, 22, 41.

105. Pyka, A. J. Planar Chromatogr. Mod. TLC 1993, 6, 282.

106. Pyka, A. J. Serb. Chem. Soc. 1997, 62, 251.

107. Golbraikh, A.; Bonchev, D.; Tropsha, A. J Chem Inf Comput Sci 2001, 41, 147.

108. Gonzalez Diaz, H.; Olazabal, E.; Castanedo, N.; Sanchez, I. H.; Morales, A.; Serrano, H. S.; Gonzalez,

J.; de Armas, R. R. J Mol Model (Online) 2002, 8, 237.

109. Marrero-Ponce, Y.; Díaz, H. G.; Romero, V.; Torrens, F.; Castro, E. A. Bioorg. Med. Chem. 2004, 12,

5331.

110. Marshall, E. Science 1996, 272, 1730.

111. Grace, J. B. Science 1996, 275, 1861.

112. Hellberg, S.; Sjostrom, M.; Wold, S. Acta Chem Scand B 1986, 40, 135.

113. Hellberg, S.; Sjöström, M.; Skagerberg, B.; Wilström, C.; Wold, S. Acta Pharm. Jugosl. 1987, 37, 53.

114. Hellberg, S.; Sjostrom, M.; Skagerberg, B.; Wold, S. J Med Chem 1987, 30, 1126.

115. Jonsson, J.; Eriksson, L.; Hellberg, S.; Sjöström, M.; Wold, S. Quant. Struct. Act. Relat 1989, 8, 204.

116. Fauchere, J. L.; Charton, M.; Kier, L. B.; Verloop, A.; Pliska, V. Int. Pept. Protein. Res. 1988, 32, 269.

117. Sandberg, M.; Eriksson, L.; Jonsson, J.; Sjöström, M.; Wold, S. J. Med. Chem. 1998, 41, 2481.

118. Sandberg, M.; Sjöström, M.; Jonsson, J. J. of Chemometrics. 1996, 10, 153.

119. Randic, M.; Balaban, A. T. J. Chem. Inf. Comput. Sci. 2003, 43, 532.

120. Randic, M.; Vračko, M.; Nandy, A.; Basak, S. C. J. Chem. Inf. Comput. Sci. 2000, 40, 1235.

121. van de Waterbeemd, H. Chemometric Methods in Molecular Design (Methods and Principles in

Medicinal Chemistry); New York: John Wiley & Sons, 1995.

122. Alzina, R. B. Introduccion conceptual al análisis multivariable. Un enfoque informatico con los

paquetes SPSS-X, BMDP, LISREL Y SPAD; Barcelona: PPU, SA, 1989.

123. Norusis, M. J. Advanced Statistics Guide. SPSS-X; New York: McGraw-Hill, 1985.

124. Belsey, D. A.; Kuh, E.; Welsch, R. E. Regression Diagnostics; New York: Wiley, 1980.

125. STATISTICA version. 6.0 Statsoft, I.;Tulsa.

Documents

“Molecular-Graph’s Derivatives like a Robustness Source to