79
, Mes y Año Departamento de Lic. Química Título del trabajo: “Modelación de la capacidad de compuestos químicos de atravesar la barrera hematoencefálica’’ Autor del trabajo: Luis Enrique Campos Delgado Tutores del trabajo: Prof. Aux., Oscar Martínez Santiago, Dr. C. Prof. T., Reinaldo Molina Ruiz, Dr. C. Junio 2018

Departamento de Lic. Química

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Departamento de Lic. Química

, Mes y Año

Departamento de Lic. Química

Título del trabajo: “Modelación de la capacidad de compuestos químicos de

atravesar la barrera hematoencefálica’’

Autor del trabajo: Luis Enrique Campos Delgado

Tutores del trabajo: Prof. Aux., Oscar Martínez Santiago, Dr. C.

Prof. T., Reinaldo Molina Ruiz, Dr. C.

Junio 2018

Page 2: Departamento de Lic. Química

Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de

Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui

Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la

mencionada casa de altos estudios.

Se autoriza su utilización bajo la licencia siguiente:

Atribución- No Comercial- Compartir Igual

Para cualquier información contacte con:

Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las

Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830

Teléfonos.: +53 01 42281503-1419

Page 3: Departamento de Lic. Química

Glosario

SCN

BHE

BBB

QSAR

DMs

CV

RLM

AG

AV

SE

VC

SVM

SMO

ACP

LDA

GDIs

Its

LOO

R

R2

Sistema Nervioso Central

Barrera Hematoencefálica

Blood-Brain Barrier

Quantitative Structure Activity Relationships

Descriptores Moleculares

Cribado Virtual

Regresión Lineal Múltiple

Algoritmo Genético

Análisis de Variabilidad

Shannon Entropy

Validación Cruzada

Support Vector Machine

Sequential Minimal Optimization

Análisis de Componentes Principales

Linear Discriminant Analysis

Índices de Derivada del Grafo inspirados en las entropías de información

Índices Topológicos

Leave One Out

Coeficiente de correlación

Coeficiente de determinación o coeficiente de correlación al cuadrado

Page 4: Departamento de Lic. Química

Resumen:

En las primeras etapas del desarrollo de una nueva droga contra enfermedades del sistema

nervioso central SNC, es conocido que la habilidad de los compuestos de penetrar la BHE

juega un papel importante, sin embargo y aparentemente de forma paradójica, el medio

interno del SNC se encuentra aislado con respecto a la circulación sanguínea por esta

estructura. El objetivo fundamental de este trabajo consiste en desarrollar regresiones sobre

un conjunto químico estructuralmente diverso, para encontrar relaciones lineales y no

lineales que correlacionen las estructuras moleculares con sus actividades correspondientes,

después de codificar numéricamente las moléculas usando índices de derivada discreta de

grafos moleculares GDI. En este estudio se modeló la capacidad de atravesar le Barrera

Hematoencefálica (expresada como el log BBB) de 579 entidades químicas. Las estructuras

químicas fueron codificadas usando índices de derivada discreta de grafos moleculares. Estos

fueron calculados utilizando el módulo DIVATI del programa TOMOCOMD-CARDD.

Posteriormente, para seleccionar los descriptores con mayor variabilidad, fue utilizado el

software IMMAN, que permite desarrollar análisis de variabilidad basado en el cálculo de la

entropía de Shannon. Las ecuaciones de RLM fueron encontrados en el programa MobyDigs,

Los modelos de regresión no lineal fueron encontrados con el software KNIME que posee

implementado funciones del software WEKA, usando Máquinas de Vectores de Soporte. Se

encontraron modelos de RLM (N = 560; R2 = 86.58; s = 0.565) y modelos de regresión no lineal

(N= 560 R2= 80.7 s2 = 0.766). Los resultados encontrados en este estudio son superiores a

los reportados en la literatura para esta misma base de datos y también para otras

modelaciones que involucran la misma actividad biológica.

Page 5: Departamento de Lic. Química

Abstract:

In early stages of the development of a new drug against diseases of the central nervous

system CNS, it is known that the ability of the compounds to penetrate the BBB plays an

important role, however and apparently paradoxically, the internal environment of the CNS

is found isolated with respect to blood circulation by this structure. The main objective of

this work is to develop regressions on a structurally diverse chemical set, to find linear and

non-linear relationships that correlate the molecular structures with their corresponding

activities, after coding the molecules numerically using indices of discrete derivative of

molecular graphs GDI. In this study, the ability to cross the blood-brain barrier (expressed as

the BBB log) of 579 chemical entities was modeled. The chemical structures were encoded

using discrete derivative indices of molecular graphs. These were calculated using the

DIVATI module of the TOMOCOMD-CARDD software. Subsequently, to select the

descriptors with greater variability, the IMMAN software was used, which allows the

development of variability analysis based on the Shannon entropy calculation. The MLR

equations were found in the MobyDigs program. The non-linear regression models were

found with the KNIME software that has implemented WEKA software functions, using

Support Vector Machines. MLR models were found (N = 560, R2 = 86.58, s = 0.565) and

non-linear regression models (N = 560 R2 = 80.7 s = 0.766). The results found in this study

are superior to those reported in the literature for the same database and also for other models

that involve the same biological activity.

Page 6: Departamento de Lic. Química

Tabla de contenido INTRODUCCIÓN: ................................................................................................................. 8

1 MARCO TEÓRICO: ......................................................................................................... 15

1.1 La Barrera Hematoencefálica (BHE).......................................................................... 15

1.1.1- La BHE. Su importancia en el funcionamiento del SNC. .................................. 15

1.1.2- Determinación de los parámetros de la capacidad de los compuestos químicos de

penetrar la BHE. ........................................................................................................... 17

1.2 Estudios QSAR/QSPR y Descriptores Moleculares. .................................................. 19

1.2.1-Generalidades de los estudios QSAR. ................................................................. 19

1.2.2-Descriptores moleculares. ................................................................................... 20

1.3 Elementos de Quimiometría. ...................................................................................... 29

1.3.1- Aplicaciones de DMs y de Quimiometría. ......................................................... 29

1.3.2 Herramientas Estadísticas. ................................................................................... 30

2 MATERIALES Y MÉTODOS:......................................................................................... 40

2.1 Base de Datos. ............................................................................................................ 40

2.2 Métodos Computacionales de Cálculo. ...................................................................... 42

2.2.1-Cálculo de los nuevos Índices de Derivada del Grafo. Programa TOMOCOMD-

CARDD(DIVATI). ....................................................................................................... 42

2.2.2- Análisis de Variabilidad (AV). Programa IMMAN. .......................................... 43

2.2.3- Regresión Lineal Múltiple (RLM). Programa MobyDigs .................................. 45

2.2.4- Regresión no- lineal múltiple. Programa KNIME............................................... 48

3 RESULTADOS Y DISCUSIÓN: ...................................................................................... 51

3.1- Cálculo de los nuevos Índices de Derivada del Grafo. .............................................. 51

3.2- Modelos de RLM....................................................................................................... 52

3.2.1- Modelo inicial de RLM. ..................................................................................... 52

3.2.1.1- Interpretación del Modelo. .............................................................................. 54

3.2.2- Identificación y eliminación de las moléculas outliers. ..................................... 54

3.2.3 Modelo de RLM con data modificada. ................................................................ 57

3.2.4 Segunda selección de outliers y modelo de RLM modificado: ........................... 59

3.2.4.1- Interpretación del Modelo. .............................................................................. 61

3.3 Regresión no lineal. .................................................................................................... 62

Page 7: Departamento de Lic. Química

3.3.1- Interpretación del modelo no lineales. ............................................................... 62

3.3.2- Discusión de los resultados de la regresión no lineal: ........................................ 64

3.4 Estudio comparativo sobre modelos reportados en la literatura con respecto a este

trabajo donde se utiliza la misma data. ............................................................................. 66

CONCLUSIONES: ............................................................................................................... 67

RECOMENDACIONES: ..................................................................................................... 68

REFERENCIAS BIBLIOGRÁFICAS: ................................................................................ 69

Anexos: ................................................................................................................................. 76

Page 8: Departamento de Lic. Química

INTRODUCCIÓN:

El Sistema Nervioso Central (SNC) requiere para su funcionamiento de un aporte continuo

de sustratos energéticos fundamentalmente oxígeno y glucosa, suministrados a través de una

amplia red de capilares sanguíneos, probablemente la más compleja del organismo. Sin

embargo y aparentemente de forma paradójica, el medio interno del SNC se encuentra aislado

con respecto a la circulación sanguínea por una estructura también única en el organismo: la

denominada Barrera HematoEncefálica (BHE)(Pascual et al., 2004). Esta barrera se

manifiesta cuando los especialistas clínicos quieren tratar una patología que afecta al SNC y

tras administrar un tratamiento farmacológico por Vía Intravascular, se encuentran con una

ausencia de efecto terapéutico, ya que el fármaco no puede penetrar dicha barrera(Assef,

2000, Abbott et al., 2010a). Este es el caso de muchos antibióticos que, aunque sean los

idóneos en la lucha contra el germen causal de una meningitis, no pueden escogerse por su

imposibilidad de paso a través de la barrera; o el de la mayoría de los citostáticos, de nula

utilidad en la lucha contra los tumores primarios del SNC por la misma razón(Roda, 2004,

Abraham and Hersey, 2006). Por otro lado, también es conocido los efectos de una disfunción

de la BHE, tal y como se manifiestan en el edema cerebral asociado a la mayoría de los

tumores malignos del SNC, particularmente en las metástasis.

En las primeras etapas del desarrollo de una nueva droga, es conocido que la habilidad del

compuesto de penetrar la BHE juega un papel importante. La BHE es una compleja interfaz

bioquímica-física que consiste en células endoteliales de los capilares del cerebro(Arthur M.

Butt, 1990). Esta tiene el propósito de mantener la homeostasia en el SNC proporcionando

Page 9: Departamento de Lic. Química

una separación entre el cerebro y la sangre y esto representa un desafío para la mayoría de

los tratamientos de desorden cerebral.

La capacidad de atravesar la BHE es usualmente medida por dos métodos experimentales

nombrados comúnmente como equilibrios de distribución cerebro-sangre; estos métodos

difieren en la medida con que son expresados sus parámetros, debido a la vía que se utilice

para determinarlos (log BBB o log PS), ambos se hacen extensos y complicados en los

procedimiento de laboratorio.

Por lo antes mencionado, la industria Farmacéutica ha reorientado las estrategias de búsqueda

hacia métodos que permitan la identificación y la optimización de nuevos compuestos líderes

de un modo efectivo (en el menor tiempo posible y a un costo razonable). En este sentido, el

enfoque de diseño/descubrimiento de fármacos asistido por computadoras ofrece una

alternativa al mundo real de síntesis y evaluación. Este procedimiento engloba todas las

técnicas asistidas por ordenadores usadas en el diseño, descubrimiento y optimización de

compuestos con propiedades deseadas y ha jugado un rol fundamental en el desarrollo de un

número de fármacos que están ahora en el mercado(Guha et al., 2004). Este tipo de estudio

se basa en el uso de un mundo “virtual” de hipótesis, generadas por computadoras y probadas

en la práctica. Este tipo de procedimiento ‘in sílico’ evita los procesos actuales de síntesis y

bioensayos, los cuales se hacen solamente después de la exploración de los conceptos

iniciales con modelos computacionales(Todeschini and Consonni, 2008). Por tanto, podemos

plantear que los estudios QSAR/QSPR/QSTR (siglas en inglés acrónimos de Quantitative

Structure Activity/Property/Toxicity Relationships) se han convertido en una importante área

de investigación en la química computacional y teórica(Viii, JURGEN MENSCH, 2009).

Este tipo de estudios se encuentra en los campos de intersección entre la biología, la química,

Page 10: Departamento de Lic. Química

la matemática y la computación, tienen dos objetivos fundamentales. El primero: brindar una

vía para estimar, con un aceptable grado de precisión, la actividad/propiedad/toxicidad

estudiada a nuevos compuestos. El segundo: es obtener una interpretación en términos

estructurales de la actividad/propiedad/toxicidad estudiada(Santiago, 2015).

El paradigma enarbolado en los estudios QSAR/QSPR/QSTR está relacionado con el hecho

de que las propiedades físicas, físico-químicas, químicas, biológicas y toxicológicas de los

compuestos orgánicos dependen en último término de la estructura molecular. Existen

muchos parámetros químico-físicos de las moléculas que son una expresión cuantitativa de

la estructura molecular, también dicha estructura puede ser descrita usando diferentes

métodos y estrategias matemáticas.

Derivados de la aplicación de principios de diferentes teorías como química cuántica, teoría

de la información, química orgánica, teoría de grafos, han surgido los Descriptores

Moleculares (DMs), usados en la modelación de propiedades de compuestos químicos en

diversos campos científicos. Para obtener estimaciones confiables de propiedades

moleculares, identificar los rasgos estructurales responsables de la actividad biológica y

seleccionar las estructuras candidatas a medicamentos; los DMs son procesados por métodos

estadísticos, quimiométricos y quimioinformáticos(Abreu et al., 2015). La

quimioinformáticas abarca el diseño, creación, organización, dirección, recuperación,

análisis, diseminación, visualización y uso de la información química y los DMs desempeñan

un rol fundamental en este proceso; siendo la herramienta básica para transformar la

información química en un código numérico adecuado para la aplicación de procedimientos

informáticos(JURGEN MENSCH, 2009).

Page 11: Departamento de Lic. Química

El descubrimiento de nuevos fármacos es un proceso complicado que puede ser optimizado,

en las primeras etapas, gracias a la utilización de métodos de cribado virtual (CV). El CV

tiene la ventaja de ser más económico y rápido, y permite tener en cuenta una cantidad de

compuestos del orden de billones, cifra impensable experimentalmente. Por otra parte los

estudios QSAR se han utilizado ampliamente en la modelación de disímiles propiedades

moleculares de naturaleza física, química y biológica, son actualmente, el enfoque más

utilizado en el diseño de nuevos fármacos. Este tipo de análisis es muy útil y generalmente

se utiliza como principal herramienta en la selección de compuestos durante el protocolo de

CV. Sin embargo, los estudios de RLM y de regresión no lineal basados en técnicas de

Máquinas de Soporte Vectorial (SVM por sus siglas en inglés Support Vector Machine)

reportados en la literatura, han aportado resultados limitados porque son pocos los métodos

teóricos que han intentado aproximarse a la modelación del efecto de moléculas de atravesar

la BHE; a pesar de que en la actualidad, el uso de técnicas in silico soportada por rigurosos

parámetros estadísticos, para hallar relaciones de la estructura de las moléculas con una

determinada actividad biológica, química o física; ha optimizado los procesos de selección

de compuestos con calidad para ser probados.

La actividad de moléculas orgánicas de atravesar la BHE ha sido modelada in silico en varias

ocasiones, y la mayoría de los estudios publicados exhiben datas congenéricas con un escaso

número de compuestos(Albrecht et al., 2008, Ritzén et al., 2009, Fu et al., 2008a, Feher et

al., 2000, Narayanan and Gunturi, 2005b, Kortagere et al., 2008). Los modelos existentes

para predecir la capacidad de atravesar la BHE poseen poca aplicabilidad global, al no

reportarse bases de datos amplias y diversas; lo cual limita el análisis a profundidad de la

Page 12: Departamento de Lic. Química

relación de esta propiedad biológica con los rasgos estructurales y consecuentemente, la

estimación de dicha actividad.

Por todo lo anteriormente expuesto se evidencia que hasta este momento en la literatura

científica especializada no existen ni datas ni modelos eficientes que predigan

satisfactoriamente el comportamiento de las moléculas de atravesar la BHE; debido a esto se

nos plantea el siguiente problema científico:

Problema Científico:

¿Cómo desarrollar modelos capaces de predecir la capacidad de atravesar la BHE de

moléculas orgánicas estructuralmente diversas?

Hipótesis:

Es posible encontrar relaciones cuantitativas de Regresión entre descripciones matemáticas

de estructuras químicas diversas y sus respectivas capacidades de atravesar la BHE, usando

GDIs como descriptores estructurales.

Objetivo General:

Desarrollar modelos matemáticos que describan satisfactoriamente la capacidad de

moléculas orgánicas de atravesar la BHE y que puedan ser usados en posteriores estudios de

CV y desarrollo de nuevas entidades químicas como candidatos prometedores para combatir

las enfermedades del sistema nervioso central SNC.

Page 13: Departamento de Lic. Química

Objetivos específicos:

- Codificar matemáticamente un conjunto químico de 579 moléculas, estructuralmente

diversas, usando índices de derivada discreta de grafos moleculares (GDI).

- Desarrollar modelos de RLM que relacionen las estructuras del conjunto químico con

sus respectivas capacidades de atravesar la BHE (actividades biológicas).

- Desarrollar modelos de regresión no lineales, que relacionen las estructuras del

conjunto químico con sus respectivas capacidades de atravesar la BHE.

La novedad científica de este trabajo se fundamenta en la obtención de nuevos modelos

matemáticos lineales y no lineales, para el descubrimiento de potenciales fármacos con la

capacidad de atravesar la BHE, usando GDIs como estrategia de codificación de las

estructuras químicas.

Page 14: Departamento de Lic. Química

Antecedentes y Marco Teórico

Page 15: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

“La mente que se abre a una nueva idea jamás volverá a su tamaño original’’

Albert Einstein.

ANTECEDENTES Y MARCO TEÓRICO:

En este capítulo se abordan los resultados de una extensa y exhaustiva búsqueda

bibliográfica en la literatura internacional acerca de los aspectos teóricos que justifican y

sustentan la presente investigación. Se resumen además los estudios actuales que tienen

alguna similitud con el tema que aborda esta investigación.

1 MARCO TEÓRICO:

1.1 La Barrera Hematoencefálica (BHE).

1.1.1- La BHE. Su importancia en el funcionamiento del SNC.

La barrera hematoencefálica es una formación densa de células endoteliales y gliales entre

los vasos sanguíneos y el sistema nervioso central(Arthur M. Butt, 1990). La barrera impide

que muchas sustancias tóxicas la atraviesen, al tiempo que permite el pasaje de nutrientes y

oxígeno. De no existir esta barrera muchas sustancias nocivas llegarían al cerebro, afectarían

su funcionamiento y tornarían inviable el organismo. Las células de la barrera poseen

proteínas específicas que transportan de forma activa sustancias como la glucosa, agua, entre

otras, a través de la barrera.

Su existencia, que se suponía, fue probada en 1885 por Paul Ehrlich, quien inyectó anilina

en la sangre de una rata, la cual tiñó en azul todo el cuerpo, excepto el cerebro, que quedó

Page 16: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

sin tinción. Eso trajo la evidencia de que el cuerpo disponía de algún tipo de mecanismo de

protección del sistema nervioso central(Arthur M. Butt, 1990).

En 1967 se logró ver la barrera hematoencefálica a través del microscopio electrónico,

gracias a Thomas Reese y Morris Karnovsky, de la Universidad Harvard. Pudieron además

comprobar hasta qué punto las células endoteliales se hallaban unidas entre sí(Arthur M.

Butt, 1990). Así se pudo ver que los capilares sanguíneos llegan hasta estas células, que

forman una capa firme en esta zona, mientras que en el resto del cuerpo forman una barrera

más flexible. Fuera del cerebro las paredes de los capilares se componen de células

endoteliales que tienen pequeños huecos entre sí, pero dentro del cerebro esas células están

estrechamente entrecruzadas sin esos huecos entre ellas, haciendo que los componentes pasen

selectivamente a través de las células. Esta primera barrera bloquea el paso de moléculas con

excepción de aquellas que cruzan la membrana celular por ser liposolubles. Una segunda

capa de células con alto contenido en grasas, no permite el paso de sustancias hidrosolubles.

Así, solo las moléculas más pequeñas (oxígeno, dióxido de carbono, el etanol y azúcares)

pueden pasar por la barrera. Las drogas y otros tóxicos son por lo general demasiado grandes

para pasar; y la barrera también protege al cerebro de infecciones, y por ello la infección del

cerebro es muy rara.

Por ejemplo: La enfermedad de Parkinson es una patología que se debe al déficit del

neurotransmisor dopamina en una determinada región cerebral. El sentido común parece

indicar que si falta esta sustancia bastará administrarla para que los parkinsonianos se curen.

Sin embargo, y desgraciadamente, nada más lejos de la realidad: la dopamina no es capaz de

atravesar la barrera hematoencefálica(Francisco, 2009).

Page 17: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

Finalmente, hay que indicar que no todas las partes del encéfalo tienen una barrera

hematoencefálica que actúa con igual intensidad, es decir, hay zonas en las que las sustancias

atraviesan las paredes de los capilares sanguíneos más fácilmente que otras.

1.1.2- Determinación de los parámetros de la capacidad de los compuestos químicos de

penetrar la BHE.

Varias moléculas como los nutrientes son transferidas a través de la BHE por “difusión

facilitada”. Las moléculas cruzan la membrana plasmática al interactuar

con proteínas transportadoras intramembranar relacionadas con canales de agua(Begley,

2000). Los dos sistemas con mayor capacidad son los de d-glucosa y

ciertos otros azúcares (como el Glut-L) y que para aminoácidos neutros y grandes, es llamado

el sistema-L. La capacidad de transporte máxima en la barrera hematoencefálica, es de un

valor de 4 µmol*min-1*g-1 en ratas y 1 µmol*min-1*g-1 en hombres.

El equilibrio de distribución de los compuestos entre la sangre y el cerebro es medido a largo

plazo por la capacidad cerebral de la perfusión cerebral, de forma experimental estos

equilibrios de distribución pueden durar hasta varios días en completarse. El trabajo de

Young y Mitchell y sus colegas marcó un decisivo paso adelante, y casi todos los

fisicoanálisis de la distribución sangre-cerebro han utilizado los datos de Young-Mitchell

(YM) para establecer la relaciones de distribución in vivo en ratas, definidas de la siguiente

manera(Begley, 2000):

𝐵𝐵 =conc. en el cerebro

conc. en la sangre (1)

La capacidad de atravesar la barrera hematoencefálica es usualmente medida por dos

métodos experimentales el primero nombrado equilibrio de distribución sangre/cerebro y el

Page 18: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

segundo mide la permeabilidad de la BHE(Liu et al., 2004). La forma de determinar la total

extensión de la distribución de una droga en el cerebro es cuantificado como log BB(Mensch

et al., 2009, Goodwin and Clark, 2005) y a pesar de las limitaciones que presenta estas

mediciones es la más comúnmente utilizada(Garg and Verma, 2006, Zhao et al., 2007,

Muehlbacher et al., 2011). El segundo es expresado como la relación entre el producto del

área superficial de la BHE y su permeabilidad (como log PS)(Pardridge, 2004).

Este último se expresa a menudo como producto de área superficial de permeabilidad de la

BHE (Pardridge, 2004). Últimamente, se ha propuesto otra medición cuantitativamente

significativa de la exposición cerebral, expresada como la relación de concentración de

cerebro a plasma sin consolidar un estado estacionario (Kp, uu, brain)(Fridén et al., 2009).

Es más probable que este parámetro esté relacionado con la actividad del SNC de los

compuestos porque da indicaciones de la distribución de un fármaco libre y no unido, que es

responsable del efecto farmacológico. Alternativamente, el log BBB representa

esencialmente la partición inerte en la materia lipídica cerebral(Mensch et al., 2009,

Lanevskij et al., 2009, Shen et al., 2008a).

Estos parámetros pueden ser fácilmente relacionados con los compuestos que tienen

actividad sobre el SNC debido a que estos dan un indicador de libre circulación, en relación

a como la droga se distribuye sobre el cerebro. Alternativamente el parámetro de log BBB

esencialmente reporta la distribución dentro de la materia del cerebro(Guha et al., 2004). Sin

embargo el parámetro de log PS ha sido aceptado como un importante valor en el

descubrimiento de nuevas drogas (Pardridge, 2004), el pequeño número de publicaciones que

se pueden encontrar, están conformados por datas de moléculas limitadas y los modelos

Page 19: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

obtenidos no son los mejores para realizar un correcto estudio de la capacidad de penetración

de la BHE(Santiago Vilar, 2010, Zhang et al., 2010b).

1.2 Estudios QSAR/QSPR y Descriptores Moleculares.

1.2.1-Generalidades de los estudios QSAR.

Los estudios de relaciones cuantitativas estructura actividad/propiedad conocidos como

QSAR/QSPR (de sus siglas en inglés: Quantitative Structure-Activity

Relationships/Quantitative Structure-Property Relationships) tienen, como su nombre lo

indica; la finalidad de encontrar, desde un enfoque cuantitativo, la relación existente entre la

estructura de las moléculas objeto de análisis y la actividad o propiedad medida o

calculada(Todeschini and Consonni, 2008). Las relaciones cuantitativas estructura-actividad

son el resultado final de un proceso que se inicia con la descripción de la estructura molecular

y termina, con algunas interferencias, hipótesis y predicciones, en el conocimiento del

ambiente biológico y/o fisicoquímico de las moléculas del sistema en análisis. Las

modelaciones QSAR están basadas en la asunción de que las características geométricas,

estéricas y electrónicas de las moléculas, deben contener la información responsable de sus

propiedades físicas, químicas y biológicas(Todeschini). Hace cerca de 50 años desde que la

modelación de QSAR fue introducida por primera vez en la práctica de la agroquímica, el

diseño de fármacos, la toxicología, la industria y la química medioambiental. Su utilidad se

encuentra en crecimiento continuo, lo cual es atribuible al rápido y extensivo desarrollo de

metodologías y técnicas computacionales que han sido creadas para delimitar y refinar

muchas variables y aproximaciones con el uso de modelos de propiedades moleculares.

Existen tres elementos fundamentales para la investigación científica de QSAR/QSPR: el

concepto de estructura molecular, la definición de descriptores moleculares (DMs) y la

Page 20: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

relación con propiedades experimentales de las moléculas que se logra con herramientas

quimioinformáticas. Todo lo anterior constituye una red interdisciplinaria, de ahí la

necesidad de relacionar un gran número de teorías, conocimientos y metodologías. Aunque

el desarrollo de cualquier estudio QSAR es un ciclo interactivo, existen siete pasos o

principios comunes generales que rigen su metodología: 1) Formulación del problema:

determinar el objeto de análisis y el nivel de información requerido para el estudio. 2)

Parametrización cuantitativa de la estructura molecular de los compuestos químicos

empleando los DMs. 3) Medición de la propiedad de interés. 4) Selección del tipo de modelo

QSAR. 5) Selección de los compuestos (diseño estadístico de la serie). 6) Análisis

matemático de los datos y Validación interna y externa de los modelos obtenidos. 7)

Interpretación teórica y/o mecanicista de los modelos desarrollados y su aplicación al

diseño/descubrimiento de nuevos compuestos líderes(Todeschini and Consonni, 2008).

1.2.2-Descriptores moleculares.

La historia de los DMs está estrechamente relacionada con uno de los conceptos científicos

más importantes de finales del siglo XIX, que es el concepto de estructura

molecular(Alexander, 2006). Los DMs son el mayor aporte de una de las primeras que

postuló la relación de las ciencias químicas y matemáticas, la Teoría de Crum-Brown; y en

la cual se desarrolló un sistema de representación gráfica de compuestos que es prácticamente

idéntico al que se utiliza hoy en día. Posteriormente, Crum-Brown and Fraser propusieron

la existencia de una correlación entre la actividad biológica de diferentes alcaloides y su

constitución molecular; más específicamente, la acción fisiológica de sustancias en ciertos

sistemas biológicos (Φ) fue definida como una función de su constitución química (C), es

decir, Φ=f(C). Así, una alteración en la constitución química (ΔC) puede ser reflejada por un

Page 21: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

efecto en su actividad biológica (ΔΦ). Esta ecuación se considera la primera formulación

general de las relaciones cuantitativas estructura-actividad(Brown, 1869, Crum-Brown and

Fraser, 1868).

1.2.2.1- Definición y clasificación.

Los DMs juegan un rol fundamental actualmente en el desarrollo de las Ciencias Químicas,

las Ciencias Farmacéuticas, las políticas de protección ambiental e investigaciones de la

salud. Los DMs son representaciones matemáticamente formales de las moléculas (u otras

entidades químicas) y son obtenidos de aplicar un algoritmo definido sobre una determinada

representación molecular. Un DM es: el resultado final de un procedimiento lógico y

matemático en el cual se transforma la información química codificada en una

representación simbólica de la molécula en un número de utilidad.(Todeschini and

Consonni, 2008)

El término utilidad, posee aquí un doble sentido, dado que los resultados numéricos finales

pueden brindar información sobre la naturaleza físico-química y estructural de las moléculas

así como ser relacionados con sus propiedades. Aun, si la interpretación en términos

estructurales y químico-físicos del descriptor es débil, temporal o completamente ausente, el

mismo puede estar altamente correlacionado con al menos una propiedad. Los descriptores

pueden ser agrupados inicialmente en dos clases generales(Todeschini and Consonni, 2008):

1) Los derivados de medidas experimentales como: logP, refractividad molar, momento

dipolo, polarizabilidad y otras propiedades químico-físicas en general.

Page 22: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

2) Descriptores Moleculares Teóricos, los cuales son derivados de representaciones

simbólicas de las moléculas y estos a su vez pueden ser clasificados acorde con diferentes

formas de representación molecular.

La representación molecular es una figura, imagen, símbolo, mapa, idea, etc., a partir de la

cual, la molécula como un ente fenomenológicamente real es sustituida o presentada,

siguiendo determinados procedimientos y reglas convencionales. La cantidad de información

química derivada de dicha representación simbólica depende del tipo de representación

utilizada(Testa and Kier, 1991a, Jurs et al., 1995).

Los Descriptores Teóricos pueden ser clasificados dependiendo de la representación de las

moléculas. La representación molecular es la manera en la que cada molécula es

simbólicamente representada por un procedimiento formal específico y siguiendo reglas

convencionales. La cantidad de información química que es transferida a la representación

simbólica depende del tipo de representación(Testa and Kier, 1991b). Es así que se han

definido:

Descriptores 0D: Son aquellos que se obtiene de la fórmula química (o fórmula

molecular), que no es más que la lista de los diferentes tipos de átomos, cada uno

acompañado por una representación como subíndice del número de ocasiones en que

aparece en la molécula. Esta representación es independiente de cualquier

conocimiento que involucre a la estructura molecular. Algunos ejemplos son: el

número de átomos y el peso atómico(Todeschini and Consonni, 2008).

Descriptores 1D: Están basados en la representación del tipo lista sub-estructural.

Pueden ser considerados como representaciones unidimensionales de la molécula y

Page 23: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

consisten en una lista de fragmentos estructurales de la misma. La lista de fragmentos,

grupos funcionales o sustituyentes de interés presentes en la molécula puede ser

simple o parcial; pero no se requiere de un completo conocimiento de la estructura

molecular. Este tipo de descriptores son usualmente utilizados en el análisis

subestructural, en el análisis de diversidad/similitud en el cribado virtual y en el

diseño de librerías moleculares(Todeschini and Consonni, 2008).

Los Descriptores 0D y 1D son calculados fácilmente, no requieren la optimización de la

estructura molecular y son independientes de cualquier problema conformacional.

Usualmente presentan una alta degeneración, es decir, que muchas moléculas presentan los

mismos valores, por ejemplo, los isómeros. La información que contiene es baja, pero no

obstante pueden jugar un rol importante en la modelación de varias propiedades físico-

químicas o pueden ser incluidos en modelos más complejos.

Descriptores 2D: Están basados en la representación en dos dimensiones de la

molécula considerando la conectividad entre los átomos. La representación de las

moléculas en términos de grafos moleculares es comúnmente conocida como

representación topológica, es por esto que este tipo de descriptores se conocen como

aquellos que resultan de la aplicación de algoritmos a la representación topológica.

La propiedad atómica con la que se pesa/pondera al descriptor considera los átomos

presentes en la molécula a través de la electronegatividad, masa atómica,

polarizabilidad atómica, estado electrotopológico, volumen de Van der Waals, etc.;

con lo cual se pueden seleccionar aquellos átomos que dan mayor peso a la variable.

Estos descriptores tienen en cuenta las interacciones inter/intra-

Page 24: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

moleculares(Todeschini and Consonni, 2008, Testa and Kier, 1991b, Kier and Hall,

1997).

Descriptores 3D: Basados en la representación tridimensional de la molécula, que

considera a ésta como un objeto geométrico rígido en el espacio, y permitiendo así

una visión adicional de la configuración espacial (estereoquímica) de los átomos. Este

tipo de descriptores también son conocidos como Descriptores geométricos. Ejemplo

de estos descriptores son los estéricos y de talla. Para su cálculo se utilizan estructuras

moleculares previamente optimizadas con métodos convenientes(Todeschini and

Consonni, 2008).

Descriptores 4D: Derivados de la representación tridimensional de la molécula y su

interacción con una sonda que caracteriza el ambiente (campos de interacción

molecular). GRID(Todeschini and Consonni, 2008) y CoMFA(Todeschini and

Consonni, 2008) fueron los primeros métodos basados en el cálculo de la energía de

interacción entre una molécula y su sonda. El enfoque de estas aproximaciones fue

identificar y caracterizar cuantitativamente la interacción entre la molécula y su sitio

activo receptor. Estos descriptores han sido por tanto de gran utilidad como

herramienta en el descubrimiento de nuevos candidatos a medicamentos.

Se han definido miles de DMs, derivados del análisis y la aplicación de principios de muchas

teorías diferentes; lo cual ha diversificado su espectro de utilidad. Claro está, la información

científica a procesar también se ha vuelto cada vez más amplia y compleja, por lo que,

simultáneamente, las herramientas de gestión y evaluación de los datos, han sufrido mejoras

y actualizaciones y se han creado otras nuevas y más específicas.

Page 25: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

1.2.2.2- - Diferenciación de grafos e Índices de derivada discreta:

En el Análisis Matemático el concepto de derivada caracteriza el grado de variación en una

función al realizarse una pequeña variación en su argumento, dicho concepto de derivada se

basa en el del límite(Cockett and Doggett, 2003). En la Matemática Discreta no existe el

concepto de límite y por tanto, es imposible trasladar el concepto de derivada tal como se

conoce, desde la matemática continua a la discreta(Gorbátov, 1988).

Antes de introducir una definición formal de la derivada de un grafo, primeramente se dejarán

claros determinados conceptos importantes para poder entender el significado de la misma y

sus grandes posibilidades de aplicación en la química grafo-teórica.

Primeramente defínase un suceso (S), el cual es verdadero cuando se cumplen determinadas

condiciones al proceso examinado. Cada suceso S determina una matriz binaria

bidimensional nxmijqQ ][ , a cada columna de la cual le corresponde biunívocamente una

condición, comprendida en al menos un suceso verdadero, y a cada fila, una colección de

condiciones, con las cuales el suceso tiene lugar y qij es:

𝑞𝑖𝑗

= { 1,si 𝑙𝑎 𝑗 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑛𝑑𝑖𝑐𝑖ó𝑛 𝑠𝑒 𝑖𝑛𝑐𝑙𝑢𝑦𝑒 𝑒𝑛 𝑙𝑎 𝑖 − é𝑠𝑖𝑚𝑎 𝑐𝑜𝑙𝑒𝑐𝑐𝑖ó𝑛 𝑑𝑒 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑒𝑠𝑎,

𝑒𝑛 𝑙𝑎𝑠 𝑐𝑢𝑎𝑙𝑒𝑠 𝑒𝑙 𝑠𝑢𝑐𝑒𝑠𝑜 𝑒𝑠 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑜. 0, 𝑒𝑛 𝑐𝑎𝑠𝑜 𝑐𝑜𝑛𝑡𝑟𝑎𝑟𝑖𝑜

En otras palabras, cada suceso determina un modelo () con matriz de incidencia Q . Las

condiciones que se comprenden en el suceso son letras del modelo y las colecciones de

condiciones para las cuales el suceso es verdadero serían palabras del modelo.(Gorbátov,

1988)

Page 26: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

Las intensidades de participación de las distintas condiciones (letras) en las colecciones de

condiciones (palabras) para las cuales el suceso es verdadero son caracterizadas utilizando

las frecuencias de su inclusión. Para ello es necesario introducir la matriz de frecuencia de

relaciones nxnijfF ][ que caracteriza un modelo, con matriz de incidencia

nxmijqQ ][)( .

Se denomina matriz de frecuencia de relaciones nxnijfF ][ una matriz, a cada fila y columna

de la cual le corresponde biunívocamente una condición, y un elemento fij es igual al número

de palabras que comprenden las letras i y j, respectivamente, si i ≠ j; si i = j entonces fi

corresponde al número de palabras que incluyen la letra i. Siendo fi la frecuencia propia de

la letra i y fij es la frecuencia recíproca de las letras i y j, correspondientemente.

De la definición de la matriz de frecuencia de relaciones, se desprende que la misma es

simétrica respecto a la diagonal principal, o sea fij = fji, y la frecuencia propia de cada letra es

mayor que la frecuencia recíproca de esta letra con cualquier otra, fi ≥ fij.

También se puede demostrar que:

xQQF T (2)

Siendo TQ la matriz transpuesta de la matriz de incidencia [Q (Ψ)] del modelo Ψ.

Es posible entonces, determinar el grado de heterogeneidad de los componentes del grafo

respecto a un suceso “S” dado y caracterizar esta heterogeneidad por la derivada SG de

un grafo G respecto al suceso S.

Llámese derivada SG de un grafo (G) respecto a un suceso (S), un grafo ponderado no

orientado <V, (U, P)>, cuyo portador coincide con el portador de un modelo determinado por

Page 27: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

este suceso y un par de vértices (vi, vj) está ponderado por la razón de la frecuencia

(𝑓𝑖 − 𝑓𝑖𝑗) + (𝑓𝑗 − 𝑓𝑖𝑗).

),( ji vvS

G

=

fij

fjfijfi )2( (3)

Con la particularidad de que:

(v i , vj) U, si S

G

(vi , vj) = ∞

(v i , vj) U, si S

G

(vi , vj) = una magnitud finita diferente de cero

(v i = v j) si S

G

(vi , vj) = 0

1.2.2.3 Índice de derivadas discreta para la codificación de estructuras químicas.

Dentro de las diferentes formas modernas de representar las posibles estructuras de las

moléculas, los más comunes esquemas desarrollados y semidesarrollados

(fundamentalmente moléculas orgánicas) no son más que grafos químicos(Santiago, 2015).

Los GDI codifican información topológica de la molécula (conectividad entre los átomos en

la molécula expresada a través de su intensidad de participación en la formación de la

estructura molecular). Sin embargo, es necesario enriquecer esta información con el

propósito de codificar también la presencia de heteroátomos e instauraciones.

Para lograr una descripción más cercana a la realidad química de las estructuras moleculares,

asígnese a cada vértice vi ∈ V (V = [v i / i =1, 2,…,n]) del grafo molecular G = ⟨V;E ⟩ un peso

𝜗i del conjunto de pesos W = [𝜗i / i =1, 2, …]. Es posible organizar estos pesos como un

vector que es denominado como vector de ponderación Vp = [𝜗i]1xn en cuyos elementos están

Page 28: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

representados cada uno de los átomos de la molécula por un peso o coordenada, determinados

por la fórmula:

𝜗i = 𝑃𝑖

𝛿𝑖𝑏 (4)

donde 𝑃𝑖 y 𝛿𝑖𝑏 son una propiedad característica de cada átomo (aislado o considerando el

ambiente específico que le rodea en la estructura, por ejemplo: Electronegatividad, Volumen,

E-Estado, etc.) y el grado del vértice de enlace del átomo, respectivamente. Así mismo, la

matriz de ponderación P = [Pij]nxn, es una matriz diagonal, donde filas y columnas no son

más que las distintas condiciones (átomos) del suceso y cada elemento pi de la diagonal le

corresponde biunívocamente un peso 𝜗i para la condición correspondiente y cada pij= pji= 0.

Todas estas posibilidades de caracterización de la estructura molecular de forma individual

permiten la obtención de índices locales atómicos que presentan valores acordes con cada

átomo y su entorno molecular. Estas son propiedades deseables para un nuevo DMs.

No obstante, es necesario la obtención de índices totales (involucra a todos los átomos de la

estructura) y locales sobre agrupaciones atómicas (involucra a determinados átomos de

interés particular, no necesariamente conectados) lo que aumenta las posibilidades de una

codificación más completa y adecuada descripción de las propiedades/actividades de las

moléculas.

Si la aplicación involucra a todos los elementos del vector de ponderación (todos los átomos

de la molécula) estaríamos en presencia de un cálculo de tipo global o total, mientras que si

solo se toman en consideración en la expresión del operador determinados valores

correspondientes a tipos de átomos de marcado interés se tendrá un cálculo de tipo local sobre

un grupo o agrupación atómica. Los principales tipos de átomos considerados para desarrollar

las descripciones locales sobre grupos fueron: heteroátomos (HT), halógenos (HL), aceptores

Page 29: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

de protones (AH), donantes de protones (DH), carbonos metilos (MC), insaturaciones (IS),

grupos a una longitud k (GL). Las ponderaciones se pueden desarrollar en tres momentos

fundamentales del cálculo de los índices: en la matris de incidencia (In), en la matriz de

ponderación (Pd) y en el vector de LOVIs (VL).

1.3 Elementos de Quimiometría.

1.3.1- Aplicaciones de DMs y de Quimiometría.

Recientes aplicaciones de índices basados en teoría de grafos, han demostrado un gran

potencial de estos DMs en el diseño de nuevas entidades químicas, en búsquedas virtuales en

bibliotecas químicas combinatorias y en evaluaciones a gran escala de similitud/diversidad

química en extensas bases de datos de compuestos químicos. Los Índices Topológicos (ITs)

son ampliamente usados además en estudios de relación estructura-

actividad/propiedad(Barysz et al., 1983, Ivanciuc, 2000).

Encontrar relaciones cuantitativas estructura-actividad es el paso final de un complejo

proceso que comienza con una determinada descripción de la estructura molecular y finaliza

con algunas inferencias, hipótesis y predicciones del comportamiento (biológico, químico-

físico, medioambiental, etc.) de las moléculas en un sistema analizado. Un estudio QSAR se

basa en el supuesto de que en la estructura molecular (su conectividad, sus características

geométricas, estéricas y sus propiedades electrónicas) están contenidas las características

responsables de las propiedades físicas, químicas y biológicas que muestran las sustancias y

que esta información puede ser capturada en uno o más DMs. La mayoría de las estrategias

QSAR son enfocadas hacia la construcción de modelos basados fundamentalmente en

métodos de clasificación o regresión, aunque de manera general muchos métodos

quimiométricos son usados, dependiendo del problema bajo estudio.

Page 30: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

El término quimiometría surgió en la década del 70 y se define como la disciplina química

que combina herramientas estadísticas como procedimientos para el análisis e interpretación

de los datos químicos(Van de Waterbeemd, 1995, Brereton, 1990, Devillers, 1991, Frank,

1994). Las técnicas utilizadas para la recopilación, la elaboración, el análisis y la

caracterización de conjuntos de datos, hoy en día, se interceptan no solo con varios campos

de la Matemática y la Estadística clásica sino también de la Inteligencia Artificial (IA) y otras

ramas de la ciencia de la computación(Rumelhart et al., 1986, Vapnik, 1995)

1.3.2 Herramientas Estadísticas.

1.3.2.1- Regresión Lineal Múltiple (RLM).

El análisis de regresión múltiple es una técnica que se utiliza para encontrar relaciones entre

una única variable dependiente (criterio) y varias variables independientes (explicativas,

predictores)(Hair et al., 1999). Así mismo, la regresión múltiple remite a la correlación

múltiple, que se representa por R. Sus fundamentos se hallan en la correlación de

Pearson(Alzina, 1989). La ecuación (modelo) de regresión múltiple tiene la siguiente forma:

𝑌 = 𝑎 + 𝑏1𝑋1 + 𝑏2𝑋2 + ⋯ + 𝑏𝑛𝑋𝑛 (5)

Siendo ‘a’ un valor constante, Y la variable dependiente, X1, X2,…Xn variables predictoras

y 𝑏1, 𝑏2, … , 𝑏𝑛 coeficientes estimados para cada variable independiente del modelo. Como

puede observarse, la RLM puede utilizarse en la predicción de los valores de la variable

dependiente, en base a una combinación de variables independientes y los coeficientes que

ponderan las variables independientes en la ecuación (4) son mayormente determinados por

el método de mínimos cuadrados(Frank, 1993, Draper and Smith, 1998).

Page 31: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

1.3.2.2- Principio de la parsimonia y la selección del número óptimo de variables.

Un buen modelo no debe presentar ni demasiadas variables, ni debe olvidar las que sean

verdaderamente relevantes. Es decir, debe cumplir el principio de parsimonia, según el cual

un fenómeno debe ser descrito con el número mínimo de elementos posibles(Deconinck et

al., 2007a). El principio de parsimonia tiene aplicaciones de importancia en el análisis

exploratorio de modelos de RLM, pues de un conjunto de variables explicativas que forman

parte del modelo a estudiar, debe seleccionarse la combinación más reducida y simple

posible, teniendo en cuenta la varianza residual, la capacidad de predicción y la

multicolinealidad.

Diversos procedimientos se han propuesto para seleccionar el número óptimo de variables a

incluir en la ecuación. Los métodos más comunes de regresión se basan en la adición o

eliminación de una variable a la vez, siguiendo un determinado criterio(Draper and Smith,

1998), y se conocen como: selección hacia adelante, eliminación hacia atrás; y selección paso

a paso(Norusis, 1985). Este último método es uno de los más utilizados (es una combinación

de los dos anteriores) y sigue un proceso de selección de variables paso a paso.

Existen también otros métodos modernos que pueden ser aplicados con éxito a la búsqueda

de combinaciones óptimas de las variables.

1.3.2.3- Algoritmo Genético (AG) como método de selección de parámetros.

Según D. Goldberg los AGs son:

Algoritmos de búsqueda basados en los mecanismos de selección natural y genética natural.

Combinan la supervivencia de los más compatibles entre las estructuras de cadenas, con una

estructura de información ya aleatorizada, intercambiada para construir un algoritmo de

Page 32: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

búsqueda con algunas de las capacidades de innovación de la búsqueda humana(Goldberg,

1989).

Un AG no es más que un método de búsqueda que imita la teoría de la evolución biológica

de Darwin (1859) para la resolución de problemas. Para ello, se parte de una población inicial

de la cual se seleccionan los individuos más capacitados para luego reproducirlos y mutarlos,

y de esa forma obtener finalmente la siguiente generación de individuos que estarán más

adaptados que la anterior generación(Leardi et al., 1992).

En la naturaleza todo el proceso de evolución biológica se hace de forma natural pero para

aplicar el AG al campo de la resolución de problemas habrá que seguir una serie de pasos.

Como premisa se debe conseguir que el tamaño de la población sea lo suficientemente grande

para garantizar la diversidad de soluciones. Se aconseja que la población sea generada de

forma aleatoria para obtener dicha diversidad.

Los pasos básicos de un algoritmo genético según (Goldberg, 1989, Leardi, 1994, Leardi,

2001) son:

Evaluar la puntuación de cada uno de los cromosomas generados.

Permitir la reproducción de los cromosomas siendo los más aptos los que tengan más

probabilidad de reproducirse.

Con cierta probabilidad de mutación, mutar un gen del nuevo individuo generado.

Organizar la nueva población.

Estos pasos se repetirán hasta que se dé una condición de terminación. Se puede fijar un

número máximo de iteraciones antes de finalizar el algoritmo genético o detenerlo cuando

no se produzcan más cambios en la población (convergencia del algoritmo). Esta última

Page 33: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

opción suele ser la más habitual. Observar la Anexo 1 de los anexos donde aparece reflejada

un esquema general de un AG.

1.3.2.4.- Clasificador, Máquinas de Soporte Vectorial. (SMO acrónico de Sequential Minimal

Optimization).

Las Máquinas de Soporte Vectorial (SVM por su nombre en inglés Support Vector Machine)

son una moderna y efectiva técnica de inteligencia artificial, que ha tenido un formidable

desarrollo en los últimos años. Estas son sistemas de aprendizaje que usan un espacio de

hipótesis de funciones lineales en un espacio de rasgos de mayor dimensión, entrenadas por

un algoritmo proveniente de la teoría de optimización. De forma general el algoritmo se

enfoca en el problema de aprender a discriminar entre miembros positivos y negativos de

vectores n-dimensionales. Mediante una función matemática denominada kernel, los datos

originales se redimensionan para buscar una separabilidad lineal de los mismos. De manera

general, las SVM permiten encontrar un híper plano óptimo que separe las clases.(Liu et al.,

2006, Hearst MA, 1998)

1.3.2.4.1- Funciones Kernel.

Las funciones kernel son funciones matemáticas que se emplean en las Máquinas de Soporte

Vectorial.(Cortes C, 1995) Estas funciones son las que le permiten convertir lo que sería un

problema de clasificación no-lineal en el espacio dimensional original, a un problema más

sencillo de clasificación lineal en un espacio dimensional mayor. El tipo de kernel determina

la transformación o mapeo que se le realizará a los datos.

Entre los kernels más empleados por su implementación en diversos programas de

modelación como Weka(Hall et al., 2009), se encuentran:

El kernel Polinómico:

Page 34: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

𝐾(𝑥; 𝑧) = [(𝑥 ∗ 𝑧) + 1]𝑝 (6)

El kernel Gaussiano:

𝐾(𝑥; 𝑦) = 𝑒(−‖𝑥−𝑧‖)

2𝜎2 (7)

Y el kernel Universal de Pearson

𝐾(𝑥𝑖; 𝑥𝑗) = 1 [1 + (2 ∗ √‖𝑥𝑖 − 𝑥𝑗‖2

∗ √2(1 𝜔⁄ ) − 1 𝜎⁄ )2]𝜔⁄ (8)

Donde ω y σ controlan la altura y amplitud del pico de la función.

1.3.2.6- Validación interna.

La validación cruzada (VC) opera haciendo un número de reducidas modificaciones al

conjunto de compuestos de la data original y entonces calcula la precisión de las predicciones

de cada uno de los resultados de los modelos(Wold, 1978, Stone, 1974). Es decir, se ajusta

el modelo a los nuevos datos, dejando la parte omitida fuera, y estos se evalúan en el modelo

para computar las predicciones de los casos que fueron excluidos. Este procedimiento se

repite para cada conjunto de datos modificados. El poder predictivo del modelo puede

expresarse como q2, denominado como la ‘varianza predictiva’ o la ‘varianza de la validación

cruzada’, la cual es igual a (1-PRESS/SSY), o sea que puede ser calculado acorde a la

siguiente fórmula:

𝑄2 = 1 −∑(𝑦𝑖 − 𝑦�̂� )2

∑(𝑦𝑖 −𝑦 ̅)2 (9)

donde, 𝑦𝑖 , 𝑦�̂� 𝑦 𝑦 ̅ es la respuesta observada, estimada y media del i-ésimo caso,

respectivamente. Cuando se utiliza un solo compuesto en cada grupo de VC (lo cual da N

grupos), el procedimiento se conoce como dejar “uno” fuera (LOO, acrónimo de Leave-

One-Out). (Shao, 1993).

Page 35: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

En la técnica de validación por Bootstrap, la talla original del conjunto de datos (n) es

preservada en la serie de entrenamiento, a partir de la seleccionan m objetos (𝑛 > 𝑚) que

son asignados al conjunto de evaluación y estos son sustituidos por m objetos repetidos de

la serie de entrenamiento(Efron, 1982, Efron, 1987). El modelo es calculado en el conjunto

de entrenamiento y las respuestas son predichas en el conjunto de evaluación. Las diferencias

de los cuadrados entre las respuestas ciertas y las predichas son recogidas en el PRESS. Este

procedimiento de elaboración del conjunto de entrenamiento es repetido miles de veces, los

PRESS son sumados y el poder predictivo promedio es calculado(Efron, 1982, Wehrens et

al., 2000).

El método del revuelto [prueba de aleatoriedad (y-sc: y-scrambling)] es empleado para

evaluar la correlación al azar(Tropsha et al., 2003, Wold and Erikson, 1995). En esta técnica,

se calcula un modelo de regresión lineal para la verdadera variable respuesta (y) junto con

un número de regresiones repetidas (200-300 veces) con las mismas variables, pero con la

variable dependiente aleatoriamente revuelta (ỹ). Luego se calcula para cada modelo la

varianza explicada q2LOO, y se evalúa la correlación entre la respuesta verdadera y la

revuelta(Clark and Fox, 2004) de la siguiente manera:

𝑞𝑘2 = 𝑎 + 𝑏. 𝑟𝑘(𝑦,𝑦�̃�) (10)

donde, la 𝑞𝑘2 es la varianza explicada para el modelo obtenido con los mismos predictores

teniendo el k-ésimo vector revuelto, 𝑟𝑘 es la correlación entre los vectores para la respuesta

verdadera y la k-ésima revuelta. Un valor del intercepto cercano a cero implica que el modelo

no es obtenido al azar mientras que un intercepto grande indica que los modelos aleatorios

Page 36: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

poseen el mismo desempeño que el modelo verdadero, por lo que se pudiera considerar

aleatorio(Clark and Fox, 2004, Rücker et al., 2007).

1.3.2.7- Validación externa.

La validación externa permite evaluar si los modelos obtenidos son generalizables a nuevos

compuestos químicos y el “verdadero” poder predictivo de los mismos(Tropsha et al., 2003).

Para esto se divide la data en 2 conjuntos: la serie de entrenamiento (sirve para construir el

modelo) y la serie de predicción (no utilizada en la selección de variables ni en el desarrollo

del modelo, pero usada exclusivamente para evaluar el modelo tras su formación).

1.3.2.8- Compuestos ‘outliers’ y técnicas para la selección de los mismos.

Los ‘outliers’ son puntos que se desvían significativamente del modelo encontrado (no se

ajustan al modelo) o son pobremente predichos por estos, afectando los parámetros

estadísticos del mismo(Gonzalez Diaz et al., 2002). Generalmente, la identificación de

‘outliers’ busca un mejoramiento cualitativo del modelo. Un buen ejemplo ha sido mostrado

por Cronin y col. en la modelación de la toxicidad de compuestos carbonílicos alifáticos para

T. Pyriformis(Golbraikh et al., 2001). En este estudio, para un total de 140 compuestos solo

se obtuvo un moderado ajuste estadístico ( 2R = 0.753). Sin embargo, al remover cinco

outliers 2R aumentó hasta 0.853(Golbraikh et al., 2001). Existen varias técnicas para detectar

la presencia de ‘outliers’, tales como: los análisis de los residuales estandarizados, el método

de Leverage, análisis de componentes principales, la estadística DFITS, análisis de clúster,

la distancia de Cook y el método de dejar “varios” fuera(Pyka and Planar., 1993).

1.3.2.9- Análisis de Componentes Principales (ACP).

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es

una técnica utilizada para describir un set de datos en términos de nuevas variables

Page 37: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

("componentes") no correlacionadas. Los componentes se ordenan por la cantidad de

varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad

de un conjunto de datos.

Técnicamente, el ACP busca la proyección según la cual los datos queden mejor

representados en términos de mínimos cuadrados. Esta convierte un conjunto de

observaciones de variables posiblemente correlacionadas en un conjunto de valores de

variables sin correlación lineal llamadas componentes principales. El ACP se emplea sobre

todo en análisis exploratorio de datos y para construir modelos predictivos(Peres-Neto et al.,

2005).

El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas

para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de

datos es capturada en el primer eje (llamado el Primer Componente Principal o PC1), la

segunda varianza más grande es el segundo eje como PC2, y así sucesivamente. Para

construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz

de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa

de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a

las coordenadas de la nueva base es precisamente la transformación lineal necesaria para

reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la

composición en factores subyacentes de los datos iniciales(Peres-Neto et al., 2005, Abdi and

Williams, 2010).

El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los

primeros componentes principales describen la mayor parte de la varianza de los datos (más

Page 38: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo

orden a veces contienen el aspecto "más importante" de la información, y los demás

componentes se pueden ignorar.

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han

medido m variables (aleatorias) Fj. El ACP permite encontrar un número de factores

subyacentes p < m que explican aproximadamente el valor de las m variables para cada

individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una

reducción de la dimensionalidad de los datos: donde antes necesitábamos m valores para

caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se

llama componente principal(Peres-Neto et al., 2005).

Existen diferentes técnicas para estimar el número de componentes principales que son

relevantes(Peres-Neto et al., 2005):

1. Método basado en la matriz de correlación, cuando los datos no son

dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias

medidas no es el mismo.

2. Método basado en la matriz de covarianzas, que se usa cuando los datos son

dimensionalmente homogéneos y presentan valores medios similares.

Page 39: Departamento de Lic. Química

ANTECEDENTES Y MARCO TEÓRICO

Materiales y Métodos

Page 40: Departamento de Lic. Química

MATERIALES Y MÉTODOS

“El que aprende y aprende y no practica lo que aprende, es como el que ara y ara y nunca siembra. ’’

Platón

MATERIALES Y MÉTODOS

En este capítulo se abordan los principales métodos empleados para el cálculo de las

funciones matemáticas que describen el comportamiento de las moléculas con respecto a sus

propiedades de atravesar la BHE.

2 MATERIALES Y MÉTODOS:

2.1 Base de Datos.

La base de datos que se utilizó en este trabajo fue confeccionada por los autores Yoan Brito-

Sánchez, Yovani Marrero-Ponce, Stephen J. Abrigue, Hong Le-Thi-Thu y Artem

Cherkasov(Yoan Brito-Sánchez, 2015). Esta base de datos fue construida después de una

extensa búsqueda en la literatura internacional, los datos de las moléculas y sus respectivas

actividades de atravesar la BHE fueron extraídos directamente de los artículos y

publicaciones en las cuales se encontraban, este conjunto de moléculas poseen una gran

relevancia ya que los resultados obtenidos reflejan la base de datos más amplia y diversa de

las reportadas hasta el momento en la literatura internacional de compuestos a los cuales se

les haya determinado experimentalmente la capacidad de atravesar la BHE, además en esta

se incluyen nuevas moléculas, las cuales nunca habían estado presente en estudios QSAR.

Al contar con un conjunto de moléculas tan extensa, es recomendable hacer un estudio previo

sobre las mismas. Los pasos más importantes incluyeron la eliminación de compuestos

inorgánicos y organometálicos, mezclas y curación de formas tautoméricas. También las

Page 41: Departamento de Lic. Química

MATERIALES Y MÉTODOS

sales orgánicas (sales con Na+, K+, Ca2+) se convirtieron en sus correspondientes formas

neutras, y solo se retuvo un compuesto en caso de isomería (cualquier par de enantiomeros o

diastereoisómeros se reconocieron como duplicados). Además, al final del proceso, del

curado del conjunto de datos, se realizó también en el conjunto de datos original. En este

paso, cada estructura se visualizó y se inspeccionó manualmente para detectar estructuras

que, por alguna razón pudieran escapar a los pasos de conservación automática descritos

anteriormente(Brito‐Sánchez et al., 2015). Posteriormente se ordenó la data set, combinando

todos los conjuntos de índices de distribución, pero no los promediamos. Los valores finales

de log BBB se seleccionaron sobre la base de su uniformidad con respecto a las

determinaciones experimentales(Brito‐Sánchez et al., 2015). Posteriormente en otros

estudios se pudo identificar que valores de log BBB en el rango desde -2 hasta 2 poseen el

mayor potencial de aplicación para muchos de los modelos reportados en la literatura(Begley,

2000, Abbott et al., 2010b), Al incluir 579 moléculas este conjunto de compuestos es capaz

de caracterizar el espacio químico en mayor medida que los estudios que le

anteceden(Lanevskij et al., 2011, Mensch et al., 2009, Zerara et al., 2009, Chen et al., 2011,

Zhang et al., 2010a). Esto permitirá, una vez que se encuentre a disposición de la comunidad

científica, que sea posible investigar y abordar nuevos análisis predictivos del poder de

atravesar la BHE de moléculas químicas con una mayor precisión y examinando otros

factores que hasta el momento no se han considerado en este tipo de estudio. La base de datos

con que se trabajó se puede encontrar en el anexo 2.

Page 42: Departamento de Lic. Química

MATERIALES Y MÉTODOS

2.2 Métodos Computacionales de Cálculo.

2.2.1-Cálculo de los nuevos Índices de Derivada del Grafo. Programa TOMOCOMD-

CARDD(DIVATI).

La definición de los nuevos DMs tiene como propósito final su uso como una herramienta

para el diseño molecular y en diversos estudios teóricos, es por ello muy importante facilitar,

desde un punto de vista computacional, el cálculo de estos DMs para que pueda ser utilizado

por cualquier investigador interesado, sin que el mismo cuente con grandes conocimientos

de informática. Con este fin se desarrolló una aplicación visual, escrita en el lenguaje de

programación JAVA denominado DIVATI (Acrónimo de DIscrete DeriVAtive Type

Indices), un nuevo módulo del programa TOMOCOMD-CARDD (acrónimo de Topological

Molecular COMputational Design Computed-Aided ‘Rational’ Drug Design)(Marrero-

Ponce et al., 2004). Este programa carga las estructuras en ficheros de formato .MDL, .mol

y .sdf, y permite salvar los descriptores calculados en ficheros de tipo .txt, .xls, .xlsx y .csv.

Este programa facilita el cálculo de todas las familias de Nuevos índices basados en la

derivada discreta de un grafo: derivadas, derivadas de orden superior y derivadas mixtas,

sobre pares (duplas), tríos (ternas) y cuartetos (cuaternas) de átomos en cualquier tipo de

estructura química orgánica. Para la diferenciación atómica se dispone de una serie de 21

ponderaciones (etiquetas) atómicas, agrupadas en tres grandes grupos: Químicas [número

atómico (Z), volumen de Van der Walls (W), polarizabilidad (P), masa atómica (A), radio

covalente (R), electronegatividad de Pauling (E)], Físicas [área superficial polar total (T),

contribución atómica al logP (G), contribución atómica a la refractividad molar (M), carga

(C)] y Topológicas basadas en diferentes criterios de Grados del Vértice [grado de valencia

(N), conectividad excéntrica (Y), estado electrotopológico (S), grado del vértice de Kupchik

(K), estado intrínseco (I), grado del vértice de enlace (B), grado del vértice de Li (D), grado

Page 43: Departamento de Lic. Química

MATERIALES Y MÉTODOS

del vértice de Hu-Xu (H), grado del vértice de Alikhanidi (L), grado del vértice de Ivanciauc

(V), conteo de distancias (O)]. El programa permite además realizar cálculos locales

atómicos individuales y para grupos de átomos [heteroátomos (HT), halógenos (HL),

aceptores de protones (AH), donantes de protones (DH), carbonos metilos (MC),

insaturaciones (IS), grupos a una longitud k (GL)]. Para los cálculos locales de grupos de

átomos se aplican operadores matemáticos. Si al avaluar estos operadores se tienen en cuenta

todos los átomos de la molécula el resultado será un cálculo global (total) de la molécula. En

el software DIVATI estos operadores han sido denominados colectivamente como

invariantes y agrupados en normas, medias, estadísticos y algoritmos clásicos y constituyen

una generalización del uso de la combinación lineal de las contribuciones atómicas para la

descripción global de la molécula.

2.2.2- Análisis de Variabilidad (AV). Programa IMMAN.

La calidad de los nuevos DMs, que se proponen en este trabajo, puede ser evaluada y

comparada si se emplea la técnica de AV basada en el cálculo de la Entropía de Shannon

(SE) para los estos índices.(Godden and Bajorath, 2000, Godden and Bajorath, 2002, Barigye

et al., 2014) Con esta técnica se estima la cantidad de información codificada por los

diferentes parámetros moleculares, como entidades independientes, y luego se comparan los

valores entrópicos de estos. Es importante en este método definir el número de intervalos

discretos a emplear, el cual es único para todas las variables que se comparen. Esto permite

que los DMs de diferentes unidades y rangos de valores sean comparables. Adicionalmente,

para comparaciones más cómodas, es deseable que las datas que se comparen tengan el

mismo número de variables, por lo que en estudios donde se compararon datas con diferentes

números de variables, se aplicaron puntos de corte teniendo en cuenta la de menor número

de variables.

Page 44: Departamento de Lic. Química

MATERIALES Y MÉTODOS

Con motivo de realizar el análisis de variabilidad de los parámetros moleculares propuestos

en el presente trabajo, se ha implementado una herramienta computacional fundamentada en

los conceptos de la teoría de información la cual se denomina IMMAN (acrónimo de

Information Theory based CheMoMetric ANalysis). Este programa permite el cálculo de la

SE a los DMs, además de otros parámetros derivados de transformaciones matemáticas de la

SE, tales como: la entropía de Shannon estandarizada (sSE), la Negentropía (nSE), el índice

de redundancia de Brillouin (rSE), el índice de Gini (gSE) y el contenido de la energía de

información (iSE). Otros parámetros basados en la teoría de información implementados en

este programa incluyen la entropía diferencial generalizada (DSE) y la información de Jeffrey

(JI). Los formatos de ficheros de entrada para el IMMAN incluyen .txt y .csv.

2.2.2.1- Selección de los mejores descriptores moleculares.

La degeneración de descriptores moleculares se refiere a la capacidad de un DMs para evitar

la obtención de valores idénticos para moléculas diferentes. Es posible entonces que, los

descriptores no posean degeneración (N) o presenten algún tipo de degeneración que puede

ser baja (L), intermedia (I) o alta (H). El grado de degeneración de un descriptor puede ser

medido por la Entropía de Shannon.

El contenido de información y la entropía de Shannon de los DMs han sido extensivamente

estudiados por Godden y colaboradores.(Godden and Bajorath, 2000, Godden and Bajorath,

2002, Godden and Bajorath, 2003) Basándose en estas ideas, un análisis de variabilidad

cuantifica el contenido de información y, por lo tanto, la variabilidad de los DMs, basado en

el concepto de entropía de Shannon. Para esto se cuenta con un procedimiento de

discretización empleando los histogramas de distribución de frecuencias. Sea p(a)i la

Page 45: Departamento de Lic. Química

MATERIALES Y MÉTODOS

probabilidad de que el caso a esté en intervalo i, para un número de intervalos N se construye

una función de distribución de probabilidades, P(A), a la cual se le aplica la ecuación:

𝐻 = − ∑ 𝑝𝑖 ∙ 𝑙𝑜𝑔2(𝑝𝑖)𝑛𝑖=1 (11)

De esta forma se obtiene la entropía de cada variable (DMs), siendo elevada para variables

de alta variabilidad y mínima para las de poca variabilidad en la data. Por tanto, esta técnica

permite evaluar la calidad de los DMs como entidades independientes y se ha utilizado en la

literatura para comparar el desempeño de conjuntos de DMs implementados de diferentes

paquetes computacionales, así como en estudios de diversidad molecular.(Godden and

Bajorath, 2000, Barigye et al., 2013a, Barigye et al., 2013b, Barigye et al., 2014, Godden et

al., 2000)

La degeneración es un atributo no deseable para un DMs usado en la caracterización de

estructuras químicas.

Se debe esperar que para una base de datos tan diversa como es con la que hemos trabajado

los DMs que tienen mayor variabilidad aporten mejores resultados. Con el objetivo de

encontrar los descriptores moleculares que mayor variabilidad los anteriormente DMs

calculados fueron sometidos a un análisis con el software IMMAN, el cual reportó el valor

de la entropía de Shannon y permitió seleccionar los DMs más entrópicos, a su vez los más

degenerados.

2.2.3- Regresión Lineal Múltiple (RLM). Programa MobyDigs

2.2.3.1- Programa MobyDigs.

Los modelos de regresión QSPR/QSAR se obtuvieron con el programa MOBYDIGS

(versión 1.0 – 2004)(Gramatica and Papa, 2005). Los pesos de cada descriptor en la ecuación

de regresión son determinados por el método de mínimos cuadrados. Este programa utiliza

Page 46: Departamento de Lic. Química

MATERIALES Y MÉTODOS

un Algoritmo Genético como método de selección de parámetros, lo que le permite evaluar

un número elevado de variables. Para cada estudio QSPR/QSAR, se determinó el tamaño

(grado de libertad) deseado para los modelos a generar. El tamaño de la población para todos

los estudios fue fijado a 100. El AG con un tamaño poblacional inicial de 100 rápidamente

converge (200 generaciones) y alcanza un modelo QSAR en un número razonable de

generaciones y por tanto un tiempo prudencialmente aceptable. La optimización y elección

de los mejores modelos fueron desarrollados teniendo en cuenta los siguientes estadígrafos:

(función de optimización) del algoritmo genético el estadígrafo q2LOO y los modelos fueron

validados empleando las técnicas de re-muestreo [bootstrapping (q2boot)], revuelto [Y-

scrambling: a (R2), a (q2)]. La selección del mejor modelo fue desarrollada en términos del

mayor coeficiente de correlación al cuadrado [coeficiente de determinación, (R2)] y la(s)

ecuación(es) de la desviación estándar más baja. Se analizaron los parámetros estadísticos

q2LOO (validación cruzada “dejando uno afuera”) y el q2

boot para evaluar la calidad de los

modelos.

2.2.3.1- Análisis de Componentes Principales (Método basado en las covarianzas).

Identificación de compuestos outliers.

El objetivo de este método es transformar un conjunto dado de datos X de dimensión n x m

a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información

útil posible utilizando para ello la matriz de covarianza (Peres-Neto et al., 2005).

Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las

describen y el objetivo es que, cada una de esas muestras, se describa con solo l variables,

donde l < m. Además, el número de componentes principales l tiene que ser inferior a la

menor de las dimensiones de X.

Page 47: Departamento de Lic. Química

MATERIALES Y MÉTODOS

𝑙 ≤ 𝑚𝑖𝑛 {𝑛, 𝑚}

Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada

columna) y/o autoescalados (centrados a media 0 y dividiendo cada columna por su

desviación estándar).

𝑋 = ∑ 𝑡𝑎𝑙𝑎=𝑙 𝑃𝑎

𝑇 + 𝐸 (12)

Los vectores ta son conocidos como scores y contienen la información de cómo las muestras

están relacionadas unas con otras además, tienen la propiedad de ser ortogonales. Los

vectores Pa se llaman loadings e informan de la relación existente entre las variables y tienen

la cualidad de ser ortonormales. Al coger menos componentes principales que variables y

debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la

matriz E (Peres-Neto et al., 2005).

El ACP se basa en la descomposición en vectores propios de la matriz de covarianza. Las

cuales se calcula con las siguientes ecuaciones:

𝑐𝑜𝑣(𝑋) =𝑋 𝑋𝑇

𝑛−1 (13)

𝑐𝑜𝑣(𝑋)𝑃𝑎 = 𝜆𝑎𝑃𝑎 (14)

∑ 𝜆𝑎𝑚𝑎=1 = 1 (15)

Donde λa es el valor propio asociado al vector propio Pa. Por último,

𝑡𝑎 = Χ 𝑃𝑎 (16)

Page 48: Departamento de Lic. Química

MATERIALES Y MÉTODOS

Esta ecuación la podemos entender como que ta son las proyecciones de X en Pa, donde los

valores propios λa miden la cantidad de varianza capturada, es decir, la información que

representan cada uno de los componentes principales. La cantidad de información que

captura cada componente principal va disminuyendo según su número es decir, el

componente principal número uno representa más información que el dos y así

sucesivamente (Peres-Neto et al., 2005).

2.2.4- Regresión no-lineal múltiple. Programa KNIME.

El programa KNIME (Software Libre): es una herramienta libre para el aprendizaje

automático, lanzada en el año 2006, sus creadores pertenecen a la comunidad de la

universidad de Konstanz (Alemania). Knime (www.knime.org) es una plataforma modular

de exploración de datos que permite al usuario la creación de flujos de manera visual.

Además permite ejecutar de manera selectiva algunos pasos, así como ejecutar todo el flujo

desarrollado. Posterior a la ejecución, los resultados se pueden investigar mediante varias

vistas interactivas tanto de los datos como los modelos (Abet et al., 2012). KNIME es un

software que posee dentro de sus utilidades la habilidad de poder trabajar con funciones que

corresponden a otros software como por ejemplo el WEKA, DRAGON(Mauri et al., 2006),

entre otros, es una plataforma interactiva que permite crear flujos de trabajos de manera muy

didáctica y fácil, para este trabajo solo se utilizaron las funciones pertenecientes al software

WEKA.

WEKA por sus siglas en inglés (Waikato Environment for Knowledge Analysis)(Hall et al.,

2009) es una herramienta que permite la experimentación de análisis de datos mediante la

aplicación, análisis y evaluación de las técnicas más relevantes de análisis de datos,

Page 49: Departamento de Lic. Química

MATERIALES Y MÉTODOS

principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de

datos del usuario(Boser et al., 1992, Cortes and Vapnik, 1995, Vapnik, 1999).

El mismo contiene herramientas para realizar transformaciones sobre los datos, tareas de

clasificación, regresión, agrupamiento, asociación y visualización.

WEKA es un conocido programa para aprendizaje automático y minería de datos escrito en

Java y desarrollado en la Universidad de Waikato. WEKA es una colección de algoritmos de

aprendizaje automático para la extracción de datos tareas. Los algoritmos pueden ser

aplicados directamente a un conjunto de datos o llamar desde su propio código Java. WEKA

contiene herramientas para los datos de pre-procesamiento, clustering, reglas de asociación,

y la visualización, así como clasificación, regresión usando las Máquinas de Soporte

Vectorial(Kalmegh, 2015, Danilo, 2010, Sch and Smola, 2002, Keerthi et al., 2001, Shevade,

1999).

Page 50: Departamento de Lic. Química

Resultados y Discusión

Page 51: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

“Un problema no puede ser resuelto en el mismo nivel de pensamiento en el que se generó’’

Albert Einstein

RESULTADOS Y DISCUSIÓN

En este capítulo se exponen los principales resultados que se obtuvieron. Se muestran

además la discusión e interpretación de cada resultado y de las variables (DMs) que

demostraron tener mayor relación con la actividad estudiada.

3 RESULTADOS Y DISCUSIÓN:

3.1- Cálculo de los nuevos Índices de Derivada del Grafo.

Se desarrollaron cálculos de los Índices de Derivada del Grafo (GDI) para pares, ternas y

cuaternas de átomos respecto a 5 eventos diferentes que generan modelos diversos para

describir la estructura molecular estos eventos fueron: 1. Connected Sub-Graphs(S); 2.

Multiplicity (M); 3. Sach (H); 4. Sub-Structure (B); 5. Alog P (A). Los átomos en cada

molécula fueron diferenciados usando diversas ponderaciones químicas, físicas y topológicas

basadas en grados del vértice como electronegatividad de Pauling (E), polarizabilidad (P),

volumen de Van der Waals (W), área de superficie total polar TPSA (T), AlogP (G), grado

del vértice de Ivaniciuc (V), estado Electrotopológico (S), grado del vértice Alikhanidi (L),

grado del vértice de Bond(B), grado del vértice de Hu-Xu’s (H). Se cuantificaron además,

índices globales y locales sobre heteroátomos (HT), halógenos (HL), aceptores de protones

(AH), carbonos metilos (MC) y enlaces insaturados (IS).

Todos los cálculos fueron desarrollados en el programa interactivo DIVATI, nuevo módulo

del software TOMOCOMD-CARDD, donde están implementadas todas las familias de

índices basadas en el concepto de Derivada Discreta de un Grafo.

Page 52: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Después de un análisis de variabilidad vasado en la entropía de Shannon realizado con el

programa IMMAN se decidió confeccionar una data para la obtención de los modelos con

178 DMs siendo estos la más entrópicos, los de menor degeneración y los más ortogonales

entre sí.

3.2- Modelos de RLM.

3.2.1- Modelo inicial de RLM.

Se encontró un modelo inicial de RLM entre la actividad biológica de atravesar la BHE y el

conjunto químico de 579 moléculas con el programa MobyDigs 1.0. Este programa usa el

algoritmo genético como método de selección de parámetros y el Q2Loo como función

objetivo para escoger los mejor modelos. Además el software permite obtener varios

parámetros estadísticos para evaluar la calidad de los modelos.

El mejor modelo de regresión lineal obtenido para describir la actividad de atravesar la BHE

de las moléculas de la base de datos, los parámetros estadísticos y sus correspondientes

gráficos de regresión y predicción se muestran a continuación:

Tabla 1: Mejor modelo con sus respectivos coeficientes y errores.

Parámetros estadísticos del Modelo:

No.Var. = 14; R2 = 78.54; Q2loo = 74.05; s = 1.1952; a (R2) = 0.008; a (Q2) = -0.046

Page 53: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Gráficos:

Figura 1: Gráfico de predicción.

Figura 2: Gráfico de regresión.

Page 54: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

3.2.1.1- Interpretación del Modelo.

Los parámetros estadísticos de este modelo muestran un moderado ajuste a los resultados

experimentales lo que demuestra una relación lineal entre los descriptores y la capacidad de

atravesar la BHE reportadas para las moléculas. La ecuación del modelo de RLM con 14

variables explica más del 78 % del comportamiento de la propiedad en las moléculas.

Como se pudo observar en los gráficos anteriores y en los parámetros estadísticos el modelo

posee una aceptable capacidad de ajuste a los datos experimentales. Además se debe tener en

cuenta que se está modelando una actividad biológica, esta es una modelación muy compleja

ya que depende, además de la estructura, de otros factores no controlables por el

experimentador, como por ejemplo: el efecto de la matriz biológica sobre la capacidad

individual de acción de cada una de las moléculas y los diferentes mecanismos por los cuales

las moléculas atraviesan la BHE ;sin embargo se asume que la estructura química posee el

protagonismo en cuanto a influenciar el valor de la propiedad.

3.2.2- Identificación y eliminación de las moléculas outliers.

Para este trabajo se utilizó un análisis de componentes principales usando el método de la

covarianza, con este objetivo se utilizó el programa MobyDigs el cual posee las herramientas

estadísticas necesaria para realizar este análisis, el software una vez que confecciona el

modelo de RLM realiza un ACP de las variables que pertenecen al modelo, estos fueron los

resultados arrojados:

Page 55: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Figura. 3 Gráfico del ACP donde se grafica PC1 vs PC2.

Después del análisis de este gráfico se pudo identificar 19 moléculas que se alejan del

comportamiento del modelo, según sus parámetros estadísticos de acuerdo al ACP:

1. Cyclosporine A 8. digoxin 14. saquinavir (invirase)

2. mivacurium 9. rifampicin 15. DPDPE

3. doxacurium 10. paclitaxel 16. rapacuronium

4. 4-Fluoropaclitaxel 11. pipecuronium 17. cisatracurium besylate

5. Ivermectin 1a 12. pancuronium 18. brezal

6. vincristine 13. norcuron 19. carnitine

7. vinblastine

Como podemos esperar, los parámetros de ajustes del modelo para este conjunto de 19

moléculas no son adecuados. Sin embargo, después de tratar de encontrar explicaciones

Page 56: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

adicionales (no solo razones estadísticas) del comportamiento anómalo de estos compuestos,

parece realmente interesante, que la gran mayoría de ellos están relacionados con

transportadores activos, factores metabólicos y demás. Estos hallazgos concuerdan con los

de estudios relacionados que excluyeron compuestos ya sea porque eran atípicos o tenían

características estructurales relacionadas con estos procesos, (Mensch et al., 2009) (Brito‐

Sánchez et al., 2015).

Tabla 2: Moléculas consideradas outliers y la razón por las cuales fueron excluida.

No Nombre Comentario Referencia (donde

aparece)

1 Ivermectin 1a *P-gpefflux (Adenot and

Lahana, 2004)

2 Rapacuronium Identificado como outliers por Garg, P. and Verma, J.

(Garg and Verma)

3 Cyclosporine A *P-gp efflux (Adenot and

Lahana, 2004, Usansky and Sinko, 2003,

Garberg et al., 2005)

4 Norcuron Identificado como outliers por Garg, P. and Verma, J.

(Garg and Verma, 2006)

6 4-Fluoropaclitaxel

Posible subestructura del P-gp (Adenot and Lahana, 2004) Posible atípico estructuralmente

7 Brezal Identificado como respuesta atípica (Brito‐Sánchez

et al., 2015)

8 DPDPE Identificado como respuesta atípica (Brito‐Sánchez et al., 2015)

* P-glicoproteína. * OCT (un transportador que facilita el transporte a través de la membrana)

apical de una célula epitelial) (Usansky and Sinko, 2003)

Para el resto de las moléculas no fue posible identificar el porqué de su comportamiento

atípico aunque existen referencias que reportan que valores de -2 < log BBB > 2 son

moléculas con poder para atravesar la BHE (Begley, 1996) (Abbott et al., 2010b). Las

Page 57: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

moléculas aquí identificadas como outliers poseen valores de log BBB fuera de este rango

que son reportados junto con su estructura en el anexo 3.

3.2.3 Modelo de RLM con data modificada.

Para la obtención de este modelo de RLM se sometió la data resultante de eliminar estas 19

moléculas al mismo análisis que se siguió para la obtención del primero. Con el objetivo de

mejorar el poder predictivo de este modelo se separó la data en dos, en serie de entrenamiento

(treining data) y serie de predicción (tes data) de manera que en la serie de entrenamiento

entraran 420(75%) moléculas y en la serie de predicción 140(25%) moléculas, el

procedimiento que se siguió para la separación de la data fue de manera aleatoria. Las

moléculas que se refieren anteriormente que entraron en la serie de entrenamiento y de

predicción están expuestas en el anexo 4.

Los resultados obtenidos, así como los parámetros estadísticos y sus correspondientes

gráficos de regresión y predicción se muestran a continuación:

Page 58: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Tabla 3: Mejor modelo con sus respectivos coeficientes y errores.

Parámetros estadísticos del Modelo:

No.Var. = 15; R2 = 86.58; Q2 = 84.44; Q2boot = 76.30; s = 0.565; a (R2) = 0.020; a(Q2) = -0.091

Gráficos:

Figura 4: Gráfico de predicción.

Page 59: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

3.2.3.1 Interpretación del Modelo.

Los parámetros estadísticos de este modelo muestran un buen ajuste a los resultados

experimentales, lo que demuestra una relación lineal moderada entre los descriptores y la

capacidad de atravesar la BHE reportadas para las moléculas. La ecuación del modelo de

RLM con 15 variables predice el comportamiento de más del 86 % de la propiedad biológica

de las moléculas.

Como puede observarse en el gráfico anterior y en los parámetros estadísticos el modelo

posee una buena capacidad de ajuste a los datos experimentales. Este modelo mejora

apreciablemente al primero obtenido esto debido a la eliminación de las moléculas que

consideramos que se desvían el comportamiento experimental.

3.2.4 Segunda selección de outliers y modelo de RLM modificado:

Se encontró un nuevo modelo de RLM entre la actividad biológica de atravesar la BHE y un

conjunto químico de 550 moléculas con el programa MobyDigs 1.0. Esta base de dato de 550

moléculas fue el resultado de eliminar de la misma un conjunto químico de 29 entidades

químicas para los cuales se reportaban valores de log BBB con valores fuera del rango de -2

<log BBB > 2, considerados como parámetros atípicos en diferentes trabajos de

modelaciones con bases de datos similares(Begley, 1996, Begley, 2000, Arthur M. Butt,

1990). Las moléculas que entraron en la serie de entrenamiento y en la serie de predicción

están reportadas en el anexo 4.

El mejor modelo de regresión lineal obtenido para describir la actividad de atravesar la BHE

de las moléculas de la base de datos, los parámetros estadísticos y sus correspondientes

gráficos de regresión y predicción se muestran a continuación:

Page 60: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Tabla 4: Mejor modelo con sus respectivos coeficientes y errores.

Parámetros estadísticos del Modelo:

No.Var. = 15; R2 = 49.75; Q2loo = 45.60; s = 0.5204

Gráficos:

Figura 5: Gráfico de predicción.

Page 61: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Figura 6: Gráfico de regresión.

3.2.4.1- Interpretación del Modelo.

Los parámetros estadísticos de este modelo muestran un pobre ajuste a los resultados

experimentales lo que demuestra una escasa relación lineal entre los descriptores y la

capacidad de atravesar la BHE reportadas para las moléculas. La ecuación del modelo de

RLM con 15 variables solo se aplica para un 50% del comportamiento de la propiedad

bilógica de las moléculas.

Como se pudo observar en los gráficos anteriores y en los parámetros estadísticos el modelo

no posee una buena capacidad de ajuste a los datos experimentales. Esto debido a que la

segunda determinación de outliers no fue del todo satisfactorio ya que al disminuir el rango

de trabajo de la propiedad biológica se pierde información valiosa; porque se debe tener en

cuenta que se está modelando una actividad biológica y en este trabajo se considera que la

misma depende exclusivamente de la estructura química de la molécula, excluyendo los

Page 62: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

mecanismos biológicos que puedan estar presentes, que escapan así del alcance de nuestra

modelación.

3.3 Regresión no lineal.

Una vez encontradas los mejores modelos de RLM, se hace necesario recurrir a la aplicación

de técnicas no lineales debido a que puede que el modelo se ajuste con mayor precisión a una

regresión del tipo no lineal. Por lo tanto, con los descriptores previamente calculados y la

data de moléculas que se le extrajeron las primeras 19 moléculas reportadas como outliers en

la tabla 2, se procede a la utilización de técnicas no lineales con la ayuda del software

KNIME, el cual está provisto de algoritmos para este tipo de modelación, para este caso

específico se utilizó una Máquina de Soporte Vectorial para la regresión (SMOreg).

3.3.1- Interpretación del modelo no lineales.

Se encontró un modelo no lineal para la actividad de traspasar le BHE con el método de las

Máquinas de Soporte Vectorial para la regresión (SMOreg) que está implementado en el

software KNIME, empleando una complejidad unitaria (C = 1) y la función PoliKernel con

exponente 1. En dicho modelo influyeron atributos basados en heteroátomos y donantes de

hidrógeno fundamentalmente, que son los que poseen una mejor capacidad de ajuste con la

regresión, el poder de predicción de cada DMs se muestra en el anexo 5. Los resultados se

exponen a continuación:

Parámetros estadísticos del ajuste:

N= 560 R2= 0.807 s2 = 0.766

Page 63: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

Figura 7. Flujo de trabajo desarrollado en el programa KNIME para la función SMOreg.

Figura 8. Diálogo de la función SMOreg

Page 64: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

3.3.2- Discusión de los resultados de la regresión no lineal:

Como puede observarse en los parámetros estadísticos reportados en la tabla 5 el modelo no

lineal no supera la capacidad de ajuste a los datos experimentales con respecto a la técnica

de RLM para los mismos atributos reportados en la tabla 1. Con respecto a la robustez del

modelo, el valor del coeficiente de correlación de 0.807 es aceptable teniendo en cuenta las

características de esta modelación. Un análisis de los descriptores que entran en el modelo

de regresión no lineal reportados en el anexo 5 demuestra que la gran mayoría de los

descriptores están ponderados en la matriz de incidencia, donde el peso fundamental de la

estructura de las moléculas lo poseen los heteroátomos que están presentes en la misma,

siendo así que la mayoría de las DMs que están presentes en el modelo son de incidencias

local sobre estos heteroátomos de las moléculas.

Comparación entre técnicas lineales y no lineales:

Tabla 5. Comparación entre el método lineal y no lineal

MÉTODO N R2 Q2 S2

RLM (IDENTIFICADOS

19 OUTLIERS)

560 86.58 84.44 0.319

NO LINEAL

(SMOREG)

560 80.7 0.766

RLM 579 78.54 74.05 1.428

RLM (IDENTIFICADOS

29 OUTLIERS)

550 49.75 45.60 0.5204

Como se evidencia en la tabla anterior los resultados obtenidos con la RLM donde se trabaja

con una base de datos a la cual se le fue identificado los outliers supera al modelo obtenido

con la regresión no lineal. Es importante señalar que los estudios realizados en este trabajo

Page 65: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

son significativamente buenos, ya que a pesar de que se está modelando una actividad

biológica, que siempre se hace complicada debido a que no se tiene en cuenta el mecanismo

por la cual ocurre el proceso en el organismo, ni la matriz biológica en que se desarrolla el

mismo, se obtuvieron resultados satisfactorios. De manera general cabe señalar que el estudio

del comportamiento de las moléculas en el modelo que se realizó con el fin de identificar los

outlier y posterior separación de la data arrojaron los resultados esperados, la superioridad

en los parámetros estadísticos así lo demuestran.

Page 66: Departamento de Lic. Química

RESULTADOS Y DISCUSIÓN

3.4 Estudio comparativo sobre modelos reportados en la literatura con respecto a

este trabajo donde se utiliza la misma data.

Tabla 6. Resultados comparativos

Estudio N Q* Método Programa (tipo

de descriptores)

(Brito‐Sánchez et

al., 2015)

369a

67.02

RLM

Dragon 116b

Este trabajo

420a

86.58

RLM

TOMOCOMD-

CARDD

140b

a serie de entrenamiento, b serie de predicción, * todas las variables están expresadas como

porciento (%).

Al realizar este estudio comparativo sobre la capacidad de atravesar la BHE donde se trabaja

con la misma base de datos de 579 moléculas cabe señalar la importancia y la superioridad

de los modelos reportados en este trabajo debido a la simplicidad de los estudio de RLM que

son fáciles de generar y consumen un periodo de tiempo relativamente pequeño. Además, se

encuentran reportados en una tabla comparativa en el anexo 6 varios trabajos que modelan la

capacidad de atravesar la BHE donde utilizan otras bases de datos con menor cantidad de

moléculas y los programas para el cálculo de los DMs y los utilizados para la generación de

los modelos son diferentes; donde también se puede apreciar la superioridad de los modelos

obtenidos en este trabajo.

Page 67: Departamento de Lic. Química

CONCLUSIONES:

1. Se desarrollaron satisfactoriamente cálculos usando GDI para codificar

numéricamente el conjunto químico de 579 moléculas orgánicas.

2. Los mejores modelos de regresión lineal encontrados entre las estructuras y sus

respectivas actividades de atravesar la BHE sugiere que entre dichos parámetros

existe una relación lineal explícita, manifestando que es interesante su utilización en

estudios posteriores la aplicación de estos modelos obtenidos.

3. Se encontraron relaciones de regresión no lineal entre las moléculas y su actividad

biológica usando GDIs como estrategia de codificación de las estructuras químicas.

Page 68: Departamento de Lic. Química

RECOMENDACIONES:

1. Involucrar en posteriores estudios el cálculo de nuevas familias de DMs con el fin

de tratar de recopilar la mayor cantidad de información posible de las estructuras

químicas de las 579 moléculas concebidas en nuestra data de trabajo.

2. Continuar en la generación y optimización de modelos capaces de predecir la

capacidad de atravesar la BHE con el objetivo de utilizar estos modelos en

posteriores estudios de cribado virtual.

3. Realizar un estudio de cribado virtual con los mejores modelos reportados en este

trabajo con la finalidad de encontrar moléculas con una alta posibilidad de atravesar

la BHE.

Page 69: Departamento de Lic. Química

REFERENCIAS BIBLIOGRÁFICAS:

ABBOTT, N. J., PATABENDIGE, A. A., DOLMAN, D. E., YUSOF, S. R. & BEGLEY, D.

J. 2010a. Structure and function of the blood-brain barrier Neurobiol. Discov., 37, 13-25.

ABBOTT, N. J., PATABENDIGE, A. A., DOLMAN, D. E., YUSOF, S. R. & BEGLEY, D.

J. 2010b. Structure and function of the blood–brain barrier. Neurobiology of disease, 37, 13-25.

ABDI, H. & WILLIAMS, L. J. 2010. Principal component analysis. Wiley interdisciplinary reviews: computational statistics, 2, 433-459.

ABET, J. E., GONZÁLEZ, G., CARRIZO, B. R. & CORSO, C. L. Estudio de fallos en el

mantenimiento relacionando base de datos y fiabilidad. XIV Workshop de Investigadores en Ciencias de la Computación, 2012.

ABRAHAM, M. H. & HERSEY, A. 2006. In silico models to predict brain uptake. In: TAYLOR, J. B. & TRIGGLE, D. J. (eds.) Comprehensive Medicinal Chemistry II. Oxford: Elsevier.

ABRAHAM, M. H., IBRAHIM, A., ZHAO, Y. H. & ACREE JR, W. E. 2006. A data base for partition of volatile organic compounds and drugs from blood/ plasma/serum to

brain, and an LFER analysis of the data. J. Pharm. Sci, 95, 2091-2100. ABREU, M., FARMAC, C., GOYA, E., TUTORES, J. & BARIGYE, S. J. 2015. Exergo. ADENOT, M. & LAHANA, R. 2004. Blood-brain barrier permeation models: discriminating

between potential CNS and non-CNS drugs including P-glycoprotein substrates. Journal of chemical information and computer sciences, 44, 239-248.

ALBRECHT, B. K., BERRY, V., BOEZIO, A. A., CAO, L., CLARKIN, K., GUO, W., HARMANGE, J.-C., HIERL, M., HUANG, L. & JANOSKY, B. 2008. Discovery and optimization of substituted piperidines as potent, selective, CNS-penetrant α4β2

nicotinic acetylcholine receptor potentiators. Bioorganic & medicinal chemistry letters, 18, 5209-5212.

ALEXANDER, A. J. 2006. Obituary notice for Alexander Crum Brown [Online]. Theory of Chemical Combination. [Accessed].

ALZINA, R. B. 1989. Introduccion conceptual al análisis multivariable. Un enfoque

informatico con los paquetes SPSS-X, BMDP, LISREL Y SPAD. PPU, SA: Barcelona.

ARTHUR M. BUTT, H. C. J., AND N. ABBOTT 1990. Electrical resistance across the blood-brain barrier in anaesthetized rats. Journal of Physiology, 47-62.

ASSEF, D. V. J. C. 2000. Los Antimicrobianos en la práctica medica.

BARIGYE, S. J., MARRERO-PONCE, Y., LÓPEZ, Y. M., SANTIAGO, O. M., TORRENS, F., DOMENECH, R. G. & GALVEZ, J. 2013a. Event-based criteria in GT-STAF

information indices: theory, exploratory diversity analysis and QSPR applications. SAR and QSAR in Environmental Research, 24, 3-34.

BARIGYE, S. J., MARRERO-PONCE, Y., MARTÍNEZ-LÓPEZ, Y., ARTILES

MARTÍNEZ, L. M., PINO-URIAS, R. W., MARTÍNEZ-SANTIAGO, O. & TORRENS, F. 2013b. Relations Frequency Hypermatrices in Mutual, Conditional

and Joint Entropy-Based Information Indices. J Comput. Chem., 34, 259-274.

Page 70: Departamento de Lic. Química

BARIGYE, S. J., MARRERO-PONCE, Y., PÉREZ-GIMÉNEZ, F. & BONCHEV, D. 2014. Trends in Information Theory Based Chemical Structure Codification. Mol. Divers., 1-14.

BARYSZ, M., JASHARY, G., LALL, R. S., SRIVASTAVA, V. K. & TRINAJSTIC, N. 1983. On the Matrix of Molecules Containing Heteroatoms. In: Chemical

Applications of Topology and Graph Theory, Amsterdam, Ed: R.B. King, Elsevier. BEGLEY, D. J. 1996. The Blood‐brain Barrier: Principles for Targeting Peptides and Drugs

to the Central Nervous System. Journal of pharmacy and pharmacology, 48, 136-146.

BEGLEY, D. J. B., MICHAEL W. ; KEUTER, JORG 2000. The Blood-Brain Barrier and

Drug Delivery to the CNS, http:/ /www.dekker.com. BOSER, B. E., GUYON, I. M. & VAPNIK, V. N. A training algorithm for optimal margin

classifiers. Proceedings of the fifth annual workshop on Computational learning theory, 1992. ACM, 144-152.

BRERETON, R. G. 1990. Chemometrics, Ellis Horwood, Chichester, UK,.

BRITO‐SÁNCHEZ, Y., MARRERO‐PONCE, Y., BARIGYE, S. J., YABER‐GOENAGA,

I., MORELL PÉREZ, C., LE‐THI‐THU, H. & CHERKASOV, A. 2015. Towards better BBB passage prediction using an extensive and curated data set. Molecular

informatics, 34, 308-330. BROWN, A. C. 1869. 1. On an Application of Mathematics to Chemistry. Proceedings of

the Royal Society of Edinburgh, 6, 89-90. CABRERA, M. A., BERMEJO, M., M., P. & R., R. 2004. TOPS-MODE approach for the

prediction of blood-brain barrier permeation. . J Pharm Sci, 93, 1701-1717.

CLARK, R. D. & FOX, P. C. 2004. Statistical variation in progressive scrambling. J. Comput. Aid. Mol. Des., 18, 563–576.

COCKETT, M. & DOGGETT, G. 2003. Maths for Chemists, Royal Society of Chemistry, Thomas Graham House, Science Park, Milton Road, Cambridge CB4 OWF, UK.

CORTES, C. & VAPNIK, V. 1995. Support-vector networks. Machine learning, 20, 273-

297. CORTES C, V. V. 1995. Support-vector networks. Machine Learning.

CRUM-BROWN, A. & FRASER, T. 1868. On the connection between chemical constitution and physiological action. Part 1. On the physiological action of the ammonium bases, derived from Strychia, Brucia, Thebaia, Codeia, Morphia and Nicotia. Trans. R. Soc.

Edinburgh, 25, 151-203. CHEN, H., WINIWARTER, S., FRIDÉN, M., ANTONSSON, M. & ENGKVIST, O. 2011.

In silico prediction of unbound brain-to-plasma concentration ratio using machine learning algorithms. Journal of Molecular Graphics and Modelling, 29, 985-995.

DANILO, C. 2010. Decision tree algorithm Weka tutorial Machine Learning : brief

summary. DECONINCK, E., ATES, H., CALLEBAUT, N., VAN GYSEGHEM, E. & VANDER

HEYDEN, Y. 2007a. Evaluation of chromatographic descriptors for the prediction of gastro-intestinal absorption of drugs. Journal of Chromatography A, 1138, 190-202.

DECONINCK, E., ZHANG, M. H., COOMANS, D. & VANDER HEYDEN, Y. 2007b.

Evaluation of boosted regression trees (BRTs) and two-step BRT procedures to model and predict blood–brain barrier passage. J. Chemometrics 21, 280-291.

DECONINCK, E., ZHANG, M. H., PETITET, F., DUBUS, E., IJJAALI, I., COOMANS, D. & VANDER HEYDEN, Y. 2008. Boosted regression trees, multivariate adaptive

Page 71: Departamento de Lic. Química

regression splines and their two-step combinations with multiple linear regression or partial least squares to predict blood–brain barrier passage: A case study. Anal. Chim. Acta., 609, 13-23.

DEVILLERS, J. A. K., W. 1991. Applied Multivariate Analysis in SAR and Environmental Studies, Kluwer Academic Publishers for the European Communities, Dordrecht, The

Netherlands. DRAPER, N. & SMITH, H. 1998. Applied Regression Analysis, New York, John Wiley &

Sons, Inc., .

EFRON, B. 1982. The Jackknife, the Bootstrap and Other Resampling Planes, Philadelphia, PA, Society for Industrial and Applied Mathematics.

EFRON, B. 1987. Better bootstrap confidence intervals. J. Am. Stat. Ass., 82, 171–200. FEHER, M., SOURIAL, E. & SCHMIDT, J. M. 2000. A simple model for the prediction of

blood–brain partitioning. International journal of pharmaceutics, 201, 239-247.

FEHER , M., SOURIAL, E. & SCHMIDT, J. M. 2000. A simple model for the prediction of blood–brain partitioning. Int. J. Pharm., 201, 239-247.

FRANCISCO, T. G. 2009. NEUROCIENCIA La importancia de la barrera hematoencefálica [Online]. Revista de Neurociencia de Sevilla. [Accessed].

FRANK, I. E. A. F., J.H. 1993. A statistical view of some chemometrics regression tools.

Technometrics, 35, 109–135. FRANK, I. E. A. T., R. 1994. The Data Analysis Handbook , Elsevier, Amsterdam, The

Netherlands. FRIDÉN, M., WINIWARTER, S., JERNDAL, G., BENGTSSON, O., WAN, H.,

BREDBERG, U., HAMMARLUND-UDENAES, M. & ANTONSSON, M. 2009.

Structure− brain exposure relationships in rat and human using a novel data set of unbound drug concentrations in brain interstitial and cerebrospinal fluids. Journal of medicinal chemistry, 52, 6233-6243.

FU, X.-C., WANG, G.-P., SHAN, H.-L., LIANG, W.-Q. & GAO, J.-Q. 2008a. Predicting blood–brain barrier penetration from molecular weight and number of polar atoms.

European Journal of Pharmaceutics and Biopharmaceutics, 70, 462-466. FU, X.-C., WANG, G.-P., SHAN, H.-L., WEN-QUAN LIANG C & GAO, J.-Q. 2008b.

Predicting blood–brain barrier penetration from molecular weight and number of

polar atoms. Eur. J. Pharm. Biopharm., 70 462–466. GARBERG, P., BALL, M., BORG, N., CECCHELLI, R., FENART, L., HURST, R.,

LINDMARK, T., MABONDZO, A., NILSSON, J. & RAUB, T. 2005. In vitro models for the blood–brain barrier. Toxicology in vitro, 19, 299-334.

GARG, P. & VERMA, J. 2006. In silico prediction of blood brain barrier permeability: an

artificial neural network model. Journal of chemical information and modeling, 46, 289-297.

GODDEN, J. W. & BAJORATH, J. 2000. Shannon entropy: a novel concept in molecular descriptor and diversity analysis. . J. Mol. Graph. Model., 18, 73-76.

GODDEN, J. W. & BAJORATH, J. 2002. Chemical descriptors with distinct levels of

information content and varying sensitivity to differences between selected compound databases identified by SE-DSE analysis. J. Chem. Inf. Comput. Sci., 42,

87–93. GODDEN, J. W. & BAJORATH, J. 2003. An informationtheoretic approach to descriptor

selection for database profiling and QSAR modeling. QSAR Comb. Sci., 22, 487–497.

Page 72: Departamento de Lic. Química

GODDEN, J. W., STAHURA, F. L. & BAJORATH, J. 2000. Variability of molecular descriptors in compound databases revealed by Shannon entropy calculations. J.Chem. Inf.Comput. Sci., 40, 796–800.

GOLBRAIKH, A., BONCHEV, D. & TROPSHA, A. J. 2001. Chem Inf Comput Sci. 41, 147.

GOLDBERG, D. 1989. Genetics Algorithms in Search, Optimization and Machine Learning. Addison Wesley.

GONZALEZ DIAZ, H., OLAZABAL, E., CASTANEDO, N., SANCHEZ, I. H.,

MORALES, A., SERRANO, H. S., GONZALEZ, J. & DE ARMAS, R. R. J. 2002. Mol Model (Online). 8, 237.

GOODWIN, J. T. & CLARK, D. E. 2005. In silico predictions of blood-brain barrier penetration: considerations to “keep in mind”. Journal of Pharmacology and Experimental Therapeutics, 315, 477-483.

GORBÁTOV, V. A. 1988. Fundamentos de la Matemática Discreta, Moscú, URSS: Mir. GRAMATICA, P. & PAPA, E. 2005. An update of the BCF QSAR model based on

theoretical molecular descriptors. Molecular Informatics, 24, 953-960. GUHA, R., SERRA, J. R. & JURS, P. C. 2004. Generation of QSAR sets with a self-

organizing map. Journal of Molecular Graphics and Modelling, 23, 1-14.

HAIR, J. F., ANDERSON, R. E., TATHAM, R. L. & BLACK, W. C. 1999. Análisis Multivariante 5ta Ed, Madrid.

HALL, M., FRANK, E., HOLMES, G., PFAHRINGER, B., REUTEMANN, P. & WITTEN, I. H. 2009. The WEKA data mining software: an update. ACM SIGKDD explorations newsletter, 11, 10-18.

HEARST MA, D. S., OSMAN E, PLATT J, SCHOLKOPF B 1998. Support vector machines. Intelligent Systems and their Applications, IEEE. 18-28.

HOU, T. & XU, X. 2002 ADME evaluation in drug discovery. J Mol Model, 8, 337-349.

IVANCIUC, O. 2000. Rev. Roum. Chim., 45, 289. JURGEN MENSCH, J. O., CLAIRE MACKIE, PATRICK AUGUSTIJNS 2009. In Vivo, In

Vitro andIn SilicoMethods for Small

Molecule Transfer Across the BBB. REVIEWS, 40.

JURS, P. C., DIXON, J. S. & EGOLF, L. M. 1995. Representations of molecules, in Chemometrics Methods in Molecular Design, New York, VCH Publishers.

KALMEGH, S. 2015. Analysis of WEKA Data Mining Algorithm REPTree , Simple Cart and RandomTree for Classification of Indian News. 2, 438-446.

KEERTHI, S. S., BHATTACHARYYA, C. & MURTHY, K. R. K. 2001. Improvements to

Platt ’ s SMO Algorithm for SVM Classifier Design. 649, 637-649. KIER, L. B. & HALL, L. H. 1997. The E-State as an Extended Free Valence. 2338, 548-552.

KONOVALOV, D. A., COOMANS, D., DECONINCK, E. & HEYDEN, Y. V. 2007. Benchmarking of QSAR models for blood-brain barrier permeation. J Chem Inf Model, 47, 1648-1656.

KONOVALOV, D. A., SIM, N., E., D., V., H. Y. & D., C. 2008. Statistical confidence for variable selection in QSAR models via Monte Carlo Cross-Validation. J. Chem. Inf.

Model. , 48, 370-383. KORTAGERE, S., CHEKMAREV, D., WELSH, W. J. & EKINS, S. 2008. New predictive

models for blood–brain barrier permeability of drug-like molecules. Pharmaceutical

research, 25, 1836.

Page 73: Departamento de Lic. Química

KORTAGERE, S., CHEKMAREV, D., WELSH, W. J. & S., E. 2008 New predictive models for blood–brain barrier permeability of drug-like molecules. Pharm Res 25.

LANEVSKIJ, K., DAPKUNAS, J., JUSKA, L., JAPERTAS, P. & DIDZIAPETRIS, R.

2011. QSAR analysis of blood–brain distribution: The influence of plasma and brain tissue binding. Journal of pharmaceutical sciences, 100, 2147-2160.

LANEVSKIJ, K., JAPERTAS, P., DIDZIAPETRIS, R. & PETRAUSKAS, A. 2009. Ionization‐specific prediction of blood–brain permeability. Journal of

pharmaceutical sciences, 98, 122-134. LEARDI, R. 1994. Application of genetic algorithms to feature selection under full validation

conditions and to outlier detection. J. Chemom., 8, 65–79.

LEARDI, R. 2001. Genetic algorithms in chemometrics and chemistry: a review. J. Chemom., 15, 559–569.

LEARDI, R., BOGGIA, R. & TERRILE, M. 1992. Genetic algorithms as a strategy for feature selection. J. Chemom., 6, 267–281.

LIU, F., LIANG, Y. & CAO, C. 2006. QSPR modeling of thermal conductivity detection

response factors for diverse organic compound. Chemometrics and Intelligent Laboratory Systems, 81, 120-126.

LIU, X., TU, M., KELLY, R. S., CHEN, C. & SMITH, B. J. 2004. Development of a computational approach to predict blood-brain barrier permeability. Drug metabolism and disposition, 32, 132-139.

LUCO, J. M. 1999. Prediction of the brain-blood distribution of a large set of drugs from structurally derived descriptors using partial least squares (PLS) modeling. J Chem

Inf Comput Sci 39, 396-404. MARRERO-PONCE, Y., CASTILLO-GARIT, J. A., OLAZABAL, E., SERRANO, H. S.,

MORALES, A., CASTAÑEDO, N., IBARRA-VELARDE, F., HUESCA-

GUILLEN, A., JORGE, E. & DEL VALLE, A. 2004. TOMOCOMD-CARDD, a novel approach for computer-aided ‘rational’drug design: I. Theoretical and

experimental assessment of a promising method for computational screening and in silico design of new anthelmintic compounds. Journal of computer-aided molecular design, 18, 615-634.

MAURI, A., CONSONNI, V., PAVAN, M. & TODESCHINI, R. 2006. Dragon software: An easy approach to molecular descriptor calculations. Match, 56, 237-248.

MENSCH, J., OYARZABAL, J., MACKIE, C. & AUGUSTIJNS, P. 2009. In vivo, in vitro and in silico methods for small molecule transfer across the BBB. Journal of pharmaceutical sciences, 98, 4429-4468.

MUEHLBACHER, M., SPITZER, G. M., LIEDL, K. R. & KORNHUBER, J. 2011. Qualitative prediction of blood–brain barrier permeability on a large and refined

dataset. Journal of computer-aided molecular design, 25, 1095-1106. NARAYANAN, R. & GUNTURI, S. B. 2005a. In-silico ADME modelling: Prediction

models for blood-brain barrier permeation using a systematic variable selection

method Bioorg Med Chem 13, 3017-3028. NARAYANAN, R. & GUNTURI, S. B. 2005b. In silico ADME modelling: prediction

models for blood–brain barrier permeation using a systematic variable selection method. Bioorganic & medicinal chemistry, 13, 3017-3028.

NORUSIS, M. J. 1985. Advanced Statistics Guide. SPSS-X. McGraw-Hill: New York.

Page 74: Departamento de Lic. Química

OBREZANOVA, O., CSÁNYI, G., GOLA, J. M. R. & SEGALL, M. D. 2007. Gaussian processes: A method for automatic QSAR modeling of ADME properties. J. Chem. Inf. Model. , 47, 1847-1857.

PARDRIDGE, W. M. 2004. Log (BB), PS products and in silico models of drug brain penetration. Drug discovery today, 9, 392-393.

PASCUAL, J. G., GONZÁLEZ, F. L., PRIETO, R. A., CERDAN, S. & RODA, J. 2004. Blood brain barrier: development of a structure which supports the functional heterogeneity of the central nervous system. Revista de neurologia, 38, 565-581.

PERES-NETO, P. R., JACKSON, D. A. & SOMERS, K. M. 2005. How many principal components? Stopping rules for determining the number of non-trivial axes revisited.

Computational Statistics & Data Analysis, 49, 974-997. PYKA, A. & PLANAR., J. 1993. Chromatogr. Mod. TLC. RITZÉN, A., SINDET, R., HENTZER, M., SVENDSEN, N., BRODBECK, R. M. &

BUNDGAARD, C. 2009. Discovery of a potent and brain penetrant mGluR5 positive allosteric modulator. Bioorganic & medicinal chemistry letters, 19, 3275-3278.

RODA, J. M. P.-G. F. G.-L. R. P.-A. S. C. J. M. 2004. La barrera hematoencefálica: desarrollo de una estructura que

permite la heterogeneidad funcional del sistema nervioso central. REVISTA DE NEUROLOGÍA, 17.

RÜCKER, C., RÜCKER, G. & MERINGER, M. 2007. y-randomization and its variants in

QSPR/QSAR. J. Chem. Inf. Model., 47, 2345–2357. RUMELHART, D. E., HINTON, G. E. & WILLIAMS, R. 1986. J. Nature, 323, 533.

SANTIAGO, O. M. 2015. Índices de Derivada Discreta de Grafos Índices de Derivada Moleculares Discreta de Grafos.

SANTIAGO VILAR, M. C., STEFANO COSTANZI 2010. Prediction of passive blood–

brain partitioning: Straightforward and effective

classification models based onin silicoderived physicochemical descriptors. Journal of Molecular Graphics and Modelling, 5.

SCH, B. & SMOLA, A. 2002. Support Vector Machines and Kernel Algorithms. 1-22.

SHAO, J. 1993. J. Amer. Stat. Assoc. , 88, 486. SHEN, J., DU, Y., ZHAO, Y., LIU, G. & TANG, Y. 2008a. In silico prediction of blood–

brain partitioning using a chemometric method called genetic algorithm based variable selection. Molecular Informatics, 27, 704-717.

SHEN, J., DU, Y., ZHAO, Y., LIU, G. & TANG, Y. 2008b. In Silico Prediction of Blood –

Brain Partitioning Using a Chemometric Method Called Genetic Algorithm Based Variable Selection. QSAR Comb. Sci. , 27, 704 - 717.

SHEVADE, S. K., KEERTHI, S.S, BHATTACHARYYA, C., MURTHY, K, R, K 1999. Improvements to SMO Algorithm for SVM Regression.

STANTON, D. T., E., M. B., KNITTEL, J. J. & JURS, P. C. 2004. Development and use of

hydrophobic surface area (HSA) descriptors for computer-assisted quantitative structure-activity and structure-property relationship studies. J Chem Inf Comput Sci,

44, 1010–1023. STONE, M. 1974. J. Roy. Stat. Soc., 36, 111. TESTA, B. & KIER, L. B. 1991a. The concept of molecular structure in structure–activity

relationship studies and drug design. Med. Res. Rev., 11, 35-48.

Page 75: Departamento de Lic. Química

TESTA, B. & KIER, L. B. 1991b. The concept of molecular structure in structure–activity relationship studies and drug design. Medicinal research reviews, 11, 35-48.

TODESCHINI, R. Molecular Descriptors for Volumes I & II.

TODESCHINI, R. & CONSONNI, V. 2008. Handbook of molecular descriptors, John Wiley & Sons.

TROPSHA, A., GRAMATICA, P. & GOMBAR, V. K. 2003. QSAR Comb. Sci., 22, 69. USANSKY, H. H. & SINKO, P. J. 2003. Computation of log BB values for compounds

transported through carrier-mediated mechanisms using in vitro permeability data

from brain microvessel endothelial cell (BMEC) monolayers. Pharmaceutical research, 20, 390-396.

VAN DE WATERBEEMD, H. 1995. Chemometric Methods in Molecular Design (Methods and Principles in Medicinal Chemistry). John Wiley & Sons: New York.

VAPNIK, V. 1995. The Nature of Statistical Learning Theory. Springer: New York, USA.

VAPNIK, V. N. 1999. An overview of statistical learning theory. IEEE transactions on neural networks, 10, 988-999.

VIII, C. Descriptors for Chemical Compounds. WEHRENS, R., PUTTER, H. & BUYDENS, L. 2000. The bootstrap: a tutorial. Chemom.

Intell. Lab. Syst., 54, 35–52.

WICHMANN, K., DIEDENHOFEN, M. & KLAMT, A. 2007. Prediction of Blood-Brain Partitioning and Human Serum Albumin Binding Based on COSMO-RS ó-Moments.

J. Chem. Inf. Model. , 47, 228-233. WOLD, S. 1978. Technometrics. 20, 397. WOLD, S. & ERIKSON, L. 1995. In Chemometric Methods in Molecular Design. van de

Waterbeemd, H., Ed.; VCH Publishers: Weinheim, Germany. YOAN BRITO-SÁNCHEZ, A., B YOVANI MARRERO-PONCE,A,B,C* STEPHEN J.

BARIGYE,A HUONG LE-THI-THUE AND ARTEM CHERKASOVB 2015.

Towards Better BBB Passage Prediction Using an Extensive and Curated Data Set. 46.

ZERARA, M., BRICKMANN, J., KRETSCHMER, R. & EXNER, T. E. 2009. Parameterization of an empirical model for the prediction of n-octanol, alkane and cyclohexane/water as well as brain/blood partition coefficients. Journal of computer-

aided molecular design, 23, 105-111. ZHANG, L., ZHU, H., OPREA, T. I., GOLBRAIKH, A. & TROPSHA, A. 2008. QSAR

Modeling of the Blood–Brain Barrier Permeability for Diverse Organic Compounds. Pharm Res, 25, 1902-1914.

ZHANG, Y.-H., XIA, Z.-N., QIN, L.-T. & LIU, S.-S. 2010a. Prediction of blood–brain

partitioning: A model based on molecular electronegativity distance vector descriptors. Journal of Molecular Graphics and Modelling, 29, 214-220.

ZHANG, Y. H., XIA, Z. N., QIN, L. T. & LIU, S. S. 2010b. Prediction of blood-brain partitioning: A model based on molecular electronegativity distance vector descriptors. Journal of Molecular Graphics and Modelling.

ZHAO, Y. H., ABRAHAM, M. H., IBRAHIM, A., FISH, P. V., COLE, S., LEWIS, M. L., DE GROOT, M. J. & REYNOLDS, D. P. 2007. Predicting penetration across the

blood-brain barrier from simple descriptors and fragmentation schemes. Journal of chemical information and modeling, 47, 170-175.

Page 76: Departamento de Lic. Química

Anexos:

Anexo 1.

Anexos 2. Base de datos (moléculas/log BBB)(Yoan Brito-Sánchez, 2015):

Number Name log BBB

1ICI17148 (SKB2) (guanidine-n-25-methyl-thiazol-2-yl) (CDS1 000170)-0.04

2 icotidine -2

3 SKF93319 -1.3

4 lupitidine -1.06

5BBcpd10 (CHEBI: 163710) (Y-G12)-1.17

6BBcpd11 (cimetidine analog) (Y-G13)-2.15

7BBcpd12 (cimetidine derivative) (SKB15)-0.67

8BBcpd13 (cimetidine derivative)-0.66

9BBcpd14 (cimetidine derivative)-0.12

Page 77: Departamento de Lic. Química

Anexo 3. Moléculas consideradas como outliers:

Nombre ComúnNombre IUPACFormula Molecular Estructura log BBB

Mivacuriumbis[3-[(1R)-6,7-dimethoxy-2-methyl-1-[(3,4,5-trimethoxyphenyl)methyl]-3,4-dihydro-1H-isoquinolin-2-ium-2-yl]propyl] (E)-oct-4-enedioateC58H80N2O14+2 -21,62

Doxacurium chloridebis[3-[6,7,8-trimethoxy-2-methyl-1-[(3,4,5-trimethoxyphenyl)methyl]-3,4-dihydro-1H-isoquinolin-2-ium-2-yl]propyl] butanedioate;dichlorideC56H78Cl2N2O16 -22,25

Anexo 4. Serie de entrenamiento (trainig data) y serie de predicción (tes data):

No Nombre Ubicasión Y Exp. Y-Calc Y-Pred Err.Calc.

1 ICI17148 (SKB2) (guanidine-n-25-methyl-thiazol-2-yl) (CDS1 000170)Test -0.04 - -0.60 -

2 icotidine Training -2.00 -1.02 -0.98 0.98

3 SKF93319 Training -1.30 -0.92 -0.90 0.38

4 lupitidine Test -1.06 - -1.17 -

5 BBcpd10 (CHEBI: 163710) (Y-G12)Test -1.17 - -0.81 -

6 BBcpd11 (cimetidine analog) (Y-G13)Training -2.15 -0.82 -0.78 1.33 *

7 BBcpd12 (cimetidine derivative) (SKB15)Training -0.67 -0.66 -0.66 0.01

8 BBcpd13 (cimetidine derivative)Training -0.66 -0.64 -0.64 0.02

9 BBcpd14 (cimetidine derivative)Test -0.12 - -0.78 -

Page 78: Departamento de Lic. Química

Anexo 5. Peso de los DMs sobre el modelo de regresión no lineal:

SMOreg

weights

- 0.0169 * (normalized) DfIn-T-ESA-HTA

- 0.1223 * (normalized) DfIn-S-AC8P3-HTA

+ 0.0768 * (normalized) DfIn-S-GITN3-HTA

+ 0.0248 * (normalized) DfIn-S-TS3MX-HTA

- 0.0278 * (normalized) DfIn-V3-GITN2-HTA

+ 0.0373 * (normalized) DfIn-V7-DE-HTA

+ 0.0117 * (normalized) TfIn-T-AC5Q1-HTA

- 0.0069 * (normalized) TfIn-T-GI2P2-HTA

Anexo 6. Sumario de modelos de correlación y bases de datos para comparacion:

Estudio N r2 q2 RMSE Método

Luco, J. M.(Luco,

1999)

58a

12b

25

0.92

0.92

0.79

0.87

0.40

0.54

0.79

PLS

Feher et al.(Feher et

al., 2000)

61a

12b

25b

0.85

0.97

0.76

0.83

0.42

0.24

0.52

PCR

Hou, T.&Xu, X.(Hou

and Xu, 2002 )

57a

12b

23b

0.93

0.94

0.80

0.89

0.35

0.31

0.52

MLR

Stanton, D.T.(Stanton

et al., 2004) 47 0.78 0.77 PLS

Cabrera, M.

A.(Cabrera et al.,

2004.)

114a

28b

0.84

0.65 0.43

0.33 (MAE) MLR

Narayanan &

Gunturi(Narayanan

and Gunturi, 2005a)

88a 0.86 0.85 0.39 (SE) VSMP

Abraham, M.

H(Abraham et al.,

2006)

302a 0.75 0.30 (s) MLR

Wichmann,

K.(Wichmann et al.,

2007)

103a 0.71 0.68 0.40 MLR

Konovalov, D.

A(Konovalov et al.,

2007)

291a 0.75 0.73 0.30 (s) kNN-MLR

Obrezanova,

O.(Obrezanova et al.,

2007)

85a

21b

0.59a

0.73b 0.52

0.40 PLS

0.61a 0.50 GP-Basic

Page 79: Departamento de Lic. Química

0.74b 0.39

0.61a

0.74b 0.50

0.39

GP-FVS

0.66a

0.77b 0.47

0.36 GP-Opt

0.69a

0.81b 0.44

0.34

GP-Nest

Deconinck et

al.(Deconinck et al.,

2007b)

183a

61b

0.82a

0.71b

0.88a

0.72b

0.90a

0.90b

0.82a

0.80b

0.83a

0.80b

0.34

0.53

0.32

0.48

0.26

0.46

0.39

0.41

0.37

0.41

BRT

MLR

MLR–BRT

PLS

PLS–BRT

Konovalov, D.

A(Konovalov et al.,

2008)

289a 0.57 0.39 (SE) MCCV& MLR

Shen,J. et al.(Shen et

al., 2008b) 151a 0.85 0.82 GAVS&Dragon

28b 0.84

Fu, X.-C. et al.(Fu et

al., 2008b) 86a 0.74 0.71 0.37 (s) MRL

25b 0.53

Zhang, L.(Zhang et al.,

2008) 144a 0.92 0.18 kNN-Dragon

0.86 0.27 SVM-Dragon

0.75 0.31 kNN-MOE

0.82 0.24 SVM-MOE

0.95 0.15 kNN-MolConnZ

0.87 0.25 SVM-MolConnZ

Kortagere,S.(Kortagere

et al., 2008 ) 78a 0.70 MRL-MOE

100b 0.65

Deconinck,

E.(Deconinck et al.,

2008)

224a

75b

0.85a

0.54b 0.52

0.68

BRT

0.88a

0.24b 0.41

1.09

MARS

0.67a

0.51b 0.62

0.71

Stepwise-MRL

aTraining Set. bTest Set. cAcordingly to ref Abraham 143 set. a+Acordingly to ref combined original training set

and the Abraham 143 set. eIn house training set(not available). fIn house test set (not available). PLS:

Partialleast-squares, PCR: principle component regression, VSMP: Variable Selection and Modeling method,

SE: Standard error, MCCV: Monte Carlo cross-validation, GAVS: Genetic Algorithm Based Variable

Selection, BRT: Boosted regression trees, MARS: Multivariate adaptive regression splines, GP-Nest:Gaussian

Process Nested Sampling, PLSR: Partial least squares regression, SVM: support vector machine, NLSMP:

Nonlinear least-squares minimization procedure.