MODELOS

Embed Size (px)

DESCRIPTION

REDES NEURONALES

Citation preview

  • UNIVERSIDADE DA CORUA

    Departamento de Matemticas

    Tesis Doctoral

    Modelizacin estadstica con Redes

    Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos

    Mara Castellano Mndez

    Diciembre 2009

  • UNIVERSIDADE DA CORUA

    Departamento de Matemticas

    Tesis Doctoral

    Modelizacin estadstica con Redes

    Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos

    Autora: Mara Castellano Mndez Director: Wenceslao Gonzlez Manteiga Tutor UDC: Ricado Cao Abad

    Diciembre 2009

  • UNIVERSIDADE DA CORUA

    Departamento de Matemticas

    Tesis Doctoral

    Modelizacin estadstica con Redes

    Neuronales. Aplicaciones a la Hidrologa, Aerobiologa y Modelizacin de Procesos

    Autora: Mara Castellano Mndez Director: Wenceslao Gonzlez Manteiga

    Diciembre 2009

  • AGRADECIMIENTOS

    En primer lugar deseo agradecer al director de esta memoria, D. Wenceslao Gonzlez Manteiga, su

    dedicacin y apoyo durante estos aos.

    Este trabajo ha sido financiado en parte por los proyectos del Ministerio de Ciencia e Innovacin

    (MICINN), MTM2008-03010 y MTM2005-00820, as como el proyecto de la Comisin Interministerial

    de Ciencia y Tecnologa (CICYT) ANACOM, CTQ2004-07811-C02-01.

    Ha sido un largo viaje, como un tren de antao de larga distancia. Un trayecto cuajado de paradas,

    donde han ido subiendo y bajando multitud de desconocidos destinados a escribir con tinta

    indeleble pequeos y grandes fragmentos de esta aventura.

    Deseo agradecer su apoyo y amor incondicional a las dos personas que ms quiero, mi pequea gran

    familia, mi madre y mi hermano. Son el corazn y el alma de este trabajo, como lo son de cada

    cosa que he hecho y har a lo largo de mi vida.

    Tras la locomotora, quiero agradecer su ayuda a todos los dems; aquellos que me han tendido una

    mano en el viaje, brindndome su tiempo, sus ideas, y su compaa en das de trabajo y tardes de

    charlas; en lugares cercanos y lejanos, en despachos y cafeteras a lo largo del globo. Permitidme

    usar la excusa de mi legendaria falta de tiempo para no decir nombres; hemos sido cmplices en

    esto, y por supuesto yo nunca delatara a un compaero de felonas; vosotros ya sabis quienes sois

    y lo agradecida que estoy por cada momento de complicidad compartido.

    A todos, a los que estis o ya os fuisteis, a los valientes que segus en mi tren y a los que ya dej

    atrs, muchas gracias por todo Ha sido fantstico

  • ndice

    NDICE. INTRODUCCIN .. i

    CAPTULO 1. UNA REVISIN GENERAL DE REDES NEURONALES

    1.1 INTRODUCIN 1-1

    1.2 QU ES UNA RED NEURONAL 1-3

    1.2.1 TERMINOLOGA Y NOTACIN . 1-3

    1.2.2 LOS USOS DE LAS REDES NEURONALES .. 1-7

    1.3 CLASIFICACIN DE LAS REDES NEURONALES .... 1-8

    1.3.1 SEGN SUS CONEXIONES ..... 1-8

    1.3.1.1 REDES CON CONEXIONES HACIA DELANTE . 1-8

    1.3.1.2 REDES CON CONEXIONES HACIA DELANTE Y HACIA ATRS ... 1-8

    1.3.2 SEGN SU TOPOLOGA ..... 1-8

    1.3.2.1 EL PERCEPTRON ..... 1-9

    1.3.2.2 REDES NEURONALES DE BASE RADIAL ...... 1-11

    1.3.3 SEGN EL TIPO DE APRENDIZAJE ...................... 1-15

    1.3.3.1 REDES ON-LINE FRENTE A REDES OFF-LINE ........ 1-15

    1.3.3.2 REDES CON APRENDIZAJE SUPERVISADO FRENTE A NO SUPERVISADO 1-15

    1.3.3.2.1 APRENDIZAJE SUPERVISADO ...................... 1-15

    1.3.3.2.2 APRENDIZAJE NO SUPERVISADO ................ 1-22

    1.4 PREDICCIN CON REDES NEURONALES ............................. 1-24

    1.4.1 REGRESIN CON REDES NEURONALES ..................... 1-24

    1.4.1.1 REGRESIN LINEAL .......................................... 1-24

    1.4.1.1.1 REGRESIN LINEAL SIMPLE ........................ 1-24

    1.4.1.1.2 REGRESIN LINEAL MLTIPLE MULTIDIMENSIONAL .... 1-24

    1.4.1.2 REGRESIN POLINMICA .................................. 1-25

    1.4.1.3 REGRESIN LOGSTICA .............................. 1-26

    1.4.1.4 REGRESIN LINEAL GENERALIZADA .......................... 1-27

    1.4.1.5 REGRESIN ADITIVA GENERALIZADA ........................ 1-28

    1.4.1.6 REGRESIN PROJECTION PURSUIT ........................... 1-29

    1.4.1.7 REGRESIN GGAM ......................... 1-30

  • ndice

    1.4.1.8 REGRESIN SINGLE INDEX MODEL ........................ 1-31

    1.4.1.9 REGRESIN TIPO NCLEO ...................... 1-32

    1.4.1.9.1 REGRESIN TIPO NCLEO UNIDIMENSIONAL UNIVARIANTE .... 1-33

    1.4.1.9.2 REGRESIN TIPO NCLEO. VARIANTE 1. PREDICTOR DE NADARAYA-WATSON CON VENTANA VARIABLE ....................... 1-36

    1.4.1.9.3 REGRESIN TIPO NCLEO. VARIANTE 2 ......................... 1-37

    1.4.1.9.4 REGRESIN TIPO NCLEO. VARIANTE 3 ......................... 1-38

    1.4.1.10 REGRESIN DEL K-SIMO VECINO MS CERCANO ................. 1-39

    1.4.1.10.1 VARIANTE 1 ........................ 1-41

    1.4.1.10.2 VARIANTE 2 ........................ 1-41

    1.5 CLASIFICACIN CON REDES NEURONALES ....................... 1-43

    1.5.1 CONSIDERACIONES GENERALES ................. 1-43

    1.5.2 MTODOS CLSICOS ....................... 1-46

    1.5.2.1 ANLISIS DISCRIMINANTE LINEAL ...................... 1-46

    1.5.2.2 ANLISIS DISCRIMINANTE FLEXIBLE ...................... 1-46

    1.5.3 MTODOS DE CLASIFICACIN NO PARAMTRICOS .................... 1-47

    1.5.3.1 ESTIMACIN DE LA DENSIDAD TIPO NCLEO .................... 1-47

    1.5.3.1.1 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 1 ..... 1-48

    1.5.3.1.2 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 2 ..... 1-50

    1.5.3.1.3 ESTIMACIN DE LA DENSIDAD TIPO NCLEO. VARIANTE 3 ..... 1-50

    1.5.3.2 ESTIMACIN DE LA DENSIDAD DEL K-SIMO VECINO MS CERCANO .... 1-51

    1.6 OTROS MTODOS DE ANLISIS DE DATOS .................... 1-52

    1.6.1 ANLISIS FACTORIAL .................. 1-52

    1.6.2 ANLISIS DE COMPONENTES PRINCIPALES ................. 1-53

    1.7 APROXIMADORES UNIVERSALES .................... 1-54

    1.7.1 ESTIMADORES DE DESARROLLOS ORTOGONALES ................. 1-54

    1.7.2 FUNCIONES SIGMOIDEAS ..................... 1-56

    1.7.3 FUNCIONES TIPO NCLEO ................... 1-57

    1.8 REDES PROBABILSTICAS ................ 1-57

    1.9 RESUMEN ................. 1-59

    1.10 BIBLIOGRAFA ............... 1-60

    CAPTULO 2. MODELIZACIN DE VARIABLES CONTINUAS CON REDES NEURONALES

    2.1 INTRODUCCIN ................. 2-1

  • ndice

    2.1.1 INTRODUCCIN AL PROBLEMA HIDROLGICO ................. 2-2

    2.1.2 TERMINOLOGA Y NOTACIN ......... 2-5

    2.2 MODELIZACIN MENSUAL DE LAS APORTACIONES. MODELOS BOX-JENKINS ........... 2-6

    2.2.1 BREVE INTRODUCCIN A LAS SERIES DE TIEMPO ........... 2-6

    2.2.2 LOS MODELOS SELECCIONADOS ....... 2-8

    2.2.2.1 EL PRIMER MODELO ...... 2-8

    2.2.2.2 EL SEGUNDO MODELO ... 2-9

    2.2.2.3 EL TERCER MODELO ...... 2-10

    2.2.2.4 EL CUARTO MODELO ...... 2-11

    2.3 MODELIZACIN DIARIA DE LAS APORTACIONES. REDES NEURONALES FRENTE A MODELOS BOX-JENKINS .... 2-11

    2.3.1 DETALLES SOBRE REDES NEURONALES ARTIFICIALES .... 2-11

    2.3.2 LOS DATOS DIARIOS ... 2-13

    2.3.3 EL MODELO DE RED NEURONAL PROPUESTO .. 2-14

    2.3.4 EL MODELO BOX-JENKINS PROPUESTO .... 2-15

    2.4 RESULTADOS Y DISCUSIN ... 2-15

    2.4.1 RESULTADOS MENSUALES ...... 2-15

    2.4.2 RESULTADOS DIARIOS . 2-19

    2.5 CONCLUSIONES ... 2-21

    2.6 BIBLIOGRAFA ...... 2-22

    CAPTULO 3. REDES NEURONALES EN PROBLEMAS DE CLASIFICACIN

    3.1 APLICACIN A LAS CIENCIAS MEDIOAMBIENTALES. PREDICCIN DE NIVELES DE RIESGO DE POLEN DE BETULA EN EL AIRE ....... 3-1

    3.1.1 INTRODUCCIN AL PROBLEMA ............... 3-1

    3.1.2 MATERIAL Y MTODOS ............... 3-3

    3.1.2.1 REDES NEURONALES PARA DATOS CON RESPUESTA BINARIO ....... 3-5

    3.1.2.2 FUNCIN DE ERROR PARA VARIABLES OBJETIVO BINARIAS ....... 3-6

    3.1.3 RESULTADOS Y DISCUSIN ........ 3-8

  • ndice

    3.2 APLICACIN A UN PROBLEMA DE SIMULACIN. COMPARACIN DE LOS MODELOS LINEALES GENERALES Y LAS REDES NEURONALES ........ 3-11

    3.2.1 INTRODUCCIN ........ 3-11

    3.2.2 MODELO LINEAL GENERALIZADO ....... 3-12

    3.2.2.1 ALGORITMO DE FISHER SCORING ......... 3-12

    3.2.3 ESCENARIOS DE SIMULACIN ........ 3-13

    3.2.4 RESULTADOS Y DISCUSIN ........ 3-15

    3.3 CONCLUSIONES .......... 3-17

    3.4 BIBLIOGRAFA ......... 3-17

    CAPTULO 4. APLICACIN DE REDES NEURONALES A PROBLEMAS DE CONTROL

    4.1 INTRODUCCIN A PROBLEMAS DE CONTROL ........... 4-1

    4.1.1 NOCIONES BSICAS DE CONTROL .......... 4-1

    4.1.2 TIPOS DE MODELOS DE CONTROL .......... 4-2

    4.1.2.1 CONTROL CLSICO FRENTE A CONTROL AVANZADO .......... 4-2

    4.1.2.1.1 CONTROL CLSICO ............. 4-2

    4.1.2.1.2 CONTROL AVANZADO .............. 4-7

    4.1.2.2 SEGN EL NIVEL DE AUTOMATIZACIN ......... 4-7

    4.1.2.2.1 CONTROL REGULATORIO BSICO ........... 4-7

    4.1.2.2.2 CONTROL REGULATORIO AVANZADO ............. 4-8

    4.1.2.2.3 CONTROL MULTIVARIANTE O MULTIVARIABLE ........... 4-8

    4.1.2.2.4 OPTIMIZACIN EN LNEA .......... 4-8

    4.1.3 DISEO DEL SISTEMA DE CONTROL ........... 4-8

    4.2 APORTACIONES DE LAS REDES NEURONALES AL PROBLEMA DE CONTROL .. ... 4-10

    4.2.1 CONTROL DIRECTO ............. 4-10

    4.2.2 CONTROL INVERSO ............. 4-11

    4.2.3 CONTRO INDIRECTO ........... 4-12

    4.3 REDES NEURONALES EN PROCESOS DE CONTROL. PREDICCIONES TEMPORALES .. 4-13

  • ndice

    4.3.1 CONTROL DE COLADA DE COBRE .......... 4-14

    4.3.1.1 COLADA EN PLACA DE COBRE ............ 4-14

    4.3.1.2 SISTEMA DE CONTROL AUXILIAR. ALARMA POR TEMPERATURA ... 4-15

    4.3.1.3 PREDICCIN DE LA TEMPERATURA CON REDES NEURONALES ..... 4-16

    4.3.2 CONTROL DE UNA PLANTA DE TRATAMIENTO ANAERBICO DE AGUAS RESIDUALES ......... 4-19

    4.3.2.1 INTRODUCCIN A LA DIGESTIN ANAERBICA ........... 4-20

    4.3.2.2 NECESIDAD DE UN SISTEMA DE MONITORIZACIN Y CONTROL EN UN REACTOR ANAERBICO ............ 4-23

    4.3.2.3 SELECCIN DE VARIABLES .......... 4-23

    4.3.2.4 MODELO DE CONTROL EXISTENTE ......... 4-24

    4.3.2.5 PREDICCIN NEURONAL DE LAS VARIABLES DE CONTROL ........ 4-26

    4.3.2.6 COMPARACIN CON SERIES DE TIEMPO ........ 4-31

    4.4 CONCLUSIONES ............. 4-34

    4.5 BIBLIOGRAFA ............. 4-35

  • Introduccin

    - i -

    Introduccin

    Motivacin

    Las redes neuronales constituyen una herramienta de anlisis, modelizacin y prediccin que se

    puede encontrar cmodamente integrada en muy diversos campos: robtica, ingeniera,

    psicologa, De este modo en sus aplicaciones a cada mbito las redes adoptan connotaciones

    diferentes, y son vistas como herramientas de la ingeniera, rplicas del pensamiento racional,

    modelos de caja negra, En todos los casos las redes se rigen por la filosofa general de

    obtener modelos coherentes con la realidad observada, de tal modo que sean los datos los que

    determinen el comportamiento de la red, bien a travs de la determinacin de sus estructura,

    bien de sus parmetros internos Estas ideas acercan las redes neuronales a las ideas de los

    mtodos no paramtricos de anlisis de datos, en particular y en general al mbito de la

    estadstica.

    Consideradas ya las redes neuronales como potentes herramientas estadsticas de anlisis de

    datos, esta memoria se basa en dos motivaciones principales. En primer lugar se busca

    clarificar la naturaleza de las redes neuronales, analizando sus fundamentos, poniendo de

    manifiesto su naturaleza estadstica y sus conexiones con diversos mtodos estadsticos

    ampliamente conocidos. Resaltando sus principios estadsticos la visin de las redes neuronales

    se refuerza, ganando en consistencia terica al tiempo que se mantiene su carcter intuitivo e

    innovador. En segundo lugar se desea mostrar con ejemplos concretos la bondad de las redes

    neuronales como herramientas estadsticas de modelizacin y su capacidad para responder a las

    necesidades que presentan los problemas observados en el mundo real. Con este fin se han

    seleccionado distintos problemas reales de mbitos muy diversos, principalmente de la

    industria y el medioambiente y se han analizado y modelizado mediante redes neuronales.

    Se puede apreciar, pues, que se trata de un trabajo con profunda vocacin prctica, que busca

    no slo realizar un estudio terico de los distintos tipos de redes neuronales, y de sus

    conexiones con la estadstica, desde la clsica a no paramtrica, sino tambin mostrar cmo las

    redes neuronales constituyen modelos capaces de dar el salto del mbito terico a la realidad,

    aportando soluciones a problemas reales, al tiempo que se mantiene su rigor y esencia.

    Esquema de la Monografa

    Esta tesis est estructurada en cuatro captulos, adems de esta breve introduccin.

    El primer captulo responde al primero de los objetivos citados anteriormente, el conocimiento

    de los modelos de redes neuronales se centra por tanto en hacer una revisin de los orgenes

    de las redes neuronales, sus propiedades como modelos y sus relaciones con otros mtodos

    estadsticos convencionales, ms o menos avanzados. Este captulo permite entender la

    filosofa de las redes neuronales, indagando en su naturaleza estadstica, y proporcionndoles

    mayor profundidad que la que su vocacin de caja negra les suele otorgar. Inicialmente se

  • Introduccin

    - ii -

    presenta el origen de las redes neuronales, y las ideas latentes que subyacen en estos modelos;

    en la segunda seccin se detalle el funcionamiento de las redes neuronales, se fijan las bases

    de la notacin que se va a emplear en este documento, y se proporcionan ejemplos de los

    mbitos donde su uso est extendido; la tercera seccin proporciona una visin panormica de

    la amplia variedad de modelos que responden al nombre de redes neuronales, a travs de su

    organizacin y clasificacin en diferentes categoras siguiendo mltiples criterios de

    organizacin; ser en las secciones cuarta a sexta de este primer captulo donde se analicen las

    conexiones que existen entre las redes neuronales y diferentes modelos estadsticos, de

    prediccin y clasificacin, paramtricos y no paramtricos, y se aportarn algunas variaciones

    de estos mtodos que surgen de modo natural a partir del anlisis de la estructura de las redes.

    Finalmente en la seccin sptima de este primer captulo se mostrar tambin una visin de las

    redes como aproximadores universales.

    Los siguientes captulos, del segundo al cuarto ilustrarn la capacidad de modelizacin de las

    redes neuronales a travs de su aplicacin a diversos problemas de diversa ndole en mbitos

    medioambientales e industriales; las aplicaciones comprenden problemas de regresin,

    problemas de clasificacin y finalmente problemas de control de procesos. En ste ltimo

    mbito se estudiarn diversas posibilidades para la aplicacin de la capacidad predictiva de los

    modelos de redes neuronales en problemas de control de procesos desde la perspectiva

    estadstica y de ingeniera.

    El segundo captulo se centra en la aplicacin de las redes neuronales a un problema de

    modelizacin en un proceso continuo. En este caso el problema se enmarca dentro al campo de

    la hidrologa, en particular en el mbito de la prediccin de escorrentas o caudales de un ro.

    El objetivo ser comparar el funcionamiento de un modelo de redes neuronales con el de series

    de tiempo tradicionales, a la hora de enfrentarse a la prediccin del caudal en la cuenca de un

    ro; se trata de un problema real que tiene como fin proporcionar informacin vital para la

    gestin de conjunto de centrales hidroelctricas, que se sitan en un determinado cauce

    fluvial.

    El tercer captulo se centra en las aplicaciones binarias de las redes neuronales, abordando un

    problema de prediccin de probabilidades futuras. En este caso el problema subyacente que

    motiv este problema se enmarcaba dentro del rea de medioambiente y consista en la

    prediccin de la probabilidad de que la concentracin de polen en el aire alcanzase ciertos

    niveles relevantes para la salud pblica. Es por tanto un problema de clasificacin entre das de

    riesgo alto, medio o bajo para los pacientes sensibles a la presencia de polen en el aire. Este

    ejemplo real se complementa con un estudio de simulacin, en el que se compara el

    funcionamiento de una red con el de un Modelo Lineal Generalizado en el caso de respuesta

    binaria.

    El cuarto captulo est dedicado a la relacin de las redes neuronales con las tcnicas de

    control. En l se revisan las metodologas de control ms interesantes al tiempo que aporta

    ideas de cmo introducir las redes neuronales en estas estructuras. Presenta dos ejemplos de

    aplicacin a procesos industriales. Uno de ellos con respuesta de control discreta ( colada en

    placa de cobre) y otro en un proceso de depuracin de aguas. Como se sealar en el captulo

    los trabajos realizados en el mbito de la depuracin de aguas no se limitaron al control ni a las

  • Introduccin

    - iii -

    redes neuronales, si no que han abarcado tcnicas de seleccin de variables, determinacin de

    parmetros empleando tcnicas bootstrap aunque en esta tesis se presentarn solamente

    aquellos directamente relacionados con estos tpicos.

    En cada uno de los captulos se incluyen dos apartados finales, uno de resumen o conclusin de

    cada captulo en el que se repasan las ideas ms relevantes contenidas en el mismo, y

    finalmente la bibliografa, que se presenta de modo separado en cada captulo, para facilitar su

    anlisis.

  • 1. Una Revisin General

    1-1

    CAPTULO 1.UNA REVISIN GENERAL

    RESUMEN

    Las Redes Neuronales Artificiales, RNA, constituyen una tcnica de anlisis de datos

    que desde hace algunos aos se ha extendido con fuerza a los ms diversos mbitos.

    Este captulo recoge una revisin de los modelos de redes neuronales ms comunes.

    As mismo mostrar el enfoque estadstico de las redes neuronales, permitiendo en

    muchas ocasiones su interpretacin. Las redes neuronales se emplean en el

    reconocimiento de seales, en la simulacin de sistemas biolgicos, y en el anlisis de

    datos. Esta ltima faceta nos las relaciona claramente con diversos mtodos

    estadsticos no paramtricos tanto de regresin como de clasificacin. Se presentarn

    diferentes redes neuronales que clonan a los principales mtodos no paramtricos,

    sealando los paralelismos entre los diferentes elementos que aparecen en los dos

    campos. Se estudiarn sus posibilidades como modelos generales de regresin y de

    clasificacin.

    1.1 Introduccin

    Desde los orgenes del hombre el deseo de observar, comprender, y cambiar su entorno para

    adaptarlo a sus necesidades ha sido el motor de su evolucin. Desde las primeras herramientas

    de metal, las pieles curtidas, la rueda, el diseo de la mquina voladora de Leonardo, hasta la

    decodificacin del genoma humano, el hombre analiza su entorno en busca de respuestas que

    mejoren la vida del ser humano, siempre tomando la naturaleza como modelo.

    Aferrados a ese principio, a mediados del siglo XX surge un movimiento cientfico que trata de

    imitar una de las cualidades ms fascinantes y al tiempo misteriosas del ser humano, su

    inteligencia; para ello se intenta construir mquinas cuya estructura funcional sea similar a la

    del cerebro humano, esperando que de esta idea surja tras un cierto perodo de aprendizaje,

    de modo natural la luz de la inteligencia; esta bsqueda se centra principalmente en la

    capacidad que tiene el ser humano para tomar decisiones de modo independiente.

    El Reconocimiento de Muestras (Pattern Recognition) es la disciplina que responde al problema:

    Dando algunos ejemplos de seales complejas, y la correcta decisin para ellas, tomar de

    forma automtica decisiones para una sucesin de futuros ejemplos.

    El Reconocimiento de Patrones atae a un extenso rango de actividades en muchos mbitos de

    la vida. Algunos ejemplos seran:

    - Graduar las distintas capas de una imagen visual - Clasificacin de tumores - Nombrar distintas especies de plantas con flores

  • 1. Una Revisin General

    1-2

    - Reconocimiento de escritura

    Algunas de estas tareas forman parte de nuestra vida cotidiana. A travs de nuestros sentidos

    recibimos datos, y a menudo somos capaces de identificar el origen de esos datos, de un modo

    inmediato y sin esfuerzo consciente (reconocer caras, voces,... incluso en malas condiciones).

    Como los humanos podemos hacer estas tareas, en ocasiones mejor que las mquinas, despert

    un gran inters el conocer los principios que permiten que el ser humano realice estas tareas.

    El cerebro humano tiene adems otras caractersticas deseables, como su flexibilidad, la

    facilidad con que se adapta a nuevas situaciones (aprendiendo), la tolerancia a los fallos, la

    capacidad que tiene de manejar informacin fantasma, esto es, no tangible, difusa,...

    Durante aos ingenieros, siclogos y fisilogos han intercambiado ideas sobre el funcionamiento

    de los cerebros de animales y hombres, con el fin de clarificar los complejos mecanismos que

    subyacen en la toma de decisiones y automatizarlos usando ordenadores. La primera mquina

    influenciada por las ideas de la biologa y la psicologa fue el PERCEPTRN (Rosenblatt, 1958),

    que despert un gran inters en los aos 60 debido a su capacidad para reconocer patrones

    sencillos. La segunda mquina fue creada, ya a mediado de los 80, con la herramienta de las

    redes neuronales. Ambas abandonaron rpidamente sus races biolgicas para ser estudiadas

    desde un punto de vista matemtico. El reconocimiento de patrones tiene una larga y

    respetable historia dentro de la ingeniera, especialmente en aplicaciones militares. El coste

    del hardware, tanto para adquirir los datos como para computar las respuestas, lo convirti

    durante aos en una rea muy especializada. El avance del hardware hizo que aumentasen los

    intereses y las aplicaciones del Reconocimiento Muestral, revitalizando as su estudio.

    Este estudio se centrar en las REDES NEURONALES ARTIFICIALES, (RNA), tambin denominadas

    ANN por su denominacin en ingls, (Artificial Neural Networks); en concreto, en aquellas con

    conexiones hacia delante.

    Se denominaron REDES NEURONALES a aquellos modelos nacidos con el fin de imitar el

    aprendizaje humano. Esta terminologa se ha extendido a aquellos mtodos que, en mayor o

    menor medida tienen como germen aquellas revolucionarias ideas.

    El nombre Redes Neuronales surge de la analoga con el cerebro humano y el modo en que los

    hombres pueden acercarse a la tarea de reconocer muestras. Un largo camino las separa ya de

    sus races biolgicas. Se han hecho grandes avances, y aunque muchos de ellos se han opuesto a

    un cuidadoso escrutinio, los mtodos de las Redes Neuronales han tenido un gran impacto en la

    prctica del reconocimiento de patrones (Haykin, 2009; Tang et al, 2007). Las redes

    neuronales artificiales pueden considerarse como una herramienta estadstica completa para el

    anlisis de datos (Bishop, 1995)

    El entendimiento terico de cmo trabajan est todava en proceso de construccin y

    abordaremos aqu su estudio desde un enfoque estadstico. La filosofa de las redes se basa en

    que sean los datos los que establezcan el comportamiento de la red a travs de un aprendizaje,

    y evitar as estar sujetos a una estructura encorsetada. Estas ideas acercan las redes neuronales

    a la filosofa de los mtodos no paramtricos de anlisis de datos. Estos mtodos tienen la

    caracterstica de poder aproximar funciones de muy diversa ndole, soslayando la necesidad de

    establecer un modelo rgido al que ajustar los datos.

  • 1. Una Revisin General

    1-3

    En la segunda seccin se explicar con detalle en qu consisten las redes neuronales, tambin

    llamadas artificial neural networks (RNA), se fijar la notacin que emplearemos al exponer los

    distintos tipos de redes, y sealaremos los principales mbitos en los que se han venidos

    utilizando las redes neuronales.

    En la tercera seccin realizaremos una minuciosa clasificacin de las redes neuronales segn

    diferentes criterios, como su topologa, el tipo de conexiones que presenta la red, y el tipo de

    aprendizaje que se emplee en el entrenamiento. Este ltimo enfoque nos proporcionar a su

    vez diversas clasificaciones derivadas de la existencia de diferentes criterios de clasificacin

    del aprendizaje.

    Las secciones cuarta y quinta podrn de manifiesto los slidos vnculos existentes entre las

    redes neuronales y las reglas de prediccin y clasificacin. Se expondrn las redes asociadas a

    muchos y muy diversos mtodos estadsticos de clasificacin y prediccin, con el fin de ilustrar

    adecuadamente cmo las redes neuronales pueden representar gran parte de las tcnicas

    estadsticas. En particular se estudiarn las relaciones entre las redes neuronales de base radial

    y diferentes mtodos no paramtricos tanto de regresin como de estimacin de la funcin de

    la densidad, mostrando algunas variaciones de estos mtodos surgidas de las peculiaridades

    inherentes a las redes neuronales. La seccin sexta muestra algunos ejemplos de estadstica

    multivariante concretos, mientras en la seccin sptima se mostrar tambin una visin de las

    redes como aproximadores universales, que se ilustrar con algunos ejemplos. A continuacin la

    octava seccin revisa otra de las estructuras de aprendizaje ms extendidas, las llamadas redes

    probabilsticas, para terminar con una seccin resumen de lo expuesto. Este primer captulo

    constituye la base necesaria para la construccin de aplicaciones de las redes neuronales a

    problemas reales, lo que constituir el cuerpo de la presente monografa.

    1.2. Qu es una red neuronal?

    Una RED NEURONAL es un proceso slido y paralelamente distribuido con la propensin natural

    a acumular procedimientos experimentales y hacerlos disponibles para su uso. Se parece al

    cerebro en dos aspectos, por una parte la red adquiere conocimientos a travs de un proceso

    de aprendizaje, y por otra las conexiones interneuronales, conocidas como cargas sinpticas

    presentan una gran solidez de se encargan de almacenar los conocimientos.

    El funcionamiento de una red sera el siguiente. Se dispone de una serie de datos (situaciones

    del pasado) y asociados a ellos la respuesta deseable de la red (training set). La red de algn

    modo observa estos hechos y aprende de ellos (entrenamiento o aprendizaje), de modo que

    cuando se encuentre en una nueva situacin acte de modo coherente con lo aprendido. Para

    evaluar el comportamiento de la red ante nuevas situaciones se considerar un nuevo

    subconjunto de datos (validation set), independiente del conjunto de entrenamiento.

    1.2.1 Terminologa y Notacin

    Del mismo modo que el cerebro est constituido por neuronas, la unidad bsica constituyente

    de la red neuronal es el nodo, (neurona o elemento de procesado) Un nodo es un elemento de

    clculo interconectado con otros muchos elementos, imitando las sinapsis nerviosas. La idea

    era que, tal vez, conectando un nmero suficientemente alto de neuronas o nodos la

  • 1. Una Revisin General

    inteligencia naciese de modo natural del aprendizaje. A un nodo llegan conexiones desde

    muchas otras neuronas, y en general proporciona una nica salida, como muestra la Figura 1.1.

    EntradasSalida

    Nodo

    Figura 1.1. Esquema de un Nodo

    A un nodo pueden llegar muchas entradas, xi, proporcionando gran cantidad de informacin. El

    nodo condensar esta informacin de algn modo, por ejemplo a travs de una combinacin

    lineal con cierto sesgo, (entrada ponderada); a continuacin se aplica cierta funcin,

    obtenindose de este modo la salida del nodo, que a su vez podr ser la entrada de algn otro

    nodo.

    01

    N

    i ii

    I x =

    = + (1.1)

    01

    ( )N

    i ii

    f I f x =

    = + (1.2) Los parmetros i reciben el nombre de pesos, y reflejan la conexin entre las neuronas y cun fuerte es. Por su parte la funcin f recibe el nombre de funcin de transferencia o link; la

    adecuada eleccin de esta funcin es en parte responsable de la bondad del comportamiento

    de la red neuronal.

    Algunas de las funciones de transferencia ms usuales son:

    Umbral: (1.3) 0 0

    ( )1 0

    si xf x

    si x

  • 1. Una Revisin General

    distinta a la de los dems nodos, aunque en la mayora de los casos los nodos situados de un

    mismo nivel presentan todos la misma funcin de transferencia.

    En las redes neuronales con conexiones hacia adelante los nodos suelen estar distribuidos en

    distintas capas, de modo que los de una capa estn conectados slo con los de la capa

    inmediatamente superior. As la capa de entrada es aquella en que los datos, se presentan a la

    red; las variables que conforman estos datos de entrada reciben el nombre de inputs; por otra

    parte, la capa de salida es aquella en que la red nos devuelve su respuesta o respuestas, que

    reciben el nombre de outputs.

    Finalmente las capas intermedias reciben el nombre de capas ocultas. En general fijamos la

    restriccin de que desde la capa de salida no puede surgir ninguna conexin a otro nodo, para

    evitar bucles continuos en la red

    Establezcamos la notacin que vamos a manejar en el estudio de las redes neuronales.

    (a) Dimensiones de la red y notacin de las variables

    HL- es el nmero de capas ocultas

    - es el nmero de variables explicativas o entradas (inputs). Coincide con el nmero de

    nodos de la capa de entrada

    IN

    1-5

    - es el nmero de nodos de la l-sima capa oculta, 1lHN Hl L

    - es el nmero de nodos de la capa de salida ON

    iX Ii N - son las variables explicativas, 1

    - son las variables objetivo, 1 kY Ok N

    (b) Pesos de la red

    - sesgo de entrada al nodo j-simo de la l-sima capa oculta 10 l lh h

    j 1 Hl L lHj N 1 lah

    ij Ii N pesos desde la capa de entrada a la l-sima capa oculta 1 lHj N 1- con 1

    Hl L

    - pesos desde la capa l1-sima capa oculta hasta la l2-sima capa oculta, ,

    con y

    1 2l lh h

    ij 11 lHi N 2

    1 lH

    j N 11 Hl L 21 Hl L

    - sesgo de entrada al nodo k-simo de la capa de salida 1 0LH

    h o

    k Ok N ao

    ik pesos desde la capa de entrada a la capa de salida 1 y 1 Ok N Ii N -

  • 1. Una Revisin General

    lh o

    jk lHj N pesos desde la l-sima capa oculta al nodo k-simo de la capa de salida, 1- y 1 con 1 Ok N Hl L

    (c) Valores de la red y funciones de transferencia:

    l

    jg lHj N es la entrada ponderada al nodo j-simo de la l-sima capa oculta1- y 1 Hl L

    l

    jh lHj N

    1-6

    - es la salida del nodo j-simo de la l-sima capa oculta 1 y 1 Hl L

    - es la entrada al nodo k-simo de la capa de salida 1 kq Ok N

    - es la salida o prediccin k-sima de la capa de salida

    kO 1 Ok N

    ( )k k kr Y O= - es el residuo o error k-simo;

    , kr 1 Ok N

    l

    j

    hf

    lH

    j N - es la funcin link asociada al nodo j-simo de la l-sima capa oculta 1 y

    1H

    l L

    k

    of- es la funcin link asociada al nodo k-simo de la capa de salida; 1 Ok N

    lhf

    Hl L - es la funcin link asociada a la l-sima capa oculta; 1

    of- es la funcin link asociada a la capa de salida

    La mayor parte de los modelos de redes neuronales, pueden ser expuestos como diagramas de

    red, lo que facilita la comprensin y el anlisis de su estructura. A continuacin se expone

    cmo se representan grficamente los distintos elementos que conforman la red

    (d) Neuronas. Cada neuronas o nodo se representa mediante crculos y/o cajas.

    - CRCULOS: son variables observadas o salidas de nodos, identificadas con su nombre.

    Xi hj ok Yk

    Figura 1.2. Representacin Circular de Nodos

    - CAJAS: son otro modo de representar los valores calculados como funcin de uno o ms argumentos. Dentro tendrn un smbolo indicador del tipo de funcin de transferencia

    empleada. Las cajas tienen adems un parmetro asociado llamado sesgo.

  • 1. Una Revisin General

    + x j

    / O ?

    Figura 1.3. Representacin de las Operaciones

    Las operaciones representadas en las Figura 1.3 son, de izquierda a derecha, suma, potencia,

    combinacin lineal, funcin logstica, funcin umbral, funcin de base radial y un valor

    arbitrario.

    (e) CONEXIONES y AJUSTES. Las conexiones entre neuronas se representan por flechas.

    - FLECHAS: indican que el origen de la flecha es un argumento de la funcin que se calcula en el destino de la flecha.

    - DOS LNEAS PARALELAS: indican que los valores de cada final han de ser ajustados, por mnimos cuadrados, mxima verosimilitud, o algn otro criterio de estimacin.

    1.2.2 Los usos de las Redes Neuronales

    Las RNA se usan principalmente con tres objetivos diferenciados:

    Como modelos nerviosos biolgicos, e " inteligencia". Parte de las motivaciones biolgicas que dieron lugar a las redes neuronales se han conservado, por ello y se siguen empleando

    como instrumentos que nos ayuden a entender y duplicar el funcionamiento de los sistemas

    nerviosos de los seres vivos.

    Como procesadores adaptativos de seal en tiempo real, o controladores, implementados en hardware para aplicaciones como robots. Esta es el rea del Reconocimiento de

    Patrones. La tecnologa, la ciencia y los negocios han aportado nuevas tareas de inters

    (diagnstico de enfermedades, leer cdigos ZIP...), que en algunos casos son

    eminentemente tecnolgicas, como la lectura de cdigos de barras, y en otros muchos las

    llevan a cabo expertos humanos. El objetivo es construir mquinas que realicen estas

    labores de un modo ms rpido, ms barato, y ms exacto que los hombres. Cada

    vez es ms factible idear sistemas automticos que sustituyan y mejoren al especialista

    (como la cuenta de crdito de un cliente), o clonar al experto (ayuda al diagnstico

    mdico)

    Como mtodos de anlisis de datos. Principalmente este trabajo se centrar en esta ltima faceta de las redes. De hecho en multitud de ocasiones si se analiza detalladamente

    lo que est haciendo una red se descubrir que se dedica a rescribir mtodos estadsticos

    clsicos, como se detallar en secciones posteriores. As mismo cualquier red, an cuando

    su objetivo final sea algo muy concreto y a simple vista alejado de la estadstica, como la

    voz del desfibrilador que nos dice que el paciente tiene pulso y no puede recibir la

    descarga, fue diseada, y por lo tanto puede ser analizada desde un punto de vista

    meramente estadstico. Esta faceta de las redes fue estudiada con detenimiento por Sarle

    (1994).

    1-7

  • 1. Una Revisin General

    1-8

    Se continua buscando el modelo que nos permita crear inteligencia, en el sentido humano del

    trmino, la llamada inteligencia artificial; una mquina capaz de aprender realmente, de tomar

    sus propias decisiones, de modificar y reinventar sus reglas de aprendizaje,...

    1.3. Clasificacin de las Redes Neuronales

    La principal clasificacin de las redes se basa en las conexiones que presentan. En esta tesis se

    trabajara con redes que presentan conexiones hacia adelante o feedforward. Estas redes

    as mismo pueden ser clasificadas segn dos criterios principales: la arquitectura o topologa de

    la red, y el mtodo de aprendizaje empleado para su entrenamiento.

    1.3.1 Segn sus Conexiones

    Un criterio fundamental para clasificar las redes es aquel que se basa en las conexiones o nodos

    que presentan. A pesar de que en la mayora de los casos se tratar con redes con conexiones

    hacia delante, (feedforward), en particular aquellas que solo presentan conexiones entre

    capas consecutivas, existen redes que no limitan de esa manera sus conexiones.

    1.3.1.1 Redes con conexiones hacia adelante (feedforward)

    En este tipo de redes la informacin se propaga hacia adelante por las distintas capas a travs

    de los pesos. No existen conexiones hacia atrs, ni laterales (salvo en dos casos

    particulares propuestos por Kohonen, que presentan conexiones implcitas entre las salidas,

    que son el Learning Vector Quantizer (LVQ), y el Topology Preserving Map (TRM)) (Hilera

    Gonzlez y Martnez Hernando, 1995). Redes de este tipo sern las que se consideren de

    ahora en adelante.

    1.3.1.2 Redes con conexiones hacia adelante y hacia atrs (feedforward/feedback)

    Son redes donde la informacin circula tanto hacia adelante como hacia atrs, pues existen

    conexiones, i.e. pesos, en ambos sentidos. Entre dos neuronas conectadas hay dos pesos, uno

    en cada sentido, que en la mayora de los casos son diferentes. Generalmente son redes

    bicapa. Muchas de estas redes basan su comportamiento en la resonancia, esto es, en la

    interaccin de las informaciones de la primera y la segunda capa, hasta alcanzar un estado

    estable.

    En ocasiones se dan conexiones laterales entre neuronas de una misma capa. A este tipo de

    redes pertenecen las red Adaptative Resonance Theory (ART), y la red Bidirectional

    Associative Memory (BAM) (Hilera Gonzlez y Martnez Hernando, 1995).

    1.3.2 Segn su Topologa

    Las dos arquitecturas de redes neuronales ms usada son los Perceptrones Multicapa,

    denominados habitualmente MLP debido a las siglas de su denominacin anglosajona,

    Multilayer Perceptron, y las Funciones de Base Radial, que se asocian a sus siglas en ingls,

    Radial Basis Functions Bsicas.

  • 1. Una Revisin General

    1.3.2.1 El Perceptrn

    El primer modelo de red que se dise fue el perceptrn. Fue inventado por F. Rosenblatt en

    1958. Con l pretenda ilustrar algunas de las propiedades de los sistemas inteligentes.

    Posteriormente se desarrollaron adems diversas variantes del perceptrn, en particular el

    perceptrn simple, esto es, sin capa oculta, entrenado segn una regla delta (con supervisin)

    La gran flexibilidad de este primer esquema influy enormemente en el gran desarrollo

    posterior de lo que acab desembocando en las redes neuronales. Los perceptrones se

    clasifican por el nmero de capas que presentan. As aquellos con dos capas, esto es, sin capa

    oculta, son perceptrones simples, y los de una o ms capas ocultas se llaman perceptrones

    multicapa.

    A continuacin se ilustra el ejemplo ms sencillo: el perceptrn simple. Un perceptrn simple

    calcula la combinacin lineal de las entradas (con un trmino de sesgo) lo que se llama

    entrada de red (1.8); a esa combinacin lineal se aplica una funcin de activacin, por regla

    general la funcin signo, o la funcin umbral, dando lugar a la salida de la red. La figura 1.4

    muestra el diseo de un perceptrn simple.

    aow11

    aoiw 1

    aoN I

    w 1

    o

    1X

    INX

    iX

    1

    aow 10

    Y

    Figura 1.4. Esquema del Perceptron Simple

    Las ecuaciones del proceso son las siguientes

    01 11

    INao ao

    i ii

    q =

    = + X (1.8)

    01 11

    01 11

    0 00 0

    ( )1 0

    1 0

    I

    I

    Nao ao

    i ii

    Nao ao

    i ii

    si Xsi q

    O f qsi q

    si X

    =

    =

    +

  • 1. Una Revisin General

    Est constituido por nodos de entrada y una nica neurona de salida, encargada de

    decidir a cul de las dos clases posibles pertenece la observacin.

    IN

    La regla de decisin ser 1 si la observacin pertenece a la clase A, y 0 si pertenece a la clase

    B. La salida depender de los pesos 1ao

    i 01ao y del sesgo , que en este caso cumple el papel de valor umbral. Para que el clasificador pueda clasificar correctamente cualquier muestra es

    necesario que las dos clases sean linealmente separables.

    1-10

    Figura 1.5. Separacin lineal en el plano de dos conjuntos

    Las redes de este tipo, con slo dos capas se limitan a la resolucin de problemas con

    observaciones separables geomtricamente (por hiperplanos). Ante estos inconvenientes

    surgieron dos modelos nuevos, el ADALINE (elemento lineal adaptable) y el MADALINE

    (elemento lineal adaptable mltiple). La estructura del ADALINE es la del perceptrn simple,

    pero la funcin que aplica el nodo es la identidad; de este modo se permite ms flexibilidad

    en la estructura de la red.

    Un modelo ms verstil y complejo es el Perceptrn Multicapa (MLP), que consiste en cierta

    cantidad de nodos organizados por capas (en al menos 3 capas), de modo que una neurona

    reciba entradas slo de las neuronas situadas en la capa inmediatamente inferior. En general,

    en un Perceptrn Multicapa cada uno de los nodos calcula una combinacin lineal de las

    entradas que llegan a l, le aade un sesgo, y finalmente le aplica una funcin de activacin,

    tambin llamada de transferencia, que por regla general traslada cualquier entrada real a un

    rango generalmente acotado, dando lugar as a la salida del nodo, que puede ser una de las

    entradas de un nuevo nodo.

    Un perceptrn multicapa, al igual que uno simple puede tener una o ms salidas, cada una de

    ellas con un conjunto de pesos y un sesgo asociados. A menudo se usa la misma funcin de

    activacin para cada nodo de la misma capa, aunque es posible usar diferentes funciones de

    activacin para cada neurona.

    A AA B

    BB1X

    2X

    B

  • 1. Una Revisin General

    ahNH

    w1

    ahNH

    w2ahiNH

    w

    ahNN HI

    w

    1h

    jh

    HNh

    iX

    1X

    2X

    INX

    11

    ahNH

    w0

    hokw1

    hokjw

    hokNH

    w

    hokw0

    ko kY

    1o 1Y

    ON

    o ON

    Y

    Figura 1.6. Esquema de un Perceptron Multicapa, con una capa oculta (NI-NH-NO)

    Las ecuaciones asociadas a un perceptrn multicapa son las siguientes:

    01

    para 1, ,IN

    ah ah

    j h ij i ji

    h f X j N =

    = + = " H (1.10)

    1

    para 1, ,HN

    ho ho

    k O jk j jkj

    o f h k N =

    = + = " O (1.11) En esta notacin se supone que todos los nodos de una misma capa emplean la misma funcin

    de activacin, aunque podra perfectamente no ser as.

    1.3.2.2 Redes Neuronales de Base Radial

    El otro modelo arquitectnico importante es el de las redes de base radial (RBF). La filosofa

    general de las redes consiste en huir de los modelos preestablecidos, y dejar que sean las

    observaciones pasadas las que el comportamiento de las salidas de la red. En los perceptrones

    esa influencia radica en el entrenamiento; en estas nuevas redes tambin, pero adems se

    desean establecer ciertos valores de las variables de entrada y sus correspondientes variables

    respuesta de tal forma que sean representativos de todos los estados en los que se puede

    encontrar el sistema que se desea modelizar. Lo que va a diferenciar a estas redes de los

    perceptrones es el modo en que actan sobre los datos de entrada, esto es, cmo condensan

    la informacin que les proporcionan las distintas variables. En un MLP la entrada de red (net

    input) a la capa oculta es una combinacin lineal de las entradas especificada por los pesos.

    En una red de funcin de base radial las neuronas de la capa oculta calculan las funciones

    radiales bsicas de las entradas, que son similares a las funciones empleadas en la regresin

    tipo ncleo (Hrdle, 1990). Para ello ser necesario disponer de un conjunto de

    observaciones, tal y como se tiene en la regresin no paramtrica, con respecto a los que

    calculamos la distancia del vector de entradas.

    1-11

  • 1. Una Revisin General

    1-12

    Ese conjunto de centros { } {1 1,G G G HH NN ah hoi i ii iW W W= } == , siendo { } ( ){ }1 21 1, , ,G HH I NNah ah ah ahi i i N ii iW = == , y { } ( ){ }1 21 1, , ,G HH O NNho ho ho hoi i i iNi iW = == ), tiene que cumplir una de las propiedades principales de los conjuntos de entrenamiento, ser significativos, esto es, que representen todas las

    situaciones en las que se puede encontrar el sistema que se desea imitar. Pero al contrario

    que en el caso de conjunto de entrenamiento deseamos reducir al mximo el nmero de

    elementos de ese conjunto, pues el nmero de pesos involucrados en la red ser proporcional

    al nmero de centros escogidos. Adems ha de ser independiente del conjunto de entrenamiento y del de validacin.

    Cuando se introduce un caso nuevo en la red, se calculan las distancias a los centros, que se

    matizarn en funcin de unos parmetros llamados ventanas, 0

    ah

    j , asociados a cada nodo

    oculto, y que cumplen tareas similares a las que cumple el parmetro ventana en la

    metodologa tipo ncleo (Wand y Jones, 1995). La funcin de activacin de la capa oculta

    (igual para todos los nodos) puede ser cualquiera de una variedad de funciones en los reales,

    que alcanzan el mximo en el 0, y que a medida que se acercan a , tienden a cero. Por su parte en la capa de salida se calcularn combinaciones lineales de las salidas de la

    capa oculta, esto es, la funcin de activacin ser la identidad. En ocasiones se considera

    como ventana, la mitad del parmetro, pues es la amplitud de la zona a cada lado, en

    cualquier caso ambas ideas son equivalentes. Algunas posibilidades para las funciones K son:

    ( )2= K(r) exp r 2Gaussiana (1.12) 2 2K(r) = (c +r ) Multicuadrtica (1.13)

    Thin Plate Spline (1.14) 2K(r) = r log r

    En general se puede aplicar cualquier funcin tipo ncleo, pues se rigen por el mismo

    principio: establecer regiones en el espacio de entradas, que pueden superponerse unas a

    otras, entorno a ciertos puntos (centros) que se suponen significativos. La norma empleada

    para calcular la distancia entre un punto y los centroides no es fija, sino que constituye otro

    grado de libertad de la red. Las ms utilizadas son la Eucldea y la de Mahalanobis. La Figura

    1.7 muestra la estructura de una red RBF, y las ecuaciones siguientes muestran un ejemplo de

    la forma numrica que adopta.

  • 1. Una Revisin General

    iX

    1X

    INX

    0 HahNw

    1

    o

    ohNH

    w 1

    ohw11

    1h

    HNh

    1

    01how

    01ahw

    ahNH

    w1

    ahw11

    Figura 1.7. Esquema de una Red de Base Radial Mltiple con Salida Unidimensional

    el conjunto de variables de entrada, y sea { } {1 1, }G G G HH NN ah hoi i ii iW W W= =={ } 1INi iX =Siendo el conjunto de los centros, se tiene,

    ( )1

    22

    10

    11, ,

    INah

    i ij iahij

    h K x para i N == =

    H , (1.15) con NH el nmero de nodos de la capa oculta, o lo que es lo mismo el nmero de centros que se ha establecido. La salida responde a la expresin:

    ( )1

    22

    01 1 01 11 1 10

    01 11 0

    1H H I

    H

    N N Nho ho ho ho ah

    i i i ij iahi i ij

    ahNiho ho

    i ahi i

    o h K x

    x WK

    = = =

    =

    = + = + = +

    GG

    =

    (1.16)

    La regin cerca de cada centro de los RBF recibe el nombre de campo receptivo (receptive

    field) de la neurona oculta. Es la zona donde ejerce su influencia el centro asociado a ese

    nodo. Las neuronas RBF tambin se llaman campos receptivos localizados (locally tunned

    processing units o funciones de potencial) (Buhmann, 2003). En ocasiones los valores de la

    capa oculta se normalizan para que sumen 1, como se hace comnmente en estimacin tipo

    ncleo (Silverman, 1986).

    Las redes RBF poseen la particularidad de que el nmero de nodos de la capa oculta coincide

    con el nmero de centros por lo que es imprescindible haber seleccionado el nmero de nodos

    1-13

  • 1. Una Revisin General

    para tener la topologa definitiva de la red. Es necesario pues abordar el problema de la

    eleccin de los centros. En principio se pueden considerar todos los pesos como susceptibles

    de ser modificados durante el entrenamiento, pero esta no es la nica posibilidad.

    Frecuentemente las redes RBF son consideradas como hbridas. Antes de comenzar el

    entrenamiento se realiza un anlisis cluster (Everitt et al., 2001; Pea, 2002) sobre el

    conjunto de entradas y se seleccionan como centros las medias de los cluster. Siguiendo esta

    misma idea las ventanas se toman a menudo de tal forma que coincidan con la distancia al k-

    simo vecino ms cercano desde el centro seleccionado previamente, o bien se determinan a

    partir de las varianzas de los clusters. De este modo ni los centros ni las ventanas se

    determinan convenientemente de modo previo a la red. Durante el entrenamiento se buscan

    nicamente los valores de los parmetros que unen la capa oculta con la capa de salida, esto

    es, si se tratase de un problema de regresin, los valores que toma la variable objetivo en los

    centros.

    Un tipo especial de redes de base radial son aquellas denominadas funciones potencial.

    Estas funciones constituyen mtodos tipo ncleo, de modo que cada observacin o centro se

    considera asociado a una carga de intensidad, qi. El potencial de un nuevo punto responde a

    la expresin (1.17), en la que K es una funcin tipo ncleo, y el potencial es seleccionado

    segn los objetivos de la red.

    (1.17) ( ) ( )1

    ;HN

    ahi

    if X q K X W

    == G G iG

    Las diferencias entre ambas topologas radica como en el modo de procesar la informacin de

    los nodos de la capa oculta de ambos, que se refleja en sus expresiones matemticas.

    01

    INah ah

    j j iji

    ig x =

    = + MLP: (1.18) (1.19) ( )jh f g= j

    12 2

    1 0

    G GI ahNij i

    j ahi j

    ahj

    xg W X

    =

    = = RBF: (1.20)

    (1.21) ( )jf K g= jTanto los MLP como las RBF son aproximadores universales (Hartman et al., 1990; Park y

    Sandberg, 1991; Zhou, 2003; Powell, 1987), esto es, cualquier funcin con la suficiente

    suavidad puede ser escrita como la salida de una red neuronal. Al final de este captulo se

    dedicar una seccin a la introduccin de los aproximadores universales, ilustrando alguno de

    los ms extendidos.

    1-14

  • 1. Una Revisin General

    1-15

    1.3.3 Segn el Tipo de Aprendizaje

    La caracterstica distintiva y original de las redes neuronales es el aprendizaje. A diferencia de

    otros sistemas tradicionales, para los que el conocimiento se expresa en forma de reglas

    explcitas, las redes neuronales generan sus propias reglas en el aprendizaje. Las redes

    neuronales aprenden de los datos, sin que sea preciso determinar una estructura para el

    sistema que deseamos reproducir, ni situar la distribucin de probabilidad dentro de una

    familia concreta.

    El aprendizaje de la red consiste fundamentalmente en la modificacin de los pesos que

    conectan los nodos. Cmo aprende la red, o lo que es lo mismo, qu es lo que hace que las

    conexiones interneuronales se modifiquen, qu criterios se siguen, y cundo las modificaciones

    son aceptadas y cundo no, ser vital a la hora de obtener buenos predictores neuronales. El

    proceso por el cual una red aprende se llama entrenamiento. Hay diversas clasificaciones del

    aprendizaje y por consiguiente de las redes, segn diferentes criterios.

    1.3.3.1 Redes On-Line frente a Redes Off-Line

    Una primera divisin distingue entre redes off line y redes on line.

    Las redes off line se caracterizan porque para realizar su aprendizaje ha de detenerse el

    funcionamiento de la red. Se distinguen en este tipo de redes dos etapas: una de

    entrenamiento y otra en que la red se dedica a predecir. Cuando la red proporciona

    predicciones, no se encuentra entrenando, y mientras entrena est inhabilitada para dar

    respuesta a nuevos datos.

    Por su parte las redes on line tienen la caracterstica de que entrenan con cada nuevo dato

    que recibe el sistema, sin necesidad de detener su funcionamiento. Los datos se modifican

    dinmicamente con cada nueva informacin.

    Las primeras redes necesitarn actualizaciones peridicas, sobre todo si el proceso que se

    desea estudiar evoluciona con el tiempo. Pero a cambio su carcter esttico durante los

    perodos de prediccin hace ms estable al sistema. Si la red se modifica constantemente con

    cada nuevo dato sera necesario un exhaustivo estudio para analizar la inestabilidad del

    sistema.

    1.3.3.2 Redes con Aprendizaje Supervisado versus No Supervisado

    La clasificacin ms usual es aquella que distingue entre redes con Aprendizaje Supervisado y

    con Aprendizaje no Supervisado. La diferencia principal radica en la existencia de un

    "supervisor que controla el aprendizaje, indicando, bien hacia dnde han de modificarse los

    pesos, o bien si la modificacin es correcta o no.

    A continuacin se estudian con ms detalle las diferencias entre los distintos tipos de

    aprendizaje, para que facilitar el discernimiento entre este tipo de redes, y por tanto la

    clasificacin.

    1.3.3.2.1 Aprendizaje Supervisado

    Se caracteriza por la existencia de una agente externo que conoce la respuesta que

    debera generar la red a partir de una determinada entrada. La salida de la red es

  • 1. Una Revisin General

    1-16

    comparada con la respuesta deseada, y si no coinciden los pesos de las conexiones sern

    modificados de modo que la salida obtenida se aproxime a la deseada. La informacin que

    maneja el supervisor no es siempre la misma. Segn la naturaleza de los conocimientos de

    los que disponga, aparecern tres grandes clases de aprendizaje supervisado.

    (i) Aprendizaje por correccin de error.

    (ii) Aprendizaje por refuerzo.

    (iii) Aprendizaje estocstico.

    (i) Aprendizaje por correccin de error.

    Es el modo ms comn de aprendizaje. Cada caso del conjunto de entrenamiento est

    constituido por las variables de entrada (que caracterizan la situacin en que se

    encuentra el sistema) y la salida o salidas que se desean de la red (variables objetivo). El

    ajuste de los pesos se realizar en funcin de la diferencia entre los valores deseados y

    los que se obtuvieron en la salida de la red.

    La Regla de Aprendizaje del Perceptrn, fue desarrollada por Rosenblatt (1958), y

    constituye el primer ejemplo de aprendizaje supervisado. Presenta el problema de que

    no considera de modo global el error cometido por la red al estimar el conjunto de

    entrenamiento. Ms adelante Widrow y Hoff (1960) desarrollaron la Regla Delta, que

    permite conocer el error global cometido durante el entrenamiento. Estos autores

    aplicaron este mtodo de entrenamiento a muchas de las redes que desarrollaron, como

    el ADALINE y el MADALINE. La Regla delta estaba pensada para redes constituidas

    nicamente por una capa de entrada y una de salida. Cuando se empezaron a disear

    redes ms complejas, con una o varias capas ocultas (siempre con conexiones hacia

    delante) se hizo necesaria una generalizacin de ese algoritmo que tan buenos

    resultados haba proporcionado. Surgi entonces la Regla Delta Generalizada. Esa regla

    modifica los nodos cada vez que una observacin, que ser elegida de modo aleatorio, es

    presentada a la red, y lo hace siguiendo un orden determinado, empezando por los nodos

    que conectan la ltima capa oculta con la capa de salida, y finalizando en los que unen

    la capa de entrada con la primera capa oculta. La Figura 1.8 detalla el esquema general

    del proceso de aprendizaje.

    La modificacin de los pesos busca disminuir la funcin de error hasta hallar un mnimo

    de esa funcin. Si el error es una funcin lo suficientemente suave, basta con buscar un

    mnimo local, esto es, un punto donde la derivada sea nula. Se modifican los pesos en

    funcin de la derivada del error con respecto a al peso que se desea actualizar. La

    amplitud de la modificacin viene determinada por un paso, en general fijo durante todo

    el entrenamiento. Escoger adecuadamente el valor de ese paso ser determinante en el

    xito del entrenamiento.

  • 1. Una Revisin General

    Iteracin k

    Se Elige una Observacin aleatoria nueva ( )casoYX GG , Se Calcula la Salida de la Red casoO

    G

    Se Modifican los pesos desde la capa de salida a la de entrada con el fin de disminuir la funcin de error, E

    Se Calcula el Error Cuadrtico cometido

    ( )=

    = ON

    kkk oYE

    1

    2

    Se ha presentado toda la muestra?

    NO

    SI

    Se ha alcanzado el nmero mximo de iteraciones?

    SI

    Fin del Entrenamiento

    k+1

    NO

    Figura 1.8. Diagrama de Flujo del Entrenamiento

    Los pesos se modifican en orden inverso a su actuacin en la red, pues la derivada de la

    funcin de error de los pesos de una capa depender de los pesos de las siguientes

    capas. La modificacin en la iteracin k-sima ser,

    1 1

    1

    1

    1

    [ ] [ ]

    [ ]

    ah ahk k

    i i ahk

    i

    j j

    j

    Ew ww

    =

    1

    1

    [ ] [ ]

    [ ]

    L O L OH H

    L OH

    h hk k

    i i hk

    i

    j j

    j

    Ew ww

    =

    , ..., (1.22)

    En general,

    1-17

  • 1. Una Revisin General

    1

    1

    [ ] ] ]

    [ ]

    k k

    ij ij k

    ij

    Ew w

    w

    = (1.23)

    La idea para su implementacin se conoce como backpropagation. Fue desarrollada por

    Rumelhart, Hinton y Williams (1986) basndose en las ideas de Rosemblatt (1962).

    a) Backpropagation

    Consiste en tratar de minimizar una cierta funcin del error que comete la salida

    proporcionada por la red con respecto al valor deseado de la variable objetivo, por regla

    general proporcional al error cuadrtico medio. Para ello se busca un extremo relativo

    de esa funcin, considerada como funcin de los pesos, esto es, un punto donde todas

    las derivadas parciales de la funcin de error respecto a los pesos se anulan.

    1

    1

    1

    1

    0 ; 1

    0; 1 ,1 1

    0; 1

    ll l

    l l

    LH

    LH

    Iah

    ij

    lh h Hj j

    Oh o

    j k

    Econ i N

    Econ j N l L

    Econ k N

    +

    +

    =

    H= =

    (1.24)

    El algoritmo de Backpropagation es un mtodo clsico de entrenamiento de redes

    cuando se trata de en un caso de aprendizaje con supervisin. El error cuadrtico medio

    se considera como funcin de los pesos, y por ello se calculan las derivadas de la funcin

    de error (fuese cual fuese) con respecto a ellos. Consiste, por tanto, en la aplicacin del

    algoritmo de paso descendiente teniendo en cuenta el orden adecuado de clculo de las

    derivadas.

    Si se considera como funcin de error el error cuadrtico medio, se aprecia que para el

    clculo la derivada se necesita manejar simultneamente todos los datos. Cuando sea

    necesario trabajar con todos los datos a la vez se dice que el mtodo es batch. En la

    mayora de los casos resultan mucho ms interesantes los mtodos on-line, puesto que

    los pesos se modifican con cada dato, de modo que se puede considerar la evolucin del

    sistema. En muchas ocasiones si es necesario manejar al tiempo todos los casos del

    conjunto de entrenamiento, es posible obtener mejores resultados hallando el mnimo

    de la funcin de modo analtico.

    El anlogo on-line de la regla delta generalizada responde al mismo esquema pero

    considerando como funcin de error la ecuacin (1.25).

    ( )( 21

    ( , , ) ,W G G GNo

    p p p p

    k kk

    E x y y o x=

    = )W , (1.25) 1( , )

    G Gp p npx y = el conjunto de entrenamiento, W la matriz de pesos de la red. siendo

    1-18

  • 1. Una Revisin General

    Existen tres razones fundamentales para el uso de mtodos on-line frente a los batch.

    Por una parte est la motivacin biolgica del aprendizaje de cada experiencia, por otra

    parte es importante el hecho de que su convergencia puede ser ms rpida que en los

    mtodos batch. En el caso en que el conjunto de informacin tenga un gran nmero de

    ejemplos muy parecidos o exactos, el promedio sobre una proporcin pequea de

    ejemplos proporcionar una buena aproximacin a E y sus derivadas. Finalmente existe la creencia de que la introduccin de ruido (la aleatoriedad del ejemplo que se

    presenta) hace que sea ms fcil evitar mnimos locales durante la optimizacin.

    El entrenamiento es un algoritmo iterativo, y por lo tanto requiere de un punto de

    partida y una regla de parada. Generalmente se parte de un conjunto aleatorio de pesos,

    prestando especial atencin al espacio en el que se eligen, con el fin de evitar la

    saturacin numrica de las unidades ocultas. La eleccin de regla de parada resulta

    tambin importante. Inicialmente se suele seleccionar como regla el detener el proceso

    cuando (si) el error, E, es pequeo. No siempre este es un criterio adecuado. Se han propuesto muchos mtodos de parada, entre los que destacan aquellos que consisten en

    considerar un conjunto de validacin simultneamente al entrenamiento para el que se

    evalen los resultados de la red en paralelo, de modo que se detenga el entrenamiento

    cuando la medida del error en el conjunto de validacin empiece a crecer. Esto es

    peligroso, pues en muchos casos, tras un valle, el error en el conjunto de validacin

    crece lentamente durante un nmero grande de iteraciones para luego caer de pronto a

    una fraccin pequea de su mnimo inicial.

    Los efectos del momento de parada son importantes. Si se detiene prematuramente los

    pesos ajustados dependern de los de partida. Esto complica el anlisis de los procesos

    de parada temprana. Asimismo si te toma demasiado grande podr darse el caso de que en los pasos sucesivos la red se est momento alrededor del punto ptimo (vector de

    pesos) donde se alcanza el mnimo, pero sin llegar a alcanzarlo. Si por el contrario se

    opta por un demasiado pequeo la convergencia puede ser muy lenta. De nuevo se tienen diferentes opciones, como tomar constante, pero pequeo (por ejemplo,

    , ) , o bien considerar 0,008 = 0,004 =n una sucesin decreciente, con lmite cero,

    pero con serie divergente. Por ejemplo, 1n n = , con n un caso aleatorio.

    Si se analiza en detalle el comportamiento de la regla de entrenamiento, se obtiene la

    siguiente descripcin del proceso.

    Elegir aleatoriamente los pesos iniciales. En general los pesos se eligen de modo aleatorio en (0,1) pero que no estn demasiado cerca de estos extremos para que no se

    saturen los nodos (i.e. el valor de los pesos permanezca inamovible).

    Elegir aleatoriamente un caso del conjunto de entrenamiento. Se calcula el valor del nodo final con los pesos actuales., y se modifican , por mnimos cuadrados vamos

    minimizando el valor de los pesos.

    Modificar los pesos. Los pesos se modifican en la direccin en la que disminuya ms rpidamente la funcin de error determinada.

    1-19

  • 1. Una Revisin General

    Para ilustrar el proceso se ilustra a continuacin un caso concreto, el del perceptrn

    multicapa, con una sola capa oculta. En este ejemplo se considera como funcin de

    error, E, el error cuadrtico en los nodos de la ltima capa (1.25).Los pesos se modifican comenzando por la capa final y retrocediendo capa a capa hasta llegar a la primera. La

    regla de modificacin de pesos, o regla de aprendizaje se describe a continuacin.

    Durante la iteracin m-sima, en la ltima capa (capa que une los nodos de la capa

    oculta con los nodos de salida) los pesos se modifican segn (1.26).

    [ ] [ 1]

    [ 1], 1 , 1m ho m hojk jk Hm ho

    jk

    Ej N k N

    = O (1.26)

    Desarrollando el clculo de la derivada se tienen las siguiente ecuaciones,

    [ 1] [ 1] km ho m ho

    jk jk

    qE E k hqk

    = = j (1.27)

    [ 1]

    0

    0 1k

    m ho

    k

    qh

    =

    = (1.28)

    [ 1] [ 1]

    00

    ( ) ( ) 2 ( )HN

    m ho m hokk o k o k jk j

    jk k k k

    oE E Ek kf q f h Yq o q o

    =

    = = = = + o

    )

    (1.29)

    1 1

    1

    [ ] [ 1] [ 1] [ 1]

    00

    2 ( ) (HN

    m ho m ho m ho m ho

    jk jk j o k j k j kj

    h f h Y o =

    = + + k)kY o

    (1.30)

    1 1

    1

    [ ] [ 1] [ 1] [ 1]

    0 0 00

    2 ( ) (HN

    m oh m oh m oh m oh

    k k o k j k j kj

    f h =

    = + + (1.31) En la primera capa, (capa que une los nodos de la capa de entrada con los nodos de la

    capa oculta) los pesos se modifican segn (1.32); las ecuaciones posteriores detallan el

    proceso en ms detalle.

    [ ] [ 1]

    [ 1], 1 , 1m ah m ahij ij I Hm ah

    ij

    Ei N j N

    = (1.32)

    [ 1] [ 1]m ah m ah

    ij ij

    j

    gE E jgj

    iX = = (1.33)

    [ 1]

    0

    1m ah

    j

    gj

    = (1.34)

    1-20

  • 1. Una Revisin General

    [ 1] [ 1]

    01 1

    [ 1] [ 1]

    01 1

    [ 1] [ 1]

    01

    ( )

    ( ) 2 ( )

    ( ) 2 ( )

    2 (

    OI

    OI

    NNm ah m ah k

    h j ij i k ki k j

    NNm ah m ah k k

    h j ij i k ki k k j

    Nm ah m ah

    h j ij ii

    hE E Ejf g

    j h jg h g hj j j j

    of X Y o

    h

    o qf X Y o

    q h

    f X

    = =

    = =

    =

    = = = = = + = = + =

    = +

    ( ) [ ]1

    ) ( )OI N

    m ho

    k k o k jk

    Y o f q

    (1.35)

    k=

    ( )1 1

    1

    [ ] [ 1] [ 1] [ 1] [ ]

    01 1

    2 ( ) ( )OI NN

    m ah m ah m ah m ah m ho

    ij ij i h j i j i k k o k jki k

    X f X Y o f q = =

    = + + (1.36)

    ( )1 1

    1

    [ ] [ 1] [ 1] [ 1] [ ]

    0 01 1

    2 ( ) ( )OI NN

    m ah m ah m ah m ah m ho

    j oj h j i j i k k o k jki k

    f X Y o f q = =

    = + (1.37) Test de parada. Tras recorrer todo el conjunto de informacin, modificando los pesos se comprueban los test de parada. Por regla general se establecen diversos test de

    parada, como en cualquier algoritmo iterativo. Algunos de los posibles controles son

    limitar el nmero mximo de recorridos del conjunto de informacin, que la mxima

    modificacin de los pesos sea menor que cierta cantidad umbral predeterminada, o bien

    que la mxima modificacin del error cuadrtico medio sea menor que cierta cantidad

    umbral. Si no se cumple ninguno de los test seleccionados se retorna al segundo punto,

    recorriendo de nuevo el conjunto de informacin de modo aleatorio.

    b) Variantes del Algoritmo Clsico

    El algoritmo clsico ha sufrido muchas alteraciones. En los experimentos iniciales se le

    aadi el momento, y su suavidad exponencial se us como el trmino de correccin.

    ( ) ([ ] [ 1]ij ij ijij

    [ 1]E = - 1- + m m m )

    (1.38)

    Para acelerar la convergencia de los mtodos se han propuesto muchas ideas, como, por

    ejemplo, elegir adaptativamente ij y para cada peso . Esta regla de backpropagation as como sus variantes presentan ciertos inconvenientes,

    como la facilidad con la que queda atrapada en mnimos locales, por tanto se hace

    indispensable elegir de modo apropiado los pesos iniciales a la hora de alcanzar buenos

    predictores. Adems requiere que la funcin de error sea diferenciable con respecto a

    los pesos de la red, por lo tanto presenta inconvenientes a la hora de trabajar con

    funciones de activacin no diferenciables, como ciertos ncleos, o la funcin umbral.

    Est claro que el algoritmo de backpropagation presenta ciertas limitaciones. Cuando

    comienza el entrenamiento se decanta por una direccin, y no explora otras

    1-21

  • 1. Una Revisin General

    1-22

    posibilidades, por lo que, si la eleccin inicial no era la adecuada, el entrenamiento

    seguramente acabar sin remisin en un mnimo local. Es por este y otros motivos que

    surgieron otros mtodos de entrenamiento ms flexibles, por ejemplo aquellos que

    hacen uso de los algoritmos genticos. Existen muchos otros algoritmos de

    entrenamiento, que consisten bsicamente en la bsqueda iterativa de mnimos

    cuadrticos no lineales. Cuando se realiza regresin con mtodos de redes neuronales, y

    se conoce la variable objetivo o respuesta, el entrenamiento se har empleando una red

    con aprendizaje supervisado.

    (ii) Apredizaje por refuerzo.

    En este caso el supervisor no conoce la respuesta adecuada que debera presentar la

    red, pero dispone de algn mecanismo que indica si la respuesta es buena o no. Si la

    respuesta era adecuada se reforzarn las conexiones que actuaron para obtener esa

    respuesta, y si no lo era, esas mismas conexiones se inhibirn.

    Hay un rea de estudio llamada Aprendizaje De Mquinas, nacida en las comunidades de

    inteligencia artificial y ciencia computacional, en el tambin el objetivo radica en

    establecer la estructura del comportamiento a partir de los ejemplos, y las respuestas

    que se proporcionan para el aprendizaje son verdadero o falso.

    (iii) Aprendizaje estocstico.

    En esta red los cambios de los pesos no se hacen siguiendo un criterio de error, o de

    buen camino, sino de modo aleatorio. El cambio de aceptar segn las consecuencias

    que tengan los nuevos pesos en el comportamiento de la red, y en funcin de ciertas

    distribuciones de probabilidad. A cada red, de las infinitas posibles al variar los pesos, se

    le asignar el valor de una funcin potencial, como si se tratase de un cuerpo con cierta

    energa. Se busca el estado de mxima estabilidad, esto es, de energa mnima. Los

    cambios de los pesos se harn de modo aleatorio, y si el nuevo estado energtico resulta

    ser ms estable, se aceptarn los cambios. En caso de que los nuevos pesos aumenten la

    inestabilidad del sistema, no sern rechazados de modo inmediato, sino que se

    aceptarn los cambios en funcin de cierta distribucin de probabilidades, que habr

    sido determinada de antemano.

    Dentro de las redes con aprendizaje supervisado tambin se puede establecer otro tipo

    de clasificacin, segn las variables objetivo que se consideren. De ese modo las Redes

    Heteroasociativas son aquellas que presentan variables objetivo diferentes de las

    variables de entrada, mientras que las Redes Autoasociativas tienen variables objetivo

    iguales a las variables de entrada.

    1.3.3.2.2 Aprendizaje No Supervisado

    No se dispone en este caso del supervisor que indique cmo actuar, y cundo los cambios

    han de ser aceptados. Las redes con este tipo de aprendizaje no reciben ninguna seal del

    exterior que les indique si su salida es o no la adecuada. Las redes con aprendizaje no

    supervisado debern autoorganizarse, en funcin de las similitudes y diferencias que

    presenten los datos de entrada. Diversas son las tareas que pueden realizar las redes con

    aprendizaje no supervisado. La ms conocida es el Anlisis Cluster. Este tipo de redes lo

  • 1. Una Revisin General

    que realizar agrupaciones de aquellos datos que presenten caractersticas comunes, esto

    es que estn, de algn modo, cercanos fsicamente. Esta bsqueda de similitudes puede

    proporcionar diferentes salidas de red. Por una parte puede analizar el grado de similitud

    entre una nueva observacin, y las presentadas anteriormente, o bien realizar un anlisis

    cluster, estableciendo grupos o categoras, y proporcionando la categora a la que

    pertenece un elemento, tambin puede proporcionar una salida que sea una funcin del

    espacio de caractersticas, de tal forma que las salidas de dos observaciones prximas

    estn cercanas entre s.

    Del mismo modo que el aprendizaje supervisado llevaba asociadas ciertas reglas de

    aprendizaje, (regla delta, regla delta generalizada), hay dos reglas de aprendizaje

    principales cuando nos referimos al aprendizaje sin supervisin, que dan lugar a dos tipos

    de aprendizaje.

    (i) Regla de Hebb.

    Se emplean principalmente cuando el objetivo consiste en estudiar la cercana de

    diversas observaciones. El peso de conexin entre dos neuronas se incrementar cuando

    aparecen la entrada y la salida deseadas. Se considera que se ha activado una ruta, esto

    es, la conexin entre dos nodos, si el producto de los valores de los nodos es positivo,

    esto es, ambas neuronas son activas (positivas) o pasivas (negativas). Cada vez que se

    activa una ruta se incrementar el peso asociado a esa ruta.

    1 2 1 2l lh h l l

    ij i jh h = (1.39) Si una neurona es activa y otra pasiva el peso que las une disminuir su valor, esto es, se

    inhibir.

    (ii) Aprendizaje Competitivo.

    La idea de este aprendizaje se basa en que los nodos de la capa oculta han de competir

    entre s, de modo que slo uno de ellos se activa, y el resto de salidas permanecen

    inactivas. Una de las neuronas de la capa de salida ser la vencedora, por ello esta regla

    recibe el nombre de winner take all. De nuevo se trata de asociar los datos segn sus

    caractersticas de modo que observaciones prximas den como vencedora a la misma

    neurona en la capa de salida.

    Esta competencia se produce en todas las capas, de modo que unas neuronas actan

    sobre otras excitndolas o inhibindolas; las neuronas que se activan entre s estn

    en cierto sentido asociadas, y suelen especializarse en alguna de las caractersticas de

    las observaciones. A la hora de aprender se tiene que tras una observacin slo se

    modificarn los nodos de las neuronas asociadas por activacin a la salida ganadora, de

    modo que el peso total de la salida (la suma de los pesos asociados a ella) se redistribuya

    entre las conexiones activadoras.

    1-23

  • 1. Una Revisin General

    1.4 Prediccin con Redes Neuronales

    1.4.1 Regresin con Redes neuronales

    Las redes neuronales pueden ser entendidas como modelos generales de regresin (Haykin,

    1999). Se emplean por tanto en muchas ocasiones como herramientas para predecir futuros

    valores de una o varias variables objetivo, que en estadstica son las variables respuesta.

    Muchos mtodos estadsticos clsicos y otros de ms reciente factura han sido reescritos, no

    siempre de forma consciente, como redes neuronales. Esto nos da idea de lo generales que

    pueden llegar a ser las estructuras representadas a travs de un esquema de redes neuronales,

    y de su clara relacin con la estadstica. En esta introduccin se presentarn algunos modelos

    de regresin paramtricos y no paramtricos, que pueden ser estudiados bajo la ptica de las

    redes neuronales.

    1.4.1.1 Regresin Lineal

    1.4.1.1.1 Regresin Lineal Simple

    El modelo de regresin ms sencillo es la regresin lineal simple (Canavos, 2003). Se

    considera una pareja de variables aleatorias ,X Y relacionadas linealmente. El modelo de

    regresin sera:

    Y aX b = + + , con una variable aleatoria de media cero, y varianza finita. (1.40) Luego, si se desea predecir el valor de la variable Y para X x= , se emplea el valor esperado de la distribucin condicionada,

    [ ]Y E Y X x ax b= = = + (1.41) o Y X

    11aow

    1

    01aow

    Figura 1.9. Red Neuronal para la Regresin Lineal Simple

    La Figura 1.9 muestra la estructura de la red que describira una regresin lineal simple. La

    salida de la red ser 11 01ao aoo x = + , que coincide con la estructura de la prediccin que

    proporciona un modelo de regresin lineal. Se precisa pues de un perceptrn sin capa

    oculta, con funcin de activacin, la identidad, el modelo ms sencillo de perceptrn, para

    recrear la regresin lineal simple.

    1.4.1.1.2 Regresin Lineal Mltiple Multidimensional

    La generalizacin del caso anterior (Cachero, 1996; Montgomery et al., 2005)) consiste en

    considerar las variables explicativa y dependiente como multidimensionales, obtenindose

    el modelo de regresin:

    1-24

  • 1. Una Revisin General

    01

    1IN

    k ik i ki

    Y X para k =

    = + + ON (1.42) La prediccin sera:

    1 1 01

    , , , 1I

    I I

    Nao ao

    k k N N ik i ki

    Y E Y X x X x x para k N =

    = = = = + O (1.43) El esquema de la red neuronal que proporciona esta misma estructura en la salida se

    refleja en la Figura 1.10.

    1X

    INX

    iX

    1

    aow 10

    ko kY

    ONo

    1Y

    ONY

    1oaow11

    aoiw 1

    aoN I

    w 1

    Figura 1.10. Red Neuronal para la Regresin Lineal Mltiple Multidimensional

    La salida k-sima de la red viene dada por la ecuacin (1.44) y coincide con la expresin

    que proporciona un modelo de regresin lineal. De nuevo se emplea un modelo de

    perceptrn sin capa oculta, y nuevamente la funcin de activacin es la identidad. En este

    caso la red habr de tener tantos nodos de entrada como variables regresoras (NI), y

    tantos nodos en la capa de salida como variables respuesta (NO).

    11

    INao ao

    k i ii

    o x 0k =

    = + (1.44) 1.4.1.2 Regresin Polinmica

    Una generalizacin natural de la regresin lineal es la regresin polinmica (Pea, 2002). Los

    polinomios son buenos aproximadores de una funcin en el entorno de un punto. Surge

    entonces la llamada regresin polinmica, que tratar de reescribir la funcin que relaciona

    la variable regresora con la variable respuesta que se desea predecir o estimar.

    La prediccin asociada a este el modelo de la variable dependiente k-sima ser:

    ( )1 1 01 1

    , , , 1I

    I I

    N Sj

    k k N N ijk i k Oi j

    Y E Y X x X x x para k N = =

    = = = = + (1.45)

    1-25

  • 1. Una Revisin General

    El modo de trasladar esta idea a una red neuronal pasa por construir una capa oculta

    funcional. Una capa funcional, sean cuales sean las funciones que consideramos en ella, tiene

    como finalidad realizar transformaciones de las variables de entrada, y tienen la ventaja de

    que no disparan el nmero de parmetros, pues las conexiones que surgen entre la capa de

    entrada y la capa funcional tienen pesos fijos con valor 1. En ocasiones las variables

    2, , , Si i iX X X son muy dependientes entre s; esto puede acarrear problemas durante el entrenamiento. Es por ello que en general es recomendable usar una base de polinomios

    ortogonal en la capa funcional, a fin de evitar la colinealidad que conllevan otras bases. En

    general cualquier funcin lo suficientemente suave puede ser aproximada por un polinomio, si

    estamos en un compacto y tomamos el grado del polinomio lo suficientemente alto, pues los

    polinomios constituyen lo que se ha dado en llamar un aproximador universal. La Figura

    1.1,siguiendo la notacin de la figura 1.3, muestra una red neuronal que refleja una regresin

    pilonmica de grado S.

    1

    1

    1

    1

    ko kY

    1o

    ONo

    1Y

    ONY

    1X

    INX

    iX

    Sx

    x

    Sx

    x

    1

    hoNO

    w0

    hoNO

    w1

    hoNS O

    w

    hoNNS OI

    w 1)1( +

    hoNSNS OI

    w + )1(

    Figura 1.11. Red Neuronal para la Regresion Polinomica

    La prediccin que har la red para la variable objetivo k-sima ser:

    ( )01

    1 1 1, , ,SS N

    ho j ho

    k jk i k Ij

    o X con j i S l l S i

    == + = + N (1.46)

    Al analizar atentamente la red se observa que los pesos que unen la capa de entrada y la

    oculta son fijos, pues tomar otros dara lugar al mismo modelo al tiempo que generara un

    problema de falta de especificacin.

    1.4.1.3 Regresin Logstica

    Otro modelo de regresin muy extendido es la regresin logstica, que presenta mltiples

    aplicaciones (Artiaga et al., 2003). Al igual que algunos ejemplos anteriores las funciones

    sigmoideas tambin son aproximadores universales (Golberg, y Cho, 2004). En esta familia

    destaca la funcin logstica.

    1-26

  • 1. Una Revisin General

    1 exp( )logist( ) ,

    1 exp( ) 1 exp( )\xx

    x x= =+ + con x (1.47)

    Cualquier funcin de en un compacto va a poder aproximarse tanto como se desee a

    travs de una combinacin de funciones logsticas de combinaciones de dichas variables. El

    esquema coincide con el presentado en la Figura 1.6, siendo,

    IN\

    01

    logist para 1, ,ON

    ah ah

    j ij i j Hi

    h X j =

    = + = " N (1.48)

    01

    para 1, ,HN

    ho ho

    k jk j kj

    o h k =

    = + = " ON (1.49) La aproximacin de la relacin entre las entradas y las salidas ser en principio, cuantas ms

    funciones logsticas combinemos, esto es, cuantos ms nodos constituyan la capa oculta. Pero

    es necesario ser cuidadosos a la hora de establecer ese nmero de nodos, pues un exceso de

    nodos derivara en un problema de sobreestimacin, casi interpolacin, cuando el nmero de

    pesos se acerca al nmero de elementos que forman el conjunto de entrenamiento. Es posible

    dotar a la red de un mecanismo que elija el nmero de nodos de la capa oculta utilizando un

    conjunto de validacin ajeno al de entrenamiento con el que prevenir el sobreaprendizaje.

    1.4.1.4 Regresin Lineal Generalizada

    La regresin polinmica constituye una generalizacin inmediata de la regresin lineal, en

    tanto en cuanto sta es una regresin polinmica de primer grado. Otro camino por el que es

    posible generalizar la regresin lineal consiste en aplicar a la combinacin lineal, una funcin

    determinada. De este modo se estimar la relacin entre un conjunto de variables regresoras

    1 , , INX X y una variable respuesta Y a travs de una funcin de la forma

    ( )11 1 1 2 2, , I I I IN N N NX x XY Y x H a b b bx x x= = = + + + += " (1.50) siendo H una funcin conocida.

    Estos modelos reciben el nombre de Modelos Lineales Generalizados (McCullagh y Nelder,

    1989; Dobson, 1990; Fox, 2008). La figura 1.12 muestra la estructura de una red que replica

    el esquema de la regresin lineal generalizada, en el caso de respuesta unidimensional. La

    extensin al caso multidimensional consistira en disear tantas redes como variables se

    desean predecir NO.

    1-27

  • 1. Una Revisin General

    1

    aow 10

    1X

    INX

    iX

    aow11

    aoiw 1

    aoN I

    w 1

    o Y

    Figura 1.12. Red Neuronal para la Regresion Lineal Generalizada

    Se trata de un perceptrn sin capa oculta, y con funcin de activacin en el nodo de la capa

    de salida, H. De este modo, la salida que proporciona la red responde a la ecuacin (1.51).

    1 01

    INao ao

    i ij

    o H X =

    = + 1 (1.51) Aunque hasta ahora todas las redes que se haban presentado tenan como funcin link en los

    nodos de la capa de salida la identidad; este es un claro ejemplo de que no tiene que ser as,

    y que utilizar otras funciones link puede resultar muy til

    1.4.1.5 Regresin Aditiva Generalizada

    Se considera de nuevo un modelo de regresin que incluye al anterior, con el fin de obtener

    resultados ms generales. Se desea eliminar la restriccin que conlleva la linealidad en las

    variables dentro de la funcin H. Para ello se asume que la relacin entre la variable respuesta y las explicativas no responde al modelo anterior, sino que existen unas funciones

    1 2, , , INf f f desconocidas, de modo que

    [ ] ( ) ( ) ( )( )1 1 1 2 21 , ,I I I I

    N N N NY Y X X H a f x f x f xx x= = + + + += = " (1.52) siendo H una funcin conocida.

    Est claro que este modelo engloba al anterior, cuando las funciones son la identidad. Estos

    modelos reciben el nombre de Modelos Aditivos Generalizados (Hastie y Tibshirani, 1990,

    Wood, 2006). Si H es la identidad corresponde al caso de los Modelos Aditivos. En este modelo han de estimarse funciones adems de parmetros, lo que complica el proceso de forma

    notable con respecto a los modelos anteriores. Existe un mtodo iterativo para la estimacin

    de las funciones. Como reproducir este mtodo en redes neuronales no sera nada sencillo, la

    estrategia empleada ser construir NI subredes una para cada una de las funciones, que se desean estimar. Estas redes pueden presentar arquitecturas diferentes, con diferente nmero

    de nodos en la capa oculta (tendrn un nico nodo tanto en la de entrada como en la de

    1-28

  • 1. Una Revisin General

    salida), diferentes funciones de activacin, e incluso diferente nmero de capas ocultas.

    Segn qu red se emplee para esas estimaciones se tendrn distintos modelos, todos ellos con

    el objetivo de imitar los resultados de los modelos de regresin G.A.M. La figura 1.13 muestra

    el diseo de la red.

    1X

    INX

    iX

    1g

    ig

    INg

    o Y

    1

    ho01

    1

    1

    Figura 1.13. Red Neuronal para el Modelo Aditivo Generalizado

    La salida de la red ser:

    011

    INho

    ij

    o H g =

    = + (1.53) ( )i if XigLos se corresponden con la previsin que hara la red de ; luego las cajas han de

    representar subredes. Cada una de las subredes es una red en s misma, por lo que puede ser

    cualquiera de las vistas anteriormente. Como perceptrn, su diseo responder a un esquema

    como el que muestra la figura 1.6, pero con un nico nodo de entrada (Xi) y un nico nodo de salida. Para evitar problemas de especificacin se puede imponer mediante multiplicadores

    de Lagrange, que las variables transformadas que se obtienen de las subredes tengan media

    cero.

    En general el tratamiento que dispensa la red a lo