View
1.216
Download
3
Category
Preview:
DESCRIPTION
Una pequeña descripción de lo ques Aprendizaje Refuerzo
Citation preview
Universidad Técnica Universidad Técnica particular de Lojaparticular de Loja
Aprendizaje por RefuerzoAprendizaje por Refuerzo
Por: Alexandra Cueva E.
IntroducciónIntroducciónEl aprendizaje por refuerzo consiste en
aprender a decidir ante una situación predeterminada que acción es la más adecuada para lograr el objetivo.
Figura 1
1
Oficina
Camino Dañado
Camino libre
IntroducciónIntroducción
Se utiliza los procesos de decisión de Markov que establece un marco matemático en el que se basa el aprendizaje por refuerzo.
Aprendizaje por RefuerzoAprendizaje por RefuerzoUn agente H/S está conectado a su entorno vía
percepción y acción. En donde el agente recibe a través de sensores el estado en que se encuentra s, y el agente decide ejecutar la acción a, que genera una salida que cambia el estado del entorno s’, transmitiendo una señal de refuerzo r.
Figura 2EntornoT(s,a)R(s,a)
Agenteπ (s)
a
r
s’
r
s
Aprendizaje por RefuerzoAprendizaje por RefuerzoSe tienen que:Π = Elige la acción que incrementa la
suma de todas las señales de aprendizaje recibidas.
S = Conjunto de estados.A = Conjunto de acciones.R = Calcula el esfuerzo que recibe el
agente.T= Transiciones de estado.
Proceso de decisión de Proceso de decisión de MarkovMarkovNos dice que no importa las acciones
que se hayan llevado a cabo para alcanzar el estado actual, ya que el estado actual es suficiente para decidir cuales son las acciones futuras.
Ejemplo de proceso markoviano sería el juego del tres en raya en el que la decisión de mover una determinada ficha, sólo depende de la configuración actual del tablero (estado) y no del conjunto de movimientos anteriores que he realizado.
Proceso de decisión de Proceso de decisión de MarkovMarkovLa importancia de la propiedad de
Markov para los problemas de aprendizaje por refuerzo, es que no importa el camino que se a tomado para llegar al estado actual, si no que solo se rige al estado en que se encuentra para tomar una decisión.
Proceso de Decisión de Proceso de Decisión de MarkovMarkov
Proceso de Markov finito .-Si el número de estados y acciones definidas en un modelo son finitos.
Figura 3
a1=0,1
a2=1
a1=0,9
a1=0,9
a3=0,5
a2=1
a3=0,
5
a1=0,
1meta
Proceso de Decisión de Proceso de Decisión de MarkovMarkovLa figura 3 se muestra una ilustración
de un MPD.
En donde los círculos representan estados es estado sombreado es la meta. Las flechas entre los estados representan una probabilidad de transición a cada uno de los estados cuando se ejecuta una acción
Descomposición de las Descomposición de las cadenas de Markovcadenas de MarkovDadas dos clases comunicantes en una
cadena de Markov, o bien son iguales, o bien son disjuntas.
Se puede escribir una cadena de Markov como la unión de una serie de clases comunicantes no coherentes.
Descomposición de las Descomposición de las cadenas de Markovcadenas de MarkovHay que tener cuidado con los
conjuntos de estados cerrados, es decir, aquellos en los que desde ningún estado interno al conjunto es accesible ningún estado externo.
Cadena de Markov irreducible: si todos los pares de estados de la cadena se comunican, por tanto la cadena estará formada exactamente por una sola clase comunicante.
BibliografíaBibliografíaAprendizaje por Refuerzo en
Tablas Disponible en WWW: http://www.cs.us.es/~delia/sia/html98-99/pag-alumnos/web10/indice.html.
Aprendizaje Automático conceptos básicos y avanzados. Autor: Basilio Sierra Araujo.
Recommended