11

Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym Sung Kim <[email protected]>

Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Download PDF Report

Upload
vutuyen
View
227
Download
0

Embed Size (px)

Citation preview

Page 1: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Lab 5: Windy Frozen LakeNondeterministic world!

Reinforcement Learning with TensorFlow&OpenAI GymSung Kim <[email protected]>

Page 2: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Deterministic

Page 3: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Stochastic (non-deterministic)

Page 4: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Q-learning algorithm for deterministic

Page 5: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Our previous Q-learning does not work

Score over time: 0.0165

Page 6: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Q-learning algorithm

Q(s, a) (1� ↵)Q(s, a) + ↵[r + �max

a0Q(s0, a0)]

Page 7: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Q-learning algorithm

Q(s, a) (1� ↵)Q(s, a) + ↵[r + �max

a0Q(s0, a0)]

Page 8: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Code: Setup

Page 9: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Code: Q-learning

Q(s, a) (1� ↵)Q(s, a) + ↵[r + �max

a0Q(s0, a0)]

Page 10: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Code: Report results

Score over time: 0.653

Page 11: Lab 5: Windy Frozen Lake Nondeterministic world! · Lab 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI Gym ... Score over time: 0.0165

Next

(Deep) Q-Network

with TensorFlow!

Automata with Modulo Counters and Nondeterministic Counter

Automata with Modulo Counters and Nondeterministic Counter

Documents

Documents

Nondeterministic Programming in Java with JSetL

Nondeterministic Programming in Java with JSetL

Documents

Documents

03a Nondeterministic Finite Accepters

03a Nondeterministic Finite Accepters

Documents

Paper: Nondeterministic Events in Business Processes

Paper: Nondeterministic Events in Business Processes

Technology

Lecture 5: Windy Frozen Lake Nondeterministic world!hunkim.github.io/ml/RL/rl05.pdf · Lecture 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI

Lecture 5: Windy Frozen Lake Nondeterministic world!hunkim.github.io/ml/RL/rl05.pdf · Lecture 5: Windy Frozen Lake Nondeterministic world! Reinforcement Learning with TensorFlow&OpenAI

Documents

Lecture Four: Nondeterministic Finite Automata

Lecture Four: Nondeterministic Finite Automata

Documents

Nondeterministic Impact of CPU Multithreading on Training

Nondeterministic Impact of CPU Multithreading on Training

Documents

Constant-Delay Enumeration for Nondeterministic Document ... · Constant-Delay Enumeration for Nondeterministic Document Spanners Antoine Amarilli1, Pierre Bourhis2, Stefan Mengel3,

Constant-Delay Enumeration for Nondeterministic Document ... · Constant-Delay Enumeration for Nondeterministic Document Spanners Antoine Amarilli1, Pierre Bourhis2, Stefan Mengel3,

Documents

Nondeterministic exponential time has two-prover

Nondeterministic exponential time has two-prover

Documents

Lecture 6 Nondeterministic Finite Automata (NFA)

Lecture 6 Nondeterministic Finite Automata (NFA)

Documents

raining windy cloudy snowing raining windy cloudysunny snowing

raining windy cloudy snowing raining windy cloudysunny snowing

Documents

Forward Bisimulations for Nondeterministic Symbolic Finite ... · Forward Bisimulations for Nondeterministic Symbolic Finite Automata Loris D’Antoni1 and Margus Veanes2 1 University

Forward Bisimulations for Nondeterministic Symbolic Finite ... · Forward Bisimulations for Nondeterministic Symbolic Finite Automata Loris D’Antoni1 and Margus Veanes2 1 University

Documents

Nondeterministic Finite Automat

Nondeterministic Finite Automat

Technology

1 Basics of automata theory Nondeterministic Finite Automata (NFA) Nondeterministic Finite Automata on infinite words (NFW)

1 Basics of automata theory Nondeterministic Finite Automata (NFA) Nondeterministic Finite Automata on infinite words (NFW)

Documents

Learning Nondeterministic Classiï¬ers - Journal of Machine

Learning Nondeterministic Classiï¬ers - Journal of Machine

Documents

Verifying Nondeterministic Implementations of Deterministic

Verifying Nondeterministic Implementations of Deterministic

Documents

Nondeterministic Operators in Algebraic Frameworks

Nondeterministic Operators in Algebraic Frameworks

Documents

Learning Nondeterministic Mealy Machinesproceedings.mlr.press/v34/khalili14a.pdf · Learning Nondeterministic Mealy Machines ... a2 are the words obtained by pre xing and post xing

Learning Nondeterministic Mealy Machinesproceedings.mlr.press/v34/khalili14a.pdf · Learning Nondeterministic Mealy Machines ... a2 are the words obtained by pre xing and post xing

Documents

Chapter 05. Nondeterministic Automata

Chapter 05. Nondeterministic Automata

Documents

Nondeterministic Finite Automata

Nondeterministic Finite Automata

Documents

Nondeterministic stack register machines* P. CloteQ - Bioinformatics

Nondeterministic stack register machines* P. CloteQ - Bioinformatics

Documents

Lecture 5: Windy Frozen Lake Nondeterministic world! · 2017-10-02 · Deterministic VS Stochastic (nondeterministic) •In deterministic models the output of the model is fully determined

Lecture 5: Windy Frozen Lake Nondeterministic world! · 2017-10-02 · Deterministic VS Stochastic (nondeterministic) •In deterministic models the output of the model is fully determined

Documents

Lecture 6 Nondeterministic Finite Automata (NFA)

Lecture 6 Nondeterministic Finite Automata (NFA)

Documents

Presentation: Nondeterministic events in business processes

Presentation: Nondeterministic events in business processes

Business

1 Nondeterministic Finite Automata Nondeterminism Subset Construction

1 Nondeterministic Finite Automata Nondeterminism Subset Construction

Documents

Nondeterministic Finite State Automata

Nondeterministic Finite State Automata

Documents

Learning in Networks of Nondeterministic Adaptive Logic ... · LEARNING IN NETWORKS OF NONDETERMINISTIC ADAPTIVE LOGIC ... number of logical input channels, ... Networks of Nondeterministic

Learning in Networks of Nondeterministic Adaptive Logic ... · LEARNING IN NETWORKS OF NONDETERMINISTIC ADAPTIVE LOGIC ... number of logical input channels, ... Networks of Nondeterministic

Documents

using Deterministic Finite Automata Nondeterministic Finite Automata

using Deterministic Finite Automata Nondeterministic Finite Automata

Documents