Update keras-RL examples to use greedy policy in testing

DocVaughan · DocVaughan · commit 0277bb3bc33c · 2020-02-24T08:51:48.000-05:00
diff --git a/OpenAI Gym/openAI_massSpringContinuous_test.py b/OpenAI Gym/openAI_massSpringContinuous_test.py
@@ -105,7 +105,8 @@
 # even the metrics!
 memory = SequentialMemory(limit=2*NUM_STEPS, window_length=1)
 # random_process = OrnsteinUhlenbeckProcess(size=nb_actions, theta=.15, mu=0., sigma=.3)
-random_process = OrnsteinUhlenbeckProcess(size=nb_actions, dt = env.tau, theta=0.6, mu=0.0, sigma=0.5, sigma_min=0.15, n_steps_annealing=NUM_STEPS)
+# random_process = OrnsteinUhlenbeckProcess(size=nb_actions, dt = env.tau, theta=0.6, mu=0.0, sigma=0.5, sigma_min=0.15, n_steps_annealing=NUM_STEPS)
+random_process = None  # We should always do the best action in testing
 
 agent = DDPGAgent(nb_actions=nb_actions, actor=actor, critic=critic, critic_action_input=action_input,
                   memory=memory, nb_steps_warmup_critic=100, nb_steps_warmup_actor=100,
diff --git a/OpenAI Gym/openAI_planarCraneContinuous_test.py b/OpenAI Gym/openAI_planarCraneContinuous_test.py
@@ -105,7 +105,8 @@
 # even the metrics!
 memory = SequentialMemory(limit=2*NUM_STEPS, window_length=1)
 # random_process = OrnsteinUhlenbeckProcess(size=nb_actions, theta=.15, mu=0., sigma=.3)
-random_process = OrnsteinUhlenbeckProcess(size=nb_actions, dt = env.tau, theta=0.6, mu=0.0, sigma=0.5, sigma_min=0.15, n_steps_annealing=NUM_STEPS)
+# random_process = OrnsteinUhlenbeckProcess(size=nb_actions, dt = env.tau, theta=0.6, mu=0.0, sigma=0.5, sigma_min=0.15, n_steps_annealing=NUM_STEPS)
+random_process = None  # We should always do the best action in testing
 
 agent = DDPGAgent(nb_actions=nb_actions, actor=actor, critic=critic, critic_action_input=action_input,
                   memory=memory, nb_steps_warmup_critic=100, nb_steps_warmup_actor=100,
diff --git a/OpenAI Gym/openAI_planarCraneFeedback_test.py b/OpenAI Gym/openAI_planarCraneFeedback_test.py
@@ -92,8 +92,9 @@
 # even the metrics!
 memory = SequentialMemory(limit=NUM_STEPS, window_length=1)
 # train_policy = BoltzmannQPolicy(tau=0.05)
-test_policy = GreedyQPolicy()
 train_policy = EpsGreedyQPolicy()
+test_policy = GreedyQPolicy()
+
 
 if DUEL_DQN:
     dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, nb_steps_warmup=100,
diff --git a/OpenAI Gym/openAI_planarCraneFeedback_train.py b/OpenAI Gym/openAI_planarCraneFeedback_train.py
@@ -81,8 +81,8 @@
 memory = SequentialMemory(limit=NUM_STEPS, window_length=1)
 # train_policy = BoltzmannQPolicy(tau=0.05)
 train_policy = EpsGreedyQPolicy()
-test_policy = EpsGreedyQPolicy()
-# test_policy = GreedyQPolicy()
+#test_policy = EpsGreedyQPolicy()
+test_policy = GreedyQPolicy()
 
 if DUEL_DQN:
     dqn = DQNAgent(model=model, nb_actions=nb_actions, memory=memory, nb_steps_warmup=100,