ppo中出现NAN #187

xxx-007 · 2020-11-09T07:55:54Z

你好，莫烦老师，我在运行simple_ppo算法中，，根据当前状态选择一个动作 a=self.sess.run(self.sample_op,{self.tfs:s})[0]，，选择出来的动作为nan，，我应该如何修改，才能在运行代码过程中不在出现nan值，

xxx-007 · 2020-11-09T07:59:11Z

init 函数中下面这行代码应该在分母加上epsilon，防止出现nan
ratio = self.pi.prob(self.tfa) / self.old_pi.prob(self.tfa)
也就是改为如下代码
ratio = self.pi.prob(self.tfa) / (self.old_pi.prob(self.tfa)+EPS)

采取这个建议，修改之后仍然出现nan

wagh311 · 2024-03-08T04:03:34Z

请问你最终解决这个问题了吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ppo中出现NAN #187

ppo中出现NAN #187

xxx-007 commented Nov 9, 2020

xxx-007 commented Nov 9, 2020

wagh311 commented Mar 8, 2024

ppo中出现NAN #187

ppo中出现NAN #187

Comments

xxx-007 commented Nov 9, 2020

xxx-007 commented Nov 9, 2020

wagh311 commented Mar 8, 2024