DQN 不收敛

参照 官网   reinforcement_q_learning  教程写的代码:

state 直接用了 observation, 模型直接用了 MLP,

用loss = F.smooth_l1_loss{ loss_fn = nn.SmoothL1Loss()} 小车一直往一个方向跑,

用 loss_fn = nn.MSELoss() 会好一些, 是什么原因?
已邀请:

要回复问题请先登录注册