pytorch DataParrel多卡训练, clip_grad_norm_比单卡慢很多

pytorch DataParrel多卡训练, loss.backward()过后,clip_grad_norm_比单卡慢很多,发现是算grad.data.norm的时候耗时很多,有谁知道是什么原因吗?
已邀请:

要回复问题请先登录注册