Nadam类似于带有Nesterov动量项的Adam。公式如下：

$$\hat{gt}=\frac{g_t}{1-\Pi{i=1}^t\mu_i}$$

$$mt=\mu_t*m{t-1}+(1-\mu_t)*g_t$$

$$\hat{mt}=\frac{m_t}{1-\Pi{i=1}^{t+1}\mu_i}$$

$$nt=\nu*n{t-1}+(1-\nu)*g_t^2$$

$$\hat{nt}=\frac{n_t}{1-\nu^t}\bar{m_t}=(1-\mu_t)*\hat{g_t}+\mu{t+1}*\hat{m_t}$$

$$\Delta{\theta_t}=-\eta*\frac{\bar{m_t}}{\sqrt{\hat{n_t}}+\epsilon}$$

可以看出，Nadam对学习率有了更强的约束，同时对梯度的更新也有更直接的影响。一般而言，在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

Nadam

results matching ""