Adamax是Adam的一种变体,此方法对学习率的上限提供了一个更简单的范围。公式上的变化如下:

$$nt=max(\nu*n{t-1},|g_t|)$$

$$\Delta{x}=-\frac{\hat{m_t}}{n_t+\epsilon}*\eta$$

可以看出,Adamax学习率的边界范围更简单

results matching ""

    No results matching ""