Оптимизатор Adam (Adaptive Moment Estimation) — один из самых популярных алгоритмов оптимизации в машинном обучении. Он сочетает в себе идеи Momentum и RMSProp, используя экспоненциально взвешенные скользящие средние градиентов и квадратов градиентов.
-
$g_t$ : градиент функции потерь на шаге$t$ , т.е.$\nabla_\theta J(\theta_t)$ -
$m_t$ : первая моментная оценка (среднее градиентов) -
$v_t$ : вторая моментная оценка (дисперсия градиентов) -
$\beta_1$ ,$\beta_2$ : коэффициенты экспоненциального сглаживания -
$\hat{m}_t$ ,$\hat{v}_t$ : скорректированные (bias-corrected) значения моментов -
$\alpha$ : шаг обучения (learning rate) -
$\epsilon$ : малая константа для избежания деления на ноль (обычно$\epsilon = 10^{-8}$ )
📌 Здесь
$m_t$ и$v_t$ — это экспоненциальные скользящие средние градиентов и квадратов градиентов соответственно.
🧠 Коррекция нужна, потому что в начале обучения (когда
$t$ мало),$m_t$ и$v_t$ смещены к нулю.
🚀 Это финальный шаг, который учитывает направление (через
$\hat{m}_t$ ) и масштаб (через$\sqrt{\hat{v}_t}$ ) градиента.
$\alpha = 0.001$ $\beta_1 = 0.9$ $\beta_2 = 0.999$ $\epsilon = 10^{-8}$