Skip to content

Latest commit

 

History

History
57 lines (37 loc) · 2.37 KB

File metadata and controls

57 lines (37 loc) · 2.37 KB

Оптимизатор Adam (Adaptive Moment Estimation) — один из самых популярных алгоритмов оптимизации в машинном обучении. Он сочетает в себе идеи Momentum и RMSProp, используя экспоненциально взвешенные скользящие средние градиентов и квадратов градиентов.

🔍 Обозначения:

  • $g_t$: градиент функции потерь на шаге $t$, т.е. $\nabla_\theta J(\theta_t)$
  • $m_t$: первая моментная оценка (среднее градиентов)
  • $v_t$: вторая моментная оценка (дисперсия градиентов)
  • $\beta_1$, $\beta_2$: коэффициенты экспоненциального сглаживания
  • $\hat{m}_t$, $\hat{v}_t$: скорректированные (bias-corrected) значения моментов
  • $\alpha$: шаг обучения (learning rate)
  • $\epsilon$: малая константа для избежания деления на ноль (обычно $\epsilon = 10^{-8}$)

🧮 Формулы Adam:

1. Обновление моментов:

$$ m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t $$

$$ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 $$

📌 Здесь $m_t$ и $v_t$ — это экспоненциальные скользящие средние градиентов и квадратов градиентов соответственно.


2. Коррекция смещения (bias correction):

$$ \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} $$

🧠 Коррекция нужна, потому что в начале обучения (когда $t$ мало), $m_t$ и $v_t$ смещены к нулю.


3. Обновление параметров:

$$ \theta_{t+1} = \theta_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} $$

🚀 Это финальный шаг, который учитывает направление (через $\hat{m}_t$) и масштаб (через $\sqrt{\hat{v}_t}$) градиента.


🔧 Типичные значения гиперпараметров:

  • $\alpha = 0.001$
  • $\beta_1 = 0.9$
  • $\beta_2 = 0.999$
  • $\epsilon = 10^{-8}$