numeric-methods/lab5_ADAM.md at main · ark2016/numeric-methods

Оптимизатор Adam (Adaptive Moment Estimation) — один из самых популярных алгоритмов оптимизации в машинном обучении. Он сочетает в себе идеи Momentum и RMSProp, используя экспоненциально взвешенные скользящие средние градиентов и квадратов градиентов.

🔍 Обозначения:

$g_t$: градиент функции потерь на шаге $t$, т.е. $\nabla_\theta J(\theta_t)$
$m_t$: первая моментная оценка (среднее градиентов)
$v_t$: вторая моментная оценка (дисперсия градиентов)
$\beta_1$, $\beta_2$: коэффициенты экспоненциального сглаживания
$\hat{m}_t$, $\hat{v}_t$: скорректированные (bias-corrected) значения моментов
$\alpha$: шаг обучения (learning rate)
$\epsilon$: малая константа для избежания деления на ноль (обычно $\epsilon = 10^{-8}$)

🧮 Формулы Adam:

1. Обновление моментов:

$$ m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t $$

$$ v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2 $$

📌 Здесь $m_t$ и $v_t$ — это экспоненциальные скользящие средние градиентов и квадратов градиентов соответственно.

2. Коррекция смещения (bias correction):

$$ \hat{m}_t = \frac{m_t}{1 - \beta_1^t}, \quad \hat{v}_t = \frac{v_t}{1 - \beta_2^t} $$

🧠 Коррекция нужна, потому что в начале обучения (когда $t$ мало), $m_t$ и $v_t$ смещены к нулю.

3. Обновление параметров:

$$ \theta_{t+1} = \theta_t - \alpha \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} $$

🚀 Это финальный шаг, который учитывает направление (через $\hat{m}_t$) и масштаб (через $\sqrt{\hat{v}_t}$) градиента.

🔧 Типичные значения гиперпараметров:

$\alpha = 0.001$
$\beta_1 = 0.9$
$\beta_2 = 0.999$
$\epsilon = 10^{-8}$

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

🔍 Обозначения:

🧮 Формулы Adam:

1. Обновление моментов:

2. Коррекция смещения (bias correction):

3. Обновление параметров:

🔧 Типичные значения гиперпараметров:

FilesExpand file tree

lab5_ADAM.md

Latest commit

History

lab5_ADAM.md

File metadata and controls

🔍 Обозначения:

🧮 Формулы Adam:

1. Обновление моментов:

2. Коррекция смещения (bias correction):

3. Обновление параметров:

🔧 Типичные значения гиперпараметров: