You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Понятие модели алгоритмов, алгоритм обучения, процесс оптимизации для конкретной задачи.
Переход от бинарной к многоклассовой.
Переобучение. Борьба с переобучением (начало).
Немного о типах задач машинного обучения: прикладные и исследовательские
Домашнее задание:
В задаче по переходу от бинарной классификации к многоклассовой добавить константу и скорректировать соответствующие разделяющие гиперплоскости.
Подсказка: в LogisticRegresion нужно добавить специальный параметр fit_intercept=False, чтобы внутри черного ящика своя константа не добавлялась(влияет на результат).
Линейные методы классификации и регрессии: метод стохастического градиента
Постановка задачи линейной регрессии через правдоподобие, вероятностные предположения о данных + регуляризаций.
Практическая часть:
Разбор домашнего задания.
Метод стохастического градиента на практике.
Использования torch framework для нахождения градиента сложной функции.
Вероятностная постановка задачи машинного обучения. Регуляризация l1, l2.
Анализ решения задачи оптимизации от параметра регуляризации.
Выбор параметра регуляризации при помощи LOO.
Домашнее задание:
Используя вероятностную постановку задачи для линейной регрессии с априорным предположением p(w) = N(0, I) получить аналитическое решение на оптимальный вектор параметров w.
Использовать метод Cross-Validation вместо метода LOO для выбора оптимального параметра регуляризации gamma.
Построение простой нейросетевой модели: многослойный персептрон.
Обучение персептрона на выборке MNIST.
Подбор гиперпараметров модели.
Прореживание сетей (без кода, только графики).
Домашнее задание:
Проделать то, что было на семинаре для выборки FashionMnist: подбор гиперпараметров модели (выполнить более подробно чем на семинаре), также провести анализ полученных результатов.
Указать какие минусы вы увидели в подборе гиперпараметров на семинаре (их как минимум 3).
Провести эксперимент с полиномиальным ядром: сгенерировать синтетическую выборку, на которой полиномиальное ядро имеет лучшее качество аппроксимации чем rbf и линейное ядро.
Многомерная линейная регрессия. Метод главных компонент
Регуляризация для многомерной регрессии: используя SVD.
Зависимость качества аппроксимации от числа обусловленности.
Метод главных компонент: визуализация MNIST.
Метод главных компонент: для изображений.
Домашнее задание:
Доказать лемму из семинара.
Для синтетически сгенерированной выборки (beta=2, mu=0.01) построить график зависимости качества аппроксимации контрольной выборки от коэффициента регуляризации. Сравнить скорость работы в случае использования SVD разложения и без него.
Нелинейная регрессия. Обобщенные линейные модели. Нестандартные функции потерь.
Использовать модель для векторизации предложений из семинара. На основе полученных векторов решить задачу сентимент анализа для выборки Twitter (задача бинарной классификации). В качестве модели рассмотреть логистическую регрессию. Рекомендуется использовать модель Perceptron с третьего семинара, а также функцию ошибки torch.nn.BCELoss. Ссылка на данные: https://drive.google.com/file/d/1k4JrnVcoePEENCYt5iy17dyV_h133j2X/view?usp=sharing (предложения для классификации это последний столбец, а целевая переменная это второй столбец).
Критерии выбора моделей и методы отбора признаков.
Рассматривается две выборки: выборка и выборка. Для обоих выборок построить AdaBoost, GradientBoosting, RandomForest, Bagging. Сравнить качество на обоих выборках. Отличается ли результат? Почему?