Skip to content

DimaRus05/hseMLproject2025

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект: Оценка токсичности сообщений

Учебный проект: классификация токсичности русскоязычных текстов.

Автор: Русанов Дмитрий Сергеевич

Запуск

  1. Установка зависимостей:
pip install -r requirements.txt
  1. Подготовка данных (скачивание HF-датасетов и объединение):
python scripts\download_hf_datasets.py --outdir data\hf_raw
python scripts\prepare_combined.py --input data\hf_raw --out data\ru_toxic\combined.csv
  1. Обучение baseline и получение OOF-предсказаний:
python scripts\train_baseline.py --input data\ru_toxic\combined.csv \
	--oof_out data\ru_toxic\combined_oof_full.csv \
	--model_out models\calibrated_model_full.joblib
  1. Оценка модели на отдельном CSV (пример):
python scripts\evaluate_model.py models\calibrated_model_full.joblib data\ru_toxic\sample_small.csv
  1. Запуск Telegram-бота (локально, polling):
python bot\telegram_bot.py --token "<TG-TOKEN>" --model models\calibrated_model_full.joblib

Структура и важные пути

  • Данные: data/ru_toxic/combined.csv, data/ru_toxic/combined_oof_full.csv
  • Модели: models/calibrated_model_full.joblib
  • Скрипты: scripts/ (download, prepare, train, evaluate, run_full_pipeline)
  • Телеграм-бот: bot/telegram_bot.py
  • Анализ: notebooks/analysis.ipynb

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors