Учебный проект: классификация токсичности русскоязычных текстов.
Автор: Русанов Дмитрий Сергеевич
- Установка зависимостей:
pip install -r requirements.txt- Подготовка данных (скачивание HF-датасетов и объединение):
python scripts\download_hf_datasets.py --outdir data\hf_raw
python scripts\prepare_combined.py --input data\hf_raw --out data\ru_toxic\combined.csv- Обучение baseline и получение OOF-предсказаний:
python scripts\train_baseline.py --input data\ru_toxic\combined.csv \
--oof_out data\ru_toxic\combined_oof_full.csv \
--model_out models\calibrated_model_full.joblib- Оценка модели на отдельном CSV (пример):
python scripts\evaluate_model.py models\calibrated_model_full.joblib data\ru_toxic\sample_small.csv- Запуск Telegram-бота (локально, polling):
python bot\telegram_bot.py --token "<TG-TOKEN>" --model models\calibrated_model_full.joblib- Данные:
data/ru_toxic/combined.csv,data/ru_toxic/combined_oof_full.csv - Модели:
models/calibrated_model_full.joblib - Скрипты:
scripts/(download, prepare, train, evaluate, run_full_pipeline) - Телеграм-бот:
bot/telegram_bot.py - Анализ:
notebooks/analysis.ipynb