Проект: Оценка токсичности сообщений

Учебный проект: классификация токсичности русскоязычных текстов.

Автор: Русанов Дмитрий Сергеевич

Запуск

Установка зависимостей:

pip install -r requirements.txt

Подготовка данных (скачивание HF-датасетов и объединение):

python scripts\download_hf_datasets.py --outdir data\hf_raw
python scripts\prepare_combined.py --input data\hf_raw --out data\ru_toxic\combined.csv

Обучение baseline и получение OOF-предсказаний:

python scripts\train_baseline.py --input data\ru_toxic\combined.csv \
	--oof_out data\ru_toxic\combined_oof_full.csv \
	--model_out models\calibrated_model_full.joblib

Оценка модели на отдельном CSV (пример):

python scripts\evaluate_model.py models\calibrated_model_full.joblib data\ru_toxic\sample_small.csv

Запуск Telegram-бота (локально, polling):

python bot\telegram_bot.py --token "<TG-TOKEN>" --model models\calibrated_model_full.joblib

Структура и важные пути

Данные: data/ru_toxic/combined.csv, data/ru_toxic/combined_oof_full.csv
Модели: models/calibrated_model_full.joblib
Скрипты: scripts/ (download, prepare, train, evaluate, run_full_pipeline)
Телеграм-бот: bot/telegram_bot.py
Анализ: notebooks/analysis.ipynb

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
app		app
bot		bot
notebooks		notebooks
scripts		scripts
.gitignore		.gitignore
PRESENTATION.pdf		PRESENTATION.pdf
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Проект: Оценка токсичности сообщений

Запуск

Структура и важные пути

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Проект: Оценка токсичности сообщений

Запуск

Структура и важные пути

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages