Skip to content

Latest commit

 

History

History
66 lines (44 loc) · 4 KB

File metadata and controls

66 lines (44 loc) · 4 KB

Задание: Мини-система сбора и анализа данных

Цель

Создать простую end-to-end систему, которая генерирует данные, сохраняет их и позволяет анализировать через Redash и Jupyter Notebook.

Компоненты системы

1. Генератор данных (Python-скрипт)

Что делает:

  • Создаёт записи с заданной периодичностью (например, раз в секунду)
  • Генерирует данные со случайными, но реалистичными значениями
  • Записывает напрямую в базу данных

Минимальные требования:

  • Не менее 3 полей в записи (помимо id и timestamp)
  • Данные должны иметь смысл (не просто random числа)

2. База данных — PostgreSQL/MySQL(Percona, Maria)

Что хранит:

  • Все сгенерированные события
  • Минимум одна таблица с осмысленной структурой

3. Redash — дашборды и визуализации

Что нужно сделать:

  • Подключить Redash к PostgreSQL/MySQL
  • Создать минимум 3 визуализации (графики/таблицы)
  • Собрать их в один дашборд

4. Jupyter Notebook — исследовательский анализ

Что нужно сделать:

  • Подключиться к БД из ноутбука
  • Провести анализ данных с использованием pandas
  • Построить минимум 2 графика с выводами

Варианты предметных областей (выбрать одну)

Вариант Описание Примеры полей
1. Погодная станция Датчик отправляет показания температура, влажность, давление, скорость ветра
2. Интернет-магазин Поток заказов товар, категория, цена, количество, город
3. Фитнес-трекер Данные с устройства шаги, пульс, калории, тип активности
4. Игровая статистика События в игре игрок, действие, очки, уровень
5. Такси/доставка Поездки/заказы откуда, куда, расстояние, цена, рейтинг
6. Свой вариант Согласовать с преподавателем

Требования к реализации

Обязательно:

  • Данные должны быть осмысленными
  • Docker Compose — вся система запускается командой docker-compose up
  • Git-репозиторий — код на GitHub/GitLab с осмысленной историей коммитов (не один коммит!)
  • README.md — инструкция по запуску и описание проекта
  • Генератор работает автоматически при запуске контейнеров
  • В Redash создан дашборд с 3+ визуализациями
  • Notebook с анализом данных (файл .ipynb в репозитории). Ноутбук может использовать заранее выгруженные данные из БД, либо должен делать запросы в БД в рамках своей работы.