Skip to content

Latest commit

 

History

History
65 lines (47 loc) · 1.48 KB

File metadata and controls

65 lines (47 loc) · 1.48 KB

DataRadar — Setup Completo

1. Variáveis de Ambiente

Copie o template e preencha:

cp .env.example .env
Variável Descrição Obrigatória
AWS_ACCESS_KEY_ID Chave de acesso AWS Só para S3
AWS_SECRET_ACCESS_KEY Secret key AWS Só para S3
AWS_DEFAULT_REGION Região AWS Só para S3
DEVRADAR_S3_BUCKET Nome do bucket S3 Só para S3

2. Airflow (Docker)

cd airflow
docker compose up -d
  • Acesse: http://localhost:8080
  • Login: admin / admin
  • DAGs disponíveis:
    • devradar_reddit_ingestion_local — trigger manual, parametrizável
    • devradar_reddit_scheduled — execução horária automática

3. API + Dashboard

cd app
pip install -r requirements.txt
uvicorn main:app --reload --port 8000

Sem variáveis DATABRICKS_*, o endpoint de pipeline usa fallback em memória a partir do Bronze local; com elas, a API consulta o SQL Warehouse. Os notebooks PySpark rodam no Databricks, não via uvicorn — ver databricks/README.md.

4. Testes

pip install pytest ruff
pytest tests/ -v

5. Lint

ruff check .

6. Utilitários

# Trigger manual da DAG
python scripts/trigger_dag.py dataengineering python rust

# Teste de upload S3 (requer variáveis de ambiente configuradas)
python scripts/test_s3_upload.py