Projeto de arquitetura serverless e orientada a eventos para data lakes na AWS — escalável, de baixo custo e pronta para produção. Desenvolvido para o programa Data Master da F1rst/Santander.
Este projeto tem como objetivo construir uma solução completa de engenharia de dados baseada em nuvem, utilizando arquitetura serverless, modular e orientada a eventos. A proposta simula um domínio real de dados e entrega uma estrutura preparada para:
- Ingestão de dados nos modos
streamingebatch - Processamento em múltiplas camadas:
raw,bronze,silver,gold - Organização e catalogação automatizada com
GlueeIceberg - Transformações otimizadas com
Lambda,ECSeEMR Serverless - Orquestração de pipelines com
Step FunctionseEventBridge - Governança de dados com
Lake Formation, controle de acesso e mascaramento automático de PII comComprehend - Visualização por meio de dashboards analíticos e operacionais com
Grafana - Execução
end-to-endtotalmente automatizada, da ingestão até os dashboards
A documentação completa está disponível na pasta
docs/
- 01. Apresentação do Case
- 02. Modelo de Dados
- 03. Camadas do Data Lake (Medallion Architecture)
- 04. Visão Geral da Arquitetura
- 05. Componentização da Arquitetura por Stacks
- 06. Trade-offs e Decisões de Arquitetura
- 07. Pré-Requisitos
- 08. Instalação do Data Master CLI
- 09. Utilização do Data Master CLI
- 10. Referência Técnica do Projeto
- 11. Provisionamento do Ambiente
- 12. Ingestão de Dados (Bronze)
- 13. Processamento de Dados (Silver)
- 14. Geração de Dados Analíticos (Gold)
- 15. DataViz e Observabilidade
- 16. Governança e Segurança de Dados
- 17. Roadmap Técnico e Melhorias Futuras
- 18. Considerações Finais
