GitHub - NeveIA/NeveCascade: Neve Cascade 90M é uma LLM ultraleve e autoral, com pipeline profissional de fine-tuning, quantização e exportação. O repositório inclui scripts, configs, notebooks e documentação para reprodutibilidade total.

O Neve Cascade 90M é um modelo de linguagem de grande porte (LLM) projetado para máxima eficiência, portabilidade e acessibilidade. Com apenas 90 milhões de parâmetros, é ideal para aplicações locais, prototipagem e pesquisa, rodando em qualquer PC sem GPU dedicada.

Autoria

Desenvolvido e finetunado por mim, utilizando pipeline proprietário, curadoria rigorosa de dados e técnicas de SOTA em NLP.

Destaques

90M parâmetros, footprint < 350MB (quantizado)
Inferência em CPU comum (<1GB RAM)
Pipeline SOTA: QLoRA, PEFT, data augmentation, validação cruzada
Dataset curado, balanceado e limpo
Scripts para quantização, exportação ONNX, logging avançado
Benchmarks e ablation studies transparentes
Totalmente open source e de autoria própria

Pipeline e Metodologia

Pré-processamento Avançado: Limpeza, normalização, deduplicação, filtragem de toxicidade e balanceamento de domínios.
Data Augmentation: Paraphrase generation, back-translation, noising controlado.
Finetuning Progressivo: Estratégia multi-stage, validação cruzada estratificada, early stopping, checkpointing inteligente.
Otimização de Arquitetura: Ajustes em camadas, inicialização de pesos, quantização pós-treinamento, exportação ONNX.
Treinamento Distribuído: Suporte a multi-GPU/CPU, mixed precision training.

Resultados e Benchmarks

Perplexity: 18.2 (validação)
BLEU: 0.31
Rouge-L: 0.42
Tamanho final: ~350MB (quantizado)
Execução: <1GB RAM, CPU comum

Estrutura do Projeto

src/ — Código do modelo
data/ — Scripts e dados de pré-processamento
scripts/ — Treinamento, avaliação, quantização, exportação
docs/ — Documentação técnica, experimentos, pipeline
notebooks/ — EDA, exemplos de inferência
configs/ — Configurações YAML para experimentos
tests/ — Testes unitários

Pipeline Profissional

Veja docs/TRAINING_PIPELINE.md para detalhes do pipeline avançado de treinamento, incluindo data augmentation, validação cruzada, quantização e exportação.

Experimentos e Resultados

Resultados, ablation studies e benchmarks em docs/EXPERIMENTS.md e EVALUATION.md.

Instalação e Uso

pip install -r requirements.txt

Veja docs/USAGE.md para exemplos de inferência, exportação e quantização.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Autoria

Destaques

Pipeline e Metodologia

Resultados e Benchmarks

Estrutura do Projeto

Pipeline Profissional

Experimentos e Resultados

Instalação e Uso

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
configs		configs
data		data
docs		docs
model		model
notebooks		notebooks
scripts		scripts
src		src
tests		tests
.gitignore		.gitignore
ARQUITETURA.md		ARQUITETURA.md
CHANGELOG.md		CHANGELOG.md
CONTRIBUTING.md		CONTRIBUTING.md
DATASET.md		DATASET.md
EVALUATION.md		EVALUATION.md
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Autoria

Destaques

Pipeline e Metodologia

Resultados e Benchmarks

Estrutura do Projeto

Pipeline Profissional

Experimentos e Resultados

Instalação e Uso

About

Resources

License

Contributing

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages