Skip to content

falatfernando/mtbc_tree

Repository files navigation

Pipeline completa de bioinformática para Mycobaterium spp.

Esse repositório armazena toda a arquitetura necessária para replicação do exercício de Biologia Molecular Computacional da Universidade de São Paulo.

O exercício em questão é a replicação das análises do artigo "Step-by-Step Bacterial Genome Comparison" de Dennis Carhuaricra-Hauman e João Carlos Setubal publicado na revista Nature em 2024.

Repositório e entrega desenvolvidos por Fernando Falat Rangel em 2025 em Ubuntu 22.04 LTS.

CLI

Uso e Instação

O repositório foi construído de uma forma onde todos os comandos devem ser executados no root. Para instalar as ferramentas necessárias um arquivo para cada ambiente virtual necessário encontra-se na pasta venvs (venv_*.yml).

Clonando o Repositório

Para obter o repositório, basta clonar utilizando o comando:

git clone https://github.com/falatfernando/mtbc_tree.git

Instalando dependencias e virutal envs

Antes de iniciar qualquer etapa do pipeline, as dependências dos softwares utilizados devem ser instaladas e os bash scripts terem a permissão de serem executados. Para isso, primeiro, dentro do root do repositório, execute o comando:

chmod +x *.sh

Isso dará a permissão a todos os arquivos .sh serem executados no seu ambiente Linux.

Em seguida, tenha certeza que possuí alguma versão do conda instalada e crie os ambientes virtuais utilizando a Command Line Interface (CLI):

  1. Utilizando a CLI e selecionando a opção 1 para instalação automática:
bash mtbc_tree_cli.sh
  1. Rodando manualmente a instalação de cada venv na pasta venv:
conda env create -f venv_*.yml

Esse comando criará em seu ambiente linux, dentro da instalção local do conda, as libs necessárias para rodar cada etapa do pipeline.

Rodando análises

Para executar a pipeline e obter os arquivos necessários também há a opção automatizada na CLI com a opção 2.

bash mtbc_tree_cli.sh

Se preferir, também se pode executar cada etapa manualente seguindo a ordem lógica:

  1. ativar o ambiente conda
  2. executar o arquivo .sh respectivo
  3. desativar o ambiente conda
  4. repetir

De acordo com a metodologia de Setubal e Carhuaricra-Huaman a ordem das análises é:

  1. Prokka
  2. Panaroo
  3. Philogeny
  4. Ppanggolin
  5. Análise de genes de resistência
  6. Análise de Virulência

Perceba que a análise de genes de resistência foi completamente alterada para refletir a realidade que temos hoje com TB. O pipeline utiliza o ART Illuimina para simular reads e as utiliza como input para o Mykrobe prever a resistência. Nota: hoje existem pipelines mais robustos e completos, como o BrSeqTB, que fazem a predição de resistência a mais drogas e com um catálogo de referência da World Health Organization atualizado. Vale a pena checar se o seu objetivo for esse!

A finalidade do pipeline foi apenas automatizar a geração de dados para interpretação biológica e criação de imagens. Todas as imagens existentes do artigo possuem um script em R disponível correspondente que não estão contidos nesta pipeline.


Fernando.

About

Linux CLI pipeline for MTBC complex genomic data analysis.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors