GetBioData/README at main · badiaclara/GetBioData · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
GetBioData 🌿

Badia, C. (2026). GetBioData: Ferramenta para Coleta e Padronização de Dados de Biodiversidade (v0.1.4). Zenodo. https://doi.org/10.5281/zenodo.18329581

GetBioData é um pacote em R desenvolvido para automatizar a captura, padronização e limpeza de dados de ocorrência de espécies a partir das bases GBIF e speciesLink.

O pacote resolve o problema comum de lidar com centenas de colunas desnecessárias e registros duplicados entre diferentes plataformas, entregando um conjunto de dados enxuto e pronto para análise.
🚀 Funcionalidades

    Download Simétrico: Captura dados do GBIF e speciesLink com nomes de colunas harmonizados.

    Seleção Essencial: Filtra automaticamente as 16 colunas fundamentais para biogeografia (Taxonomia, Coordenadas, Coletor, Data e Determinação).

    Deduplicação Hierárquica: Identifica duplicatas comparando IDs de catálogo, IDs de ocorrência, eventos de coleta e proximidade espacial.

    Auditoria Total: Gera arquivos LABEL (para conferência e identificação das duplicatas) e KILL (dados finais limpos, com duplicatas removidas).

📦 Instalação
R

# Instale via devtools
if (!require("devtools")) install.packages("devtools")
devtools::install_github("seu-usuario/GetBioData")

🛠️ Como usar

O workflow principal consolida todo o processo em um único comando:
R

library(GetBioData)

# 1. Configure sua chave do speciesLink (opcional)
Sys.setenv(SPLINK_API_KEY = "sua_chave_aqui")     ----> Importante: o usuário deve cadastrar-se no site do splink e gerar sua chave API, pessoal e intransferível. A análise não vai rodar sem a chave.

# 2. Coleta e União (As 16 colunas)
df <- run_workflow("Araucaria angustifolia")

# Se o usuário quiser fazer o passo-a-passo manual:
g <- get_gbif("Araucaria angustifolia")
s <- get_splink("Araucaria angustifolia")

total <- bind_biodata(g, s) |>
         dedup_label() |>
         kill_dedup()

# Resultado: 16 colunas, registros únicos, pronto para análise!

# Se quiser rodar com mais de uma espécie:
# Criar a lista com nomes corretos e sem underscore ("_")
minhas_especies <- c("Araucaria angustifolia", "Cedrela fissilis")

# Rodando o workflow para todas de uma vez
# O pacote vai criar dois arquivos Excel para cada espécie na lista!
df <- run_workflow(minhas_especies)


📂 Entendendo os Resultados

Para cada espécie, o GetBioData exporta:

    GetBioData_Dedup_LABELED_especie.xlsx: Contém todos os dados originais + colunas DUP_GROUP e DUP_CRITERIA. Use este arquivo para auditar por que um registro foi considerado duplicata.

    GetBioData_Dedup_KILLED_especie.xlsx: Arquivo final contendo apenas os registros únicos. Ideal para Modelagem de Distribuição de Espécies (SDM).

📊 Colunas Padronizadas (Standard 16)

O pacote reduz a complexidade das bases originais para este conjunto essencial:

Categoria	Colunas

Taxonomia	ESPÉCIE, FAMÍLIA, GÊNERO
Espaço		LATITUDE, LONGITUDE, PAÍS, ESTADO, MUNICÍPIO
Coleta		COLETOR, DATA_COLETA
Curadoria	DETERMINADOR, DATA_DETERMINACAO
Registros	CATÁLOGO, INSTITUIÇÃO, OCCURRENCE_ID, FONTE

📄 Licença

Este projeto está sob a licença MIT.


Divirta-se :)
Clara Badia