-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathREADME
More file actions
85 lines (51 loc) · 3.2 KB
/
README
File metadata and controls
85 lines (51 loc) · 3.2 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
GetBioData 🌿
Badia, C. (2026). GetBioData: Ferramenta para Coleta e Padronização de Dados de Biodiversidade (v0.1.4). Zenodo. https://doi.org/10.5281/zenodo.18329581
GetBioData é um pacote em R desenvolvido para automatizar a captura, padronização e limpeza de dados de ocorrência de espécies a partir das bases GBIF e speciesLink.
O pacote resolve o problema comum de lidar com centenas de colunas desnecessárias e registros duplicados entre diferentes plataformas, entregando um conjunto de dados enxuto e pronto para análise.
🚀 Funcionalidades
Download Simétrico: Captura dados do GBIF e speciesLink com nomes de colunas harmonizados.
Seleção Essencial: Filtra automaticamente as 16 colunas fundamentais para biogeografia (Taxonomia, Coordenadas, Coletor, Data e Determinação).
Deduplicação Hierárquica: Identifica duplicatas comparando IDs de catálogo, IDs de ocorrência, eventos de coleta e proximidade espacial.
Auditoria Total: Gera arquivos LABEL (para conferência e identificação das duplicatas) e KILL (dados finais limpos, com duplicatas removidas).
📦 Instalação
R
# Instale via devtools
if (!require("devtools")) install.packages("devtools")
devtools::install_github("seu-usuario/GetBioData")
🛠️ Como usar
O workflow principal consolida todo o processo em um único comando:
R
library(GetBioData)
# 1. Configure sua chave do speciesLink (opcional)
Sys.setenv(SPLINK_API_KEY = "sua_chave_aqui") ----> Importante: o usuário deve cadastrar-se no site do splink e gerar sua chave API, pessoal e intransferível. A análise não vai rodar sem a chave.
# 2. Coleta e União (As 16 colunas)
df <- run_workflow("Araucaria angustifolia")
# Se o usuário quiser fazer o passo-a-passo manual:
g <- get_gbif("Araucaria angustifolia")
s <- get_splink("Araucaria angustifolia")
total <- bind_biodata(g, s) |>
dedup_label() |>
kill_dedup()
# Resultado: 16 colunas, registros únicos, pronto para análise!
# Se quiser rodar com mais de uma espécie:
# Criar a lista com nomes corretos e sem underscore ("_")
minhas_especies <- c("Araucaria angustifolia", "Cedrela fissilis")
# Rodando o workflow para todas de uma vez
# O pacote vai criar dois arquivos Excel para cada espécie na lista!
df <- run_workflow(minhas_especies)
📂 Entendendo os Resultados
Para cada espécie, o GetBioData exporta:
GetBioData_Dedup_LABELED_especie.xlsx: Contém todos os dados originais + colunas DUP_GROUP e DUP_CRITERIA. Use este arquivo para auditar por que um registro foi considerado duplicata.
GetBioData_Dedup_KILLED_especie.xlsx: Arquivo final contendo apenas os registros únicos. Ideal para Modelagem de Distribuição de Espécies (SDM).
📊 Colunas Padronizadas (Standard 16)
O pacote reduz a complexidade das bases originais para este conjunto essencial:
Categoria Colunas
Taxonomia ESPÉCIE, FAMÍLIA, GÊNERO
Espaço LATITUDE, LONGITUDE, PAÍS, ESTADO, MUNICÍPIO
Coleta COLETOR, DATA_COLETA
Curadoria DETERMINADOR, DATA_DETERMINACAO
Registros CATÁLOGO, INSTITUIÇÃO, OCCURRENCE_ID, FONTE
📄 Licença
Este projeto está sob a licença MIT.
Divirta-se :)
Clara Badia