Carregando-uma-base-de-dados-atualizada
Carregando-uma-base-de-dados-atualizada.Rmd
library(distanceMonitoraflorestal)
PARTE I - Carregando uma nova base de dados
Base de dados para as análises
A base de dados para as análise tornam-se disponíveis ao usuário com
o carregamento do pacote com o nome de
monitora_aves_masto_florestal
. Podemos inspecionar seu
conteúdo usando a função glimpse
do pacote
dplyr
.
# inspecionar a base de dados
dplyr::glimpse(monitora_aves_masto_florestal)
A base de dados de aves e mamíferos de médio e grande porte gerada a partir de amostragem por distância contem 27887 observações (linhas) e 22 variáveis (colunas). Dentre as variáveis, há 12 que constituem fatores, ou seja, são variáveis categóricas com diferentes níveis (ex. nome_ea, nome_uc, nome_sp), 10 constituem variáveis numéricas contínuas (ex. numero_ea, esforco_total, distancia), 0 consituem variaǘeis numéricas inteiras (ex. ) e 2 variáveis que representam datas e tempos (ex. data_amostragem, tempo_censo).
Todas as análises presentes nos vignettes utilizam essa base de dados. Contudo, também é possível carregar e aplicar todas as transformações necessárias em uma versão atualizada dessa base para obter estimativas atualizadas de densidade das espécies.
Carregamento de um novo conjunto de dados
A primeira função que utilizaremos,
carregar_dados_brutos_xlsx()
, irá carregar uma nova
planilha de dados em formato excel. Essa função carrega um arquivo do
tipo .xlsx e gera uma objeto tibble
contendo os novos
dados. A função seguinte a ser utilizada,
gerar_dados_completos()
que irá receber essa
tibble
e operar uma série de transformações para devolvê-lo
mais próximo ao necessário para conduzir as análises. Como exemplo,
utilizaremos o arquivo
monitora_masto_aves_2023_04_04.xlsx
.
Para carregar a nova base de dados, é importante que ela esteja salva
na pasta data-raw
do projeto
Monitora. Para isso, basta manter a estrutura de pastas do projeto
(veja o README do repositório). No corpo da função, deve ser informado o
caminho para o arquivo (ex. nome da pasta, data-raw
, e o
nome do arquivo, monitora_masto_aves_2023_04_04.xlsx
e o
nome da planilha dados brutos
).
# carregar a base de dados do Monitora
dados_brutos <- carregar_dados_brutos_xlsx(
dados = "data-raw/monitora_masto_aves_2023_04_04.xlsx",
sheet = "dados brutos"
)
head(dados_brutos)
dplyr::glimpse(dados_brutos)
Em seguida, usamos a função gerar_dados_completos()
.
# gerar dados completos
dados_completos <- gerar_dados_completos(dados_brutos)
head(dados_completos)
dplyr::glimpse(dados_completos)
Para garantir a reprodutibilidade dos códigos produzidos em versões
atualizadas da base de dados do Monitora, é importante tomar alguns
cuidados. O primeiro e mais importante cuidado é manter a
consistência dos nomes, da ordem e do número de colunas em
versões atualizadas da base de dados do Monitora. Além de carregar os
dados, a função carregar_dados_completos()
aplica uma série
de transformações nas colunas. Seus nomes são alterados, e a essas são
atribuídos tipos apropriados (data, caracter, fator, inteiro e
numérico), linhas são eliminadas e novas colunas são geradas. Qualquer
alteração no número de colunas, nos seus nomes ou na sua ordem levará a
um mal funcionamento da função de transformação dos dados.
Outros aspectos importantes incluem:
a presença de dados ausentes (
NA
s) são automaticamente substituidas pelo valor correto apenas nas colunasnome_ea
,esforco_dia
etempo_senso
;novos dados devem ser adicionados a planilha de dados utilizada como modelo no presente documento;
se novas Unidades de Conservação para além das 41 presentes nessa planilha forem adicionadas, a função pode deixar de funcionar. Nesse caso, entre em contato com os desenvolvedores via e-mail: vntborgesjr@gmail.com;
os nomes dos observadores devem ser separados por ” e “,” E “,”/“,”;“, ou” a “. Note que, quando presentes, os espaços são importantes e devem ser aplicados para separação dos nomes;
na coluna
vaildacao
(coluna “O que foi identificado” na planilha original) espécie deve ser identificado como “E”, “e”, ou “espécie”; gênero deve ser identificado como “G”, “g”, ou “gênero”; família deve ser identificada como “F”; e ordem deve ser identificada como “O”.
A partir de agora os dados estão prontos para serem explorados, ou
mesmo filtrados e transformados para o formato do pacote
Distance
para análise de densidade. Por exemplo, podemos
contar o número de observações validadas:
# contar observações validadas ao nível de espécie
n_obs_validadas <- contar_n_obs_validadas(dados_completos)
n_obs_validadas
Podemos filtrar os dados para uma UC e uma espécie:
# filtrar dados por Unidade de Conservação e por espécie
dados_filtrados <- filtrar_dados(
dados = dados_completos,
nome_ucs = "resex_tapajos_arapiuns",
nome_sps = "dasyprocta_croconota"
)
head(dados_filtrados)
str(dados_filtrados)
Para em seguida transformá-los para o formato das análises de densidade:
# transformar dados para o formato do pacote Distance
dados_transformados <- transformar_dados_formato_Distance(dados_filtrados)
head(dados_transformados)
dplyr::glimpse(dados_transformados)