Carregando-uma-base-de-dados-atualizada • distanceMonitoraflorestal

library(distanceMonitoraflorestal)

PARTE I - Carregando uma nova base de dados

Base de dados para as análises

A base de dados para as análise tornam-se disponíveis ao usuário com o carregamento do pacote com o nome de monitora_aves_masto_florestal. Podemos inspecionar seu conteúdo usando a função glimpse do pacote dplyr.

# inspecionar a base de dados
dplyr::glimpse(monitora_aves_masto_florestal)

A base de dados de aves e mamíferos de médio e grande porte gerada a partir de amostragem por distância contem 27887 observações (linhas) e 22 variáveis (colunas). Dentre as variáveis, há 12 que constituem fatores, ou seja, são variáveis categóricas com diferentes níveis (ex. nome_ea, nome_uc, nome_sp), 10 constituem variáveis numéricas contínuas (ex. numero_ea, esforco_total, distancia), 0 consituem variaǘeis numéricas inteiras (ex. ) e 2 variáveis que representam datas e tempos (ex. data_amostragem, tempo_censo).

Todas as análises presentes nos vignettes utilizam essa base de dados. Contudo, também é possível carregar e aplicar todas as transformações necessárias em uma versão atualizada dessa base para obter estimativas atualizadas de densidade das espécies.

Carregamento de um novo conjunto de dados

A primeira função que utilizaremos, carregar_dados_brutos_xlsx(), irá carregar uma nova planilha de dados em formato excel. Essa função carrega um arquivo do tipo .xlsx e gera uma objeto tibble contendo os novos dados. A função seguinte a ser utilizada, gerar_dados_completos() que irá receber essa tibble e operar uma série de transformações para devolvê-lo mais próximo ao necessário para conduzir as análises. Como exemplo, utilizaremos o arquivo monitora_masto_aves_2023_04_04.xlsx.

Para carregar a nova base de dados, é importante que ela esteja salva na pasta data-raw do projeto Monitora. Para isso, basta manter a estrutura de pastas do projeto (veja o README do repositório). No corpo da função, deve ser informado o caminho para o arquivo (ex. nome da pasta, data-raw, e o nome do arquivo, monitora_masto_aves_2023_04_04.xlsx e o nome da planilha dados brutos).

# carregar a base de dados do Monitora
dados_brutos <- carregar_dados_brutos_xlsx(
  dados = "data-raw/monitora_masto_aves_2023_04_04.xlsx",
  sheet = "dados brutos"
)

head(dados_brutos)
dplyr::glimpse(dados_brutos)

Em seguida, usamos a função gerar_dados_completos().

# gerar dados completos
dados_completos <- gerar_dados_completos(dados_brutos)

head(dados_completos)
dplyr::glimpse(dados_completos)

Para garantir a reprodutibilidade dos códigos produzidos em versões atualizadas da base de dados do Monitora, é importante tomar alguns cuidados. O primeiro e mais importante cuidado é manter a consistência dos nomes, da ordem e do número de colunas em versões atualizadas da base de dados do Monitora. Além de carregar os dados, a função carregar_dados_completos() aplica uma série de transformações nas colunas. Seus nomes são alterados, e a essas são atribuídos tipos apropriados (data, caracter, fator, inteiro e numérico), linhas são eliminadas e novas colunas são geradas. Qualquer alteração no número de colunas, nos seus nomes ou na sua ordem levará a um mal funcionamento da função de transformação dos dados.

Outros aspectos importantes incluem:

a presença de dados ausentes (NAs) são automaticamente substituidas pelo valor correto apenas nas colunas nome_ea, esforco_dia e tempo_senso;
novos dados devem ser adicionados a planilha de dados utilizada como modelo no presente documento;
se novas Unidades de Conservação para além das 41 presentes nessa planilha forem adicionadas, a função pode deixar de funcionar. Nesse caso, entre em contato com os desenvolvedores via e-mail: vntborgesjr@gmail.com;
os nomes dos observadores devem ser separados por ” e “,” E “,”/“,”;“, ou” a “. Note que, quando presentes, os espaços são importantes e devem ser aplicados para separação dos nomes;
na coluna vaildacao (coluna “O que foi identificado” na planilha original) espécie deve ser identificado como “E”, “e”, ou “espécie”; gênero deve ser identificado como “G”, “g”, ou “gênero”; família deve ser identificada como “F”; e ordem deve ser identificada como “O”.

A partir de agora os dados estão prontos para serem explorados, ou mesmo filtrados e transformados para o formato do pacote Distance para análise de densidade. Por exemplo, podemos contar o número de observações validadas:

# contar observações validadas ao nível de espécie
n_obs_validadas <- contar_n_obs_validadas(dados_completos)
n_obs_validadas

Podemos filtrar os dados para uma UC e uma espécie:

# filtrar dados por Unidade de Conservação e por espécie
dados_filtrados <- filtrar_dados(
  dados = dados_completos,
  nome_ucs = "resex_tapajos_arapiuns",
  nome_sps = "dasyprocta_croconota"
)

head(dados_filtrados)
str(dados_filtrados)

Para em seguida transformá-los para o formato das análises de densidade:

# transformar dados para o formato do pacote Distance
dados_transformados <- transformar_dados_formato_Distance(dados_filtrados)

head(dados_transformados)
dplyr::glimpse(dados_transformados)