Exploracao-e-selecao-de-dados-para-analises
Exploracao-e-selecao-de-dados-para-analises.Rmd
library(distanceMonitoraflorestal)
PARTE III – Explorando e selecionando os dados para as análises
Apresentamos abaixo um conjunto de ferramentas que permite diversas formas de explorar todo o conjunto de dados.
Informações Gerais sobre o Banco de Dados
Total Unidades de Conservação amostradas
# contar número total de UC's
n_ucs <- contar_n_uc()
n_ucs
#> [1] 40
Os dados são provenientes de 40 unidades de conservação ao todo.
Número de unidades de conservação amostradas em cada ano
# gerar tabela com o número de unidades de conservação amostradas em cada ano
n_ucs_ano <- contar_n_uc_ano()
n_ucs_ano
Gerar função para tabela dinâmica.
gerar_tabdin_n_uc_ano()
Unidades de conservação amostradas em um maior número de anos
n_ano_uc <- contar_n_ano_uc()
n_ano_uc
gerar_tabdin_n_ano_uc()
Total de observações por Unidade de Conservação
# contar número de observações por UC
n_obs_uc <- contar_n_obs_uc()
# gerar tabdin
gerar_tabdin_n_obs_uc()
# plotar o número de observações por UC
plotar_n_obs_uc_interativo()
Número de observações realizadas por UC em cada ano
n_obs_uc_ano <- contar_n_obs_uc_ano()
n_obs_uc_ano
Tabela interativa para consultar quantas observações foram realizadas por ano em cada UC
gerar_tabdin_n_obs_uc_ano()
Total de observações validadas por nível taxonômico
Essas operações são realizadas sobre a tabela de dados
dados_completos
pois os dados que foram transformados para
o formato do distace no R não possuem a coluna validation
,
necessária para essas opereações. Mais a frente o procedimento de como
obter os dados selecionados e transformatos para o formato das análises
será demonstrado.
# contar observações validadas ao nível de espécie
n_obs_validadas <- contar_n_obs_validadas()
n_obs_validadas
#> # A tibble: 5 × 2
#> validacao n
#> <fct> <int>
#> 1 especie 20790
#> 2 familia 318
#> 3 genero 6550
#> 4 na 215
#> 5 ordem 14
Foram selecionadas apenas as observações validadas ao nível de espécie, somando um total 20790 observações.
# gerar gráfico com número observações validadas para cada nível taxonômico
plotar_n_obs_validadas_interativo()
Finalmente chegamos ao subconjunto dos dados que será utilizado para selecionar quais espécies serão analisadas.
# gerar tabela de dados selecionados
dados_selecionados <- carregar_dados_selecionados()
# gerar tabdin dados_selecionados
gerar_tabdin_dados_selecionados()
Total de espécies registradas
n_sp <- contar_n_sp()
n_sp
#> [1] 198
Até aqui temos dados para 198 espécies.
##Suficência Amostral
Número de observações
Para que o método de análise por distância possa ser utilizado para estimativas baseadas em modelos, são recomendadas quantidades mínimas de observações e de transectos (Unidades Amostrais). Segundo BUCKLAND et. al. (2015), O número mínimo sugerido de animais ou grupos é de 60 – 80 animais (ou grupos) quando a amostragem é feita pelo método dos transectos lineares. É possível utilizar números menores que estes para realizar as análises, porém deve-se ter o cuidado de verificar se as funções de detecção estão bem modeladas. Estes números recomendados se aplicam a cada função de detecção a ser modelada. Assim, quando se pretende estratificar os dados, dividindo-os em subconjuntos, seja por região geográfica, seja por período amostral, é necessário ter um cuidado para que a suficiência amostral se mantenha dentro dos subconjuntos.
Réplicas e repetições
O número mínimo de réplicas para os transectos deve ser de 10-20, o que deve aumentar para espécies cujas populações são distribuídas em manchas BUCKLAND et. al. (2015). O número de réplicas reais para cada espécie é o número de transectos, que recebem os nomes das estações amostrais em cada Unidade de conservaçaõ.
Um outro aspecto que é necessário observar é o número de repetições, que terá impacto tanto sobre o esforço quanto sobre a suficiência amostral. Uma das limitações dos dados do Programa Monitora é o pequeno número de réplicas por Unidade de Conservação e muitas repetições para as mesmas estações amostrais. O excesso de repetições, especialmente em um mesmo período amostral, compromete a premissa de independência entre as observações. Além disso, acaba tendo um efeito de inflar o esforço amostral e a área coberta pela amostragem, o que prejudica as estimativas de densidade.
Apenas para ilustar, para os dados da cutia Dasyprocta croconota da Resex Tapajós-Arapinuns, a Estação Amostral Boim foi percorrida durante 70 dias de amostragem. Isso significa que ajustando o comprimento do transecto de 5 km pelo número de repetições, o esforço amostral passou para 350 km. A área coberta aumentou em 70x, o que terá consequências sobre a estimativa densidade, que tenderá a ser subestimada. Além disso, o coeficiente de variação das estimativas de taxa de encontro, abundância e densidade também tenderão a aumentar pelo efeito da variações temporais entre as amostragens.
Para lidar com o excesso de repetições, implementamos um fluxo de trabalho onde reduzimos o número de repetições, mantendo somente um dia de amostragem com o maior número de observações para cada período amostral (Parte V, Fluxo 2).
Número total de observações por espécie
# contar total sp
n_obs_sp <- contar_n_obs_sp()
n_obs_sp
# gerar tabela dinâmica com o número total de obsevações por espécie
gerar_tabdin_n_obs_sp()
# plotar o o número de observações por UC
plotar_n_obs_sp_interativo()
Tabela interativa para consulta do número de observações por espécie.
gerar_tabdin_n_obs_sp()
Número de observações para cada espécie por unidade de conservação
# gerar tabela com o número de observações por espécie e por UC
n_obs_sp_uc <- contar_n_obs_sp_uc()
n_obs_sp_uc
gerar_tabdin_n_obs_sp_uc()
Número de observações para cada espécies por ano
n_obs_sp_ano <- contar_n_obs_sp_ano()
n_obs_sp_ano
Tabela interativa para consultar quantas observações foram realizadas para cada espécie em cada ano
gerar_tabdin_n_obs_sp_ano()
Número de observações para cada espécies por UC e por ano
n_obs_sp_uc_ano <- contar_n_obs_sp_uc_ano()
n_obs_sp_uc_ano
Tabela interativa para consultar quantas observações foram realizadas para cada espécie em cada ano
gerar_tabdin_n_obs_sp_uc_ano()
Número de observações para cada espécies por UC, por estação do ano e por ano
n_obs_sp_uc_estacao_ano <- contar_n_obs_sp_uc_estacao_ano()
n_obs_sp_uc_estacao_ano
gerar_tabdin_n_obs_sp_uc_estacao_ano()