Exemplo de utilização do datazoom.amazonia
A ideia desse guia é mostrar uma forma de utilização do pacote datazoom.amazonia
. No exemplo, utilizaremos as bases de dados da ppm (IBGE) e do mapbiomas (Observatório do Clima) para fazermos uma análise da quantidade de cabeças de gado bovino por hectares de área de pastagem. Para conseguirmos realizar o ensaio, usaremos das funções load_ppm() e load_mapbiomas() presentes no pacote, que importam os dados diretamente da fonte para o nosso RStudio.
Para começar, será necessário instalar o pacote datazoom.amazonia
, caso ainda não tenha sido baixado, e carregá-lo. Além disso, usaremos também o tidyverse
para a manipulação dos dados.
#install.packages("datazoom.amazonia")
library(datazoom.amazonia)
#install.packages("tidyverse")
library(tidyverse)
As funções do pacote são mostradas com o comando help(package = "datazoom.amazonia")
. De forma geral, elas seguem o padrão load_*
seguida pelo nome da base de dados.
CARREGANDO AS BASES DE DADOS
Vamos começar carregando a base de dados do MAPBIOMAS, usando a função load_mapbiomas
.
data_frame_mapbiomas <-datazoom.amazonia::load_mapbiomas(dataset = "mapbiomas_cover",
cover_level = "4",
geo_level = "municipality",
raw_data = FALSE)
No geral, todas as funções do pacote seguem esse padrão.
Além disso, carregaremos o dataset livestock_inventory da ppm.
data_frame_ppm <- readRDS(file = "C:\\Users\\lugui\\Documents\\GitHub\\datazoom_viz\\data\\ppm_municipality_livestock_inventory.rds")
No geral, todas as funções do pacote seguem esse padrão.
Abaixo, podemos ver as 5 primeiras colunas da tabela resultante mapbiomas
e, em seguida, da ppm
:
territory_id | municipality | state | year | mosaic_of_crops |
---|---|---|---|---|
1100015 | Alta Floresta D’Oeste | RO | 1985 | 0 |
1100015 | Alta Floresta D’Oeste | RO | 1986 | 0 |
1100015 | Alta Floresta D’Oeste | RO | 1987 | 0 |
1100015 | Alta Floresta D’Oeste | RO | 1988 | 0 |
1100015 | Alta Floresta D’Oeste | RO | 1989 | 0 |
1100015 | Alta Floresta D’Oeste | RO | 1990 | 0 |
geo_id | ano | num_v2670 | num_v2675 | num_v2672 |
---|---|---|---|---|
1100015 | 2011 | 365538 | 127 | 4520 |
1100023 | 2011 | 446471 | 351 | 5733 |
1100031 | 2011 | 122807 | 2 | 1952 |
1100049 | 2011 | 419282 | 153 | 5644 |
1100056 | 2011 | 89782 | 4 | 911 |
1100064 | 2011 | 235774 | 114 | 3295 |
MANIPULANDO OS DADOS
Em seguida, iremos fazer a fusão dos dados e, em seguida, uma simples manipulação de dados, a fim de conseguirmos gerar a variável de interesse: (cabeças de gado) / (hectares de área de pastagem).
class(data_frame_mapbiomas$territory_id ) <- 'numeric'
class(data_frame_mapbiomas$year) <- 'numeric'
class(data_frame_ppm$geo_id) <- 'numeric'
class(data_frame_ppm$ano) <- 'numeric'
merge <- data_frame_mapbiomas %>%
full_join(data_frame_ppm,
by = c('territory_id' = 'geo_id', 'year' = 'ano'))
Em seguida, o comando que gera a variável de interesse.
data <- merge %>%
mutate(n_bovino_por_area_pastagem = num_v2670/pasture)
Após isso, selecionamos as variáveis desejadas para a base final.
data <- data %>%
select(territory_id, municipality, state, year, n_bovino_por_area_pastagem) %>%
arrange(territory_id, year) %>%
relocate(territory_id, year)
Vamos agora selecionar os estados da região sul para o ano de 2019. Em seguida, agregaremos os dados por estado, para tirarmos a média do número de bovinos por hectare de cada um.
data <- data%>%
filter(year == 2019)%>%
filter(state == "GO" | state == "MT" | state == "MS" | state == "DF")
data <- data%>%
group_by(state)%>%
summarise(media= mean(n_bovino_por_area_pastagem, na.rm= TRUE))
Podemos também usar o pacote ggplot2
, contido no tidyverse
, para visualizar os dados.
ggplot(data, aes(x = state, y = media)) +
geom_col()+
xlab("Estado")+
ylab("Média do número de bovinos por hectare de área de pastagem")
No site do Data Zoom Amazônia, você pode ver outras visualizações usando os dados de pesquisas brasileiras, bem como a lista de bases que o pacote cobre.
Se você precisar de ajuda ou encontrar erros no pacote, por favor fale conosco pelo Github.