Como usar o datazoom

A ideia desse guia é mostrar de forma simples e prática como usar o nosso pacote no Stata. Mais informações sobre as bases de dados disponíveis e como acessá-las podem ser encontradas no nosso Github.

Para começar, vamos instalar o pacote datazoom_social no Stata.

net install datazoom_social, from("https://raw.githubusercontent.com/datazoompuc/datazoom_social_stata/master/") force

A caixa de diálogo do pacote pode ser acessada utilizando o seguinte comando:

db datazoom_social

A seguinte janela se abrirá:

Basta navegar pelas opções da caixa de diálogo para fazer as leituras dos microdados do IBGE.

Um exemplo: Painel PNAD Contínua

Vamos começar carregando a base de dados da PNAD Contínua Trimestral para o ano de 2021 e selecionando a Identificação Avançada, usando a função:

datazoom_pnadcontinua, years( 2021 ) original(C:\...) saving(C:\...) idrs

substituindo C:\... pelos caminhos desejados. Isso pode também ser feito de forma equivalente usando a caixa de diálogo do pacote. (Esse comando demorou cerca de 15 minutos para ser executado - 16gb de RAM, Intel i7).

O pacote datazoom_social permite criar um painel da PNAD Contínua, identificando entrevistas de um mesmo domicílio em diferentes visitas (trimestres). Mais informações podem ser obtidas nesse relatório.

Como resultado, temos os arquivos PNAD_painel_x_rs.dta, onde “x” identifica a rodada de pesquisas. Podemos então abrir por exemplo o arquivo PNAD_painel_9_rs.dta (substuindo ... pelo caminho do arquivo):

use "C:\Users\...\pnadcontinua\PNAD_painel_9_rs.dta"

As variáveis estão identificadas pelos labels, que podem ser mostrados através do comando describe.

Abaixo, podemos ver as 6 primeiras colunas da tabela resultante:

     |  Ano   Trimes~e   UF   Capital   RM_RIDE         UPA |
     |------------------------------------------------------|
  1. | 2021          3   11        11         .   110000016 |
  2. | 2021          4   11        11         .   110000016 |
  3. | 2021          3   11        11         .   110000016 |
  4. | 2021          4   11        11         .   110000016 |
  5. | 2021          4   11        11         .   110000016 |
     |------------------------------------------------------|
  6. | 2021          3   11        11         .   110000016 |
     +------------------------------------------------------+

Como explorar os dados?

Uma vez que os dados estejam carregados, temos 2 opções: continuar nossa análise dentro do próprio Stata ou exportar os dados e utilizar algum outro software de análise de dados.

1) Exportando os dados: O comando export delimited permite exportar a tabela para o formato .csv, que pode ser aberto em vários outros programas. Basta utilizar o comando abaixo alterando o caminho para a pasta onde você deseja salvar o arquivo.

export delimited using "C:\...\PNAD_painel_9_rs.csv", replace

2) No Stata: Pelo Stata, podemos por exemplo analisar a frequência de variáveis usando o comando tabulate. Se quisermos ver a proporção em que cada Unidade da Federação aparece na pesquisa, basta usarmos:

tabulate UF

 Unidade da |
  Federação |      Freq.     Percent        Cum.
------------+-----------------------------------
         11 |     20,235        1.80        1.80
         12 |     22,319        1.98        3.78
         13 |     36,387        3.23        7.02
         14 |     13,411        1.19        8.21
         15 |     39,722        3.53       11.74
         16 |     10,736        0.95       12.69
         17 |     15,430        1.37       14.07
         21 |     74,601        6.63       20.70
         22 |     25,721        2.29       22.98
         23 |     54,198        4.82       27.80
         24 |     22,163        1.97       29.77
         25 |     29,705        2.64       32.41
         26 |     47,118        4.19       36.60
         27 |     44,280        3.94       40.53
         28 |     19,981        1.78       42.31
         29 |     55,565        4.94       47.25
         31 |     94,752        8.42       55.67
         32 |     38,662        3.44       59.11
         33 |     68,268        6.07       65.18
         35 |     86,322        7.67       72.85
         41 |     63,072        5.61       78.46
         42 |     69,562        6.18       84.64
         43 |     60,515        5.38       90.02
         50 |     24,654        2.19       92.21
         51 |     29,030        2.58       94.79
         52 |     38,405        3.41       98.20
         53 |     20,211        1.80      100.00
------------+-----------------------------------
      Total |  1,125,025      100.00

Podemos também visualizar os dados através do Stata. A variável VD4019 se refere ao “Rendimento mensal habitual de todos os trabalhos para pessoas de 14 anos ou mais de idade (apenas para pessoas que receberam em dinheiro, produtos ou mercadorias em qualquer trabalho)”, podemos então montar um histograma para examinar esses rendimentos:

histogram VD4019, xtitle("Rendimento mensal de todos os trabalhos, pessoas de 14 anos ou mais")

Infelizmente os valores muito altos dessa variável tornam difícil que vejamos algo de interessante, podemos então limitar a análise somente a rendimentos menores que R$5000, por exemplo, usando o condicional if:

histogram VD4019 if VD4019 < 5000, xtitle("Rendimento mensal de todos os trabalhos, pessoas de 14 anos ou mais")

Se quisermos olhar ao nível da UF, podemos também agregar os dados e analisar o rendimento médio por UF:

collapse (mean) VD4019, by(UF) 

graph bar VD4019, over(UF) ytitle("Média de Rendimentos")

No site do Data Zoom Amazônia, você pode ver outras visualizações usando dados da PNAD Contínua.

Se você precisar de ajuda ou encontrar erros no pacote, por favor fale conosco pelo Github.

Como usar o datazoom_social?

Um exemplo: Painel PNAD Contínua

Como explorar os dados?

Como usar o `datazoom_social`?