Como usar o
datazoom_social
?
A ideia desse guia é mostrar de forma simples e prática como usar o nosso pacote no Stata. Mais informações sobre as bases de dados disponíveis e como acessá-las podem ser encontradas no nosso Github.
Para começar, vamos instalar o pacote datazoom_social
no
Stata.
net install datazoom_social, from("https://raw.githubusercontent.com/datazoompuc/datazoom_social_stata/master/") force
A caixa de diálogo do pacote pode ser acessada utilizando o seguinte comando:
db datazoom_social
A seguinte janela se abrirá:
Basta navegar pelas opções da caixa de diálogo para fazer as leituras dos microdados do IBGE.
Um exemplo: Painel PNAD Contínua
Vamos começar carregando a base de dados da PNAD Contínua Trimestral para o ano de 2021 e selecionando a Identificação Avançada, usando a função:
datazoom_pnadcontinua, years( 2021 ) original(C:\...) saving(C:\...) idrs
substituindo C:\...
pelos caminhos desejados. Isso pode
também ser feito de forma equivalente usando a caixa de diálogo do
pacote. (Esse comando demorou cerca de 15 minutos para ser executado -
16gb de RAM, Intel i7).
O pacote datazoom_social
permite criar um painel da PNAD
Contínua, identificando entrevistas de um mesmo domicílio em diferentes
visitas (trimestres). Mais informações podem ser obtidas nesse
relatório.
Como resultado, temos os arquivos PNAD_painel_x_rs.dta
,
onde “x” identifica a rodada de pesquisas. Podemos então abrir por
exemplo o arquivo PNAD_painel_9_rs.dta
(substuindo
...
pelo caminho do arquivo):
use "C:\Users\...\pnadcontinua\PNAD_painel_9_rs.dta"
As variáveis estão identificadas pelos labels, que podem ser
mostrados através do comando describe
.
Abaixo, podemos ver as 6 primeiras colunas da tabela resultante:
| Ano Trimes~e UF Capital RM_RIDE UPA |
|------------------------------------------------------|
1. | 2021 3 11 11 . 110000016 |
2. | 2021 4 11 11 . 110000016 |
3. | 2021 3 11 11 . 110000016 |
4. | 2021 4 11 11 . 110000016 |
5. | 2021 4 11 11 . 110000016 |
|------------------------------------------------------|
6. | 2021 3 11 11 . 110000016 |
+------------------------------------------------------+
Como explorar os dados?
Uma vez que os dados estejam carregados, temos 2 opções: continuar nossa análise dentro do próprio Stata ou exportar os dados e utilizar algum outro software de análise de dados.
1) Exportando os dados: O comando
export delimited
permite exportar a tabela para o formato
.csv, que pode ser aberto em vários outros programas. Basta utilizar o
comando abaixo alterando o caminho para a pasta onde você deseja salvar
o arquivo.
export delimited using "C:\...\PNAD_painel_9_rs.csv", replace
2) No Stata: Pelo Stata, podemos por exemplo
analisar a frequência de variáveis usando o comando
tabulate
. Se quisermos ver a proporção em que cada Unidade
da Federação aparece na pesquisa, basta usarmos:
tabulate UF
Unidade da |
Federação | Freq. Percent Cum.
------------+-----------------------------------
11 | 20,235 1.80 1.80
12 | 22,319 1.98 3.78
13 | 36,387 3.23 7.02
14 | 13,411 1.19 8.21
15 | 39,722 3.53 11.74
16 | 10,736 0.95 12.69
17 | 15,430 1.37 14.07
21 | 74,601 6.63 20.70
22 | 25,721 2.29 22.98
23 | 54,198 4.82 27.80
24 | 22,163 1.97 29.77
25 | 29,705 2.64 32.41
26 | 47,118 4.19 36.60
27 | 44,280 3.94 40.53
28 | 19,981 1.78 42.31
29 | 55,565 4.94 47.25
31 | 94,752 8.42 55.67
32 | 38,662 3.44 59.11
33 | 68,268 6.07 65.18
35 | 86,322 7.67 72.85
41 | 63,072 5.61 78.46
42 | 69,562 6.18 84.64
43 | 60,515 5.38 90.02
50 | 24,654 2.19 92.21
51 | 29,030 2.58 94.79
52 | 38,405 3.41 98.20
53 | 20,211 1.80 100.00
------------+-----------------------------------
Total | 1,125,025 100.00
Podemos também visualizar os dados através do Stata. A variável
VD4019
se refere ao “Rendimento mensal habitual de todos os
trabalhos para pessoas de 14 anos ou mais de idade (apenas para pessoas
que receberam em dinheiro, produtos ou mercadorias em qualquer
trabalho)”, podemos então montar um histograma para examinar esses
rendimentos:
histogram VD4019, xtitle("Rendimento mensal de todos os trabalhos, pessoas de 14 anos ou mais")
Infelizmente os valores muito altos dessa variável tornam difícil que
vejamos algo de interessante, podemos então limitar a análise somente a
rendimentos menores que R$5000, por exemplo, usando o condicional
if
:
histogram VD4019 if VD4019 < 5000, xtitle("Rendimento mensal de todos os trabalhos, pessoas de 14 anos ou mais")
Se quisermos olhar ao nível da UF, podemos também agregar os dados e analisar o rendimento médio por UF:
collapse (mean) VD4019, by(UF)
graph bar VD4019, over(UF) ytitle("Média de Rendimentos")
No site do Data Zoom Amazônia, você pode ver outras visualizações usando dados da PNAD Contínua.
Se você precisar de ajuda ou encontrar erros no pacote, por favor fale conosco pelo Github.