Ciência de Dados com Estatísticas Públicas
Uma introdução com R
Prefácio
Este livro reúne os fundamentos da ciência de dados aplicada ao contexto brasileiro de estatísticas públicas — censos, pesquisas amostrais, registros administrativos e indicadores de políticas públicas — usando o R como ferramenta principal.
Sobre o livro
O objetivo é apresentar ao leitor uma introdução prática e conceitual à ciência de dados voltada para o estudo e o uso das estatísticas públicas brasileiras. O material está organizado em três pilares que se complementam ao longo da obra:
Estatísticas públicas brasileiras — o conhecimento das principais bases de dados dos órgãos oficiais de estatística e dos registros administrativos brasileiros, suas fontes, metodologias de coleta e limitações.
Fundamentos de Ciência de Dados — o processo, os papéis envolvidos, o ciclo de vida de um projeto de dados e os princípios de análise e comunicação de resultados, com ferramentas para sumarização e análise exploratória de dados provenientes de censos, pesquisas amostrais e registros administrativos.
Fundamentos de R — laboratórios práticos que acompanham cada capítulo teórico, do ambiente RStudio e tipos básicos de dados até importação, manipulação, visualização e análise de bases públicas reais, incluindo metodologias para a construção de indicadores e índices voltados ao campo de políticas públicas.
Como usar este material
Cada capítulo teórico tem um laboratório prático correspondente. A leitura do capítulo antes do laboratório é recomendada, mas não obrigatória — os laboratórios são autocontidos.
Para reproduzir os laboratórios localmente você precisará de:
- R (≥ 4.1) — cran.r-project.org
- RStudio (≥ 2023) — posit.co/download/rstudio-desktop
- Quarto (≥ 1.4) — quarto.org
Abra o arquivo curso-ds.Rproj no RStudio e execute quarto render no terminal para gerar todas as saídas — livro em HTML, PDF e slides.
Referências principais
ZUMEL, N.; MOUNT, J. Practical Data Science with R. 2. ed. Manning Publications, 2019.
WICKHAM, H.; ÇETINKAYA-RUNDEL, M.; GROLEMUND, G. R para Ciência de Dados. 2. ed. O’Reilly Media, 2023. Disponível em: pt.r4ds.hadley.nz
Outras referências são indicadas em cada capítulo.
Sobre os autores
Caio César Soares Gonçalves Professor do Departamento de Demografia, Cedeplar/UFMG
Luiz Carlos Moutinho Pataca Fundação João Pinheiro — Escola de Governo (FJP/EG)
Material em construção. Novos capítulos são adicionados ao longo do tempo.