2Estatística pública, sistema estatístico e classificação das estatísticas
Data de Publicação
16 de junho de 2026
“O ofício de produzir informações estatísticas reflete a cultura de um país e de sua época, como essa cultura vê o mundo e o torna visível, redefinindo o que vê e o que há para se ver.”
A estatística, como vimos no capítulo anterior, é a disciplina que transforma dados dispersos em evidência organizada. Mas a maior parte dos dados com os quais trabalham gestores públicos, demógrafos, cientistas sociais, epidemiologistas e analistas ambientais não nasce em um laboratório, nem é coletada por iniciativa própria do pesquisador: ela é produzida, de forma regular e institucionalizada, por órgãos de governo. Este capítulo trata dessa produção — sua história, sua organização institucional e as formas pelas quais ela é classificada.
2.1 O que são estatística pública e estatística oficial?
Os dois termos designam realidades próximas, mas não idênticas. Estatística oficial tem conotação jurídico-institucional: é produzida ou reconhecida por autoridades públicas no âmbito de sistemas estatísticos nacionais, ou por órgãos governamentais com mandato legal para a sistematização de informação estatística — é nesse sentido que os Princípios Fundamentais das Estatísticas Oficiais da ONU (apresentados no Capítulo 3) se referem a ela. Estatística pública é um conceito mais amplo: inclui toda informação estatística gerada por órgãos governamentais — ministérios, secretarias, fundações de pesquisa —, mesmo quando fora do núcleo do sistema estatístico oficial. Na prática, os termos se sobrepõem e são frequentemente tratados como equivalentes (Schwartzman, 1997); a distinção importa sobretudo quando se quer avaliar o grau de independência técnica e o rigor metodológico de uma fonte.
2.1.1 Funções e dimensões da estatística pública
Independentemente dessa distinção, a disseminação de estatísticas públicas cumpre uma dupla função. Em sua dimensão cognitiva, ela permite conhecer realidades distantes ou ausentes — um município que o analista nunca visitou, uma população que ele nunca encontrou pessoalmente — e, ao tornar essas realidades conhecidas, torná-las também pensáveis. Sem dados sobre a taxa de analfabetismo de um município, por exemplo, é difícil sequer formular uma política de alfabetização para ele. Em sua dimensão política, ao nomear e quantificar fenômenos, as estatísticas podem também contribuir para constituí-los como objetos de ação pública — tornando-os visíveis e endereçáveis pelo Estado. Essa perspectiva, desenvolvida na sociologia da quantificação (Desrosières, 1996; Senra, 2005), não implica que os dados “inventem” problemas, mas que a forma de medi-los e classificá-los tem consequências reais sobre como os problemas são reconhecidos e enfrentados:
“As estatísticas permitem conhecer realidades distantes e/ou ausentes, de forma que quando conhecidas tornam-se pensáveis e, consequentemente, potencialmente governáveis.” (Senra, 2005)
Para que essas funções sejam cumpridas, as instituições produtoras de estatísticas precisam garantir qualidades ao mesmo tempo técnicas e institucionais. Do ponto de vista técnico: confiabilidade metodológica, acurácia e coerência entre fontes. Do ponto de vista institucional: independência profissional em relação a interesses de governo de ocasião, tempestividade (a informação chega a tempo de informar decisões) e aderência às necessidades dos usuários — gestores, pesquisadores, jornalistas, cidadãos. É a combinação dessas garantias que distingue uma estatística oficial de um número qualquer divulgado por qualquer fonte.
Essa distinção adquire relevância crescente em um ambiente informacional marcado pela proliferação de dados de origem incerta, pela circulação de informações sem verificação e pelo uso deliberado de números fora de contexto para sustentar narrativas falsas. Nesse cenário, os órgãos oficiais de estatística — com seus protocolos metodológicos documentados, suas amostras auditáveis e sua independência institucional — funcionam como âncoras institucionais de referência. Não são imunes a controvérsias metodológicas ou políticas, no entanto. O que os distingue não é a infalibilidade, mas a transparência: produzem evidência gerada segundo regras públicas e verificáveis, que pode ser contestada com base nos mesmos critérios. Questionar uma estatística oficial com base em metodologia é legítimo e necessário; descartá-la com base em preferência ou conveniência política é algo de natureza inteiramente diferente.
2.2 Da lista ao número: uma breve história da estatística pública
A estatística pública nasce ligada à construção do próprio Estado moderno, mas por dois caminhos distintos que se desenvolvem em paralelo antes de se encontrarem (Desrosières, 1996).
O primeiro é a vertente alemã da Statistik, que emerge no século XVIII a partir dos trabalhos de Gottfried Achenwall e outros professores universitários. Essa corrente era essencialmente descritiva, institucional e baseada na sistematização de informações administrativas e territoriais: tratava-se de reunir, de forma organizada, dados sobre o território, a população, as finanças e a organização política do Estado — uma “ciência do Estado” destinada diretamente ao soberano. O nome que essa prática recebeu é revelador: Statistik, em alemão, significa literalmente “ciência do Estado”. Embora já incorporasse contagens e séries administrativas rudimentares, seu registro predominante era narrativo e classificatório, não analítico.
O segundo caminho é a vertente inglesa da aritmética política, inaugurada no século XVII por John Graunt e William Petty. Ao contrário da Statistik, essa abordagem era desde o início essencialmente quantitativa, baseada em inferências empíricas e regularidades observadas — com uso ainda incipiente da probabilidade, uma vez que a teoria da probabilidade ainda não estava formalizada como sistema. Graunt analisou tabelas de mortalidade de Londres para identificar padrões de natalidade, mortalidade e epidemias; Petty estimou populações e riquezas nacionais a partir de dados fragmentários. Aqui, os registros paroquiais de batismos, casamentos e óbitos — progressivamente padronizados por autoridades locais e centrais ao longo dos séculos XVI e XVII — foram sistematizados, agregados e convertidos em tabelas numéricas com poder explicativo. Nascia, ali, a estatística como prática de resumir o singular em informação comparável.
As duas vertentes convergem ao longo do século XIX: a Statistik alemã incorpora métodos quantitativos e a aritmética política ganha escala institucional com a criação dos primeiros institutos nacionais de estatística. Dessa fusão emerge o modelo que conhecemos hoje: uma atividade ao mesmo tempo técnica (produção de medidas confiáveis) e política (descrição do Estado para fins de governo).
O que explica a expansão temática e institucional da estatística pública ao longo dos séculos seguintes, porém, não é apenas o desenvolvimento da técnica — é, sobretudo, a evolução das funções do Estado. Em cada época, as questões reconhecidas como “sociais” e incorporadas às responsabilidades estatais variam: até o século XVIII, a estatística feita a mando do rei estava ligada ao recrutamento de exércitos e à cobrança de impostos; no século XIX, ela passa a tratar sobretudo de pobreza, epidemias e saúde pública; entre 1890 e 1930, volta-se à organização do trabalho assalariado e à proteção dos trabalhadores; de 1940 a 1970, incorpora a orientação keynesiana das políticas macroeconômicas, com a criação dos sistemas de contas nacionais; e, desde a década de 1980, passa a tratar das consequências sociais da crise fiscal, da descentralização do Estado e, mais recentemente, das agendas ambiental e identitária (Desrosières, 1996; Jannuzzi, 2019).
flowchart LR A["Até séc. XVIII<br>População e<br>finanças"] --> B["Séc. XIX<br>Pobreza, epidemias<br>e saúde pública"] B --> C["1890–1930<br>Trabalho assalariado<br>e proteção social"] C --> D["1940–1970<br>Contas nacionais e<br>política macroeconômica"] D --> E["Desde 1980<br>Indicadores sociais,<br>ambientais e identitários"]
flowchart LR
A["Até séc. XVIII<br>População e<br>finanças"] --> B["Séc. XIX<br>Pobreza, epidemias<br>e saúde pública"]
B --> C["1890–1930<br>Trabalho assalariado<br>e proteção social"]
C --> D["1940–1970<br>Contas nacionais e<br>política macroeconômica"]
D --> E["Desde 1980<br>Indicadores sociais,<br>ambientais e identitários"]
Figura 2.1: Ondas sucessivas de expansão temática da estatística pública
Essas ondas não substituem umas às outras — elas se acumulam. O Brasil acompanha essa trajetória com seus próprios marcos: o IBGE foi criado em 1936; a Pesquisa Nacional por Amostra de Domicílios (PNAD) é realizada desde 1967; a publicação Indicadores Sociais existe desde 1979; e os censos demográficos brasileiros remontam a 1872 (Jannuzzi, 2019). Não fosse esse portfólio de levantamentos regulares e públicos, seria muito mais difícil reconstituir, com qualquer precisão, a mudança social brasileira ao longo do século XX — especialmente após a Constituição de 1988, que ampliou substancialmente a agenda de políticas sociais e, com ela, a demanda por estatísticas capazes de sustentá-la (Jannuzzi, 2019).
Essa trajetória histórica pode ser lida de outra perspectiva complementar. Desrosières (1996) propõe organizar a relação entre Estado e informação em torno de três modalidades de ação, cada uma com uma lógica estatística distinta. A ação administrativa, predominante até o final do século XIX, edita normas gerais que agentes locais aplicam a casos singulares; sua informação é necessariamente exaustiva ou monográfica, porque a ideia de probabilidade lhe é estranha — cada caso precisa ser conhecido individualmente para que a norma seja aplicada. A ação estatística, que se consolida ao longo do século XX, baseia-se na agregação e na inferência a partir de regularidades observadas: a lei dos grandes números permite tratar indivíduos como equivalentes — peças de uma amostra — e agir por meio de médias, totais e agregados. É essa modalidade que sustenta o Estado de bem-estar: políticas de saúde, previdência e educação dependem de estimativas populacionais, e não do conhecimento caso a caso. O que muda em relação à ação administrativa não é apenas a técnica, mas o regime de equivalência: o indivíduo deixa de ser um caso singular e passa a ser uma unidade de uma distribuição. A terceira modalidade — uma forma emergente de ação descentralizada, em expansão acelerada nas últimas décadas — explora caminhos distintos dos dois primeiros, baseados em subsidiariedade, negociação e redes entre níveis de governo; sua informação tende a ser granular, localizada e produzida por múltiplos atores, sem a centralização característica dos levantamentos oficiais.
Nos Estados contemporâneos, as três modalidades coexistem e se misturam — o que ajuda a entender por que o sistema estatístico atual é tão heterogêneo. Censos e pesquisas amostrais nacionais respondem à lógica da ação estatística; cadastros e sistemas de gestão de programas sociais respondem à lógica da ação administrativa; e os registros administrativos descentralizados — produzidos por municípios, conselhos e agências reguladoras — respondem à lógica da ação descentralizada. A isso se soma, nas últimas duas décadas, uma fonte emergente que tensiona e hibridiza essas três modalidades: os dados gerados como subproduto de atividades digitais e físicas — transações em plataformas, registros administrativos digitalizados, sensores urbanos e imagens de satélite. Esse conjunto heterogêneo, frequentemente chamado de big data, não constitui uma modalidade homogênea: parte dele é extensão da lógica administrativa (registros digitais de transações individuais); parte hibridiza ação administrativa e estatística (dados de plataformas usados para produzir estimativas agregadas). O que é comum a todas essas fontes é que não foram produzidas com fins estatísticos primários, não seguem os protocolos de amostragem e cobertura dos levantamentos oficiais e trazem desafios próprios de representatividade e viés. A estatística oficial está, neste momento, aprendendo a incorporá-los — o que será retomado na seção seguinte.
2.3 Sistema estatístico, Estado e políticas públicas
Por sistema estatístico entende-se o conjunto de instituições, normas e processos responsáveis pela produção, coordenação e disseminação de informações estatísticas oficiais para fins de planejamento, monitoramento e avaliação de políticas públicas, bem como para uso social e científico (Jannuzzi, 2019). No Brasil, o IBGE é o órgão central de coordenação desse sistema: além da produção de dados sociais e demográficos (censos demográficos, pesquisas domiciliares como a PNAD Contínua), o IBGE responde pelas estatísticas econômicas de referência nacional — Contas Nacionais, índices de preços, pesquisas industriais e de comércio. Ministérios setoriais também constituem importantes produtores primários de estatísticas administrativas: o Ministério da Saúde mantém o DATASUS; o Ministério do Trabalho, a RAIS e o CAGED; o Ministério da Educação, o INEP e o Censo Escolar. Órgãos federais especializados, como o INPE, produzem dados ambientais a partir de levantamentos de campo e sensoriamento remoto. Fundações e institutos estaduais de planejamento e pesquisa completam o quadro com informações de escala regional e municipal.
2.3.1 A camada subnacional do sistema estatístico
A camada subnacional é formada por fundações e institutos vinculados aos governos estaduais. Essas instituições desempenham papel estratégico na adaptação territorial da informação pública, reduzindo a assimetria entre a produção nacional e as necessidades locais de planejamento. Frequentemente combinam dois papéis: produzem pesquisas primárias próprias e constroem sistemas-síntese a partir de dados de censos, registros administrativos e pesquisas nacionais. Entre os principais:
Órgão
Estado
Exemplos de produção
SEADE
São Paulo
Indicadores demográficos, pesquisas de emprego, Índice Paulista de Responsabilidade Social
IPARDES
Paraná
Cadernos municipais, índices de desenvolvimento regional
Índice de desenvolvimento municipal, indicadores sociais
2.3.2 Sistema estatístico e políticas públicas
A relação entre esse sistema e as políticas públicas é de mão dupla. As políticas públicas pautam — com maior ou menor rapidez — o ritmo e a prioridade de expansão da infraestrutura de dados: novas demandas de diagnóstico geram novas pesquisas. Mas a relação funciona também no sentido inverso: a produção de informação estatística contribui para aprimorar a própria ação governamental, ao revelar realidades em diferentes escalas e ao permitir avaliar os efeitos — ou a ausência de efeitos — de políticas e programas (Jannuzzi, 2019). Não se trata, porém, de uma relação de “iluminismo técnico”, como se a estatística fosse autônoma em relação ao Estado: os dados refletem o estágio de estruturação do Estado de bem-estar, a complexidade da base econômica e o conjunto de preocupações de cada momento histórico tanto quanto os influenciam (Jannuzzi, 2019).
2.4 Como classificar as estatísticas?
Diante da enorme diversidade de informações produzidas pelo sistema estatístico, classificar essas informações é uma necessidade prática: tanto para organizar o acesso a elas (como faz o portal do IBGE na internet) quanto para identificar lacunas na produção estatística de um país. Há, ao menos, duas formas complementares de classificação que vale a pena conhecer desde já.
2.4.1 Classificação por domínio temático
A referência mais completa no caso brasileiro é a Classificação de Informações Estatísticas (CIE), desenvolvida pelo IBGE e alinhada à Classification of Statistical Activities (CSA), referência internacional desenvolvida no âmbito da Comissão Econômica das Nações Unidas para a Europa (UNECE) (IBGE, 2024). A CIE organiza a produção estatística brasileira em grandes domínios temáticos:
Tabela 2.1: Domínios da Classificação de Informações Estatísticas do IBGE
Domínio
Cobre, entre outros temas
Estatísticas sociais e de população
População, educação, saúde, trabalho, moradia, uso do tempo
Classificações, metodologias e demais infraestrutura estatística
O domínio Estatísticas transversais merece uma nota: o termo não tem aqui o sentido estatístico de dados observados em um único momento (cross-sectional), mas designa temas que atravessam todos os outros domínios — como desigualdades de gênero e raça, direitos humanos e mudanças climáticas — e que, por isso, exigem coordenação entre diferentes fontes e produtores de informação.
2.4.2 Classificação por fonte de produção
Uma segunda forma de classificar as estatísticas — talvez mais relevante para quem vai manipular esses dados no R — é pela maneira como elas são produzidas. Há, essencialmente, quatro grandes fontes:
Censos — levantamentos exaustivos, que cobrem toda a população ou universo de interesse (todos os domicílios, todos os estabelecimentos agropecuários). Têm periodicidade longa e custo elevado, mas permitem desagregação territorial detalhada, até o nível de município ou setor censitário. Exemplo: o Censo Demográfico.
Pesquisas amostrais — coletam informações de uma amostra do universo, e não de seu total, permitindo estimar parâmetros para toda a população com uma margem de erro conhecida. Têm periodicidade mais curta e custo menor que os censos, mas exigem desenho amostral cuidadoso e cautela ao desagregar resultados para unidades geográficas pequenas. Exemplo: a PNAD Contínua.
Registros administrativos — são subprodutos da operação rotineira de órgãos públicos: cadastros, declarações obrigatórias, sistemas de gestão de programas. Não foram desenhados primariamente para fins estatísticos, mas cobrem integralmente a população incluída no sistema administrativo correspondente e têm baixo custo marginal de produção. Uma ressalva importante: trabalhadores sem carteira assinada, domicílios sem endereço formal e nascimentos não registrados em cartório ficam sistematicamente de fora. Para dados públicos brasileiros, essa limitação é metodologicamente relevante e precisa ser levada em conta na análise. Exemplos: RAIS, CAGED, SIM, SINASC.
Big data e fontes não tradicionais — dados gerados como subproduto de atividades digitais e físicas, incluindo transações digitais, sensores, rastros digitais e imagens de satélite. Oferecem volume e granularidade inéditos, mas estão em processo de incorporação metodológica pela estatística oficial, que ainda enfrenta desafios de representatividade e padronização.
É nessa última categoria que emerge com mais força uma distinção importante para quem trabalha com análise de dados. As três primeiras fontes produzem predominantemente dados estruturados — organizados em estruturas tabulares ou relacionais com esquema definido, como nos microdados do Censo Demográfico, da PNAD Contínua ou da RAIS.
Dentro dos dados estruturados, vale distinguir ainda o formato tidy(Wickham, 2014): aquele em que cada linha representa uma unidade de observação e cada coluna representa uma variável. Muitos arquivos públicos chegam estruturados mas não arrumados — planilhas com anos espalhados em colunas, cabeçalhos múltiplos, variáveis codificadas sem dicionário —, e parte significativa do trabalho de análise consiste em transformá-los por meio de operações de limpeza, reshaping e padronização.
As fontes de big data e não tradicionais introduzem com mais frequência dados não estruturados, que não possuem organização tabular predefinida — imagens de satélite, textos de audiências públicas, áudios de sessões legislativas. O processamento de dados não estruturados requer técnicas especializadas, como processamento de linguagem natural e visão computacional, que estão além do escopo deste curso. Trabalharemos ao longo de todo o livro com dados estruturados — que já impõem desafios relevantes de limpeza, transformação, integração entre fontes e tratamento de valores ausentes.
Essas duas classificações — por domínio e por fonte — se cruzam na prática: cada domínio temático tende a recorrer a determinados conjuntos de fontes. As estatísticas sociais e de população se apoiam fortemente em censos, pesquisas domiciliares e registros civis; as estatísticas econômicas, em registros administrativos e cadastros de empresas, complementados por pesquisas conjunturais; e as estatísticas ambientais, em levantamentos institucionais e, cada vez mais, em sensoriamento remoto. Reconhecer essa correspondência ajuda a antecipar, diante de qualquer base de dados pública brasileira, que tipo de cuidado metodológico ela provavelmente exige.
Pré-requisitos: Capítulo 1 concluído; R e RStudio instalados. Os exemplos principais utilizam readr, readxl e writexl; pacotes adicionais (arrow, sidrar, geobr) são apresentados ao longo da seção.
Reconhecer os principais formatos de arquivo usados em dados públicos brasileiros
Importar arquivos CSV, Excel, RDS e Parquet no R
Conhecer o ecossistema de pacotes para acesso direto às APIs do IBGE
Aplicar boas práticas de importação e verificação pós-carga
2.5.2 Formatos de arquivo em dados públicos
As bases de dados distribuídas por órgãos como IBGE, DATASUS, MTE e Receita Federal chegam em uma variedade de formatos. A tabela abaixo resume os mais comuns e suas características principais:
Formato
Extensão
Características
CSV
.csv
Texto simples com separador configurável (vírgula, ponto-e-vírgula); padrão universal
TSV
.tsv
Texto simples delimitado por tabulação; encontrado em algumas exportações tabulares e bases legadas
Excel
.xls, .xlsx
Formato proprietário Microsoft; muito usado no IBGE até os anos 2010
R nativo
.rds, .RData
Binário R; preserva integralmente a estrutura e atributos dos objetos; ideal para dados processados
Parquet
.parquet
Colunar, comprimido; armazena metadados de tipos; crescente adoção em microdados de grande volume
JSON
.json
Hierárquico; usado em APIs e dados do Portal de Dados Abertos
DBF
.dbf
Formato dBase; comum em shapefiles e arquivos censitários antigos
SAS
.sas7bdat
Formato SAS; usado em microdados do INEP e DATASUS
SPSS
.sav
Formato SPSS; usado em algumas pesquisas do IBGE
Para arquivos DBF, SAS e SPSS, o pacote haven (para SAS/SPSS/Stata) e o pacote foreign (para DBF e formatos legados) oferecem funções de importação. Formatos geoespaciais — Shapefile (.shp), GeoPackage (.gpkg) e GeoJSON (.geojson) — são igualmente comuns em dados públicos brasileiros (IBGE, INPE, MapBiomas) e serão abordados em capítulo específico sobre análise espacial.
Dica
Ao encontrar um arquivo desconhecido, abra-o em um editor de texto antes de tentar importar. As primeiras linhas costumam revelar o delimitador, o encoding e se há cabeçalho.
2.5.3 O ecossistema IBGE em R
Antes de importar arquivos manualmente, vale conhecer o caminho mais direto: vários pacotes da comunidade R oferecem acesso às APIs e bases de dados do IBGE sem necessidade de baixar arquivos:
Pacote
O que oferece
sidrar
Acesso ao SIDRA (tabelas do IBGE) via API
PNADcIBGE
Microdados da PNAD Contínua, com pesos amostrais
censobr
Microdados do Censo Demográfico (2000, 2010, 2022)
geobr
Malhas geográficas de municípios, estados, regiões e setores censitários
deflateBR
Deflacionamento de séries monetárias (IPCA, IGP, etc.)
basedosdados
Acesso a diversas bases públicas brasileiras via Google BigQuery
# Exemplo: consultar uma tabela do SIDRAlibrary(sidrar)tab_pop <-get_sidra(api ="/t/202/n6/all/v/93/p/2022")head(tab_pop)# Exemplo: baixar malha municipal do geobrlibrary(geobr)mg <-read_municipality(code_muni ="MG", year =2022)
2.5.4 Importando CSV
O formato CSV é o mais comum em dados abertos. O R base oferece read.csv(), mas o pacote readr é preferível: é mais rápido, controla melhor os tipos de coluna e lida com codificações de forma explícita.
library(readr)
2.5.4.1 Variantes de read_csv()
No Brasil, muitas fontes públicas usam ponto-e-vírgula como separador (e vírgula como separador decimal) — o padrão europeu. O readr tem funções específicas para isso:
Função
Separador
Decimal
Uso típico
read_csv()
,
.
Padrão internacional
read_csv2()
;
,
Brasil, Europa
read_tsv()
\t (tab)
.
Exportações do SIDRA
read_delim()
qualquer
qualquer
Genérico
# Lendo um CSV com separador vírgula (padrão internacional)df <-read_csv("data/raw/estimativas_2022.csv")# Lendo um CSV brasileiro (separador ";")df <-read_csv2("data/raw/pop_municipios_br.csv",locale =locale(encoding ="latin1") # latin1 = ISO-8859-1; encoding comum em arquivos IBGE antigos)# Lendo diretamente de uma URL (exemplo ilustrativo — substitua pelo endereço real)url <-"https://ftp.ibge.gov.br/Estimativas_de_Populacao/Estimativas_2022/..."df <-read_csv2(url, locale =locale(encoding ="latin1"))
Após a importação, sempre inspecione o resultado:
# Exemplo com dados embutidos (funciona offline)df_est <-data.frame(COD_MUN =c(3106200L, 3170206L, 3118601L, 3136702L, 3106705L),NOME_MUN =c("BELO HORIZONTE", "UBERLÂNDIA", "CONTAGEM","JUIZ DE FORA", "BETIM"),UF =rep("MG", 5),POPULACAO =c(2315560L, 691305L, 661882L, 573285L, 421048L))# Verificação básica pós-importaçãonrow(df_est) # número de linhas
[1] 5
ncol(df_est) # número de colunas
[1] 4
head(df_est, 3) # primeiras linhas
COD_MUN
NOME_MUN
UF
POPULACAO
3106200
BELO HORIZONTE
MG
2315560
3170206
UBERLÂNDIA
MG
691305
3118601
CONTAGEM
MG
661882
2.5.5 Importando Excel
O formato .xls (Excel 97–2003) é muito frequente em arquivos antigos do IBGE — diversos produtos de disseminação do Censo 2010 foram distribuídos em planilhas Excel, por exemplo. Use o pacote readxl:
library(readxl)
# Leitura básicadf_basico <-read_excel("data/raw/Basico_MG.xls")# Principais argumentosdf <-read_excel("data/raw/Basico_MG.xls",sheet ="Plan1", # nome ou número da abaskip =1, # linhas a pular antes do cabeçalhona =c("", "NA", "-", "X", "9999999"), # strings que representam NAcol_types =c("text", "text", rep("numeric", 30)) # forçar tipos)# Listar as abas de uma planilha com múltiplas guiasexcel_sheets("data/raw/pop_faixa_etaria.xlsx")
Aviso
Colunas que deveriam ser numéricas frequentemente chegam como texto em arquivos do IBGE (ex.: código de setor censitário com zeros à esquerda). Use col_types para forçar o tipo correto na importação.
2.5.6 RDS e RData — formatos nativos do R
O R tem dois formatos binários próprios, com comportamentos distintos que vale conhecer:
.rds armazena um único objeto de forma comprimida. Ao carregar, você escolhe o nome do objeto — o que evita sobrescritas acidentais no ambiente.
.RData armazena múltiplos objetos simultaneamente. Ao carregar com load(), todos os objetos são restaurados no ambiente com seus nomes originais — o que pode sobrescrever silenciosamente objetos existentes com o mesmo nome.
Para dados intermediários de um projeto, .rds é a escolha mais segura e previsível. Ambos os formatos preservam integralmente a estrutura e os atributos dos objetos R — fatores, datas, listas aninhadas — sem perda de informação.
# Salvar um objeto em .rdssaveRDS(df_est, "data/processed/estimativas_mg.rds")# Carregar — você escolhe o nome do objetoestimativas <-readRDS("data/processed/estimativas_mg.rds")# Confirmar que o objeto é idêntico ao originalidentical(df_est, estimativas)# Salvar múltiplos objetos em .RDatasave(df_est, estimativas, file ="data/processed/dados_mg.RData")# Carregar — os objetos voltam com seus nomes originaisload("data/processed/dados_mg.RData")
Dica
Use .rds (e não .csv) para dados intermediários. O CSV não preserva classes e atributos dos objetos — datas, fatores, fusos horários e metadados se perdem na escrita e precisam ser reconstruídos na leitura; o .rds os mantém intactos. Reserve o .RData para quando precisar salvar e restaurar múltiplos objetos de uma vez.
2.5.7 Parquet — leitura de dados colunares
O formato Parquet armazena dados de forma colunar e comprimida e, diferentemente do CSV, inclui metadados sobre os tipos das variáveis — o que elimina ambiguidades na importação e evita a necessidade de especificar tipos manualmente. Sua adoção cresce em fluxos de trabalho com microdados de grande volume; pacotes modernos de acesso a dados públicos, como o censobr, frequentemente utilizam Parquet para otimizar armazenamento e leitura. A leitura no R é feita com o pacote arrow:
# install.packages("arrow")library(arrow)# Ler um arquivo Parquetdf <-read_parquet("data/raw/microdados.parquet")# Leitura seletiva de colunas — muito mais eficiente em bases grandesdf_sel <-read_parquet("data/raw/microdados.parquet",col_select =c("V0001", "V0010", "V0601") # só as colunas necessárias)
Dica
Para bases com milhões de linhas, ler apenas as colunas necessárias com col_select reduz drasticamente o uso de memória e o tempo de carregamento.
Lista de verificações recomendadas para qualquer importação:
Encoding: sempre especifique (latin1 / ISO-8859-1 para arquivos IBGE antigos, UTF-8 para arquivos modernos)
Número de linhas: confira com o total esperado da fonte
Tipos de coluna: confira com str() ou glimpse() — colunas numéricas não devem aparecer como chr
Valores ausentes: identifique sentinelas comuns do IBGE (-99, 9999999, "X")
Duplicados: verifique com duplicated() — registros duplicados são comuns em bases administrativas
Dados brutos intocados:nunca edite o arquivo original — toda transformação deve estar no script
Importante
Importar dados não equivale a confiar neles. A etapa seguinte é sempre validar se a estrutura do arquivo corresponde à documentação da fonte — dicionário de dados, layout de variáveis ou nota metodológica. Divergências entre o arquivo e a documentação revelam problemas que nenhuma função de importação detecta automaticamente.
2.6 Resumo do capítulo
Este capítulo deslocou o foco do método (ciência de dados, capítulo anterior) para o seu objeto mais comum neste curso: a estatística produzida pelo Estado. Os pontos principais são:
Estatística pública é, por definição, produzida pelo Estado. Ela informa sobre população, renda, trabalho e outros temas de interesse coletivo, e cumpre a função de tornar realidades distantes ou ausentes conhecidas — e, portanto, governáveis.
A expansão da estatística pública acompanha a expansão do Estado. Das listas paroquiais à contabilidade nacional, cada onda de novas estatísticas correspondeu a uma nova função que o Estado assumiu — recrutamento e impostos, saúde pública, proteção ao trabalho, regulação macroeconômica, indicadores sociais e ambientais. O Brasil tem seus próprios marcos nessa trajetória, do Censo Demográfico (desde 1872) à PNAD (desde 1967).
A relação entre sistema estatístico e políticas públicas é de mão dupla. As políticas pautam a expansão das estatísticas, mas as estatísticas também aprimoram a ação pública, ao revelar realidades e permitir avaliar políticas e programas.
Classificar estatísticas ajuda tanto a organizá-las quanto a identificar lacunas. A Classificação de Informações Estatísticas do IBGE organiza a produção nacional por domínio temático; uma segunda classificação, por fonte de produção — censos, pesquisas amostrais, registros administrativos, big data —, é especialmente útil para quem vai manipular esses dados.
Este sistema é o solo sobre o qual o curso vai trabalhar. Os dados que vamos importar, organizar e analisar nos capítulos seguintes — Censo, PNAD, RAIS — não surgem do nada: são produtos de um sistema estatístico com história, institucionalidade e regras de classificação próprias. Entender esse pano de fundo é parte do trabalho de quem faz ciência de dados aplicada a estatísticas públicas.
DESROSIÈRES, Alain. Do singular ao geral: a informação estatística e a construção do Estado. Em: Rio de Janeiro: IBGE, 1996.
IBGE. Classificação de Informações Estatísticas – CIE: versão 1.0. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística, 2024.
JANNUZZI, Paulo de Martino. Estatísticas e políticas públicas orientadas por evidências no Brasil: o caso das políticas de desenvolvimento social nos anos 2000. Revista Brasileira de Geografia, v. 64, n. 1, p. 37–54, 2019.
SCHWARTZMAN, Simon. TÍTULO A CONFIRMAR. Em: OBRA A CONFIRMAR. [S.l.: S.n.].
SCHWARTZMAN, Simon. Legitimidade, controvérsias e traduções em estatísticas públicas. Teoria & Sociedade, v. 2, p. 9, 1997.
SENRA, Nelson de Castro. O saber e o poder das estatísticas: uma história das relações das estatísticas com os estados nacionais e com as ciências. Rio de Janeiro: IBGE, 2005.
WICKHAM, Hadley. Tidy data. Journal of Statistical Software, v. 59, n. 10, 2014.
ZUMEL, Nina; MOUNT, John. Practical Data Science with R. 2. ed. Shelter Island: Manning Publications, 2019.