nome_projeto <- "Análise de estatísticas de MG"
ano_referencia <- 2022
em_andamento <- TRUE
nome_projeto[1] "Análise de estatísticas de MG"
ano_referencia[1] 2022
em_andamento[1] TRUE
Os capítulos anteriores definiram o que é estatística e descreveram o sistema que a produz no Brasil. Este capítulo muda de registro: em vez de olhar a estatística de fora, como objeto de estudo, ele a olha de dentro — como ferramenta de trabalho e como informação que circula todos os dias na imprensa, nas políticas públicas e no debate público. O objetivo é desenvolver duas habilidades complementares e igualmente necessárias a quem trabalha com gestão pública: usar a estatística para responder perguntas, e ler criticamente as estatísticas que outras pessoas produzem.
A estatística desempenha um papel fundamental na pesquisa científica e na análise de políticas públicas: pode ser a ferramenta que permite responder a uma pergunta de pesquisa, testar uma hipótese sobre um programa, ou comparar municípios e grupos populacionais. Mas essa não é a única razão para estudá-la.
Pegue qualquer jornal ou revista de notícias: é quase certo que você encontre, em poucos minutos, alguma manchete construída sobre dados — uma taxa de desemprego, uma pesquisa de opinião, uma comparação entre municípios ou países. O mesmo vale para campanhas políticas e análises econômicas. Quem trabalha com gestão pública não é apenas produtor de estatística; é, também e talvez sobretudo, seu leitor mais frequente — e precisa ser um leitor crítico e informado.
Toda estatística é produzida por alguém e por alguma razão. Antes de aceitar uma conclusão baseada em dados, vale perguntar: quem gerou essa estatística? Por que foi gerada — qual o intuito? E, sobretudo, como foi criada — qual a metodologia? Essa última pergunta é a mais importante de todas: ela é o que separa uma estatística confiável de uma que apenas parece confiável.
No primeiro capítulo, distinguimos a estatística descritiva da estatística inferencial — uma divisão clássica, também adotada por Agresti; Finlay (2009) e pela maioria dos manuais de métodos quantitativos para ciências sociais. Na prática, porém, o trabalho estatístico envolve uma terceira função, anterior às outras duas: o desenho.
Desenho é o planejamento da coleta de dados antes de qualquer análise — o desenho de uma pesquisa amostral, de um experimento, de um formulário. Decisões tomadas nessa etapa (quem será entrevistado, como, com que perguntas) determinam o que será possível afirmar depois, e nenhuma técnica de análise — por sofisticada que seja — compensa um desenho de coleta malfeito.
Descrição é a sumarização dos dados já coletados: “contar a história” que eles revelam, por meio de estatísticas que resumem as características de uma população ou amostra — médias, proporções, gráficos, tabelas.
Inferência usa os dados observados — tipicamente uma amostra — para produzir afirmações sobre a população ou o fenômeno mais amplo que não foi observado diretamente, atribuindo a essas afirmações uma margem de incerteza calculável.
As três funções formam, na prática, uma sequência: primeiro se decide como os dados serão obtidos (desenho); depois se descreve o que foi observado (descrição); por fim, generaliza-se — com cautela — para além do que foi observado (inferência).
Groves et al. (2004) definem pesquisa quantitativa, em linhas gerais, como um método sistemático para obter informação de unidades de pesquisa com o objetivo de construir descrições quantitativas dos atributos de uma população. Trata-se de um processo lógico de investigação que permite compreender um fenômeno e como ele afeta uma população — ou, em termos mais operacionais, o processo de identificação, obtenção, tratamento, análise, apresentação e disseminação de informações estatísticas para atender a uma demanda.
Note a semelhança com o pipeline de ciência de dados apresentado no Capítulo 1: importar, arrumar, transformar, visualizar, modelar e comunicar. A pesquisa quantitativa e a ciência de dados aplicada a estatísticas públicas compartilham, no fundo, a mesma lógica de processo — a diferença está em que a primeira nasce no campo da metodologia de pesquisa social, e a segunda, na interseção entre estatística, computação e domínio de aplicação.
Diante de qualquer estatística divulgada na imprensa ou em um relatório de governo, vale fazer uma análise crítica das conclusões, verificando o desenho da coleta de dados que está por trás dela. Algumas perguntas básicas: a pesquisa é amostral? A amostra é aleatória? Qual o seu tamanho? Como foram formuladas as perguntas no questionário? Quem financiou o estudo? Quem o conduziu? É possível generalizar os resultados para além do que foi pesquisado? Como regra geral, quanto menos informação estiver disponível sobre esses pontos, menos confiável tende a ser a estatística.
Utts (1999) propõe um roteiro mais detalhado para avaliar relatos estatísticos, organizado em sete elementos fundamentais que toda boa reportagem ou relatório deveria deixar claros:
| Elemento | O que verificar |
|---|---|
| Fonte e financiamento | Quem produziu e quem pagou pela pesquisa? |
| Contato com os respondentes | Como os pesquisadores chegaram até as pessoas entrevistadas? |
| Seleção dos indivíduos | Como a amostra foi selecionada? |
| Natureza das medidas | Que perguntas exatamente foram feitas? |
| Ambiente de obtenção dos dados | Em que contexto os dados foram coletados? |
| Diferenças entre grupos | Os grupos comparados são, de fato, comparáveis? |
| Magnitude dos efeitos | A diferença encontrada é grande o suficiente para importar? |
Fonte: elaborado a partir de Utts (1999).
Para discutir em sala
A imprensa divulga uma lista dos “piores” municípios de um estado em relação a uma epidemia, com o município mais populoso aparecendo como “campeão” por ter o maior número absoluto de casos confirmados. Essa seria uma comparação justa? Que outra forma de apresentar os números permitiria uma comparação mais adequada entre municípios de tamanhos diferentes?
A discussão anterior trata de como qualquer pessoa pode avaliar criticamente uma estatística. Mas existe também um conjunto de compromissos que os próprios órgãos produtores de estatística oficial assumem, justamente para que suas estatísticas resistam a esse escrutínio.
Os Princípios Fundamentais das Estatísticas Oficiais, adotados pela Comissão de Estatística das Nações Unidas em 1994 e reafirmados pela Assembleia Geral da ONU em 2014, sintetizam esses compromissos:
| Princípio | Síntese |
|---|---|
| 1. Relevância, imparcialidade e igualdade de acesso | As estatísticas oficiais atendem ao governo, à economia e ao público de forma imparcial |
| 2. Padrões profissionais e ética | Métodos e procedimentos são escolhidos por critérios técnicos, não políticos |
| 3. Transparência | Fontes, métodos e procedimentos são divulgados para permitir interpretação correta |
| 4. Prevenção do uso indevido | Os órgãos de estatística podem e devem se manifestar sobre interpretações erradas |
| 5. Diversidade de fontes | Pesquisas ou registros administrativos, escolhidos por qualidade, custo e ônus ao respondente |
| 6. Confidencialidade | Dados individuais são usados exclusivamente para fins estatísticos |
| 7. Base legal | Leis e regulamentos que regem o sistema estatístico são públicos |
| 8. Coordenação nacional | Órgãos do sistema estatístico se coordenam entre si |
| 9. Padrões internacionais | Conceitos, classificações e métodos seguem referências internacionais |
| 10. Cooperação internacional | Cooperação bilateral e multilateral fortalece os sistemas nacionais |
Fonte: elaborado a partir de Organização das Nações Unidas (1994).
No Brasil, o IBGE detalha esses compromissos em seu próprio Código de Boas Práticas das Estatísticas, que os desdobra em dezessete princípios mais operacionais — da independência institucional ao sigilo estatístico, da metodologia sólida à coerência e comparabilidade dos resultados (IBGE, 2013).
Uma forma complementar de pensar a qualidade de uma estatística é o sistema de referência da OCDE, que organiza a avaliação em oito dimensões: relevância (atende às necessidades dos usuários?), acurácia (proximidade do valor verdadeiro, mas desconhecido?), credibilidade (confiança do usuário no produtor?), atualidade (intervalo entre o fenômeno e sua divulgação?), acessibilidade, interpretabilidade, coerência (consistência entre diferentes dados?) e custo-benefício (OECD Statistics Directorate, 2012). Esse framework é útil tanto para avaliar estatísticas de terceiros quanto para planejar a própria coleta de dados — voltando, assim, à etapa de desenho com que abrimos este capítulo.
A estatística tem três funções complementares. Desenho (planejar a coleta), descrição (resumir o que foi observado) e inferência (generalizar com cautela) formam uma sequência que precede qualquer análise de dados públicos.
Pesquisa quantitativa segue uma lógica de processo. Da identificação da demanda à disseminação dos resultados, esse processo espelha o pipeline de ciência de dados apresentado no Capítulo 1.
Toda estatística pode — e deve — ser lida criticamente. Os sete elementos de Utts e o checklist de perguntas sobre amostra, financiamento e metodologia ajudam a separar relatos estatísticos confiáveis dos que apenas parecem confiáveis.
Órgãos produtores de estatística oficial assumem compromissos formais de qualidade. Os Princípios Fundamentais da ONU, o Código de Boas Práticas do IBGE e o sistema de dimensões da OCDE são três formas, em escalas diferentes, de operacionalizar esse compromisso.
Ler e produzir estatística são habilidades da mesma natureza. No próximo capítulo, voltamos a atenção para a etapa que antecede tanto a leitura crítica quanto a produção de qualquer estatística: decidir o que e como medir.
Referência principal: Zumel; Mount (2019), Cap. 2.
Pré-requisitos: Capítulos 1 e 2 concluídos. Não são necessários pacotes externos neste laboratório.
<-No R, tudo o que você cria é um objeto — e objetos são armazenados na memória com um nome. O operador de atribuição é <-:
nome_projeto <- "Análise de estatísticas de MG"
ano_referencia <- 2022
em_andamento <- TRUE
nome_projeto[1] "Análise de estatísticas de MG"
ano_referencia[1] 2022
em_andamento[1] TRUE
O operador = também funciona para atribuição, mas <- é a convenção adotada pelo tidyverse e pela comunidade R — use-o.
Para verificar o tipo de qualquer objeto:
class(nome_projeto) # "character"[1] "character"
class(ano_referencia) # "numeric"[1] "numeric"
class(em_andamento) # "logical"[1] "logical"
O R tem quatro tipos atômicos fundamentais — os blocos básicos com os quais todos os dados são construídos:
Números reais (com ou sem casas decimais). É o tipo padrão para qualquer número no R.
populacao_mg <- 21292666 # Censo 2022
pib_per_capita <- 32840.5
class(populacao_mg)[1] "numeric"
Números inteiros, armazenados de forma mais eficiente que numeric. Identificados pelo sufixo L.
n_municipios <- 853L
class(n_municipios)[1] "integer"
is.integer(n_municipios)[1] TRUE
Texto — sempre entre aspas simples ou duplas.
estado <- "Minas Gerais"
sigla <- "MG"
class(estado)[1] "character"
Valores booleanos: TRUE ou FALSE (sempre em maiúsculas). Resultam naturalmente de comparações.
capital_federal <- FALSE
tem_litoral <- FALSE
# Comparações produzem lógicos
populacao_mg > 20000000 # TRUE[1] TRUE
sigla == "SP" # FALSE[1] FALSE
No R, quase tudo é um vetor. Mesmo um único número é um vetor de comprimento 1. Vetores são criados com c() (combine):
municipios <- c("Belo Horizonte", "Uberlândia", "Contagem", "Juiz de Fora", "Betim")
populacoes <- c(2315560, 691305, 661882, 573285, 421048) # Censo 2022
capitais <- c(TRUE, FALSE, FALSE, FALSE, FALSE)
length(municipios) # comprimento do vetor[1] 5
Para acessar elementos, use colchetes []. Em R, índices começam em 1, não em 0:
municipios[1] # primeiro elemento[1] "Belo Horizonte"
municipios[3] # terceiro elemento[1] "Contagem"
municipios[c(1, 3)] # primeiro e terceiro[1] "Belo Horizonte" "Contagem"
municipios[2:4] # elementos 2 a 4 (sequência)[1] "Uberlândia" "Contagem" "Juiz de Fora"
# Indexação lógica — elementos que satisfazem uma condição
populacoes[populacoes > 600000][1] 2315560 691305 661882
municipios[populacoes > 600000] # os nomes correspondentes[1] "Belo Horizonte" "Uberlândia" "Contagem"
Quando dois vetores têm comprimentos diferentes, o mais curto é reciclado:
# O vetor c(1, 2) é reciclado para c(1, 2, 1, 2, 1, 2)
c(10, 20, 30, 40, 50, 60) + c(1, 2)[1] 11 22 31 42 51 62
Isso é útil em alguns contextos, mas pode causar bugs silenciosos — o R emite um aviso quando o comprimento do maior não é múltiplo do menor.
A principal característica do R é que operações se aplicam a todos os elementos do vetor de uma vez, sem necessidade de loop:
total_pop <- sum(populacoes)
perc_pop <- round(populacoes / total_pop * 100, 1)
# Nomes ajudam a interpretar o resultado
names(perc_pop) <- municipios
perc_popBelo Horizonte Uberlândia Contagem Juiz de Fora Betim
49.7 14.8 14.2 12.3 9.0
Funções matemáticas comuns para vetores numéricos:
pop <- c(2315560, 691305, 661882, 573285, 421048)
mean(pop) # média[1] 932616
median(pop) # mediana[1] 661882
sd(pop) # desvio padrão[1] 780205.5
var(pop) # variância[1] 608720647700
min(pop) # mínimo[1] 421048
max(pop) # máximo[1] 2315560
sum(pop) # soma[1] 4663080
range(pop) # vetor com min e max[1] 421048 2315560
summary(pop) # resumo de cinco números + média Min. 1st Qu. Median Mean 3rd Qu. Max.
421048 573285 661882 932616 691305 2315560
O R tem quatro valores especiais que você encontrará com frequência em dados públicos:
| Valor | Significado | Quando aparece |
|---|---|---|
NA |
Not Available — valor ausente | Dado não coletado, recusado ou perdido |
NaN |
Not a Number — resultado indefinido | 0/0, sqrt(-1) |
Inf |
Infinito | 1/0 |
NULL |
Objeto inexistente/vazio | Resultado de função sem retorno |
O NA é o valor ausente do R. Em dados públicos brasileiros, valores ausentes costumam chegar como -99, 9999, "X" ou células em branco — é necessário convertê-los para NA durante a importação ou limpeza.
renda_setores <- c(3200, NA, 4100, NA, 2800, 5600)
sum(renda_setores) # NA — o NA "contamina"[1] NA
sum(renda_setores, na.rm = TRUE) # correto: ignorar NA[1] 15700
mean(renda_setores, na.rm = TRUE)[1] 3925
# Detectar e localizar NAs
is.na(renda_setores) # vetor lógico: TRUE onde há NA[1] FALSE TRUE FALSE TRUE FALSE FALSE
which(is.na(renda_setores)) # posições dos NAs[1] 2 4
sum(is.na(renda_setores)) # contagem total de NAs[1] 2
Nunca use == NA para testar ausência. O resultado é sempre NA, não TRUE. Use sempre is.na().
renda_setores == NA # incorreto — produz NA em toda posição[1] NA NA NA NA NA NA
is.na(renda_setores) # correto[1] FALSE TRUE FALSE TRUE FALSE FALSE
Um vetor só pode conter um tipo. Se você misturar tipos, o R faz coerção automática para o tipo mais geral, seguindo a hierarquia: logical < integer < numeric < character.
c(TRUE, 1L, 3.14) # lógico e inteiro viram numeric[1] 1.00 1.00 3.14
c(TRUE, 1L, 3.14, "texto") # tudo vira character[1] "TRUE" "1" "3.14" "texto"
Isso explica por que uma coluna inteira pode aparecer como texto se houver apenas uma célula com um caractere não numérico.