3 Princípios e usos da estatística

Data de Publicação

16 de junho de 2026

Os capítulos anteriores definiram o que é estatística e descreveram o sistema que a produz no Brasil. Este capítulo muda de registro: em vez de olhar a estatística de fora, como objeto de estudo, ele a olha de dentro — como ferramenta de trabalho e como informação que circula todos os dias na imprensa, nas políticas públicas e no debate público. O objetivo é desenvolver duas habilidades complementares e igualmente necessárias a quem trabalha com gestão pública: usar a estatística para responder perguntas, e ler criticamente as estatísticas que outras pessoas produzem.

3.1 Por que um gestor público precisa de estatística?

A estatística desempenha um papel fundamental na pesquisa científica e na análise de políticas públicas: pode ser a ferramenta que permite responder a uma pergunta de pesquisa, testar uma hipótese sobre um programa, ou comparar municípios e grupos populacionais. Mas essa não é a única razão para estudá-la.

Pegue qualquer jornal ou revista de notícias: é quase certo que você encontre, em poucos minutos, alguma manchete construída sobre dados — uma taxa de desemprego, uma pesquisa de opinião, uma comparação entre municípios ou países. O mesmo vale para campanhas políticas e análises econômicas. Quem trabalha com gestão pública não é apenas produtor de estatística; é, também e talvez sobretudo, seu leitor mais frequente — e precisa ser um leitor crítico e informado.

Toda estatística é produzida por alguém e por alguma razão. Antes de aceitar uma conclusão baseada em dados, vale perguntar: quem gerou essa estatística? Por que foi gerada — qual o intuito? E, sobretudo, como foi criada — qual a metodologia? Essa última pergunta é a mais importante de todas: ela é o que separa uma estatística confiável de uma que apenas parece confiável.

3.2 Três funções da estatística: desenho, descrição e inferência

No primeiro capítulo, distinguimos a estatística descritiva da estatística inferencial — uma divisão clássica, também adotada por Agresti; Finlay (2009) e pela maioria dos manuais de métodos quantitativos para ciências sociais. Na prática, porém, o trabalho estatístico envolve uma terceira função, anterior às outras duas: o desenho.

Desenho é o planejamento da coleta de dados antes de qualquer análise — o desenho de uma pesquisa amostral, de um experimento, de um formulário. Decisões tomadas nessa etapa (quem será entrevistado, como, com que perguntas) determinam o que será possível afirmar depois, e nenhuma técnica de análise — por sofisticada que seja — compensa um desenho de coleta malfeito.

Descrição é a sumarização dos dados já coletados: “contar a história” que eles revelam, por meio de estatísticas que resumem as características de uma população ou amostra — médias, proporções, gráficos, tabelas.

Inferência usa os dados observados — tipicamente uma amostra — para produzir afirmações sobre a população ou o fenômeno mais amplo que não foi observado diretamente, atribuindo a essas afirmações uma margem de incerteza calculável.

As três funções formam, na prática, uma sequência: primeiro se decide como os dados serão obtidos (desenho); depois se descreve o que foi observado (descrição); por fim, generaliza-se — com cautela — para além do que foi observado (inferência).

3.3 Pesquisa quantitativa: da pergunta à disseminação

Groves et al. (2004) definem pesquisa quantitativa, em linhas gerais, como um método sistemático para obter informação de unidades de pesquisa com o objetivo de construir descrições quantitativas dos atributos de uma população. Trata-se de um processo lógico de investigação que permite compreender um fenômeno e como ele afeta uma população — ou, em termos mais operacionais, o processo de identificação, obtenção, tratamento, análise, apresentação e disseminação de informações estatísticas para atender a uma demanda.

Note a semelhança com o pipeline de ciência de dados apresentado no Capítulo 1: importar, arrumar, transformar, visualizar, modelar e comunicar. A pesquisa quantitativa e a ciência de dados aplicada a estatísticas públicas compartilham, no fundo, a mesma lógica de processo — a diferença está em que a primeira nasce no campo da metodologia de pesquisa social, e a segunda, na interseção entre estatística, computação e domínio de aplicação.

3.4 Separando as boas estatísticas das más

Diante de qualquer estatística divulgada na imprensa ou em um relatório de governo, vale fazer uma análise crítica das conclusões, verificando o desenho da coleta de dados que está por trás dela. Algumas perguntas básicas: a pesquisa é amostral? A amostra é aleatória? Qual o seu tamanho? Como foram formuladas as perguntas no questionário? Quem financiou o estudo? Quem o conduziu? É possível generalizar os resultados para além do que foi pesquisado? Como regra geral, quanto menos informação estiver disponível sobre esses pontos, menos confiável tende a ser a estatística.

Utts (1999) propõe um roteiro mais detalhado para avaliar relatos estatísticos, organizado em sete elementos fundamentais que toda boa reportagem ou relatório deveria deixar claros:

Tabela 3.1: Sete elementos fundamentais de um relato estatístico

Elemento	O que verificar
Fonte e financiamento	Quem produziu e quem pagou pela pesquisa?
Contato com os respondentes	Como os pesquisadores chegaram até as pessoas entrevistadas?
Seleção dos indivíduos	Como a amostra foi selecionada?
Natureza das medidas	Que perguntas exatamente foram feitas?
Ambiente de obtenção dos dados	Em que contexto os dados foram coletados?
Diferenças entre grupos	Os grupos comparados são, de fato, comparáveis?
Magnitude dos efeitos	A diferença encontrada é grande o suficiente para importar?

Fonte: elaborado a partir de Utts (1999).

Dica

Para discutir em sala

A imprensa divulga uma lista dos “piores” municípios de um estado em relação a uma epidemia, com o município mais populoso aparecendo como “campeão” por ter o maior número absoluto de casos confirmados. Essa seria uma comparação justa? Que outra forma de apresentar os números permitiria uma comparação mais adequada entre municípios de tamanhos diferentes?

3.5 Princípios e qualidade da estatística oficial

A discussão anterior trata de como qualquer pessoa pode avaliar criticamente uma estatística. Mas existe também um conjunto de compromissos que os próprios órgãos produtores de estatística oficial assumem, justamente para que suas estatísticas resistam a esse escrutínio.

Os Princípios Fundamentais das Estatísticas Oficiais, adotados pela Comissão de Estatística das Nações Unidas em 1994 e reafirmados pela Assembleia Geral da ONU em 2014, sintetizam esses compromissos:

Tabela 3.2: Princípios Fundamentais das Estatísticas Oficiais

Princípio	Síntese
1. Relevância, imparcialidade e igualdade de acesso	As estatísticas oficiais atendem ao governo, à economia e ao público de forma imparcial
2. Padrões profissionais e ética	Métodos e procedimentos são escolhidos por critérios técnicos, não políticos
3. Transparência	Fontes, métodos e procedimentos são divulgados para permitir interpretação correta
4. Prevenção do uso indevido	Os órgãos de estatística podem e devem se manifestar sobre interpretações erradas
5. Diversidade de fontes	Pesquisas ou registros administrativos, escolhidos por qualidade, custo e ônus ao respondente
6. Confidencialidade	Dados individuais são usados exclusivamente para fins estatísticos
7. Base legal	Leis e regulamentos que regem o sistema estatístico são públicos
8. Coordenação nacional	Órgãos do sistema estatístico se coordenam entre si
9. Padrões internacionais	Conceitos, classificações e métodos seguem referências internacionais
10. Cooperação internacional	Cooperação bilateral e multilateral fortalece os sistemas nacionais

Fonte: elaborado a partir de Organização das Nações Unidas (1994).

No Brasil, o IBGE detalha esses compromissos em seu próprio Código de Boas Práticas das Estatísticas, que os desdobra em dezessete princípios mais operacionais — da independência institucional ao sigilo estatístico, da metodologia sólida à coerência e comparabilidade dos resultados (IBGE, 2013).

Uma forma complementar de pensar a qualidade de uma estatística é o sistema de referência da OCDE, que organiza a avaliação em oito dimensões: relevância (atende às necessidades dos usuários?), acurácia (proximidade do valor verdadeiro, mas desconhecido?), credibilidade (confiança do usuário no produtor?), atualidade (intervalo entre o fenômeno e sua divulgação?), acessibilidade, interpretabilidade, coerência (consistência entre diferentes dados?) e custo-benefício (OECD Statistics Directorate, 2012). Esse framework é útil tanto para avaliar estatísticas de terceiros quanto para planejar a própria coleta de dados — voltando, assim, à etapa de desenho com que abrimos este capítulo.

3.6 Resumo do capítulo

A estatística tem três funções complementares. Desenho (planejar a coleta), descrição (resumir o que foi observado) e inferência (generalizar com cautela) formam uma sequência que precede qualquer análise de dados públicos.

Pesquisa quantitativa segue uma lógica de processo. Da identificação da demanda à disseminação dos resultados, esse processo espelha o pipeline de ciência de dados apresentado no Capítulo 1.

Toda estatística pode — e deve — ser lida criticamente. Os sete elementos de Utts e o checklist de perguntas sobre amostra, financiamento e metodologia ajudam a separar relatos estatísticos confiáveis dos que apenas parecem confiáveis.

Órgãos produtores de estatística oficial assumem compromissos formais de qualidade. Os Princípios Fundamentais da ONU, o Código de Boas Práticas do IBGE e o sistema de dimensões da OCDE são três formas, em escalas diferentes, de operacionalizar esse compromisso.

Ler e produzir estatística são habilidades da mesma natureza. No próximo capítulo, voltamos a atenção para a etapa que antecede tanto a leitura crítica quanto a produção de qualquer estatística: decidir o que e como medir.

3.7 Objetos, vetores e tipos básicos no R

Nota

Referência principal: Zumel; Mount (2019), Cap. 2.

Pré-requisitos: Capítulos 1 e 2 concluídos. Não são necessários pacotes externos neste laboratório.

3.7.1 Objetivos

Criar e nomear objetos no R com o operador <-
Compreender os quatro tipos atômicos fundamentais
Criar vetores, indexá-los e operar sobre eles de forma vetorizada
Identificar e lidar com valores especiais (NA, NaN, Inf, NULL)

3.7.2 Objetos e o operador de atribuição

No R, tudo o que você cria é um objeto — e objetos são armazenados na memória com um nome. O operador de atribuição é <-:

nome_projeto <- "Análise de estatísticas de MG"
ano_referencia <- 2022
em_andamento   <- TRUE

nome_projeto

[1] "Análise de estatísticas de MG"

ano_referencia

[1] 2022

em_andamento

[1] TRUE

O operador = também funciona para atribuição, mas <- é a convenção adotada pelo tidyverse e pela comunidade R — use-o.

Para verificar o tipo de qualquer objeto:

class(nome_projeto)     # "character"

[1] "character"

class(ano_referencia)   # "numeric"

[1] "numeric"

class(em_andamento)     # "logical"

[1] "logical"

3.7.3 Tipos atômicos

O R tem quatro tipos atômicos fundamentais — os blocos básicos com os quais todos os dados são construídos:

3.7.3.1 Numeric

Números reais (com ou sem casas decimais). É o tipo padrão para qualquer número no R.

populacao_mg   <- 21292666     # Censo 2022
pib_per_capita <- 32840.5

class(populacao_mg)

[1] "numeric"

3.7.3.2 Integer

Números inteiros, armazenados de forma mais eficiente que numeric. Identificados pelo sufixo L.

n_municipios <- 853L
class(n_municipios)

[1] "integer"

is.integer(n_municipios)

[1] TRUE

3.7.3.3 Character

Texto — sempre entre aspas simples ou duplas.

estado <- "Minas Gerais"
sigla  <- "MG"
class(estado)

[1] "character"

3.7.3.4 Logical

Valores booleanos: TRUE ou FALSE (sempre em maiúsculas). Resultam naturalmente de comparações.

capital_federal <- FALSE
tem_litoral     <- FALSE

# Comparações produzem lógicos
populacao_mg > 20000000    # TRUE

[1] TRUE

sigla == "SP"              # FALSE

[1] FALSE

3.7.4 Vetores — a estrutura fundamental do R

No R, quase tudo é um vetor. Mesmo um único número é um vetor de comprimento 1. Vetores são criados com c() (combine):

municipios <- c("Belo Horizonte", "Uberlândia", "Contagem", "Juiz de Fora", "Betim")
populacoes <- c(2315560, 691305, 661882, 573285, 421048)    # Censo 2022
capitais   <- c(TRUE, FALSE, FALSE, FALSE, FALSE)

length(municipios)   # comprimento do vetor

[1] 5

3.7.4.1 Indexação

Para acessar elementos, use colchetes []. Em R, índices começam em 1, não em 0:

municipios[1]          # primeiro elemento

[1] "Belo Horizonte"

municipios[3]          # terceiro elemento

[1] "Contagem"

municipios[c(1, 3)]    # primeiro e terceiro

[1] "Belo Horizonte" "Contagem"

municipios[2:4]        # elementos 2 a 4 (sequência)

[1] "Uberlândia"   "Contagem"     "Juiz de Fora"

# Indexação lógica — elementos que satisfazem uma condição
populacoes[populacoes > 600000]

[1] 2315560  691305  661882

municipios[populacoes > 600000]    # os nomes correspondentes

[1] "Belo Horizonte" "Uberlândia"     "Contagem"

3.7.4.2 Regra de reciclagem

Quando dois vetores têm comprimentos diferentes, o mais curto é reciclado:

# O vetor c(1, 2) é reciclado para c(1, 2, 1, 2, 1, 2)
c(10, 20, 30, 40, 50, 60) + c(1, 2)

[1] 11 22 31 42 51 62

Isso é útil em alguns contextos, mas pode causar bugs silenciosos — o R emite um aviso quando o comprimento do maior não é múltiplo do menor.

3.7.5 Operações vetorizadas

A principal característica do R é que operações se aplicam a todos os elementos do vetor de uma vez, sem necessidade de loop:

total_pop <- sum(populacoes)
perc_pop  <- round(populacoes / total_pop * 100, 1)

# Nomes ajudam a interpretar o resultado
names(perc_pop) <- municipios
perc_pop

Belo Horizonte     Uberlândia       Contagem   Juiz de Fora          Betim 
          49.7           14.8           14.2           12.3            9.0

Funções matemáticas comuns para vetores numéricos:

pop <- c(2315560, 691305, 661882, 573285, 421048)

mean(pop)      # média

[1] 932616

median(pop)    # mediana

[1] 661882

sd(pop)        # desvio padrão

[1] 780205.5

var(pop)       # variância

[1] 608720647700

min(pop)       # mínimo

[1] 421048

max(pop)       # máximo

[1] 2315560

sum(pop)       # soma

[1] 4663080

range(pop)     # vetor com min e max

[1]  421048 2315560

summary(pop)   # resumo de cinco números + média

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 421048  573285  661882  932616  691305 2315560

3.7.6 Valores especiais

O R tem quatro valores especiais que você encontrará com frequência em dados públicos:

Valor	Significado	Quando aparece
`NA`	Not Available — valor ausente	Dado não coletado, recusado ou perdido
`NaN`	Not a Number — resultado indefinido	`0/0`, `sqrt(-1)`
`Inf`	Infinito	`1/0`
`NULL`	Objeto inexistente/vazio	Resultado de função sem retorno

3.7.6.1 NA — o tipo mais importante na prática

O NA é o valor ausente do R. Em dados públicos brasileiros, valores ausentes costumam chegar como -99, 9999, "X" ou células em branco — é necessário convertê-los para NA durante a importação ou limpeza.

renda_setores <- c(3200, NA, 4100, NA, 2800, 5600)

sum(renda_setores)                    # NA — o NA "contamina"

[1] NA

sum(renda_setores, na.rm = TRUE)      # correto: ignorar NA

[1] 15700

mean(renda_setores, na.rm = TRUE)

[1] 3925

# Detectar e localizar NAs
is.na(renda_setores)          # vetor lógico: TRUE onde há NA

[1] FALSE  TRUE FALSE  TRUE FALSE FALSE

which(is.na(renda_setores))   # posições dos NAs

[1] 2 4

sum(is.na(renda_setores))     # contagem total de NAs

[1] 2

Aviso

Nunca use == NA para testar ausência. O resultado é sempre NA, não TRUE. Use sempre is.na().

renda_setores == NA     # incorreto — produz NA em toda posição

[1] NA NA NA NA NA NA

is.na(renda_setores)    # correto

[1] FALSE  TRUE FALSE  TRUE FALSE FALSE

3.7.7 Coerção — mistura de tipos em um vetor

Um vetor só pode conter um tipo. Se você misturar tipos, o R faz coerção automática para o tipo mais geral, seguindo a hierarquia: logical < integer < numeric < character.

c(TRUE, 1L, 3.14)          # lógico e inteiro viram numeric

[1] 1.00 1.00 3.14

c(TRUE, 1L, 3.14, "texto") # tudo vira character

[1] "TRUE"  "1"     "3.14"  "texto"

Isso explica por que uma coluna inteira pode aparecer como texto se houver apenas uma célula com um caractere não numérico.

AGRESTI, Alan; FINLAY, Barbara. Statistical Methods for the Social Sciences. 4. ed. Upper Saddle River: Pearson Prentice Hall, 2009.

GROVES, Robert M. et al. Survey Methodology. Hoboken: John Wiley & Sons, 2004.

IBGE. Código de Boas Práticas das Estatísticas do IBGE. Rio de Janeiro: Instituto Brasileiro de Geografia e Estatística, 2013.

OECD STATISTICS DIRECTORATE. Quality Framework and Guidelines for OECD Statistical Activities. Paris: OECD, 2012.

ORGANIZAÇÃO DAS NAÇÕES UNIDAS. Princípios Fundamentais das Estatísticas Oficiais. Nova York: ONU, 1994.

UTTS, Jessica M. Seeing Through Statistics. 3. ed. Pacific Grove: Duxbury Press, 1999.

ZUMEL, Nina; MOUNT, John. Practical Data Science with R. 2. ed. Shelter Island: Manning Publications, 2019.