1 Estatística e ciência de dados: conceitos e processo

Data de Publicação

16 de junho de 2026

“Data are not just numbers; they are numbers with a context.”

— David R. Cox

1.1 O que é estatística?

A palavra “estatística” carrega, em sua origem, um significado bem mais estreito do que o uso atual sugere. O termo deriva do alemão Statistik, empregado no século XVIII para designar a descrição sistemática dos recursos e características do Estado — população, território, finanças — destinada ao uso do soberano (Desrosières, 1996). Embora a palavra seja relativamente recente, práticas estatísticas como censos populacionais, registros tributários e listas de nascimentos e óbitos existem há milênios. Dessa raiz histórica, restam até hoje dois sentidos que convivem na palavra: estatística como método (o conjunto de técnicas para coletar, organizar e analisar dados) e estatística como produto (os próprios números, índices e tabelas que esse método produz — como quando dizemos “as estatísticas mostram que…”). O próximo capítulo explora a dimensão histórica e institucional desse termo; aqui, o interesse é conceitual.

Em sentido amplo, a estatística é a disciplina que desenvolve métodos para coletar, organizar, analisar e interpretar dados, buscando compreender padrões, variabilidade e incerteza nos fenômenos observados. Vale notar, desde já, que os dados não são a realidade em si, mas registros produzidos por processos de observação, medição ou classificação — o que significa que carregam limitações, erros e escolhas metodológicas que precisam ser levadas em conta na análise e na interpretação dos resultados. Tradicionalmente, a estatística é apresentada em dois grandes ramos. A estatística descritiva organiza e resume conjuntos de dados — medidas de tendência central e dispersão, frequências, gráficos e tabelas — concentrando-se na descrição e síntese dos dados disponíveis, sem realizar generalizações formais para além deles. A estatística inferencial utiliza a teoria da probabilidade para quantificar a incerteza associada a estimativas, previsões e testes de hipóteses, todos baseados em dados observados, com o objetivo de produzir conhecimento sobre processos, populações ou fenômenos que vão além dos dados diretamente observados.

Para que a inferência seja possível, porém, é necessário compreender um de seus pilares: a distinção entre população e amostra. População é o conjunto completo de unidades de interesse; amostra é a parcela efetivamente observada — e é um dos conceitos estruturantes do raciocínio estatístico, que voltará em praticamente todos os capítulos deste curso. Censos visam cobrir toda a população, enquanto pesquisas amostrais observam apenas uma parte dela; é a inferência que permite usar essa parte para dizer algo sobre o todo.

Os dois ramos compartilham uma operação de fundo: sintetizar informações provenientes de múltiplas observações em medidas, padrões ou modelos que permitam descrever, comparar e compreender fenômenos coletivos. Sem essa síntese, não há como comparar municípios, monitorar tendências ou avaliar políticas — restariam apenas casos particulares, irredutíveis uns aos outros. É esse processo, aliado ao tratamento explícito da variabilidade e da incerteza, que distingue o raciocínio estatístico de uma simples contagem ou compilação de números.

A estatística não produz certezas — produz evidências quantificadas, com graus de confiança explícitos e margens de erro conhecidas. É precisamente essa capacidade de transformar dados em afirmações confiáveis sobre o mundo, mesmo na presença de incerteza, que faz dela uma das disciplinas centrais da ciência de dados. Mas, como veremos a seguir, não é a única.

1.2 O que é ciência de dados?

Ciência de dados é frequentemente descrita como um campo interdisciplinar que combina estatística, computação, gerenciamento de dados e conhecimento substantivo para produzir conhecimento útil a partir de dados. Por ser um campo relativamente recente, não possui uma definição única e universalmente aceita — diferentes autores enfatizam aspectos distintos da atividade.

Uma primeira perspectiva define a ciência de dados pela produção de conhecimento. Para Donoho (2017), o objetivo central é aprender sobre fenômenos observados por meio de métodos quantitativos e computacionais — uma visão que coloca a compreensão do mundo, e não necessariamente a tomada de decisão imediata, no centro da atividade.

Uma segunda perspectiva enfatiza a utilidade prática. Para Zumel; Mount (2019), ciência de dados é o processo de gerenciar a transformação de hipóteses e dados em predições acionáveis — o foco está na produção de resultados que orientem ações e escolhas concretas. A definição enfatiza a capacidade preditiva, mas aponta para uma característica mais geral: a produção de conhecimento útil, o que inclui análise exploratória, inferência, monitoramento e construção de indicadores, nem sempre orientados à predição.

Uma terceira perspectiva entende a ciência de dados como uma expansão da estatística tradicional. Cleveland (2001) argumentou que o campo da estatística deveria incorporar competências ligadas à computação, ao gerenciamento de dados e à visualização — antecipando muitas das características que hoje associamos à área.

Uma quarta perspectiva, mais operacional, enfatiza o ciclo de vida dos dados: a ciência de dados abrange todas as etapas necessárias para transformar dados brutos em informação útil, desde a coleta e o armazenamento até a modelagem, a comunicação e a utilização dos resultados. Essa visão será desenvolvida na próxima seção.

Embora diferentes, essas perspectivas são amplamente compatíveis. Todas compartilham a ideia de que a ciência de dados utiliza dados para produzir conhecimento útil sobre fenômenos do mundo real, combinando métodos estatísticos, computacionais e substantivos. Em qualquer campo de aplicação — gestão pública, demografia, ciências sociais, ciências ambientais, saúde, atuária — o cientista de dados não trabalha sozinho: ele articula o conhecimento técnico com o conhecimento substantivo de quem conhece os problemas de perto, seja um gestor de políticas públicas, um demógrafo, um epidemiologista ou um cientista social.

1.2.1 Uma ideia de composição

A definição de Zumel & Mount descreve a ciência de dados como um processo. Uma perspectiva complementar, mais focada nas competências do que no fluxo de trabalho, foi proposta por Drew Conway (2010) na forma de um diagrama de Venn: ciência de dados como a interseção entre habilidade matemática e estatística, conhecimento de programação e domínio substantivo da área de aplicação. As duas visões não se contradizem — a de Conway diz quem é o cientista de dados, a de Zumel & Mount diz o que ele faz.

A Figura 1.1 traduz essa perspectiva disciplinar: uma forma útil de organizar as competências envolvidas em ciência de dados é agrupá-las em cinco grandes áreas, cada uma respondendo a uma pergunta distinta.

graph LR
    CD((Ciência\nde Dados))
    ED[Engenharia\nde Dados]
    ES[Estatística]
    ML[Aprendizado\nde Máquina]
    VZ[Visualização\nde Dados]
    AN[Analytics]
    ED --> CD
    ES --> CD
    ML --> CD
    VZ --> CD
    AN --> CD

graph LR
    CD((Ciência\nde Dados))
    ED[Engenharia\nde Dados]
    ES[Estatística]
    ML[Aprendizado\nde Máquina]
    VZ[Visualização\nde Dados]
    AN[Analytics]
    ED --> CD
    ES --> CD
    ML --> CD
    VZ --> CD
    AN --> CD

Figura 1.1: A ciência de dados como campo interdisciplinar

Engenharia de dados — Como obter, armazenar e preparar os dados? Abrange a construção de pipelines de dados, processos ETL/ELT, bancos de dados e data warehouses, governança e controle de qualidade dos dados. É a infraestrutura que torna possível qualquer análise posterior: sem dados bem coletados, organizados e documentados, os métodos mais sofisticados produzem resultados pouco confiáveis. Ferramentas como SQL, Apache Spark e Airflow são exemplos práticos dessa área.

Estatística — O que os dados mostram? É a disciplina que fornece os fundamentos para descrever dados, modelar a variabilidade e quantificar a incerteza associada a inferências, estimativas e previsões. Como vimos na seção anterior, seus dois grandes ramos — descritiva e inferencial — percorrem praticamente todo o trabalho de ciência de dados, desde a exploração inicial até a comunicação dos resultados com margens de erro explícitas.

Aprendizado de máquina (machine learning) — Como aprender automaticamente com os dados? Desenvolve algoritmos capazes de identificar padrões e realizar tarefas como classificação, predição, agrupamento e detecção de anomalias a partir de exemplos, sem necessidade de programar regras explícitas. Incorpora e expande muitas técnicas da estatística e da mineração de dados, com ênfase particular em generalização — a capacidade de o modelo funcionar bem em dados que não foram usados no seu treinamento.

Visualização de dados — Como tornar os dados compreensíveis? Compreende os métodos e princípios para representar dados graficamente, tanto na fase exploratória — quando o analista busca padrões e anomalias que ainda não conhece — quanto na fase de comunicação, quando os resultados precisam ser transmitidos a audiências diversas de forma clara e honesta. Uma boa visualização pode revelar o que nenhuma tabela numérica consegue; uma visualização mal construída pode distorcer sistematicamente a percepção dos dados.

Analytics — Como transformar análises em decisões? Corresponde ao conjunto de métodos e ferramentas voltados para transformar dados e modelos em informação útil para a tomada de decisão, frequentemente por meio de indicadores, dashboards e sistemas de apoio à gestão. Articula os resultados das demais áreas com o conhecimento do domínio de aplicação — seja na gestão pública, na saúde, na demografia ou em qualquer campo em que dados precisam orientar ações concretas.

Em síntese, a ciência de dados não deve ser entendida como uma tecnologia específica ou como sinônimo de inteligência artificial. Trata-se de um campo interdisciplinar dedicado a transformar dados em conhecimento útil, articulando métodos estatísticos, computacionais e substantivos para compreender fenômenos e apoiar decisões.

1.3 O pipeline de ciência de dados

O trabalho de ciência de dados não é linear. É um ciclo de iterações. Zumel & Mount (2019) descrevem um ciclo típico de projetos de ciência de dados composto por seis etapas que se retroalimentam — definir o objetivo, coletar e gerenciar dados, construir o modelo, avaliar e criticar, apresentar e documentar, e comunicar e utilizar os resultados —, com retornos frequentes a etapas anteriores à medida que novas questões surgem ou os dados revelam limitações não previstas. Esse modelo enfatiza a dimensão gerencial e iterativa do trabalho.

Wickham, Çetinkaya-Rundel & Grolemund (2023) propõem uma decomposição complementar, mais voltada ao trabalho analítico cotidiano e à exploração iterativa dos dados, conforme ilustrado na Figura 1.2: importar, arrumar, transformar, visualizar, modelar e comunicar, com a programação como camada transversal que envolve e conecta todas as etapas.

flowchart LR
    subgraph Programação
        A[Importar] --> B[Arrumar]
        B --> C[Transformar]
        C --> D[Visualizar]
        D --> E[Modelar]
        E --> F[Comunicar]
        D -.-> C
        E -.-> C
        E -.-> D
    end

flowchart LR
    subgraph Programação
        A[Importar] --> B[Arrumar]
        B --> C[Transformar]
        C --> D[Visualizar]
        D --> E[Modelar]
        E --> F[Comunicar]
        D -.-> C
        E -.-> C
        E -.-> D
    end

Figura 1.2: O ciclo de vida analítico em ciência de dados (Wickham, Çetinkaya-Rundel & Grolemund, 2023)

As setas tracejadas indicam o caráter iterativo do processo: visualizar os dados frequentemente leva a novas transformações; modelar pode revelar a necessidade de revisitar a limpeza ou de explorar os dados de outra forma. É esse vai e vem que ocupa boa parte do esforço em um projeto real.

1.3.1 Etapa 1 — Importar

O ponto de partida é trazer os dados para o ambiente de análise. Isso significa acessar arquivos em formatos variados (CSV, Excel, JSON), conectar-se a bancos de dados ou consumir APIs de órgãos públicos — e carregar os dados em estruturas tabulares de análise, geralmente representadas por data frames ou tibbles no R.

No contexto brasileiro de dados públicos, essa etapa frequentemente envolve o acesso a plataformas como o SIDRA (IBGE), o Portal Brasileiro de Dados Abertos, o DATASUS, a RAIS (MTE) ou microdados de pesquisas domiciliares como a PNAD Contínua e o Censo Demográfico. O acesso aos dados raramente é a principal dificuldade; compreender sua documentação, cobertura, periodicidade e limitações costuma ser igualmente importante.

1.3.2 Etapa 2 — Arrumar (tidy)

Depois de importar, organizam-se os dados em uma forma consistente. Segundo Wickham (2014), dados organizados segundo os princípios de tidy data seguem três regras fundamentais: cada coluna é uma variável, cada linha é uma observação e cada célula contém um único valor. Dados organizados dessa forma não apenas facilitam a análise — eles tornam o código mais legível e as transformações mais previsíveis.

Na prática, dados públicos raramente chegam nesse formato. Planilhas com cabeçalhos múltiplos, variáveis codificadas sem dicionário e dados espalhados em centenas de arquivos anuais são situações comuns que demandam atenção nessa etapa.

1.3.3 Etapa 3 — Transformar

Com os dados organizados, o próximo passo é transformá-los para responder às perguntas do projeto. Transformação inclui filtrar subconjuntos de interesse (ex.: apenas municípios de Minas Gerais), criar novas variáveis (ex.: calcular a taxa de desemprego a partir de ocupados e desocupados) e calcular estatísticas resumidas (ex.: médias por região, totais por setor).

Juntas, as etapas de arrumar e transformar formam o que a literatura chama de manipulação de dados (data wrangling) — que inclui também validação, integração de fontes e documentação das decisões tomadas, e frequentemente consome a maior parte do esforço em projetos reais.

1.3.4 Etapas 4 e 5 — Visualizar e Modelar

Com os dados prontos, existem dois mecanismos principais para gerar conhecimento: visualização e modelagem.

Visualização é uma atividade fundamentalmente humana. Uma boa visualização revela o que o analista não esperava — ou levanta novas perguntas sobre os dados. Muitas descobertas analíticas surgem justamente durante a exploração visual, antes mesmo da construção de modelos formais. A visualização também pode sinalizar que a pergunta errada está sendo feita, ou que são necessários dados diferentes.

Modelagem complementa a visualização ao tornar as perguntas suficientemente precisas para serem formalizadas em termos de relações, mecanismos ou previsões. Todo modelo parte de hipóteses sobre a estrutura dos dados — sobre quais variáveis importam, como se relacionam e que forma essa relação assume. Conhecer essas hipóteses é tão importante quanto dominar a técnica: um modelo aplicado ao problema errado, ou em violação de suas premissas, pode produzir resultados numericamente precisos e substantivamente enganosos.

1.3.5 Etapa 6 — Comunicar e utilizar os resultados

A última etapa é também uma das mais críticas: sem comunicação eficaz, não importa quão rigorosa tenha sido a análise. O trabalho de ciência de dados precisa chegar às pessoas certas, no formato adequado — seja um relatório, um painel de indicadores, uma visualização interativa ou uma nota técnica. Diferentes audiências precisam de informações diferentes, e o analista precisa adaptar sua comunicação a cada uma delas. Em contextos científicos e institucionais, comunicar também significa documentar métodos, premissas e limitações de forma que os resultados possam ser compreendidos, avaliados e reproduzidos.

1.3.6 A programação como ferramenta transversal

Em torno de todas essas etapas está a programação — não como uma etapa isolada, mas como a infraestrutura que conecta e viabiliza todas as demais. É a programação que permite automatizar processos, garantir reprodutibilidade, registrar decisões analíticas e compartilhar procedimentos de forma transparente. Reprodutibilidade — a capacidade de recriar um resultado a partir dos mesmos dados, código e procedimentos — é um dos princípios centrais da ciência de dados contemporânea e uma exigência crescente em contextos científicos e institucionais.

Neste curso, essa camada transversal será o R — linguagem com vasta adoção na comunidade científica e nos órgãos públicos de pesquisa, e com um ecossistema de pacotes especialmente rico para dados públicos brasileiros. A próxima seção apresenta o ambiente de trabalho.

1.4 R e RStudio — o ambiente de trabalho

Nota

Pré-requisitos: R (≥ 4.1) e RStudio instalados antes de começar esta seção. Não são necessários pacotes externos.

O ambiente de trabalho deste curso é o R com RStudio. R é uma linguagem de programação estatística gratuita e de código aberto, com foco em análise de dados. RStudio é o ambiente de desenvolvimento integrado (IDE) que organiza editor, console, ambiente e visualizador em um único lugar. Embora existam ambientes mais recentes — como o Positron, desenvolvido pela mesma empresa —, o RStudio continua sendo o IDE mais difundido na comunidade de usuários de R e será utilizado neste curso.

1.4.1 Instalação

Para baixar o R, acesse o CRAN (Comprehensive R Archive Network) pelo endereço https://cloud.r-project.org, que seleciona automaticamente o servidor espelho mais próximo. O R recebe atualizações regulares, incluindo novas versões principais e correções de manutenção; é recomendável manter a instalação atualizada.

O RStudio pode ser baixado em https://posit.co/download/rstudio-desktop. Quando uma nova versão estiver disponível, o próprio RStudio notifica.

1.4.2 Os quatro painéis do RStudio

Ao abrir o RStudio, você encontra quatro painéis dispostos em tela:

Painel	Localização	Função principal
Editor	Topo esquerdo	Escrever e salvar scripts `.R`
Console	Baixo esquerdo	Executar código interativamente
Environment / History	Topo direito	Objetos criados na sessão atual
Files / Plots / Help	Baixo direito	Arquivos, gráficos, documentação

O fluxo básico de trabalho é: escrever código no Editor → executar no Console → ver resultados nos painéis da direita.

Atalho (Windows/Linux)	Atalho (Mac)	Ação
`Ctrl+Enter`	`Cmd+Enter`	Executar linha ou seleção
`Ctrl+Shift+C`	`Cmd+Shift+C`	Comentar / descomentar
`Alt + -`	`Option + -`	Inserir operador `<-`
`Tab`	`Tab`	Autocompletar
`F1`	`F1`	Abrir help da função sob o cursor

Execute o comando abaixo para confirmar que o R está funcionando — o resultado exibirá a versão instalada na sua máquina:

R.version.string

[1] "R version 4.6.0 (2026-04-24 ucrt)"

1.4.3 RProjects — trabalhando com projetos

Um RProject é um arquivo .Rproj que ancora o seu trabalho em uma pasta específica. Com ele, todo caminho de arquivo é relativo à pasta do projeto — o que significa que o código funciona em qualquer máquina, sem ajustes, e constitui um passo fundamental para análises reproduzíveis.

Dica

Regra de ouro: nunca use setwd() em scripts. Sempre abra o R pelo .Rproj.

Aviso

Desative o salvamento automático do workspace.

Por padrão, o RStudio salva todos os objetos da sessão em um arquivo .RData ao fechar. Isso compromete a reprodutibilidade: na próxima sessão, objetos de análises anteriores ficam disponíveis sem que estejam no script, e análises parecem funcionar quando na verdade dependem de estado oculto.

Para desativar: Tools → Global Options → General → Workspace → desmarque “Restore .RData into workspace at startup” e defina “Save workspace to .RData on exit” como Never.

Para criar um novo projeto: File › New Project › New Directory › New Project.

A estrutura de pastas recomendada para projetos de análise de dados é:

meu_projeto/
├── meu_projeto.Rproj     ← abra o R sempre por aqui
├── data/
│   ├── raw/              ← dados brutos — nunca edite!
│   └── processed/        ← dados já tratados
├── functions/
│   └── funcoes.R         ← funções reutilizáveis
├── output/
│   ├── figuras/
│   └── tabelas/
└── scripts/
    ├── 01_importacao.R
    ├── 02_limpeza.R
    └── 03_analise.R

Verifique onde está o diretório de trabalho atual:

getwd()

O resultado será o caminho da pasta do projeto na sua máquina — diferente em cada computador, mas sempre relativo ao .Rproj.

1.4.4 Pacotes — instalando e carregando

Um pacote é uma coleção de funções, dados e documentação que amplia as capacidades do R base. Em geral, a instalação é feita apenas uma vez em cada ambiente de trabalho; o carregamento precisa ser feito no início de cada sessão.

# Instalar (apenas uma vez por ambiente)
install.packages("tidyverse")

# Carregar (em cada sessão de trabalho)
library(tidyverse)

# Verificar a versão instalada de um pacote
packageVersion("dplyr")

A maioria dos pacotes usados neste curso faz parte do tidyverse — um conjunto de pacotes com filosofia comum, projetados para funcionar juntos. Ao carregá-lo, você ativa automaticamente ggplot2 (visualização), dplyr (manipulação), tidyr (organização), readr (importação), stringr (texto), forcats (fatores), purrr (programação funcional) e outros.

Nota

Ao carregar o tidyverse, é normal aparecer um aviso de conflitos:

✖ dplyr::filter() masks stats::filter()
✖ dplyr::lag()    masks stats::lag()

Isso informa que funções do tidyverse têm precedência sobre funções homônimas do R base. O prefixo pacote::função() — como dplyr::filter() ou stats::filter() — permite chamar explicitamente a versão desejada, independentemente da ordem de carregamento.

1.4.5 Como pedir ajuda

Há quatro caminhos principais para obter ajuda, em ordem de velocidade e especificidade.

1. Documentação interna do R

O primeiro recurso é o próprio R — rápido, offline e autoritativo. Quando se sabe o nome da função:

?mean          # abre a documentação da função mean()
help("mean")   # equivalente

Cada página segue a mesma estrutura: Description (o que faz), Usage (como chamar), Arguments (os parâmetros), Value (o que retorna) e Examples (exemplos executáveis). Os exemplos são o atalho mais rápido. Quando não se sabe o nome da função, use a busca ampla:

??regressao                 # busca em toda a documentação instalada
help.search("regressao")    # equivalente

2. Assistentes de IA

Para a maioria das dúvidas de código, os assistentes de inteligência artificial são hoje o recurso mais ágil — especialmente para explicar mensagens de erro, sugerir abordagens e traduzir uma ideia em código. As ferramentas mais usadas para R são:

Claude (Anthropic) — forte em R, estatística e explicações detalhadas
ChatGPT (OpenAI) — o mais popular em volume de uso
GitHub Copilot — integrado diretamente ao RStudio (Tools → Global Options → Copilot), sugere código inline enquanto você escreve
Gemini (Google) — integrado ao Google Colab e outros ambientes Google

O RStudio oferece também integração nativa com IA por meio do serviço Posit AI (março de 2026): o Posit Assistant é um agente conversacional com acesso ao contexto real da sessão — dados carregados, pacotes ativos, objetos no ambiente —, e o Next Edit Suggestions completa código inline enquanto você escreve. Ambos são alimentados pela Anthropic com zero retenção de dados.

Dica

Para qualquer assistente de IA — externo ou integrado —, quanto mais contexto você fornecer — a mensagem de erro completa, o código que está tentando executar e o resultado esperado —, mais precisa será a resposta.

3. Comunidade

Quando os recursos anteriores não resolverem, recorra a comunidades especializadas: a Posit Community é o fórum oficial da empresa e tem forte participação da equipe do tidyverse; o Stack Overflow tem um arquivo imenso de perguntas e respostas sobre R. No Windows com configuração regional em português, o R exibe mensagens de erro em português — o que reduz bastante os resultados em buscas. Para pesquisar erros nessas plataformas, vale forçar o inglês na sessão antes de reproduzir o problema:

Sys.setenv(LANGUAGE = "en")

4. Exemplo mínimo

Em qualquer canal — IA ou fórum —, ajuda muito isolar o problema num trecho pequeno e autocontido: apenas o código necessário para reproduzir o erro, sem dados externos nem dependências desnecessárias. Esse exercício de simplificação frequentemente revela a causa do problema antes mesmo de precisar perguntar.

1.4.6 Primeiro contato: objetos no R

Antes de encerrar esta seção, vale um primeiro contato com o conceito mais fundamental do R: o objeto. No R, tudo o que você cria — um número, um texto, uma tabela, um modelo — é armazenado em um objeto nomeado. O operador <- atribui um valor a um objeto:

populacao_mg <- 21292666   # Censo 2022
populacao_mg

[1] 21292666

A partir daí, o objeto populacao_mg pode ser usado em cálculos, passado para funções e inspecionado a qualquer momento. Os capítulos seguintes constroem progressivamente esse vocabulário — tipos de dados, vetores, data frames —, mas a ideia de fundo é sempre a mesma: trabalhar com objetos que têm nome e que vivem na memória da sessão.

1.5 Resumo do capítulo

Este capítulo apresentou os fundamentos conceituais e práticos que guiarão todo o curso. Os pontos principais são:

Estatística e ciência de dados são complementares, não sinônimos. A estatística fornece os métodos para descrever dados, modelar a variabilidade e quantificar a incerteza; a ciência de dados amplia esse projeto, integrando engenharia de dados, aprendizado de máquina, visualização e analytics em um processo orientado à produção de conhecimento útil.

Não existe uma definição única de ciência de dados. As perspectivas de Donoho, Zumel & Mount, Cleveland e Wickham são complementares: definem o campo pela produção de conhecimento, pela utilidade prática, pela expansão da estatística e pelo ciclo de vida analítico, respectivamente. Todas convergem na ideia de que dados, métodos e domínio substantivo precisam trabalhar juntos.

O ciclo de vida analítico é iterativo. Importar, arrumar, transformar, visualizar, modelar e comunicar não são etapas lineares — o analista volta a etapas anteriores à medida que o trabalho revela novas questões ou limitações nos dados.

A reprodutibilidade começa no ambiente de trabalho. Usar RProjects, organizar pastas, registrar decisões no código e documentar premissas são práticas que determinam se uma análise pode ser compreendida, avaliada e reproduzida — por outros e pelo próprio analista no futuro.

No próximo capítulo, deslocamos o foco da disciplina para o seu objeto: de onde vêm os dados que vamos analisar, quem os produz e como se organizam.