Documentação técnica

Metodologia ElectioLab

Como Calculamos a Média Ponderada de Pesquisas Eleitorais

O ElectioLab agrega pesquisas eleitorais usando uma média ponderada por quatro fatores independentes. Esta página documenta as fórmulas, os parâmetros escolhidos e as justificativas para cada decisão metodológica. Auditável, replicável, sem caixa preta.

Visão Geral

Uma pesquisa eleitoral isolada tem dois problemas fundamentais: variância amostral e viés metodológico. A variância aparece como margem de erro (±2–4 pp) — mesmo que o instituto não cometa erro algum, a amostra aleatória pode diferir da população real. O viés emerge de escolhas metodológicas: presencial vs. online, horário da coleta, forma de ponderação demográfica.

Ao combinar múltiplas pesquisas com pesos diferenciados, esses erros se cancelam parcialmente — o ruído aleatório de uma pesquisa não está correlacionado com o ruído de outra, então a média é mais estável que qualquer pesquisa individual. O FiveThirtyEight demonstrou esse princípio nas eleições americanas desde 2008. O ElectioLab aplica a mesma lógica ao contexto eleitoral brasileiro.

Fórmula de peso

W = Wr × Wa × Wm × Wi
WrRecência (decaimento temporal)
WaTamanho amostral (√n)
WmMetodologia de coleta
WiAcurácia histórica do instituto

A média ponderada final de um candidato: M = Σ(voto_i × W_i) / Σ(W_i)

Fator 1 — Recência

Fórmula

Wr = e^(−t × ln(2) / 10)

onde t = dias desde a data de publicação

O decaimento exponencial com meia-vida de 10 dias é o coração do modelo. Uma pesquisa publicada há 10 dias tem peso 50% menor que uma publicada hoje. Uma de 20 dias tem peso 25%. Uma de 30 dias, 12,5%. Após 45 dias, o peso residual é inferior a 5% — a pesquisa ainda está no modelo mas com influência mínima.

A meia-vida de 10 dias foi calibrada para o ritmo eleitoral brasileiro: institutos grandes (Datafolha, Quaest) publicam a cada 1–2 semanas durante o ciclo eleitoral. Uma meia-vida mais curta (5 dias) tornaria o modelo volátil demais; mais longa (20 dias) deixaria pesquisas antigas pesando excessivamente em momentos de virada de campanha.

Exemplo

Publicada há
0 dias
7 dias
10 dias
20 dias
30 dias
45 dias
Wr
1,000
0,616
0,500
0,250
0,125
0,044

Fator 2 — Tamanho Amostral

Fórmula

Wa = √n / 1.000

onde n = número de entrevistados

O erro padrão de uma proporção é σ = √(p(1−p)/n). Para p = 0,5 (pior caso), o erro padrão cai proporcionalmente a 1/√n. Portanto, o ganho real de precisão ao aumentar a amostra segue a raiz quadrada, não n diretamente.

Uma pesquisa com 1.000 entrevistados recebe Wa = √1000/1000 ≈ 0,032. Uma com 4.000 entrevistados recebe Wa = √4000/1000 ≈ 0,063 — o dobro, não o quádruplo. Isso evita que pesquisas com amostras gigantes dominem a média e desvalorizem pesquisas menores mas metodologicamente sólidas.

n = 500

Wa = 0,022

±4,5pp

n = 1.000

Wa = 0,032

±3,1pp

n = 2.000

Wa = 0,045

±2,2pp

n = 5.000

Wa = 0,071

±1,4pp

Fator 3 — Metodologia de Coleta

Escala de pesos

Wm=1,00

Presencial (face-a-face)

Cobertura mais completa do eleitorado

Wm=0,80

Telefônica (CATI / RDD)

Viés de sub-representação de jovens

Wm=0,70

Mista (presencial + online)

Combinação com vieses parciais

Wm=0,60

Online (painel / app)

Sub-representa idosos e baixa renda

A justificativa para hierarquizar metodologias vem de evidências empíricas brasileiras. Em 2022, pesquisas presenciais tiveram, em média, erro absoluto 0,8 pp menor que pesquisas online para o mesmo estado, controlando por instituto. O eleitorado brasileiro tem penetração digital desigual — enquanto 94% dos eleitores entre 20 e 35 anos têm smartphone, apenas 68% dos eleitores acima de 60 anos têm acesso à internet. Como idosos têm maior propensão ao voto, sub-representá-los distorce as projeções.

Pesquisas telefônicas sub-representam jovens (menos propensão a atender chamadas desconhecidas) e populações de áreas rurais (cobertura de operadoras). Pesquisas mistas herdam vieses parciais de ambas as metodologias.

Fator 4 — Acurácia Histórica do Instituto

Cálculo do score

MAE = média(|projeção_final − resultado_TSE|) score = max(0, 1 − MAE / 5)

MAE calculado sobre eleições 2018 e 2022. Eleições mais recentes recebem peso 2× maior.

O score de acurácia é calculado pela diferença entre a última projeção pré-eleitoral do instituto e o resultado oficial publicado pelo TSE, em pontos percentuais. Um instituto que errou em média 1 pp nas últimas eleições recebe score alto (≈0,80). Um que errou 4 pp recebe score baixo (≈0,20). Isso não é um julgamento de qualidade — é uma calibração baseada em histórico verificável.

Institutos sem histórico de comparação com resultado real (lançados após 2022 ou sem pesquisas para cargos majoritários nas últimas duas eleições) recebem score neutro Wi = 0,75, equivalente a desempenho razoável. O score é recalculado após cada eleição com os novos resultados.

O ranking completo de institutos por score de acurácia está disponível em /institutos e em /instituto-mais-acurado-eleicoes-brasil.

Combinando os Quatro Fatores

Os quatro fatores são multiplicados para produzir o peso total de cada pesquisa. A multiplicação — em vez de soma — garante que uma pesquisa com qualquer fator próximo de zero tenha peso próximo de zero no total, independentemente dos outros fatores. Uma pesquisa de metodologia online (Wm=0,6) de um instituto com acurácia baixa (Wi=0,4) publicada há 30 dias (Wr=0,125) com amostra de 500 pessoas (Wa=0,022) terá peso total de apenas 0,125 × 0,022 × 0,6 × 0,4 ≈ 0,00066 — uma influência mínima na média final.

Exemplo numérico — 3 pesquisas hipotéticas

Pesquisat (dias)nMétodoScore inst.W totalLula
Datafolha52.000presencial0,920,013338%
Quaest122.004telefônica0,850,005537%
AtlasIntel31.800online0,780,006840%

Média ponderada de Lula = (38×0,0133 + 37×0,0055 + 40×0,0068) / (0,0133 + 0,0055 + 0,0068) = 38,4%

Limitações Conhecidas

House effects não são corrigidos explicitamente

Institutos podem ter viés sistemático para determinados candidatos — tendência consistente de super ou subestimar além da margem de erro. A metodologia atual não corrige house effects diretamente, embora o score de acurácia histórica penalize indiretamente institutos com maiores desvios. Uma correção explícita de house effects será avaliada para ciclos eleitorais futuros.

Pesquisas para cargo diferente tratadas separadamente

Pesquisas de 1º turno e 2º turno têm modelos separados. Não misturamos resultados de turnos diferentes na mesma média. Pesquisas estaduais (governador) são completamente independentes das presidenciais.

Score de acurácia depende de histórico disponível

Institutos criados após 2022 ou sem histórico de pesquisas para cargos majoritários recebem score neutro. Isso pode subestimar a qualidade de institutos novos com metodologia sólida ou superestimar institutos antigos que melhoraram.

Pesquisas com n < 400 são incluídas com peso reduzido

Não excluímos pesquisas pequenas automaticamente, mas o fator Wa reduz significativamente seu peso. Uma pesquisa com n=200 tem Wa=0,014, menos de metade do peso de uma com n=1.000. Para estados menores onde amostras grandes são raras, esse comportamento é intencional.

Perguntas Frequentes

Como o ElectioLab calcula a média ponderada das pesquisas?

Cada pesquisa recebe um peso final W = Wr × Wa × Wm × Wi, onde Wr é o fator de recência (decaimento exponencial com meia-vida de 10 dias), Wa é o fator amostral (√n / 1000), Wm é o fator metodológico (presencial 1,0; telefônica 0,8; mista 0,7; online 0,6) e Wi é o score de acurácia histórica do instituto. A média ponderada final é a soma dos votos × peso, dividida pela soma dos pesos.

O que é meia-vida de 10 dias na fórmula de recência?

Meia-vida de 10 dias significa que uma pesquisa feita há 10 dias tem peso 50% menor que uma publicada hoje; uma de 20 dias tem peso 25% do valor original. A fórmula exata é Wr = e^(-t × ln(2) / 10), onde t é o número de dias desde a publicação. Pesquisas muito antigas (>45 dias) têm peso residual quase nulo.

Por que o ElectioLab usa √n em vez de n direto para ponderar pelo tamanho amostral?

O erro padrão de uma proporção cai na proporção de 1/√n. Dobrar a amostra de 1.000 para 2.000 entrevistados não dobra a precisão — reduz o erro em fator √2 ≈ 1,41. Usar n direto supervalorizaria pesquisas gigantes (5.000+ entrevistados) em detrimento de boas pesquisas menores. A raiz quadrada reflete a redução real de incerteza.

Por que pesquisas presenciais pesam mais do que online?

Metodologias de coleta têm vieses estruturais diferentes. Pesquisas online sub-representam eleitores sem smartphone e sem acesso digital (em 2026, ainda 28% dos eleitores brasileiros acima de 55 anos). Presenciais — com cotas geográficas e socioeconômicas — têm melhor cobertura do eleitorado real. Isso é calibrado pelo fator Wm: presencial 1,0, telefônica 0,8, mista 0,7, online 0,6.

Como o ElectioLab calcula o score de acurácia histórica dos institutos?

O score é baseado no Erro Médio Absoluto (MAE) entre a última projeção pré-eleitoral do instituto e o resultado oficial do TSE, para eleições de 2018 e 2022. Eleições mais recentes recebem peso maior (2022 > 2018). O MAE é convertido em score de 0 a 1 — um instituto com MAE médio de 1,0 pp recebe score próximo de 1,0; um com MAE de 5,0 pp recebe score em torno de 0,6.

A metodologia do ElectioLab é auditável?

Sim. O código de ponderação está documentado e o lógica de cálculo está disponível via API pública em /api/v1/averages. Todas as pesquisas individuais com seus metadados (instituto, data, amostra, metodologia) são acessíveis em /api/v1/polls. Qualquer pesquisador pode replicar o cálculo com os dados brutos.

Com que frequência a média é recalculada?

As médias ponderadas são recalculadas automaticamente a cada 6 horas via cron. Quando uma nova pesquisa é aprovada, o recálculo é disparado imediatamente. O fator de recência Wr é recalculado a cada ciclo com a data atual — ou seja, mesmo sem novas pesquisas, pesos de pesquisas antigas decaem continuamente.

O que são 'house effects' e como o ElectioLab lida com eles?

House effects são vieses sistemáticos de institutos específicos — tendência consistente de superestimar ou subestimar determinado candidato em relação ao resultado real. O ElectioLab não corrige house effects diretamente na fórmula atual (isso inflaria complexidade sem ganho proporcional para eleições brasileiras com muitos institutos), mas o score de acurácia histórica penaliza indiretamente institutos com desvios sistemáticos maiores.

A metodologia é pública. Os dados, também.

Dúvidas metodológicas: contato@electiolab.com