Descrição de chapéu Eleições 2018

Corrente que circula entre investidores questiona metodologia adotada por pesquisas eleitorais

Textos afirmam que pesquisas têm amostragem tendenciosa; Datafolha explica como amostras são selecionadas

0
Urna eletrônica - Pedro Ladeira-20.mar.18/Folhapress
São Paulo

Dois textos em inglês circulam em grupos de WhatsApp de investidores brasileiros desde a semana passada com críticas ao Datafolha. Com duas versões, uma curta –associada à gestora de fundos americana NCH Capital– e outra longa –em primeira pessoa e sem autoria–, as correntes afirmam que investimentos não devem ser baseados em pesquisas eleitorais porque elas seriam enviesadas.

Os dois textos são de autoria de James Gulbrandsen, gestor de investimentos da NCH Capital. Ele diz que a versão mais longa foi compartilhada com um amigo a fim de pedir sua opinião sobre o assunto e acabou viralizando. Já a segunda parte, que leva o nome da empresa, era um esboço de um estudo interno e também vazou. Segundo o gestor, os textos não refletem nem a opinião da empresa e nem a dele, uma vez que os dados estavam ainda em apuração.

O material afirma que as pesquisas eleitorais trazem um recorte tendencioso da população nordestina que ganha até dois salários mínimos, utilizam porcentagens menores que as reais de pessoas que se afirmam católicas e evangélicas e trazem uma parcela maior de pessoas que se identificam com ideais de esquerda. Para Gulbrandsen, estes erros de amostragem tornam as pesquisas enviesadas, favorecendo candidatos como Ciro Gomes (PDT) e Fernando Haddad (PT).

Segundo os estatísticos do Datafolha, em seus levantamentos eleitorais, são aplicados conceitos e técnicas baseados na Teoria da Amostragem. “As amostras são representativas da população estudada e selecionadas através de critérios estatísticos, tendo como base fontes oficiais, como IBGE e TSE”, dizem.

Após contato da reportagem da Folha, Gulbrandsen enviou uma nova versão onde reafirma que pesquisas são baseadas em amostragens enviesadas e reitera os dados usados nos textos anteriores.

Para o gestor de investimentos, que deixa claro ser sua opinião e não a da NCH Capital, é imprudente basear decisões financeiras com base em pesquisas. “Não quero ofender os estatísticos, mas seus resultados podem ser completamente irrelevantes”, diz.

Gulbrandsen também questiona o viés político do Datafolha, da Folha e do UOL, todas empresas do Grupo Folha, que diz terem "inclinações esquerdistas".

A Folha reitera que procura praticar um jornalismo crítico, apartidário e pluralista, de acordo com o que é preconizado no Projeto Editorial, atualizado em 2017, e no Manual da Redação. 

Confira os textos traduzidos na íntegra e as explicações dadas pelos estatísticos do Datafolha ponto a ponto:

*

Mentiras, mentiras deslavadas e estatísticas

A cada semana, no horário nobre de cada eleição presidencial, os participantes do mercado brasileiro aguardam os resultados das vacas sagradas das pesquisas eleitorais: Datafolha e Ibope.

Os resultados tanto os rumores quanto a eles quanto os números reais— afetam todos os ativos brasileiros, de ações a papéis de renda fixa e o câmbio.

2018 traz grandes desafios para as pesquisas eleitorais e, como analista quantitativo/estatístico/matemático que, ao mesmo tempo, administra uma carteira de investimento, tenho um conselho para vocês: ignorem o Datafolha.

O Datafolha está cometendo o mesmo erro que a maioria das pesquisas cometeu na eleição presidencial de 2016 nos Estados Unidos: um erro de amostragem.

Erros de amostragem podem ocorrer quando as pesquisas são conduzidas com uma amostra da população que não seja representativa da distribuição demográfica e política real de uma população de eleitores.

“O Datafolha, em seus levantamentos eleitorais, aplica conceitos e técnicas baseados na Teoria da Amostragem. As amostras são representativas da população estudada neste caso o eleitorado brasileiro com 16 anos ou mais e selecionadas através de critérios estatísticos, tendo como base fontes oficiais, como IBGE e TSE.

O desenho da amostra é obtido através de método estatístico robusto e probabilístico, considerando-se múltiplos estágios, da seguinte forma: numa primeira fase ocorre a estratificação por região geográfica e natureza dos municípios capital, região metropolitana e interior. Em cada estrato é utilizada uma seleção de amostra por conglomerados em três estágios. Primeiro, a seleção aleatória dos municípios que farão parte da amostra, com probabilidade proporcional ao tamanho (PPT). Segundo, a seleção aleatória dos pontos de abordagem em cada município. Terceiro, a seleção aleatória do entrevistado a partir das distribuições de sexo e faixa etária da população estudada. A eficácia da metodologia utilizada é comprovada pelo histórico de desempenho do instituto.”

Por exemplo, na eleição presidencial americana de 2016, muitas das pesquisas eleitorais que mostravam Hillary Clinton adiante de Donald Trump por seis, oito e até 10 pontos percentuais estavam usando amostras de população que incluíam até 40% de pessoas registradas como ou que se identificavam como democratas. Na época, o percentual de pessoas registradas ou identificadas como democratas na população dos Estados Unidos era de cerca de 32%. Assim, cada pesquisa trazia embutido o potencial de um viés de entre 6% e 8%.

Não previmos uma vitória de Trump, mas afirmamos publicamente que as pesquisas estavam erradas e que os resultados estariam dentro da margem de erro.

Minha mulher, democrata ardorosa, planejou uma festa para o dia da eleição, certa de que Hillary venceria nas urnas. Eu a avisei de que era possível que a festa não terminasse bem. E isso, infelizmente para o meu país e para o mundo, se confirmou, e agora temos de conviver com um louco como homem mais poderoso do planeta.

Embora o Datafolha só divulgue os critérios e dados de amostragem usados em suas penúltimas pesquisas, em seu site (o que é ridículo - onde está a transparência?), tornando difícil avaliar de que ordem é o viés das pesquisas atuais, em pesquisas passadas do Datafolha o viés na amostra dos respondentes entrevistados pelo Datafolha bastava para torná-las, em resumo, inúteis - não valiam nem mesmo o papel em que foram impressas.

“Todas as pesquisas eleitorais realizadas pelo Datafolha para a Folha de S.Paulo são disponibilizadas no site no dia seguinte à divulgação dos resultados, de forma completa e transparente.  O Datafolha foi pioneiro na divulgação da totalidade das informações obtidas em seus estudos de opinião, incluindo o perfil detalhado dos respondentes de cada pesquisa.”

Por exemplo, a pesquisa realizada no final de agosto tinha uma amostra com 53% de mulheres e 47% de homens. A população brasileira consiste de 50,8% de mulheres.

“De acordo com os dados do TSE o percentual de mulheres no eleitorado brasileiro apto a votar em 2018 é 52,7% (53% quando o número é arredondado). Em 2014 esse percentual já era 52,2%, em 2010 era 51,9%. Somente retroagindo a 2002 encontramos uma porcentagem de eleitorado feminino de 50,88%.

O mais importante é que a pesquisa incluía 34% de evangélicos em sua amostra, enquanto 22% dos brasileiros se identificam como evangélicos. O nível educacional era inferior ao das pessoas que se identificam como católicas (apenas 53% da amostra, embora 64% dos brasileiros se identifiquem como católicos), o que provavelmente distorce para a esquerda o resultado das pesquisas.

É fato que os dados populacionais do IBGE que estou citando são datados, mas, mesmo levando em conta as projeções atuais, a presença de evangélicos na amostra é significativamente superdimensionada, e a dos católicos subdimensionada.

“Os dados utilizados no documento são, aparentemente, os do Censo 2010 (IBGE) e não podem ser comparados com os apurados pelas pesquisas realizadas em 2018. O principal motivo para isso é a linha do tempo, uma vez que os brasileiros estão passando por um processo de transição religiosa. O Censo de 2010 já diagnosticou um aumento expressivo de evangélicos em relação ao levantamento anterior, 2000. A porcentagem de evangélicos foi de 15,4 para 22,2%. O próximo censo só ocorrerá em 2020 mas existem inúmeros estudos mostrando o crescimento acelerado dessa fatia na população, o que tornaria enviesado um estudo que se prendesse a dados antigos. A série histórica do Datafolha com dados de religião da população brasileira é bastante sólida, aponta a tendência de transição que será confirmada pelo próximo censo (2020) e é utilizada em estudos realizados por especialistas no assunto, o que mostra sua relevância.”

O viés de esquerda encontra confirmação adicional na distribuição mais alta de evangélicos em Pernambuco do que em São Paulo, por exemplo. Quase certamente a proporção de evangélicos é mais alta em Pernambuco. Mas 38% é a porção correta para eles na amostra? Entre 2000 e 2010, a porcentagem de evangélicos na população de Pernambuco subiu de 13% para 20%. A aplicação do mesmo crescimento linear implicaria que Pernambuco tenha hoje 27% de evangélicos. Esse é um exemplo absolutamente horrendo de amostragem incorreta, e em favor da esquerda.

O viés anticatólico da amostra provavelmente causa mais prejuízo a Geraldo Alckmin do que a qualquer outro candidato. Ele talvez esteja de fato em segundo lugar, fora da margem de erro. Ciro Gomes provavelmente é o maior beneficiado, especialmente nos dados referentes ao Nordeste.

“Os dados da pesquisa Datafolha que incluiu religião no perfil (20 e 21 de agosto deste ano) mostram que, diferente do que afirma o autor do texto, Ciro Gomes tem maior intenção de voto entre os católicos do que entre evangélicos. Alckmin tem pouca diferença nos dois segmentos, ficaria com o mesmo índice se a pesquisa fosse realizada unicamente com católicos. O candidato que tem vantagem maior entre os evangélicos é Jair Bolsonaro, que aparece em primeiro lugar em todas as pesquisas publicadas e, em algumas delas, com taxa ainda maior que a obtida pelo Datafolha.”

Eu poderia parar por aqui. A amostragem das pesquisas do Datafolha exibe um viés significativo, e suas conclusões, dada a pulverização dos candidatos, provavelmente têm valor nulo. Mas há mais.

Não temos dados sobre afiliação partidária na mais recente e na penúltima pesquisa, mas em uma pesquisa do Datafolha em junho cerca de 24% dos respondentes declararam ser filiados ao PT e a ao PSOL. Isso se compara a apenas 12% dos assentos da Câmara detidos pelo PT e pelo PSOL. Será possível que essas categorias demográficas definidas por afiliação política também tenham representação superior à merecida nas pesquisas mais recentes?

“O autor confunde filiação partidária com preferência por alguma partido político. São coisas totalmente diferentes e não há sentido em correlacionar esse número com a ocupação do Congresso. A série histórica obtida pelo Datafolha desde 1992 mostra que o PT, um dos partidos citados, já teve 29% da preferência partidária no início de 2013, caiu mais de 10 pontos depois das jornadas de 2013  e chegou a 9% em março de 2015, auge dos desdobramentos da Lava Jato. Ou seja, apresenta importante correlação com os mais significativos momentos da política brasileira. O PSOL, por sua vez, apresenta entre 0 e 1% das preferências. Não é correto fazer a soma dos dois partidos.”

E sejamos honestos. Todos sabemos que o UOL, a Folha de S. Paulo e o Datafolha têm inclinações esquerdistas. As pesquisas eleitoras são como uma análise de fluxo de caixa descontado: é possível obter o resultado que você desejar, por meio de manipulação dos dados iniciais. O Datafolha está adotando um viés deliberado em suas pesquisas? Não sei, mas o viés existe, e talvez suas suposições tenham base em alguma forma de lógica. No entanto, se levarmos em conta a demografia brasileira real, essas pesquisas claramente incorporam vieses.

A verdade é que não invejo nenhum dos institutos de pesquisa, este ano. A situação que eles enfrentam é quase impossível. Uma alta proporção de eleitores indecisos, que na verdade podem ser eleitores de Bolsonaro que têm vergonha de admitir o fato. E um campo de candidatos muito aberto.

Mas se você está operando nos mercados com base no Datafolha, cuidado. Provavelmente está tomando decisões com base em informações distorcidas.

*

Mentiras, mentiras, mentiras deslavadas e estatísticas, parte 2

Na semana passada, a NCH Capital destacou os erros de amostragem por sexo e por religião nas pesquisas presidenciais do Datafolha.

Esta semana, vamos considerar a presença superdimensionada de respondentes de baixa renda nas pesquisas, especialmente no Nordeste. E uma vez mais, a conclusão é a mesma: ignore o Datafolha.

A pesquisa eleitoral que o Datafolha divulgou na noite de ontem tinha em sua amostragem 46% de respondentes com renda de até dois salários mínimos mensais. Isso é ridículo. De acordo com o IBGE, 33% dos brasileiros têm renda de até dois salários mínimos mensais, e por isso a presença de respondentes de baixa renda é significativamente exagerada na amostra.

“Tanto no Censo 2010 quanto na PNAD (Pesquisa Nacional por Amostra de Domicílios) não foi possível encontrar o percentual citado no texto (33% até dois salários mínimos). Diferentes institutos que cobrem as intenções de voto obtêm percentuais parecidos com os do Datafolha, ainda que nem todos sejam transparentes em relação ao perfil obtido. Na pesquisa do Datafolha citada no texto,  a porcentagem de entrevistados que declararam ter renda familiar até 2 salários mínimos foi de 46%, enquanto que na pesquisa contratada pela XP Investimentos esse percentual é de 48% e num levantamento recente do Ibope chega a 51%”.

Mas as coisas uma vez mais ficam ainda piores. Se estudarmos a amostragem de respondentes do Nordeste, uma região de inclinações muito esquerdistas, 64% dos respondentes têm renda de até dois salários mínimos mensais. No entanto, de acordo com dados do Fundo Monetário Internacional (FMI), se considerarmos os dados referentes à Bahia, Pernambuco e Maranhão como representativos do Nordeste, uma amostra apropriada de respondentes de baixa renda seria de aproximadamente 45% de pessoas com renda de até dois salários mínimos mensais, na amostra total da pesquisa.

“Não faz sentido comparar qualquer número referente à Bahia, Maranhão e Pernambuco com o total do Nordeste. A região é composta por nove estados, com realidades diferentes entre si, ainda que a renda na região seja bastante inferior ao verificado no total do país”.

Isso significa uma distorção de quase 20% na amostragem, o que, considerando que os nordestinos representam 27% do total de respondentes, distorce em cerca de 5% o resultado das pesquisas. Em uma eleição na qual obter entre 10% e 15% dos votos no primeiro turno pode conduzir um candidato ao segundo turno, e a uma possível vitória, essa é uma distorção absolutamente chocante nos resultados do Datafolha.

Assim, quando chegar a segunda-feira, uma vez mais, se você estiver operando com base nos dados do Datafolha, provavelmente estará operando com dados distorcidos. De novo.

Comentários

Os comentários não representam a opinião do jornal; a responsabilidade é do autor da mensagem.