O Pradoxo de Simpson aponta para uma reversão de tendências quando um conjunto de dados é dividido em subgrupos ou vice-versa.

Dentro de alguns dias faz aniversário do seu irmão e é sua responsabilidade escolher o melhor restaurante para a festa. Depois de realizar uma pesquisa completa, você escolhe um restaurante chamado ‘The Orchard’. A maioria dos comentários na internet mostra uma classificação de mais de 4,5, o que significa que quase todos devem adorar o restaurante.

Infelizmente, nenhum de seus amigos parece animado. Eles decidem dividir as avaliações em duas categorias de jovens e idosos. A sua análise mostra que mais jovens e mais idosos preferem o restaurante ‘The Bistro’, embora a sua avaliação online seja de apenas 4,2.

Por que? Todo o sistema de classificação é uma fachada ou é algum tipo de feitiçaria?

Na verdade, você está apenas preso no paradoxo de Simpson.

As estatísticas podem ser enganosas?

A importância das análises de dados e estatísticas está aumentando a cada dia que passa. Seja a previsão do tempo, a queda nas vendas de uma empresa ou mesmo a previsão das relações futuras de um país com seus vizinhos, tudo no globo está sendo analisado e confirmado pelo exame de vastos conjuntos de dados. Esta é claramente a maneira mais objetiva de fazer as coisas.

A questão é: seus dados estão ajudando você a chegar a conclusões perfeitas ou há algum viés implícito?

Infelizmente, às vezes você pode tirar conclusões erradas devido ao paradoxo de Simpson.

De acordo com o Paradoxo de Simpson, uma conclusão tirada de um conjunto de dados específico pode ser revertida quando esse mesmo conjunto de dados é dividido em subgrupos.

Na situação citada, quando os mesmos dados foram divididos em dois grupos de jovens e idosos, a tendência de popularidade dos restaurantes se inverteu.

Vamos expressar nosso exemplo matematicamente para torná-lo mais claro.

Jovens Pessoas velhas Total
Porcentagem de pessoas que gostam de The Orchard 80/100 = 80% 370/400 = 92,5% 450/500 = 90%
Porcentagem de pessoas que gostam do The Bistro 326/400 = 81,5% 94/100 = 94% 420/500 = 84%

Tabela 1: O restaurante preferido.

Percebe-se que, ao se comparar o total de avaliações de The Orchard e The Bistro, 90% preferem a primeira, enquanto apenas 84% ​​preferem a segunda. Porém, quando as críticas são divididas em dois grupos de jovens e idosos, o The Bistro surge como o restaurante preferido. Não há mágica responsável por esse paradoxo, mas ocorre devido à mudança no nível de explicação. Por exemplo, aqui a população foi dividida em dois subgrupos.

Às vezes, o paradoxo também pode ocorrer devido à ignorância de uma terceira variável. Por exemplo, ao considerar a taxa de mortalidade de humanos em dois países A e B, o país A pode parecer melhor, mas o que você pode estar ignorando é o nível de saúde da população.

Assim, uma análise de dados por si só não pode fornecer conclusões perfeitas e a análise de dados não é imutável. Em vez disso, as relações estatísticas às vezes podem ser enganosas.

Como o Paradoxo de Simpson surgiu?

O Paradoxo de Simpson é conhecido por nomes diferentes na comunidade global de estatísticos – a reversão de Simpson, Paradoxo da Amalgamação e o Efeito Yule-Simpson.

Foi Edward H. Simpson quem primeiro publicou um artigo técnico (em 1951) denominado “A Interpretação da Interação em Tabelas de Contingência” afirmando o paradoxo, mas é divertido notar que ele não foi o primeiro a observar essa anomalia. Udny Yule em 1903 e Karl Pearson em 1899 também mencionaram um conceito semelhante.

No entanto, foram Cohen e Nagel em 1934 que surgiram com o primeiro problema prático, e foi Blyth em 1972 que o chamou de paradoxo.

Ilustração da experiência de pensamento de Erwin Schroedinger (ou Schroedinger) (local_doctor) s

Paradoxo (crédito da foto: local_doctor / Shutterstock)

Em 1981, um artigo denominado “O papel da permutabilidade na inferência” foi publicado por Lindley e Novick. Eles realizaram uma análise mais profunda do Paradoxo de Simpson e chegaram à conclusão de que as estatísticas não poderiam de forma alguma ajudar uma pessoa que calcula um conjunto de dados para saber se a conclusão derivada está correta ou não.

Desse modo, afirmaram que um conjunto de dados, seja ele agregado ou dividido, deve ser escolhido de acordo com o contexto. Caso os dois conjuntos de dados sejam necessários e haja inversão de conclusões, algumas informações externas não pertinentes às estatísticas devem ser levadas em consideração, como a saúde da população em geral, no cálculo da taxa de mortalidade.

O Curioso Caso de UC Berkeley

Quando os dados de admissões da UC Berkeley para o outono de 1973 foram analisados, parecia haver um preconceito de gênero. A universidade foi processada por favorecer os homens em detrimento das mulheres. Verificou-se que das 4.351 mulheres que se inscreveram, apenas 35% foram selecionadas, enquanto dos 8.442 homens que se inscreveram, 44% foram selecionados.

No entanto, quando a análise de dados por departamento foi realizada, percebeu-se que muitos departamentos pareciam inclinados para as mulheres.

Dados de admissão dos seis maiores departamentos da UC Berkeley em 1973

Dados de admissão dos seis maiores departamentos da UC Berkeley em 1973

Essa reversão do viés apareceu porque as mulheres tendiam a se candidatar com mais frequência a departamentos mais competitivos ou com taxas de aceitação mais baixas.

O paradoxo de Simpson e a crise do COVID-19

O paradoxo de Simpson também se estabeleceu nas estatísticas do COVID-19. As taxas de letalidade do COVID-19 (a taxa de letalidade ou CFR determina as chances de sobrevivência de um paciente infectado com COVID-19) da China e da Itália foram comparadas.

Quando o total de casos da China (fevereiro de 2020) foi comparado com o total de casos da Itália (9 de março de 2020), verificou-se que as chances de sobrevivência na China eram maiores do que na Itália.

Porém, quando a população foi dividida em diferentes faixas etárias e, em seguida, o CFR foi comparado, verificou-se que as chances de sobrevivência de cada faixa etária eram maiores na Itália.

CFR na China vs CFR na Itália

CFR na China vs CFR na Itália

Este é um caso claro de Reversão de Simpson. O paradoxo surgiu por causa da diferença na demografia etária dos dois países. Observou-se que a Itália teve uma proporção maior de casos confirmados de COVID-19 na faixa etária mais velha – pessoas cujo risco de morrer já é maior. Este ponto explica a incompatibilidade entre os CFRs. No entanto, de acordo com os pesquisadores, alguns outros fatores, como diferenças nos testes, também podem contribuir para essa anomalia.

Casos COVID-19 confirmados na China x Itália

Casos COVID-19 confirmados na China x Itália

Conclusão

Enquanto este mundo está submerso em um oceano de estatísticas e dados, existem certos paradoxos, como o Paradoxo de Simpson, que ressoam na mente dos estatísticos. O Paradoxo de Simpson nos traz de volta à realidade de que os dados por si só não podem ser a panacéia para todos os problemas, e nem sempre podemos fazer previsões corretas com base nos dados. Muitas vezes, é necessário olhar além e trazer muitos parâmetros externos em vista, que muitas vezes podem ser não palpáveis, como as emoções de uma população em relação ao seu governo governante. Assim, pode haver interpretações causais de tais paradoxos que são ignoradas durante a realização de uma análise estatística puramente prática e tradicional.

Referências:

  1. Universidade de Stanford
  2. Paradoxo de Simpson
  3. UCLA
  4. Brookings
  5. A universidade de Iowa
  6. Universidade de Harvard
Gostou? Compartilhe com seus Amigos...