Correlações Espúrias? Nem Sempre...




 Em época de eleição o que mais vemos são candidatos lançando mão das correlações espúrias para justificar estatisticamente as suas propostas mirabolantes. Correlação espúria é o nome que se dá para a existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico. Por este motivo é comum afirmar que uma correlação não significa causação ou casualidade. Tyler Vigen, o criador do site Spurious Correlations e do livro homônimo,  mostra como fatos que não tem nada a ver um com o outro podem ter picos e quedas de ocorrência ao mesmo tempo. Contudo,  a correlação espúria mais emblemática que se conhece foi a que o estatístico inglês Ronald Fisher fez para explicar a relação entre  as cegonhas e o nascimento de bebês



Nem sempre, uma coisa que acontece ao mesmo tempo que outra forma uma relação de causa e consequência. É isso que nos ensina o estudo das chamadas correlações espúrias. Correlação espúria é o nome que se dá para a existência de relação estatística entre duas ou mais variáveis, mas sem significado teórico. Por este motivo é comum afirmar que uma correlação não significa causação ou casualidade. A título de exemplo, podemos dizer que existem pelo menos duas situações em que altas correlações não indicam causalidade.
A primeira é quando duas coisas são relacionadas, e embora não exista relação causal entre elas, existe uma causa para os dois efeitos e dessa causa em comum resulta a correlação. Podemos citar como exemplo a conhecida correlação entre consumo de sorvetes e ataques de tubarão. Sabemos que um não causa o outro, mas com o calor, mais pessoas consomem sorvete e mais pessoas vão à praia. Com mais pessoas na praia, maior a chance de acontecerem ataques de tubarão, mesmo sabendo que a ocorrência deste fato tem uma probabilidade baixíssima . Assim temos o tempo quente como causa comum desses dois eventos.
O outro tipo de correlação espúria é quando a correlação existe por puro acaso, porém não existe nem causalidade entre os dois eventos e nem um causa em comum. Tyler Vigen, o criador do site Spurious Correlations e do livro homônimo,  mostra como fatos que não tem nada a ver um com o outro podem ter picos e quedas de ocorrência ao mesmo tempo, Um exemplo de correlação desse tipo que ele aponta é a receita gerada por fliperamas e a quantidade de pessoas que terminaram doutorado em Ciência da Computação nos EUA. Obviamente esses dois eventos não estão estão relacionados, a correlação é fruto apenas do acaso.
Vigen é fã do clássico livro de Darren Huff, "Como Mentir com Estatística" , lançado em 1954. O estatístico Marcelo Menezes Reis da Universidade de Santa Catarina criou uma página muito interessante com informações retiradas do livro de Huff ( com pequenos acréscimos) para evitar que o "fascínio por números turve o senso crítico das pessoas". A página chama-se Como Contestar Estatísticas.
Mas então, como saber quando existe causalidade?
Na verdade, isso não é tão fácil assim. Sem a intenção de esgotar o assunto (que por sinal é muito extenso), o blog Stats With Cats fornece três passos bem resumidos para você identificar quando uma correlação é espúria. Vamos a eles: 

1) Verifique as métricas: antes de se animar sobre alguma relação causal certifique-se que seja estatisticamente legítima, através de um coeficiente de correlação que seja forte e significativo e de amostras que sejam realmente representativas da população sendo analisada.

2) Explique a relação: após estar confiante nos resultados estatísticos uma boa prática é analisar a temporalidade dos dados. Se a causa nem sempre precede o efeito, então a relação é uma relação de feedback ou não é causal.

3) Valide a explicação: após estar contente com as etapas anteriores a melhor forma é realizar um experimento e acompanhar a consistência dos resultados. Um bom experimento precisa ser consistentemente replicável, porém confirmar essa relação pode ser muitas vezes difícil.

Acredito que a correlação espúria mais emblemática que se conhece seja a que relaciona as cegonhas com o nascimento de bebês. A página Conexão em Ciência contou essa história recentemente no Facebook. Confira: 
"Na década de 1930, houve um aumento acachapante da população de cidades do leste da Alemanha e em parte da Dinamarca. Ao mesmo tempo em que a população crescia, o número de cegonhas observadas também aumentava.
O estatístico inglês Ronald A. Fisher, considerado o 'pai da Estatística', analisou o número de neonatos durante 10 anos e viu-se que, a cada ano, o número de nascimentos subia. Ao mesmo tempo, o número de cegonhas crescia quase na mesma proporção.
Fisher publicou o trabalho, sugerindo que um aumento está ligado diretamente ao outro. Quer dizer, os cálculos mostram que a correlação entre os dois fatos é de mais de 90%! Como não estariam ligados?
Na verdade, o que Fisher quis mostrar é um cuidado que as pessoas precisam ter ao ler resultados de testes deste tipo. O que ele fez é a chamada "correlação espúria". Isto é, ele pegou dois eventos que não têm relação direta e, de propósito, criou uma explicação absurda, porém muito bem baseada na análise feita.
De fato, dois eventos, apesar de parecerem relacionados, não estabelecem relação de causa.
(Para quem ficou curioso, a explicação mais provável é a seguinte:
Não foi o aumento de cegonhas que levou ao aumento de nascimentos. Porém, como houve um grande movimento migratório para as cidades da região, houve um aumento do número de casas construídas.
Como é uma região fria, as casas da época exigiam a presença de uma lareira e uma chaminé. E, nessas chaminés, as cegonhas costumam fazer seus ninhos. Assim, com mais locais para fazer ninhos, a população de cegonhas poderia aumentar)"
Para saber mais, clique nos links acima

Comentários

Postagens mais visitadas deste blog

A Mariposa da Morte

A Importância Ecológica das Baratas

Sensibilidade e Especificidade